TY - GEN AU - Luis Joyales Aguilar TI - Big Data: ANÁLISIS DE GRANDES VOLÚMENES DE DATOS EN ORGANIZACIONES SN - 9786077076896 AV - QA76.9 D32 J69 PY - 2013/// CY - México PB - Alfaomega KW - Informática N1 - Contenido BIG DATA – LUIS JOYANES AGUILAR Alfaomega Parte I. La era de Big Data CAPÍTULO 1 ¿QUÉ ES BIG DATA? .............................. 1 Definición de Big Data .................................. 2 Tipos de datos .............................................. 3 Datos estructurados .............................. 4 Datos semiestructurados ...................... 4 Datos no estructurados ......................... 5 Integración de los datos: oportunidades de negocio de los Big Data ................................ 5 Características de Big Data ........................... 7 Volumen ................................................ 7 Velocidad .............................................. 8 Variedad ................................................ 8 Veracidad .............................................. 10 Valor ...................................................... 10 El tamaño de los Big Data............................. 10 ¿Cómo se ha llegado a la explosión de Big Data? ..................................................................... 11 El Big Data eclosiona en España (IDC) ... 12 Cómo crear ventajas competitivas a partir de la información: IDC Big Data 2012 ......... 13 Retos empresariales de Big Data .................. 14 El gran negocio de Big Data ................... 14 Big Data: the next thing(la siguiente gran tendencia) ............................................. 15 La empresa inteligente ................................. 15 Casos de estudio .......................................... 16 Una breve reseña histórica de Big Data ....... 18 El origen moderno de Big Data ............. 18 Resumen ...................................................... 20 Notas ............................................................ 21 CAPÍTULO 2 FUENTES DE GRANDES VOLÚMENES DE DATOS ....................................................... 23 Origen de las fuentes de datos .................... 24 Tipos de fuentes de Big Data ................ 25 Los datos de la Web ..................................... 27 El peso de los datos de la Web ............. 29 Los datos de texto ....................................... 30 Aplicaciones del análisis de texto ......... 31 Otras aplicaciones del análisis de texto .............................................................. 32 Datos de sensores ........................................ 33 Datos de posición y tiempo: geolocalización 34 Datos de RFID y NFC .................................... 36 Datos de redes sociales ............................... 37 Análisis de redes sociales ...................... 38 Datos de las operadoras de telecomunicaciones ..................................................................... 40 El valor del tráfico de datos .................. 41 Datos de las redes inteligentes de energía (smart grids) ............................................................ 41 El contador inteligente (smart meter) .. 42 Otros datos de las redes inteligentes .... 42 Resumen ...................................................... 43 Notas ........................................................... 44 CAPÍTULO 3 EL UNIVERSO DIGITAL DE DATOS. EL ALMACÉN DE BIG DATA ....................... 45 “La era del petabyte” (Wired, 2008) ............ 46 XII | Contenido _________________________________________________ Alfaomega BIG DATA – LUIS JOYANES AGUILAR El universo digital de EMC/IDC (2007-2010) ..................................................................... 47 Datos en todas partes (The Economist, 2010) ..................................................................... 50 El universo digital de datos: “Extrayendo valor del caos” (2011) ..................................................................... 52 La sobrecarga de información cobra forma física ..................................................................... 55 El almacenamiento también supera las expectativas ......................................... 55 La revolución de los datos está cambiando el paisaje de los negocios (The Economist, 2011) ..................................................................... 56 La era del exabyte (Cisco, 2012). Hacia la era del zettabyte ..................................................... 57 El universo digital de datos IDC/EMC (diciembre, 2012). El camino a la era del zettabyte ........ 60 Resumen ...................................................... 61 Notas ............................................................ 62 CAPÍTULO 4 SECTORES ESTRATÉGICOS DE BIG DATA Y OPEN DATA ........................................... 63 Dominios estratégicos de Big Data ............... 64 Informe McKinsey Global Institute ..................................................................... 64 ¿Por qué se ha llegado a la explosión de los Big Data? ............................................................ ..................................................................... 66 Sectores dominantes en Big Data ................ 67 Sector de la salud ......................................... 68 El informe “Big Data Healthcare Hype and Hope” ............................................ 71 Conclusiones del Digital Health Summit, Las Vegas (Enero 2013) ......................... 72 Otras consideraciones prácticas ................... 72 Un anticipo a Hadoop ........................... 74 Open Data. El movimiento de los datos abiertos ..................................................................... 74 Iniciativas Open Data ............................ 76 La información pública al servicio del ciudadano ............................................. 79 La iniciativa de la Unión Europea (enero 2013) ..................................................... 80 Open Data Alliance ................................ 81 Open Data Institute (ODI) ..................... 81 Resumen ...................................................... 82 Recursos ...................................................... 83 Notas ........................................................... 84 CAPÍTULO 5 BIG DATA EN LA EMPRESA. LA REVOLUCIÓN DE LA GESTIÓN, LA ANALÍTICA Y LOS CIENTÍFICOS DE DATOS ....................................................... 85 Integración de Big Data en la empresa ....... 86 Presencia del modelo 3 V de Big Data en las empresas .................................... 87 Big Data: la revolución de la gestión ............ 89 ¿Qué es lo nuevo ahora? ...................... 89 Los cinco retos de la gestión ................. 90 Profesionales de análisis de datos: analistas y científicos de datos .................... 92 Ciencia de los datos ..................................... 94 El científico de datos .................................... 96 ¿Qué habilidades necesita un científico de datos? .............................................. 96 Casos de estudio: el ITAM de México DF ..... 99 ¿Cómo encontrar los científicos de datos que se necesitan? ................................................... 99 La inteligencia de negocios en Big Data ....... 100 OLAP ..................................................... 102 Minería de datos ................................... 102 Sistemas de apoyo a la decisión (DSS) .. 103 Herramientas de informes y de visualización .......................................... 103 Tecnologías de visualización de datos .. 104 Analítica de Big Data: una necesidad ........... 105 Seguridad y privacidad en Big Data .............. 107 La iniciativa de Cloud Security Alliance (CSA) .............................................................. 108 Privacidad ............................................. 109 Foursquare. Un caso de estudio en privacidad ............................................. 109 La seguridad en la Unión Europea ........ 110 Resumen ...................................................... 110 Recursos ...................................................... 111 Notas ........................................................... 112 Parte II. Infraestructura de los Big Data CAPÍTULO 6 CLOUD COMPUTING, INTERNET DE LAS COSAS Y SOLOMO .................................. 113 _____________ Big Data. Análisis de grandes volúmenes de datos en organizaciones| XIII BIG DATA – LUIS JOYANES AGUILAR Alfaomega Origen y evolución de cloud computing ....... 114 Definición de la nube ................................... 115 Características de cloud computing ............. 117 Modelos de la nube (cloud) .......................... 120 Modelos de servicio .............................. 121 Modelos de despliegue de la nube ....... 123 ¿Cómo adaptar la nube en organizaciones y empresas? .................................................... 124 Consideraciones económicas ................ 124 Características organizacionales ........... 125 Acuerdos de nivel de servicio (SLA, Service Level Agreement) .................................. 125 Seguridad .............................................. 126 Los centros de datos como soporte de cloud computing .......................................... 126 Internet y los centros de datos: una industria pesada .................................... 127 Internet de las cosas .................................... 128 IPv4: El cuello de botella. IPv6: el desarrollo de la Internet de las cosas .... 132 Sensores ................................................ 133 Bluetooth 3.0/4.0 .................................. 134 RFID ....................................................... 135 NFC ........................................................ 136 SIM integrada ........................................ 137 Códigos QR y BIDI ................................. 138 Ciudades inteligentes (smart cities) ...... 139 ¿Qué son los medios sociales (social media)? ........................................................ 139 El panorama de los medios sociales ...... 141 Geolocalización ............................................ 142 Movilidad ..................................................... 144 Plataformas móviles .............................. 145 Plataformas móviles de código abierto . 147 Resumen ...................................................... 149 Recursos ....................................................... 150 Notas ............................................................ 152 CAPÍTULO 7 ARQUITECTURA Y GOBIERNO DE BIG DATA .......................................................... 153 La arquitectura de Big Data .......................... 154 Fuentes de Big Data ..................................... 155 Almacenes de datos (Data Warehouse y Data Marts) .......................................................... 156 Bases de datos ............................................. 157 Hadoop ........................................................ 158 Plataformas de Hadoop ............................... 158 Integración de Big Data ............................... 158 Analítica de Big Data .................................... 159 Reporting, query y visualización............ 159 Analítica predictiva ............................... 160 Analítica Web ....................................... 160 Analítica social y listening social ........... 160 Analítica M2M ...................................... 161 Plataformas de analítica de Big Data .... 162 Cloud computing ................................... 162 Gobierno de los Big Data ............................. 163 Gobierno de TI ...................................... 163 El gobierno de la información ............... 165 Gobierno de Big Data ............................ 165 Calidad de los Big Data ................................ 166 Administración de datos maestros .............. 167 El ciclo de vida de los Big Data ..................... 168 Seguridad y privacidad de Big Data .............. 168 Metadatos de Big Data ................................ 169 Arquitectura de Big Data de Oracle ............. 169 Capacidades de la arquitectura de Big Data ...................................................... 169 Arquitectura de información de Big Data de Oracle .............................................. 170 Plataforma de Big Data de Oracle: productos y soluciones ......................... 171 Arquitectura de Big Data de IBM ................. 173 Resumen ...................................................... 174 Notas ........................................................... 175 CAPÍTULO 8 BASES DE DATOS ANALÍTICAS: NOSQL Y “EN MEMORIA” ...................................... 177 Tipos de base de datos actuales .................. 178 Bases de datos relacionales .................. 178 Bases de datos heredadas (legacy) ....... 179 Bases de datos NoSQL .......................... 180 Bases de datos “en memoria” .............. 180 Sistemas de base de datos MPP .................. 181 ¿Qué es NoSQL? .......................................... 182 Bases de datos NoSQL ................................. 183 Diferencias esenciales entre NoSQL y SQL........................................................ 185 Tipos de base de datos NoSQL ..................... 185 Bases de datos clave- valor ................... 186 Bases de datos orientadas a grafos....... 188 Bases de datos orientadas a BigTable (tabulares/columnares) ........................ 189 XIV | Contenido _________________________________________________ Alfaomega BIG DATA – LUIS JOYANES AGUILAR Bases de datos orientadas a documentos .............................................................. 191 Bases de datos “en memoria” caché ..... 193 Las bases de datos NoSQL en la empresa ................................................ 193 Breve historia de NoSQL .............................. 194 Tendencias para 2013 en bases de datos NoSQL ..................................................................... 195 Computación “en memoria” ........................ 196 Tecnología “en memoria” ..................... 196 Tipos de tecnologías “en memoria” ...... 197 Proveedores de tecnología “en memoria” .............................................. 198 Analítica “en memoria” ......................... 198 Proveedores de computación y bases de datos “en memoria” .............................. 199 Bases de datos “en memoria” ...................... 200 Uso de la memoria central como almacén de datos ..................................................... 200 Almacenamiento por columnas ............ 202 Paralelismo en sistemas multinúcleo .... 203 SAP HANA .................................................... 203 SAP HANA cloud .................................... 204 SAP HANA para análisis de sentimientos .............................................................. 205 Oracle ........................................................... 205 Microsoft ..................................................... 206 Resumen ...................................................... 206 Recursos ....................................................... 207 Notas ............................................................ 209 CAPÍTULO 9 EL ECOSISTEMA HADOOP ................... 211 El origen de Hadoop ..................................... 212 The Google File System ......................... 212 MapReduce ........................................... 213 BigTable ................................................ 213 ¿Qué es Hadoop? ......................................... 213 Historia de Hadoop ...................................... 216 El ecosistema Hadoop .................................. 218 Componentes de Hadoop ............................ 218 MapReduce ........................................... 220 El enfoque de gestión de MapReduce ... 221 Hadoop Common Components ............. 222 Desarrollo de aplicaciones en Hadoop ......... 222 Hadoop Distributed File Systems (HDFS) .............................................................. 223 Consideraciones teórico-prácticas ........ 224 Mejoras en la programación de Hadoop ..... 225 Pig ......................................................... 225 Hive ....................................................... 226 Jaql........................................................ 227 Zookeper............................................... 227 HBase .................................................... 228 Lucene .................................................. 228 Oozie ..................................................... 228 Avro ...................................................... 228 Cassandra ............................................. 229 Chukwa ................................................. 229 Flume .................................................... 229 Plataformas de Hadoop ............................... 229 Resumen ...................................................... 231 Recursos ...................................................... 232 Notas ........................................................... 234 Parte III. Analítica de Big Data CAPÍTULO 10 ANALÍTICA DE DATOS (BIG DATA ANALYTICS) ............................................. 237 Una visión global de la analítica de Big Data 238 ¿Qué es analítica de datos? ......................... 240 Tipos de datos de Big Data .......................... 241 Datos estructurados ............................. 242 Datos semiestructurados ...................... 242 Datos no estructurados ........................ 242 Datos en tiempo real ............................ 242 Analítica de Big Data .................................... 243 Tecnologías, herramientas y tendencias en analítica de Big Data .................................... 244 Proveedores de analítica de Big Data (distribuciones comerciales) ........................ 245 Tecnologías de código abierto de Big Data .. 251 Casos de estudio .......................................... 254 Características de una plataforma de integración de analítica de Big Data ............................... 255 Resumen ...................................................... 256 Notas ........................................................... 257 CAPÍTULO 11 ANALÍTICA WEB ..................................... 259 Analítica Web 2.0 ......................................... 260 Breve historia de la analítica Web ............... 261 Enfoques de analítica Web .......................... 262 Métricas ....................................................... 262 ______________ Big Data. Análisis de grandes volúmenes de datos en organizaciones| XV BIG DATA – LUIS JOYANES AGUILAR Alfaomega Visitas .................................................... 263 Visitante ................................................ 263 Visitante único ...................................... 264 Tiempo en la página y en el sitio ........... 265 Tasa de rebote ...................................... 265 Tasa de salida ........................................ 265 Tasa de conversión ................................ 266 Compromiso .......................................... 266 Otras métricas ....................................... 267 Indicadores clave de rendimiento (KPI)........ 268 Casos prácticos ...................................... 269 Informes (Google Analytics) .................. 270 Informes estándar ................................. 270 Informes personalizados ....................... 271 Informes sociales .................................. 271 Segmentación .............................................. 271 Herramientas de analítica Web .................... 272 Analítica Web móvil (Mobile analytics) ........ 274 Información de las herramientas de analítica móvil ..................................................... 275 Herramientas de analítica móvil ........... 275 Caso de estudio: Google Analytics ........ 276 Resumen ...................................................... 277 Recursos ....................................................... 278 Notas ............................................................ 279 CAPÍTULO 12 ANALÍTICA SOCIAL ................................ 281 El exceso de información: un problema global ........................................................... 282 La proliferación de datos sociales ................ 283 ¿Qué es analítica social? .............................. 284 Métricas sociales .......................................... 285 Métricas de sitios Web .......................... 286 Métricas de social media ...................... 286 Indicadores clave de rendimiento (KPI)........ 288 Diferencias entre métricas y KPI .................. 289 Ejemplo práctico simple de métrica versus KPI ..................................................................... 289 Herramientas de analítica social .................. 290 Estadística social ................................... 291 Herramientas de investigación. Monitorización ..................................................................... 292 Herramientas globales muy reconocidas ..... 293 Herramientas de analítica Web social .......... 294 Herramientas de reputación e influencia social ............................................................ 295 Herramientas de medida de influencia . .............................................................. 295 Herramientas de reputación corporativa .............................................................. 296 Herramientas de análisis de actividad en redes ..................................................................... 297 Facebook .............................................. 297 Twitter .................................................. 298 Herramientas de gestión de multiplataforma y multiperfiles ................................................ 299 Análisis de sentimientos .............................. 300 Herramientas de análisis de sentimientos ......................................... 301 Casos de estudio de analítica social ............. 303 BBVA ..................................................... 303 Universidad de Alicante ........................ 303 Social Relationship Management de Oracle ................................................... 303 Otras herramientas ............................... 304 Resumen ...................................................... 304 Notas ........................................................... 305 Parte IV. El futuro de la era Big Data CAPÍTULO 13 LAS NUEVAS TENDENCIAS TECNOLÓGICAS Y SOCIALES QUE TRAEN LA NUBE Y LOS BIG DATA ................... 307 El nexo de la fuerza ...................................... 308 BYOD............................................................ 309 ¿Qué es el movimiento BYOD? ............. 310 ¿Cómo puede el departamento informático gestionar y proteger los dispositivos móviles de los empleados? ................................ 310 Ventajas y riesgos ................................. 311 Los hábitos del trabajo ......................... 311 El impulso debe venir de las compañías 312 Consumerización de TI ................................. 313 El meteórico ascenso de los dispositivos móviles personales ............................... 315 ¿Cómo puede beneficiarse su empresa de la consumerización? ......................... 315 El informe de ENISA sobre la consumerización en las empresas ......... 316 Crowdsourcing ............................................. 317 Casos de estudio ................................... 318 Crowdfunding .............................................. 319 Características del crowdfunding .......... 320 Casos de estudio de crowdfunding ....... 320 XVI | Contenido _________________________________________________ Alfaomega BIG DATA – LUIS JOYANES AGUILAR Reseña histórica del crowdfunding ....... 322 Gamificación /Ludificación ........................... 322 ¿Dónde utilizar la ludificación? ............. 323 Ventajas de la gamificación .................. 323 Resumen ...................................................... 324 Recursos ....................................................... 324 Notas ............................................................ 325 CAPÍTULO 14 BIG DATA EN 2020 ................................ 327 Los retos del futuro .................................. 328 Los dominios de Big Data sin explorar ... 328 Necesidad incumplida de proteger los datos ..................................................... 329 El protagonismo de los países emergentes .............................................................. 329 La tercera plataforma................................... 330 Analítica M2M: ¿El próximo reto para el Big Data? ............................................................ 331 M2M: Oportunidad de Big Data para operadores móviles .............. 332 Internet de las cosas (the Internet of the things) ................................................... 333 Analítica predictiva ...................................... 333 Análisis de sentimientos .............................. 333 ¿Cómo va a cambiar la vida por Big Data en el año 2013? .................................................... 334 ¿Cómo Big Data y cloud computing van a cambiar el entretenimiento en el año 2013? ............. 335 ¿Cómo va a cambiar la salud por Big Data? . 336 ¿Cómo pueden afectar los Big Data a la actividad física y al deporte? ....................................... 336 La cara humana de Big Data ......................... 337 Big Data y las tendencias tecnológicas en 2013 (Gartner) ...................................................... 340 El mercado futuro de Big Data ..................... 341 Las cinco grandes predicciones “muy profesionales” de Big Data para 2013 .......... 341 Emergencia de una arquitectura de Big Data....................................................... 342 Hadoop no será la única oferta profesional ............................................ 342 Plataformas de Big Data “llave en mano” .............................................................. 342 El centro de atención será el gobierno de datos ................................................ 342 Emergencia de soluciones de analítica “extremo a extremo” (end-to-end) ....... 343 El futuro seguirá sin ser lo que era .............. 343 Notas ........................................................... 344 APÉNDICE A EL PANORAMA DE BIG DATA (THE BIG DATA LANDSCAPE ) ............................... 347 APÉNDICE B PLATAFORMAS DE BIG DATA (DOUG HENSCHEN) .............................................. 351 APÉNDICE C PLATAFORMAS DE HADOOP (DOUG HENSCHEN) .............................................. 361 APÉNDICE D GLOSARIO ................................................. 373 APÉNDICE E BIBLIOGRAFÍA Y RECURSOS WEB ... 393; Ingenieria en Gestion Empresarial N2 - Big Data (grandes volúmenes de datos o macrodatos) supone la confluencia de una multitud de tendencias tecnológicas que venían madurando desde la primera década del siglo cuando han explosionado e irrumpido con gran fuerza en organizaciones y empresas, en particular, y en la sociedad, en general. Muchas veces estos datos no están estructurados, esta tecnología viene a iluminarlos. El libro se divide en 3 partes principales, se introduce el tema, se descubre la infraestructura y la analítica del Big Data ER -