Planificación Sanitaria
Tema 11
¿Qué entendemos por big data?
11.1. Propósito y resumen
Propósito
Acceder a las principales características de los procesos asociados al término big data.
» Conocer y saber que hay detrás del término big data.
» Entender la estructura y tipología de datos con los que es posible trabajar.
» Conocer los procesos asociados al término big data.
Sentencias resumen
Big data: Volumen de información cuya gestión con los métodos tradicionales de
tratamiento de la información es compleja.
Smart data: Información validada para la toma de decisiones.
Data lake: Es el repositorio donde almacenamos toda la información en bruto de una
organización.
Dato estructurado: Aquel que tiene un formato estandarizado. Por contraposición, el
dato no estructurado será aquel que carece de cualquier protocolo, como un
documento escaneado, por ejemplo.
APIS: Algoritmos intermedios entre un repositorio de información y el software de
un usuario.
NoSQL (Non relational SQL): Se refiere a la gestión de bases de datos que no usan
una estructura clásica de tablas con filas y columnas.
Machine learning: Es una rama de la Inteligencia Artificial basada en algoritmos
matemáticos que pueden aprender a optimizar la tarea que se les encomienda.
Redes neuronales: Las redes neuronales artificiales son un paradigma dentro del
aprendizaje automático. Están basadas en el funcionamiento de las redes neuronales
de los seres vivos.
Resumen
¿Por qué valorar el uso de big data? Primero, porque los datos que almacenamos ya no
pueden ser procesados por los sistemas de bases de datos relacionales tradicionales
Tema 11 © Universidad Internacional de La Rioja (UNIR)
Planificación Sanitaria
(RDBMS) y esto nos ha llevado a introducir la tecnología de base de datos NoSQL para
procesar grandes volúmenes de datos en un tiempo razonable.
En segundo lugar, porque el almacenamiento de macrodatos ayuda a establecer la
adquisición de una nueva serie de habilidades. Uno de los mayores costes para la
puesta en marcha y desarrollo de un sistema de big data es el personal especializado
necesario para mantenerlo, de forma que se establezcan sinergias entre el mismo y los
usuarios del sistema, para poder un obtener un sistema de apoyo a la toma de decisiones
eficiente.
En tercer lugar, porque al adoptar una plataforma que puede escalar un almacenamiento
masivo de información, estamos extendiendo la vida útil del sistema, alargando la
inversión realizada a lo largo del tiempo.
Al desarrollar cualquier sistema de big data, es necesario establecer cuáles son sus
objetivos a medio y largo plazo. ¿Por qué se desarrolla el sistema? ¿Qué se espera
obtener? ¿Cómo se usará el sistema? ¿Qué se va a almacenar?
11.2. Introducción
Gordon Moore, cofundador de Intel, postulaba en 1965 que el número de transistores en
un microprocesador se duplicaría cada dos años, lo cual nos llevaba a un patrón de
crecimiento exponencial. Esta ley empírica fue extendida en 2001 por Raymond Kurzweil
al progreso tecnológico mediante la ley de rendimientos acelerados.
Este crecimiento tecnológico ha influido de manera muy importante en la capacidad de
almacenamiento de información. El primer paso de las organizaciones fue informatizar
todos los procesos, reduciendo a la mínima expresión el almacenamiento de información
en papel. Esto ocasionó problemas para tener almacenados todos esos datos, y obligó a
elegir la información que se quería tener almacenada. En los últimos años se ha
resuelto ese problema mediante el almacenamiento en la nube, pero se ha generado otro,
¿cómo poder distinguir entre tanta información la verdaderamente relevante para la
toma de decisiones? A esa pregunta intenta responder el big data.
El término big data, generalmente, está asociado a conjuntos de datos que exceden la
capacidad de las herramientas tradicionales para gestionarlos. Por ejemplo, el analista
Tema 11 © Universidad Internacional de La Rioja (UNIR)
Planificación Sanitaria
de Gartner, Doug Laney en su artículo de 2001 Gestión 3D: control del volumen de datos,
la velocidad y la variedad, describía los grandes conjuntos de datos en términos de lo
que ahora se conoce como las 3V:
» Volumen: el tamaño total del conjunto de datos. En todo este período nos hemos
tenido que familiarizar con unas nuevas escalas de medida, que se han ido
quedando obsoletas con mucha rapidez. Hemos pasado de hablar de byte (unidad de
información de base utilizada en computación y en telecomunicaciones) a megabytes
(1 MB=1 millón de bytes), a gigabyte (1GB=1000 millones de bytes), a terabytes
(1TB=1 billón de bytes), a petabytes (1PB= 1015 bytes).
» Velocidad: la velocidad a la que llegan los datos y también la rapidez con que deben
procesarse. Por un lado, las redes de fibra óptica se han extendido a lo largo del
territorio en los últimos cinco años, y por otro, los ordenadores tienen cada vez más
capacidad de cálculo. El futuro (más cercano de lo que pensamos) pasa por la
computación cuántica.
» Variedad: la amplia gama de datos que puede contener el conjunto de datos, es
decir, registros web, audio, imágenes, datos de sensores o dispositivos, y texto no
estructurado, entre muchos otros tipos.
Imagen 1: Desarrollo visual de las 3V (Soubra, 2012).
Ejemplos: Un solo archivo de genoma puede contener 100 GB de datos; el Proyecto 1000
Genomas ya ha acumulado 200 TB de información. Por otro lado, eBay almacena 40 PB
de datos semiestructurados y relacionales en su sistema Singularity.
Tema 11 © Universidad Internacional de La Rioja (UNIR)
Planificación Sanitaria
11.3. Potencialidad y desventajas del big data
El big data debe considerarse en términos de cómo se manipularán los datos. El tamaño
del conjunto de datos va a afectar entre otros, a aspectos como el acceso a los mismos,
el movimiento entre ellos, su almacenamiento, su procesamiento, su
presentación, su análisis, o los informes resultantes, y, cómo no, a la validez
de los mismos a lo largo del tiempo. Las herramientas tradicionales pueden quedarse
obsoletas rápidamente por el gran volumen y el tipo datos. La latencia, el tiempo que
lleva acceder a los datos, es un aspecto tan importante como el volumen.
Supongamos que necesitamos ejecutar una consulta ad hoc contra un gran conjunto de
datos o contra un informe predefinido. Un gran sistema de almacenamiento de datos no
es un almacén de datos, y es posible que no responda a estas consultas en unos segundos.
Nuestro sistema de almacenamiento será, por un lado, el repositorio de toda la
organización que almacena toda la información, y por otro, el sistema que
incorpora los datos a ese repositorio para elaborar los informes de gestión.
Una solución a los problemas que presentan los macrodatos podría ser descartar
partes de los mismos para reducir el volumen, pero esto no siempre es práctico.
Las normativas estatales o autonómicas, o la presión competitiva propia de la
organización, pueden exigir que los datos se almacenen durante varios años. Además,
¿quién sabe qué beneficios futuros podrían obtenerse de los datos históricos? Si se
descartan partes de los datos, entonces el detalle se pierde.
Una forma de resolver esto podemos encontrarla en el procesamiento en paralelo:
los datos se dividen en conjuntos más pequeños y se procesan de forma paralela. Para
ello, necesitamos una plataforma de almacenamiento robusta que pueda ser escalable,
a un costo razonable, a medida que crecen los datos. El procesamiento de todos
estos datos puede realizarse en miles de servidores a la vez, por lo que el precio de
estos sistemas debe ser asequible para mantener un coste por unidad de almacenamiento
razonable. En términos de licencia, es recomendable también que el software sea
asequible, dado que puede llegar a instalarse en miles de servidores.
También debe operar en hardware básico, como servidores genéricos de bajo coste, lo
que ayuda a mantener costes globales reducidos. Además, debe ser capaz de escalar
en un grado muy alto, porque el conjunto de datos de entrada será grande, y debería
permitir ampliaciones del mismo, a medida que crece el volumen de información.
Tema 11 © Universidad Internacional de La Rioja (UNIR)
Planificación Sanitaria
Finalmente, un sistema como este debe llevar el procesamiento a los datos, en
lugar de esperar que los datos lleguen al procesamiento. Si este último fuera el caso, las
redes se quedarían rápidamente sin ancho de banda.
Un sistema de big data requiere un amplio conjunto de herramientas funcionales. Por
ejemplo, necesita un tipo único de plataforma distribuida de almacenamiento
que pueda mover grandes volúmenes de datos sin que se pierdan los mismos. Estas
herramientas deben incluir algún tipo de sistema de configuración para mantener
todos los servidores del sistema coordinados, así como formas de encontrar datos
y transmitirlos al sistema en algún tipo de flujo basado en ETL, es decir, en una secuencia
de procesamiento de extraer, transformar, y cargar. Si bien este sistema de big data
puede demorarse horas en mover un registro individual, procesarlo y almacenarlo en un
servidor, también necesita monitorizar las tendencias en tiempo real.
En resumen, un sistema de big data requiere:
» Un método de recopilación y categorización de datos.
» Un método para llevar datos al sistema de forma segura y sin pérdida de los mismos.
» Un sistema de almacenamiento que:
o Se distribuya y sea escalable en varios servidores.
o Facilite la redundancia de datos y copias de seguridad.
o Facilite el acceso a los datos guardados en caso de que falle el hardware.
o Sea rentable.
» Un conjunto amplio y variado de herramientas, a ser posible, colaborativas.
» Un método de configuración de sistema distribuido.
» Procesamiento de datos en paralelo.
» Herramientas de monitorización del sistema.
» Herramientas de informes.
» Herramientas similares a ETL (preferiblemente con una interfaz gráfica) que se
pueden usar para desarrollar tareas que procesan los datos y monitorizan su progreso.
» Programación de herramientas para determinar cuándo se ejecutarán las tareas y
mostrar el estado de las mismas.
» La capacidad de monitorizar tendencias de datos en tiempo real.
» Procesamiento local donde se almacenen los datos para reducir el uso del ancho de
banda de la red.
Tema 11 © Universidad Internacional de La Rioja (UNIR)
Planificación Sanitaria
11.4. Herramientas para big data
En 2005, Yahoo creó un proyecto de código abierto llamado Apache Hadoop,
originariamente desarrollado para soportar el motor de búsqueda Nutch pero que luego
se convirtió en un estándar de facto de lo que denominamos actualmente arquitecturas
big data.
Hadoop fue desarrollado por Apache (www.apache.org) como un sistema paralelo
distribuido de procesamiento de macrodatos. Fue escrito en Java y lanzado bajo una
licencia de Apache. Asume que se producirán errores, por lo que está diseñado para
ofrecer redundancia de hardware y datos automáticamente. La plataforma Hadoop
ofrece un amplio conjunto de herramientas para muchas de las funciones de big data
citadas anteriormente. El desarrollo original de Hadoop fue influenciado por
MapReduce de Google y Google File System.
A partir de aquí, todos los grandes fabricantes de software como IBM, Oracle, o
Microsoft se han sumado a esta tendencia tecnológica incorporando a sus productos
diversos componentes de Apache Hadoop. Además, han aparecido un conjunto de
fabricantes especializados en Apache Hadoop que han creado sus propias distribuciones
(conjunto de componentes testados e integrados entre sí, así como herramientas de
administración y mantenimiento) que ofrecen servicios tanto de consultoría para la
implantación como soporte y mantenimiento. Cabe destacar las distribuciones de
Apache Hadoop de Cloudera, MapR Technologies y Hortonworks, que contribuyen en la
evolución de Apache Hadoop.
Por otro lado, en muchas ocasiones se identifica big data con Apache Hadoop, pero
existen otras arquitecturas consideradas big data como por ejemplo MongoDB, Google
BigQuery y Amazon DynamoDB entre otros, que tienen una aproximación distinta a
Apache Hadoop, aunque empiezan a tener funcionalidades cada vez más parecidas.
La siguiente lista es una muestra de las herramientas disponibles en el ecosistema de
Hadoop:
» Ambari Hadoop facilita la gestión y monitorización de Hadoop.
» Avro es un sistema de compresión para la ordenación de datos que proporciona:
estructuras de datos complejas, un formato binario, compacto y rápido, un fichero
Tema 11 © Universidad Internacional de La Rioja (UNIR)
Planificación Sanitaria
contenedor, para guardar datos persistentes y llamada a procedimientos remotos
(RPC: Remote Procedure Call).
» Chukwa tiene como objetivo producir un sistema útil que puede ser modificado para
aprovechar las nuevas tecnologías de almacenamiento.
» Hadoop es la plataforma de almacenamiento distribuido.
» Hama es la plataforma de computación distribuida basada en técnicas de
computación paralela masiva, para cálculos científicos, matrices, gráficos o
algoritmos de redes.
» HBase es la base de datos no relacional NoSQL de Hadoop.
» Hive es el almacén de datos.
» Hue es la interfaz web para analizar datos.
» Mahout es la plataforma escalable de Machine Learning.
» Map/Reduce permite el desarrollo de aplicaciones y algoritmos bajo lenguaje Java
para el procesamiento distribuido de grandes cantidades de datos.
» Nutch es un motor de búsqueda.
» Oozie es un programador de flujo de trabajo.
» Pentaho es un conjunto de herramientas analíticas de código abierto.
» Pig es un lenguaje de programación de alto nivel para el análisis de datos.
» Solr es una plataforma de búsqueda.
» Sqoop es una herramienta de transferencia de datos.
» Storm es un sistema de computación distribuida en tiempo real.
» ZooKeeper es un sistema de configuración centralizada.
11.5. Ejemplos del uso del big data
Vamos a enumerar a continuación una serie de ejemplos en los que se ha recurrido al big
data para el tratamiento de la información:
» Motor de búsqueda web (web search engine): es un software diseñado para
buscar información en la web. Permite localizar los documentos más populares
y relevantes que se encuentran en Internet y que incluyen una o varias palabras por
las que se realiza la búsqueda, para después ordenarlos de acuerdo a una serie
de criterios (como por ejemplo el número de referencias a dicho documento desde
otros documentos). Google es un claro exponente de este tipo de sistemas de
búsqueda.
Tema 11 © Universidad Internacional de La Rioja (UNIR)
Planificación Sanitaria
» Sistemas de recomendación (recommendation systems): a partir de las
preferencias personales de un usuario (deducidas a partir de las compras que
ha realizado o de aquellos ítems que ha visitado en un portal de eCommerce) o de las
preferencias de usuarios «similares» (calculado como los usuarios a los que les gustan
cosas similares), proponen nuevos productos que un usuario quisiera comprar.
Amazon es un claro exponente de este tipo de sistemas.
» Datos de visitas a páginas web (clickstream analysis): utiliza los datos que
producen los usuarios cuando navegan por Internet con el fin de segmentarlos y
entender sus preferencias. Las agencias de medios digitales también pueden
analizar los flujos de clicks e impresiones de publicidad para ofrecer anuncios más
eficaces.
» Registro de procesamiento (log processing): analiza un número masivo de
registros generados por aplicaciones web y móviles, de tal forma que ayuda a las
empresas a convertir petabytes de datos desestructurados o semiestructurados en
información útil acerca de sus aplicaciones o usuarios.
» Internet de las cosas (IoT): significa una nueva revolución industrial con nuevas
estructuras de software y hardware que afectarán a todos los objetos del mundo real
mediante sensores conectados entre sí. Todo esto va a afectar de manera significativa
en el ámbito sanitario. Un hospital inteligente puede monitorizar la localización de
sus profesionales y pacientes. Puede localizar dónde está el especialista más cercano
en el caso de que se produzca una crisis.
» Tecnología vestible (wearables): dispositivos que uno lleva en el cuerpo, como por
ejemplo relojes que miden los pasos que damos. Pueden detectar problemas concretos
de los pacientes. Pueden prevenir la expansión de una enfermedad y avisar de posibles
negligencias en los procesos. Los wearables están llevando el cuidado de la salud a las
casas por lo que será posible detectar situaciones como un ataque cardíaco, por
ejemplo.
» Twitter: es una herramienta de mensajería instantánea. Investigadores de la
Universidad Johns Hopkins han desarrollado un algoritmo para extraer una muestra
de datos sobre la que realizar predicciones (Disponible en:
http://cs.jhu.edu/~mpaul/files/2011.icwsm.twitter_health.pdf). El modelo Ailment
Topic Aspect filtra mensajes por conceptos como fiebre, gripe o el nombre de algunos
medicamentos y excluye por concurrencia otros términos que se pueden
Tema 11 © Universidad Internacional de La Rioja (UNIR)
Planificación Sanitaria
utilizar en sentido figurado o mensajes que llevan asociada una dirección web, porque
pueden hacer referencia a noticias y artículos.
También analiza la gramática del mensaje para tratar de determinar cuál es
la relación entre el usuario y el concepto. Por ejemplo, si se habla de una
enfermedad o si la persona que escribe la está sufriendo. Pusieron a prueba su
herramienta durante el brote de gripe que pasó por Estados Unidos en 2012. Tomaron
como referencia 24 millones de mensajes de unos 10 millones de usuarios, de los que
se utilizaron finalmente 1,63 millones, y comprobaron que sus resultados eran
equivalentes al estudio realizado por el U.S. Center for Disease Control and
Prevention (CDC por sus siglas en inglés), una institución que recoge sus datos
directamente de la asistencia a hospitales. El CDC tarda dos semanas en publicar los
resultados, mientras que este algoritmo trabaja casi en tiempo real.
11.6. Referencias bibliográficas
Soubra, D. (2012). Desarrollo visual de las 3V. ARM Holdings.
Laney, D. (6 febrero 2001). Gestión 3D: control del volumen de datos, la velocidad y la
variedad. Recuperado de: https://blogs.gartner.com/doug-laney/files/2012/01/ad949-
3D-Data-Management-Controlling-Data-Volume-Velocity-and-Variety.pdf
11.7. Lecturas recomendadas
A continuación, se presentan una serie de lecturas recomendables para conocer
diferentes aspectos de la incidencia del Big data en el ámbito de la salud.
Poyatos, J.M. y Joyanes, L (2013). Big data y el sector de la salud: el futuro de la
sanidad. Juan Miguel Poyatos: the power of customer connection. Recuperado de:
http://poyatosdiaz.com/index.php/big-data-y-el-sector-de-la-salud-el-futuro-de-la-
sanidad
Muñoz, J.F. (21 marzo 2017). La investigación y la protección de la salud en la era del
big data: ¿oportunidad o mito? 2ª Mesa: Sistemas de información del Sistema Nacional
Tema 11 © Universidad Internacional de La Rioja (UNIR)
Planificación Sanitaria
de Salud. El uso secundario de datos clínicos. Recuperado de:
https://www.mscbs.gob.es/estadEstudios/estadisticas/sisInfSanSNS/foroSistemaInfo
SNS/ponencias_Big_Data/BIGDATA_2M_3MunozMontalvo.pdf
8.8. Bibliografía
Frampton, M. Big Data Made Easy: A Working Guide to the Complete Hadoop Toolset.
ISBN: 978-1-4842-0095-7. Springer Science+. (2015).
Tema 11 © Universidad Internacional de La Rioja (UNIR)