Big Data
Fundamentals
Visualización de Datos
Big Data Fundamentals
Visualización de Datos
Índice
Objetivos de aprendizaje ........................... ¡Error! Marcador no definido.
1. Título apartado primer nivel .................... ¡Error! Marcador no definido.
1.1. Título apartado segundo nivel ...................... ¡Error! Marcador no definido.
2. Modelo y colores de tablas ...................... ¡Error! Marcador no definido.
3. Modelos y colores para esquemas y gráficos .. ¡Error! Marcador no definido.
4. Imágenes (fotos e ilustraciones) ................ ¡Error! Marcador no definido.
5. Destacados en el texto general ................. ¡Error! Marcador no definido.
6. Dudas para autores ............................... ¡Error! Marcador no definido.
Referencias bibliográficas .......................... ¡Error! Marcador no definido.
© Copyright Universidad Europea. Todos los derechos reservados. 2
Big Data Fundamentals
Visualización de Datos
1. La visualización de datos
Si atendemos definiciones formales de visualización de datos, esta es un proceso de
transformación de datos en información, mediante elementos visuales, con dos
objetivos principales: análisis y comunicación.
Y efectivamente, si revisamos para qué podemos querer hacer visualizaciones,
llegaremos a esos dos grandes objetivos:
1.1. ¿Por qué crear visualizaciones?
Cada vez generamos más datos, pero nuestra capacidad de entenderlos es la misma.
Necesitamos herramientas que nos permitan explotar los datos: todo el ecosistema
big data, machine learning, etc.
Este proceso de explotación es un proceso de búsqueda de valor. El dato crudo no tiene
ningún valor, solo al estructurarlo, limpiarlo e ir analizándolo somos capaces de extraer
beneficio:
© Copyright Universidad Europea. Todos los derechos reservados. 3
Big Data Fundamentals
Visualización de Datos
Es un proceso de extracción de información útil desde los datos crudos. En el último
punto, el más valioso, seremos capaces de extraer acciones o insights de esos datos:
qué debemos/podemos hacer en base al dato crudo.
La visualización de datos acelera tremendamente este proceso:
En este dashboard que monitoria una aplicación móvil, podemos ver de un vistazo la
información útil (errores, cuándo y en qué servidores, tiempo en servicio, etc).
Información que sería muy costosa de extraer desde los datos crudos.
© Copyright Universidad Europea. Todos los derechos reservados. 4
Big Data Fundamentals
Visualización de Datos
Estamos acostumbrados a extraer la mayor parte de la información con la que
trabajamos a través de la vista. Es el sentido más desarrollado que tenemos y la base
de nuestra actividad diaria junto a la inteligencia.
La visualización destaca sobre otras tecnologías en que nos permite recibir muchísima
más información sin tratar y ser nosotros mismos los que realicemos agregaciones y
analíticas visuales.
Los algoritmos de otros métodos de explotación de datos está limitados por cómo se
desarrollaron: el contexto que teníamos en ese momento del problema, los objetivos,
etc. Es posible que en los datos haya patrones que se nos escapen. Al recibir más
información cruda mediante la visualización, podemos saltarnos esos problemas.
Un ejemplo muy claro de esto es el famoso cuarteto de Ascombe:
Se trata de cuatro sets de datos, con dos variables X e Y. Si nos fijamos, vemos cosas
curiosas: en los tres primeros la X es la misma. En el último, todas las X son 8 salvo
una.
Pero por lo demás, parecen 4 datasets muy normales. Lo especial de ellos, es que
comparten sus propiedades estadísticas básicas:
© Copyright Universidad Europea. Todos los derechos reservados. 5
Big Data Fundamentals
Visualización de Datos
Podríamos concluir por tanto que estos datasets representan la misma información.
Pero si los dibujamos:
Vemos patrones que hasta ahora ignorábamos.
Los algoritmos están limitados por cómo se programaron. La visualización de datos
evita esos problemas, y nos permite comprender toda la información
2. Historia
La visualización de datos no es un concepto en absoluto nuevo. Ya en el antiguo Egipto
se realizaban mapas para señalizar recursos a excavar, rutas entre ciudades, etc.
© Copyright Universidad Europea. Todos los derechos reservados. 6
Big Data Fundamentals
Visualización de Datos
La visualización de mapas ha sido de hecho tremendamente importante a lo largo de
la historia, según los seres humanos explorábamos y documentábamos el mundo.
Famosísimos son los mapas de la época del descubrimiento del continente americano.
Pasaron varios siglos hasta que las visualizaciones toman la forma actual, ya con
aplicaciones en estadística o economía.
© Copyright Universidad Europea. Todos los derechos reservados. 7
Big Data Fundamentals
Visualización de Datos
Esta es una de las primeras que se tiene constancia. Un gráfico de áreas de finales de
1700 con la balanza comercial entre Inglaterra y los países nórdicos.
Pero poco después empiezan a aparecer gráficas con aplicaciones en otros campos,
como la medicina.
A mediados de 1850, en medio de los brotes de cólera en Inglaterra, el trabajo
cartográfico del Dr. John Snow permitió identificar las causas de contagio del cólera
Dibujó sobre un mapa dónde ocurrían los fallecimientos, y esto le permitió identificar
el origen de la enfermedad: el agua contaminada de algunos pozos.
© Copyright Universidad Europea. Todos los derechos reservados. 8
Big Data Fundamentals
Visualización de Datos
No fue sin embargo el primer mapa sobre el cólera:
Meses antes se habían cartografiado las zonas con más afectación por la enfermedad.
Al agrupar los datos a nivel de barrio, sin embargo, no fue capaz de identificar el
patrón de los pozos.
La rosa de Nightingale es otro de los ejemplos de aplicación médica de la visualización
de datos más importantes en medicina:
© Copyright Universidad Europea. Todos los derechos reservados. 9
Big Data Fundamentals
Visualización de Datos
En las guerras de Inglaterra en Crimea, Florence Nightingale, una enfermera militar,
recogió información de los fallecidos en el hospital que dirigía, y llegó a la conclusión
de que las enfermedades epidémicas eran responsables de más muertes británicas en
el transcurso de la Guerra de Crimea que las heridas en el campo de batalla, y podían
controlarse mediante una serie de factores, como la nutrición, la ventilación y la
higiene.
Poco después de esa fecha empiezan a aparecer las primeras infografías e historias de
datos, de la mano de Joseph Minard:
© Copyright Universidad Europea. Todos los derechos reservados. 10
Big Data Fundamentals
Visualización de Datos
Este primero muestra la campaña militar de Anibal intentando tomar Roma. Sobre un
mapa, muestra el camino que siguieron las tropas (el ancho de la linea es su número),
y como su número se reduce según las adversidades del terreno.
Publicaría después uno con la campaña militar de Napoleón hacia Rusia. Del mismo
modo que el anterior, sobre un mapa, muestra el trayecto de las tropas hacia Moscú
(en marrón claro), y el trayecto de vuelta tras la retirada, en negro.
Introduce una nueva variable, la temperatura de ese trayecto de retirada. Al tratarse
del invierno, se puede apreciar como los picos de temperaturas más bajos se traducen
en fallecimientos de las tropas francesas.
Desde esas primeras visualizaciones hasta hoy, la visualización de datos se ha
convertido en un campo tremendamente trabajado en muchísimos ámbitos, desde
ciencia a periodismo, pasando por educación, economía o arte.
3. Herramientas de visualización de datos
Esta popularidad ha hecho que surjan muchísimas herramientas enfocadas en facilitar
la tarea de crear gráficas, ya que hasta la irrupción de la computación, esta tarea era
100% manual.
Las categorizamos en dos grupos:
3.1. Herramientas generalistas
Se usan mucho para exploración de datos, ya que tienen un amplio catálogo de gráficas
que permiten “probar” los datos con ellas y descubrir patrones.
© Copyright Universidad Europea. Todos los derechos reservados. 11
Big Data Fundamentals
Visualización de Datos
La mayoría son tremendamente sencillas de usar y muchas tienen versiones web, y
permiten realizar también ciertas transformaciones de datos, conectar con bases de
datos e incluso analítica.
Tenemos multitud de opciones:
• Power BI
• Tableau
• Microstrategy
• Spotfire
• Qlik
• Rawgraphs
• Flourish
Una subcategoría de este tipo de herramientas son los lenguajes de programación. Con
una curva de aprendizaje mucho más fuerte, pero infinitas posibilidades de
customización.
Son un punto intermedio entre la visualización original, diseñada y realizada a mano,
y las herramientas más guiadas anteriores.
Las más importantes son:
• [Link]
• Processing
© Copyright Universidad Europea. Todos los derechos reservados. 12
Big Data Fundamentals
Visualización de Datos
• Highcharts
• GoogleCharts
Aunque también encontramos paquetes de visualización de datos en los principales
lenguajes de programación:
• Python
• R
• Java
3.2. Herramientas específicas
Por contra, las herramientas específicas están centradas en un único tipo de
visualización, pero ofrecen muchísimas más opciones en ese campo.
Por ejemplo:
• CARTO y QGIS, para mapas
• Gephi, para redes
• [Link], para visualizaciones temporales
© Copyright Universidad Europea. Todos los derechos reservados. 13
Big Data Fundamentals
Visualización de Datos
4. El proceso de Visualización de datos
En realidad, el proceso de visualización de datos solapa con el de análisis de datos
típico. Según Ben Fry, uno de los mayores Gurús de la visualización de datos, se
compone de 7 pasos:
Los primeros corresponden al flujo de un proyecto de analítica de datos: adquirir,
transformar y analizar.
Y los últimos tres son los pasos clave en la visualización.
Aunque los dibujemos como una linea de siete pasos consecutivos, en realidad están
muy entrelazados:
© Copyright Universidad Europea. Todos los derechos reservados. 14
Big Data Fundamentals
Visualización de Datos
Pasos finales de la visualización también pueden hacernos volver sobre las fases
iniciales. Por ejemplo, para eliminar algún tipo de datos que no es útil representar, o
añadir información nueva.
© Copyright Universidad Europea. Todos los derechos reservados. 15
Big Data Fundamentals
Visualización de Datos
Por eso muchas veces lo veremos representado como un ciclo, más que una serie de
pasos:
5. Tipos de gráficos
Hay muchísimos tipos de gráficos, y según el tipo de datos o el objetivo que persiga la
visualización, podremos usar unos u otros. Los más importantes son los siguientes:
5.1. Gráfico de Barras
• Nos permite comparar una variable
entre categorías.
• Para evitar distorsiones, debemos
comenzar el rango en 0.
© Copyright Universidad Europea. Todos los derechos reservados. 16
Big Data Fundamentals
Visualización de Datos
Se producen distorsiones muy fuertes si comenzamos los rangos en otro número,
aunque puede ser nuestro objetivo (periodismo sesgado, política…)
Hay varias variaciones de este tipo de gráfico. Por ejemplo, los histogramas, para
representar distribuciones estadísticas:
© Copyright Universidad Europea. Todos los derechos reservados. 17
Big Data Fundamentals
Visualización de Datos
O los diagramas de bikini, cuando las barras bajan por debajo del 0:
5.2. Gráfico de tartas
El otro gráfico sencillo por excelencia son las tartas.
• Nos permiten comparar una variable entre
categorías.
• Fácil comparación entre el “todo” y una parte.
• Suele ser necesario indicar el valor numérico.
• Con muchas categorías no funciona bien.
© Copyright Universidad Europea. Todos los derechos reservados. 18
Big Data Fundamentals
Visualización de Datos
Puede utilizarse también el tamaño de la tarta como una variable más, como en el
ejemplo anterior.
5.3. Diagrama de fiebre
Los diagramas de lineas nos permiten comparar series temporales. Funcionan muy bien
con pocas series, o con interactividad para ocultarlas o resaltarlas
© Copyright Universidad Europea. Todos los derechos reservados. 19
Big Data Fundamentals
Visualización de Datos
Una variación son las sparklines, que consiste en pintarlas por separado. En ese caso,
los valores no son tan importantes, si no los patrones. Son muy utilizados en bolsa:
© Copyright Universidad Europea. Todos los derechos reservados. 20
Big Data Fundamentals
Visualización de Datos
5.4. Áreas
Las áreas nos permiten ver cantidades agregadas, y diferencias.
También suelen apilarse:
Sin embargo, tenemos que tener cuidado con ellas, ya que podemos caer en engaño
fácil. Las siguientes dos gráficas muestran la misma información.
© Copyright Universidad Europea. Todos los derechos reservados. 21
Big Data Fundamentals
Visualización de Datos
Según el orden de las categorías, podemos extraer una conclusión erronea, ya que por
un error de percepción visual, no interpretamos bien el espacio entre áreas.
5.5. Mapas
Otra de las grandes categorías de visualización y más sencillas de entender, los mapas
5.5.1. Mapas de polígonos (coropletas)
Uno de los más sencillos, representan la distribución de una variable cuantitativa sobre
un territorio segmentado en categorías (normalmente políticas).
© Copyright Universidad Europea. Todos los derechos reservados. 22
Big Data Fundamentals
Visualización de Datos
[Link]
Estamos muy acostumbrados a este tipo de mapas cuando hay elecciones.
5.5.2. Mapas de calor
Similares a los anteriores, pero sin divisiones por polígono, representan la
concentración de elementos o la distribución de una variable según el territorio.
Debemos tener cuidado con estos, ya que pueden acabar representando simplemente
concentración de población.
© Copyright Universidad Europea. Todos los derechos reservados. 23
Big Data Fundamentals
Visualización de Datos
A modo comedia, se aprecia en el siguiente cómic. ¿Dónde hay más usuarios de nuestra
web, subscriptores de un blog o consumidores de pornografía? Simplemente donde hay
más población.
5.5.3. Mapas de burbujas
© Copyright Universidad Europea. Todos los derechos reservados. 24
Big Data Fundamentals
Visualización de Datos
• Superpone una variable cuantitativa a su posición en el mapa
• Cuidado con los solapamientos entre burbujas, a veces es mejor codificar la
variable en la transparencia
5.5.4. Mapas de conexiones
Una red sobre un mapa
• Superpone un diagrama de red sobre un mapa
• Típicamente el mapa puede desaparecer si hay muchas conexiones
[Link]
También puede seguir rutas (carreteras, marítimas, ferroviarias)
© Copyright Universidad Europea. Todos los derechos reservados. 25
Big Data Fundamentals
Visualización de Datos
© Todos los derechos de propiedad intelectual de esta
obra pertenecen en exclusiva a la Universidad Europea
de Madrid, S.L.U. Queda terminantemente prohibida la
reproducción, puesta a disposición del público y en
general cualquier otra forma de explotación de toda o
parte de la misma.
La utilización no autorizada de esta obra, así como los
perjuicios ocasionados en los derechos de propiedad
intelectual e industrial de la Universidad Europea de
Madrid, S.L.U., darán lugar al ejercicio de las acciones
que legalmente le correspondan y, en su caso, a las
responsabilidades que de dicho ejercicio se deriven.
© Copyright Universidad Europea. Todos los derechos reservados. 26