Data Analytics
Ing. Javier Souza - 2022
[Link]@[Link]
nsouza@[Link]
Capítulo 5: Data Analytics
1. Introducción
a. Conceptos principales
b. Tipos de análisis
c. Business Intelligence y Business Analytics
d. Data Warehouse, Data Lake y Data Lakehouse.
2. Data mining
a. Conceptos principales
b. Aplicaciones
c. Tareas y modelos
d. Extensiones
3. Herramientas de visualización
Definiciones:
● Descubrimiento y comunicación de patrones significativos en los datos.
● Se refiere al conjunto de enfoques cuantitativos y cualitativos para la
obtención de información valiosa a partir de los datos.
● El análisis de datos es el área de práctica que se utiliza para recopilar
datos, transformarlos a una estructura amigable para el análisis y luego
identificar las tendencias actuales, predecir el futuro y construir sistemas
inteligentes basados en los conocimientos.
Tipos de análisis
● Descriptivo: Describe qué ha pasado en
un período de tiempo. Está diseñado (+) Aumenta el aporte del
para brindar información básica: quién, análisis para el negocio.
qué, cuándo, dónde, cuánto. Análisis
VALUE
Proporciona una visión y contexto para prescriptivo
poder entender los datos.
Análisis
predictivo
● Diagnóstico: Se centra en conocer por
qué sucedió cierto evento e implica Análisis de
entradas de datos más diversas y de diagnóstico
hipótesis. ¿El clima afectó las ventas de
cerveza? ¿La última campaña de Análisis
descriptivo
marketing tuvo un impacto en las
ventas?. Gracias al análisis de (+) Aumenta la
diagnóstico, existe la posibilidad de complejidad del análisis y
profundizar y averiguar las los algoritmos.
dependencias e identificar patrones.
COMPLEXITY
Tipos de análisis
● Predictivo: Trabaja de manera que se
predice lo que va a ocurrir a corto plazo. (+) Aumenta el aporte del
El análisis predictivo ayuda a identificar análisis para el negocio.
tendencias relacionadas entre variables, Análisis
determinar la fuerza de su correlación y VALUE prescriptivo
formular hipótesis de causalidad.
Análisis
predictivo
● Prescriptivo: Analiza los datos para
encontrar soluciones entre una cantidad Análisis de
de variantes, y optimiza recursos para diagnóstico
aumentar la eficiencia operativa.
Utilizando técnicas de simulación y Análisis
descriptivo
optimización logra señalar la elección
más conveniente. El propósito del (+) Aumenta la
análisis prescriptivos es, prescribir qué complejidad del análisis y
acciones tomar para eliminar un los algoritmos.
problema futuro o aprovechar al máximo
una tendencia. COMPLEXITY
More about 4 types of…
● Análisis descriptivo: ¿Qué está sucediendo en mi negocio?
○ Datos íntegros y precisos.
○ Visualización efectiva.
Análisis
● Análisis de diagnóstico: ¿Por qué está sucediendo?
prescriptivo ○ Capacidad para profundizar (drill down) en las causas base o
raíz.
○ Capacidad para aislar cualquier información confusa.
Análisis
predictivo ● Análisis predictivo: ¿Qué es probable que suceda?
○ Las estrategias de negocio se mantienen bastante
constantes a lo largo del tiempo.
○ Patrones históricos que se utilizan para predecir resultados
Análisis de específicos usando algoritmos.
diagnóstico ○ Las decisiones se automatizan usando algoritmos y
tecnología.
Análisis ● Análisis prescriptivo: ¿Qué necesito hacer?
descriptivo ○ Aplicación de técnicas analíticas avanzadas para crear
recomendaciones de decisiones específicas.
Business Intelligence
● Business Intelligence, Inteligencia de
negocios o BI es, en simples palabras:
usar los datos de ayer y hoy para tomar
mejores decisiones mañana. ● Analiza datos
pre-procesados y
● Puede entenderse como la función que estructurados orientados
al pasado.
garantiza que los datos sin procesar
(raw data) se transformen en ● Repositorio centralizado.
información significativa que
● Estadística descriptiva
proporcione conocimiento y facilite la para corregir errores
toma de decisiones. operativos y mostrar la
performance del negocio.
● BI provee analítica descriptiva y de
diagnóstico.
● BI no nos dice qué va a suceder a
futuro.
Business Analytics
● El objetivo de la Analítica empresarial o
Business Analytics es determinar qué
conjuntos de datos son útiles y cuáles
pueden aumentar los ingresos, la
● Analiza datos pre-procesados
productividad y la eficiencia. y estructurados enfocados al
futuro.
● Se refiere al uso de metodologías como
la minería de datos, el análisis ● Estudia tendencias e
predictivo y el análisis estadístico para indicadores
analizar y transformar los datos en macroeconómicos.
información útil, identificar y anticipar
tendencias y resultados. ● Objetivo: trabajar para no
cometer errores del pasado.
● Business Analytics sirve para tomar
decisiones empresariales más
inteligentes basadas en datos.
More about BI & BA…
Evolución del landscape BI & BA
Data Warehouse, Data Lake &
Data Lakehouse
Data Warehouse
Cloud data
OLTP Databases Flat files & sheets “El Data Warehouse es una colección de datos
orientados al tema, integrados, no volátiles,
organizados para el apoyo del proceso de toma de
ETL decisiones”.
Bill Inmon
● Repositorio de datos separado de los sistemas
Enterprise operativos de procesamiento de datos o bases
DW de datos transaccionales, en el cual se
transforman, sintetizan y guardan a largo plazo
datos procedentes de fuentes diferentes y
heterogéneas.
Data Data Data
● Punto central de integración de datos
Mart Mart Mart corporativos.
● Única fuente de la verdad (SPoT).
BI Tools
Data Warehouse layers
● Usualmente asociamos Business Intelligence (BI) con el
Data Warehouse (DW), lo cual hace pensar al BI como el
front-end y al DW como el backend o la infraestructura
para hacer BI.
● Si bien se pueden usar otras Arquitecturas, una buena
práctica es el layer approach, dividiendo el DW en capas
con propósitos bien definidos:
○ Data Collection: Staging area/Landing zone. Para
la persistencia de los datos colectados de las
distintas fuentes que integran el DW.
○ Data Repository: Data Warehouse layer o
Intermediate layer. Aquí se aplican las
transformaciones y las reglas de negocio y es
donde se pueden historificar los datos en su nivel
de agregación más detallado.
○ Data Provision: Data Mart layer/Information
Mart/Capa de explotación. Aquí los datos están
disponibles para los usuarios finales, generalmente
en modelos analíticos.
Data Warehousing
● Data Warehousing: Es el proceso de construcción
del Data Warehouse.
● ETL: Extract/Transform/Load Familia de procesos
encargados de la estructuración y disponibilización
de los datos para hacer analítica.
○ Existen otros patrones donde primero se
cargan los datos cargados en destino y
luego se transforman: ELT.
○ En otras arquitecturas, el transporte de los
datos en capas es menos trivial y se lo
considera como un patrón particular: ETTL, y
otras combinaciones, donde al menos una T
es por transporte.
● OLTP: Online Transactional Processing.
● OLAP: Online Analytical Processing.
Data Lake
● Es un repositorio de almacenamiento que
contiene una gran cantidad de datos en bruto y
que se mantienen allí hasta su explotación.
● Cuando se presenta una cuestión de negocios
que debe ser resuelta (pregunta a contestar!),
podemos solicitarle al data lake los datos que
estén relacionados con esa cuestión o tema.
● Es una forma de describir cualquier gran
conjunto de datos en el que el esquema no se
define sino hasta que los datos se consultan.
● Los científicos de datos pueden ir al data lake y
trabajar con el gran y variado conjunto de datos
que necesitan, mientras que otros usuarios
hacen uso de vistas más estructuradas de los
datos proporcionadas para su uso.
Data Lakehouse
En esencia es una Data Warehouse apoyado en
un Data Lake que tiene estas características:
● Soporte a las transacciones. Al soportar las
propiedades ACID, se asegura un nivel de
consistencia necesaria en las escrituras y
lecturas concurrentes de los datos.
● Gestión de esquemas internos y metadata.
● Soporte a BI. Ofrece conectividad con
herramientas de Business Intelligence (BI).
● Almacenamiento desacoplado de los
componentes de procesamiento.
Data Lakehouse Architecture
DW vs DL vs LH
Figura: What is Lakehouse from Databricks .
Data mining
Captura de los datos
¿Qué es Data Mining?
Existen muchas definiciones:
● Extracción NO-trivial de información
implícita, previamente desconocida y
Almacenamiento y gestión de potencialmente útil a partir de datos.
los datos
● Exploración y Análisis empleando
medios automáticos o semiautomáticos,
en grandes cantidades de datos con la
finalidad de descubrir patrones
Identificación de patrones significativos.
● Es el proceso de descubrimiento de
conocimiento relevante a partir de
grandes cantidades de datos
almacenados en algún medio masivo de
Aplicación de modelos almacenamiento.
estadísticos
● Tan, Steinbach, Karpatne, Kumar. Introduction to Data Mining. 2nd Edition. 2018.
● Britos, Hossian, Garcia, Martinez, Sierra. Minería de datos basada en sistemas
inteligentes. 1ra Edición. 2005.
Más definiciones:
Conforme evoluciona el Data Mining como una actividad profesional, se hizo necesario distinguirla
de otras actividades como el modelado estadístico o el descubrimiento de conocimiento.
Nisbet et al. 2018, proponen:
○ Statistical modeling: The use of parametric statistical algorithms to group or predict an
outcome or event, based on predictor variables.
○ Data mining: The use of machine-learning algorithms to find faint patterns of
relationship between data elements in large, noisy, and messy data sets, which can lead
to actions to increase benefit in some form (diagnosis, profit, detection, etc.).
○ Knowledge Discovery: The entire process of data Access, data exploration, data
preparation, modeling, model deployment and model monitoring. This broad process
includes data mining activities.
○ Data Science: The extensión of knowledge Discovery into data architecture of analytic
data marts on one hand and complex image, speech, and textual analysis on the other
hand with highly evolved machine-learning algorithms.
Data Mining
● Es parte integral del proceso de descubrimiento de conocimiento en bases de datos (KDD), que es un
proceso general de conversión de datos crudos en información útil.
● El propósito del pre-procesamiento es el de transformar los datos de entrada y dejarlos listos para las
etapas de análisis. Es quizás la etapa que insume mayor esfuerzo y tiempo.
● El post-procesamiento es la etapa de integración de los resultados del data mining a los sistemas de
soporte a las decisiones. Sólo los resultados útiles deberán ser consolidados en los repositorios de los
Decision support systems (DSS).
Figura: The process of knowledge discovery in databases (KDD).
Origenes
● Toma ideas de:
○ Estadísticas: sampling, estimación y test de hipótesis.
○ Inteligencia artificial: algoritmos de búsqueda, técnicas de modelado y teorías de aprendizaje.
○ Reconocimiento de patrones.
○ Machine learning.
● Se apoya también en las tecnologías de bases de datos para el procesamiento de grandes datasets y
en tecnologías de procesamiento paralelo y distribuido.
Figura: Data mining as a confluence of many disciplines.
Relación con KD & DS
Deep learning application
Data scoring
Data visualization
Model evaluation
Model building
Data conditioning
Data preparation
Selection and sampling Predictive analytics
Data sourcing Knowledge discovery in databases
Data mart design
Data science
Data mining & Data science
Data Science
● Datos no estructurados
● Multidisciplinario
Data Mining
● Extracción de datos
● Descubrimiento de
patrones
● Desarrollo de modelos
predictivos
Algunas consideraciones importantes:
● Por años se mal interpretó el proceso de la minería de datos por una definición de
proceso “automático”: “…this has misled many people into believing data mining is
product that can be bought rather than a discipline that must be mastered.” (Berry,
Linoff).
● La automatización no reemplaza por completo la intervención humana. Las decisiones
humanas se requieren en varios procesos internos de la minería.
● Más allá de las herramientas del mercado actual, es imperiosamente necesario
conocer estructuras y modelos estadísticos y matemáticos que el software
implementa.
● La tarea de minería debe integrarse en un proceso general de resolución de problemas
humanos.
Aplicaciones
Data mining en marketing
Conocer a los clientes es crucial, para ello, usando
este tipo de tecnologías, se pueden crear
parámetros o relaciones a raíz de una base de
datos inmensa. Analizando las relaciones entre
parámetros como edad de los clientes, género,
gustos…se puede predecir el comportamiento,
intereses e incluso el momento en el que van a
darse de baja en algún servicio.
Ejemplos:
● Segmentación de clientes, analizando su
comportamiento transaccional en productos
y servicios.
● Análisis de desgaste, en el que se generen
alertas cuando un cliente tiene un cambio de
comportamiento.
Data mining en bancos
Los bancos recurren al mining para analizar el
riesgo del mercado. Se dedican a analizar y
comprender los datos aportados por cada
transacción, movimientos de tarjeta, patrones de
compra.
Ejemplos de uso:
● Predicciones para reducir las pérdidas en
préstamos, identificando a tiempo deudas
que serán incobrables.
● Alta detección de riesgos, al ajustar los
parámetros de préstamos para maximizar las
ganancias.
● Detectar el fraude en tarjetas de crédito,
identificando parámetros de comportamiento
fraudulento.
Data mining en
supermercados
Los supermercados pueden analizar el
conjunto de compras masivas que hacen sus
clientes, para identificar asociaciones de
productos o las ofertas que mejor han
funcionado.
Con la tecnología oportuna, podrán decidir
dónde colocar los productos en las
estanterías o que productos colocar en la cola
de la caja para aumentar sus ventas.
Este mercado ha sido pionero en el desarrollo
y aplicación de técnicas para mejorar los
indicadores de venta.
Data mining en medicina
La medicina crea grandes bases de datos con
la información de sus pacientes sobre:
● Historial clínico
● Exámenes físicos
● Patrones de terapias anteriores
Con toda esta data, son capaces de ofrecer
diagnósticos más precisos. Además, permiten
agilizar la gestión y los trámites
administrativos, al tener toda la información
bien segmentada y localizada.
Hoy en día, además, el data mining se usa
para la detección de anomalías en imágenes
de diagnóstico.
Tareas y modelos
Tareas del Data mining
Generalmente divididas en dos grandes categorías:
1. Predictive tasks: El objetivo es predecir el
valor de un atributo a partir del valor de otros
atributos. El atributo a predecir se llama
variable dependiente u objetivo (target), las
variables usadas para la predicción son
conocidas como variables independientes o
explicativas (explanatory variable).
2. Descriptive tasks: Aquí, el objetivo es derivar
patrones que permitan resumir las relaciones
subyacentes en los datos. Son tareas
explicativas por naturaleza que
frecuentemente requieren de técnicas de
post-procesamiento para validar y explicar
los resultados.
Figura: Tareas principales del Data mining.
Clasificación
→ Usados para variables objetivo discretas. Por
ejemplo, predecir si un cliente va a comprar
(convertir) en un e-commerce es una tarea de
clasificación. La variable objetivo tiene dominio
binario.
Modelos predictivos
Regresión
Se refiere a la tarea de
construcción de un modelo que → Usados para variables objetivo continuas. Por
permita obtener la variable ejemplo, el forecast del precio de un artículo del
objetivo como función de las stock de un retail, es una tarea de regresión ya que
variables independientes. la variable precio es del dominio real o continuo.
En ambos casos, el objetivo es encontrar un modelo que
permita minimizar el error entre los valores estimados y el
valor real de la variable target.
Ejemplo: Churn
Un ejemplo habitual es el de la detección de patrones
de fuga. En muchas industrias (banca,
telecomunicaciones) existe un razonable interés en
detectar (cuanto antes) aquellos clientes que puedan
estar analizando rescindir sus contratos y/o pasarse a
la competencia.
Por medio de modelos de clasificación, podríamos
listar los clientes que estimamos, podrían abandonar
la compañía en el corto plazo. Sobre ellos, la empresa
podría desarrollar ofertas o promociones especiales
con el objetivo principal es retenerlos.
La minería de datos ayuda a determinar qué clientes
son los más proclives a darse de baja estudiando sus
patrones de comportamiento y comparándolos con
muestras de clientes que, efectivamente, se dieron de
baja en el pasado.
Reglas de asociación
Usados para descubrir patrones que definen una fuerte relación entre variables
de un dataset. Los patrones se representan usualmente como reglas de
implicación. El objetivo es encontrar los patrones más interesantes de manera
óptima ante la posibilidad de búsquedas exponencialmente costosas.
Análisis de clusters
Modelos El objetivo es encontrar grupos de observaciones relacionadas de manera que
descriptivos las que pertenecen a un grupo sean “similares” unas con otras y menos
“cercanas” a observaciones que pertenezcan a otros grupos. El objetivo es
definir grupos de elementos cuyos elementos tengan distancia mínima cuando
son del mismo clúster mientras que la distancia entre elementos de otros
clusters debería maximizarse.
Detección de anomalías
El objetivo es identificar las observaciones cuyas características sean
significativamente diferentes del resto de las observaciones. Tales
observaciones son conocidas como anomalías o outliers.
Ejemplo: Carrito de compras de
supermercado
Es el estudio que se ha realizado sobre las
transacciones de compra en los supermercados en
años de transacciones almacenadas.
Por medio de las reglas de asociación, se lograron
describir fuertes relaciones entre ciertos productos
que permitió a las empresas tomar acciones:
● Recomendaciones.
● Ofrecimiento de cupones.
● Cross selling y up selling.
● Modificaciones en las disposiciones de las
góndolas.
● Otras.
Ejemplo: Segmentación del
mercado
En este caso, el objetivo es dividir el mercado en
diferentes conjuntos de clientes donde cualquier
cluster pueda ser objeto de un programa de
marketing particular.
Aproximación a la solución:
● Reunir datos de los clientes, basados en zonas
geográficas donde viven y estilos de vida.
● Encontrar conglomerados de clientes similares.
● Medir la calidad del conglomerado observando
patrones de compra de clientes dentro del
mismo grupo versus el comportamiento de
clientes en otros grupos. Feedback del
modelo.
Ejemplo: Agrupamiento de
documentos
Una publicación periodística puede ser una
fuente útil para realizar un análisis de clusters
con base en sus tópicos o contenido.
Cada artículo puede ser representado por
conjuntos de pares (palabra, cantidad de
apariciones) o (w, c).
Cada palabra es afín a un tópico y la
frecuencia de aparición define a qué clúster
puede asociarse cada artículo particular.
Ejemplo: Fraudes con TC
Una compañía emisora de tarjeta puede persistir
los datos de los tarjetahabientes, tales como:
● Datos personales.
● Límites de crédito.
● Ingresos anuales.
Junto a estos datos, también persiste las
transacciones realizadas (hechos) que pueden ser
usados para crear un perfil de consumo de cada
usuario con las transacciones “legítimas” de cada
uno.
Ante cada evento, la compañía puede analizar si la
operación está dentro del rango de transacciones
habituales o si debe “marcarla” como potencial
fraude cuando la misma difiera de las
transacciones del perfil.
Extensiones del Data mining
Web mining
Extensión de la aplicación de técnicas propias del Data mining a documentos y sitios
web. Es la explotación de los datos que cada sesión web puede “dejar” en los hosts o
servidores de contenido.
Puede clasificarse según el dominio de datos que es objeto de explotación u análisis:
1. Web content mining: Es el proceso que consiste en la extracción de conocimiento
del contenido de documentos o sus descripciones.
2. Web structure mining: Es el proceso de inferir conocimiento de la organización del
WWW y la estructura de sus vínculos (links).
3. Web usage mining: Es el proceso de extracción de modelos interesantes usando
los logs de los accesos al web.
Text mining
Debido a que las compañías aún conservan gran cantidad de información en formato
no estructurado o documentos, es por lo que se han desarrollado técnicas de
extracción de patrones en estos “repositorios”.
Algunas técnicas que podrían aplicarse dentro de esta extensión de la minería podrían
ser:
● Clasificación de textos.
○ Por palabras claves.
○ Por similitud.
● Procesamiento del lenguaje natural.
(*) En los últimos años ha sido muy utilizado en los procesos electorales de los países más avanzados del
mundo para identificar el sentimiento en las publicaciones en medios y redes sociales o medir el nivel de
popularidad del candidato.
Fases en el proceso de Data
mining
Análisis de
Fases
datos
Entendemos Data mining como una parte
importante dentro del proceso de
Preparación
descubrimiento del conocimiento (KD), pero a
Análisis del su vez, DM es un proceso en sí mismo que se
de los datos
negocio
encuentra dividido en fases.
Como referencia, se desarrolló el modelo
Bases de datos
o CRISP Cross Industry Standard Process. Este
Enterprise Data modelo proporciona la descripción del ciclo
Warehouse de vida de un proyecto de Data Mining.
Despliegue
y
Modelado
explotación Este ciclo de vida tiene estas fases:
comprensión del negocio, comprensión de los
datos, preparación de datos, modelado,
evaluación y despliegue.
Evaluación
● Comprensión del negocio:
Se encuentra enfocada en la comprensión de los objetivos y exigencias de proyecto partiendo
desde la perspectiva del negocio. Tras ello, es necesario adquirir este conocimiento de los datos
(desde el punto de vista del negocio) y convertirlo en la definición de un problema de minería de
datos, trazando un plan preliminar de acuerdo a los objetivos planificados.
● Comprensión de los datos:
Comienza con la colección de datos inicial para continuar con las actividades que permiten
alcanzar una familiaridad o afinidad con ellos para poder identificar los problemas de calidad de
datos. La calidad de datos tiene varias dimensiones: exactitud, totalidad o completitud,
oportunidad, relevancia, nivel de detalle y consistencia, por lo que será necesario comprobar como
son los datos en cada una de estas dimensiones.
En esta fase, ya se pueden empezar a descubrir los primeros conocimientos en los datos, detectar
aquellos conjuntos o subconjuntos de información interesantes para formar hipótesis que
permitan avanzar en el descubrimiento de información oculta.
● Preparación de datos:
Consta de todas las actividades necesarias para adaptar los datos origen en bruto y aproximarlos al
conjunto de datos final (los datos que serán fuente de las herramientas de modelado).
Las tareas de preparación o de limpieza de datos van a ser realizadas repetidas veces y no en cualquier
orden. Entre estas tareas tenemos la selección de tablas, registros y atributos, así como la transformación
y la limpieza de datos para su preparación para las herramientas de modelado.
● Modelado:
Como ya vimos, existen múltiples técnicas de modelado de datos, siendo en esta fase del proceso
cuando, tras el conocimiento adquirido, se seleccionan las adecuadas (siempre de acuerdo a los objetivos
de negocio y del proyecto) y se aplican. En esta fase se buscan los siguientes cuatro tipos de relaciones:
● Clases: las observaciones se asignan a grupos predeterminados.
● Clusters: se construyen grupos de observaciones similares según un criterio prefijado.
● Asociaciones: las observaciones son usadas para identificar asociaciones entre variables.
● Patrones secuenciales: se trata de identificar patrones de comportamiento y tendencias.
● Evaluación:
En esta etapa del proyecto ya se ha construido un modelo. Para asegurarnos de que se cumple con los
estándares de calidad propuestos, es necesario evaluarlo desde una perspectiva de análisis de datos. Es
decir, es importante realizar una batería de pruebas junto con la revisión de cada paso ejecutado en la
creación del modelo, que ayude a comparar el modelo obtenido con los objetivos de negocio.
Un objetivo clave es determinar si se han cubierto todas las expectativas de negocio, asegurando que no
haya “gaps”.
● Despliegue o Explotación:
En esta fase es donde se usan los resultados del proceso, dependiendo de los requerimientos, puede ser
tan sencillo como la generación de un informe o tan complejo como la realización repetida de un proceso
cruzado de minería de datos a través de la empresa. Por lo que, en muchos casos, es el propio cliente
quien realiza la explotación. Una vez que el conocimiento descubierto se presenta al usuario, las medidas
de evaluación pueden mejorarse, la minería puede ser refinada, nuevos datos se pueden seleccionar e
incorporar nuevas fuentes de datos, todo esto para obtener resultados diferentes o más apropiados.
Roles y especialidades
Analistas de datos
Son profesionales de datos con experiencia dentro de su organización que pueden consultar y procesar datos,
crear informes, resumir y visualizar datos. Tienen un sólido conocimiento de cómo aprovechar las herramientas y
los métodos existentes para resolver un problema, y ayudan a otros miembros de la empresa a comprender
consultas específicas con informes y cuadros específicos.
No se espera que traten con el análisis de grandes volúmenes de datos, ni se espera que tengan los antecedentes
matemáticos o de investigación para desarrollar nuevos algoritmos para problemas específicos.
Habilidades: deben tener una comprensión básica de algunas habilidades:
estadísticas, recopilación de datos, visualización de datos, análisis
exploratorio de datos.
Herramientas: Microsoft Excel, SPSS, SPSS Modeler, SAS, SAS Miner,
SQL, Microsoft Access, Tableau, Power BI, otras herramientas de
visualización del mercado.
Desarrolladores
Los desarrolladores de BI son expertos en datos que interactúan más estrechamente con las partes interesadas en
comprender las necesidades de informes y luego recopilar requisitos, diseñar y crear soluciones de BI para cubrir
estas necesidades.
Entre sus responsabilidades están: diseñar, desarrollar y dar soporte sobre los objetos del data warehouse,
paquetes ETL, cubos, paneles de control e informes analíticos nuevos y existentes. Además, trabajan con bases de
datos, tanto relacionales como multidimensionales, y deben tener excelentes habilidades de desarrollo de SQL
para integrar datos de diferentes recursos.
(Normalmente) no está dentro de sus responsabilidades, realizar análisis de datos.
Habilidades: ETL, elaborar reportes, OLAP, cubos.
Herramientas: Tableau, dashboard tools, SQL, SSAS,
SSIS, SPSS Modeler, Python, Airflow, ODI, OBIEE,
MSIS.
Ingenieros de datos
Son los profesionales de datos que preparan la infraestructura utilizada por científicos de datos. Son ingenieros de
software que diseñan, construyen, integran datos de diversos recursos y administran estos recursos. Luego,
escriben consultas complejas sobre eso, se aseguran de que sea fácilmente accesible, que funcione sin problemas y
que su objetivo sea optimizar el rendimiento del gran ecosistema de datos de su empresa.
También pueden ejecutar algunos ETL sobre grandes conjuntos de datos y crear marts o data warehouses que
pueden ser utilizados para informes o análisis por otros profesionales. Son responsables del diseño y la
arquitectura de datos.
(Generalmente) no se espera que conozcan profundamente métodos de aprendizaje automático o análisis de Big
data.
Habilidades: ETL, Hadoop, MapReduce, Hive, Pig, Data streaming,
NoSQL, SQL, programación.
Herramientas: PostgreSQL, MySQL, MongoDB, Cassandra, Python,
Airflow, Tecnologías Cloud, IDEs de consultas.
Científicos de datos
Aplican estadística, aprendizaje automático y enfoques analíticos para resolver problemas empresariales críticos.
Su función principal es ayudar a las organizaciones a convertir sus activos de datos en información valiosa y útil.
Puede considerarse como un nivel avanzado de análisis de datos que está impulsado y automatizado por el
aprendizaje automático. En otra palabra, en comparación con los "analistas de datos", además de las habilidades
analíticas de datos, se espera que los científicos de datos tengan una gran capacidad de programación, una
capacidad para diseñar nuevos algoritmos, manejar grandes volúmenes de datos, con cierta experiencia en el
conocimiento del dominio. También se espera que interpreten y entreguen con elocuencia los resultados de sus
hallazgos, mediante técnicas de visualización, aplicaciones de ciencia de datos de construcción o narrando
historias interesantes sobre las soluciones a sus problemas de datos (negocios)...
Habilidades: Python, R, Scala, Apache Spark, Hadoop,
machine learning, deep learning, estadística.
Herramientas: Data Science Experience, Jupyter,
RStudio, PostgreSQL, MySQL, MongoDB, Cassandra,
Python, Airflow, Tecnologías Cloud, IDEs de consultas.
Otros roles
● Administrador de bases de datos: Su labor seguirá siendo la misma que lleva realizando durante muchos años con
bases de datos relacionales, pero añadiendo habilidades relacionadas con bases de datos NoSQL.
● Analista de negocio: Son los responsables de generar la visión del negocio desde la información obtenida en
proyectos Big Data/BI/DM.
● Propietario de los datos: Este es quien conoce el dato, su función y sensibilidad en la empresa y por tanto es quien
tiene que decir qué nivel de servicio y garantías requiere cada tipo de datos y cuál podría ser la afectación al negocio
en caso de pérdida.
● Usuario de los datos: Personas/equipos/aplicaciones que utilizan los datos
para su trabajo diario. Los que vulgarmente llamaríamos cliente de los
datos.
● Chief Data Officer: Es el responsable de asegurar que la organización es
data driven. Lidera la gestión de datos y analítica asociada por el negocio
y, por tanto, es responsable de los diferentes equipos especialidades en
datos.
● Data Steward: Es responsable de mantener la calidad, disponibilidad y
seguridad de los datos. Persigue la mejora en el almacenamiento y
presentación de los datos. Tiene conocimientos de los procesos de
negocio y de cómo los datos se utilizan dentro de los mismos.
Perfiles: Data Engineer
● Es la persona que identifica diferentes fuentes de datos, recopila, limpia, transforma y modela los datos de una manera
significativa y los almacena en repositorios de datos dedicados: Data Lakes y/o Data warehouses. Sienta las bases para que
luego los datos se puedan analizar fácilmente para luego obtener conocimientos.
● Crea y mantiene los flujos de datos y la infraestructura para lograr esta tarea utilizando diferentes herramientas. Este es uno
de los aspectos más complejos de hacer en el ecosistema de análisis de datos, ya que diferentes fuentes almacenan datos
en muchos lugares, formas y formatos diferentes.
● Debe tener un buen conocimiento sobre las fuentes de datos que consume y también sobre los procesos comerciales
relevantes.
Perfiles: Data Analyst
● Los datos completamente transformados se pueden usar para
obtener información detallada y este trabajo le corresponde al
Data Analyst, quien analiza el conjunto de datos mediante el
uso de herramientas y lenguajes de consulta tales como el
SQL.
● Trabaja en estrecha colaboración con las partes interesadas
para comprender lo que realmente necesitan: análisis de
requisitos, solicita al Data Engineer los datos que el analista
necesita para realizar el análisis y proporciona a las partes
interesadas los conocimientos del negocio: visión general del
negocio y/o análisis de tendencias.
● Produce varios informes y paneles de control o dashboards
que las partes interesadas pueden utilizar para tomar
decisiones comerciales importantes para el crecimiento de la
empresa. Requiere de muy buen manejo de herramientas de
visualización.
Perfiles: Data Scientist
● El papel del científico de datos es estudiar el futuro y
hacer predicciones sobre él en función de las
tendencias actuales.
● Crean productos de datos sobre los conjuntos de datos
en términos de aprendizaje automático, aprendizaje
profundo, sistemas de inteligencia artificial, como
servicios de recomendación y automóviles autónomos,
etc.
● En muchas compañías, el alcance del rol no se
encuentra debidamente delimitado, por lo que muchas
veces, los data scientist realizan muchas tareas propias
de los Data Architect y Data Engineer.
Visualization tools
Visualización de datos
La visualización de datos es una forma de
transmitir a una audiencia los mensajes clave que
se encuentran dentro de la inteligencia de
negocios de una organización. Aunque la
representación gráfica de los datos comerciales
es un elemento clave, una buena visualización de
datos es más que solo cuadros y gráficos;
También debe crear una narrativa que cuente la
historia de la organización y lleve a la audiencia a
las conclusiones correctas.
Un objetivo más que relevante de las
herramientas de visualización de datos, es servir
de soporte a los analistas para lograr convencer
y persuadir a los tomadores de decisiones.
¿Qué herramienta elegir?
Debido a la creciente cantidad de nuevas
herramientas para la explotación y
visualización de los datos, resulta una tarea
compleja la de elegir una herramienta que se
ajuste a las necesidades de nuestro negocio.
Como un marco teórico para la selección,
podemos pensar en estos factores:
1. Elección en base a los objetivos:
analizar o comunicar.
2. Elección en base a la facilidad de uso:
herramienta gráficas o visualizaciones
pre-hechas.
● Visualización para el análisis:
➔ Orientada a preguntas como ¿Qué hay en los datos?
➔ Representación de las estructuras de datos.
● Visualización para la comunicación:
Según los objetivos
➔ En estos escenarios, conocemos bien la información,
comprendemos cuáles son los patrones en los datos, pero
necesitamos comunicar de manera eficiente las conclusiones, o
debemos dirigirnos a un público específico, por lo que se
necesita traducir la complejidad a un lenguaje más amigable y
que facilite la comprensión.
➔ Herramientas intuitivas y de fácil adopción para los que no tienen
skills técnicos.
● Herramientas gráficas estandarizadas:
➔ Principalmente usadas por diseñadores, periodistas, fotógrafos,
etc.
➔ Intuitivas pero requieren de esfuerzo para crear gráficos
estadísticos.
Según la complejidad de ● Visualización pre-fabricadas:
la herramienta
➔ Herramientas que permiten ingresar los datos y seleccionar la
representación desde una serie de opciones (galerías).
➔ Usadas por científicos de datos, programadores, analistas de
datos, etc.
THANKS!
Any questions?
You can find me at
[Link]@[Link]
nsouza@[Link]