0% encontró este documento útil (0 votos)

9 vistas63 páginas

05 Data Analytics Introduccion

El documento aborda el análisis de datos, incluyendo conceptos fundamentales, tipos de análisis como descriptivo, diagnóstico, predictivo y prescriptivo, y la diferencia entre Business Intelligence y Business Analytics. También se discuten herramientas de visualización, Data Warehousing, Data Lakes y Data Lakehouses, así como el proceso de Data Mining y sus aplicaciones en diversas industrias. Se enfatiza la importancia de la minería de datos en la extracción de patrones significativos y la toma de decisiones informadas.

Cargado por

facu_acunia

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

9 vistas63 páginas

05 Data Analytics Introduccion

Cargado por

facu_acunia

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

Data Analytics

Ing. Javier Souza - 2022

[Link]@[Link]
nsouza@[Link]
Capítulo 5: Data Analytics
1. Introducción
a. Conceptos principales
b. Tipos de análisis
c. Business Intelligence y Business Analytics
d. Data Warehouse, Data Lake y Data Lakehouse.
2. Data mining
a. Conceptos principales
b. Aplicaciones
c. Tareas y modelos
d. Extensiones
3. Herramientas de visualización
Definiciones:

● Descubrimiento y comunicación de patrones significativos en los datos.

● Se refiere al conjunto de enfoques cuantitativos y cualitativos para la

obtención de información valiosa a partir de los datos.

● El análisis de datos es el área de práctica que se utiliza para recopilar

datos, transformarlos a una estructura amigable para el análisis y luego
identificar las tendencias actuales, predecir el futuro y construir sistemas
inteligentes basados en los conocimientos.
Tipos de análisis
● Descriptivo: Describe qué ha pasado en
un período de tiempo. Está diseñado (+) Aumenta el aporte del
para brindar información básica: quién, análisis para el negocio.
qué, cuándo, dónde, cuánto. Análisis
VALUE
Proporciona una visión y contexto para prescriptivo
poder entender los datos.
Análisis
predictivo
● Diagnóstico: Se centra en conocer por
qué sucedió cierto evento e implica Análisis de
entradas de datos más diversas y de diagnóstico
hipótesis. ¿El clima afectó las ventas de
cerveza? ¿La última campaña de Análisis
descriptivo
marketing tuvo un impacto en las
ventas?. Gracias al análisis de (+) Aumenta la
diagnóstico, existe la posibilidad de complejidad del análisis y
profundizar y averiguar las los algoritmos.
dependencias e identificar patrones.
COMPLEXITY
Tipos de análisis
● Predictivo: Trabaja de manera que se
predice lo que va a ocurrir a corto plazo. (+) Aumenta el aporte del
El análisis predictivo ayuda a identificar análisis para el negocio.
tendencias relacionadas entre variables, Análisis
determinar la fuerza de su correlación y VALUE prescriptivo
formular hipótesis de causalidad.
Análisis
predictivo
● Prescriptivo: Analiza los datos para
encontrar soluciones entre una cantidad Análisis de
de variantes, y optimiza recursos para diagnóstico
aumentar la eficiencia operativa.
Utilizando técnicas de simulación y Análisis
descriptivo
optimización logra señalar la elección
más conveniente. El propósito del (+) Aumenta la
análisis prescriptivos es, prescribir qué complejidad del análisis y
acciones tomar para eliminar un los algoritmos.
problema futuro o aprovechar al máximo
una tendencia. COMPLEXITY
More about 4 types of…

● Análisis descriptivo: ¿Qué está sucediendo en mi negocio?

○ Datos íntegros y precisos.
○ Visualización efectiva.
Análisis
● Análisis de diagnóstico: ¿Por qué está sucediendo?
prescriptivo ○ Capacidad para profundizar (drill down) en las causas base o
raíz.
○ Capacidad para aislar cualquier información confusa.
Análisis
predictivo ● Análisis predictivo: ¿Qué es probable que suceda?
○ Las estrategias de negocio se mantienen bastante
constantes a lo largo del tiempo.
○ Patrones históricos que se utilizan para predecir resultados
Análisis de específicos usando algoritmos.
diagnóstico ○ Las decisiones se automatizan usando algoritmos y
tecnología.
Análisis ● Análisis prescriptivo: ¿Qué necesito hacer?
descriptivo ○ Aplicación de técnicas analíticas avanzadas para crear
recomendaciones de decisiones específicas.
Business Intelligence
● Business Intelligence, Inteligencia de
negocios o BI es, en simples palabras:
usar los datos de ayer y hoy para tomar
mejores decisiones mañana. ● Analiza datos
pre-procesados y
● Puede entenderse como la función que estructurados orientados
al pasado.
garantiza que los datos sin procesar
(raw data) se transformen en ● Repositorio centralizado.
información significativa que
● Estadística descriptiva
proporcione conocimiento y facilite la para corregir errores
toma de decisiones. operativos y mostrar la
performance del negocio.
● BI provee analítica descriptiva y de
diagnóstico.

● BI no nos dice qué va a suceder a

futuro.
Business Analytics
● El objetivo de la Analítica empresarial o
Business Analytics es determinar qué
conjuntos de datos son útiles y cuáles
pueden aumentar los ingresos, la
● Analiza datos pre-procesados
productividad y la eficiencia. y estructurados enfocados al
futuro.
● Se refiere al uso de metodologías como
la minería de datos, el análisis ● Estudia tendencias e
predictivo y el análisis estadístico para indicadores
analizar y transformar los datos en macroeconómicos.
información útil, identificar y anticipar
tendencias y resultados. ● Objetivo: trabajar para no
cometer errores del pasado.
● Business Analytics sirve para tomar
decisiones empresariales más
inteligentes basadas en datos.
More about BI & BA…
Evolución del landscape BI & BA
Data Warehouse, Data Lake &
Data Lakehouse
Data Warehouse
Cloud data
OLTP Databases Flat files & sheets “El Data Warehouse es una colección de datos
orientados al tema, integrados, no volátiles,
organizados para el apoyo del proceso de toma de
ETL decisiones”.

Bill Inmon

● Repositorio de datos separado de los sistemas

Enterprise operativos de procesamiento de datos o bases
DW de datos transaccionales, en el cual se
transforman, sintetizan y guardan a largo plazo
datos procedentes de fuentes diferentes y
heterogéneas.

Data Data Data

● Punto central de integración de datos
Mart Mart Mart corporativos.

● Única fuente de la verdad (SPoT).

BI Tools
Data Warehouse layers
● Usualmente asociamos Business Intelligence (BI) con el
Data Warehouse (DW), lo cual hace pensar al BI como el
front-end y al DW como el backend o la infraestructura
para hacer BI.

● Si bien se pueden usar otras Arquitecturas, una buena

práctica es el layer approach, dividiendo el DW en capas
con propósitos bien definidos:
○ Data Collection: Staging area/Landing zone. Para
la persistencia de los datos colectados de las
distintas fuentes que integran el DW.
○ Data Repository: Data Warehouse layer o
Intermediate layer. Aquí se aplican las
transformaciones y las reglas de negocio y es
donde se pueden historificar los datos en su nivel
de agregación más detallado.
○ Data Provision: Data Mart layer/Information
Mart/Capa de explotación. Aquí los datos están
disponibles para los usuarios finales, generalmente
en modelos analíticos.
Data Warehousing
● Data Warehousing: Es el proceso de construcción
del Data Warehouse.

● ETL: Extract/Transform/Load Familia de procesos

encargados de la estructuración y disponibilización
de los datos para hacer analítica.
○ Existen otros patrones donde primero se
cargan los datos cargados en destino y
luego se transforman: ELT.
○ En otras arquitecturas, el transporte de los
datos en capas es menos trivial y se lo
considera como un patrón particular: ETTL, y
otras combinaciones, donde al menos una T
es por transporte.

● OLTP: Online Transactional Processing.

● OLAP: Online Analytical Processing.

Data Lake
● Es un repositorio de almacenamiento que
contiene una gran cantidad de datos en bruto y
que se mantienen allí hasta su explotación.

● Cuando se presenta una cuestión de negocios

que debe ser resuelta (pregunta a contestar!),
podemos solicitarle al data lake los datos que
estén relacionados con esa cuestión o tema.

● Es una forma de describir cualquier gran

conjunto de datos en el que el esquema no se
deﬁne sino hasta que los datos se consultan.

● Los cientíﬁcos de datos pueden ir al data lake y

trabajar con el gran y variado conjunto de datos
que necesitan, mientras que otros usuarios
hacen uso de vistas más estructuradas de los
datos proporcionadas para su uso.
Data Lakehouse
En esencia es una Data Warehouse apoyado en
un Data Lake que tiene estas características:
● Soporte a las transacciones. Al soportar las
propiedades ACID, se asegura un nivel de
consistencia necesaria en las escrituras y
lecturas concurrentes de los datos.
● Gestión de esquemas internos y metadata.
● Soporte a BI. Ofrece conectividad con
herramientas de Business Intelligence (BI).
● Almacenamiento desacoplado de los
componentes de procesamiento.
Data Lakehouse Architecture
DW vs DL vs LH

Figura: What is Lakehouse from Databricks .

Data mining
Captura de los datos
¿Qué es Data Mining?
Existen muchas definiciones:
● Extracción NO-trivial de información
implícita, previamente desconocida y
Almacenamiento y gestión de potencialmente útil a partir de datos.
los datos
● Exploración y Análisis empleando
medios automáticos o semiautomáticos,
en grandes cantidades de datos con la
finalidad de descubrir patrones
Identificación de patrones significativos.

● Es el proceso de descubrimiento de
conocimiento relevante a partir de
grandes cantidades de datos
almacenados en algún medio masivo de
Aplicación de modelos almacenamiento.
estadísticos
● Tan, Steinbach, Karpatne, Kumar. Introduction to Data Mining. 2nd Edition. 2018.
● Britos, Hossian, Garcia, Martinez, Sierra. Minería de datos basada en sistemas
inteligentes. 1ra Edición. 2005.
Más definiciones:

Conforme evoluciona el Data Mining como una actividad profesional, se hizo necesario distinguirla
de otras actividades como el modelado estadístico o el descubrimiento de conocimiento.
Nisbet et al. 2018, proponen:
○ Statistical modeling: The use of parametric statistical algorithms to group or predict an
outcome or event, based on predictor variables.
○ Data mining: The use of machine-learning algorithms to find faint patterns of
relationship between data elements in large, noisy, and messy data sets, which can lead
to actions to increase benefit in some form (diagnosis, profit, detection, etc.).
○ Knowledge Discovery: The entire process of data Access, data exploration, data
preparation, modeling, model deployment and model monitoring. This broad process
includes data mining activities.
○ Data Science: The extensión of knowledge Discovery into data architecture of analytic
data marts on one hand and complex image, speech, and textual analysis on the other
hand with highly evolved machine-learning algorithms.
Data Mining
● Es parte integral del proceso de descubrimiento de conocimiento en bases de datos (KDD), que es un
proceso general de conversión de datos crudos en información útil.

● El propósito del pre-procesamiento es el de transformar los datos de entrada y dejarlos listos para las
etapas de análisis. Es quizás la etapa que insume mayor esfuerzo y tiempo.

● El post-procesamiento es la etapa de integración de los resultados del data mining a los sistemas de
soporte a las decisiones. Sólo los resultados útiles deberán ser consolidados en los repositorios de los
Decision support systems (DSS).

Figura: The process of knowledge discovery in databases (KDD).

Origenes
● Toma ideas de:
○ Estadísticas: sampling, estimación y test de hipótesis.
○ Inteligencia artiﬁcial: algoritmos de búsqueda, técnicas de modelado y teorías de aprendizaje.
○ Reconocimiento de patrones.
○ Machine learning.

● Se apoya también en las tecnologías de bases de datos para el procesamiento de grandes datasets y
en tecnologías de procesamiento paralelo y distribuido.

Figura: Data mining as a confluence of many disciplines.

Relación con KD & DS
Deep learning application
Data scoring
Data visualization

Model evaluation
Model building
Data conditioning
Data preparation

Selection and sampling Predictive analytics

Data sourcing Knowledge discovery in databases

Data mart design

Data science
Data mining & Data science

Data Science

● Datos no estructurados
● Multidisciplinario

Data Mining

● Extracción de datos
● Descubrimiento de
patrones
● Desarrollo de modelos
predictivos
Algunas consideraciones importantes:

● Por años se mal interpretó el proceso de la minería de datos por una deﬁnición de
proceso “automático”: “…this has misled many people into believing data mining is
product that can be bought rather than a discipline that must be mastered.” (Berry,
Linoff).

● La automatización no reemplaza por completo la intervención humana. Las decisiones

humanas se requieren en varios procesos internos de la minería.

● Más allá de las herramientas del mercado actual, es imperiosamente necesario

conocer estructuras y modelos estadísticos y matemáticos que el software
implementa.

● La tarea de minería debe integrarse en un proceso general de resolución de problemas

humanos.
Aplicaciones
Data mining en marketing
Conocer a los clientes es crucial, para ello, usando
este tipo de tecnologías, se pueden crear
parámetros o relaciones a raíz de una base de
datos inmensa. Analizando las relaciones entre
parámetros como edad de los clientes, género,
gustos…se puede predecir el comportamiento,
intereses e incluso el momento en el que van a
darse de baja en algún servicio.

Ejemplos:
● Segmentación de clientes, analizando su
comportamiento transaccional en productos
y servicios.

● Análisis de desgaste, en el que se generen

alertas cuando un cliente tiene un cambio de
comportamiento.
Data mining en bancos
Los bancos recurren al mining para analizar el
riesgo del mercado. Se dedican a analizar y
comprender los datos aportados por cada
transacción, movimientos de tarjeta, patrones de
compra.

Ejemplos de uso:
● Predicciones para reducir las pérdidas en
préstamos, identiﬁcando a tiempo deudas
que serán incobrables.

● Alta detección de riesgos, al ajustar los

parámetros de préstamos para maximizar las
ganancias.

● Detectar el fraude en tarjetas de crédito,

identiﬁcando parámetros de comportamiento
fraudulento.
Data mining en
supermercados
Los supermercados pueden analizar el
conjunto de compras masivas que hacen sus
clientes, para identiﬁcar asociaciones de
productos o las ofertas que mejor han
funcionado.

Con la tecnología oportuna, podrán decidir

dónde colocar los productos en las
estanterías o que productos colocar en la cola
de la caja para aumentar sus ventas.

Este mercado ha sido pionero en el desarrollo

y aplicación de técnicas para mejorar los
indicadores de venta.
Data mining en medicina
La medicina crea grandes bases de datos con
la información de sus pacientes sobre:
● Historial clínico
● Exámenes físicos
● Patrones de terapias anteriores

Con toda esta data, son capaces de ofrecer

diagnósticos más precisos. Además, permiten
agilizar la gestión y los trámites
administrativos, al tener toda la información
bien segmentada y localizada.

Hoy en día, además, el data mining se usa

para la detección de anomalías en imágenes
de diagnóstico.
Tareas y modelos
Tareas del Data mining
Generalmente divididas en dos grandes categorías:
1. Predictive tasks: El objetivo es predecir el
valor de un atributo a partir del valor de otros
atributos. El atributo a predecir se llama
variable dependiente u objetivo (target), las
variables usadas para la predicción son
conocidas como variables independientes o
explicativas (explanatory variable).

2. Descriptive tasks: Aquí, el objetivo es derivar

patrones que permitan resumir las relaciones
subyacentes en los datos. Son tareas
explicativas por naturaleza que
frecuentemente requieren de técnicas de
post-procesamiento para validar y explicar
los resultados.

Figura: Tareas principales del Data mining.

Clasiﬁcación

→ Usados para variables objetivo discretas. Por

ejemplo, predecir si un cliente va a comprar
(convertir) en un e-commerce es una tarea de
clasiﬁcación. La variable objetivo tiene dominio
binario.
Modelos predictivos
Regresión
Se reﬁere a la tarea de
construcción de un modelo que → Usados para variables objetivo continuas. Por
permita obtener la variable ejemplo, el forecast del precio de un artículo del
objetivo como función de las stock de un retail, es una tarea de regresión ya que
variables independientes. la variable precio es del dominio real o continuo.

En ambos casos, el objetivo es encontrar un modelo que

permita minimizar el error entre los valores estimados y el
valor real de la variable target.
Ejemplo: Churn
Un ejemplo habitual es el de la detección de patrones
de fuga. En muchas industrias (banca,
telecomunicaciones) existe un razonable interés en
detectar (cuanto antes) aquellos clientes que puedan
estar analizando rescindir sus contratos y/o pasarse a
la competencia.

Por medio de modelos de clasiﬁcación, podríamos

listar los clientes que estimamos, podrían abandonar
la compañía en el corto plazo. Sobre ellos, la empresa
podría desarrollar ofertas o promociones especiales
con el objetivo principal es retenerlos.

La minería de datos ayuda a determinar qué clientes

son los más proclives a darse de baja estudiando sus
patrones de comportamiento y comparándolos con
muestras de clientes que, efectivamente, se dieron de
baja en el pasado.
Reglas de asociación

Usados para descubrir patrones que deﬁnen una fuerte relación entre variables
de un dataset. Los patrones se representan usualmente como reglas de
implicación. El objetivo es encontrar los patrones más interesantes de manera
óptima ante la posibilidad de búsquedas exponencialmente costosas.

Análisis de clusters
Modelos El objetivo es encontrar grupos de observaciones relacionadas de manera que
descriptivos las que pertenecen a un grupo sean “similares” unas con otras y menos
“cercanas” a observaciones que pertenezcan a otros grupos. El objetivo es
deﬁnir grupos de elementos cuyos elementos tengan distancia mínima cuando
son del mismo clúster mientras que la distancia entre elementos de otros
clusters debería maximizarse.

Detección de anomalías

El objetivo es identiﬁcar las observaciones cuyas características sean

signiﬁcativamente diferentes del resto de las observaciones. Tales
observaciones son conocidas como anomalías o outliers.
Ejemplo: Carrito de compras de
supermercado
Es el estudio que se ha realizado sobre las
transacciones de compra en los supermercados en
años de transacciones almacenadas.

Por medio de las reglas de asociación, se lograron

describir fuertes relaciones entre ciertos productos
que permitió a las empresas tomar acciones:
● Recomendaciones.
● Ofrecimiento de cupones.
● Cross selling y up selling.
● Modiﬁcaciones en las disposiciones de las
góndolas.
● Otras.
Ejemplo: Segmentación del
mercado
En este caso, el objetivo es dividir el mercado en
diferentes conjuntos de clientes donde cualquier
cluster pueda ser objeto de un programa de
marketing particular.

Aproximación a la solución:
● Reunir datos de los clientes, basados en zonas
geográﬁcas donde viven y estilos de vida.
● Encontrar conglomerados de clientes similares.
● Medir la calidad del conglomerado observando
patrones de compra de clientes dentro del
mismo grupo versus el comportamiento de
clientes en otros grupos. Feedback del
modelo.
Ejemplo: Agrupamiento de
documentos
Una publicación periodística puede ser una
fuente útil para realizar un análisis de clusters
con base en sus tópicos o contenido.

Cada artículo puede ser representado por

conjuntos de pares (palabra, cantidad de
apariciones) o (w, c).
Cada palabra es afín a un tópico y la
frecuencia de aparición deﬁne a qué clúster
puede asociarse cada artículo particular.
Ejemplo: Fraudes con TC
Una compañía emisora de tarjeta puede persistir
los datos de los tarjetahabientes, tales como:
● Datos personales.
● Límites de crédito.
● Ingresos anuales.

Junto a estos datos, también persiste las

transacciones realizadas (hechos) que pueden ser
usados para crear un perﬁl de consumo de cada
usuario con las transacciones “legítimas” de cada
uno.

Ante cada evento, la compañía puede analizar si la

operación está dentro del rango de transacciones
habituales o si debe “marcarla” como potencial
fraude cuando la misma diﬁera de las
transacciones del perﬁl.
Extensiones del Data mining
Web mining

Extensión de la aplicación de técnicas propias del Data mining a documentos y sitios

web. Es la explotación de los datos que cada sesión web puede “dejar” en los hosts o
servidores de contenido.
Puede clasiﬁcarse según el dominio de datos que es objeto de explotación u análisis:
1. Web content mining: Es el proceso que consiste en la extracción de conocimiento
del contenido de documentos o sus descripciones.

2. Web structure mining: Es el proceso de inferir conocimiento de la organización del

WWW y la estructura de sus vínculos (links).

3. Web usage mining: Es el proceso de extracción de modelos interesantes usando

los logs de los accesos al web.
Text mining

Debido a que las compañías aún conservan gran cantidad de información en formato
no estructurado o documentos, es por lo que se han desarrollado técnicas de
extracción de patrones en estos “repositorios”.

Algunas técnicas que podrían aplicarse dentro de esta extensión de la minería podrían
ser:
● Clasiﬁcación de textos.
○ Por palabras claves.
○ Por similitud.
● Procesamiento del lenguaje natural.

(*) En los últimos años ha sido muy utilizado en los procesos electorales de los países más avanzados del
mundo para identiﬁcar el sentimiento en las publicaciones en medios y redes sociales o medir el nivel de
popularidad del candidato.
Fases en el proceso de Data
mining
Análisis de
Fases
datos
Entendemos Data mining como una parte
importante dentro del proceso de
Preparación
descubrimiento del conocimiento (KD), pero a
Análisis del su vez, DM es un proceso en sí mismo que se
de los datos
negocio
encuentra dividido en fases.

Como referencia, se desarrolló el modelo

Bases de datos
o CRISP Cross Industry Standard Process. Este
Enterprise Data modelo proporciona la descripción del ciclo
Warehouse de vida de un proyecto de Data Mining.
Despliegue
y
Modelado
explotación Este ciclo de vida tiene estas fases:
comprensión del negocio, comprensión de los
datos, preparación de datos, modelado,
evaluación y despliegue.
Evaluación
● Comprensión del negocio:

Se encuentra enfocada en la comprensión de los objetivos y exigencias de proyecto partiendo

desde la perspectiva del negocio. Tras ello, es necesario adquirir este conocimiento de los datos
(desde el punto de vista del negocio) y convertirlo en la deﬁnición de un problema de minería de
datos, trazando un plan preliminar de acuerdo a los objetivos planiﬁcados.

● Comprensión de los datos:

Comienza con la colección de datos inicial para continuar con las actividades que permiten
alcanzar una familiaridad o aﬁnidad con ellos para poder identiﬁcar los problemas de calidad de
datos. La calidad de datos tiene varias dimensiones: exactitud, totalidad o completitud,
oportunidad, relevancia, nivel de detalle y consistencia, por lo que será necesario comprobar como
son los datos en cada una de estas dimensiones.
En esta fase, ya se pueden empezar a descubrir los primeros conocimientos en los datos, detectar
aquellos conjuntos o subconjuntos de información interesantes para formar hipótesis que
permitan avanzar en el descubrimiento de información oculta.
● Preparación de datos:

Consta de todas las actividades necesarias para adaptar los datos origen en bruto y aproximarlos al
conjunto de datos ﬁnal (los datos que serán fuente de las herramientas de modelado).
Las tareas de preparación o de limpieza de datos van a ser realizadas repetidas veces y no en cualquier
orden. Entre estas tareas tenemos la selección de tablas, registros y atributos, así como la transformación
y la limpieza de datos para su preparación para las herramientas de modelado.

● Modelado:

Como ya vimos, existen múltiples técnicas de modelado de datos, siendo en esta fase del proceso
cuando, tras el conocimiento adquirido, se seleccionan las adecuadas (siempre de acuerdo a los objetivos
de negocio y del proyecto) y se aplican. En esta fase se buscan los siguientes cuatro tipos de relaciones:
● Clases: las observaciones se asignan a grupos predeterminados.
● Clusters: se construyen grupos de observaciones similares según un criterio prefijado.
● Asociaciones: las observaciones son usadas para identificar asociaciones entre variables.
● Patrones secuenciales: se trata de identificar patrones de comportamiento y tendencias.
● Evaluación:

En esta etapa del proyecto ya se ha construido un modelo. Para asegurarnos de que se cumple con los
estándares de calidad propuestos, es necesario evaluarlo desde una perspectiva de análisis de datos. Es
decir, es importante realizar una batería de pruebas junto con la revisión de cada paso ejecutado en la
creación del modelo, que ayude a comparar el modelo obtenido con los objetivos de negocio.
Un objetivo clave es determinar si se han cubierto todas las expectativas de negocio, asegurando que no
haya “gaps”.

● Despliegue o Explotación:

En esta fase es donde se usan los resultados del proceso, dependiendo de los requerimientos, puede ser
tan sencillo como la generación de un informe o tan complejo como la realización repetida de un proceso
cruzado de minería de datos a través de la empresa. Por lo que, en muchos casos, es el propio cliente
quien realiza la explotación. Una vez que el conocimiento descubierto se presenta al usuario, las medidas
de evaluación pueden mejorarse, la minería puede ser refinada, nuevos datos se pueden seleccionar e
incorporar nuevas fuentes de datos, todo esto para obtener resultados diferentes o más apropiados.
Roles y especialidades
Analistas de datos
Son profesionales de datos con experiencia dentro de su organización que pueden consultar y procesar datos,
crear informes, resumir y visualizar datos. Tienen un sólido conocimiento de cómo aprovechar las herramientas y
los métodos existentes para resolver un problema, y ayudan a otros miembros de la empresa a comprender
consultas específicas con informes y cuadros específicos.

No se espera que traten con el análisis de grandes volúmenes de datos, ni se espera que tengan los antecedentes
matemáticos o de investigación para desarrollar nuevos algoritmos para problemas especíﬁcos.

Habilidades: deben tener una comprensión básica de algunas habilidades:

estadísticas, recopilación de datos, visualización de datos, análisis
exploratorio de datos.

Herramientas: Microsoft Excel, SPSS, SPSS Modeler, SAS, SAS Miner,

SQL, Microsoft Access, Tableau, Power BI, otras herramientas de
visualización del mercado.
Desarrolladores
Los desarrolladores de BI son expertos en datos que interactúan más estrechamente con las partes interesadas en
comprender las necesidades de informes y luego recopilar requisitos, diseñar y crear soluciones de BI para cubrir
estas necesidades.
Entre sus responsabilidades están: diseñar, desarrollar y dar soporte sobre los objetos del data warehouse,
paquetes ETL, cubos, paneles de control e informes analíticos nuevos y existentes. Además, trabajan con bases de
datos, tanto relacionales como multidimensionales, y deben tener excelentes habilidades de desarrollo de SQL
para integrar datos de diferentes recursos.
(Normalmente) no está dentro de sus responsabilidades, realizar análisis de datos.

Habilidades: ETL, elaborar reportes, OLAP, cubos.

Herramientas: Tableau, dashboard tools, SQL, SSAS,

SSIS, SPSS Modeler, Python, Airﬂow, ODI, OBIEE,
MSIS.
Ingenieros de datos
Son los profesionales de datos que preparan la infraestructura utilizada por cientíﬁcos de datos. Son ingenieros de
software que diseñan, construyen, integran datos de diversos recursos y administran estos recursos. Luego,
escriben consultas complejas sobre eso, se aseguran de que sea fácilmente accesible, que funcione sin problemas y
que su objetivo sea optimizar el rendimiento del gran ecosistema de datos de su empresa.
También pueden ejecutar algunos ETL sobre grandes conjuntos de datos y crear marts o data warehouses que
pueden ser utilizados para informes o análisis por otros profesionales. Son responsables del diseño y la
arquitectura de datos.
(Generalmente) no se espera que conozcan profundamente métodos de aprendizaje automático o análisis de Big
data.

Habilidades: ETL, Hadoop, MapReduce, Hive, Pig, Data streaming,

NoSQL, SQL, programación.

Herramientas: PostgreSQL, MySQL, MongoDB, Cassandra, Python,

Airflow, Tecnologías Cloud, IDEs de consultas.
Científicos de datos
Aplican estadística, aprendizaje automático y enfoques analíticos para resolver problemas empresariales críticos.
Su función principal es ayudar a las organizaciones a convertir sus activos de datos en información valiosa y útil.
Puede considerarse como un nivel avanzado de análisis de datos que está impulsado y automatizado por el
aprendizaje automático. En otra palabra, en comparación con los "analistas de datos", además de las habilidades
analíticas de datos, se espera que los científicos de datos tengan una gran capacidad de programación, una
capacidad para diseñar nuevos algoritmos, manejar grandes volúmenes de datos, con cierta experiencia en el
conocimiento del dominio. También se espera que interpreten y entreguen con elocuencia los resultados de sus
hallazgos, mediante técnicas de visualización, aplicaciones de ciencia de datos de construcción o narrando
historias interesantes sobre las soluciones a sus problemas de datos (negocios)...

Habilidades: Python, R, Scala, Apache Spark, Hadoop,

machine learning, deep learning, estadística.

Herramientas: Data Science Experience, Jupyter,

RStudio, PostgreSQL, MySQL, MongoDB, Cassandra,
Python, Airﬂow, Tecnologías Cloud, IDEs de consultas.
Otros roles
● Administrador de bases de datos: Su labor seguirá siendo la misma que lleva realizando durante muchos años con
bases de datos relacionales, pero añadiendo habilidades relacionadas con bases de datos NoSQL.

● Analista de negocio: Son los responsables de generar la visión del negocio desde la información obtenida en
proyectos Big Data/BI/DM.

● Propietario de los datos: Este es quien conoce el dato, su función y sensibilidad en la empresa y por tanto es quien
tiene que decir qué nivel de servicio y garantías requiere cada tipo de datos y cuál podría ser la afectación al negocio
en caso de pérdida.

● Usuario de los datos: Personas/equipos/aplicaciones que utilizan los datos

para su trabajo diario. Los que vulgarmente llamaríamos cliente de los
datos.

● Chief Data Oﬃcer: Es el responsable de asegurar que la organización es

data driven. Lidera la gestión de datos y analítica asociada por el negocio
y, por tanto, es responsable de los diferentes equipos especialidades en
datos.

● Data Steward: Es responsable de mantener la calidad, disponibilidad y

seguridad de los datos. Persigue la mejora en el almacenamiento y
presentación de los datos. Tiene conocimientos de los procesos de
negocio y de cómo los datos se utilizan dentro de los mismos.
Perfiles: Data Engineer
● Es la persona que identifica diferentes fuentes de datos, recopila, limpia, transforma y modela los datos de una manera
significativa y los almacena en repositorios de datos dedicados: Data Lakes y/o Data warehouses. Sienta las bases para que
luego los datos se puedan analizar fácilmente para luego obtener conocimientos.

● Crea y mantiene los ﬂujos de datos y la infraestructura para lograr esta tarea utilizando diferentes herramientas. Este es uno
de los aspectos más complejos de hacer en el ecosistema de análisis de datos, ya que diferentes fuentes almacenan datos
en muchos lugares, formas y formatos diferentes.

● Debe tener un buen conocimiento sobre las fuentes de datos que consume y también sobre los procesos comerciales
relevantes.
Perﬁles: Data Analyst

● Los datos completamente transformados se pueden usar para

obtener información detallada y este trabajo le corresponde al
Data Analyst, quien analiza el conjunto de datos mediante el
uso de herramientas y lenguajes de consulta tales como el
SQL.

● Trabaja en estrecha colaboración con las partes interesadas

para comprender lo que realmente necesitan: análisis de
requisitos, solicita al Data Engineer los datos que el analista
necesita para realizar el análisis y proporciona a las partes
interesadas los conocimientos del negocio: visión general del
negocio y/o análisis de tendencias.

● Produce varios informes y paneles de control o dashboards

que las partes interesadas pueden utilizar para tomar
decisiones comerciales importantes para el crecimiento de la
empresa. Requiere de muy buen manejo de herramientas de
visualización.
Perﬁles: Data Scientist

● El papel del cientíﬁco de datos es estudiar el futuro y

hacer predicciones sobre él en función de las
tendencias actuales.

● Crean productos de datos sobre los conjuntos de datos

en términos de aprendizaje automático, aprendizaje
profundo, sistemas de inteligencia artiﬁcial, como
servicios de recomendación y automóviles autónomos,
etc.

● En muchas compañías, el alcance del rol no se

encuentra debidamente delimitado, por lo que muchas
veces, los data scientist realizan muchas tareas propias
de los Data Architect y Data Engineer.
Visualization tools
Visualización de datos
La visualización de datos es una forma de
transmitir a una audiencia los mensajes clave que
se encuentran dentro de la inteligencia de
negocios de una organización. Aunque la
representación gráﬁca de los datos comerciales
es un elemento clave, una buena visualización de
datos es más que solo cuadros y gráﬁcos;
También debe crear una narrativa que cuente la
historia de la organización y lleve a la audiencia a
las conclusiones correctas.

Un objetivo más que relevante de las

herramientas de visualización de datos, es servir
de soporte a los analistas para lograr convencer
y persuadir a los tomadores de decisiones.
¿Qué herramienta elegir?
Debido a la creciente cantidad de nuevas
herramientas para la explotación y
visualización de los datos, resulta una tarea
compleja la de elegir una herramienta que se
ajuste a las necesidades de nuestro negocio.

Como un marco teórico para la selección,

podemos pensar en estos factores:
1. Elección en base a los objetivos:
analizar o comunicar.
2. Elección en base a la facilidad de uso:
herramienta gráﬁcas o visualizaciones
pre-hechas.
● Visualización para el análisis:

➔ Orientada a preguntas como ¿Qué hay en los datos?

➔ Representación de las estructuras de datos.

● Visualización para la comunicación:

Según los objetivos
➔ En estos escenarios, conocemos bien la información,
comprendemos cuáles son los patrones en los datos, pero
necesitamos comunicar de manera eficiente las conclusiones, o
debemos dirigirnos a un público específico, por lo que se
necesita traducir la complejidad a un lenguaje más amigable y
que facilite la comprensión.
➔ Herramientas intuitivas y de fácil adopción para los que no tienen
skills técnicos.
● Herramientas gráficas estandarizadas:

➔ Principalmente usadas por diseñadores, periodistas, fotógrafos,

etc.
➔ Intuitivas pero requieren de esfuerzo para crear gráﬁcos
estadísticos.

Según la complejidad de ● Visualización pre-fabricadas:

la herramienta
➔ Herramientas que permiten ingresar los datos y seleccionar la
representación desde una serie de opciones (galerías).
➔ Usadas por cientíﬁcos de datos, programadores, analistas de
datos, etc.
THANKS!
Any questions?
You can find me at
[Link]@[Link]
nsouza@[Link]

También podría gustarte

Sesión 2 - DWH y Procesos para La Toma de Decisiones
Aún no hay calificaciones
Sesión 2 - DWH y Procesos para La Toma de Decisiones
49 páginas
Intelogencia de Negocios
Aún no hay calificaciones
Intelogencia de Negocios
51 páginas
Aca2 Final
Aún no hay calificaciones
Aca2 Final
12 páginas
Sesion 02 BigData
Aún no hay calificaciones
Sesion 02 BigData
16 páginas
Que Es Datawarehouse
Aún no hay calificaciones
Que Es Datawarehouse
6 páginas
Business Inteiligence
Aún no hay calificaciones
Business Inteiligence
16 páginas
CH04 Componentes de BI v3
Aún no hay calificaciones
CH04 Componentes de BI v3
29 páginas
Mineriadedatos 1229479290664133 1
Aún no hay calificaciones
Mineriadedatos 1229479290664133 1
44 páginas
Curso Completo BI Aplicado A Finanzas
Aún no hay calificaciones
Curso Completo BI Aplicado A Finanzas
126 páginas
Tema 2 Inteligencia de Negocios
Aún no hay calificaciones
Tema 2 Inteligencia de Negocios
12 páginas
+ + + SISTEMAS DE SOPORTE A LAS DECISIONES - Cap. 3 PDF
Aún no hay calificaciones
+ + + SISTEMAS DE SOPORTE A LAS DECISIONES - Cap. 3 PDF
60 páginas
Ing Cesar Unidad 5
Aún no hay calificaciones
Ing Cesar Unidad 5
8 páginas
Inteligencia de Negocios y BI
0% (2)
Inteligencia de Negocios y BI
29 páginas
PPT
Aún no hay calificaciones
PPT
53 páginas
DataWareHouse y Consultas
Aún no hay calificaciones
DataWareHouse y Consultas
15 páginas
TEXTO
Aún no hay calificaciones
TEXTO
4 páginas
Soluciones de Business Intelligence
Aún no hay calificaciones
Soluciones de Business Intelligence
5 páginas
Investigación Data Warehouse, Data Lake y Data Mart U1
Aún no hay calificaciones
Investigación Data Warehouse, Data Lake y Data Mart U1
5 páginas
Mapa Conceptual
Aún no hay calificaciones
Mapa Conceptual
2 páginas
Trabajo Grupal N°2
Aún no hay calificaciones
Trabajo Grupal N°2
12 páginas
Clase 1
Aún no hay calificaciones
Clase 1
49 páginas
Introduccion Big Data
Aún no hay calificaciones
Introduccion Big Data
25 páginas
Estrategias de Data Warehouse
Aún no hay calificaciones
Estrategias de Data Warehouse
3 páginas
Inteligencia de Negocios - Tecnología de Punta
Aún no hay calificaciones
Inteligencia de Negocios - Tecnología de Punta
22 páginas
Que Es Bussiness Intelligence
Aún no hay calificaciones
Que Es Bussiness Intelligence
30 páginas
Resuemen Datawarehouse
Aún no hay calificaciones
Resuemen Datawarehouse
4 páginas
Glosario de Business Intelligence y Data Warehousing
Aún no hay calificaciones
Glosario de Business Intelligence y Data Warehousing
95 páginas
Objetivo Justificacion
Aún no hay calificaciones
Objetivo Justificacion
8 páginas
Base de Datos Extemp
Aún no hay calificaciones
Base de Datos Extemp
24 páginas
Características del Data Warehouse
Aún no hay calificaciones
Características del Data Warehouse
21 páginas
UNIDAD 5 Inteligencia de Negocios
Aún no hay calificaciones
UNIDAD 5 Inteligencia de Negocios
10 páginas
Clase 3: Analítica e Inteligencia de Negocios Aplicadas
Aún no hay calificaciones
Clase 3: Analítica e Inteligencia de Negocios Aplicadas
22 páginas
Resumen Unidad 2
Aún no hay calificaciones
Resumen Unidad 2
10 páginas
Introducción a la Inteligencia de Negocios
Aún no hay calificaciones
Introducción a la Inteligencia de Negocios
14 páginas
Datawarehouse: Integración y Análisis de Datos
Aún no hay calificaciones
Datawarehouse: Integración y Análisis de Datos
11 páginas
Actividad7 2gemamendez
Aún no hay calificaciones
Actividad7 2gemamendez
5 páginas
Guía Esencial de Data Warehousing
0% (1)
Guía Esencial de Data Warehousing
7 páginas
Resumen Base de Datos II
Aún no hay calificaciones
Resumen Base de Datos II
20 páginas
Introducción a Datawarehouse y Datamining
Aún no hay calificaciones
Introducción a Datawarehouse y Datamining
10 páginas
Introducción a la Inteligencia de Negocios
Aún no hay calificaciones
Introducción a la Inteligencia de Negocios
79 páginas
SEM2 DataWarehouseyDatamart
Aún no hay calificaciones
SEM2 DataWarehouseyDatamart
30 páginas
Clase 01 - Intro A BI - UTN
Aún no hay calificaciones
Clase 01 - Intro A BI - UTN
44 páginas
Curso de Data Warehousing y BI
100% (2)
Curso de Data Warehousing y BI
120 páginas
Introducción a Inteligencia de Negocios
Aún no hay calificaciones
Introducción a Inteligencia de Negocios
17 páginas
Electiva
Aún no hay calificaciones
Electiva
27 páginas
Introducción al Business Intelligence
Aún no hay calificaciones
Introducción al Business Intelligence
29 páginas
Data Warehouse
Aún no hay calificaciones
Data Warehouse
14 páginas
Glosario PB
Aún no hay calificaciones
Glosario PB
5 páginas
Clase 14 DW-BI
Aún no hay calificaciones
Clase 14 DW-BI
15 páginas
Datawarehouse
Aún no hay calificaciones
Datawarehouse
17 páginas
Diapositivas Unidad 1 Gopar Inteligencia de Negocios
Aún no hay calificaciones
Diapositivas Unidad 1 Gopar Inteligencia de Negocios
72 páginas
Bi
Aún no hay calificaciones
Bi
3 páginas
Capítulo 2. Diseño de Un Data Warehouse
Aún no hay calificaciones
Capítulo 2. Diseño de Un Data Warehouse
21 páginas
Inteligencia de Negocios: Estado Actual
Aún no hay calificaciones
Inteligencia de Negocios: Estado Actual
3 páginas
Tema (1) - Introduccion Al DW.
Aún no hay calificaciones
Tema (1) - Introduccion Al DW.
38 páginas
Clase 5
Aún no hay calificaciones
Clase 5
45 páginas
Primer Trabajo - Diseño Conceptual de Una Solucion BI
Aún no hay calificaciones
Primer Trabajo - Diseño Conceptual de Una Solucion BI
4 páginas
4to Uda2 2025
Aún no hay calificaciones
4to Uda2 2025
7 páginas
Tabla de Asignación de Archivos: Índice
Aún no hay calificaciones
Tabla de Asignación de Archivos: Índice
9 páginas
Telecirugía
Aún no hay calificaciones
Telecirugía
99 páginas
Tabla de Hecho y Dimensiones
Aún no hay calificaciones
Tabla de Hecho y Dimensiones
7 páginas
Rappi Inventario Aliado - ES
Aún no hay calificaciones
Rappi Inventario Aliado - ES
27 páginas
Herramientas y Funciones en SAS
Aún no hay calificaciones
Herramientas y Funciones en SAS
112 páginas
Manual IFCD94. Herramientas Del Big Data y Gobierno Del Dato
Aún no hay calificaciones
Manual IFCD94. Herramientas Del Big Data y Gobierno Del Dato
95 páginas
Desarrollo Personal 2°
Aún no hay calificaciones
Desarrollo Personal 2°
19 páginas
Automatización Industrial - Variables (Tags) de PLC
Aún no hay calificaciones
Automatización Industrial - Variables (Tags) de PLC
11 páginas
Contenido Manejo e Implementacioěn de Archivos 2022 - v3.0
Aún no hay calificaciones
Contenido Manejo e Implementacioěn de Archivos 2022 - v3.0
7 páginas
Guia de Inicio Informix
Aún no hay calificaciones
Guia de Inicio Informix
190 páginas
DIPLOMADO IN Business Intelligence
Aún no hay calificaciones
DIPLOMADO IN Business Intelligence
2 páginas
Anomalias Codd
100% (1)
Anomalias Codd
4 páginas
2023-Ballén Gestión Cadena Suministro
Aún no hay calificaciones
2023-Ballén Gestión Cadena Suministro
27 páginas
Anava Deba Simple Me
Aún no hay calificaciones
Anava Deba Simple Me
12 páginas
Tarea 4 BD
Aún no hay calificaciones
Tarea 4 BD
6 páginas
25 - Informe Situacional
Aún no hay calificaciones
25 - Informe Situacional
33 páginas
Contenidos Curso Geo Bolivia
Aún no hay calificaciones
Contenidos Curso Geo Bolivia
5 páginas
Adquisición de Datos en Redes Sociales
Aún no hay calificaciones
Adquisición de Datos en Redes Sociales
4 páginas
Consolidado - Estructuras de Datos-1
Aún no hay calificaciones
Consolidado - Estructuras de Datos-1
296 páginas
Examen Cultura Digital Mod 1
Aún no hay calificaciones
Examen Cultura Digital Mod 1
18 páginas
Programa Fintech para Profesionales
Aún no hay calificaciones
Programa Fintech para Profesionales
20 páginas
Método Científico en La Criminalística-InspTec
Aún no hay calificaciones
Método Científico en La Criminalística-InspTec
2 páginas
Curso Completo de Bases de Datos
100% (1)
Curso Completo de Bases de Datos
23 páginas
Gestión de Excepciones en Oracle
Aún no hay calificaciones
Gestión de Excepciones en Oracle
24 páginas
Preguntas de Verdadero
Aún no hay calificaciones
Preguntas de Verdadero
3 páginas
4° - UNIDAD - 6 - PRIMAVERA - BIODIVERSIDAD - Y - JUEGOS - FLORALES - 933623393 - PROF - YESSENIA - CN (1) (Recuperado Automáticamente)
Aún no hay calificaciones
4° - UNIDAD - 6 - PRIMAVERA - BIODIVERSIDAD - Y - JUEGOS - FLORALES - 933623393 - PROF - YESSENIA - CN (1) (Recuperado Automáticamente)
28 páginas
Actualización de Datos en POSINT Mercal
Aún no hay calificaciones
Actualización de Datos en POSINT Mercal
7 páginas
Ejercicios Memorias
Aún no hay calificaciones
Ejercicios Memorias
9 páginas
Factores y Planes de Muestreo para Control de Calidad
Aún no hay calificaciones
Factores y Planes de Muestreo para Control de Calidad
9 páginas