1
La Ciencia de Datos y su
aplicación en enfoques y
modelos de Gestión y Costos
Marcelo Podmoguilnye
Daniel Farré
01
Objetivo: Reflexionar sobre las
diferencias entre Big Data y
Ciencia de Datos aplicada, y
en el impacto de estos sobre
nuestro rol en Gestión y Costos
02
Disparador: Desde las 3V del
Big Data a los Lakehouses
Las tres “V” del Big Data 4
El planteo de Doug Laney
VELOCIDAD
No solo aumenta el volumen de
datos sino tambíen su tasa de
generación.
VOLUMEN
Big Data Mas usuarios. Mas dispositivos se
habilitan para internet.
Crecimiento asombroso de datos.
VARIEDAD
Se refiere tanto a la combinación de los datos
estructurados y semi estructurados de la Big Data, como a
los diferentes niveles de complejidad que resuelve la ciencia
de datos.
Las nuevas “V”: ¿Big Data o BD Analytics? 5
VELOCIDAD
VARIEDAD
VOLUMEN VALOR
BIG DATA
VISUALIZACIÓN
VERACIDAD BDA
VARIABILIDAD
VISCOSIDAD
VIRALIZACIÓN VALIDACIÓN
03
Alcance: ¿Qué entendemos por Big
Data Analytics ?
Alcance del Big Data Analytics 7
Estadística Neurociencia
Computacional
Reconocimiento
de patrones
Minería de datos Inteligencia
Machine Artificial
Learning
Bases de datos
t i c s
a l y
An
ata
i g D Descubrimiento de conocimiento
B en bases de datos (KDD)
04
Causas: ¿Por qué ahora? Qué
fenómeno socio-
tecnológico lo produce?
Dos grandes movimientos
Comportamiento Avance
social Tecnológico
HÁBITO DE USO COMPUTACIÓN PERVASIVA
La utilización constante de dispositivos dotados de Computación ubicua que acompaña al cambio
internet y de aplicativos que recopilan, de manera comportamental con todo tipo de canales,
permanente, información sobre sus comportamientos, tecnologías, sistemas, dispositivos y artefactos,
tanto en sus movimientos económicos cuanto en propagándose con efecto rizomático
información personal y social.
INTERNET DE LAS COSAS (IOT)
WIKI 2.0
Potenciado por la reducción de los costos
La cultura de compartir públicamente en de originación, conservación y publicación de una
distintas redes sociales distinto tipo de cantidad inmensa de datos que logra superar a la
información personal y de conocimiento generada por el ingreso humano
05
Jerarquía DIKW: ¿Cómo se
relacionan estas tecnologías con la
jerarquía Datos-Información-
Conocimiento-Sabiduría?
Relación con la pirámide del conocimiento
Entender los principios para pasar de Conocimiento a Sabiduría
Entender los patrones para pasar de Información a Conocimiento
Entender las relaciones para pasar de Dato a Información
06
Cambio de plataforma
tecnológica para la Gestión: Del
Datawarehouse-Data Marts al
Data Lake-Lakehouses
Del Data Mart al Lakehouse 13
Fenómeno de erosión de la información,
manifestado en la pérdida de cantidad, calidad
y multidimensionalidad de los datos durante el
ciclo que va desde su captación a su mutación
de la información, y finalmente la generación de
conocimiento para la toma de decisiones y la
conducción empresarial.
Del Data Mart al Lakehouse
El síndrome de fatiga por información,
originado por la sobrecarga de datos no
focalizados en los objetivos estratégicos de los
negocios.
07
8. Nuevo rol del profesional de
gestión y costos: Ser “El
arquitecto de nuestra casa en el
lago”
Del Data Mart al Lakehouse
Nuestro Rol: Definición teleológica de las
ROL 2
necesidades y estructura de información
multidimensional.
Recopilación controlada y estructurada de
información multidimensional,
Ingesta de información con enfoque “pull”
ROL 1
teleológico, depurando y seleccionando en
dicho momento.
Del Data Mart al Lakehouse
ROL 2
Nuestro Rol: Darle sentido de negocio a las
relaciones y patrones ocultos develados por la ROL 1
minería de datos
Enfoque “push”, a la espera de la depuración.
Ingesta en forma de “Raw data”
La Ciencia de Datos encuentra riqueza “oculta”
de los datos y sus relaciones entre sí.
Entendimiento del negocio
La recopilación por registro manual controlado y
Observación sistémica: identificando estructurado es reemplazado por ingestas masivas de
los elementos esenciales de una realidad
información sin filtros de juicio de valor y conservación
económica y su registro estructurado
desestructurada en Lagos de Data.
Taxonomía: Ordenamiento, cálculo e La taxonomía y ordenamiento será apalancado por
identificación de relaciones y consistencia
métodos de segmentación (con y sin ayuda de hipótesis
de datos, ascendiendo la jerarquía DIKW
preliminares).
hacia el nivel de información
Conceptualización: Identificación de
patrones y reinterpretación en la
La identificación de patrones tendrá que ser sustentado
concepción del “Story telling” para lograr
con herramientas de machine Learning
la difusión del conocimiento adquirido
hacia los usuarios del mismo
Toma de decisiones en una Data Driven Company
19
Conducción
Mayor claridad de la comunicación de los objetivos.
Asistencia al alineamiento entre la
ejecución y los objetivos definidos
Diagramación de alertas inmediatas ante la inminencia de
desvíos entre la ejecución y los objetivos en aplicativos
de reglas de negocio complementados con Inteligencia
Artificial / machine learning
08
Proyecto de Datos: Fallas y
sugerencias
Motivos de fallas de los proyectos de datos 22
44 % 27 % 25 % 21 % 19 %
Falta de Falta de Falta de un Mala calidad Habilidades
gobernanza patrocinio caso de de Big Data inadecuadas
de datos empresarial negocio propias para
convincente tratar el Big
Data
23
Etapas de los proyectos de datos 23
Definición de
Planificación: Arquitectura:
Orientación: o lís tico , Siste m a s O p e ra tiv o s , Definición del
pro yecto h
Definiendo , tie m p os Contenedores, modelo de
fijando ro les a e
claramente los s y herram ie n ta s d e D a ta Gob ernanz d
e hitos int e rm e d io
ob jetivos buscados Management, datos
finales. integ ra c ión d e d a to s
inte rn os y ex te rn o s
Evalu ac ió n y
Implantación c ión de
el iz ac ió n d e incremental:
Gen e ra evolución
Mod de uso : a C onjunto
s tru cción pr og re siv as, hábito contín u :
datos : Co n En olas am ien to métricas
h an d o e l A pro ve c h comple to de
con visión de aprov ec
inm ed iato de los para comparar
negocios momentum
organizacional beneficios proyección con
realidad
09
A modo de Conclusión
25
A modo de conclusión 25
Es frecuente confundir los conceptos de Big Data, Ciencia de Datos, Inteligencia Artificial y Aprendizaje
automático. Es nuestro rol aprovechar la potencialidad de la Big Data orientando la Inteligencia artificial con
sus ramas o subconjuntos para agregar valor a la información y provocar que sea útil para su utilización
en procesos directivos críticos.
Relacionando estas tecnologías con la jerarquía DIKW se hace necesario:
1) entender las relaciones para poder pasar del dato a la información
2) comprender los patrones para poder convertir la información en conocimiento y significado
3) Comprender estos principios para pasar del conocimiento a la sabiduría.
La ciencia de datos nos permite develar relaciones ocultas que, luego de nuestro proceso de curaduría
del contenido, dota de agregado de valor al conocimiento organizacional para los procesos de conducción
y de toma de decisiones.
26
A modo de conclusión 26
Identificamos un campo de acción relevante para la actuación profesional, en un terreno en que
la demanda es creciente y no existe la oferta adecuada para satisfacerla. Así como la aparición
de los Datawarehouses y DataMarts nos abrió un nuevo panorama hace algo más de tres
décadas, la aparición de la Big Data y los Lagos de Datos hace una, combinado con el
comienzo de la era de las “Lakehouses” y del efecto Datadriven vuelven a presentarnos desafíos
profesionales de innovación y creatividad. Es sobre estas plataformas donde los profesionales
de la Información de Gestión podemos aportar mayor valor en el entendimiento de la
información y el asesoramiento en los procesos de toma de decisiones y conducción
estratégica de las organizaciones
La “casa del lago”, debería constituirse en un espacio receptor de la información curada de los
lagos de datos, cuyos cimientos tecnológicos serán la Ciencia de Datos, el machine learning y el
business Intelligence;
Será necesario entonces, asumir el rol de ser los arquitectos de casas en el lago para las
organizaciones del futuro.