Autor:
Francisco Garrido
BIG DATA: Aspectos transversales en el tratamiento y la ingeniería del dato
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
Índice
1. ¿Qué es exactamente “big data”?
• Las “5V” de la big data: hacía el valor y la veracidad
• Tipología del dato
• Casos de Uso
• Desventajas
• ¿Cómo funciona? Herramientas
• Best Practices
2. Hacía la ingeniería del dato
• Data mining o minería del dato
• Predyctive Analitics
3. Big Data y el Customer Journey
4. Big Data y el Big Analytics : Datawarehouse
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
1.- ¿Qué es exactamente Big Data?
Definamos big data como el conjunto de técnicas y tecnologías para el tratamiento y el almacenamiento de datos, en entornos
de gran volumen, variedad de orígenes y en los que la velocidad de respuesta es crítica.
Breve Historia de big data
Si bien el concepto "big data" en sí mismo es relativamente nuevo, los orígenes de los grandes conjuntos de datos se remontan a las
décadas de 1960 y 1970, cuando el mundo de los datos acababa de empezar con los primeros centros de datos y el desarrollo de las bases
de datos relacionales.
Alrededor de 2005, la gente empezó a darse cuenta de la cantidad de datos que generaban los usuarios a través de Facebook, YouTube y
otros servicios online. Ese mismo año, se desarrollaría Hadoop, un marco de código abierto creado específicamente para almacenar y
analizar grandes conjuntos de datos. En esta época, también empezaría a adquirir popularidad NoSQL.
El desarrollo de marcos de código abierto tales como Hadoop* (y, más recientemente, Spark) sería esencial para el crecimiento del big
data, pues estos hacían que el big data resultase más fácil de usar y más barato de almacenar. En los años transcurridos desde entonces,
el volumen de big data se ha disparado. Los usuarios continúan generando enormes cantidades de datos, pero ahora los humanos no son
los únicos que lo hacen, con la llegada del Internet de las cosas (IoT), hay un mayor número de objetos y dispositivos conectados a Internet
que generan datos sobre patrones de uso de los clientes y el rendimiento de los productos. El surgimiento del aprendizaje automático ha
producido aún más datos.
Aunque el big data ha llegado lejos, su utilidad no ha hecho más que empezar. El Cloud Computing ha ampliado aún más las posibilidades
del big data. La nube ofrece una escalabilidad realmente elástica, donde los desarrolladores pueden simplemente agilizar clústeres ad hoc
para probar un subconjunto de datos.
*: sobre este tema trabajaremos a lo largo de este módulo
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
1.- ¿Qué es exactamente Big Data?
El Big Data es una de las claves fundamentales para mejorar la gestión de las empresas. Y es que ya se generan más datos en
dos días que en toda nuestra historia contemporánea. Según la consultora Gartner, en el año 2022 habrá más de 55 mil
millones de dispositivos conectados a Internet, lo que nos deja entrever que el volumen de datos contenidos en Big Data va a
crecer exponencialmente.
La importancia de BigData radica en su alto impacto en la industria, en el negocio e incluso en nuestra sociedad y además
ofrece una ventaja competitiva considerable. Big Data nace de la exigencia de dar respuesta a toda una serie de necesidades
del mercado actual, requerimientos que los avances han impulsado y a los que sólo se puede dar satisfacción por medios
tecnológicos. Hoy en día los clientes quieren ser tratados de forma totalmente personalizada. Es por esto que, ser capaces de
detectar sus gustos, se ha convertido en una necesidad de primer nivel para poder aumentar el volumen de ventas,
dirigiéndolas de forma mucho más directa para lograr el éxito esperado.
Además, hay que tener en cuenta que cada individuo se relaciona con otras personas, cuyo análisis permite tanto conocer más
a fondo al propio cliente, como aumentar el número de clientes potenciales. Estos datos se transforman en un conocimiento de
valor incalculable para el negocio.
En la actualidad, la cantidad de datos que se generan es abismal y de una casuística extremadamente compleja para su análisis.
Las empresas cada vez exigen que el análisis sea lo más cercano posible al tiempo real, y en la BigData está la solución, al
traducirse al mismo tiempo las variables de velocidad, variedad y volumen, que componen las 3V principales.
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
1.- ¿Qué es exactamente Big Data?
LAS CINCO “V” DE LA BIG DATA
El Big Data se compone de tres dimensiones principales que lo caracterizan: velocidad, variedad y volumen, pero actualmente
se han incorporado dos más que son valor y veracidad, dando como resultado las cinco dimensiones que lo caracterizan,
conocidas como las 5 V’s del Big Data. Veamos en qué consiste cada uno de estos aspectos: Lo que conocemos como las cinco
dimensiones del dato.
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
1.- ¿Qué es exactamente Big Data?
LAS CINCO “V” DE LA BIG DATA
1.- VOLUMEN: La cantidad de datos
importa. Con big data, se procesará grandes
volúmenes de datos no estructurados de baja
densidad. Puede tratarse de datos de valor
desconocido, como feeds de datos de Twitter,
flujos de clics de una página web o aplicación
para móviles, o equipo con sensores. Para
algunas organizaciones, esto puede suponer
decenas de terabytes de datos. Para otras,
incluso cientos de petabytes.
Una de las características del Big Data es que
nuevos datos se generan constantemente.
Además, como las fuentes son diversas, el
volumen de datos tiende a ser inmenso
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
1.- ¿Qué es exactamente Big Data?
LAS CINCO “V” DE LA BIG DATA
2.- VELOCIDAD: La velocidad es el ritmo al
que se reciben los datos y (posiblemente) al que
se aplica alguna acción. La mayor velocidad de
los datos normalmente se transmite
directamente a la memoria, en vez de escribirse
en un disco. Algunos productos inteligentes
habilitados para Internet funcionan en tiempo
real o prácticamente en tiempo real y requieren
una evaluación y actuación en tiempo real..
No sólo se generan muchos datos y desde
muchas fuentes, sino que lo normal es que la
velocidad a la que se generan estos datos sea
muy alta. Esto provoca un flujo de datos muy
difícil de gestionar con software tradicional.
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
1.- ¿Qué es exactamente Big Data?
LAS CINCO “V” DE LA BIG DATA
3.- VARIEDAD: La variedad hace referencia a los
diversos tipos de datos disponibles. Los tipos de
datos convencionales eran estructurados y podían
organizarse claramente en una base de datos
relacional. Con el auge del big data, los datos se
presentan en nuevos tipos de datos no
estructurados. Los tipos de datos no estructurados
y semiestructurados, como el texto, audio o vídeo,
requieren un preprocesamiento adicional para
poder obtener significado y habilitar los
metadatos.
Debido a la naturaleza unificadora del Big Data, se
debe gestionar la información que llega de fuentes
muy diferentes. Esto supone que, incluso siendo
datos estructurados, tal estructura sea diferente en
cada fuente, lo que supone un nuevo reto a
solventar para la empresa.
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
1.- ¿Qué es exactamente Big Data?
LAS CINCO “V” DE LA BIG DATA
4 y 5: VALOR Y VERACIDAD: En los últimos años, han surgido otras "dos V": valor y veracidad.
Los datos poseen un valor intrínseco. Sin embargo, no tienen ninguna utilidad hasta que dicho valor se descubre. Resulta
igualmente importante: ¿cuál es la veracidad de sus datos y cuánto puede confiar en ellos?
Hoy en día, el big data se ha convertido en un activo crucial. Piense en algunas de las mayores empresas tecnológicas del mundo.
Gran parte del valor que ofrecen procede de sus datos, que analizan constantemente para generar una mayor eficiencia y
desarrollar nuevos productos.
Avances tecnológicos recientes han reducido exponencialmente el coste del almacenamiento y la computación de datos,
haciendo que almacenar datos resulte más fácil y barato que nunca. Actualmente, con un mayor volumen de big data más barato
y accesible, puede tomar decisiones empresariales más acertadas y precisas.
Identificar el valor del big data no pasa solo por analizarlo (que es ya una ventaja en sí misma). Se trata de todo un proceso de
descubrimiento que requiere que los analistas, usuarios empresariales y ejecutivos se planteen las preguntas correctas,
identifiquen patrones, tomen decisiones informadas y predigan comportamientos.
El Big Data debe alimentarse con datos relevantes y verdaderos. No podremos realizar analíticas útiles si muchos de los datos
entrantes provienen de fuentes falsas o con errores en su información.
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
1.- ¿Qué es exactamente Big Data?
LAS CINCO “V” DE LA BIG DATA
Evolución hacía las 10V´s
Últimamente muchas biografías trabajan con una evolución hacías las 10V siendo realmente una evolución de las anteriormente
trabajadas, os adjunto una infografía sobre las 10V´s
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
1.- ¿Qué es exactamente Big Data?
TIPOLOGÍA DEL DATO
según formato del dato
Analicemos ahora y pongamos en contexto a qué nos referimos cuando hablamos de datos. Como «datos» entenderemos cualquier
información relevante para la empresa. Para el resto del módulo asumiremos que estos datos son digitales, aunque en la realidad no
siempre es así.
Si hacemos una clasificación basada en el formato tendremos:
Datos Estructurados: Son los datos que forman parte de una estructura predefinida. Como ejemplos encontramos una hoja de
Excel o una base de datos SQL (lenguaje de programación). Estos datos son fácilmente catalogables, y pueden ser utilizados para
posteriores análisis y predicciones fiables.
Datos no Estructurados: Son aquellos datos que no tienen ni forman parte de una estructura definida. Como ejemplos
encontramos el cuerpo de un email, una conversación por skype, datos escritos en un fichero word, o incluso bases de datos NoSQL.
Estos datos contienen mucha información valiosa, pero al no estar bien estructurada y catalogada, su uso resulta complicado a la hora
de crear informes y realizar análisis.
Datos semi-Estructurados: Datos binarios que no tienen estructura interna identificable. Es un conglomerado masivo y
desorganizado de datos que no tienen valor hasta que se organizan, identificándolos y almacenándolos. Algunos ejemplos de datos
no estructurados son imágenes, vídeos, audios, PDFs, RRSS o .txt.
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
1.- ¿Qué es exactamente Big Data?
TIPOLOGÍA DEL DATO
Si hacemos una clasificación basada en el origen del dato tendremos: “Clasificación IBM”
Los datos de grandes transacciones (Big Transaction Data): Son los registros de facturación, de las llamadas,
telecomunicaciones, etc. Datos que podemos encontrar en formatos semiestructurado o no estructurado. Se incluyen los datos
empresariales que se refieren a la información del cliente, la cual proviene de sistemas como el CRM; inventarios de ventas; datos
transaccionales del ERP, etc.
Redes sociales y páginas web. Se refiere a toda aquella información que se obtiene a través de las transacciones web, y el
contenido que se adquieren de las redes sociales como LinkedIn, Facebook, Twitter, Instagram, etc.
Biométricas. Es aquella información que incluye escaneo de la retina, huellas digitales, reconocimiento genético o facial, etc.
Generados por los seres humanos. Se refiere a todos aquellos datos que generamos los humanos cuando llamamos a un call
center, escribimos correos electrónicos, documentos electrónicos, notas de voz, telecomunicaciones, uso de tarjetas de crédito o
débito, etc.
Máquinas (Machine to Machine M2M). Es decir, aquellas tecnologías que se conectan a otros dispositivos, y los utiliza como
sensores o medidores, los cuales generan un gran volumen de datos, que necesitan ser analizados. Por ejemplo, cuando las
compañías de servicios públicos miden el consumo de agua, gas o electricidad a través de medidores inteligentes y se obtienen
después unos datos que normalmente se monitorizan para conocer mejor ciertas características como la frecuencia o el voltaje.
Nota del profesor: el origen de los datos (fuente) y su trazabilidad con los datos de carácter personal, será uno de los elementos
que trataremos en el webinar sobre privacidad y protección del dato, y actualmente son grandes fuentes de controversia entre las
grandes empresas tech y los estados (Caso Google en la UE).
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
1.- ¿Qué es exactamente Big Data?
CASOS DE USO
Big data puede ayudar a nuestras empresas a abordar una serie de actividades empresariales, desde la
experiencia de cliente hasta la analítica. A continuación, recopilamos algunos de los casos de uso.
Desarrollo de Productos: Empresas como Netflix y Procter & Gamble usan big data para prever la
demanda de los clientes. Construyen modelos predictivos para nuevos productos y servicios clasificando
atributos clave de productos anteriores y actuales, y modelando la relación entre dichos atributos y el
éxito comercial de las ofertas.
Mantenimiento Predictivo: Los factores capaces de predecir fallos mecánicos pueden estar
profundamente ocultos entre datos estructurados (año del equipo, marca o modelo de una máquina) o
entre datos no estructurados que cubren millones de entradas de registros, datos de sensores,
mensajes de error y temperaturas de motor. Al analizar estos indicadores de problemas potenciales
antes de que estos se produzcan, las organizaciones pueden implantar el mantenimiento de una forma
más rentable y optimizar el tiempo de servicio de componentes y equipos
Experiencia de cliente: La carrera por conseguir clientes está en marcha. Disponer de una vista clara de
la experiencia del cliente es más posible que nunca. El big data le permite recopilar datos de redes
sociales, visitas a páginas web, registros de llamadas y otras fuentes para mejorar la experiencia de
interacción, así como maximizar el valor ofrecido. Empiece a formular ofertas personalizadas, reducir las
tasas de abandono de los clientes y gestionar las incidencias de manera proactiva.
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
1.- ¿Qué es exactamente Big Data?
CASOS DE USO
Fraude y Conformidad: En lo que a seguridad se refiere, no se enfrenta a simples piratas informáticos deshonestos, sino a
equipos completos de expertos. Los contextos de seguridad y requisitos de conformidad están en constante evolución. El
big data le ayuda a identificar patrones en los datos que pueden ser indicativos de fraude, al tiempo que concentra grandes
volúmenes de información para agilizar la generación de informes normativos.
Aprendizaje automático: El machine learning o aprendizaje automático es un tema candente en la actualidad. Los datos,
concretamente big data, es uno de los motivos de que así sea. Ahora, en lugar de programarse, las máquinas pueden
aprender. Esto es posible gracias a la disponibilidad de big data para crear modelos de machine learning.
Eficiencia Operativa: Puede que la eficiencia operativa no sea el aspecto más destacado en los titulares, pero es el área en
que big data tiene un mayor impacto. El big data le permite analizar y evaluar la producción, la opinión de los clientes, las
devoluciones y otros factores para reducir las situaciones de falta de stock y anticipar la demanda futura. El big data
también puede utilizarse para mejorar la toma de decisiones en función de la demanda de mercado en cada momento.
Innovación: El big data puede ayudar a innovar mediante el estudio de las interdependencias entre seres humanos,
instituciones, entidades y procesos, y, posteriormente, mediante la determinación de nuevas formas de usar dicha información.
Utilizando las perspectivas que ofrecen los datos para mejorar las decisiones financieras y consideraciones de planificación.
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
1.- ¿Qué es exactamente Big Data?
DESVENTAJAS
Así como esta herramienta posee grandes beneficios, no está exento de algunas desventajas:
• El rechazo a su implementación. La tecnofobia no es inherente a todas las personas, pero si para quienes no entienden muy bien cómo
funcionan ciertas innovaciones. Mientras que hay dudas razonables sobre cómo el manejo de macrodatos puede incidir sobre la privacidad,
hay que realizar una labor informativa. Su aplicación pretende generar avances importantes y facilitar procesos para su bienestar.
• Problemas con la ciberseguridad. La seguridad en la red representa uno de los mayores desafíos para la administración de grandes
cantidades de datos. Las técnicas de protección y los protocolos de almacenamiento deben contrarrestar lo más posible los ataques
sofisticados de los hackers. Aunque no se puede garantizar un resguardo 100% efectivo, hace falta fortalecer los sistemas para reducir al
mínimo los posibles daños.
• Demasiada acumulación de datos. Puede parecer contradictorio, pero se puede dar un escenario en que una organización se quede sin la
capacidad para procesar la ingente generación de datos. Puede ocurrir si no se cuenta con un servicio en la nube o servidores apropiados
para este propósito. Además, si no se cuenta con el equipo de especialistas para extraer el valor, la acumulación de información podría
obstaculizar y hacer más lentas las labores estratégicas relevantes.
• Políticas que protegen la información. Los gobiernos están en su justo derecho de proteger a sus ciudadanos de cualquier acción que
ponga en riesgo su privacidad. Si bien los datos suelen ser anónimos, su recolección puede darse sin conocimiento de causa, transgrediendo
derechos fundamentales. El uso del big data es positivo en muchos aspectos, pero debe tener limitaciones para evitar su manipulación
indebida.
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
1.- ¿Qué es exactamente Big Data?
¿Cómo funciona Big Data? Sus herramientas
El big data le aporta nuevas perspectivas que abren paso a nuevas oportunidades y modelos de negocio. Iniciarse en ello requiere de tres
acciones clave:
Cada vez que hacemos clic en un botón al navegar por internet, cada vez que hacemos scroll en una página, cada vez que
hacemos una transacción bancaria o que leemos una newsletter, generamos un dato. Cada vez que un móvil envía una llamada a
un smartwatch o que compartimos contenido entre la tablet y la televisión, nuestros dispositivos generan un dato. Explicado de
forma muy simplificada, el Big Data:
• Recibe los datos.
• Los almacena.
• Los distribuye entre distintos procesadores (para poder procesarlos a mayor velocidad).
• Procesa los datos.
• Reúne de nuevo los datos.
• Utiliza algoritmos predictivos y prescriptivos para interpretarlos (mediante técnicas de Ciencia de Datos).
• Extrae la información requerida (patrones de comportamiento, oportunidades de negocio, predicciones de venta,
etcétera).
El factor humano entra en el siguiente paso: el Big Data no toma las decisiones finales, sino que da información a las personas para que estas
puedan tomar resoluciones más satisfactorias. No obstante, la industria 4.0 trabaja desde hace tiempo en cerrar el círculo mediante la
aplicación de modelos predictivos y prescriptivos.
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
1.- ¿Qué es exactamente Big Data?
¿Cómo funciona Big Data? Sus herramientas
Como hemos visto en los “casos de uso” la big data aporta nuevas perspectivas que abren paso a nuevas oportunidades y modelos de
negocio. Pero como funciona …
INTEGRAR GESTIONAR ANALIZAR
El big data concentra datos de numerosas El big data requiere almacenamiento. Su La inversión en big data se
fuentes y aplicaciones distintas. Los solución de almacenamiento puede residir rentabiliza en cuanto se analizan y
mecanismos de integración de datos en la nube, on premises o en ambos. Puede utilizan los datos. Adquiera una
convencionales, tales como ETL (extract, almacenar sus datos de cualquier forma que nueva claridad con un análisis visual
transform, load [extraer, transformar, desee e incorporar los requisitos de de sus diversos conjuntos de datos.
cargar]), generalmente no están a la procesamiento de su preferencia y los Continúe explorando los datos para
altura de dicha tarea. Analizar conjuntos motores de procesamiento necesarios a realizar nuevos descubrimientos.
de big data de uno o más terabytes, o dichos conjuntos de datos on-demand. Comparta sus hallazgos con otras
incluso petabytes, de tamaño requiere de Muchas personas eligen su solución de personas. Construya modelos de
nuevas estrategias y tecnologías. almacenamiento en función de dónde datos con aprendizaje automático e
Durante la integración, es necesario residan sus datos en cada momento. La inteligencia artificial. Ponga sus
incorporar los datos, procesarlos y nube está aumentando progresivamente su datos a trabajar.
asegurarse de que estén formateados y popularidad porque es compatible con sus
disponibles de tal forma que los analistas requisitos tecnológicos actuales y porque le
empresariales puedan empezar a permite incorporar recursos a medida que
utilizarlos. los necesita.
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
1.- ¿Qué es exactamente Big Data?
¿Arquitectura de un Sistema de Big Data
Desde un punto de vista de arquitectura y tecnología,
05
04
se puede estructurar un sistema de Big Data en cinco
capas principales: CAPA
03 CAPA
PRESENTACIÓN Y
02
APLICACIÓN
CAPA
ANÁLISIS Y
01
MODELOS Incluye las
CAPA tecnologías de
Esta capa incluye visualización tales
ALMACENAMIENTO diversas como dispositivos
CAPA herramientas de móviles,
INTEGRACIÓN manejo de datos, navegadores ..
Conjunto de que operan Una vez obtenido
recursos sobre los el conocimiento,
adecuados recursos de éste se puede
FUENTE DE DATOS Aquí se para el almacenamiento aplicar en distintos
adquieren los alamcenamien e incluyen la
En esta capa procesos
datos y se to de grandes gestion de los
estarían todos los integran en volúmenes de datos y los
orígenes de la conjuntos con datos modelos de
información, datos el formato programación
estructurados o no adecuado
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
1.- ¿Qué es exactamente Big Data?
¿Cómo funciona Big Data? Sus herramientas
Como el Big Data es algo que no deja de crecer, las herramientas que se usan para gestionarlo evolucionan con él y se perfeccionan
permanentemente.
Se emplean herramientas como Hadoop, Pig, Hive, Cassandra, Spark, Kafka, etc., dependiendo de los requisitos de cada organización. Hay
muchísimas soluciones, y buena parte de ellas son de código abierto.
Como esas herramientas son muy importantes para el Big Data, vamos a explicar un poco en qué consisten. Quizá una de las más
afianzadas para analizar Big Data sea Apache Hadoop, un marco de trabajo de código abierto para almacenar y procesar grandes conjuntos
de datos, aún así en este módulo revisaremos las dos principales herramientas del mercado.
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
1.- ¿Qué es exactamente Big Data?
¿Cómo funciona Big Data? Sus herramientas
Apache Hadoop es un framework de código abierto que permite el almacenamiento distribuido y
el procesamiento de grandes conjuntos de datos en base a un hardware comercial. En otras
palabras, Hadoop hace posible a las organizaciones obtener conocimiento rápidamente a partir
de cantidades masivas de datos, estructurados y no estructurados, posicionándolas al nivel de las
exigencias actuales de los mercados en términos de dinamismo y capacidad.
El ecosistema Hadoop cuenta con soluciones de todo tipo para cubrir cualquier necesidad que
pueda presentarse al negocio en materia de: Gestión de datos , Acceso a los datos
, Gobernabilidad e integración de datos, Seguridad de la información , Operaciones.
Cómo Trabaja:
Hadoop, basado en el modelo map reduce, es un sistema de código abierto basada en una
arquitectura que trabaja con el nodo maestro y los nodos esclavos para la creación de un clúster
(explicado de forma simple es un grupo de ordenadores unidos mediante una red de alta
velocidad, de tal forma que el conjunto es visto como un único ordenador), siempre a partir de un
sólo nodo maestro y varios esclavos. Se trata de una tecnología que almacena volúmenes
enormes de información y permite implementar análisis predictivos a partir de datos
estructurados y desestructurados, que se ejecutan en un clúster de Hadoop de una determinada
cantidad de nodos.
El mercado de Hadoop superará los 50.000 millones de dólares en 2020
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
1.- ¿Qué es exactamente Big Data?
¿Cómo funciona Big Data? Sus herramientas
Spark es una plataforma open source * (licencia Apache 2.0) para procesamiento paralelo en clusters.
Está orientada a manejar grandes volúmenes de datos y ejecutar cómputo intensivo sobre ellos. Spark está
suponiendo una revolución en el mundo del Big Data, podemos verlo como una evolución de Hadoop MapReduce, que
nos ofrece varias ventajas y reduce significativamente los tiempos de ejecución.
El nacimiento de Spark surge en los laboratorios AMPLab de la Universidad de Berkeley en 2009, su evolución ha sido
espectacular, incrementándose notablemente la comunidad y el número de contribuciones.
Finalmente en 2014 Spark fue acogido como un proyecto “Top-Level” de la Apache Software Foundation y nació la
compañía Databricks para dar soporte al desarrollo de Spark.
Algunas de las ventajas más notables de Spark son:
• Procesamiento en memoria de los resultados parciales.
• Soporte para múltiples lenguajes.
• Tolerancia a fallos implícita.
• 100% Open Source.
• Hasta 100 veces más rápido que Hadoop
• Módulos que lo extienden para streaming, Machine Learning,
acceso a datos, grafo
*: “Open Source” o código abierto es una modalidad colaborativa y pública de desarrollo de programas cuyo código fuente se distribuye con una licencia que permite a cualquiera y de forma
gratuita estudiarlo, modificarlo y redistribuirlo, requiriendo generalmente que los cambios sean a su vez publicados y limitado o prohibiendo cobrar por los mismos
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
1.- ¿Qué es exactamente Big Data?
¿Cómo funciona Big Data? Sus herramientas
El Universo de
aplicaciones Big Data es
casi ilimitado y una de las
grandes preguntas que
me suelen hacer mis
alumnos es sobre que
perfiles trabajan en
temas de Big data, en la
siguiente ilustración
podéis ver cuáles son las
herramientas
principales utilizadas por
cada uno de los roles en
el mundo Big Data. Es
importante que cada
perfil los conozca y esté al
tanto de nuevas versiones
y nuevos productos que
ayudarán en su trabajo
diario.
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
1.- ¿Qué es exactamente Big Data?
¿Cómo funciona Big Data? Sus herramientas
¿Cómo utilizan los ejecutivos de alto nivel Big Data? De acuerdo a la información que pone a nuestra disposición Microsoft Marketing, 49
por ciento de los altos ejecutivos utilizan Big Data para información de valor sobre los clientes, segmentación o selección de grupos meta;
y 39 por ciento lo utilizan en la actualidad para presupuestos, predicciones o planeación.
La variedad de usos que le dan las empresas a los datos y los beneficios que estos generan dependen de la capacidad de los negocios para
almacenarlos, analizarlos e interpretarlos, no importa si son estructurados o no. Contar con una plataforma flexible, que se adapte a las
necesidades del negocio y que permita obtener dividendo de esos datos es lo que permitirá a las empresas obtener la información de
valor y el conocimiento necesarios para mirar adelante, anticiparse a los retos futuros y satisfacer a sus clientes de la mejor manera
posible.
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
1.- ¿Qué es exactamente Big Data?
Best Practices
Para ayudarle en su transición a big data, hemos recopilado una serie de mejores prácticas que debe tener en cuenta. A
continuación, detallamos nuestras pautas para crear con éxito una base de big data.
• Alinear Big Data con Objetivos Empresariales específico. La disponibilidad de conjuntos de datos más amplios le permite realizar
nuevos hallazgos. A tal efecto, es importante basar las nuevas inversiones en habilidades, organización o infraestructura con un marcado
contexto empresarial para garantizar la constancia en la financiación e inversión en proyectos. Para determinar si se encuentra en el
camino correcto, pregúntese en qué medida el big data respalda y habilita sus principales prioridades empresariales y de TI. Algunos
ejemplos incluyen entender cómo filtrar los registros web para comprender el comportamiento del comercio electrónico, extraer el
sentimiento de las redes sociales y de las interacciones de atención al cliente, así como entender los métodos de correlación estadística y
su relevancia para los datos de clientes, productos, fabricación e ingeniería.
• Mitigar la escasez de conocimientos y habilidades. Uno de los mayores obstáculos para beneficiarse de su inversión en big data es
la escasez de habilidades. Puede mitigar el riesgo asegurándose de incorporar a su programa de administración de TI tecnologías,
consideraciones y decisiones relativas a big data. Normalizar su enfoque le permitirá gestionar los costes y aprovechar los recursos. Las
organizaciones que implanten soluciones y estrategias de big data deben evaluar sus necesidades de habilidades de forma temprana y
frecuente, e identificar de manera proactiva las posibles carencias de habilidades. Esto puede lograrse mediante la impartición de
formación o la formación cruzada entre recursos existentes, la contratación de nuevos recursos y el uso de empresas de consultoría.
• Optimizar la trasferencia de conocimientos. Utilice un enfoque basado en un centro de excelencia para compartir conocimientos,
supervisar el control y gestionar las comunicaciones de proyectos. Tanto si el big data es una inversión nueva o en expansión, los costes
directos e indirectos pueden distribuirse en toda la empresa. Utilizar este enfoque puede contribuir a incrementar las capacidades de big
data y la madurez del conjunto de la arquitectura de información de una forma más sistemática y estructurada.
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
1.- ¿Qué es exactamente Big Data?
Best Practices
• La principal ventaja reside en alinear los datos estructurados y no estructurados. Analizar el big data de forma aislada sin duda
aporta valor. Sin embargo, puede obtener una perspectiva empresarial aún más valiosa relacionando e integrando el big data de baja
densidad con los datos estructurados que ya usa actualmente. Tanto si está recopilando big data de clientes, de productos, de
equipos o ambientales, el objetivo es añadir puntos de datos más relevantes a sus resúmenes maestros y analíticos, lo que le
permitirá obtener mejores conclusiones. Por ejemplo, existe una diferencia en distinguir la percepción de todos los clientes de la de
solo sus mejores clientes. Por eso, muchos consideran que big data constituye una extensión integral de sus capacidades existentes
de inteligencia empresarial, de su plataforma de almacenamiento de datos y de su arquitectura de información. Tenga en cuenta que
los modelos y procesos analíticos de big data pueden ser tanto humanos como automáticos. Las capacidades de análisis de big data
incluyen estadísticas, análisis especiales, semántica, detección interactiva y visualización. Mediante el uso de modelos analíticos,
puede relacionar distintos tipos y fuentes de datos para realizar asociaciones y hallazgos significativos.
• Alinear con el modelo operativo en la nube. Los usuarios y procesos de big data requieren acceso a una amplia variedad de recursos
de experimentación reiterativa y ejecución de tareas de producción. Una solución de big data incluye todos los ámbitos de los datos,
incluidas transacciones, datos principales, datos de referencia y datos resumidos. Los entornos de pruebas (sandboxes) analíticos
deben crearse on-demand. La gestión de recursos es fundamental para garantizar el control de todo el flujo de datos, incluido el
procesamiento previo y posterior, la integración, el resumen dentro de la base de datos y la creación de modelos analíticos. Disponer
de una estrategia bien definida de aprovisionamiento y seguridad en la nube pública y privada es fundamental para respaldar estos
requisitos cambiantes.
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
2.- Hacia la ingeniería del Dato
Data mining o minería del dato
Relación entre Big Data y Data mining:
El Big Data, como hemos visto, se centra en analizar los grandes volúmenes de datos que superan la capacidad de los procesamientos
informáticos habituales. Su objetivo es el de analizar en el menor tiempo posible y de forma eficaz toda la información.
En cambio, la minería de datos analiza los grandes volúmenes de datos. Sintetiza, identifica y agrupa patrones de comportamiento entre los
datos. Generalmente los datos que analiza pertenecen a clientes y consumidores. Gracias a la minería de datos, podemos conocer patrones de
conducta de clientes, periodos de contratación de un servicio determinado o periodos de compra, fuga a otras compañías, o incluso riesgos de
estafas a partir de patrones sospechosos o inusuales.
Big Data y Minería de datos podrían ser definidos como el “activo” y el “manejo”, respectivamente.
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
2.- Hacia la ingeniería del Dato
Data mining o minería del dato
Ventajas y desventajas Data mining:
Los análisis de datos mediante el Data Mining pueden aportar numerosas ventajas a las empresas para la
optimización de su gestión y tiempo, pero también para la captación y fidelización de clientes, que les permitirá
aumentar sus ventas. Vemos algunas ventajas que nos puede aportar.
1. Permite descubrir información que no esperábamos obtener. Esto se debe a su funcionamiento con
algoritmos, ya que permite hacer muchas combinaciones distintas.
2. Es capaz de analizar bases de datos con una enorme cantidad de datos.
[Link] resultados son muy fáciles de interpretar y no es necesario tener conocimientos en ingeniería
informática.
[Link] encontrar, atraer y retener clientes.
[Link] empresa puede mejorar la atención al cliente a partir de la información obtenida.
[Link] a las empresas la posibilidad de ofrecer a los clientes los productos o servicios que necesitan.
[Link] de usar los modelos, estos son comprobados mediante estadísticas para verificar que las
predicciones obtenidas son válidas.
[Link] costes a la empresa y abre nuevas oportunidades de negocio.
Sin embargo, también puede aparecer algún inconveniente a la hora de utilizar técnicas de Data Mining, por
ejemplo, dependiendo del tipo de datos que se quieran recopilar, nos puede llevar mucho trabajo, o a veces la
inversión inicial para obtener las tecnologías necesarias para la recopilación de datos puede tener un coste
elevado.
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
2.- Hacia la ingeniería del Dato
Data mining o minería del dato
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
2.- Hacia la ingeniería del Dato
Data mining o minería del dato
Aplicaciones de la minería de datos:
Las áreas donde la minería de datos puede aplicarse, es prácticamente en todas las
actividades humanas que generen datos como:
• Comercio y banca: segmentación de clientes, previsión de ventas, análisis de riesgo.
• Medicina y Farmacia: diagnóstico de enfermedades y la efectividad de los
tratamientos.
• Seguridad y detección de fraude: reconocimiento facial, identificaciones
biométricas, accesos a redes no permitidos, etc.
• Recuperación de información no numérica: minería de texto, minería web,
búsqueda e identificación de imagen, video, voz y texto de bases de datos
multimedia.
• Astronomía: identificación de nuevas estrellas y galaxias.
• Geología, minería, agricultura y pesca: identificación de áreas de uso para distintos
cultivos o de pesca o de explotación minera en bases de datos de imágenes de
satélites.
• Ciencias Ambientales: identificación de modelos de funcionamiento de ecosistemas
naturales y/o artificiales para mejorar su observación, gestión y/o control.
• Ciencias Sociales: Estudio de los flujos de la opinión pública. Planificación de
ciudades: identificar barrios con conflicto en función de valores sociodemográficos.
¿Cómo saben tanto de mí?
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
2.- Hacia la ingeniería del Dato
Data mining o minería del dato
Cómo funciona Data Mining:
Básicamente, la función del Data Mining es utilizar las grandes bases de datos para traer insights sobre comportamientos que se repiten de
manera consistente. Eso se debe a la elaboración de algoritmos que consiguen identificar patrones en medio a de los datos y establecer
correlaciones entre ellos.
Para que el Data Mining funcione precisamos, en primer lugar, de datos, que después de serán debidamente “limpios” y distribuidos de
manera uniforme, serán sujetos a un software especializado que hará una manipulación y comparación de ellos a fin de establecer
relaciones entre sus comportamientos.
Por fin, el resultado del proceso va a ser la transformación de datos brutos en insights que podrán ser utilizados para el alcance de
diferentes objetivos organizacionales.
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
2.- Hacia la ingeniería del Dato
Data mining o minería del dato
Herramientas de Data mining:
El Data Mining, es un conjunto de técnicas que se realizan para explorar grandes cantidades de datos. El objetivo es el de encontrar una
aguja en un pajar, y para alcanzar este objetivo, existen múltiples métodos matemáticos y estadísticos encapsulados en algoritmos que hoy
en día también llamamos machine learning o inteligencia artificial. Durante los últimos años se ha establecido la metodología CRISP-DM
para realizar proyectos de este tipo, la cual se puede resumir en cinco pasos generales, aunque es un proceso circular en el que las fases se
van retroalimentando:
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
2.- Hacia la ingeniería del Dato
Data mining o minería del dato
Herramientas de Data mining:
Durante los últimos años han aparecido varias
Plataformas de Data Science y Machine Learning
creando un mercado muy dinámico que está
evolucionando rápidamente. Aunque grandes
empresas como IBM, SAP o Microsoft hayan lanzado
sus propias herramientas, hasta ahora no han
conseguido dominar el mercado dejando espacio a
nuevas empresas innovadoras.
La famosísima empresa consultora y de investigación
de IT, GARTNER, ha analizado el mercado de estas
herramientas incluyendo las más importantes en el
cuadrante mágico.
Actualmente con más empuje en el mercado:
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
2.- Hacia la ingeniería del Dato
Predyctive Analytics
Relación entre Big Data y Análisis Predictivo
El análisis predictivo es, un área del Big Data que se ocupa de analizar los datos en base a un conjunto de técnicas estadísticas y de aprendizaje
automático que se construyen creando modelos matemáticos y de inteligencia artificial y denominados modelos predictivos. Con el análisis de
estos datos previos podemos establecer y conocer diferentes comportamientos de la variable analizada. Por lo tanto, la clave está en detectar
las variables que más influyen en nuestra predicción, para poder cambiarlas y así utilizarlas para el beneficio de la empresa.
El análisis predictivo es un término paraguas para referirnos al conjunto de procesos que implican aplicar diferentes técnicas computacionales
con el objetivo de realizar predicciones sobre el futuro basándonos en datos pasados. Las variedad de técnicas empleadas incluyen minería de
datos (data mining), modelado, reconocimiento de patrones, graph analytics, …
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
2.- Hacia la ingeniería del Dato
Predyctive Analytics
Relación entre Big Data y Análisis Predictivo
El mercado está en constante cambio y cualquier información que nos ayude a saber cuál será el siguiente paso, por ejemplo, qué productos o
servicios serán más populares y cuáles menos, es de extrema utilidad. En pequeñas diferencias está el abismo entre el éxito y la bancarrota.
Imagínate el poder de conocer las próximas modas o qué preferencias tendrán la mayoría los compradores el siguiente verano.
Big data y modelos predictivos son una combinación que cualquier empresa importante tiene muy presente para hacer sus análisis de
mercado.
Muchas actividades económicas utilizan constantemente predicciones para establecer sus precios, como las aerolíneas y los hoteles. Nunca se
puede saber con total certeza cuál será el volumen de ventas y encontrar el precio al que el beneficio sea máximo es el objetivo de toda
empresa. La analítica predictiva es una herramienta magnífica para ello.
Los modelos predictivos aplican resultados conocidos con el fin de entrenar al modelo para predecir valores, con datos diferentes o
completamente nuevos, en un proceso repetitivo. El modelado proporciona los resultados en forma de predicciones representadas mediante
el grado de probabilidad de la variable objetivo basado en la significación estimada a partir de un conjunto de variables de entrada. La variable
objetivo puede tratarse de las ventas, la cara de una persona, las coordenadas de un yacimiento petrolífero, o cualquier cosa que se nos
ocurra.
Realmente no existe limitación en los usos de aplicar predictive analytics, dependerán de qué queremos obtener. Se aplican ampliamente en
casi cualquier sector, no sólo de negocio, ya sea para detectar oportunidades comerciales, detectar y reducir fraude, retención de clientes,
predecir fallos en sistemas, sino también en otros campos en los que todos nos beneficiamos como detectar cáncer en pacientes, evolución de
epidemias, ahorro de costes en organismos públicos, reconocimiento del habla, la lista es interminable.
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
2.- Hacia la ingeniería del Dato
Predyctive Analytics
Proceso de un Análisis Predictivo
01
RECOPILAR DATOS: El desarrollo de un modelo de análisis predictivo comienza con la obtención de los datos en función de los que se
va a realizar las predicciones. Los datos podrán proceder de diferentes fuentes, tales como archivos, BBDD, sensores, etc. y se exploran
para conocer su naturaleza, estructura, la calidad de los mismos…
ORDENAR Y ADAPTAR LOS DATOS: eL siguiente paso consiste en realizar un procesado inicial de los mismos para ordenarlos,
02 transformarlos y adecuarlos a las necesidades del modelo. En este punto se suelen eliminar los valores extremos que distorsionan el
funcionamiento del modelo y se crea una única estructura con los datos procesados de las distintas fuentes.
03
ANALIZAR LOS DATOS: Una vez creada la estructura de datos se analizan los mismos para identificar sus características, detectar los
patrones y tendencias en sus valores y obtener información relevante para el desarrollo del algoritmo predictivo, que es la base del
modelo..
04
ELEGIR EL MODELO MATEMÁTICO: Para el desarrollo del algoritmo se utilizará la información obtenida del análisis de los datos y, en
función de ella, se decidirán las técnicas matemáticas que permitirán procesar los datos de entrada al modelo y realizar las predicciones
(salidas).
05
OPTIMIZAR: Finalmente, se optimizarán los parámetros del algoritmo mediante un conjunto de datos de entrenamiento (datos reales de
las variables de entrada y de salida del modelo) y se verificará su exactitud con un conjunto de datos de prueba (datos reales de las
variables de entrada y predicciones del modelo que se comparan con los datos reales con los que deberían coincidir las predicciones).
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
2.- Hacia la ingeniería del Dato
El análisis predictivo y los modelos matemáticos
La analítica predictiva se basa, aparte de los datos, en series de tiempo que están hechas de uno o más
componentes como tendencias, ciclos, temporalidad y residuales. Cada uno de estos elementos permite
tomar decisiones a corto, mediano y largo plazo. Las tendencias son patrones a largo plazo; los ciclos reflejan
los movimientos a la alza y a la baja dentro de una tendencia; la temporalidad es la fluctuación recurrente
durante un año; y los residuales son los componentes impredecibles e inexplicables.
Los elementos antes mencionados permiten que se lleve a cabo el proceso de predicción, que muchas
empresas utilizan para conseguir sus objetivos de negocios y aprovechar mejor los datos y la información de
valor que se genera a partir de ellos.
Modelos matemáticos
Existen dos tipos de modelos matemáticos utilizados para el análisis predictivo de datos. El modelo
determinístico es aquel donde la relación completa de las entradas y los resultados son determinados de
manera concluyente. Las mismas entradas obtienen los mismos resultados cada vez, como ejemplo, el
cálculo del área dentro de un círculo a través de fórmulas matemáticas.
El otro modelo es el estocástico (o fortuito) donde las entradas son variables aleatorias y el resultado es una
distribución de probabilidad estimada de resultados potenciales. En finanzas por ejemplo, se utiliza el
método Monte Carlo para simular el modelo estocástico, que determina la probabilidad de un resultado
basado en el número de ocurrencias dentro de una serie de eventos simulados. Un ejemplo de esto sería
lanzar dardos a un círculo para estimar el porcentaje de la figura que ocupa el área dentro de un círculo.
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
2.- Hacia la ingeniería del Dato
Flujo de trabajo de un proceso predictivo
Todos estamos familiarizados con los
modelos predictivos para la previsión
meteorológica. Una de las aplicaciones
cruciales de los modelos predictivos está
relacionada con la predicción de la
carga energética para pronosticar la
demanda. En este caso, los productores de
energía, los operadores de la red de
suministro y los distribuidores necesitan
predicciones precisas sobre la carga
energética para tomar decisiones
encaminadas a la gestión de las cargas en la
red eléctrica. Hay disponibles grandes
cantidades de datos y, mediante el análisis
predictivo, los operadores pueden convertir
esta información en conocimiento que
permite pasar a la acción.
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
2.- Hacia la ingeniería del Dato
Predyctive Analytics
Herramientas y software usado para Análisis predictivo
Os comento en esta presentación algunas de las herramientas más usadas en el análisis predictivo, la decisión del uso de esta herramienta es
una decisión que deberéis alinear con el modelo de datos ERP y CRM que utilice la compañía, os comento algunas de las más frecuentes.
IBM SPSS Statistics. Si bien existen muchos programas de análisis estadístico, SPSS es el único en el que es 100% sencillo editar
los datos recogidos. La manipulación de datos es el principal valor de SPSS. Cuestiones como la capacidad de importar y exportar
datos en una amplia variedad de formatos de datos es también relevante a la hora de decidirse por este software.
RAPIDMINER. Este programa ya os comenté que era de los más usados en data mining, posee como virtud principal una interfaz
de usuario muy intuitiva. Debido a ello, si eres un principiante en análisis predictivo puedes aprender los pasos básicos de
utilización muy rápidamente. Rapidminer coincide con varios de sus competidores en la gran capacidad para importar los datos
de diversas fuentes y formatos, así como algunas herramientas de visualización de datos muy potentes. Además, permite una
licencia académica muy fácil de obtener, es decir, no requiere de una gran burocracia para contar con ella.
AMAZON MACHINE LEARNING. Hay personas que utilizan esta herramienta para predecir los precios de las acciones. Sin duda,
uno de los programas más intuitivos y una alternativa de bajo coste en comparación con otras opciones mucho más caras en el
mercado. Además, sólo se paga por uso, no hay un fee mensual.
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
3.- Big Data y el Customer Journey
Las personas y su conectividad
En la actualidad las personas están constantemente
conectadas, el teléfono móvil ha dejado de ser
un objeto de lujo y sus posibilidades van mucho más
allá de la llamada, ofreciendo servicios basados en la
geolocalización o permitiendo incluso detectar cuál ha
sido la última interacción realizada y dónde se ha
producido.
Lo mismo sucede con las viviendas que cada vez
presentan mayores funcionalidades, inspiradas en la
domótica o los vehículos, muchos de los cuales ya
cuentan con varios sistemas de sensores, generando
todos ellos información muy completa, perfecta para
crear nuevos servicios de valor. Big Data aprovecha
todas estas nuevas fuentes de información
provenientes de los dispositivos de última generación.
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
3.- Big Data y el Customer Journey
El viaje del Cliente y tu big data
Customers Journey o “viaje del cliente” se define como un proceso que ilustra cada
uno de los pasos por los cuales atraviesa tu cliente desde que no conoce tu marca
hasta que se convierte en un portavoz de la misma, los momentos de
emoción/tensión que suceden durante este viaje y las personas que intervienen en él
para hacerlo placentero. Entre dichos estadios críticos se encuentra la toma de
consciencia del producto o servicio, la comparativa de opciones, la decisión de
compra, el engagement, la fidelización, etc.
Obviamente, estas vías predefinidas hacia la compra son escenarios ideales. En la
realidad, cualquier distracción o factor completamente fuera de nuestro control
puede alterar el Customer Journey y provocar que nuestros prospectos den pasos
hacia atrás o hacia adelante en el mismo. Incluso dentro de nuestra propia
estrategia, el mensaje equivocado o en el momento incorrecto puede hacer que
alguien a punto de concretar una compre cambie de opinión en el último momento.
El análisis de Big Data es, hasta el momento, la mejor herramienta disponible para hacer un buen mapeo de tu Buyers Journey. Este te permite
saber desde dónde están llegando tus clientes, cuántos días les toma cambiar de un estadio al siguiente, cuáles son los factores que los hacen
retroceder, cómo se comporta cada segmento, etc.
El Big Data toma en consideración el objetivo de la marca, el objetivo del comprador, la etapa del funnel, los canales que se utilizan y el mapa de
calor del sitio web o e-commerce, entre muchos otros.
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
3.- Big Data y el Customer Journey
Análisis y beneficios de la Big Data en la Cx (Customer Experience)
Vivimos en una era digital donde se genera Big Data tanto en la base de datos de la empresa como de manera pública. El poder entender
ese Big data permite explorar el comportamiento del cliente, patrones de uso y preferencias. La tecnología del big data te ayuda a una
segmentación avanzada, pudiendo llegar a detectar áreas de interés completamente nuevas de tus clientes. Y con esto, obtener insights
para crear ofertas personalizadas, en el correcto punto de contacto, dirigidas a la audiencia correcta y en tiempo real.
La inteligencia artificial y aprendizaje de máquina ayudan a la comprensión de estas métricas creando tendencias significativas que
indiquen futuros cambios en la estrategia de marketing y ventas.
Beneficios:
•Optimizar la experiencia del cliente
•Aumentar la tasa de conversión
•Aumentar la interacción y el compromiso con los clientes potenciales
•Resolver problemas de manera más eficiente
•Hacer su experiencia fácil y conveniente
•Mejores campañas
Los mismos consumidores pueden no saber lo que quieren. Pero la tecnología del Big data ayuda a conocerlo para que la empresa actue.
Aunque el consumidor cambie de manera constante, este analisis continuo evitará errores y se mejorara la experiencia.
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
3.- Big Data y el Customer Journey
¿Cómo aplicamos la Big Data en la CX?
Un informe de Forbes Insights y EY muestra que las empresas que usan esta estrategia aumentan un 15% sus beneficios. Los frutos del Big Data pueden
recogerse en muchas de las vertientes de una empresa: desde la reducción de costes, la adaptación de procesos, la elección de proveedores…
La experiencia del cliente no iba a ser menos, y aquí el análisis de datos tiene un papel más que significativo. El Big Data es un sistema analítico
convencional que convierte los datos en información. Si la información es poder, también lo es en lo que atañe a nuestros clientes.
Las compañías que hacen uso del Big Data consiguen un incremento de ingresos, un aumento de clientes prescriptores y operaciones más competentes.
Entender cómo se sienten nuestros clientes, cómo se comportan y cuáles son sus necesidades es un arma perfecta para aprender a relacionarnos con
ellos.
La experiencia del cliente nace de todas y cada una de las interacciones con la empresa, desde la decisión de la compra, la entrega del producto o
servicio, la atención al cliente a la satisfacción emocional. Todo cuenta, y por eso es fundamental detectar en qué puntos puede estar fallando y adaptar
esta relación para conseguir una experiencia óptima. El Big Data puede ayudarte en este proceso.
•Personalización: Hacer sentir a nuestros clientes únicos y especiales, personalizando y adecuando la oferta, mejora la experiencia del cliente.
Según la encuesta Rethinking Retail, un 59% de los compradores que han experimentado la personalización creen que es un factor destacado
que influye en la compra.
•Adaptación: El Big Data ayuda a conocer a los clientes a los que nos dirigimos y permite adaptar los contenidos, los tiempos o incluso los
precios, dependiendo de quién esté al otro lado.
•Análisis: Existen patrones ocultos que el Big Data puede extraer, para aprovecharlos y adaptar, si fuese necesario, la estructura logística de la
empresa o sus plataformas (apps, webs, etc.) a lo que los clientes demandan con sus modelos de comportamiento.
•Automatización: Se pueden generar procesos y relaciones de forma automática acordes con las necesidades del cliente, previamente
analizadas. Esto también permite optimizar las tarifas de publicidad según la demanda, los picos de audiencia, la localización u otros factores.
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
3.- Big Data y el Customer Journey
Estrategias de aplicación de la big Data en CX
Netflix empezó siendo una empresa
que alquilaba películas en formato
de DVD por correo. En 2009 comenzó
a usar un algoritmo para predecir los ¿Qué resultados obtiene?
gustos de sus suscriptores. De cara al cuarto trimestre de 2020Netflix espera
incrementar un 20,2% interanual sus ingresos,
Hoy día tiene más de 203 millones de hasta 6.572 millones de dólares (5.541 millones
usuarios en todo el mundo. de euros), con un beneficio neto de 615 millones
de dólares (518 millones de euros)
¿Qué datos de clientes recoge?
Gracias a:
• Horarios de visualización
• Dispositivos que usan
• Hipersegmentar el cliente y adaptar las
• Tipos de búsquedas que realizan
series y películas a su demanda
• Su comportamiento durante la serie (pausa,
• Ofrecer a sus clientes recomendaciones de
rebobinado, créditos, etc.)
contenido afín a sus gustos
• Etiquetado de las películas (taggers)
• Generar contenido en función de las
• Valoraciones de los usuarios
preferencias de sus clientes
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
3.- Big Data y el Customer Journey
Estrategias de aplicación de la big Data en CX
La plataforma de música en streaming se lanzó en 2008 y en
2019 cerró con 271 millones de usuarios activos, un 31 %
más que el año anterior, de los cuales 124 millones son
premium.
En 2006 Spotify compró The Echo Nest (compañía ¿Qué resultados obtiene?
especializada en Big Data musical) con la que extrae datos 50 millones de suscriptores de pago
para reconocer las preferencias de los usuarios y las
tendencias musicales. Aumento de 5 millones en altas de
usuarios en 2018 respecto a 2017
¿Qué datos de clientes recoge?
Gracias a:
• Géneros más escuchados
• Establecer patrones de conducta para
• A qué hora escuchan música
poder hacer recomendaciones y listas de
• Dónde la escuchan
descubrimiento en función de los gustos
• Suscripciones a una playlists concreta
musicales de cada usuario
• Popularidad de los artistas
• Tiempo de reproducción (si pasas la canción antes de
30seg es un “no me gusta”)
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
3.- Big Data y el Customer Journey
Estrategias de aplicación de la big Data en CX ¿Qué resultados obtiene?
Es el mayor marketplace del mundo. Utiliza una estrategia Amazon cuadruplicó su beneficio en 2018,
basada en el análisis predictivo capaz de construir un sistema hasta los 2.371 millones de dólares Sus
de recomendación de productos para las personas que ventas crecieron un 27% en 2019, 135.987
visitan la web. millones de dólares.
Gracias a:
En 2016 cerró con 152 millones de • Ofrecer a los clientes una experiencia de
cuentas de clientes. compra personalizada
• Los motores de recomendación con los
que logran el 29% de sus ventas
¿Qué datos de clientes recoge?
• Secuencias de clics (valoraciones y likes)
• Datos históricos de compra de los usuarios
• Tiempo en el sitio web
• Duración de la vista
• Comparación de compras similares con otros clientes
• Ítems en los carritos de compra virtuales
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
3.- Big Data y el Customer Journey
Estrategias de aplicación de la big Data en CX ¿Qué datos de clientes recoge?
¿Has visto alguna vez cuatro Starbucks a pocos metros de • Localización de la tienda:
distancia? No están ahí por casualidad. La famosa cadena de - Datos demográficos de los clientes
cafeterías utiliza el BigData para determinar cuál es el - Populación
preciso lugar donde abrir una tienda. - Patrones de tráfico
- Paradas de transporte público
A día de hoy, más de 6 millones de personas están - Tipos de negocio en los alrededores
registradas en su loyalty program. • Ofertas personalizadas
- Productos que gustan a los clientes
¿Qué resultados obtiene? - Cómo toman el producto (con leche, sin azúcar...)
Un 10% más de ingresos en 2018 - Horario
Gracias a: - Lugar
• Determinar la rentabilidad de abrir una
tienda en un lugar u en otro
• Ofrecer a sus clientes ofertas y
promociones que les resulten interesantes
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
3.- Big Data y el Customer Journey
Las personas y su conectividad
En la actualidad las personas están constantemente
conectadas, el teléfono móvil ha dejado de ser
un objeto de lujo y sus posibilidades van mucho más
allá de la llamada, ofreciendo servicios basados en la
geolocalización o permitiendo incluso detectar cuál ha
sido la última interacción realizada y dónde se ha
producido.
Lo mismo sucede con las viviendas que cada vez
presentan mayores funcionalidades, inspiradas en la
domótica o los vehículos, muchos de los cuales ya
cuentan con varios sistemas de sensores, generando
todos ellos información muy completa, perfecta para
crear nuevos servicios de valor. Big Data aprovecha
todas estas nuevas fuentes de información
provenientes de los dispositivos de última generación.
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
4.- Big Data y el Big Analytics : Datawarehouse
Big Data requiere big Analytics
Estamos acostumbrados a saber lo que pasó, pero hoy nos interesa más conocer lo que pasará: si la empresa,
con su producto o servicio, seguirá siendo el gusto de los consumidores o si se hablará de ella bien o mal en
las redes sociales; aspectos todos ellos que requieren de nuevos modelos de análisis mucho más complejos
que lo que se podía experimentar hasta ahora..
Esta nueva realidad ha motivado nuevos requerimientos por parte de las empresas en relación con el análisis
de datos. Y, precisamente, para poder analizar toda esa información de que hoy se dispone, lo que
anteriormente se conocía como Business Intelligence actualmente requiere de un nuevo modelo de análisis:
Big analytics, el único que permite dar forma al Big Data.
Esta necesaria aparición tiene que ver con el hecho de que, para poder hacer un análisis predictivo o una
“clusterización” de los perfiles de clientes, se requiere de algo más que la propia inteligencia de negocio, y ese
algo más se concreta precisamente en Big Analytics. Analytics permite la aplicación de procesos matemáticos
complejos. Sus técnicas hacen posible trabajar con los datos al nivel de granularidad más bajo disponible, en
crudo, y empleando para ello modelos mucho más ágiles que los actuales modelos de BI.
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
4.- Big Data y el Big Analytics : Datawarehouse
Las limitaciones del business inteligence tradicional
El Business Intelligence con el que las empresas han crecido y se han externalizado, tiene unas limitaciones
bastante claras, basadas en la falta de agilidad en sus procesos. En efecto, con el sistema tradicional, los
procesos necesarios para el procesamiento y análisis de información carecen de dinamismo. Por ejemplo, la
inversión de tiempo necesaria para proceder a la carga de modelos era excesiva y provocaba que, con
frecuencia, al finalizar dicho proceso hubiese perdido utilidad, por haber evolucionado el negocio.
Realizar los cambios pertinentes para alinearlo de nuevo con las necesidades corporativas era una tarea
costosa, larga, poco ágil e ineficaz, al no poder tampoco aplicarse los algoritmos que hoy día se utilizan para el
análisis. La llegada de esta cantidad de datos ha provocado que las infraestructuras actuales no sean capaces
de soportar esas volumetrías, variabilidad en los datos, ni de hacer los deseados análisis en tiempo real. Esto
ha llevado a la inevitable búsqueda de infraestructuras capaces de soportar ese nuevo paradigma de datos al
que las empresas se enfrentan. Además, en cualquier compañía es importante poder calcular los costes en
materia de infraestructura. Cuando la interacción con Big Data se realiza en términos de escalabilidad, la
predicción del gasto se simplifica y se hace accesible la estimación del coste asociado al crecimiento de
negocio. De este modo, es posible proyectar y determinar la inversión necesaria para seguir creciendo, algo
que resulta impensable en términos de infraestructuras actuales y en un entorno de business intelligence
tradicional.
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
4.- Big Data y el Big Analytics : Datawarehouse
¿Qué es un Datawarehouse?
Un Datawarehouse (en adelante DWH) es una base de datos corporativa que se caracteriza por integrar y
depurar información de una o más fuentes distintas, para luego procesarla permitiendo su análisis desde
infinidad de pespectivas y con grandes velocidades de respuesta. La creación de un datawarehouse representa
en la mayoría de las ocasiones el primer paso, desde el punto de vista técnico, para implantar una solución
completa y fiable de Business Intelligence.
La ventaja principal de este tipo de bases de datos radica en las
estructuras en las que se almacena la información (modelos de
tablas en estrella, en copo de nieve, cubos relacionales... etc).
Este tipo de persistencia de la información es homogénea y
fiable, y permite la consulta y el tratamiento jerarquizado de la
misma (siempre en un entorno diferente a los sistemas
operacionales).
El término Datawarehouse fue acuñado por primera vez por
Bill Inmon, y se traduce literalmente como almacén de datos.
No obstante, y como cabe suponer, es mucho más que eso.
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
4.- Big Data y el Big Analytics : Datawarehouse
¿Qué es un Datawarehouse?
Un modelo datawarehouse, se caracteriza por ser:
1. Integrado: los datos almacenados en el datawarehouse deben integrarse en una estructura consistente, por lo que las inconsistencias
existentes entre los diversos sistemas operacionales deben ser eliminadas. La información suele estructurarse también en distintos
niveles de detalle para adecuarse a las distintas necesidades de los usuarios.
2. Temático: sólo los datos necesarios para el proceso de generación del conocimiento del negocio se integran desde el entorno
operacional. Los datos se organizan por temas para facilitar su acceso y entendimiento por parte de los usuarios finales. Por ejemplo,
todos los datos sobre clientes pueden ser consolidados en una única tabla del datawarehouse. De esta forma, las peticiones de
información sobre clientes serán más fáciles de responder dado que toda la información reside en el mismo lugar.
3. Histórico: el tiempo es parte implícita de la información contenida en un datawarehouse. En los sistemas operacionales, los datos
siempre reflejan el estado de la actividad del negocio en el momento presente. Por el contrario, la información almacenada en el
datawarehouse sirve, entre otras cosas, para realizar análisis de tendencias. Por lo tanto, el datawarehouse se carga con los distintos
valores que toma una variable en el tiempo para permitir comparaciones.
4. No volátil: el almacén de información de un datawarehouse existe para ser leído, pero no modificado. La información es por tanto
permanente, significando la actualización del datawarehouse la incorporación de los últimos valores que tomaron las distintas
variables contenidas en él sin ningún tipo de acción sobre lo que ya existía.
Otra característica del DWH es que contiene metadatos, es decir, datos sobre los datos. Los metadatos permiten saber la procedencia de la
información, su periodicidad de refresco, fiabilidad, forma de cálculo, etc.
Los metadatos serán los que permitan simplificar y automatizar la obtención de la información desde los sistemas operacionales a los
sistemas informacionales.
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
4.- Big Data y el Big Analytics : Datawarehouse
¿Qué es un Analytic Datawarehouse?
Hasta ahora, las estructuras usadas para la analítica de datos y su procesamiento se basaban en unos modelos
que habían sido predefinidos según las verticales correspondientes, caracterizándose por su gran rigidez, lo
que provocaba que la empresa no se pudiera adaptar a las nuevas necesidades.
Con la llegada de Big Analytics este panorama cambia: los data warehouse pueden evolucionar a la medida de
las necesidades, sin perjuicio de la posibilidad de disfrutar de unas capacidades ilimitadas tanto para
incorporar datos de cualquier tipo, como para llevar a cabo su procesamiento.
Esta evolución tiene su razón de ser en que no es lo mismo aplicar determinados algoritmos complejos sobre
grandes volúmenes de datos, que aplicar estos mismos sobre un conjunto reducido de ellos.
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
4.- Big Data y el Big Analytics : Datawarehouse
Beneficios de un Datawarehouse (DWH)
Un data warehouse es un proceso para guarda grandes cantidades de datos que han sido recopilados e integrados
de múltiples fuentes. Principalmente, es el núcleo del sistema de BI (Business Intelligence) creado para el análisis
de datos y la generación de informes.
•Orientada al negocio: El Data Warehouse se organiza alrededor de temas específicos de un problema de negocio
y no a las aplicaciones de estas.
•Integrada: Se integran diversas fuentes operacionales a través de un proceso ETL (extracción, transformación y
carga).
•Variante en el tiempo: En un Data Warehouse se mantiene un registro de los datos históricos para diferentes
periodos de tiempo. A diferencia de los datos transaccionales que comúnmente mantienen el registro más
reciente.
•No volátil: La información una vez ingresada en el Data Warehouse no se modifica, ni se elimina, solo se puede
leer y realizar consultas a esta
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
4.- Big Data y el Big Analytics : Datawarehouse
Beneficios de un Datawarehouse (DWH)
En líneas generales, el Data Warehouse es un almacén centralizado de datos, que integra las diversas
transacciones en una empresa. Para la creación de un Data Warehouse es necesario conocer bien el proceso ETL
(Extract, Transform and Load es el proceso que permite a las organizaciones mover datos desde múltiples fuentes,
reformatearlos y limpiarlos, y cargarlos en otra base de datos, data mart, o data warehouse para analizar, o en
otro sistema operacional para apoyar un proceso de negocio) bajo el cual se construye un Almacén de Datos:
Extracción: Corresponde a la extracción de los datos desde las diversas fuentes de datos (CRM, ERP, etc) a una
base de datos intermedia llamada Data Staging Area (DSA), Transformación: Es la etapa donde se homogeniza los
datos de las diferentes fuentes, se limpian y se transforman de acuerdo a los indicadores que se quieran
almacenar, Carga: Los datos una vez limpios y transformados son cargados en el Data Warehouse.
Con este proceso pasamos de diversas fuentes de datos a una base de datos confiable, centralizada y con
información relevante para el negocio. Presentándonos los siguientes beneficios:
•Facilidad de acceso a la información
•Mayor flexibilidad y rapidez de respuesta
•Consolidación y homogeneización de la información
•Mejor comunicación entre departamentos de la empresa
•Entrega de información relevante que antes no se almacenaba
•Se tiene una base confiable para aplicar técnicas de analytics
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
4.- Big Data y el Big Analytics : Datawarehouse
Mejores soluciones DWH del mercado
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato