80% encontró este documento útil (5 votos)

2K vistas56 páginas

Curso Big Data v1

El documento describe los aspectos fundamentales del Big Data. Explica que el Big Data se refiere al tratamiento y almacenamiento de grandes volúmenes de datos de múltiples orígenes a gran velocidad. Describe las cinco dimensiones clave del Big Data (las 5V): volumen, velocidad, variedad, valor y veracidad. También cubre los tipos de datos, incluyendo datos estructurados y no estructurados, y brevemente menciona herramientas como Hadoop y el análisis predictivo.

Cargado por

Eddy Reyes

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

80% encontró este documento útil (5 votos)

2K vistas56 páginas

Curso Big Data v1

Cargado por

Eddy Reyes

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

Autor:

Francisco Garrido
BIG DATA: Aspectos transversales en el tratamiento y la ingeniería del dato
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato

Índice
1. ¿Qué es exactamente “big data”?
• Las “5V” de la big data: hacía el valor y la veracidad
• Tipología del dato
• Casos de Uso
• Desventajas
• ¿Cómo funciona? Herramientas
• Best Practices

2. Hacía la ingeniería del dato

• Data mining o minería del dato
• Predyctive Analitics

3. Big Data y el Customer Journey

4. Big Data y el Big Analytics : Datawarehouse
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
1.- ¿Qué es exactamente Big Data?

Definamos big data como el conjunto de técnicas y tecnologías para el tratamiento y el almacenamiento de datos, en entornos
de gran volumen, variedad de orígenes y en los que la velocidad de respuesta es crítica.

Breve Historia de big data

Si bien el concepto "big data" en sí mismo es relativamente nuevo, los orígenes de los grandes conjuntos de datos se remontan a las
décadas de 1960 y 1970, cuando el mundo de los datos acababa de empezar con los primeros centros de datos y el desarrollo de las bases
de datos relacionales.
Alrededor de 2005, la gente empezó a darse cuenta de la cantidad de datos que generaban los usuarios a través de Facebook, YouTube y
otros servicios online. Ese mismo año, se desarrollaría Hadoop, un marco de código abierto creado específicamente para almacenar y
analizar grandes conjuntos de datos. En esta época, también empezaría a adquirir popularidad NoSQL.

El desarrollo de marcos de código abierto tales como Hadoop* (y, más recientemente, Spark) sería esencial para el crecimiento del big
data, pues estos hacían que el big data resultase más fácil de usar y más barato de almacenar. En los años transcurridos desde entonces,
el volumen de big data se ha disparado. Los usuarios continúan generando enormes cantidades de datos, pero ahora los humanos no son
los únicos que lo hacen, con la llegada del Internet de las cosas (IoT), hay un mayor número de objetos y dispositivos conectados a Internet
que generan datos sobre patrones de uso de los clientes y el rendimiento de los productos. El surgimiento del aprendizaje automático ha
producido aún más datos.

Aunque el big data ha llegado lejos, su utilidad no ha hecho más que empezar. El Cloud Computing ha ampliado aún más las posibilidades
del big data. La nube ofrece una escalabilidad realmente elástica, donde los desarrolladores pueden simplemente agilizar clústeres ad hoc
para probar un subconjunto de datos.

*: sobre este tema trabajaremos a lo largo de este módulo

BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
1.- ¿Qué es exactamente Big Data?

El Big Data es una de las claves fundamentales para mejorar la gestión de las empresas. Y es que ya se generan más datos en
dos días que en toda nuestra historia contemporánea. Según la consultora Gartner, en el año 2022 habrá más de 55 mil
millones de dispositivos conectados a Internet, lo que nos deja entrever que el volumen de datos contenidos en Big Data va a
crecer exponencialmente.

La importancia de BigData radica en su alto impacto en la industria, en el negocio e incluso en nuestra sociedad y además
ofrece una ventaja competitiva considerable. Big Data nace de la exigencia de dar respuesta a toda una serie de necesidades
del mercado actual, requerimientos que los avances han impulsado y a los que sólo se puede dar satisfacción por medios
tecnológicos. Hoy en día los clientes quieren ser tratados de forma totalmente personalizada. Es por esto que, ser capaces de
detectar sus gustos, se ha convertido en una necesidad de primer nivel para poder aumentar el volumen de ventas,
dirigiéndolas de forma mucho más directa para lograr el éxito esperado.
Además, hay que tener en cuenta que cada individuo se relaciona con otras personas, cuyo análisis permite tanto conocer más
a fondo al propio cliente, como aumentar el número de clientes potenciales. Estos datos se transforman en un conocimiento de
valor incalculable para el negocio.

En la actualidad, la cantidad de datos que se generan es abismal y de una casuística extremadamente compleja para su análisis.
Las empresas cada vez exigen que el análisis sea lo más cercano posible al tiempo real, y en la BigData está la solución, al
traducirse al mismo tiempo las variables de velocidad, variedad y volumen, que componen las 3V principales.
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
1.- ¿Qué es exactamente Big Data?

LAS CINCO “V” DE LA BIG DATA

El Big Data se compone de tres dimensiones principales que lo caracterizan: velocidad, variedad y volumen, pero actualmente
se han incorporado dos más que son valor y veracidad, dando como resultado las cinco dimensiones que lo caracterizan,
conocidas como las 5 V’s del Big Data. Veamos en qué consiste cada uno de estos aspectos: Lo que conocemos como las cinco
dimensiones del dato.
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
1.- ¿Qué es exactamente Big Data?

LAS CINCO “V” DE LA BIG DATA

1.- VOLUMEN: La cantidad de datos

importa. Con big data, se procesará grandes
volúmenes de datos no estructurados de baja
densidad. Puede tratarse de datos de valor
desconocido, como feeds de datos de Twitter,
flujos de clics de una página web o aplicación
para móviles, o equipo con sensores. Para
algunas organizaciones, esto puede suponer
decenas de terabytes de datos. Para otras,
incluso cientos de petabytes.

Una de las características del Big Data es que

nuevos datos se generan constantemente.
Además, como las fuentes son diversas, el
volumen de datos tiende a ser inmenso
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
1.- ¿Qué es exactamente Big Data?

LAS CINCO “V” DE LA BIG DATA

2.- VELOCIDAD: La velocidad es el ritmo al

que se reciben los datos y (posiblemente) al que
se aplica alguna acción. La mayor velocidad de
los datos normalmente se transmite
directamente a la memoria, en vez de escribirse
en un disco. Algunos productos inteligentes
habilitados para Internet funcionan en tiempo
real o prácticamente en tiempo real y requieren
una evaluación y actuación en tiempo real..

No sólo se generan muchos datos y desde

muchas fuentes, sino que lo normal es que la
velocidad a la que se generan estos datos sea
muy alta. Esto provoca un flujo de datos muy
difícil de gestionar con software tradicional.
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
1.- ¿Qué es exactamente Big Data?

LAS CINCO “V” DE LA BIG DATA

3.- VARIEDAD: La variedad hace referencia a los
diversos tipos de datos disponibles. Los tipos de
datos convencionales eran estructurados y podían
organizarse claramente en una base de datos
relacional. Con el auge del big data, los datos se
presentan en nuevos tipos de datos no
estructurados. Los tipos de datos no estructurados
y semiestructurados, como el texto, audio o vídeo,
requieren un preprocesamiento adicional para
poder obtener significado y habilitar los
metadatos.

Debido a la naturaleza unificadora del Big Data, se

debe gestionar la información que llega de fuentes
muy diferentes. Esto supone que, incluso siendo
datos estructurados, tal estructura sea diferente en
cada fuente, lo que supone un nuevo reto a
solventar para la empresa.
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
1.- ¿Qué es exactamente Big Data?

LAS CINCO “V” DE LA BIG DATA

4 y 5: VALOR Y VERACIDAD: En los últimos años, han surgido otras "dos V": valor y veracidad.

Los datos poseen un valor intrínseco. Sin embargo, no tienen ninguna utilidad hasta que dicho valor se descubre. Resulta
igualmente importante: ¿cuál es la veracidad de sus datos y cuánto puede confiar en ellos?
Hoy en día, el big data se ha convertido en un activo crucial. Piense en algunas de las mayores empresas tecnológicas del mundo.
Gran parte del valor que ofrecen procede de sus datos, que analizan constantemente para generar una mayor eficiencia y
desarrollar nuevos productos.
Avances tecnológicos recientes han reducido exponencialmente el coste del almacenamiento y la computación de datos,
haciendo que almacenar datos resulte más fácil y barato que nunca. Actualmente, con un mayor volumen de big data más barato
y accesible, puede tomar decisiones empresariales más acertadas y precisas.
Identificar el valor del big data no pasa solo por analizarlo (que es ya una ventaja en sí misma). Se trata de todo un proceso de
descubrimiento que requiere que los analistas, usuarios empresariales y ejecutivos se planteen las preguntas correctas,
identifiquen patrones, tomen decisiones informadas y predigan comportamientos.

El Big Data debe alimentarse con datos relevantes y verdaderos. No podremos realizar analíticas útiles si muchos de los datos
entrantes provienen de fuentes falsas o con errores en su información.
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
1.- ¿Qué es exactamente Big Data?

LAS CINCO “V” DE LA BIG DATA

Evolución hacía las 10V´s
Últimamente muchas biografías trabajan con una evolución hacías las 10V siendo realmente una evolución de las anteriormente
trabajadas, os adjunto una infografía sobre las 10V´s
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
1.- ¿Qué es exactamente Big Data?

TIPOLOGÍA DEL DATO

según formato del dato

Analicemos ahora y pongamos en contexto a qué nos referimos cuando hablamos de datos. Como «datos» entenderemos cualquier
información relevante para la empresa. Para el resto del módulo asumiremos que estos datos son digitales, aunque en la realidad no
siempre es así.

Si hacemos una clasificación basada en el formato tendremos:

Datos Estructurados: Son los datos que forman parte de una estructura predefinida. Como ejemplos encontramos una hoja de
Excel o una base de datos SQL (lenguaje de programación). Estos datos son fácilmente catalogables, y pueden ser utilizados para
posteriores análisis y predicciones fiables.

Datos no Estructurados: Son aquellos datos que no tienen ni forman parte de una estructura definida. Como ejemplos
encontramos el cuerpo de un email, una conversación por skype, datos escritos en un fichero word, o incluso bases de datos NoSQL.
Estos datos contienen mucha información valiosa, pero al no estar bien estructurada y catalogada, su uso resulta complicado a la hora
de crear informes y realizar análisis.

Datos semi-Estructurados: Datos binarios que no tienen estructura interna identificable. Es un conglomerado masivo y
desorganizado de datos que no tienen valor hasta que se organizan, identificándolos y almacenándolos. Algunos ejemplos de datos
no estructurados son imágenes, vídeos, audios, PDFs, RRSS o .txt.
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
1.- ¿Qué es exactamente Big Data?

TIPOLOGÍA DEL DATO

Si hacemos una clasificación basada en el origen del dato tendremos: “Clasificación IBM”

Los datos de grandes transacciones (Big Transaction Data): Son los registros de facturación, de las llamadas,
telecomunicaciones, etc. Datos que podemos encontrar en formatos semiestructurado o no estructurado. Se incluyen los datos
empresariales que se refieren a la información del cliente, la cual proviene de sistemas como el CRM; inventarios de ventas; datos
transaccionales del ERP, etc.
Redes sociales y páginas web. Se refiere a toda aquella información que se obtiene a través de las transacciones web, y el
contenido que se adquieren de las redes sociales como LinkedIn, Facebook, Twitter, Instagram, etc.
Biométricas. Es aquella información que incluye escaneo de la retina, huellas digitales, reconocimiento genético o facial, etc.
Generados por los seres humanos. Se refiere a todos aquellos datos que generamos los humanos cuando llamamos a un call
center, escribimos correos electrónicos, documentos electrónicos, notas de voz, telecomunicaciones, uso de tarjetas de crédito o
débito, etc.
Máquinas (Machine to Machine M2M). Es decir, aquellas tecnologías que se conectan a otros dispositivos, y los utiliza como
sensores o medidores, los cuales generan un gran volumen de datos, que necesitan ser analizados. Por ejemplo, cuando las
compañías de servicios públicos miden el consumo de agua, gas o electricidad a través de medidores inteligentes y se obtienen
después unos datos que normalmente se monitorizan para conocer mejor ciertas características como la frecuencia o el voltaje.

Nota del profesor: el origen de los datos (fuente) y su trazabilidad con los datos de carácter personal, será uno de los elementos
que trataremos en el webinar sobre privacidad y protección del dato, y actualmente son grandes fuentes de controversia entre las
grandes empresas tech y los estados (Caso Google en la UE).
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
1.- ¿Qué es exactamente Big Data?

CASOS DE USO
Big data puede ayudar a nuestras empresas a abordar una serie de actividades empresariales, desde la
experiencia de cliente hasta la analítica. A continuación, recopilamos algunos de los casos de uso.
Desarrollo de Productos: Empresas como Netflix y Procter & Gamble usan big data para prever la
demanda de los clientes. Construyen modelos predictivos para nuevos productos y servicios clasificando
atributos clave de productos anteriores y actuales, y modelando la relación entre dichos atributos y el
éxito comercial de las ofertas.

Mantenimiento Predictivo: Los factores capaces de predecir fallos mecánicos pueden estar
profundamente ocultos entre datos estructurados (año del equipo, marca o modelo de una máquina) o
entre datos no estructurados que cubren millones de entradas de registros, datos de sensores,
mensajes de error y temperaturas de motor. Al analizar estos indicadores de problemas potenciales
antes de que estos se produzcan, las organizaciones pueden implantar el mantenimiento de una forma
más rentable y optimizar el tiempo de servicio de componentes y equipos

Experiencia de cliente: La carrera por conseguir clientes está en marcha. Disponer de una vista clara de
la experiencia del cliente es más posible que nunca. El big data le permite recopilar datos de redes
sociales, visitas a páginas web, registros de llamadas y otras fuentes para mejorar la experiencia de
interacción, así como maximizar el valor ofrecido. Empiece a formular ofertas personalizadas, reducir las
tasas de abandono de los clientes y gestionar las incidencias de manera proactiva.
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
1.- ¿Qué es exactamente Big Data?

CASOS DE USO
Fraude y Conformidad: En lo que a seguridad se refiere, no se enfrenta a simples piratas informáticos deshonestos, sino a
equipos completos de expertos. Los contextos de seguridad y requisitos de conformidad están en constante evolución. El
big data le ayuda a identificar patrones en los datos que pueden ser indicativos de fraude, al tiempo que concentra grandes
volúmenes de información para agilizar la generación de informes normativos.

Aprendizaje automático: El machine learning o aprendizaje automático es un tema candente en la actualidad. Los datos,
concretamente big data, es uno de los motivos de que así sea. Ahora, en lugar de programarse, las máquinas pueden
aprender. Esto es posible gracias a la disponibilidad de big data para crear modelos de machine learning.

Eficiencia Operativa: Puede que la eficiencia operativa no sea el aspecto más destacado en los titulares, pero es el área en
que big data tiene un mayor impacto. El big data le permite analizar y evaluar la producción, la opinión de los clientes, las
devoluciones y otros factores para reducir las situaciones de falta de stock y anticipar la demanda futura. El big data
también puede utilizarse para mejorar la toma de decisiones en función de la demanda de mercado en cada momento.

Innovación: El big data puede ayudar a innovar mediante el estudio de las interdependencias entre seres humanos,
instituciones, entidades y procesos, y, posteriormente, mediante la determinación de nuevas formas de usar dicha información.
Utilizando las perspectivas que ofrecen los datos para mejorar las decisiones financieras y consideraciones de planificación.
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
1.- ¿Qué es exactamente Big Data?

DESVENTAJAS

Así como esta herramienta posee grandes beneficios, no está exento de algunas desventajas:

• El rechazo a su implementación. La tecnofobia no es inherente a todas las personas, pero si para quienes no entienden muy bien cómo
funcionan ciertas innovaciones. Mientras que hay dudas razonables sobre cómo el manejo de macrodatos puede incidir sobre la privacidad,
hay que realizar una labor informativa. Su aplicación pretende generar avances importantes y facilitar procesos para su bienestar.

• Problemas con la ciberseguridad. La seguridad en la red representa uno de los mayores desafíos para la administración de grandes
cantidades de datos. Las técnicas de protección y los protocolos de almacenamiento deben contrarrestar lo más posible los ataques
sofisticados de los hackers. Aunque no se puede garantizar un resguardo 100% efectivo, hace falta fortalecer los sistemas para reducir al
mínimo los posibles daños.

• Demasiada acumulación de datos. Puede parecer contradictorio, pero se puede dar un escenario en que una organización se quede sin la
capacidad para procesar la ingente generación de datos. Puede ocurrir si no se cuenta con un servicio en la nube o servidores apropiados
para este propósito. Además, si no se cuenta con el equipo de especialistas para extraer el valor, la acumulación de información podría
obstaculizar y hacer más lentas las labores estratégicas relevantes.

• Políticas que protegen la información. Los gobiernos están en su justo derecho de proteger a sus ciudadanos de cualquier acción que
ponga en riesgo su privacidad. Si bien los datos suelen ser anónimos, su recolección puede darse sin conocimiento de causa, transgrediendo
derechos fundamentales. El uso del big data es positivo en muchos aspectos, pero debe tener limitaciones para evitar su manipulación
indebida.
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
1.- ¿Qué es exactamente Big Data?

¿Cómo funciona Big Data? Sus herramientas

El big data le aporta nuevas perspectivas que abren paso a nuevas oportunidades y modelos de negocio. Iniciarse en ello requiere de tres
acciones clave:

Cada vez que hacemos clic en un botón al navegar por internet, cada vez que hacemos scroll en una página, cada vez que
hacemos una transacción bancaria o que leemos una newsletter, generamos un dato. Cada vez que un móvil envía una llamada a
un smartwatch o que compartimos contenido entre la tablet y la televisión, nuestros dispositivos generan un dato. Explicado de
forma muy simplificada, el Big Data:
• Recibe los datos.
• Los almacena.
• Los distribuye entre distintos procesadores (para poder procesarlos a mayor velocidad).
• Procesa los datos.
• Reúne de nuevo los datos.
• Utiliza algoritmos predictivos y prescriptivos para interpretarlos (mediante técnicas de Ciencia de Datos).
• Extrae la información requerida (patrones de comportamiento, oportunidades de negocio, predicciones de venta,
etcétera).

El factor humano entra en el siguiente paso: el Big Data no toma las decisiones finales, sino que da información a las personas para que estas
puedan tomar resoluciones más satisfactorias. No obstante, la industria 4.0 trabaja desde hace tiempo en cerrar el círculo mediante la
aplicación de modelos predictivos y prescriptivos.
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
1.- ¿Qué es exactamente Big Data?

¿Cómo funciona Big Data? Sus herramientas

Como hemos visto en los “casos de uso” la big data aporta nuevas perspectivas que abren paso a nuevas oportunidades y modelos de
negocio. Pero como funciona …

INTEGRAR GESTIONAR ANALIZAR

El big data concentra datos de numerosas El big data requiere almacenamiento. Su La inversión en big data se
fuentes y aplicaciones distintas. Los solución de almacenamiento puede residir rentabiliza en cuanto se analizan y
mecanismos de integración de datos en la nube, on premises o en ambos. Puede utilizan los datos. Adquiera una
convencionales, tales como ETL (extract, almacenar sus datos de cualquier forma que nueva claridad con un análisis visual
transform, load [extraer, transformar, desee e incorporar los requisitos de de sus diversos conjuntos de datos.
cargar]), generalmente no están a la procesamiento de su preferencia y los Continúe explorando los datos para
altura de dicha tarea. Analizar conjuntos motores de procesamiento necesarios a realizar nuevos descubrimientos.
de big data de uno o más terabytes, o dichos conjuntos de datos on-demand. Comparta sus hallazgos con otras
incluso petabytes, de tamaño requiere de Muchas personas eligen su solución de personas. Construya modelos de
nuevas estrategias y tecnologías. almacenamiento en función de dónde datos con aprendizaje automático e
Durante la integración, es necesario residan sus datos en cada momento. La inteligencia artificial. Ponga sus
incorporar los datos, procesarlos y nube está aumentando progresivamente su datos a trabajar.
asegurarse de que estén formateados y popularidad porque es compatible con sus
disponibles de tal forma que los analistas requisitos tecnológicos actuales y porque le
empresariales puedan empezar a permite incorporar recursos a medida que
utilizarlos. los necesita.
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
1.- ¿Qué es exactamente Big Data?

¿Arquitectura de un Sistema de Big Data

Desde un punto de vista de arquitectura y tecnología,
05
04
se puede estructurar un sistema de Big Data en cinco
capas principales: CAPA

03 CAPA
PRESENTACIÓN Y

02
APLICACIÓN
CAPA
ANÁLISIS Y

01
MODELOS Incluye las
CAPA tecnologías de
Esta capa incluye visualización tales
ALMACENAMIENTO diversas como dispositivos
CAPA herramientas de móviles,
INTEGRACIÓN manejo de datos, navegadores ..
Conjunto de que operan Una vez obtenido
recursos sobre los el conocimiento,
adecuados recursos de éste se puede
FUENTE DE DATOS Aquí se para el almacenamiento aplicar en distintos
adquieren los alamcenamien e incluyen la
En esta capa procesos
datos y se to de grandes gestion de los
estarían todos los integran en volúmenes de datos y los
orígenes de la conjuntos con datos modelos de
información, datos el formato programación
estructurados o no adecuado
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
1.- ¿Qué es exactamente Big Data?

¿Cómo funciona Big Data? Sus herramientas

Como el Big Data es algo que no deja de crecer, las herramientas que se usan para gestionarlo evolucionan con él y se perfeccionan
permanentemente.

Se emplean herramientas como Hadoop, Pig, Hive, Cassandra, Spark, Kafka, etc., dependiendo de los requisitos de cada organización. Hay
muchísimas soluciones, y buena parte de ellas son de código abierto.
Como esas herramientas son muy importantes para el Big Data, vamos a explicar un poco en qué consisten. Quizá una de las más
afianzadas para analizar Big Data sea Apache Hadoop, un marco de trabajo de código abierto para almacenar y procesar grandes conjuntos
de datos, aún así en este módulo revisaremos las dos principales herramientas del mercado.
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
1.- ¿Qué es exactamente Big Data?

¿Cómo funciona Big Data? Sus herramientas

Apache Hadoop es un framework de código abierto que permite el almacenamiento distribuido y
el procesamiento de grandes conjuntos de datos en base a un hardware comercial. En otras
palabras, Hadoop hace posible a las organizaciones obtener conocimiento rápidamente a partir
de cantidades masivas de datos, estructurados y no estructurados, posicionándolas al nivel de las
exigencias actuales de los mercados en términos de dinamismo y capacidad.

El ecosistema Hadoop cuenta con soluciones de todo tipo para cubrir cualquier necesidad que
pueda presentarse al negocio en materia de: Gestión de datos , Acceso a los datos
, Gobernabilidad e integración de datos, Seguridad de la información , Operaciones.

Cómo Trabaja:

Hadoop, basado en el modelo map reduce, es un sistema de código abierto basada en una
arquitectura que trabaja con el nodo maestro y los nodos esclavos para la creación de un clúster
(explicado de forma simple es un grupo de ordenadores unidos mediante una red de alta
velocidad, de tal forma que el conjunto es visto como un único ordenador), siempre a partir de un
sólo nodo maestro y varios esclavos. Se trata de una tecnología que almacena volúmenes
enormes de información y permite implementar análisis predictivos a partir de datos
estructurados y desestructurados, que se ejecutan en un clúster de Hadoop de una determinada
cantidad de nodos.

El mercado de Hadoop superará los 50.000 millones de dólares en 2020

BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
1.- ¿Qué es exactamente Big Data?

¿Cómo funciona Big Data? Sus herramientas

Spark es una plataforma open source * (licencia Apache 2.0) para procesamiento paralelo en clusters.

Está orientada a manejar grandes volúmenes de datos y ejecutar cómputo intensivo sobre ellos. Spark está
suponiendo una revolución en el mundo del Big Data, podemos verlo como una evolución de Hadoop MapReduce, que
nos ofrece varias ventajas y reduce significativamente los tiempos de ejecución.
El nacimiento de Spark surge en los laboratorios AMPLab de la Universidad de Berkeley en 2009, su evolución ha sido
espectacular, incrementándose notablemente la comunidad y el número de contribuciones.
Finalmente en 2014 Spark fue acogido como un proyecto “Top-Level” de la Apache Software Foundation y nació la
compañía Databricks para dar soporte al desarrollo de Spark.

Algunas de las ventajas más notables de Spark son:

• Procesamiento en memoria de los resultados parciales.

• Soporte para múltiples lenguajes.
• Tolerancia a fallos implícita.
• 100% Open Source.
• Hasta 100 veces más rápido que Hadoop
• Módulos que lo extienden para streaming, Machine Learning,
acceso a datos, grafo

*: “Open Source” o código abierto es una modalidad colaborativa y pública de desarrollo de programas cuyo código fuente se distribuye con una licencia que permite a cualquiera y de forma
gratuita estudiarlo, modificarlo y redistribuirlo, requiriendo generalmente que los cambios sean a su vez publicados y limitado o prohibiendo cobrar por los mismos
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
1.- ¿Qué es exactamente Big Data?

¿Cómo funciona Big Data? Sus herramientas

El Universo de
aplicaciones Big Data es
casi ilimitado y una de las
grandes preguntas que
me suelen hacer mis
alumnos es sobre que
perfiles trabajan en
temas de Big data, en la
siguiente ilustración
podéis ver cuáles son las
herramientas
principales utilizadas por
cada uno de los roles en
el mundo Big Data. Es
importante que cada
perfil los conozca y esté al
tanto de nuevas versiones
y nuevos productos que
ayudarán en su trabajo
diario.
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
1.- ¿Qué es exactamente Big Data?

¿Cómo funciona Big Data? Sus herramientas

¿Cómo utilizan los ejecutivos de alto nivel Big Data? De acuerdo a la información que pone a nuestra disposición Microsoft Marketing, 49
por ciento de los altos ejecutivos utilizan Big Data para información de valor sobre los clientes, segmentación o selección de grupos meta;
y 39 por ciento lo utilizan en la actualidad para presupuestos, predicciones o planeación.

La variedad de usos que le dan las empresas a los datos y los beneficios que estos generan dependen de la capacidad de los negocios para
almacenarlos, analizarlos e interpretarlos, no importa si son estructurados o no. Contar con una plataforma flexible, que se adapte a las
necesidades del negocio y que permita obtener dividendo de esos datos es lo que permitirá a las empresas obtener la información de
valor y el conocimiento necesarios para mirar adelante, anticiparse a los retos futuros y satisfacer a sus clientes de la mejor manera
posible.
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
1.- ¿Qué es exactamente Big Data?

Best Practices
Para ayudarle en su transición a big data, hemos recopilado una serie de mejores prácticas que debe tener en cuenta. A
continuación, detallamos nuestras pautas para crear con éxito una base de big data.

• Alinear Big Data con Objetivos Empresariales específico. La disponibilidad de conjuntos de datos más amplios le permite realizar
nuevos hallazgos. A tal efecto, es importante basar las nuevas inversiones en habilidades, organización o infraestructura con un marcado
contexto empresarial para garantizar la constancia en la financiación e inversión en proyectos. Para determinar si se encuentra en el
camino correcto, pregúntese en qué medida el big data respalda y habilita sus principales prioridades empresariales y de TI. Algunos
ejemplos incluyen entender cómo filtrar los registros web para comprender el comportamiento del comercio electrónico, extraer el
sentimiento de las redes sociales y de las interacciones de atención al cliente, así como entender los métodos de correlación estadística y
su relevancia para los datos de clientes, productos, fabricación e ingeniería.

• Mitigar la escasez de conocimientos y habilidades. Uno de los mayores obstáculos para beneficiarse de su inversión en big data es
la escasez de habilidades. Puede mitigar el riesgo asegurándose de incorporar a su programa de administración de TI tecnologías,
consideraciones y decisiones relativas a big data. Normalizar su enfoque le permitirá gestionar los costes y aprovechar los recursos. Las
organizaciones que implanten soluciones y estrategias de big data deben evaluar sus necesidades de habilidades de forma temprana y
frecuente, e identificar de manera proactiva las posibles carencias de habilidades. Esto puede lograrse mediante la impartición de
formación o la formación cruzada entre recursos existentes, la contratación de nuevos recursos y el uso de empresas de consultoría.

• Optimizar la trasferencia de conocimientos. Utilice un enfoque basado en un centro de excelencia para compartir conocimientos,
supervisar el control y gestionar las comunicaciones de proyectos. Tanto si el big data es una inversión nueva o en expansión, los costes
directos e indirectos pueden distribuirse en toda la empresa. Utilizar este enfoque puede contribuir a incrementar las capacidades de big
data y la madurez del conjunto de la arquitectura de información de una forma más sistemática y estructurada.
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
1.- ¿Qué es exactamente Big Data?

Best Practices
• La principal ventaja reside en alinear los datos estructurados y no estructurados. Analizar el big data de forma aislada sin duda
aporta valor. Sin embargo, puede obtener una perspectiva empresarial aún más valiosa relacionando e integrando el big data de baja
densidad con los datos estructurados que ya usa actualmente. Tanto si está recopilando big data de clientes, de productos, de
equipos o ambientales, el objetivo es añadir puntos de datos más relevantes a sus resúmenes maestros y analíticos, lo que le
permitirá obtener mejores conclusiones. Por ejemplo, existe una diferencia en distinguir la percepción de todos los clientes de la de
solo sus mejores clientes. Por eso, muchos consideran que big data constituye una extensión integral de sus capacidades existentes
de inteligencia empresarial, de su plataforma de almacenamiento de datos y de su arquitectura de información. Tenga en cuenta que
los modelos y procesos analíticos de big data pueden ser tanto humanos como automáticos. Las capacidades de análisis de big data
incluyen estadísticas, análisis especiales, semántica, detección interactiva y visualización. Mediante el uso de modelos analíticos,
puede relacionar distintos tipos y fuentes de datos para realizar asociaciones y hallazgos significativos.

• Alinear con el modelo operativo en la nube. Los usuarios y procesos de big data requieren acceso a una amplia variedad de recursos
de experimentación reiterativa y ejecución de tareas de producción. Una solución de big data incluye todos los ámbitos de los datos,
incluidas transacciones, datos principales, datos de referencia y datos resumidos. Los entornos de pruebas (sandboxes) analíticos
deben crearse on-demand. La gestión de recursos es fundamental para garantizar el control de todo el flujo de datos, incluido el
procesamiento previo y posterior, la integración, el resumen dentro de la base de datos y la creación de modelos analíticos. Disponer
de una estrategia bien definida de aprovisionamiento y seguridad en la nube pública y privada es fundamental para respaldar estos
requisitos cambiantes.
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
2.- Hacia la ingeniería del Dato

Data mining o minería del dato

Relación entre Big Data y Data mining:

El Big Data, como hemos visto, se centra en analizar los grandes volúmenes de datos que superan la capacidad de los procesamientos
informáticos habituales. Su objetivo es el de analizar en el menor tiempo posible y de forma eficaz toda la información.

En cambio, la minería de datos analiza los grandes volúmenes de datos. Sintetiza, identifica y agrupa patrones de comportamiento entre los
datos. Generalmente los datos que analiza pertenecen a clientes y consumidores. Gracias a la minería de datos, podemos conocer patrones de
conducta de clientes, periodos de contratación de un servicio determinado o periodos de compra, fuga a otras compañías, o incluso riesgos de
estafas a partir de patrones sospechosos o inusuales.

Big Data y Minería de datos podrían ser definidos como el “activo” y el “manejo”, respectivamente.
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
2.- Hacia la ingeniería del Dato

Data mining o minería del dato

Ventajas y desventajas Data mining:

Los análisis de datos mediante el Data Mining pueden aportar numerosas ventajas a las empresas para la
optimización de su gestión y tiempo, pero también para la captación y fidelización de clientes, que les permitirá
aumentar sus ventas. Vemos algunas ventajas que nos puede aportar.
1. Permite descubrir información que no esperábamos obtener. Esto se debe a su funcionamiento con
algoritmos, ya que permite hacer muchas combinaciones distintas.
2. Es capaz de analizar bases de datos con una enorme cantidad de datos.
[Link] resultados son muy fáciles de interpretar y no es necesario tener conocimientos en ingeniería
informática.
[Link] encontrar, atraer y retener clientes.
[Link] empresa puede mejorar la atención al cliente a partir de la información obtenida.
[Link] a las empresas la posibilidad de ofrecer a los clientes los productos o servicios que necesitan.
[Link] de usar los modelos, estos son comprobados mediante estadísticas para verificar que las
predicciones obtenidas son válidas.
[Link] costes a la empresa y abre nuevas oportunidades de negocio.

Sin embargo, también puede aparecer algún inconveniente a la hora de utilizar técnicas de Data Mining, por
ejemplo, dependiendo del tipo de datos que se quieran recopilar, nos puede llevar mucho trabajo, o a veces la
inversión inicial para obtener las tecnologías necesarias para la recopilación de datos puede tener un coste
elevado.
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
2.- Hacia la ingeniería del Dato

Data mining o minería del dato

BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
2.- Hacia la ingeniería del Dato

Data mining o minería del dato

Aplicaciones de la minería de datos:

Las áreas donde la minería de datos puede aplicarse, es prácticamente en todas las
actividades humanas que generen datos como:

• Comercio y banca: segmentación de clientes, previsión de ventas, análisis de riesgo.

• Medicina y Farmacia: diagnóstico de enfermedades y la efectividad de los
tratamientos.
• Seguridad y detección de fraude: reconocimiento facial, identificaciones
biométricas, accesos a redes no permitidos, etc.
• Recuperación de información no numérica: minería de texto, minería web,
búsqueda e identificación de imagen, video, voz y texto de bases de datos
multimedia.
• Astronomía: identificación de nuevas estrellas y galaxias.
• Geología, minería, agricultura y pesca: identificación de áreas de uso para distintos
cultivos o de pesca o de explotación minera en bases de datos de imágenes de
satélites.
• Ciencias Ambientales: identificación de modelos de funcionamiento de ecosistemas
naturales y/o artificiales para mejorar su observación, gestión y/o control.
• Ciencias Sociales: Estudio de los flujos de la opinión pública. Planificación de
ciudades: identificar barrios con conflicto en función de valores sociodemográficos.
¿Cómo saben tanto de mí?
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
2.- Hacia la ingeniería del Dato

Data mining o minería del dato

Cómo funciona Data Mining:

Básicamente, la función del Data Mining es utilizar las grandes bases de datos para traer insights sobre comportamientos que se repiten de
manera consistente. Eso se debe a la elaboración de algoritmos que consiguen identificar patrones en medio a de los datos y establecer
correlaciones entre ellos.
Para que el Data Mining funcione precisamos, en primer lugar, de datos, que después de serán debidamente “limpios” y distribuidos de
manera uniforme, serán sujetos a un software especializado que hará una manipulación y comparación de ellos a fin de establecer
relaciones entre sus comportamientos.
Por fin, el resultado del proceso va a ser la transformación de datos brutos en insights que podrán ser utilizados para el alcance de
diferentes objetivos organizacionales.
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
2.- Hacia la ingeniería del Dato

Data mining o minería del dato

Herramientas de Data mining:
El Data Mining, es un conjunto de técnicas que se realizan para explorar grandes cantidades de datos. El objetivo es el de encontrar una
aguja en un pajar, y para alcanzar este objetivo, existen múltiples métodos matemáticos y estadísticos encapsulados en algoritmos que hoy
en día también llamamos machine learning o inteligencia artificial. Durante los últimos años se ha establecido la metodología CRISP-DM
para realizar proyectos de este tipo, la cual se puede resumir en cinco pasos generales, aunque es un proceso circular en el que las fases se
van retroalimentando:
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
2.- Hacia la ingeniería del Dato

Data mining o minería del dato

Herramientas de Data mining:

Durante los últimos años han aparecido varias

Plataformas de Data Science y Machine Learning
creando un mercado muy dinámico que está
evolucionando rápidamente. Aunque grandes
empresas como IBM, SAP o Microsoft hayan lanzado
sus propias herramientas, hasta ahora no han
conseguido dominar el mercado dejando espacio a
nuevas empresas innovadoras.

La famosísima empresa consultora y de investigación

de IT, GARTNER, ha analizado el mercado de estas
herramientas incluyendo las más importantes en el
cuadrante mágico.

Actualmente con más empuje en el mercado:

BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
2.- Hacia la ingeniería del Dato

Predyctive Analytics
Relación entre Big Data y Análisis Predictivo

El análisis predictivo es, un área del Big Data que se ocupa de analizar los datos en base a un conjunto de técnicas estadísticas y de aprendizaje
automático que se construyen creando modelos matemáticos y de inteligencia artificial y denominados modelos predictivos. Con el análisis de
estos datos previos podemos establecer y conocer diferentes comportamientos de la variable analizada. Por lo tanto, la clave está en detectar
las variables que más influyen en nuestra predicción, para poder cambiarlas y así utilizarlas para el beneficio de la empresa.

El análisis predictivo es un término paraguas para referirnos al conjunto de procesos que implican aplicar diferentes técnicas computacionales
con el objetivo de realizar predicciones sobre el futuro basándonos en datos pasados. Las variedad de técnicas empleadas incluyen minería de
datos (data mining), modelado, reconocimiento de patrones, graph analytics, …
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
2.- Hacia la ingeniería del Dato

Predyctive Analytics
Relación entre Big Data y Análisis Predictivo
El mercado está en constante cambio y cualquier información que nos ayude a saber cuál será el siguiente paso, por ejemplo, qué productos o
servicios serán más populares y cuáles menos, es de extrema utilidad. En pequeñas diferencias está el abismo entre el éxito y la bancarrota.
Imagínate el poder de conocer las próximas modas o qué preferencias tendrán la mayoría los compradores el siguiente verano.

Big data y modelos predictivos son una combinación que cualquier empresa importante tiene muy presente para hacer sus análisis de
mercado.
Muchas actividades económicas utilizan constantemente predicciones para establecer sus precios, como las aerolíneas y los hoteles. Nunca se
puede saber con total certeza cuál será el volumen de ventas y encontrar el precio al que el beneficio sea máximo es el objetivo de toda
empresa. La analítica predictiva es una herramienta magnífica para ello.

Los modelos predictivos aplican resultados conocidos con el fin de entrenar al modelo para predecir valores, con datos diferentes o
completamente nuevos, en un proceso repetitivo. El modelado proporciona los resultados en forma de predicciones representadas mediante
el grado de probabilidad de la variable objetivo basado en la significación estimada a partir de un conjunto de variables de entrada. La variable
objetivo puede tratarse de las ventas, la cara de una persona, las coordenadas de un yacimiento petrolífero, o cualquier cosa que se nos
ocurra.
Realmente no existe limitación en los usos de aplicar predictive analytics, dependerán de qué queremos obtener. Se aplican ampliamente en
casi cualquier sector, no sólo de negocio, ya sea para detectar oportunidades comerciales, detectar y reducir fraude, retención de clientes,
predecir fallos en sistemas, sino también en otros campos en los que todos nos beneficiamos como detectar cáncer en pacientes, evolución de
epidemias, ahorro de costes en organismos públicos, reconocimiento del habla, la lista es interminable.
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
2.- Hacia la ingeniería del Dato

Predyctive Analytics
Proceso de un Análisis Predictivo

01
RECOPILAR DATOS: El desarrollo de un modelo de análisis predictivo comienza con la obtención de los datos en función de los que se
va a realizar las predicciones. Los datos podrán proceder de diferentes fuentes, tales como archivos, BBDD, sensores, etc. y se exploran
para conocer su naturaleza, estructura, la calidad de los mismos…

ORDENAR Y ADAPTAR LOS DATOS: eL siguiente paso consiste en realizar un procesado inicial de los mismos para ordenarlos,

02 transformarlos y adecuarlos a las necesidades del modelo. En este punto se suelen eliminar los valores extremos que distorsionan el
funcionamiento del modelo y se crea una única estructura con los datos procesados de las distintas fuentes.

03
ANALIZAR LOS DATOS: Una vez creada la estructura de datos se analizan los mismos para identificar sus características, detectar los
patrones y tendencias en sus valores y obtener información relevante para el desarrollo del algoritmo predictivo, que es la base del
modelo..

04
ELEGIR EL MODELO MATEMÁTICO: Para el desarrollo del algoritmo se utilizará la información obtenida del análisis de los datos y, en
función de ella, se decidirán las técnicas matemáticas que permitirán procesar los datos de entrada al modelo y realizar las predicciones
(salidas).

05
OPTIMIZAR: Finalmente, se optimizarán los parámetros del algoritmo mediante un conjunto de datos de entrenamiento (datos reales de
las variables de entrada y de salida del modelo) y se verificará su exactitud con un conjunto de datos de prueba (datos reales de las
variables de entrada y predicciones del modelo que se comparan con los datos reales con los que deberían coincidir las predicciones).
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
2.- Hacia la ingeniería del Dato

El análisis predictivo y los modelos matemáticos

La analítica predictiva se basa, aparte de los datos, en series de tiempo que están hechas de uno o más
componentes como tendencias, ciclos, temporalidad y residuales. Cada uno de estos elementos permite
tomar decisiones a corto, mediano y largo plazo. Las tendencias son patrones a largo plazo; los ciclos reflejan
los movimientos a la alza y a la baja dentro de una tendencia; la temporalidad es la fluctuación recurrente
durante un año; y los residuales son los componentes impredecibles e inexplicables.

Los elementos antes mencionados permiten que se lleve a cabo el proceso de predicción, que muchas
empresas utilizan para conseguir sus objetivos de negocios y aprovechar mejor los datos y la información de
valor que se genera a partir de ellos.

Modelos matemáticos
Existen dos tipos de modelos matemáticos utilizados para el análisis predictivo de datos. El modelo
determinístico es aquel donde la relación completa de las entradas y los resultados son determinados de
manera concluyente. Las mismas entradas obtienen los mismos resultados cada vez, como ejemplo, el
cálculo del área dentro de un círculo a través de fórmulas matemáticas.

El otro modelo es el estocástico (o fortuito) donde las entradas son variables aleatorias y el resultado es una
distribución de probabilidad estimada de resultados potenciales. En finanzas por ejemplo, se utiliza el
método Monte Carlo para simular el modelo estocástico, que determina la probabilidad de un resultado
basado en el número de ocurrencias dentro de una serie de eventos simulados. Un ejemplo de esto sería
lanzar dardos a un círculo para estimar el porcentaje de la figura que ocupa el área dentro de un círculo.
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
2.- Hacia la ingeniería del Dato

Flujo de trabajo de un proceso predictivo

Todos estamos familiarizados con los
modelos predictivos para la previsión
meteorológica. Una de las aplicaciones
cruciales de los modelos predictivos está
relacionada con la predicción de la
carga energética para pronosticar la
demanda. En este caso, los productores de
energía, los operadores de la red de
suministro y los distribuidores necesitan
predicciones precisas sobre la carga
energética para tomar decisiones
encaminadas a la gestión de las cargas en la
red eléctrica. Hay disponibles grandes
cantidades de datos y, mediante el análisis
predictivo, los operadores pueden convertir
esta información en conocimiento que
permite pasar a la acción.
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
2.- Hacia la ingeniería del Dato

Predyctive Analytics
Herramientas y software usado para Análisis predictivo
Os comento en esta presentación algunas de las herramientas más usadas en el análisis predictivo, la decisión del uso de esta herramienta es
una decisión que deberéis alinear con el modelo de datos ERP y CRM que utilice la compañía, os comento algunas de las más frecuentes.

IBM SPSS Statistics. Si bien existen muchos programas de análisis estadístico, SPSS es el único en el que es 100% sencillo editar
los datos recogidos. La manipulación de datos es el principal valor de SPSS. Cuestiones como la capacidad de importar y exportar
datos en una amplia variedad de formatos de datos es también relevante a la hora de decidirse por este software.

RAPIDMINER. Este programa ya os comenté que era de los más usados en data mining, posee como virtud principal una interfaz
de usuario muy intuitiva. Debido a ello, si eres un principiante en análisis predictivo puedes aprender los pasos básicos de
utilización muy rápidamente. Rapidminer coincide con varios de sus competidores en la gran capacidad para importar los datos
de diversas fuentes y formatos, así como algunas herramientas de visualización de datos muy potentes. Además, permite una
licencia académica muy fácil de obtener, es decir, no requiere de una gran burocracia para contar con ella.

AMAZON MACHINE LEARNING. Hay personas que utilizan esta herramienta para predecir los precios de las acciones. Sin duda,
uno de los programas más intuitivos y una alternativa de bajo coste en comparación con otras opciones mucho más caras en el
mercado. Además, sólo se paga por uso, no hay un fee mensual.
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
3.- Big Data y el Customer Journey

Las personas y su conectividad

En la actualidad las personas están constantemente
conectadas, el teléfono móvil ha dejado de ser
un objeto de lujo y sus posibilidades van mucho más
allá de la llamada, ofreciendo servicios basados en la
geolocalización o permitiendo incluso detectar cuál ha
sido la última interacción realizada y dónde se ha
producido.
Lo mismo sucede con las viviendas que cada vez
presentan mayores funcionalidades, inspiradas en la
domótica o los vehículos, muchos de los cuales ya
cuentan con varios sistemas de sensores, generando
todos ellos información muy completa, perfecta para
crear nuevos servicios de valor. Big Data aprovecha
todas estas nuevas fuentes de información
provenientes de los dispositivos de última generación.
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
3.- Big Data y el Customer Journey

El viaje del Cliente y tu big data

Customers Journey o “viaje del cliente” se define como un proceso que ilustra cada
uno de los pasos por los cuales atraviesa tu cliente desde que no conoce tu marca
hasta que se convierte en un portavoz de la misma, los momentos de
emoción/tensión que suceden durante este viaje y las personas que intervienen en él
para hacerlo placentero. Entre dichos estadios críticos se encuentra la toma de
consciencia del producto o servicio, la comparativa de opciones, la decisión de
compra, el engagement, la fidelización, etc.

Obviamente, estas vías predefinidas hacia la compra son escenarios ideales. En la

realidad, cualquier distracción o factor completamente fuera de nuestro control
puede alterar el Customer Journey y provocar que nuestros prospectos den pasos
hacia atrás o hacia adelante en el mismo. Incluso dentro de nuestra propia
estrategia, el mensaje equivocado o en el momento incorrecto puede hacer que
alguien a punto de concretar una compre cambie de opinión en el último momento.

El análisis de Big Data es, hasta el momento, la mejor herramienta disponible para hacer un buen mapeo de tu Buyers Journey. Este te permite
saber desde dónde están llegando tus clientes, cuántos días les toma cambiar de un estadio al siguiente, cuáles son los factores que los hacen
retroceder, cómo se comporta cada segmento, etc.

El Big Data toma en consideración el objetivo de la marca, el objetivo del comprador, la etapa del funnel, los canales que se utilizan y el mapa de
calor del sitio web o e-commerce, entre muchos otros.
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
3.- Big Data y el Customer Journey

Análisis y beneficios de la Big Data en la Cx (Customer Experience)

Vivimos en una era digital donde se genera Big Data tanto en la base de datos de la empresa como de manera pública. El poder entender
ese Big data permite explorar el comportamiento del cliente, patrones de uso y preferencias. La tecnología del big data te ayuda a una
segmentación avanzada, pudiendo llegar a detectar áreas de interés completamente nuevas de tus clientes. Y con esto, obtener insights
para crear ofertas personalizadas, en el correcto punto de contacto, dirigidas a la audiencia correcta y en tiempo real.

La inteligencia artificial y aprendizaje de máquina ayudan a la comprensión de estas métricas creando tendencias significativas que
indiquen futuros cambios en la estrategia de marketing y ventas.

Beneficios:
•Optimizar la experiencia del cliente
•Aumentar la tasa de conversión
•Aumentar la interacción y el compromiso con los clientes potenciales
•Resolver problemas de manera más eficiente
•Hacer su experiencia fácil y conveniente
•Mejores campañas

Los mismos consumidores pueden no saber lo que quieren. Pero la tecnología del Big data ayuda a conocerlo para que la empresa actue.
Aunque el consumidor cambie de manera constante, este analisis continuo evitará errores y se mejorara la experiencia.
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
3.- Big Data y el Customer Journey

¿Cómo aplicamos la Big Data en la CX?

Un informe de Forbes Insights y EY muestra que las empresas que usan esta estrategia aumentan un 15% sus beneficios. Los frutos del Big Data pueden
recogerse en muchas de las vertientes de una empresa: desde la reducción de costes, la adaptación de procesos, la elección de proveedores…
La experiencia del cliente no iba a ser menos, y aquí el análisis de datos tiene un papel más que significativo. El Big Data es un sistema analítico
convencional que convierte los datos en información. Si la información es poder, también lo es en lo que atañe a nuestros clientes.

Las compañías que hacen uso del Big Data consiguen un incremento de ingresos, un aumento de clientes prescriptores y operaciones más competentes.
Entender cómo se sienten nuestros clientes, cómo se comportan y cuáles son sus necesidades es un arma perfecta para aprender a relacionarnos con
ellos.

La experiencia del cliente nace de todas y cada una de las interacciones con la empresa, desde la decisión de la compra, la entrega del producto o
servicio, la atención al cliente a la satisfacción emocional. Todo cuenta, y por eso es fundamental detectar en qué puntos puede estar fallando y adaptar
esta relación para conseguir una experiencia óptima. El Big Data puede ayudarte en este proceso.

•Personalización: Hacer sentir a nuestros clientes únicos y especiales, personalizando y adecuando la oferta, mejora la experiencia del cliente.
Según la encuesta Rethinking Retail, un 59% de los compradores que han experimentado la personalización creen que es un factor destacado
que influye en la compra.
•Adaptación: El Big Data ayuda a conocer a los clientes a los que nos dirigimos y permite adaptar los contenidos, los tiempos o incluso los
precios, dependiendo de quién esté al otro lado.
•Análisis: Existen patrones ocultos que el Big Data puede extraer, para aprovecharlos y adaptar, si fuese necesario, la estructura logística de la
empresa o sus plataformas (apps, webs, etc.) a lo que los clientes demandan con sus modelos de comportamiento.
•Automatización: Se pueden generar procesos y relaciones de forma automática acordes con las necesidades del cliente, previamente
analizadas. Esto también permite optimizar las tarifas de publicidad según la demanda, los picos de audiencia, la localización u otros factores.
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
3.- Big Data y el Customer Journey

Estrategias de aplicación de la big Data en CX

Netflix empezó siendo una empresa
que alquilaba películas en formato
de DVD por correo. En 2009 comenzó
a usar un algoritmo para predecir los ¿Qué resultados obtiene?
gustos de sus suscriptores. De cara al cuarto trimestre de 2020Netflix espera
incrementar un 20,2% interanual sus ingresos,
Hoy día tiene más de 203 millones de hasta 6.572 millones de dólares (5.541 millones
usuarios en todo el mundo. de euros), con un beneficio neto de 615 millones
de dólares (518 millones de euros)
¿Qué datos de clientes recoge?
Gracias a:
• Horarios de visualización
• Dispositivos que usan
• Hipersegmentar el cliente y adaptar las
• Tipos de búsquedas que realizan
series y películas a su demanda
• Su comportamiento durante la serie (pausa,
• Ofrecer a sus clientes recomendaciones de
rebobinado, créditos, etc.)
contenido afín a sus gustos
• Etiquetado de las películas (taggers)
• Generar contenido en función de las
• Valoraciones de los usuarios
preferencias de sus clientes
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
3.- Big Data y el Customer Journey

Estrategias de aplicación de la big Data en CX

La plataforma de música en streaming se lanzó en 2008 y en
2019 cerró con 271 millones de usuarios activos, un 31 %
más que el año anterior, de los cuales 124 millones son
premium.
En 2006 Spotify compró The Echo Nest (compañía ¿Qué resultados obtiene?
especializada en Big Data musical) con la que extrae datos 50 millones de suscriptores de pago
para reconocer las preferencias de los usuarios y las
tendencias musicales. Aumento de 5 millones en altas de
usuarios en 2018 respecto a 2017
¿Qué datos de clientes recoge?
Gracias a:
• Géneros más escuchados
• Establecer patrones de conducta para
• A qué hora escuchan música
poder hacer recomendaciones y listas de
• Dónde la escuchan
descubrimiento en función de los gustos
• Suscripciones a una playlists concreta
musicales de cada usuario
• Popularidad de los artistas
• Tiempo de reproducción (si pasas la canción antes de
30seg es un “no me gusta”)
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
3.- Big Data y el Customer Journey

Estrategias de aplicación de la big Data en CX ¿Qué resultados obtiene?

Es el mayor marketplace del mundo. Utiliza una estrategia Amazon cuadruplicó su beneficio en 2018,
basada en el análisis predictivo capaz de construir un sistema hasta los 2.371 millones de dólares Sus
de recomendación de productos para las personas que ventas crecieron un 27% en 2019, 135.987
visitan la web. millones de dólares.
Gracias a:
En 2016 cerró con 152 millones de • Ofrecer a los clientes una experiencia de
cuentas de clientes. compra personalizada
• Los motores de recomendación con los
que logran el 29% de sus ventas
¿Qué datos de clientes recoge?
• Secuencias de clics (valoraciones y likes)
• Datos históricos de compra de los usuarios
• Tiempo en el sitio web
• Duración de la vista
• Comparación de compras similares con otros clientes
• Ítems en los carritos de compra virtuales
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
3.- Big Data y el Customer Journey

Estrategias de aplicación de la big Data en CX ¿Qué datos de clientes recoge?

¿Has visto alguna vez cuatro Starbucks a pocos metros de • Localización de la tienda:
distancia? No están ahí por casualidad. La famosa cadena de - Datos demográficos de los clientes
cafeterías utiliza el BigData para determinar cuál es el - Populación
preciso lugar donde abrir una tienda. - Patrones de tráfico
- Paradas de transporte público
A día de hoy, más de 6 millones de personas están - Tipos de negocio en los alrededores
registradas en su loyalty program. • Ofertas personalizadas
- Productos que gustan a los clientes
¿Qué resultados obtiene? - Cómo toman el producto (con leche, sin azúcar...)
Un 10% más de ingresos en 2018 - Horario
Gracias a: - Lugar
• Determinar la rentabilidad de abrir una
tienda en un lugar u en otro
• Ofrecer a sus clientes ofertas y
promociones que les resulten interesantes
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
3.- Big Data y el Customer Journey

Las personas y su conectividad

Big Data requiere big Analytics

Estamos acostumbrados a saber lo que pasó, pero hoy nos interesa más conocer lo que pasará: si la empresa,
con su producto o servicio, seguirá siendo el gusto de los consumidores o si se hablará de ella bien o mal en
las redes sociales; aspectos todos ellos que requieren de nuevos modelos de análisis mucho más complejos
que lo que se podía experimentar hasta ahora..
Esta nueva realidad ha motivado nuevos requerimientos por parte de las empresas en relación con el análisis
de datos. Y, precisamente, para poder analizar toda esa información de que hoy se dispone, lo que
anteriormente se conocía como Business Intelligence actualmente requiere de un nuevo modelo de análisis:
Big analytics, el único que permite dar forma al Big Data.

Esta necesaria aparición tiene que ver con el hecho de que, para poder hacer un análisis predictivo o una
“clusterización” de los perfiles de clientes, se requiere de algo más que la propia inteligencia de negocio, y ese
algo más se concreta precisamente en Big Analytics. Analytics permite la aplicación de procesos matemáticos
complejos. Sus técnicas hacen posible trabajar con los datos al nivel de granularidad más bajo disponible, en
crudo, y empleando para ello modelos mucho más ágiles que los actuales modelos de BI.
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
4.- Big Data y el Big Analytics : Datawarehouse

Las limitaciones del business inteligence tradicional

El Business Intelligence con el que las empresas han crecido y se han externalizado, tiene unas limitaciones
bastante claras, basadas en la falta de agilidad en sus procesos. En efecto, con el sistema tradicional, los
procesos necesarios para el procesamiento y análisis de información carecen de dinamismo. Por ejemplo, la
inversión de tiempo necesaria para proceder a la carga de modelos era excesiva y provocaba que, con
frecuencia, al finalizar dicho proceso hubiese perdido utilidad, por haber evolucionado el negocio.

Realizar los cambios pertinentes para alinearlo de nuevo con las necesidades corporativas era una tarea
costosa, larga, poco ágil e ineficaz, al no poder tampoco aplicarse los algoritmos que hoy día se utilizan para el
análisis. La llegada de esta cantidad de datos ha provocado que las infraestructuras actuales no sean capaces
de soportar esas volumetrías, variabilidad en los datos, ni de hacer los deseados análisis en tiempo real. Esto
ha llevado a la inevitable búsqueda de infraestructuras capaces de soportar ese nuevo paradigma de datos al
que las empresas se enfrentan. Además, en cualquier compañía es importante poder calcular los costes en
materia de infraestructura. Cuando la interacción con Big Data se realiza en términos de escalabilidad, la
predicción del gasto se simplifica y se hace accesible la estimación del coste asociado al crecimiento de
negocio. De este modo, es posible proyectar y determinar la inversión necesaria para seguir creciendo, algo
que resulta impensable en términos de infraestructuras actuales y en un entorno de business intelligence
tradicional.
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
4.- Big Data y el Big Analytics : Datawarehouse

¿Qué es un Datawarehouse?
Un Datawarehouse (en adelante DWH) es una base de datos corporativa que se caracteriza por integrar y
depurar información de una o más fuentes distintas, para luego procesarla permitiendo su análisis desde
infinidad de pespectivas y con grandes velocidades de respuesta. La creación de un datawarehouse representa
en la mayoría de las ocasiones el primer paso, desde el punto de vista técnico, para implantar una solución
completa y fiable de Business Intelligence.

La ventaja principal de este tipo de bases de datos radica en las

estructuras en las que se almacena la información (modelos de
tablas en estrella, en copo de nieve, cubos relacionales... etc).
Este tipo de persistencia de la información es homogénea y
fiable, y permite la consulta y el tratamiento jerarquizado de la
misma (siempre en un entorno diferente a los sistemas
operacionales).
El término Datawarehouse fue acuñado por primera vez por
Bill Inmon, y se traduce literalmente como almacén de datos.
No obstante, y como cabe suponer, es mucho más que eso.
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
4.- Big Data y el Big Analytics : Datawarehouse

¿Qué es un Datawarehouse?
Un modelo datawarehouse, se caracteriza por ser:
1. Integrado: los datos almacenados en el datawarehouse deben integrarse en una estructura consistente, por lo que las inconsistencias
existentes entre los diversos sistemas operacionales deben ser eliminadas. La información suele estructurarse también en distintos
niveles de detalle para adecuarse a las distintas necesidades de los usuarios.
2. Temático: sólo los datos necesarios para el proceso de generación del conocimiento del negocio se integran desde el entorno
operacional. Los datos se organizan por temas para facilitar su acceso y entendimiento por parte de los usuarios finales. Por ejemplo,
todos los datos sobre clientes pueden ser consolidados en una única tabla del datawarehouse. De esta forma, las peticiones de
información sobre clientes serán más fáciles de responder dado que toda la información reside en el mismo lugar.
3. Histórico: el tiempo es parte implícita de la información contenida en un datawarehouse. En los sistemas operacionales, los datos
siempre reflejan el estado de la actividad del negocio en el momento presente. Por el contrario, la información almacenada en el
datawarehouse sirve, entre otras cosas, para realizar análisis de tendencias. Por lo tanto, el datawarehouse se carga con los distintos
valores que toma una variable en el tiempo para permitir comparaciones.
4. No volátil: el almacén de información de un datawarehouse existe para ser leído, pero no modificado. La información es por tanto
permanente, significando la actualización del datawarehouse la incorporación de los últimos valores que tomaron las distintas
variables contenidas en él sin ningún tipo de acción sobre lo que ya existía.

Otra característica del DWH es que contiene metadatos, es decir, datos sobre los datos. Los metadatos permiten saber la procedencia de la
información, su periodicidad de refresco, fiabilidad, forma de cálculo, etc.
Los metadatos serán los que permitan simplificar y automatizar la obtención de la información desde los sistemas operacionales a los
sistemas informacionales.
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
4.- Big Data y el Big Analytics : Datawarehouse

¿Qué es un Analytic Datawarehouse?

Hasta ahora, las estructuras usadas para la analítica de datos y su procesamiento se basaban en unos modelos
que habían sido predefinidos según las verticales correspondientes, caracterizándose por su gran rigidez, lo
que provocaba que la empresa no se pudiera adaptar a las nuevas necesidades.
Con la llegada de Big Analytics este panorama cambia: los data warehouse pueden evolucionar a la medida de
las necesidades, sin perjuicio de la posibilidad de disfrutar de unas capacidades ilimitadas tanto para
incorporar datos de cualquier tipo, como para llevar a cabo su procesamiento.
Esta evolución tiene su razón de ser en que no es lo mismo aplicar determinados algoritmos complejos sobre
grandes volúmenes de datos, que aplicar estos mismos sobre un conjunto reducido de ellos.
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
4.- Big Data y el Big Analytics : Datawarehouse

Beneficios de un Datawarehouse (DWH)

Un data warehouse es un proceso para guarda grandes cantidades de datos que han sido recopilados e integrados
de múltiples fuentes. Principalmente, es el núcleo del sistema de BI (Business Intelligence) creado para el análisis
de datos y la generación de informes.
•Orientada al negocio: El Data Warehouse se organiza alrededor de temas específicos de un problema de negocio
y no a las aplicaciones de estas.
•Integrada: Se integran diversas fuentes operacionales a través de un proceso ETL (extracción, transformación y
carga).
•Variante en el tiempo: En un Data Warehouse se mantiene un registro de los datos históricos para diferentes
periodos de tiempo. A diferencia de los datos transaccionales que comúnmente mantienen el registro más
reciente.
•No volátil: La información una vez ingresada en el Data Warehouse no se modifica, ni se elimina, solo se puede
leer y realizar consultas a esta
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
4.- Big Data y el Big Analytics : Datawarehouse

Beneficios de un Datawarehouse (DWH)

En líneas generales, el Data Warehouse es un almacén centralizado de datos, que integra las diversas
transacciones en una empresa. Para la creación de un Data Warehouse es necesario conocer bien el proceso ETL
(Extract, Transform and Load es el proceso que permite a las organizaciones mover datos desde múltiples fuentes,
reformatearlos y limpiarlos, y cargarlos en otra base de datos, data mart, o data warehouse para analizar, o en
otro sistema operacional para apoyar un proceso de negocio) bajo el cual se construye un Almacén de Datos:
Extracción: Corresponde a la extracción de los datos desde las diversas fuentes de datos (CRM, ERP, etc) a una
base de datos intermedia llamada Data Staging Area (DSA), Transformación: Es la etapa donde se homogeniza los
datos de las diferentes fuentes, se limpian y se transforman de acuerdo a los indicadores que se quieran
almacenar, Carga: Los datos una vez limpios y transformados son cargados en el Data Warehouse.

Con este proceso pasamos de diversas fuentes de datos a una base de datos confiable, centralizada y con
información relevante para el negocio. Presentándonos los siguientes beneficios:
•Facilidad de acceso a la información
•Mayor flexibilidad y rapidez de respuesta
•Consolidación y homogeneización de la información
•Mejor comunicación entre departamentos de la empresa
•Entrega de información relevante que antes no se almacenaba
•Se tiene una base confiable para aplicar técnicas de analytics
BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato
4.- Big Data y el Big Analytics : Datawarehouse

Mejores soluciones DWH del mercado

BIG DATA aspectos transversales en el tratamiento y la ingeniería del dato

Common questions

Con tecnología de IA

Big Analytics evolves traditional BI practices by incorporating advanced analytical techniques and handling Big Data's complexity and scale . Unlike traditional BI, which often lacks agility and operates on structured data, Big Analytics uses complex mathematical models and processing at granular levels, enabling real-time insights and actionability . It combines structured and unstructured data, necessitating advanced tools to model, cluster, and predict future trends, thus keeping pace with modern data requirements and enhancing decision-making capabilities .

Data warehouses aggregate and organize structured data from multiple sources to enable effective business intelligence and analytics . They provide historical, non-volatile, and subject-oriented data storage which facilitates trend analysis and detailed data reporting . The use of metadata helps automate data management processes, improving accessibility and reliability. Analytical data warehouses align with Big Data practices, allowing for flexible adaptation to evolving business needs while supporting complex analytics and Big Data techniques like predictive modeling and customer segmentation .

Cloud storage solutions significantly enhance the scalability and efficiency of Big Data systems by offering flexible, on-demand resources and reducing the limitations of physical infrastructure . They enable businesses to scale their storage and processing capabilities quickly to accommodate data growth. Cloud solutions provide cost-effective and scalable environments for data storage and analytics, supporting rapid real-time data flow and facilitating seamless integration with various Big Data technologies and tools .

Challenges in ensuring data veracity include handling inaccuracies, inconsistencies, and biases in large and varied datasets . These issues can significantly affect the reliability of analytics outcomes. To address these, businesses implement robust data governance frameworks, deploy data cleansing processes, and utilize advanced verification techniques . Machine learning models are also employed to detect and correct anomalies, improving data quality and decision-making. Ensuring veracity demands ongoing monitoring and validation to maintain data integrity and trustworthiness in insights derived from Big Data .

Apache Spark provides several advantages over Hadoop, including in-memory processing, which significantly reduces execution times, and greater speed, reportedly up to 100 times faster for certain applications . Spark supports multiple programming languages, has built-in modules for stream processing, machine learning, and graph analytics, and offers implicit fault tolerance . In contrast, Hadoop primarily relies on disk storage which can slow down processing times, making Spark a more efficient and versatile option for complex analytical tasks .

Predictive analytics uses historical data to forecast future trends, thereby transforming business strategies by providing actionable insights for decision-making. In sectors like airlines or retail, models can predict customer behavior, demand fluctuations, and optimal pricing strategies. This allows companies to anticipate trends, allocate resources efficiently, and enhance customer satisfaction . Predictive analytics helps businesses stay competitive by foreseeing market changes and adapting strategies accordingly, aiding in differentiating between success and failure in rapidly shifting markets .

A Big Data system is structured into five main layers: data source, integration, storage, analysis and models, and presentation . The data source layer gathers raw data from a variety of origins. In the integration layer, data is processed and formatted for accessibility. The storage layer manages vast volumes of data, providing cloud or on-premises solutions. The analysis and models layer uses tools for data management and modeling, often incorporating machine learning and artificial intelligence . Finally, the presentation layer visualizes the data through technologies like mobile devices and browsers. This architecture supports scalability, flexibility, and the capacity to derive actionable insights efficiently .

Big Data enhances customer experience and marketing personalization by providing detailed insights into consumer behavior through data such as transaction history, social media interactions, and geolocation from mobile devices . Companies use this information to tailor marketing messages, product recommendations, and promotions to individual preferences, thereby increasing engagement and satisfaction . Big Data analytics identify patterns and trends that enable businesses to anticipate customer needs and improve service delivery, resulting in more personalized and effective marketing strategies .

The '5 V's of Big Data are Volume, Velocity, Variety, Value, and Veracity. Volume refers to the substantial amounts of data generated from diverse sources. Velocity is the speed at which data flows in and out of the systems. Variety includes the different forms of data, whether structured or unstructured. Value signifies the ability to derive meaningful insights from the data, while Veracity concerns the trustworthiness and accuracy of the data . These dimensions enable businesses to process large datasets quickly, extract significant insights, and make informed decisions in real-time, providing a competitive advantage in modern markets .

Big Data integration surpasses traditional ETL techniques by accommodating vastly larger datasets from diverse sources with high velocity and variety . ETL is often insufficient for the volume and complexity of Big Data, which necessitates real-time processing and storage methods. Big Data solutions often employ distributed processing frameworks, data lakes, and advanced analytics platforms like Apache Hadoop and Spark to handle these challenges . This integration allows continuous data flow, dynamic data processing, and scalable storage solutions that traditional ETL systems cannot provide .

También podría gustarte

Introducción a Big Data y sus Usos
100% (2)
Introducción a Big Data y sus Usos
15 páginas
Material Trainer BDPC V042019A
100% (1)
Material Trainer BDPC V042019A
150 páginas
Big Data - Resumen Electronico
100% (1)
Big Data - Resumen Electronico
135 páginas
Big Data: Implicaciones y Oportunidades
67% (3)
Big Data: Implicaciones y Oportunidades
82 páginas
Big Data
Aún no hay calificaciones
Big Data
86 páginas
Introducción al Big Data y Hadoop
100% (1)
Introducción al Big Data y Hadoop
221 páginas
PDF Ciencia de Datos-1
Aún no hay calificaciones
PDF Ciencia de Datos-1
17 páginas
Guía Práctica sobre Big Data y Analytics
Aún no hay calificaciones
Guía Práctica sobre Big Data y Analytics
30 páginas
Ciclo de Vida del Big Data
Aún no hay calificaciones
Ciclo de Vida del Big Data
66 páginas
Introducción a Ciencia de Datos en R
Aún no hay calificaciones
Introducción a Ciencia de Datos en R
54 páginas
Guía Práctica sobre Big Data
Aún no hay calificaciones
Guía Práctica sobre Big Data
22 páginas
Introducción a Batch Processing
Aún no hay calificaciones
Introducción a Batch Processing
457 páginas
Herramienta Big Data con Apache Spark
Aún no hay calificaciones
Herramienta Big Data con Apache Spark
65 páginas
Capitulo 7 Arquitectura Big Data
100% (1)
Capitulo 7 Arquitectura Big Data
62 páginas
Big Data: Procesamiento con Hadoop
Aún no hay calificaciones
Big Data: Procesamiento con Hadoop
66 páginas
Ebook - Big Data
Aún no hay calificaciones
Ebook - Big Data
23 páginas
Big Data: Implicaciones y Oportunidades
Aún no hay calificaciones
Big Data: Implicaciones y Oportunidades
107 páginas
Aplicaciones y Beneficios del Big Data
Aún no hay calificaciones
Aplicaciones y Beneficios del Big Data
92 páginas
Pensamiento Analítico de Datos: Introducción
100% (2)
Pensamiento Analítico de Datos: Introducción
42 páginas
Big Data Aplicado A Los Negocios
100% (1)
Big Data Aplicado A Los Negocios
29 páginas
Análisis de Datos con Python: Curso Completo
Aún no hay calificaciones
Análisis de Datos con Python: Curso Completo
16 páginas
Especialización en Big Data 2023
100% (2)
Especialización en Big Data 2023
15 páginas
Big Data y Ciencia de Datos: Fundamentos y Aplicaciones
100% (1)
Big Data y Ciencia de Datos: Fundamentos y Aplicaciones
81 páginas
Big Data: Estrategias y Tecnologías Empresariales
100% (1)
Big Data: Estrategias y Tecnologías Empresariales
37 páginas
Joyanesaguilar
Aún no hay calificaciones
Joyanesaguilar
178 páginas
Solución BI para Venta Masiva
Aún no hay calificaciones
Solución BI para Venta Masiva
48 páginas
Google Analytics. Mide Y Venceras (Social - Inaki Gorostiza Esquerdeiro
93% (15)
Google Analytics. Mide Y Venceras (Social - Inaki Gorostiza Esquerdeiro
217 páginas
Minería de Datos
100% (1)
Minería de Datos
108 páginas
Introducción a Pandas y DataFrames en Python
Aún no hay calificaciones
Introducción a Pandas y DataFrames en Python
15 páginas
Introducción a Big Data y sus Usos
100% (6)
Introducción a Big Data y sus Usos
16 páginas
Customer Analytics Mejorando La Inteligencia Del Cliente Mediante Los Datos
Aún no hay calificaciones
Customer Analytics Mejorando La Inteligencia Del Cliente Mediante Los Datos
20 páginas
Estrategia para Cultura Data Driven
Aún no hay calificaciones
Estrategia para Cultura Data Driven
18 páginas
Guía del Modelo Entidad-Relación
100% (1)
Guía del Modelo Entidad-Relación
13 páginas
Big Data: Impacto y Aplicaciones Clave
Aún no hay calificaciones
Big Data: Impacto y Aplicaciones Clave
16 páginas
BigDataFull PDF
100% (1)
BigDataFull PDF
328 páginas
Guía Completa de Inteligencia de Negocios
Aún no hay calificaciones
Guía Completa de Inteligencia de Negocios
262 páginas
Arquitecturas y Herramientas en Big Data
Aún no hay calificaciones
Arquitecturas y Herramientas en Big Data
27 páginas
Big Data en Finanzas: Claves y Aplicaciones
Aún no hay calificaciones
Big Data en Finanzas: Claves y Aplicaciones
46 páginas
Introduccion A Las Bases de Dat - Antonio Sarasa
100% (4)
Introduccion A Las Bases de Dat - Antonio Sarasa
308 páginas
Big Data vs Business Intelligence: Claves
Aún no hay calificaciones
Big Data vs Business Intelligence: Claves
18 páginas
Fundamentos del Data Warehouse en 2016
0% (1)
Fundamentos del Data Warehouse en 2016
275 páginas
Infraestructura y Fuentes de Big Data
Aún no hay calificaciones
Infraestructura y Fuentes de Big Data
30 páginas
Big Data en Finanzas: Arquitecturas y Análisis
Aún no hay calificaciones
Big Data en Finanzas: Arquitecturas y Análisis
52 páginas
Curso Completo de Big Data y Análisis
Aún no hay calificaciones
Curso Completo de Big Data y Análisis
50 páginas
Semana 11 - Big Data
Aún no hay calificaciones
Semana 11 - Big Data
23 páginas
Significado y características del Big Data
Aún no hay calificaciones
Significado y características del Big Data
2 páginas
Introducción al Big Data: Conceptos Clave
Aún no hay calificaciones
Introducción al Big Data: Conceptos Clave
13 páginas
Fundamentos de Big Data y sus 5 V
Aún no hay calificaciones
Fundamentos de Big Data y sus 5 V
15 páginas
Introducción al Big Data y su Utilidad
Aún no hay calificaciones
Introducción al Big Data y su Utilidad
12 páginas
Importancia y Beneficios del Big Data
Aún no hay calificaciones
Importancia y Beneficios del Big Data
23 páginas
Introducción al Big Data y su Importancia
Aún no hay calificaciones
Introducción al Big Data y su Importancia
11 páginas
Actividad Regularizacion Mercadotecnia Industrial 07-11-23
Aún no hay calificaciones
Actividad Regularizacion Mercadotecnia Industrial 07-11-23
6 páginas
Definición y Ventajas del Big Data
Aún no hay calificaciones
Definición y Ventajas del Big Data
66 páginas
Big Data PDF
Aún no hay calificaciones
Big Data PDF
17 páginas
Big Data
Aún no hay calificaciones
Big Data
137 páginas
YV - vHNrwuqu0E-Ab - MlW63BB - 2l2JBQAU-Clase N°1 Big Data en Empresas y Organizaciones
Aún no hay calificaciones
YV - vHNrwuqu0E-Ab - MlW63BB - 2l2JBQAU-Clase N°1 Big Data en Empresas y Organizaciones
12 páginas
Comprendiendo Big Data y su Valor
Aún no hay calificaciones
Comprendiendo Big Data y su Valor
6 páginas
Introducción al Big Data y sus Retos
Aún no hay calificaciones
Introducción al Big Data y sus Retos
14 páginas
Big Data
Aún no hay calificaciones
Big Data
11 páginas
Clase 2 Big Data
Aún no hay calificaciones
Clase 2 Big Data
46 páginas
Comportamiento Organizacional en Empresas
Aún no hay calificaciones
Comportamiento Organizacional en Empresas
6 páginas
Universidad Galileo Seminario de Gerencia Semana 4 Habilidades Directivas Segunda Edición Berta Ermila Madrigal Torres
0% (1)
Universidad Galileo Seminario de Gerencia Semana 4 Habilidades Directivas Segunda Edición Berta Ermila Madrigal Torres
4 páginas
Copia Ejercicio No. 2
Aún no hay calificaciones
Copia Ejercicio No. 2
17 páginas
Asos para Activar Office 2016
Aún no hay calificaciones
Asos para Activar Office 2016
2 páginas
Ejercicios de Control Estadístico de Procesos
Aún no hay calificaciones
Ejercicios de Control Estadístico de Procesos
1 página
Consulta de Saldos y Movimientos BAC
Aún no hay calificaciones
Consulta de Saldos y Movimientos BAC
9 páginas
7. Selecciαn y Dimencionamiento de Ups
Aún no hay calificaciones
7. Selecciαn y Dimencionamiento de Ups
8 páginas
Simap - Imt PDF
Aún no hay calificaciones
Simap - Imt PDF
43 páginas
Descargar B612 para Android, Selfies de La Mano de Line
Aún no hay calificaciones
Descargar B612 para Android, Selfies de La Mano de Line
1 página
Manual Wifi Cwi
Aún no hay calificaciones
Manual Wifi Cwi
58 páginas
Evaluación de Diseño 3D en Autocad
Aún no hay calificaciones
Evaluación de Diseño 3D en Autocad
16 páginas
Programacion Lineal - Ejemplos Resueltos
Aún no hay calificaciones
Programacion Lineal - Ejemplos Resueltos
5 páginas
Ideas Innovadoras para Nuevos Negocios
Aún no hay calificaciones
Ideas Innovadoras para Nuevos Negocios
10 páginas
Liquidación Sueldo Abril 2022
Aún no hay calificaciones
Liquidación Sueldo Abril 2022
1375 páginas
Informe de recolección de información
Aún no hay calificaciones
Informe de recolección de información
2 páginas
Enlaces
Aún no hay calificaciones
Enlaces
1 página
IA Revoluciona la Programación Actual
Aún no hay calificaciones
IA Revoluciona la Programación Actual
5 páginas
Introducción a la Programación Lineal
Aún no hay calificaciones
Introducción a la Programación Lineal
3 páginas
Catálogo SITEL - DIC21-v1-ASTRID
Aún no hay calificaciones
Catálogo SITEL - DIC21-v1-ASTRID
22 páginas
Criptografía y Seguridad Digital
Aún no hay calificaciones
Criptografía y Seguridad Digital
65 páginas
Horray Katalog Web ES
Aún no hay calificaciones
Horray Katalog Web ES
16 páginas
Estrategia de Sistemas en CIADTI
Aún no hay calificaciones
Estrategia de Sistemas en CIADTI
23 páginas
Diagrama de Bloques de Comunicacion
Aún no hay calificaciones
Diagrama de Bloques de Comunicacion
3 páginas
Bloque2 Examen Teoría 30 Junio 2017
Aún no hay calificaciones
Bloque2 Examen Teoría 30 Junio 2017
2 páginas
Alerta de Estafa por Email en UNAD
Aún no hay calificaciones
Alerta de Estafa por Email en UNAD
2 páginas
Ficha Tecnica Cabeza Movil 7R-BEAM-STAGE Triton-Blue
Aún no hay calificaciones
Ficha Tecnica Cabeza Movil 7R-BEAM-STAGE Triton-Blue
1 página
Vitae
Aún no hay calificaciones
Vitae
4 páginas
Casos de Estudio en Sistemas de Gestión
Aún no hay calificaciones
Casos de Estudio en Sistemas de Gestión
3 páginas
Codigo Completo Arduino Uno
Aún no hay calificaciones
Codigo Completo Arduino Uno
12 páginas
Análisis de la Población Mayor de 60 Años
Aún no hay calificaciones
Análisis de la Población Mayor de 60 Años
173 páginas
Formación CMC4+ 25.02
100% (3)
Formación CMC4+ 25.02
95 páginas
Toshiba Original A205-SP5820
Aún no hay calificaciones
Toshiba Original A205-SP5820
4 páginas
Seguidor de Tensión con Op-Amp
Aún no hay calificaciones
Seguidor de Tensión con Op-Amp
5 páginas
Proyecto Final en C# para POO
Aún no hay calificaciones
Proyecto Final en C# para POO
2 páginas
Componentes del Sistema de Información de Mercadotecnia
Aún no hay calificaciones
Componentes del Sistema de Información de Mercadotecnia
7 páginas
Creación y gestión de particiones en Linux
Aún no hay calificaciones
Creación y gestión de particiones en Linux
56 páginas

Curso Big Data v1

Cargado por

Curso Big Data v1

Cargado por

Autor:

2. Hacía la ingeniería del dato

3. Big Data y el Customer Journey

Breve Historia de big data

*: sobre este tema trabajaremos a lo largo de este módulo

LAS CINCO “V” DE LA BIG DATA

LAS CINCO “V” DE LA BIG DATA

1.- VOLUMEN: La cantidad de datos

Una de las características del Big Data es que

LAS CINCO “V” DE LA BIG DATA

2.- VELOCIDAD: La velocidad es el ritmo al

No sólo se generan muchos datos y desde

LAS CINCO “V” DE LA BIG DATA

Debido a la naturaleza unificadora del Big Data, se

LAS CINCO “V” DE LA BIG DATA

LAS CINCO “V” DE LA BIG DATA

TIPOLOGÍA DEL DATO

Si hacemos una clasificación basada en el formato tendremos:

TIPOLOGÍA DEL DATO

¿Cómo funciona Big Data? Sus herramientas

¿Cómo funciona Big Data? Sus herramientas

INTEGRAR GESTIONAR ANALIZAR

¿Arquitectura de un Sistema de Big Data

¿Cómo funciona Big Data? Sus herramientas

¿Cómo funciona Big Data? Sus herramientas

El mercado de Hadoop superará los 50.000 millones de dólares en 2020

¿Cómo funciona Big Data? Sus herramientas

Algunas de las ventajas más notables de Spark son:

• Procesamiento en memoria de los resultados parciales.

¿Cómo funciona Big Data? Sus herramientas

¿Cómo funciona Big Data? Sus herramientas

Data mining o minería del dato

Data mining o minería del dato

Data mining o minería del dato

Data mining o minería del dato

• Comercio y banca: segmentación de clientes, previsión de ventas, análisis de riesgo.

Data mining o minería del dato

Data mining o minería del dato

Data mining o minería del dato

Durante los últimos años han aparecido varias

La famosísima empresa consultora y de investigación

Actualmente con más empuje en el mercado:

El análisis predictivo y los modelos matemáticos

Flujo de trabajo de un proceso predictivo

Las personas y su conectividad

El viaje del Cliente y tu big data

Obviamente, estas vías predefinidas hacia la compra son escenarios ideales. En la

Análisis y beneficios de la Big Data en la Cx (Customer Experience)

¿Cómo aplicamos la Big Data en la CX?

Estrategias de aplicación de la big Data en CX

Estrategias de aplicación de la big Data en CX

Estrategias de aplicación de la big Data en CX ¿Qué resultados obtiene?

Estrategias de aplicación de la big Data en CX ¿Qué datos de clientes recoge?

Las personas y su conectividad

Big Data requiere big Analytics

Las limitaciones del business inteligence tradicional

La ventaja principal de este tipo de bases de datos radica en las

¿Qué es un Analytic Datawarehouse?

Beneficios de un Datawarehouse (DWH)

Beneficios de un Datawarehouse (DWH)

Mejores soluciones DWH del mercado

Common questions

How do Big Analytics evolve traditional Business Intelligence (BI) practices to meet contemporary data demands?

How do Big Analytics evolve traditional Business Intelligence (BI) practices to meet contemporary data demands?

What role do data warehouses play in structuring Big Data for business intelligence and analytics?

What role do data warehouses play in structuring Big Data for business intelligence and analytics?

What is the impact of cloud storage solutions on the scalability and efficiency of Big Data systems?

What is the impact of cloud storage solutions on the scalability and efficiency of Big Data systems?

Identify and discuss the challenges and solutions associated with ensuring data veracity in Big Data analytics.

Identify and discuss the challenges and solutions associated with ensuring data veracity in Big Data analytics.

What are the comparative advantages of using Apache Spark over Hadoop in Big Data processing?

What are the comparative advantages of using Apache Spark over Hadoop in Big Data processing?

Explain how predictive analytics powered by Big Data can transform business strategies, particularly in industry sectors such as airlines or retail.

Explain how predictive analytics powered by Big Data can transform business strategies, particularly in industry sectors such as airlines or retail.

How does the architecture of a Big Data system facilitate efficient data handling and analysis?

How does the architecture of a Big Data system facilitate efficient data handling and analysis?