0% encontró este documento útil (0 votos)
40 vistas49 páginas

Big Data

Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
40 vistas49 páginas

Big Data

Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Confidential

Layla Scheli
Confidential

Empecemos por algo importante


¿Qué es el Big Data?

El Big Data consiste en un proceso que analiza e interpreta


grandes volúmenes de datos.

Todo ello sirve para que el gran volumen de datos almacenados


puedan ser utilizados de forma remota,
generalmente para la toma de decisiones de las empresas.
Confidential

“Big data es una colección de grandes volúmenes de


datos, complejos y muy difíciles de procesar, a través
de herramientas de gestión y procesamiento de datos
tradicionales”.
Confidential
Confidential

Qué
podríamos
hacer con
Big Data
Confidential

Se pueden hacer infinidad de acciones con todos los datos, como por
ejemplo,

• Tenemos que detectar si hay fraude en cualquiera de las transferencias


inmediatas que se realizaban en una entidad bancaria.

• Inicialmente hacemos una criba de los datos en el Data Lake para poder
tener los datos que realmente necesitábamos filtrados.

• Después, con la ayuda de un experto científico de datos se realiza un


modelo de predicción.

• Para ello trabajamos con Python y con la librería Pandas.


Confidential

Aparte de la criba de datos entre otras cosas necesitamos:

• Si la transferencia se hace desde el mismo origen habitual.

• Si antes de conseguir acceder a la plataforma bancaria,


había habido errores de autenticación previos.

• Si era habitual el destinatario de esa transferencia.

Este modelo de predicción finalmente indica como resultado si


la transferencia es fraudulenta o no.
Confidential

Empecemos por sentar algún concepto clave ¿Qué es un Data Lake?

Un Data Lake es un repositorio de almacenamiento centralizado que contiene


Big Data (gran volumen de datos) que proviene los datos de varias fuentes. 1 0
0

Dichos datos están en bruto y serán de 3 posibles tipologías: 0 1


0011010101
1
1
1
• Estructurados 1

• Semiestructurados 1111111
1111
000
1111111
• No estructurados.
111
1111111

La adquisición de datos puede provenir de diferentes sistemas (como CRM o


sistemas de gestión de clientes) ERP (sistemas de gestión de recursos
empresariales), o de fuentes externas, como equipos conectados al Internet
de las Cosas y datos de redes sociales.
Confidential

Qué es un Data Lake

La capacidad puede variar en función de la necesidad


del cliente, pero normalmente hablamos que va a
contener terabytes (TBs) de datos.

Para que nos hagamos a la idea, un teléfono móvil de


gama media tiene unos 64GB de almacenamiento total
para el teléfono.

En este caso, un Data Lake de 10 TB tendrá solo de


datos, el equivalente al de150 teléfonos móviles.
Confidential

Cómo obtengo información del Data Lake

En este proceso se formularan las consultas pertinentes al Data Lake, para poder extraer de
todos esos millones de datos, JUSTO los datos que necesitamos.

En el ejemplo de la imagen podemos ver una consulta al Data Lake es una sentencia que está en
lenguaje SQL, esta es la manera que tendremos de comunicarnos con el Data Lake.
Confidential

Un caso
Confidential

Vamos a profundizar poniendo un ejemplo real de la necesidad de una empresa:

• El departamento de Marketing de una empresa de supermercados necesita saber cuál de sus tiendas es
la que más vende, y que producto es el que mas vende.

• En este caso, se creará un proceso con tecnologías Big Data atacando al Data Lake que es el que
mantiene todos estos datos.

• Todos estos datos (las ventas, entre otros) son ingestados en los propios Data Lakes de las empresas
con una periodicidad bastante elevada, en este caso cada 5 minutos se ingesta en dicho Data Lake los
nuevos datos, manteniendo los anteriores.

• De esta forma podremos crear un proceso para que diariamente se envíe un informe al departamento de
marketing de la cadena de supermercados, indicándoles, por ejemplo, el TOP 10 de productos vendidos
y el TOP 10 de tiendas que más han facturado.
Confidential

Para ser desarrollador de Big Data se utiliza:

➡ Ordenador portátil
➡ Monitor secundario
➡ Papel y boli

Ejemplos de software
➡ Scala
➡ Spark
➡ Control – M
➡ Hadoop
➡ Python
Confidential

Un programador Big Data, tendrá que desarrollar un proceso "atacando" a un Data Lake
(demandando datos del mismo) con tecnologías Big Data, por ejemplo, con Scala y Spark.

En la imagen podemos ver que dentro de un entorno de desarrollo funciones de código para
desarrollar un proceso en el lenguaje Scala.
Confidential

¿Qué es Scala?

Es un lenguaje de programación moderno diseñado para expresar patrones


comunes de programación de una forma concisa.

Una de sus principales ventajas en la escalabilidad, por lo que es un lenguaje que


facilita al máximo el crecimiento de los equipos de desarrollo.
¿Qué es Spark?

Es un motor muy eficiente y rápido para el almacenamiento, procesamiento y


análisis de grandes volúmenes de datos.

Es de código abierto y se encuentra gestionado por la Apache Software Foundation.

Diferencia: Apache Spark sirve para ejecutar aplicaciones de análisis de datos a


gran escala, Es decir sería el motor de procesamiento. Por otro lado, Scala es un
lenguaje de programación. Se compila y ejecuta en Java Virtual Machine.
Confidential

Después de haber conseguido el resultado, a través de una tecnología de automatización,


crearemos una periocidad diaria con una hora especifica, para que este proceso entre en
ejecución extraiga ese dato y lo envíe al departamento de Marketing.

En la imagen podemos ver diferentes Jobs automatizados, cada cajita pertenece a una acción
automatizada
Confidential

¿Qué es Control-M?

Es una solución de automatización de procesos.


Confidential

Hay muchas tecnologías Big Data. Es un mundo muy interesante y muy extenso.
Confidential

Con el cluster se consigue implementar dentro de él un Data Lake, en el que cada maquina tenga
una función específica y de esa forma poder operar a posteriori con los datos.
Confidential

Generalmente, trabajo con la tecnología Big Data Cloudera.

Pero ¿qué es Cloudera?

Es la empresa de software responsable de la distribución de Hadoop.


Su plataforma de Big Data se centra en proporcionar herramientas de
Machine Learning y Analítica de datos.

Pero, ¿qué es Hadoop?

Es una estructura de software para almacenar datos y ejecutar


aplicaciones en clústeres de hardware.

Proporciona almacenamiento masivo para cualquier tipo de datos, y


tiene enorme capacidad de procesamiento de tareas o trabajos
concurrentes (al mismo tiempo varios trabajos) virtualmente ilimitados.
Confidential

Las 3 V del
Big Data
Las 3 V del Big Data
Confidential

• Volumen: Referido a la masividad de


los datos generados.

• Variedad: Diversidad en las estructuras


de los datos a integrar.

• Velocidad: Asociado con el tiempo de


procesamiento de los datos.
Las 3 V del Big Data
Confidential

En el año 2000, se almacenaron en el mundo 800.000 petabytes. Se espera que en el año 2020, se alcancen los 35 zettabytes (ZB). Sólo Twitter genera más
de 9 terabytes (TB) de datos cada día, Facebook 10 TB y algunas empresas ya generan terabytes de datos cada hora de cada día del año”.
Las 3 V del Big Data
Confidential

“Si analizamos la acción de poner un simple “me gusta” en una foto, estamos entonces creando nuevos datos, cuando empleamos
el GPS también, cuando compramos un boleto de avión, hasta cuando pedimos un turno al médico”.
Las 3 V del Big Data
Confidential
Confidential

Variedad:
Datos Estructurados:
La gran mayoría de las fuentes de datos
tradicionales son originadas por datos del
tipo estructurados, datos con formato o
esquema fijo, que poseen campos fijos y
bien definidos.
Confidential

Variedad:
Datos no Estructurados:
Son las estructuras de datos más difíciles de
manejar, podemos encontrar entre los datos
no estructurados más conocidos:
● Documentos PDF o Word.
● Audios y videos.
● Correos electrónicos.
● Ficheros multimedia de imagen.
● Artículos y textos, entre otros.
Confidential

Variedad:
Datos Semi - Estructurados:
Son un híbrido entre los datos estructurados
y los datos no estructurados, podríamos
decir entonces de manera sencilla, que no
presentan una estructura perfectamente
definida como los datos estructurados, pero
sí presentan una organización definida en
sus metadatos donde describen los objetos y
sus relaciones.
Confidential

Las 7 V del
Big Data
Confidential

Se agregan a las anteriores V´s,


las siguientes características:

• Veracidad.

• Viabilidad.

• Visualización.

• Valor.
Confidential

Fases de un
Proyecto de
Big Data
Mayo de 2021
Confidential

“La implementación de una solución


de Big Data, consiste en la ejecución
del ciclo de vida estándar asociado
a todo proyecto de Big Data”.
Confidential

Fases de un Proyecto de Big Data

Las principales etapas que componen este ciclo son:


Confidential

¿Cómo funciona Big Data? - Ampliado

Tenemos que:

1. Crear una estrategia: Debemos tener muy claro para qué fines queremos implantar Big Data en
la empresa. Además, también es importante conocer los recursos con los que contamos y los que
necesitaremos.
2. Escoger las fuentes de datos: Se están creando datos sin parar y debemos seleccionar bien las
que generen datos valiosos para la empresa. Entre ellas, tenemos: información proveniente de
sensores y dispositivos IoT, datos abiertos, información de webs y redes sociales, data lakes, etc.
Confidential

¿Cómo funciona Big Data?

3. Almacenamiento y gestión de los datos: Aquí se encuentran acciones como el acceso fiable,
los métodos de integración, el aseguramiento de la calidad de los datos, su control,
almacenamiento y preparación para análisis.
4. Análisis de la información: Obtenemos valor de los datos, identificando patrones, correlaciones
y otras conclusiones útiles y alineadas con nuestra estrategia.
5. Toma de Decisiones: Por último, con todas estas conclusiones, los gestores y responsables
toman decisiones acertadas de gestión.
Confidential

Ecosistemas y Frameworks

“La biblioteca Hadoop, utiliza modelos de programación


simples para el almacenamiento y procesamiento
distribuido, de grandes conjuntos de datos en clusters,
otorgando redundancia para no perder información y al
mismo tiempo, aprovechando muchos procesos a la vez”.
Confidential

Ecosistemas y Frameworks

“Dentro de las bases de datos NoSQL, probablemente una de las más famosas sea
MongoDB, como característica distintiva es una base de datos orientada a
documentos, es decir guarda los datos en documentos y no en registros como las
típicas bases de datos”.
Confidential

Ecosistemas y Frameworks

“Se pueden programar aplicaciones usando diferentes lenguajes como Java, Python
o R pudiendo ser, según el programa hasta 100 veces más rápido en memoria o 10
veces más en disco que Apache Hadoop”.
Confidential

Recomendaciones de Aplicación
1. Se debe dedicar un esfuerzo importante en conseguir resultados centrados en el cliente.

2. Desarrollar proyectos Big Data para toda la empresa.

3. La forma más correcta de iniciar un proyecto Big Data, consiste en plantearse objetivos a
corto plazo.

4. Desarrollar funcionalidades analíticas sobre las necesidades y prioridades de negocio.

5. Optimizar los sistemas de información del negocio.


6. Crear un equipo especialista de data scientists.
Confidential

Aplicaciones y Casos reales


Entre las ventajas más importantes a mencionar, se encuentran:

• Mejora el proceso de toma de decisión.

• Seguridad en los datos.

• Obtener ventajas competitivas.

• Mejora de la accesibilidad de la información dentro de la empresa.

• Nuevas fuentes de ingresos.


Confidential

Consideraciones
A la hora de implementar un proyecto de Big Data tenemos que tener en cuenta
ciertas consideraciones asociadas con:

• La ciberseguridad y la seguridad informática.

• Políticas de protección de datos personales.

• Gestión y almacenamiento de grandes volúmenes de datos.


Confidential

Más ejemplos
Big Data en marketing y ventas:
Los datos de los clientes se analizan y procesan obteniendo información relativa a sus gustos,
preferencias, comportamientos. Así se pueden clasificar o segmentar a los mismos en
diferentes categorías y utilizar modelos predictivos para que las organizaciones puedan tener
indicadores de aceptación de sus productos, potenciales ventas.

Big Data en telecomunicaciones


Algunos operadores de telefonía móvil utilizan el Big Data para analizar qué se dice de ellas en
las redes sociales, examinar los datos de sus tickets de soporte a clientes o sus quejas. Esto
posibilita implementar estrategias que permiten reducir el número de portabilidades o
incrementar la captación de nuevos clientes.
Confidential

Más ejemplos
Big Data en la logística y transporte
El incremento del tráfico en carreteras, la mayor deslocalización de los almacenes, las
fluctuaciones del precio de los combustibles, la internacionalización empresarial y el auge del
comercio electrónico, son tendencias logísticas sobre las que Big Data interviene.

Aquí, los sistemas Big Data trabajan con información obtenida de los GPS de los vehículos, de los
datos de tráfico de las instituciones oficiales, datos de movilidad de personas y materiales en
almacenes, información de abastecimiento del producto por parte de los clientes, etc.
Confidential

Más ejemplos
Big Data en los procesos de producción:
Dentro de las propias acciones de fabricación, el análisis de datos es clave para, por ejemplo,
evitar que aparezcan fallos mecánicos en la maquinaria. En este caso, se combina la
tecnología Big Data con la inteligencia artificial para dar forma al mantenimiento predictivo.

De esta forma, podremos anticiparnos a la aparición de fallos críticos. Unos fallos que pueden
paralizar el trabajo o crear productos defectuosos, sin ningún valor y que generen importantes
pérdidas económicas.
Confidential

Casos de Éxito

Amazon es el rey del eCommerce porque supo adoptar la


tecnología de vanguardia para recolectar, analizar y utilizar
la cantidad masiva de datos a la que tienen acceso a partir
del historial de búsqueda y de compra de una persona.

Con toda esta información, la compañía logró optimizar su


cadena de suministro, mejorar sus sistemas de
recomendación y en consecuencia perfeccionar su política
de precios.
Confidential

“Sin dudas, Netflix también es una de las empresas que


mejor ha sabido utilizar a su favor todas las potencialidades
que el Big Data ofrece en su masividad de datos. Entre las
acciones que realiza, rastrea las calificaciones, el tiempo
dedicado y las tendencias de cada uno de sus usuarios
para brindar una lista o sugerencia personalizada. Además,
en base a esos insight obtenidos planifica incluso su propia
producción de contenido audiovisual.”
Confidential

“Creo que todos, alguna vez nos hemos preguntado cómo


Starbucks puede abrir 5 tiendas en un radio de 3 kilómetros y
aun así siempre estar llenos? La realidad es que esta compañía
cafetera, utiliza el Big Data para determinar el éxito potencial
de cada tienda nueva que piensan abrir. Recogen información
sobre la ubicación, tráfico, área demográfica y
comportamientos del consumidor. Realizar este tipo de
evaluación antes de abrir una tienda, le permite a Starbucks
hacer una estimación bastante precisa de cuál será la tasa de
éxito y elegir la ubicación más adecuada y efectiva.”
Confidential

Conclusiones
• La gran mayoría de casos involucra, la aplicación de diversas tecnologías como Inteligencia
de Negocios, Ciencia de Datos, Machine Learning, Inteligencia Artificial, etc.

• Una solución de Big Data siempre estará asociada a las famosas 3 “V” del Big Data
(Volumen, Velocidad y Variedad).

“Alto volumen de datos, que crecen a una velocidad exponencial y que


presentan una variedad o estructura particularmente compleja .”
Confidential

¡GRACIAS!

También podría gustarte