0% encontró este documento útil (0 votos)

18 vistas10 páginas

Big Data: Claves y Aplicaciones

El documento aborda el concepto de Big Data, sus características y la diferencia entre data warehouse y data lake. Se detallan procesos de ingesta de datos, almacenamiento, transformación y análisis, así como las diferencias entre bases de datos SQL y NoSQL. Además, se discuten métricas de evaluación de modelos de machine learning y conceptos de madurez en el uso de datos.

Cargado por

Thiago Lezcano Treuer

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

18 vistas10 páginas

Big Data: Claves y Aplicaciones

Cargado por

Thiago Lezcano Treuer

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

BIG DATA: poder entender, procesar y aprovechar toda esa información disponible para un fin

específico. Todo lo que hacemos, genera un dato.

Características del dato

- Volumen: cantidad inmensa de datos generados
- Velocidad: rapidez con que los datos se generan
- Variedad: datos no son solo texto
- Veracidad: no todos los datos son ciertos
- Valor: datos se vuelven informacion valiosa

Data warehouse: depósito central de datos ordenados y clasificados listos para su análisis.
Rapidez y estructura. Se puede hacer consultas de gran cantidad de datos a través de SQL.
Ej: Orden y proceso de datos de Netflix para recomendar películas similares. (google big query)

Data Lake: almacenan datos en su forma original (sin procesar). Clave la flexibilidad.
Junta mucha información rápida, para almacenamiento costo bajo con datos no estructurados.
Ej: Datalake para registrar comportamiento en película en Netflix (google cloud storage)

Diferencia data warehouse vs data lake

- Datos procesados en esquemas mientras que datos crudos sin estructura
- Análisis sobre data limpia mientras que se seleccionan y estructuran según la necesidad

Un resultado de KPI debe ser igual del data lake y warehouse luego de procesar ambos.

Arquitectura Big Data

1. Ingesta de datos (tomar info de dispositivos en

tiempo real a través de fuentes como base de
datos, API, SQL y llevarla a landing area)

2. ETL (extraer información del landing area y la

proceso para datalake // data warehouse)

3. La utilizo en data science, AI o machine learning // business intelligence & analytics

Datos masivos: 20% de datos de las empresas son estructurados, 80% no estructurados

SQL (Structured query language)

Lenguaje declarativo de 4ta gen para definir, gestionar y manipular la información de base de
datos relacional.

Base de datos
Conjunto de datos organizados y relaciones entre sí, almacenados sistemáticamente para su
posterior uso.
Bases de datos SQL (relacionales)
Colección de información que organiza datos en relaciones predefinidas, en la que los datos se
almacenan en una o más tablas (o "relaciones") de columnas y filas.
- Claves primarias (Id, DNI)
- Claves foráneas (tabla intermedia que da unión a otras dos tablas)

- Modelo dimensional:
Tabla de hechos: representa un evento en la vida real
Ej: venta producto, reunion

Tabla de dimensiones: tablas contienen los distintos atributos de esos hechos

Ej: nombre producto, patente, destino, dirección

- Modelo estrella: se utiliza para modelar los datos

La del Centro en rosado es de Hechos, las demás son de dimensiones.

Base de datos NOSQL (no relacionales)

- Key value: guardan en una clave única, y en valor el dato. No tiene estructura.
- Optimizan APIs
- Modelo de datos simple
- No aptas para consultas analiticas
- Sin esquemas (tablas)

- Column store: No almacenan los datos en tablas, sino que los almacenan en
arquitecturas distribuidas masivamente.
- Optimizadas para OLAP
- Los datos se guardan por columna
- Mejora en compresión de datos
- No performan si se necesita toda la fila
- Soportan SQL

- Document store: Bases de datos que almacenan sus datos en forma de documentos.
- Uso general, pero más en software web
- Se guardan documentos enteros
- Esquema super flexible
- Permite operaciones de búsqueda y actualización (MongoDB)

- Grafos: Bases de datos que almacenan datos en forma de grafo. El grafo está formado
por nodos que actúan como objetos y aristas como relaciones entre los objetos
- Redes Sociales, Sistemas de Recomendaciones, CRMs
- Relaciones de Muchos a Muchos
- Fáciles de consultar
- Permite operaciones de búsqueda y actualización (GraphQL)
- No soporta transacciones
Diferencia SQL vs NOSQL

Ingesta en tiempo real (streaming)

● Set de datos enviados en pequeños mensajes transmitidos constantemente
● Publicadores (Publishers) envían información a un tópico
● Los tópicos guardan esa información por un tiempo determinado
● Suscriptores (subscribers) toman información de ese tópico

Herramientas para hacer ingesta

- Apache Kafka, Google pub/sub, Amazon Simple Notification Service, Azure service bus

Ejemplos
- Información que es enviada desde un auto eléctrico
- Información de dispositivos IOT es enviada al DW para realizar análisis
- Información de dispositivos móviles es enviada al DW en la nube

Ingesta Change Data Capture (CDC)

Es un mecanismo que hace tracking de los cambios en la DB origen, los captura y luego los
aplica en el Datawarehouse.

Se utiliza
- en casos que es importante conocer todos los cambios en el tiempo
- en casos que no queremos estresar la DB relacional
- en casos que necesitemos mantener actualizada la información en casi TR
- cuando no necesitemos hacer grandes transformaciones en el proceso

Herramientas
- IBM infosphere, Qlik replicate, Oracle goldengate

Ejemplos
- Mantener actualizado un stock de un depósito
- Cuando una base de datos está comprometida de performance
- Mantener sincronizada una DB en otro destino (Disaster Recovery)
- Múltiples fuentes de consulta
Ingresta Proceso por lotes (Batch)
● Se transfiere la data desde una o más fuentes al proyecto de Big Data.
● Archivos (json, avro, parquet, csv, etc.)
● Pueden provenir de la exportación de Apps, DBs, etc.
● Se pueden almacenar en HDFS, GCS, S3, Blob Storage para luego ser procesados

Periodicidad
● Pocas veces por día (habitualmente una vez al día)
● Habitualmente se realiza por las noches
● Se envía un lote completo de información

Herramientas
- Web, Línea de comando (scripts), APIs, Servicios de Transferencia (Appliances)

Ejemplos
- Información generada en un retail es enviada al DataWarehouse
- Información transaccional es enviada al DW para realizar análisis
- Información generada en un mainframe (computadora central) es enviada al DW en la
nube

Almacenamiento
Dependiendo del tipo de dato y de las necesidades del negocio serán donde estos serán
almacenados.

Tipos de datos
Estructurados
- Presentan un esquema bien definido y los datos se organizan en filas y columnas.
- Por ejemplo: Tablas de bases de datos. Archivos CSV, Excel (xls), Google sheet.
- Almacenan en amazon redshift, google bigquery, azure synapse analytics

No estructurados
- No presentan un esquema definido, sino que como punto de partida hay que encontrar
la manera de indexar e identificar el significado de los datos, para recién pensar en
cómo se procesarán.
- Por ejemplo: video, imagen, audio, emails, documentación.
- Almacenan en amazon S3, azure blob storage, google cloud storage

Semi-estructurados
- Los datos semi-estructurados se parecen a los datos estructurados. Los datos
semi-estructurados poseen determinada forma de organización interna (jerarquías, tags,
etc.) que debe ser identificada.
- Por ejemplo: Archivos JSON, XML, HTML. Archivos de log.
- Almacenan en ambas.
Transformación
Es el proceso de mapear la información desde la estructura utilizada en el origen a la estructura
utilizada en las etapas de almacenamiento.
- Conversión de tipos de datos: string a integer
- Sustitución de datos faltante por un tipo de dato default
- Filtrar datos que rompen reglas de negocio
- Eliminar columnas innecesarias

Lenguajes: SQL, Python, Scala, Java, Entorno grafico

Herramientas: Apache hadoop, Spark, SQL, Python

ETL vs ELT
ETL: proceso de extracción, transformación y carga
Ventajas
- Compliance: permite enmascarar la información debido a regulaciones
- Costos: información filtrada reduce costos DW

Desventajas
- Team: mantenimiento de pipelines requiere más Data Engineers
- Errores: complejidad de los pipelines y fuentes, mayor probabilidad

ELT: proceso de extracción, carga y transformación

Ventajas
- Complejidad: sin pipelines ni transformaciones, accedes a la información fácil
- Velocidad: la información es ingestada rápidamente ya que no hay pipelines

Desventajas
- Riesgo: debido a que está toda la data en el DW, fácilmente la podrían visualizar
- Crecimiento sin control: sin filtrar datos se incrementa el tamaño fácilmente

Análisis de datos
Estudio de datos con el fin de extraer información significativa para empresas y la toma de
decisiones. Ej: Instagram para orientar sus publicaciones patrocinadas

Análisis exploratorio de datos (EDA)

Técnica que se utiliza para analizar e investigar conjuntos de datos, con el objetivo de
identificar patrones, anomalías y relaciones entre las variables utilizando métodos gráficos.

DATOS BRUTOS -> ANÁLISIS DESCRIPTIVO -> AJUSTE DE TIPO DE VARIABLE ->
DETECTAR DATOS AUSENTES -> DETECTAR DATOS ATÍPICOS -> CORREGIR VARIABLES
Tipos de datos

Correlaciones
Es una medida estadística que nos indica la fuerza y dirección de la relación de dos variables.

- Correlación positiva: Cuando una variable aumenta, la otra también tiende a aumentar.
Por ejemplo, la altura y el peso suelen estar positivamente correlacionados.

- Correlación negativa: Cuando una variable aumenta, la otra tiende a disminuir.

Por ejemplo, la temperatura y la venta de abrigos suelen estar negativamente
correlacionadas.

- No correlación: Cuando no existe una relación lineal entre las variables.

Madurez en el uso de datos

Capacidad de una organización para gestionar y utilizar sus datos de manera efectiva.
A partir del dato, debo analizar que paso, porque paso, que pasara y que debo hacer.
Nivel de madurez: Descriptivo, Diagnóstico, Predictivo, Prescriptivo
Machine learning: identificar cuando usaron cada modelo de machine learning
Supervisado: Se basa en datos de entrada y salida etiquetados. Predice datos no vistos.
- Regresión
- A través de variables independientes (características), podemos predecir
dependiente (precio)
- Ej: predecir el precio de una vivienda

- Clasificación
- Predice blanco/negro, los clasifica.
- Ej: detectar spam en mails

No supervisado: Se basa en datos sin etiquetar o sin procesar. Descubre patrones sin etiquetas
- Clustering
- Identifica clientes con características similares
- Ej: segmentar clientes de comercio electrónico

- Reducción de dimensionalidad
- Transforma datos de espacios de alta dimensión a espacios de baja dimensión
- Ej: analisis grandes volumen de datos de genética

Aprendizaje por refuerzo: entrena al software para decisiones y lograr los mejores resultados
- Si va perdiendo, le comento que hizo mal y va aprendiendo.
- Ej: agente de software a que aprenda ajedrez

Métricas de clasificación
- Matriz de confusión
Accuracy: métrica que mide qué tan bien acierta el modelo predicción, positiva como negativa.
Ej: diagnóstico médico

ACCURACY = VP + VN / VP + VN + FP + FN
ACCURACY = 45 + 50 / 100 = 85 / 100 = 0,85
Esto significa que el 85% de las veces, el modelo predice correctamente si un paciente está
enfermo o no.

Precisión: empresa de telecomunicaciones tiene 1000 clientes predice si se van o se quedan

PRECISION = VP / VP + FP
PRECISION = 120 / 120 + 30 = 120 / 150 = 0,8
Esto significa que el 80% de los clientes que el modelo predijo que se irían, realmente se
fueron

Recall: mide la proporción de los casos positivos que el modelo identifica correctamente.
Ej: banca detecta casos de fraude en transacciones bancarias

RECALL = VP / VP + FN
RECALL = 100 / 100 + 5 = 100 / 105 = 0,9524
F1 score: métrica que combina la precisión y el recall en un solo valor. Cerca 1 = buen score
Ej: detección de spam

ACCURACY = 90 + 980 / 1100 = 0,97

PRECISION = 90 / 100 = 0,9
RECALL = 90 / 110 = 0,82
F1 = 2 * (0,9 * 0,82) / (0,9 + 0,82) = 0,86

0,86 indica que nuestro modelo está haciendo un buen trabajo en general, tanto en identificar
correctamente los correos electrónicos spam como en evitar clasificar incorrectamente los
correos electrónicos legítimos como spam.

Cuando usar cada una

- Clases balanceadas - ACCURACY
- Clases desbalanceadas, consecuencias falso positivo - PRECISIÓN
- Clases desbalanceadas, consecuencias falso negativo - RECALL
- Costo relativo falso positivo y negativo - F1

Underfitting
Ocurre cuando un modelo es demasiado simple para capturar las complejidades presentes en
los datos.
Ej: entreno modelo con 1 raza, le muestro otra me dice que NO es perro

Overfitting
Ocurre cuando un modelo se ajusta demasiado a los datos de entrenamiento, aprendiendo
incluso el ruido aleatorio.
Ej: entreno modelo con 10 razas marrón, le muestro una blanca me dice que NO es perro

También podría gustarte

Big Data 1
Aún no hay calificaciones
Big Data 1
26 páginas
SQL y NoSQL: Fundamentos y Comparativa
Aún no hay calificaciones
SQL y NoSQL: Fundamentos y Comparativa
16 páginas
Diferencias entre Data Warehouse y Data Lake
Aún no hay calificaciones
Diferencias entre Data Warehouse y Data Lake
10 páginas
Lección 4. Big Data y Arquitecturas
Aún no hay calificaciones
Lección 4. Big Data y Arquitecturas
20 páginas
Arquitectura de Almacenes de Datos
Aún no hay calificaciones
Arquitectura de Almacenes de Datos
12 páginas
Todo
100% (1)
Todo
231 páginas
Qué Son Tecnologías Digitales Emergentes
Aún no hay calificaciones
Qué Son Tecnologías Digitales Emergentes
9 páginas
Big Data y NoSQL para Empresas
Aún no hay calificaciones
Big Data y NoSQL para Empresas
28 páginas
Data Science Big Data
Aún no hay calificaciones
Data Science Big Data
9 páginas
Gestión de Big Data en Empresas
Aún no hay calificaciones
Gestión de Big Data en Empresas
13 páginas
Clase 3 - Big Data
Aún no hay calificaciones
Clase 3 - Big Data
10 páginas
Big Data: Almacenamiento y Variedad
Aún no hay calificaciones
Big Data: Almacenamiento y Variedad
33 páginas
Guía Evaluativa 2
Aún no hay calificaciones
Guía Evaluativa 2
6 páginas
Semana 6
Aún no hay calificaciones
Semana 6
14 páginas
Base de Datos: Tipos De3 Usuarios y Sus Caracteristicas
Aún no hay calificaciones
Base de Datos: Tipos De3 Usuarios y Sus Caracteristicas
49 páginas
Topicos
Aún no hay calificaciones
Topicos
4 páginas
Proyecto de Bigdata
Aún no hay calificaciones
Proyecto de Bigdata
14 páginas
Act. Evaluativa - 'CoronaVirusyBigData' - Eje3
Aún no hay calificaciones
Act. Evaluativa - 'CoronaVirusyBigData' - Eje3
13 páginas
Big Data Architecture Con Pentaho
Aún no hay calificaciones
Big Data Architecture Con Pentaho
42 páginas
Técnicas y herramientas de Big Data
Aún no hay calificaciones
Técnicas y herramientas de Big Data
22 páginas
02 Evolucion Persistencia Datos
Aún no hay calificaciones
02 Evolucion Persistencia Datos
33 páginas
Practica2.5 VillagranLuisEduardo
Aún no hay calificaciones
Practica2.5 VillagranLuisEduardo
6 páginas
BUSINESS INTELLIGENCE PARA MEJORAR LA TOMA DE DECISIONES Ok
Aún no hay calificaciones
BUSINESS INTELLIGENCE PARA MEJORAR LA TOMA DE DECISIONES Ok
42 páginas
Big Data y Data Mining: Desafíos y Roles
Aún no hay calificaciones
Big Data y Data Mining: Desafíos y Roles
19 páginas
Terminologia
Aún no hay calificaciones
Terminologia
4 páginas
BIG DATA - Conceptos Asociados
Aún no hay calificaciones
BIG DATA - Conceptos Asociados
31 páginas
La Revolución Digital de Los Datos
Aún no hay calificaciones
La Revolución Digital de Los Datos
5 páginas
2 Generación de Conocimiento Con Big Data
Aún no hay calificaciones
2 Generación de Conocimiento Con Big Data
52 páginas
Big Data
Aún no hay calificaciones
Big Data
2 páginas
Business Inteiligence
Aún no hay calificaciones
Business Inteiligence
16 páginas
Recolección de Datos - Arturo Miquel Veyrat
Aún no hay calificaciones
Recolección de Datos - Arturo Miquel Veyrat
41 páginas
Big Data Analytics
Aún no hay calificaciones
Big Data Analytics
20 páginas
Arquitectura de Datos y Gobierno de Datos
100% (2)
Arquitectura de Datos y Gobierno de Datos
30 páginas
Big Data y Tecnologías NoSQL en MBA
Aún no hay calificaciones
Big Data y Tecnologías NoSQL en MBA
25 páginas
BigData Cuestionario
Aún no hay calificaciones
BigData Cuestionario
8 páginas
TIG-02-Bases de Datos y Big Data - 2022-II
Aún no hay calificaciones
TIG-02-Bases de Datos y Big Data - 2022-II
42 páginas
Fundamentos de Big Data y ETL
Aún no hay calificaciones
Fundamentos de Big Data y ETL
10 páginas
Big Data
Aún no hay calificaciones
Big Data
4 páginas
Big Data
Aún no hay calificaciones
Big Data
61 páginas
Arquitectura de Datos
Aún no hay calificaciones
Arquitectura de Datos
3 páginas
Big Data
Aún no hay calificaciones
Big Data
49 páginas
Conceptos Clave en Gestión de Datos
Aún no hay calificaciones
Conceptos Clave en Gestión de Datos
2 páginas
Mapa Conceptual
Aún no hay calificaciones
Mapa Conceptual
2 páginas
Modulo 2 Ciencia de Datos
Aún no hay calificaciones
Modulo 2 Ciencia de Datos
5 páginas
M1 - 02 Arquitectura Funcional y Técnica
Aún no hay calificaciones
M1 - 02 Arquitectura Funcional y Técnica
15 páginas
Iicg2302 s1 Apuntesbigdata
Aún no hay calificaciones
Iicg2302 s1 Apuntesbigdata
14 páginas
Actividad Evaluativa - Big Data
Aún no hay calificaciones
Actividad Evaluativa - Big Data
18 páginas
Herramientas PDF y SQL para Empresas
Aún no hay calificaciones
Herramientas PDF y SQL para Empresas
18 páginas
Gestión y Procesamiento de Datos PARTE 1
Aún no hay calificaciones
Gestión y Procesamiento de Datos PARTE 1
195 páginas
Sistemas de Inf TP
Aún no hay calificaciones
Sistemas de Inf TP
5 páginas
Actividad 5
Aún no hay calificaciones
Actividad 5
10 páginas
M06 Clase 2 - Herramientas Automatización
Aún no hay calificaciones
M06 Clase 2 - Herramientas Automatización
14 páginas
Diccionario de Arquitecturas de Datos
Aún no hay calificaciones
Diccionario de Arquitecturas de Datos
25 páginas
IA M1 4 SCO1 Imprimible
Aún no hay calificaciones
IA M1 4 SCO1 Imprimible
64 páginas
Trabajo Eje 3
Aún no hay calificaciones
Trabajo Eje 3
11 páginas
Tecnologias de La Informacion
Aún no hay calificaciones
Tecnologias de La Informacion
31 páginas
Aa1 Big Data
Aún no hay calificaciones
Aa1 Big Data
8 páginas
Preg Resp DB PDF
Aún no hay calificaciones
Preg Resp DB PDF
3 páginas
Resumen Todo BD
Aún no hay calificaciones
Resumen Todo BD
7 páginas
Guia de Juicio Oral de Alimentos
50% (2)
Guia de Juicio Oral de Alimentos
3 páginas
Delitos Ambientales
Aún no hay calificaciones
Delitos Ambientales
19 páginas
Comprensión de Textos: Sinónimos y Antónimos
Aún no hay calificaciones
Comprensión de Textos: Sinónimos y Antónimos
3 páginas
Informe #08 Agua para Consumo Humano
Aún no hay calificaciones
Informe #08 Agua para Consumo Humano
4 páginas
Angeles Caidos
Aún no hay calificaciones
Angeles Caidos
1 página
Compromiso Docente Curso 2022-23
Aún no hay calificaciones
Compromiso Docente Curso 2022-23
1 página
Guía de Reusabilidad de Válvulas
Aún no hay calificaciones
Guía de Reusabilidad de Válvulas
17 páginas
XX Zumpango
Aún no hay calificaciones
XX Zumpango
284 páginas
Clasificación de bienes gravados en Colombia
Aún no hay calificaciones
Clasificación de bienes gravados en Colombia
2 páginas
Sellantes de Fosas y Fisuras
Aún no hay calificaciones
Sellantes de Fosas y Fisuras
20 páginas
Probióticos en COVID-19 y Disbiosis
100% (2)
Probióticos en COVID-19 y Disbiosis
40 páginas
Miodesopsias: Causas y Tratamiento
Aún no hay calificaciones
Miodesopsias: Causas y Tratamiento
3 páginas
La Ética Como Ejercicio Constante Educar en La Ciudadanía y La Convivencia
Aún no hay calificaciones
La Ética Como Ejercicio Constante Educar en La Ciudadanía y La Convivencia
15 páginas
Guía Formato Tesis Ingeniería Civil
Aún no hay calificaciones
Guía Formato Tesis Ingeniería Civil
29 páginas
Brochure Revit - Obras Hidraulicas-1
Aún no hay calificaciones
Brochure Revit - Obras Hidraulicas-1
5 páginas
Casos Concretos Del Domicilio
Aún no hay calificaciones
Casos Concretos Del Domicilio
2 páginas
El Alquimista - Palabras y Oraciones
Aún no hay calificaciones
El Alquimista - Palabras y Oraciones
5 páginas
Ga8-220501096-Aa2-Ev03 Taller Sobre Tecnologías Emergentes y Disruptivas
Aún no hay calificaciones
Ga8-220501096-Aa2-Ev03 Taller Sobre Tecnologías Emergentes y Disruptivas
8 páginas
Matematica Cuaderno de Ejercicio 2pdf
100% (5)
Matematica Cuaderno de Ejercicio 2pdf
49 páginas
Uptodate
Aún no hay calificaciones
Uptodate
2 páginas
Casos Prácticos de Actualización Fiscal
100% (1)
Casos Prácticos de Actualización Fiscal
101 páginas
Fases del Proyecto de Software GESTISALUD
Aún no hay calificaciones
Fases del Proyecto de Software GESTISALUD
14 páginas
Elaboran Maceteros de Botellas Recicladas
Aún no hay calificaciones
Elaboran Maceteros de Botellas Recicladas
6 páginas
Constructivismo A de Carlitos! (1) Docenciaaaaaaa
Aún no hay calificaciones
Constructivismo A de Carlitos! (1) Docenciaaaaaaa
38 páginas
Modelo Form 400 y 200 V5 Caso OT 5
Aún no hay calificaciones
Modelo Form 400 y 200 V5 Caso OT 5
4 páginas
Matriz de Elementos de Protección Personal
Aún no hay calificaciones
Matriz de Elementos de Protección Personal
2 páginas
Carga Mental en Mujeres: Impacto y Soluciones
Aún no hay calificaciones
Carga Mental en Mujeres: Impacto y Soluciones
48 páginas
Despues de La Infidelidad 02-Libro-2022
100% (1)
Despues de La Infidelidad 02-Libro-2022
233 páginas
Class 01
Aún no hay calificaciones
Class 01
10 páginas
Lectura Canal Inguinal
Aún no hay calificaciones
Lectura Canal Inguinal
5 páginas