Minería de Datos II
Clase # 1 (Semanas 1 y 2)
Introducción a Big Data
Profesor: Diego Mosquera
Horario
Día: Miércoles
Inicio: 19:00hs
Fin: 21:00hs
Minería de Datos I 2
Curso electivo - Big Data
Duración: 28 horas (24 horas de clase + 4 horas de evaluaciones)
Frecuencia: 2 horas semanales (14 semanas)
Modalidad: Teórico con experimentación en PySpark sobre Google Colab
Evaluaciones: 2 evaluaciones de 2 horas cada una + Final
Minería de Datos I 3
Objetivos del curso
● Comprender los fundamentos del Big Data y su impacto en la industria.
● Explorar arquitecturas y ecosistemas tecnológicos para el procesamiento de
datos masivos.
● Aplicar principios de almacenamiento y procesamiento distribuido con
herramientas accesibles.
● Introducir conceptos de Machine Learning sobre datos masivos con PySpark.
● Evaluar tendencias y regulaciones en el mundo del Big Data.
Minería de Datos I 4
Planificación y referencias bibliográficas
En el siguiente link se encuentra la planificación del curso y referencias
bibliográficas:
Parcial I: 07-05-2025 Parcial II: 18-06-2025 Recuperatorio: 25-06-2025 Final: 16-07-2025
Minería de Datos I 5
Requisitos previos
● Minería de Datos I
● Conocimientos avanzado-intermedio de
programación en Python.
● Familiaridad con bases de datos y SQL.
● Conceptos generales de almacenamiento de datos.
● Curiosidad y Deseo de Aprender.
Minería de Datos I 6
Comencemos
Minería de Datos I 7
Big Data
Introducción y conceptos
Profesor: Diego Mosquera 8
Big Data
Es un marco de trabajo (conceptos + tecnologías), que permite procesar grandes
volúmenes de datos, de diferentes estructuras o con carencia de estas, que
pueden variar en el tiempo, a grandes velocidades que generen valor al
negocio.
Velocidad Variedad Valor
BIG
Data
Volumen Variabilidad
Minería de Datos I 9
Objetivos del Big Data
Aumentar el valor del proceso por medio de:
1. Reducir los tiempos de procesamiento
2. Integrar todas las fuentes de datos
disponibles
3. Reducir los costos de hardware
4. Reducir el uso de recursos
computacionales
5. Crecer fácilmente en potencia
computacional
6. Aumentar la exactitud en los cálculos
7. Potenciar otras tecnologías y marcos de
trabajo
Minería de Datos I 10
Filosofía de Big Data: las 5V
Es un marco de trabajo (conceptos +
tecnologías), que permite procesar
grandes volúmenes de datos, de
diferentes estructuras o con
carencia de estas, que pueden variar
en el tiempo, a grandes velocidades
que generen valor al negocio.
Minería de Datos I 11
Filosofía de Big Data: Volumen
Clúster
100 TB 100 TB 100 TB 100 TB 100 TB
5TB x 20 Discos 5TB x 20 Discos 5TB x 20 Discos 5TB x 20 Discos 5TB x 20 Discos
DB Transaccionales
100 TB 100 TB 100 TB 100 TB 100 TB
Video
5TB x 20 Discos 5TB x 20 Discos 5TB x 20 Discos 5TB x 20 Discos 5TB x 20 Discos
(1 Petabyte)
Datos realtime
Fuentes de datos
Minería de Datos I 12
Filosofía de Big Data: Velocidad
Minería de Datos I 13
Filosofía de Big Data: Variedad
DATA ESTRUCTURADA
Misma estructura para todos
los registros
DATA SEMI-ESTRUCTURADA
Cada registro tiene su propia
estructura
DATA NO ESTRUCTURADA
No tiene estructura ni registro
Minería de Datos I 14
Filosofía de Big Data: Variabilidad
HOY MAÑANA
Número telefónico Número telefónico
del cliente: del cliente:
11111111 5555555
Componente
de ingesta
Celular cliente:
11111111
El servicio de El servicio de 5555555
Personal es: Personal es: Servicio de Personal es bueno
muy bueno Pésimo SCA
Servicio de Personal es pésimo
Nuevo puente se inauguró
Nuevo puente colapsó
Noticia: Noticia:
Se inauguró un El nuevo puente
nuevo puente colapsó
Minería de Datos I 15
Filosofía de Big Data: Valor
Todos los esfuerzos deben traducirse en ganancias para la organización
Minería de Datos I 16
Otras Vs
Minería de Datos I 17
¿Por qué un marco de trabajo?
CONCEPTOS TECNOLOGÍAS
MARCO DE TRABAJO
● Las 5V ● Hadoop BIG DATA
● Clúster ● HDFS
● Paralelización ● Hive
● Distribución ● HBase
● Escalabilidad ● Spark
● Alta disponibilidad ● Kafka
● Seguridad ● Cassandra
● Gobierno ● Lenguajes de Prog.
Minería de Datos I 18
Evolución de los Sistemas de Almacenamiento
Minería de Datos I 19
Evolución de los Sistemas de Procesamiento
Minería de Datos I 20
Modelos de Computación Distribuida
Modelo Batch (Procesamiento por lotes) 🏗 Modelo Streaming (Procesamiento en tiempo real) ⚡
● Procesa datos en grandes volúmenes de forma periódica. ● Procesa datos continuamente, en el momento en que son
● Ejemplo: Generar reportes financieros diarios. generados.
● Herramientas: Apache Hadoop, Spark Batch. ● Ejemplo: Análisis de tráfico en Google Maps.
● Ventaja: Eficiente para grandes volúmenes de datos. ● Herramientas: Apache Flink, Spark Streaming, Kafka Streams.
● Desventaja: No permite análisis en tiempo real. ● Ventaja: Responde a eventos en milisegundos.
● Desventaja: Mayor consumo de recursos.
Modelo híbrido 🔄
Minería de Datos I 21
Principales Arquitecturas: Batch, Streaming e Híbridas
Minería de Datos I 22
Conceptos
Minería de Datos I 23
Clúster computacional
Minería de Datos I 24
Paralelización
Minería de Datos I 25
Distribución de la carga de trabajo
Minería de Datos I 26
Escalabilidad (de proceso)
Minería de Datos I 27
Escalabilidad (de hardware)
Minería de Datos I 28
Alta disponibilidad (de datos)
Minería de Datos I 29
Alta disponibilidad (de proceso)
Minería de Datos I 30
Seguridad
Minería de Datos I 31
Gobierno del dato
Minería de Datos I 32
Tecnologías
Minería de Datos I 33
Tipos de tecnologías
Minería de Datos I 34
Tecnologías de ingesta
Minería de Datos I 35
Tecnologías de almacenamiento
Minería de Datos I 36
Tecnologías de procesamiento
Minería de Datos I 37
Tecnologías de explotación
Minería de Datos I 38
Tecnologías de gobierno
Minería de Datos I 39
Tecnologías de seguridad
Minería de Datos I 40
Arquitectura general de big data
Minería de Datos I 41
Arquitectura conceptual
Minería de Datos I 42
Tipos de tecnologías
Minería de Datos I 43
Arquitectura tecnológica
Minería de Datos I 44
Cierre de la Clase y Reflexión
🔹 Pregunta Final: ¿Qué modelo de computación distribuida creen que es más
adecuado para su industria o trabajo actual?
🔹 Vista previa de la próxima clase:
📌 Semana 2: Ecosistema Hadoop y Fundamentos de Spark
● ¿Cómo funciona Hadoop?
● ¿Por qué Spark reemplazó MapReduce?
● Introducción a RDDs, DataFrames y Datasets en PySpark.
Minería de Datos I 45
Repaso
1. Concepto de big data (volumen, variedad, variabilidad, velocidad, valor).
2. ¿Por qué surge big data?
3. ¿Cuál era el principal objetivo de big data?
4. ¿Cómo surgió big data?
5. Big data = pliego conceptual (vivo) + tecnologías
Minería de Datos I 46