0% encontró este documento útil (0 votos)
41 vistas46 páginas

Clase 01 Intro Big Data

El curso de Minería de Datos II, impartido por el profesor Diego Mosquera, se centra en Big Data y tiene una duración de 28 horas, con un enfoque teórico y práctico utilizando PySpark en Google Colab. Los objetivos incluyen comprender los fundamentos del Big Data, explorar arquitecturas tecnológicas, y aplicar principios de almacenamiento y procesamiento distribuido. Se requiere haber completado Minería de Datos I y tener conocimientos intermedios de programación en Python y bases de datos.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
41 vistas46 páginas

Clase 01 Intro Big Data

El curso de Minería de Datos II, impartido por el profesor Diego Mosquera, se centra en Big Data y tiene una duración de 28 horas, con un enfoque teórico y práctico utilizando PySpark en Google Colab. Los objetivos incluyen comprender los fundamentos del Big Data, explorar arquitecturas tecnológicas, y aplicar principios de almacenamiento y procesamiento distribuido. Se requiere haber completado Minería de Datos I y tener conocimientos intermedios de programación en Python y bases de datos.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Minería de Datos II

Clase # 1 (Semanas 1 y 2)
Introducción a Big Data

Profesor: Diego Mosquera


Horario

Día: Miércoles
Inicio: 19:00hs
Fin: 21:00hs

Minería de Datos I 2
Curso electivo - Big Data

Duración: 28 horas (24 horas de clase + 4 horas de evaluaciones)


Frecuencia: 2 horas semanales (14 semanas)
Modalidad: Teórico con experimentación en PySpark sobre Google Colab
Evaluaciones: 2 evaluaciones de 2 horas cada una + Final

Minería de Datos I 3
Objetivos del curso

● Comprender los fundamentos del Big Data y su impacto en la industria.


● Explorar arquitecturas y ecosistemas tecnológicos para el procesamiento de
datos masivos.
● Aplicar principios de almacenamiento y procesamiento distribuido con
herramientas accesibles.
● Introducir conceptos de Machine Learning sobre datos masivos con PySpark.
● Evaluar tendencias y regulaciones en el mundo del Big Data.

Minería de Datos I 4
Planificación y referencias bibliográficas
En el siguiente link se encuentra la planificación del curso y referencias
bibliográficas:

Parcial I: 07-05-2025 Parcial II: 18-06-2025 Recuperatorio: 25-06-2025 Final: 16-07-2025

Minería de Datos I 5
Requisitos previos

● Minería de Datos I
● Conocimientos avanzado-intermedio de
programación en Python.
● Familiaridad con bases de datos y SQL.
● Conceptos generales de almacenamiento de datos.
● Curiosidad y Deseo de Aprender.

Minería de Datos I 6
Comencemos

Minería de Datos I 7
Big Data
Introducción y conceptos

Profesor: Diego Mosquera 8


Big Data
Es un marco de trabajo (conceptos + tecnologías), que permite procesar grandes
volúmenes de datos, de diferentes estructuras o con carencia de estas, que
pueden variar en el tiempo, a grandes velocidades que generen valor al
negocio.
Velocidad Variedad Valor

BIG
Data
Volumen Variabilidad

Minería de Datos I 9
Objetivos del Big Data
Aumentar el valor del proceso por medio de:
1. Reducir los tiempos de procesamiento
2. Integrar todas las fuentes de datos
disponibles
3. Reducir los costos de hardware
4. Reducir el uso de recursos
computacionales
5. Crecer fácilmente en potencia
computacional
6. Aumentar la exactitud en los cálculos
7. Potenciar otras tecnologías y marcos de
trabajo

Minería de Datos I 10
Filosofía de Big Data: las 5V

Es un marco de trabajo (conceptos +


tecnologías), que permite procesar
grandes volúmenes de datos, de
diferentes estructuras o con
carencia de estas, que pueden variar
en el tiempo, a grandes velocidades
que generen valor al negocio.

Minería de Datos I 11
Filosofía de Big Data: Volumen
Clúster
100 TB 100 TB 100 TB 100 TB 100 TB
5TB x 20 Discos 5TB x 20 Discos 5TB x 20 Discos 5TB x 20 Discos 5TB x 20 Discos

DB Transaccionales

100 TB 100 TB 100 TB 100 TB 100 TB


Video
5TB x 20 Discos 5TB x 20 Discos 5TB x 20 Discos 5TB x 20 Discos 5TB x 20 Discos

(1 Petabyte)
Datos realtime

Fuentes de datos

Minería de Datos I 12
Filosofía de Big Data: Velocidad

Minería de Datos I 13
Filosofía de Big Data: Variedad

DATA ESTRUCTURADA
Misma estructura para todos
los registros

DATA SEMI-ESTRUCTURADA
Cada registro tiene su propia
estructura

DATA NO ESTRUCTURADA
No tiene estructura ni registro

Minería de Datos I 14
Filosofía de Big Data: Variabilidad
HOY MAÑANA

Número telefónico Número telefónico


del cliente: del cliente:
11111111 5555555
Componente
de ingesta

Celular cliente:
11111111
El servicio de El servicio de 5555555
Personal es: Personal es: Servicio de Personal es bueno
muy bueno Pésimo SCA
Servicio de Personal es pésimo

Nuevo puente se inauguró


Nuevo puente colapsó

Noticia: Noticia:
Se inauguró un El nuevo puente
nuevo puente colapsó

Minería de Datos I 15
Filosofía de Big Data: Valor

Todos los esfuerzos deben traducirse en ganancias para la organización

Minería de Datos I 16
Otras Vs

Minería de Datos I 17
¿Por qué un marco de trabajo?

CONCEPTOS TECNOLOGÍAS
MARCO DE TRABAJO

● Las 5V ● Hadoop BIG DATA


● Clúster ● HDFS
● Paralelización ● Hive
● Distribución ● HBase
● Escalabilidad ● Spark
● Alta disponibilidad ● Kafka
● Seguridad ● Cassandra
● Gobierno ● Lenguajes de Prog.

Minería de Datos I 18
Evolución de los Sistemas de Almacenamiento

Minería de Datos I 19
Evolución de los Sistemas de Procesamiento

Minería de Datos I 20
Modelos de Computación Distribuida

Modelo Batch (Procesamiento por lotes) 🏗 Modelo Streaming (Procesamiento en tiempo real) ⚡

● Procesa datos en grandes volúmenes de forma periódica. ● Procesa datos continuamente, en el momento en que son
● Ejemplo: Generar reportes financieros diarios. generados.
● Herramientas: Apache Hadoop, Spark Batch. ● Ejemplo: Análisis de tráfico en Google Maps.
● Ventaja: Eficiente para grandes volúmenes de datos. ● Herramientas: Apache Flink, Spark Streaming, Kafka Streams.
● Desventaja: No permite análisis en tiempo real. ● Ventaja: Responde a eventos en milisegundos.
● Desventaja: Mayor consumo de recursos.

Modelo híbrido 🔄

Minería de Datos I 21
Principales Arquitecturas: Batch, Streaming e Híbridas

Minería de Datos I 22
Conceptos

Minería de Datos I 23
Clúster computacional

Minería de Datos I 24
Paralelización

Minería de Datos I 25
Distribución de la carga de trabajo

Minería de Datos I 26
Escalabilidad (de proceso)

Minería de Datos I 27
Escalabilidad (de hardware)

Minería de Datos I 28
Alta disponibilidad (de datos)

Minería de Datos I 29
Alta disponibilidad (de proceso)

Minería de Datos I 30
Seguridad

Minería de Datos I 31
Gobierno del dato

Minería de Datos I 32
Tecnologías

Minería de Datos I 33
Tipos de tecnologías

Minería de Datos I 34
Tecnologías de ingesta

Minería de Datos I 35
Tecnologías de almacenamiento

Minería de Datos I 36
Tecnologías de procesamiento

Minería de Datos I 37
Tecnologías de explotación

Minería de Datos I 38
Tecnologías de gobierno

Minería de Datos I 39
Tecnologías de seguridad

Minería de Datos I 40
Arquitectura general de big data

Minería de Datos I 41
Arquitectura conceptual

Minería de Datos I 42
Tipos de tecnologías

Minería de Datos I 43
Arquitectura tecnológica

Minería de Datos I 44
Cierre de la Clase y Reflexión
🔹 Pregunta Final: ¿Qué modelo de computación distribuida creen que es más
adecuado para su industria o trabajo actual?

🔹 Vista previa de la próxima clase:


📌 Semana 2: Ecosistema Hadoop y Fundamentos de Spark

● ¿Cómo funciona Hadoop?


● ¿Por qué Spark reemplazó MapReduce?
● Introducción a RDDs, DataFrames y Datasets en PySpark.

Minería de Datos I 45
Repaso
1. Concepto de big data (volumen, variedad, variabilidad, velocidad, valor).
2. ¿Por qué surge big data?
3. ¿Cuál era el principal objetivo de big data?
4. ¿Cómo surgió big data?
5. Big data = pliego conceptual (vivo) + tecnologías

Minería de Datos I 46

También podría gustarte