0% encontró este documento útil (0 votos)

41 vistas46 páginas

Clase 01 Intro Big Data

El curso de Minería de Datos II, impartido por el profesor Diego Mosquera, se centra en Big Data y tiene una duración de 28 horas, con un enfoque teórico y práctico utilizando PySpark en Google Colab. Los objetivos incluyen comprender los fundamentos del Big Data, explorar arquitecturas tecnológicas, y aplicar principios de almacenamiento y procesamiento distribuido. Se requiere haber completado Minería de Datos I y tener conocimientos intermedios de programación en Python y bases de datos.

Cargado por

Matias D. Ramirez

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

41 vistas46 páginas

Clase 01 Intro Big Data

Cargado por

Matias D. Ramirez

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

Minería de Datos II

Clase # 1 (Semanas 1 y 2)
Introducción a Big Data

Profesor: Diego Mosquera

Horario

Día: Miércoles
Inicio: 19:00hs
Fin: 21:00hs

Minería de Datos I 2
Curso electivo - Big Data

Duración: 28 horas (24 horas de clase + 4 horas de evaluaciones)

Frecuencia: 2 horas semanales (14 semanas)
Modalidad: Teórico con experimentación en PySpark sobre Google Colab
Evaluaciones: 2 evaluaciones de 2 horas cada una + Final

Minería de Datos I 3
Objetivos del curso

● Comprender los fundamentos del Big Data y su impacto en la industria.

● Explorar arquitecturas y ecosistemas tecnológicos para el procesamiento de
datos masivos.
● Aplicar principios de almacenamiento y procesamiento distribuido con
herramientas accesibles.
● Introducir conceptos de Machine Learning sobre datos masivos con PySpark.
● Evaluar tendencias y regulaciones en el mundo del Big Data.

Minería de Datos I 4
Planificación y referencias bibliográficas
En el siguiente link se encuentra la planificación del curso y referencias
bibliográficas:

Parcial I: 07-05-2025 Parcial II: 18-06-2025 Recuperatorio: 25-06-2025 Final: 16-07-2025

Minería de Datos I 5
Requisitos previos

● Minería de Datos I
● Conocimientos avanzado-intermedio de
programación en Python.
● Familiaridad con bases de datos y SQL.
● Conceptos generales de almacenamiento de datos.
● Curiosidad y Deseo de Aprender.

Minería de Datos I 6
Comencemos

Minería de Datos I 7
Big Data
Introducción y conceptos

Profesor: Diego Mosquera 8

Big Data
Es un marco de trabajo (conceptos + tecnologías), que permite procesar grandes
volúmenes de datos, de diferentes estructuras o con carencia de estas, que
pueden variar en el tiempo, a grandes velocidades que generen valor al
negocio.
Velocidad Variedad Valor

BIG
Data
Volumen Variabilidad

Minería de Datos I 9
Objetivos del Big Data
Aumentar el valor del proceso por medio de:
1. Reducir los tiempos de procesamiento
2. Integrar todas las fuentes de datos
disponibles
3. Reducir los costos de hardware
4. Reducir el uso de recursos
computacionales
5. Crecer fácilmente en potencia
computacional
6. Aumentar la exactitud en los cálculos
7. Potenciar otras tecnologías y marcos de
trabajo

Minería de Datos I 10
Filosofía de Big Data: las 5V

Es un marco de trabajo (conceptos +

tecnologías), que permite procesar
grandes volúmenes de datos, de
diferentes estructuras o con
carencia de estas, que pueden variar
en el tiempo, a grandes velocidades
que generen valor al negocio.

Minería de Datos I 11
Filosofía de Big Data: Volumen
Clúster
100 TB 100 TB 100 TB 100 TB 100 TB
5TB x 20 Discos 5TB x 20 Discos 5TB x 20 Discos 5TB x 20 Discos 5TB x 20 Discos

DB Transaccionales

100 TB 100 TB 100 TB 100 TB 100 TB

Video
5TB x 20 Discos 5TB x 20 Discos 5TB x 20 Discos 5TB x 20 Discos 5TB x 20 Discos

(1 Petabyte)
Datos realtime

Fuentes de datos

Minería de Datos I 12
Filosofía de Big Data: Velocidad

Minería de Datos I 13
Filosofía de Big Data: Variedad

DATA ESTRUCTURADA
Misma estructura para todos
los registros

DATA SEMI-ESTRUCTURADA
Cada registro tiene su propia
estructura

DATA NO ESTRUCTURADA
No tiene estructura ni registro

Minería de Datos I 14
Filosofía de Big Data: Variabilidad
HOY MAÑANA

Número telefónico Número telefónico

del cliente: del cliente:
11111111 5555555
Componente
de ingesta

Celular cliente:
11111111
El servicio de El servicio de 5555555
Personal es: Personal es: Servicio de Personal es bueno
muy bueno Pésimo SCA
Servicio de Personal es pésimo

Nuevo puente se inauguró

Nuevo puente colapsó

Noticia: Noticia:
Se inauguró un El nuevo puente
nuevo puente colapsó

Minería de Datos I 15
Filosofía de Big Data: Valor

Todos los esfuerzos deben traducirse en ganancias para la organización

Minería de Datos I 16
Otras Vs

Minería de Datos I 17
¿Por qué un marco de trabajo?

CONCEPTOS TECNOLOGÍAS
MARCO DE TRABAJO

● Las 5V ● Hadoop BIG DATA

● Clúster ● HDFS
● Paralelización ● Hive
● Distribución ● HBase
● Escalabilidad ● Spark
● Alta disponibilidad ● Kafka
● Seguridad ● Cassandra
● Gobierno ● Lenguajes de Prog.

Minería de Datos I 18
Evolución de los Sistemas de Almacenamiento

Minería de Datos I 19
Evolución de los Sistemas de Procesamiento

Minería de Datos I 20
Modelos de Computación Distribuida

Modelo Batch (Procesamiento por lotes) 🏗 Modelo Streaming (Procesamiento en tiempo real) ⚡

● Procesa datos en grandes volúmenes de forma periódica. ● Procesa datos continuamente, en el momento en que son
● Ejemplo: Generar reportes financieros diarios. generados.
● Herramientas: Apache Hadoop, Spark Batch. ● Ejemplo: Análisis de tráfico en Google Maps.
● Ventaja: Eficiente para grandes volúmenes de datos. ● Herramientas: Apache Flink, Spark Streaming, Kafka Streams.
● Desventaja: No permite análisis en tiempo real. ● Ventaja: Responde a eventos en milisegundos.
● Desventaja: Mayor consumo de recursos.

Modelo híbrido 🔄

Minería de Datos I 21
Principales Arquitecturas: Batch, Streaming e Híbridas

Minería de Datos I 22
Conceptos

Minería de Datos I 23
Clúster computacional

Minería de Datos I 24
Paralelización

Minería de Datos I 25
Distribución de la carga de trabajo

Minería de Datos I 26
Escalabilidad (de proceso)

Minería de Datos I 27
Escalabilidad (de hardware)

Minería de Datos I 28
Alta disponibilidad (de datos)

Minería de Datos I 29
Alta disponibilidad (de proceso)

Minería de Datos I 30
Seguridad

Minería de Datos I 31
Gobierno del dato

Minería de Datos I 32
Tecnologías

Minería de Datos I 33
Tipos de tecnologías

Minería de Datos I 34
Tecnologías de ingesta

Minería de Datos I 35
Tecnologías de almacenamiento

Minería de Datos I 36
Tecnologías de procesamiento

Minería de Datos I 37
Tecnologías de explotación

Minería de Datos I 38
Tecnologías de gobierno

Minería de Datos I 39
Tecnologías de seguridad

Minería de Datos I 40
Arquitectura general de big data

Minería de Datos I 41
Arquitectura conceptual

Minería de Datos I 42
Tipos de tecnologías

Minería de Datos I 43
Arquitectura tecnológica

Minería de Datos I 44
Cierre de la Clase y Reflexión
🔹 Pregunta Final: ¿Qué modelo de computación distribuida creen que es más
adecuado para su industria o trabajo actual?

🔹 Vista previa de la próxima clase:

📌 Semana 2: Ecosistema Hadoop y Fundamentos de Spark

● ¿Cómo funciona Hadoop?

● ¿Por qué Spark reemplazó MapReduce?
● Introducción a RDDs, DataFrames y Datasets en PySpark.

Minería de Datos I 45
Repaso
1. Concepto de big data (volumen, variedad, variabilidad, velocidad, valor).
2. ¿Por qué surge big data?
3. ¿Cuál era el principal objetivo de big data?
4. ¿Cómo surgió big data?
5. Big data = pliego conceptual (vivo) + tecnologías

Minería de Datos I 46

También podría gustarte

Big Data y Minería de Datos: Sinergias Clave
Aún no hay calificaciones
Big Data y Minería de Datos: Sinergias Clave
20 páginas
Introducción a Big Data Analityc
Aún no hay calificaciones
Introducción a Big Data Analityc
25 páginas
Introducción al Big Data y sus Herramientas
Aún no hay calificaciones
Introducción al Big Data y sus Herramientas
6 páginas
Big Data
Aún no hay calificaciones
Big Data
76 páginas
S1 - Big Data
Aún no hay calificaciones
S1 - Big Data
64 páginas
Big Data y Control Estadístico en Industria
Aún no hay calificaciones
Big Data y Control Estadístico en Industria
10 páginas
Capacitación en Big Data: Conceptos y Aplicaciones
100% (1)
Capacitación en Big Data: Conceptos y Aplicaciones
218 páginas
Minería de Big Data: Retos y Oportunidades
Aún no hay calificaciones
Minería de Big Data: Retos y Oportunidades
4 páginas
Big Data vs Minería de Datos
100% (1)
Big Data vs Minería de Datos
16 páginas
Introducción al Big Data en Negocios
Aún no hay calificaciones
Introducción al Big Data en Negocios
8 páginas
Semana 11 - Big Data
Aún no hay calificaciones
Semana 11 - Big Data
23 páginas
Big Data
Aún no hay calificaciones
Big Data
6 páginas
Resumenes de Videos Big Data
Aún no hay calificaciones
Resumenes de Videos Big Data
10 páginas
Introducción a Big Data y su Infraestructura
Aún no hay calificaciones
Introducción a Big Data y su Infraestructura
30 páginas
Big Data Aa1 Grupo N°1
Aún no hay calificaciones
Big Data Aa1 Grupo N°1
16 páginas
Curso de Certificación en Big Data
Aún no hay calificaciones
Curso de Certificación en Big Data
11 páginas
Big Data: Conceptos y Aplicaciones
Aún no hay calificaciones
Big Data: Conceptos y Aplicaciones
30 páginas
Introducción a Big Data y Ciencia de Datos
Aún no hay calificaciones
Introducción a Big Data y Ciencia de Datos
32 páginas
Introducción a Big Data y su Infraestructura
Aún no hay calificaciones
Introducción a Big Data y su Infraestructura
5 páginas
Curso de Big Data y Aplicaciones
Aún no hay calificaciones
Curso de Big Data y Aplicaciones
10 páginas
Arquitectura Big Data
50% (2)
Arquitectura Big Data
18 páginas
Sprint TemarioBigData Agosto21 Va
Aún no hay calificaciones
Sprint TemarioBigData Agosto21 Va
5 páginas
Introducción al Big Data y sus Tecnologías
Aún no hay calificaciones
Introducción al Big Data y sus Tecnologías
14 páginas
Big Data en Finanzas: Arquitecturas y Análisis
Aún no hay calificaciones
Big Data en Finanzas: Arquitecturas y Análisis
52 páginas
Introducción A La Ciencia de Datos y El Big Data
Aún no hay calificaciones
Introducción A La Ciencia de Datos y El Big Data
11 páginas
Antecedentes, Fundamentos y Procesamiento de Datos en La Aplicación de Bigdata
Aún no hay calificaciones
Antecedentes, Fundamentos y Procesamiento de Datos en La Aplicación de Bigdata
28 páginas
Big Data y Hadoop: Fundamentos Esenciales
Aún no hay calificaciones
Big Data y Hadoop: Fundamentos Esenciales
46 páginas
Introducción al Big Data y Data Lakes
Aún no hay calificaciones
Introducción al Big Data y Data Lakes
49 páginas
Big Data Mining: Retos y Técnicas Clave
Aún no hay calificaciones
Big Data Mining: Retos y Técnicas Clave
3 páginas
Minería de Datos y Big Data: Claves Esenciales
Aún no hay calificaciones
Minería de Datos y Big Data: Claves Esenciales
4 páginas
Big Data en Negocios: Conceptos Clave
Aún no hay calificaciones
Big Data en Negocios: Conceptos Clave
6 páginas
Fundamentos del Big Data y sus 5V
Aún no hay calificaciones
Fundamentos del Big Data y sus 5V
5 páginas
Big Data en Minería de Datos Eléctricos
Aún no hay calificaciones
Big Data en Minería de Datos Eléctricos
61 páginas
Fundamentos de Big Data
Aún no hay calificaciones
Fundamentos de Big Data
24 páginas
Introducción a Big Data y su evolución
Aún no hay calificaciones
Introducción a Big Data y su evolución
9 páginas
Big Data 1
Aún no hay calificaciones
Big Data 1
26 páginas
Big Data
Aún no hay calificaciones
Big Data
2 páginas
Curso Big Data & Analytics Certificado
Aún no hay calificaciones
Curso Big Data & Analytics Certificado
9 páginas
Big Data en Finanzas: Curso y Aplicaciones
Aún no hay calificaciones
Big Data en Finanzas: Curso y Aplicaciones
40 páginas
Todo
100% (1)
Todo
231 páginas
Introducción a Big Data y Analítica
Aún no hay calificaciones
Introducción a Big Data y Analítica
50 páginas
Actividad Regularizacion Mercadotecnia Industrial 07-11-23
Aún no hay calificaciones
Actividad Regularizacion Mercadotecnia Industrial 07-11-23
6 páginas
Características y Tipos de Big Data
100% (1)
Características y Tipos de Big Data
8 páginas
YV - vHNrwuqu0E-Ab - MlW63BB - 2l2JBQAU-Clase N°1 Big Data en Empresas y Organizaciones
Aún no hay calificaciones
YV - vHNrwuqu0E-Ab - MlW63BB - 2l2JBQAU-Clase N°1 Big Data en Empresas y Organizaciones
12 páginas
Big Data
Aún no hay calificaciones
Big Data
5 páginas
Big Data: Herramientas y Usos Empresariales
Aún no hay calificaciones
Big Data: Herramientas y Usos Empresariales
10 páginas
UD4 - S01 - Big Data
Aún no hay calificaciones
UD4 - S01 - Big Data
21 páginas
Fundamentos de Big Data y sus 5 V
Aún no hay calificaciones
Fundamentos de Big Data y sus 5 V
15 páginas
Unidad-1 Big Data-1
Aún no hay calificaciones
Unidad-1 Big Data-1
29 páginas
Herramientas y Éxitos en Big Data
Aún no hay calificaciones
Herramientas y Éxitos en Big Data
22 páginas
Inf 340 - Big Data
0% (1)
Inf 340 - Big Data
5 páginas
Big Data
Aún no hay calificaciones
Big Data
13 páginas
Sesión 1 Introducción Big Data
Aún no hay calificaciones
Sesión 1 Introducción Big Data
25 páginas
Introducción a Minería de Datos y Big Data
Aún no hay calificaciones
Introducción a Minería de Datos y Big Data
7 páginas
Herramientas y Metodologías de Big Data
Aún no hay calificaciones
Herramientas y Metodologías de Big Data
11 páginas
Ensayo Introducción
Aún no hay calificaciones
Ensayo Introducción
7 páginas
Silabus Bigdata 2022-I
Aún no hay calificaciones
Silabus Bigdata 2022-I
6 páginas
Fundamentos de Programación en Python
Aún no hay calificaciones
Fundamentos de Programación en Python
49 páginas
Manejo de Errores y Paradigma Funcional en Python
Aún no hay calificaciones
Manejo de Errores y Paradigma Funcional en Python
2 páginas
Paradigma Funcional en Python: Guía Completa
Aún no hay calificaciones
Paradigma Funcional en Python: Guía Completa
33 páginas
Funciones de la biblioteca random en Python
Aún no hay calificaciones
Funciones de la biblioteca random en Python
4 páginas
Manejo de Errores en Python: Excepciones
Aún no hay calificaciones
Manejo de Errores en Python: Excepciones
6 páginas
Prog Orien M Datos Modulo 5 2
Aún no hay calificaciones
Prog Orien M Datos Modulo 5 2
13 páginas
Ejercicios Laplace
Aún no hay calificaciones
Ejercicios Laplace
1 página
Dugin A Cuarta Teoria Politica Barcelona
Aún no hay calificaciones
Dugin A Cuarta Teoria Politica Barcelona
2 páginas
01 - Manejo de Productos Quimicos
Aún no hay calificaciones
01 - Manejo de Productos Quimicos
18 páginas
Informedireccion
Aún no hay calificaciones
Informedireccion
13 páginas
Resumen Química Analítica 1
Aún no hay calificaciones
Resumen Química Analítica 1
152 páginas
Módulo E/S para Sistemas de Detección de Incendios
100% (1)
Módulo E/S para Sistemas de Detección de Incendios
4 páginas
Taller de Algoritmos y Métodos Numéricos
Aún no hay calificaciones
Taller de Algoritmos y Métodos Numéricos
3 páginas
Evaluación Teórica de Amadeus
Aún no hay calificaciones
Evaluación Teórica de Amadeus
11 páginas
Análisis de Viscosidad y Torque en Líquidos
Aún no hay calificaciones
Análisis de Viscosidad y Torque en Líquidos
9 páginas
Modelos de Gestión por Procesos en Salud
Aún no hay calificaciones
Modelos de Gestión por Procesos en Salud
6 páginas
Análisis de la Poesía Barroca Española
Aún no hay calificaciones
Análisis de la Poesía Barroca Española
5 páginas
Optimización con Método Simplex y OPL
Aún no hay calificaciones
Optimización con Método Simplex y OPL
14 páginas
Fundamentos de Administración Logística
Aún no hay calificaciones
Fundamentos de Administración Logística
20 páginas
Lista Smart Prodalam
Aún no hay calificaciones
Lista Smart Prodalam
287 páginas
Evaluaciòn
Aún no hay calificaciones
Evaluaciòn
4 páginas
Catalogo CompoDock
Aún no hay calificaciones
Catalogo CompoDock
2 páginas
Expendio y Almacenamiento de Carne
Aún no hay calificaciones
Expendio y Almacenamiento de Carne
43 páginas
Observaciones sobre Experimentos de Indagación
Aún no hay calificaciones
Observaciones sobre Experimentos de Indagación
12 páginas
Puentes de Medición
Aún no hay calificaciones
Puentes de Medición
6 páginas
5 La Seguridad de La Información en Instituciones Educativas. Andrés de Los Reyes G
Aún no hay calificaciones
5 La Seguridad de La Información en Instituciones Educativas. Andrés de Los Reyes G
38 páginas
Dependencia Emocional Grupo 3
Aún no hay calificaciones
Dependencia Emocional Grupo 3
13 páginas
Curso sobre Evaluación y Reactivos Educativos
100% (2)
Curso sobre Evaluación y Reactivos Educativos
66 páginas
Factura CFDI 77043
Aún no hay calificaciones
Factura CFDI 77043
1 página
INKARRI. Comunicado de Prensa
Aún no hay calificaciones
INKARRI. Comunicado de Prensa
31 páginas
Comprensión Lectora en Inglés Académico
Aún no hay calificaciones
Comprensión Lectora en Inglés Académico
4 páginas
"La Casa de Junto: Monólogo de Evita"
Aún no hay calificaciones
"La Casa de Junto: Monólogo de Evita"
3 páginas
BERTRAND RUSSELL La Conquista de La Felicidad OK
Aún no hay calificaciones
BERTRAND RUSSELL La Conquista de La Felicidad OK
10 páginas
Parametrización IRPF en SAP-SD y SAP-FI
Aún no hay calificaciones
Parametrización IRPF en SAP-SD y SAP-FI
6 páginas
Tipos y Sistemas de Comunicación Empresarial
Aún no hay calificaciones
Tipos y Sistemas de Comunicación Empresarial
7 páginas
Construdata 198
50% (2)
Construdata 198
9 páginas