0% encontró este documento útil (0 votos)

67 vistas2 páginas

Actividad 3

El documento describe cuatro tecnologías clave en el procesamiento y almacenamiento de datos: Apache Hadoop para el procesamiento distribuido de grandes volúmenes, Apache Spark para procesamiento rápido en memoria, MongoDB como solución NoSQL para almacenamiento flexible de datos no estructurados, y Apache Kafka para la gestión de flujos de datos en tiempo real. Cada tecnología tiene funciones específicas y puede complementarse entre sí en soluciones de análisis de datos. La interoperabilidad de estas herramientas es fundamental en el ecosistema de big data.

Cargado por

Jesus Manuel Garcia Alvarez

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como TXT, PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

67 vistas2 páginas

Actividad 3

Cargado por

Jesus Manuel Garcia Alvarez

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como TXT, PDF, TXT o lee en línea desde Scribd

### Emparejamiento de Tecnologías con sus Funciones Principales

| Tecnología | Función principal |

|----------------------|-------------------------------------------------------|
| Apache Hadoop | a) Procesamiento distribuido de grandes volúmenes de datos
|
| Apache Spark | b) Procesamiento rápido en memoria |
| NoSQL (MongoDB) | c) Almacenamiento flexible de datos no estructurados |
| Apache Kafka | d) Gestión de flujos de datos en tiempo real |

---

### Explicación Ampliada del Emparejamiento

#### Apache Hadoop: Procesamiento distribuido de grandes volúmenes de datos

Apache Hadoop es una tecnología diseñada para gestionar y procesar cantidades
masivas de datos de manera distribuida. Su arquitectura se basa en dos componentes
principales:
- **HDFS (Hadoop Distributed File System)**: Un sistema de archivos distribuido que
divide los datos en bloques y los almacena en múltiples nodos, garantizando alta
disponibilidad y tolerancia a fallos.
- **MapReduce**: Un modelo de programación que permite procesar datos en paralelo,
dividiendo las tareas en dos etapas: *Map* (mapeo) y *Reduce* (reducción).

Por ejemplo, una empresa que analiza terabytes de registros históricos de ventas
puede usar Hadoop para procesarlos por lotes (*batch processing*), distribuyendo el
trabajo entre decenas o cientos de servidores. Aunque es muy eficiente para tareas
masivas, no está optimizado para análisis en tiempo real, lo que lo diferencia de
otras tecnologías como Spark.

#### Apache Spark: Procesamiento rápido en memoria

Apache Spark lleva el procesamiento de datos a otro nivel gracias a su capacidad de
trabajar **en memoria** (RAM), lo que lo hace significativamente más rápido que
Hadoop para ciertas tareas. A diferencia de MapReduce, que escribe constantemente
en disco, Spark utiliza estructuras de datos en memoria llamadas RDD (*Resilient
Distributed Datasets*), que son tolerantes a fallos y permiten operaciones rápidas.

Spark es ideal para aplicaciones como:

- **Análisis en tiempo real**: Por ejemplo, procesar datos de sensores IoT al
instante.
- **Machine Learning**: Entrenar modelos con bibliotecas como MLlib.
- **Procesamiento de gráficos**: Usando GraphX para analizar redes sociales.

Un caso práctico sería una plataforma de comercio electrónico que analiza patrones
de compra en tiempo real para recomendar productos a los usuarios mientras navegan.

#### NoSQL (MongoDB): Almacenamiento flexible de datos no estructurados

Las bases de datos NoSQL, como MongoDB, están diseñadas para manejar datos que no
encajan en el modelo relacional tradicional de tablas y esquemas rígidos. MongoDB
utiliza un formato basado en documentos (almacenados en JSON o BSON), lo que ofrece
gran flexibilidad para datos no estructurados o semiestructurados.

Características clave:
- **Escalabilidad horizontal**: Puedes añadir más servidores para manejar mayores
volúmenes de datos.
- **Sin esquema fijo**: Permite que cada documento tenga campos diferentes, ideal
para datos dinámicos.
Por ejemplo, una aplicación de redes sociales podría usar MongoDB para almacenar
publicaciones de usuarios, donde cada entrada tiene campos variables como texto,
imágenes o videos, sin necesidad de definir una estructura previa. Esto lo hace muy
diferente de bases de datos SQL tradicionales como MySQL.

#### Apache Kafka: Gestión de flujos de datos en tiempo real

Apache Kafka es una plataforma de *streaming* distribuida que actúa como un
intermediario para procesar y transmitir flujos de datos en tiempo real. Funciona
bajo un modelo de *publicador-suscriptor* (*pub/sub*), donde los productores envían
datos a "tópicos" y los consumidores los procesan.

Ventajas principales:
- **Alta capacidad**: Puede manejar millones de mensajes por segundo.
- **Durabilidad**: Los datos se almacenan temporalmente en disco, permitiendo su
relectura si es necesario.

Un ejemplo sería una empresa de logística que usa Kafka para rastrear envíos en
tiempo real: los sensores envían datos de ubicación a Kafka, y los sistemas
downstream (como Spark o bases de datos) los analizan para actualizar el estado de
los paquetes al instante.

---

### Reflexión Adicional

Cada una de estas tecnologías tiene un propósito específico dentro del ecosistema
de big data, pero también pueden complementarse. Por ejemplo:
- Hadoop puede almacenar datos históricos que luego Spark analiza rápidamente.
- Kafka puede alimentar datos en tiempo real a MongoDB para su almacenamiento
flexible.
Esta interoperabilidad las hace fundamentales en soluciones modernas de análisis de
datos.

También podría gustarte

Big Data Tech
Aún no hay calificaciones
Big Data Tech
8 páginas
Conceptos Clave Big Data
Aún no hay calificaciones
Conceptos Clave Big Data
3 páginas
00 Presentación 2
Aún no hay calificaciones
00 Presentación 2
33 páginas
Big Data
Aún no hay calificaciones
Big Data
4 páginas
Arquitectura Big Data
Aún no hay calificaciones
Arquitectura Big Data
7 páginas
Comparativa de Tecnologías Big Data: Storm, Spark y Samza
Aún no hay calificaciones
Comparativa de Tecnologías Big Data: Storm, Spark y Samza
3 páginas
Big Data y Analytics - Tema 05 - Ingeniería de Procesado de Datos
Aún no hay calificaciones
Big Data y Analytics - Tema 05 - Ingeniería de Procesado de Datos
43 páginas
Fundamentos de Big Data y Hadoop
Aún no hay calificaciones
Fundamentos de Big Data y Hadoop
12 páginas
Herramientas Clave en el Ciclo de Big Data
Aún no hay calificaciones
Herramientas Clave en el Ciclo de Big Data
15 páginas
Herramientas Big Data: Python, Hadoop y Spark
Aún no hay calificaciones
Herramientas Big Data: Python, Hadoop y Spark
16 páginas
Resumen Curso Big Data
Aún no hay calificaciones
Resumen Curso Big Data
12 páginas
04 Arquitecturas Big Data
100% (1)
04 Arquitecturas Big Data
23 páginas
PLA6 - Tecnologías de Big Data
Aún no hay calificaciones
PLA6 - Tecnologías de Big Data
36 páginas
Herramientas Clave de Ciencia de Datos
Aún no hay calificaciones
Herramientas Clave de Ciencia de Datos
2 páginas
Wa0020.
Aún no hay calificaciones
Wa0020.
9 páginas
Investigación sobre Hadoop en Zacatepec
Aún no hay calificaciones
Investigación sobre Hadoop en Zacatepec
6 páginas
Evidencia 1 BIG DATA-2
Aún no hay calificaciones
Evidencia 1 BIG DATA-2
17 páginas
Resumen Tecnologias
Aún no hay calificaciones
Resumen Tecnologias
3 páginas
Clase 4 - Herramientas Big Data Nov 15
Aún no hay calificaciones
Clase 4 - Herramientas Big Data Nov 15
31 páginas
Big Data WorkShop
Aún no hay calificaciones
Big Data WorkShop
72 páginas
(14-1) Topicos en Base de Datos - Clase
Aún no hay calificaciones
(14-1) Topicos en Base de Datos - Clase
24 páginas
Ecosistema Hadoop y sus herramientas
Aún no hay calificaciones
Ecosistema Hadoop y sus herramientas
3 páginas
Spark para Dummies
Aún no hay calificaciones
Spark para Dummies
6 páginas
Clase3 pdf2
Aún no hay calificaciones
Clase3 pdf2
11 páginas
AA1. BIG DATA Aa1
Aún no hay calificaciones
AA1. BIG DATA Aa1
24 páginas
Presentación Meetup Python
Aún no hay calificaciones
Presentación Meetup Python
39 páginas
Introducción a Apache Hadoop
Aún no hay calificaciones
Introducción a Apache Hadoop
1 página
Herramienta Big Data con Apache Spark
Aún no hay calificaciones
Herramienta Big Data con Apache Spark
65 páginas
Actividad 4
Aún no hay calificaciones
Actividad 4
5 páginas
Tecnologias de Almacenamiento para Big Data - Eneb
Aún no hay calificaciones
Tecnologias de Almacenamiento para Big Data - Eneb
160 páginas
Introduccion A Hadoop UV ES
Aún no hay calificaciones
Introduccion A Hadoop UV ES
61 páginas
Big Data Grupo 7
Aún no hay calificaciones
Big Data Grupo 7
9 páginas
Tema 5 BDA
Aún no hay calificaciones
Tema 5 BDA
52 páginas
Teoría Arquitecturas de BIG DATA
Aún no hay calificaciones
Teoría Arquitecturas de BIG DATA
3 páginas
Tarea 3 - Luis Pimienta (Grupo - 202016911 - 1) - Avances
Aún no hay calificaciones
Tarea 3 - Luis Pimienta (Grupo - 202016911 - 1) - Avances
8 páginas
Modulo 4 - Caso Practico B
Aún no hay calificaciones
Modulo 4 - Caso Practico B
4 páginas
Introducción al Ecosistema Hadoop
Aún no hay calificaciones
Introducción al Ecosistema Hadoop
14 páginas
Aa1 Alvares Castillo Orosco Hurtado
Aún no hay calificaciones
Aa1 Alvares Castillo Orosco Hurtado
12 páginas
Documento 19
Aún no hay calificaciones
Documento 19
6 páginas
Evidencia 1 - Grupo 10
Aún no hay calificaciones
Evidencia 1 - Grupo 10
16 páginas
Big Data Aa1 Grupo N°1
Aún no hay calificaciones
Big Data Aa1 Grupo N°1
16 páginas
Actividad 4
Aún no hay calificaciones
Actividad 4
8 páginas
Bases de Datos No Relacionales
Aún no hay calificaciones
Bases de Datos No Relacionales
3 páginas
Aa1 Big Data Final
Aún no hay calificaciones
Aa1 Big Data Final
10 páginas
Intro BigData
Aún no hay calificaciones
Intro BigData
21 páginas
Herramientas de Big Data: MongoDB y Más
Aún no hay calificaciones
Herramientas de Big Data: MongoDB y Más
12 páginas
Clase 3 Qué Es El Big Data Alumnos-1
Aún no hay calificaciones
Clase 3 Qué Es El Big Data Alumnos-1
115 páginas
Lectura 1 Big Analytics Handoop
Aún no hay calificaciones
Lectura 1 Big Analytics Handoop
2 páginas
Gestores Bases Datos Marcos Camacho
Aún no hay calificaciones
Gestores Bases Datos Marcos Camacho
4 páginas
Separata 02
Aún no hay calificaciones
Separata 02
16 páginas
Big Data
Aún no hay calificaciones
Big Data
6 páginas
1.2.1 Ecosistema Hadoop
Aún no hay calificaciones
1.2.1 Ecosistema Hadoop
33 páginas
Herramientas Clave para Big Data
Aún no hay calificaciones
Herramientas Clave para Big Data
3 páginas
Metodología y Herramientas de Big Data
Aún no hay calificaciones
Metodología y Herramientas de Big Data
14 páginas
Práctica de de Unidad 4
Aún no hay calificaciones
Práctica de de Unidad 4
12 páginas
TFM Mario Perez Esteso 2015
Aún no hay calificaciones
TFM Mario Perez Esteso 2015
96 páginas
Documento
Aún no hay calificaciones
Documento
7 páginas
Arquitectura Lambda en Big Data
Aún no hay calificaciones
Arquitectura Lambda en Big Data
15 páginas
Viabilidad Financiera de Proyectos
Aún no hay calificaciones
Viabilidad Financiera de Proyectos
25 páginas
Solidos Viernes
Aún no hay calificaciones
Solidos Viernes
26 páginas
Actividad 2
Aún no hay calificaciones
Actividad 2
27 páginas
Agenda - Lengua y Literatura 9no
Aún no hay calificaciones
Agenda - Lengua y Literatura 9no
2 páginas
Seguridad Alimentaria en México
Aún no hay calificaciones
Seguridad Alimentaria en México
5 páginas
Villoslada Roque Jamil
Aún no hay calificaciones
Villoslada Roque Jamil
7 páginas
Charla Tuberculosis
Aún no hay calificaciones
Charla Tuberculosis
3 páginas
La Calidad Total en El Servicio Al Cliente
Aún no hay calificaciones
La Calidad Total en El Servicio Al Cliente
18 páginas
Caso Integrador-Logistica de Servicios
100% (1)
Caso Integrador-Logistica de Servicios
11 páginas
Mecanica de Suelo Arequipa
Aún no hay calificaciones
Mecanica de Suelo Arequipa
19 páginas
Diagrama de Flujo de Procedimiento de Licitación Pública de Al Menos 3 Personas
Aún no hay calificaciones
Diagrama de Flujo de Procedimiento de Licitación Pública de Al Menos 3 Personas
2 páginas
Guacamayo Rojo: Amenazas y Conservación
0% (1)
Guacamayo Rojo: Amenazas y Conservación
1 página
Historias Mitologicas de Higino
Aún no hay calificaciones
Historias Mitologicas de Higino
88 páginas
SC Vertical Catalán 12 Natural PV 9,5x12x29
Aún no hay calificaciones
SC Vertical Catalán 12 Natural PV 9,5x12x29
1 página
Propiedades de La Luz
Aún no hay calificaciones
Propiedades de La Luz
13 páginas
6 Cultura Mochica
Aún no hay calificaciones
6 Cultura Mochica
37 páginas
Demanda Ejecutiva por Obligación de Hacer
100% (1)
Demanda Ejecutiva por Obligación de Hacer
6 páginas
COMPOSICION-QUIMICA-DEL-MANGO CC PDF
Aún no hay calificaciones
COMPOSICION-QUIMICA-DEL-MANGO CC PDF
7 páginas
Guía de Sociedades Comerciales en Argentina
Aún no hay calificaciones
Guía de Sociedades Comerciales en Argentina
26 páginas
Elasticidad y Consumo: Análisis Económico
Aún no hay calificaciones
Elasticidad y Consumo: Análisis Económico
4 páginas
SESION DEL APRENDIZAJE MONICA - ARTE Y CULTURA ELABORAMOS Nuestros Instrumentos Musicales Con Material Reciclable
Aún no hay calificaciones
SESION DEL APRENDIZAJE MONICA - ARTE Y CULTURA ELABORAMOS Nuestros Instrumentos Musicales Con Material Reciclable
10 páginas
Formato HC Sanitas
Aún no hay calificaciones
Formato HC Sanitas
1 página
Examen Final - Inteligencia Emocional - ESAN
Aún no hay calificaciones
Examen Final - Inteligencia Emocional - ESAN
4 páginas
Pruebas Psicológicas Principios
100% (1)
Pruebas Psicológicas Principios
4 páginas
Balotario Parcial Resuelto
Aún no hay calificaciones
Balotario Parcial Resuelto
3 páginas
Reparto Igualitario y Educación Espartana
Aún no hay calificaciones
Reparto Igualitario y Educación Espartana
5 páginas
Quechua Ficha 13 Corregido
Aún no hay calificaciones
Quechua Ficha 13 Corregido
3 páginas
7) Siprotec 7sa6
Aún no hay calificaciones
7) Siprotec 7sa6
20 páginas
Infografía Maniobras de Leopold
100% (1)
Infografía Maniobras de Leopold
1 página
Sílabo Finanzas y Abundancia
Aún no hay calificaciones
Sílabo Finanzas y Abundancia
3 páginas

Actividad 3

Cargado por

Actividad 3

Cargado por

### Emparejamiento de Tecnologías con sus Funciones Principales

| **Tecnología** | **Función principal** |

### Explicación Ampliada del Emparejamiento

#### Apache Hadoop: Procesamiento distribuido de grandes volúmenes de datos

#### Apache Spark: Procesamiento rápido en memoria

Spark es ideal para aplicaciones como:

#### NoSQL (MongoDB): Almacenamiento flexible de datos no estructurados

#### Apache Kafka: Gestión de flujos de datos en tiempo real

### Reflexión Adicional

También podría gustarte

| Tecnología | Función principal |