0% encontró este documento útil (0 votos)

23 vistas44 páginas

Curso Introductorio a Hadoop y Big Data

Hadoop es un sistema de código abierto diseñado para almacenar, procesar y analizar grandes volúmenes de datos, con un ecosistema que incluye herramientas como HDFS, YARN, MapReduce y Spark. Además, cuenta con frameworks como Hive y Pig para facilitar el análisis de datos, y herramientas de gestión como Ambari y Ranger para la administración y seguridad del clúster. El ecosistema de Hadoop permite un procesamiento distribuido eficiente y escalable, integrando múltiples tecnologías para satisfacer diversas necesidades de Big Data.

Cargado por

ElizangelaAlves

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

23 vistas44 páginas

Curso Introductorio a Hadoop y Big Data

Cargado por

ElizangelaAlves

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

Curso Intro Big Data - Hadoop

Intro a Hadoop
Introducción a

HADOOP
¿Qué es Hadoop?

Hadoop es un sistema de código abierto que se

utiliza para almacenar, procesar y analizar
grandes volúmenes de datos.
Características Principales

• Aísla a los desarrolladores de todas las dificultades presentes en

la programación paralela.

• Cuenta con un ecosistema que sirve de gran ayuda al usuario, ya que

permite distribuir los archivos en nodos, que no son otra cosa que servidores
con commodity-hardware.

• Es capaz de ejecutar procesos en paralelo en todo momento.

Características Principales

• Dispone de módulos de control para la monitorización de los datos.

• Cuenta con distintas herramientas para realizar consultas de los datos.

• También potencia la aparición de distintos add-ons, que facilitan el

trabajo, manipulación y seguimiento de toda la información que en él se
almacena.
HADOOP - DISTRIBUCIONES
GRAPH
Ecosistema Hadoop - HDFS
¿ Qué es HDFS?

● Hadoop Distributed File System

○ File System escrito en java, basado en GFS (Google File System)
○ Puede montarse sobre casi cualquier file system (ext3, ext4, ntfs, fat32)

Pensado para:

● Archivos grandes y volumen de datos (órdenes de Terabytes)

● Trabajar con un esquema de Write once / read many times.

● Los contenidos de los archivos no pueden modificarse. Solo agregar datos al

final de un archivo

● La latencia para recuperar un archivo entero es mucho más importante que

para obtener una línea de un archivo
Ecosistema Hadoop - YARN
¿ Qué es YARN ?
● Hadoop ahora tiene un entorno de gestión de recursos y aplicaciones distribuidas dónde se pueden
implementar múltiples aplicaciones de procesamiento de datos totalmente personalizadas y
específicas para realizar una tarea en cuestión

• “Yet Another Resource Negotiator”

● Surge por las siguientes necesidades:

○ Escalabilidad Disponibilidad Utilización Multitenancy

● Presenta una separación entre la administración de recursos y la ejecución y monitoreo de procesos.

Ecosistema Hadoop - MapReduce
¿ Qué es Map Reduce?

• MapReduce es un modelo de programación y su implementación asociada para procesar

y generar grandes sets de datos.

• Framework de procesamiento distribuido (en clusters) que divide los problemas de

procesamiento de grandes volúmenes de datos en subproblemas (Map) y luego recopila las
minirespuestas (Reduce) para generar conclusiones.

• Map-Reduce es en realidad un patrón que fue luego popularizado por Google a través de
su Google’s MapReduce Framework.

• Actualmente, es una de las implementaciones de procesamiento distribuido utilizadas sobre

YARN.
Ecosistema Hadoop - TEZ
¿ Qué es TEZ?

• Framework de procesamiento distribuido (en clusters) que modela su procesamiento en

función a grafos de flujo de datos (DAG - directed acyclic graph).

• Arquitectura Customizable diseñada para extensibilidad y optimizaciones de performance

definidos por los usuarios.

• Es un proyecto de código abierto de Apache.

• Es utilizado tanto por Apache Hive, como por Apache Pig.

• Actualmente, es una de las implementaciones de procesamiento distribuido utilizadas sobre

YARN.
Ecosistema Hadoop - Spark
¿Que es Spark?

• Un framework de computación clusterizado para el análisis de Big Data.

• OpenSource originalmente desarrollado en la Universidad de Berkeley en California.

• Provee análisis de datos en memoria.

• Diseñado para ejecutar iterativamente algoritmos y análisis predictivos.

• Altamente compatible con los medios de almacenamientos en Hadoop.

• Permite desarrollar programas en múltiples lenguajes de programación.

Ecosistema Hadoop - Hive
¿ Qué es y cómo surgió Hive?
• Hive es un framework originalmente desarrollado por Facebook.

• Provee facilidades de datawarehouse sobre un cluster Hadoop.

• Para lograr esto, mapea los datos del HDFS de Hadoop a

estructuras propias, aunque también puede utilizar las estructuras
de Hbase.

• Además provee un lenguaje para realizar consultas llamado

HiveQL (o HQL), muy similar a SQL, mediante el cual se puede
escribir tareas de MapReduce, y explotar los datos guardados en
el cluster.

• Puede utilizar TEZ/Map-Reduce ó Spark para la ejecución

• Utiliza HDFS para almacenamiento

Ecosistema Hadoop - Pig
¿ Qué es y cómo surgió Pig?

• Desarrollado por Yahoo!

• Plataforma para el análisis de grandes conjuntos de datos.
• Lenguaje de alto nivel para expresar programas de análisis,
junto con la infraestructura para la evaluación de los mismos.
• Programas MapReduce simples de desarrollar utilizando Pig
Latin como lenguaje de programación
• La estructura es favorable a la paralelización.
• Puede manejar enormes cantidades de información.
• No es necesario saber Java
• 200 líneas de Java -> 15 líneas de Pig.
Ecosistema Hadoop - Ambari
¿ Qué es AMBARI?
• Ofrece una interfaz web intuitiva y fácil de usar para la gestión de Hadoop
y además proporciona una API REST.
• Administrar y provisionar el cluster Hadoop
• Un asistente paso a paso para la instalación de servicios de Hadoop a través de múltiples equipos
• Proporciona la forma de gestionar gestión central para iniciar, detener y volver a configurar los
servicios de Hadoop en todo el clúster.
• Monitoriza el clúster Hadoop
• Ofrece un panel de control para vigilancia de la salud y el estado del cluster Hadoop.
• Se encarga de la instalación de los paquetes de Hadoop en el clúster.
• Ambari aprovecha Nagios para el sistema de alerta y enviará mensajes de correo electrónico cuando se
requiere su atención.
Ecosistema Hadoop - Hue
¿ Qué es HUE ?
• HUE = Hadoop User Experience
• Es una GUI para Hadoop open source
• Desarrollada por Cloudera
• Basada en Web
• Muchas funciones
• Ampliamente usada
• Se integra con Hive, Oozie, HDFS
• Tiene una API para crear aplicaciones
• No viene en la Versión Standard de Hadoop Apache.
Ecosistema Hadoop - Zookeeper
¿ Qué es Zookeeper ?

• Un servicio open source, de alta performance, para la coordinación de

servicios en aplicaciones distribuidas
• Configuración, naming, configuration management, sincronización (locks),
group services
• El sistema garantiza:
• Consistencia secuencial
• Atomicidad
• Consistencia de datos (todos los clientes ven el mismo estado más allá
del server con el que está conectado)
Ecosistema Hadoop - Flume
¿ Qué es Flume ?

Es un servicio de recolección de datos distribuido

• Escalable
• Configurable
• Extensible
• Administrable
• Open Source
Es una solución para recolectar datos en todos los
formatos.
Ecosistema Hadoop - KAFKA
¿ Qué es KAFKA ?

• Apache Kafka es un proyecto de intermediación de mensajes

escrito en lenguaje Scala.
• Plataforma unificada, de alto rendimiento y de baja latencia
para la manipulación en tiempo real de fuentes de datos.
• Cola de mensajes, bajo el patrón publicación-suscripción.
• Masivamente escalable concebida como un registro de
transacciones distribuidas.
• Desarrollada originalmente por Linkedin, liberada en 2011.
Ecosistema Hadoop - Sqoop
¿ Qué es Sqoop ?

• Permite fácilmente importar y exportar datos desde:

• Bases de Datos Relacionales
• Enterprise Datawarehouses
• NoSQLs
• Permite integración fácil con sistemas basados en Hadoop:
• Hive
• Hbase
• Oozie
• Fue desarrollada por Apache Software Fundation (Grupo Apache)
• Basado en Java
Ecosistema Hadoop - Oozie
¿ Qué es Oozie ?

• Es un scheduler de workflow para Hadoop

• Administra Jobs Hadoop
• Integrado con varias aplicaciones HDFS – Pig – Hive
• Escalable
• Programa procesos
• Un workflow es una colección de acciones (map/reduce, pig,
etc)
• Un workflow está representado como un grafo acíclico dirigido
• El grafo se almacena como hPDL (definición de proceso XML)
Ecosistema Hadoop - HBASE
¿ Qué es HBASE ?
● Base de datos
○ Distribuida
○ Del tipo Column family
○ Diseñada para operar sobre el file system distribuido de Hadoop (HDFS)
aprovechando sus características de escalabilidad, tolerancia a fallas, y alta
disponibilidad
○ Flexibiliza el uso de un File System de append-only para escrituras y lecturas
aleatorias
● HBase es un proyecto open source de Apache cuyo objetivo inicial fue proporcionar
un mecanismo de almacenamiento para Hadoop.
● Los datos están organizados lógicamente en “tablas”, “filas” y “columnas”.
Ecosistema Hadoop - Knutch
¿ Qué es Knutch ?

• Es un motor de búsquedas web open source

• Funcionalidades:
• Internet e Intranet crawling.
• Parsea diferentes formatos de documentos (PDF,
HTML, XML, JS, DOC, PPT, etc).
• Tiene una interfaz web para consultar el índice.
• Tiene gestión de recrawls.
Ecosistema Hadoop - Mahout
¿ Qué es MAHOUT ?

Machine Learning es programar para optimizar los criterios de

performance usando datos ejemplo o experiencias pasadas.
Es un subtema dentro de la inteligencia artificial.
Tiene muchos campos relacionados:
• Recuperación de información

• Estadísticas

• Biología

• Álgebra Lineal
Ecosistema Hadoop - Atlas
¿ Qué es ATLAS?

• Provee capacidades de Data Governance para Hadoop.

• Permite intecambiar metadata con otras herramientas o procesos.
• Control de acceso a los datos y metadata.
• Intercambio de Metadata con otras herramientas que gestionan Metadata.
• Mantiene una historia del origen de los datos, su linaje.
• Es escalable y extensible.
• Permite la clasificación de datos.
• Auditoria Centralizada.
Ecosistema Hadoop - Ranger
¿ Qué es RANGER?
Ranger es un framework que permite, supervisar y gestionar la seguridad de datos
completa en plataforma de Hadoop.

Apache Ranger tiene los siguientes objetivos:

• la administración de seguridad centralizada para gestionar todas las tareas relacionadas con la
seguridad en una interfaz de usuario central o usando APIs REST.

• Autorización para que se pueda hacer una acción y / u operación específica con Hadoop
componente / herramienta y gestionado a través de una herramienta de administración central.

• Estandarizar método de autorización en todos los componentes de Hadoop.

También podría gustarte

Introducción a Big Data con Hadoop
Aún no hay calificaciones
Introducción a Big Data con Hadoop
36 páginas
Ecosistema Hadoop: Guía Completa
Aún no hay calificaciones
Ecosistema Hadoop: Guía Completa
22 páginas
Ecosistema Hadoop: Guía Completa 2019
0% (1)
Ecosistema Hadoop: Guía Completa 2019
22 páginas
Introducción al Ecosistema Hadoop
Aún no hay calificaciones
Introducción al Ecosistema Hadoop
33 páginas
(14-1) Topicos en Base de Datos - Clase
Aún no hay calificaciones
(14-1) Topicos en Base de Datos - Clase
24 páginas
M4 U1 Ecosistema Hadoop
Aún no hay calificaciones
M4 U1 Ecosistema Hadoop
29 páginas
Introducción al Ecosistema Hadoop
Aún no hay calificaciones
Introducción al Ecosistema Hadoop
14 páginas
Introducción a Apache Hadoop
Aún no hay calificaciones
Introducción a Apache Hadoop
1 página
Práctica de de Unidad 4
Aún no hay calificaciones
Práctica de de Unidad 4
12 páginas
Introducción al Ecosistema Hadoop
Aún no hay calificaciones
Introducción al Ecosistema Hadoop
61 páginas
Big Data: Procesamiento con Hadoop
Aún no hay calificaciones
Big Data: Procesamiento con Hadoop
66 páginas
Arquitectura Big Data
Aún no hay calificaciones
Arquitectura Big Data
11 páginas
Apache Hadoop
0% (1)
Apache Hadoop
14 páginas
Hadoop: Clave en Big Data y Análisis
Aún no hay calificaciones
Hadoop: Clave en Big Data y Análisis
39 páginas
Curso Big Data (Tema 1)
Aún no hay calificaciones
Curso Big Data (Tema 1)
32 páginas
Ecosistema Hadoop y sus herramientas
Aún no hay calificaciones
Ecosistema Hadoop y sus herramientas
3 páginas
Guía Completa de Hadoop y MapReduce
Aún no hay calificaciones
Guía Completa de Hadoop y MapReduce
31 páginas
00 Presentación 2
Aún no hay calificaciones
00 Presentación 2
33 páginas
Introducción a Hadoop y su Ecosistema
Aún no hay calificaciones
Introducción a Hadoop y su Ecosistema
6 páginas
Investigación sobre Hadoop en Zacatepec
Aún no hay calificaciones
Investigación sobre Hadoop en Zacatepec
6 páginas
Plataformas de Código Abierto y Hadoop
Aún no hay calificaciones
Plataformas de Código Abierto y Hadoop
6 páginas
Introducción a Hadoop y Big Data
Aún no hay calificaciones
Introducción a Hadoop y Big Data
43 páginas
Introducción a Hadoop y Big Data
Aún no hay calificaciones
Introducción a Hadoop y Big Data
13 páginas
Hadoop
Aún no hay calificaciones
Hadoop
7 páginas
Fundamentos Prácticos de Hadoop
Aún no hay calificaciones
Fundamentos Prácticos de Hadoop
16 páginas
Spark para Dummies
Aún no hay calificaciones
Spark para Dummies
6 páginas
Introducción a Batch Processing
Aún no hay calificaciones
Introducción a Batch Processing
457 páginas
Sesion 02 - Introduccion A BigData Parte II
Aún no hay calificaciones
Sesion 02 - Introduccion A BigData Parte II
25 páginas
Sesion 02 - Introducción A Hadoop
Aún no hay calificaciones
Sesion 02 - Introducción A Hadoop
36 páginas
Ebook - Hadoop, Sus Componentes, Ecosistema y Distribuciones
Aún no hay calificaciones
Ebook - Hadoop, Sus Componentes, Ecosistema y Distribuciones
37 páginas
1 - Hadoop v2
Aún no hay calificaciones
1 - Hadoop v2
41 páginas
Batch Processing PDF
Aún no hay calificaciones
Batch Processing PDF
49 páginas
Tutorial Hadoop
Aún no hay calificaciones
Tutorial Hadoop
40 páginas
Actividad de Transferencia - Procesando Grandes Volúmenes de Datos
Aún no hay calificaciones
Actividad de Transferencia - Procesando Grandes Volúmenes de Datos
5 páginas
Introducción a Hadoop y Big Data
Aún no hay calificaciones
Introducción a Hadoop y Big Data
39 páginas
Introducción a Hadoop
Aún no hay calificaciones
Introducción a Hadoop
4 páginas
Hadoop GustavoEcheverry
Aún no hay calificaciones
Hadoop GustavoEcheverry
8 páginas
Big Data WorkShop
Aún no hay calificaciones
Big Data WorkShop
72 páginas
Investigación
Aún no hay calificaciones
Investigación
31 páginas
Hadoop Vs Spark
Aún no hay calificaciones
Hadoop Vs Spark
21 páginas
Fundamentos del Big Data y Hadoop
Aún no hay calificaciones
Fundamentos del Big Data y Hadoop
12 páginas
Hadoop
Aún no hay calificaciones
Hadoop
9 páginas
Big Data Tecnicas Herramientas y Aplicac-4
Aún no hay calificaciones
Big Data Tecnicas Herramientas y Aplicac-4
9 páginas
Procesamiento Distribuido con Hadoop
Aún no hay calificaciones
Procesamiento Distribuido con Hadoop
27 páginas
1 - Hadoop v2
Aún no hay calificaciones
1 - Hadoop v2
41 páginas
Arquitecturas y Herramientas en Big Data
Aún no hay calificaciones
Arquitecturas y Herramientas en Big Data
27 páginas
Ecosistema Hadoop
Aún no hay calificaciones
Ecosistema Hadoop
19 páginas
Introducción a Hadoop y Map-Reduce
Aún no hay calificaciones
Introducción a Hadoop y Map-Reduce
30 páginas
Introducción a Big Data y Hadoop
Aún no hay calificaciones
Introducción a Big Data y Hadoop
8 páginas
Herramientas y conceptos de Big Data
Aún no hay calificaciones
Herramientas y conceptos de Big Data
7 páginas
Introducción a Hadoop y Big Data
Aún no hay calificaciones
Introducción a Hadoop y Big Data
3 páginas
Introducción a Hadoop y su Ecosistema
Aún no hay calificaciones
Introducción a Hadoop y su Ecosistema
20 páginas
UD4 - S03 - Big Data
Aún no hay calificaciones
UD4 - S03 - Big Data
23 páginas
Introducción a Big Data y Hadoop
Aún no hay calificaciones
Introducción a Big Data y Hadoop
5 páginas
Guía de Instalación y Uso de Hadoop
Aún no hay calificaciones
Guía de Instalación y Uso de Hadoop
18 páginas
Hadoop
Aún no hay calificaciones
Hadoop
36 páginas
Big Data (II Unidad)
Aún no hay calificaciones
Big Data (II Unidad)
80 páginas
Tema 5 Conceptos Generales de Higiene Hospitalaria
Aún no hay calificaciones
Tema 5 Conceptos Generales de Higiene Hospitalaria
22 páginas
The Incomplete History of Secret Organizations: An Utterly Unreliable
Aún no hay calificaciones
The Incomplete History of Secret Organizations: An Utterly Unreliable
1 página
ElTelegrafo 08-05-2013 Edicion Final
Aún no hay calificaciones
ElTelegrafo 08-05-2013 Edicion Final
49 páginas
México y el Desarrollo Insustentable
Aún no hay calificaciones
México y el Desarrollo Insustentable
9 páginas
Division Del Derecho Internacional 05
Aún no hay calificaciones
Division Del Derecho Internacional 05
9 páginas
Mejora de Energía en Estadio Andahuaylillas
Aún no hay calificaciones
Mejora de Energía en Estadio Andahuaylillas
2 páginas
Presentación Diapositivas Proyecto Científico Ilustrativo Verde
Aún no hay calificaciones
Presentación Diapositivas Proyecto Científico Ilustrativo Verde
10 páginas
Senati Cts Inov Copia Final
Aún no hay calificaciones
Senati Cts Inov Copia Final
74 páginas
Entrada de Y.S.L. al mercado francés
Aún no hay calificaciones
Entrada de Y.S.L. al mercado francés
48 páginas
7 Calculo de Flujometro
Aún no hay calificaciones
7 Calculo de Flujometro
4 páginas
Calímaco: Observatorio de Derecho y Tecnología
Aún no hay calificaciones
Calímaco: Observatorio de Derecho y Tecnología
2 páginas
Ok. TC Roberto Carlos - Caracol
Aún no hay calificaciones
Ok. TC Roberto Carlos - Caracol
3 páginas
Actualización Normativa Al 6 de Septiembre de 2023
Aún no hay calificaciones
Actualización Normativa Al 6 de Septiembre de 2023
27 páginas
Factura Electrónica SUNAT 06/09/2019
Aún no hay calificaciones
Factura Electrónica SUNAT 06/09/2019
1 página
OFICIO Villa Olimpica Electro Oriente
Aún no hay calificaciones
OFICIO Villa Olimpica Electro Oriente
2 páginas
Ejercicio 7,19
100% (2)
Ejercicio 7,19
2 páginas
Introducción a la Ingeniería Química
Aún no hay calificaciones
Introducción a la Ingeniería Química
2 páginas
Determinación de Etanol por Refractometría
Aún no hay calificaciones
Determinación de Etanol por Refractometría
4 páginas
Preguntas para Entrevistas de Trabajo
Aún no hay calificaciones
Preguntas para Entrevistas de Trabajo
2 páginas
Constitución Política de Ecuador 1835
Aún no hay calificaciones
Constitución Política de Ecuador 1835
16 páginas
Manual Operador SL 153-12 PDF
Aún no hay calificaciones
Manual Operador SL 153-12 PDF
72 páginas
Debida Diligencia en ABC LTDA
0% (1)
Debida Diligencia en ABC LTDA
4 páginas
Historia de las carreteras y su evolución
Aún no hay calificaciones
Historia de las carreteras y su evolución
2 páginas
Crickets and Scratch MIT (Español)
Aún no hay calificaciones
Crickets and Scratch MIT (Español)
5 páginas
Cachamas Cultivo
Aún no hay calificaciones
Cachamas Cultivo
13 páginas
Acuse de Cambio de Domicilio - Josue Morales S.
Aún no hay calificaciones
Acuse de Cambio de Domicilio - Josue Morales S.
2 páginas
Modelo de Evaluacion Diagnostica Cca
Aún no hay calificaciones
Modelo de Evaluacion Diagnostica Cca
5 páginas
Presentación Postobon
50% (2)
Presentación Postobon
20 páginas
Seguridad y Salud en el Trabajo SST
Aún no hay calificaciones
Seguridad y Salud en el Trabajo SST
8 páginas
Tipología de Actores Internacionales
Aún no hay calificaciones
Tipología de Actores Internacionales
5 páginas