0% encontró este documento útil (0 votos)

11 vistas31 páginas

Introduccion Big Data2

El documento presenta una introducción al Big Data, destacando su importancia y los conceptos clave como las 5 V's y el ecosistema Hadoop. Se describen herramientas como Apache Sqoop y Hive, así como la necesidad de nuevos roles en el ámbito del Big Data. Además, se aborda el concepto de Data Lake y la importancia del gobierno de datos en la gestión efectiva de la información.

Cargado por

Nestor Ramirez

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

11 vistas31 páginas

Introduccion Big Data2

Cargado por

Nestor Ramirez

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

DATAHACK FORMATION

INTRODUCCIÓN
BIG DATA
Presented by Jesús Méndez
SUMMARY OF Big Data
Importancia del Bigdata
CONTENTS Las 5 V's
Framework Hadoop
OUR MAIN
Sqoop
TOPICS TODAY Kafka
Hive
Laboratorio

DataHack| Data, Cloud & Tech

DataHack| Data, Cloud & Tech
¿QUÉ ES BIG
DATA?

WHY IS IT IMPORTANT TO US?

DataHack | Data, Cloud & Tech
¿QUÉ ES EL BIG
DATA?

"Big data son datos que contienen una mayor

variedad y que se presentan en volúmenes
crecientes y a una velocidad superior. Esto se
conoce como "las tres V".

Gartner's - Doug Laney

DataHack | Data, Cloud & Tech

¿PORQUÉ ES TAN El ‘Big Data’ como concepto se refiere al análisis de información en
cantidades industriales, todo un universo de oportunidades para las
IMPORTANTE? empresas aún por explorar. No existe una traducción unívoca (¿grandes
datos? ¿datos masivos?), y muchas veces el término se utiliza de forma
incorrecta. Según Kenneth Cukier, autor del libro ‘Big Data. La Revolución
de los Datos Masivos’, “se trata de hacer cosas a partir del análisis de
inmensas cantidades de información, que simplemente no son posibles
con volúmenes más pequeños”.

DataHack | Data, Cloud & Tech

LAS V'S DEL
BIGDATA Es un marco de trabajo (conceptos + tecnologías) que
permite procesar grandes volúmenes de datos, de
diferentes estructuras o con carencia de estas, que
pueden variar en el tiempo, a grandes velocidades y
que generen valor al negocio.

DataHack | Data, Cloud & Tech

¿QUÉ ES EL ECOSISTEMA
HADOOP?
Es un framework implementado en Java que permite el
almacenamiento y procesamiento distribuido de grandes
conjuntos de datos estructurados, semi-estructurados y no
estructurados. Está diseñado para trabajar en clústers con
miles de máquinas y tiene una alta tolerancia a fallas.

¿PARA QUE SIRVE

HADOOP?
Almacenar archivos de manera distribuida
Procesar archivos de manera distribuida

DataHack | Data, Cloud & Tech

GRANDES EN CLOUDERA
BIGDATA Es una compañía que proporciona software basado
en Apache Hadoop, soporte y servicios, y formación para
REFERENTES grandes clientes.La distribución open-source de Apache
Hadoop, CDH (Cloudera Distribution Hadoop) se enfoca en el
desarrollo de esta tecnología para empresas.

HORTORWORKS
Es una compañía de software de inteligencia de datos (big
data) basada en Santa Clara, California. La compañía
desarrolla y brinda soporte de Apache Hadoop, para
el procesamiento distribuido de conjuntos de dato grande a
través de clusters de ordenadores.

DataHack | Data, Cloud & Tech

¿QUÉ SIGNIFICA TRABAJA
SOBRE UN CLUSTER?
Significa trabajar sobre un clúster. Un clúster es una
agrupación de servidores (computadoras) conectadas
sobre una red generalmente LAN.

DataHack | Data, Cloud & Tech

¿CÓMO ALMACENA HADOOP?
En Hadoop el módulo que se encarga del almacenamiento y manipulación de archivos es
conocido como HDFS (Hadoop Distribuited File System). Es módulo se encarga de recibir
desde un cliente peticiones de lectura y escritura de archivos y almacenar los archivos en los
nodos “slave”.

DataHack | Data, Cloud & Tech

COMPONENTES TECNOLOGICOS DEL
ECOSISTEMA HADOOP
sources ingestion storage analysis visualization

DataHack | Data, Cloud & Tech

INTRODUCCIÓN BIG DATA
REPASEMOS ALGUNOS CONCEPTOS..

¿Qué es Big Data? ¿Cómo Almacena Empresas

Hadoop? Mundiales en Big
Data (hadoop)

DataHack | Data, Cloud & Tech

APACHE SQOOP

Es una herramienta que está dentro de proyecto Apache, y además forma

parte del ecosistema Hadoop. Sqoop nos permita la transferencia de datos
entre un RDBMS como MySQL o oracle y HDFS.

DataHack | Data, Cloud & Tech

¿QUÉ ES APACHE
HIVE?
Es una infraestructura de almacenamiento batch de datos construida sobre
Hadoop, que permite manipular el contenido de los archivos HDFS.
Es software que facilita leer, escribir y manejar largos conjunto de datos, que
residen en un almacenamiento distribuido, usando SQL.
Es una base de datos de Metadatos.
Es una abstracción de alto nivel de un programa MapReduce y trabaja sobre la
parte superior de Hadoop.

DataHack | Data, Cloud & Tech

PRINCIPALES
CARACTERISTICAS
Genera un código MapReduce que es ejecutado en un clúster Hadoop.
Sencillo y rápido de escribir a comparación de un programa MapReduce, pero en el
tiempo de ejecución no se refleja.
Soporta diferentes tipos de formatos de archivos en Hadoop (avro, parquet, orc,
textfile)
Permite la creación de UDFs (User Definition Functions)

DataHack | Data, Cloud & Tech

LOS NUEVOS ROLES DEL
BIGDATA
Para este nuevo ecosistema de trabajo surge la
necesidad de nuevos perfiles

Data Engineer
Data Scientist
Data Steward

Data Architect
Data Quality
Data Ops

DataHack | Data, Cloud & Tech

Data Scientist

DataHack | Data, Cloud & Tech

Data Engineer

DataHack | Data, Cloud & Tech

Data Analyst

DataHack | Data, Cloud & Tech

GOBIERNO DE
DATOS
DAMA define a Gobierno de Datos como el ejercicio de la autoridad y el control
(planificación, el seguimiento y la aplicación) a través de la gestión de los
activos de datos. La función de Gobierno de Datos guía de cómo se llevan a
cabo todas las demás funciones de gestión de datos. Gobierno de Datos es de
alto nivel, la administración ejecutiva de los datos.
GOBIERNO DE
DATOS
METAS:
Definir, aprobar y comunicar las estrategias de datos, politicas
estandáres y arquitecturas.
Monitorear y asegurarse que se cumplan todas los
lineamientos.
Promover, monitorear y supervisar la distribución de los
proyectos de la gestión de datos.
Gestionar y resolver problemas relacionados con los datos
Comprender y promover los valores de los datos activos.

DataHack | Data, Cloud & Tech

GOBIERNO DE
DATOS
Gobierno de Datos permite a los
responsables de las decisiones
seleccionadas compartidas, cruzar estas
fronteras y apoyar una visión integrada
de datos. Algunas decisiones son
principalmente decisiones empresariales
tomadas con el aporte y la orientación de
IT , otras son decisiones técnicas hechas
principalmente con el aporte y la
orientación de los data stewards de
negocio a todos los niveles.

DataHack | Data, Cloud & Tech

GOBIERNO DE
DATOS

Administración de datos es la responsabilidad

formal de responsabilidades empresariales que
garanticen el control y uso de datos de manera
eficaz. Algunas de estas responsabilidades son
responsabilidad de Gobierno de Datos, pero
también hay importantes responsabilidades de
gestión de datos dentro de cada una de las otras
funciones principales de gestión de datos.

DataHack | Data, Cloud & Tech

¿QUÉ ES
DATALAKE?

WHY IS IT IMPORTANT TO US?

DataHack | Data, Cloud & Tech
CONCEPTO DE UN
DATALAKE

"it can be defined as a vast repository of a variety of

enterprise-wide, raw information that can be acquired,
processed, analyzed and delivered."

DataHack | Data, Cloud & Tech

DATALAKE
Un Data Lake adquiere datos de múltiples fuentes en una organización en su
forma nativa y también puede tener formas internas y modeladas de estos
mismos datos para diversos fines. Se espera que un lago de datos pueda
derivar significados y conocimientos relevantes para la empresa a partir de
esta información utilizando varios algoritmos de análisis y aprendizaje
automático.

DataHack | Data, Cloud & Tech

LABORATORIO

DESCARGAR CLOUDERA

DataHack | Data, Cloud & Tech

QUESTIONS? COMMENTS?
LET US KNOW!

ADDRESS
Av. Javier Prado Este 175 - San IsidroLima

PHONE
+51 980 518 059

EMAIL
[email protected]

DataHack | Data, Cloud & Tech

See you on Social Media

FACEBOOK TWITTER INSTAGRAM

DataHack | Data, Cloud & Tech

SEE YOU
SOON
https://www.datahacks.ai

También podría gustarte

Big Data en Salud: Impacto del COVID-19
Aún no hay calificaciones
Big Data en Salud: Impacto del COVID-19
13 páginas
Arquitecturas y Herramientas en Big Data
Aún no hay calificaciones
Arquitecturas y Herramientas en Big Data
27 páginas
Big Data en los Negocios: Historia y Aplicaciones
Aún no hay calificaciones
Big Data en los Negocios: Historia y Aplicaciones
19 páginas
Guía de Big Data para Empresas
Aún no hay calificaciones
Guía de Big Data para Empresas
21 páginas
Infraestructura y Fuentes de Big Data
Aún no hay calificaciones
Infraestructura y Fuentes de Big Data
30 páginas
Big Data Aa1 Grupo N°1
Aún no hay calificaciones
Big Data Aa1 Grupo N°1
16 páginas
Introducción al Big Data y su Utilidad
Aún no hay calificaciones
Introducción al Big Data y su Utilidad
114 páginas
Curso de Big Data y Aplicaciones
Aún no hay calificaciones
Curso de Big Data y Aplicaciones
10 páginas
Big Data
Aún no hay calificaciones
Big Data
76 páginas
Introducción a Hadoop y Big Data
100% (2)
Introducción a Hadoop y Big Data
58 páginas
Capacitación en Big Data: Conceptos y Aplicaciones
100% (1)
Capacitación en Big Data: Conceptos y Aplicaciones
218 páginas
Bigdata Mod 1 Pereira
100% (1)
Bigdata Mod 1 Pereira
300 páginas
Introducción al Big Data y Data Lakes
Aún no hay calificaciones
Introducción al Big Data y Data Lakes
49 páginas
Introducción a Hadoop y Big Data
Aún no hay calificaciones
Introducción a Hadoop y Big Data
5 páginas
Introducción a Big Data y sus Tecnologías
Aún no hay calificaciones
Introducción a Big Data y sus Tecnologías
24 páginas
Caso Practico 2 Herramientas Big Data y Gobierno Del Dato
100% (1)
Caso Practico 2 Herramientas Big Data y Gobierno Del Dato
7 páginas
Big Data: Valor, Variedad y Eficiencia
Aún no hay calificaciones
Big Data: Valor, Variedad y Eficiencia
10 páginas
Introducción al Big Data y su Impacto
Aún no hay calificaciones
Introducción al Big Data y su Impacto
6 páginas
Importancia y Uso del Big Data
Aún no hay calificaciones
Importancia y Uso del Big Data
14 páginas
Big Data
Aún no hay calificaciones
Big Data
13 páginas
Introducción al Big Data y su Impacto
Aún no hay calificaciones
Introducción al Big Data y su Impacto
18 páginas
S1 - Big Data
Aún no hay calificaciones
S1 - Big Data
64 páginas
Big Data
Aún no hay calificaciones
Big Data
46 páginas
Big Data y Hadoop en Cloud Computing
Aún no hay calificaciones
Big Data y Hadoop en Cloud Computing
132 páginas
Definición y Ventajas del Big Data
Aún no hay calificaciones
Definición y Ventajas del Big Data
66 páginas
Tarea1 - Margie Naranjo
Aún no hay calificaciones
Tarea1 - Margie Naranjo
12 páginas
Big Data y Hadoop: Fundamentos Esenciales
Aún no hay calificaciones
Big Data y Hadoop: Fundamentos Esenciales
46 páginas
Impacto y Retos del Big Data
Aún no hay calificaciones
Impacto y Retos del Big Data
29 páginas
Lectura 1
Aún no hay calificaciones
Lectura 1
16 páginas
Big Data 2018 PDF
Aún no hay calificaciones
Big Data 2018 PDF
52 páginas
BIGDATA
Aún no hay calificaciones
BIGDATA
26 páginas
Big Data: Definición, Tecnologías y Aplicaciones
Aún no hay calificaciones
Big Data: Definición, Tecnologías y Aplicaciones
10 páginas
Cloud Computing Da To Smas I Vos Big Data
Aún no hay calificaciones
Cloud Computing Da To Smas I Vos Big Data
78 páginas
Introducción al Big Data y sus Aplicaciones
Aún no hay calificaciones
Introducción al Big Data y sus Aplicaciones
12 páginas
Introducción a Big Data y Hadoop
Aún no hay calificaciones
Introducción a Big Data y Hadoop
56 páginas
Herramientas PDF y SQL para Empresas
Aún no hay calificaciones
Herramientas PDF y SQL para Empresas
18 páginas
Introducción Al Big Data 2022 1
Aún no hay calificaciones
Introducción Al Big Data 2022 1
14 páginas
Clase 2 Big Data
Aún no hay calificaciones
Clase 2 Big Data
46 páginas
BDE - Apuntes s1
Aún no hay calificaciones
BDE - Apuntes s1
27 páginas
Introducción A La Ciencia de Datos y El Big Data
Aún no hay calificaciones
Introducción A La Ciencia de Datos y El Big Data
11 páginas
Big Data y Analytics: Impacto y Retos
Aún no hay calificaciones
Big Data y Analytics: Impacto y Retos
28 páginas
Introducción al Big Data y sus Retos
Aún no hay calificaciones
Introducción al Big Data y sus Retos
14 páginas
Fundamentos del Big Data y Hadoop
Aún no hay calificaciones
Fundamentos del Big Data y Hadoop
12 páginas
Actividad Regularizacion Mercadotecnia Industrial 07-11-23
Aún no hay calificaciones
Actividad Regularizacion Mercadotecnia Industrial 07-11-23
6 páginas
Cap 3.a BIG DATA Introduccion
Aún no hay calificaciones
Cap 3.a BIG DATA Introduccion
19 páginas
Arquitectura Spark en Big Data
Aún no hay calificaciones
Arquitectura Spark en Big Data
39 páginas
Fundamentos de Big Data en Ciencia de Datos
Aún no hay calificaciones
Fundamentos de Big Data en Ciencia de Datos
44 páginas
Guia de Preguntas Big Data
Aún no hay calificaciones
Guia de Preguntas Big Data
10 páginas
Fundamentos de Big Data
Aún no hay calificaciones
Fundamentos de Big Data
39 páginas
Tema 08 BigData - S10 Ciber 2022
Aún no hay calificaciones
Tema 08 BigData - S10 Ciber 2022
28 páginas
1 Big Data Professional Fundamentos v2 - Conceptos
Aún no hay calificaciones
1 Big Data Professional Fundamentos v2 - Conceptos
55 páginas
Introducción al Big Data: Conceptos Clave
Aún no hay calificaciones
Introducción al Big Data: Conceptos Clave
22 páginas
Aplicaciones y características de Big Data
Aún no hay calificaciones
Aplicaciones y características de Big Data
10 páginas
Introducción a Big Data y Analítica
Aún no hay calificaciones
Introducción a Big Data y Analítica
50 páginas
Gestión de Huge Data en Empresas
Aún no hay calificaciones
Gestión de Huge Data en Empresas
25 páginas
Características y Herramientas de Big Data
Aún no hay calificaciones
Características y Herramientas de Big Data
4 páginas
Big - Data Trabajo Escrito
Aún no hay calificaciones
Big - Data Trabajo Escrito
4 páginas
Introducción a Tkinter en Python
Aún no hay calificaciones
Introducción a Tkinter en Python
46 páginas
Producto Académico 01
Aún no hay calificaciones
Producto Académico 01
11 páginas
Guía de Uso de ADORDD en (x) Harbour
Aún no hay calificaciones
Guía de Uso de ADORDD en (x) Harbour
5 páginas
Mapa conceptual de procesadores de texto
100% (3)
Mapa conceptual de procesadores de texto
4 páginas
Planes Max: Beneficios y Cobertura
Aún no hay calificaciones
Planes Max: Beneficios y Cobertura
2 páginas
Configuración Segura de SSH en Redes
Aún no hay calificaciones
Configuración Segura de SSH en Redes
4 páginas
Repositorios GIT y Orquestadores de Contenedores Kubernetes en La Optimización de La Gestión Empresarial
Aún no hay calificaciones
Repositorios GIT y Orquestadores de Contenedores Kubernetes en La Optimización de La Gestión Empresarial
7 páginas
Diseño de Red para Empresa Telemática
Aún no hay calificaciones
Diseño de Red para Empresa Telemática
5 páginas
Estrategias de Endurecimiento en Seguridad
Aún no hay calificaciones
Estrategias de Endurecimiento en Seguridad
5 páginas
Bases de Datos Distribuidas y Multidimensionales
Aún no hay calificaciones
Bases de Datos Distribuidas y Multidimensionales
33 páginas
Configuración BGP Básico en eNSP
Aún no hay calificaciones
Configuración BGP Básico en eNSP
6 páginas
Ingenieria Requerimientos Prof
Aún no hay calificaciones
Ingenieria Requerimientos Prof
12 páginas
Seguridad en Bases de Datos
Aún no hay calificaciones
Seguridad en Bases de Datos
60 páginas
IA y SQL Una Sinergia Poderosa
Aún no hay calificaciones
IA y SQL Una Sinergia Poderosa
7 páginas
GFPI-F-135 Guía de Aprendizaje 260102011 - ATENDER REQUERIMIENTOS DE LOS CLIENTES DE ACUERDO CON PROCEDIMIENTO TÉCNICO Y NORMATIVA DE PROCESOS DE NEGOCIOS
100% (3)
GFPI-F-135 Guía de Aprendizaje 260102011 - ATENDER REQUERIMIENTOS DE LOS CLIENTES DE ACUERDO CON PROCEDIMIENTO TÉCNICO Y NORMATIVA DE PROCESOS DE NEGOCIOS
12 páginas
Infraestructura. Formulario de Control de Cambios
100% (1)
Infraestructura. Formulario de Control de Cambios
5 páginas
Laboratorio 11.10.1
Aún no hay calificaciones
Laboratorio 11.10.1
10 páginas
Linux Mint INSTALAR Con Windows Vista
Aún no hay calificaciones
Linux Mint INSTALAR Con Windows Vista
10 páginas
Ejercicio Obligatorio - Python II - Revisión Del Intento
Aún no hay calificaciones
Ejercicio Obligatorio - Python II - Revisión Del Intento
6 páginas
Importancia del Antivirus
Aún no hay calificaciones
Importancia del Antivirus
2 páginas
Guía Básica de Microsoft Entra ID
Aún no hay calificaciones
Guía Básica de Microsoft Entra ID
517 páginas
Algoritmos para Cálculo de Promedios y Más
Aún no hay calificaciones
Algoritmos para Cálculo de Promedios y Más
5 páginas
MR TSP 358-2023-1
Aún no hay calificaciones
MR TSP 358-2023-1
2 páginas
Tema 4 de Montaje
Aún no hay calificaciones
Tema 4 de Montaje
6 páginas
Pickit 3
Aún no hay calificaciones
Pickit 3
20 páginas
Nodo de Microondas en Alto Prado
Aún no hay calificaciones
Nodo de Microondas en Alto Prado
26 páginas
Guía de Power BI: Actualizaciones y Compartición
Aún no hay calificaciones
Guía de Power BI: Actualizaciones y Compartición
81 páginas
Error Trackpad
Aún no hay calificaciones
Error Trackpad
11 páginas
App de Compras de Motos: VELOCITY
Aún no hay calificaciones
App de Compras de Motos: VELOCITY
8 páginas
Características y tipos de memoria caché
Aún no hay calificaciones
Características y tipos de memoria caché
5 páginas