DATAHACK FORMATION
INTRODUCCIÓN
BIG DATA
Presented by Jesús Méndez
SUMMARY OF Big Data
Importancia del Bigdata
CONTENTS Las 5 V's
Framework Hadoop
OUR MAIN
Sqoop
TOPICS TODAY Kafka
Hive
Laboratorio
DataHack| Data, Cloud & Tech
DataHack| Data, Cloud & Tech
¿QUÉ ES BIG
DATA?
WHY IS IT IMPORTANT TO US?
DataHack | Data, Cloud & Tech
¿QUÉ ES EL BIG
DATA?
"Big data son datos que contienen una mayor
variedad y que se presentan en volúmenes
crecientes y a una velocidad superior. Esto se
conoce como "las tres V".
Gartner's - Doug Laney
DataHack | Data, Cloud & Tech
¿PORQUÉ ES TAN El ‘Big Data’ como concepto se refiere al análisis de información en
cantidades industriales, todo un universo de oportunidades para las
IMPORTANTE? empresas aún por explorar. No existe una traducción unívoca (¿grandes
datos? ¿datos masivos?), y muchas veces el término se utiliza de forma
incorrecta. Según Kenneth Cukier, autor del libro ‘Big Data. La Revolución
de los Datos Masivos’, “se trata de hacer cosas a partir del análisis de
inmensas cantidades de información, que simplemente no son posibles
con volúmenes más pequeños”.
DataHack | Data, Cloud & Tech
LAS V'S DEL
BIGDATA Es un marco de trabajo (conceptos + tecnologías) que
permite procesar grandes volúmenes de datos, de
diferentes estructuras o con carencia de estas, que
pueden variar en el tiempo, a grandes velocidades y
que generen valor al negocio.
DataHack | Data, Cloud & Tech
¿QUÉ ES EL ECOSISTEMA
HADOOP?
Es un framework implementado en Java que permite el
almacenamiento y procesamiento distribuido de grandes
conjuntos de datos estructurados, semi-estructurados y no
estructurados. Está diseñado para trabajar en clústers con
miles de máquinas y tiene una alta tolerancia a fallas.
¿PARA QUE SIRVE
HADOOP?
Almacenar archivos de manera distribuida
Procesar archivos de manera distribuida
DataHack | Data, Cloud & Tech
GRANDES EN CLOUDERA
BIGDATA Es una compañía que proporciona software basado
en Apache Hadoop, soporte y servicios, y formación para
REFERENTES grandes clientes.La distribución open-source de Apache
Hadoop, CDH (Cloudera Distribution Hadoop) se enfoca en el
desarrollo de esta tecnología para empresas.
HORTORWORKS
Es una compañía de software de inteligencia de datos (big
data) basada en Santa Clara, California. La compañía
desarrolla y brinda soporte de Apache Hadoop, para
el procesamiento distribuido de conjuntos de dato grande a
través de clusters de ordenadores.
DataHack | Data, Cloud & Tech
¿QUÉ SIGNIFICA TRABAJA
SOBRE UN CLUSTER?
Significa trabajar sobre un clúster. Un clúster es una
agrupación de servidores (computadoras) conectadas
sobre una red generalmente LAN.
DataHack | Data, Cloud & Tech
¿CÓMO ALMACENA HADOOP?
En Hadoop el módulo que se encarga del almacenamiento y manipulación de archivos es
conocido como HDFS (Hadoop Distribuited File System). Es módulo se encarga de recibir
desde un cliente peticiones de lectura y escritura de archivos y almacenar los archivos en los
nodos “slave”.
DataHack | Data, Cloud & Tech
COMPONENTES TECNOLOGICOS DEL
ECOSISTEMA HADOOP
sources ingestion storage analysis visualization
DataHack | Data, Cloud & Tech
INTRODUCCIÓN BIG DATA
REPASEMOS ALGUNOS CONCEPTOS..
¿Qué es Big Data? ¿Cómo Almacena Empresas
Hadoop? Mundiales en Big
Data (hadoop)
DataHack | Data, Cloud & Tech
APACHE SQOOP
Es una herramienta que está dentro de proyecto Apache, y además forma
parte del ecosistema Hadoop. Sqoop nos permita la transferencia de datos
entre un RDBMS como MySQL o oracle y HDFS.
DataHack | Data, Cloud & Tech
¿QUÉ ES APACHE
HIVE?
Es una infraestructura de almacenamiento batch de datos construida sobre
Hadoop, que permite manipular el contenido de los archivos HDFS.
Es software que facilita leer, escribir y manejar largos conjunto de datos, que
residen en un almacenamiento distribuido, usando SQL.
Es una base de datos de Metadatos.
Es una abstracción de alto nivel de un programa MapReduce y trabaja sobre la
parte superior de Hadoop.
DataHack | Data, Cloud & Tech
PRINCIPALES
CARACTERISTICAS
Genera un código MapReduce que es ejecutado en un clúster Hadoop.
Sencillo y rápido de escribir a comparación de un programa MapReduce, pero en el
tiempo de ejecución no se refleja.
Soporta diferentes tipos de formatos de archivos en Hadoop (avro, parquet, orc,
textfile)
Permite la creación de UDFs (User Definition Functions)
DataHack | Data, Cloud & Tech
LOS NUEVOS ROLES DEL
BIGDATA
Para este nuevo ecosistema de trabajo surge la
necesidad de nuevos perfiles
Data Engineer
Data Scientist
Data Steward
Data Architect
Data Quality
Data Ops
DataHack | Data, Cloud & Tech
Data Scientist
DataHack | Data, Cloud & Tech
Data Engineer
DataHack | Data, Cloud & Tech
Data Analyst
DataHack | Data, Cloud & Tech
GOBIERNO DE
DATOS
DAMA define a Gobierno de Datos como el ejercicio de la autoridad y el control
(planificación, el seguimiento y la aplicación) a través de la gestión de los
activos de datos. La función de Gobierno de Datos guía de cómo se llevan a
cabo todas las demás funciones de gestión de datos. Gobierno de Datos es de
alto nivel, la administración ejecutiva de los datos.
GOBIERNO DE
DATOS
METAS:
Definir, aprobar y comunicar las estrategias de datos, politicas
estandáres y arquitecturas.
Monitorear y asegurarse que se cumplan todas los
lineamientos.
Promover, monitorear y supervisar la distribución de los
proyectos de la gestión de datos.
Gestionar y resolver problemas relacionados con los datos
Comprender y promover los valores de los datos activos.
DataHack | Data, Cloud & Tech
GOBIERNO DE
DATOS
Gobierno de Datos permite a los
responsables de las decisiones
seleccionadas compartidas, cruzar estas
fronteras y apoyar una visión integrada
de datos. Algunas decisiones son
principalmente decisiones empresariales
tomadas con el aporte y la orientación de
IT , otras son decisiones técnicas hechas
principalmente con el aporte y la
orientación de los data stewards de
negocio a todos los niveles.
DataHack | Data, Cloud & Tech
GOBIERNO DE
DATOS
Administración de datos es la responsabilidad
formal de responsabilidades empresariales que
garanticen el control y uso de datos de manera
eficaz. Algunas de estas responsabilidades son
responsabilidad de Gobierno de Datos, pero
también hay importantes responsabilidades de
gestión de datos dentro de cada una de las otras
funciones principales de gestión de datos.
DataHack | Data, Cloud & Tech
¿QUÉ ES
DATALAKE?
WHY IS IT IMPORTANT TO US?
DataHack | Data, Cloud & Tech
CONCEPTO DE UN
DATALAKE
"it can be defined as a vast repository of a variety of
enterprise-wide, raw information that can be acquired,
processed, analyzed and delivered."
DataHack | Data, Cloud & Tech
DATALAKE
Un Data Lake adquiere datos de múltiples fuentes en una organización en su
forma nativa y también puede tener formas internas y modeladas de estos
mismos datos para diversos fines. Se espera que un lago de datos pueda
derivar significados y conocimientos relevantes para la empresa a partir de
esta información utilizando varios algoritmos de análisis y aprendizaje
automático.
DataHack | Data, Cloud & Tech
LABORATORIO
DESCARGAR CLOUDERA
DataHack | Data, Cloud & Tech
QUESTIONS? COMMENTS?
LET US KNOW!
ADDRESS
Av. Javier Prado Este 175 - San IsidroLima
PHONE
+51 980 518 059
EMAIL
[email protected]
DataHack | Data, Cloud & Tech
See you on Social Media
FACEBOOK TWITTER INSTAGRAM
DataHack | Data, Cloud & Tech
SEE YOU
SOON
https://www.datahacks.ai