0% encontró este documento útil (0 votos)
11 vistas31 páginas

Introduccion Big Data2

El documento presenta una introducción al Big Data, destacando su importancia y los conceptos clave como las 5 V's y el ecosistema Hadoop. Se describen herramientas como Apache Sqoop y Hive, así como la necesidad de nuevos roles en el ámbito del Big Data. Además, se aborda el concepto de Data Lake y la importancia del gobierno de datos en la gestión efectiva de la información.

Cargado por

Nestor Ramirez
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
11 vistas31 páginas

Introduccion Big Data2

El documento presenta una introducción al Big Data, destacando su importancia y los conceptos clave como las 5 V's y el ecosistema Hadoop. Se describen herramientas como Apache Sqoop y Hive, así como la necesidad de nuevos roles en el ámbito del Big Data. Además, se aborda el concepto de Data Lake y la importancia del gobierno de datos en la gestión efectiva de la información.

Cargado por

Nestor Ramirez
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

DATAHACK FORMATION

INTRODUCCIÓN
BIG DATA
Presented by Jesús Méndez
SUMMARY OF Big Data
Importancia del Bigdata
CONTENTS Las 5 V's
Framework Hadoop
OUR MAIN
Sqoop
TOPICS TODAY Kafka
Hive
Laboratorio

DataHack| Data, Cloud & Tech


DataHack| Data, Cloud & Tech
¿QUÉ ES BIG
DATA?

WHY IS IT IMPORTANT TO US?


DataHack | Data, Cloud & Tech
¿QUÉ ES EL BIG
DATA?

"Big data son datos que contienen una mayor


variedad y que se presentan en volúmenes
crecientes y a una velocidad superior. Esto se
conoce como "las tres V".

Gartner's - Doug Laney

DataHack | Data, Cloud & Tech


¿PORQUÉ ES TAN El ‘Big Data’ como concepto se refiere al análisis de información en
cantidades industriales, todo un universo de oportunidades para las
IMPORTANTE? empresas aún por explorar. No existe una traducción unívoca (¿grandes
datos? ¿datos masivos?), y muchas veces el término se utiliza de forma
incorrecta. Según Kenneth Cukier, autor del libro ‘Big Data. La Revolución
de los Datos Masivos’, “se trata de hacer cosas a partir del análisis de
inmensas cantidades de información, que simplemente no son posibles
con volúmenes más pequeños”.

DataHack | Data, Cloud & Tech


LAS V'S DEL
BIGDATA Es un marco de trabajo (conceptos + tecnologías) que
permite procesar grandes volúmenes de datos, de
diferentes estructuras o con carencia de estas, que
pueden variar en el tiempo, a grandes velocidades y
que generen valor al negocio.

DataHack | Data, Cloud & Tech


¿QUÉ ES EL ECOSISTEMA
HADOOP?
Es un framework implementado en Java que permite el
almacenamiento y procesamiento distribuido de grandes
conjuntos de datos estructurados, semi-estructurados y no
estructurados. Está diseñado para trabajar en clústers con
miles de máquinas y tiene una alta tolerancia a fallas.

¿PARA QUE SIRVE


HADOOP?
Almacenar archivos de manera distribuida
Procesar archivos de manera distribuida

DataHack | Data, Cloud & Tech


GRANDES EN CLOUDERA
BIGDATA Es una compañía que proporciona software basado
en Apache Hadoop, soporte y servicios, y formación para
REFERENTES grandes clientes.La distribución open-source de Apache
Hadoop, CDH (Cloudera Distribution Hadoop) se enfoca en el
desarrollo de esta tecnología para empresas.

HORTORWORKS
Es una compañía de software de inteligencia de datos (big
data) basada en Santa Clara, California. La compañía
desarrolla y brinda soporte de Apache Hadoop, para
el procesamiento distribuido de conjuntos de dato grande a
través de clusters de ordenadores.

DataHack | Data, Cloud & Tech


¿QUÉ SIGNIFICA TRABAJA
SOBRE UN CLUSTER?
Significa trabajar sobre un clúster. Un clúster es una
agrupación de servidores (computadoras) conectadas
sobre una red generalmente LAN.

DataHack | Data, Cloud & Tech


¿CÓMO ALMACENA HADOOP?
En Hadoop el módulo que se encarga del almacenamiento y manipulación de archivos es
conocido como HDFS (Hadoop Distribuited File System). Es módulo se encarga de recibir
desde un cliente peticiones de lectura y escritura de archivos y almacenar los archivos en los
nodos “slave”.

DataHack | Data, Cloud & Tech


COMPONENTES TECNOLOGICOS DEL
ECOSISTEMA HADOOP
sources ingestion storage analysis visualization

DataHack | Data, Cloud & Tech


INTRODUCCIÓN BIG DATA
REPASEMOS ALGUNOS CONCEPTOS..

¿Qué es Big Data? ¿Cómo Almacena Empresas


Hadoop? Mundiales en Big
Data (hadoop)

DataHack | Data, Cloud & Tech


APACHE SQOOP

Es una herramienta que está dentro de proyecto Apache, y además forma


parte del ecosistema Hadoop. Sqoop nos permita la transferencia de datos
entre un RDBMS como MySQL o oracle y HDFS.

DataHack | Data, Cloud & Tech


¿QUÉ ES APACHE
HIVE?
Es una infraestructura de almacenamiento batch de datos construida sobre
Hadoop, que permite manipular el contenido de los archivos HDFS.
Es software que facilita leer, escribir y manejar largos conjunto de datos, que
residen en un almacenamiento distribuido, usando SQL.
Es una base de datos de Metadatos.
Es una abstracción de alto nivel de un programa MapReduce y trabaja sobre la
parte superior de Hadoop.

DataHack | Data, Cloud & Tech


PRINCIPALES
CARACTERISTICAS
Genera un código MapReduce que es ejecutado en un clúster Hadoop.
Sencillo y rápido de escribir a comparación de un programa MapReduce, pero en el
tiempo de ejecución no se refleja.
Soporta diferentes tipos de formatos de archivos en Hadoop (avro, parquet, orc,
textfile)
Permite la creación de UDFs (User Definition Functions)

DataHack | Data, Cloud & Tech


LOS NUEVOS ROLES DEL
BIGDATA
Para este nuevo ecosistema de trabajo surge la
necesidad de nuevos perfiles

Data Engineer
Data Scientist
Data Steward

Data Architect
Data Quality
Data Ops

DataHack | Data, Cloud & Tech


Data Scientist

DataHack | Data, Cloud & Tech


Data Engineer

DataHack | Data, Cloud & Tech


Data Analyst

DataHack | Data, Cloud & Tech


GOBIERNO DE
DATOS
DAMA define a Gobierno de Datos como el ejercicio de la autoridad y el control
(planificación, el seguimiento y la aplicación) a través de la gestión de los
activos de datos. La función de Gobierno de Datos guía de cómo se llevan a
cabo todas las demás funciones de gestión de datos. Gobierno de Datos es de
alto nivel, la administración ejecutiva de los datos.
GOBIERNO DE
DATOS
METAS:
Definir, aprobar y comunicar las estrategias de datos, politicas
estandáres y arquitecturas.
Monitorear y asegurarse que se cumplan todas los
lineamientos.
Promover, monitorear y supervisar la distribución de los
proyectos de la gestión de datos.
Gestionar y resolver problemas relacionados con los datos
Comprender y promover los valores de los datos activos.

DataHack | Data, Cloud & Tech


GOBIERNO DE
DATOS
Gobierno de Datos permite a los
responsables de las decisiones
seleccionadas compartidas, cruzar estas
fronteras y apoyar una visión integrada
de datos. Algunas decisiones son
principalmente decisiones empresariales
tomadas con el aporte y la orientación de
IT , otras son decisiones técnicas hechas
principalmente con el aporte y la
orientación de los data stewards de
negocio a todos los niveles.

DataHack | Data, Cloud & Tech


GOBIERNO DE
DATOS

Administración de datos es la responsabilidad


formal de responsabilidades empresariales que
garanticen el control y uso de datos de manera
eficaz. Algunas de estas responsabilidades son
responsabilidad de Gobierno de Datos, pero
también hay importantes responsabilidades de
gestión de datos dentro de cada una de las otras
funciones principales de gestión de datos.

DataHack | Data, Cloud & Tech


¿QUÉ ES
DATALAKE?

WHY IS IT IMPORTANT TO US?


DataHack | Data, Cloud & Tech
CONCEPTO DE UN
DATALAKE

"it can be defined as a vast repository of a variety of


enterprise-wide, raw information that can be acquired,
processed, analyzed and delivered."

DataHack | Data, Cloud & Tech


DATALAKE
Un Data Lake adquiere datos de múltiples fuentes en una organización en su
forma nativa y también puede tener formas internas y modeladas de estos
mismos datos para diversos fines. Se espera que un lago de datos pueda
derivar significados y conocimientos relevantes para la empresa a partir de
esta información utilizando varios algoritmos de análisis y aprendizaje
automático.

DataHack | Data, Cloud & Tech


LABORATORIO

DESCARGAR CLOUDERA

DataHack | Data, Cloud & Tech


QUESTIONS? COMMENTS?
LET US KNOW!

ADDRESS
Av. Javier Prado Este 175 - San IsidroLima

PHONE
+51 980 518 059

EMAIL
[email protected]

DataHack | Data, Cloud & Tech


See you on Social Media

FACEBOOK TWITTER INSTAGRAM

DataHack | Data, Cloud & Tech


SEE YOU
SOON
https://www.datahacks.ai

También podría gustarte