0% encontró este documento útil (0 votos)
83 vistas14 páginas

Introducción al Big Data y sus Tecnologías

El documento describe conceptos clave de Big Data como volumenes grandes de datos, tipos de datos, y tecnologías usadas como Hadoop, HDFS, y MapReduce. También discute cuando usar Big Data y usos comunes como análisis de negocios y predecir tendencias.

Cargado por

Vianny Davila
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PPTX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
83 vistas14 páginas

Introducción al Big Data y sus Tecnologías

El documento describe conceptos clave de Big Data como volumenes grandes de datos, tipos de datos, y tecnologías usadas como Hadoop, HDFS, y MapReduce. También discute cuando usar Big Data y usos comunes como análisis de negocios y predecir tendencias.

Cargado por

Vianny Davila
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PPTX, PDF, TXT o lee en línea desde Scribd

Universidad de Los Andes

Facultad de Ingeniera
Escuela de Sistemas
Investigacin de Operaciones
Mrida, Edo. Mrida

Integrantes:
Carlos Nieves 20434966
Isamar Bentez 20593900
Ulises Silva 20708702
Betania Medina
Juancarlos Salcedo
Ctedra: Estocstica 4
Prof.: Framklin Dvila

Big data

El Big Data o Datos masivos es un concepto que hace referencia a


la acumulacin y manipulacin de grandes cantidades de datos y a los
procedimientos usados para encontrar patrones repetitivos dentro de esos
datos.
Estas grandes cantidades de datos son de tal magnitud que superan la
capacidad del software habitual para ser capturados, administrados y
procesados en un tiempo razonable.

Cunto es demasiada informacin


de manera que sea elegible
para ser procesada y analizada
utilizando Big Data?

Big Data no se refiere a alguna cantidad en especfico, ya


que es usualmente utilizado cuando se habla en trminos de
petabytes y exabytes de datos.

Gigabyte = 109 = 1,000,000,000


Terabyte = 1012 = 1,000,000,000,000
Petabyte = 1015 = 1,000,000,000,000,000
Exabyte = 1018 = 1,000,000,000,000,000,000

CUANDO USAR BIG DATA?

Cuando las aplicaciones que analizan

datos requieren que la

velocidad de respuesta sea lo demasiado rpida para lograr


obtener la informacin correcta en el momento preciso. Estas son
las caractersticas principales de una oportunidad para Big Data.

Usos de big data

La tendencia a manipular enormes cantidades de datos se debe a


la necesidad en muchos casos de incluir dicha informacin para la
creacin de informes estadsticos y modelos predictivos utilizados
en diversas materias, como los anlisis de negocio, publicitarios,
los datos de enfermedades infecciosas, el espionaje y seguimiento
a la poblacin o la lucha contra el crimen organizado.

Tecnologas usadas
en el mundo
del Big data
Entre las mas usadas se encuentran:

Otros:
NoSQL,
Cassandra
Business Intelligence
Machine Learning

Tipos de Big Data

Datos estructurados (Unstructured Data):

Datos no estructurados (Unstructured Data)

Datos semiestructurados (Semistructured


Data):

Qu tipos de
datos debo explorar?
Muchas organizaciones se enfrentan a la
pregunta sobre qu informacin es la
que se debe analizar?, sin embargo, el
cuestionamiento debera estar enfocado
hacia qu problema es el que se est
tratando de resolver?

1. Redes Sociales y contenido Web


2. Mquina a mquina (M2M)
3. Transacciones
4. Biomtricos
5. Generados por las personas

Componentes
de una Plataforma
Big Data?
Hadoo esta
compuesto en 3 Piezas

Hadoop Distributed File System(HDFS)


Los datos en el clster de Hadoop son divididos en pequeas piezas llamadas bloques y distribuidas a
travs del clster; de esta manera, las funciones map y reduce pueden ser ejecutadas en pequeos
subconjuntos y esto provee de la escalabilidad
necesaria para el procesamiento de grandes
volmenes.
La siguiente figura ejemplifica como los bloques
de datos son escritos hacia HDFS. Observe que
cada bloque es almacenado tres veces y al
menos un bloque se almacena en un diferente
rack para lograr redundancia.

Hadoop MapReduce
Es el ncleo de Hadoop, ell trmino MapReduce en realidad se refiere a dos procesos separados que
Hadoop ejecuta. El primer proceso map, el cual toma un conjunto de datos y lo convierte en otro conjunto,
donde los elementos individuales son separados en tuplas (pares de llave/valor). El proceso reduce obtiene
la salida de map como datos de entrada y combina las tuplas en un conjunto ms pequeo de las mismas.
Una fase intermedia es la denominada Shuffle la cual obtiene las tuplas del proceso map y determina que
nodo procesar estos datos dirigiendo la salida a una tarea reduce en especfico.
La siguiente figura ejemplifica un flujo de
datos en un proceso sencillo de MapReduce.

Hadoop Common
Son un conjunto de libreras que soportan varios subproyectos de Hadoop.
Adems de estos tres componentes principales de Hadoop, existen otros proyectos
relacionados los cuales son definidos a continuacin:

Avro
Cassandra
Chukwa
Flume
HBase Hive
cluster de Hadoop

Jaql
Lucene
Oozie
Pig
ZooKeeper

Analsis de Datos

Necesitaremos diferentes tcnicas de anlisis de datos


como las siguientes:
Asociacin
Minera de datos (Data Mining)
Agrupacin (Clustering)
Anlisis de texto (Text Analytics)

También podría gustarte