Universidad de Los Andes
Facultad de Ingeniera
Escuela de Sistemas
Investigacin de Operaciones
Mrida, Edo. Mrida
Integrantes:
Carlos Nieves 20434966
Isamar Bentez 20593900
Ulises Silva 20708702
Betania Medina
Juancarlos Salcedo
Ctedra: Estocstica 4
Prof.: Framklin Dvila
Big data
El Big Data o Datos masivos es un concepto que hace referencia a
la acumulacin y manipulacin de grandes cantidades de datos y a los
procedimientos usados para encontrar patrones repetitivos dentro de esos
datos.
Estas grandes cantidades de datos son de tal magnitud que superan la
capacidad del software habitual para ser capturados, administrados y
procesados en un tiempo razonable.
Cunto es demasiada informacin
de manera que sea elegible
para ser procesada y analizada
utilizando Big Data?
Big Data no se refiere a alguna cantidad en especfico, ya
que es usualmente utilizado cuando se habla en trminos de
petabytes y exabytes de datos.
Gigabyte = 109 = 1,000,000,000
Terabyte = 1012 = 1,000,000,000,000
Petabyte = 1015 = 1,000,000,000,000,000
Exabyte = 1018 = 1,000,000,000,000,000,000
CUANDO USAR BIG DATA?
Cuando las aplicaciones que analizan
datos requieren que la
velocidad de respuesta sea lo demasiado rpida para lograr
obtener la informacin correcta en el momento preciso. Estas son
las caractersticas principales de una oportunidad para Big Data.
Usos de big data
La tendencia a manipular enormes cantidades de datos se debe a
la necesidad en muchos casos de incluir dicha informacin para la
creacin de informes estadsticos y modelos predictivos utilizados
en diversas materias, como los anlisis de negocio, publicitarios,
los datos de enfermedades infecciosas, el espionaje y seguimiento
a la poblacin o la lucha contra el crimen organizado.
Tecnologas usadas
en el mundo
del Big data
Entre las mas usadas se encuentran:
Otros:
NoSQL,
Cassandra
Business Intelligence
Machine Learning
Tipos de Big Data
Datos estructurados (Unstructured Data):
Datos no estructurados (Unstructured Data)
Datos semiestructurados (Semistructured
Data):
Qu tipos de
datos debo explorar?
Muchas organizaciones se enfrentan a la
pregunta sobre qu informacin es la
que se debe analizar?, sin embargo, el
cuestionamiento debera estar enfocado
hacia qu problema es el que se est
tratando de resolver?
1. Redes Sociales y contenido Web
2. Mquina a mquina (M2M)
3. Transacciones
4. Biomtricos
5. Generados por las personas
Componentes
de una Plataforma
Big Data?
Hadoo esta
compuesto en 3 Piezas
Hadoop Distributed File System(HDFS)
Los datos en el clster de Hadoop son divididos en pequeas piezas llamadas bloques y distribuidas a
travs del clster; de esta manera, las funciones map y reduce pueden ser ejecutadas en pequeos
subconjuntos y esto provee de la escalabilidad
necesaria para el procesamiento de grandes
volmenes.
La siguiente figura ejemplifica como los bloques
de datos son escritos hacia HDFS. Observe que
cada bloque es almacenado tres veces y al
menos un bloque se almacena en un diferente
rack para lograr redundancia.
Hadoop MapReduce
Es el ncleo de Hadoop, ell trmino MapReduce en realidad se refiere a dos procesos separados que
Hadoop ejecuta. El primer proceso map, el cual toma un conjunto de datos y lo convierte en otro conjunto,
donde los elementos individuales son separados en tuplas (pares de llave/valor). El proceso reduce obtiene
la salida de map como datos de entrada y combina las tuplas en un conjunto ms pequeo de las mismas.
Una fase intermedia es la denominada Shuffle la cual obtiene las tuplas del proceso map y determina que
nodo procesar estos datos dirigiendo la salida a una tarea reduce en especfico.
La siguiente figura ejemplifica un flujo de
datos en un proceso sencillo de MapReduce.
Hadoop Common
Son un conjunto de libreras que soportan varios subproyectos de Hadoop.
Adems de estos tres componentes principales de Hadoop, existen otros proyectos
relacionados los cuales son definidos a continuacin:
Avro
Cassandra
Chukwa
Flume
HBase Hive
cluster de Hadoop
Jaql
Lucene
Oozie
Pig
ZooKeeper
Analsis de Datos
Necesitaremos diferentes tcnicas de anlisis de datos
como las siguientes:
Asociacin
Minera de datos (Data Mining)
Agrupacin (Clustering)
Anlisis de texto (Text Analytics)