0% encontró este documento útil (0 votos)
42 vistas26 páginas

Big Data 1

Big data se utiliza para maximizar la eficiencia y aumentar los ingresos en procesos empresariales. Existen plataformas como Oracle que absorben datos de cualquier tamaño para aplicaciones en cualquier entorno. Big data incluye tecnologías como Hadoop para procesar grandes volúmenes de datos distribuidos.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PPTX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
42 vistas26 páginas

Big Data 1

Big data se utiliza para maximizar la eficiencia y aumentar los ingresos en procesos empresariales. Existen plataformas como Oracle que absorben datos de cualquier tamaño para aplicaciones en cualquier entorno. Big data incluye tecnologías como Hadoop para procesar grandes volúmenes de datos distribuidos.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PPTX, PDF, TXT o lee en línea desde Scribd

B IG D A TA

BIG DATA
• BIG DATA SE UTILIZA PARA MAXIMIZAR LA EFICIENCIA Y AUMENTAR LOS INGRESOS EN LOS PROCESOS DE
FABRICACIÓN, VENTAS, RRHH, EXPERIENCIA DEL CLIENTE, ENTRE OTROS.

• EXISTEN PLATAFORMAS COMO ORACLE QUE DENTRO DE LA ADMINISTRACIÓN DE DATOS ABSORBEN


DATOS DE CUALQUIER TAMAÑO PARA CUALQUIER TIPO DE APLICACIÓN EN CUALQUIER TIPO DE ENTORNO.

• EL RESULTADO ES LA COMBINACIÓN COHESIONADA DE ESCALABILIDAD Y EFICIENCIA CON COMPONENTES


DE BIG DATA CON EL FIN DE OPTIMIZAR LA INFRAESTRUCTURA SUBYACENTE.
TECNOLOGÍAS DE BIG DATA: INTEGRACIÓN

• INTEGRACIÓN DE BIG DATA: PROPORCIONA TODOS LOS DISTINTOS TIPOS DE DATOS A LA EMPRESAS, YA
SEAN DATOS EN REPOSO O EN MOVIMIENTO Y DE CARÁCTER INTERNO O EXTERNO.

• LA INTEGRACIÓN SE ENCARGA DE ASIMILAR, ADMINISTRAR E IMPLEMENTARLAS PARA LAS NECESIDADES


DE SERVICIO DE LA EMPRESA. (CAPACIDADES DE TRANSMISIÓN DE DATOS EN TIEMPO REAL, CREACIÓN DE
APLICACIONES DE PROCESAMIENTO DE FLUJO DE EVENTOS EN TIEMPO REAL Y OBTENCIÓN DE
INFORMACIÓN BASADA EN DATOS).
TECNOLOGIAS DE BIG DATA: ADMINISTRACIÓN

• ADMINISTRACIÓN DE BIG DATA: MAXIMIZA LOS RECURSOS PARA ORGANIZACIONES DE TODOS LOS
TAMAÑOS PARA OBTENER MAYOR VALOR DE LOS DATOS Y PROCESOS ORGANIZATIVOS. (AMPLIACIÓN
ELÁSTICA, RENDIMIENTO DE CONSULTA RÁPIDO, ANÁLISIS Y FILTRO DE LOS DATOS DONDE RESIDEN,
SERVICIO AUTOMATIZADO, SERVICIOS EN LA NUBE).

• LOS LAGOS DE DATOS Y LABORATORIOS DE DATOS BASADOS EN LA NUBE PROPORCIONAN


CONFIGURACIONES FLEXIBLES PARA SATISFACER LAS NECESIDADES DE LA CARGA DE TRABAJO Y LA
ESCALABILIDAD RÁPIDA.
TECNOLOGÍAS DE BIG DATA: ANÁLISIS

• ANÁLISIS DE BIG DATA: APRENDIZAJE AUTOMÁTICO NECESARIOS PARA LOGRAR LOS OBJETIVOS
COMERCIALES EN SOLUCIONES ESCALABLES. (PREGUNTAR SOBRE CUALQUIER TIPO DE DATOS EN
CUALQUIER ENTORNO O DISPOSITIVO; MANEJO DE LAS CARGAS DE TRABAJO GRÁFICAS, ESPACIALES DE
PROCESAMIENTO DE BASES DE DATOS COMO NOSQL; MACHINE LEARNING).

• DESDE VISUALIZACIONES SIMPLES COMO DE POTENTES ALGORITMOS DE APRENDIZAJE AUTOMÁTICO.


INTRODUCCIÓN A LA ARQUITECTURA “BIG DATA”

• LA METODOLOGÍA TRADICIONAL CONOCIDA COMO ETL (EXTRACTION TRANSFORMATION AND LOAD)


CAPTURA LA DATA PROVENIENTE DE BASES DE DATOS RELACIONALES COMO XML PARA LUEGO SER
ENVIADA A UN ÁREA INTERMEDIA PARA EL PROCESO DE TRANSFORMACIÓN EN BASE A UNA SERIE DE
REGLAS; POSTERIORMENTE LOS DATOS SE CARGAN EN UNA BODEGA Y SON USADOS PARA ANALÍTICA.

• LA TECNOLOGÍA ELT NO ES ÓPTIMA PARA EL ANÁLISIS DE DATOS SEMIESTRUCTURADOS O NO


ESTRUCTURADOS POR LO QUE LA TECNOLOGÍA ELT (EXTRACTION, LOAD AND TRANSFORMATION) ES UNA
MEJOR ALTERNATIVA.
PROCESO DE ELT
• SE EXTRAE TODA LA DATA ESTRUCTURADA Y NO ESTRUCTURADA
• SE CARGAN A UN REPOSITORIO DE DATOS (LAGO DE DATOS) DONDE SE REALIZAN LAS
TRANSFORMACIONES

• EL LAGO DE DATOS PERMITE APROVECHAR EL USO DEL PROCESAMIENTO DISTRIBUIDO PARA ACELERAR
LAS TRANSFORMACIONES.

• EL RESULTADO DE LA TRANSFORMACIÓN DE USA EN ANALÍTICA.


DATA WAREHOUSE VS DATA LAKE

• DATA WAREHOUSE: BODEGA DE DATOS, ALMACENA DATOS PREVIAMENTE YA PROCESADOS.


• DATA LAKE: LAGO DE DATOS, ALMACENA LOS DATOS CRUDOS, SIN PROCESAMIENTO ANTERIOR.

• EN EL LAGO DE DATOS NO SE REQUIERE UNA ESTRUCTURA, ES SENCILLO ACCEDER Y REALIZAR CAMBIOS.


• LA BODEGA DE DATOS ES MAS COSTOSA DE MANIPULAR, PERO ES MÁS FÁCIL DE DESCIFRAR.
GRUPOS DE BIG DATA
• ARQUITECTURA POR LOTES: COLECCIÓN DE DATOS QUE HAN SIDO AGRUPADOS EN UN INTERVALO DE
TIEMPO ESPECIFICO.

• ARQUITECTURA EN TIEMPO REAL: ABORDAN DATA CONTINUA, CON POCA LATENCIA.

• EXISTEN ARQUITECTURAS INTERMEDIAS EN EL ESPECTRO COMO LOS MICRO BATCHES, QUE IMPLICAN
USAR INGESTA POR LOTES EN INTERVALOS DE TIEMPO PEQUEÑOS.
PROCESAMIENTO POR LOTES

• ADECUADO PARA MANEJAR GRANDES VOLÚMENES DE DATOS O AQUELLOS PROVENIENTES DE SISTEMAS


INFORMÁTICOS HEREDADOS DONDE NO ES POSIBLE OBTENER DATOS EN TIEMPO REAL.

• REQUIERE CARGAR DATOS POR LOTES A UN LAGO DE DATOS PARA SU POSTERIOR PROCESAMIENTO.
PROCESAMIENTO POR STREAMING (TIEMPO REAL)

• FUNCIONA EFICIENTEMENTE EN CONTEXTOS DE FLUJOS CONSTANTES DE DATOS DONDE SE REQUIERE


ANÁLISIS Y TOMA DE DECISIONES RÁPIDAMENTE.

• POSEEN UNA ARQUITECTURA ORIENTADA A MANEJAR EVENTOS INDIVIDUALMENTE, TAL QUE SE PROCEDA
A PROCESAR LA DATA TAN PRONTO SE GENERE EL EVENTO.
CUANDO ES EFICIENTE EL USO DEL BIG DATA

• ES USUALMENTE UTILIZADO CUANDO SE HABLA EN TÉRMINOS DE PETABYTES Y EXABYTES DE DATOS

• GIGABYTE: 10^9
• TERABYTE: 10^12
• PETABYTE: 10^15
• EXABYTE: 10^18
• LAS BASES DE DATOS CONVENCIONALES SON UNA PARTE IMPORTANTE Y RELEVANTE PARA UNA SOLUCIÓN
ANALÍTICA.
TIPOS DE DATOS
• WEB AND SOCIAL MEDIA: INFORMACIÓN QUE ES OBTENIDA DE LAS REDES SOCIALES.
• BIOMETRICS: HUELLAS DIGITALES, ESCANEOS, RECONOCIMIENTO FACIAL, GENÉTICA, ...
• MACHINE TO MACHINE: TECNOLOGÍAS QUE PERMITEN CONECTARSE A OTROS DISPOSITIVOS.
• HUMAN GENERATED: GENERADO POR LAS PERSONAS A TRAVÉS DE LLAMADAS, CORREOS, DOCUMENTOS,

• BIG TRANSACTION DATA: REGISTROS DE FACTURACIÓN Y RELACIONADOS CON TELECOMUNICACIONES.


COMPONENTES DE UNA PLATAFORMA BIG DATA

• PLATAFORMAS DE CÓDIGO ABIERTO (HADOOP) EL CUAL CONSISTE EN DIVIDIR EN DOS TAREAS (MAPER –
REDUCER) PARA MANIPULAR LOS DATOS DISTRIBUIDOS A NODOS DE UN CLÚSTER LOGRANDO UN ALTO
PARALELISMO EN EL PROCESAMIENTO.

• HADOOP SE COMPONE DE TRES PIEZAS: 1. HADOOP DISTRIBUTED FILE SYSTEM (HDFS) 2. HADOOP
MAPREDUCE Y HADOOP COMMON.
HDFS
• LOS DATOS EN EL CLUSTER DE HADOOP SON DIVIDIDOS EN PEQUEÑAS PIEZAS LLAMADAS BLOQUES Y
DISTRIBUIDAS A TRAVÉS DEL CLUSTER

• LAS FUNCIONES MAP Y REDUCE PUEDEN SER EJECUTADS EN PEQUEÑOS SUBCONJUNTOS


• SE PROVEE LA ESCALABILIDAD NECESARIA PARA EL PROCESAMIENTO DE GRANDES VOLÚMENES
• CADA BLOQUE ES ALMACENADO TRES VECES Y ALMENOS UN BLOQUE SE ALMACENA EN UN DIFERENTE
RACK PARA LOGRAR REDUNDANCIA
HADOOP MAPREDUCE
• ES EL NUCLEO DE HADOOP.
• SE REFIERE A DOS PROCESOS SEPARADOS QUE HADOOP EJECUTA: 1. MAP 2. REDUCE
• MAP TOMA UN CONJUNTO DE DATOS, LO CONVIERTE EN OTRO CONJUNTO DONDE LOS ELEMENTOS INDIVIDUALES
SON SEPARADOS EN TUPLAS.

• REDUCE OBTIENE LA SALIDA DE MAP COMO DATOS DE ENTRADA Y COMBINA LAS TUPLAS EN UN CONJUNTO MÁS
PEQUEÑO DE LAS MISMAS.

• UNA FASE INTERMEDIA ES L DENOMINADA SHUFFLE, LA CUAL OBTIENE LAS TUPLS DEL PROCESO MAP Y DETERMINA
QUE NODO PROCESARÁ ESTOS DATOS DIRIGIENDO LA SALIDA A UNA TAREA REDUCE EN ESPECIFICO.
HADOOP COMMON
• ES UN CONJUNTO DE LIBRERÍAS QUE SOPORTAN VARIOS SUBPROYECTOS DE HADOOP.
• ADEMÁS DE ESTOS TRES COMPONENTES EXISTEN OTROS PROYECTOS RELACIONADOS
• ES UN SERVICIO QUE DA ACCESO A LOS SISTEMAS DE ARCHIVOS SOPORTADOS POR HADOOP, EL SOFTWARE
CONTIENE LOS ARCHIVOS CON EXTENSIÓN .JAR Y LOS SCRIPTS NECESARIOS PAR EJECUTAR LA HERRAMIENTA, EL
PAQUETE TAMBIÉN PROPORCIONA CÓDIGO FUENTE, DOCUMENTACIÓN PROYECTOS DE LA COMUNIDAD.

• SCRIPT. DOCUMENTO QUE CONTIENE INSTRUCCIONES ESCRITAS EN CÓDIGO DE PROGRAMACIÓN.


• JAQL: LENGUAJE FUNCIONAL Y DECLARTIVO QUE PERMITE
LA EXPLOTACIÓN DE DATOS EN FORMATO JSON DISEÑADO
OTROS PROYECTOS PARA PROCESAR GRANDES VOLÚMENES DE
INFORMACIÓN.

• AVRO: PROYECTO DE APACHE QUE PROVEE SERVICIOS DE • LUCENE: LIBRERIAS PARA INDEXACIÓN Y BUSQUEDA DE
SERIALIZACIÓN. TEXTO.

• CASSANDA: PERMITE GRANDES VOLÚMENES DE DATOS EN • OOZIE: SIMPLIFIA LOS FLUJOS DE TRABAJO Y LA
FORMA DISTRIBUIDA. COORDINACIÓN ENTRE CDA UNO DE LOS PROCESOS.
• CHUKWA: COLECCIÓN Y ANÁLISIS A GRAN ESCAL DE “LOGS” • PIG: EMBIENTE DE EJECUCIÓN DE PROGRAMAS SIMILAR A
• FLUME: DIRIGE LOS DATOS DE UNA FUENTE HCUA LGUNA JAVA Y SU APLICCIÓN.
OTRA LOCLIDAD (MBIENTE DE HADOOP).
• ZOOKEEPER: PUEDE CREAR UN ARCHIVO QUE SE
• HBASE: BASE DE DATOS COLUMNAR QUE SE EJECUTA EN PERSISTE EN MEMORIA DE LOS SERVIDORES ZOOKEEPER,
HDFS.
ES UN SERVIDOS QUE PUEDE SER CONFIGURADO PARA
• HIVE: INFRAESTRUCTURA DE DATA WAREHOUSE. VIGILAR UN ZNODE EN PARTICULAR.
BIG DATA

• ES TODO UN ECOSISTEMA DE PROYECTOS QUE EN CONJUNTO PERMITEN SIMPLIFICAR, ADMINISTRAR,


COORDINAR Y ANALIZAR GRANDES VOLÚMENES DE INFORMACIÓN.
LINKS

• HTTPS://WWW.ORACLE.COM/CO/BIG-DATA/
• HTTPS://WWW.PANDAID.COM/BIG-DATA-PROCESOS-EN-TIEMPO-REAL/
• HTTPS://WWW.IBM.COM/DEVELOPERWORKS/SSA/LOCAL/IM/QUE-ES-BIG-DATA/INDEX.HTML

También podría gustarte