Big Data

El documento aborda la evolución histórica del Big Data, desde su necesidad inicial en la antigüedad hasta su actual manejo a gran escala, destacando la generación masiva de información diaria. Se explican las 3V's del Big Data (Volumen, Variedad y Velocidad) y su expansión a 9 V's, así como tecnologías clave como Hadoop, HDFS, MapReduce, Spark y Flink para el procesamiento de grandes conjuntos de datos. Además, se compara MapReduce con bases de datos, resaltando sus diferencias en el procesamiento y gestión de datos.

Cargado por

Daniel López

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

9 vistas2 páginas

Big Data

Cargado por

Daniel López

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

Historia

Históricamente, aproximadamente desde el año 15.000 A.C. se conoce que surge la necesidad
de cuantificar información por parte de agricultores o cazadores. Según Eric Schimdt quien fue
director de Google, en 2010 “Existía cinco exabytes de informacion creados desde el amanecer
de la civilización hasta el año 2003, pero esa es la cantidad de información generada
diariamente hasta la fecha.” A raíz de las grandes cantidades de información disponible y los
avances tecnológicos con el desarrollo de innumerables cantidades de aplicaciones y sistemas
de bases de datos manejados por las empresas es que se llega a denominar como “BIG DATA” a
la captura de estos. Estos pueden ser manejados de manera rápida y fácil una vez se adopta el
termino explicado.

3V´S a 3^2 Vs (Dimensions of Big Data)

Se conocen las 3V´S del Big Data como: Volumen, Variedad y Velocidad de los datos. Sin
embargo, con la evolución de los campos que abarcan hoy en día dentro del Big Data, se
reconocen 9 V´s importantes y más, es por ello por lo que se conoce como 3^2 V´s. Dentro de
estas se pueden mencionar: veracidad, valor, variabilidad y visión de los datos. Sus definiciones
respectivamente son; que tan acertada es la data, que tanto valor puede generar, que tanta
diferencia existe en la informacion recopilada y como puede ser usada para proceder en base a
los patrones identificados.

Hadoop, HDFS, MapReduce, Spark, and Flink

Hadoop fue desarollado por yahoo research, este es un marco de software el cual funciona
para el almacenamiento y procesamiento de grandes conjuntos de datos. Fue desarrollado
inicialmente por Doug Cutting y Mike Caffarella en 2006 como un subproyecto de Nutch, que
era un rastreador web. Hadoop está diseñado para manejar grandes cantidades de datos
dividiéndolos en fragmentos más pequeños y distribuyéndolos en un clúster de computadoras.
Consta de dos componentes principales: el Hadoop Distributed File System (HDFS) o Sistema de
Archivos Distribuido de Hadoop para el almacenamiento y uso del MapReduce para el
procesamiento. Hadoop se ha convertido en una herramienta popular para el procesamiento
de grandes conjuntos de datos y se utiliza ampliamente en diversas industrias.

Cabe resaltar que el HDFS fue diseñado para almacenar y manejar grandes cantidades de datos
en un clúster de computadoras. Divide archivos grandes en bloques más pequeños y los
distribuye en varios nodos del clúster. Esto permite el procesamiento paralelo de datos y
proporciona tolerancia a fallos en caso de fallos de nodos. HDFS es un componente clave del
ecosistema Hadoop y se utiliza ampliamente para almacenar y procesar grandes conjuntos de
datos.

Por otro lado, el MapReduce consiste en dos fases principales: la fase de mapeo (map) y la fase
de reducción (reduce). En la fase de mapeo, los datos se procesan en paralelo en varios nodos
del clúster. En la fase de reducción, los resultados de la fase de mapeo se combinan para
producir la salida final. MapReduce se utiliza ampliamente para el procesamiento de grandes
conjuntos de datos y se ha convertido en una herramienta popular para el análisis y
procesamiento de datos.

También contamos con Spark, que proporciona un marco unificado para el procesamiento de
datos, aprendizaje automático y procesamiento de gráficos. Está diseñado para ser más rápido
y flexible que MapReduce, que es otro sistema popular de computación distribuida. Spark
admite varios lenguajes de programación, incluidos Java, Scala, Python y R, y proporciona una
API de alto nivel para el procesamiento de datos. Se utiliza ampliamente en diversas industrias
para el procesamiento y análisis de grandes conjuntos de datos.

Finalmente, Flink proporciona un motor de procesamiento de datos en tiempo real que admite
tanto el procesamiento por lotes como el procesamiento en tiempo real. Está diseñado para
ser altamente escalable y tolerante a fallos, y ofrece una API de alto nivel para el
procesamiento de datos. Flink se utiliza ampliamente para el procesamiento de grandes
conjuntos de datos en diversas industrias, como finanzas, telecomunicaciones y comercio
electrónico.

Map Reduce Vs Data Bases

Los MapReduce y las Bases De Datos son dos tecnologías diferentes que se utilizan para
procesar y gestionar grandes cantidades de datos. MapReduce es un modelo de programación
y un marco de procesamiento para la computación distribuida en conjuntos de datos grandes,
mientras que las bases de datos son sistemas de software diseñados para almacenar, gestionar
y recuperar datos.

Por otro lado, las bases de datos están diseñadas para almacenar, gestionar y recuperar datos.
Proporcionan una forma estructurada de organizar datos y permiten a los usuarios realizar
consultas y manipular datos mediante una variedad de herramientas y lenguajes. Las bases de
datos pueden ser relacionales o no relacionales, y se pueden utilizar en una amplia gama de
aplicaciones empresariales y dedicadas a la atención médica.

https://www.virtualpro.co/editoriales/20190101-ed.pdf

https://www.researchgate.net/publication/
357649275_The_Journey_of_Big_Data_3_V's_to_3_2_V's

También podría gustarte

Herramientas Big Data: Python, Hadoop y Spark
Aún no hay calificaciones
Herramientas Big Data: Python, Hadoop y Spark
16 páginas
Big Data
Aún no hay calificaciones
Big Data
10 páginas
Fundamentos de Big Data y Hadoop
Aún no hay calificaciones
Fundamentos de Big Data y Hadoop
12 páginas
Big Data
Aún no hay calificaciones
Big Data
11 páginas
Big Data Aa1 Grupo N°1
Aún no hay calificaciones
Big Data Aa1 Grupo N°1
16 páginas
Big Data
Aún no hay calificaciones
Big Data
6 páginas
Spark para Dummies
Aún no hay calificaciones
Spark para Dummies
6 páginas
Documento 19
Aún no hay calificaciones
Documento 19
6 páginas
Aa1 Big Data
Aún no hay calificaciones
Aa1 Big Data
8 páginas
Herramientas y Éxitos en Big Data
Aún no hay calificaciones
Herramientas y Éxitos en Big Data
22 páginas
Exposicion - Big Data
Aún no hay calificaciones
Exposicion - Big Data
30 páginas
Características y Tipos de Big Data
100% (1)
Características y Tipos de Big Data
8 páginas
Introducción a Hadoop y Big Data
100% (2)
Introducción a Hadoop y Big Data
58 páginas
Big Data Final
Aún no hay calificaciones
Big Data Final
22 páginas
Introducción a Big Data Analityc
Aún no hay calificaciones
Introducción a Big Data Analityc
25 páginas
Características y Herramientas de Big Data
Aún no hay calificaciones
Características y Herramientas de Big Data
4 páginas
Todo
100% (1)
Todo
231 páginas
Clase 4 - Herramientas Big Data Nov 15
Aún no hay calificaciones
Clase 4 - Herramientas Big Data Nov 15
31 páginas
Tabares Hernandez 2014-Big Data Analytics FINAL-with-cover-page-v2
Aún no hay calificaciones
Tabares Hernandez 2014-Big Data Analytics FINAL-with-cover-page-v2
21 páginas
Big Data: Oportunidades y Retos
Aún no hay calificaciones
Big Data: Oportunidades y Retos
21 páginas
Introducción a Big Data y Hadoop
Aún no hay calificaciones
Introducción a Big Data y Hadoop
56 páginas
Arquitectura Big Data
50% (2)
Arquitectura Big Data
18 páginas
(22140146) Yerson Charca
Aún no hay calificaciones
(22140146) Yerson Charca
3 páginas
ADR - Big Data - v2020
Aún no hay calificaciones
ADR - Big Data - v2020
24 páginas
BIGDATA
Aún no hay calificaciones
BIGDATA
26 páginas
Big Data Algoritmos Tecnologia y Aplicaciones
Aún no hay calificaciones
Big Data Algoritmos Tecnologia y Aplicaciones
57 páginas
Introducción al Big Data y sus Tecnologías
Aún no hay calificaciones
Introducción al Big Data y sus Tecnologías
14 páginas
Big Data y Control de Procesos
Aún no hay calificaciones
Big Data y Control de Procesos
10 páginas
Tema 5 BDA
Aún no hay calificaciones
Tema 5 BDA
52 páginas
Evidencia 1 BIG DATA-2
Aún no hay calificaciones
Evidencia 1 BIG DATA-2
17 páginas
AA1 BigData
Aún no hay calificaciones
AA1 BigData
14 páginas
Herramientas de Big Data: MongoDB y Más
Aún no hay calificaciones
Herramientas de Big Data: MongoDB y Más
12 páginas
Módulo 4. Manejo de Datos Con Spark SQL: Introducción
Aún no hay calificaciones
Módulo 4. Manejo de Datos Con Spark SQL: Introducción
29 páginas
AA1. BIG DATA Aa1
Aún no hay calificaciones
AA1. BIG DATA Aa1
24 páginas
Curso de Big Data y Aplicaciones
Aún no hay calificaciones
Curso de Big Data y Aplicaciones
10 páginas
Evidencia 1 - Grupo 10
Aún no hay calificaciones
Evidencia 1 - Grupo 10
16 páginas
InteligenciaNegocios Ant B2 S
Aún no hay calificaciones
InteligenciaNegocios Ant B2 S
16 páginas
Big Data
Aún no hay calificaciones
Big Data
27 páginas
Big Data
Aún no hay calificaciones
Big Data
61 páginas
1M1 - Introducción
Aún no hay calificaciones
1M1 - Introducción
9 páginas
Big Data Analytics Oportunidades Retos PDF
Aún no hay calificaciones
Big Data Analytics Oportunidades Retos PDF
20 páginas
Las 4V S Del Big Data
100% (1)
Las 4V S Del Big Data
12 páginas
Ecosistema Hadoop y sus herramientas
Aún no hay calificaciones
Ecosistema Hadoop y sus herramientas
3 páginas
Metodología y Herramientas de Big Data
Aún no hay calificaciones
Metodología y Herramientas de Big Data
14 páginas
Evaluacion4 BigData
Aún no hay calificaciones
Evaluacion4 BigData
8 páginas
Big Data Grupo 7
Aún no hay calificaciones
Big Data Grupo 7
9 páginas
Aa1 Alvares Castillo Orosco Hurtado
Aún no hay calificaciones
Aa1 Alvares Castillo Orosco Hurtado
12 páginas
Introducción a Big Data y sus Tipos
Aún no hay calificaciones
Introducción a Big Data y sus Tipos
21 páginas
Minería de Big Data en Gestión Ambiental
Aún no hay calificaciones
Minería de Big Data en Gestión Ambiental
3 páginas
Técnicas y herramientas de Big Data
Aún no hay calificaciones
Técnicas y herramientas de Big Data
22 páginas
Big Data y Tecnologías NoSQL en MBA
Aún no hay calificaciones
Big Data y Tecnologías NoSQL en MBA
25 páginas
Arquitectura Spark en Big Data
Aún no hay calificaciones
Arquitectura Spark en Big Data
39 páginas
Guía Completa de Hadoop y MapReduce
Aún no hay calificaciones
Guía Completa de Hadoop y MapReduce
31 páginas
Aaaaaaaaaaaaaaaaaaaaaaaaa
Aún no hay calificaciones
Aaaaaaaaaaaaaaaaaaaaaaaaa
6 páginas
4ta PC Topicos
Aún no hay calificaciones
4ta PC Topicos
23 páginas
Guia IngenieriaProcesadoMasivoDatos
Aún no hay calificaciones
Guia IngenieriaProcesadoMasivoDatos
10 páginas
Guía de Instalación y Uso de Hadoop
Aún no hay calificaciones
Guía de Instalación y Uso de Hadoop
18 páginas
2 - Adquisicion de Datos
Aún no hay calificaciones
2 - Adquisicion de Datos
7 páginas
Unidad I - Programación de Big Data
Aún no hay calificaciones
Unidad I - Programación de Big Data
19 páginas
Proyecto de Trabajo de Investigación
Aún no hay calificaciones
Proyecto de Trabajo de Investigación
22 páginas
Macrodatos
Aún no hay calificaciones
Macrodatos
24 páginas
Factibilidad Big Data para La Favorita
Aún no hay calificaciones
Factibilidad Big Data para La Favorita
25 páginas
Distrib 03 Descomposicion - de - Tareas 2022
Aún no hay calificaciones
Distrib 03 Descomposicion - de - Tareas 2022
62 páginas
Apache Spark
Aún no hay calificaciones
Apache Spark
11 páginas
Fundamentos de Los Sistemas Gestores de Bases de Datos
Aún no hay calificaciones
Fundamentos de Los Sistemas Gestores de Bases de Datos
19 páginas
Manual Big Data
Aún no hay calificaciones
Manual Big Data
61 páginas
Contenido Semana 4
Aún no hay calificaciones
Contenido Semana 4
22 páginas
Introducción a Apache Hive y su uso
Aún no hay calificaciones
Introducción a Apache Hive y su uso
19 páginas
Introducción a Apache Spark
Aún no hay calificaciones
Introducción a Apache Spark
44 páginas
Big Data para Estrategias Comerciales
Aún no hay calificaciones
Big Data para Estrategias Comerciales
143 páginas
Clase 9 - Base de Datos y Big Data
Aún no hay calificaciones
Clase 9 - Base de Datos y Big Data
28 páginas
Fundamentos de Apache Hadoop y MapReduce
Aún no hay calificaciones
Fundamentos de Apache Hadoop y MapReduce
27 páginas
Historias de Developers - Alberto de Vega Luna
Aún no hay calificaciones
Historias de Developers - Alberto de Vega Luna
380 páginas
Ecosistema Hadoop
Aún no hay calificaciones
Ecosistema Hadoop
38 páginas
Taller Big Data
100% (1)
Taller Big Data
6 páginas
Teoria M4
Aún no hay calificaciones
Teoria M4
41 páginas
Taller MapReduce
Aún no hay calificaciones
Taller MapReduce
8 páginas
Cuadro Comparativo - Herramientas Big Data para Tu Empresa
100% (2)
Cuadro Comparativo - Herramientas Big Data para Tu Empresa
10 páginas
Herramientas y Pruebas de Rendimiento en Kafka
Aún no hay calificaciones
Herramientas y Pruebas de Rendimiento en Kafka
4 páginas
Introducción A BigData
Aún no hay calificaciones
Introducción A BigData
92 páginas
Algoritmos Por Aditya Y. Bhargava PDF
Aún no hay calificaciones
Algoritmos Por Aditya Y. Bhargava PDF
145 páginas
Zaharia en Es
Aún no hay calificaciones
Zaharia en Es
7 páginas
Herramientas Clave en el Ciclo de Big Data
Aún no hay calificaciones
Herramientas Clave en el Ciclo de Big Data
15 páginas
Plataforma Big Data para Anemia en AL
Aún no hay calificaciones
Plataforma Big Data para Anemia en AL
76 páginas
Una Comparación de Rendimiento Entre Oracle y Mongodb
Aún no hay calificaciones
Una Comparación de Rendimiento Entre Oracle y Mongodb
21 páginas