0% encontró este documento útil (0 votos)
9 vistas2 páginas

Big Data

El documento aborda la evolución histórica del Big Data, desde su necesidad inicial en la antigüedad hasta su actual manejo a gran escala, destacando la generación masiva de información diaria. Se explican las 3V's del Big Data (Volumen, Variedad y Velocidad) y su expansión a 9 V's, así como tecnologías clave como Hadoop, HDFS, MapReduce, Spark y Flink para el procesamiento de grandes conjuntos de datos. Además, se compara MapReduce con bases de datos, resaltando sus diferencias en el procesamiento y gestión de datos.

Cargado por

Daniel López
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
9 vistas2 páginas

Big Data

El documento aborda la evolución histórica del Big Data, desde su necesidad inicial en la antigüedad hasta su actual manejo a gran escala, destacando la generación masiva de información diaria. Se explican las 3V's del Big Data (Volumen, Variedad y Velocidad) y su expansión a 9 V's, así como tecnologías clave como Hadoop, HDFS, MapReduce, Spark y Flink para el procesamiento de grandes conjuntos de datos. Además, se compara MapReduce con bases de datos, resaltando sus diferencias en el procesamiento y gestión de datos.

Cargado por

Daniel López
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

Historia

Históricamente, aproximadamente desde el año 15.000 A.C. se conoce que surge la necesidad
de cuantificar información por parte de agricultores o cazadores. Según Eric Schimdt quien fue
director de Google, en 2010 “Existía cinco exabytes de informacion creados desde el amanecer
de la civilización hasta el año 2003, pero esa es la cantidad de información generada
diariamente hasta la fecha.” A raíz de las grandes cantidades de información disponible y los
avances tecnológicos con el desarrollo de innumerables cantidades de aplicaciones y sistemas
de bases de datos manejados por las empresas es que se llega a denominar como “BIG DATA” a
la captura de estos. Estos pueden ser manejados de manera rápida y fácil una vez se adopta el
termino explicado.

3V´S a 3^2 Vs (Dimensions of Big Data)

Se conocen las 3V´S del Big Data como: Volumen, Variedad y Velocidad de los datos. Sin
embargo, con la evolución de los campos que abarcan hoy en día dentro del Big Data, se
reconocen 9 V´s importantes y más, es por ello por lo que se conoce como 3^2 V´s. Dentro de
estas se pueden mencionar: veracidad, valor, variabilidad y visión de los datos. Sus definiciones
respectivamente son; que tan acertada es la data, que tanto valor puede generar, que tanta
diferencia existe en la informacion recopilada y como puede ser usada para proceder en base a
los patrones identificados.

Hadoop, HDFS, MapReduce, Spark, and Flink

Hadoop fue desarollado por yahoo research, este es un marco de software el cual funciona
para el almacenamiento y procesamiento de grandes conjuntos de datos. Fue desarrollado
inicialmente por Doug Cutting y Mike Caffarella en 2006 como un subproyecto de Nutch, que
era un rastreador web. Hadoop está diseñado para manejar grandes cantidades de datos
dividiéndolos en fragmentos más pequeños y distribuyéndolos en un clúster de computadoras.
Consta de dos componentes principales: el Hadoop Distributed File System (HDFS) o Sistema de
Archivos Distribuido de Hadoop para el almacenamiento y uso del MapReduce para el
procesamiento. Hadoop se ha convertido en una herramienta popular para el procesamiento
de grandes conjuntos de datos y se utiliza ampliamente en diversas industrias.

Cabe resaltar que el HDFS fue diseñado para almacenar y manejar grandes cantidades de datos
en un clúster de computadoras. Divide archivos grandes en bloques más pequeños y los
distribuye en varios nodos del clúster. Esto permite el procesamiento paralelo de datos y
proporciona tolerancia a fallos en caso de fallos de nodos. HDFS es un componente clave del
ecosistema Hadoop y se utiliza ampliamente para almacenar y procesar grandes conjuntos de
datos.

Por otro lado, el MapReduce consiste en dos fases principales: la fase de mapeo (map) y la fase
de reducción (reduce). En la fase de mapeo, los datos se procesan en paralelo en varios nodos
del clúster. En la fase de reducción, los resultados de la fase de mapeo se combinan para
producir la salida final. MapReduce se utiliza ampliamente para el procesamiento de grandes
conjuntos de datos y se ha convertido en una herramienta popular para el análisis y
procesamiento de datos.

También contamos con Spark, que proporciona un marco unificado para el procesamiento de
datos, aprendizaje automático y procesamiento de gráficos. Está diseñado para ser más rápido
y flexible que MapReduce, que es otro sistema popular de computación distribuida. Spark
admite varios lenguajes de programación, incluidos Java, Scala, Python y R, y proporciona una
API de alto nivel para el procesamiento de datos. Se utiliza ampliamente en diversas industrias
para el procesamiento y análisis de grandes conjuntos de datos.

Finalmente, Flink proporciona un motor de procesamiento de datos en tiempo real que admite
tanto el procesamiento por lotes como el procesamiento en tiempo real. Está diseñado para
ser altamente escalable y tolerante a fallos, y ofrece una API de alto nivel para el
procesamiento de datos. Flink se utiliza ampliamente para el procesamiento de grandes
conjuntos de datos en diversas industrias, como finanzas, telecomunicaciones y comercio
electrónico.

Map Reduce Vs Data Bases

Los MapReduce y las Bases De Datos son dos tecnologías diferentes que se utilizan para
procesar y gestionar grandes cantidades de datos. MapReduce es un modelo de programación
y un marco de procesamiento para la computación distribuida en conjuntos de datos grandes,
mientras que las bases de datos son sistemas de software diseñados para almacenar, gestionar
y recuperar datos.

Por otro lado, las bases de datos están diseñadas para almacenar, gestionar y recuperar datos.
Proporcionan una forma estructurada de organizar datos y permiten a los usuarios realizar
consultas y manipular datos mediante una variedad de herramientas y lenguajes. Las bases de
datos pueden ser relacionales o no relacionales, y se pueden utilizar en una amplia gama de
aplicaciones empresariales y dedicadas a la atención médica.

https://www.virtualpro.co/editoriales/20190101-ed.pdf

https://www.researchgate.net/publication/
357649275_The_Journey_of_Big_Data_3_V's_to_3_2_V's

También podría gustarte