Historia
Históricamente, aproximadamente desde el año 15.000 A.C. se conoce que surge la necesidad
de cuantificar información por parte de agricultores o cazadores. Según Eric Schimdt quien fue
director de Google, en 2010 “Existía cinco exabytes de informacion creados desde el amanecer
de la civilización hasta el año 2003, pero esa es la cantidad de información generada
diariamente hasta la fecha.” A raíz de las grandes cantidades de información disponible y los
avances tecnológicos con el desarrollo de innumerables cantidades de aplicaciones y sistemas
de bases de datos manejados por las empresas es que se llega a denominar como “BIG DATA” a
la captura de estos. Estos pueden ser manejados de manera rápida y fácil una vez se adopta el
termino explicado.
3V´S a 3^2 Vs (Dimensions of Big Data)
Se conocen las 3V´S del Big Data como: Volumen, Variedad y Velocidad de los datos. Sin
embargo, con la evolución de los campos que abarcan hoy en día dentro del Big Data, se
reconocen 9 V´s importantes y más, es por ello por lo que se conoce como 3^2 V´s. Dentro de
estas se pueden mencionar: veracidad, valor, variabilidad y visión de los datos. Sus definiciones
respectivamente son; que tan acertada es la data, que tanto valor puede generar, que tanta
diferencia existe en la informacion recopilada y como puede ser usada para proceder en base a
los patrones identificados.
Hadoop, HDFS, MapReduce, Spark, and Flink
Hadoop fue desarollado por yahoo research, este es un marco de software el cual funciona
para el almacenamiento y procesamiento de grandes conjuntos de datos. Fue desarrollado
inicialmente por Doug Cutting y Mike Caffarella en 2006 como un subproyecto de Nutch, que
era un rastreador web. Hadoop está diseñado para manejar grandes cantidades de datos
dividiéndolos en fragmentos más pequeños y distribuyéndolos en un clúster de computadoras.
Consta de dos componentes principales: el Hadoop Distributed File System (HDFS) o Sistema de
Archivos Distribuido de Hadoop para el almacenamiento y uso del MapReduce para el
procesamiento. Hadoop se ha convertido en una herramienta popular para el procesamiento
de grandes conjuntos de datos y se utiliza ampliamente en diversas industrias.
Cabe resaltar que el HDFS fue diseñado para almacenar y manejar grandes cantidades de datos
en un clúster de computadoras. Divide archivos grandes en bloques más pequeños y los
distribuye en varios nodos del clúster. Esto permite el procesamiento paralelo de datos y
proporciona tolerancia a fallos en caso de fallos de nodos. HDFS es un componente clave del
ecosistema Hadoop y se utiliza ampliamente para almacenar y procesar grandes conjuntos de
datos.
Por otro lado, el MapReduce consiste en dos fases principales: la fase de mapeo (map) y la fase
de reducción (reduce). En la fase de mapeo, los datos se procesan en paralelo en varios nodos
del clúster. En la fase de reducción, los resultados de la fase de mapeo se combinan para
producir la salida final. MapReduce se utiliza ampliamente para el procesamiento de grandes
conjuntos de datos y se ha convertido en una herramienta popular para el análisis y
procesamiento de datos.
También contamos con Spark, que proporciona un marco unificado para el procesamiento de
datos, aprendizaje automático y procesamiento de gráficos. Está diseñado para ser más rápido
y flexible que MapReduce, que es otro sistema popular de computación distribuida. Spark
admite varios lenguajes de programación, incluidos Java, Scala, Python y R, y proporciona una
API de alto nivel para el procesamiento de datos. Se utiliza ampliamente en diversas industrias
para el procesamiento y análisis de grandes conjuntos de datos.
Finalmente, Flink proporciona un motor de procesamiento de datos en tiempo real que admite
tanto el procesamiento por lotes como el procesamiento en tiempo real. Está diseñado para
ser altamente escalable y tolerante a fallos, y ofrece una API de alto nivel para el
procesamiento de datos. Flink se utiliza ampliamente para el procesamiento de grandes
conjuntos de datos en diversas industrias, como finanzas, telecomunicaciones y comercio
electrónico.
Map Reduce Vs Data Bases
Los MapReduce y las Bases De Datos son dos tecnologías diferentes que se utilizan para
procesar y gestionar grandes cantidades de datos. MapReduce es un modelo de programación
y un marco de procesamiento para la computación distribuida en conjuntos de datos grandes,
mientras que las bases de datos son sistemas de software diseñados para almacenar, gestionar
y recuperar datos.
Por otro lado, las bases de datos están diseñadas para almacenar, gestionar y recuperar datos.
Proporcionan una forma estructurada de organizar datos y permiten a los usuarios realizar
consultas y manipular datos mediante una variedad de herramientas y lenguajes. Las bases de
datos pueden ser relacionales o no relacionales, y se pueden utilizar en una amplia gama de
aplicaciones empresariales y dedicadas a la atención médica.
https://www.virtualpro.co/editoriales/20190101-ed.pdf
https://www.researchgate.net/publication/
357649275_The_Journey_of_Big_Data_3_V's_to_3_2_V's