Introducción al Big Data
La introducción de Big Data, macrodatos o datos masivos ha
transformado los procesos organizacionales, institucionales y
educativos de recopilación, procesamiento, limpieza,
almacenamiento, análisis, interpretación y resultados de los datos.
Elementos fundamentales en el correcto ejercicio de la Estadística,
que culmina a su vez con la visualización de los datos.
Requieren de la intervención y experiencia de un estadístico y/o de
un especialista en ciencia de datos.
Introducción al Big Data
Con el paso de los años, el
crecimiento exponencial de la
cantidad y la complejidad de los
datos generados y almacenados
en el mundo digital ha originado
que el concepto de Big Data
represente la respuesta a los
desafíos y oportunidades que se
presentan en el entorno de datos
masivos.
Imagen recopilada de https://robertojasinski.com/que-es-la-big-data-como-funciona/
Introducción al Big Data
La creciente necesidad de
desentrañar la información
contenida en los grandes
volúmenes de información lleva
a la generación de conocimiento
del acontecer diario, de las
decisiones tomadas y
justificadas, para el desarrollo
de la sociedad.
Imagen recopilada de https://thefoodtech.com/marketing/la-funcion-del-big-data-en-las-
empresas/
Introducción al Big Data
En su núcleo, Big Data se refiere a conjuntos de datos que son tan
grandes o complejos que las herramientas de procesamiento de
datos tradicionales no son capaces de manejarlos de manera
eficiente.
Imagen recopilada de https://www.inabaweb.com/que-es-big-data-y-como-funciona/
Introducción al Big Data
El manejo de los datos exige
capacidad, habilidad, conocimiento,
destreza y una adecuada formación
para la implementación de
estrategias analíticas para filtrarlos
y analizarlos, optimizando los
tiempos de respuesta y tiempos de
vida de los datos, ya que la
Imagen recopilada de
https://revistaempresarial.com/tecnologia/tendencias/beneficios-y-
usos-del-big-data/
información puede perder su valor
en periodos muy cortos o muy
largos, llegando al punto de la
obsolescencia.
Funcionamiento del Big Data
Cuando hablamos de Big Data hacemos referencia a grandes
volúmenes de datos; sin embargo, no es tan solo la cantidad de
datos sino el uso correcto que se le da a la información junto con
las herramientas tecnológicas empleadas para potenciar los
resultados, con base en procesos analíticos, fuentes confiables y
un equipo de trabajo adecuado.
Recopilado de https://www.mailjet.com/es/blog/marketing/big-data/
Funcionamiento del Big Data
Mediante Big Data se tiene acceso más información, lo que, a su
vez beneficia en la comprensión, entendimiento y solución del
problema.
En la actualidad se pueden automatizar la mayoría de los análisis
de datos, empleando herramientas de programación en R, Python,
Julia, MatLab, por mencionar algunos que permiten el
procesamiento de millones de datos, simulaciones y/o
remuestreos para obtener resultados óptimos.
Recopilado de https://www.mailjet.com/es/blog/marketing/big-data/
Funcionamiento del Big Data
En este sentido, las herramientas analíticas, el aprendizaje
automático, la inteligencia artificial y la ciencia de datos son
fundamentales en el Big Data; junto con esto, es necesario con
una infraestructura estable que cumpla con las características
mínimas para el procesamiento rápido de grandes volúmenes de
datos; si bien es cierto que un buen equipo, un servidor o clústeres
pueden funcionar o ayudar al análisis inmediato de los datos,
éstos equipos se pueden sobrecargar, por lo que sería adecuado
varios servidores, o por lo menos una configuración adecuada de
los núcleos de un servidor.
Recopilado de https://www.mailjet.com/es/blog/marketing/big-data/
Funcionamiento del Big Data
Imagen recopilada de https://www.mailjet.com/es/blog/marketing/big-data/
Funcionamiento del Big Data
El Big Data emplea un complejo sistema para la correcta y
adecuada gestión de la información, con capacidad de
almacenamiento y procesamiento, lo cual también requiere de una
gran inversión tiempo-costo y en la medida que se requiera de
más herramientas y elementos analíticos mayor será la inversión.
El diseño del sistema y la estimación del presupuesto implican
tres aspectos determinantes:
Integración
Gestión
Análisis
Recopilado de https://www.mailjet.com/es/blog/marketing/big-data/
Funcionamiento del Big Data
Integración:
El Big Data normalmente procede de diversas fuentes y, puesto que se trata
de volúmenes enormes de información, hace falta descubrir estrategias y
tecnologías para poder recibir los datos de manera eficiente.
En algunos casos, decenas de petabytes (Unidad de almacenamiento de
información cuyo símbolo es PB, y equivale a 1015 bytes = 1,000’000,000’000,000 de bytes)
de información llegan al sistema de una empresa, por lo que integrar toda
esta información en un sistema es todo un reto. Es necesario recibir los
datos, procesarlos y formatearlos de la manera más adecuada para cada
empresa y, de tal forma que los clientes puedan entenderlos.
Recopilado de https://www.mailjet.com/es/blog/marketing/big-data/
Funcionamiento del Big Data
Gestión:
Los datos necesitan estar en algún lugar, y aquí es donde entran
en juego las soluciones de almacenamiento de datos. Estas
soluciones pueden estar en la nube, en las instalaciones de una
empresa o en ambas. También se puede elegir de qué forma
almacenar los datos, de modo que estén disponibles en tiempo
real o no. Cada vez más organizaciones y personas eligen una
solución en la nube para almacenar los datos, que les permite
poder tener acceso en cualquier momento y es compatible con su
infraestructura informática.
Recopilado de https://www.mailjet.com/es/blog/marketing/big-data/
Funcionamiento del Big Data
Análisis:
Tras recibir los datos y almacenarlos, el siguiente paso es el
análisis del Big Data. Los datos se analizan y utilizan para tomar
decisiones importantes, como definir la oferta de una
organización según las preferencias de los clientes. Cada
organización utilizará los datos con fines distintos para sacar el
mayor provecho posible y obtener una ventaja competitiva. Y es
que la inversión que el Big Data requiere no es una broma, por lo
que sus resultados deben generar valor y beneficios para los
clientes y para la propia organización.
Recopilado de https://www.mailjet.com/es/blog/marketing/big-data/
Funcionamiento del Big Data
La introducción de Big Data ha llevado a un cambio significativo en
la forma en que las organizaciones abordan el análisis de datos
y la toma de decisiones.
Con herramientas y tecnologías como el procesamiento
distribuido, el almacenamiento en la nube, el aprendizaje
automático y la inteligencia artificial, las organizaciones pueden
ahora extraer conocimientos significativos de grandes
volúmenes de datos de una manera que antes era impensable.
Funcionamiento del Big Data
Esto ha abierto nuevas oportunidades en áreas como la
personalización de productos y servicios, la optimización de
procesos empresariales, la detección de fraudes, la investigación
científica, entre otros. Sin embargo, también presenta desafíos en
términos de privacidad de datos, seguridad, ética y manejo
responsable de la información.
Funcionamiento del Big Data
La introducción de Big Data ha marcado un cambio radical en la
forma en que vivimos, trabajamos y tomamos decisiones en la era
digital; independientemente de la época o de la fuente de
información, Big Data siempre ha estado y estará presente, ya
sea con datos en la nube, internet, registros administrativos o
bases de datos de los sectores público, privado y social.
Lo importante a destacar es que el uso y aprovechamiento de
datos masivos es el futuro de la información, ya sean
estructurados, semiestructurados o no estructurados.
Funcionamiento del Big Data
Aspectos indispensables en la analítica del Big Data
1.- Al manejar grandes cantidades de datos, estos deben
provenir de fuentes de información confiables y actualizadas,
seguidos de un esquema de almacenamiento y acceso rápido y
eficiente para plantear soluciones de Big Data (Big Data Solutions)
bajo una gran variedad de componentes y tecnologías como:
Plataformas de almacenamiento distribuido, Bases de datos SQL y
NoSQL, Frameworks de procesamiento distribuido, Herramientas
de visualización de datos, Plataformas de streaming de datos,
Herramientas de machine learning y análisis predictivo y Servicios
en la nube, de los cuales se hablará más adelante.
Funcionamiento del Big Data
Continuar 20240214
Aspectos indispensables en la analítica del Big Data
2.- El filtrado de información; ya que la digitalización de los datos
dio origen a la generación de grandes volúmenes de información,
que requieren de medios eficientes para el flujo de los datos y su
almacenamiento, que permitan su procesamiento mediante
algoritmos, modelación y probabilidades; lo que implica en cada
caso de estudio, la recopilación, revisión, depuración y exclusión
de datos; identificando perfiles que aporten elementos estratégicos
para un mejor análisis.
Funcionamiento del Big Data
Aspectos indispensables en la analítica del Big Data
3.- Focalización de los datos, seguida del filtrado, ya que
dependiendo de las herramientas de Big Data de que se
dispongan será más viable el proceso de exclusión y análisis, con
el cuidado de omitir datos importantes, entre las herramientas más
utilizadas se encuentran: Hadoop, MongoDB, Elasticsearch,
Apache Spark, Apache Storm, Lenguaje R, Python, Julia, SQL,
NoSQL, Orange, por mencionar algunas.
Algunas de las herramientas están relacionadas con el
almacenamiento y otras con el manejo o manipulación de la
información.
Funcionamiento del Big Data
Aspectos indispensables en la analítica del Big Data
3.- Focalización
Actividad para el 2002204: Realizar una búsqueda general de las
siguientes herramientas de almacenamiento y manipulación de
datos para exponer de manera individual sobre:
Hadoop, MongoDB, Elasticsearch, Apache Spark, Apache Storm,
Lenguaje R, Python, Julia, SQL, NoSQL, Orange.
No más de una diapositiva por herramienta, pero pueden incluir
imágenes en otras diapositivas.
Funcionamiento del Big Data
Aspectos indispensables en la analítica del Big Data
4.- Obtener el mayor conocimiento posible de la información
seleccionada, de tal forma que se alcancen los mejores análisis
para el desarrollo institucional.
Funcionamiento del Big Data
Continuar 202402120
Aspectos indispensables en la analítica del Big Data
5.- Determinar la tecnología más adecuada y conveniente para
atender las necesidades institucionales, ya que abarcan un amplio
espectro de herramientas y plataformas diseñadas para enfrentar
los desafíos asociados con la recopilación, almacenamiento,
procesamiento y análisis de grandes volúmenes de datos.
Funcionamiento del Big Data
Continuar 202402121
Aspectos indispensables en la analítica del Big Data
Actividad 01
1. Hadoop (Alejandra) 7. Python (César)
2. MongoDB (Harol) 8. Julia (Mitzi)
3. Elasticsearch (Ari) 9. SQL (Miguel)
4. Apache Spark (Zuriel) 10.NoSQL (Ariel)
5. Apache Storm (Arleth) 11.Orange (Sonia)
6. Lenguaje R (Eduardo)
Funcionamiento del Big Data
Aspectos indispensables en la analítica del Big Data
Los "insights significativos" son las percepciones o
conocimientos significativos que pueden ser patrones,
tendencias, correlaciones o relaciones que no son evidentes a
simple vista, pero que emergen cuando se analizan y se procesan
adecuadamente grandes conjuntos de datos mediante técnicas de
análisis de datos, como el procesamiento estadístico, el
aprendizaje automático, la minería de datos y la visualización
de datos, para identificar y comprender mejor la información
contenida en los datos.
#Código elaborado por Abraham 20240226
import os
import shutil
def mover(origen, destino):
for ruta_actual, carpetas, archivos in os.walk(origen):
if "conjunto_de_datos" in carpetas:
carpeta_conjunto_datos = os.path.join(ruta_actual, "conjunto_de_datos")
archivos_csv = [archivo for archivo in os.listdir(carpeta_conjunto_datos) if
archivo.endswith('.csv')]
for archivo_csv in archivos_csv:
origen_archivo = os.path.join(carpeta_conjunto_datos, archivo_csv)
destino_archivo = os.path.join(destino, archivo_csv)
shutil.move(origen_archivo, destino_archivo)
origen = 'C:/Users/JoseRojas/Desktop/Cara/'
destino = 'C:/Users/JoseRojas/Desktop/Cara/CSV/'
mover(origen, destino)
RESAGEBURB_01CSV20.csv
conjunto_de_datos_ageb_urbana_01_cpv2020.csv
Find RESAGEBURB y
Replace conjunto_de_datos_ageb_urbana
Estructura de las claves INEGI para la
cartografía
Para el caso de los elementos geoestadísticos, se asignó una clave
conformada de la siguiente manera:
País PP (2) 52
Estado EE (2) 01 al 32
Municipio y Delegación EEMMM (5) 001 al 570
Distrito (Oaxaca) EEDD (4) -
Localidad urbana y rural EEMMMLLLL (9) 0001 al 9999
Área Geoestadística Básica (AGEB) EEMMMLLLLAAA-A (14) ####
Manzana EEMMMLLLLAAA-Ammm (17) 001 al 999
30 087 0001 018-A 001
País PP (2) 52
Estado EE (2) 01 al 32
Municipio y Delegación EEMMM (5) 001 al 570
Distrito (Oaxaca) EEDD (4) -
Localidad urbana y rural EEMMMLLLL (9) 0001 al 9999
Área Geoestadística Básica (AGEB) EEMMMLLLLAAA-A (14) ####
Manzana EEMMMLLLLAAA-Ammm (17) 001 al 999
30 087 0001 018-A 001
Viviendas EEMMMLLLLAAA-Ammm VV 01-99
Hogares EEMMMLLLLAAA-Ammm VV HH 01-99
Personas EEMMMLLLLAAA-Ammm VV HH PP 01-99
30 087 0001 018-A 001 14 02 02
ENTIDAD NOM_ENT MUN NOM_MUN LOC NOM_LOC AGEB MZA
Total de la
entidad
Aguascalient Aguascalient Total de la
01 es 000 es 0000 entidad 0000 000
01 000 0000 0000
0100100010123
300870001014B001
Funcionamiento del Big Data
Tipos de datos
La identificación y clasificación de los datos es una actividad
indispensable del Big Data, ya que representan diversas formas en
que la información puede ser estructura, almacenada y analizada.
Estos tipos de datos incluyen datos estructurados,
semiestructurados y no estructurados, cada uno con sus propias
características y desafíos en el contexto del análisis de Big Data.
Funcionamiento del Big Data
Datos Estructurados
Son datos que están organizados en un formato tabular con filas
y columnas claramente definidas y especificadas en la mayoría de
los casos con encabezados o títulos.
Estos datos en forma de texto suelen estar almacenados en bases
de datos relacionales y no relacionales y se pueden manipular
fácilmente utilizando consultas SQL.
Ejemplos comunes de datos estructurados incluyen información
de clientes, registros de transacciones financieras, datos de
inventario, datos abiertos del gobierno federal, estatal y
municipales, datos abiertos del INEGI.
Funcionamiento del Big Data
Datos Semiestructurados
Son datos que no tienen un formato fijo como los datos estructurados, pero
tienen cierto grado de estructura que permite su organización y
procesamiento.
Los datos semiestructurados suelen estar en formato XML (Extensible
Markup Language o Lenguaje de Marcado Extensible), JSON (JavaScript
Object Notation o notación de objeto de JavaScript) o YAML (YAML Aint
Markup Language u Otro lenguaje de marcado más), y pueden contener
datos descriptivos, metadatos o información jerárquica. Se relacionan
información estructurada, con el formato de intercambio y de serialización,
mediante un lenguaje. Ejemplos de datos semiestructurados incluyen datos
de registros de servidores, datos de redes sociales y datos de registros de
eventos, Facturas del SAT, complementos de EXCEL, mapas.
Funcionamiento del Big Data
Datos No Estructurados
Son datos que no tienen una estructura predefinida y no se pueden
organizar fácilmente en un formato tabular. Pueden incluir texto sin formato,
imágenes, audio, video y otros tipos de medios.
Los datos no estructurados representan un desafío significativo en el análisis
de Big Data debido a su naturaleza no uniforme y a menudo requieren
técnicas avanzadas de procesamiento de lenguaje natural, reconocimiento de
patrones y análisis de imágenes.
Ejemplos de datos no estructurados incluyen correos electrónicos,
documentos de texto, archivos de audio y video, y datos de sensores.
Funcionamiento del Big Data
Tipos de datos
La combinación de estos tipos de datos en Big Data representa
desafíos únicos en términos de almacenamiento, procesamiento y
análisis.
Las tecnologías y herramientas de Big Data están diseñadas para
manejar esta diversidad de datos y permitir a las organizaciones
extraer insights significativos de ellos.
Con la base de datos de AGEB_EUM, generar un proyecto en Orange
que realice lo siguiente:
Crear nueva variable: POBTOTAL
CVEGEO: ENTIDAD+MUN+LOC+AGEB+MANZ POBFEM
POB MASC
Seleccionar al menos dos GRADOESC
variables adicionales a las 8 POCUPADA
primeras y a CVEGEO PEA
Agrupación por: TVIVPART
AGEB, MUNICIPIO, ESTADO PROMOCUP
Características del Big Data
El término "Big Data" se refiere a conjuntos de datos que son tan
grandes o complejos que no pueden ser procesados utilizando
métodos tradicionales.
Las características clave de Big Data se conocen comúnmente
como las "5 V's": Volumen, Velocidad, Variedad, Veracidad y
Valor.
Estas características proporcionan un marco para comprender la
naturaleza única de los datos masivos y cómo pueden ser
gestionados y utilizados para obtener información significativa.
Características del Big Data
Volumen
Los macrodatos se caracterizan por la enorme cantidad de datos
que pueden alcanzar terabytes, petabytes o incluso exabytes. Este
volumen masivo de datos requiere sistemas de almacenamiento y
procesamiento distribuido para manejarlo eficientemente.
Características del Big Data
Velocidad
La velocidad se refiere a la tasa a la que los datos son generados,
procesados y analizados. Los macrodatos a menudo se generan a
una velocidad increíblemente rápida, como en el caso de datos en
tiempo real de redes sociales, sensores IoT (Internet de las cosas)
o transacciones financieras.
Características del Big Data
Variedad
La variedad se refiere a la diversidad de tipos de datos en los
macrodatos. Estos datos pueden ser estructurados (como datos
almacenados en bases de datos relacionales), semiestructurados
(como datos en formato XML o JSON) o no estructurados (como
texto, imágenes, audio, video).
Características del Big Data
Veracidad
La veracidad se refiere a la calidad y confiabilidad de los datos.
Dado que los macrodatos pueden provenir de diversas fuentes y
tener diferentes grados de calidad, es importante garantizar la
veracidad de los datos para obtener resultados precisos y
confiables en el análisis.
Características del Big Data
Valor
El valor se refiere a la capacidad de los macrodatos para
proporcionar información útil y significativa que pueda utilizarse
para tomar decisiones informadas y generar valor para las
organizaciones. El valor de los macrodatos radica en su capacidad
para revelar patrones, tendencias y conocimientos que de otra
manera serían difíciles de obtener.
Actividad descargar de la página del INEGI
los datos abiertos correspondientes a:
“Principales resultados por AGEB y manzana
urbana”
Descargar Organge
El análisis de la avalancha de datos que
constituye en estos últimos años el fenómeno
MapREduce, de Big Data ha requerido de presupuestos
prohibitivos en las organizaciones y empresas,
Hadoop, dado que las herramientas tradicionales de
No SQL y gestión de bases de datos relacionales no
funcionaban bien para cantidades masivas, y
Hadoop, menos aún cuando más del 80% de los datos
Computación eran no estructurados.
en la Nube
Fuente: BIG DATA – LUIS JOYANES AGUILAR
En la actualidad, y en términos de popularidad,
ha sido el proyecto de código abierto (open
MapREduce, source) denominado Hadoop el que ha traído
herramientas para el análisis de grandes
Hadoop, volúmenes de datos.
No SQL y Hadoop es un marco de trabajo (framework) de
Hadoop, código abierto, con seguridad a nivel de
empresa, gobierno, disponibilidad, integración
Computación con almacenes de datos existentes,
en la Nube herramientas que simplifican y mejoran la
productividad del desarrollador, escalabilidad,
herramientas (toolkits) analíticas, etcétera.
Fuente: BIG DATA – LUIS JOYANES AGUILAR
Es un modelo de programación, y una
implementación asociada para procesamiento y
MapREduce, generación de grandes conjuntos de datos. Los
programas escritos en el estilo funcional son
Hadoop, paralelizados (en paralelo) automáticamente, y
No SQL y se ejecuta en un cluster grande de máquinas
básicas (commodity machines).
Hadoop,
El sistema de tiempo de ejecución (run-time)
Computación tiene especial cuidado de los detalles de
en la Nube particionado de los datos de entrada,
planificando la ejecución del programa a través
de un conjunto de máquinas, manejando los
fallos de la máquina y gestión de la
comunicación requerida entre máquinas.
Fuente: BIG DATA – LUIS JOYANES AGUILAR
Esta característica permite a los programadores
sin experiencia en sistemas distribuidos y
MapREduce, paralelo, utilizar fácilmente los recursos de un
gran sistema distribuido.
Hadoop,
No SQL y La implementación presentada de MapReduce
Hadoop, funciona en un gran clúster de máquinas
básicas, y es altamente escalable.
Computación
en la Nube
Fuente: BIG DATA – LUIS JOYANES AGUILAR
MapReduce es un modelo de
programación que se ejecuta sobre
MapREduce, Hadoop, un motor de análisis de datos
Hadoop, ampliamente utilizado para Big Data.
No SQL y Programa de aplicaciones que se ejecutan
en paralelo para procesar grandes
Hadoop,
volúmenes de datos almacenados en
Computación clústeres.
en la Nube
Fuente; https://www.hpe.com/mx/es/what-
is/mapreduce.html#:~:text=MapReduce%20es%20un%20modelo%20de,de%20datos%20almacenados%20en%20cl%C3%BAsteres.
MapReduce es un framework que proporciona
un sistema de procesamiento de datos paralelo
MapREduce, y distribuido.
Este paradigma se basa en enviar el proceso
Hadoop, computacional al sitio donde residen los datos
No SQL y que se van a tratar, los cuales se coleccionan en
Hadoop, un clúster Hadoop.
MapReduce posee una arquitectura
Computación maestro/esclavo, la cual cuenta con un servidor
en la Nube maestro (JobTracker) y varios servidores
esclavos (TaskTrackers), uno por cada nodo del
clúster. Cuando se lanza un proceso de
MapReduce se distribuyen las tareas entre los
diferentes servidores
El témino MapReduce se refiere realmente a
dos tareas distintas e independientes para
MapREduce, ejecutar los programas Hadoop. La primera es
la tarea map que toma un conjunto de datos y
Hadoop, los convierte en otro conjunto de datos, donde
No SQL y los elementos individuales se rompen en tuplas
(pares clave/valor).
Hadoop,
La tarea reduce toma la salida de un mapa
Computación como entrada y combina estas tuplas de datos
en la Nube en conjuntos de tuplas más pequeños. Como la
secuencia del nombre MapReduce, implica el
trabajo reduce se ejecuta siempre después del
tabajo map.
Fuente: BIG DATA – LUIS JOYANES AGUILAR
MapREduce,
Hadoop,
No SQL y
Hadoop,
Computación
en la Nube
MapREduce,
Hadoop,
No SQL y
Hadoop,
Computación
en la Nube
¿Cómo
trabaja
MapREduce?
Fuente: https://www.tutorialspoint.com/map_reduce/map_reduce_introduction.htm
MapReduce tiene como objetivo dividir
una tarea en múltiples tareas más
pequeñas utilizando las funciones "mapa"
¿Cómo y "reducir". Mapeará cada tarea y luego la
trabaja reducirá a varias tareas equivalentes, lo
MapREduce? que resulta en menor processing energía y
gastos generales en la red del clúster.
Ejemplo:
Con base en la lista de estudiantes de la EE
de Big Data, identificar por nombres y/o
¿Cómo apellidos las asociaciones entre personas.
trabaja
MapREduce?
Con MapReduce el procesamiento
computacional puede ocurrir en datos
almacenados en un sistema de archivos sin
¿Cómo necesidad de cargarlos primero en una
trabaja base de datos, una idea importante. Una
MapREduce? característica grande del entorno
MapReduce es la capacidad específica
para manejar datos no estructurados.
Fuente: BIG DATA – LUIS JOYANES AGUILAR
https://hadoop.apache.org/
Descargar
Hadoop se publica como archivos tar de código fuente con
los archivos tar binarios correspondientes para mayor
comodidad. Las descargas se distribuyen a través de sitios
espejo y deben verificarse para detectar manipulación
utilizando GPG o SHA-512.
En criptografía, se conoce como GPG al cambio realizado a Pretty Good Privacy (PGP),
que se crea en 1991 por Phil Zimmermann, posteriormente es renombrado como
GnuPG o GPG (GNU Privacy Guard), tiene la función de define formatos estándar para
los mensajes cifrados, firmas y certificados para intercambiar claves públicas; por otro
lado. Se denomina SHA-512 al Algoritmo de Hash Seguro (Secure Hash Algorithm) de
512 bits el cual es utilizado para la seguridad criptográfica. Estos algoritmos generan
hashes (cadenas de caracteres de longitud fija) irreversibles y únicos.
Este último, forma parte de un conjunto de funciones hash criptográficas (SHA-
2) conocidas como SHA-224, SHA-256, SHA-384, SHA-512, y que fueron
diseñadas por la Agencia de Seguridad Nacional (NSA) y publicada en 2001 por
el Instituto Nacional de Estándares y Tecnología (NIST) como un Estándar
Federal de Procesamiento de la Información (FIPS).
Módulos
El proyecto incluye estos módulos:
•Hadoop Common : las utilidades comunes que admiten los otros
módulos de Hadoop.
•Sistema de archivos distribuido Hadoop (HDFS ) : un sistema de
archivos distribuido que proporciona acceso de alto rendimiento a los
datos de las aplicaciones.
•Hadoop YARN : un marco para la programación de trabajos y la
gestión de recursos del clúster.
•Hadoop MapReduce : un sistema basado en YARN para el
procesamiento paralelo de grandes conjuntos de datos.
¿Quién usa Hadoop?
Una amplia variedad de empresas y organizaciones utilizan Hadoop
tanto para investigación como para producción. Se anima a los
usuarios a agregarse a la página wiki de Hadoop PoweredBy .
Versión Fecha de lanzamiento Descarga fuente Descarga binaria Notas de lanzamiento
3.4.0 2024 17 de marzo fuente ( firma de suma de binario ( firma de suma de Anuncio
verificación ) verificación ) binario-
aarch64 ( firma de suma de
verificación )
2.10.2 2022 31 de mayo fuente ( firma de suma de binario ( firma de suma de Anuncio
verificación ) verificación )
Para verificar las versiones de Apache Hadoop® mediante GPG:
1.Descargue la versión hadoop-XYZ-src.tar.gz desde un sitio espejo .
(https://www.apache.org/dyn/closer.cgi/hadoop/common)
2.Descargue el archivo de firma hadoop-XYZ-src.tar.gz.asc de Apache .
(https://downloads.apache.org/hadoop/common/)
3.Descargue el archivo LLAVES de Hadoop .
(https://downloads.apache.org/hadoop/common/KEYS)
4.gpg –importar LLAVES
5.gpg –verificar hadoop-XYZ-src.tar.gz.asc
Para realizar una verificación rápida usando SHA-512:
1.Descargue la versión hadoop-XYZ-src.tar.gz desde un sitio espejo .
(https://www.apache.org/dyn/closer.cgi/hadoop/common)
2.Descargue la suma de comprobación hadoop-XYZ-src.tar.gz.sha512 o hadoop-XYZ-
src.tar.gz.mds de Apache . (https://downloads.apache.org/hadoop/common/)
3.shasum -a 512 hadoop-XYZ-src.tar.gz
INSTALACIÓN WSL
Desde la opción de activar características de Windows, seleccionar las opciones:
Subsistema de Windows para Linux
Virtual Machine Platform
Windows Terminal - Aplicaciones de Microsoft
Pasos de instalación manual para versiones anteriores de WSL
•Artículo
•05/12/2023
En este artículo
1.Paso 1: Habilitación del Subsistema de Windows para Linux
2.Paso 2: comprobación de los requisitos para ejecutar WSL 2
3.Paso 3: Habilitación de la característica Máquina virtual
4.Paso 4: Descarga del paquete de actualización del kernel de Linux
Por motivos de simplicidad, por lo general se recomienda usar wsl --install para instalar el Subsistema de
Windows para Linux, pero si ejecuta una compilación anterior de Windows, es posible que no se admita.
Hemos incluido los pasos de instalación manual a continuación. Si experimenta un problema durante el
proceso de instalación, consulte la sección de instalación de la guía de solución de problemas.
Windows PowerShell
Copyright (C) Microsoft Corporation. Todos los derechos reservados.
PS C:\Windows\system32> wsl --install
wsl : El término 'wsl' no se reconoce como nombre de un cmdlet, función, archivo de script o programa
ejecutable. Compruebe si escribió correctamente el nombre o, si incluyó una ruta de acceso, compruebe que
dicha ruta es
correcta e inténtelo de nuevo.
En línea: 1 Carácter: 1
+ wsl --install
+ ~~~
+ CategoryInfo : ObjectNotFound: (wsl:String) [], CommandNotFoundException
+ FullyQualifiedErrorId : CommandNotFoundException
Paso 1: Habilitación del Subsistema de Windows para
Linux
Antes de instalar distribuciones de Linux en Windows,
debe habilitar la característica opcional "Subsistema de
Windows para Linux".
Abra PowerShell como administrador (menú Inicio >
PowerShell > haga clic con el botón derecho en >
Ejecutar como administrador) y escriba este comando:
dism.exe /online /enable-feature /featurename:Microsoft-
Windows-Subsystem-Linux /all /norestart
Se instaló desde PowerShell la siguiente línea de comandos:
dism.exe /online /enable-feature /featurename:Microsoft-Windows-Subsystem-Linux /all /norestart
Ahora se recomienda continuar con el paso 2, Actualización a WSL 2, pero si solo quiere instalar WSL 1,
ahora puede reiniciar el equipo y dirigirse al Paso 6: Instalación de la distribución de Linux que quiera.
Para actualizar a WSL 2, espere para reiniciar la máquina y continúe con el paso siguiente.
PS C:\Windows\system32> dism.exe /online /enable-feature /featurename:Microsoft-
Windows-Subsystem-Linux /all /norestart
Herramienta Administración y mantenimiento de imágenes de implementación
Versión: 10.0.17763.1518
Versión de imagen: 10.0.17763.1577
Habilitando características
[==========================100.0%==========================]
La operación se completó correctamente.
Paso 2: comprobación de los requisitos para ejecutar WSL 2
Para actualizar a WSL 2, debe ejecutar Windows 10...
•Para sistemas x64: versión 1903 o posterior, con la compilación 18362.1049 o posterior.
•Para sistemas ARM64: versión 2004 o posterior, con la compilación 19041 o posterior.
o Windows 11.
Nota
Las compilaciones anteriores a 18362 no admiten WSL 2. Use el Asistente para Windows Update para
actualizar su versión de Windows. La compatibilidad con Windows versión 1903 también es solo para sistemas
x64. Si usa una versión arm64 de Windows, deberá actualizar a Windows 10 versión 2004 o posterior para
obtener acceso completo a WSL 2. Para obtener más información, consulta compatibilidad con WSL 2 que
viene a Windows 10 versiones 1903 y 1909.
Para comprobar la versión y el número de compilación, seleccione la tecla del logotipo de Windows + R,
escriba winver y seleccione Aceptar. Actualice a la versión más reciente de Windows en el menú Configuración.
Nota
Si está ejecutando Windows 10, versión 1903 o 1909, abra "Configuración" en el menú de Windows, vaya a
"Actualización y seguridad" y seleccione "Buscar actualizaciones". El número de compilación debe ser
18362.1049 o posterior o 18363.1049 o posterior, con la compilación secundaria posterior a .1049. Leer más: La
compatibilidad con WSL 2 estará disponible en breve para las versiones 1903 y 1909 de Windows 10.
Paso 3: Habilitación de la característica Máquina virtual
Antes de instalar WSL 2, debe habilitar la característica opcional Plataforma de
máquina virtual. La máquina necesitará funcionalidades de virtualización para
usar esta característica.
Abre PowerShell como administrador y ejecuta:
dism.exe /online /enable-feature /featurename:VirtualMachinePlatform
/all /norestart
Errores y posibles soluciones
Error al intentar actualizar:Invalid command line option: wsl --set-version Ubuntu 2
Asegúrese de tener habilitado el subsistema de Windows para Linux y de estar utilizando la versión
18362 o posterior de la compilación de Windows. Para habilitar WSL, ejecute este comando en un
indicador de PowerShell con privilegios de administrador: Enable-WindowsOptionalFeature -Online -
FeatureName Microsoft-Windows-Subsystem-Linux.
Fuente: https://learn.microsoft.com/en-us/windows/wsl/troubleshooting
PS C:\Windows\system32> dism.exe /online /enable-feature /featurename:VirtualMachinePlatform /all /norestart
Herramienta Administración y mantenimiento de imágenes de implementación
Versión: 10.0.17763.1518
Versión de imagen: 10.0.17763.1577
Habilitando características
[==========================100.0%==========================]
La operación se completó correctamente.
Reinicia la máquina para completar la instalación de WSL y la actualización a WSL 2.
Paso 4: Descarga del paquete de actualización del kernel de Linux
El paquete de actualización del kernel de Linux instala la versión más reciente del kernel de Linux de WSL 2 para
ejecutar WSL dentro de la imagen del sistema operativo Windows. (Para ejecutar WSL desde Microsoft Store, con
actualizaciones insertadas con más frecuencia, use wsl.exe --install o wsl.exe --update).
1.Descargue la versión más reciente:
•Paquete de actualización del kernel de Linux en WSL 2 para máquinas x64
Nota
Si estás usando una máquina ARM64, descarga el paquete ARM64 en su lugar. Si no está seguro de qué tipo de
máquina tiene, abra el símbolo del sistema o PowerShell y escriba: systeminfo | find "System
Type". Advertencia: En versiones de Windows que no están en inglés, es posible que tenga que modificar el
texto de búsqueda, traduciendo la cadena "System Type" (Tipo de sistema). Es posible que también tenga que
escapar las comillas del comando find. Por ejemplo, en alemán, systeminfo | find '"Systemtyp“’.
2.Ejecuta el paquete de actualización que descargaste en el paso anterior. (Haga doble clic para ejecutarlo. Se le
pedirán permisos elevados. Seleccione "Sí" para aprobar esta instalación).
Una vez completada la instalación, vaya al paso siguiente: configuración de WSL 2 como versión predeterminada
al instalar nuevas distribuciones de Linux. (Omita este paso si quiere que las nuevas instalaciones de Linux se
establezcan en WSL 1).
Nota
Para obtener más información, consulta el artículo cambios en la actualización del kernel de Linux en WSL2,
disponible en el blog de la línea de comandos de Windows.
wsl.exe --install o wsl.exe --update
PS C:\Windows\system32> wsl.exe --install o wsl.exe --update
Opción de línea de comandos no válida: --install
Uso: wsl.exe [opción] ...
Opciones:
-d, --distribution <NombreDeDistribución>
Inicia la distribución especificada.
-e, --exec <LíneaDeComandos>
Ejecuta el comando Linux especificado. El resto de los argumentos se
usa como la línea de comandos que se va a ejecutar.
-u, --user <NombreDeUsuario>
Se ejecuta como el usuario especificado.
--help
Muestra esta información de uso.
--
Detiene el análisis de argumentos y pasa el resto al proceso de Linux.
kernel de Linux de WSL 2
https://github.com/microsoft/WSL2-Linux-Kernel
WSL desde Microsoft Store
https://learn.microsoft.com/es-es/windows/wsl/compare-versions#wsl-in-the-microsoft-store
•Paquete de actualización del kernel de Linux en WSL 2 para máquinas x64
https://wslstorestorage.blob.core.windows.net/wslblob/wsl_update_x64.msi
systeminfo | find "System Type"
Ejecutar como administrador
Reinicia el equipo nuevamente
Paso 5: Definición de WSL 2 como versión predeterminada
Abra PowerShell y ejecute este comando para establecer WSL 2 como versión
predeterminada al instalar una nueva distribución de Linux:
wsl --set-default-version 2
wsl --set-default-version 2
Paso 6: Instalación de la distribución de Linux que quiera
1.Abre Microsoft Store y selecciona tu distribución de Linux favorita.
En los vínculos siguientes se abrirá la página de Microsoft
Store para cada distribución:
•Ubuntu 18.04 LTS
•Ubuntu 20.04 LTS https://apps.microsoft.com/detail/9pn20msr04dw?rtc=1&hl=e
•Ubuntu 22.04 LTS s-mx&gl=MX
•OpenSUSE Leap 15.1
•SUSE Linux Enterprise Server 12 SP5
•SUSE Linux Enterprise Server 15 SP1 https://www.microsoft.com/store/apps/9MSVKQC78PK6
•Kali Linux
•Debian GNU/Linux
•Fedora Remix for WSL
•Pengwin
•Pengwin Enterprise
•Alpine WSL
•Raft (prueba gratuita)
•Alma Linux
https://apps.microsoft.com/detail/9pn20msr04dw?rtc=1&hl=es-mx&gl=MX
https://apps.microsoft.com/detail/9pn20msr04dw?rtc=1&hl=es-mx&gl=MX
Al hacerlo, los paquetes de <distro>.appx se descargarán en una carpeta de tu elección.
Si lo prefiere, también puede descargar sus distribuciones preferidas a través de la línea de
comandos y puede usar PowerShell con el cmdlet Invoke-WebRequest. Por ejemplo, para descargar
Ubuntu 20.04
Invoke-WebRequest -Uri https://aka.ms/wslubuntu2004 -OutFile
Ubuntu.appx -UseBasicParsing
https://aka.ms/wslubuntu
https://aka.ms/wslubuntu2204
passwd: password updated successfully
Installation successful!
To run a command as administrator (user "root"), use "sudo <command>".
See "man sudo_root" for details.
Welcome to Ubuntu 20.04.3 LTS (GNU/Linux 4.4.0-17763-Microsoft x86_64)
* Documentation: https://help.ubuntu.com
* Management: https://landscape.canonical.com
* Support: https://ubuntu.com/advantage
System information as of Thu Mar 21 14:35:20 STD 2024
System load: 0.52 Users logged in: 0
Usage of /home: unknown IPv4 address for eth1: 10.3.0.1
Memory usage: 66% IPv4 address for wifi0: 10.30.5.47
Swap usage: 0% IPv4 address for wifi2: 192.168.137.1
Processes: 7
1 update can be applied immediately.
To see these additional updates run: apt list --upgradable
The list of available updates is more than a week old.
To check for new updates run: sudo apt update
This message is shown once a day. To disable it please create the
/home/angelito/.hushlogin file.
angelito@DESKTOP-30J9CF4:~$
Actualizar la versión con la instrucción:
sudo apt update
apt list –upgradable
Pwd
Lsb_release -a
[sudo] password for angelito:
Err:1 http://archive.ubuntu.com/ubuntu focal InRelease
403 Forbidden [IP: 91.189.91.83 80]
Err:2 http://security.ubuntu.com/ubuntu focal-security InRelease
403 Forbidden [IP: 185.125.190.39 80]
Err:3 http://archive.ubuntu.com/ubuntu focal-updates InRelease
403 Forbidden [IP: 91.189.91.83 80]
Err:4 http://archive.ubuntu.com/ubuntu focal-backports InRelease
403 Forbidden [IP: 91.189.91.83 80]
Reading package lists... Done
N: See apt-secure(8) manpage for repository creation and user configuration details.
N: Updating from such a repository can't be done securely, and is therefore disabled by default.
E: The repository 'http://archive.ubuntu.com/ubuntu focal InRelease' is no longer signed.
E: Failed to fetch http://archive.ubuntu.com/ubuntu/dists/focal/InRelease 403 Forbidden [IP: 91.189.91.83 80]
N: See apt-secure(8) manpage for repository creation and user configuration details.
N: Updating from such a repository can't be done securely, and is therefore disabled by default.
E: The repository 'http://security.ubuntu.com/ubuntu focal-security InRelease' is no longer signed.
E: Failed to fetch http://security.ubuntu.com/ubuntu/dists/focal-security/InRelease 403 Forbidden [IP: 185.125.190.39 80]
E: Failed to fetch http://archive.ubuntu.com/ubuntu/dists/focal-updates/InRelease 403 Forbidden [IP: 91.189.91.83 80]
E: The repository 'http://archive.ubuntu.com/ubuntu focal-updates InRelease' is no longer signed.
N: Updating from such a repository can't be done securely, and is therefore disabled by default.
N: See apt-secure(8) manpage for repository creation and user configuration details.
E: Failed to fetch http://archive.ubuntu.com/ubuntu/dists/focal-backports/InRelease 403 Forbidden [IP: 91.189.91.83 80]
E: The repository 'http://archive.ubuntu.com/ubuntu focal-backports InRelease' is not signed.
N: Updating from such a repository can't be done securely, and is therefore disabled by default.
N: See apt-secure(8) manpage for repository creation and user configuration details.
angelito@DESKTOP-30J9CF4:~$
Para crear un clúster se necesita un mínimo de tres máquinas:
1 Master clúster
2 Slave clúster
Iniciar en forma de super usuario:
sudo su
Cambia la línea de comandos
Paso 1 para instalar haddop
sudo apt update
sudo apt upgrade -y
sudo apt install openjdk-11-jdk -y
sudo apt –asume-yes install openjdk-8-jre-headless
Instalar mysql-server con:
apt install mysql-server
En caso de enviar algún error se debe a instalaciones previas fallidas o en su caso a
instalaciones de mysql anteriores, se sugiere correr las siguientes instrucciones:
Parece que el problema proviene de una inicialización parcial restante en el sistema
de archivos desde la primera instalación fallida. Entonces, la solución es básicamente
asegurarse de borrar todo lo que se agregó o modificó durante los intentos fallidos
de instalación.
No tuve tiempo de profundizar mucho más, así que no sé exactamente qué archivos
son los culpables, pero si alguien puede ofrecer más información, comente a
continuación para futuros lectores que necesiten una solución más delicada.
Purgar paquetes relevantes
Asegúrese de que MySQL no se esté ejecutando:
sudo systemctl stop mysql
Luego purgue todos los paquetes de MySQL:
sudo apt purge mysql-server mysql-client mysql-common mysql-server-core-* mysql-
client-core-*
Luego elimine todos los archivos MySQL:
sudo rm -rf /etc/mysql /var/lib/mysql /var/log/mysql
Finalmente limpie todos los paquetes que no sean necesarios:
sudo apt autoremove
sudo apt autoclean
Y nunca está de más reiniciar antes de continuar
sudo reboot
Parece que el problema proviene de una inicialización parcial restante en el sistema
de archivos desde la primera instalación fallida. Entonces, la solución es básicamente
asegurarse de borrar todo lo que se agregó o modificó durante los intentos fallidos
de instalación.
No tuve tiempo de profundizar mucho más, así que no sé exactamente qué archivos
son los culpables, pero si alguien puede ofrecer más información, comente a
continuación para futuros lectores que necesiten una solución más delicada.
Purgar paquetes relevantes
Asegúrese de que MySQL no se esté ejecutando:
sudo systemctl stop mysql
Luego purgue todos los paquetes de MySQL:
sudo apt purge mysql-server mysql-client mysql-common mysql-server-core-* mysql-
client-core-*
Luego elimine todos los archivos MySQL:
sudo rm -rf /etc/mysql /var/lib/mysql /var/log/mysql
Finalmente limpie todos los paquetes que no sean necesarios:
sudo apt autoremove
sudo apt autoclean
Y nunca está de más reiniciar antes de continuar
sudo reboot
Instalación de Apache Hadoop 3.3.6 en Ubuntu 22.04.2 LTS WSL para Windows
En el panorama dinámico de la toma de decisiones basada en datos, aprovechar el poder de
los big data no es sólo una ventaja sino una necesidad. Apache Hadoop es un marco robusto y
escalable que permite a las organizaciones afrontar los desafíos del procesamiento masivo de
datos. Si está listo para sumergirse en el mundo de la informática distribuida y revolucionar
sus capacidades de manejo de datos, instalar Apache Hadoop en Ubuntu es el primer paso
para desbloquear un potencial incomparable. Si utiliza Ubuntu en Windows con el Subsistema
de Windows para Linux (WSL), este artículo es para usted.
¿Por qué Apache Hadoop?
Antes de profundizar en la guía de instalación, comprendamos por qué Apache Hadoop es la
solución ideal para el procesamiento de big data. Hadoop permite el procesamiento
distribuido de grandes conjuntos de datos en grupos de computadoras, lo que lo hace
resistente, tolerante a fallas y altamente escalable. Sus componentes principales, Hadoop
Distributed File System (HDFS) y MapReduce, forman la columna vertebral de un marco
versátil que puede manejar diversos tipos y volúmenes de datos.
https://medium.com/@madihaiqbal606/apache-hadoop-3-3-6-installation-on-ubuntu-22-04-2-lts-wsl-
for-windows-bb57ed599bc6
Guía de instalación para Ubuntu 22.04.2 LTS:
https://medium.com/@madihaiqbal606/apache-hadoop-3-3-6-installation-on-ubuntu-22-04-2-lts-wsl-
for-windows-bb57ed599bc6
root@LAPTOP-9LRN0E30:/home/bigdata03# java -version
openjdk version "11.0.22" 2024-01-16
OpenJDK Runtime Environment (build 11.0.22+7-post-Ubuntu-0ubuntu222.04.1)
OpenJDK 64-Bit Server VM (build 11.0.22+7-post-Ubuntu-0ubuntu222.04.1, mixed mode, sharing)
root@LAPTOP-9LRN0E30:/home/bigdata03# sudo adduser hadoop
root@LAPTOP-9LRN0E30:/home/bigdata03# sudo adduser hadoop
Adding user `hadoop' ...
Adding new group `hadoop' (1001) ...
Adding new user `haddop' (1001) with group `hadoop' ...
Creating home directory `/home/hadoop' ...
Copying files from `/etc/skel' ...
New password:
Retype new password:
passwd: password updated successfully
Changing the user information for hadoop
Enter the new value, or press ENTER for the default
Full Name []:
Room Number []:
Work Phone []:
Home Phone []:
Other []:
Is the information correct? [Y/n] y
root@LAPTOP-9LRN0E30:/home/bigdata03#
hadoop@LAPTOP-9LRN0E30:~$ ssh localhost
sudo nano ~/.bashrc
Pausamos y reiniciamos el proceso, por lo que debimos correr nuevamente el proceso
sudo su - hadoop
Welcome to Ubuntu 22.04.4 LTS (GNU/Linux 5.15.146.1-microsoft-standard-WSL2 x86_64)
* Documentation: https://help.ubuntu.com
* Management: https://landscape.canonical.com
* Support: https://ubuntu.com/pro
This message is shown once a day. To disable it please create the
/home/bigdata03/.hushlogin file.
bigdata03@LAPTOP-9LRN0E30:~$
bigdata03@LAPTOP-9LRN0E30:~$ sudo su - hadoop
[sudo] password for bigdata03:
Welcome to Ubuntu 22.04.4 LTS (GNU/Linux 5.15.146.1-microsoft-standard-WSL2 x86_64)
* Documentation: https://help.ubuntu.com
* Management: https://landscape.canonical.com
* Support: https://ubuntu.com/pro
This message is shown once a day. To disable it please create the
/home/hadoop/.hushlogin file.
hadoop@LAPTOP-9LRN0E30:~$
Puede enviar un error debido a que no está en la ruta correcta, por lo cual se sugiere salir y buscar el archivo y la ruta para
direccionarlo correctamente
Como se puede apreciar en la siguiente imagen, la interfaz es diferente a la anterior, por lo que se asume que estaba mal
la ruta especificada, al corregirla después de buscar con la instrucción:
Find ~ -name core-site.xml
La ruta correcta es: /home/hadoop/hadoop/etc/hadoop/
/home/hadoop/hadoop/etc/hadoop/
/home/hadoop/hadoop/etc/hadoop/
Se corrigió el error de escritura en las instrucciones que cometí, en el archivo .bashrc
Después de reiniciar y correr los comandos de inicio, se corrigió el problema de inicio del start-bashrc.sh
Instrucciones al iniciar Ubuntu para acceder a HADOOP
hadoop@LAPTOP-9LRN0E30:~$ start-dfs.sh
Starting namenodes on [0.0.0.0]
0.0.0.0: Warning: Permanently added '0.0.0.0' (ED25519) to the list of known hosts.
Starting datanodes
Starting secondary namenodes [LAPTOP-9LRN0E30]
LAPTOP-9LRN0E30: Warning: Permanently added 'laptop-9lrn0e30' (ED25519) to the list of known hosts.
hadoop@LAPTOP-9LRN0E30:~$
hadoop@LAPTOP-9LRN0E30:~$ start-yarn.sh
Starting resourcemanager
Starting nodemanagers
hadoop@LAPTOP-9LRN0E30:~$ jps
6896 NodeManager
6784 ResourceManager
5043 NameNode
7381 Jps
5335 SecondaryNameNode
5151 DataNode
hadoop@LAPTOP-9LRN0E30:~$
https://medium.com/@genius_meringue_gnat_79/running-single-node-mapreduce-using-docker-and-hadoop-cluster-41f5ec5b7650
Acceder a la URL localhost:9870
https://medium.com/@genius_meringue_gnat_79/running-single-node-mapreduce-using-docker-and-hadoop-cluster-41f5ec5b7650
https://medium.com/@genius_meringue_gnat_79/running-single-node-mapreduce-using-docker-and-hadoop-cluster-41f5ec5b7650
Instrucciones al iniciar Ubuntu para acceder a HADOOP
hadoop@LAPTOP-9LRN0E30:~$ start-dfs.sh
Starting namenodes on [0.0.0.0]
0.0.0.0: Warning: Permanently added '0.0.0.0' (ED25519) to the list of known hosts.
Starting datanodes
Starting secondary namenodes [LAPTOP-9LRN0E30]
LAPTOP-9LRN0E30: Warning: Permanently added 'laptop-9lrn0e30' (ED25519) to the list of known hosts.
hadoop@LAPTOP-9LRN0E30:~$
hadoop@LAPTOP-9LRN0E30:~$ start-yarn.sh
Starting resourcemanager
Starting nodemanagers
hadoop@LAPTOP-9LRN0E30:~$ jps
6896 NodeManager
6784 ResourceManager
5043 NameNode
7381 Jps
5335 SecondaryNameNode
5151 DataNode
hadoop@LAPTOP-9LRN0E30:~$
https://medium.com/@genius_meringue_gnat_79/running-single-node-mapreduce-using-docker-and-hadoop-cluster-41f5ec5b7650
Big Data y Hadoop
Entre las herramientas utilizada en Big Data, se encuentra
Hadoop; que permite el almacenamiento y procesamiento
de enormes cantidades de datos, extremadamente grandes
que resulta imposible tratarlos con las herramientas de
bases de datos convencionales.
Sin embargo, Big Data no se refiere a alguna cantidad en
específico, ya que generalmente se emplea cuando se habla
en términos de petabytes y exabytes de datos.
Lo que para una determinada empresa es Big Data puede no
serlo para otra compañía, ello depende de los recursos con
los que cada una disponga y de las capacidades de análisis.
Big Data y Hadoop
Miles de millones de datos pueden manejarse internamente en
algunas empresas o ser fuente de información externa en la nube,
analizando datos provenientes de la proliferación de páginas web
(Google), petabytes de imágenes y vídeos (YouTube), dispositivos
móviles y aplicaciones (Android y/o Apple), sensores
meteorológicos (NationalWeather) y muchas otras fuentes de
datos.
Esto se refiere a empresas y organizaciones capaces de generar
más de 2.5 quintillones de bytes al día, hasta el punto de que el
90% de los datos del mundo se han creado durante los últimos dos
años. Una curva exponencial.
Pero existen muchas otras fuentes de datos, por ejemplo, un Air
Bus genera 10 terabytes de datos cada 30 minutos, más de 11
billones de personas utilizan Internet diariamente, Twitter genera
120 TB de datos diariamente con más de 400 millones de usuarios
activo, la bolsa de Nueva York (NYSE) genera 10 TB de datos
diarios, por mencionar algunos datos.
Big Data y Hadoop
Existe en una gran variedad de datos que pueden ser
representados de diversas maneras en todo el
mundo, por ejemplo, de dispositivos móviles, audio,
video, sistemas GPS, incontables sensores digitales en
equipos industriales, automóviles, medidores
eléctricos, veletas, anemómetros, satelitales, entre
muchos otros y los que vayan a surgir.
Estos datos pueden medir y comunicar el
posicionamiento, movimiento, vibración,
temperatura, humedad y hasta los cambios químicos
que sufre el aire, de tal forma que las aplicaciones
que analizan estos datos requieren que la velocidad
de respuesta sea demasiado rápida para lograr
obtener la información correcta en el momento
preciso.
Los principales tipos de datos se resumen en 5 clases:
Web y Social Media, Biométricos, Máquina a
Máquina (P2P), Transacciones con grandes
volúmenes de datos, Generados por humanos.
Big Data y Hadoop
Web and Social Media: Incluye contenido web e información que es obtenida de las redes sociales como
Facebook, Twitter, LinkedIn o blogs.
Máquina a Máquina (P2P): P2P se refiere a las tecnologías que permiten conectarse a otros dispositivos.
P2P utiliza dispositivos como sensores o medidores que capturan algún evento en particular (velocidad,
temperatura, presión, variables meteorológicas o variables químicas como la salinidad) los cuales
transmiten a través de redes alámbricas, inalámbricas o híbridas a otras aplicaciones que traducen estos
eventos en información significativa.
Transacciones con grandes volúmenes de datos: Incluye registros de facturación, en telecomunicaciones
registros detallados de las llamadas (CDR), etc. Estos datos transaccionales están disponibles en formatos
tanto semiestructurados como no estructurados.
Biométricos: Información biométrica en la que se incluye huellas digitales, escaneo de retina,
reconocimiento facial, genética, etc. En el área de seguridad e inteligencia, los datos biométricos han sido
información importante para las agencias de investigación.
Generados por humanos: Las personas generamos diversas cantidades de datos como la información que
guarda un call center al establecer una llamada telefónica, notas de voz, correos electrónicos, documentos
electrónicos, estudios médicos, entre otros.
Big Data y Hadoop
Funciones del Data Scientist o "científico de los datos" (analista de datos).
Las funciones del Data Scientist o “científico de los datos” se engloban en 3 fundamentalmente:
Data wranling: Captura y almacenamiento de la información. Es el procedimiento manual de convertir
“raw data” (información en bruto) en información con formato para que pueda ser analizada. Suele
ocupar el 80% del tiempo de trabajo del data Scientist.
Data analysis: Obtención de valor a partir de la información.
Data visualization: Visualizado de los resultados.
Big Data y Hadoop
Apache Hadoop es una plataforma que permite el procesamiento de grandes
volúmenes de datos a través de clúster, usando un modelo simple de
programación. Proporciona un framework, escrito en Java, sobre el cual
desarrollar aplicaciones distribuidas que requieren un uso intensivo de datos y
de alta escalabilidad. Este proyecto es administrado por Apache Software
Foundation.
Se presenta como una solución para los programadores sin experiencia en
desarrollo de aplicaciones para entornos distribuidos, dado que oculta la
implementación de detalles propios de estos sistemas: paralelización de tareas,
administración de procesos, balanceo de carga y tolerancia a fallos.
Big Data y Hadoop
Originalmente fue desarrollado y empleado por las grandes empresas
dominantes en la Web, como Yahoo y Facebook. Ahora Hadoop es muy utilizado
en finanzas, tecnología, telecomunicaciones, medios y entretenimiento,
gobierno, instituciones de investigación y otros mercados con gran cantidad de
datos. Con Hadoop, las empresas pueden explorar datos complejos mediante el
análisis personalizado adaptado a sus datos y necesidades.
Hadoop fue diseñado para analizar de forma rápida y fiable los datos
estructurados y complejos. Como resultado, muchas empresas han optado por
desplegar Hadoop junto a sus demás sistemas informáticos, lo que les permite
combinar los datos antiguos y los nuevos de distintas formas novedosas.