Nombre del Profesor: Félix Ramírez Cervantes
Practica: Installing Hadoop
Materia: Tecnologías Computacionales
Alumno: Barrera Villalva Ismael Alejandro
Avelar Luna Jonathan
Vivar Cruz Juan Carlos
Grupo: ICO7i Turno: Vespertino Semestre: 8vo.
Introducción:
Hadoop es una poderosa herramienta de software de código abierto diseñada para el
procesamiento distribuido de grandes conjuntos de datos en clústeres de computadoras. Su
función principal es permitir el almacenamiento y procesamiento eficiente de datos a gran escala,
lo que lo hace especialmente útil para empresas y organizaciones que necesitan gestionar grandes
volúmenes de información.
La capacidad distintiva de Hadoop radica en su capacidad para dividir grandes conjuntos de datos
en fragmentos más pequeños y distribuirlos en múltiples nodos de un clúster de servidores,
permitiendo así el procesamiento paralelo y la tolerancia a fallos. Esto significa que Hadoop puede
manejar la carga de trabajo de manera eficiente incluso en entornos donde los datos son
extremadamente grandes y complejos.
Entre las principales aplicaciones y casos de uso de Hadoop se encuentran:
1. **Procesamiento de datos en lotes**: Hadoop es ideal para tareas que implican el
procesamiento de grandes cantidades de datos en lotes, como la preparación de datos para
análisis, la generación de informes, la minería de datos y la extracción de información útil.
2. **Análisis de datos**: Permite la ejecución de análisis avanzados sobre grandes conjuntos de
datos, incluyendo análisis predictivos, análisis de tendencias, segmentación de clientes y más. Esto
ayuda a las empresas a obtener información valiosa para la toma de decisiones estratégicas.
3. **Almacenamiento escalable y económico**: Hadoop proporciona un almacenamiento
distribuido escalable y rentable para datos de diversas fuentes y formatos. Esto es especialmente
útil para empresas que necesitan almacenar grandes cantidades de datos sin incurrir en costos
prohibitivos.
4. **Procesamiento de datos en tiempo real**: Aunque Hadoop se destaca más por su capacidad
para procesar datos en lotes, también puede integrarse con otras tecnologías, como Apache Spark,
para admitir el procesamiento de datos en tiempo real. Esto es útil para aplicaciones que
requieren análisis y respuesta instantáneos.
En resumen, Hadoop sirve como una plataforma robusta y escalable para el almacenamiento y
procesamiento de datos a gran escala, lo que ayuda a las empresas a gestionar eficientemente sus
datos y obtener información valiosa para la toma de decisiones
Para empezar con nuestra instalación de Hadoop tendremos que ingresar a la página de Hadoop y
al ingresar nos dirigimos a la pestaña de descargas
[Link]
Escogemos nuestra versión y descargamos binary download
Una vez descargada la carpeta
Nos dirigimos a nuestro disco local y creamos una nueva carpeta con el nombre hadoop
Y dentro de la carpeta extraemos nuestros archivos
Después nos dirigimos a las propiedades de nuestro equipo y después a configuraciones avanzadas
del sistema
Después escogemos nuestra variable de entorno
Generamos una nueva variable
La primera variable llevará el nombre HADDOP_HOME y la segunda casilla será la dirección de
nuestra carpeta y damos aceptar
La segunda variable llevará por nombre JAVA_HOME y la dirección será nuestra carpeta donde
tengamos nuestro java jdk.
Después crearemos dos variantes más en nuestras variables de sistema y buscamos la variable
Path
En nuestra carpeta Hadoop buscamos la carpeta con nombre bin y copiamos nuestra dirección,
damos en nuevo y pegamos nuestra dirección.
Y volvemos a repetir el paso, pero con nuestra dirección de la carpeta del Java jdk
En nuestra carpeta hadoop crearemos una carpeta con el nombre data
Una vez creada nos dirigimos a la carpeta etc y buscamos el archivo hadoop-env y le damos en
editar
En nuestro documento de texto buscamos SET Java Home y agregamos nuestra dirección del java
jdk que utilizaremos
Después de acabar nuestra configuración abriremos un CMD y pondremos los siguientes
comandos
hdfs namenode –format (Para instalar los archivos faltantes del hadoop)
d c:/hadoop/sbin (Para ingresar a nuestra carpeta de hadoop)
Star-all (Para iniciar nuestro programa)
Y una vez iniciado empezara a correr el programa
Y podremos checarlo en nuestra ventana de internet con la dirección localhost:50070