0% encontró este documento útil (0 votos)
50 vistas6 páginas

Introducción a Apache Hive en Big Data

Este documento presenta una práctica sobre el uso de Apache Hive para el análisis de datos masivos. Explica cómo crear una tabla externa en Hive usando un archivo de datos, realizar consultas SQL en la tabla para extraer y analizar información, y eliminar la tabla al final. El objetivo es adquirir conocimientos básicos sobre el uso de Hive para proyectos de análisis de grandes volúmenes de datos.

Cargado por

Manuel Correa
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
50 vistas6 páginas

Introducción a Apache Hive en Big Data

Este documento presenta una práctica sobre el uso de Apache Hive para el análisis de datos masivos. Explica cómo crear una tabla externa en Hive usando un archivo de datos, realizar consultas SQL en la tabla para extraer y analizar información, y eliminar la tabla al final. El objetivo es adquirir conocimientos básicos sobre el uso de Hive para proyectos de análisis de grandes volúmenes de datos.

Cargado por

Manuel Correa
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

INSTITUTO TECNOLOGICO DE HERMOSILLO

PRÁCTICA 7: HIVE

MATERIA: DATOS MASIVOS

DOCENTE: HINOJOSA PALAFOX EDUARDO ANTONIO

ALUMNO: CORREA MARTINEZ MANUEL FRANCISCO

GRUPO: S8A

Hermosillo, Son.
INTRODUCCIÓN
En esta práctica, se trabajará en el fascinante mundo de Apache Hive, una
herramienta de análisis de datos ampliamente utilizada en el ecosistema de Big
Data. Hive brinda una forma sencilla y familiar de trabajar con datos, utilizando un
lenguaje de consulta similar a SQL para realizar análisis y extracción de
información. La capacidad de Hive para procesar grandes volúmenes de datos de
manera eficiente y su compatibilidad con diferentes formatos y tipos de datos hacen
de esta herramienta una opción poderosa para el análisis y la exploración de datos
en entornos de Big Data.

Al finalizar esta práctica, se habrán adquirido los conocimientos básicos necesarios


para utilizar Apache Hive como una herramienta confiable y eficiente en proyectos
de análisis de datos.

DESARROLLO
Para dar inicio a la práctica es necesario tener corriendo la máquina virtual con
Cloudera, una vez esto esté listo, es necesario abrir una terminal en Cloudera para
verificar que este correctamente funcionando Hive, para ello ejecutamos el comando
$ hive como se muestra a continuación:

Al ejecutar el comando tardará tan solo uno segundos y después tiene que aparecer
la sentencia hive> esto indicará que podemos ejecutar sentencias en Hive, por lo
que deducimos que todo esta correctamente funcionando.

1
Lo siguiente es descargar el archivo que lleva por nombre “[Link]”, el cual
servirá para trabajar con esta práctica. Una vez descargado dicho archivo es
necesario ejecutar el siguiente comando:

$ hdfs dfs -put /home/cloudera/Downloads/[Link] /user/hadoop

Este comando se utiliza para copiar el archivo "[Link]" desde la ubicación local
"/home/cloudera/Downloads/[Link]" al directorio "/user/hadoop" en el sistema
de archivos Hadoop Distributed File System (HDFS). Una vez ejecutado se habrá
copiado el archivo al destino dicho, lo siguiente será comprobar que se haya
copiado correctamente, y esto es con la ayuda del comando siguiente:

$ hdfs dfs -ls /user/hadoop

El resultado será el siguiente, comprobando que se ha realizado correctamente la


copia del archivo.

Ahora se verifica que el archivo tenga el contenido que se espera, esto se observa
ejecutando el comando siguiente:

$ hdfs dfs -cat /user/hadoop/[Link]

Y el resultado será el siguiente, en donde se muestra el contenido de dicho archivo:

2
Después, se ejecuta nuevamente el comando hive para comenzar con la creación
de una tabla externa donde se tendrán tres atributos los cuales son un identificador
de tipo entero, un nombre de tipo cadena de caracteres, y el nombre del
departamento donde trabaja el empleado que también será una cadena de
caracteres.

El comando "CREATE EXTERNAL TABLE" en Hive se utiliza para crear una tabla
externa llamada "nombres" con tres columnas: "ID", "nombre" y "departamento".
Esta tabla será utilizada para estructurar y organizar los datos que se cargarán o
consultarán posteriormente en Hive.

Una vez ejecutada la creación de la tabla externa, Hive permite ejecutar las
consultas dando una sangría o bloque de ejecución, la sentencia se termina una vez
que se coloca ;

Ahora se realiza una consulta a la tabla nombres para verificar la creación de la


tabla con las instrucciones anteriores :

3
Ahora se pueden realizar consultas sencillas ya que los datos no solo son un
archivo hdfs si no que también son una tabla y se pueden consultar como si se
estuviera en una base datos relacional.

Por ejemplo se ejecutará el siguiente comando:

SELECT nombre FROM nombres WHERE ID>22

Y como se puede observar, se ejecuta de manera correcta el comando y arroja los


resultados correctos.

Ejemplo 2
En este caso se buscará el departamento al que corresponde la persona a través de
la consulta de su nombre:

A medida que la consulta sea más abstracta, Hive tardará más en ejecutarla, pero el
resultado será el correcto al finalizar la sentencia.

Ahora por último podemos realizar otra consulta, esta vez eliminando la tabla
nombres que se ha creado:

4
CONCLUSIÓN
He aprendido cómo crear tablas y bases de datos en Hive, importar datos desde
diversas fuentes y ejecutar consultas utilizando un lenguaje de consulta similar a
SQL. A través de estas consultas básicas, obteniendo información valiosa de los
datos.

OBSERVACIONES PERSONALES

Es importante destacar que esta ha sido solo una introducción al uso básico de
Hive. Hay muchas más características y funcionalidades que se pueden explorar y
dominar en futuras prácticas y proyectos. Hive es una herramienta versátil y en
constante evolución, y su dominio puede abrir nuevas puertas en el mundo del
análisis de datos en entornos de Big Data.

También podría gustarte