Hive Tutorial

Apache Hive es una herramienta de data warehouse sobre Hadoop que permite consultar y analizar datos almacenados en HDFS mediante un lenguaje muy parecido a SQL (HiveQL). En lugar de gestionar directamente archivos distribuidos, los datos se estructuran en tablas gestionadas o externas que apuntan a rutas en HDFS. Hive es ideal para análisis batch, agregaciones y consultas sobre grandes volúmenes de datos, con la ventaja de soportar formatos como CSV, Parquet u ORC, y permite trabajar con partic

Cargado por

Carlos Garcia Villaran

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

27 vistas3 páginas

Hive Tutorial

Cargado por

Carlos Garcia Villaran

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

🐝 Tutorial de Apache Hive

1. ¿Qué es Hive?
Apache Hive es un data warehouse sobre Hadoop que permite:
• Consultar datos en HDFS usando un lenguaje tipo SQL (HiveQL).
• Definir tablas que se corresponden con archivos en HDFS.
• Procesar datos a gran escala sin escribir MapReduce directamente.
• Integrarse con herramientas de análisis (ej. Superset, Power BI, Tableau).
👉 Hive no almacena datos en sí, solo define cómo interpretar los archivos en HDFS.
La información de las tablas se guarda en una metastore (por defecto en Derby o
MySQL/PostgreSQL).

2. Flujo básico de trabajo

1. Guardar datos en HDFS.
2. Crear una tabla en Hive que apunte a esos datos.
3. Consultar con HiveQL (similar a SQL).
4. Usar funciones para transformar y analizar.

3. Comandos básicos de Hive

🔹 Entrar en Hive
hive # abre la CLI interactiva
beeline -u jdbc:hive2://localhost:10000 # cliente JDBC (HiveServer2)

🔹 Manejo de bases de datos

CREATE DATABASE ventas;
SHOW DATABASES;
USE ventas;
DROP DATABASE ventas CASCADE;

🔹 Tablas
Existen dos tipos:
• Managed tables (gestionadas) → Hive controla los datos (si borras la tabla, borra también
los datos en HDFS).
• External tables → Hive solo lee, los datos permanecen en HDFS aunque borres la tabla.

Crear tabla gestionada

CREATE TABLE productos (
id INT,
nombre STRING,
precio FLOAT
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE;

Crear tabla externa

CREATE EXTERNAL TABLE ventas (
producto_id INT,
cantidad INT,
fecha STRING
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
LOCATION '/bigdata/ventas/';

🔹 Cargar datos
LOAD DATA LOCAL INPATH '/home/hduser/productos.csv'
OVERWRITE INTO TABLE productos;

LOAD DATA INPATH '/bigdata/ventas/ventas.csv'

INTO TABLE ventas;

🔹 Consultas básicas
SELECT * FROM productos;
SELECT nombre, precio FROM productos WHERE precio > 20;
SELECT COUNT(*) FROM ventas;
SELECT producto_id, SUM(cantidad)
FROM ventas
GROUP BY producto_id;

🔹 Particiones y buckets
• Particiones → dividen los datos en carpetas por valor de una columna.
• Buckets → dividen datos dentro de una partición para paralelizar consultas.
Ejemplo con particiones:
CREATE TABLE ventas_part (
producto_id INT,
cantidad INT
)
PARTITIONED BY (fecha STRING)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ',';
4. Ejercicios prácticos 🎓
Ejercicio 1 – Crear DB y tablas
1. Crear la base de datos bigdata.

2. Dentro, crear una tabla alumnos con columnas: id, nombre, ciclo.

3. Mostrar todas las bases de datos y tablas creadas.

Ejercicio 2 – Subir datos

1. Guardar un CSV en HDFS (/bigdata/datos/alumnos.csv).

2. Crear una tabla externa en Hive que apunte a ese CSV.

3. Consultar todos los registros con SELECT *.

Ejercicio 3 – Consultas básicas

Con la tabla de ventas:
1. Listar los productos vendidos más de 10 veces.
2. Calcular el total de ventas por producto.
3. Obtener las fechas en las que se vendieron más de 100 unidades.

Ejercicio 4 – Particiones
1. Crear una tabla de logs con columnas: usuario, acción, fecha.
2. Particionarla por fecha (PARTITIONED BY (fecha STRING)).

3. Subir dos ficheros de log (ej. /logs/2025-09-01, /logs/2025-09-02) a HDFS.

4. Añadir particiones y consultar solo las de un día.

5. Consejos importantes
• Hive es batch, no para consultas en tiempo real.
• Para datos no estructurados (JSON, Avro, Parquet) → usar SerDes
(Serializers/Deserializers).
• Si quieres velocidad → usar ORC/Parquet + Tez o SparkSQL en lugar de MapReduce.

También podría gustarte

08 Hive
Aún no hay calificaciones
08 Hive
15 páginas
Introducción a Apache Hive en Big Data
Aún no hay calificaciones
Introducción a Apache Hive en Big Data
6 páginas
Hive
Aún no hay calificaciones
Hive
57 páginas
Laboratorio de Apache Hive
Aún no hay calificaciones
Laboratorio de Apache Hive
9 páginas
Ejercicios HIVE
Aún no hay calificaciones
Ejercicios HIVE
13 páginas
Introducción a Apache Hive y su uso
Aún no hay calificaciones
Introducción a Apache Hive y su uso
19 páginas
Componentes Básicos de Una Solución de Big Data: Andrei Garzón Módulo II
Aún no hay calificaciones
Componentes Básicos de Una Solución de Big Data: Andrei Garzón Módulo II
15 páginas
BigData Tools
Aún no hay calificaciones
BigData Tools
10 páginas
Introducción a Apache Hive y su Arquitectura
Aún no hay calificaciones
Introducción a Apache Hive y su Arquitectura
12 páginas
Big Data (III Unidad)
Aún no hay calificaciones
Big Data (III Unidad)
54 páginas
MCDMA - 04 Presentaciones - U2 - Opt
Aún no hay calificaciones
MCDMA - 04 Presentaciones - U2 - Opt
120 páginas
03 Ecosistema Hadoop
Aún no hay calificaciones
03 Ecosistema Hadoop
35 páginas
Actividad 7. Investigación Hive
Aún no hay calificaciones
Actividad 7. Investigación Hive
26 páginas
Introducción a Hive en Big Data
Aún no hay calificaciones
Introducción a Hive en Big Data
39 páginas
5 0 Cloudera
Aún no hay calificaciones
5 0 Cloudera
18 páginas
Motores SQL: Hive e Impala
Aún no hay calificaciones
Motores SQL: Hive e Impala
35 páginas
Integracion de Datos PDF
Aún no hay calificaciones
Integracion de Datos PDF
3 páginas
Tema 7
Aún no hay calificaciones
Tema 7
32 páginas
Introducción a Sqoop en Hadoop
Aún no hay calificaciones
Introducción a Sqoop en Hadoop
2 páginas
Información Cloudera
Aún no hay calificaciones
Información Cloudera
4 páginas
SCALA
Aún no hay calificaciones
SCALA
6 páginas
Laboratorio GCP: Exploración de Datos Telco
Aún no hay calificaciones
Laboratorio GCP: Exploración de Datos Telco
16 páginas
Taller Big Data: Hive e Impala
Aún no hay calificaciones
Taller Big Data: Hive e Impala
10 páginas
Hive
Aún no hay calificaciones
Hive
6 páginas
60-Hive Presentación PDF
Aún no hay calificaciones
60-Hive Presentación PDF
9 páginas
Practico Big Data - Hive
Aún no hay calificaciones
Practico Big Data - Hive
12 páginas
Introducción a Apache Hive en Hadoop
Aún no hay calificaciones
Introducción a Apache Hive en Hadoop
1 página
Interfaces Big Data: HUE, Cloudera y Ambari
Aún no hay calificaciones
Interfaces Big Data: HUE, Cloudera y Ambari
17 páginas
Lab Cloud Dataproc - Hadoop - Hive
Aún no hay calificaciones
Lab Cloud Dataproc - Hadoop - Hive
13 páginas
10 Cloudera Hue Impala
Aún no hay calificaciones
10 Cloudera Hue Impala
15 páginas
Guía de Resolución - Proyecto 4
Aún no hay calificaciones
Guía de Resolución - Proyecto 4
39 páginas
Hibernate JP A
Aún no hay calificaciones
Hibernate JP A
31 páginas
Sesion 02 - Introduccion A BigData Parte II
Aún no hay calificaciones
Sesion 02 - Introduccion A BigData Parte II
25 páginas
Introducción a HBase y su instalación
Aún no hay calificaciones
Introducción a HBase y su instalación
6 páginas
Taller de Preparación-Spark-Cloudera
Aún no hay calificaciones
Taller de Preparación-Spark-Cloudera
20 páginas
Manual Big Data
Aún no hay calificaciones
Manual Big Data
61 páginas
Formación Cloudera y Ecosistema Hadoop
Aún no hay calificaciones
Formación Cloudera y Ecosistema Hadoop
95 páginas
17 Curso de BigQuery para Análisis SQL
Aún no hay calificaciones
17 Curso de BigQuery para Análisis SQL
4 páginas
Creación de Tablas en SQL para iissi
Aún no hay calificaciones
Creación de Tablas en SQL para iissi
68 páginas
noSQL Mongo2
Aún no hay calificaciones
noSQL Mongo2
102 páginas
Guía: Instalar Hive en Windows 10
Aún no hay calificaciones
Guía: Instalar Hive en Windows 10
14 páginas
Análisis y Gestión en Big Data
Aún no hay calificaciones
Análisis y Gestión en Big Data
21 páginas
Taller de Sqoop: Ingesta de Datos en Hadoop
Aún no hay calificaciones
Taller de Sqoop: Ingesta de Datos en Hadoop
18 páginas
Unidad 2 Ejercicio 3 POB 1ERA PARTE
Aún no hay calificaciones
Unidad 2 Ejercicio 3 POB 1ERA PARTE
17 páginas
Guía de Estudio para Ingeniero de Datos Junior
Aún no hay calificaciones
Guía de Estudio para Ingeniero de Datos Junior
25 páginas
Guía Práctica de SQL en Industrias X.0
Aún no hay calificaciones
Guía Práctica de SQL en Industrias X.0
33 páginas
Clase 22-08-2023
Aún no hay calificaciones
Clase 22-08-2023
19 páginas
Práctica Gestor NoSQL Apache
Aún no hay calificaciones
Práctica Gestor NoSQL Apache
13 páginas
Infografia de SQL (Basico)
Aún no hay calificaciones
Infografia de SQL (Basico)
25 páginas
Realización de Consultas SQL
40% (5)
Realización de Consultas SQL
40 páginas
Guía Completa de MongoDB: Comandos y CRUD
Aún no hay calificaciones
Guía Completa de MongoDB: Comandos y CRUD
75 páginas
Todos Los Apuntes PDF
Aún no hay calificaciones
Todos Los Apuntes PDF
203 páginas
Index Solucion
Aún no hay calificaciones
Index Solucion
45 páginas
Estructura de Base de Datos de Eventos
Aún no hay calificaciones
Estructura de Base de Datos de Eventos
3 páginas
Cuaderno FBD
Aún no hay calificaciones
Cuaderno FBD
92 páginas
Fundamentos de Apache Spark en Ciencia de Datos
Aún no hay calificaciones
Fundamentos de Apache Spark en Ciencia de Datos
23 páginas
Sarai Tlahuancapa Lombera 509
Aún no hay calificaciones
Sarai Tlahuancapa Lombera 509
36 páginas
Ejercicios SQL para Estudiantes
Aún no hay calificaciones
Ejercicios SQL para Estudiantes
43 páginas
CASTIBLANCO CANTOR DAVID Cloud Computing - Bases de Datos en La Nube y ETL
Aún no hay calificaciones
CASTIBLANCO CANTOR DAVID Cloud Computing - Bases de Datos en La Nube y ETL
15 páginas
BBDD SQL Ejercicios
Aún no hay calificaciones
BBDD SQL Ejercicios
4 páginas
Introducción a Apache Spark
Aún no hay calificaciones
Introducción a Apache Spark
66 páginas
Aa1 Big Data
Aún no hay calificaciones
Aa1 Big Data
8 páginas
Sesión 8 - Introducción A Apache Spark
Aún no hay calificaciones
Sesión 8 - Introducción A Apache Spark
39 páginas
Dossier Master Big Data Engineering Ucm
Aún no hay calificaciones
Dossier Master Big Data Engineering Ucm
33 páginas
Evaluacion4 BigData
Aún no hay calificaciones
Evaluacion4 BigData
8 páginas
Big Data Analytics Project Management
Aún no hay calificaciones
Big Data Analytics Project Management
67 páginas
Cuestionario Del Capítulo 3 - Internet de Las Cosas 2.0
Aún no hay calificaciones
Cuestionario Del Capítulo 3 - Internet de Las Cosas 2.0
10 páginas
Teoria M4
Aún no hay calificaciones
Teoria M4
41 páginas
Base - de - Datos - BIG - DATA-empresa Gloria
Aún no hay calificaciones
Base - de - Datos - BIG - DATA-empresa Gloria
12 páginas
Cronologia de Las Tecnologias
Aún no hay calificaciones
Cronologia de Las Tecnologias
6 páginas
Aplicaciones de La Big Data en Finanzas
Aún no hay calificaciones
Aplicaciones de La Big Data en Finanzas
12 páginas
DP 900T00A ES PowerPoint - 04
Aún no hay calificaciones
DP 900T00A ES PowerPoint - 04
27 páginas
AAD U1a-2
Aún no hay calificaciones
AAD U1a-2
17 páginas
Instalacion Hadoop MultiModo
Aún no hay calificaciones
Instalacion Hadoop MultiModo
9 páginas
Cloudera
Aún no hay calificaciones
Cloudera
14 páginas
Big Data Con Apache Spark y Python: de Cero A Experto
Aún no hay calificaciones
Big Data Con Apache Spark y Python: de Cero A Experto
28 páginas
Trabajo Completao
Aún no hay calificaciones
Trabajo Completao
10 páginas
Modulo 3 Actividad de Proyecto Spark en Docker
Aún no hay calificaciones
Modulo 3 Actividad de Proyecto Spark en Docker
6 páginas
Diseño de Una Arquitectura Con Seguridad en Un Entorno Big Data - Equipo29
Aún no hay calificaciones
Diseño de Una Arquitectura Con Seguridad en Un Entorno Big Data - Equipo29
14 páginas
El Mundo del DBA en la Era Digital
100% (1)
El Mundo del DBA en la Era Digital
27 páginas
Fundamentos de Apache Hadoop y MapReduce
Aún no hay calificaciones
Fundamentos de Apache Hadoop y MapReduce
27 páginas
Comandos Esenciales de HDFS
Aún no hay calificaciones
Comandos Esenciales de HDFS
6 páginas
Sobre Datapath
Aún no hay calificaciones
Sobre Datapath
7 páginas
Introducción a Hadoop y Big Data
100% (2)
Introducción a Hadoop y Big Data
58 páginas
GIT-clonar Repositorios y Levantar Contenedores Docker
Aún no hay calificaciones
GIT-clonar Repositorios y Levantar Contenedores Docker
6 páginas
Ecosistema Hadoop: Guía Completa
Aún no hay calificaciones
Ecosistema Hadoop: Guía Completa
22 páginas
La Era de La Aceleración - Thomas Friedman
Aún no hay calificaciones
La Era de La Aceleración - Thomas Friedman
17 páginas
Capacitación en Big Data: Conceptos y Aplicaciones
100% (1)
Capacitación en Big Data: Conceptos y Aplicaciones
218 páginas
Introducción A BigData
Aún no hay calificaciones
Introducción A BigData
92 páginas