Integración de Sqoop con Cloudera

Este documento presenta una práctica sobre Apache Sqoop, una herramienta que permite transferir datos entre bases de datos relacionales y el sistema de archivos Hadoop Distributed File System (HDFS). Explica cómo instalar y configurar Sqoop en Cloudera para importar y exportar datos entre MySQL y HDFS, realizando operaciones como importar solo registros que cumplen ciertos criterios y exportar datos a una tabla temporal.

Cargado por

Manuel Correa

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

62 vistas9 páginas

Integración de Sqoop con Cloudera

Cargado por

Manuel Correa

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

INSTITUTO TECNOLÓGICO DE HERMOSILLO

PRÁCTICA 5: SQOOP

MATERIA: DATOS MASIVOS

DOCENTE: HINOJOSA PALAFOX EDUARDO ANTONIO

ALUMNO: CORREA MARTINEZ MANUEL FRANCISCO

GRUPO: S8A

Hermosillo, Son.
INTRODUCCIÓN

En el mundo actual, la cantidad de datos generados y almacenados por las

organizaciones es enorme. Para aprovechar al máximo esta invaluable información,
es necesario contar con herramientas y técnicas eficientes para acceder, procesar y
analizar los datos. En este contexto, Apache Sqoop se presenta como una poderosa
herramienta que permite trabajar con bases de datos y facilita la incorporación de
contenido de bases de datos relacionales dentro de un sistema Hadoop Distributed
File System (HDFS).

Sqoop ofrece una solución eficiente para extraer, transformar y cargar (ETL) datos
desde bases de datos relacionales hacia el ecosistema Hadoop. A través de su
interfaz intuitiva y su capacidad para realizar tareas automatizadas, Sqoop se
convierte en una herramienta fundamental para los profesionales del análisis de
datos y científicos de datos que desean trabajar con datos estructurados y no
estructurados de manera conjunta.

En esta práctica, se explicará en detalle el funcionamiento de Apache Sqoop y su

integración con el entorno de Cloudera, una plataforma líder en la gestión de big
data. Comprenderemos cómo Sqoop facilita la transferencia de datos entre bases
de datos relacionales y el sistema HDFS, lo que permite aprovechar las ventajas del
procesamiento distribuido de datos en entornos de big data.
DESARROLLO

Para dar inicio a la práctica es necesario contar con el entorno Cloudera el cual se
debe ejecutar en una máquina virtual, en esta ocasión se está utilizando Oracle
Virtualbox. Una vez inicializado Cloudera, es necesario abrir una nueva terminal
para ejecutar el comando siguiente: $ sqoop version , este comando arroja la
versión de sqoop que está instalada en Cloudera.

Como siguiente paso, se abre una nueva terminal para ejecutar el comando $
mysql -u root -p el cual permite iniciar la línea de comandos del cliente de
MySQL como usuario "root" y solicita la contraseña correspondiente. Una vez que
se ingrese la contraseña correcta, se establecerá la conexión con el servidor de
MySQL y se podrá interactuar con la base de datos utilizando comandos y consultas
de MySQL.
Lo siguiente consta de ejecutar el comando:
$ sqoop import --connect jdbc:mysql://localhost/retail_db
--username root --P --table categories --target-dir sqoop

Este comando utilizará Sqoop para conectarse a la base de datos MySQL

"retail_db" utilizando el usuario "root" y su respectiva contraseña. Luego, importará
los datos de la tabla "categories" y los almacenará en el directorio "sqoop" del
sistema de archivos Hadoop.

Ahora ejecutamos el comando $ hdfs dfs -ls sqoop el cual mostrará una lista de
archivos y directorios que se encuentran dentro del directorio "sqoop" en el sistema
de archivos HDFS. Esto permite al usuario verificar la existencia y la estructura de
los archivos almacenados en ese directorio específico.

Con el comando $ hdfs dfs -cat sqoop/part-m-00000 se mostrará el contenido

del archivo "part-m-00000" que se encuentra dentro del directorio "sqoop" en el
sistema de archivos HDFS. Esto permite ver el contenido del archivo de forma
continua en la salida estándar de la terminal.
Una vez realizado lo anterior, se realiza una consulta en SQL con el siguiente
comando:

Esta consulta devuelve todas las filas de la tabla "customers" donde la columna
"customer_city" tiene el valor "Austin". Esto permite recuperar todos los registros de
clientes que tienen "Austin" como su ciudad de residencia. El resultado es el
siguiente:

Lo siguiente será conectarse de nuevo a mysql y ejecutar el comando:

$ sqoop import --connect jdbc:mysql://localhost/retail_db
--username root --P --table costumers --m 1 --target-dir austin
--where "customer_city='Austin'"

Este comando utiliza Sqoop para conectarse a la base de datos MySQL "retail_db"
utilizando el usuario "root" y su respectiva contraseña. Luego, importa los datos de
la tabla "customers" y los almacena en el directorio "austin" del sistema de archivos
HDFS. Solo se importarán los registros de clientes cuya ciudad sea "Austin". El
proceso de importación se realiza con un solo mapper.
Se comprueba que los registros se hayan insertado en un archivo HDFS, esto se
verifica con el siguiente comando $ hdfs dfs -ls austin

Solo se ve que hay un registro el cual es “part-m-00000”, se entra al archivo para

ver su contenido con el siguiente comando:

$ hdfs dfs -cat austin/part-m-00000

Y como se ve a continuación se muestran los registros que comparten el atributo

“customer_city=’Austin’”.
Por último se crea una tabla temporal para verificar que se pueden exportar datos
utilizando, esto se hace con el siguiente comando en SQL:
CREATE TABLE temp ( id INT NOT NULL PRIMARY KEY, cat INT, name
VARCHAR(30));

Después en la otra terminal con el comando:

$ sqoop export --connect jdbc:mysql://localhost/retail_db --username

root --P --table temp --export-dir sqoop

Este comando utiliza Sqoop para establecer una conexión con la base de datos
MySQL "retail_db" utilizando el usuario "root" y su respectiva contraseña. Luego,
exporta los datos desde el directorio "sqoop" del sistema de archivos HDFS a la
tabla "temp" de la base de datos MySQL. Los datos serán extraídos del directorio
especificado y cargados en la tabla indicada.
Se realiza una consulta en SQL para comprobar que los datos se hayan exportado a
la tabla temp.
CONCLUSIÓN

En conclusión, en esta práctica he explorado cómo funciona la herramienta Apache

Sqoop y su integración con el entorno de Cloudera para trabajar con bases de datos
y la incorporación de contenido de bases de datos relacionales dentro de un sistema
Hadoop Distributed File System (HDFS). A través de esta práctica, he adquirido
conocimientos prácticos sobre la configuración de Sqoop, las opciones de
importación y exportación de datos, y las transformaciones básicas durante el
proceso. He comprendido cómo Sqoop facilita la transferencia de datos desde
bases de datos relacionales hacia el ecosistema Hadoop, lo que me permite
aprovechar las ventajas del procesamiento distribuido de datos en entornos de big
data.

OBSERVACIONES PERSONALES
Puedo decir que Apache Sqoop y el entorno de Cloudera ofrecen una combinación
poderosa para trabajar con bases de datos relacionales en entornos de big data.
Esta práctica me ha permitido explorar y comprender el potencial de Sqoop, en
cuanto a que me ha brindado las habilidades y conocimientos necesarios para
aprovechar al máximo estas tecnologías en mis proyectos de análisis y
procesamiento de datos.

También podría gustarte

Ejercicio Practico Con Soop
Aún no hay calificaciones
Ejercicio Practico Con Soop
3 páginas
Taller de Sqoop: Ingesta de Datos en Hadoop
Aún no hay calificaciones
Taller de Sqoop: Ingesta de Datos en Hadoop
18 páginas
Importación de Datos con Apache Sqoop
Aún no hay calificaciones
Importación de Datos con Apache Sqoop
23 páginas
Integracion de Datos PDF
Aún no hay calificaciones
Integracion de Datos PDF
3 páginas
Guía de comandos para Apache Sqoop
Aún no hay calificaciones
Guía de comandos para Apache Sqoop
10 páginas
Introducción a Apache Sqoop
Aún no hay calificaciones
Introducción a Apache Sqoop
12 páginas
Tarea 03 Sqoop Desarrollado
Aún no hay calificaciones
Tarea 03 Sqoop Desarrollado
10 páginas
Cloudera en Docker Sobre AWS y SQOOP y PIG
Aún no hay calificaciones
Cloudera en Docker Sobre AWS y SQOOP y PIG
7 páginas
Introducción a Apache Sqoop en Hadoop
Aún no hay calificaciones
Introducción a Apache Sqoop en Hadoop
4 páginas
BigData Tools
Aún no hay calificaciones
BigData Tools
4 páginas
Guía de Sqoop para Bases de Datos
Aún no hay calificaciones
Guía de Sqoop para Bases de Datos
8 páginas
Importación de Datos con Sqoop en Hadoop
Aún no hay calificaciones
Importación de Datos con Sqoop en Hadoop
2 páginas
5 0 Cloudera
Aún no hay calificaciones
5 0 Cloudera
18 páginas
BigData Tools
Aún no hay calificaciones
BigData Tools
10 páginas
Sesiones Hadoop 2 3
Aún no hay calificaciones
Sesiones Hadoop 2 3
5 páginas
S203. Sqoop
Aún no hay calificaciones
S203. Sqoop
21 páginas
Trabajo Fin de Master: Escuela de Ingeniería Informática de Valladolid
Aún no hay calificaciones
Trabajo Fin de Master: Escuela de Ingeniería Informática de Valladolid
152 páginas
Laboratorio 02 - Ingestas en HDFS y Ejercicios HIVE
Aún no hay calificaciones
Laboratorio 02 - Ingestas en HDFS y Ejercicios HIVE
29 páginas
1 - 6 Practica Semana 1
Aún no hay calificaciones
1 - 6 Practica Semana 1
16 páginas
Taller Practico MONGO DB
Aún no hay calificaciones
Taller Practico MONGO DB
4 páginas
Guía Completa de MySQL y Docker
Aún no hay calificaciones
Guía Completa de MySQL y Docker
9 páginas
Guía Completa de MongoDB: Comandos y CRUD
Aún no hay calificaciones
Guía Completa de MongoDB: Comandos y CRUD
75 páginas
Tutorial de CockroachDB
Aún no hay calificaciones
Tutorial de CockroachDB
25 páginas
Practico ETL David
Aún no hay calificaciones
Practico ETL David
14 páginas
Laboratorio GCP: Exploración de Datos Telco
Aún no hay calificaciones
Laboratorio GCP: Exploración de Datos Telco
16 páginas
MySQL Con Docker
Aún no hay calificaciones
MySQL Con Docker
5 páginas
Actividad Big Data: Consultas con Hive e Impala
Aún no hay calificaciones
Actividad Big Data: Consultas con Hive e Impala
2 páginas
Lab Cloud Dataproc - Hadoop - Hive
Aún no hay calificaciones
Lab Cloud Dataproc - Hadoop - Hive
13 páginas
Guía de Trazabilidad en Odoo y PostgreSQL
Aún no hay calificaciones
Guía de Trazabilidad en Odoo y PostgreSQL
9 páginas
Big Data Fundamentals - Ma Afq6e2s
Aún no hay calificaciones
Big Data Fundamentals - Ma Afq6e2s
6 páginas
Consulta MapReduce en Hadoop
Aún no hay calificaciones
Consulta MapReduce en Hadoop
12 páginas
Tarea RDS Hazel Videa
Aún no hay calificaciones
Tarea RDS Hazel Videa
11 páginas
Index Solucion
Aún no hay calificaciones
Index Solucion
45 páginas
Infraestructura Virtualizada para Big Data
Aún no hay calificaciones
Infraestructura Virtualizada para Big Data
226 páginas
Introducción a phpMyAdmin y MySQL
Aún no hay calificaciones
Introducción a phpMyAdmin y MySQL
9 páginas
Realización de Consultas SQL
40% (5)
Realización de Consultas SQL
40 páginas
Creación de Tablas en SQL para iissi
Aún no hay calificaciones
Creación de Tablas en SQL para iissi
68 páginas
Practica 2
Aún no hay calificaciones
Practica 2
2 páginas
Tsoii Reporteprac Bryancm 5a
Aún no hay calificaciones
Tsoii Reporteprac Bryancm 5a
17 páginas
Conexión y gestión de bases de datos en DBeaver
Aún no hay calificaciones
Conexión y gestión de bases de datos en DBeaver
22 páginas
03 Ecosistema Hadoop
Aún no hay calificaciones
03 Ecosistema Hadoop
35 páginas
Introducción a Apache Hive en Big Data
Aún no hay calificaciones
Introducción a Apache Hive en Big Data
6 páginas
Creacion de Empresas en Hosting y Accesso
Aún no hay calificaciones
Creacion de Empresas en Hosting y Accesso
11 páginas
Conexión Python-MySQL para Ingenieros
Aún no hay calificaciones
Conexión Python-MySQL para Ingenieros
7 páginas
MySQL y Python: Guía para Estudiantes
Aún no hay calificaciones
MySQL y Python: Guía para Estudiantes
15 páginas
Guia TELCOM
Aún no hay calificaciones
Guia TELCOM
27 páginas
SQL DB
Aún no hay calificaciones
SQL DB
2 páginas
Ejercicio SQL Con Base Importada
Aún no hay calificaciones
Ejercicio SQL Con Base Importada
5 páginas
Temática SQL
Aún no hay calificaciones
Temática SQL
3 páginas
Vidama 04 Act 1
Aún no hay calificaciones
Vidama 04 Act 1
8 páginas
Examen Final Taller de Programacion Distribuida
100% (1)
Examen Final Taller de Programacion Distribuida
2 páginas
Index
Aún no hay calificaciones
Index
43 páginas
noSQL Mongo2
Aún no hay calificaciones
noSQL Mongo2
102 páginas
Mongo DB
Aún no hay calificaciones
Mongo DB
10 páginas
Desarrollo MQTT Rasbian
Aún no hay calificaciones
Desarrollo MQTT Rasbian
12 páginas
Actividad de Construcción Aplicada BD
Aún no hay calificaciones
Actividad de Construcción Aplicada BD
15 páginas
Manual m6 - U1 - Tecnologías - Almacenamiento - Big - Data - v2
Aún no hay calificaciones
Manual m6 - U1 - Tecnologías - Almacenamiento - Big - Data - v2
94 páginas
Tareat2. Servidor Base 30 Puntos
Aún no hay calificaciones
Tareat2. Servidor Base 30 Puntos
14 páginas
Trabajo Final 4.5
Aún no hay calificaciones
Trabajo Final 4.5
25 páginas
Mapa Conceptual
Aún no hay calificaciones
Mapa Conceptual
2 páginas
Proyecto de Análisis de Datos de Personas Desaparecidas en Perú
Aún no hay calificaciones
Proyecto de Análisis de Datos de Personas Desaparecidas en Perú
47 páginas
Semana 1
Aún no hay calificaciones
Semana 1
5 páginas
SESION 2 - Tipos de Variables Estadísticas
Aún no hay calificaciones
SESION 2 - Tipos de Variables Estadísticas
40 páginas
Unidad 5 Sistema de Archivos
Aún no hay calificaciones
Unidad 5 Sistema de Archivos
21 páginas
Ejemplo de Sentencia DELETE en SQL
Aún no hay calificaciones
Ejemplo de Sentencia DELETE en SQL
4 páginas
Arias Analisis Critico
Aún no hay calificaciones
Arias Analisis Critico
14 páginas
ETL en SQL Server: Guía Práctica SSIS
100% (1)
ETL en SQL Server: Guía Práctica SSIS
97 páginas
Cuestionario Procesar Datos
Aún no hay calificaciones
Cuestionario Procesar Datos
3 páginas
Diseño Conceptual de Bases de Datos
Aún no hay calificaciones
Diseño Conceptual de Bases de Datos
12 páginas
Guía Completa sobre Triggers en Bases de Datos
Aún no hay calificaciones
Guía Completa sobre Triggers en Bases de Datos
34 páginas
Estructura del Anteproyecto de Investigación Educativa
Aún no hay calificaciones
Estructura del Anteproyecto de Investigación Educativa
11 páginas
Sistema de Información Gerencial
Aún no hay calificaciones
Sistema de Información Gerencial
50 páginas
DBMS Ficha de Trucos Con Enlaces Comprimidos
Aún no hay calificaciones
DBMS Ficha de Trucos Con Enlaces Comprimidos
45 páginas
Tp4 - Base de Datos
Aún no hay calificaciones
Tp4 - Base de Datos
10 páginas
Informe Tecnico de Base de Datos
Aún no hay calificaciones
Informe Tecnico de Base de Datos
16 páginas
Curso SQL Server: Consultas y Operadores
Aún no hay calificaciones
Curso SQL Server: Consultas y Operadores
18 páginas
Bases de Datos No Relacionales
Aún no hay calificaciones
Bases de Datos No Relacionales
26 páginas
SD1 Probabilidad y Estadistica
Aún no hay calificaciones
SD1 Probabilidad y Estadistica
7 páginas
Brochure Geodeps PDF
Aún no hay calificaciones
Brochure Geodeps PDF
5 páginas
Examen PRIMER PARCIAL Taller de Base de Datos
100% (1)
Examen PRIMER PARCIAL Taller de Base de Datos
10 páginas
Sesgos Cognitivos Era Digital
Aún no hay calificaciones
Sesgos Cognitivos Era Digital
18 páginas
Línea Del Tiempo de Las Bases de Datos
0% (1)
Línea Del Tiempo de Las Bases de Datos
3 páginas
Instalacion y Mantenimiento de Bases de Datos (05 Junio 2024)
Aún no hay calificaciones
Instalacion y Mantenimiento de Bases de Datos (05 Junio 2024)
42 páginas
Clasificación de Las Habilidades Básicas Del Pensamiento
Aún no hay calificaciones
Clasificación de Las Habilidades Básicas Del Pensamiento
3 páginas
S07.s7 - Polimorfismo y MVC
Aún no hay calificaciones
S07.s7 - Polimorfismo y MVC
51 páginas
Cultura Digital 2
Aún no hay calificaciones
Cultura Digital 2
38 páginas
Tablas Hash
Aún no hay calificaciones
Tablas Hash
3 páginas
DML: Edición de Datos en BD Liga
Aún no hay calificaciones
DML: Edición de Datos en BD Liga
6 páginas