Introducción a Apache Sqoop

Sqoop es una herramienta para transferir datos entre sistemas Hadoop y bases de datos relacionales. Fue desarrollada originalmente por Cloudera en 2009 para importar y exportar grandes volúmenes de datos de forma paralela. Apache adoptó el proyecto en 2011. Sqoop permite importar datos de una base de datos a HDFS, Hive o HBase, y exportar datos de HDFS a una base de datos. Funciona mediante la escritura registro a registro de manera paralela para importar, y la lectura y análisis de archivos en HDFS para exportar

Cargado por

william alexander henao rojas

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

131 vistas12 páginas

Introducción a Apache Sqoop

Cargado por

william alexander henao rojas

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

SQOOP

DIEGO RODRÍGUEZ
WILLIAM HENAO
UN POCO DE HISTORIA

Se empezó a desarrollar por medio de Aaron Kimball en el 2009, por la multitud

de conectores que se estaban realizando para ingresar datos en Hadoop y
unificar el acceso a bases de datos para importar y exportar datos. Cloudera lo
propuso para la incubadora de proyectos. Apache lo aceptó en el 2011 y en 2012
se graduó y paso a ser un proyecto Top-Level. “SQL to Hadoop and Hadoop to
SQL”
¿QUÉ ES SQOOP?

Apache Sqoop es una herramienta diseñada para soportar cargas de volúmenes

elevados de datos entre Hadoop y una base de datos relacional. Se puede utilizar
para importar datos desde un almacenamiento externo en el sistema de ficheros
distribuido de Hadoop, en Hive o en HBase. Inversamente, Sqoop puede
utilizarse para extraer datos de HDFS y exportarlo a una base de datos
relacional como MySQL, Oracle, Postgres o a un data warehouse.
¿CÓMO FUNCIONA?
IMPORT EXPORT
Sqoop escribe desde las tablas o consultas Sql específicas, registro por registro paralelamente, por lo cual el
resultado pueden ser múltiples archivos almacenados en HDFS con una copia de los datos importados.
Estos archivos podrían ser txt separados por comas o tabulaciones, binarios Avro o SequenceFiles.
EJEMPLOS
Importando desde Mysql
$ sqoop import –connect jdbc:mysql://database.example.com/employees –username jacagudelo –password
678456
Importando desde SQl Server
$ sqoop import –driver com.microsoft.jdbc.sqlserver.SQLServerDriver –connect <connect-string>

IMPORT
SELECCIONANDO DATOS A IMPORTAR
Generalmente Sqoop selecciona todos los campos de la tabla o vista origen a importar manteniendo el
orden natural de los mismos.
$ sqoop import –query ‘SELECT a.*, b.* FROM a JOIN b on (a.id == b.id) WHERE $CONDITIONS’ –split-
by a.id /
–target-dir /user/foo/joinresults

IMPORT
La herramienta de exportación genera un conjunto de archivos de HDFS a un RDBMS. Los archivos dados
como entrada a Sqoop contienen registros, que se llaman como filas en la tabla. Éstos se leen y analizan en
un conjunto de registros y se delimitan con el delimitador especificado por el usuario.
EJEMPLOS
$ sqoop export –connect jdbc:mysql://db.example.com/foo –table retail –export-dir /results/bar_data
Sqoop por defecto realiza un append en la tabla de destino, en esencia realiza un insert sobre cada registro.
Al igual que con los campos en el caso anterior, las tablas destino podrían tener Primary Key con los cual
podrían generar error de duplicidad. Este modo está destinado principalmente a exportar registros a una
nueva tabla vacía destinada a recibir estos resultados.

EXPORT
Tipos de Destino en Hadoop
Una de las principales virtudes de Hadoop es que nos brinda una gran variedad de proyectos disponibles
para usar de acuerdo a nuestras necesidades, para este caso puntual contamos con 3 proyectos específicos:
 Hive
 Hbase
 Accumulo

EXPORT
CONCLUSIONES
BIBLIOGRAFÍA

 https://bigdatadummy.com/2017/01/31/apache-
sqoop/#:~:text=Sqoop%20proporciona%20una%20API%20Java,con%20las%20q
ue%20se%20trabaja.
 http://blog.jacagudelo.com/sqoop-hadoop/
 https://sqoop.apache.org/docs/1.4.6/SqoopUserGuide.html#_introduction
 https://es.coursera.org/lecture/adquisicion-almacenamiento-de-datos/sqoop-
TGoQ8
GRACIAS!

También podría gustarte

Importación de Datos con Apache Sqoop
Aún no hay calificaciones
Importación de Datos con Apache Sqoop
23 páginas
Guía de Sqoop para Bases de Datos
Aún no hay calificaciones
Guía de Sqoop para Bases de Datos
8 páginas
Integración de Sqoop con Cloudera
Aún no hay calificaciones
Integración de Sqoop con Cloudera
9 páginas
Guía de comandos para Apache Sqoop
Aún no hay calificaciones
Guía de comandos para Apache Sqoop
10 páginas
S203. Sqoop
Aún no hay calificaciones
S203. Sqoop
21 páginas
Introducción a Apache Sqoop en Hadoop
Aún no hay calificaciones
Introducción a Apache Sqoop en Hadoop
4 páginas
Ejercicio Practico Con Soop
Aún no hay calificaciones
Ejercicio Practico Con Soop
3 páginas
Taller de Sqoop: Ingesta de Datos en Hadoop
Aún no hay calificaciones
Taller de Sqoop: Ingesta de Datos en Hadoop
18 páginas
Sesiones Hadoop 2 3
Aún no hay calificaciones
Sesiones Hadoop 2 3
5 páginas
03 Ecosistema Hadoop
Aún no hay calificaciones
03 Ecosistema Hadoop
35 páginas
Herramientas de Obtención de Datos: Sqoop, Flume, NiFi
Aún no hay calificaciones
Herramientas de Obtención de Datos: Sqoop, Flume, NiFi
24 páginas
Introducción a Sqoop en Hadoop
Aún no hay calificaciones
Introducción a Sqoop en Hadoop
2 páginas
Big Data Fundamentals - Ma Afq6e2s
Aún no hay calificaciones
Big Data Fundamentals - Ma Afq6e2s
6 páginas
Investigacion
Aún no hay calificaciones
Investigacion
7 páginas
BigData Tools
Aún no hay calificaciones
BigData Tools
10 páginas
BigData Tools
Aún no hay calificaciones
BigData Tools
4 páginas
Tarea 03 Sqoop Desarrollado
Aún no hay calificaciones
Tarea 03 Sqoop Desarrollado
10 páginas
Hive
Aún no hay calificaciones
Hive
57 páginas
Exportar MySQL a CSV con PHP
Aún no hay calificaciones
Exportar MySQL a CSV con PHP
2 páginas
Integracion de Datos PDF
Aún no hay calificaciones
Integracion de Datos PDF
3 páginas
5 0 Cloudera
Aún no hay calificaciones
5 0 Cloudera
18 páginas
Tema 7
Aún no hay calificaciones
Tema 7
32 páginas
Unidad 3-Transferencia
Aún no hay calificaciones
Unidad 3-Transferencia
9 páginas
Exportar e Importar MySQL desde Consola
Aún no hay calificaciones
Exportar e Importar MySQL desde Consola
1 página
Guía de Exportación e Importación MySQL
Aún no hay calificaciones
Guía de Exportación e Importación MySQL
49 páginas
Importación de Datos con Sqoop en Hadoop
Aún no hay calificaciones
Importación de Datos con Sqoop en Hadoop
2 páginas
ABD 01 UNIDAD IV-Respaldos
Aún no hay calificaciones
ABD 01 UNIDAD IV-Respaldos
30 páginas
Guía de Importación y Exportación SQL
Aún no hay calificaciones
Guía de Importación y Exportación SQL
8 páginas
Introducción a Apache Hive y su uso
Aún no hay calificaciones
Introducción a Apache Hive y su uso
19 páginas
Cloudera en Docker Sobre AWS y SQOOP y PIG
Aún no hay calificaciones
Cloudera en Docker Sobre AWS y SQOOP y PIG
7 páginas
Actividad Big Data: Consultas con Hive e Impala
Aún no hay calificaciones
Actividad Big Data: Consultas con Hive e Impala
2 páginas
Big Data: Procesamiento con Hadoop
Aún no hay calificaciones
Big Data: Procesamiento con Hadoop
66 páginas
Actividad Transferencia Individual Administracion Bases Datos
Aún no hay calificaciones
Actividad Transferencia Individual Administracion Bases Datos
15 páginas
Laboratorio GCP: Exploración de Datos Telco
Aún no hay calificaciones
Laboratorio GCP: Exploración de Datos Telco
16 páginas
Sesion 02 - Introduccion A BigData Parte II
Aún no hay calificaciones
Sesion 02 - Introduccion A BigData Parte II
25 páginas
Actividad 7. Investigación Hive
Aún no hay calificaciones
Actividad 7. Investigación Hive
26 páginas
Utilerías
Aún no hay calificaciones
Utilerías
6 páginas
MongoDB: Operadores y Respaldo
Aún no hay calificaciones
MongoDB: Operadores y Respaldo
9 páginas
AA4 Final
100% (1)
AA4 Final
33 páginas
Bases de Datos 3172205 (2) .
Aún no hay calificaciones
Bases de Datos 3172205 (2) .
17 páginas
Bases de Datos en Python
Aún no hay calificaciones
Bases de Datos en Python
7 páginas
Guía de Bases de Datos Relacionales
Aún no hay calificaciones
Guía de Bases de Datos Relacionales
5 páginas
Resumen Tecnologias
Aún no hay calificaciones
Resumen Tecnologias
3 páginas
E01 MongoDB Intro
Aún no hay calificaciones
E01 MongoDB Intro
27 páginas
Componentes Básicos de Una Solución de Big Data: Andrei Garzón Módulo II
Aún no hay calificaciones
Componentes Básicos de Una Solución de Big Data: Andrei Garzón Módulo II
15 páginas
Exportación e Importación de Bases de Datos
Aún no hay calificaciones
Exportación e Importación de Bases de Datos
16 páginas
Hadoop
Aún no hay calificaciones
Hadoop
9 páginas
Hadoop GustavoEcheverry
Aún no hay calificaciones
Hadoop GustavoEcheverry
8 páginas
Exportación de Bases de Datos
Aún no hay calificaciones
Exportación de Bases de Datos
7 páginas
Guía Completa de MySQL y Docker
Aún no hay calificaciones
Guía Completa de MySQL y Docker
9 páginas
Introduccion A Hadoop UV ES
Aún no hay calificaciones
Introduccion A Hadoop UV ES
61 páginas
Importación de Bases de Datos MySQL
Aún no hay calificaciones
Importación de Bases de Datos MySQL
10 páginas
Ecosistema Hadoop: Guía Completa
Aún no hay calificaciones
Ecosistema Hadoop: Guía Completa
22 páginas
Importar y exportar MySQL/MariaDB
Aún no hay calificaciones
Importar y exportar MySQL/MariaDB
3 páginas
Exportar e importar datos en SQL Server
Aún no hay calificaciones
Exportar e importar datos en SQL Server
3 páginas
Resumen Conectar Tablas
Aún no hay calificaciones
Resumen Conectar Tablas
5 páginas
Laboratorio de Apache Hive
Aún no hay calificaciones
Laboratorio de Apache Hive
9 páginas
Primera Comunion
Aún no hay calificaciones
Primera Comunion
57 páginas
Manual de Uso Kiosco
Aún no hay calificaciones
Manual de Uso Kiosco
27 páginas
R554101Z1 Met0001 213473 PDF
Aún no hay calificaciones
R554101Z1 Met0001 213473 PDF
1 página
Oracion de Sanacion Interna
Aún no hay calificaciones
Oracion de Sanacion Interna
1 página
Factura Fija 1757011065.8179
Aún no hay calificaciones
Factura Fija 1757011065.8179
2 páginas
Mandamientos
Aún no hay calificaciones
Mandamientos
10 páginas
ARTICULO IEEE Gestión de Las Comunicaciones Del Proyecto
Aún no hay calificaciones
ARTICULO IEEE Gestión de Las Comunicaciones Del Proyecto
8 páginas
Material de Lectura QA para Principiante
Aún no hay calificaciones
Material de Lectura QA para Principiante
52 páginas
Manual del Aplicativo Web de Peligro Sísmico
Aún no hay calificaciones
Manual del Aplicativo Web de Peligro Sísmico
16 páginas
Informe - Responsabilidad y Puntualidad Bun
100% (1)
Informe - Responsabilidad y Puntualidad Bun
11 páginas
Desarrollo de Apps Windows en C#
Aún no hay calificaciones
Desarrollo de Apps Windows en C#
11 páginas
MailChimp: Automatiza tu Email Marketing
Aún no hay calificaciones
MailChimp: Automatiza tu Email Marketing
5 páginas
Guia Aprendizaje 2
100% (1)
Guia Aprendizaje 2
23 páginas
Guía de Uso del Explorador de Windows
100% (1)
Guía de Uso del Explorador de Windows
2 páginas
Manual de Uso y Acceso A La Cuenta Gva Del Alumnado 2022 2023
Aún no hay calificaciones
Manual de Uso y Acceso A La Cuenta Gva Del Alumnado 2022 2023
6 páginas
2la Cinta de Opciones
Aún no hay calificaciones
2la Cinta de Opciones
18 páginas
Gamboa Rodriguez Andrés PDF
Aún no hay calificaciones
Gamboa Rodriguez Andrés PDF
62 páginas
Competencias TIC en Educación Media Superior
0% (1)
Competencias TIC en Educación Media Superior
1 página
Windows 10
Aún no hay calificaciones
Windows 10
2 páginas
GUIA RAPIDA - Configuracion Software
Aún no hay calificaciones
GUIA RAPIDA - Configuracion Software
9 páginas
Curso Web y Apps Distribuidas
Aún no hay calificaciones
Curso Web y Apps Distribuidas
6 páginas
Evaluación Virtual en Ciencias Básicas
Aún no hay calificaciones
Evaluación Virtual en Ciencias Básicas
13 páginas
Comandos Esenciales de CMD en Windows
Aún no hay calificaciones
Comandos Esenciales de CMD en Windows
22 páginas
PDF. Manual de Operacion Kobelco PDF
90% (10)
PDF. Manual de Operacion Kobelco PDF
195 páginas
Redes y Seguridad Informática en ESO
Aún no hay calificaciones
Redes y Seguridad Informática en ESO
5 páginas
Configurar FTP e IIS en Windows
Aún no hay calificaciones
Configurar FTP e IIS en Windows
10 páginas
Organización de Datos en Word
Aún no hay calificaciones
Organización de Datos en Word
10 páginas
Matriceria y Utillajes El 8
Aún no hay calificaciones
Matriceria y Utillajes El 8
2 páginas
Equipos Profesionales para Radiodifusión
Aún no hay calificaciones
Equipos Profesionales para Radiodifusión
1 página
Resumen Ejecutivo TCU
Aún no hay calificaciones
Resumen Ejecutivo TCU
21 páginas
Seguridad WiFi Doméstica: Manual Práctico
Aún no hay calificaciones
Seguridad WiFi Doméstica: Manual Práctico
64 páginas
Tics Todo
Aún no hay calificaciones
Tics Todo
283 páginas
Resumen Validación de Formularios
Aún no hay calificaciones
Resumen Validación de Formularios
4 páginas
Perfil Profesional de Jesús Vega Gaytan
Aún no hay calificaciones
Perfil Profesional de Jesús Vega Gaytan
3 páginas
Portadas y Secciones en Word 2016
Aún no hay calificaciones
Portadas y Secciones en Word 2016
15 páginas
Ejercicios Operaciones Básicas de Edición.
Aún no hay calificaciones
Ejercicios Operaciones Básicas de Edición.
4 páginas