0% encontró este documento útil (0 votos)
84 vistas4 páginas

Introducción a Apache Sqoop en Hadoop

Sqoop es una herramienta diseñada para transferir datos entre Hadoop y servidores de bases de datos relacionales como MySQL y Oracle. Sqoop importa datos de bases de datos relacionales a HDFS y exporta datos desde HDFS a bases de datos relacionales. Se utiliza para mover grandes cantidades de datos entre sistemas de almacenamiento relacional y no relacional.

Cargado por

jhonny ps
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
84 vistas4 páginas

Introducción a Apache Sqoop en Hadoop

Sqoop es una herramienta diseñada para transferir datos entre Hadoop y servidores de bases de datos relacionales como MySQL y Oracle. Sqoop importa datos de bases de datos relacionales a HDFS y exporta datos desde HDFS a bases de datos relacionales. Se utiliza para mover grandes cantidades de datos entre sistemas de almacenamiento relacional y no relacional.

Cargado por

jhonny ps
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

Sqoop - Introduction

El sistema de gestión de aplicaciones tradicional, es decir, la interacción de aplicaciones


con base de datos relacional utilizando RDBMS, es una de las fuentes que generan datos
grandes. Tales datos grandes, generados por RDBMS, se almacenan en servidores de
base de datos relacional en la estructura de base de datos relacional.

Cuando los almacenes Big Data y los analizadores como MapReduce, Hive, HBase,
Cassandra, Pig, etc. del ecosistema Hadoop entraron en imagen, requirieron una
herramienta para interactuar con los servidores de bases de datos relacionales para
importar y exportar los Grandes Datos que residen en ellos. Aquí, Sqoop ocupa un lugar
en el ecosistema de Hadoop para proporcionar una interacción factible entre el servidor
de base de datos relacional y HDFS de Hadoop.

Sqoop: "SQL a Hadoop y Hadoop a SQL"

Sqoop es una herramienta diseñada para transferir datos entre Hadoop y servidores de
bases de datos relacionales. Se utiliza para importar datos de bases de datos relacionales
como MySQL, Oracle a Hadoop HDFS y exportar desde el sistema de archivos Hadoop
a bases de datos relacionales. Es proporcionado por Apache Software Foundation.

¿Cómo funciona Sqoop?


La siguiente imagen describe el flujo de trabajo de Sqoop.

Sqoop Import: La herramienta de importación importa tablas individuales de RDBMS a


HDFS. Cada fila de una tabla se trata como un registro en HDFS. Todos los registros se
almacenan como datos de texto en archivos de texto o como datos binarios en archivos
Avro y Secuencia.
Sqoop Export: La herramienta de exportación exporta un conjunto de archivos de HDFS
a un RDBMS. Los archivos dados como entrada a Sqoop contienen registros, que se
llaman como filas en la tabla. Éstos se leen y analizan en un conjunto de registros y se
delimitan con el delimitador especificado por el usuario.
Como Sqoop es un subproyecto de Hadoop, sólo puede funcionar en el sistema
operativo Linux. Siga los pasos que se indican a continuación para instalar Sqoop en su
sistema.

Paso 1: Verificación de la instalación de JAVA


Necesitas tener Java instalado en tu sistema antes de instalar Sqoop. Vamos a verificar
la instalación de Java con el siguiente comando:

$ java –version

Si Java ya está instalado en su sistema, puede ver la siguiente respuesta:

java version "1.7.0_71"


Java(TM) SE Runtime Environment (build 1.7.0_71-b13)
Java HotSpot(TM) Client VM (build 25.0-b02, mixed mode)

Si Java no está instalado en su sistema, siga los pasos que se indican a continuación.

Instalación de Java Siga los sencillos pasos que se indican a continuación para instalar Java en
su sistema.

Paso 1
A continuación, se descargará jdk-7u71-linux-x64.tar.gz en su sistema.

Paso 2

Generalmente, puede encontrar el archivo Java descargado en la carpeta Descargas.


Compruébelo y extraiga el archivo jdk-7u71-linux-x64.gz utilizando los siguientes
comandos.

$ cd Downloads/
$ ls
jdk-7u71-linux-x64.gz
$ tar zxf jdk-7u71-linux-x64.gz
$ ls
jdk1.7.0_71 jdk-7u71-linux-x64.gz
Step 3

Para poner Java a disposición de todos los usuarios, debes moverlo a la ubicación "/
usr / local /". Abra raíz y escriba los siguientes comandos.

$ su
password:

# mv jdk1.7.0_71 /usr/local/java
# exitStep IV:
Step 4

Para configurar las variables PATH y JAVA_HOME, agregue los siguientes comandos
al archivo ~ / .bashrc.

export JAVA_HOME=/usr/local/java
export PATH=$PATH:$JAVA_HOME/bin

A continuación, aplique todos los cambios en el sistema en ejecución actual.

$ source ~/.bashrc
Step 5

Utilice los siguientes comandos para configurar alternativas de Java:

# alternatives --install /usr/bin/java java usr/local/java/bin/java 2


# alternatives --install /usr/bin/javac javac usr/local/java/bin/javac
2
# alternatives --install /usr/bin/jar jar usr/local/java/bin/jar 2

# alternatives --set java usr/local/java/bin/java


# alternatives --set javac usr/local/java/bin/javac
# alternatives --set jar usr/local/java/bin/jar

Ahora verifique la instalación usando el comando java -version desde el terminal como
se explicó anteriormente.

Step 2: Verificación de la instalación de Hadoop


Hadoop debe instalarse en su sistema antes de instalar Sqoop. Vamos a verificar la
instalación de Hadoop utilizando el siguiente comando:

$ hadoop version

Si Hadoop ya está instalado en su sistema, obtendrá la siguiente respuesta:

Hadoop 2.4.1
--
Subversion https://svn.apache.org/repos/asf/hadoop/common -r 1529768
Compiled by hortonmu on 2013-10-07T06:28Z
Compiled with protoc 2.5.0
From source with checksum 79e53ce7994d1628b240f09af91e1af4

Si Hadoop no está instalado en su sistema, proceda con los siguientes pasos:

Descargando HadoopDownload y extraiga Hadoop 2.4.1 de Apache Software Foundation


usando los siguientes comandos.
$ su
password:

# cd /usr/local
# wget http://apache.claz.org/hadoop/common/hadoop-2.4.1/
hadoop-2.4.1.tar.gz
# tar xzf hadoop-2.4.1.tar.gz
# mv hadoop-2.4.1/* to hadoop/
# exit

También podría gustarte