Sqoop - Introduction
El sistema de gestión de aplicaciones tradicional, es decir, la interacción de aplicaciones
con base de datos relacional utilizando RDBMS, es una de las fuentes que generan datos
grandes. Tales datos grandes, generados por RDBMS, se almacenan en servidores de
base de datos relacional en la estructura de base de datos relacional.
Cuando los almacenes Big Data y los analizadores como MapReduce, Hive, HBase,
Cassandra, Pig, etc. del ecosistema Hadoop entraron en imagen, requirieron una
herramienta para interactuar con los servidores de bases de datos relacionales para
importar y exportar los Grandes Datos que residen en ellos. Aquí, Sqoop ocupa un lugar
en el ecosistema de Hadoop para proporcionar una interacción factible entre el servidor
de base de datos relacional y HDFS de Hadoop.
Sqoop: "SQL a Hadoop y Hadoop a SQL"
Sqoop es una herramienta diseñada para transferir datos entre Hadoop y servidores de
bases de datos relacionales. Se utiliza para importar datos de bases de datos relacionales
como MySQL, Oracle a Hadoop HDFS y exportar desde el sistema de archivos Hadoop
a bases de datos relacionales. Es proporcionado por Apache Software Foundation.
¿Cómo funciona Sqoop?
La siguiente imagen describe el flujo de trabajo de Sqoop.
Sqoop Import: La herramienta de importación importa tablas individuales de RDBMS a
HDFS. Cada fila de una tabla se trata como un registro en HDFS. Todos los registros se
almacenan como datos de texto en archivos de texto o como datos binarios en archivos
Avro y Secuencia.
Sqoop Export: La herramienta de exportación exporta un conjunto de archivos de HDFS
a un RDBMS. Los archivos dados como entrada a Sqoop contienen registros, que se
llaman como filas en la tabla. Éstos se leen y analizan en un conjunto de registros y se
delimitan con el delimitador especificado por el usuario.
Como Sqoop es un subproyecto de Hadoop, sólo puede funcionar en el sistema
operativo Linux. Siga los pasos que se indican a continuación para instalar Sqoop en su
sistema.
Paso 1: Verificación de la instalación de JAVA
Necesitas tener Java instalado en tu sistema antes de instalar Sqoop. Vamos a verificar
la instalación de Java con el siguiente comando:
$ java –version
Si Java ya está instalado en su sistema, puede ver la siguiente respuesta:
java version "1.7.0_71"
Java(TM) SE Runtime Environment (build 1.7.0_71-b13)
Java HotSpot(TM) Client VM (build 25.0-b02, mixed mode)
Si Java no está instalado en su sistema, siga los pasos que se indican a continuación.
Instalación de Java Siga los sencillos pasos que se indican a continuación para instalar Java en
su sistema.
Paso 1
A continuación, se descargará jdk-7u71-linux-x64.tar.gz en su sistema.
Paso 2
Generalmente, puede encontrar el archivo Java descargado en la carpeta Descargas.
Compruébelo y extraiga el archivo jdk-7u71-linux-x64.gz utilizando los siguientes
comandos.
$ cd Downloads/
$ ls
jdk-7u71-linux-x64.gz
$ tar zxf jdk-7u71-linux-x64.gz
$ ls
jdk1.7.0_71 jdk-7u71-linux-x64.gz
Step 3
Para poner Java a disposición de todos los usuarios, debes moverlo a la ubicación "/
usr / local /". Abra raíz y escriba los siguientes comandos.
$ su
password:
# mv jdk1.7.0_71 /usr/local/java
# exitStep IV:
Step 4
Para configurar las variables PATH y JAVA_HOME, agregue los siguientes comandos
al archivo ~ / .bashrc.
export JAVA_HOME=/usr/local/java
export PATH=$PATH:$JAVA_HOME/bin
A continuación, aplique todos los cambios en el sistema en ejecución actual.
$ source ~/.bashrc
Step 5
Utilice los siguientes comandos para configurar alternativas de Java:
# alternatives --install /usr/bin/java java usr/local/java/bin/java 2
# alternatives --install /usr/bin/javac javac usr/local/java/bin/javac
2
# alternatives --install /usr/bin/jar jar usr/local/java/bin/jar 2
# alternatives --set java usr/local/java/bin/java
# alternatives --set javac usr/local/java/bin/javac
# alternatives --set jar usr/local/java/bin/jar
Ahora verifique la instalación usando el comando java -version desde el terminal como
se explicó anteriormente.
Step 2: Verificación de la instalación de Hadoop
Hadoop debe instalarse en su sistema antes de instalar Sqoop. Vamos a verificar la
instalación de Hadoop utilizando el siguiente comando:
$ hadoop version
Si Hadoop ya está instalado en su sistema, obtendrá la siguiente respuesta:
Hadoop 2.4.1
--
Subversion https://svn.apache.org/repos/asf/hadoop/common -r 1529768
Compiled by hortonmu on 2013-10-07T06:28Z
Compiled with protoc 2.5.0
From source with checksum 79e53ce7994d1628b240f09af91e1af4
Si Hadoop no está instalado en su sistema, proceda con los siguientes pasos:
Descargando HadoopDownload y extraiga Hadoop 2.4.1 de Apache Software Foundation
usando los siguientes comandos.
$ su
password:
# cd /usr/local
# wget http://apache.claz.org/hadoop/common/hadoop-2.4.1/
hadoop-2.4.1.tar.gz
# tar xzf hadoop-2.4.1.tar.gz
# mv hadoop-2.4.1/* to hadoop/
# exit