Yosra KASSIS
TP1: INITIATION A HADOOP
Objectif du TP: Premier pas avec Hadoop.
I. Présentation de Hadoop
Apache Hadoop est un framework open-source pour stocker et traiter les données
volumineuses sur un cluster. Il est utilisé par un grand nombre de contributeurs et utilisateurs.
Il a une licence Apache 2.0.
II. Installation
Ce TP est inspiré de la formation “Intro to Hadoop and MapReduce” fait par Cloudera
(Plateforme de BigData[Link] et publié sur Udacity (Plateforme de
eLearning[Link] Ils fournissent une machine virtuelle où Hadoop, ainsi
qu’un grand nombre d’outils de son écosystème, sont préinstallés.
Etapes d’installation
1. Télécharger la machine virtuelle à partir de l’adresse: [Link]
[Link]/courses/ud617/[Link]. C’est une machine
Linux, distribution CentOS.
2. Dé-zipper le fichier.
3. Télécharger et installer VirtualBox à partir de l’adresse:
[Link]
4. Créer une nouvelle machine virtuelle :
a. Créer une nouvelle machine virtuelle en cliquant sur le bouton ‘New’ :
b. Choisir un nom et mettre le type ‘Linux’ :
1
Yosra KASSIS
c. Cliquer sur ‘Next’.
d. Sélectionner la taille mémoire pour la machine virtuelle :
e. Cliquer sur ‘Next’.
f. Sélectionner ‘Use an existingvirtual hard drive file’, cliquer sur le bouton ‘browse’
et choisir l’image de la machine virtuelle déjà dé-zippée. Puis cliquer sur ‘create’.
g. Démarrer la machine virtuelle.
III. Premiers pas avec Hadoop
- Démarrer votre machine virtuelle et lancer un terminal sous le répertoire
~/udacity_training, vous trouverez deux sous-répertoires: code et data dans lesquels on
2
Yosra KASSIS
trouvera et on sauvegardera respectivement les codes de nos mappers et reducers, et les
données sources et résultat.
- Déplacez-vous sous le répertoire ~/udacity_training/data, et vérifier que le fichier
"[Link]"existe bien.
Toutes les commandes interagissant avec le système Hadoop commencent par hadoop fs.
Ensuite, les options rajoutées sont très largement inspirées des commandes Unix standard.
- Créer un répertoire dans HDFS, appelé myinput. Pour cela, taper:
Hadoop fs –mkdir myinput
- Pour copier le fichier [Link] dans HDFS sous le répertoire myinput, taper la
commande :
Hadoop fs –put [Link] myinput/
- Pour afficher le contenu du répertoire myinput, la commande est :
Hadoop fs –ls myinput
On obtiendra alors le résultat suivant :
Pour visualiser les dernières lignes du fichier, taper :
hadoop fs –tail myinput/[Link]
On obtient alors:
3
Yosra KASSIS
Dans le tableau suivant, nous résumons les commandes les plus utilisées dans Hadoop:
Activité [Link] les différentes fonctions citées ci-dessus pour:
- Créer un répertoire appelé myinput
- Copier le fichier [Link] dans le répertoire myinput
- Afficher les dernières lignes du fichier