0% ont trouvé ce document utile (0 vote)
22 vues4 pages

TP1 Initiation À Hadoop

Transféré par

almnvg22
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
22 vues4 pages

TP1 Initiation À Hadoop

Transféré par

almnvg22
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Yosra KASSIS

TP1: INITIATION A HADOOP

Objectif du TP: Premier pas avec Hadoop.


I. Présentation de Hadoop
Apache Hadoop est un framework open-source pour stocker et traiter les données
volumineuses sur un cluster. Il est utilisé par un grand nombre de contributeurs et utilisateurs.
Il a une licence Apache 2.0.

II. Installation
Ce TP est inspiré de la formation “Intro to Hadoop and MapReduce” fait par Cloudera
(Plateforme de BigData[Link] et publié sur Udacity (Plateforme de
eLearning[Link] Ils fournissent une machine virtuelle où Hadoop, ainsi
qu’un grand nombre d’outils de son écosystème, sont préinstallés.

Etapes d’installation
1. Télécharger la machine virtuelle à partir de l’adresse: [Link]
[Link]/courses/ud617/[Link]. C’est une machine
Linux, distribution CentOS.
2. Dé-zipper le fichier.
3. Télécharger et installer VirtualBox à partir de l’adresse:
[Link]
4. Créer une nouvelle machine virtuelle :
a. Créer une nouvelle machine virtuelle en cliquant sur le bouton ‘New’ :

b. Choisir un nom et mettre le type ‘Linux’ :

1
Yosra KASSIS

c. Cliquer sur ‘Next’.


d. Sélectionner la taille mémoire pour la machine virtuelle :

e. Cliquer sur ‘Next’.


f. Sélectionner ‘Use an existingvirtual hard drive file’, cliquer sur le bouton ‘browse’
et choisir l’image de la machine virtuelle déjà dé-zippée. Puis cliquer sur ‘create’.

g. Démarrer la machine virtuelle.

III. Premiers pas avec Hadoop


- Démarrer votre machine virtuelle et lancer un terminal sous le répertoire
~/udacity_training, vous trouverez deux sous-répertoires: code et data dans lesquels on

2
Yosra KASSIS

trouvera et on sauvegardera respectivement les codes de nos mappers et reducers, et les


données sources et résultat.
- Déplacez-vous sous le répertoire ~/udacity_training/data, et vérifier que le fichier
"[Link]"existe bien.
Toutes les commandes interagissant avec le système Hadoop commencent par hadoop fs.
Ensuite, les options rajoutées sont très largement inspirées des commandes Unix standard.
- Créer un répertoire dans HDFS, appelé myinput. Pour cela, taper:
Hadoop fs –mkdir myinput
- Pour copier le fichier [Link] dans HDFS sous le répertoire myinput, taper la
commande :
Hadoop fs –put [Link] myinput/
- Pour afficher le contenu du répertoire myinput, la commande est :
Hadoop fs –ls myinput

On obtiendra alors le résultat suivant :

Pour visualiser les dernières lignes du fichier, taper :


hadoop fs –tail myinput/[Link]

On obtient alors:

3
Yosra KASSIS

Dans le tableau suivant, nous résumons les commandes les plus utilisées dans Hadoop:

Activité [Link] les différentes fonctions citées ci-dessus pour:


- Créer un répertoire appelé myinput
- Copier le fichier [Link] dans le répertoire myinput
- Afficher les dernières lignes du fichier

Vous aimerez peut-être aussi