ATELIER BIG DATA
INITIATION A HADOOP ET MAP-REDUCE
Objectif : Installation de Hadoop Ecosystème et découverte de quelques
composantes
1. Déplacez-vous sous le répertoire ~/TP/data, et y importer le fichier
purchases.txt fourni avec cet atelier
Toutes les commandes interagissant avec le système Hadoop commencent par hadoop
fs. Ensuite, les options rajoutées sont très largement inspirées des commandes Unix
standard.
1. Créer un répertoire dans HDFS, appelé myinput. Pour cela, taper:
hadoop fs –mkdir myinput
2. Pour copier le fichier purchases.txt dans HDFS sous le répertoire myinput, taper
la commande:
hadoop fs –put purchases.txt myinput/
3. Pour afficher le contenu du répertoire myinput, la commande est:
hadoop fs –ls myinput
On obtiendra alors le résultat suivant :
4. Pour visualiser les dernières lignes du fichier, taper:
hadoop fs –tail purchases.txt
Dans le tableau suivant, nous résumons les commandes les plus utilisées dans
Hadoop:
Afficher le contenu du répertoire
hadoop fs –ls racine
Upload un fichier dans hadoop (à partir
hadoop fs –put file.txt
du répertoire courant linux)
Download un fichier à partir de hadoop
hadoop fs –get file.txt
sur votre disque local
hadoop fs –tail file. txt Lire les dernières lignes du fichier
hadoop fs –cat file.txt Affiche tout le contenu du fichier
hadoop fs –mv file.txt newfile.txt Renommer le fichier
hadoop fs –rm newfile.txt Supprimer le fichier
hadoop fs –mkdir myinput Créer un répertoire
hadoop fs –cat file.txt | less Lire le fichier page par page
II. MapReduce
MapReduce est un patron d’architecture de développement permettant de traiter les
données volumineuses de manière parallèle et distribuée. Il se compose
principalement de deux types de programmes:
• Les Mappers : permettent d’extraire les données nécessaires sous forme de
clef/valeur, pour pouvoir ensuite les trier selon la clef
• Les Reducers : prennent un ensemble de données triées selon leur clef, et
effectuent le traitement nécessaire sur ces données (somme, moyenne,
total…)
Exercice 1
Nous continuons à travailler avec le même fichier en entrées (purchases.txt), mais
pour obtenir des résultats différents. Le but est donc d’écrire des Mappers et
Reducers.
1. Donner la liste des ventes par catégorie de produits.
2. Quelle est la valeur des ventes pour la catégorie Toys?
3. Et pour la catégorie Consumer Electronics?
Exercices 2
1. Donnez la liste des ventes par catégorie de produits.
2. Quelle est la valeur des ventes pour la catégorie Toys ?
3. Et pour la catégorie Consumer Electronics ?
4. Donnez le montant de la vente le plus élevé pour chaque magasin
5. Quelle est cette valeur pour les magasins suivants : Reno ? Toledo ?
Chandler ?
6. Quel est le nombre total des ventes et la valeur totale des ventes de tous
magasins confondus ?
7. Quelle est la somme des ventes par jour de la semaine?
8. Quelle est la moyenne des ventes par jour de la semaine?