0% ont trouvé ce document utile (0 vote)

467 vues5 pages

TP MapReduce Python

Ce document décrit comment effectuer un traitement MapReduce en Python sur HDFS. Il explique les étapes de préparation des données sur HDFS, le rôle des mappers et reducers, et comment lancer un job MapReduce complet.

Transféré par

nour elislem

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

467 vues5 pages

TP MapReduce Python

Transféré par

nour elislem

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

TP Hadoop : MapReduce en Python

1. Préparation des données sur HDFS

1. Télécharger le fichier [Link]

Créez un répertoire dans HDFS, appelé myinput. Pour cela, tapez :

hadoop fs -mkdir myinput

Pour copier le fichier [Link] dans HDFS sous le répertoire myinput, il s’agit e se placer
dans le répertoire local data où se trouve le fichier, puis tapez la commande :

hadoop fs -put [Link] myinput/

Pour afficher le contenu du répertoire myinput, la commande est :

hadoop fs -ls myinput

Pour visualiser les dernières lignes du fichier, tapez :

1
hadoop fs -tail myinput/[Link]

hadoop fs -ls Afficher le contenu du répertoire racine

Upload un fichier dans hadoop (à partir du réper-
hadoop fs -put [Link]
toire courant linux)
Download un fichier à partir de hadoop sur votre
hadoop fs -get [Link]
disque local
hadoop fs -tail [Link] Lire les dernières lignes du fichier
hadoop fs -cat [Link] Affiche tout le contenu du fichier
hadoop fs -cat [Link] | less Lire le fichier page par page
hadoop fs -mv [Link] [Link] Renommer le fichier
hadoop fs -rm [Link] Supprimer le fichier
hadoop fs -mkdir myinput Créer un répertoire
Supprime un répertoire, et son contenu récursive-
hadoop fs -rm -f -r myinput
ment

TABLE 1 – Principales commandes de manipulation de fichiers HDFS

1 Map Reduce
Map Reduce est un patron d’architecture de développement permettant de traiter les données
volumineuses de manière parallèle et distribuée.
Il se compose principalement de deux types de programmes :
- Les Mappers permettent d’extraire les données nécessaires sous forme de clef/valeur,
pour pouvoirensuite les trier selon la clef.
- Les Reducers prennent un ensemble de données triées selon leur clef, et effectuent le
traitement nécessaire sur ces données (somme, moyenne, total...).

4.1 Mapper
Soit un fichier comportant 6 champs, séparés par des tabulations. Le Mapper doit :
• Séparer les différents champs par tabulation
• Extraire les éléments voulus à partir de ces champs, sous forme de clef/valeur
Pour ce premier exercice, notre but est de déterminer le total des ventes par magasin, pour un
fichier log dont les champs sont de la forme suivante :
date > temps > magasin > produit > co t > paiement
Pour calculer les ventes par magasin, le couple (clef, valeur) à extraire est (magasin,co t).
Pour faire cela, le code du Mapper est le suivant :

#!/usr/bin/python

# Format of each line is:

# date\ttime\tstore name\titem description\tcost\tmethod of payment
#
# We want elements 2 (store name) and 4 (cost)
# We need to write them out to standard output, separated by a tab

import sys 2
for line in [Link]:
data = [Link]().split("\t")
if len(data) == 6:
date, time, store, item, cost, payment = data
print "{0}\t{1}".format(store, cost)

4.2 Reducer
Le Reducer permet de faire le traitement désiré sur des entrées sous forme de clef/valeur, préa-
lablement triées par Hadoop (on n’a pas à s’occuper du tri manuellement). Dans l’exemple pré-
cédent, une fois que le Mapper extrait les couples (store,cost), le Reducer aura comme tâche de
faire la somme de tous les coûts pour un même magasin. Le code du Reducer est le suivant :

#!/usr/bin/python

# Format of each line is:

# date\ttime\tstore name\titem description\tcost\tmethod of payment
#
# We want elements 2 (store name) and 4 (cost)
# We need to write them out to standard output, separated by a tab

import sys

salesTotal = 0
oldKey = None

# Loop around the data

# It will be in the format key\tval
# Where key is the store name, val is the sale amount

3
#
# All the sales for a particular store will be presented,
# then the key will change and we'll be dealing with the next store

for line in [Link]:

data_mapped = [Link]().split("\t")
if len(data_mapped) != 2:
# Something has gone wrong. Skip this line.
continue

thisKey, thisSale = data_mapped

if oldKey and oldKey != thisKey:

print oldKey, "\t", salesTotal
oldKey = thisKey;
salesTotal = 0

oldKey = thisKey
salesTotal += float(thisSale)

if oldKey != None:
print oldKey, "\t", salesTotal

4.3 Lancer un Job entier

Lancer un job entier sur Hadoop implique qu’on fera appel au mapper puis au reducer sur une
entrée volumineuse, et qu’on obtiendra à la fin un résultat, directement sur HDFS. Pour faire cela,
l’instruction à exécuter est :

hadoop jar /usr/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop-streaming-

[Link] -mapper [Link] -reducer [Link] -file [Link]
-file [Link] -input myinput -output joboutput

4
Cette instruction donne en paramètres les fichiers correspondant aux Mappers et Reducers, et
les répertoires contenant le fichier d’entrée (myinput) et la sortie à générer (joboutput). Le
répertoire de sortie, après exécution, contiendra un fichier appelé part-00000, représentant la
sortie désirée.

Remarque 1 : Nous utilisons Hadoop Streaming qui permet de créer et lancer des jobs MapRe-
duce avec tout type d’exécutable ou script en tant que mapper et reducer. La manière standard
est d’écrire des programmes MapReduce en Java via l’API Java MapReduce. Ici nos scripts sont
écrits en Python, mais les mappers et reducers pourraient être des classes Java, des utilitaires
unix, des scripts R, Ruby, etc. Les Mappers liront les données fournies dans le flux standard
d’entrée unix stdin et les réécriront dans la sortie standard stdout via print.

Vous aimerez peut-être aussi

HDFS MapReduce
Pas encore d'évaluation
HDFS MapReduce
3 pages
tp1 IRS
100% (1)
tp1 IRS
7 pages
Commandes Hadoop
Pas encore d'évaluation
Commandes Hadoop
5 pages
Ventes Totales par Produit et Région
100% (1)
Ventes Totales par Produit et Région
5 pages
TP Big Data : Hadoop et MapReduce
Pas encore d'évaluation
TP Big Data : Hadoop et MapReduce
15 pages
TP2 Hadoop 22 23
Pas encore d'évaluation
TP2 Hadoop 22 23
3 pages
Initiation à Hadoop et MapReduce
100% (4)
Initiation à Hadoop et MapReduce
5 pages
Introduction à Hadoop et MapReduce
Pas encore d'évaluation
Introduction à Hadoop et MapReduce
58 pages
CH 2 Hadoop
Pas encore d'évaluation
CH 2 Hadoop
56 pages
TP4 HBase: Manipulation et Stockage NOSQL
Pas encore d'évaluation
TP4 HBase: Manipulation et Stockage NOSQL
18 pages
TP Hadoop: MapReduce et YARN en Java
100% (1)
TP Hadoop: MapReduce et YARN en Java
5 pages
TP1 Polytech
Pas encore d'évaluation
TP1 Polytech
11 pages
Chapitre 2
Pas encore d'évaluation
Chapitre 2
32 pages
Importer et exporter avec Sqoop
Pas encore d'évaluation
Importer et exporter avec Sqoop
4 pages
TP Bigdata ApacheSparkRDD
Pas encore d'évaluation
TP Bigdata ApacheSparkRDD
3 pages
TP1 Spark
Pas encore d'évaluation
TP1 Spark
2 pages
TP2 Big Data Env Docker
Pas encore d'évaluation
TP2 Big Data Env Docker
3 pages
Spark et Hadoop : Architectures Big Data
Pas encore d'évaluation
Spark et Hadoop : Architectures Big Data
43 pages
TP N°1 - Installation Via Paquets
100% (1)
TP N°1 - Installation Via Paquets
6 pages
tp3 Scala
Pas encore d'évaluation
tp3 Scala
2 pages
TD-MapReduce 02 2024
Pas encore d'évaluation
TD-MapReduce 02 2024
3 pages
Installation Cloudera HDFS
Pas encore d'évaluation
Installation Cloudera HDFS
5 pages
Cours Big Data2024
Pas encore d'évaluation
Cours Big Data2024
99 pages
Initier Hadoop pour Big Data
Pas encore d'évaluation
Initier Hadoop pour Big Data
7 pages
tp1 BigData
Pas encore d'évaluation
tp1 BigData
9 pages
TP3 Hadoop Exercices
Pas encore d'évaluation
TP3 Hadoop Exercices
2 pages
HDFS Boufares TP2
Pas encore d'évaluation
HDFS Boufares TP2
8 pages
Tutoriel Complet sur Apache Spark : Chargement, Manipulation et Sauvegarde de Données
100% (1)
Tutoriel Complet sur Apache Spark : Chargement, Manipulation et Sauvegarde de Données
9 pages
TP Big Data : Compteur de Mots Hadoop
Pas encore d'évaluation
TP Big Data : Compteur de Mots Hadoop
8 pages
Introduction à Hadoop et MapReduce
Pas encore d'évaluation
Introduction à Hadoop et MapReduce
65 pages
Big Data
Pas encore d'évaluation
Big Data
16 pages
Cluster Hadoop - Docker Portainee
Pas encore d'évaluation
Cluster Hadoop - Docker Portainee
33 pages
Ds Big Data Novembre 2023 Final
Pas encore d'évaluation
Ds Big Data Novembre 2023 Final
3 pages
Chap4 MapReduce
Pas encore d'évaluation
Chap4 MapReduce
17 pages
TP Map Reduce
100% (2)
TP Map Reduce
3 pages
Guide d'Installation Hadoop
Pas encore d'évaluation
Guide d'Installation Hadoop
13 pages
Exercices MapReduce
Pas encore d'évaluation
Exercices MapReduce
3 pages
Apache Spark Interview Questions and
Pas encore d'évaluation
Apache Spark Interview Questions and
19 pages
Introduction à Apache Hive et Big Data
Pas encore d'évaluation
Introduction à Apache Hive et Big Data
28 pages
Introduction au Big Data et MapReduce
Pas encore d'évaluation
Introduction au Big Data et MapReduce
47 pages
TP PIG Hadoop
Pas encore d'évaluation
TP PIG Hadoop
3 pages
Installation de Hadoop sur Linux
100% (1)
Installation de Hadoop sur Linux
10 pages
Big Data Analytics Sqoop - CDH 4.7
Pas encore d'évaluation
Big Data Analytics Sqoop - CDH 4.7
11 pages
Traitement Du Big Data: TP3 Le Modèle de Programmation Map Reduce
Pas encore d'évaluation
Traitement Du Big Data: TP3 Le Modèle de Programmation Map Reduce
25 pages
Analyse Big Data avec Hadoop et MapReduce
100% (1)
Analyse Big Data avec Hadoop et MapReduce
6 pages
TP Hadoop
Pas encore d'évaluation
TP Hadoop
50 pages
Big Data Chap 2 - Principes Hadoop
Pas encore d'évaluation
Big Data Chap 2 - Principes Hadoop
51 pages
Révision Correction
Pas encore d'évaluation
Révision Correction
4 pages
Exemple Examen BIG DATA Partie 1
Pas encore d'évaluation
Exemple Examen BIG DATA Partie 1
7 pages
Introduction à Spark et Scala avec Docker
Pas encore d'évaluation
Introduction à Spark et Scala avec Docker
6 pages
Leçon5 Spark
Pas encore d'évaluation
Leçon5 Spark
18 pages
Application2 - Initiation Spark PDF
Pas encore d'évaluation
Application2 - Initiation Spark PDF
7 pages
Hadoop
Pas encore d'évaluation
Hadoop
89 pages
(Big Data Analytics) CHAP4 - Spark Streaming
Pas encore d'évaluation
(Big Data Analytics) CHAP4 - Spark Streaming
29 pages
Commandes Hadoop
Pas encore d'évaluation
Commandes Hadoop
10 pages
Spark : RDD et Transformations Optimisées
Pas encore d'évaluation
Spark : RDD et Transformations Optimisées
11 pages
Cours 3 Architecture - Big Data Map Reduce
Pas encore d'évaluation
Cours 3 Architecture - Big Data Map Reduce
59 pages
Spark et Critique de MapReduce
Pas encore d'évaluation
Spark et Critique de MapReduce
14 pages
TP MapReduce
Pas encore d'évaluation
TP MapReduce
5 pages
TP Hadoop Et Map
Pas encore d'évaluation
TP Hadoop Et Map
4 pages
Data Science - Méthodes Descriptives
Pas encore d'évaluation
Data Science - Méthodes Descriptives
110 pages
Partie 1 Droit Numérique
Pas encore d'évaluation
Partie 1 Droit Numérique
12 pages
Deuxième Partie Droit Numérique
Pas encore d'évaluation
Deuxième Partie Droit Numérique
25 pages
Internationalisation avec Flutter
Pas encore d'évaluation
Internationalisation avec Flutter
7 pages
Projets Innovants chez Tunisie Telecom
Pas encore d'évaluation
Projets Innovants chez Tunisie Telecom
42 pages
Série D'exercices N°2 - Algorithmique Pour La Revision - Bac Informatique (2010-2011) Elève Mahdhi Mabrouk
Pas encore d'évaluation
Série D'exercices N°2 - Algorithmique Pour La Revision - Bac Informatique (2010-2011) Elève Mahdhi Mabrouk
3 pages
1 Cours Spss
Pas encore d'évaluation
1 Cours Spss
147 pages
ds2 SI
Pas encore d'évaluation
ds2 SI
3 pages
TP4-Labs-Couche Application
Pas encore d'évaluation
TP4-Labs-Couche Application
4 pages
Les Commandes MS DOS
Pas encore d'évaluation
Les Commandes MS DOS
10 pages
Cours F90 Toulouse
Pas encore d'évaluation
Cours F90 Toulouse
102 pages
Texte en Word
Pas encore d'évaluation
Texte en Word
4 pages
Les Commandes Linux Les Plus Utiles Sous Raspberry Pi
Pas encore d'évaluation
Les Commandes Linux Les Plus Utiles Sous Raspberry Pi
4 pages
Topogen
33% (3)
Topogen
41 pages
Mirascript FR v03.50
Pas encore d'évaluation
Mirascript FR v03.50
15 pages
8 Stat-2
Pas encore d'évaluation
8 Stat-2
40 pages
Guide Complet sur les Chaînes de Caractères en C
Pas encore d'évaluation
Guide Complet sur les Chaînes de Caractères en C
9 pages
Prise en Main Eagle 9.5-v1
Pas encore d'évaluation
Prise en Main Eagle 9.5-v1
44 pages
Systemes D'exploitation - 4
Pas encore d'évaluation
Systemes D'exploitation - 4
58 pages
Cours Complet sur SPSS
81% (31)
Cours Complet sur SPSS
147 pages
Map Reduce Python at 2
Pas encore d'évaluation
Map Reduce Python at 2
14 pages
Section 5 Rapports
Pas encore d'évaluation
Section 5 Rapports
218 pages
Memento Python Pour Enfants
100% (1)
Memento Python Pour Enfants
17 pages
Cours Visual Basic en Francais
99% (93)
Cours Visual Basic en Francais
51 pages
6-Algo (Structures)
Pas encore d'évaluation
6-Algo (Structures)
68 pages
Chapitre 3 Commandes Linux
Pas encore d'évaluation
Chapitre 3 Commandes Linux
35 pages
TP 4
Pas encore d'évaluation
TP 4
3 pages
Programmation: Lecture et Écriture de Fichiers
Pas encore d'évaluation
Programmation: Lecture et Écriture de Fichiers
10 pages
Serie Tri 4si
Pas encore d'évaluation
Serie Tri 4si
2 pages
1er ManipulationFichier Motus
Pas encore d'évaluation
1er ManipulationFichier Motus
4 pages
Python pour manipuler des textes
Pas encore d'évaluation
Python pour manipuler des textes
6 pages
Document illisible - Contenu corrompu
Pas encore d'évaluation
Document illisible - Contenu corrompu
41 pages
Mathcad : Calculs Techniques Simplifiés
Pas encore d'évaluation
Mathcad : Calculs Techniques Simplifiés
2 pages
Commentaires Sur Le Bulletin Scolaire, Sciences (Fichier 1), Lycée/Secondaire
Pas encore d'évaluation
Commentaires Sur Le Bulletin Scolaire, Sciences (Fichier 1), Lycée/Secondaire
9 pages
Formation ActixAnalyzer3G Queries YoussefLouahdi V1.4
Pas encore d'évaluation
Formation ActixAnalyzer3G Queries YoussefLouahdi V1.4
156 pages