TP2 Map Reduce

Ce document décrit trois exercices à réaliser avec MapReduce: 1) compter les mots dans un texte, 2) calculer le total des ventes par magasin, 3) obtenir des statistiques sur les ventes par catégorie de produits et par magasin.

Transféré par

Takwa Dridi

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

242 vues2 pages

TP2 Map Reduce

Transféré par

Takwa Dridi

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

TP2 Map Reduce

Partie I : Word counter

On se propose dans ce qui suit, de tester la solution MapReduce du problème de calcul du nombre
d'occurrences de mots dans un texte donne connue sous le nom de word counter. Pour ceci, il est
demande de :
1. Créer un fichier mapper.py et y écrire le code du mapper.
2. Executer mapper : chmod +x mapper.py
3. Tester le code propose en local sur les 15 premieres lignes du fichier drac.txt en tapant
l'instruction suivante : tail drac.txt | mapper.py
4. Creer le fichier reduce.py et y ecrire le code du reducer.
5. Executer reducer: chmod +x reducer.py
6. Tester le code propose en local sur les 15 premieres lignes du fichier drac.txt en tapant
l'instruction suivante : tail drac.txt | mapper.py | sort | reducer.py

Exercices to do
Partie II : Total de ventes
Comme son nom l'indique, le fichier purchases.txt comporte un ensemble de lignes decrivant les
ventes d'un ensemble de magasins. Chaque ligne est composee de 5 champs separes par des tabulations
sous la forme suivante :
date time store item cost

On se propose dans ce qui suit, de calculer le total des ventes par magasin.

1. Determiner le couple (cle, valeur) a extraire dans ce cas.

2. Creez un fichier map.py et y ecrire le code du mapper. Tester le code propose en local.
3. Creer un fichier reduce.py et y ecrire le code du reducer. Tester ce code en local.
4. Lancer le job MapReduce et verifier le resultat. Executer :
- cat purchases.txt | map.py
- cat purchases.txt | map.py | sort |redvente.py

Partie III : Statistiques des ventes

Dans cette partie, vous allez travailler sur le fichier purchases.txt qui vous a ete deja fourni.
Les differents champs de ce fichier sont de la forme suivante :
date temps magasin produit cout
Ecrire les mappers et reducers permettant de :
1. Donner le total des ventes par categorie de produits.

2. Donner le montant de la vente le plus eleve pour chaque magasin.

3. Quel est le nombre total des ventes et la valeur totale des ventes de tous magasins confondus?

Verifier tous les resultats obtenus en vous referant au fichier de donnees utilise.
Exercice 1 : Graphe social
On dispose de la base de données d'un réseau social contenant plusieurs millions d'utilisateurs. Pour
chacun d'entre eux, on a une liste d'autres utilisateurs : les amis de l'utilisateur courant sur le réseau. On
cherche à générer, pour chaque couple d'utilisateurs distincts, la liste des amis qu'ils ont en
commun.
On ne peut pas effectuer cette opération par le biais d'une requête sur la base de données relationnelle
sans un impact immense sur le serveur du réseau social, potentiellement bloquant pour la base, et donc
pour le site lui-même.
Par conséquent, on voudrait créer une tâche map/reduce pour régler ce problème, et l'exécuter à
intervalles réguliers.
Nos données d'entrée sous la forme Utilisateur => Amis comme suit :
A => B, C, D
B => A, C, D, E
C => A, B, D, E
D => A, B, C, E
E => B, C, D
1. Donnez le couple clé-valeur adapté au traitement en question.
2. Expliquer les étapes qui seront réalisées par le mapper
3. Donnez le pseudo-code du mapper
4. Expliquer les étapes qui seront réalisées par le reducer
5. Donnez le pseudo-code du reducer

Vous aimerez peut-être aussi

Exercices MapReduce
Pas encore d'évaluation
Exercices MapReduce
3 pages
TD1 MapReduce PDF
100% (3)
TD1 MapReduce PDF
5 pages
ABL Cloud
100% (1)
ABL Cloud
9 pages
TP 3 - Exercices Map Reduce
88% (8)
TP 3 - Exercices Map Reduce
3 pages
TP2 MapReduce 02 2024
Pas encore d'évaluation
TP2 MapReduce 02 2024
8 pages
TP Hadoop Et Map
Pas encore d'évaluation
TP Hadoop Et Map
4 pages
Initiation à Hadoop et MapReduce
100% (4)
Initiation à Hadoop et MapReduce
5 pages
TP RHadoop
Pas encore d'évaluation
TP RHadoop
7 pages
Total des ventes par magasin avec MapReduce
Pas encore d'évaluation
Total des ventes par magasin avec MapReduce
3 pages
TD-MapReduce 02 2024
Pas encore d'évaluation
TD-MapReduce 02 2024
3 pages
Introduction au Big Data et MapReduce
Pas encore d'évaluation
Introduction au Big Data et MapReduce
47 pages
Introduction à MapReduce et Hadoop
Pas encore d'évaluation
Introduction à MapReduce et Hadoop
9 pages
Tp1 Initiationahadoopetmapreduce 140428050032 Phpapp02
Pas encore d'évaluation
Tp1 Initiationahadoopetmapreduce 140428050032 Phpapp02
8 pages
Initiation à Hadoop et Map-Reduce
Pas encore d'évaluation
Initiation à Hadoop et Map-Reduce
10 pages
TP3 Hadoop Exercices
Pas encore d'évaluation
TP3 Hadoop Exercices
2 pages
tp1 Initiationahadoopetmapreduce 140428050032 Phpapp02
Pas encore d'évaluation
tp1 Initiationahadoopetmapreduce 140428050032 Phpapp02
10 pages
TD Big Data: Installation Hadoop & MapReduce
Pas encore d'évaluation
TD Big Data: Installation Hadoop & MapReduce
6 pages
TP MapReduce
Pas encore d'évaluation
TP MapReduce
5 pages
Cours 3-Pages-2
Pas encore d'évaluation
Cours 3-Pages-2
18 pages
TP2 MapReduce
Pas encore d'évaluation
TP2 MapReduce
7 pages
tp1 Initiationahadoopetmapreduce 140428050032 Phpapp02
100% (1)
tp1 Initiationahadoopetmapreduce 140428050032 Phpapp02
9 pages
Notes Diapo 4
Pas encore d'évaluation
Notes Diapo 4
4 pages
TP3 - BD - 2024
Pas encore d'évaluation
TP3 - BD - 2024
5 pages
Atelier 2
Pas encore d'évaluation
Atelier 2
3 pages
Chap 01a - MapReduce
Pas encore d'évaluation
Chap 01a - MapReduce
73 pages
Big Data Tps
Pas encore d'évaluation
Big Data Tps
28 pages
Introduction à MapReduce et Big Data
Pas encore d'évaluation
Introduction à MapReduce et Big Data
65 pages
Python MapReduce pour Big Data
Pas encore d'évaluation
Python MapReduce pour Big Data
3 pages
Cours 03 MapReduce
Pas encore d'évaluation
Cours 03 MapReduce
36 pages
Hadoop Map Reduce Exo
100% (4)
Hadoop Map Reduce Exo
2 pages
TP3 2021
Pas encore d'évaluation
TP3 2021
5 pages
Td1: Hadoop: Exercice 1
75% (4)
Td1: Hadoop: Exercice 1
3 pages
tp3 Hadoop
Pas encore d'évaluation
tp3 Hadoop
12 pages
Map/Reduce et MongoDB pour Débutants
Pas encore d'évaluation
Map/Reduce et MongoDB pour Débutants
4 pages
NoSQL4 5
Pas encore d'évaluation
NoSQL4 5
20 pages
Initiation à Hadoop et MapReduce
Pas encore d'évaluation
Initiation à Hadoop et MapReduce
5 pages
Map Reduce Python at 2
Pas encore d'évaluation
Map Reduce Python at 2
14 pages
MapReduce avec Python pour WordCount
Pas encore d'évaluation
MapReduce avec Python pour WordCount
12 pages
Tp2-Design Patterns Mapreduce II. Patrons de Filtrage: Filtrage Simple Activité 1
Pas encore d'évaluation
Tp2-Design Patterns Mapreduce II. Patrons de Filtrage: Filtrage Simple Activité 1
4 pages
Map-Reduce en Big Data et Erlang
Pas encore d'évaluation
Map-Reduce en Big Data et Erlang
3 pages
TP Map Red
Pas encore d'évaluation
TP Map Red
3 pages
Abdbig m2 Mind
Pas encore d'évaluation
Abdbig m2 Mind
5 pages
Lab 3
Pas encore d'évaluation
Lab 3
15 pages
Cours Gratuit - Com Id 11770
Pas encore d'évaluation
Cours Gratuit - Com Id 11770
56 pages
TP2 Mapreduce
Pas encore d'évaluation
TP2 Mapreduce
12 pages
Lab 3-Spark RDD
Pas encore d'évaluation
Lab 3-Spark RDD
2 pages
Exercices Hadoop
Pas encore d'évaluation
Exercices Hadoop
4 pages
Examen TP Data Science 2024
Pas encore d'évaluation
Examen TP Data Science 2024
4 pages
Correction Des Exercices Map
Pas encore d'évaluation
Correction Des Exercices Map
3 pages
Compte-Rendu TP2 - 234013
Pas encore d'évaluation
Compte-Rendu TP2 - 234013
6 pages
tp1 IRS
100% (1)
tp1 IRS
7 pages
Examen Big Data
Pas encore d'évaluation
Examen Big Data
3 pages
Hadoop Config Suite Et Fin
Pas encore d'évaluation
Hadoop Config Suite Et Fin
4 pages
4 Exemples de Problèmes MapReduce Incrémentaux
Pas encore d'évaluation
4 Exemples de Problèmes MapReduce Incrémentaux
32 pages
TP 01 - RDD
Pas encore d'évaluation
TP 01 - RDD
2 pages
CTRL - BDSD - 2020-2021 Avec Corrigé
100% (1)
CTRL - BDSD - 2020-2021 Avec Corrigé
3 pages
TP Hadoop: MapReduce et Python
Pas encore d'évaluation
TP Hadoop: MapReduce et Python
5 pages
Design Patterns Hadoop pour Big Data
100% (1)
Design Patterns Hadoop pour Big Data
6 pages
Modèle Réseau des Bases de Données
100% (1)
Modèle Réseau des Bases de Données
32 pages
Modèle Relationnel des Bases de Données
Pas encore d'évaluation
Modèle Relationnel des Bases de Données
51 pages
Introduction au JavaScript : Concepts Clés
Pas encore d'évaluation
Introduction au JavaScript : Concepts Clés
40 pages
Installation et Utilisation de Robot Framework
Pas encore d'évaluation
Installation et Utilisation de Robot Framework
5 pages
QCM sur les Modules SAP et Comptabilité
Pas encore d'évaluation
QCM sur les Modules SAP et Comptabilité
11 pages
CH 25
Pas encore d'évaluation
CH 25
27 pages
Cours Studio Sage FRP Reporting
Pas encore d'évaluation
Cours Studio Sage FRP Reporting
32 pages
BD 4 Outils Administration
Pas encore d'évaluation
BD 4 Outils Administration
16 pages
Gen 1
Pas encore d'évaluation
Gen 1
37 pages
Propriétés ACID des Transactions BD
Pas encore d'évaluation
Propriétés ACID des Transactions BD
75 pages
Révision Modélisation NoSQL
Pas encore d'évaluation
Révision Modélisation NoSQL
14 pages
Chapitre 1
Pas encore d'évaluation
Chapitre 1
23 pages
Les08 Exceptions
Pas encore d'évaluation
Les08 Exceptions
23 pages
Chapitre 2 - V1 Cours BD 2021
Pas encore d'évaluation
Chapitre 2 - V1 Cours BD 2021
38 pages
Normalisation et Dépendances Fonctionnelles
Pas encore d'évaluation
Normalisation et Dépendances Fonctionnelles
11 pages
Sqlite
Pas encore d'évaluation
Sqlite
3 pages
Guide Complet des Statistiques et Graphiques
Pas encore d'évaluation
Guide Complet des Statistiques et Graphiques
7 pages
Optimisation des Datawarehouses NoSQL
Pas encore d'évaluation
Optimisation des Datawarehouses NoSQL
5 pages
Guide Oracle pour Administrateurs Débutants
Pas encore d'évaluation
Guide Oracle pour Administrateurs Débutants
64 pages
Gestion et Manipulation des Tablespaces Oracle
Pas encore d'évaluation
Gestion et Manipulation des Tablespaces Oracle
15 pages
Examen Informatique Mécanicien Avion
Pas encore d'évaluation
Examen Informatique Mécanicien Avion
7 pages
1 AAR Slides OracleX6
Pas encore d'évaluation
1 AAR Slides OracleX6
51 pages
Business Intelligence (BI) : Chabamouna - Mustapha@univ-Blida - DZ
Pas encore d'évaluation
Business Intelligence (BI) : Chabamouna - Mustapha@univ-Blida - DZ
35 pages
Analyse et Conception des SI en L2
Pas encore d'évaluation
Analyse et Conception des SI en L2
6 pages
Exercices Page JSP
Pas encore d'évaluation
Exercices Page JSP
18 pages
Ases de Données Relationnelles: C 1: S (SGBD)
Pas encore d'évaluation
Ases de Données Relationnelles: C 1: S (SGBD)
9 pages
Chapitre 1-Introduction Aux Bases de Données
Pas encore d'évaluation
Chapitre 1-Introduction Aux Bases de Données
20 pages
TP - Initiation Spark
Pas encore d'évaluation
TP - Initiation Spark
6 pages
Cours Statistiques À Une Variable
0% (1)
Cours Statistiques À Une Variable
9 pages
Cours Gestion Des Données
Pas encore d'évaluation
Cours Gestion Des Données
4 pages
Examen Blanc 2025 LTPKP - BD Prog
Pas encore d'évaluation
Examen Blanc 2025 LTPKP - BD Prog
4 pages
Théorie et Modélisation des Bases de Données
Pas encore d'évaluation
Théorie et Modélisation des Bases de Données
18 pages
Proceduire de Mutation Par Donation
Pas encore d'évaluation
Proceduire de Mutation Par Donation
5 pages
Rapport de TP #2 Sécurisation Des Accès
Pas encore d'évaluation
Rapport de TP #2 Sécurisation Des Accès
6 pages
BDD Avancées FERRAG 2018 2019
Pas encore d'évaluation
BDD Avancées FERRAG 2018 2019
2 pages