TD MapReduce

Le document présente une série d'exercices sur MapReduce dans le cadre d'un cours de Big Data et Hadoop. Les exercices couvrent divers cas d'utilisation, tels que le comptage d'occurrences de mots, le calcul du chiffre d'affaires, l'analyse de données météorologiques, et l'évaluation de mesures de capteurs. Chaque exercice demande la rédaction de pseudo-code pour les fonctions Map et Reduce afin de résoudre des problèmes spécifiques liés à la manipulation de données volumineuses.

Transféré par

kerberos216

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

18 vues2 pages

TD MapReduce

Transféré par

kerberos216

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

Université Badji Mokhtar - Annaba - Département Informatique

2ème année Master –SID

Big Data et Hadoop
Série de TD n°1 :

MapReduce

Exercice n°1 : Nous avons vu en cours l’algorithme qui définit en pseudo-code les classes Mapper
et Reducer pour le calcul du nombre d’occurrences de mots dans une collection de documents. On
considère la collection de paires clef/valeur suivante :
Doc1 « appreciate the fold »
Doc2 « cata equals fold »
Doc3 « fold the fold »

1. En supposant que les documents Doc1 et Doc2 se situent sur un premier nœud et Doc3 sur un
autre, donner les résultats intermédiaires obtenus par chaque Mapper.

2. En supposant que l’espace des mots soit divisé en deux, les mots inférieurs à « f » sur un nœud et
ceux après « f » sur un autre, donner les résultats intermédiaires obtenus des Reducer qui regroupent
les clefs puis les résultats finaux des Reducer. Discuter la pertinence de cette règle de répartition des
clefs dans ce cas d’application.

Exercice n° 2 : Soit une entreprise de grande distribution qui souhaite faire des statistiques sur les
ventes des dix dernières années en ce début d’année. Elle possède une base de données stockée sur
un système HDFS ; ne sera considérée que la partie de la base qui contient les données des dix
années précédentes. Ces données sont stockées dans des fichiers textes. Chaque ligne d'un fichier
correspond à la vente d'un produit et on peut y trouver des informations comme :

- la date (et l'heure) de vente

- le nom du magasin où le produit a été vendu
- le prix de vente
- la dénomination du produit
- la catégorie du produit (ex : fruits et légumes, électroménager, jouet, ....)

Exemple : 17_12_2017 hello 700 carteSD electronique

Écrivez le pseudo-code du programme map-reduce permettant de calculer le chiffre d'affaire de

l'entreprise pour chacune des années précédentes, c'est à dire la somme total des ventes des 12 mois
de l’année considérée.

Exercice n°3 : Nous considérons des données issues de diverses stations d’observation au tour du
monde qui collectent des données météorologiques à chaque heure ; ceci engendre des quantités de
données immenses. Ces données sont présentées sous forme de ligne de texte, où chaque ligne
correspond à un enregistrement. Pour des raisons de simplification, nous n’allons présenter que
quelques données. Voici dans ce qui suit l’exemple d’un enregistrement où nous ne présentons que
quelques informations. Notons que tous les champs ont des tailles fixes.

Id Station Date Heure Latitude Longitude … Température

(Celsius * 10)

332130 19500101 0300 +51317 +028783 … -0128 …

0 88

Pr. Halima BAHI

Université Badji Mokhtar - Annaba - Département Informatique
2ème année Master –SID
Big Data et Hadoop
Il vous est demandé d’écrire en Pseudo code les fonctions « Map » et « Reduce » qui permettent de
retourner la température maximale pour chaque année.

Exercice n°4 : Soit un ensemble de fichiers contenant des mots. Ecrire les fonctions Map et
Reduce (pseudo code) qui établissent la liste des mots, et pour chaque mot une liste des fichiers où
il apparait.

Exemple :
Annaba : F1 F2
F1 : Ma ville Annaba Ma : F1
F2 : Annaba ville Plage Montagne Montagne : F2
Plage : F2
Ville : F1 F2

Exercice n°5 : On considère des mesures regroupés dans des Records, stockés dans un fichier Hadoop
(dans le système de fichiers HDFS), et représentant les sorties de différents capteurs : On peut ainsi analyser
de multiples mesures concernant l’ensemble des moteurs. Afin d’obtenir un
système plus fiable, plusieurs capteurs sont installés sur chaque moteur, qui mesurent la même
grandeur, mais qui n’ont pas tous la même fiabilité.

moteurID, IdCapt1 : ValCapt1, IdCapt2 : ValCapt2, …, IdCaptn : ValCaptn

1. Ecrire, en pseudo code, les fonctions Map et Reduce qui permettent de calculer pour chaque moteur
la valeur moyenne enregistrée par les capteurs.

En fait, toutes les mesures ne sont pas fiables. Il arrive qu’un capteur soit perturbé et produise une
valeur aberrante. Nous considérerons qu’une valeur de mesure inférieure à ‐100 ou supérieure à +100 est une
valeur aberrante.
2. Concevez une solution, en pseudo code, Map‐Reduce qui pour un moteur donne la valeur moyenne
enregistrée par ses capteurs non défaillants, ainsi que la liste des capteurs défaillants.

Exercice n°6 : Une entreprise souhaite réaliser des statistiques sur son personnel. Le fichier contient les
informations relatives à chaque salarié (identifiant, age, sexe, adresse, salaire, nbrenfants...). Ecrire en
pseudo-code les tâches Map et Reduce qui permettent de déterminer: Pour chaque âge, le salaire minimum,
maximum et le nombre de personnes de cet âge.

Exercice n°7 : Ecrire en pseudo-code les fonctions Map et Reduce qui comptent le nombre de voyelles et
celui des consonnes dans un texte en entrée.

Pr. Halima BAHI

Vous aimerez peut-être aussi

Td1: Hadoop: Exercice 1
75% (4)
Td1: Hadoop: Exercice 1
3 pages
TD1 MapReduce PDF
100% (3)
TD1 MapReduce PDF
5 pages
TD-MapReduce 02 2024
Pas encore d'évaluation
TD-MapReduce 02 2024
3 pages
Examen Big Data : MapReduce et HDFS
Pas encore d'évaluation
Examen Big Data : MapReduce et HDFS
4 pages
Examen Big Data : Corrigé et Solutions
Pas encore d'évaluation
Examen Big Data : Corrigé et Solutions
4 pages
Introduction au Big Data et MapReduce
Pas encore d'évaluation
Introduction au Big Data et MapReduce
47 pages
Chap4 Mapreduce
Pas encore d'évaluation
Chap4 Mapreduce
35 pages
Notes Diapo 4
Pas encore d'évaluation
Notes Diapo 4
4 pages
TP 3 - Exercices Map Reduce
88% (8)
TP 3 - Exercices Map Reduce
3 pages
Atelier 2
Pas encore d'évaluation
Atelier 2
3 pages
Examen Big Data
Pas encore d'évaluation
Examen Big Data
3 pages
Abdbig m2 Mind
Pas encore d'évaluation
Abdbig m2 Mind
5 pages
Lab 3
Pas encore d'évaluation
Lab 3
15 pages
HDFS Boufares TP2
Pas encore d'évaluation
HDFS Boufares TP2
8 pages
Cours 3-Pages-2
Pas encore d'évaluation
Cours 3-Pages-2
18 pages
Examen Big Data et Science de Données
100% (1)
Examen Big Data et Science de Données
3 pages
Exercices Hadoop
Pas encore d'évaluation
Exercices Hadoop
4 pages
Big Data Tps
Pas encore d'évaluation
Big Data Tps
28 pages
TP Hadoop: MapReduce et Python
Pas encore d'évaluation
TP Hadoop: MapReduce et Python
5 pages
Hadoop Map Reduce Exo
100% (4)
Hadoop Map Reduce Exo
2 pages
ABL Cloud
100% (1)
ABL Cloud
9 pages
Introduction à Hadoop MapReduce
Pas encore d'évaluation
Introduction à Hadoop MapReduce
28 pages
TD1-Big-Data 251017 084027
Pas encore d'évaluation
TD1-Big-Data 251017 084027
3 pages
TP Hadoop Et Map
Pas encore d'évaluation
TP Hadoop Et Map
4 pages
TP3 - BD - 2024
Pas encore d'évaluation
TP3 - BD - 2024
5 pages
CBG Cours1
Pas encore d'évaluation
CBG Cours1
36 pages
Initiation à Hadoop et Map-Reduce
Pas encore d'évaluation
Initiation à Hadoop et Map-Reduce
10 pages
Introduction à MapReduce et Hadoop
Pas encore d'évaluation
Introduction à MapReduce et Hadoop
9 pages
TP2 Map Reduce
Pas encore d'évaluation
TP2 Map Reduce
2 pages
Exercices MapReduce
Pas encore d'évaluation
Exercices MapReduce
3 pages
Hdfs Mapreduce
Pas encore d'évaluation
Hdfs Mapreduce
43 pages
Initiation à Hadoop et MapReduce
100% (4)
Initiation à Hadoop et MapReduce
5 pages
TP2 MapReduce
Pas encore d'évaluation
TP2 MapReduce
7 pages
TP1 MR - Initiation
Pas encore d'évaluation
TP1 MR - Initiation
4 pages
Introduction à Hadoop et Big Data
Pas encore d'évaluation
Introduction à Hadoop et Big Data
56 pages
Diapo3 Big Data
Pas encore d'évaluation
Diapo3 Big Data
37 pages
TP2 - Big Data MapReduce
Pas encore d'évaluation
TP2 - Big Data MapReduce
5 pages
Map/Reduce et MongoDB pour Débutants
Pas encore d'évaluation
Map/Reduce et MongoDB pour Débutants
4 pages
Tp1 Initiationahadoopetmapreduce 140428050032 Phpapp02
Pas encore d'évaluation
Tp1 Initiationahadoopetmapreduce 140428050032 Phpapp02
8 pages
Analyse de MapReduce, Cassandra et Spark
Pas encore d'évaluation
Analyse de MapReduce, Cassandra et Spark
4 pages
TD Big Data: Installation Hadoop & MapReduce
Pas encore d'évaluation
TD Big Data: Installation Hadoop & MapReduce
6 pages
tp1 Initiationahadoopetmapreduce 140428050032 Phpapp02
Pas encore d'évaluation
tp1 Initiationahadoopetmapreduce 140428050032 Phpapp02
10 pages
Mbds Big Data Hadoop 2019 2020 Cours 2
Pas encore d'évaluation
Mbds Big Data Hadoop 2019 2020 Cours 2
45 pages
Chapitre2 Hadoop MapReduce
Pas encore d'évaluation
Chapitre2 Hadoop MapReduce
28 pages
TP Hadoop: MapReduce et YARN en Java
100% (1)
TP Hadoop: MapReduce et YARN en Java
5 pages
Introduction à MapReduce et Big Data
Pas encore d'évaluation
Introduction à MapReduce et Big Data
65 pages
TP MapReduce
Pas encore d'évaluation
TP MapReduce
4 pages
Hadoop MP Industrie 4
Pas encore d'évaluation
Hadoop MP Industrie 4
18 pages
Examen 3
Pas encore d'évaluation
Examen 3
2 pages
Initiation à Hadoop et MapReduce en TP
100% (1)
Initiation à Hadoop et MapReduce en TP
9 pages
Exécution de MapReduce avec Hadoop
Pas encore d'évaluation
Exécution de MapReduce avec Hadoop
5 pages
Perfectionnement Big Data et IA
Pas encore d'évaluation
Perfectionnement Big Data et IA
10 pages
Compte Rendu TP 1 Big Data PDF Free
Pas encore d'évaluation
Compte Rendu TP 1 Big Data PDF Free
6 pages
Compte Rendu TP 1 Big Data
Pas encore d'évaluation
Compte Rendu TP 1 Big Data
6 pages
Examen Big Data 3ème IM - Jan 2024
Pas encore d'évaluation
Examen Big Data 3ème IM - Jan 2024
2 pages
DS - Docx 1 1
Pas encore d'évaluation
DS - Docx 1 1
2 pages
Big Data Et Architectures Associées: Examen de La Session Principale
Pas encore d'évaluation
Big Data Et Architectures Associées: Examen de La Session Principale
2 pages
Total des ventes par magasin avec MapReduce
Pas encore d'évaluation
Total des ventes par magasin avec MapReduce
3 pages
Exposé MapReduce
Pas encore d'évaluation
Exposé MapReduce
30 pages
Utilisation et types de câble coaxial
Pas encore d'évaluation
Utilisation et types de câble coaxial
8 pages
Chapitre 1 Cours de OSE 2024-2025 - 241030 - 090650
Pas encore d'évaluation
Chapitre 1 Cours de OSE 2024-2025 - 241030 - 090650
84 pages
Rapport de Stage Tsdee
Pas encore d'évaluation
Rapport de Stage Tsdee
25 pages
Projet de Recherche Tanger
Pas encore d'évaluation
Projet de Recherche Tanger
4 pages
CV MVONDO Italien
Pas encore d'évaluation
CV MVONDO Italien
2 pages
Mini-Tfc Intro Generale
Pas encore d'évaluation
Mini-Tfc Intro Generale
4 pages
Examen - Réseaux de Terrain - M2 - RT - Fei - Usthb - 2019 - 1
Pas encore d'évaluation
Examen - Réseaux de Terrain - M2 - RT - Fei - Usthb - 2019 - 1
3 pages
TH1 3 Eval
Pas encore d'évaluation
TH1 3 Eval
6 pages
Code D'erreur 144
Pas encore d'évaluation
Code D'erreur 144
24 pages
Recrutement du Personnel : Processus et Stratégies
Pas encore d'évaluation
Recrutement du Personnel : Processus et Stratégies
15 pages
Réservation Alger-Toronto Lufthansa 2024
Pas encore d'évaluation
Réservation Alger-Toronto Lufthansa 2024
4 pages
Formation After Effects: Techniques Avancées
Pas encore d'évaluation
Formation After Effects: Techniques Avancées
3 pages
Introduction aux structures de données
Pas encore d'évaluation
Introduction aux structures de données
117 pages
Examen D'informatique 1 Semestre
Pas encore d'évaluation
Examen D'informatique 1 Semestre
5 pages
Statuts de Vitalis Assurance Qualité SARL
Pas encore d'évaluation
Statuts de Vitalis Assurance Qualité SARL
14 pages
Catalogue Verin Hydaulique Socomhy
Pas encore d'évaluation
Catalogue Verin Hydaulique Socomhy
3 pages
Apprendre L'informatique de A À Z - 10 Étapes Clés !
100% (5)
Apprendre L'informatique de A À Z - 10 Étapes Clés !
45 pages
Tout - Savoir - Sur - L'iso Ok
Pas encore d'évaluation
Tout - Savoir - Sur - L'iso Ok
13 pages
Dimensions Humaines Du Travail
100% (3)
Dimensions Humaines Du Travail
649 pages
Sertisseuse
Pas encore d'évaluation
Sertisseuse
30 pages
Caractéristiques du Sedidrill 1500w
100% (1)
Caractéristiques du Sedidrill 1500w
5 pages
Boucle Locale
Pas encore d'évaluation
Boucle Locale
16 pages
EDBM V19 Creation 2020
Pas encore d'évaluation
EDBM V19 Creation 2020
2 pages
Transfert d'argent Airtel Congo expliqué
Pas encore d'évaluation
Transfert d'argent Airtel Congo expliqué
1 page
Tableau Sorbet Sicoly
Pas encore d'évaluation
Tableau Sorbet Sicoly
2 pages
Guide de culture de la courgette
Pas encore d'évaluation
Guide de culture de la courgette
2 pages
Introduction au Multi-threading Linux
Pas encore d'évaluation
Introduction au Multi-threading Linux
13 pages
Demande de Visa de Court Sejour (Moins de 3 Mois) Visite Familiale, Visite Privée, Tourisme
Pas encore d'évaluation
Demande de Visa de Court Sejour (Moins de 3 Mois) Visite Familiale, Visite Privée, Tourisme
3 pages
Exercice de comptabilité générale 2023
Pas encore d'évaluation
Exercice de comptabilité générale 2023
2 pages
Asma
Pas encore d'évaluation
Asma
3 pages