0% ont trouvé ce document utile (0 vote)

18 vues12 pages

tp3 Hadoop

Le document présente un compte rendu des exercices réalisés dans le cadre d'un TP sur MapReduce, incluant la création de répertoires, le transfert de fichiers vers HDFS, et le développement de scripts mapper et reducer. Les étapes comprennent la vérification de la présence des fichiers, l'attribution des droits d'exécution, et le lancement de jobs MapReduce pour traiter des données sur la population des villes et le comptage de mots. Les résultats finaux sont récupérés pour consultation en local après traitement.

Transféré par

nbensoltana08

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

18 vues12 pages

tp3 Hadoop

Transféré par

nbensoltana08

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Compte Rendu ~ TP2

Exercice 1:

1/ Le répertoire TP3 a été créé, contenant deux sous-répertoires :

● code : pour les scripts mapper et reducer

● data : pour les fichiers de données sources et les résultats

Le fichier [Link] a été copié dans le dossier data. La commande ls a permis de

vérifier que le fichier a bien été déplacé.

Un répertoire Myinputnour a été créé dans HDFS pour accueillir les donné[Link]
commande hdfs dfs -ls a été utilisée pour vérifier sa présence
Compte Rendu ~ TP2
4/

Le fichier [Link] a été copié dans le répertoire Myinputnour sur HDFS. Cela permet
un stockage distribué en vue de l'exécution MapReduce.

La commande tail a été utilisée en local pour visualiser les dernières lignes du fichier.
Avant le test, le script [Link] a été rendu exécutable avec chmod +x. Il a ensuite
été testé en local via une redirection de fichier.
Compte Rendu ~ TP2

Le script [Link] a été créé puis testé avec les mêmes étapes de vérification que le
mapper.

6/ Après le lancement du job, les résultats ont été vérifiés dans le fichier part-00000
généré dans le répertoire de sortie.

7/
Compte Rendu ~ TP2
Le fichier de résultat part-00000 a été déplacé de HDFS vers le système local à l’aide
de la commande hdfs dfs -get, afin de pouvoir le consulter ou l’exploiter plus
facilement en dehors de l’environnement distribué.

Exercice 2:
1/

Dans cette première étape, nous avons navigué à l’aide du terminal jusqu’au répertoire
TP3/data. Le terminal montre la commande ls -l utilisée pour vérifier que le fichier
[Link] est bien présent dans ce répertoire, avec une taille d’environ 144
Mo.
Une fois le fichier disponible localement, nous l’avons copié dans HDFS via la
commande :

Cette étape est essentielle pour permettre à Hadoop de traiter le fichier, car les
traitements MapReduce se basent sur des données stockées dans le système de
fichiers distribué (HDFS). Le répertoire myinputnour avait déjà été créé à l’exercice
précédent, ce qui justifie sa réutilisation ici.
Compte Rendu ~ TP2

Enfin, nous avons utilisé la commande tail pour visualiser les dernières lignes du
fichier. Cela permet de confirmer la structure du fichier CSV, notamment que les
champs sont séparés par des virgules, et que la population apparaît dans la cinquième
colonne.

🧠 Création du script [Link]

Dans cette étape, nous avons rédigé le script [Link] à l’aide de l’éditeur gedit.

🧠 Création du script [Link]

Le fichier [Link], lui aussi écrit dans gedit, agit comme un filtre. Il lit les paires
clé-valeur produites par le mapper et vérifie si la valeur population est bien
renseignée, c’est-à-dire si elle contient uniquement des chiffres (isdigit()). Si la
condition est respectée, la ligne est conservée et affichée. Ce reducer permet donc
d’éliminer toutes les villes dont la population est vide ou invalide.
Compte Rendu ~ TP2

🔐 Attribution des droits d'exécution

Après l’écriture des deux scripts, nous avons attribué les droits d’exécution à l’aide de
la commande chmod +x. Cette commande est indispensable pour que Hadoop puisse
exécuter les fichiers Python comme des scripts.

🧪 Test local du mapper & reducer

🧠 Script [Link] avec compteurs

Compte Rendu ~ TP2
🚀 Lancement du job MapReduce en local

🚀 Lancement du job MapReduce dans hdfs

📊 Mapper pour l’histogramme :

Dans cette version du script [Link], nous avons modifié la logique afin de
construire un histogramme des villes selon leur population. Une liste de bornes (bins)
est définie pour regrouper les villes en tranches : [10, 100, 1000, ..., 100000000]. Le
script lit chaque ligne, extrait la population si elle est renseignée, puis identifie à
quelle tranche la ville appartient. Il émet ensuite une paire clé-valeur où la clé est la
borne supérieure du bin (par exemple 1000) et la valeur est 1. Cette approche permet
de compter, par la suite, combien de villes tombent dans chaque intervalle.
Compte Rendu ~ TP2
🧮 Reducer pour l’histogramme:
Le fichier [Link] est le reducer correspondant à ce mapper. Il lit les paires bin\t1,
trie les données (automatiquement fait par Hadoop), puis compte le nombre de villes
associées à chaque tranche de population. Pour chaque changement de tranche (bin),
il affiche la clé (la borne du bin) suivie du total des villes correspondantes.

📤 Résultat final du job MapReduce : histogramme des populations

Compte Rendu ~ TP2
Exercice 3:
Dans un premier temps, nous avons déplacé le fichier texte [Link] depuis le
bureau vers le répertoire de travail à l’aide de la commande mv

📤 Copie du fichier [Link] vers HDFS

🧠 Écriture du script [Link]

Le fichier [Link] a été créé pour lire chaque ligne du texte, transformer tous les
caractères en minuscules, séparer la ligne en mots, puis produire une sortie du type
mot\t1 pour chaque mot détecté.
Compte Rendu ~ TP2

🧠 Écriture du script [Link]

Le fichier [Link] a été conçu pour agréger les occurrences de chaque mot
produites par le mapper. Il lit les paires mot\t1 depuis l’entrée standard, trie les mots
automatiquement (grâce à Hadoop), puis les regroupe. Lorsqu’un mot est répété, le
script incrémente un compteur. À chaque changement de mot, le script affiche le total
accumulé pour ce mot, au format mot\tnombre_occurrences.

🔐 Attribution des droits d’exécution

Enfin, nous avons utilisé chmod +x pour rendre les scripts [Link] et
[Link] exécutables. Cela est indispensable pour qu’ils puissent être appelés
directement par Hadoop dans le cadre du job MapReduce.
Compte Rendu ~ TP2
🚀 Lancement du job Mapper en local

🚀 Lancement du job Reducer en local

Compte Rendu ~ TP2
🚀 Lancement du job MapReduce dans hdfs
Une fois les scripts [Link] et [Link] prêts et rendus exécutables, nous
avons lancé un job MapReduce complet

📄 Affichage des résultats avec hdfs dfs -cat

💾 Récupération des résultats en local

Cette commande permet de télécharger le fichier de sortie depuis HDFS vers le
système de fichiers local, afin de l’ouvrir, l’imprimer ou l’archiver. Cette étape est
essentielle pour visualiser ou intégrer les résultats dans d’autres outils hors Hadoop.

Vous aimerez peut-être aussi

TP3 - BD - 2024
Pas encore d'évaluation
TP3 - BD - 2024
5 pages
Exécution de MapReduce avec Hadoop
Pas encore d'évaluation
Exécution de MapReduce avec Hadoop
5 pages
TP Hadoop Et Map
Pas encore d'évaluation
TP Hadoop Et Map
4 pages
Initiation à Hadoop et MapReduce
100% (4)
Initiation à Hadoop et MapReduce
5 pages
ABL Cloud
100% (1)
ABL Cloud
9 pages
tp1 Initiationahadoopetmapreduce 140428050032 Phpapp02
Pas encore d'évaluation
tp1 Initiationahadoopetmapreduce 140428050032 Phpapp02
10 pages
Initiation à Hadoop et Map-Reduce
Pas encore d'évaluation
Initiation à Hadoop et Map-Reduce
10 pages
Initiation à Hadoop et MapReduce
Pas encore d'évaluation
Initiation à Hadoop et MapReduce
5 pages
Python MapReduce pour Big Data
Pas encore d'évaluation
Python MapReduce pour Big Data
3 pages
TD Big Data: Installation Hadoop & MapReduce
Pas encore d'évaluation
TD Big Data: Installation Hadoop & MapReduce
6 pages
Introduction à Hadoop et Map Reduce
Pas encore d'évaluation
Introduction à Hadoop et Map Reduce
5 pages
MapReduce avec Python pour WordCount
Pas encore d'évaluation
MapReduce avec Python pour WordCount
12 pages
Tp1 Initiationahadoopetmapreduce 140428050032 Phpapp02
Pas encore d'évaluation
Tp1 Initiationahadoopetmapreduce 140428050032 Phpapp02
8 pages
Initiation à Hadoop et MapReduce en TP
100% (1)
Initiation à Hadoop et MapReduce en TP
9 pages
Initiation à Hadoop et MapReduce en L2IRS
100% (1)
Initiation à Hadoop et MapReduce en L2IRS
7 pages
TP2 MapReduce 02 2024
Pas encore d'évaluation
TP2 MapReduce 02 2024
8 pages
HDFS MapReduce
Pas encore d'évaluation
HDFS MapReduce
3 pages
TP2 Hadoop : HDFS et MapReduce
Pas encore d'évaluation
TP2 Hadoop : HDFS et MapReduce
24 pages
Examen Big Data
Pas encore d'évaluation
Examen Big Data
3 pages
Total des ventes par magasin avec MapReduce
Pas encore d'évaluation
Total des ventes par magasin avec MapReduce
3 pages
LCD m2 Fiil tp06
Pas encore d'évaluation
LCD m2 Fiil tp06
2 pages
Atelier 2-Mapreduce
Pas encore d'évaluation
Atelier 2-Mapreduce
3 pages
Manipulation de Hadoop : HDFS et MapReduce
Pas encore d'évaluation
Manipulation de Hadoop : HDFS et MapReduce
5 pages
Examen TP Data Science 2024
Pas encore d'évaluation
Examen TP Data Science 2024
4 pages
TP Hadoop: MapReduce et Python
Pas encore d'évaluation
TP Hadoop: MapReduce et Python
5 pages
Introduction à Hadoop et MapReduce
Pas encore d'évaluation
Introduction à Hadoop et MapReduce
9 pages
Map Reduce Python at 2
Pas encore d'évaluation
Map Reduce Python at 2
14 pages
TP2 Map Reduce
Pas encore d'évaluation
TP2 Map Reduce
2 pages
Report TP Hadoop Exemple
Pas encore d'évaluation
Report TP Hadoop Exemple
5 pages
Guide Hadoop MapReduce WordCount
Pas encore d'évaluation
Guide Hadoop MapReduce WordCount
4 pages
TP1 MR - Initiation
Pas encore d'évaluation
TP1 MR - Initiation
4 pages
HDFS Boufares TP2
Pas encore d'évaluation
HDFS Boufares TP2
8 pages
TP 3 - Exercices Map Reduce
88% (8)
TP 3 - Exercices Map Reduce
3 pages
Traitement Distribué avec Hadoop et Spark
Pas encore d'évaluation
Traitement Distribué avec Hadoop et Spark
2 pages
Introduction à Map-Reduce et TP Hadoop
Pas encore d'évaluation
Introduction à Map-Reduce et TP Hadoop
7 pages
MapReduce avec Hadoop et Python
Pas encore d'évaluation
MapReduce avec Hadoop et Python
5 pages
Lab 3
Pas encore d'évaluation
Lab 3
15 pages
Lab 3-Spark RDD
Pas encore d'évaluation
Lab 3-Spark RDD
2 pages
Introduction à Hadoop et MapReduce
Pas encore d'évaluation
Introduction à Hadoop et MapReduce
6 pages
DS-2-Big Data Et Cloud
Pas encore d'évaluation
DS-2-Big Data Et Cloud
2 pages
Big Data Tps
Pas encore d'évaluation
Big Data Tps
28 pages
TP 1 Hadoop
Pas encore d'évaluation
TP 1 Hadoop
16 pages
TP N°2 - Exemple Word Count Avec Hadoop
Pas encore d'évaluation
TP N°2 - Exemple Word Count Avec Hadoop
12 pages
TP2 - HDFS - Etudiants (Copy)
Pas encore d'évaluation
TP2 - HDFS - Etudiants (Copy)
4 pages
Analyse des ventes et salaires en Python
Pas encore d'évaluation
Analyse des ventes et salaires en Python
15 pages
Examen Big Data : MapReduce et HDFS
Pas encore d'évaluation
Examen Big Data : MapReduce et HDFS
4 pages
Design Patterns Hadoop pour Big Data
100% (1)
Design Patterns Hadoop pour Big Data
6 pages
Atelier Big Data : Traitement Batch avec Hadoop
Pas encore d'évaluation
Atelier Big Data : Traitement Batch avec Hadoop
11 pages
Guide pratique MapReduce avec Hadoop
Pas encore d'évaluation
Guide pratique MapReduce avec Hadoop
14 pages
Tp2-Design Patterns Mapreduce II. Patrons de Filtrage: Filtrage Simple Activité 1
Pas encore d'évaluation
Tp2-Design Patterns Mapreduce II. Patrons de Filtrage: Filtrage Simple Activité 1
4 pages
MapReduce et HDFS : Guide Pratique
Pas encore d'évaluation
MapReduce et HDFS : Guide Pratique
2 pages
TP2 MapReduce
Pas encore d'évaluation
TP2 MapReduce
7 pages
TP2 Hadoop 22 23
Pas encore d'évaluation
TP2 Hadoop 22 23
3 pages
TP1 Hadoop
Pas encore d'évaluation
TP1 Hadoop
2 pages
Travaux Pratique N 1 - 3
Pas encore d'évaluation
Travaux Pratique N 1 - 3
4 pages
TP Map Reduce
Pas encore d'évaluation
TP Map Reduce
13 pages
Atelier 2
Pas encore d'évaluation
Atelier 2
3 pages
TP Bigdata ModouFall
Pas encore d'évaluation
TP Bigdata ModouFall
10 pages
Comprendre le Protocole Spanning Tree
Pas encore d'évaluation
Comprendre le Protocole Spanning Tree
9 pages
TP Java 08
Pas encore d'évaluation
TP Java 08
1 page
Techniques de Transmission Numérique
100% (1)
Techniques de Transmission Numérique
36 pages
Gestion de la mémoire en systèmes d'exploitation
Pas encore d'évaluation
Gestion de la mémoire en systèmes d'exploitation
61 pages
CoursSÃrie FÃcondation
100% (1)
CoursSÃrie FÃcondation
7 pages
Optique géométrique : Microscope et lentilles
Pas encore d'évaluation
Optique géométrique : Microscope et lentilles
17 pages
Analyse thématique en sciences sociales
Pas encore d'évaluation
Analyse thématique en sciences sociales
11 pages
CDC Fonctionnel - Site de Gouvernance Des Données
Pas encore d'évaluation
CDC Fonctionnel - Site de Gouvernance Des Données
3 pages
Commentaire Composé
100% (5)
Commentaire Composé
21 pages
Manuel-De-Pose Blocs SOIB
Pas encore d'évaluation
Manuel-De-Pose Blocs SOIB
46 pages
Debit Max Dans Conduites Pehd
100% (1)
Debit Max Dans Conduites Pehd
1 page
Formation et Employabilité au Sénégal
Pas encore d'évaluation
Formation et Employabilité au Sénégal
6 pages
Guide D'utilisation - Téléphone Cisco 8851 MPP Webex
Pas encore d'évaluation
Guide D'utilisation - Téléphone Cisco 8851 MPP Webex
8 pages
Plan monumental de Trouville et Deauville
Pas encore d'évaluation
Plan monumental de Trouville et Deauville
3 pages
Induction Électromagnétique en Physique
100% (1)
Induction Électromagnétique en Physique
10 pages
Banda El Recodo La Fea PDF
Pas encore d'évaluation
Banda El Recodo La Fea PDF
14 pages
Inclusion Finale
Pas encore d'évaluation
Inclusion Finale
31 pages
Structure et Fonction de l'ADN
Pas encore d'évaluation
Structure et Fonction de l'ADN
2 pages
Fiche de Cours Synthetique 7 - Les Tableaux Croises Dynamiques
Pas encore d'évaluation
Fiche de Cours Synthetique 7 - Les Tableaux Croises Dynamiques
4 pages
Guide pour Devenir Aviateur
Pas encore d'évaluation
Guide pour Devenir Aviateur
24 pages
Guide PDF: Utiliser Wireshark Efficacement
Pas encore d'évaluation
Guide PDF: Utiliser Wireshark Efficacement
2 pages
Document de Conception Logicielle
Pas encore d'évaluation
Document de Conception Logicielle
7 pages
Modèle Cahier de Charges Pour Projet Logiciel de Reconnaissance de Caractére Optique
Pas encore d'évaluation
Modèle Cahier de Charges Pour Projet Logiciel de Reconnaissance de Caractére Optique
3 pages
Actions Mecaniques Forces
Pas encore d'évaluation
Actions Mecaniques Forces
2 pages
Description de l'espace en littérature
Pas encore d'évaluation
Description de l'espace en littérature
15 pages
Création de sites web réactifs avec CSS
Pas encore d'évaluation
Création de sites web réactifs avec CSS
7 pages
Critères d'évaluation des rapports de visite
Pas encore d'évaluation
Critères d'évaluation des rapports de visite
2 pages
TD1 Mes 21 22
Pas encore d'évaluation
TD1 Mes 21 22
5 pages
Ebook Caraka Samhita - Traite Fondamental de La Medecine Ayurvedique 1. Les Principes
Pas encore d'évaluation
Ebook Caraka Samhita - Traite Fondamental de La Medecine Ayurvedique 1. Les Principes
612 pages
Marketing Au Service Des IMF
Pas encore d'évaluation
Marketing Au Service Des IMF
5 pages
Modélisation mathématique de la Joconde
Pas encore d'évaluation
Modélisation mathématique de la Joconde
6 pages
Planification Travaux
Pas encore d'évaluation
Planification Travaux
65 pages
Emploi Du Temps S5 L3 Gmat 24 25
Pas encore d'évaluation
Emploi Du Temps S5 L3 Gmat 24 25
1 page
Le Projet Humains Cosmiques de La Terre
100% (1)
Le Projet Humains Cosmiques de La Terre
235 pages
Introduction à la Cryptomonnaie
67% (3)
Introduction à la Cryptomonnaie
13 pages

tp3 Hadoop

Transféré par

tp3 Hadoop

Transféré par

Compte Rendu ~ TP2

1/ Le répertoire TP3 a été créé, contenant deux sous-répertoires :

●​ code : pour les scripts mapper et reducer​

●​ data : pour les fichiers de données sources et les résultats

Le fichier [Link] a été copié dans le dossier data. La commande ls a permis de

🧠 Création du script [Link]

🧠 Création du script [Link]

🔐 Attribution des droits d'exécution

🧪 Test local du mapper & reducer

🧠 Script [Link] avec compteurs

🚀 Lancement du job MapReduce dans hdfs

📊 Mapper pour l’histogramme :

📤 Résultat final du job MapReduce : histogramme des populations

📤 Copie du fichier [Link] vers HDFS

🧠 Écriture du script [Link]

🧠 Écriture du script [Link]

🔐 Attribution des droits d’exécution

🚀 Lancement du job Reducer en local

📄 Affichage des résultats avec hdfs dfs -cat

💾 Récupération des résultats en local

Vous aimerez peut-être aussi

● code : pour les scripts mapper et reducer

● data : pour les fichiers de données sources et les résultats