TP Big Data Novembre 2024
TP 01 : Introduction à PySpark et Manipulation des RDD
Exercice 1 :
1) Créer un RDD à partir d'une liste simple data = [1, 2, 3, 4, 5].
2) Vérifier le contenu de votre RDD en utilisant l'action collect()qui renvoie tous les
éléments du RDD sous forme de liste.
3) Appliquer une transformation map pour multiplier chaque élément du RDD par 2.
4) Appliquer une transformation filter pour conserver uniquement les éléments pairs dans le
RDD.
5) Utiliser l'action reduce pour calculer la somme de tous les éléments du RDD.
6) Utiliser l'action count pour afficher le nombre d'éléments dans le RDD.
7) Créer un accumulateur qui va compter combien d'éléments dans le RDD sont supérieurs à 3.
Exercice 2 : Traitement de fichier texte (data.txt)
1. Charger le fichier data.txt dans un RDD.
2. Afficher le contenu du RDD en utilisant l'action collect().
3. Appliquer une transformation map pour convertir chaque ligne du fichier en
majuscules.
4. Utiliser la transformation filter pour conserver uniquement les lignes contenant le
mot "Spark".
5. Appliquer l'action count pour afficher le nombre de lignes contenant le mot "Spark".
6. Créer un accumulateur pour compter le nombre total de mots dans le fichier.
7. Utiliser l'action saveAsTextFile pour sauvegarder le contenu modifié dans un fichier
de sortie.
Exercice 3 : Analyse de fichier CSV (WorldCitiesPop.csv)
1. Charger le fichier CSV WorldCitiesPop.csv en utilisant sc.textFile.
2. Appliquer une transformation map pour diviser chaque ligne en une liste en utilisant la
virgule comme séparateur.
3. Afficher les 5 premières lignes du fichier en utilisant l'action take(5).
Filière : Ing en Génie Informatique : BI & Big BOUAZIZI Salma
TP Big Data Novembre 2024
4. Appliquer une transformation filter pour conserver uniquement les villes ayant une
population supérieure à 5 millions d'habitants.
5. Utiliser une transformation map pour extraire uniquement les noms des villes et leur
population.
6. Calculer la population totale de toutes les villes en utilisant l'action reduce.
7. Créer un accumulateur pour compter combien de villes appartiennent au continent
"Europe".
Filière : Ing en Génie Informatique : BI & Big BOUAZIZI Salma