TD UMT
TD3 - BIG DATA
APACHE SPARK
QCM
TD UMT
Question de cours
1. Énumérez les avantages de spark par rapport à map reduce.
………………………………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………………………………
……………………………………………………………………………………………………………………………………………..
2. Expliquez le paradigme des RDDs.
………………………………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………………………………
……………………………………………………………………………………………………………………………………………..
3. Expliquez le rôle du driver program
………………………………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………………………………
……………………………………………………………………………………………………………………………………………..
4. Expliquez le role des executers
………………………………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………………………………
……………………………………………………………………………………………………………………………………………..
5. Qui prend en charge la gestion des ressources pour Sprak.
………………………………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………………………………
……………………………………………………………………………………………………………………………………………..
6. Donnez les trois modes d execution de SPARK.
sc =SparkContext() Cet objet sc s’execute en quel mode
TD UMT
………………………………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………………………………
……………………………………………………………………………………………………………………………………………..
7. Soit une liste d entiers de 1 à 5. En utilisant les opérations de spark afficher les éléments
au carré.
………………………………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………………………………
…………………………………………………………………………………………………………………………………………..
8. Donnez le résultat de cette exécution :
9. Écrire le code en pyspark qui permet de fusionner ses deux listes et d’enlever les doublons
[1,2,3,4] et [6,5,4,3]
10. Donnez le résultat cette exécution :
Exercice
Soit un fichier de données de type CSV provenant de [Link] décrivant des
arbres remarquables à Paris. Chaque ligne décrit un arbre : position GPS, arrondissement,
genre, espèce, famille, année de plantation, hauteur, circonférence, etc. Le séparateur est ';'.
1. Écrire le programme pyspark qui réponds aux exigences : Afficher l’année de plantation
de l’arbre le plus haut.
2. Lancez le en local