0% ont trouvé ce document utile (0 vote)
217 vues3 pages

Spark-Td 1

Le document présente une série de questions sur Apache Spark. Il aborde les avantages de Spark par rapport à MapReduce, le paradigme des RDD, le rôle du driver program et des executers, la gestion des ressources dans Spark, les modes d'exécution de Spark et quelques exercices sur des opérations et traitements de données avec Spark.

Transféré par

SALMA GUESMI
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
217 vues3 pages

Spark-Td 1

Le document présente une série de questions sur Apache Spark. Il aborde les avantages de Spark par rapport à MapReduce, le paradigme des RDD, le rôle du driver program et des executers, la gestion des ressources dans Spark, les modes d'exécution de Spark et quelques exercices sur des opérations et traitements de données avec Spark.

Transféré par

SALMA GUESMI
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

TD UMT

TD3 - BIG DATA


APACHE SPARK
QCM
TD UMT

Question de cours
1. Énumérez les avantages de spark par rapport à map reduce.
………………………………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………………………………
……………………………………………………………………………………………………………………………………………..
2. Expliquez le paradigme des RDDs.
………………………………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………………………………
……………………………………………………………………………………………………………………………………………..
3. Expliquez le rôle du driver program
………………………………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………………………………
……………………………………………………………………………………………………………………………………………..
4. Expliquez le role des executers
………………………………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………………………………
……………………………………………………………………………………………………………………………………………..

5. Qui prend en charge la gestion des ressources pour Sprak.


………………………………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………………………………
……………………………………………………………………………………………………………………………………………..

6. Donnez les trois modes d execution de SPARK.


sc =SparkContext() Cet objet sc s’execute en quel mode
TD UMT

………………………………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………………………………
……………………………………………………………………………………………………………………………………………..
7. Soit une liste d entiers de 1 à 5. En utilisant les opérations de spark afficher les éléments
au carré.
………………………………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………………………………
…………………………………………………………………………………………………………………………………………..
8. Donnez le résultat de cette exécution :

9. Écrire le code en pyspark qui permet de fusionner ses deux listes et d’enlever les doublons
[1,2,3,4] et [6,5,4,3]
10. Donnez le résultat cette exécution :

Exercice
Soit un fichier de données de type CSV provenant de [Link] décrivant des
arbres remarquables à Paris. Chaque ligne décrit un arbre : position GPS, arrondissement,
genre, espèce, famille, année de plantation, hauteur, circonférence, etc. Le séparateur est ';'.
1. Écrire le programme pyspark qui réponds aux exigences : Afficher l’année de plantation
de l’arbre le plus haut.
2. Lancez le en local

Vous aimerez peut-être aussi