0% ont trouvé ce document utile (0 vote)

424 vues6 pages

QCM Apache Spark

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

424 vues6 pages

QCM Apache Spark

Transféré par

Manel

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

QUIZZ 1

Questions
Essayez ces questions pratiques pour tester vos connaissances sur Apache Spark :

Question 1 :
Qu'est-ce qu'une tâche dans Spark ?
1. L'unité de travail effectuée pour chaque partition de données au sein d'une tâche est les
slots.
2. Une tâche est la deuxième plus petite entité exécutable dans Spark.
3. Les tâches présentant des dépendances larges peuvent être combinées en une seule tâche.
4. Une tâche est la plus petite composante exécutable dans Spark.
Réponse : 4. Une tâche est la plus petite composante exécutable dans Spark.

Question 2 :
Quel est le rôle d'un exécuteur dans Spark ?
1. L'exécuteur demande la transformation des opérations en un graphe orienté acyclique
(DAG).
2. Il ne peut y avoir qu'un seul exécuteur dans un environnement Spark.
3. Les exécuteurs exécutent les tâches qui leur sont assignées par le driver.
4. L'exécuteur planifie l'exécution des requêtes.
Réponse : 3. Les exécuteurs exécutent les tâches qui leur sont assignées par le driver.

Question 3 :
Quelle est l'une des tâches de l'exécution de requêtes adaptatives (Adaptive Query Execution) dans
Spark ?
1. Adaptive Query Execution collecte des statistiques d'exécution pour optimiser les plans de
requêtes.
2. Elle est responsable de la distribution des tâches aux exécuteurs.
3. Elle gère les opérations larges dans Spark.
4. Elle assure la tolérance aux pannes dans Spark.
Réponse : 1. Adaptive Query Execution collecte des statistiques d'exécution pour optimiser les plans
de requêtes.

Question 4 :
Quel est le niveau le plus bas dans la hiérarchie d'exécution de Spark ?
1. Tâche
2. Slot
3. Job
4. Stage
Réponse : 1. Tâche

Question 5 :
Laquelle de ces opérations est une action ?
1. [Link]()
2. [Link]()
3. [Link]()
4. [Link]()
Réponse : 1. [Link]()

Question 6 :
Quelle affirmation décrit les caractéristiques de l'API DataFrame ?
1. L'API DataFrame repose sur les RDD (Resilient Distributed Datasets) en arrière-plan.
2. L'API DataFrame est disponible en Scala, mais pas en Python.
3. L'API DataFrame ne contient pas de fonctions de manipulation des données.
4. L'API DataFrame distribue les tâches entre les exécuteurs.
Réponse : 1. L'API DataFrame repose sur les RDD en arrière-plan.

Question 7 :
Quelle déclaration est exacte à propos des exécuteurs ?
1. Les slots ne font pas partie d'un exécuteur.
2. Les exécuteurs peuvent exécuter des tâches en parallèle grâce aux slots.
3. Les exécuteurs sont toujours égaux aux tâches.
4. Un exécuteur distribue les tâches pour un job.
Réponse : 2. Les exécuteurs peuvent exécuter des tâches en parallèle grâce aux slots.

Question 8 :
Quelle déclaration est exacte concernant le driver dans Spark ?
1. Il existe plusieurs drivers dans une application Spark.
2. Les slots font partie d'un driver.
3. Les drivers exécutent les tâches en parallèle.
4. Le driver est responsable de la transformation des opérations en DAGs.
Réponse : 4. Le driver est responsable de la transformation des opérations en DAGs.

Question 9 :
Laquelle de ces opérations est une transformation large ?
1. [Link]()
2. [Link]()
3. [Link]()
4. [Link]()
5. [Link]()
Réponse : 3. [Link]()

Question 10 :
Quelle déclaration est correcte à propos de l'évaluation paresseuse (lazy evaluation) ?
1. L'exécution est déclenchée par des transformations.
2. L'exécution est déclenchée par des actions.
3. Les instructions sont exécutées au fur et à mesure qu'elles apparaissent dans le code.
4. Spark distribue les tâches entre différents exécuteurs.
Réponse : 2. L'exécution est déclenchée par des actions.

Question 11 :
Quelle affirmation est correcte concernant les DAGs dans Spark ?
1. Les DAGs sont évalués paresseusement.
2. Les DAGs peuvent être mis à l'échelle horizontalement dans Spark.
3. Les DAGs traitent les partitions de manière optimisée et distribuée.
4. Un DAG est composé de tâches pouvant s'exécuter en parallèle.
Réponse : 1. Les DAGs sont évalués paresseusement.

Question 12 :
Quelle déclaration est correcte concernant le mécanisme de tolérance aux pannes dans Spark ?
1. Spark assure la tolérance aux pannes via les DAGs.
2. C'est l'exécuteur qui garantit la tolérance aux pannes.
3. Grâce à la tolérance aux pannes, Spark peut recalculer tout RDD échoué.
4. Spark construit une couche de tolérance aux pannes au-dessus du système RDD classique, qui
n'est pas lui-même tolérant aux pannes.
Réponse : 3. Grâce à la tolérance aux pannes, Spark peut recalculer tout RDD échoué.

Question 13 :
Quel est le cœur du mécanisme de tolérance aux pannes dans Spark ?
1. Les RDD, qui sont tolérants aux pannes par conception.
2. Les partitions de données, car elles peuvent être recalculées.
3. Les DataFrames, qui sont immuables.
4. Les exécuteurs, qui assurent la tolérance aux pannes.
Réponse : 1. Les RDD, qui sont tolérants aux pannes par conception.

Question 14 :
Quelle affirmation est correcte à propos des jobs dans Spark ?
1. Les différents stages d'un job peuvent s'exécuter en parallèle.
2. Les différents stages d'un job ne peuvent pas s'exécuter en parallèle.
3. Une tâche est composée de plusieurs jobs.
4. Un stage est composé de plusieurs jobs.
Réponse : 1. Les différents stages d'un job peuvent s'exécuter en parallèle.

Question 15 :
Quelle affirmation est correcte à propos d'un shuffle dans Spark ?
1. Dans un shuffle, les données sont envoyées à plusieurs partitions pour être traitées.
2. Dans un shuffle, les données sont envoyées à une seule partition pour être traitées.
3. Un shuffle est une action qui déclenche une évaluation.
4. Dans un shuffle, toutes les données restent en mémoire pour être traitées.
Réponse : 1. Dans un shuffle, les données sont envoyées à plusieurs partitions pour être traitées.

Question 16 :
Qu'est-ce qui est exact à propos du gestionnaire de cluster (cluster manager) dans Spark ?
1. Le cluster manager est responsable de la gestion des ressources dans Spark.
2. Le cluster manager travaille directement avec les exécuteurs.
3. Le cluster manager crée des plans de requêtes.
4. Le cluster manager optimise les DAGs.
Réponse : 1. Le cluster manager est responsable de la gestion des ressources dans Spark.

Question 17 :
Complétez ce code pour effectuer les opérations demandées :
python
Copier le code
df.___1___ ("department").___2___ (sum("salary").alias("sum_salary"),
___3___ ("salary").alias("avg_salary"), sum("bonus").alias("sum_bonus"),
___4___("bonus").alias("max_bonus") )
1. groupBy
2. agg
3. avg
4. max
Réponse :
1. groupBy
2. agg
3. avg
4. max
Question 18 :
Quel est l'erreur dans ce code de jointure ?
python
Copier le code
[Link](employeeDf, "employeeID", how="broadcast")
1. Au lieu de join, il faut utiliser innerJoin.
2. broadcast n'est pas un type de jointure valide dans Spark.
3. salaryDf et employeeDf doivent être échangés.
4. Dans le paramètre how, il faut utiliser crossJoin au lieu de broadcast.
Réponse : 2. broadcast n'est pas un type de jointure valide dans Spark.

Question 19 :
Quel code redistribue le DataFrame df pour avoir 20 partitions au lieu de 5 ?
1. [Link](5)
2. [Link](20)
3. [Link](20)
4. [Link](5)
Réponse : 2. [Link](20)

Question 20 :
Quelle opération déclenche une évaluation ?
1. [Link]()
2. [Link]()
3. [Link]()
4. [Link]()
5. [Link]()
Réponse : 5. [Link]()

Question 21 :
Quel code renvoie les valeurs uniques pour les colonnes age et name dans le DataFrame df ?
1. [Link]('age').join([Link]('name'), col(state) == col('name'), 'inner').show()
2. [Link](col('age'), col('name')).agg({'*': 'count'}).show()
3. [Link]('age', 'name').distinct().show()
4. [Link]('age').unionAll([Link]('name')).distinct().show()
Réponse : 3. [Link]('age', 'name').distinct().show()
QUIZZ 2

Évaluation de vos connaissances sur le projet

Question 1
Quelles sont les techniques utilisées dans le prétraitement des données ? (sélectionnez tout ce qui
s'applique)
 Remplir les valeurs manquantes
 Exploration des données
 Entraînement du modèle
 Suppression des valeurs aberrantes
Réponse : Les techniques utilisées dans le prétraitement des données incluent :
 Remplir les valeurs manquantes
 Suppression des valeurs aberrantes
Question 2
Quel est le but de l'analyse exploratoire des données ?
 Construire un modèle d'apprentissage automatique
 Transformer les données
 Identifier des motifs et des tendances dans les données
 Nettoyer les données
Réponse : Le but de l'analyse exploratoire des données est d'identifier des motifs et des tendances
dans les donné[Link] 3
Quelle méthode dans les DataFrames PySpark est utilisée pour imprimer les types de données des
colonnes dans un DataFrame ?
 show()
 printSchema()
 describe()
 head()
Réponse : La méthode utilisée pour imprimer les types de données des colonnes
est printSchema().Question 4
Quel est le but de la méthode Train-Test split pour l'entraînement d'un modèle d'apprentissage
automatique ? (sélectionnez tout ce qui s'applique)
 Évaluer la performance d'un modèle sur des données non vues
 Prétraiter les données avant d'entraîner un modèle
 Gérer les valeurs manquantes dans les données
 Créer un modèle en utilisant uniquement un sous-ensemble des données disponibles
Réponse : Les objectifs de la méthode Train-Test split incluent :
 Évaluer la performance d'un modèle sur des données non vues
 Créer un modèle en utilisant uniquement un sous-ensemble des données disponibles
Question 5
Qu'est-ce que le surapprentissage (Overfitting) en apprentissage automatique ?
 Le modèle performe mal à la fois sur les données d'entraînement et de test
 Le modèle est trop simple et ne s'ajuste pas bien aux données
 Le modèle est trop simple et s'ajuste au bruit dans les données
 Le modèle performe bien sur les données d'entraînement mais mal sur les données de test
Réponse : Le surapprentissage se produit lorsque le modèle performe bien sur les données
d'entraînement mais mal sur les données de [Link] 6
Qu'est-ce que l'importance des caractéristiques (Feature Importance) en apprentissage
automatique ?
 Une mesure de la complexité d'un modèle
 Une mesure du nombre de caractéristiques dans un ensemble de données
 Une mesure de la contribution de chaque caractéristique à la variable cible
 Une mesure de la performance d'un modèle sur un ensemble de test
Réponse : L'importance des caractéristiques est une mesure de la contribution de chaque
caractéristique à la variable [Link] 7
Quel est le but de l'aire sous la courbe ROC ?
 C'est une métrique pour mesurer l'exactitude d'un modèle de régression linéaire
 C'est une métrique pour mesurer l'exactitude d'un modèle de classification binaire
 C'est une métrique pour mesurer l'erreur d'un modèle de classification binaire
 C'est un hyperparamètre pour un classificateur d'arbre de décision
Réponse : L'aire sous la courbe ROC est une métrique pour mesurer l'exactitude d'un modèle de
classification [Link] 8
Quel est le but du String Indexer ?
 Convertir les valeurs string dans des caractéristiques catégoriques en vecteurs
caractéristiques
 Convertir les valeurs string dans des caractéristiques catégoriques en minuscules
 Convertir les valeurs string dans des caractéristiques catégoriques en valeurs numériques
uniques
 Convertir les valeurs string dans des caractéristiques catégoriques en majuscules
Réponse : Le but du String Indexer est de convertir les valeurs string dans des caractéristiques
catégoriques en valeurs numériques [Link] 9
Quelles sont les étapes nécessaires pour préparer les caractéristiques numériques pour un modèle
d'apprentissage automatique PySpark ?
 Trouver les valeurs aberrantes
 Assemblage de vecteurs (Vector Assembling)
 Indexation de chaînes (String Indexing)
 Mise à l'échelle standard (Standard Scaling)
Réponse : Les étapes nécessaires incluent :
 Assemblage de vecteurs (Vector Assembling)
 Mise à l'échelle standard (Standard Scaling)
(Note: Trouver les valeurs aberrantes et indexation de chaînes peuvent également être pertinentes,
mais ne sont pas spécifiquement nécessaires pour toutes les caractéristiques numériques.)Question
10
Comment trouver le compte de chaque valeur unique dans une colonne catégorique dans un
DataFrame appelé df ?
 [Link](column_name).count()
 [Link](column_name)
 [Link](column_name)
 [Link](column_name)
Réponse : Pour trouver le compte de chaque valeur unique, on
utilise [Link](column_name).count().

Vous aimerez peut-être aussi

(Big Data Analytics) CHAP4 - Spark Streaming
Pas encore d'évaluation
(Big Data Analytics) CHAP4 - Spark Streaming
29 pages
Apache Spark Interview Questions and
Pas encore d'évaluation
Apache Spark Interview Questions and
19 pages
Big Data QCM 1 PDF
Pas encore d'évaluation
Big Data QCM 1 PDF
7 pages
Cours - Spark - Partie 3 Et 4
Pas encore d'évaluation
Cours - Spark - Partie 3 Et 4
46 pages
Leçon5 Spark
Pas encore d'évaluation
Leçon5 Spark
18 pages
Spark Introduction
Pas encore d'évaluation
Spark Introduction
22 pages
Spark
Pas encore d'évaluation
Spark
54 pages
Spark : Analyse Big Data et RDD
Pas encore d'évaluation
Spark : Analyse Big Data et RDD
42 pages
Chap4 MapReduce
Pas encore d'évaluation
Chap4 MapReduce
17 pages
Ds Big Data Novembre 2023 Final
Pas encore d'évaluation
Ds Big Data Novembre 2023 Final
3 pages
tp3 Scala
Pas encore d'évaluation
tp3 Scala
2 pages
Introduction à Spark Streaming
Pas encore d'évaluation
Introduction à Spark Streaming
44 pages
Spark : RDD et Transformations Optimisées
Pas encore d'évaluation
Spark : RDD et Transformations Optimisées
11 pages
Exam Big Data Version Finale
Pas encore d'évaluation
Exam Big Data Version Finale
7 pages
TP 2 Sparql
Pas encore d'évaluation
TP 2 Sparql
4 pages
Cluster Hadoop - Docker Portainee
Pas encore d'évaluation
Cluster Hadoop - Docker Portainee
33 pages
TP4 Spark MLlib
Pas encore d'évaluation
TP4 Spark MLlib
7 pages
Chapitre2 Introduction MongoDB
Pas encore d'évaluation
Chapitre2 Introduction MongoDB
24 pages
TP2 BIGdata
Pas encore d'évaluation
TP2 BIGdata
15 pages
50 Questions Sur Hadoop
Pas encore d'évaluation
50 Questions Sur Hadoop
8 pages
Spark et Hadoop : Architectures Big Data
Pas encore d'évaluation
Spark et Hadoop : Architectures Big Data
43 pages
Enonce TP 5
Pas encore d'évaluation
Enonce TP 5
4 pages
TP Sparks QL
Pas encore d'évaluation
TP Sparks QL
19 pages
Architecture Cloud et Big Data
Pas encore d'évaluation
Architecture Cloud et Big Data
70 pages
TP2 Big Data Env Docker
Pas encore d'évaluation
TP2 Big Data Env Docker
3 pages
Exercices MapReduce
Pas encore d'évaluation
Exercices MapReduce
3 pages
Tp1: Installation de L'Apache Spark: Lebutdecetp
100% (1)
Tp1: Installation de L'Apache Spark: Lebutdecetp
4 pages
Spark-Td 1
Pas encore d'évaluation
Spark-Td 1
3 pages
CH 2 Hadoop
Pas encore d'évaluation
CH 2 Hadoop
56 pages
TP Creation Tablespace
100% (2)
TP Creation Tablespace
2 pages
Révision Correction
Pas encore d'évaluation
Révision Correction
4 pages
Optimisation des requêtes SQL en SGBD
Pas encore d'évaluation
Optimisation des requêtes SQL en SGBD
25 pages
2-Atelier-Dev MS
Pas encore d'évaluation
2-Atelier-Dev MS
10 pages
Examen - Big Data: 1 Exercice I: Hadoop Est Mort... Vive Hadoop ! (10pts)
Pas encore d'évaluation
Examen - Big Data: 1 Exercice I: Hadoop Est Mort... Vive Hadoop ! (10pts)
3 pages
Commandes Hadoop
Pas encore d'évaluation
Commandes Hadoop
5 pages
Big Data
Pas encore d'évaluation
Big Data
16 pages
TP Bigdata ApacheSparkRDD
Pas encore d'évaluation
TP Bigdata ApacheSparkRDD
3 pages
Introduction à Apache Spark
Pas encore d'évaluation
Introduction à Apache Spark
4 pages
DS Big Data2024
Pas encore d'évaluation
DS Big Data2024
4 pages
Examen QCM NSY 102 - Design Patterns
Pas encore d'évaluation
Examen QCM NSY 102 - Design Patterns
16 pages
Introduction à PySpark pour le Big Data
Pas encore d'évaluation
Introduction à PySpark pour le Big Data
2 pages
HDFS MapReduce
Pas encore d'évaluation
HDFS MapReduce
3 pages
Support de Cours - Spark - Intro - Partie 1 Et 2
100% (1)
Support de Cours - Spark - Intro - Partie 1 Et 2
52 pages
Séance 4 - Cours - Spark - ML - Partie 6
Pas encore d'évaluation
Séance 4 - Cours - Spark - ML - Partie 6
19 pages
Tutoriel Complet sur Apache Spark : Chargement, Manipulation et Sauvegarde de Données
100% (1)
Tutoriel Complet sur Apache Spark : Chargement, Manipulation et Sauvegarde de Données
9 pages
Introduction à Apache Hive et Big Data
Pas encore d'évaluation
Introduction à Apache Hive et Big Data
28 pages
TP Map Reduce
100% (2)
TP Map Reduce
3 pages
Analyse Twitter avec Neo4j et Cypher
Pas encore d'évaluation
Analyse Twitter avec Neo4j et Cypher
2 pages
Chapitre 2
Pas encore d'évaluation
Chapitre 2
32 pages
Examen Nosql24
Pas encore d'évaluation
Examen Nosql24
6 pages
Cours 3 Architecture - Big Data Map Reduce
Pas encore d'évaluation
Cours 3 Architecture - Big Data Map Reduce
59 pages
BigData2A TD3 4 Enonce - 2
100% (1)
BigData2A TD3 4 Enonce - 2
9 pages
HDFS Boufares TP2
Pas encore d'évaluation
HDFS Boufares TP2
8 pages
Hadoop : Traitement et Stockage de Données Massives
100% (1)
Hadoop : Traitement et Stockage de Données Massives
69 pages
TP1 Spark
Pas encore d'évaluation
TP1 Spark
2 pages
QCM Big Data : Testez vos connaissances
Pas encore d'évaluation
QCM Big Data : Testez vos connaissances
2 pages
Ventes Totales par Produit et Région
100% (1)
Ventes Totales par Produit et Région
5 pages
Spark SQL: Architecture et Fonctionnalités
Pas encore d'évaluation
Spark SQL: Architecture et Fonctionnalités
42 pages
Cours Patron Partie 4
Pas encore d'évaluation
Cours Patron Partie 4
19 pages
Examen Pratique Aperçu: Développeur Associé Certifié Databricks Pour Apache Spark 3.0 - Scala
Pas encore d'évaluation
Examen Pratique Aperçu: Développeur Associé Certifié Databricks Pour Apache Spark 3.0 - Scala
27 pages
Pilotage de Projets Décisionnels - Power BI Et DAX 03-04-2024 VE
Pas encore d'évaluation
Pilotage de Projets Décisionnels - Power BI Et DAX 03-04-2024 VE
176 pages
Pilotage Du Cycle de Vie D'un Projet BI
Pas encore d'évaluation
Pilotage Du Cycle de Vie D'un Projet BI
76 pages
Révision IOT
Pas encore d'évaluation
Révision IOT
10 pages
Examen Python
Pas encore d'évaluation
Examen Python
2 pages
Génétique Formelle Des Organismes Haploides (Bio-Cellulaire)
Pas encore d'évaluation
Génétique Formelle Des Organismes Haploides (Bio-Cellulaire)
24 pages
Chap. 6-Dynamique Des Fluides
Pas encore d'évaluation
Chap. 6-Dynamique Des Fluides
2 pages
Introduction à la Méthode MERISE pour Systèmes d'Information
Pas encore d'évaluation
Introduction à la Méthode MERISE pour Systèmes d'Information
9 pages
Fiche Poste 11 Chalumeau
67% (3)
Fiche Poste 11 Chalumeau
2 pages
Ch05 Exercices+Solutions
Pas encore d'évaluation
Ch05 Exercices+Solutions
25 pages
Conseiller en Insertion Professionnelle
Pas encore d'évaluation
Conseiller en Insertion Professionnelle
1 page
Modélisation de Nacelle par Éléments Finis
Pas encore d'évaluation
Modélisation de Nacelle par Éléments Finis
7 pages
Cours Droit Penal Special Enp 2017 2018
Pas encore d'évaluation
Cours Droit Penal Special Enp 2017 2018
69 pages
Fonction exponentielle népérienne
Pas encore d'évaluation
Fonction exponentielle népérienne
7 pages
ONG : Nouveaux Acteurs de Richesse
Pas encore d'évaluation
ONG : Nouveaux Acteurs de Richesse
16 pages
Poele MCZ - Télécommande
Pas encore d'évaluation
Poele MCZ - Télécommande
32 pages
Guide Technique Réseau Assainissement - V Finale PDF
67% (3)
Guide Technique Réseau Assainissement - V Finale PDF
240 pages
Licence Mention Physique - Onisep
Pas encore d'évaluation
Licence Mention Physique - Onisep
9 pages
Les Systemes de Numeration 1
Pas encore d'évaluation
Les Systemes de Numeration 1
7 pages
1 Metrologie
Pas encore d'évaluation
1 Metrologie
25 pages
50 Problemes Du Moment-1
100% (2)
50 Problemes Du Moment-1
50 pages
Les Descripteurs en Échantillonnage Écologique
Pas encore d'évaluation
Les Descripteurs en Échantillonnage Écologique
7 pages
Cours 8
100% (1)
Cours 8
28 pages
Aria Giovanni Se Tape Une Copine
Pas encore d'évaluation
Aria Giovanni Se Tape Une Copine
1 page
Critique de Wartales : RPG Tactique Épique
Pas encore d'évaluation
Critique de Wartales : RPG Tactique Épique
10 pages
PC Harti Uiass
Pas encore d'évaluation
PC Harti Uiass
89 pages
Formations Simulateurs Minier et Construction
Pas encore d'évaluation
Formations Simulateurs Minier et Construction
37 pages
Pronote Fichiers Externes 60
Pas encore d'évaluation
Pronote Fichiers Externes 60
1 page
Synthèse Orientation
Pas encore d'évaluation
Synthèse Orientation
50 pages
Exos Limite2 Belb-2
Pas encore d'évaluation
Exos Limite2 Belb-2
3 pages
Moins de cours, plus d'apprentissage
Pas encore d'évaluation
Moins de cours, plus d'apprentissage
5 pages
Exercices corrigés sur le dipôle RL
100% (5)
Exercices corrigés sur le dipôle RL
15 pages
CNC MP 2009 Maths 1 Corrige
Pas encore d'évaluation
CNC MP 2009 Maths 1 Corrige
7 pages
CH4 - Cours SE+logiciels
Pas encore d'évaluation
CH4 - Cours SE+logiciels
6 pages
Guide Acces Supplier Portal
0% (1)
Guide Acces Supplier Portal
15 pages