Module : Machine Learning
Licence : RIOT3
Enseignante : Dr. Rym Besrour
Activité 2
« Exploration, Prétraitement et Transformation de Données»
1. Pourquoi est-il important de nettoyer les données avant de les utiliser pour l’entrainement d’un modèle en
ML ?
a. Les données propres conduisent toujours à des modèles plus précis.
b. Les données brutes peuvent contenir des erreurs, des valeurs aberrantes ou des lacunes qui peuvent
affecter négativement la performance du modèle.
2. Quelle bibliothèque Python est couramment utilisée pour le prétraitement des données en machine
learning ?
a. Pandas.
b. Matplotlib.
c. Numpy
3. Qu’est-ce que l’exploration des données (data exploration) en machine learning ?
a. Le processus de nettoyage des données pour enlever les valeurs aberrantes.
b. L’analyse et la visualisation des données pour en tirer des insights et comprendre leur nature.
4. Quel type de graphique est généralement utilisé pour représenter la distribution d’une variable continue ?
a. Histogramme.
b. Diagrammes à barres.
c. Nuages de points.
5. Qu’est-ce qu’un diagramme en boite (box plot) ?
a. Un graphique qui affiche la fréquence de chaque valeur unique dans un ensemble de données.
b. Un graphique qui représente la distribution de données numériques à l’aide de quartiles.
6. Comment peut-on normaliser les données dans une colonne spécifique d’un DataFrame en utilisant Scikit-
learn ?
a. from sklearn.preprocessing import normalize puis normalize(df[‘colonne’])
b. from sklearn.preprocessing import StandardScaler puis
StandardScaler ().fit_transform(df[[‘colonne’]])
c. from sklearn.preprocessing import MinMaxScaler puis
MinMaxScaler ().fit_transform(df[[‘colonne’]])
7. Quelle est la signification d’une corrélation positive entre deux variables ?
a. Les variables évoluent dans la même direction.
b. Les variables évoluent dans des directions opposées.
Module : Machine Learning
Licence : RIOT3
Enseignante : Dr. Rym Besrour
8. Que représente la matrice de corrélation entre plusieurs variables ?
a. Une table qui montre la corrélation entre chaque paire de variables.
b. Une table qui résume la distribution des données.
9. Qu’est-ce qu’une variable catégorielle en exploration de données ?
a. Une variable qui représente des catégories ou des groupes distincts.
b. Une variable numérique.
10. Quelle est la fonction principale des diagrammes de dispersion (scatter plots) ?
a. Représenter la relation entre deux variables continues.
b. Montrer la distribution d’une variable catégorielle.
11. Comment peut-on calculer la corrélation positive entre deux variables ?
a. En utilisant le coefficient de corrélation de Pearson.
b. En calculant la différence entre les moyennes des deux variables.
12. Quelle méthode peut etre utilisée pour gérer les valeurs aberrantes lors de l’exploration des données ?
a. Ignorer complètement les valeurs aberrantes car elles n’ont pas d’impact significatif.
b. Les identifier et décider de les supprimer ou de les traiter selon le cas.
13. Quel outil Python populaire est souvent utilisé pour l’exploration et la visualisation des données en
machine learning ?
a. Matplotlib
b. Scikit-learn
c. TensorFlow
14. Quelle méthode de Pandas peut être utilisée pour compter le nombre de valeurs uniques dans une colle
d’un DataFrame ?
a. nunique()
b. unique()
c. count_unique()
15. Qu’est-ce qu’une valeur aberrante ‘outlier’ dans un jeu de données ?
a. Une donne qui est située très loin de la moyenne des autres données.
b. Une donnée manquante.
16. Comment peut-on générer un histogramme pour visualiser la distribution d’une variable en utilisant
Matplotlib ?
a. plt.bar()
b. plt.plot()
c. plt.hist()
17. Comment peut-on traiter les valeurs aberrantes dans un jeu de données ?
a. En les supprimant.
b. En les remplaçant par une valeur basée sur la médiane ou la moyenne du reste des données.
Module : Machine Learning
Licence : RIOT3
Enseignante : Dr. Rym Besrour
18. Que sont les données manquantes (missing value) ?
a. Des données qui sont perdues pendant le processus de collecte.
b. Des données qui ne sont pas pertinentes pour l’analyse.
19. Quelles sont certaines des méthodes pour gérer les données manquantes ?
a. Supprimer les lignes avec des données manquantes.
b. Imputer les valeurs manquantes en utilisant des techniques comme la moyenne, la médiane ou le
mode.
20. Quelle méthode de Pandas peut être utilisée pour vérifier s’il y a des valeurs manquantes dans un
DataFrame ?
a. isna()
b. missing_values()
c. null_values()
21. Qu’est-ce qu’une variable catégorielle dans un jeu de données ?
a. Une variable qui représente des catégories ou des groupes, souvent sous forme de texte.
b. Une variable numérique.
22. Qu’est-ce que la normalisation des données ?
a. Le processus de convertir les variables catégorielles en variables numériques.
b. Le processus de mettre toutes les variables sur la même échelle.
23. Comment peut-on lire un fichier CSV dans Python en utilisant la bibliothèque Pandas ?
a. pd.load_csv(« nom_fichier.csv »)
b. pd.read_csv(« nom_fichier.csv »)
c. pd.open_csv(« nom_fichier.csv »)
24. Comment peut-on remplacer les valeurs manquantes dans un DataFrame avec la valeur moyenne de la
colonne en utilisant Pandas ?
a. df.fillna(df.mean(), inplace=True)
b. df.replace_missinf(df.mean())
c. df.fill_missing(df.mean())
25. Quelle méthode de Pandas peut être utilisée pour supprimer les lignes contenant des valeurs manquantes
dans un DataFrame ?
a. remove_missing()
b. delete_null()
c. dropna()
26. Quelle méthode de Pandas peut être utilisée pour effectuer un encodage one-hot sur une colonne
catégorielle ?
a. encode_one_hot()
b. pd.get_dummies()
c. categorical_encode()
Module : Machine Learning
Licence : RIOT3
Enseignante : Dr. Rym Besrour
27. Comment peut-on diviser un ensemble de données en ensembles d’entrainement et de test en utilisant
Scikit-learn ?
a. ‘from sklearn.split import train_test’ puis ‘X_train, X_test, y_train, y_test = train_test_split(X, y, 0.2)’
b. ‘from sklearn.data import split_data’ puis ‘X_train, X_test, y_train, y_test = split_data(X, y, 0.2)’
c. ‘from sklearn.model_selection import train_test_split’ puis ‘X_train, X_test, y_train, y_test =
train_test_split(X, y, test_size=0.2)’
28. Comment peut-on afficher les premières lignes d’un DataFrame en utilisant la bibliothèque Pandas ?
a. df.first()
b. df.show()
c. df.head()
29. Quelle méthode de Pandas peut être utilisée pour obtenir des statistiques descriptives pour un
DataFrame ?
a. describe()
b. stats()
c. summary()
30. Quel type de graphique peut être utilisé pour visualiser la relation entre deux variables continues en
utilisant Matplotlib ?
a. Scatter plot
b. Bar plot
c. Line plot
31. Comment peut-on créer une boite à moustaches (box plot) pour visualiser la distribution d’une variable en
utilisant Matplotlib ?
a. plt.plot()
b. plt.boxplot()
c. plt.bar()
32. Comment peut-on créer une matrice de corrélation pour examiner les relations entre plusieurs variables
en utilisant Pandas ?
a. df.correlation()
b. df.correlation_matrix()
c. df.corr()
33. Quel outil Python est souvent utilisé pour créer des visualisations interactives et dynamiques ?
a. Plotly
b. Seaborn
c. Matplotlib
34. Quelle méthode de Pandas peut être utilisée pour remplacer des valeurs spécifiques dans un DataFrame ?
a. fill()
b. replace()
c. substitute()