QCM Corrigé de Machine Learning (40 questions)
Section 1 : Concepts généraux (10 questions)
1. Qu’est-ce que l’overfitting ?
a) Modèle qui sous-ajuste les données
b) Modèle qui mémorise les données d’entraînement au lieu de généraliser
c) Processus d’entraînement d’un modèle avec un dataset équilibré
d) Technique pour réduire la variance
Réponse : b)
2. Quel est l’objectif principal de la régularisation L2 ?
a) Réduire l’overfitting en ajoutant une pénalité sur les poids élevés
b) Minimiser l’erreur quadratique moyenne
c) Augmenter la précision sur le jeu d’entraînement
d) Maximiser la taille des coefficients
Réponse : a)
3. Dans un problème de classification, qu’est-ce qu’un faux positif ?
a) Une instance classée incorrectement comme négative
b) Une instance classée incorrectement comme positive
c) Une prédiction correcte
d) Une instance ignorée par le modèle
Réponse : b)
4. Quel est le rôle de l'ensemble de test dans un projet de machine learning ?
a) Optimiser les hyperparamètres du modèle
b) Évaluer la performance sur des données jamais vues
c) Prévenir l’overfitting
d) Augmenter la taille des données d’entraînement
Réponse : b)
5. L'approche du "Elbow Method" est utilisée pour :
a) Déterminer le nombre optimal de clusters dans K-Means
b) Optimiser le taux d’apprentissage
c) Identifier les valeurs aberrantes dans les données
d) Évaluer les performances des arbres de décision
Réponse : a)
6. Le Recall est défini comme :
a) La proportion de prédictions correctes parmi toutes les prédictions positives
b) La proportion de prédictions positives parmi les vraies instances positives
c) La proportion d’erreurs parmi toutes les prédictions
d) Le complément du taux d’erreur
Réponse : b)
7. Quel graphique est utilisé pour évaluer le compromis entre le taux de faux
positifs et le taux de vrais positifs ?
a) Courbe ROC
b) Diagramme de dispersion
c) Histogramme
d) Heatmap
Réponse : a)
8. Que mesure l’entropie dans les arbres de décision ?
a) La précision du modèle
b) La pureté d’un groupe de données
c) La complexité computationnelle
d) La taille des données d’entraînement
Réponse : b)
9. Dans une régression linéaire, si la pente (coefficient) est proche de zéro, cela
signifie :
a) Une forte corrélation entre les variables
b) Une faible relation linéaire entre les variables
c) Une absence totale de corrélation
d) Un problème d’overfitting
Réponse : b)
10. Quelle méthode peut être utilisée pour équilibrer un dataset déséquilibré ?
a) Normalisation des données
b) Utilisation de métriques comme le F1-score
c) Sur-échantillonnage de la classe minoritaire
d) Suppression des instances bruyantes
Réponse : c)
Section 2 : Algorithmes supervisés (10 questions)
11. KNN est un algorithme basé sur :
a) Une approche probabiliste
b) La distance entre les points
c) Des arbres binaires
d) Une optimisation par gradient
Réponse : b)
12. Dans une régression linéaire multiple, que représente l’intercept ?
a) L’effet de chaque variable explicative
b) La valeur de la variable cible lorsque toutes les variables explicatives sont nulles
c) La pente de la courbe d’ajustement
d) Le coefficient de corrélation
Réponse : b)
13. Dans les arbres de décision, quelle est une fonction courante pour sélectionner les
divisions ?
a) Logarithme naturel
b) Gain d’information
c) Distance euclidienne
d) Kullback-Leibler divergence
Réponse : b)
14. L’inconvénient principal de KNN est :
a) Sa complexité d’entraînement élevée
b) Sa sensibilité aux données bruitées et déséquilibrées
c) Son incapacité à résoudre des problèmes de classification
d) La difficulté de calculer des distances
Réponse : b)
15. Un arbre de décision trop profond peut entraîner :
a) Une meilleure généralisation
b) Une augmentation de l’accuracy
c) Du sur-ajustement
d) Une diminution de la complexité du modèle
Réponse : c)
16. Le coefficient de détermination R² d’un modèle est utilisé pour :
a) Mesurer la corrélation entre deux variables
b) Évaluer la proportion de la variance expliquée par le modèle
c) Calculer le taux d’erreur
d) Optimiser les hyperparamètres
Réponse : b)
17. Quelle est l’une des hypothèses principales de la régression linéaire ?
a) Les variables explicatives doivent être normalisées
b) Les variables explicatives et la cible sont non linéairement corrélées
c) La relation entre la cible et les prédicteurs est linéaire
d) Le dataset doit contenir des variables catégoriques uniquement
Réponse : c)
18. Dans un arbre de décision, la régularisation peut se faire en :
a) Augmentant le taux d’apprentissage
b) Fixant une profondeur maximale pour l’arbre
c) Ajoutant des termes de pénalité aux feuilles
d) Réduisant la taille du jeu de données
Réponse : b)
19. Pourquoi la normalisation des données est-elle importante pour KNN ?
a) Pour accélérer l’entraînement du modèle
b) Parce que KNN est sensible aux différences d’échelles des variables
c) Pour réduire les biais dans la sélection des clusters
d) Pour éviter le sur-apprentissage
Réponse : b)
20. Quel type de problème est résolu par la régression logistique ?
a) Régression
b) Classification binaire
c) Clustering
d) Classification multi-classes uniquement
Réponse : b)
Section 3 : Algorithmes non supervisés (10 questions)
21. Le critère utilisé pour évaluer un modèle K-Means est souvent :
a) Précision
b) Inertie intra-cluster
c) F1-score
d) Entropie
Réponse : b)
22. Dans K-Means, que signifie un faible WCSS (Within-Cluster Sum of Squares) ?
a) Les clusters sont bien séparés
b) Les clusters sont très grands
c) Les centroids sont mal positionnés
d) L’algorithme est sous-ajusté
Réponse : a)
Section 3 : Algorithmes non supervisés (suite)
23. Que signifie le "point d’inflexion" dans le Elbow Method ?
a) Le nombre optimal de clusters
b) La convergence des centroids
c) La taille moyenne des clusters
d) Le moment où WCSS commence à diminuer plus lentement
Réponse : d)
24. Qu’est-ce qu’un centroid dans K-Means ?
a) Une donnée fictive représentant le centre géométrique d’un cluster
b) Le point le plus éloigné dans un cluster
c) Une valeur seuil utilisée pour diviser les clusters
d) Un hyperparamètre de K-Means
Réponse : a)
25. Quel est un inconvénient majeur de K-Means ?
a) Sensible à l’échelle des données
b) Ne fonctionne qu’avec des données catégoriques
c) Ne nécessite aucun paramètre initial
d) Produit toujours le même résultat, peu importe les initialisations
Réponse : a)
26. Une limitation importante de l’algorithme K-Means est :
a) Il ne converge jamais
b) Il suppose des clusters de formes circulaires ou sphériques
c) Il est extrêmement rapide pour les grands datasets
d) Il ignore complètement les données bruitées
Réponse : b)
27. Quel type de données peut être difficile à gérer pour K-Means ?
a) Des données normalisées
b) Des données catégoriques
c) Des données sans bruit
d) Des données de petite dimension
Réponse : b)
28. Le clustering hiérarchique diffère de K-Means par :
a) L’utilisation de centroids fixes
b) La création d’une hiérarchie de clusters par fusions successives
c) Son incapacité à gérer des données continues
d) La nécessité de prédéfinir un nombre de clusters
Réponse : b)
29. Dans K-Means, le nombre de clusters kk est :
a) Appris automatiquement par l’algorithme
b) Un hyperparamètre fixé par l’utilisateur
c) Toujours égal au nombre de variables dans les données
d) Égal à la taille du dataset divisé par deux
Réponse : b)
30. Le score de silhouette est une métrique utilisée pour :
a) Mesurer la séparation entre les clusters
b) Calculer la précision d’un modèle supervisé
c) Optimiser le taux d’apprentissage
d) Identifier les faux positifs
Réponse : a)
Section 4 : Évaluation des modèles et métriques avancées (10 questions)
31. Qu’est-ce qu’un vrai négatif dans une matrice de confusion ?
a) Une prédiction correcte pour une classe positive
b) Une prédiction correcte pour une classe négative
c) Une prédiction incorrecte pour une classe positive
d) Une prédiction incorrecte pour une classe négative
Réponse : b)
32. Le Precision est calculé comme :
a) TP/(TP + FP)
b) TP/(TP + FN)
c) (TP + TN)/(TP + FP + TN + FN)
d) FP/(TP + FP)
Réponse : a)
33. Un F1-score faible indique :
a) Une bonne balance entre précision et rappel
b) Un compromis médiocre entre précision et rappel
c) Une précision élevée mais un rappel faible
d) Une performance idéale du modèle
Réponse : b)
34. Dans une courbe ROC, un AUC proche de 0,5 indique :
a) Une classification presque parfaite
b) Une mauvaise performance du modèle, proche d’un hasard aléatoire
c) Un modèle parfaitement équilibré
d) Un sur-ajustement extrême
Réponse : b)
35. Qu’est-ce que le biais dans un modèle supervisé ?
a) La sensibilité d’un modèle aux variations dans les données d’entraînement
b) L’erreur systématique du modèle due à des hypothèses simplificatrices
c) La variance des erreurs de prédiction
d) La capacité du modèle à généraliser
Réponse : b)
36. Un modèle souffrant de forte variance est généralement associé à :
a) Un sous-apprentissage
b) Une faible capacité de généralisation
c) Un sur-ajustement
d) Une précision faible sur le jeu d’entraînement
Réponse : c)
37. L’erreur quadratique moyenne (MSE) est :
a) La moyenne des erreurs absolues
b) La somme des erreurs au carré divisée par le nombre de points
c) La somme des distances absolues entre prédictions et valeurs réelles
d) Une métrique utilisée uniquement pour la classification
Réponse : b)
38. Quand utiliser la cross-validation ?
a) Quand le dataset est petit pour mieux évaluer la performance d’un modèle
b) Pour optimiser uniquement les paramètres d’un modèle supervisé
c) Pour réduire la taille du dataset
d) Quand les données sont déjà divisées en un grand ensemble de test
Réponse : a)
39. Un modèle avec un score de précision élevé mais un faible rappel est :
a) Fiable pour des classes équilibrées
b) Incliné à prédire des classes positives avec peu de faux positifs
c) Incliné à ignorer des classes positives réelles
d) Parfait pour maximiser le F1-score
Réponse : c)
40. Quelle stratégie permet d’identifier un hyperparamètre optimal ?
a) Éliminer les données bruitées
b) Utiliser une recherche en grille (Grid Search)
c) Réduire la complexité du modèle
d) Maximiser les tailles de batch
Réponse : b)