QUIZ 4
Quel est l'objectif principal de la normalisation des données ?
Réduire la dimensionnalité des données
Mettre les données à l'échelle dans une plage spécifique (e.g., [0, 1])
Supprimer les valeurs manquantes
Augmenter la variance des données
Quelle méthode est utilisée pour gérer les valeurs manquantes dans un dataset ?
Suppression des lignes contenant des valeurs manquantes
Imputation par la moyenne ou la médiane
Remplissage par une valeur constante
Toutes les réponses ci-dessus
Quelle technique est utilisée pour réduire la dimensionnalité tout en conservant
l'information maximale ?
Analyse en Composantes Principales (PCA)
Sélection de caractéristiques basée sur la corrélation
Discrétisation
Normalisation
Quel est l'impact de la suppression des outliers sur un modèle de machine learning ?
Amélioration de la généralisation
Réduction du biais
Augmentation du risque de surapprentissage
Aucun impact
Quelle méthode est utilisée pour équilibrer un dataset déséquilibré ?
Suréchantillonnage (Oversampling)
Sous-échantillonnage (Undersampling)
SMOTE (Synthetic Minority Over-sampling Technique)
Toutes les réponses ci-dessus
Quel est l'objectif de la discrétisation des données ?
Convertir des variables continues en catégories
Supprimer les valeurs manquantes
Réduire la dimensionnalité
Normaliser les données
Quelle méthode est utilisée pour détecter les outliers dans un dataset ?
Boxplot
Z-score
IQR (Interquartile Range)
Toutes les réponses ci-dessus
Quelle méthode est utilisée pour encoder des variables catégorielles ?
One-Hot Encoding
Label Encoding
Target Encoding
Toutes les réponses ci-dessus
Quel est l'objectif de la standardisation des données ?
Centrer les données autour de zéro avec un écart-type de 1
Réduire la dimensionnalité
Supprimer les outliers
Convertir les variables catégorielles en numériques
Quelle méthode est utilisée pour sélectionner les caractéristiques les plus importantes ?
Analyse en Composantes Principales (PCA)
Sélection de caractéristiques basée sur la corrélation
Méthodes embarquées (e.g., Lasso)
Toutes les réponses ci-dessus
Quel est l'impact de la normalisation sur un modèle de k-means ?
Amélioration de la convergence
Réduction de l'impact des échelles différentes
Aucun impact
Augmentation du temps de calcul
Quel est l'objectif de la réduction de dimensionnalité ?
Réduire le temps de calcul
Améliorer l'interprétabilité
Éviter le surapprentissage
Toutes les réponses ci-dessus
Quel est l'impact de la suppression des caractéristiques corrélées sur un modèle de
régression ?
Réduction de la variance du modèle
Amélioration de l'interprétabilité
Risque de perte d'information
Toutes les réponses ci-dessus
Quel est l'objectif de la validation croisée (cross-validation) ?
Évaluer la performance du modèle sur des données non vues
Réduire le surapprentissage
Optimiser les hyperparamètres
Toutes les réponses ci-dessus
Quel est l'impact de la normalisation sur un modèle de SVM ?
Amélioration de la performance
Réduction de l'impact des échelles différentes
Aucun impact
Amélioration de la performance et la réduction de l'impact des échelles
différentes
Quelle méthode est utilisée pour traiter les données déséquilibrées en classification ?
SMOTE
Random Undersampling
Pondération des classes
Toutes les réponses ci-dessus
Quel est l'objectif de la fonction de coût dans un modèle de régression linéaire ?
Minimiser l'erreur entre les prédictions et les valeurs réelles
Maximiser la vraisemblance des données
Réduire la complexité du modèle
Aucune des réponses ci-dessus
Quel est l'impact de l'augmentation du taux d'apprentissage (learning rate) sur un
modèle de descente de gradient ?
Convergence plus rapide
Risque de divergence
Aucun impact
Risque de divergence et Convergence plus rapide
Quelle méthode est utilisée pour évaluer la performance d'un modèle de classification
binaire ?
Une seule réponse possible.
Courbe ROC
Matrice de confusion
F1-score
Toutes les réponses ci-dessus
Quelle méthode est utilisée pour optimiser les hyperparamètres d'un modèle ?
Grid Search
Random Search
Bayesian Optimization
Toutes les réponses ci-dessus
Quel est l'impact de l'augmentation de la profondeur d'un arbre de décision ?
Cela réduit le surajustement (overfitting)
Cela améliore la capacité de généralisation
Cela peut entraîner un surajustement (overfitting)
Cela accélère l'entraînement du modèle
Quelle méthode est utilisée pour évaluer la performance d'un modèle de régression ?
RMSE (Root Mean Squared Error)
R² (Coefficient de détermination)
MAE (Mean Absolute Error)
Toutes les réponses ci-dessus
Quel est l'impact de l'augmentation du nombre de voisins (k) dans un modèle k-NN ?
Cela réduit le biais et augmente la variance
Cela réduit la variance (moins susceptible au bruit) et augmente le biais (moins
flexible pour capturer les détails fins du modèle)
Cela n'a aucun impact sur les performances du modèle
Cela améliore toujours la précision du modèle
Quel est l'objectif principal de l'algorithme k-means ?
Minimiser l'erreur de prédiction sur les nouvelles données
Maximiser la variance intra-classe
Minimiser la somme des distances au centre des clusters
Maximiser la distance entre les différentes classes
Quelle méthode est utilisée pour déterminer le nombre optimal de clusters en k-means ?
Méthode du coude (Elbow Method)
Silhouette Score
La méthode des forêts aléatoires
Toutes les réponses ci-dessus
Quel est l'impact de l'initialisation aléatoire des centroïdes en k-means ?
Elle garantit toujours une solution optimale
Elle peut entraîner une convergence vers un minimum local
Elle n'a aucun effet sur les résultats finaux
Elle empêche le modèle de se converger
Quel est l'objectif de l'algorithme DBSCAN ?
Partitionner les données en un nombre fixe de clusters
Trouver des clusters denses et identifier les points aberrants (outliers)
Minimiser la distance entre les points au sein des clusters
Maximiser la distance entre les clusters
Quelle méthode est utilisée pour évaluer la qualité d'un clustering ?
La méthode du coude (Elbow method)
L'indice de silhouette
La validation croisée
La méthode du score de précision
Quel est l'impact de l'augmentation du paramètre epsilon (ε) en DBSCAN ?
Cela diminue le nombre de clusters et augmente le nombre de points considérés
comme bruit
Cela augmente la densité des clusters et réduit le nombre de points considérés
comme bruit
Cela augmente la séparation entre les clusters
Cela ne modifie pas les résultats du clustering
Quel est l'objectif de l'algorithme LDA (Linear Discriminant Analysis) ?
Minimiser la variance intra-classe et maximiser la variance inter-classe
Maximiser la variance intra-classe et minimiser la variance inter-classe
Diviser les données en clusters en fonction de leur densité
Réduire la dimensionnalité sans considérer la classe des points