0% ont trouvé ce document utile (0 vote)
36 vues5 pages

Q4

Le document présente un quiz sur des concepts clés en science des données et machine learning, abordant des sujets tels que la normalisation, la gestion des valeurs manquantes, la réduction de dimensionnalité, et l'évaluation des modèles. Les questions portent sur des méthodes spécifiques et leurs impacts sur les performances des modèles. Les réponses incluent des techniques variées comme PCA, SMOTE, et la validation croisée.

Transféré par

marwaneouzaina
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
36 vues5 pages

Q4

Le document présente un quiz sur des concepts clés en science des données et machine learning, abordant des sujets tels que la normalisation, la gestion des valeurs manquantes, la réduction de dimensionnalité, et l'évaluation des modèles. Les questions portent sur des méthodes spécifiques et leurs impacts sur les performances des modèles. Les réponses incluent des techniques variées comme PCA, SMOTE, et la validation croisée.

Transféré par

marwaneouzaina
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

QUIZ 4

Quel est l'objectif principal de la normalisation des données ?

 Réduire la dimensionnalité des données


 Mettre les données à l'échelle dans une plage spécifique (e.g., [0, 1])
 Supprimer les valeurs manquantes
 Augmenter la variance des données

Quelle méthode est utilisée pour gérer les valeurs manquantes dans un dataset ?

 Suppression des lignes contenant des valeurs manquantes


 Imputation par la moyenne ou la médiane
 Remplissage par une valeur constante
 Toutes les réponses ci-dessus

Quelle technique est utilisée pour réduire la dimensionnalité tout en conservant


l'information maximale ?

 Analyse en Composantes Principales (PCA)


 Sélection de caractéristiques basée sur la corrélation
 Discrétisation
 Normalisation

Quel est l'impact de la suppression des outliers sur un modèle de machine learning ?

 Amélioration de la généralisation
 Réduction du biais
 Augmentation du risque de surapprentissage
 Aucun impact

Quelle méthode est utilisée pour équilibrer un dataset déséquilibré ?

 Suréchantillonnage (Oversampling)
 Sous-échantillonnage (Undersampling)
 SMOTE (Synthetic Minority Over-sampling Technique)
 Toutes les réponses ci-dessus

Quel est l'objectif de la discrétisation des données ?

 Convertir des variables continues en catégories


 Supprimer les valeurs manquantes
 Réduire la dimensionnalité
 Normaliser les données

Quelle méthode est utilisée pour détecter les outliers dans un dataset ?
 Boxplot
 Z-score
 IQR (Interquartile Range)
 Toutes les réponses ci-dessus
Quelle méthode est utilisée pour encoder des variables catégorielles ?

 One-Hot Encoding
 Label Encoding
 Target Encoding
 Toutes les réponses ci-dessus

Quel est l'objectif de la standardisation des données ?

 Centrer les données autour de zéro avec un écart-type de 1


 Réduire la dimensionnalité
 Supprimer les outliers
 Convertir les variables catégorielles en numériques

Quelle méthode est utilisée pour sélectionner les caractéristiques les plus importantes ?

 Analyse en Composantes Principales (PCA)


 Sélection de caractéristiques basée sur la corrélation
 Méthodes embarquées (e.g., Lasso)
 Toutes les réponses ci-dessus

Quel est l'impact de la normalisation sur un modèle de k-means ?

 Amélioration de la convergence
 Réduction de l'impact des échelles différentes
 Aucun impact
 Augmentation du temps de calcul

Quel est l'objectif de la réduction de dimensionnalité ?

 Réduire le temps de calcul


 Améliorer l'interprétabilité
 Éviter le surapprentissage
 Toutes les réponses ci-dessus

Quel est l'impact de la suppression des caractéristiques corrélées sur un modèle de


régression ?

 Réduction de la variance du modèle


 Amélioration de l'interprétabilité
 Risque de perte d'information
 Toutes les réponses ci-dessus

Quel est l'objectif de la validation croisée (cross-validation) ?

 Évaluer la performance du modèle sur des données non vues


 Réduire le surapprentissage
 Optimiser les hyperparamètres
 Toutes les réponses ci-dessus
Quel est l'impact de la normalisation sur un modèle de SVM ?

 Amélioration de la performance
 Réduction de l'impact des échelles différentes
 Aucun impact
 Amélioration de la performance et la réduction de l'impact des échelles
différentes

Quelle méthode est utilisée pour traiter les données déséquilibrées en classification ?

 SMOTE
 Random Undersampling
 Pondération des classes
 Toutes les réponses ci-dessus

Quel est l'objectif de la fonction de coût dans un modèle de régression linéaire ?


 Minimiser l'erreur entre les prédictions et les valeurs réelles
 Maximiser la vraisemblance des données
 Réduire la complexité du modèle
 Aucune des réponses ci-dessus
Quel est l'impact de l'augmentation du taux d'apprentissage (learning rate) sur un
modèle de descente de gradient ?
 Convergence plus rapide
 Risque de divergence
 Aucun impact
 Risque de divergence et Convergence plus rapide
Quelle méthode est utilisée pour évaluer la performance d'un modèle de classification
binaire ?

 Une seule réponse possible.


 Courbe ROC
 Matrice de confusion
 F1-score
 Toutes les réponses ci-dessus
Quelle méthode est utilisée pour optimiser les hyperparamètres d'un modèle ?
 Grid Search
 Random Search
 Bayesian Optimization
 Toutes les réponses ci-dessus
Quel est l'impact de l'augmentation de la profondeur d'un arbre de décision ?
 Cela réduit le surajustement (overfitting)
 Cela améliore la capacité de généralisation
 Cela peut entraîner un surajustement (overfitting)
 Cela accélère l'entraînement du modèle
Quelle méthode est utilisée pour évaluer la performance d'un modèle de régression ?
 RMSE (Root Mean Squared Error)
 R² (Coefficient de détermination)
 MAE (Mean Absolute Error)
 Toutes les réponses ci-dessus
Quel est l'impact de l'augmentation du nombre de voisins (k) dans un modèle k-NN ?
 Cela réduit le biais et augmente la variance
 Cela réduit la variance (moins susceptible au bruit) et augmente le biais (moins
flexible pour capturer les détails fins du modèle)
 Cela n'a aucun impact sur les performances du modèle
 Cela améliore toujours la précision du modèle

Quel est l'objectif principal de l'algorithme k-means ?


 Minimiser l'erreur de prédiction sur les nouvelles données
 Maximiser la variance intra-classe
 Minimiser la somme des distances au centre des clusters
 Maximiser la distance entre les différentes classes

Quelle méthode est utilisée pour déterminer le nombre optimal de clusters en k-means ?
 Méthode du coude (Elbow Method)
 Silhouette Score
 La méthode des forêts aléatoires
 Toutes les réponses ci-dessus

Quel est l'impact de l'initialisation aléatoire des centroïdes en k-means ?


 Elle garantit toujours une solution optimale
 Elle peut entraîner une convergence vers un minimum local
 Elle n'a aucun effet sur les résultats finaux
 Elle empêche le modèle de se converger
Quel est l'objectif de l'algorithme DBSCAN ?
 Partitionner les données en un nombre fixe de clusters
 Trouver des clusters denses et identifier les points aberrants (outliers)
 Minimiser la distance entre les points au sein des clusters
 Maximiser la distance entre les clusters
Quelle méthode est utilisée pour évaluer la qualité d'un clustering ?
 La méthode du coude (Elbow method)
 L'indice de silhouette
 La validation croisée
 La méthode du score de précision
Quel est l'impact de l'augmentation du paramètre epsilon (ε) en DBSCAN ?
 Cela diminue le nombre de clusters et augmente le nombre de points considérés
comme bruit
 Cela augmente la densité des clusters et réduit le nombre de points considérés
comme bruit
 Cela augmente la séparation entre les clusters
 Cela ne modifie pas les résultats du clustering
Quel est l'objectif de l'algorithme LDA (Linear Discriminant Analysis) ?
 Minimiser la variance intra-classe et maximiser la variance inter-classe
 Maximiser la variance intra-classe et minimiser la variance inter-classe
 Diviser les données en clusters en fonction de leur densité
 Réduire la dimensionnalité sans considérer la classe des points

Vous aimerez peut-être aussi