QUIZ 1
Quelle est la principale caractéristique des données numériques continues ?
Elles prennent des valeurs discrètes.
Elles peuvent prendre n'importe quelle valeur dans un intervalle donné.
Elles sont toujours entières.
Elles ne peuvent pas être mesurées.
Quel exemple représente des données discrètes ?
Poids d'une personne
Température
Nombre d'enfants dans une famille
Vitesse d'un véhicule
Les données ordinales :
N'ont pas d'ordre défini
Peuvent être mesurées avec une précision infinie
Représentent des catégories avec un ordre spécifique
Sont toujours numériques
Quelle technique est utilisée pour traiter des données nominales ?
Encodage one-hot
Normalisation
Standardisation
Réduction de dimensionnalité
Les données catégorielles sont généralement :
Des données qui peuvent être mesurées numériquement
Des valeurs continues
Des catégories ou groupes
Des données temporelles
Que signifie l’imputation des données manquantes ?
Supprimer les lignes avec des données manquantes
Remplacer les données manquantes par une estimation
Normaliser les données manquantes
Aucune des réponses ci-dessus
Quel est le risque de supprimer des lignes contenant des données manquantes ?
Perte d'information importante
Amélioration de la qualité du modèle
Augmentation de la variance des données
Aucune conséquence
Quelle technique est utilisée pour remplacer les valeurs manquantes par la moyenne ou la
médiane ?
Encodage
Imputation
Normalisation
Réduction de dimensionnalité
Quelles sont les approches courantes pour détecter des valeurs aberrantes dans un dataset ?
Comparer les valeurs avec des seuils prédéfinis (par exemple, valeurs trop
grandes ou trop petites)
Identifier des valeurs extrêmes en utilisant la moyenne et l'écart-type
Supprimer toutes les lignes du dataset sans vérification
Remplacer les valeurs manquantes par la moyenne
Les valeurs aberrantes peuvent :
Améliorer la performance du modèle
Déformer les résultats du modèle
Aucune influence sur le modèle
Remplacer les données manquantes
Quelle technique transforme les données pour qu'elles aient une moyenne de 0 et un écart-
type de 1 ?
Normalisation
Standardisation
Imputation
Encodage
Pourquoi est-il important de normaliser les données avant d'entraîner un modèle ?
Pour que les données aient une échelle similaire
Pour réduire le nombre de caractéristiques
Pour gérer les valeurs manquantes
Aucune des réponses ci-dessus
Quelle méthode de transformation est souvent utilisée pour réduire la dimensionnalité d'un jeu
de données ?
PCA (Analyse en Composantes Principales)
Standardisation
Encodage one-hot
Régression linéaire
Le One-Hot Encoding est utilisé principalement pour :
Traiter les données continues
Transformer les données ordinales en valeurs numériques
Encoder les variables catégorielles nominales
Réduire la dimensionnalité des données
Quelle méthode peut être utilisée pour convertir des données textuelles en nombres ?
PCA
Tokenization
One-Hot Encoding
Aucune des réponses ci-dessus
Que signifie "données déséquilibrées" en Machine Learning ?
Les classes sont équilibrées entre elles
Une classe est sur-représentée par rapport à l'autre
Toutes les données sont égales
Il n'y a aucune classe
Quelle technique est utilisée pour équilibrer les classes dans un jeu de données déséquilibré ?
Réduction de la dimensionnalité
SMOTE (Synthetic Minority Over-sampling Technique)
One-Hot Encoding
Aucune technique
Quelle est la conséquence de ne pas traiter des données déséquilibrées ?
Amélioration des résultats du modèle
Biais du modèle en faveur de la classe majoritaire
Réduction de la variance du modèle
Aucune conséquence
L'undersampling consiste à :
Ajouter des exemples à la classe minoritaire
Réduire le nombre d'exemples de la classe majoritaire
Ajouter des caractéristiques supplémentaires
Aucune des réponses ci-dessus
L'oversampling consiste à :
Réduire le nombre d'exemples dans la classe majoritaire
Créer des copies supplémentaires de la classe majoritaire
Ajouter des exemples à la classe minoritaire
Réduire la dimensionnalité
La normalisation est utilisée pour :
Appliquer des valeurs spécifiques à chaque variable
Changer la distribution des données
Réduire l'écart type des données
Transformer les données afin qu'elles aient une échelle similaire
Quelle est la principale différence entre normalisation et standardisation ?
La normalisation change la distribution des données, la standardisation non
La standardisation transforme les données dans un intervalle donné, la
normalisation non
La normalisation ajuste l'échelle des données, la standardisation ne le fait pas
Aucune différence
Pourquoi utiliser la réduction de la dimensionnalité ?
Pour augmenter la complexité des modèles
Pour améliorer l'efficacité des calculs et réduire le bruit
Pour ajouter plus de caractéristiques au modèle
Pour traiter les données déséquilibrées
L’imputation des données manquantes peut être réalisée par :
Remplacement par la moyenne
Suppression des lignes
Remplacement par une valeur prédite
Toutes les réponses ci-dessus
Quelle technique est utilisée pour détecter des valeurs aberrantes dans les données ?
Boxplot
K-means clustering
PCA
Toutes les réponses ci-dessus
Quel modèle est sensible à l'échelle des données ?
Arbres de décision
K-plus proches voisins
Régression linéaire
Aucune des réponses ci-dessus
Pour quel type de données la normalisation est-elle essentielle ?
Données discrètes
Données catégorielles
Données continues
Données textuelles
Quel est l'objectif principal du SMOTE ?
Réduire le nombre de caractéristiques
Générer de nouveaux échantillons pour la classe minoritaire
Standardiser les données
Supprimer les lignes avec des valeurs manquantes
Quel algorithme bénéficie le plus de la réduction de la dimensionnalité ?
Régression linéaire
Réseaux neuronaux
Forêts aléatoires
Toutes les réponses ci-dessus
L’encodage one-hot est utilisé pour transformer des données :
Ordinales
Nominales
Numériques continues
Aucune des réponses ci-dessus
Quelles étapes peuvent être nécessaires avant d'appliquer un modèle de Machine Learning sur
un jeu de données ?
Normalisation, nettoyage, transformation
Encodage des données, réduction de dimensionnalité
Imputation des données manquantes
Toutes les réponses ci-dessus
Pourquoi les données déséquilibrées peuvent-elles poser un problème dans l'apprentissage ?
Le modèle peut être biaisé vers la classe majoritaire
Le modèle est plus lent
Les classes sont mal séparées
Aucune des réponses ci-dessus
L'oversampling et undersampling sont des techniques utilisées pour :
Réduire le bruit
Manipuler l'échelle des données
Traiter les données déséquilibrées
Réduire la dimensionnalité
Quel prétraitement est nécessaire pour des données temporelles ?
Normalisation
Lissage
Décalage de fenêtre
Toutes les réponses ci-dessus
Qu'est-ce que la normalisation min-max ?
Transformation des données dans une échelle de -1 à 1
Transformation des données dans un intervalle de [0, 1]
Transformation des données en logarithmes
Réduction des données en une seule dimension
Quelle technique de transformation est utilisée pour éviter que des variables dominent les
autres ?
Encodage
Normalisation
Standardisation
Imputation
Les données binaires sont :
Des valeurs continues entre 0 et 1
Des valeurs qui ne peuvent être que 0 ou 1
Des variables catégorielles avec plus de deux catégories
Aucune des réponses ci-dessus
Que permet la réduction de dimensionnalité ?
Accélérer le calcul
Préserver la majorité de l'information
Supprimer les caractéristiques inutiles
Toutes les réponses ci-dessus
Quel est le principal objectif de l’imputation des données manquantes ?
Minimiser la perte d'informations
Créer de nouvelles lignes de données
Modifier les valeurs des données
Réduire la variance
Qu'est-ce que l’encodage ordinal ?
Attribuer des valeurs numériques aux catégories avec un ordre
Utiliser des colonnes binaires pour chaque catégorie
Appliquer une transformation logistique
Aucune des réponses ci-dessus