0% ont trouvé ce document utile (0 vote)
27 vues6 pages

Q2

Le document est un quiz sur les concepts de traitement des données en Machine Learning, abordant des sujets tels que les types de données, les techniques d'imputation, la normalisation, et la gestion des données déséquilibrées. Il présente des questions à choix multiples sur des techniques spécifiques comme l'encodage one-hot, le SMOTE, et la standardisation. Les réponses correctes sont indiquées pour chaque question, fournissant un aperçu des connaissances requises dans ce domaine.

Transféré par

marwaneouzaina
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
27 vues6 pages

Q2

Le document est un quiz sur les concepts de traitement des données en Machine Learning, abordant des sujets tels que les types de données, les techniques d'imputation, la normalisation, et la gestion des données déséquilibrées. Il présente des questions à choix multiples sur des techniques spécifiques comme l'encodage one-hot, le SMOTE, et la standardisation. Les réponses correctes sont indiquées pour chaque question, fournissant un aperçu des connaissances requises dans ce domaine.

Transféré par

marwaneouzaina
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

QUIZ 1

Quelle est la principale caractéristique des données numériques continues ?


 Elles prennent des valeurs discrètes.
 Elles peuvent prendre n'importe quelle valeur dans un intervalle donné.
 Elles sont toujours entières.
 Elles ne peuvent pas être mesurées.
Quel exemple représente des données discrètes ?
 Poids d'une personne
 Température
 Nombre d'enfants dans une famille
 Vitesse d'un véhicule
Les données ordinales :
 N'ont pas d'ordre défini
 Peuvent être mesurées avec une précision infinie
 Représentent des catégories avec un ordre spécifique
 Sont toujours numériques
Quelle technique est utilisée pour traiter des données nominales ?
 Encodage one-hot
 Normalisation
 Standardisation
 Réduction de dimensionnalité
Les données catégorielles sont généralement :
 Des données qui peuvent être mesurées numériquement
 Des valeurs continues
 Des catégories ou groupes
 Des données temporelles
Que signifie l’imputation des données manquantes ?
 Supprimer les lignes avec des données manquantes
 Remplacer les données manquantes par une estimation
 Normaliser les données manquantes
 Aucune des réponses ci-dessus
Quel est le risque de supprimer des lignes contenant des données manquantes ?
 Perte d'information importante
 Amélioration de la qualité du modèle
 Augmentation de la variance des données
 Aucune conséquence
Quelle technique est utilisée pour remplacer les valeurs manquantes par la moyenne ou la
médiane ?
 Encodage
 Imputation
 Normalisation
 Réduction de dimensionnalité
Quelles sont les approches courantes pour détecter des valeurs aberrantes dans un dataset ?
 Comparer les valeurs avec des seuils prédéfinis (par exemple, valeurs trop
grandes ou trop petites)
 Identifier des valeurs extrêmes en utilisant la moyenne et l'écart-type
 Supprimer toutes les lignes du dataset sans vérification
 Remplacer les valeurs manquantes par la moyenne
Les valeurs aberrantes peuvent :
 Améliorer la performance du modèle
 Déformer les résultats du modèle
 Aucune influence sur le modèle
 Remplacer les données manquantes
Quelle technique transforme les données pour qu'elles aient une moyenne de 0 et un écart-
type de 1 ?
 Normalisation
 Standardisation
 Imputation
 Encodage
Pourquoi est-il important de normaliser les données avant d'entraîner un modèle ?
 Pour que les données aient une échelle similaire
 Pour réduire le nombre de caractéristiques
 Pour gérer les valeurs manquantes
 Aucune des réponses ci-dessus
Quelle méthode de transformation est souvent utilisée pour réduire la dimensionnalité d'un jeu
de données ?
 PCA (Analyse en Composantes Principales)
 Standardisation
 Encodage one-hot
 Régression linéaire
Le One-Hot Encoding est utilisé principalement pour :
 Traiter les données continues
 Transformer les données ordinales en valeurs numériques
 Encoder les variables catégorielles nominales
 Réduire la dimensionnalité des données
Quelle méthode peut être utilisée pour convertir des données textuelles en nombres ?
 PCA
 Tokenization
 One-Hot Encoding
 Aucune des réponses ci-dessus
Que signifie "données déséquilibrées" en Machine Learning ?
 Les classes sont équilibrées entre elles
 Une classe est sur-représentée par rapport à l'autre
 Toutes les données sont égales
 Il n'y a aucune classe
Quelle technique est utilisée pour équilibrer les classes dans un jeu de données déséquilibré ?
 Réduction de la dimensionnalité
 SMOTE (Synthetic Minority Over-sampling Technique)
 One-Hot Encoding
 Aucune technique
Quelle est la conséquence de ne pas traiter des données déséquilibrées ?
 Amélioration des résultats du modèle
 Biais du modèle en faveur de la classe majoritaire
 Réduction de la variance du modèle
 Aucune conséquence
L'undersampling consiste à :
 Ajouter des exemples à la classe minoritaire
 Réduire le nombre d'exemples de la classe majoritaire
 Ajouter des caractéristiques supplémentaires
 Aucune des réponses ci-dessus
L'oversampling consiste à :
 Réduire le nombre d'exemples dans la classe majoritaire
 Créer des copies supplémentaires de la classe majoritaire
 Ajouter des exemples à la classe minoritaire
 Réduire la dimensionnalité
La normalisation est utilisée pour :
 Appliquer des valeurs spécifiques à chaque variable
 Changer la distribution des données
 Réduire l'écart type des données
 Transformer les données afin qu'elles aient une échelle similaire
Quelle est la principale différence entre normalisation et standardisation ?
 La normalisation change la distribution des données, la standardisation non
 La standardisation transforme les données dans un intervalle donné, la
normalisation non
 La normalisation ajuste l'échelle des données, la standardisation ne le fait pas
 Aucune différence
Pourquoi utiliser la réduction de la dimensionnalité ?
 Pour augmenter la complexité des modèles
 Pour améliorer l'efficacité des calculs et réduire le bruit
 Pour ajouter plus de caractéristiques au modèle
 Pour traiter les données déséquilibrées
L’imputation des données manquantes peut être réalisée par :
 Remplacement par la moyenne
 Suppression des lignes
 Remplacement par une valeur prédite
 Toutes les réponses ci-dessus
Quelle technique est utilisée pour détecter des valeurs aberrantes dans les données ?
 Boxplot
 K-means clustering
 PCA
 Toutes les réponses ci-dessus
Quel modèle est sensible à l'échelle des données ?
 Arbres de décision
 K-plus proches voisins
 Régression linéaire
 Aucune des réponses ci-dessus
Pour quel type de données la normalisation est-elle essentielle ?
 Données discrètes
 Données catégorielles
 Données continues
 Données textuelles
Quel est l'objectif principal du SMOTE ?
 Réduire le nombre de caractéristiques
 Générer de nouveaux échantillons pour la classe minoritaire
 Standardiser les données
 Supprimer les lignes avec des valeurs manquantes
Quel algorithme bénéficie le plus de la réduction de la dimensionnalité ?
 Régression linéaire
 Réseaux neuronaux
 Forêts aléatoires
 Toutes les réponses ci-dessus
L’encodage one-hot est utilisé pour transformer des données :
 Ordinales
 Nominales
 Numériques continues
 Aucune des réponses ci-dessus
Quelles étapes peuvent être nécessaires avant d'appliquer un modèle de Machine Learning sur
un jeu de données ?
 Normalisation, nettoyage, transformation
 Encodage des données, réduction de dimensionnalité
 Imputation des données manquantes
 Toutes les réponses ci-dessus
Pourquoi les données déséquilibrées peuvent-elles poser un problème dans l'apprentissage ?
 Le modèle peut être biaisé vers la classe majoritaire
 Le modèle est plus lent
 Les classes sont mal séparées
 Aucune des réponses ci-dessus
L'oversampling et undersampling sont des techniques utilisées pour :
 Réduire le bruit
 Manipuler l'échelle des données
 Traiter les données déséquilibrées
 Réduire la dimensionnalité
Quel prétraitement est nécessaire pour des données temporelles ?
 Normalisation
 Lissage
 Décalage de fenêtre
 Toutes les réponses ci-dessus
Qu'est-ce que la normalisation min-max ?
 Transformation des données dans une échelle de -1 à 1
 Transformation des données dans un intervalle de [0, 1]
 Transformation des données en logarithmes
 Réduction des données en une seule dimension
Quelle technique de transformation est utilisée pour éviter que des variables dominent les
autres ?
 Encodage
 Normalisation
 Standardisation
 Imputation
Les données binaires sont :
 Des valeurs continues entre 0 et 1
 Des valeurs qui ne peuvent être que 0 ou 1
 Des variables catégorielles avec plus de deux catégories
 Aucune des réponses ci-dessus
Que permet la réduction de dimensionnalité ?
 Accélérer le calcul
 Préserver la majorité de l'information
 Supprimer les caractéristiques inutiles
 Toutes les réponses ci-dessus
Quel est le principal objectif de l’imputation des données manquantes ?
 Minimiser la perte d'informations
 Créer de nouvelles lignes de données
 Modifier les valeurs des données
 Réduire la variance
Qu'est-ce que l’encodage ordinal ?
 Attribuer des valeurs numériques aux catégories avec un ordre
 Utiliser des colonnes binaires pour chaque catégorie
 Appliquer une transformation logistique
 Aucune des réponses ci-dessus

Vous aimerez peut-être aussi