TD 2
Traitement des Valeurs Manquantes
Exercice 1 :
Considérez le même jeu de données sur les performances des ventes d'une entreprise (TD1),
mais cette fois avec des enregistrements manquants pour plusieurs mois. Voici un extrait des
données :
Extrait du Fichier "Ventes.csv" :
Mois, Année, Chiffre d'Affaires (en EUR)
Janvier, 2023, 12000
Février, 2023,
Mars, 2023, 18000
Avril, 2023,
Identifiez les enregistrements avec des valeurs manquantes pour la variable "Chiffre
d'Affaires".
Proposez une méthode pour gérer ces valeurs manquantes.
Réécrivez les données en incluant les valeurs manquantes traitées.
Encodage des Variables Catégorielles
Exercice 2
Dans un ensemble de données sur les clients, la variable "Catégorie ID Catégorie d'âge
d'âge" a les catégories suivantes : "Moins de 18 ans", "18-24 ans", 1 18-24 ans
"25-34 ans", "35-44 ans", "45-54 ans", "55-64 ans", "65 ans et plus". 2 45-54 ans
Appliquez l'encodage ordinal sur cette variable. 3 35-44 ans
4 Moins de 18 ans
Données d'origine : 5 65 ans et plus
6 25-34 ans
Exercice 3
Considérez un ensemble de données de transactions bancaires contenant une variable
catégorielle "Type de transaction" avec les catégories suivantes : "Retrait", "Dépôt",
"Virement interne", "Paiement externe". Appliquez l'encodage one-hot sur cette variable et
discutez des implications de cette transformation sur la dimensionnalité des données et sur la
formation des modèles.
Données d'origine :
ID Type de transaction
1 Retrait
2 Virement interne
3 Paiement externe
4 Dépôt
5 Retrait
6 Dépôt
1
Exercice 4
Dans un ensemble de données sur les avis de produits en ligne, la variable "Langue" indique
la langue dans laquelle l'avis a été écrit, avec des catégories telles que "Anglais", "Français",
"Espagnol", "Allemand", "Chinois". Appliquez l'encodage basé sur la fréquence sur cette
variable et discutez des avantages par rapport à l'encodage one-hot dans ce contexte
spécifique.
ID Langue
Données d'origine : 1 Anglais
2 Français
3 Anglais
4 Espagnol
5 Anglais
6 Allemand
7 Français
Normalisation des variables numériques
Exercice 5
Considérez un jeu de données sur les performances des ventes d'une entreprise, où les valeurs
de "Chiffre d'Affaires" varient considérablement.
Extrait du Fichier "Ventes.csv" :
Mois, Année, Chiffre d'Affaires (en EUR)
Janvier, 2023, 12000
Février, 2023, 150000
Mars, 2023, 18000
Avril, 2023, 160000
Normalisez la variable "Chiffre d'Affaires" pour qu'elle soit comparable sur une
échelle de 0 à 1 en utilisant la méthode de la min-max.
Réécrivez les données avec la variable "Chiffre d'Affaires" normalisée.
Exercice 6
Considérons un ensemble de données contenant les scores de performance d'étudiants dans
trois matières : Mathématiques, Sciences et Français. Les données sont présentées comme
suit :
Données d'origine : ID Mathématiques Sciences Français
1 85 90 88
2 70 75 72
3 90 92 94
4 65 68 70
5 88 82 85
Appliquez la standardisation Z-score sur ces données et calculez les nouvelles valeurs pour
chaque matière.
2
Solutions
Traitement des Valeurs Manquantes :
Exercice 1 :
Considérez le même jeu de données sur les performances des ventes d'une entreprise (TD1),
mais cette fois avec des enregistrements manquants pour plusieurs mois. Voici un extrait des
données :
Extrait du Fichier "Ventes.csv" :
Mois, Année, Chiffre d'Affaires (en EUR)
Janvier, 2023, 12000
Février, 2023,
Mars, 2023, 18000
Avril, 2023,
Identifiez les enregistrements avec des valeurs manquantes pour la variable "Chiffre
d'Affaires".
Proposez une méthode pour gérer ces valeurs manquantes.
Réécrivez les données en incluant les valeurs manquantes traitées.
Solution :
Une approche courante pour gérer les données manquantes est l'imputation par la moyenne
des valeurs existantes. Voici comment cela peut être appliqué :
Pour Février : Utiliser la moyenne des valeurs disponibles (12000 et 18000).
Pour Avril : De même, utiliser la moyenne des valeurs disponibles.
Calcul de la moyenne pour l'imputation :
Moyenne = (12000+18000)/2 =15000
Table "Ventes" (avec valeurs manquantes traitées) :
Mois Année Chiffre d'Affaires (en EUR)
Janvier 2023 12000
Février 2023 15000
Mars 2023 18000
Avril 2023 15000
3
Encodage des Variables Catégorielles
Exercice 2
Dans un ensemble de données sur les clients, la variable "Catégorie d'âge" a les catégories
suivantes : "Moins de 18 ans", "18-24 ans", "25-34 ans", "35-44 ans", "45-54 ans", "55-64
ans", "65 ans et plus". Appliquez l'encodage ordinal sur cette variable.
Données d'origine :
ID Catégorie d'âge
1 18-24 ans
2 45-54 ans
3 35-44 ans
4 Moins de 18 ans
5 65 ans et plus
6 25-34 ans
Solution :
Dans cet exemple, "Moins de 18 ans" est encodé comme 1, "18-24 ans" comme 2, et ainsi de
suite jusqu'à "65 ans et plus" encodé comme 7.
Encodage Ordinal :
| ID | Catégorie d'âge |
|----|----------------|
| 1 | 2 |
| 2 | 5 |
| 3 | 4 |
| 4 | 1 |
| 5 | 7 |
| 6 | 3 |
4
Exercice 3
Considérez un ensemble de données de transactions bancaires contenant une variable
catégorielle "Type de transaction" avec les catégories suivantes : "Retrait", "Dépôt",
"Virement interne", "Paiement externe". Appliquez l'encodage one-hot sur cette variable et
discutez des implications de cette transformation sur la dimensionnalité des données et sur la
formation des modèles.
Données d'origine :
ID Type de transaction
1 Retrait
2 Virement interne
3 Paiement externe
4 Dépôt
5 Retrait
6 Dépôt
Solution :
Encodage One-Hot :
| ID | Retrait | Dépôt | Virement interne | Paiement externe |
|----|---------|-------|------------------|------------------|
|1 |1 |0 |0 |0 |
|2 |0 |0 |1 |0 |
|3 |0 |0 |0 |1 |
|4 |0 |1 |0 |0 |
|5 |1 |0 |0 |0 |
|6 |0 |1 |0 |0 |
Discussion : L'encodage one-hot crée une colonne binaire pour chaque catégorie unique,
introduisant ainsi quatre nouvelles dimensions dans l'ensemble de données. Cela peut
augmenter la complexité et le temps d'entraînement des modèles, mais permet de capturer
efficacement la nature discrète et diversifiée des types de transactions.
5
Exercice 4
Dans un ensemble de données sur les avis de produits en ligne, la variable "Langue" indique
la langue dans laquelle l'avis a été écrit, avec des catégories telles que "Anglais", "Français",
"Espagnol", "Allemand", "Chinois". Appliquez l'encodage basé sur la fréquence sur cette
variable et discutez des avantages par rapport à l'encodage one-hot dans ce contexte
spécifique.
Données d'origine :
ID Langue
1 Anglais
2 Français
3 Anglais
4 Espagnol
5 Anglais
6 Allemand
7 Français
Solution :
Encodage Basé sur la Fréquence :
| ID | Langue |
|----|--------|
| 1 | 1 |
| 2 | 2 |
| 3 | 1 |
| 4 | 3 |
| 5 | 1 |
| 6 | 4 |
| 7 | 2 |
Discussion : L'encodage basé sur la fréquence remplace chaque catégorie par le nombre
d'occurrences dans l'ensemble de données, ce qui peut être plus efficace pour les langues avec
un grand nombre de catégories différentes. Contrairement à l'encodage one-hot qui introduit
de nombreuses dimensions, l'encodage basé sur la fréquence peut réduire la dimensionnalité
tout en conservant l'information sur la distribution des langues.
6
Normalisation des variables numériques
Exercice 5 :
Considérez un jeu de données sur les performances des ventes d'une entreprise, où les valeurs
de "Chiffre d'Affaires" varient considérablement.
Extrait du Fichier "Ventes.csv" :
Mois, Année, Chiffre d'Affaires (en EUR)
Janvier, 2023, 12000
Février, 2023, 150000
Mars, 2023, 18000
Avril, 2023, 160000
Normalisez la variable "Chiffre d'Affaires" pour qu'elle soit comparable sur une
échelle de 0 à 1 en utilisant la méthode de la min-max.
Réécrivez les données avec la variable "Chiffre d'Affaires" normalisée.
Solution :
La formule pour la min-max est :
Où X est la valeur originale, Xmin est la valeur minimale de la variable, et Xmax est la
valeur maximale de la variable.
Pour les données données :
Xmin=12000 (minimum de "Chiffre d'Affaires")
Xmax=160000 (maximum de "Chiffre d'Affaires")
Calculons la normalisation pour chaque mois :
7
Table "Ventes" (avec "Chiffre d'Affaires" normalisé) :
Mois Année Chiffre d'Affaires (en EUR)
Janvier 2023 0
Février 2023 0.9324
Mars 2023 0.0405
Avril 2023 1
Exercice 6 :
Considérons un ensemble de données contenant les scores de performance d'étudiants dans
trois matières : Mathématiques, Sciences et Français. Les données sont présentées comme suit
:
Données d'origine :
ID Mathématiques Sciences Français
1 85 90 88
2 70 75 72
3 90 92 94
4 65 68 70
5 88 82 85
Appliquez la standardisation Z-score sur ces données et calculez les nouvelles valeurs pour
chaque matière.
Solution :
Pour appliquer la standardisation Z-score, nous utilisons la formule suivante pour chaque
variable X
Où μ est la moyenne de la variable X et σ est l'écart type de X.
Calculons la standardisation Z-score pour chaque matière :
8
Étape 1 : Calcul des moyennes et des écart-types
Étape 2 : Standardisation Z-score
Appliquons maintenant la formule pour chaque matière :
Pour Sciences :
Pour Français :
9
10