0% ont trouvé ce document utile (0 vote)
52 vues10 pages

TD2 Traitement Des Valeurs Manquantes: Exercice 1

Le document traite du traitement des valeurs manquantes, de l'encodage des variables catégorielles, de la normalisation des variables numériques et de la standardisation Z-score. Il propose des exercices pratiques avec des solutions sur la gestion des données manquantes, l'encodage ordinal et one-hot, ainsi que la normalisation et la standardisation des performances. Chaque exercice inclut des exemples de données et des méthodes pour traiter les problèmes rencontrés.

Transféré par

Hicham Rahab
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
52 vues10 pages

TD2 Traitement Des Valeurs Manquantes: Exercice 1

Le document traite du traitement des valeurs manquantes, de l'encodage des variables catégorielles, de la normalisation des variables numériques et de la standardisation Z-score. Il propose des exercices pratiques avec des solutions sur la gestion des données manquantes, l'encodage ordinal et one-hot, ainsi que la normalisation et la standardisation des performances. Chaque exercice inclut des exemples de données et des méthodes pour traiter les problèmes rencontrés.

Transféré par

Hicham Rahab
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

TD 2

Traitement des Valeurs Manquantes

Exercice 1 :

Considérez le même jeu de données sur les performances des ventes d'une entreprise (TD1),
mais cette fois avec des enregistrements manquants pour plusieurs mois. Voici un extrait des
données :

Extrait du Fichier "Ventes.csv" :

Mois, Année, Chiffre d'Affaires (en EUR)


Janvier, 2023, 12000
Février, 2023,
Mars, 2023, 18000
Avril, 2023,

 Identifiez les enregistrements avec des valeurs manquantes pour la variable "Chiffre
d'Affaires".
 Proposez une méthode pour gérer ces valeurs manquantes.
 Réécrivez les données en incluant les valeurs manquantes traitées.

Encodage des Variables Catégorielles

Exercice 2

Dans un ensemble de données sur les clients, la variable "Catégorie ID Catégorie d'âge
d'âge" a les catégories suivantes : "Moins de 18 ans", "18-24 ans", 1 18-24 ans
"25-34 ans", "35-44 ans", "45-54 ans", "55-64 ans", "65 ans et plus". 2 45-54 ans
Appliquez l'encodage ordinal sur cette variable. 3 35-44 ans
4 Moins de 18 ans
Données d'origine : 5 65 ans et plus
6 25-34 ans
Exercice 3

Considérez un ensemble de données de transactions bancaires contenant une variable


catégorielle "Type de transaction" avec les catégories suivantes : "Retrait", "Dépôt",
"Virement interne", "Paiement externe". Appliquez l'encodage one-hot sur cette variable et
discutez des implications de cette transformation sur la dimensionnalité des données et sur la
formation des modèles.
Données d'origine :
ID Type de transaction
1 Retrait
2 Virement interne
3 Paiement externe
4 Dépôt
5 Retrait
6 Dépôt

1
Exercice 4

Dans un ensemble de données sur les avis de produits en ligne, la variable "Langue" indique
la langue dans laquelle l'avis a été écrit, avec des catégories telles que "Anglais", "Français",
"Espagnol", "Allemand", "Chinois". Appliquez l'encodage basé sur la fréquence sur cette
variable et discutez des avantages par rapport à l'encodage one-hot dans ce contexte
spécifique.
ID Langue
Données d'origine : 1 Anglais
2 Français
3 Anglais
4 Espagnol
5 Anglais
6 Allemand
7 Français
Normalisation des variables numériques

Exercice 5

Considérez un jeu de données sur les performances des ventes d'une entreprise, où les valeurs
de "Chiffre d'Affaires" varient considérablement.

Extrait du Fichier "Ventes.csv" :

Mois, Année, Chiffre d'Affaires (en EUR)


Janvier, 2023, 12000
Février, 2023, 150000
Mars, 2023, 18000
Avril, 2023, 160000

 Normalisez la variable "Chiffre d'Affaires" pour qu'elle soit comparable sur une
échelle de 0 à 1 en utilisant la méthode de la min-max.
 Réécrivez les données avec la variable "Chiffre d'Affaires" normalisée.

Exercice 6

Considérons un ensemble de données contenant les scores de performance d'étudiants dans


trois matières : Mathématiques, Sciences et Français. Les données sont présentées comme
suit :

Données d'origine : ID Mathématiques Sciences Français


1 85 90 88
2 70 75 72
3 90 92 94
4 65 68 70
5 88 82 85

Appliquez la standardisation Z-score sur ces données et calculez les nouvelles valeurs pour
chaque matière.

2
Solutions

Traitement des Valeurs Manquantes :

Exercice 1 :

Considérez le même jeu de données sur les performances des ventes d'une entreprise (TD1),
mais cette fois avec des enregistrements manquants pour plusieurs mois. Voici un extrait des
données :

Extrait du Fichier "Ventes.csv" :

Mois, Année, Chiffre d'Affaires (en EUR)


Janvier, 2023, 12000
Février, 2023,
Mars, 2023, 18000
Avril, 2023,

 Identifiez les enregistrements avec des valeurs manquantes pour la variable "Chiffre
d'Affaires".
 Proposez une méthode pour gérer ces valeurs manquantes.
 Réécrivez les données en incluant les valeurs manquantes traitées.

Solution :

Une approche courante pour gérer les données manquantes est l'imputation par la moyenne
des valeurs existantes. Voici comment cela peut être appliqué :

 Pour Février : Utiliser la moyenne des valeurs disponibles (12000 et 18000).


 Pour Avril : De même, utiliser la moyenne des valeurs disponibles.

Calcul de la moyenne pour l'imputation :

 Moyenne = (12000+18000)/2 =15000

Table "Ventes" (avec valeurs manquantes traitées) :

Mois Année Chiffre d'Affaires (en EUR)


Janvier 2023 12000
Février 2023 15000
Mars 2023 18000
Avril 2023 15000

3
Encodage des Variables Catégorielles

Exercice 2

Dans un ensemble de données sur les clients, la variable "Catégorie d'âge" a les catégories
suivantes : "Moins de 18 ans", "18-24 ans", "25-34 ans", "35-44 ans", "45-54 ans", "55-64
ans", "65 ans et plus". Appliquez l'encodage ordinal sur cette variable.

Données d'origine :

ID Catégorie d'âge
1 18-24 ans
2 45-54 ans
3 35-44 ans
4 Moins de 18 ans
5 65 ans et plus
6 25-34 ans

Solution :

Dans cet exemple, "Moins de 18 ans" est encodé comme 1, "18-24 ans" comme 2, et ainsi de
suite jusqu'à "65 ans et plus" encodé comme 7.

Encodage Ordinal :

| ID | Catégorie d'âge |
|----|----------------|
| 1 | 2 |
| 2 | 5 |
| 3 | 4 |
| 4 | 1 |
| 5 | 7 |
| 6 | 3 |

4
Exercice 3

Considérez un ensemble de données de transactions bancaires contenant une variable


catégorielle "Type de transaction" avec les catégories suivantes : "Retrait", "Dépôt",
"Virement interne", "Paiement externe". Appliquez l'encodage one-hot sur cette variable et
discutez des implications de cette transformation sur la dimensionnalité des données et sur la
formation des modèles.

Données d'origine :
ID Type de transaction
1 Retrait
2 Virement interne
3 Paiement externe
4 Dépôt
5 Retrait
6 Dépôt

Solution :

Encodage One-Hot :

| ID | Retrait | Dépôt | Virement interne | Paiement externe |

|----|---------|-------|------------------|------------------|

|1 |1 |0 |0 |0 |

|2 |0 |0 |1 |0 |

|3 |0 |0 |0 |1 |

|4 |0 |1 |0 |0 |

|5 |1 |0 |0 |0 |

|6 |0 |1 |0 |0 |

Discussion : L'encodage one-hot crée une colonne binaire pour chaque catégorie unique,
introduisant ainsi quatre nouvelles dimensions dans l'ensemble de données. Cela peut
augmenter la complexité et le temps d'entraînement des modèles, mais permet de capturer
efficacement la nature discrète et diversifiée des types de transactions.

5
Exercice 4

Dans un ensemble de données sur les avis de produits en ligne, la variable "Langue" indique
la langue dans laquelle l'avis a été écrit, avec des catégories telles que "Anglais", "Français",
"Espagnol", "Allemand", "Chinois". Appliquez l'encodage basé sur la fréquence sur cette
variable et discutez des avantages par rapport à l'encodage one-hot dans ce contexte
spécifique.

Données d'origine :

ID Langue
1 Anglais
2 Français
3 Anglais
4 Espagnol
5 Anglais
6 Allemand
7 Français

Solution :

Encodage Basé sur la Fréquence :

| ID | Langue |
|----|--------|
| 1 | 1 |
| 2 | 2 |
| 3 | 1 |
| 4 | 3 |
| 5 | 1 |
| 6 | 4 |
| 7 | 2 |

Discussion : L'encodage basé sur la fréquence remplace chaque catégorie par le nombre
d'occurrences dans l'ensemble de données, ce qui peut être plus efficace pour les langues avec
un grand nombre de catégories différentes. Contrairement à l'encodage one-hot qui introduit
de nombreuses dimensions, l'encodage basé sur la fréquence peut réduire la dimensionnalité
tout en conservant l'information sur la distribution des langues.

6
Normalisation des variables numériques

Exercice 5 :

Considérez un jeu de données sur les performances des ventes d'une entreprise, où les valeurs
de "Chiffre d'Affaires" varient considérablement.

Extrait du Fichier "Ventes.csv" :

Mois, Année, Chiffre d'Affaires (en EUR)


Janvier, 2023, 12000
Février, 2023, 150000
Mars, 2023, 18000
Avril, 2023, 160000

 Normalisez la variable "Chiffre d'Affaires" pour qu'elle soit comparable sur une
échelle de 0 à 1 en utilisant la méthode de la min-max.
 Réécrivez les données avec la variable "Chiffre d'Affaires" normalisée.

Solution :

La formule pour la min-max est :

Où X est la valeur originale, Xmin est la valeur minimale de la variable, et Xmax est la
valeur maximale de la variable.

Pour les données données :

 Xmin=12000 (minimum de "Chiffre d'Affaires")


 Xmax=160000 (maximum de "Chiffre d'Affaires")

Calculons la normalisation pour chaque mois :

7
Table "Ventes" (avec "Chiffre d'Affaires" normalisé) :

Mois Année Chiffre d'Affaires (en EUR)


Janvier 2023 0
Février 2023 0.9324
Mars 2023 0.0405
Avril 2023 1

Exercice 6 :

Considérons un ensemble de données contenant les scores de performance d'étudiants dans


trois matières : Mathématiques, Sciences et Français. Les données sont présentées comme suit
:

Données d'origine :

ID Mathématiques Sciences Français


1 85 90 88
2 70 75 72
3 90 92 94
4 65 68 70
5 88 82 85

Appliquez la standardisation Z-score sur ces données et calculez les nouvelles valeurs pour
chaque matière.

Solution :

Pour appliquer la standardisation Z-score, nous utilisons la formule suivante pour chaque
variable X

Où μ est la moyenne de la variable X et σ est l'écart type de X.

Calculons la standardisation Z-score pour chaque matière :

8
Étape 1 : Calcul des moyennes et des écart-types

Étape 2 : Standardisation Z-score

Appliquons maintenant la formule pour chaque matière :

Pour Sciences :

Pour Français :

9
10

Vous aimerez peut-être aussi