0% ont trouvé ce document utile (0 vote)

52 vues10 pages

TD2 Traitement Des Valeurs Manquantes: Exercice 1

Le document traite du traitement des valeurs manquantes, de l'encodage des variables catégorielles, de la normalisation des variables numériques et de la standardisation Z-score. Il propose des exercices pratiques avec des solutions sur la gestion des données manquantes, l'encodage ordinal et one-hot, ainsi que la normalisation et la standardisation des performances. Chaque exercice inclut des exemples de données et des méthodes pour traiter les problèmes rencontrés.

Transféré par

Hicham Rahab

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

52 vues10 pages

TD2 Traitement Des Valeurs Manquantes: Exercice 1

Transféré par

Hicham Rahab

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

TD 2

Traitement des Valeurs Manquantes

Exercice 1 :

Considérez le même jeu de données sur les performances des ventes d'une entreprise (TD1),
mais cette fois avec des enregistrements manquants pour plusieurs mois. Voici un extrait des
données :

Extrait du Fichier "Ventes.csv" :

Mois, Année, Chiffre d'Affaires (en EUR)

Janvier, 2023, 12000
Février, 2023,
Mars, 2023, 18000
Avril, 2023,

 Identifiez les enregistrements avec des valeurs manquantes pour la variable "Chiffre
d'Affaires".
 Proposez une méthode pour gérer ces valeurs manquantes.
 Réécrivez les données en incluant les valeurs manquantes traitées.

Encodage des Variables Catégorielles

Exercice 2

Dans un ensemble de données sur les clients, la variable "Catégorie ID Catégorie d'âge
d'âge" a les catégories suivantes : "Moins de 18 ans", "18-24 ans", 1 18-24 ans
"25-34 ans", "35-44 ans", "45-54 ans", "55-64 ans", "65 ans et plus". 2 45-54 ans
Appliquez l'encodage ordinal sur cette variable. 3 35-44 ans
4 Moins de 18 ans
Données d'origine : 5 65 ans et plus
6 25-34 ans
Exercice 3

Considérez un ensemble de données de transactions bancaires contenant une variable

catégorielle "Type de transaction" avec les catégories suivantes : "Retrait", "Dépôt",
"Virement interne", "Paiement externe". Appliquez l'encodage one-hot sur cette variable et
discutez des implications de cette transformation sur la dimensionnalité des données et sur la
formation des modèles.
Données d'origine :
ID Type de transaction
1 Retrait
2 Virement interne
3 Paiement externe
4 Dépôt
5 Retrait
6 Dépôt

1
Exercice 4

Dans un ensemble de données sur les avis de produits en ligne, la variable "Langue" indique
la langue dans laquelle l'avis a été écrit, avec des catégories telles que "Anglais", "Français",
"Espagnol", "Allemand", "Chinois". Appliquez l'encodage basé sur la fréquence sur cette
variable et discutez des avantages par rapport à l'encodage one-hot dans ce contexte
spécifique.
ID Langue
Données d'origine : 1 Anglais
2 Français
3 Anglais
4 Espagnol
5 Anglais
6 Allemand
7 Français
Normalisation des variables numériques

Exercice 5

Considérez un jeu de données sur les performances des ventes d'une entreprise, où les valeurs
de "Chiffre d'Affaires" varient considérablement.

Extrait du Fichier "Ventes.csv" :

Mois, Année, Chiffre d'Affaires (en EUR)

Janvier, 2023, 12000
Février, 2023, 150000
Mars, 2023, 18000
Avril, 2023, 160000

 Normalisez la variable "Chiffre d'Affaires" pour qu'elle soit comparable sur une
échelle de 0 à 1 en utilisant la méthode de la min-max.
 Réécrivez les données avec la variable "Chiffre d'Affaires" normalisée.

Exercice 6

Considérons un ensemble de données contenant les scores de performance d'étudiants dans

trois matières : Mathématiques, Sciences et Français. Les données sont présentées comme
suit :

Données d'origine : ID Mathématiques Sciences Français

1 85 90 88
2 70 75 72
3 90 92 94
4 65 68 70
5 88 82 85

Appliquez la standardisation Z-score sur ces données et calculez les nouvelles valeurs pour
chaque matière.

2
Solutions

Traitement des Valeurs Manquantes :

Exercice 1 :

Considérez le même jeu de données sur les performances des ventes d'une entreprise (TD1),
mais cette fois avec des enregistrements manquants pour plusieurs mois. Voici un extrait des
données :

Extrait du Fichier "Ventes.csv" :

Mois, Année, Chiffre d'Affaires (en EUR)

Janvier, 2023, 12000
Février, 2023,
Mars, 2023, 18000
Avril, 2023,

Solution :

Une approche courante pour gérer les données manquantes est l'imputation par la moyenne
des valeurs existantes. Voici comment cela peut être appliqué :

 Pour Février : Utiliser la moyenne des valeurs disponibles (12000 et 18000).

 Pour Avril : De même, utiliser la moyenne des valeurs disponibles.

Calcul de la moyenne pour l'imputation :

 Moyenne = (12000+18000)/2 =15000

Table "Ventes" (avec valeurs manquantes traitées) :

Mois Année Chiffre d'Affaires (en EUR)

Janvier 2023 12000
Février 2023 15000
Mars 2023 18000
Avril 2023 15000

3
Encodage des Variables Catégorielles

Exercice 2

Dans un ensemble de données sur les clients, la variable "Catégorie d'âge" a les catégories
suivantes : "Moins de 18 ans", "18-24 ans", "25-34 ans", "35-44 ans", "45-54 ans", "55-64
ans", "65 ans et plus". Appliquez l'encodage ordinal sur cette variable.

Données d'origine :

ID Catégorie d'âge
1 18-24 ans
2 45-54 ans
3 35-44 ans
4 Moins de 18 ans
5 65 ans et plus
6 25-34 ans

Solution :

Dans cet exemple, "Moins de 18 ans" est encodé comme 1, "18-24 ans" comme 2, et ainsi de
suite jusqu'à "65 ans et plus" encodé comme 7.

Encodage Ordinal :

| ID | Catégorie d'âge |
|----|----------------|
| 1 | 2 |
| 2 | 5 |
| 3 | 4 |
| 4 | 1 |
| 5 | 7 |
| 6 | 3 |

4
Exercice 3

Considérez un ensemble de données de transactions bancaires contenant une variable

Données d'origine :
ID Type de transaction
1 Retrait
2 Virement interne
3 Paiement externe
4 Dépôt
5 Retrait
6 Dépôt

Solution :

Encodage One-Hot :

| ID | Retrait | Dépôt | Virement interne | Paiement externe |

|----|---------|-------|------------------|------------------|

|1 |1 |0 |0 |0 |

|2 |0 |0 |1 |0 |

|3 |0 |0 |0 |1 |

|4 |0 |1 |0 |0 |

|5 |1 |0 |0 |0 |

|6 |0 |1 |0 |0 |

Discussion : L'encodage one-hot crée une colonne binaire pour chaque catégorie unique,
introduisant ainsi quatre nouvelles dimensions dans l'ensemble de données. Cela peut
augmenter la complexité et le temps d'entraînement des modèles, mais permet de capturer
efficacement la nature discrète et diversifiée des types de transactions.

5
Exercice 4

Données d'origine :

ID Langue
1 Anglais
2 Français
3 Anglais
4 Espagnol
5 Anglais
6 Allemand
7 Français

Solution :

Encodage Basé sur la Fréquence :

| ID | Langue |
|----|--------|
| 1 | 1 |
| 2 | 2 |
| 3 | 1 |
| 4 | 3 |
| 5 | 1 |
| 6 | 4 |
| 7 | 2 |

Discussion : L'encodage basé sur la fréquence remplace chaque catégorie par le nombre
d'occurrences dans l'ensemble de données, ce qui peut être plus efficace pour les langues avec
un grand nombre de catégories différentes. Contrairement à l'encodage one-hot qui introduit
de nombreuses dimensions, l'encodage basé sur la fréquence peut réduire la dimensionnalité
tout en conservant l'information sur la distribution des langues.

6
Normalisation des variables numériques

Exercice 5 :

Considérez un jeu de données sur les performances des ventes d'une entreprise, où les valeurs
de "Chiffre d'Affaires" varient considérablement.

Extrait du Fichier "Ventes.csv" :

Mois, Année, Chiffre d'Affaires (en EUR)

Janvier, 2023, 12000
Février, 2023, 150000
Mars, 2023, 18000
Avril, 2023, 160000

Solution :

La formule pour la min-max est :

Où X est la valeur originale, Xmin est la valeur minimale de la variable, et Xmax est la
valeur maximale de la variable.

Pour les données données :

 Xmin=12000 (minimum de "Chiffre d'Affaires")

 Xmax=160000 (maximum de "Chiffre d'Affaires")

Calculons la normalisation pour chaque mois :

7
Table "Ventes" (avec "Chiffre d'Affaires" normalisé) :

Mois Année Chiffre d'Affaires (en EUR)

Janvier 2023 0
Février 2023 0.9324
Mars 2023 0.0405
Avril 2023 1

Exercice 6 :

Considérons un ensemble de données contenant les scores de performance d'étudiants dans

trois matières : Mathématiques, Sciences et Français. Les données sont présentées comme suit
:

Données d'origine :

ID Mathématiques Sciences Français

1 85 90 88
2 70 75 72
3 90 92 94
4 65 68 70
5 88 82 85

Appliquez la standardisation Z-score sur ces données et calculez les nouvelles valeurs pour
chaque matière.

Solution :

Pour appliquer la standardisation Z-score, nous utilisons la formule suivante pour chaque
variable X

Où μ est la moyenne de la variable X et σ est l'écart type de X.

Calculons la standardisation Z-score pour chaque matière :

8
Étape 1 : Calcul des moyennes et des écart-types

Étape 2 : Standardisation Z-score

Appliquons maintenant la formule pour chaque matière :

Pour Sciences :

Pour Français :

9
10

Vous aimerez peut-être aussi

Q2
Pas encore d'évaluation
Q2
6 pages
TD4 - MLPreparation Des Données
Pas encore d'évaluation
TD4 - MLPreparation Des Données
5 pages
Preparation Des Donnees Nettoyage Organisation25
Pas encore d'évaluation
Preparation Des Donnees Nettoyage Organisation25
41 pages
CC1 22-23 + Corr
Pas encore d'évaluation
CC1 22-23 + Corr
4 pages
Chapitre 1
Pas encore d'évaluation
Chapitre 1
25 pages
Chap2 Pretraitement Donnees
100% (1)
Chap2 Pretraitement Donnees
31 pages
Concours HEM 3eme Annee Epreuve Type en Methodes Quantitatives de Gestion
Pas encore d'évaluation
Concours HEM 3eme Annee Epreuve Type en Methodes Quantitatives de Gestion
4 pages
Algorithmes et Programmation : Fonctions et Matrices
100% (1)
Algorithmes et Programmation : Fonctions et Matrices
4 pages
Compte Rendu:: L'Implementation de L'Algorithme Du Simplexe
Pas encore d'évaluation
Compte Rendu:: L'Implementation de L'Algorithme Du Simplexe
44 pages
Examen de Programmation en Matlab
Pas encore d'évaluation
Examen de Programmation en Matlab
2 pages
Correction Micro-interrogation STIC
Pas encore d'évaluation
Correction Micro-interrogation STIC
1 page
TPinit R
Pas encore d'évaluation
TPinit R
4 pages
Chapitre 7 (Programmation Avec MATLAB)
Pas encore d'évaluation
Chapitre 7 (Programmation Avec MATLAB)
56 pages
TP 3 Simulation Numerique
Pas encore d'évaluation
TP 3 Simulation Numerique
2 pages
Test de Khi-Deux
Pas encore d'évaluation
Test de Khi-Deux
11 pages
Optimisation de la Production d'Écrous
Pas encore d'évaluation
Optimisation de la Production d'Écrous
45 pages
Rapport Optimisation Sur Matlab
Pas encore d'évaluation
Rapport Optimisation Sur Matlab
13 pages
Devsynt 14 Si
Pas encore d'évaluation
Devsynt 14 Si
4 pages
Codage et Normalisation des Données
Pas encore d'évaluation
Codage et Normalisation des Données
9 pages
Dev Prog 3si S3
Pas encore d'évaluation
Dev Prog 3si S3
3 pages
Examen DA 101 - VF
100% (2)
Examen DA 101 - VF
8 pages
Exercices Excel V2021 Bon
Pas encore d'évaluation
Exercices Excel V2021 Bon
13 pages
INF8111 - Exercices + Solutions
Pas encore d'évaluation
INF8111 - Exercices + Solutions
32 pages
Algorithme TD 1
Pas encore d'évaluation
Algorithme TD 1
3 pages
Ds 5
Pas encore d'évaluation
Ds 5
2 pages
Cours de Panel
Pas encore d'évaluation
Cours de Panel
8 pages
Analyse de Données avec R pour UNEPH
Pas encore d'évaluation
Analyse de Données avec R pour UNEPH
3 pages
Traitement des Données Catégorielles en ML
Pas encore d'évaluation
Traitement des Données Catégorielles en ML
8 pages
TP 1: Pré-Traitement Des Données: Les Méthodes de Visualisation Et de Description
Pas encore d'évaluation
TP 1: Pré-Traitement Des Données: Les Méthodes de Visualisation Et de Description
5 pages
Cours Langage R en Actuariat
100% (1)
Cours Langage R en Actuariat
52 pages
TP 1
Pas encore d'évaluation
TP 1
9 pages
CNC Info 2020 MP
Pas encore d'évaluation
CNC Info 2020 MP
9 pages
Protoype Théorique Algo S1-2 220413 102035
Pas encore d'évaluation
Protoype Théorique Algo S1-2 220413 102035
6 pages
Commandes Scilab Pour Prepas Ect
Pas encore d'évaluation
Commandes Scilab Pour Prepas Ect
8 pages
Statistiques R pour UNEPH 2020-2021
Pas encore d'évaluation
Statistiques R pour UNEPH 2020-2021
3 pages
Examen Data Mining et K-means
Pas encore d'évaluation
Examen Data Mining et K-means
3 pages
Cours de Programmation Linéaire
100% (1)
Cours de Programmation Linéaire
62 pages
TD1 Econometrie
Pas encore d'évaluation
TD1 Econometrie
5 pages
ProgrammationLineaire PDF
Pas encore d'évaluation
ProgrammationLineaire PDF
59 pages
Statistiques descriptives avec R
Pas encore d'évaluation
Statistiques descriptives avec R
4 pages
Var Qual
Pas encore d'évaluation
Var Qual
144 pages
Fonctions Python pour Villes et Échecs
Pas encore d'évaluation
Fonctions Python pour Villes et Échecs
4 pages
Notes de Cours - CH 1 À 5 MAT2080
Pas encore d'évaluation
Notes de Cours - CH 1 À 5 MAT2080
23 pages
Atelier de Programmation I
100% (1)
Atelier de Programmation I
25 pages
Prova ISD 2022-23
Pas encore d'évaluation
Prova ISD 2022-23
3 pages
TD/TP Machine Learning en Python
Pas encore d'évaluation
TD/TP Machine Learning en Python
1 page
Raport TD Acp
Pas encore d'évaluation
Raport TD Acp
14 pages
Introduction à Matlab pour Débutants
Pas encore d'évaluation
Introduction à Matlab pour Débutants
11 pages
Rapport TP 2 Mathematica
Pas encore d'évaluation
Rapport TP 2 Mathematica
10 pages
Chapitre 1 - Statistique À Deux Variables Quantitatives - 1MELEC
Pas encore d'évaluation
Chapitre 1 - Statistique À Deux Variables Quantitatives - 1MELEC
13 pages
Calcul de matrices et nilpotence en R
Pas encore d'évaluation
Calcul de matrices et nilpotence en R
2 pages
CM-2-AnalyseDonnées2024 Vendredi9Fev PascalSailhac
Pas encore d'évaluation
CM-2-AnalyseDonnées2024 Vendredi9Fev PascalSailhac
32 pages
Introduction à la méthode du simplexe
Pas encore d'évaluation
Introduction à la méthode du simplexe
13 pages
04 Slides
Pas encore d'évaluation
04 Slides
36 pages
Comte Rendu
Pas encore d'évaluation
Comte Rendu
14 pages
Devis estimatif pour maison R+1
100% (1)
Devis estimatif pour maison R+1
2 pages
Calcul des Poteaux en Compression
Pas encore d'évaluation
Calcul des Poteaux en Compression
17 pages
Chiv - Redressement Triphase Commande
Pas encore d'évaluation
Chiv - Redressement Triphase Commande
11 pages
TP Condensateur Vers OPSCI
Pas encore d'évaluation
TP Condensateur Vers OPSCI
6 pages
Béton Précontrainte Pour Rapport
100% (1)
Béton Précontrainte Pour Rapport
7 pages
Chapitre2 Limites Elastique
Pas encore d'évaluation
Chapitre2 Limites Elastique
2 pages
Controleur Mesureur de Terre CATU DT300
Pas encore d'évaluation
Controleur Mesureur de Terre CATU DT300
3 pages
Travail de Fin D'études
Pas encore d'évaluation
Travail de Fin D'études
82 pages
Test CATIA 2
Pas encore d'évaluation
Test CATIA 2
20 pages
Telemetre-Sujet
Pas encore d'évaluation
Telemetre-Sujet
5 pages
RAPPORT DE STAGE Kicc
Pas encore d'évaluation
RAPPORT DE STAGE Kicc
34 pages
DTU52.1 Fevrier 2020
Pas encore d'évaluation
DTU52.1 Fevrier 2020
106 pages
Carte Mentale Fondation
Pas encore d'évaluation
Carte Mentale Fondation
1 page
Connecteurs Anti-Tracking pour HTA
Pas encore d'évaluation
Connecteurs Anti-Tracking pour HTA
1 page
CM - Chapitre 1 - Généralités Sur Les Constructions Métalliques
Pas encore d'évaluation
CM - Chapitre 1 - Généralités Sur Les Constructions Métalliques
10 pages
Chapitre III
Pas encore d'évaluation
Chapitre III
39 pages
Compte Rendu Sae 4
Pas encore d'évaluation
Compte Rendu Sae 4
7 pages
Optimisation CEM Chargeurs Véhicules Électriques
Pas encore d'évaluation
Optimisation CEM Chargeurs Véhicules Électriques
323 pages
Chemin de Câble Dalle 200x50 MM
Pas encore d'évaluation
Chemin de Câble Dalle 200x50 MM
5 pages
Manuel de Service Et de Réparation Du Chargeur Sur Pneus DOOSAN DL420
Pas encore d'évaluation
Manuel de Service Et de Réparation Du Chargeur Sur Pneus DOOSAN DL420
29 pages
GC-métré-EFM 1
Pas encore d'évaluation
GC-métré-EFM 1
1 page
ME Racco Res Elec Inf36kVA
Pas encore d'évaluation
ME Racco Res Elec Inf36kVA
7 pages
TD 2020-2021 - Fondations Superficielles
Pas encore d'évaluation
TD 2020-2021 - Fondations Superficielles
9 pages
Désignation des conducteurs et câbles
100% (3)
Désignation des conducteurs et câbles
2 pages
Đề Luyện Thi HSG Quốc Gia 2024: Compréhension et Langue
Pas encore d'évaluation
Đề Luyện Thi HSG Quốc Gia 2024: Compréhension et Langue
5 pages
Effytec - GP32
Pas encore d'évaluation
Effytec - GP32
4 pages
Plan Bet Inasmob Sarl
Pas encore d'évaluation
Plan Bet Inasmob Sarl
17 pages
1 Installation de Chantier
Pas encore d'évaluation
1 Installation de Chantier
1 page
P2-2 - Arrimage QUIZZ Grutage C500
Pas encore d'évaluation
P2-2 - Arrimage QUIZZ Grutage C500
3 pages
Conception Pont Passerelle-Piétonne
100% (1)
Conception Pont Passerelle-Piétonne
28 pages