0% ont trouvé ce document utile (0 vote)
259 vues23 pages

TPPré-traitement Des Donnée

Ce document décrit les étapes de pré-traitement des données pour l'analyse de données avec Python, notamment l'identification et la gestion des valeurs manquantes, la mise en forme des données, la normalisation des données et la conversion de valeurs catégorielles en variables numériques.

Transféré par

aya balouahri
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
259 vues23 pages

TPPré-traitement Des Donnée

Ce document décrit les étapes de pré-traitement des données pour l'analyse de données avec Python, notamment l'identification et la gestion des valeurs manquantes, la mise en forme des données, la normalisation des données et la conversion de valeurs catégorielles en variables numériques.

Transféré par

aya balouahri
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Université Mohammed El Bachir El Ibrahimi- Bordj Bou Arréridj

Faculté des Mathématiques et Informatique

Analyse de données avec python

Dr. Khelifi Hakima

S1- 2023/2024
Les étapes d'analyse des données

✓ Importation d'un ensemble de données.


✓ Pré-traitement des données.
✓ L'analyse exploratoire des données
✓ Développement d'un modèle
✓ Évaluation du modèle
TP2
Pré-traitement des données
Pré-traitement des données

Data Cleaning, Data Wrangling

« Le processus de conversion ou de mappage des données de


une forme brute en un autre format pour le rendre prêt pour une analyse
plus approfondie. »
Pré-traitement des données

✓ Identifier et gérer les valeurs manquantes


✓ Mise en forme des données
✓ Normalisation des données
✓ Regroupement de données (binning de données)
✓ Convertir des valeurs catégorielles en variables numériques
Identifier et gérer les valeurs manquantes

✓ Peut être représenté par : ?, N/A, 0 ou vide


✓ Supprimez les valeurs manquantes
✓ drop variable
✓ drop data entry
Remplacer les valeurs manquantes
✓ Remplacer par la moyenne (ou )
Identifier et gérer les valeurs manquantes

✓ Supprimez les valeurs manquantes


Identifier et gérer les valeurs manquantes
Remplacer les valeurs manquantes
✓ Remplacer par la moyenne (ou )
Identifier et gérer les valeurs manquantes
Remplacer les valeurs manquantes

✓ Remplacer par fréquence :


▪ Ex: "num-of-doors” : 2 données manquantes, remplacez-les par
"four".
▪ Raison : Les quatre portes sont les plus fréquentes dans sedans.
Mise en forme des données

• Plus clair
• Facile à agréger
• Facile à comparer
Mise en forme des données
✓ Convertir mpg en L/100km
Mise en forme des données
✓ Types de données incorrects
Mise en forme des données
✓ Types de données incorrects
Normalisation des données
✓ Uniformiser la valeur des caractéristiques avec une plage différente
Normalisation des données

Non normalisé Normalisé


- Plage différente - Plage de valeurs similaire
- Difficile de comparer
Normalisation des données
✓ Plusieurs approches de normalisation :

1 2 1

Simple Feature Scaling Min-Max Z-score


Normalisation des données
✓ Plusieurs approches de normalisation : Avec Pandas

Simple Feature Scaling :


Normalisation des données
✓ Plusieurs approches de normalisation : Avec Pandas

Min-Max:
Normalisation des données
✓ Plusieurs approches de normalisation : Avec Pandas

Z-score:
Regroupement de données
Regroupement de données
Regroupement de données
Convertir des valeurs catégorielles en variables numériques
✓ Utilisez la méthode Pandas get_dummies pour convertir les variables catégorielles
en variables factices (dummy variables: 0 ou 1).

Vous aimerez peut-être aussi