Université Mohammed El Bachir El Ibrahimi- Bordj Bou Arréridj
Faculté des Mathématiques et Informatique
Analyse de données avec python
Dr. Khelifi Hakima
S1- 2023/2024
Les étapes d'analyse des données
✓ Importation d'un ensemble de données.
✓ Pré-traitement des données.
✓ L'analyse exploratoire des données
✓ Développement d'un modèle
✓ Évaluation du modèle
TP2
Pré-traitement des données
Pré-traitement des données
Data Cleaning, Data Wrangling
« Le processus de conversion ou de mappage des données de
une forme brute en un autre format pour le rendre prêt pour une analyse
plus approfondie. »
Pré-traitement des données
✓ Identifier et gérer les valeurs manquantes
✓ Mise en forme des données
✓ Normalisation des données
✓ Regroupement de données (binning de données)
✓ Convertir des valeurs catégorielles en variables numériques
Identifier et gérer les valeurs manquantes
✓ Peut être représenté par : ?, N/A, 0 ou vide
✓ Supprimez les valeurs manquantes
✓ drop variable
✓ drop data entry
Remplacer les valeurs manquantes
✓ Remplacer par la moyenne (ou )
Identifier et gérer les valeurs manquantes
✓ Supprimez les valeurs manquantes
Identifier et gérer les valeurs manquantes
Remplacer les valeurs manquantes
✓ Remplacer par la moyenne (ou )
Identifier et gérer les valeurs manquantes
Remplacer les valeurs manquantes
✓ Remplacer par fréquence :
▪ Ex: "num-of-doors” : 2 données manquantes, remplacez-les par
"four".
▪ Raison : Les quatre portes sont les plus fréquentes dans sedans.
Mise en forme des données
• Plus clair
• Facile à agréger
• Facile à comparer
Mise en forme des données
✓ Convertir mpg en L/100km
Mise en forme des données
✓ Types de données incorrects
Mise en forme des données
✓ Types de données incorrects
Normalisation des données
✓ Uniformiser la valeur des caractéristiques avec une plage différente
Normalisation des données
Non normalisé Normalisé
- Plage différente - Plage de valeurs similaire
- Difficile de comparer
Normalisation des données
✓ Plusieurs approches de normalisation :
1 2 1
Simple Feature Scaling Min-Max Z-score
Normalisation des données
✓ Plusieurs approches de normalisation : Avec Pandas
Simple Feature Scaling :
Normalisation des données
✓ Plusieurs approches de normalisation : Avec Pandas
Min-Max:
Normalisation des données
✓ Plusieurs approches de normalisation : Avec Pandas
Z-score:
Regroupement de données
Regroupement de données
Regroupement de données
Convertir des valeurs catégorielles en variables numériques
✓ Utilisez la méthode Pandas get_dummies pour convertir les variables catégorielles
en variables factices (dummy variables: 0 ou 1).