Master de Mécanique des Fluides et
Energétique, Modélisation et Applications
Année Universitaire 2024-2025
Pré-traitement de données avec
Python
(Data preprocessing)
HAJOU ANAS
Pourquoi le pré-traitement des données
❑ Données manquantes : Certaines valeurs peuvent être absentes.
❑ Données dupliquées : Plusieurs lignes ou enregistrements peuvent être identiques.
❑ Valeurs aberrantes : Certaines valeurs peuvent être extrêmement différentes du reste des
données.
❑ Types de données incorrects : Les colonnes peuvent avoir des types de données inadaptés
(ex. texte au lieu de nombre).
❑ Incohérences dans les formats : Les dates, nombres ou autres valeurs peuvent être stockés
dans différents formats.
❑ Données bruitées : Données contenant des erreurs ou du bruit aléatoire.
❑ Données catégoriques incohérentes : Différentes notations pour les mêmes catégories (ex.
"M" vs "Masculin").
❑ Données redondantes : Trop de colonnes ou d’informations qui ne sont pas utiles.
2
Pourquoi le pré-traitement des données
❑ Valeurs manquantes non gérées
❑ Algorithmes perturbés
Données ❑ Doublons non supprimés → résultats biaisés
❑ Valeurs aberrantes (outliers) → analyses faussées
Algorithmes
Visualisation
Rapport
Analyse
...
3
Pré-traitement des données
Analyse exploratoire des données
(Exploratory Data Analysis EDA)
Détection et
Adjustement Identification
Analyse traitement des Corrélation
de Types de des données
descriptif données des variables
variables erronées
manqués
Données
Algorithmes
Visualisation
Rapport
Analyse
...
4
Rappelle sur Pandas
❑ Une bibliothèque open-source puissante pour l'analyse et la manipulation des données.
❑ Basée sur NumPy, elle offre des structures de données rapides et flexibles.
❑ Structures de données principales :
▪ Series : Une série 1D avec indexation.
▪ DataFrame : Une structure de données 2D avec indexation (similaire à une feuille de calcul Excel).
5
Rappelle sur Pandas
Pandas Series
Par défaut
6
Rappelle sur Pandas
Pandas DataFrame
7
Types des Fichiers
8 colonnes
Fichiers CSV Comma-Separated Values (valeurs séparées par des virgules)
(variables)
1 2 3 4 5 6 7 8
8
Types des Fichiers
Fichiers CSV Avec entête
9
Types des Fichiers
Fichiers CSV Autres séparateurs
Séparateurs point-virgule ‘’;’’ Séparateurs tabulation ‘’\t’’
10
Lire un fichier csv avec pandas
La fonction read_csv()
11
Pré-traitement des données : Analyse exploratoire des données
Données
Analyse exploratoire des données
Analyse
descriptive
(Exploratory Data Analysis EDA)
Détection et
Adjustement Identification
Analyse traitement des Corrélation
Ajustement de de Types de des données
descriptif données des variables
Type de variables erronées
manqués
variables
Détection et
traitement des
valeurs
manquées
Algorithmes
Visualisation
Identification
des données
Rapport
erronées Analyse
...
Corrélation des
variables
12
Pré-traitement des données : Analyse exploratoire des données
Données
Avant de lire le fichier csv avec python, il faut l’ouvrir avec block-note et:
Analyse
descriptive
• Vérifier l’ entête du fichier (skiprows=‘’Nombre de lignes dans l’ entête’’)
Ajustement de
Type de • Vérifier le type de séparateur dans le fichier (ex.: si ‘-’, sep=‘-’)
variables
• Vérifier di il y’a des variables de types « date » (parse_dates=True)
Détection et
traitement des • Vérifier la notation des valeurs NA (la plupart du temp, c’est -999) (ex.: na_values=-999)
valeurs
manquées
• Vérifier si il y’a un index ou on veut utiliser une variable comme index
Identification
des données (index_col=‘’indice numérique de la variable qu’on veut ajouter comme index’’)
erronées
Corrélation des
variables
13
Pré-traitement des données : Analyse exploratoire des données
Données
Vérifier que le fichier est bien lu avec la méthode .head() (ou bien la méthode .tail() )
Analyse
descriptive
Ajustement de
Type de
variables
Détection et
traitement des
valeurs
manquées
Identification
des données
erronées
Corrélation des
variables
14
Pré-traitement des données : Analyse exploratoire des données
Données
Il y’a 4 types principales et d’autres types spécifiques
Analyse
descriptive
ou object
Ajustement de
Type de
variables
Détection et
traitement des
valeurs
manquées
Identification
des données
erronées
Corrélation des
variables
15
Pré-traitement des données : Analyse exploratoire des données
Les méthodes : .info() et .astype()
Données
La méthode .info() pour visualiser le type de chaque variable
Analyse
.head()
descriptive
Ajustement de
pd.read_csv()
Type de
variables
Détection et
traitement des
valeurs
manquées
Identification
des données .info()
erronées
Corrélation des
variables
16
Pré-traitement des données : Analyse exploratoire des données
Les méthodes : .info() et .astype()
Données
La méthode .info() pour visualiser le type de chaque variable
Analyse
descriptive
Ajustement de
Type de Nombre d’observations
variables
Nombre de variables (colonnes)
Détection et
traitement des Types de chaque variable
valeurs
manquées
Identification
des données
erronées
Corrélation des
variables
17
Pré-traitement des données : Analyse exploratoire des données
Données
Les méthodes : .isna() , .dropna() et .fillna()
Analyse
descriptive
.isna() : Identifier les valeurs manquantes (NaN).
Ajustement de
Type de Supprimer .dropna() : Supprimer les lignes (par
variables
défaut) et les colonnes contenant des
valeurs manquantes.
Détection et
traitement des
valeurs
Valeurs manquantes (NaN) ? ou
manquées
Remplacer .fillna() : Remplacer les valeurs
Identification manquantes par une valeur spécifique
des données ou par d’autre méthodes.
erronées
Corrélation des
variables
18
Pré-traitement des données : Analyse exploratoire des données
Données
Exemple: combinaison de la méthode .isna() avec la méthode se la somme .sum()
Analyse
descriptive
Ajustement de
Type de
variables
Nombre de valeurs manquées par variables
Détection et
traitement des
valeurs
manquées
Identification
des données
erronées
Corrélation des
variables
19
Pré-traitement des données : Analyse exploratoire des données
Données
Les méthodes : .describe()
utilisée pour générer des statistiques descriptives d'un DataFrame ou d'une série.
Analyse
descriptive
Ajustement de
Type de
variables
Nombre total d’observations
La moyenne
Détection et Déviation standard
traitement des Minimum
valeurs premier quartile Q1
manquées
deuxième quartile Q2
troisième quartile Q3
Maximum
Identification
des données
erronées
Corrélation des
variables
20
Pré-traitement des données : Analyse exploratoire des données
Données
Les méthodes : .describe()
Analyse
descriptive Il faut vérifier le max et le min d’une
variable
Ajustement de
Type de
Exemple: Le maximum pour la vitesse du vent
variables est 908 m/s ! ce qui indique l’existence des
valeurs erronées
Détection et
traitement des Il est nécessaire de traiter ses valeurs de
valeurs
manquées
manière similaire au traitement des valeurs
manquées (supprimer ou remplacer)
Identification La méthode .describe() est destiné pour les
des données
erronées variables numérique seulement.
Corrélation des
variables
21
Pré-traitement des données : Analyse exploratoire des données
Données
La méthode : .corr() Calculer la matrice de corrélation entre les colonnes d'un DataFrame
Analyse ▪ .corr() ne fonctionne qu'avec des données numériques.
descriptive
▪ Par défaut, .corr() calcule la corrélation de Pearson. D'autres types de corrélation
(Spearman, Kendall)
Ajustement de
Type de ▪ La corrélation ne signifie pas causalité. Une forte corrélation entre deux variables ne
variables
signifie pas nécessairement que l'une est la cause de l'autre.
Détection et
traitement des
valeurs
manquées
Identification
des données
erronées
Corrélation des
variables
22
Pré-traitement des données : Analyse exploratoire des données
Données
La méthode : .corr() Calculer la matrice de corrélation entre les colonnes d'un DataFrame
Analyse La matrice de corrélation peut être visualisée en utilisant la librairie Seaborn (souvent
descriptive importée comme sns), spécifiquement la fonction sns.heatmap()
Ajustement de
Type de
variables
Détection et
traitement des
valeurs
manquées
Identification
des données
erronées
Corrélation des
variables
23
Application
Visualisation des données
spatiotemporelles
24