0% ont trouvé ce document utile (0 vote)
53 vues24 pages

Traitement Des Données Avec Python

Le document traite du pré-traitement des données en utilisant Python, en mettant l'accent sur l'importance de gérer les données manquantes, dupliquées et aberrantes. Il présente également des méthodes d'analyse exploratoire des données (EDA) et des outils tels que la bibliothèque Pandas pour manipuler les données. Enfin, il aborde les différentes techniques pour identifier et traiter les valeurs manquantes et les incohérences dans les types de données.

Transféré par

m.aitakkou
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
53 vues24 pages

Traitement Des Données Avec Python

Le document traite du pré-traitement des données en utilisant Python, en mettant l'accent sur l'importance de gérer les données manquantes, dupliquées et aberrantes. Il présente également des méthodes d'analyse exploratoire des données (EDA) et des outils tels que la bibliothèque Pandas pour manipuler les données. Enfin, il aborde les différentes techniques pour identifier et traiter les valeurs manquantes et les incohérences dans les types de données.

Transféré par

m.aitakkou
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Master de Mécanique des Fluides et

Energétique, Modélisation et Applications


Année Universitaire 2024-2025

Pré-traitement de données avec


Python
(Data preprocessing)

HAJOU ANAS
Pourquoi le pré-traitement des données

❑ Données manquantes : Certaines valeurs peuvent être absentes.


❑ Données dupliquées : Plusieurs lignes ou enregistrements peuvent être identiques.
❑ Valeurs aberrantes : Certaines valeurs peuvent être extrêmement différentes du reste des
données.
❑ Types de données incorrects : Les colonnes peuvent avoir des types de données inadaptés
(ex. texte au lieu de nombre).
❑ Incohérences dans les formats : Les dates, nombres ou autres valeurs peuvent être stockés
dans différents formats.
❑ Données bruitées : Données contenant des erreurs ou du bruit aléatoire.
❑ Données catégoriques incohérentes : Différentes notations pour les mêmes catégories (ex.
"M" vs "Masculin").
❑ Données redondantes : Trop de colonnes ou d’informations qui ne sont pas utiles.

2
Pourquoi le pré-traitement des données

❑ Valeurs manquantes non gérées

❑ Algorithmes perturbés

Données ❑ Doublons non supprimés → résultats biaisés

❑ Valeurs aberrantes (outliers) → analyses faussées


Algorithmes
Visualisation
Rapport
Analyse
...

3
Pré-traitement des données

Analyse exploratoire des données


(Exploratory Data Analysis EDA)

Détection et
Adjustement Identification
Analyse traitement des Corrélation
de Types de des données
descriptif données des variables
variables erronées
manqués

Données

Algorithmes
Visualisation
Rapport
Analyse
...

4
Rappelle sur Pandas

❑ Une bibliothèque open-source puissante pour l'analyse et la manipulation des données.


❑ Basée sur NumPy, elle offre des structures de données rapides et flexibles.
❑ Structures de données principales :
▪ Series : Une série 1D avec indexation.
▪ DataFrame : Une structure de données 2D avec indexation (similaire à une feuille de calcul Excel).

5
Rappelle sur Pandas

Pandas Series

Par défaut
6
Rappelle sur Pandas

Pandas DataFrame

7
Types des Fichiers
8 colonnes
Fichiers CSV Comma-Separated Values (valeurs séparées par des virgules)
(variables)

1 2 3 4 5 6 7 8

8
Types des Fichiers

Fichiers CSV Avec entête

9
Types des Fichiers

Fichiers CSV Autres séparateurs

Séparateurs point-virgule ‘’;’’ Séparateurs tabulation ‘’\t’’

10
Lire un fichier csv avec pandas
La fonction read_csv()

11
Pré-traitement des données : Analyse exploratoire des données

Données

Analyse exploratoire des données


Analyse
descriptive
(Exploratory Data Analysis EDA)

Détection et
Adjustement Identification
Analyse traitement des Corrélation
Ajustement de de Types de des données
descriptif données des variables
Type de variables erronées
manqués
variables

Détection et
traitement des
valeurs
manquées
Algorithmes
Visualisation
Identification
des données
Rapport
erronées Analyse
...

Corrélation des
variables
12
Pré-traitement des données : Analyse exploratoire des données

Données

Avant de lire le fichier csv avec python, il faut l’ouvrir avec block-note et:
Analyse
descriptive

• Vérifier l’ entête du fichier (skiprows=‘’Nombre de lignes dans l’ entête’’)


Ajustement de
Type de • Vérifier le type de séparateur dans le fichier (ex.: si ‘-’, sep=‘-’)
variables

• Vérifier di il y’a des variables de types « date » (parse_dates=True)


Détection et
traitement des • Vérifier la notation des valeurs NA (la plupart du temp, c’est -999) (ex.: na_values=-999)
valeurs
manquées
• Vérifier si il y’a un index ou on veut utiliser une variable comme index
Identification
des données (index_col=‘’indice numérique de la variable qu’on veut ajouter comme index’’)
erronées

Corrélation des
variables
13
Pré-traitement des données : Analyse exploratoire des données

Données

Vérifier que le fichier est bien lu avec la méthode .head() (ou bien la méthode .tail() )
Analyse
descriptive

Ajustement de
Type de
variables

Détection et
traitement des
valeurs
manquées

Identification
des données
erronées

Corrélation des
variables
14
Pré-traitement des données : Analyse exploratoire des données

Données

Il y’a 4 types principales et d’autres types spécifiques

Analyse
descriptive
ou object

Ajustement de
Type de
variables

Détection et
traitement des
valeurs
manquées

Identification
des données
erronées

Corrélation des
variables
15
Pré-traitement des données : Analyse exploratoire des données

Les méthodes : .info() et .astype()


Données

La méthode .info() pour visualiser le type de chaque variable


Analyse
.head()
descriptive

Ajustement de
pd.read_csv()
Type de
variables

Détection et
traitement des
valeurs
manquées

Identification
des données .info()
erronées

Corrélation des
variables
16
Pré-traitement des données : Analyse exploratoire des données

Les méthodes : .info() et .astype()


Données

La méthode .info() pour visualiser le type de chaque variable


Analyse
descriptive

Ajustement de
Type de Nombre d’observations
variables
Nombre de variables (colonnes)

Détection et
traitement des Types de chaque variable
valeurs
manquées

Identification
des données
erronées

Corrélation des
variables
17
Pré-traitement des données : Analyse exploratoire des données

Données
Les méthodes : .isna() , .dropna() et .fillna()

Analyse
descriptive
.isna() : Identifier les valeurs manquantes (NaN).

Ajustement de
Type de Supprimer .dropna() : Supprimer les lignes (par
variables
défaut) et les colonnes contenant des
valeurs manquantes.
Détection et
traitement des
valeurs
Valeurs manquantes (NaN) ? ou
manquées

Remplacer .fillna() : Remplacer les valeurs


Identification manquantes par une valeur spécifique
des données ou par d’autre méthodes.
erronées

Corrélation des
variables
18
Pré-traitement des données : Analyse exploratoire des données

Données
Exemple: combinaison de la méthode .isna() avec la méthode se la somme .sum()

Analyse
descriptive

Ajustement de
Type de
variables
Nombre de valeurs manquées par variables

Détection et
traitement des
valeurs
manquées

Identification
des données
erronées

Corrélation des
variables
19
Pré-traitement des données : Analyse exploratoire des données

Données
Les méthodes : .describe()
utilisée pour générer des statistiques descriptives d'un DataFrame ou d'une série.
Analyse
descriptive

Ajustement de
Type de
variables

Nombre total d’observations


La moyenne
Détection et Déviation standard
traitement des Minimum
valeurs premier quartile Q1
manquées
deuxième quartile Q2
troisième quartile Q3
Maximum
Identification
des données
erronées

Corrélation des
variables
20
Pré-traitement des données : Analyse exploratoire des données

Données
Les méthodes : .describe()

Analyse
descriptive Il faut vérifier le max et le min d’une
variable

Ajustement de
Type de
Exemple: Le maximum pour la vitesse du vent
variables est 908 m/s ! ce qui indique l’existence des
valeurs erronées
Détection et
traitement des Il est nécessaire de traiter ses valeurs de
valeurs
manquées
manière similaire au traitement des valeurs
manquées (supprimer ou remplacer)

Identification La méthode .describe() est destiné pour les


des données
erronées variables numérique seulement.

Corrélation des
variables
21
Pré-traitement des données : Analyse exploratoire des données

Données
La méthode : .corr() Calculer la matrice de corrélation entre les colonnes d'un DataFrame

Analyse ▪ .corr() ne fonctionne qu'avec des données numériques.


descriptive
▪ Par défaut, .corr() calcule la corrélation de Pearson. D'autres types de corrélation
(Spearman, Kendall)
Ajustement de
Type de ▪ La corrélation ne signifie pas causalité. Une forte corrélation entre deux variables ne
variables
signifie pas nécessairement que l'une est la cause de l'autre.

Détection et
traitement des
valeurs
manquées

Identification
des données
erronées

Corrélation des
variables
22
Pré-traitement des données : Analyse exploratoire des données

Données
La méthode : .corr() Calculer la matrice de corrélation entre les colonnes d'un DataFrame

Analyse La matrice de corrélation peut être visualisée en utilisant la librairie Seaborn (souvent
descriptive importée comme sns), spécifiquement la fonction sns.heatmap()

Ajustement de
Type de
variables

Détection et
traitement des
valeurs
manquées

Identification
des données
erronées

Corrélation des
variables
23
Application

Visualisation des données


spatiotemporelles

24

Vous aimerez peut-être aussi