0% ont trouvé ce document utile (0 vote)

53 vues24 pages

Traitement Des Données Avec Python

Le document traite du pré-traitement des données en utilisant Python, en mettant l'accent sur l'importance de gérer les données manquantes, dupliquées et aberrantes. Il présente également des méthodes d'analyse exploratoire des données (EDA) et des outils tels que la bibliothèque Pandas pour manipuler les données. Enfin, il aborde les différentes techniques pour identifier et traiter les valeurs manquantes et les incohérences dans les types de données.

Transféré par

m.aitakkou

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

53 vues24 pages

Traitement Des Données Avec Python

Transféré par

m.aitakkou

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Master de Mécanique des Fluides et

Energétique, Modélisation et Applications

Année Universitaire 2024-2025

Pré-traitement de données avec

Python
(Data preprocessing)

HAJOU ANAS
Pourquoi le pré-traitement des données

❑ Données manquantes : Certaines valeurs peuvent être absentes.

❑ Données dupliquées : Plusieurs lignes ou enregistrements peuvent être identiques.
❑ Valeurs aberrantes : Certaines valeurs peuvent être extrêmement différentes du reste des
données.
❑ Types de données incorrects : Les colonnes peuvent avoir des types de données inadaptés
(ex. texte au lieu de nombre).
❑ Incohérences dans les formats : Les dates, nombres ou autres valeurs peuvent être stockés
dans différents formats.
❑ Données bruitées : Données contenant des erreurs ou du bruit aléatoire.
❑ Données catégoriques incohérentes : Différentes notations pour les mêmes catégories (ex.
"M" vs "Masculin").
❑ Données redondantes : Trop de colonnes ou d’informations qui ne sont pas utiles.

2
Pourquoi le pré-traitement des données

❑ Valeurs manquantes non gérées

❑ Algorithmes perturbés

Données ❑ Doublons non supprimés → résultats biaisés

❑ Valeurs aberrantes (outliers) → analyses faussées

Algorithmes
Visualisation
Rapport
Analyse
...

3
Pré-traitement des données

Analyse exploratoire des données

(Exploratory Data Analysis EDA)

Détection et
Adjustement Identification
Analyse traitement des Corrélation
de Types de des données
descriptif données des variables
variables erronées
manqués

Données

Algorithmes
Visualisation
Rapport
Analyse
...

4
Rappelle sur Pandas

❑ Une bibliothèque open-source puissante pour l'analyse et la manipulation des données.

❑ Basée sur NumPy, elle offre des structures de données rapides et flexibles.
❑ Structures de données principales :
▪ Series : Une série 1D avec indexation.
▪ DataFrame : Une structure de données 2D avec indexation (similaire à une feuille de calcul Excel).

5
Rappelle sur Pandas

Pandas Series

Par défaut
6
Rappelle sur Pandas

Pandas DataFrame

7
Types des Fichiers
8 colonnes
Fichiers CSV Comma-Separated Values (valeurs séparées par des virgules)
(variables)

1 2 3 4 5 6 7 8

8
Types des Fichiers

Fichiers CSV Avec entête

9
Types des Fichiers

Fichiers CSV Autres séparateurs

Séparateurs point-virgule ‘’;’’ Séparateurs tabulation ‘’\t’’

10
Lire un fichier csv avec pandas
La fonction read_csv()

11
Pré-traitement des données : Analyse exploratoire des données

Données

Analyse exploratoire des données

Analyse
descriptive
(Exploratory Data Analysis EDA)

Détection et
Adjustement Identification
Analyse traitement des Corrélation
Ajustement de de Types de des données
descriptif données des variables
Type de variables erronées
manqués
variables

Détection et
traitement des
valeurs
manquées
Algorithmes
Visualisation
Identification
des données
Rapport
erronées Analyse
...

Corrélation des
variables
12
Pré-traitement des données : Analyse exploratoire des données

Données

Avant de lire le fichier csv avec python, il faut l’ouvrir avec block-note et:
Analyse
descriptive

• Vérifier l’ entête du fichier (skiprows=‘’Nombre de lignes dans l’ entête’’)

Ajustement de
Type de • Vérifier le type de séparateur dans le fichier (ex.: si ‘-’, sep=‘-’)
variables

• Vérifier di il y’a des variables de types « date » (parse_dates=True)

Détection et
traitement des • Vérifier la notation des valeurs NA (la plupart du temp, c’est -999) (ex.: na_values=-999)
valeurs
manquées
• Vérifier si il y’a un index ou on veut utiliser une variable comme index
Identification
des données (index_col=‘’indice numérique de la variable qu’on veut ajouter comme index’’)
erronées

Corrélation des
variables
13
Pré-traitement des données : Analyse exploratoire des données

Données

Vérifier que le fichier est bien lu avec la méthode .head() (ou bien la méthode .tail() )
Analyse
descriptive

Ajustement de
Type de
variables

Détection et
traitement des
valeurs
manquées

Identification
des données
erronées

Corrélation des
variables
14
Pré-traitement des données : Analyse exploratoire des données

Données

Il y’a 4 types principales et d’autres types spécifiques

Analyse
descriptive
ou object

Ajustement de
Type de
variables

Détection et
traitement des
valeurs
manquées

Identification
des données
erronées

Corrélation des
variables
15
Pré-traitement des données : Analyse exploratoire des données

Les méthodes : .info() et .astype()

Données

La méthode .info() pour visualiser le type de chaque variable

Analyse
.head()
descriptive

Ajustement de
pd.read_csv()
Type de
variables

Détection et
traitement des
valeurs
manquées

Identification
des données .info()
erronées

Corrélation des
variables
16
Pré-traitement des données : Analyse exploratoire des données

Les méthodes : .info() et .astype()

Données

La méthode .info() pour visualiser le type de chaque variable

Analyse
descriptive

Ajustement de
Type de Nombre d’observations
variables
Nombre de variables (colonnes)

Détection et
traitement des Types de chaque variable
valeurs
manquées

Identification
des données
erronées

Corrélation des
variables
17
Pré-traitement des données : Analyse exploratoire des données

Données
Les méthodes : .isna() , .dropna() et .fillna()

Analyse
descriptive
.isna() : Identifier les valeurs manquantes (NaN).

Ajustement de
Type de Supprimer .dropna() : Supprimer les lignes (par
variables
défaut) et les colonnes contenant des
valeurs manquantes.
Détection et
traitement des
valeurs
Valeurs manquantes (NaN) ? ou
manquées

Remplacer .fillna() : Remplacer les valeurs

Identification manquantes par une valeur spécifique
des données ou par d’autre méthodes.
erronées

Corrélation des
variables
18
Pré-traitement des données : Analyse exploratoire des données

Données
Exemple: combinaison de la méthode .isna() avec la méthode se la somme .sum()

Analyse
descriptive

Ajustement de
Type de
variables
Nombre de valeurs manquées par variables

Détection et
traitement des
valeurs
manquées

Identification
des données
erronées

Corrélation des
variables
19
Pré-traitement des données : Analyse exploratoire des données

Données
Les méthodes : .describe()
utilisée pour générer des statistiques descriptives d'un DataFrame ou d'une série.
Analyse
descriptive

Ajustement de
Type de
variables

Nombre total d’observations

La moyenne
Détection et Déviation standard
traitement des Minimum
valeurs premier quartile Q1
manquées
deuxième quartile Q2
troisième quartile Q3
Maximum
Identification
des données
erronées

Corrélation des
variables
20
Pré-traitement des données : Analyse exploratoire des données

Données
Les méthodes : .describe()

Analyse
descriptive Il faut vérifier le max et le min d’une
variable

Ajustement de
Type de
Exemple: Le maximum pour la vitesse du vent
variables est 908 m/s ! ce qui indique l’existence des
valeurs erronées
Détection et
traitement des Il est nécessaire de traiter ses valeurs de
valeurs
manquées
manière similaire au traitement des valeurs
manquées (supprimer ou remplacer)

Identification La méthode .describe() est destiné pour les

des données
erronées variables numérique seulement.

Corrélation des
variables
21
Pré-traitement des données : Analyse exploratoire des données

Données
La méthode : .corr() Calculer la matrice de corrélation entre les colonnes d'un DataFrame

Analyse ▪ .corr() ne fonctionne qu'avec des données numériques.

descriptive
▪ Par défaut, .corr() calcule la corrélation de Pearson. D'autres types de corrélation
(Spearman, Kendall)
Ajustement de
Type de ▪ La corrélation ne signifie pas causalité. Une forte corrélation entre deux variables ne
variables
signifie pas nécessairement que l'une est la cause de l'autre.

Détection et
traitement des
valeurs
manquées

Identification
des données
erronées

Corrélation des
variables
22
Pré-traitement des données : Analyse exploratoire des données

Données
La méthode : .corr() Calculer la matrice de corrélation entre les colonnes d'un DataFrame

Analyse La matrice de corrélation peut être visualisée en utilisant la librairie Seaborn (souvent
descriptive importée comme sns), spécifiquement la fonction sns.heatmap()

Ajustement de
Type de
variables

Détection et
traitement des
valeurs
manquées

Identification
des données
erronées

Corrélation des
variables
23
Application

Visualisation des données

spatiotemporelles

Vous aimerez peut-être aussi

Importation et analyse de données avec Pandas
Pas encore d'évaluation
Importation et analyse de données avec Pandas
18 pages
Importation et analyse de données avec Pandas
Pas encore d'évaluation
Importation et analyse de données avec Pandas
85 pages
Nettoyage de données avec Python et Pandas
Pas encore d'évaluation
Nettoyage de données avec Python et Pandas
5 pages
Prétraitement des Données Avancé
100% (2)
Prétraitement des Données Avancé
153 pages
Fonctions Clés de Pandas en Python
100% (1)
Fonctions Clés de Pandas en Python
44 pages
Science des Données avec Python
Pas encore d'évaluation
Science des Données avec Python
39 pages
Nettoyage des Données: Traiter les Valeurs Manquantes avec Python
Pas encore d'évaluation
Nettoyage des Données: Traiter les Valeurs Manquantes avec Python
14 pages
Nettoyage et Transformation des Données
100% (1)
Nettoyage et Transformation des Données
14 pages
Correction TP Python Panda
Pas encore d'évaluation
Correction TP Python Panda
7 pages
TP 1: Analyse Exploratoire Et Prétraitement Des Données
Pas encore d'évaluation
TP 1: Analyse Exploratoire Et Prétraitement Des Données
4 pages
Manipulation des données avec Pandas
Pas encore d'évaluation
Manipulation des données avec Pandas
9 pages
2eme Partie (Suite Et Fin) Les Fichiers CSV Avec PANDAS
Pas encore d'évaluation
2eme Partie (Suite Et Fin) Les Fichiers CSV Avec PANDAS
29 pages
Prétraitement des données avec R
Pas encore d'évaluation
Prétraitement des données avec R
5 pages
Analyse exploratoire des données avec Python
100% (1)
Analyse exploratoire des données avec Python
41 pages
CH2 - Préparation Des Données
100% (1)
CH2 - Préparation Des Données
27 pages
Python Chapt8
Pas encore d'évaluation
Python Chapt8
57 pages
Préparation Des Données-Chapitre2
Pas encore d'évaluation
Préparation Des Données-Chapitre2
27 pages
Cours Ia Gomycode
100% (1)
Cours Ia Gomycode
153 pages
Tp1 Pandas Corrigé
100% (1)
Tp1 Pandas Corrigé
10 pages
TP3 4 5 Pandas 4eco Version Eleves
Pas encore d'évaluation
TP3 4 5 Pandas 4eco Version Eleves
4 pages
Traitement de Données Avec PANDAS - Outils Numériques Avancés en Mécanique
Pas encore d'évaluation
Traitement de Données Avec PANDAS - Outils Numériques Avancés en Mécanique
30 pages
Statistiques au lycée avec pandas Python
Pas encore d'évaluation
Statistiques au lycée avec pandas Python
53 pages
TP 4 Analyse Exploratoire de Données AED
Pas encore d'évaluation
TP 4 Analyse Exploratoire de Données AED
5 pages
Fonctions essentielles de la bibliothèque PANDAS
Pas encore d'évaluation
Fonctions essentielles de la bibliothèque PANDAS
24 pages
Analyse de Données IA avec Python
Pas encore d'évaluation
Analyse de Données IA avec Python
22 pages
Préparer des Données avec Python
Pas encore d'évaluation
Préparer des Données avec Python
44 pages
TP: EDA et Prétraitement des Données
Pas encore d'évaluation
TP: EDA et Prétraitement des Données
3 pages
Prétraitement des données sur R
Pas encore d'évaluation
Prétraitement des données sur R
12 pages
Traitement de données avec pandas
Pas encore d'évaluation
Traitement de données avec pandas
3 pages
Traitement des données manquantes et aberrantes
Pas encore d'évaluation
Traitement des données manquantes et aberrantes
4 pages
CH2 - Préparation Des Données
Pas encore d'évaluation
CH2 - Préparation Des Données
27 pages
Cours TP Pandas
Pas encore d'évaluation
Cours TP Pandas
7 pages
CH 3
Pas encore d'évaluation
CH 3
44 pages
Analyse Donnees Python Jupyter
Pas encore d'évaluation
Analyse Donnees Python Jupyter
4 pages
Analyse et Prétraitement de Données Python
Pas encore d'évaluation
Analyse et Prétraitement de Données Python
4 pages
TP Data Mining Avec NumPy, Pandas Et Matplotlib
Pas encore d'évaluation
TP Data Mining Avec NumPy, Pandas Et Matplotlib
3 pages
Module: Analyse Et Fouille de Données
Pas encore d'évaluation
Module: Analyse Et Fouille de Données
3 pages
Chapitre 3 - Pandas+visualisation
Pas encore d'évaluation
Chapitre 3 - Pandas+visualisation
40 pages
Introduction au traitement des données ECD
Pas encore d'évaluation
Introduction au traitement des données ECD
2 pages
Statistiques Descriptives Et Analyse de Données Avec Le Module Pandas
Pas encore d'évaluation
Statistiques Descriptives Et Analyse de Données Avec Le Module Pandas
10 pages
Manipulation de données avec NumPy et Pandas
Pas encore d'évaluation
Manipulation de données avec NumPy et Pandas
2 pages
1 INITIATION AI Data Science
100% (1)
1 INITIATION AI Data Science
27 pages
Pandas
Pas encore d'évaluation
Pandas
7 pages
Rapport Du Projet de Programmation - Groupe5
Pas encore d'évaluation
Rapport Du Projet de Programmation - Groupe5
7 pages
Analyse Statistique des Données Pokémon
Pas encore d'évaluation
Analyse Statistique des Données Pokémon
29 pages
Lecture et écriture de données avec pandas
Pas encore d'évaluation
Lecture et écriture de données avec pandas
28 pages
Introduction à la manipulation de données avec Pandas
Pas encore d'évaluation
Introduction à la manipulation de données avec Pandas
45 pages
TP 02
Pas encore d'évaluation
TP 02
2 pages
Cours 5
Pas encore d'évaluation
Cours 5
9 pages
Cours TP Pandas
Pas encore d'évaluation
Cours TP Pandas
9 pages
Exploration des Données et EDA en Data Mining
Pas encore d'évaluation
Exploration des Données et EDA en Data Mining
5 pages
Pre Traitement Donnees 24 Handout
Pas encore d'évaluation
Pre Traitement Donnees 24 Handout
103 pages
Documentation Du Notebook Jupyter: Analyse Des Données Financières
Pas encore d'évaluation
Documentation Du Notebook Jupyter: Analyse Des Données Financières
4 pages
1 Pandas
Pas encore d'évaluation
1 Pandas
7 pages
Analyse de Donnees
Pas encore d'évaluation
Analyse de Donnees
27 pages
Introduction au format CSV et traitement des données
Pas encore d'évaluation
Introduction au format CSV et traitement des données
7 pages
TP Pretraitement
Pas encore d'évaluation
TP Pretraitement
17 pages
Fiche-16 - Données en Table-Dataframe
Pas encore d'évaluation
Fiche-16 - Données en Table-Dataframe
4 pages
JOACHIM 2024 Archivage
Pas encore d'évaluation
JOACHIM 2024 Archivage
368 pages
Cours 01 Science de DonneesH25
Pas encore d'évaluation
Cours 01 Science de DonneesH25
53 pages
LES FICHES DE LECTURE L'acteur Et Le Système de Michel Crozier
Pas encore d'évaluation
LES FICHES DE LECTURE L'acteur Et Le Système de Michel Crozier
27 pages
Pathologies et solutions des fondations
Pas encore d'évaluation
Pathologies et solutions des fondations
39 pages
Compte Rendu Conseil des Ministres Burkina
Pas encore d'évaluation
Compte Rendu Conseil des Ministres Burkina
49 pages
Statistiques Hydrologiques: Gumbel et Gauss
Pas encore d'évaluation
Statistiques Hydrologiques: Gumbel et Gauss
8 pages
Formation Consignation Postes HTA/BT
Pas encore d'évaluation
Formation Consignation Postes HTA/BT
2 pages
TD 3 Econométrie UMECI L3 ECONOMIE ET GESTION 2025
Pas encore d'évaluation
TD 3 Econométrie UMECI L3 ECONOMIE ET GESTION 2025
2 pages
Artigo Semir Badir
Pas encore d'évaluation
Artigo Semir Badir
13 pages
Memoire Onirotherapie PDF
Pas encore d'évaluation
Memoire Onirotherapie PDF
136 pages
Activité 4 IC 2024
Pas encore d'évaluation
Activité 4 IC 2024
2 pages
These Nahal Mourad
Pas encore d'évaluation
These Nahal Mourad
165 pages
STT2700 TP8
Pas encore d'évaluation
STT2700 TP8
8 pages
Memoire de Licence Soutenu Par Olivier & Michel
89% (9)
Memoire de Licence Soutenu Par Olivier & Michel
64 pages
Bac 1 Elm
Pas encore d'évaluation
Bac 1 Elm
8 pages
Analyse statistique des données démographiques
Pas encore d'évaluation
Analyse statistique des données démographiques
4 pages
Procurement Regulations For IPF Borrowers November 2020 FRENCH 1 20
Pas encore d'évaluation
Procurement Regulations For IPF Borrowers November 2020 FRENCH 1 20
20 pages
Classification et Modélisation avec Python
Pas encore d'évaluation
Classification et Modélisation avec Python
4 pages
Optimisation de Modèles Économétriques
100% (1)
Optimisation de Modèles Économétriques
18 pages
2014-Recueil CongresAFTES
Pas encore d'évaluation
2014-Recueil CongresAFTES
132 pages
3 - Support Cours Audit Comptable Et Financier
Pas encore d'évaluation
3 - Support Cours Audit Comptable Et Financier
23 pages
Marketing appliqué au transport : exercices pratiques
Pas encore d'évaluation
Marketing appliqué au transport : exercices pratiques
3 pages