0% ont trouvé ce document utile (0 vote)

337 vues3 pages

Prétraitement des données en Python

Le document décrit les étapes du prétraitement des données, y compris le chargement, le nettoyage, la transformation et la visualisation des données à partir d'une base de données de billets de banque. Le prétraitement des données est une étape cruciale de l'analyse de données.

Transféré par

Emmanuel Evilafo

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

337 vues3 pages

Prétraitement des données en Python

Transféré par

Emmanuel Evilafo

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Data préprocessing (prétraitement des données)

Introduction
Le data preprocessing est une étape cruciale dans tout projet d'analyse de données. Elle consiste à préparer les données pour l'analyse ultérieure en
nettoyant les données, en les transformant et en les sélectionnant.

Dans cet article, nous allons utiliser une base de données d'authentification des billets de banque pour illustrer les différentes étapes du data
preprocessing en utilisant Python et Jupyter Notebook. Nous allons utiliser des formules et des codes pour expliquer chaque étape.

Collecte des données

Dans cet exemple, nous avons téléchargé la base de données d'authentification des billets de banque du référentiel UCI ML. Le lien de téléchargement de
la base de données est : https://www.kaggle.com/ritesaluja/bank-note-authentication-uci-data

Après avoir téléchargé la base de données, nous lisons le fichier csv en utilisant la bibliothèque pandas :

Etape 1 : Importation des bibliothèques

In [1]: # Importation des bibliothèques nécessaires
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler
sns.set()

Etape 2 : Chargement des données

Nous allons charger les données en utilisant la fonction read_csv de pandas.
In [3]: # Chargement des données depuis le fichier csv
df = pd.read_csv("BankNote_Authentication.csv")

Etape 3 : Exploration des données

Nous allons explorer les données pour comprendre leur structure et leurs caractéristiques.
In [4]: # Affichage des 5 premières lignes
df.head()
Out[4]: variance skewness curtosis entropy class

0 3.62160 8.6661 -2.8073 -0.44699 0

1 4.54590 8.1674 -2.4586 -1.46210 0

2 3.86600 -2.6383 1.9242 0.10645 0

3 3.45660 9.5228 -4.0112 -3.59440 0

4 0.32924 -4.4552 4.5718 -0.98880 0

In [5]: # Affichage des informations sur les colonnes

df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1372 entries, 0 to 1371
Data columns (total 5 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 variance 1372 non-null float64
1 skewness 1372 non-null float64
2 curtosis 1372 non-null float64
3 entropy 1372 non-null float64
4 class 1372 non-null int64
dtypes: float64(4), int64(1)
memory usage: 53.7 KB
In [6]: # Affichage des statistiques descriptives
df.describe()
Out[6]: variance skewness curtosis entropy class

count 1372.000000 1372.000000 1372.000000 1372.000000 1372.000000

mean 0.433735 1.922353 1.397627 -1.191657 0.444606

std 2.842763 5.869047 4.310030 2.101013 0.497103

min -7.042100 -13.773100 -5.286100 -8.548200 0.000000

25% -1.773000 -1.708200 -1.574975 -2.413450 0.000000

50% 0.496180 2.319650 0.616630 -0.586650 0.000000

75% 2.821475 6.814625 3.179250 0.394810 1.000000

max 6.824800 12.951600 17.927400 2.449500 1.000000

In [7]: # Affichage des valeurs uniques d'une colonne

df["class"].unique()
Out[7]:array([0, 1], dtype=int64)
In [8]: # Affichage des valeurs manquantes par colonne
df.isnull().sum()
Out[8]:variance 0
skewness 0
curtosis 0
entropy 0
class 0
dtype: int64

Etape 4 : Nettoyage des données

Après avoir exploré les données, nous allons nettoyer les données en supprimant les valeurs manquantes, les doublons et les colonnes inutiles.
In [9]: # Suppression des doublons
df.drop_duplicates(inplace=True)

# Suppression des lignes avec des valeurs manquantes

df.dropna(inplace=True)

# Réinitialisation de l'index
df.reset_index(drop=True, inplace=True)

Etape 5 : Transformation des données

Après le nettoyage des données, nous allons transformer les données pour qu'elles soient exploitables. Nous allons créer de nouvelles colonnes à partir
des colonnes existantes et convertir les données en formats exploitables.
In [10]: # Conversion de la colonne "class" en format numérique
df["class"] = pd.to_numeric(df["class"])

# Normalisation des données

scaler = StandardScaler()
df[["Variance", "entropy"]] = scaler.fit_transform(df[["variance", "entropy"]])

Etape 6 : Visualisation des données

La visualisation des données est une étape importante pour comprendre la distribution des données et les relations.
In [11]: # Créer la grille de sous-figures
fig, axes = plt.subplots(nrows=1, ncols=3, figsize=(15, 5))

# Distribution de la variable "Variance"

sns.histplot(df["Variance"], kde=True, ax=axes[0])
axes[0].set_title('Distribution de la variable Variance')

# Relation entre la variable "Variance" et la variable cible "class"

sns.boxplot(x=df["class"], y=df["Variance"], ax=axes[1])
axes[1].set_title('Relation entre la variable Variance et la variable cible class')

# Matrice de corrélation
sns.heatmap(df.corr(), annot=True, cmap="coolwarm" , ax=axes[2])
axes[2].set_title('Matrice de corrélation')

# Affichage du graphique
plt.show()
Conclusion
Dans ce notebook, nous avons abordé les différentes étapes de prétraitement des données pour l'analyse. Nous avons importé les bibliothèques
nécessaires, chargé les données, exploré les données, nettoyé les données, transformé les données et visualisé les données.

Le Data Preprocessing est une étape importante dans l'analyse de données car elle permet de préparer les données pour l'analyse en éliminant les
erreurs, les données inutiles et en transformant les données en formats exploitables. Cette étape est cruciale pour obtenir des résultats fiables et précis
lors de l'analyse de données.

Il est important de comprendre que le prétraitement des données est un processus itératif qui peut nécessiter plusieurs ajustements en fonction des
résultats obtenus lors de l'analyse des données.

Le lien de téléchargement de la base de données utilisée dans ce notebook est : https://www.kaggle.com/ritesaluja/bank-note-authentication-uci-data.

Il est important de noter que ce notebook n'est qu'un exemple et que le Data Preprocessing peut varier en fonction des données et des objectifs de
l'analyse. Il est recommandé de personnaliser le processus de prétraitement des données en fonction de chaque situation.

Emmanuel Evilafo

github : https://github.com/Evilafo Site web : http://research.evilafo.com/

Loading [MathJax]/extensions/Safe.js

Vous aimerez peut-être aussi

2021-2022 TALN CI Corrige
Pas encore d'évaluation
2021-2022 TALN CI Corrige
5 pages
Rapport Stage Lamme ABRAICH AYOUB
Pas encore d'évaluation
Rapport Stage Lamme ABRAICH AYOUB
97 pages
TP #6 - Clustering
Pas encore d'évaluation
TP #6 - Clustering
8 pages
Cours Bases de Données ENSAM-MEknès AHMADI 2020 2021
Pas encore d'évaluation
Cours Bases de Données ENSAM-MEknès AHMADI 2020 2021
38 pages
Rapport PFE Complete
100% (1)
Rapport PFE Complete
13 pages
Algorithme de Détection Et Suivi
Pas encore d'évaluation
Algorithme de Détection Et Suivi
47 pages
Introduction aux KNN en Machine Learning
Pas encore d'évaluation
Introduction aux KNN en Machine Learning
8 pages
Données Et Dataviz - Lecture2-3LSI-ADBD
Pas encore d'évaluation
Données Et Dataviz - Lecture2-3LSI-ADBD
3 pages
Chapitre1 DM Rebbah
Pas encore d'évaluation
Chapitre1 DM Rebbah
19 pages
Machine Learning Preparation Des Donnéees
Pas encore d'évaluation
Machine Learning Preparation Des Donnéees
29 pages
Structure et Applications des Scripts
Pas encore d'évaluation
Structure et Applications des Scripts
20 pages
Introduction à la reconnaissance de formes
Pas encore d'évaluation
Introduction à la reconnaissance de formes
5 pages
Analyse Et Prédiction Des Crises Cardiaques
Pas encore d'évaluation
Analyse Et Prédiction Des Crises Cardiaques
30 pages
ACP : Guide d'Analyse Multivariée et Visualisation
Pas encore d'évaluation
ACP : Guide d'Analyse Multivariée et Visualisation
18 pages
Chapitre 3 Partie 2
Pas encore d'évaluation
Chapitre 3 Partie 2
94 pages
Analyse de Sentiments Sur Des Avis Clients
Pas encore d'évaluation
Analyse de Sentiments Sur Des Avis Clients
42 pages
Le Processus de Science Des Donnees
Pas encore d'évaluation
Le Processus de Science Des Donnees
16 pages
Modélisation Multidimensionnelle: Concepts et Modèles
Pas encore d'évaluation
Modélisation Multidimensionnelle: Concepts et Modèles
16 pages
IA Appliquée pour Ingénieurs GE
Pas encore d'évaluation
IA Appliquée pour Ingénieurs GE
42 pages
Corrigé Test TP 2019-2020
Pas encore d'évaluation
Corrigé Test TP 2019-2020
2 pages
Eda 1741543129
Pas encore d'évaluation
Eda 1741543129
10 pages
Chap4-Ingénierie Des Donnéesnov2023
Pas encore d'évaluation
Chap4-Ingénierie Des Donnéesnov2023
53 pages
Introduction au Data Mining et Machine Learning
Pas encore d'évaluation
Introduction au Data Mining et Machine Learning
42 pages
DÃ©veloppement D'une Solution DÃ©cisionnelle de Suivi de L'activitã© Clientã Le de La Banque de Tunisie - STB
Pas encore d'évaluation
DÃ©veloppement D'une Solution DÃ©cisionnelle de Suivi de L'activitã© Clientã Le de La Banque de Tunisie - STB
88 pages
Correction TD 2
Pas encore d'évaluation
Correction TD 2
4 pages
Logique Descriptive et OWL: Concepts et Syntaxe
Pas encore d'évaluation
Logique Descriptive et OWL: Concepts et Syntaxe
59 pages
Data Mining
Pas encore d'évaluation
Data Mining
55 pages
Syllabus m1 Gadm Azizi Module Datamining2021 2022
Pas encore d'évaluation
Syllabus m1 Gadm Azizi Module Datamining2021 2022
6 pages
Design Patterns en Java Avancé
Pas encore d'évaluation
Design Patterns en Java Avancé
10 pages
Introduction aux réseaux sémantiques
Pas encore d'évaluation
Introduction aux réseaux sémantiques
65 pages
Analyse BTS IG/SIO : Merise et UML
Pas encore d'évaluation
Analyse BTS IG/SIO : Merise et UML
32 pages
TinyOS : Système d'exploitation pour capteurs
Pas encore d'évaluation
TinyOS : Système d'exploitation pour capteurs
7 pages
Output 4
Pas encore d'évaluation
Output 4
3 pages
Presentation KNN
Pas encore d'évaluation
Presentation KNN
11 pages
Segmentation Client avec DBSCAN en Data Mining
Pas encore d'évaluation
Segmentation Client avec DBSCAN en Data Mining
2 pages
Projet NoSQL: MongoDB, Cassandra, Elastic
Pas encore d'évaluation
Projet NoSQL: MongoDB, Cassandra, Elastic
9 pages
Analyse de Données IA avec Python
Pas encore d'évaluation
Analyse de Données IA avec Python
22 pages
TP 2 Data Science
Pas encore d'évaluation
TP 2 Data Science
1 page
TD5 Se
Pas encore d'évaluation
TD5 Se
6 pages
Lab Activity 1 - EDA & Data Preprocessing
Pas encore d'évaluation
Lab Activity 1 - EDA & Data Preprocessing
6 pages
Neo4j: Leader des Bases de Données Graphes
Pas encore d'évaluation
Neo4j: Leader des Bases de Données Graphes
17 pages
Application de Gestion Des Eve - CHRAIBI Khaoula - 3261
Pas encore d'évaluation
Application de Gestion Des Eve - CHRAIBI Khaoula - 3261
50 pages
Introduction Aux Bibliothèques NumPy Et Pandas
Pas encore d'évaluation
Introduction Aux Bibliothèques NumPy Et Pandas
13 pages
CoursWB CRISPDM
100% (1)
CoursWB CRISPDM
13 pages
Méthodes Ensemblistes en Machine Learning
Pas encore d'évaluation
Méthodes Ensemblistes en Machine Learning
30 pages
L Analyse Predectif
Pas encore d'évaluation
L Analyse Predectif
5 pages
Cours BDRENSI
100% (1)
Cours BDRENSI
214 pages
Modélisation des Entrepôts de Données
Pas encore d'évaluation
Modélisation des Entrepôts de Données
13 pages
TP Python : Manipulation de Données en Statistiques Exploratoires
Pas encore d'évaluation
TP Python : Manipulation de Données en Statistiques Exploratoires
3 pages
Introduction au Clustering K-means
Pas encore d'évaluation
Introduction au Clustering K-means
26 pages
Plan de Cours de Programmation Orientée Objet Avec Python
Pas encore d'évaluation
Plan de Cours de Programmation Orientée Objet Avec Python
6 pages
Évaluation des Modèles en Data Mining
Pas encore d'évaluation
Évaluation des Modèles en Data Mining
4 pages
Diagrammes de Classes UML et Exercices Pratiques
Pas encore d'évaluation
Diagrammes de Classes UML et Exercices Pratiques
38 pages
Introduction à la Programmation Logique
Pas encore d'évaluation
Introduction à la Programmation Logique
78 pages
Prédiction de Crédit avec IA
Pas encore d'évaluation
Prédiction de Crédit avec IA
29 pages
TP1 Classification Par Les K Plus Proches Voisins 23 24
Pas encore d'évaluation
TP1 Classification Par Les K Plus Proches Voisins 23 24
4 pages
Analyse Donnees Python Jupyter
Pas encore d'évaluation
Analyse Donnees Python Jupyter
4 pages
Pré-traitement des données d'attaques de requins
Pas encore d'évaluation
Pré-traitement des données d'attaques de requins
29 pages
Série TD N°1 EELEMENTS DE BASE - ALGORITHMIQUE ET STRUICTURE DE DONNEES
Pas encore d'évaluation
Série TD N°1 EELEMENTS DE BASE - ALGORITHMIQUE ET STRUICTURE DE DONNEES
2 pages
Impact des technologies sur la paie
Pas encore d'évaluation
Impact des technologies sur la paie
20 pages
M414
Pas encore d'évaluation
M414
242 pages
Développement d'une Application Web de Gestion de Stock
Pas encore d'évaluation
Développement d'une Application Web de Gestion de Stock
32 pages
Comparatifs D'outils de Veille
Pas encore d'évaluation
Comparatifs D'outils de Veille
2 pages
Les Memoires de L'ordinateur
100% (1)
Les Memoires de L'ordinateur
36 pages
Authentification Ospf PDF
Pas encore d'évaluation
Authentification Ospf PDF
8 pages
Rapport de Stage 1 (RADEEMA)
Pas encore d'évaluation
Rapport de Stage 1 (RADEEMA)
72 pages
2015 08 21 Ch5 Serveur NPS-et-protection Acces Reseau
Pas encore d'évaluation
2015 08 21 Ch5 Serveur NPS-et-protection Acces Reseau
40 pages
Syllabus RHRT30300
Pas encore d'évaluation
Syllabus RHRT30300
36 pages
Introduction aux Méthodes Agiles
Pas encore d'évaluation
Introduction aux Méthodes Agiles
6 pages
Administration D'un Réseau Windows 2000: Table Des Matières
Pas encore d'évaluation
Administration D'un Réseau Windows 2000: Table Des Matières
56 pages
Guide D'utilisation Pour WII U
Pas encore d'évaluation
Guide D'utilisation Pour WII U
10 pages
Logiciels Comparatifs Gestion Des Données Minières
100% (1)
Logiciels Comparatifs Gestion Des Données Minières
1 page
Chap1 Stage GEC - Nana
Pas encore d'évaluation
Chap1 Stage GEC - Nana
4 pages
TD 1
Pas encore d'évaluation
TD 1
5 pages
Chapitre 14
Pas encore d'évaluation
Chapitre 14
56 pages
Le Fonctionnement en Interruption
Pas encore d'évaluation
Le Fonctionnement en Interruption
2 pages
Guide Complet sur l'Administration Réseaux
Pas encore d'évaluation
Guide Complet sur l'Administration Réseaux
40 pages
Cybercriminalité : Défis et Solutions
Pas encore d'évaluation
Cybercriminalité : Défis et Solutions
3 pages
Formation Avancée Virtualisation AIX
Pas encore d'évaluation
Formation Avancée Virtualisation AIX
1 page
Développement d'Applications Web Java
Pas encore d'évaluation
Développement d'Applications Web Java
229 pages
Rapport de Stage Badr 2
Pas encore d'évaluation
Rapport de Stage Badr 2
11 pages
Un Monde de Recc81seaux Secc81ance 3
Pas encore d'évaluation
Un Monde de Recc81seaux Secc81ance 3
3 pages
CV Ingénieur Junior en Cybersécurité
Pas encore d'évaluation
CV Ingénieur Junior en Cybersécurité
1 page
Liste Des Recommandations UIT-T 86097-Fr
Pas encore d'évaluation
Liste Des Recommandations UIT-T 86097-Fr
224 pages
Ifu Basic Operation XN-L Series Xn-350 Xn-450 Xn-550 PT FR
Pas encore d'évaluation
Ifu Basic Operation XN-L Series Xn-350 Xn-450 Xn-550 PT FR
284 pages
Introduction à la POO et C++ 2023
100% (1)
Introduction à la POO et C++ 2023
38 pages
Guide sur STM32CubeF4 pour microcontrôleurs
100% (1)
Guide sur STM32CubeF4 pour microcontrôleurs
3 pages
iPad Pro 11" 2018 Reconditionné - 1000 Go
Pas encore d'évaluation
iPad Pro 11" 2018 Reconditionné - 1000 Go
1 page