Fiche TP4

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

57 vues4 pages

Fiche TP4

Transféré par

DO UA

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Université de Bejaia IA et Sécurité des Réseaux

Faculté des Sciences Exactes 2ème année Master RS

Département d’Informatique Année Universitaire : 2023/2024

Fiche TP N°4
Prétraitement de données avec Python

Le but de ce TP est de mettre en œuvre les concepts de base de prétraitement de données à

l’aide de Python. Par conséquent, l'ensemble des techniques de prétraitement de données
étudiées et appliquées avec WEKA, dans la série 2, seront mises en œuvre avec Python.
Pour rappel, le prétraitement fait référence aux transformations appliquées à nos données avant
de les transmettre à un modèle. Le prétraitement de données est une technique utilisée pour
convertir les données brutes en un ensemble de données propres.

1. Jeux de données utilisé : L'objectif de l'ensemble de données est de prédire de manière

diagnostique si un patient est diabétique ou non, sur la base de certaines mesures incluses
dans l'ensemble de données. Ce dernier contient plusieurs variables prédictives médicales
et d'une variable cible. Les variables prédictives comprennent le nombre de grossesses que
la patiente a eues, son IMC, son taux d'insuline, son âge, etc. Le lien vers le dataset est le
suivant : https://www.kaggle.com/datasets/uciml/pima-indians-diabetes-database

2. Étapes de prétraitement des données avec python : le prétraitement des données

s'effectue en suivants les étapes suivantes :
 Importation des bibliothèques nécessaires :

 Importation de l'ensemble de données

Comme vous pouvez le voir dans les informations, le jeu de données comporte 9 attributs et
768 instances.
1. Encodage des données catégorielles

1 Dr. D. ZAMOUCHE
Université de Bejaia IA et Sécurité des Réseaux
Faculté des Sciences Exactes 2ème année Master RS
Département d’Informatique Année Universitaire : 2023/2024

Les variables catégorielles doivent être encodées numériquement avant d'être utilisées dans un
algorithme de Machine Learning. Les techniques les plus répandues sont l'encodage one-hot
(transformation en variables binaires) ou l'encodage ordinal (association d'un nombre à chaque
modalité). Pour inspecter les données catégorielles, on utilise df.select_dtypes() pour que
Pandas identifie automatiquement les colonnes de types catégorie.

On encode les colonnes catégorielles identifiées à l'étape 1 en utilisant OrdinalEncoder () de

scikit-learn, qui assigne un entier à chaque category. On affiche uniquement les 5 premières
lignes des données encodées pour avoir rapidement un aperçu des données encodées, sans tout
afficher.

2. Séparer la classe est les caractéristiques

Il est essentiel de séparer les caractéristiques des données, qui servent de variables d’entrée au
modèle, de la classe à prédire qui est la cible. On nomme généralement, X le jeu de données
contenant les caractéristiques (attributs), et y le vecteur des classes. Cette séparation est
nécessaire pour l’application des algorithmes d'apprentissage supervisé.

3. Normalisation
MinMaxScaler met à l'échelle les données de sorte que chaque caractéristique se situe dans
l'intervalle [0, 1]. Cette méthode fonctionne bien lorsque les caractéristiques ont des échelles
différentes et que l'algorithme utilisé est sensible à l'échelle des caractéristiques, comme les k-
voisins les plus proches ou les réseaux neuronaux.
Rééchelonnez vos données à l'aide de scikit-learn en utilisant l'échelle MinMax.

2 Dr. D. ZAMOUCHE
Université de Bejaia IA et Sécurité des Réseaux
Faculté des Sciences Exactes 2ème année Master RS
Département d’Informatique Année Universitaire : 2023/2024

4. Standardisation
La standardisation est une technique utile pour transformer des attributs avec une distribution
gaussienne et des moyennes et écarts types différents en une distribution gaussienne standard
avec une moyenne de 0 et un écart type de 1.
Nous pouvons standardiser les données en utilisant scikit-learn avec la classe StandardScaler.
Cette méthode fonctionne bien lorsque les caractéristiques ont une distribution normale ou
lorsque l'algorithme utilisé n'est pas sensible à l'échelle des caractéristiques.

5. Valeurs manquantes
Pandas considère que None et NaN (Not a Number) sont essentiellement les éléments indiquant
des valeurs manquantes ou nulles. Il existe plusieurs fonctions utiles pour détecter, supprimer
et remplacer les valeurs manquantes par des valeurs raisonnables comme la moyenne et la
médiane dans Pandas DataFrame : isnull(), notnull(), dropna(), fillna(), replace(), interpolate().

Le code ci-dessous, permet d’identifier les valeurs manquantes dans le dataset :

Selon le résultat, est ce que le dataset contient des valeurs manquantes ?

Dans le code suivant, les valeurs manquantes sont remplacées par la valeur médiane de cette
colonne.

6. Valeurs aberrantes
Les valeurs aberrantes, ou outliers en anglais, sont des points de données qui s'éloignent
anormalement du reste des données. La détection des outliers peut se faire de manière graphique
à l'aide de boxplots, ou algorithmique avec des métriques statistiques comme le z-score, le
IQR, etc. Le code ci-dessous, permet de dessiner un boxplot pour identifier les colonnes du
dataset qui contiennent des valeurs aberrantes

3 Dr. D. ZAMOUCHE
Université de Bejaia IA et Sécurité des Réseaux
Faculté des Sciences Exactes 2ème année Master RS
Département d’Informatique Année Universitaire : 2023/2024

Ou bien, identifier les colonnes une par une, avec le code suivant :

Selon le boxplot, quels sont les attributs qui contiennent des valeurs aberrantes ?
Dans le traitement, on peut supprimer complètement les outliers s’ils résultent certainement
d'erreurs. Sinon, réduire leur impact sur les statistiques en plafonnant les valeurs extrêmes
(capping), ou bien les remplacer par des valeurs raisonnables comme la moyenne et la médiane.
Certains algorithmes de machine learning sont aussi robustes aux outliers.
7. Sélection des attributs
La sélection d'attributs, appelée aussi sélection de caractéristiques, est une étape de
prétraitement des données visant à ne conserver que les attributs les plus pertinents. Elle permet
de réduire la dimensionnalité des données pour atténuer le risque de sur-apprentissage et
améliorer les performances des modèles.
En Python, on peut effectuer cette sélection d'attributs :

8. Diviser les données en données de test et d’entraînement

La division des données en jeux d’entraînement et de test est une étape critique en ML. Elle
consiste à séparer les données disponibles en deux parties : les données d’entraînement pour
entraîner un modèle, et les données de test pour évaluer ses performances. Un split classique
est 80% données d’entraînement, 20% données de test.
Les instructions suivantes permettent d’effectuer cette division.

4 Dr. D. ZAMOUCHE

Vous aimerez peut-être aussi

Fiche TP1
Pas encore d'évaluation
Fiche TP1
4 pages
Fiche TP3
Pas encore d'évaluation
Fiche TP3
5 pages
Polycopié TP: Fouille de Données en R
Pas encore d'évaluation
Polycopié TP: Fouille de Données en R
86 pages
Prédiction de Crédit avec IA
Pas encore d'évaluation
Prédiction de Crédit avec IA
29 pages
Paragraph
Pas encore d'évaluation
Paragraph
135 pages
TP 1 Énoncé Version1
Pas encore d'évaluation
TP 1 Énoncé Version1
3 pages
K-Means : Apprentissage Non Supervisé en IA
Pas encore d'évaluation
K-Means : Apprentissage Non Supervisé en IA
5 pages
Certification en Science des Données avec Python
Pas encore d'évaluation
Certification en Science des Données avec Python
3 pages
TP2 - Python
Pas encore d'évaluation
TP2 - Python
4 pages
Module: Analyse Et Fouille de Données
Pas encore d'évaluation
Module: Analyse Et Fouille de Données
3 pages
Programme 2ème Année Systèmes Intelligents
Pas encore d'évaluation
Programme 2ème Année Systèmes Intelligents
61 pages
Formation Python : Analyse de Données
Pas encore d'évaluation
Formation Python : Analyse de Données
4 pages
Profil Data Scientist : Compétences et Expériences
Pas encore d'évaluation
Profil Data Scientist : Compétences et Expériences
1 page
Recettes Python pour la Science des Données
Pas encore d'évaluation
Recettes Python pour la Science des Données
4 pages
Science des Données avec Python
Pas encore d'évaluation
Science des Données avec Python
39 pages
Syllabus m1 Gadm Azizi Module Datamining2021 2022
Pas encore d'évaluation
Syllabus m1 Gadm Azizi Module Datamining2021 2022
6 pages
Simulation Numeric 2
Pas encore d'évaluation
Simulation Numeric 2
77 pages
Pretratiement
Pas encore d'évaluation
Pretratiement
4 pages
Projet Data Science Avec Méthode CRISP
Pas encore d'évaluation
Projet Data Science Avec Méthode CRISP
23 pages
Python Avancé pour Pros de la Data
Pas encore d'évaluation
Python Avancé pour Pros de la Data
2 pages
Pre Traitement Donnees 24 Handout
Pas encore d'évaluation
Pre Traitement Donnees 24 Handout
103 pages
2024 T Informatique
Pas encore d'évaluation
2024 T Informatique
61 pages
Intro Au Machine Learning
Pas encore d'évaluation
Intro Au Machine Learning
12 pages
50 Heures de Formation Entre Python Et Intelligence Artificielle
0% (1)
50 Heures de Formation Entre Python Et Intelligence Artificielle
4 pages
TD/TP Machine Learning en Python
Pas encore d'évaluation
TD/TP Machine Learning en Python
1 page
Introduction au traitement d'images en Python
Pas encore d'évaluation
Introduction au traitement d'images en Python
11 pages
Analyse Des Données Avec Python
100% (1)
Analyse Des Données Avec Python
31 pages
Prétraitement des Données Avancé
100% (2)
Prétraitement des Données Avancé
153 pages
StatDonnees Fiches 1516
Pas encore d'évaluation
StatDonnees Fiches 1516
12 pages
TP1 Classification Par Les K Plus Proches Voisins 23 24
Pas encore d'évaluation
TP1 Classification Par Les K Plus Proches Voisins 23 24
4 pages
Examen NIDS
Pas encore d'évaluation
Examen NIDS
4 pages
Préparation et Traitement de Données avec Python
Pas encore d'évaluation
Préparation et Traitement de Données avec Python
3 pages
Analyse SVM et régression linéaire
Pas encore d'évaluation
Analyse SVM et régression linéaire
2 pages
Analyse Prédictive avec Python et Pandas
Pas encore d'évaluation
Analyse Prédictive avec Python et Pandas
5 pages
Informatique Avec Python: Mpsi Pcsi Ptsi MP PC PSI PT TSI TPC Exercices Incontournables
Pas encore d'évaluation
Informatique Avec Python: Mpsi Pcsi Ptsi MP PC PSI PT TSI TPC Exercices Incontournables
30 pages
Cours 2emepartie 2emeannee Partie Inteligence Artificielle
Pas encore d'évaluation
Cours 2emepartie 2emeannee Partie Inteligence Artificielle
6 pages
Python: Data Science
Pas encore d'évaluation
Python: Data Science
18 pages
Analyse de Données Avec Python - Optimiser La Préparation Des Données Avec Pandas, Numpy, Jupyter Et IPython-collection... (Wes Mckinney) (Z-Library)
Pas encore d'évaluation
Analyse de Données Avec Python - Optimiser La Préparation Des Données Avec Pandas, Numpy, Jupyter Et IPython-collection... (Wes Mckinney) (Z-Library)
1 099 pages
Test Blan1 Gestion Securite
Pas encore d'évaluation
Test Blan1 Gestion Securite
4 pages
Série N 02ra
Pas encore d'évaluation
Série N 02ra
3 pages
Préparer des Données avec Python
Pas encore d'évaluation
Préparer des Données avec Python
44 pages
Compte Rendu Tp1
100% (1)
Compte Rendu Tp1
3 pages
Logiciel R
Pas encore d'évaluation
Logiciel R
2 pages
TP Machine Learning: NumPy, Pandas, Matplotlib
Pas encore d'évaluation
TP Machine Learning: NumPy, Pandas, Matplotlib
10 pages
TP Python
Pas encore d'évaluation
TP Python
2 pages
Livre 2 Eme 2021 MP PC PT
Pas encore d'évaluation
Livre 2 Eme 2021 MP PC PT
6 pages
TP 5 Py Av
Pas encore d'évaluation
TP 5 Py Av
9 pages
Guide D'autoformation - R
Pas encore d'évaluation
Guide D'autoformation - R
20 pages
Cours Prog Sci
Pas encore d'évaluation
Cours Prog Sci
14 pages
CCR2024MPEN
Pas encore d'évaluation
CCR2024MPEN
27 pages
Projet IA MameCheikhSylla - IbraKoundoul
Pas encore d'évaluation
Projet IA MameCheikhSylla - IbraKoundoul
19 pages
Resumé LPE BI
Pas encore d'évaluation
Resumé LPE BI
6 pages
Depliant IID 1
Pas encore d'évaluation
Depliant IID 1
2 pages
IA : Bibliothèques et Stratégies de Données
Pas encore d'évaluation
IA : Bibliothèques et Stratégies de Données
3 pages
Pré-traitement des données d'attaques de requins
Pas encore d'évaluation
Pré-traitement des données d'attaques de requins
29 pages
Plandecours
Pas encore d'évaluation
Plandecours
2 pages
MP Informatique 2éme Année
Pas encore d'évaluation
MP Informatique 2éme Année
4 pages
Exercices Data Science Complet
Pas encore d'évaluation
Exercices Data Science Complet
2 pages
corrigéEMDResyd 21
Pas encore d'évaluation
corrigéEMDResyd 21
4 pages
Fiche TP2
Pas encore d'évaluation
Fiche TP2
6 pages
TD2-Elts Modélisation - 2021
Pas encore d'évaluation
TD2-Elts Modélisation - 2021
1 page
Chapitre 2
Pas encore d'évaluation
Chapitre 2
11 pages
Corrige Emd M2
Pas encore d'évaluation
Corrige Emd M2
3 pages
corrigéEMDComplet 2022
Pas encore d'évaluation
corrigéEMDComplet 2022
5 pages
Fiche de TD N02 ORO Avec Solution 2
0% (1)
Fiche de TD N02 ORO Avec Solution 2
6 pages
Chapitre 3 Politiques Et Modèles de Sécurité
Pas encore d'évaluation
Chapitre 3 Politiques Et Modèles de Sécurité
43 pages
Réseaux Mobiles: TDMA et GSM
Pas encore d'évaluation
Réseaux Mobiles: TDMA et GSM
4 pages
Chap3 MonCoursRdPTemporisés
Pas encore d'évaluation
Chap3 MonCoursRdPTemporisés
28 pages
TPSD Algo Suppl
Pas encore d'évaluation
TPSD Algo Suppl
2 pages
Sécurité Web : Vulnérabilités et Contre-mesures
Pas encore d'évaluation
Sécurité Web : Vulnérabilités et Contre-mesures
36 pages
BoucefarSlimane BoucefarWalid
Pas encore d'évaluation
BoucefarSlimane BoucefarWalid
89 pages
2024 TD1 CorrigéRSTD
100% (1)
2024 TD1 CorrigéRSTD
8 pages
Chapitre 5 - Appllications Sécurisées
Pas encore d'évaluation
Chapitre 5 - Appllications Sécurisées
19 pages
Norme IEEE 802.15.4 et Bluetooth
Pas encore d'évaluation
Norme IEEE 802.15.4 et Bluetooth
64 pages
ChapIII WiFi
Pas encore d'évaluation
ChapIII WiFi
75 pages
TP RX Routage Recapstatique
Pas encore d'évaluation
TP RX Routage Recapstatique
5 pages
Mini Projet PA
Pas encore d'évaluation
Mini Projet PA
2 pages
Corrigé Série 1
Pas encore d'évaluation
Corrigé Série 1
15 pages
Corrigésérie 01 Fin
Pas encore d'évaluation
Corrigésérie 01 Fin
2 pages
Examen1 (2004)
Pas encore d'évaluation
Examen1 (2004)
4 pages
Sécuriser l'IoT contre les Botnets
Pas encore d'évaluation
Sécuriser l'IoT contre les Botnets
2 pages
Stéganographie et Cryptographie
Pas encore d'évaluation
Stéganographie et Cryptographie
3 pages
Cours Programmation Avancée Chapitre 2.complexite
Pas encore d'évaluation
Cours Programmation Avancée Chapitre 2.complexite
19 pages
Chapitre 1-IntroIA
Pas encore d'évaluation
Chapitre 1-IntroIA
9 pages
Travaux Dirigés Formalismes Mathématiques Des Systèmes
Pas encore d'évaluation
Travaux Dirigés Formalismes Mathématiques Des Systèmes
6 pages
Contrôle de Parité Verticale (Vertical Redundancy Check VRC)
Pas encore d'évaluation
Contrôle de Parité Verticale (Vertical Redundancy Check VRC)
51 pages
Traci Chap2 Part1
Pas encore d'évaluation
Traci Chap2 Part1
15 pages
DTU 36.5 Menuiseries Extérieures
100% (11)
DTU 36.5 Menuiseries Extérieures
89 pages
Serie N°1 Avec Correction Nombre Complexe Lycee Pilote Sfax Bac Scientifiques 2020
100% (2)
Serie N°1 Avec Correction Nombre Complexe Lycee Pilote Sfax Bac Scientifiques 2020
4 pages
Introduction à la géologie générale
100% (4)
Introduction à la géologie générale
41 pages
Lexique Et Analyse Sentimental
Pas encore d'évaluation
Lexique Et Analyse Sentimental
20 pages
Avantages et Limites des Algorithmes de Classification
Pas encore d'évaluation
Avantages et Limites des Algorithmes de Classification
2 pages
Introduction à l'Océanographie Physique
Pas encore d'évaluation
Introduction à l'Océanographie Physique
27 pages
Chapitre 1 Économétrie Financière M1 MBF FASEG
Pas encore d'évaluation
Chapitre 1 Économétrie Financière M1 MBF FASEG
52 pages
Fluctuations Économiques au Sénégal
Pas encore d'évaluation
Fluctuations Économiques au Sénégal
4 pages
Wa0046.
Pas encore d'évaluation
Wa0046.
14 pages
Langage chez l'enfant autiste
Pas encore d'évaluation
Langage chez l'enfant autiste
15 pages
20 Systemes Roulette Extrait
100% (1)
20 Systemes Roulette Extrait
7 pages
Titrage Acido-Basique pour MPSI
Pas encore d'évaluation
Titrage Acido-Basique pour MPSI
10 pages
Applications de La Magnétoélectricité11
Pas encore d'évaluation
Applications de La Magnétoélectricité11
2 pages
Évaluation de l'activité aphrodisiaque de DIAZOSTIMUL
Pas encore d'évaluation
Évaluation de l'activité aphrodisiaque de DIAZOSTIMUL
22 pages
Protection de La Clientele Bancaire
Pas encore d'évaluation
Protection de La Clientele Bancaire
9 pages
"SOS : L'Ascension d'un Géant Social"
Pas encore d'évaluation
"SOS : L'Ascension d'un Géant Social"
10 pages
Analyse du Bilan Financier
Pas encore d'évaluation
Analyse du Bilan Financier
2 pages
Théorie de la DFT en Chimie Quantique
Pas encore d'évaluation
Théorie de la DFT en Chimie Quantique
8 pages
Figures de Style: Substitution et Opposition
Pas encore d'évaluation
Figures de Style: Substitution et Opposition
17 pages
Calcul de Fonctions de Transfert de Circuits Électriques.: Exercice 1
Pas encore d'évaluation
Calcul de Fonctions de Transfert de Circuits Électriques.: Exercice 1
8 pages
COURS 1 Étude de Terrain
Pas encore d'évaluation
COURS 1 Étude de Terrain
6 pages
Fiche PART AGENT TRAFIC
Pas encore d'évaluation
Fiche PART AGENT TRAFIC
1 page
CyberRisques 01-MD PDF
100% (1)
CyberRisques 01-MD PDF
28 pages
Médecins Au 06 Août 2021
Pas encore d'évaluation
Médecins Au 06 Août 2021
7 pages
Couloir Prothétique : Impact Esthétique
Pas encore d'évaluation
Couloir Prothétique : Impact Esthétique
76 pages
Analyse des réactifs de flottation minière
Pas encore d'évaluation
Analyse des réactifs de flottation minière
51 pages
Kasbara
Pas encore d'évaluation
Kasbara
2 pages
Principes de l'optique géométrique
Pas encore d'évaluation
Principes de l'optique géométrique
6 pages
Opportunités et stratégies de Whiskas
Pas encore d'évaluation
Opportunités et stratégies de Whiskas
3 pages
Réaliser une Émission Radio Éducative
Pas encore d'évaluation
Réaliser une Émission Radio Éducative
4 pages