0% ont trouvé ce document utile (0 vote)
248 vues3 pages

TP: EDA et Prétraitement des Données

Transféré par

Jamila Hamdi
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
248 vues3 pages

TP: EDA et Prétraitement des Données

Transféré par

Jamila Hamdi
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Matière : Enseignante de TP:

Machine Learning Jamila HAMDI


Niveau : L3DSI1,
L3DSI2
Année universitaire:
2024/2025

TP 1: Analyse exploratoire et Prétraitement des données

L'objectif principal de ce TP est de couvrir les étapes impliquées dans le prétraitement


des données et les différentes étapes de l'analyse exploratoire des données (EDA), qui
est une étape essentielle de toute analyse de recherche. Le prétraitement des données
et l'EDA sont des étapes fondamentales qui suivent la collecte des données.

1. Analyse exploratoire des données (EDA)


Techniquement, le principal objectif de l'EDA est de:

 Examiner la distribution des données

 Gestion des valeurs manquantes de l'ensemble de données (un problème très

courant avec chaque ensemble de données)


 Gestion des valeurs aberrantes

 Suppression des données en double

 Codage des variables catégorielles

 Normalisation et mise à l'échelle

Nous utiliserons un ensemble de données du « World Happiness», qui contient les


colonnes suivantes : Country, Region, Happiness Rank, Happiness Score, Standard
Error, Economy (GDP per Capita), Family, Health (Life Expectancy), Freedom, Trust
(Government Corruption), Generosity zt Dystopia Residual. pour décrire dans
quelle mesure ces facteurs contribuent à évaluer le bonheur.

Il comporte 158 instances décrites par 12 attributs.


 Importez les bibliothèques Pandas, Numpy, Matplotlib et Seaborn.
 Chargez le jeu de données «World [Link] » dans une variable
nommée df1, en utilisant la fonction read_csv() de la bibliothèque
pandas.

Pour explorer le dataset, exécutez les taches suivantes.


 Afficher les cinq premières lignes.

 Essayer d' avoir des informations de votre dataframe telles que le nom de la
colonne, le nombre de valeurs non nulles de nos colonnes, le type de
données et l'utilisation de la mémoire.

 Essayez de visualiser dans la console les noms des attributs.


 Essayez de savoir le nombre des lignes et des colonnes du dataframe df1.
 Afficher les caractéristiques statistiques de base de chaque caractéristique
numérique (types int64 et float64) : nombre de valeurs non manquantes,
moyenne, écart type, plage, médiane, quartiles 0,25, 0,50, 0,75.

2. prétraitement des données


Pour prétraiter le données, exécutez les taches suivantes.

 vérifier si les données contiennent une valeur nulle ou non.


 S'il y a des valeurs manquantes, essayer de le traiter en les remplaçant par
la valeur médiane.
 Vérifier l'existence de valeurs en double dans notre ensemble de données.
 Vérifier si les données contiennent valeurs aberrantes.
 S'il y a des valeurs aberrantes, essayer de le traiter.
 Trouver la corrélation par paires entre les différentes colonnes de
données.

2
3

Vous aimerez peut-être aussi