Matière : Enseignante de TP:
Machine Learning Jamila HAMDI
Niveau : L3DSI1,
L3DSI2
Année universitaire:
2024/2025
TP 1: Analyse exploratoire et Prétraitement des données
L'objectif principal de ce TP est de couvrir les étapes impliquées dans le prétraitement
des données et les différentes étapes de l'analyse exploratoire des données (EDA), qui
est une étape essentielle de toute analyse de recherche. Le prétraitement des données
et l'EDA sont des étapes fondamentales qui suivent la collecte des données.
1. Analyse exploratoire des données (EDA)
Techniquement, le principal objectif de l'EDA est de:
Examiner la distribution des données
Gestion des valeurs manquantes de l'ensemble de données (un problème très
courant avec chaque ensemble de données)
Gestion des valeurs aberrantes
Suppression des données en double
Codage des variables catégorielles
Normalisation et mise à l'échelle
Nous utiliserons un ensemble de données du « World Happiness», qui contient les
colonnes suivantes : Country, Region, Happiness Rank, Happiness Score, Standard
Error, Economy (GDP per Capita), Family, Health (Life Expectancy), Freedom, Trust
(Government Corruption), Generosity zt Dystopia Residual. pour décrire dans
quelle mesure ces facteurs contribuent à évaluer le bonheur.
Il comporte 158 instances décrites par 12 attributs.
Importez les bibliothèques Pandas, Numpy, Matplotlib et Seaborn.
Chargez le jeu de données «World [Link] » dans une variable
nommée df1, en utilisant la fonction read_csv() de la bibliothèque
pandas.
Pour explorer le dataset, exécutez les taches suivantes.
Afficher les cinq premières lignes.
Essayer d' avoir des informations de votre dataframe telles que le nom de la
colonne, le nombre de valeurs non nulles de nos colonnes, le type de
données et l'utilisation de la mémoire.
Essayez de visualiser dans la console les noms des attributs.
Essayez de savoir le nombre des lignes et des colonnes du dataframe df1.
Afficher les caractéristiques statistiques de base de chaque caractéristique
numérique (types int64 et float64) : nombre de valeurs non manquantes,
moyenne, écart type, plage, médiane, quartiles 0,25, 0,50, 0,75.
2. prétraitement des données
Pour prétraiter le données, exécutez les taches suivantes.
vérifier si les données contiennent une valeur nulle ou non.
S'il y a des valeurs manquantes, essayer de le traiter en les remplaçant par
la valeur médiane.
Vérifier l'existence de valeurs en double dans notre ensemble de données.
Vérifier si les données contiennent valeurs aberrantes.
S'il y a des valeurs aberrantes, essayer de le traiter.
Trouver la corrélation par paires entre les différentes colonnes de
données.
2
3