0% ont trouvé ce document utile (0 vote)
22 vues2 pages

TP 2

Le document présente des exercices de préparation de données sur des jeux de données réels concernant le poids à la naissance de bébés et la qualité de l'air. Les tâches incluent l'importation de fichiers, la description des données, l'identification et le traitement des valeurs aberrantes et manquantes, ainsi que l'imputation de données. Des méthodes statistiques et graphiques sont suggérées pour analyser et traiter les données, telles que l'utilisation de boxplots, de KNN, de Random Forest et de MICE.

Transféré par

Sarah Mensi
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
22 vues2 pages

TP 2

Le document présente des exercices de préparation de données sur des jeux de données réels concernant le poids à la naissance de bébés et la qualité de l'air. Les tâches incluent l'importation de fichiers, la description des données, l'identification et le traitement des valeurs aberrantes et manquantes, ainsi que l'imputation de données. Des méthodes statistiques et graphiques sont suggérées pour analyser et traiter les données, telles que l'utilisation de boxplots, de KNN, de Random Forest et de MICE.

Transféré par

Sarah Mensi
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

2024/2025

TP 2 Préparation des données

Application 1 : Jeu de données réel (data_baby)

Les données concernent le poids à la naissance de bébés américains de sexe


masculin. Pour expliquer les variations de cette variable, d'autres ont été
enregistrées, concernant la mère de l’enfant : taille, poids, âge, etc... .

1. Importer le fichier.
2. Décrire le jeu de données : contenu du tableau de données : nom des variables,
dimension.
3. Justifier graphiquement l’existence de données aberrantes dans le fichier, en
utilisant la variable âge. Utiliser maintenant la méthode isolation forest.
4. Identifier les points aberrants (on s’intéresse à la variable âge) et remplacer
la valeur aberrante par NA. r
5. Vérifier si toutes les variables ont bien été filtrées.
6. Tracer le poids de la mère en fonction de son nombre de grossesses
antérieures (indication : utiliser la fonction boxplot)

Application 2 :
1. Construire le data frame suivant sous le nom DB
2. Calculer la moyenne de la variable Manpower pour chaque genre (Gender)
3. Imputer les valeurs trouvées dans les cases convenables de la variable
Manpower en utilisant la méthode « similar case imputation »
Application 3 : Jeu de données réel [Link]

Il s’agit d’un ensemble de données horaires collectées par l’ANPE (Agence


nationale de protection de l’environnement) autour de plusieurs polluants dans la
station de surveillance de la qualité de l’air située à Cité La Gazelle Ariana (2008-
2009)

1. Importer le fichier
2. Décrire le jeu de données : dimension, descriptif des variables et résumé
statistique
3. Justifier l’existence de données manquantes dans le fichier
4. Calculer le taux de données manquantes. Proposer alors un scénario de
gestion.
5. Dans un premier lieu, on essayera d’imputer les données manquantes pour la
variable NO2

4.1 Proposer une méthode de type « Generalized imputation »


5. On s’intéresse maintenant à la variable [Link] l’algorithme KNN
pour faire les imputations nécessaires (indication : utiliser le package VIM)
6. utiliser Random Forest pour l’imputation
7. Utiliser MICE pour l’imputation des NA

Vous aimerez peut-être aussi