TP 2

Le document présente des exercices de préparation de données sur des jeux de données réels concernant le poids à la naissance de bébés et la qualité de l'air. Les tâches incluent l'importation de fichiers, la description des données, l'identification et le traitement des valeurs aberrantes et manquantes, ainsi que l'imputation de données. Des méthodes statistiques et graphiques sont suggérées pour analyser et traiter les données, telles que l'utilisation de boxplots, de KNN, de Random Forest et de MICE.

Transféré par

Sarah Mensi

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

22 vues2 pages

TP 2

Transféré par

Sarah Mensi

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

2024/2025

TP 2 Préparation des données

Application 1 : Jeu de données réel (data_baby)

Les données concernent le poids à la naissance de bébés américains de sexe

masculin. Pour expliquer les variations de cette variable, d'autres ont été
enregistrées, concernant la mère de l’enfant : taille, poids, âge, etc... .

1. Importer le fichier.
2. Décrire le jeu de données : contenu du tableau de données : nom des variables,
dimension.
3. Justifier graphiquement l’existence de données aberrantes dans le fichier, en
utilisant la variable âge. Utiliser maintenant la méthode isolation forest.
4. Identifier les points aberrants (on s’intéresse à la variable âge) et remplacer
la valeur aberrante par NA. r
5. Vérifier si toutes les variables ont bien été filtrées.
6. Tracer le poids de la mère en fonction de son nombre de grossesses
antérieures (indication : utiliser la fonction boxplot)

Application 2 :
1. Construire le data frame suivant sous le nom DB
2. Calculer la moyenne de la variable Manpower pour chaque genre (Gender)
3. Imputer les valeurs trouvées dans les cases convenables de la variable
Manpower en utilisant la méthode « similar case imputation »
Application 3 : Jeu de données réel [Link]

Il s’agit d’un ensemble de données horaires collectées par l’ANPE (Agence

nationale de protection de l’environnement) autour de plusieurs polluants dans la
station de surveillance de la qualité de l’air située à Cité La Gazelle Ariana (2008-
2009)

1. Importer le fichier
2. Décrire le jeu de données : dimension, descriptif des variables et résumé
statistique
3. Justifier l’existence de données manquantes dans le fichier
4. Calculer le taux de données manquantes. Proposer alors un scénario de
gestion.
5. Dans un premier lieu, on essayera d’imputer les données manquantes pour la
variable NO2

4.1 Proposer une méthode de type « Generalized imputation »

5. On s’intéresse maintenant à la variable [Link] l’algorithme KNN
pour faire les imputations nécessaires (indication : utiliser le package VIM)
6. utiliser Random Forest pour l’imputation
7. Utiliser MICE pour l’imputation des NA

Vous aimerez peut-être aussi

TP 2
Pas encore d'évaluation
TP 2
2 pages
TP 1
Pas encore d'évaluation
TP 1
29 pages
TP Final Inf232 2
Pas encore d'évaluation
TP Final Inf232 2
2 pages
Préparation et Transformation de Données pour Analyses Statistiques
100% (1)
Préparation et Transformation de Données pour Analyses Statistiques
2 pages
Préparation et Traitement de Données avec Python
Pas encore d'évaluation
Préparation et Traitement de Données avec Python
3 pages
TP2 - Python
Pas encore d'évaluation
TP2 - Python
4 pages
TP2: Lecture de Différents Jeux de Données: Table Des Matières
Pas encore d'évaluation
TP2: Lecture de Différents Jeux de Données: Table Des Matières
3 pages
Travaux Pratiques N°1 #
Pas encore d'évaluation
Travaux Pratiques N°1 #
2 pages
Fiche1 Correction
Pas encore d'évaluation
Fiche1 Correction
2 pages
Exercices
Pas encore d'évaluation
Exercices
5 pages
Projet - Stats - Info - Partie 1
Pas encore d'évaluation
Projet - Stats - Info - Partie 1
3 pages
TP23
Pas encore d'évaluation
TP23
3 pages
TPinit R
Pas encore d'évaluation
TPinit R
4 pages
Exam ADI s1 23 24 Sujet4
Pas encore d'évaluation
Exam ADI s1 23 24 Sujet4
2 pages
Page 1 of 3
Pas encore d'évaluation
Page 1 of 3
3 pages
TD Et TP Acp
Pas encore d'évaluation
TD Et TP Acp
6 pages
Final P23
Pas encore d'évaluation
Final P23
2 pages
Exam ADI s1 23 24 Sujet3
Pas encore d'évaluation
Exam ADI s1 23 24 Sujet3
2 pages
Nettoyage et Analyse des Données en R
Pas encore d'évaluation
Nettoyage et Analyse des Données en R
9 pages
Exam ADI s1 23 24 Sujet1
Pas encore d'évaluation
Exam ADI s1 23 24 Sujet1
2 pages
TP6 : Manipulation de Données avec tidyr
Pas encore d'évaluation
TP6 : Manipulation de Données avec tidyr
2 pages
TP1 Gmi2 19 20
Pas encore d'évaluation
TP1 Gmi2 19 20
2 pages
Analyse de Données avec R pour UNEPH
Pas encore d'évaluation
Analyse de Données avec R pour UNEPH
3 pages
TP Python : Manipulation de Données en Statistiques Exploratoires
Pas encore d'évaluation
TP Python : Manipulation de Données en Statistiques Exploratoires
3 pages
Projet Final A2024
Pas encore d'évaluation
Projet Final A2024
6 pages
TD 3 Table
Pas encore d'évaluation
TD 3 Table
1 page
Devoir SPSS STATA
Pas encore d'évaluation
Devoir SPSS STATA
3 pages
ExamenSTA203 P1 2018 2019
Pas encore d'évaluation
ExamenSTA203 P1 2018 2019
6 pages
TP2 Inférence-1
Pas encore d'évaluation
TP2 Inférence-1
8 pages
Nettoyage et traitement des données
Pas encore d'évaluation
Nettoyage et traitement des données
25 pages
4 TD2 2023-2024 Préparation Des Données
Pas encore d'évaluation
4 TD2 2023-2024 Préparation Des Données
2 pages
Examen SDED2022
Pas encore d'évaluation
Examen SDED2022
4 pages
Statistiques R pour UNEPH 2020-2021
Pas encore d'évaluation
Statistiques R pour UNEPH 2020-2021
3 pages
INF8111 - Exercices + Solutions
Pas encore d'évaluation
INF8111 - Exercices + Solutions
32 pages
Concours Blanc-Corrigé.
Pas encore d'évaluation
Concours Blanc-Corrigé.
5 pages
Analyse Descriptive R: Formation SG-Service
Pas encore d'évaluation
Analyse Descriptive R: Formation SG-Service
27 pages
Introduction Chap0 Gestion
Pas encore d'évaluation
Introduction Chap0 Gestion
40 pages
TP1 Initiation R
Pas encore d'évaluation
TP1 Initiation R
2 pages
Devoir Analyse Des Données M1-2023
Pas encore d'évaluation
Devoir Analyse Des Données M1-2023
1 page
LAB2
Pas encore d'évaluation
LAB2
1 page
Travaux Pratiques N°2: Exploration Des Données Avec Pandas Visualisation Graphique Avec Mathplotlib Et Seaborn
Pas encore d'évaluation
Travaux Pratiques N°2: Exploration Des Données Avec Pandas Visualisation Graphique Avec Mathplotlib Et Seaborn
2 pages
Apurement des données avec SPSS
Pas encore d'évaluation
Apurement des données avec SPSS
10 pages
Ecole Nationale Des Sciences Appliquées IDSCC 2023/2024 TP2 Outil Informatique Pour La Statistique
Pas encore d'évaluation
Ecole Nationale Des Sciences Appliquées IDSCC 2023/2024 TP2 Outil Informatique Pour La Statistique
1 page
Stat Inf SGMP2
Pas encore d'évaluation
Stat Inf SGMP2
3 pages
Examen
Pas encore d'évaluation
Examen
6 pages
Intro RCMDR
Pas encore d'évaluation
Intro RCMDR
39 pages
Serie N2
Pas encore d'évaluation
Serie N2
2 pages
Ex Intero s2 Algo
Pas encore d'évaluation
Ex Intero s2 Algo
36 pages
Test de Khi-Deux
Pas encore d'évaluation
Test de Khi-Deux
11 pages
Compte Rendu TP6
Pas encore d'évaluation
Compte Rendu TP6
8 pages
Bac Blanc Corrigé
Pas encore d'évaluation
Bac Blanc Corrigé
5 pages
Atelier SPSS : Gestion de Données
Pas encore d'évaluation
Atelier SPSS : Gestion de Données
4 pages
Présentation de L'entreprise
Pas encore d'évaluation
Présentation de L'entreprise
10 pages
Compte Rendu R TP6
Pas encore d'évaluation
Compte Rendu R TP6
6 pages
Output 14
50% (2)
Output 14
5 pages
Présentation de L'entreprise
Pas encore d'évaluation
Présentation de L'entreprise
10 pages
Devoir de Data Mining - Université Carthage
Pas encore d'évaluation
Devoir de Data Mining - Université Carthage
2 pages
Chapitre 3 - Les Data Warehouses
Pas encore d'évaluation
Chapitre 3 - Les Data Warehouses
61 pages
QCM
Pas encore d'évaluation
QCM
7 pages
Projet Spring Boot
Pas encore d'évaluation
Projet Spring Boot
3 pages
Série2 - RappelOracle
Pas encore d'évaluation
Série2 - RappelOracle
5 pages
TD 1 - Apprentissage Supervise
Pas encore d'évaluation
TD 1 - Apprentissage Supervise
5 pages
13 ArbreB
Pas encore d'évaluation
13 ArbreB
36 pages
Examen DS JEE M1 DSSD 1H30
Pas encore d'évaluation
Examen DS JEE M1 DSSD 1H30
8 pages
TD Numpy
100% (2)
TD Numpy
2 pages