TP 2

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

58 vues2 pages

TP 2

Transféré par

Ranim kacem

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

2024/2025

TP 2 Préparation des données

Application 1 : Jeu de données réel (data_baby)

Les données concernent le poids à la naissance de bébés américains de sexe

masculin. Pour expliquer les variations de cette variable, d'autres ont été
enregistrées, concernant la mère de l’enfant : taille, poids, âge, etc... .

1. Importer le fichier.
2. Décrire le jeu de données : contenu du tableau de données : nom des variables,
dimension.
3. Justifier graphiquement l’existence de données aberrantes dans le fichier, en
utilisant la variable âge. Utiliser maintenant la méthode isolation forest.
4. Identifier les points aberrants (on s’intéresse à la variable âge) et remplacer
la valeur aberrante par NA. r
5. Vérifier si toutes les variables ont bien été filtrées.
6. Tracer le poids de la mère en fonction de son nombre de grossesses
antérieures (indication : utiliser la fonction boxplot)

Application 2 :
1. Construire le data frame suivant sous le nom DB
2. Calculer la moyenne de la variable Manpower pour chaque genre (Gender)
3. Imputer les valeurs trouvées dans les cases convenables de la variable
Manpower en utilisant la méthode « similar case imputation »
Application 3 : Jeu de données réel [Link]

Il s’agit d’un ensemble de données horaires collectées par l’ANPE (Agence

nationale de protection de l’environnement) autour de plusieurs polluants dans la
station de surveillance de la qualité de l’air située à Cité La Gazelle Ariana (2008-
2009)

1. Importer le fichier
2. Décrire le jeu de données : dimension, descriptif des variables et résumé
statistique
3. Justifier l’existence de données manquantes dans le fichier
4. Calculer le taux de données manquantes. Proposer alors un scénario de
gestion.
5. Dans un premier lieu, on essayera d’imputer les données manquantes pour la
variable NO2

4.1 Proposer une méthode de type « Generalized imputation »

5. On s’intéresse maintenant à la variable [Link] l’algorithme KNN
pour faire les imputations nécessaires (indication : utiliser le package VIM)
6. utiliser Random Forest pour l’imputation
7. Utiliser MICE pour l’imputation des NA

Vous aimerez peut-être aussi

TP 2
Pas encore d'évaluation
TP 2
2 pages
TP 1
Pas encore d'évaluation
TP 1
29 pages
Préparation et Traitement de Données avec Python
Pas encore d'évaluation
Préparation et Traitement de Données avec Python
3 pages
TP2 - Python
Pas encore d'évaluation
TP2 - Python
4 pages
Préparation et Transformation de Données pour Analyses Statistiques
100% (1)
Préparation et Transformation de Données pour Analyses Statistiques
2 pages
TP2: Lecture de Différents Jeux de Données: Table Des Matières
Pas encore d'évaluation
TP2: Lecture de Différents Jeux de Données: Table Des Matières
3 pages
TP Final Inf232 2
Pas encore d'évaluation
TP Final Inf232 2
2 pages
Exercices
Pas encore d'évaluation
Exercices
5 pages
Travaux Pratiques N°1 #
Pas encore d'évaluation
Travaux Pratiques N°1 #
2 pages
Fiche1 Correction
Pas encore d'évaluation
Fiche1 Correction
2 pages
Nettoyage et Analyse des Données en R
Pas encore d'évaluation
Nettoyage et Analyse des Données en R
9 pages
TP6 : Manipulation de Données avec tidyr
Pas encore d'évaluation
TP6 : Manipulation de Données avec tidyr
2 pages
TPinit R
Pas encore d'évaluation
TPinit R
4 pages
Page 1 of 3
Pas encore d'évaluation
Page 1 of 3
3 pages
TP23
Pas encore d'évaluation
TP23
3 pages
TP Python : Manipulation de Données en Statistiques Exploratoires
Pas encore d'évaluation
TP Python : Manipulation de Données en Statistiques Exploratoires
3 pages
Travaux Pratiques N°2: Exploration Des Données Avec Pandas Visualisation Graphique Avec Mathplotlib Et Seaborn
Pas encore d'évaluation
Travaux Pratiques N°2: Exploration Des Données Avec Pandas Visualisation Graphique Avec Mathplotlib Et Seaborn
2 pages
Exam ADI s1 23 24 Sujet4
Pas encore d'évaluation
Exam ADI s1 23 24 Sujet4
2 pages
Projet - Stats - Info - Partie 1
Pas encore d'évaluation
Projet - Stats - Info - Partie 1
3 pages
Final P23
Pas encore d'évaluation
Final P23
2 pages
TP1 Gmi2 19 20
Pas encore d'évaluation
TP1 Gmi2 19 20
2 pages
Nettoyage et traitement des données
Pas encore d'évaluation
Nettoyage et traitement des données
25 pages
TD Et TP Acp
Pas encore d'évaluation
TD Et TP Acp
6 pages
Devoir SPSS STATA
Pas encore d'évaluation
Devoir SPSS STATA
3 pages
Exam ADI s1 23 24 Sujet1
Pas encore d'évaluation
Exam ADI s1 23 24 Sujet1
2 pages
TP2 Inférence-1
Pas encore d'évaluation
TP2 Inférence-1
8 pages
Exam ADI s1 23 24 Sujet3
Pas encore d'évaluation
Exam ADI s1 23 24 Sujet3
2 pages
Examen SDED2022
Pas encore d'évaluation
Examen SDED2022
4 pages
Analyse de Données avec R pour UNEPH
Pas encore d'évaluation
Analyse de Données avec R pour UNEPH
3 pages
4 TD2 2023-2024 Préparation Des Données
Pas encore d'évaluation
4 TD2 2023-2024 Préparation Des Données
2 pages
Devoir de Data Mining - Université Carthage
Pas encore d'évaluation
Devoir de Data Mining - Université Carthage
2 pages
Concours Blanc-Corrigé.
Pas encore d'évaluation
Concours Blanc-Corrigé.
5 pages
TP1 Initiation R
Pas encore d'évaluation
TP1 Initiation R
2 pages
INF8111 - Exercices + Solutions
Pas encore d'évaluation
INF8111 - Exercices + Solutions
32 pages
Bac Blanc Corrigé
Pas encore d'évaluation
Bac Blanc Corrigé
5 pages
Serie N2
Pas encore d'évaluation
Serie N2
2 pages
LAB2
Pas encore d'évaluation
LAB2
1 page
Projet Final A2024
Pas encore d'évaluation
Projet Final A2024
6 pages
TD4 - MLPreparation Des Données
Pas encore d'évaluation
TD4 - MLPreparation Des Données
5 pages
Compte Rendu TP6
Pas encore d'évaluation
Compte Rendu TP6
8 pages
Exercices - CC
Pas encore d'évaluation
Exercices - CC
5 pages
ExamenSTA203 P1 2018 2019
Pas encore d'évaluation
ExamenSTA203 P1 2018 2019
6 pages
Prétraitement des données sur R
Pas encore d'évaluation
Prétraitement des données sur R
12 pages
Statistiques R pour UNEPH 2020-2021
Pas encore d'évaluation
Statistiques R pour UNEPH 2020-2021
3 pages
Output 14
50% (2)
Output 14
5 pages
StatDonnees Fiches 1516
Pas encore d'évaluation
StatDonnees Fiches 1516
12 pages
Stat Inf SGMP2
Pas encore d'évaluation
Stat Inf SGMP2
3 pages
Apurement des données avec SPSS
Pas encore d'évaluation
Apurement des données avec SPSS
10 pages
Compte Rendu R TP6
Pas encore d'évaluation
Compte Rendu R TP6
6 pages
Devoir Analyse Des Données M1-2023
Pas encore d'évaluation
Devoir Analyse Des Données M1-2023
1 page
Nettoyer Un Jeu de Données - OpenClassrooms
Pas encore d'évaluation
Nettoyer Un Jeu de Données - OpenClassrooms
8 pages
Introduction Chap0 Gestion
Pas encore d'évaluation
Introduction Chap0 Gestion
40 pages
Examen Exhaustif Informatique 2021
Pas encore d'évaluation
Examen Exhaustif Informatique 2021
3 pages
TD 3 Table
Pas encore d'évaluation
TD 3 Table
1 page
Bac-Blancecogestion 2022nouveau
Pas encore d'évaluation
Bac-Blancecogestion 2022nouveau
4 pages
Introduction à l'analyse de données
Pas encore d'évaluation
Introduction à l'analyse de données
32 pages
Ds 32025 V Finale Corr
Pas encore d'évaluation
Ds 32025 V Finale Corr
5 pages
Cours Programmation Linéaire 1-2023
Pas encore d'évaluation
Cours Programmation Linéaire 1-2023
15 pages
Library
Pas encore d'évaluation
Library
8 pages
PFA Chema Vérifications Signature
Pas encore d'évaluation
PFA Chema Vérifications Signature
33 pages
Correction Examen SpringBoot
Pas encore d'évaluation
Correction Examen SpringBoot
5 pages
PFA Chema Vérifications Signature
Pas encore d'évaluation
PFA Chema Vérifications Signature
33 pages
Atelier 4 Init Neo4j
Pas encore d'évaluation
Atelier 4 Init Neo4j
2 pages
Cours Programmation Linéaire 3-2023
Pas encore d'évaluation
Cours Programmation Linéaire 3-2023
36 pages
Atelier 1 Séries Temporelles: Scan Function
Pas encore d'évaluation
Atelier 1 Séries Temporelles: Scan Function
8 pages
TD SCRUM
Pas encore d'évaluation
TD SCRUM
4 pages
Solutionnaire TD1
Pas encore d'évaluation
Solutionnaire TD1
2 pages
Examen Approches Agiles 2023 2024
Pas encore d'évaluation
Examen Approches Agiles 2023 2024
5 pages
tp1 Remarquesv2
Pas encore d'évaluation
tp1 Remarquesv2
13 pages
Examen - DSEN - BDA 2 - TEK-UP2020 - 2021
Pas encore d'évaluation
Examen - DSEN - BDA 2 - TEK-UP2020 - 2021
2 pages
TD2 Corr
Pas encore d'évaluation
TD2 Corr
5 pages
DS - PL - DSEN Tek Up - 2024
Pas encore d'évaluation
DS - PL - DSEN Tek Up - 2024
2 pages
Projet Machine Learning Pfa
Pas encore d'évaluation
Projet Machine Learning Pfa
24 pages
Chapitre 3 Agile
Pas encore d'évaluation
Chapitre 3 Agile
54 pages
Série Temporelle
Pas encore d'évaluation
Série Temporelle
5 pages
Les Series Chronologiques Ou Temporelles
Pas encore d'évaluation
Les Series Chronologiques Ou Temporelles
27 pages
SignDetect Rapport
Pas encore d'évaluation
SignDetect Rapport
1 page
Série Temporelle
Pas encore d'évaluation
Série Temporelle
5 pages
TP3: Lissage Exponentiel: Observation Et Pré-Traitement Des Données
Pas encore d'évaluation
TP3: Lissage Exponentiel: Observation Et Pré-Traitement Des Données
4 pages