TP6 : Manipulation des données avec tidyr
Objectifs :
Utiliser les fonctions de la bibliothèque tidyr.
Changer la structure des données en utilisant les fonctions :
o pivot_longer()
o pivot_wider()
o separate()
o unite()
Ces fonctions facilitent l'analyse statistique, la création de graphiques et la préparation des données.
Manipulation avec la bibliothèque « tidyr » :
Soit le jeu de données « murders » :
Institut Supérieur d'Informatique de Mahdia 2024/2025
Institut Supérieur d'Informatique de Mahdia 2024/2025
Charger le jeu de donnés et determiner les dimensions :
1. Nous allons transformer les données d’un format long à format large en utilisant la fonction
« pivot_wider » pour avoir les types d'armes comme variables (colonnes).
o names_from : prends le nom de la variable à pivoter.
o values_from : prends les valeurs à utiliser pour remplir les nouvelles variables.
Institut Supérieur d'Informatique de Mahdia T-LCS 2024/2025
2
Travaux Pratiques
Institut Supérieur d'Informatique de Mahdia 2024/2025
Fusion de deux colonnes en utilisant la fonction « unite » :
2. Séparation de deux variables (colonnes) en utilisant la fonction « separate » :
3. Remplissage des valeurs manquantes en utilisant la fonction « fill » :
3
Travaux Pratiques
Institut Supérieur d'Informatique de Mahdia 2024/2025
4. Vérifier s’il existe encore des valeurs manquantes
5. Transformation du jeu de données d’un format large vers un format long, en utilisant la fonction
« pivot_longer » :
df_long <- murders_separate %>% pivot_longer(cols = c(Gun, Knife), names_to = "Weapon", values_to
"Count" ) .
4
Travaux Pratiques
Institut Supérieur d'Informatique de Mahdia 2024/2025
EXERCICE:
Soit le jeu de données « maladies » :
1. Créez un nouveau jeu de données ne contenant que les colonnes Maladie, Symptom_Principal,
Contagieuse et Total_Cas .
5
Travaux Pratiques
Institut Supérieur d'Informatique de Mahdia 2024/2025
2. Extraire uniquement les lignes où la maladie est contagieuse et la gravité est "Élevée".
3. Trier les maladies par Total_Cas dans l'ordre décroissant.
4. Combinez les colonnes Symptom_Principal et Gravité en une seule colonne nommée
Symptome_Gravité.
6
Travaux Pratiques
Institut Supérieur d'Informatique de Mahdia 2024/2025
5. Transformez les colonnes Symptom_Principal et Gravité en un format long avec deux colonnes : Variable
et Valeur.
6. Séparer la colonne Symptome_Gravité.
7 .Transformer la colonne Gravité en format large en utilisant les valeurs de la colonne Total_Cas.
7
Travaux Pratiques
Institut Supérieur d'Informatique de Mahdia 2024/2025
8
Travaux Pratiques