0% ont trouvé ce document utile (0 vote)

53 vues7 pages

Module 02

module2

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

53 vues7 pages

Module 02

module2

Transféré par

skrsaidou

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Module 2 : Manipulation des Données

Salfo Bikienga

2024-11-26

Durée totale : 4 heures

Introduction
La manipulation des données est une étape essentielle dans tout projet de science des
données ou d’analyse. Avant de pouvoir visualiser ou modéliser vos données, vous devez
les préparer, les nettoyer et les transformer. Ce module vous présentera les principes
fondamentaux du traitement et de la préparation des données, en mettant l’accent sur
l’utilisation des packages dplyr et tidyr en R. Vous apprendrez à manipuler efficacement
vos jeux de données en utilisant l’opérateur pipe |>, introduit dans les versions récentes
de R pour améliorer la lisibilité et la fluidité du code.

Objectifs d’apprentissage
À la fin de ce module, vous serez capable de :

• Comprendre l’importance de la manipulation des données dans le processus

analytique.

• Utiliser les verbes fondamentaux de dplyr pour filtrer, sélectionner, arranger,

muter et résumer des données.

• Appliquer les fonctions clés de tidyr pour transformer et organiser vos données.

• Intégrer dplyr et tidyr dans un flux de travail cohérent pour un traitement efficace
des données.

• Résoudre des problèmes pratiques liés à la manipulation des données en utilisant

R avec l’opérateur pipe |>.
1. Introduction au Traitement et à la Préparation des Données
1.1 Pourquoi la Manipulation des Données est Essentielle
• Qualité des Données : Les données brutes sont souvent imparfaites, contenant
des valeurs manquantes, des incohérences ou des anomalies.

• Préparation pour l’Analyse : Organiser les données de manière appropriée facilite

les analyses ultérieures et la visualisation.

• Efficacité : Une bonne manipulation des données permet de gagner du temps et

d’améliorer la précision des résultats.

1.2 Présentation de dplyr et tidyr

• dplyr : Un package R pour la manipulation efficace des données, offrant une
grammaire cohérente et intuitive pour travailler avec des data frames.

• tidyr : Un package R pour la mise en forme des données, aidant à transformer les
données en un format “tidy” (propre) pour une analyse facile.

2. Outils pour la Manipulation des Données : dplyr et tidyr

2.1 Les Verbes Fondamentaux de dplyr
• filter() : Sélectionner des lignes en fonction de critères logiques.

• arrange() : Trier les lignes d’un data frame.

• select() : Choisir un ensemble de colonnes.

• mutate() : Ajouter de nouvelles colonnes ou modifier des colonnes existantes.

• summarise() : Résumer les données, souvent en combinaison avec group_by().

• group_by() : Grouper les données par une ou plusieurs variables.

2.2 Introduction à l’Opérateur Pipe |>

• Opérateur pipe |> : Introduit dans R 4.1.0, il permet de chaîner des fonctions de
manière claire et lisible.

• Avantages : Améliore la lisibilité du code, facilite le flux de données entre les

fonctions sans avoir besoin d’imbriquer des parenthèses.
3. Manipulation Pratique des Données avec dplyr
Pour illustrer l’utilisation de dplyr, nous utiliserons le jeu de données nycflights13 qui
contient des informations sur les vols au départ de New York en 2013.

3.1 Filtrage des Lignes avec filter()

Exemple : Sélectionner tous les vols du 1er janvier.
library(dplyr)
library(nycflights13)

vols_jan1 <- flights |>

filter(month == 1, day == 1)

3.2 Sélection des Colonnes avec select()

Exemple : Sélectionner les colonnes year, month, day, dep_delay, arr_delay.
vols_delais <- flights |>
select(year, month, day, dep_delay, arr_delay)

3.3 Réorganisation des Données avec arrange()

Exemple : Trier les vols par ordre croissant de temps de vol (air_time).
vols_ordonnes <- flights |>
arrange(air_time)

3.4 Création de Nouvelles Variables avec mutate()

Exemple : Ajouter une colonne de gain de temps (arr_delay - dep_delay).
vols_gains <- flights |>
mutate(gain_temps = arr_delay - dep_delay)

3.5 Résumé des Données avec summarise() et group_by()

Exemple : Calculer le retard moyen au départ par jour.
retard_moyen_jour <- flights |>
group_by(year, month, day) |>
summarise(retard_moyen_dep = mean(dep_delay, [Link] = TRUE))
4. Restructuration des Données avec tidyr
4.1 Transformation des Données avec pivot_longer()
Supposons que vous ayez un data frame avec des colonnes pour chaque année et que
vous souhaitiez les rassembler en une seule colonne.
Exemple :
library(tidyr)

table4a <- tibble(

country = c("Afghanistan", "Brazil", "China"),
`1999` = c(745, 2666, 212258),
`2000` = c(2666, 37737, 213766)
)

table4a_long <- table4a |>

pivot_longer(cols = `1999`:`2000`, names_to = "année", values_to = "cas")

4.2 Transformation avec pivot_wider()

Inversement, vous pouvez étaler des valeurs sur plusieurs colonnes.
Exemple :
table2 <- tibble(
country = c("Afghanistan", "Afghanistan", "Brazil", "Brazil", "China",
"China"),
year = c(1999, 2000, 1999, 2000, 1999, 2000),
type = c("cases", "cases", "cases", "cases", "cases", "cases"),
count = c(745, 2666, 37737, 80488, 212258, 213766)
)

table2_wide <- table2 |>

pivot_wider(names_from = year, values_from = count)

4.3 Séparer et Unir des Colonnes avec separate() et unite()

Exemple :
# Séparer une colonne en plusieurs
table3 <- tibble(
country = c("Afghanistan", "Brazil", "China"),
year = c(1999, 1999, 1999),
rate = c("745/19987071", "37737/172006362", "212258/1272915272")
)

table3_separe <- table3 |>

separate(rate, into = c("cas", "population"), sep = "/")
# Unir plusieurs colonnes en une seule
table5 <- tibble(
century = c(19, 19, 20, 20),
year = c(99, 00, 01, 02),
country = c("Afghanistan", "Afghanistan", "Afghanistan", "Afghanistan"),
cases = c(745, 2666, 37737, 80488),
population = c(19987071, 20595360, 21105601, 21627918)
)

table5_unie <- table5 |>

unite(new_year, century, year, sep = "")

5. Intégration de dplyr et tidyr dans un Flux de Travail

En combinant dplyr et tidyr, vous pouvez créer des flux de travail puissants pour
manipuler vos données.
Exemple :
Calculer le retard moyen par destination, conserver uniquement les destinations avec plus
de 50 vols et visualiser les données.
library(ggplot2)

retard_dest <- flights |>

group_by(dest) |>
summarise(
nb_vols = n(),
retard_moyen = mean(arr_delay, [Link] = TRUE)
) |>
filter(nb_vols > 50)

ggplot(retard_dest, aes(x = dest, y = retard_moyen)) +

geom_bar(stat = "identity") +
labs(title = "Retard moyen par destination", x = "Destination", y = "Retard
moyen (min)")

6. Activité Pratique pour les Étudiants

Exercice 1 : Identifier les Vols avec le Plus de Retards
1. Objectif : Trouver les vols qui ont subi le plus grand retard au départ.

2. Étapes :
o Utiliser le dataset flights.

o Sélectionner les colonnes pertinentes : carrier, flight, dep_delay.

o Filtrer les vols avec les retards au départ les plus élevés.

o Trier les résultats par ordre décroissant de dep_delay.

3. Solution Exemple :
vols_retards <- flights |>
select(carrier, flight, dep_delay) |>
arrange(desc(dep_delay))

# Afficher les 10 vols avec le plus grand retard

top_10_retards <- vols_retards |>
head(10)

Exercice 2 : Analyse des Retards par Compagnie Aérienne

1. Objectif : Calculer le retard moyen au départ pour chaque compagnie aérienne.

2. Étapes :

o Grouper les données par carrier.

o Calculer le retard moyen en utilisant mean() sur dep_delay, en excluant les

valeurs manquantes.

o Trier les compagnies par ordre décroissant de retard moyen.

3. Solution Exemple :
retard_par_compagnie <- flights |>
group_by(carrier) |>
summarise(
retard_moyen_dep = mean(dep_delay, [Link] = TRUE)
) |>
arrange(desc(retard_moyen_dep))

Exercice 3 : Visualisation des Retards au Départ par Mois

1. Objectif : Visualiser comment le retard moyen au départ varie au cours de l’année.

2. Étapes :

o Grouper les données par month.

o Calculer le retard moyen au départ pour chaque mois.

o Créer un graphique en ligne pour visualiser les résultats.
3. Solution Exemple :
retard_par_mois <- flights |>
group_by(month) |>
summarise(
retard_moyen_dep = mean(dep_delay, [Link] = TRUE)
)

ggplot(retard_par_mois, aes(x = month, y = retard_moyen_dep)) +

geom_line() +
labs(title = "Retard moyen au départ par mois", x = "Mois", y = "Retard
moyen (min)")

Conclusion
La maîtrise de la manipulation des données avec dplyr et tidyr est essentielle pour tout
analyste ou scientifique des données. En utilisant l’opérateur pipe |>, vous pouvez écrire
du code R plus lisible et plus fluide. Ces outils vous permettent de transformer
efficacement vos données brutes en un format prêt pour l’analyse et la visualisation.

Ressources Supplémentaires
• Livres :

o “R for Data Science” par Hadley Wickham & Garrett Grolemund.

• Documentation Officielle :

o Documentation dplyr
o Documentation tidyr

Prochaines Étapes
Dans le prochain module, nous aborderons la visualisation des données en utilisant
ggplot2, un package puissant pour créer des graphiques élégants et informatifs. Vous
apprendrez à combiner vos compétences en manipulation de données avec des
techniques avancées de visualisation pour raconter des histoires convaincantes avec vos
données.

Note : Assurez-vous d’utiliser R version 4.1.0 ou ultérieure pour bénéficier de l’opérateur

pipe |>.

Vous aimerez peut-être aussi

Library
Pas encore d'évaluation
Library
33 pages
Library
Pas encore d'évaluation
Library
8 pages
D1 Lady
Pas encore d'évaluation
D1 Lady
7 pages
Exercices
Pas encore d'évaluation
Exercices
5 pages
TP0 - Introduction Ã R
Pas encore d'évaluation
TP0 - Introduction Ã R
2 pages
Chap 4 Dplyr
Pas encore d'évaluation
Chap 4 Dplyr
79 pages
Analyse de données d'enquêtes avec R
Pas encore d'évaluation
Analyse de données d'enquêtes avec R
797 pages
7399
Pas encore d'évaluation
7399
12 pages
Analyse des vols NYC 2013 avec dplyr
Pas encore d'évaluation
Analyse des vols NYC 2013 avec dplyr
3 pages
Analyse R
Pas encore d'évaluation
Analyse R
929 pages
Guide d'analyse de données avec R
Pas encore d'évaluation
Guide d'analyse de données avec R
499 pages
Analyse R (Complet)
Pas encore d'évaluation
Analyse R (Complet)
1 397 pages
Nettoyage des données avec R
Pas encore d'évaluation
Nettoyage des données avec R
5 pages
TP6 : Manipulation de Données avec tidyr
Pas encore d'évaluation
TP6 : Manipulation de Données avec tidyr
2 pages
Guide R
Pas encore d'évaluation
Guide R
627 pages
Data Science R : Cours et Pratique
Pas encore d'évaluation
Data Science R : Cours et Pratique
80 pages
Exercice Chapitre 3
Pas encore d'évaluation
Exercice Chapitre 3
3 pages
Fonction Manipulation Données
Pas encore d'évaluation
Fonction Manipulation Données
50 pages
Introduction Au Tidyverse
Pas encore d'évaluation
Introduction Au Tidyverse
478 pages
Analyse R PDF
Pas encore d'évaluation
Analyse R PDF
907 pages
TD4 - Filtres
Pas encore d'évaluation
TD4 - Filtres
4 pages
Cours1 R Serie Temp
Pas encore d'évaluation
Cours1 R Serie Temp
24 pages
Cours1 R Serie Temp
Pas encore d'évaluation
Cours1 R Serie Temp
23 pages
Cours1 R Serie Temp
Pas encore d'évaluation
Cours1 R Serie Temp
24 pages
Le Compte Rendu Des Codes Page 127-147
Pas encore d'évaluation
Le Compte Rendu Des Codes Page 127-147
4 pages
Science des Données avec Python
Pas encore d'évaluation
Science des Données avec Python
39 pages
Bac 2024 Sujet 2
Pas encore d'évaluation
Bac 2024 Sujet 2
5 pages
R Master F&DS Séances 4-5
Pas encore d'évaluation
R Master F&DS Séances 4-5
71 pages
Analyse R PDF
Pas encore d'évaluation
Analyse R PDF
2 533 pages
Simulation Numeric 2
Pas encore d'évaluation
Simulation Numeric 2
77 pages
Nettoyage et Analyse des Données en R
Pas encore d'évaluation
Nettoyage et Analyse des Données en R
9 pages
StatDonnees Fiches 1516
Pas encore d'évaluation
StatDonnees Fiches 1516
12 pages
TP 4 Analyse Exploratoire de Données AED
Pas encore d'évaluation
TP 4 Analyse Exploratoire de Données AED
5 pages
Data 2 L
Pas encore d'évaluation
Data 2 L
14 pages
LBIRA2110
Pas encore d'évaluation
LBIRA2110
74 pages
Compte Rendu Du TP
Pas encore d'évaluation
Compte Rendu Du TP
20 pages
Data Mining 2
Pas encore d'évaluation
Data Mining 2
5 pages
Lab5 Transcription
Pas encore d'évaluation
Lab5 Transcription
17 pages
Introduction à R pour Économie
Pas encore d'évaluation
Introduction à R pour Économie
14 pages
Manipulation de Données Avec R
Pas encore d'évaluation
Manipulation de Données Avec R
4 pages
D'anomalies Dans Un Jeu de Données Avec: TP 1: Analyse, Nettoyage Et Détection Python
Pas encore d'évaluation
D'anomalies Dans Un Jeu de Données Avec: TP 1: Analyse, Nettoyage Et Détection Python
6 pages
TP Séries Chronologiques R 2024-2025
Pas encore d'évaluation
TP Séries Chronologiques R 2024-2025
5 pages
m1 Stat Eco Logiciel R
Pas encore d'évaluation
m1 Stat Eco Logiciel R
232 pages
Manipuler des Tableaux avec R
Pas encore d'évaluation
Manipuler des Tableaux avec R
69 pages
Prétraitement des données sur R
Pas encore d'évaluation
Prétraitement des données sur R
12 pages
Introduction à R pour Épidémiologistes
Pas encore d'évaluation
Introduction à R pour Épidémiologistes
63 pages
Introduction À R Et Au Tidyverse: Julien Barnier 2022-04-09
Pas encore d'évaluation
Introduction À R Et Au Tidyverse: Julien Barnier 2022-04-09
454 pages
J3 S2 22 05 2024 Eco Unlocked
Pas encore d'évaluation
J3 S2 22 05 2024 Eco Unlocked
3 pages
Séance 2
Pas encore d'évaluation
Séance 2
11 pages
L Analyse de Données Écologiques Avec R
Pas encore d'évaluation
L Analyse de Données Écologiques Avec R
710 pages
TP1 Data Mining
Pas encore d'évaluation
TP1 Data Mining
3 pages
Data Wrangling French
Pas encore d'évaluation
Data Wrangling French
2 pages
Nettoyage des données avec R : Guide pratique
Pas encore d'évaluation
Nettoyage des données avec R : Guide pratique
58 pages
Examen Baccalauréat Informatique 2024
Pas encore d'évaluation
Examen Baccalauréat Informatique 2024
3 pages
2 Licence LGC TA Python TP2
Pas encore d'évaluation
2 Licence LGC TA Python TP2
7 pages
R: Manipulation et Visualisation
Pas encore d'évaluation
R: Manipulation et Visualisation
27 pages
Analyse des ventes avec Pandas
Pas encore d'évaluation
Analyse des ventes avec Pandas
2 pages
RThéorie
Pas encore d'évaluation
RThéorie
8 pages
TP2 - Python
Pas encore d'évaluation
TP2 - Python
4 pages
Sante 5555
Pas encore d'évaluation
Sante 5555
31 pages
Sante 2222
Pas encore d'évaluation
Sante 2222
2 pages
Sante 444
Pas encore d'évaluation
Sante 444
2 pages
Sante 3333
Pas encore d'évaluation
Sante 3333
1 page
Sante 2222
Pas encore d'évaluation
Sante 2222
2 pages
Cadre Logique D
Pas encore d'évaluation
Cadre Logique D
3 pages
Partie Prenantes CCCCCCCCCCCCKKKKKK
Pas encore d'évaluation
Partie Prenantes CCCCCCCCCCCCKKKKKK
2 pages
Cadre de Mesure de Rendementiiiiiiiiiiiiiiii
Pas encore d'évaluation
Cadre de Mesure de Rendementiiiiiiiiiiiiiiii
2 pages
Cadre Logiquemmmmmmmmm
Pas encore d'évaluation
Cadre Logiquemmmmmmmmm
3 pages
Le Quadrant Du Cashflow de Robert Kiyosaki
100% (1)
Le Quadrant Du Cashflow de Robert Kiyosaki
3 pages
Theorie de Changement
Pas encore d'évaluation
Theorie de Changement
1 page
Classes D'equivalance
Pas encore d'évaluation
Classes D'equivalance
15 pages
TD2 Mpsi
Pas encore d'évaluation
TD2 Mpsi
3 pages
Philo
Pas encore d'évaluation
Philo
1 page
POO Cours
Pas encore d'évaluation
POO Cours
37 pages
Devoir À Domicile N2 S1 2025
Pas encore d'évaluation
Devoir À Domicile N2 S1 2025
1 page
Etat Des Recherches Sur La Réussite Universitaire: Dates Et Versions
Pas encore d'évaluation
Etat Des Recherches Sur La Réussite Universitaire: Dates Et Versions
2 pages
Exploration Hémostase
Pas encore d'évaluation
Exploration Hémostase
128 pages
Discussions et Déboires Quotidiens
Pas encore d'évaluation
Discussions et Déboires Quotidiens
101 pages
10 Mots Clés pour Booster le Copywriting
Pas encore d'évaluation
10 Mots Clés pour Booster le Copywriting
4 pages
Procédure Gestion de Projets
100% (2)
Procédure Gestion de Projets
4 pages
Stage Rapport D'action Chez Besson Bac Pro Commerce
Pas encore d'évaluation
Stage Rapport D'action Chez Besson Bac Pro Commerce
21 pages
Neuvaines aux anges de Dieu
100% (3)
Neuvaines aux anges de Dieu
36 pages
Fiche Pédagogique : Solidarité en 5ème
Pas encore d'évaluation
Fiche Pédagogique : Solidarité en 5ème
3 pages
5-Recueil Exercices-Etudiant
Pas encore d'évaluation
5-Recueil Exercices-Etudiant
3 pages
Introduction Générale
Pas encore d'évaluation
Introduction Générale
2 pages
Cours Climatisation Auto
Pas encore d'évaluation
Cours Climatisation Auto
2 pages
Spécifications Techniques CFO 2015
50% (2)
Spécifications Techniques CFO 2015
66 pages
Calcul de TAAM Et TAG VC
100% (1)
Calcul de TAAM Et TAG VC
18 pages
Exercice 2
Pas encore d'évaluation
Exercice 2
1 page
Mettre en Place Un SME
100% (2)
Mettre en Place Un SME
68 pages
L'écrivaine - Pascal HELLEU
Pas encore d'évaluation
L'écrivaine - Pascal HELLEU
113 pages
Symphony
Pas encore d'évaluation
Symphony
542 pages
Maintenance Industrielle: Cours Master 2 HSI
Pas encore d'évaluation
Maintenance Industrielle: Cours Master 2 HSI
4 pages
Les Antihistaminiques H1 Non Phénothiaziniques
Pas encore d'évaluation
Les Antihistaminiques H1 Non Phénothiaziniques
41 pages
PME Gagnez en Compétitivité Grâce À Votre Marketing
Pas encore d'évaluation
PME Gagnez en Compétitivité Grâce À Votre Marketing
201 pages
Theorie Generale de L'impot
Pas encore d'évaluation
Theorie Generale de L'impot
22 pages
Cours Outils Logiciels-2
Pas encore d'évaluation
Cours Outils Logiciels-2
33 pages
Corrigé METHODOLOGIE de L'etude de L'audience Okokok
100% (3)
Corrigé METHODOLOGIE de L'etude de L'audience Okokok
27 pages
Vérification des vis de serrage de suspension
Pas encore d'évaluation
Vérification des vis de serrage de suspension
13 pages
Modèle de Changements
Pas encore d'évaluation
Modèle de Changements
3 pages
Gestion Comptable des Séjours Adaptés
Pas encore d'évaluation
Gestion Comptable des Séjours Adaptés
4 pages
INFOGRAPHIE
Pas encore d'évaluation
INFOGRAPHIE
6 pages