0% ont trouvé ce document utile (0 vote)
64 vues33 pages

Introduction Aux Fonctions Et Packages en R

Cette formation sur R se concentre sur l'analyse de données et la visualisation, en abordant des concepts allant des bases aux techniques avancées. Elle couvre l'installation de R, les principaux packages, la manipulation des données, la visualisation avec ggplot2, ainsi que des méthodes statistiques et de machine learning. Le cours vise à fournir une maîtrise des outils nécessaires pour analyser et interpréter des données complexes.

Transféré par

aelisee09
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PPTX, PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
64 vues33 pages

Introduction Aux Fonctions Et Packages en R

Cette formation sur R se concentre sur l'analyse de données et la visualisation, en abordant des concepts allant des bases aux techniques avancées. Elle couvre l'installation de R, les principaux packages, la manipulation des données, la visualisation avec ggplot2, ainsi que des méthodes statistiques et de machine learning. Le cours vise à fournir une maîtrise des outils nécessaires pour analyser et interpréter des données complexes.

Transféré par

aelisee09
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PPTX, PDF, TXT ou lisez en ligne sur Scribd

Analyse des données avec

R
Bienvenue dans cette formation sur R, axée sur l'analyse de
données et la visualisation. Nous explorerons les bases de R, des
packages essentiels aux techniques avancées.

par Elisée Amadé


Contexte

Omniprésence des données Puissance de R Apprentissage progressif


Les données sont partout. Elles R est puissant et flexible. Il est idéal Cette formation vous aidera à
influencent les décisions dans tous pour l'analyse des données. maîtriser R. Vous exploiterez son
les domaines. plein potentiel.
📦 Plan de présentation

Introduction à la Analyse statistique Visualisation des donnéesModélisation statistique


manipulation des descriptive
ggplot2 Régression linéaire,
données
tidyverse gtsummary logistique, probit, logistique
multinomiale

Automatisation et Introduction au
restitution des Machine Learning
résultats avec R
Applications interactives Premiers pas en
(RShiny), rapports apprentissage automatique
dynamiques (RMarkdown)
📦 Installation et prise en main de R

R : Logiciel Open Source Téléchargement et Installation Interface de Base & RStudio


R est un logiciel libre, idéal pour Téléchargez R gratuitement depuis Utilisez l'interface de base de R ou
l'analyse de données. CRAN et installez-le facilement sur explorez RStudio pour une
https://cran.r-project.org expérience enrichie.
📦 Principaux Packages en R
1 Base R
Fonctions de base pour démarrer.

2 tidyverse
Manipulation de données intuitive.

3 dplyr
Manipulation de dataframes efficace.

4 ggplot2
Visualisation de données avancée.

5 readr
Importation de fichiers csv, txt
📦 Principaux Packages en R
1 forcats
Manipulation des variables catégoriques (facteurs)

2 gtsummary
Génération de tableaux de synthèse statistiques

3 survival
Modélisation de survie.

4 caret
Machine Learning (classification et régression)

5 caret
Algorithme des forêts aléatoires
📦 Principaux Packages en R
1 readxl
Importation de fichiers Excel

2 data.table
Manipulation ultra-rapide des grands datasets

3 stringr
Manipulation des chaînes de caractères.

4 lubridate
Gestion des dates et heures

5 tidyr
Transformation et nettoyage des données
📦 Principaux Packages en R
1 xgboost
Boosting pour modèles prédictifs

2 shiny
Création d’applications web interactives

3 rmarkdown
Création de rapports dynamiques en HTML/PDF/Word
📊 Manipulation des Données

Matrices Listes Dataframes


Tableaux rectangulaires de données. Collections ordonnées d'objets. Les Structures de données tabulaires.
Les matrices sont idéales pour les listes peuvent contenir des types de Les dataframes sont similaires aux
opérations mathématiques. données différents. tables de bases de données.
📊 Manipulation des Données

Vecteurs Booléens Réels (Numeric) Entiers (Integer)


Les vecteurs sont des Les booléens représentent Les réels représentent des Les entiers sont des
séquences d'éléments du TRUE ou FALSE. Ils sont nombres décimaux. Ils nombres sans décimale.
même type. Ils sont fondamentaux pour le sont couramment utilisés Ils sont utiles pour les
essentiels pour stocker contrôle de flux et la pour les mesures et les compteurs et les index.
des données en R. logique. calculs.
📊 Manipulation des Données

c() data.frame() list()


Créer un vecteur. Créer un dataframe. Créer une liste.

matrix()
Créer une matrice.
📤 Importation et Exportation
des Données
1 read.csv()
Importer un CSV.

2 read_excel()
Importer un Excel.

3 write.csv()
Exporter un dataframe en CSV.

4 write_excel()
Exporter en Excel.
🛠 Manipulation Avancée (dplyr)
filter()
Filtrer les données.

select()
Sélectionner des colonnes.

mutate()
Ajouter une colonne.

arrange()
Trier les données.
🛠 Manipulation Avancée (dplyr)
slice()
Sélectionner des lignes par position..

aggregate()
Calculer des statistiques sommaires.

resume()
Obtenir un aperçu statistique rapide.

group_by()
Grouper les données pour l'analyse..

pluck()
Extraire des valeurs spécifiques
📈 Visualisation avec ggplot2
ggplot() geom_point() geom_line() geom_bar()

Initialiser un graphique. Nuage de points. Tracer une courbe. Créer un histogramme.


📈 Visualisation avec ggplot2

geom_point() geom_line() geom_bar() geom_histogram()


Nuage de points pour Tracer des courbes pour Créer des histogrammes Afficher la distribution
observer les relations visualiser des tendances pour les données d'une variable continue en
entre deux variables. ou des séries temporelles. catégorielles. intervalles.
📈 Visualisation Avancée
avec ggplot2
ggplot2 offre des outils puissants pour affiner vos visualisations.
Explorez les options de mise en page et de personnalisation.

• facet_wrap() divise un graphique en sous-graphiques.


• labs() ajoute des labels clairs et informatifs.
• theme() personnalise l'apparence du graphique.
• scale_() modifie les échelles des axes et des couleurs.
• coord_() change le système de coordonnées.
• stat_() calcule et affiche des statistiques.
• ggsave() sauvegarde les graphiques.
Principales Fonctions de GGally
ggpairs() 1
Crée une matrice de graphiques. Elle affiche les
relations entre les variables. Utile pour une
exploration rapide. 2 ggscatmat()
Affiche une matrice de nuages de points. Elle est
plus simple et se concentre sur les scatter plots.
ggparcoord() 3
Crée un graphique de coordonnées parallèles.
Visualise les relations entre les variables continues.
4 ggcorr()
Crée une matrice de corrélation. Les valeurs sont
affichées graphiquement avec des couleurs.
ggpairs() avec aes() 5
Personnalise les graphiques avec aes(). Ajoute des
couleurs, des tailles, etc.
Présentation de la Fonction ggbivariate()

Relations Bivariées Visualisations Variées Analyses Multivariées


ggbivariate() examine la relation Créez des nuages de points et des Comparez les variables en fonction
entre deux variables. Elle explore les boxplots. Générez des graphiques d'une troisième. Analysez les
relations bivariées. de densité facilement. contextes multivariées complexes.
📅 Manipulation des Dates
(lubridate)
ymd()
Convertir une date (YYYY-MM-DD).

mdy()
MM-DD-YYYY.

dmy()
DD-MM-YYYY.

today()
Date actuelle.
📊 Analyse Statistique

Moyenne Médiane
1
mean(x) median(x)
2

Corrélation 4 Écart-type
cor(x, y) 3 sd(x)
Utilisation des Fonctions gtsummary

1 Tableaux Descriptifs 2 Tests Statistiques


Créez des tableaux avec tbl_summary() pour Ajoutez des tests statistiques avec add_p().
résumer vos données. Visualisez les statistiques Comparez les groupes et validez vos hypothèses.
clés facilement.

3 Modèles de Régression 4 Stratification


Présentez vos régressions avec tbl_regression(). Subdivisez les données en sous-groupes avec
Affichez les coefficients et les intervalles de tbl_strata(). Analysez les tendances de chaque
confiance. strate.
Package gtsummary :
Fonctions Additionnelles
tbl_continuous() et tbl_cat() tbl_svysummary()

Résumés statistiques pour Tableaux descriptifs pour


variables continues et données d'enquête complexes.
catégorielles.

tbl_merge() as_flextable(), as_gt(),


as_kable(), as_table()
Fusionner plusieurs tableaux
gtsummary en un seul. Convertir en différents formats
pour l'exportation.
🤖 Regression linéaire
Régression Linéaire Simple Régression Linéaire Multiple Exemples
lm(formula, data). Formula lm(formula, data). Formula Simple: model_simple <-
spécifie la variable dépendante inclut plusieurs variables lm(mpg ~ wt, data = mtcars).
et indépendante. Data est le jeu indépendantes. Data reste le jeu Multiple: model_multiple <-
de données. de données. lm(mpg ~ wt + hp + cyl, data
= mtcars).
🤖 Régression
Régression Logistique Régression Probit

Variable dépendante binaire. Utilisez la fonction glm(). Variable dépendante binaire. Fonction de lien probit.

Exemple: glm(formula, family = binomial(link = "logit"),Exemple:


data) glm(formula, family = binomial(link =
"probit"), data)

Régression Tobit Régression Multinomiale

Variables censurées. Variables continues limitées. Variable dépendante catégorique. Plus de deux niveaux.

Exemple: tobit(formula, data, left = 0, right = 1) Exemple: multinom(formula, data)


Analyse de la survie
1 2 3

Packages Nécessaires Modèle de Cox Kaplan-Meier


Installer et charger survival. Analyser la survie avec des Estimer la fonction de survie :
covariables : coxph(Surv(time, survfit(Surv(time, status) ~
status) ~ covariables, data). groupe, data).

Ces fonctions permettent d'analyser et de visualiser la survie.


🤖 ANOVA
L'analyse de la variance (ANOVA) compare les moyennes de groupes.

Utilisez le package stats pour effectuer des tests ANOVA.

1. ANOVA à un facteur : aov(response ~ factor, data)

2. ANOVA à deux facteurs : aov(response ~ factor1 * factor2, data)

3. ANOVA avec mesures répétées : aov(response ~ factor1


+ Error(subject/factor1), data)
🤖 Rmarkdown : Introduction et Syntaxe
Installation Structure
Installez avec install.packages("rmarkdown"). • En-tête YAML

Chargez avec library(rmarkdown). • Blocs de code R


• Texte en Markdown

En-tête YAML Blocs de Code R


Métadonnées du document. Titre, auteur, format de sortie. Exécuter du code. Afficher les résultats.
🤖 Machine Learning
train()
1

2 randomForest()

3 xgboost()

Outils pour explorer le machine learning en R. Entraînez, modélisez, et optimisez vos algorithmes.
🛠 Machine learning R

1 caret 2 randomForest 3 e1071


Ce package simplifie Créez des modèles Ce package offre des
l'entraînement de modèles. Il d'ensemble robustes. algorithmes comme les SVM.
offre des outils pour la Combinez plusieurs arbres Utilisez-les pour des tâches de
validation croisée. pour améliorer la précision. classification.
🛠 Machine learning R
Installation de caret
Installez caret depuis CRAN. Assurez-vous d'avoir la dernière version.

Entraînement de Modèles
Utilisez train() pour créer et entraîner des modèles. Spécifiez la méthode et les données.

Validation Croisée
Appliquez trainControl() pour évaluer la performance. Utilisez la validation croisée.

Matrice de Confusion
Évaluez les modèles de classification. Utilisez confusionMatrix() pour analyser les résultats.
🛠 Programmation en R
Boucle for

Boucle while

Fonction personnalisée

Maîtrisez la programmation en R. Automatisez vos tâches et créez


des solutions sur mesure.
Conclusion et Prochaines Étapes

1 Récapitulatif des acquis 2 Perspectives d'avenir 3 Approfondissement continu


Maîtrise des packages Application des compétences Exploration des avancées en
essentiels et des techniques dans des projets concrets. machine learning et en
de manipulation des données. Découverte de nouvelles visualisation de données.
opportunités professionnelles.

Ce cours a jeté les bases solides. R permet désormais d'analyser et interpréter des données complexes.

Vous aimerez peut-être aussi