0% ont trouvé ce document utile (0 vote)
44 vues26 pages

Introduction au logiciel R et RStudio

Le document présente une introduction au logiciel R, un outil libre pour l'analyse statistique et le traitement des données. Il couvre l'installation de R et RStudio, les objets et types de données dans R, ainsi que les fonctions et packages disponibles. Les bases du langage R, y compris les vecteurs, matrices, listes et data frames, sont également expliquées.

Transféré par

trezsinde302
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
44 vues26 pages

Introduction au logiciel R et RStudio

Le document présente une introduction au logiciel R, un outil libre pour l'analyse statistique et le traitement des données. Il couvre l'installation de R et RStudio, les objets et types de données dans R, ainsi que les fonctions et packages disponibles. Les bases du langage R, y compris les vecteurs, matrices, listes et data frames, sont également expliquées.

Transféré par

trezsinde302
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

INTRODUCTION A

L’UTILISATION DU
LOGICIEL R
Présenté par: M. COULIBALY G. Romaric
[Link]@[Link]
Chapitre 1 : Prise en main
du Logiciel R

2
PLAN DU COURS
› Installation de R (et RStudio) et présentation de
l’environnement de travail

› Les objets R

› Les fonctions et les packages de R

› Les bases du langage R

3
Installation et environnement (1/5)
Présentation de R
▪ Logiciel libre (open-source) orienté vers le traitement des données et l’analyse
statistique
▪ Avantages:
▪ Multiplateformes (Linux, Mac OS X, Windows)
▪ Libre, développé par ses utilisateurs et modifiable par tout un chacun
▪ Possibilité d’étendre ses fonctions de base à l’aide d’extensions
▪ Possibilité de manipulation de données sous R largement supérieures à celles des autres logiciels
usuels d’analyse statistique
▪ Forte utilisation dans le monde scientifique pour les analyses des données

▪ Deux éléments importants : R & RStudio


▪ NB: Installer R avant RStudio

4
Installation et environnement (2/5)
Présentation de R
▪ Interface rudimentaire de R

5
Installation et environnement (3/5)
Présentation de R (Rstudio)
▪ Environnement de développement intégré, libre gratuit fonctionnant sous
Windows, Linux et MAC OS X

▪ Complément de R avec des avantages :


▪ Editeur de script avec coloration syntaxique,
▪ Auto-complétion dans l’édition et l’exécution de codes
▪ Affichage simultané du code, de la console R, des fichiers, graphiques et pages d’aide etc

▪ Utilisé pour démarrer et découvrir R

▪ Possibilité d’utiliser l’ensemble des codes directement dans R en l’absence de


RStudio

6
Installation et environnement (4/5)

7
Installation et environnement (5/5)
Installation de R et de RStudio
▪ Se rendre sur la page [Link] si vous êtes

utilisateur de Windows ou [Link] si vous êtes un

utilisateur de MAC OS X

▪ Une fois R correctement installé, aller sur le site

[Link] pour télécharger la

dernière version stable de RStudio (RStudio Desktop)

8
Objets R
› Tout dans le langage R est un objet : les variables contenant des données, des
fonctions, des opérateurs, des vecteurs, des matrices, etc.

› Les objets possèdent au minimum :


– un mode (obtenu avec la fonction mode)

– une longueur (obtenue avec la fonction length)

– et certains peuvent être dotés d’un ou plusieurs attributs

› Les caractères permis pour les noms d’objets sont les lettres minuscules a–z et majuscules
A–Z, les chiffres 0–9, le point « . » et le caractère de soulignement « _ ».

› Les noms d’objets ne peuvent commencer par un chiffre. S’ils commencent par un point, le
second caractère ne peut être un chiffre

9
Objets R
Mode et type de données
› Le mode prescrit ce qu’un objet peut contenir. À ce titre, un objet ne peut avoir qu’un
seul mode

› Les principaux modes disponibles dans R sont :


– numeric : nombres réels
– complex : nombres complexes
– logical : valeurs booléennes (vrai/faux)
– character : chaînes de caractères
– function : fonction
– list : données quelconques
– expression : expressions non évaluées

› Possibilité de tester si un objet est d’un mode donné avec la syntaxe: [Link]

› La fonction typeof permet d’obtenir une description plus précise de la représentation


interne d’un objet. Le mode et le type d’un objet sont souvent identiques
10
Objets R
Longueur
› La longueur d’un objet est égale au nombre d’éléments qu’il contient

› La longueur, au sens R du terme, d’une chaîne de caractères est toujours


1. Un objet de mode character doit contenir plusieurs chaînes de
caractères pour que sa longueur soit supérieure à 1
> v1 <- “cours"

> length(v1)

[1] 1

› la fonction nchar permet d’obtenir le nombre de caractères dans une


chaîne
> nchar(v1)

[1] 5 11
Objets R
Valeurs manquantes, indéterminées et infinies
› Dans les applications statistiques, il est souvent utile de pouvoir représenter des données
manquantes. Dans R, l’objet spécial NA remplit ce rôle

– Par défaut, le mode de NA est logical, mais NA ne peut être considéré ni comme TRUE, ni comme FALSE.

– Toute opération impliquant une donnée NA a comme résultat NA.

– Certaines fonctions (sum, mean, par exemple) ont par conséquent un argument [Link] qui, lorsqu’égal à
TRUE, élimine les données manquantes avant de faire un calcul

› Pour tester si les éléments d’un objet sont NA ou non, il faut utiliser la fonction [Link] :

– > [Link](NA)

– [1] TRUE

› Inf représente +∞.


› -Inf représente −∞.
12
Les fonctions et les packages de R
Attributs
› Un package est une bibliothèque externe. Il est toujours
documenté

› Un package contient des collections de fonctions utilisables


sous R. Souvent centré sur un sujet particulier (ex. rpart pour
les arbres de décision, etc.)

› Gestion affinée des packages : nous pouvons les installer,


désinstaller, charger, décharger et mettre à jour à notre guise

› Il y a (presque) toujours un package adapté à nos problèmes

13
Les fonctions et les packages de R
Attributs
› La liste des packages est disponible sur [Link]

› A chaque package correspond une série de fichiers, dont la


documentation PDF

› library() permet aussi de lister les packages installés

› search() permet d’obtenir la liste des packages chargés

› library(package) permet de charger un package (Exemple :


library(haven))

› detach(package:haven) permet de détacher le package haven


14
Les fonctions et les packages de R
Aide sur un package
› library(help=haven) et help(package=haven)
pour obtenir la liste des fonctions

› help(haven, package=“haven”) pour obtenir de


l’aide sur une fonction du package

› help(haven) si le package est chargé, pas


besoin de le spécifier

15
Les fonctions et les packages de R
Installer un nouveau package
› [Link]("haven") pour installer le
package haven

16
Les bases du langage R
Commandes R

› L’utilisateur de R interagit avec l’interprète R en entrant des commandes à


l’invite de commande.

› Toute commande R est soit une expression, soit une affectation

› Normalement, une expression est immédiatement évaluée et le résultat est


affiché à l’écran :

› Lors d’une affectation, une expression est évaluée, mais le résultat est stocké
dans un objet (variable) et rien n’est affiché à l’écran. Le symbole
d’affectation est <–, c’est-à-dire les deux caractères < et – placés
obligatoirement l’un à la suite de l’autre

17
Les bases du langage R
Commandes R
› Pour affecter le résultat d’un calcul dans un objet et
simultanément afficher ce résultat, il suffit de placer l’affectation
entre parenthèses pour ainsi créer une nouvelle expression

› Éviter d’utiliser l’opérateur « = » pour affecter une valeur à une


variable puisque cette pratique est susceptible d’engendrer de la
confusion avec les constructions « nom = valeur » dans les
appels de fonction

18
Les bases du langage R
Les vecteurs
› En R, tout est un vecteur

› Contrairement à certains autres langages de programmation, il n’y a pas de


notion de scalaire en R ; un scalaire est simplement un vecteur de longueur
1

› Dans un vecteur simple, tous les éléments doivent être du même mode.
Nous nous restreignons à ce type de vecteurs pour le moment.

› Les fonctions de base pour créer des vecteurs sont :


– c (concaténation) ;
– numeric (vecteur de mode numeric) ;
– logical (vecteur de mode logical) ;
– character (vecteur de mode character).

19
Les bases du langage R
Les vecteurs
› Il est possible (et souvent souhaitable) de donner une étiquette
à chacun des éléments d’un vecteur.
> (v <- c(a = 1, b = 2, c = 5))

abc

125

> v <- c(1, 2, 5)

> names(v) <- c("a", "b", "c")

> v

abc

125

20
Les bases du langage R
Matrices et tableaux
› R étant un langage spécialisé pour les calculs mathématiques, il supporte tout
naturellement les matrices et, plus généralement, les tableaux à plusieurs
dimensions.

› Les matrices et tableaux ne sont rien d’autre que des vecteurs dotés d’un
attribut dim. Ces objets sont donc stockés, et peuvent être manipulés,
exactement comme des vecteurs simples

› Une matrice est un vecteur avec un attribut dim de longueur 2. Cela change
implicitement la classe de l’objet pour "matrix" et, de ce fait, le mode d’affichage
de l’objet ainsi que son interaction avec plusieurs opérateurs et fonctions.

› La fonction de base pour créer des matrices est matrix

21
Les bases du langage R
Matrices et tableaux
› On extrait un élément d’une matrice en précisant sa position dans chaque dimension
de celle-ci, séparées par des virgules
> (m <- matrix(c(40, 80, 45, 21, 55, 32), nrow = 2, ncol = 3))

[,1] [,2] [,3]

[1,] 40 45 55

[2,] 80 21 32

> m[1, 2]

[1] 45

› La fonction rbind permet de fusionner verticalement deux matrices (ou plus) ayant le
même nombre de colonnes.

› La fonction cbind permet de fusionner horizontalement deux matrices(ou plus) ayant


le même nombre de lignes.
22
Les bases du langage R
Listes
› La liste est le mode de stockage le plus général et polyvalent du
langage R.

› Il s’agit d’un type de vecteur spécial dont les éléments peuvent être de
n’importe quel mode, y compris le mode list, ou de n’importe quelle
longueur

› Cela permet donc d’emboîter des listes, d’où le qualificatif de récursif


pour ce type d’objet

› La fonction de base pour créer des listes est list :


> (x <- list(size = c(1, 5, 2), user = "Joe", new = TRUE))

23
Les bases du langage R
Data frames (Tableau de données)
› Les vecteurs, les matrices, les tableaux et les listes sont les types d’objets les plus
fréquemment utilisés en programmation en R.
› Toutefois, un grand nombre de procédures statistiques repose davantage sur les data
frames pour le stockage des données.
› Un data frame est une liste de classe [Link] dont tous les éléments sont de la
même longueur (ou comptent le même nombre de lignes si les éléments sont des
matrices)
› Il est généralement représenté sous la forme d’un tableau à deux dimensions. Chaque
élément de la liste sous-jacente correspond à une colonne
› On crée un data frame avec la fonction [Link] ou, pour convertir un autre type
d’objet en data frame, avec [Link]
› On peut accéder aux colonnes d’un data frame avec la syntaxe suivante:
nom_dataframe$nom_colonne
› On peut rendre les colonnes d’un data frame (ou d’une liste) visibles dans l’espace de
travail avec la fonction attach, puis les masquer avec detach

24
Les bases du langage R
Indexation
› Il existe trois façons d’indexer les éléments d’un vecteur dans le langage R. Dans tous
les cas, l’indexation se fait à l’intérieur de crochets [ ]
1. Indexation par position: Les éléments se trouvant aux positions correspondant aux entiers

sont extraits du vecteur dans l’ordre spécifié: (x[1], x[1:3], x[c(1, 3)], x[c(5, 2, 3, 1])

2. Indexation par nom: Lorsqu’un vecteur est nommé, il est dès lors possible d’accéder à ses
valeurs à partir de leur nom: (taille ["Anna"], taille [c("Anna", "Michelle")])

3. Indexation par condition: elle consiste à fournir un vecteur logique indiquant si chaque
élément doit être inclus (si TRUE ) ou exclu (si FALSE ): taille[c(TRUE, FALSE, TRUE)]

› L’indice est laissé vide. Tous les éléments du vecteur sont alors sélectionnés (x[ ])

› Il est également possible d’assigner à une valeur particulière à un élément d’un


vecteur
25
MERCI DE VOTRE AIMABLE ATTENTION

26

Vous aimerez peut-être aussi