0% ont trouvé ce document utile (0 vote)
60 vues87 pages

Stat Appliquée Avec R

Transféré par

Bouzid Aya
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PPTX, PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
60 vues87 pages

Stat Appliquée Avec R

Transféré par

Bouzid Aya
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PPTX, PDF, TXT ou lisez en ligne sur Scribd

ECOLE SUPERIEUR DE COMPTABILITE ET DE FINANCE DE

CONSTANTINE

Dr. Djellal A 2023-2024


Avant de se lancer
■ Statistiques descriptives
■ Statistiques appliquées

• Permettez à vos ordinateurs de faire le


travail à votre place
Présentation
■ Pourquoi s’intéresser au logiciel R?

– Un logiciel de référence dans le monde du travail.


– Il est :
■ Simple
■ Gratuit
– Il permet de :
■ Faire des analyses statistiques avancées.
■ Decision making
■ Faire une analyse visuelle via de beaux graphiques
Présentation
■ R est un logiciel libre:
■ Ceci garanti :
– La favorisation de son développement
– Son intégration vers de nombreux systèmes
d’exploitation (Unix, Linux, Macintosh, Windows ...)
– Sa popularité dans les milieux académique et industriel.
Présentation
■ R est un logiciel particulièrement puissant pour les
applications mathématiques et statistiques.
■ Caractérisé par :
– Langage basé sur la notion de vecteur:
■ Ceci réduit considérablement le recours aux structures
itératives : for, while …
– Pas de typage ni de déclaration pour les variables ;
– Programmes courts (quelques lignes de code seulement)
– Temps de développement très court.
– Exécution instantanée des commandes
Installation

■ Sites à visiter:
■ http://www.r-project.org/.
■ https://cran.r-project.org/bin/windows/base/ R pour Windows.
Commandes R
■ Interaction directe avec l’interpréteur R.

■ Toujours en attente d’une commande

■ Exécution immédiate

■ Possibilité de commenter (annoter) le code


– Avec le symbole #
Commandes R
■ Une commande R est soit une expression, soit une affectation.
1. Une expression est immédiatement évaluée et le résultat est
affiché en bleu à l’écran.
– Possibilité de faire des opérations algébriques élémentaires
(calculatrice).
2. Une affectation (<-) stocke le résultat d’une expression dans
un objet (variable)
– Rien n’est affiché à l’écran.
– Pas besoin de déclarer les variables

■ Pour afficher le contenu d’une variable, il faut taper son nom.


Commandes R
■ Possibilité de regrouper plusieurs commandes en une seule
expression en les entourant d’accolades { }.

■ Ainsi, Le résultat du regroupement sera la valeur retournée


par la dernière commande
Objets R
■ Dans R, tout est objet : les variables, les fonctions, les opérateurs,
les graphs ...

■ Objects(): retourne les objet créés et sauvegardés dans RHistory

■ rm (-object name-): efface (remove) un objet .


– Exp: > rm (data)

■ Un objet R possède au moins deux attributs : mode & length

1. Mode de l’objet correspond à son type

2. Longueur de l’objet correspond à sa taille


Objets R

1. Mode : À chaque mode correspond une fonction du même


nom pour créer un objet de ce mode.
Objets R
2. Longueur: obtenue avec la fonction length.
– C’est le nombre d’éléments que l’objet contient.

■ La longueur d’un objet character est toujours 1.

■ Pour obtenir le nombre de caractères dans un objet


character, nous pouvons utiliser la fonction nchar ( )

■ Is.null ( ): teste si un objet est nul (vide) ou pas


Let’s go deep with R

 Avec R, on peut faire plusieurs choses:


1. Création des données
2. Importation / exportation des données
3. Etude statistique
• Statistique descriptive
• Statistique appliquée
Let’s go deep with R

 Avec R, on peut faire plusieurs choses:


1. Création des données
2. Importation / exportation des données
3. Etude statistique
• Statistique descriptive
• Statistique appliquée
Structures de données
■ Etude et analyse des données nécessite leurs création
ou importation
■ Création des données selon le besoin et la nature
■ R offre plusieurs structures de données
– Structure et pas type !!!!!
■ Les plus utilisés dans les études statistiques, sont:
– Vectors - Factors
– Matrix - Lists
– Data frames
Structures de données – Vector
■ Structure de données élémentaire dans R
■ Formé d'une simple collection ordonnée d'éléments
de même mode.
– Numeric, logical, character
■ Plusieurs fonctions de création :

> c(élément1, élément2, …)


> (1st element : last element)
> seq (1st element , last element)
> seq (1st element , last element, step)
Structures de données – Vector

■ Les nombres décimaux doivent être encodés avec un


point décimal.
■ Les chaînes de caractères doivent être entourées de
doubles guillemets " "
■ Les valeurs logiques sont représentée par TRUE et
FALSE ou bien T et F respectivement.
■ Les données manquantes sont codées par défaut par
la chaîne NA (Note Assigned).
Structures de données – Vector
■ Exemple :
> Vect <- c (1, 2, 3)
> V <- (1:10)
> Tab1 <- seq (1,10)
> Tab2 <- seq (1,10,2)
> Tab3 <- c =("Ahmed", "Ali", "Sarah")
■ Utilisation des étiquettes: deux méthodes!!!
1. > Vect <- c (a=1, b=2, c=3)
2. > Vect <- c (1, 2, 3)
> Names (Vect) =("a", "b", "c")
Structures de données – Vector

■ À vous !!!
>suite <- c (1:10)
>suite1 <- c (1, 5, 2, 48, 6)
>Suite2<- 1:20
>Suite3<- seq(1, 10)
>Suite4<- seq(1, 10,2)
>sort(suite1)
>rev(sort(suite1))
Structures de données – Factor

■ Des vecteurs de données qualitatives.


■ Pas chaine de caractères !!!!
■ Deux types de facteurs
1. Non ordonnés : Homme, Femme
2. Ordonnés : niveaux d'apprentissage.
Structures de données – Factor
■ Les fonctions:

• Deux fonctions possibles pour créer un objet de classe


factor selon le type:
• factor ( ): un facteur non ordonné
• ordered ( ): un facteur ordonné

• levels( ) retourne les modalités de l’objet facteur.


• table ( ) retourne le nombre d’éléments par modalité
Structures de données – Factor

■ La fonction factor ( ) appliquée sur un vecteur


■ Deux manières :
1. Créer un vecteur ensuite appliquer la fonction pour
rendre les données qualificatives
2. Appliquer directement la fonction sur les données
Structures de données – Factor
■ La fonction ordered()appliquée sur un vecteur
– Deux manières de l’utiliser aussi !!
■ Elle admet deux arguments
ordered(x, levels = y)/x,y sont des vecteurs
Structures de données – Matrix

■ R supporte les matrices


■ Des vecteurs à deux dimensions.
■ Des vecteurs dotés d’un attribut dim (dimention) = 2.
■ La fonction de création de matrices est matrix
– Elle admet trois paramètres obligatoirs:
– > matrix (V, nrow= x, ncol=y)
■ V est un vecteur, x et y sont des numériques
Structures de données – Matrix

> Mat<- matrix (1:10, nrow= 2, ncol=5)


■ Mat =????

> Mat<- matrix (1:10, nrow= 2, ncol=5,


+ byrow=T)
■ Mat =????
Structures de données – Matrix
■ Indexation : le moyen le plus simple d’indexer
Vect & Mat est avec les crochets

– Vect [i]
– Mat [i, j]
– Mat [i, ]
– Mat [ , j]
Structures de données – List
■ C’est la structure de données la plus générale et polyvalente
du langage R.
■ C’est un type particulier de vecteur
– Les éléments peuvent être de n’importe quel mode, y
compris le mode list : la récursivité.
■ La fonction de création list( ).
– L’utilisation des étiquettes n’est pas obligatoire
cependant, elle est fortement recommandée :
> list(étiq1=élément1, étiq2=élément2…)
Structures de données – List
■Exp : maliste est une liste de 4 éléments
Structures de données – Data frame

■ Les vecteurs, les matrices et les listes sont les types les plus
fréquemment utilisés en programmation R.
■ Toutefois, pour le stockage des données, un grand nombre de
procédures statistiques repose sur les data frames.
■ C’est une liste dont tous les éléments sont de la même
longueur,
– Même nombre de lignes.
■ Il est représenté sous la forme d’une matrice mais plus général
– Les colonnes sont des vecteurs et peuvent être de modes
différents.
Structures de données – Data frame

■ Il peut être indicé à la fois comme une liste et comme une


matrice.
– Avec des crochets
– Avec l’étiquettes $
■ Il est obtenu par rassemblement de ses composants via la
fonction data.frame

data.frame(nom1=élément1,nom2=élément2, …)
Structures de données – Data frame

■ Dans un data frame:

1. Une ligne représente un individu (une observation).


2. Une colonne représente une variables qualitatives ou
quantitatives
3. L’intersection de chaque ligne et chaque colonne
représente la valeur de chaque variable mesurée pour
chaque observation.
Structures de données – Data frame

■ Exp: comment peut-ont créer cet objet ???


Structures de données – Data frame
■ Exp: comment peut-ont créer cet objet ???
1. Créer deux vecteurs
1. (12, 15.5, 18.25)
2. ("salhi" , "benmouhamed", "slimani")
2. Créer un data frame avec les deux vecteurs en leurs
ajoutant les étiquettes : nom et note
Structures de données – Data frame

• List Vs data frame


Structures de données – Data frame

■ Remarques :
1. Le contenu de la liste (maliste) n’est pas représenté sous forme d’un
tableau.
– C’est pas le type d’objet le mieux approprié pour stocker les données
de la délibération, par exemple.
■ Cependant, un data frame (relevé) dispose plusieurs éléments de différents
modes mais de même longueur en colonnes sous forme d’une matrice.
2. Avoir la même longueur des colonnes est primordiale pour la
construction des data frame.
Indexation

■ Comment accéder aux contenus des objets ?


■ Comment mettre à jours le contenu des objets ?
– L’indexation!!
■ Elle sert principalement à deux choses :
1. Extraire des éléments d’un objet avec l'expression :
x[i] ou x$etiquette
2. Remplacer des éléments d’un objet avec l'expression:
x[i] ← y ou x$etiquette ← y
Indexation
■ L'indexation peut porter sur les différentes structures de
données.
■ Il existe trois façons d’indexer un objet dans le langage R.
1. Indexation directe
2. Indexation par étiquette
3. Indexation par condition
– Avec possibilité de:
1. Assigner
2. Extraire
Indexation – indexation directe
■ Le mode le plus simple d'indexation
■ Indiquer la position des éléments à obtenir.
■ Dans le cas d'un vecteur ou facteur cela permet de
sélectionner un ou plusieurs éléments de l'objet.
Indexation – indexation directe
■ Exemples :
l’écriture v [2, 4, 5] signifie
l’extraction des éléments ayant les
coordonnées (2, 4, 5) dans un objet
à trois dimensions: résultat :
erreur !!! vu que l’objet V est un
vecteur d’une seule dimension.
Indexation – indexation directe
■ Exemples :
■ Possibilité d’omettre quelques éléments en préfixant leurs rangs par le
signe ‘-‘
Indexation – indexation directe
■ Exemples :
■ Dans le cas de matrices ou de data frame: l'indexation prend deux
arguments: le premier concerne les lignes et le second les colonnes.
Indexation – indexation par étiquette

• Fournir l’étiquette de l’élément et non pas son indice


• Cette indexation concerne les objets de class liste,
matrice ou data frame
• Indexation avec le symbole « $ » suivi par le nom de
l’étiquète.
Indexation – indexation par étiquette

• Exemples :
Indexation – indexation par étiquette

• Pour omettre des éléments (avec l’indexation par


étiquette), il n'est pas possible d'utiliser l'opérateur
«-».
• Il faut utiliser les deux fonctions :
1. names, qui renvoie les étiquettes des éléments de
l’objets et
2. which qui renvoie les positions des étiquettes
satisfaisant un critère.
Indexation – indexation par condition

• Condition : C'est une expression logique dont le


résultat est soit TRUE soit FALSE.
• Une condition simple peut comporter un des
opérateurs logique suivant : = =, !=, < , <=, >, >=.
• Une condition composée est combinée de plusieurs
conditions simples avec des connecteurs logiques :
AND (&), OR (|), NOT ( !).
Indexation – indexation par condition

• Exemples
resultant: un vecteur avec autant
d'éléments qu'il y a
d'observations dans l’objet
relevé, et dont la valeur
est TRUE si la condition est
vérifiée et FALSE dans les autres
cas.
Indexation – indexation par condition

• Exemples

une condition
composée
Indexation – indexation par condition

C’est une indexation de lignes, il


■ Utilisation des conditions : Assez simple!!!
– Seuls les éléments correspondant faut donc
à TRUE laisser
seront la deuxième
conservés.
coordonnée vide.
Indexation & Assignation
■ L’indexation n’est pas limitée à l’extraction des données
seulement
■ Elle peut être utilisée pour assigner de nouvelles valeurs aux
éléments indexés (la m àj).
■ Ceci ce fait via l’affectation .
Indexation & Assignation
• Ceci fonctionne pour les différents types d'indexation
évoqués précédemment, avec possibilité de modifier
plusieurs lignes d’un seul coup.
Les packages R
■ Un package est une bibliothèque externe.
■ Il contient des fonctionnalités supplémentaires permettant
d'enrichir les capacités de R.
■ En 2021 plus de 14 000 packages disponibles pour R.
■ Par exemple, le package ggplot2 propose des fonctions pour
réaliser toutes sortes de graphiques avec R.
Les packages R
■ Pour utiliser un package R, il faut passer par deux étapes:
1. L’installation : télécharger le package
 La barre des menus: Packages/Install Package(s).
– Sélectionner le miroir CRAN souhaité.
– Sélectionner le package visé.
 Ou bien : la fonction
> install.packages("ggplot2").
2. Le chargement : indiquer à R que l’on souhaite utiliser
le package, déjà installé, dans la session courante.
– Avec la fonction : > library("ggplot2").
– Cette étape est nécessaire au début de chaque session
dans laquelle le package sera utilisé.
Les noms des packages sont sensibles à la casse !!!!!
Let’s go deep with R

 Avec R, on peut faire plusieurs choses:


1. Création des données
2. Importation / exportation des données
3. Etude statistique
• Statistique descriptive
• Statistique appliquée
Sources externes

 Importation des données (vers R)


 Exportation des données (depuis R)
Importation des données
– Dans la plupart des cas le data set est créé à
partir d’un tableur ou un logiciel de
traitement de texte.
– Exp data.xlsx
Importation des données

– Possibilité d’utiliser l’extension « .txt »


■ Sauvegarder le fichier sous forme texte (*.txt)
Importation des données

■La fonction read.table(" … ") permet


d’importer les données à partir d’un fichier vers la
console R.
• Il est à noter, qu’il faut :
■Importer un fichier existant dans le répertoire R,
ou
■Spécifier le chemin d’accès du fichier en utilisant
« \\ ou bien /» comme suit :
"C:\\Users\\pc\\Desktop\\data.txt" ou bien
"C:/Users/pc/Desktop/data.txt"
Importation des données

■ La commande read.table renomme les variables


automatiquement par V1, V2, V3…
■ Si le fichier contient déjà les noms des variables, il serait
préférable de les utiliser
■ Pour cela, le paramètre « h » (header) peut être utilisé.
■ (h=T) permet d’afficher la première ligne comme étant des
variables.
Importation des données

■ Importer les données pour :


– Les conserver
– Les manipuler
Importation des données

1. Conserver les données


■ Conserver le data set dans un objet R via une affectation.
■ Traiter les variables de l’objet avec :
– Une indexation par étiquète (mydata$taille). Ou
– La commande attach( ) permet de manipuler les
variables séparément.
Importation des données

■ La commande names() permet d’afficher les variables d’un


objet
Importation des données

2. Manipuler les données


■ Les données d’un objet peuvent être éditées par le tableur R.
■ La commande edit ( ) permet de lancer le tableur.
– Possibilité de sauvegarder les modifications dans un
autre objet R
■ La commande fix ( ) permet de lancer l’éditeur, faire
des modifications et de sauvegarder la nouvelle version
Exportation des données

■Apres manipulation des données, il est possible de les exporter


dans vers un autre logiciel (Excel ou Word, par exemple).
■La commande write.table sauvegarde les données d’un
objet R dan un fichier (txt, csv ou sans extension).
Exportation des données

■Exportation vers un fichier txt :

■ Les paramètres de la commande représentent respectivement :


– Le nom de l’objet R source*
– Le chemin et le nom (avec ou sans extension) du fichier destination*
– Le symbole utilisé comme séparateur des données
– row.names, si FALSE indique qu’il ne faut pas créer dans le fichier
une colonne contenant les noms des lignes.
Exportation des données

■Exportation vers un fichier csv :

>write.table(mydata,"C:/Users/pc/Desktop/dataexpo.csv“
+ ,sep=",",row.names=F)
Manipulation des données

■ Plusieurs fonctions proposées par R pour manipuler


les données des objets.
1. Affichage des attributs
2. Fusion des objets
3. Statistiques sur les données des objets
Manipulation des données

1. Affichage des attributs


■ Les fonctions Dim(X), ncol (X) et nrow(X)
retournent respectivement la dimension, le nombre de
colonnes et le nombre de lignes de l’objet X

Notez: Ces fonctions renvoient null si X est un vecteur


ou facteur.
Manipulation des données
2. Fusion des objets

■ cbind(x, y) et rbind(x, y) fusionnent les deux


objets X et Y respectivement horizontalement (en colonne) et
verticalement (en ligne).

Notez : x et y doivent avoir le même nbr d’éléments


Manipulation des données
2. Fusion des objets

■ cbind(x, y) et rbind(x, y) peuvent être utilisées


pour ajouter une variable ou bien une observation à un data
frame

Notez: il faut respecter le nombre de ligne (avec cbind) et le


nombre de colonnes (avec rbind).
Manipulation des données
3. Statistiques sur les données des objets

■ La fonction summary( ) appliqué à un fichier ou à une


variable renvoie les statistiques élémentaires, min, max,
moyenne et les trois quartiles.
Manipulation des données
3. Statistiques sur les données des objets

■ La fonction str( ), retourne le type de chacune des


variables du data frame.
Manipulation des données

3. Statistiques sur les données des objets

■ Possibilité de modifier la classe (le mode) d’une variable


(objet aussi!!)
> x<- as.numeric (x)
> x<- as.factor (x)
> data$fumeur <- as.factor (data$fumeur)
Manipulation des données
3. Statistiques sur les données des objets

■ Possibilité d’avoir les statistiques élémentaires d’une


variable:
– Il faut indexer la variable souhaitée
(data$poid) ou bien
– Utiliser la commande attach( ) !!!
Manipulation des données
3. Statistiques sur les données des objets

■ La fonction tapply( ) calcule une statistique par niveau


d'un facteur.
– Les statistiques sur la taille suivant le sexe.
– Les statistiques sur le sport suivant fumeur ou pas

Notez: il faut s’assurer de la classe du facteur


Let’s go deep with R

 Avec R, on peut faire plusieurs choses:


1. Création des données
2. Importation / exportation des données
3. Etude statistique
• Statistique descriptive
• Statistique appliquée
Statistiques descriptives
Statistique descriptive
■ But:

1. La représentation des données récoltées d'une


façon à les prendre en connaissance plus
facilement
2. Ne pas se perdre dans une masse gigantesque
d'individus chacun possédant plusieurs
caractères.
Statistique descriptive
■ Elle se résume en :

1. Effectuer des distributions statistiques


2. Calculer les caractéristiques nécessaires pour
résumer l'ensemble des données
3. Représenter les données collectées
graphiquement.
Statistique descriptive
■ La statistique descriptive se résume en :
1. Effectuer des distributions statistiques
 La collecte des données

2. Calculer les caractéristiques nécessaires pour résumer


l'ensemble des données
 Caractéristiques de tendance centrale
 Paramètres de Dispersion d'une Distribution

3. Représenter les données collectées graphiquement.


 Les graphiques
Statistique descriptive
■ Besoin:

■ Installer et charger le package "BioStatR".


■ Une collecte de données a été faite par un jardinier
sur ses haricots de quatre espèces différentes.
■ Dans le fichier "Mesures", il a relevé sur chacun des
haricots: la masse, la taille et l'espèce. Il a aussi
numéroté chacun des haricots.
■ Le fichier "Mesures5 " contient, en plus des
informations de Mesures, deux autres variables:
– La masse sèche relevée sur 252 haricots
– Le nombre de graines contenues dans les gousses des
deux espèces glycine blanche et violette.
Statistique descriptive
■ Besoin:

■ > install.packages(“BioStatR”)
> library (BioStatR)
■ Les data sets à étudier : Mesures et Mesurs5.
■ Pour afficher les dix premières lignes de chaque
fichier:
> head (Mesures, 10)
> head (Mesures5,10)
Statistique descriptive
■ La statistique descriptive se résume en :
1. Effectuer des distributions statistiques
 La collecte des données

2. Calculer les caractéristiques nécessaires pour résumer


l'ensemble des données
 Caractéristiques de tendance centrale
 Paramètres de Dispersion d'une Distribution

3. Représenter les données collectées graphiquement.


 Les graphiques
Caractéristiques de tendance
centrale
• Ces caractéristiques servent à synthétiser la série étudiée au
moyen d'un petit nombre de valeurs "caractéristiques".

■ Il s’agit principalement de:


1. La moyenne :via la fonction mean ( ).

2. La médiane : via la fonction median ( )


Paramètres de Dispersion
• Lorsque les données traitées sont issues d'un échantillon. Il faut calculer

1. La variance corrigée : via la fonction var ( ).

2. L’écart type corrigé : via la fonction sd ( ).


Introduction
■ La statistique descriptive se résume en :
1. Effectuer des distributions statistiques
 La collecte des données

2. Calculer les caractéristiques nécessaires pour résumer l'ensemble des


données
 Caractéristiques de tendance centrale
 Paramètres de Dispersion d'une Distribution

3. Représenter les données collectées graphiquement.


 Les graphiques
Représentation graphique avec
R
• Les graphiques sont une source incontournable dans une
étude statistique.
• R propose une diversité des types de graphique
• Très simple à en produire.
• Plusieurs commandes/fonctions sont proposées par R
Représentation graphique avec
R
• Aperçu des graphiques de R:
> demo (graphics)
■ Entrer la valeur "return".
■ Défiler avec "Entrer"

Vous aimerez peut-être aussi