0% ont trouvé ce document utile (0 vote)
51 vues45 pages

Inférence Prevision

Transféré par

Bouzid Aya
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PPTX, PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
51 vues45 pages

Inférence Prevision

Transféré par

Bouzid Aya
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PPTX, PDF, TXT ou lisez en ligne sur Scribd

ECOLE SUPERIEUR DE COMPTABILITE ET DE FINANCE DE

CONSTANTINE

Dr. Djellal A 2023-2024


Inférence et Prévision avec R

■ L’inférence statistique consiste à induire les caractéristiques


inconnues d’une population à partir d’un échantillon issu de cette
population.
■ Les caractéristiques de l’échantillon, une fois connues, reflètent avec
une certaine marge d’erreur possible celles de la population.
■ Ceci peut être réalisé à l’aide de certains tests statistiques.
■ L’environnement R offre la possibilité de réaliser les tests statistiques
les plus utilisés.
■ Les librairies installées par défaut fournissent à l’utilisateur les
fonctions nécessaires pour établir une gamme assez large de tests.
Inférence et Prévision avec R
■Tests d’hypothèses :
– Une évaluation de deux hypothèses qui s'excluent mutuellement H0 et H1

■Exemple d’études empiriques:


1. La taille moyenne des étudiantes du SC est-elle de 1,67m?
2. Les étudiants et les étudiantes du SC ont-ils la même taille ?
3. La taille des étudiantes du SC suit-elle une loi normale ?
4. Le nouveau traitement accélère-t-il la guérison des
malades ?
Inférence et Prévision avec R
■La formalisation de la question num 2 est la suivante:
Les étudiants et les étudiantes du SC ont-ils la même taille
moyenne ?
■C’est l’hypothèse qu’une moyenne de population μ1 est égale à
la moyenne d’une autre population μ2, ainsi :
– Hypothèse nulle H0 : μ1 = μ2
– Hypothèse alternative H1 : μ1 ≠ μ2 (test bilatéral).
■Il est aussi possible générer d’autres hypothèses alternatives :
– H1 : μ1 inférieure à μ2 (test unilatéral à gauche), ou
– H1 : μ1 supérieure à μ2 (test unilatéral à droite)
Inférence et Prévision avec R
■La démarche à suivre pour réaliser un test statistique se résume
en quatre étapes :
i. Création de(s) l’échantillon(s)
ii. Construction des deux hypothèses nulle et alternative
iii. Construction d’une statistique de test, pour laquelle il faut
choisir le test approprié à l’échantillon de données étudié
iv. Prise de décision de rejet ou non de l’hypothèse nulle en se
basant sur la p-value retournée par le test
Inférence et Prévision avec R
La P-value
■C’est la probabilité pour un modèle statistique donné sous
H0 d'obtenir une valeur au moins aussi extrême que celle
observée.
■Elle est utilisée en statistiques inférentielles pour interpréter
le résultat d’un test statistique.
■Pour cela, il faut la comparer à un seuil préalablement défini
(traditionnellement 5 %). Ainsi :
– Si p-value < 5 %, on rejette H0 en faveur de H1 et le résultat du test
est déclaré « significatif ».
– Si p-value > 5 %, on conserve H0
Tests statistiques classiques

1. Test de normalité d’un échantillon


2. Test d’égalité des variances de deux échantillons
3. Test d’égalité des moyennes de deux échantillons
Tests statistiques classiques
1. Test de normalité d’un échantillon
■ Vérifier si la répartition des données d’un certain échantillon
suit la loi normale ou pas.
■ Le test de Shapiro-Wilk est un test offert par R pour une
telle vérification via la fonction [Link] ().
■ Exemple 1 : il est demandé de tester la normalité d'une série
de mesures à partir d'un échantillon d'effectif 10.
■ Les hypothèses à vérifiées sont :
– H0 : l'échantillon suit une loi normale.
– H1 : l'échantillon ne suit pas une loi normale.
Tests statistiques classiques
1. Test de normalité d’un échantillon
■ Vérifier si la répartition des données d’un certain échantillon
suit la loi normale ou pas.
■ Le test de Shapiro-Wilk est un test offert par R pour une
telle vérification via la fonction [Link] ().
■ Exemple 1 : il est demandé de tester la normalité d'une série
de mesures à partir d'un échantillon d'effectif 10.
■ Les hypothèses à vérifiées sont :
– H0 : l'échantillon suit une loi normale.
– H1 : l'échantillon ne suit pas une loi normale.
Tests statistiques classiques
1. Test de normalité d’un échantillon
> série1 <- c (12.124,12.230,12.327,12.242,
+ 12.466,12.215,12.026,12.359,12.215,12.387)
> [Link](série1)
Shapiro-Wilk normality test
data: série1
W = 0.9744, p-value = 0.9283
■ Interprétation du résultat : ????
■ la p-value est significative ( > 5%), on conserve donc H0. Ainsi,
l’échantillon série1 suit une loi normale.
Tests statistiques classiques
1. Test de normalité d’un échantillon
■ Exemple 2 :
> série2 <- edit (série1)
> [Link](série2)
Shapiro-Wilk normality test
data: série2
W = 0.72774, p-value = 0.001912
Interprétation du résultat : ????
La p-value est strictement inférieure à 5%, l’hypothèse de normalité
est donc rejetée. Ainsi, l’échantillon ne suit pas une loi normale.
Tests statistiques classiques
2. Test d’égalité de variances
■ Le test de Fisher (ou F test) permet de comparer les variances
de deux échantillons.
■ La condition : les deux échantillons doivent suivre la loi
normale.
■ R offre une fonction dont le résultat permet cette comparaison,
il s’agit de la fonction [Link]( )
■ Les hypothèses à vérifiées sont :
– H0 : les deux variances sont égales.
– H1 : les deux variances sont différentes.
Tests statistiques classiques

■ Exemple 3 :
> # génération de deux échantillons x et y
suivant la loi normale
> x <- rnorm(50, mean = 0, sd = 2)
> y <- rnorm(30, mean = 1, sd = 1)
Tests statistiques classiques
■ Exemple 3 :
> [Link](x, y) # test F
F test to compare two variances
data: x and y
F = 3.6856, num df = 49, denom df = 29, p-value =
0.0003438
alternative hypothesis: true ratio of variances is not
equal to 1
95 percent confidence interval:
1.851753 6.934233
sample estimates:
ratio of variances
3.685645
■ Interprétation du résultat : p-value < 5%. Ainsi, H0 est rejetée et les variances
des deux échantillons x et y sont significativement différentes.
Tests statistiques classiques
3. Test d’égalité des moyennes
■ Le test de student (ou t-test) est utilisé pour comparer les
moyennes de deux échantillons.
■ Il existe différents variant de ce test :
i. Le t-test pour échantillons unique (one-sample t-test), utilisé
pour comparer une moyenne observée à une moyenne
théorique.
ii. Le t-test non-apparié, utilisé pour comparer les moyennes
de deux échantillons indépendants
iii. Le t-test apparié, utilisé pour comparer les moyennes de
deux échantillons appariées.
Tests statistiques classiques
3. Test d’égalité des moyennes
■ La fonction R à utiliser pour les différents types du test
est [Link]():
>#t-test pour échantillon unique:
comparaison à une moyenne mu
> [Link](x, mu=0)
> # Comparaison des moyennes de deux
échantillons : x et y
> # x et y sont indépendants : Test de
student non-apparié
> [Link](x, y)
> # x et y sont indépendants : Test de
student apparié
> [Link](x, y, paired=TRUE)
Tests statistiques classiques
3. Test d’égalité des moyennes
■ Pour faire un test bilatéral ou unilatéral,
l’argument alternative peut être utilisé.
1. Un t- test bilatéral (:
> [Link](x, y, alternative="[Link]")
2. Un test-t unilatéral inférieur (:
>[Link](x, y, alternative="less")
3. Un test-t unilatéral supérieur (:
>[Link](x, y, alternative="greater")
Tests statistiques classiques
3. Test d’égalité des moyennes
■ Le résultat de la fonction [Link]() contient :
1. parameter : Le degré de liberté
2. [Link] : L’intervalle de confiance de la moyenne à
95% par défaut
3. [Link] : la p-value du test.
■ Interprétation du résultat : Si la p-value < 0.05 alors
l’hypothèse nulle H0 est rejetée et on peut conclure que les
moyennes des deux échantillons sont différentes. Dans le cas
contraire, la conclusion sera de conserver l’hypothèse nulle
H0
Inférence et Prévision avec R

■ L’objectif de l’inférence statistique consiste à


tester la généralisabilité des conclusions de
l’analyse statistique descriptive pour trois
objectifs statistiques:
1. Comparaison d’un groupe d’observation à une
distribution connue.
2. Comparaison de deux groupes d’observations.
3. Évaluation de la liaison entre deux variables.
Inférence et Prévision avec R
Simulation d’estimations par intervalles de confiance

• L’estimation de l'espérance µ par intervalle de confiance est


couramment utilisée en pratique.
• Elle augmente le niveau d’information par rapport à une
estimation ponctuelle.
• Elle permet d’avoir un aperçu des valeurs possibles pour µ.
• Une intervalle de confiance pour µ consiste à trouver deux
bornes, inférieure et supérieure, qui dépendent de
l’échantillon tiré.
Inférence et Prévision avec R
Simulation d’estimations par intervalles de confiance
Étapes à suivre:
i. Importation (création) des données
ii. Représentation des données graphiquement
iii. Test de la normalité des données (facultatif)
iv. Construction de l'intervalle de confiance.

Exemple: une estimation par intervalle de confiance pour


l'espérance  de la variable taille des glycines blanches du fichier
Mesures5 (package BioStatR):
Inférence et Prévision avec R
Simulation d’estimations par intervalles de confiance

i. Importation (création) des données

Extraction des données du fichier Mesures5.

>GB<-subset(Mesures5,espece=="glycine blanche")

■ Avec la fonction subset( ), on peut utiliser


directement le nom de la variable dans la condition (sans
indexation par étiquette)
Inférence et Prévision avec R
Simulation d’estimations par intervalles de confiance

ii. Représentation des données graphiquement


■ Un histogramme est très adéquat à notre variable.
■ C’est une représentation des densités
– Le paramètre freq=F est nécessaire.
■ Possibilité de renforcer l'étude par une 2eme
représentation graphique: un diagramme Quantile-
Quantile: pour illustrer le test de conformité à la loi
normale
– Utiliser les fonctions qqnorm et qqline.
Inférence et Prévision avec R
Simulation d’estimations par intervalles
distribution symétrique qui de confiance
ajustement
ressembleavec
à celle
la loi
d'une
normale.
loi
normale.
ii. Représentation des données graphiquement
■ Pour cela, taper le script suivant:

> par(mfrow=c(1,2))
>hist(GB$taille,freq=F, xlab="Taille"
+ ,ylab="Densité" ,main="histogramme")
> qqnorm(GB$taille)
> qqline(GB$taille)
Inférence et Prévision avec R
Simulation d’estimations par intervalles de confiance
iii. Test de la normalité des données (facultatif)
■ On utilise pour cela le test de Shapiro-Wilk
> [Link](GB$taille)

La probabilité critique associée au test (p-value) est strictement


supérieur à =5% (le test n'est pas significatif au seuil =5%).
Par conséquent on conserve l'hypothèse de la normalité de la
distribution de l'échantillon.
Inférence et Prévision avec R
Simulation d’estimations par intervalles de confiance

iv. Construction de l'intervalle de confiance pour l'espérance  à 95%:


1. Calcul de l'estimation sans biais de la moyenne de la
population mean( ):
> moyenne <- mean(GB$taille)
2. Calcul du quantile d'ordre 0.975 de la loi de Student à 53
degrés de liberté qt ( )
> quantile<-qt(0.975,53)
3. Calcul de l'estimation de l'écart type de la population sd ( ):
> [Link]<- sd(GB$taille)
4. Ainsi, on peut calculer les deux bornes de l'intervalle:
Inférence et Prévision avec R
Simulation d’estimations par intervalles de confiance

iv. Construction de l'intervalle de confiance pour l'espérance  à 95%:


4. Ainsi, on peut calculer les deux bornes de l'intervalle:
– Borne inferieur:
>[Link]<-moyenne-quantile*([Link]/
+sqrt(length(GB$taille)))
– Borne supérieur
>[Link]<-moyenne+quantile*([Link]/
+sqrt(length(GB$taille)))
Inférence et Prévision avec R
Simulation d’estimations par intervalles de confiance
iv. Construction de l'intervalle de confiance pour l'espérance  à 95%:

■ R offre une fonction qui renvoie les deux bornes de l’intervalle


■ Il s'agit de la fonction [Link] ( ),
> [Link](GB$taille)
■ Elle permet de réaliser un test de Student de comparaison d'une
espérance inconnue à une valeur de référence, où la variance est
inconnue.

Conclusion: On peut conclure que la moyenne de taille des


glycines blanches est comprise entre 13.87 et 15.67 à un niveau de
confiance de 95%
Inférence et Prévision avec R
Test de comparaison entre deux échantillons indépendants

■ Une comparaison de deux échantillon peut produire des mesures


appariées ou totalement indépendantes.
– Choix du test !!
■ Étude: l’effet de la vitamine C pour la croissance des dents de
60 cobayes: issu du jus d'orange Vs. l'acide ascorbique, 2 cas :
■ Le taux de croissance est mesuré après l’utilisation du jus
d’orange ensuite après l’injection de l’acide ascorbique.
– Chaque cobaye est associé à deux mesures. Dans cette situation, il s’agit
d’un test pour échantillons appariés.

■ Le taux de croissance est mesuré sur 2 groupes de cobayes. Le


premier a reçu le jus d’orange, le deuxième l’acide ascorbique.
– Toutes les mesures sont indépendantes et chaque cobaye est associé à une seule
mesure. Il s’agit d’un test pour échantillons indépendants.
Inférence et Prévision avec R
Test de comparaison entre deux échantillons indépendants

• Le jus d’orange accélère t-il plus la croissance des dents des


cobayes ? (le seuil  =5%)
• Les données sont regroupées dans le dataset ToothGrowth.

■ H0 « l’effet des deux produits est le même» contre


■ H1 « le jus d’orange accélère plus la croissance »
• Pour répondre à cette question, il faut suivre la démarche suivante:
1. Importation (Création) des donnés.
2. Test de la normalité des deux échantillons
3. Test de l'égalité des variances
4. Test de l'égalité des moyennes
Inférence et Prévision avec R
Test de comparaison entre deux échantillons indépendants

1. Importation (Création) des donnés.


Création de deux vecteurs jus et acide pour contenir les deux
échantillons

> acide<- subset (ToothGrowth, supp== "VC")


> jus<- subset (ToothGrowth, supp== "OJ")
Inférence et Prévision avec R
Test de comparaison entre deux échantillons indépendants

2. Test de normalité des deux échantillons


Il faut vérifier que l'estimateur de la moyenne, dans chaque
échantillon, suit la loi normale.
– Test de Shapiro-Wilk

On peut renforcer le test de conformité à la loi normale en traçant


le diagramme Quantile-Quantile:
> par (mfrow=c(1,2))
> qqnorm(jus, main="test de normalité 'jus'")
> qqline(jus)
> qqnorm(acide, main="test de normalité 'acide'" )
> qqline(acide)
Inférence et Prévision avec R
Test de comparaison entre deux échantillons indépendants

3. Test de l'égalité des variances


■Pour comparer les moyennes des deux échantillons, il existe
deux types de tests:
– Un test quand les variances inconnues des échantillons sont différentes et
– L'autre quand elles sont égales.
■Il faut donc tester l'égalité des variances
– H0 « les variances sont égales » contre l'hypothèse alternative
– H1 « les variances sont différentes » .
■Le test appliqué est celui de Fisher ([Link])
La p-value=0.92 >> 5%. Par conséquent on conserve H0 : égalité des
variances. Le rapport des variances est égal à 0.979 et l'intervalle de
confiance de ce rapport (au seuil 95%) est [0.54, 1.71].
Inférence et Prévision avec R
Test de comparaison entre deux échantillons indépendants
4. Test de l'égalité des moyennes
• Après avoir confirmé l'hypothèse de l'égalité des variances des deux
échantillons, il est maintenant nécessaire de tester l'égalité des
moyennes en appliquant le test de Student en précisant le paramètre
[Link]=TRUE (les variances sont égales)

Comme le p-value = 1.03 * 10-12 < =5%, le test est significatif, il


faut donc rejeter H0 et conserver H1.
On peut donc conclure que H1 est vraie et qu'au risque de 5% Le
jus d'orange accélère significativement plus la croissance des
dents de cobayes que l'acide ascorbique
Inférence et Prévision avec R
Régression linéaire simple
■ Une méthode statistique permettant de modéliser la relation
linéaire entre deux variables quantitatives
■ Son objectif peut être explicatif ou prévisionnel
■ Deux variables sont reliée par un modèle linéaire :
– X variable explicative
– Y variable à expliquer (y)

y= 0 + 1 x + 
■ Pour cela, il faut estimer les paramètres 0 (l'ordonnée à
l'origine ou intercept) et 1 (la pente) à partir d'un échantillon de
n couple (xi, yi).
Inférence et Prévision avec R
Régression linéaire simple
■ Une fois les paramètres estimés, on obtient la droite de
régression:
f(x)= 0 + 1 x + 
■ Ainsi, il est possible de:
– Expliquer la variable y en utilisant la variable x
– Effectuer des prévisions de y tout en connaissant x.
Inférence et Prévision avec R
Régression linéaire simple
■ En résumé, il faut suivre les étapes suivantes:
1. Importer (créer) les données
2. Représenter le nuage de points (xi, yi)
3. Estimer les paramètres
4. Tracer la droite de régression
5. Analyser les résidus
6. Prévoir de nouvelles valeurs
Inférence et Prévision avec R
Régression linéaire simple
■ Exemple:
■ Dans ce qui suit un exemple d'une régression linaire pour
étudier la relation entre la taille et la masse des lauriers
rose du data set Mesures (BioStatR).
Inférence et Prévision avec R
Régression linéaire simple

1. Importer (créer) les données


>LR<-subset(Mesures,espece== "laurier rose")

2. Représentation du nuage de points des couples (xi, yi)


>plot (taille~masse, data=LR, pch=19)
Ce qui en résulte au graphe suivant, indiquant que la liaison entre la
masse et la taille des lauriers est plutôt linaire.
Inférence et Prévision avec R
Régression linéaire simple
3. Estimation des Onparamètres
s'intéresse beaucoup plus aux paramètres
estimés: les coefficients 0 (l'ordonnée à
■ La fonction lm ( ), pour
l'origine linear etmodel,
"intercept") permetDans
1 (la pente). d'ajuster
cette un
modèle linéaire:
étude, la ponte est égale à 1.70 et l'ordonnée à
> droite <- l'origine
Les valeurs lm(
de Rtaille
2 à 6.41. ~ masse, data=
(0.7068) ainsi que le R2 ajusté LR)
L'estimation
■ Plusieurs de la
(0.7026)informations
confirmentl'écart typeestrésiduel
p-value
peuvent inférieure
être
l'hypothèse tirées à 5%
de
de relation pour
l'objet la
droite
linaire en
vaut 1.12
appliquant
entre avec
lesla un
fonction
deux nombre
pontesummary
variables. de degrés de 70%
indiquant
Précisément unedes valeurs
liaison
liberté associé de
de la variable 70. sont expliquées
significative
taille entre les
par deux
massevariables
taille et masse.
Inférence et Prévision avec R
Régression linéaire simple
■ Interprétation des résultats (qualité du modèle)
■ La qualité du modèle linéaire repose sur plusieurs points clés:
1. Les coefficients (intercept et pente) qui indiquent l'équation de la
ligne de régression.
2. La p-value associée aux coefficients teste l'hypothèse nulle.
3. Le coefficient de détermination R² mesure la proportion de la
variance la variable à expliquer par la variable explicative. Un
R² proche de 1 indique un bon ajustement du modèle aux
données.
4. Les résidus (différences entre valeurs observées et prédites)
doivent être aléatoirement distribués autour de zéro dans
l’intervalle [-2, 2] pour que le modèle soit approprié.
Inférence et Prévision avec R
Régression linéaire simple
■ Ces coefficients peuvent être obtenus directement par la
fonction coef ( )
Inférence et Prévision avec R
Régression linéaire simple
4. Droite de régression
■ Sur le nuage de points, il faut ajouter la droite de régression.
> plot(taille ~masse, data=LR, pch=19)
> droite <- lm( taille ~ masse, data= LR)
> abline (droite, col="red", lwd=2)
Inférence et Prévision avec R
Régression linéaire simple
5. Analyse des résidus: (des résidus qui ont de même variances):
i. Utiliser les résidus studentisés via la fonction rstudent ( ).
ii. Représenter graphiquement ces résidus via la fonction plo ( ).
– Notez: 95% des résidus se trouvent dans l'intervalle [-2, 2].
– On trace des lignes pour préciser ces bornes via la fonction abline ( ).
L'analyse montre que
seulement un seul résidu se
> residus<- rstudent(droite)
trouve à l'extérieur de
>plot(residus,pch=15,cex=0.5, ylab="Résidus")
l'intervalle [-2, 2].
>abline(h=c(-2,0,2),lty=c(2,1,2), lwd=2, col
+ = c ("red" , "black", "red“))
Inférence et Prévision avec R
Régression linéaire simple
6. Prévision de nouvelles valeurs
■Ayant une nouvelle valeur de la variable explicative (masse), on
peut calculer la valeur de la variable expliquée (taille): predict
()
■Avec un paramètre de type data frame ayant le même nom de la
variable explicative :
> x<- [Link](masse=4.8)
■ Notez: une valeur prédite est de peu d'intérêt sans l'intervalle de
confiance associé. Pour cela il faut ajouter le paramètre
interval="pred"
> predict (droite, x, interval="pred")

Vous aimerez peut-être aussi