0% ont trouvé ce document utile (0 vote)
49 vues10 pages

Analyse de la variance et régression linéaire

Transféré par

Maxime Kouadio
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
49 vues10 pages

Analyse de la variance et régression linéaire

Transféré par

Maxime Kouadio
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Analyse de la variance et modèle linéaire simple

1 ANALYSE DE LA VARIANCE

1 Analyse de la variance
Dans ce paragraphe, on ne traitera que que l’analyse de la variance à un facteur.
Cette situation est un cas particulier de l’étude de la relation entre deux variables statistiques, une
quantitative Y et une qualitative X ou facteur qui engendre une partition ou classificationde l’échan-
tillon en J groupes, cellules ou classes indicées par j. L’objectif est de comparer les distribution de
Y pour chacune des classes en particulier les valeurs des moyennes et des variances. De manière plus
simple, l’analyse de la variance peut être regardée comme une méthode qui sert à étudier les diffé-
rences de moyennes entre populations (par exemple, trois populations ont elles la même moyenne ? ou
autrement dit, les différences de moyenne entre les trois populations sont elles significatives ?).

Pour illusttrer ce qui précède, supposons que nous ayons J groupes de n sujets assignés au hasard
à un niveau d’un traitement A. Le groupe 1 subira le nibveau 1 du traitement A, le groupe 2 subira le
niveau 2, etc. Les données sont résumées dans le tableau suivant :

sujet\niveau de A niveau 1 niveau 2 .... niveau J


1 Y11 Y11 .... Y1J
2 Y21 Y22 .... Y2J
3 Y31 Y32 .... Y3J
... .... .... .... ....
p Yn1 Yn1 .... YnJ
moyenne Y.1 Y.2 .... Y.J

Chaque moyenne Y.j regroupe n individus et la moyenne générale Ȳ regroupe n × J individus. L’objet
de l’analyse de la variance (ANOVA) est de comparer ces différentes moyennes sans passer par des
tests successifs de Student. Plus généralement, nous avons le modèle statistique suivant :

1.1 Modèle statistique


Pour chaque niveau j de X (population j, traitement j, ...), on observe nj valeurs Yij de la variable Y .
On pose N = kj=1 nj . On suppose que, à l’intérieur de chaque cellule (population), les observations
P

sont indépendantes, équidistribuées de moyenne µj et de variance homogène σj2 = σ 2 . Le modèle associé


s’écrit alors :
Yij = µj + ij , j = 1, ..., J; i = 1, ..., nj .
Les ij sont indépendantes et de même loi centrée supposée être N (0; σ 2 ) pour les futurs tests. Les
paramètres inconnus sont µ1 , µ2 , ..., µk , σ 2 . Ils seront estimés à partir des observations.

Remarque :

Il existe une autre écriture du modèle précédent :

Yij = µ + βj + ij

βj = µj − µ, l’effet (fixe) de traitement j,


ij = Yij − µj , le résidu (de l’individu i dans le groupe j)
µ = N1 kj=1 nj µj ( j nj βj = 0)
P P

2
1.2 Estimation

1.2 Estimation
On note

nj nj nj J
1 X 1 X 1 XX
Yj = Yij , s2j = (Yij − Y j )2 et Y = Yij
nj nj n
i=1 i=1 i=1 j=1

les moyennes et variances dans chaque cellule (population) et la moyenne sur tout l’échantillon. Les
paramètres µj sont alors estimés (sans biais) par Y j .
Soit la décomposition des sommes de carré

(Yij − Y ) = (Yij − Y j ) + (Y j − Y ),

(Yij − Y ) représente l’ecart total,


(Yij − Y j ) représente l’ecart résiduel,
(Y j − Y ) représente l’ecart factoriel,
et donc

nj
J X nj
J X nj
J X
X X X
2 2
(Yij − Y ) = (Yij − Y j ) + (Y j − Y )2 ,
j=1 i=1 j=1 i=1 j=1 i=1

SCT (total) = SCR(within, intra) + SCF (between, inter).

1.3 Test
Il s’agit de la comparaison de plusieurs moyennes sans utiliser le test de Student qui compare les
moyennes deux à deux.

– Hypothèses à tester

On considère alors l’hypothèse


H0 : µ1 = µ2 = ... = µJ

qui revient à dire que la moyenne est indépendante du niveau ou que le facteur n’a pas d’effet,
contre l’hypothèse
H1 : ∃ (i, k) tel que µi 6= µk

qui revient à reconnaitre un effet ou une influence du facteur sur Y .

– Estimation des variances

Les estimations des variances associées sont :

SCT
– Variance totale : N −1
– Variance due au facteur : SCF 2
J−1 , estimateur de σ si H0 est vraie
SCR 2
– Variance résiduelle : N −J , estimateur de σ quelque soit le modèle

3
1 ANALYSE DE LA VARIANCE

– Critère de décision

L’étude de de cette hypothèse revient à comparer par un test de Fisher un modèle complet (les
moyennes sont différentes) à un modèle réduit (les moyennes sont égales).
Soit
SCF/J − 1
F =
SCR/N − J
Sous H0 , F suit une loi de Fisher F (J − 1, N − J). Soit α le risque d’erreur et Fseuil =
F(1−α) (J − 1, N − J) le quantile d’ordre (1 − α) de la loi de Fisher F (J − 1, N − J). On note
Fobs la valeur de F calculée à partir des données, alors

– Conclusion : règle de décision

– si Fobs > Fseuil l’hypothèse H0 est rejetée au risque d’erreur α : le facteur controlé a un effet
significatif en moyenne sur les valeurs de la variable étudiée.
– si Fobs ≤ Fseuil l’hypothèse H0 est acceptée : le facteur controlé n’a pas d’effet significatif en
moyenne sur les valeurs de la variable étudiée.

– Remarque

La p-valeur = P (Fobs ≤ F ), on rejette H0 si p − valeur < α.

Exemples :

1) Echantillons de même taille

Dans 4 usines différentes, on a choisi au hasard 4 personnes et on a mesuré, avec la même échelle, leur
satisfaction au travail, on a observé

Usine (J=4) A B C D
45.5 41.8 43 37.2
46 42.9 43 37.8
Satisfaction
47.7 43.3 44 41.2
(nj =4) 58 45.8 45 42.8

Ȳj 49.3 43.45 43.75 3975

s2j 34.5267 2.8567 0.9167 7.2367

et N = 16 et Y = 44.06. Le tableau ANOVA est le suivant


α = 0.05, F(1−α) (3, 12) = 3.49. Comme Fobs = 5.45 > F(0.95) (3, 12) = 3.49, on rejette l’hypothèse H0
d’égale satisfaction moyenne dans les usines (p − valeur = 0.01345 = P (F (3, 12) > 5.45) < 0.05).

2) Echantillons de tailles différentes

4
Variation SC ddl CM Fobs
SCF Factorielle 186.01 3=J-1 62.00 5.45
SCR Résiduelle 136.61 12=N-J 11.38
SCT Totale 322.62 15=N-1 CMR=SCR/N-J

On demande de comparer sur la base des données ci-dessous le contenu en sulfure de cinq veines
de charbon.
j 1 2 3 4 5=J
1.51 1.69 1.56 1.30 0.73
1.92 0.64 1.22 0.75 0.80
1.08 0.9 1.32 1.26 0.9
2.04 1.41 1.39 0.69 1.24
2.14 1.01 1.33 0.62 0.82
1.76 0.84 1.54 0.90 0.72
1.17 1.28 1.04 1.20 0.57
159 2.25 0.32 1.18
1.49 0.54
1.30
Yj 1.66 1.17 1.46 0.88 0.88 Y = 1.189
s2j 0.175 0.144 0.115 0.123 0.074
nj 7 8 9 8 10 N=40

Le tableau ANOVA est le suivant (N = 42, J = 5)

Variation SC ddl CM Fobs


SCF Factorielle 3.935 4=J-1 0.984 8.066
SCR Résiduelle 4.497 37=N-J 0.122
SCT Totale 8.432 41=N-1 CMR=SCR/N-J

α = 0.01, F(1−α) (4, 37) = 3.83. Comme Fobs = 8.066 > F(0.99) (4, 37) = 3.83, on rejette l’hypothèse H0
que le contenu moyen est le même. (p − valeur = 0.000088 = P (F (4, 37) > 8.066) < 0.01)).

2 Modèle linéaire simple


2.1 Introduction
Dans de nombreuses situations, on cherche à expliquer des différences observées sur un caractère
statistique, en les attribuant à l’effet d’autres caractères mesurés sur les mêmes individus. Dans l’analyse
de variance, les caractères explicatifs (facteurs) ne pouvaient prendre qu’un nombre fini de modalités.
Les modèles de régression sont surtout adaptés aux cas où les caractères explicatifs sont continus.
La modélisation probabiliste considère que la mesure (à expliquer) effectuée sur un individu donné
est une variable aléatoire, dont la loi dépend des valeurs prises sur cet individu par les caractères
explicatifs, considérés comme déterministes. Si Yi désigne la variable aléatoire associée à l’individu i,

5
2 MODÈLE LINÉAIRE SIMPLE

(1) (2) (k)


et (xi , xi , ..., xi les valeurs prises pour cet individu par les caractères explicatifs (x(1) , x(2) , ..., x(k) ,
on séparera l’effet déterministe et l’effet aléatoire par un modèle du type :
(1) (2) (k)
Yi = f (xi , xi , ..., xi + i )
où (1 , 2 , ..., n ) est un -uplet de variables aléatoires indépendantes et de même loi.
On parle alors de modèle de régression. La fonction f dépend de un ou plusieurs paramètres inconnus
que l’on doit estimer.

Nous considérons seulement la régression linéaire simple :


Yi = f (xi ) + i = axi + b + i
où 1 , 2 , ..., n est un échantillon de la loi normale N (0, σ 2 ).

En d’autres termes, on suppose que les Yi sont des variables aléatoires gaussiennes indépendantes,
d’espérances axi + b distinctes, mais de même variance σ 2 . Le modèle comporte 3 paramètres inconnus
a, b, et σ 2 .

2.2 Objectif
Comme toutes les techniques prédictives, la régression linéaire a deux objectifs :

– construire un modèle dont les paramètres soient interprétables par le praticien en termes de pro-
priétés de la population dont est extrait l’échantillon. On espère bien entendu que les paramètres
du modèle seront de bons estimateurs des paramètres de la population sous-jacente.
– utiliser le modèle pour faire des prédictions.

Exemples :

Le domaine d’excellence de la régression est l’expérimentation. Pour chaque unité expérimentale (par
exemple une parcelle), on fixe une valeur de x (par exemple une dose d’engrais). A l’issue de l’expé-
rience (culture), on mesure y (par exemple le rendement). Le tableau suivant récapitule trois exemples
d’application.

cas unité expérimentale variable explicative variable expliquée


1 parcelle quantité d’azote rendement
2 gâteau température de cuisson degrè de cuisson
3 rayon de magasin nombre de facings quantité vendue

Dans le cas 2, on s’intéresse à l’influence de la température de cuisson de gâteaux sur leur degré de
cuisson apprécié par un jury. Dans le cas 3, on evalue l’influence du nombre de produits d’une même
référence, présentés de face (facings) dans un rayon de magasin, sur la quantité vendue.

2.3 Estimation des paramètres du modèle : la méthode des moindres carrés


Nous supposons que nous disposons d’un échantillon (x1 , y1 ), (x2 , y2 ), ..., (xn , yn ) où (xi , yi ) sont les
valeurs observées de (X, Y ) sur l’unité i. Le modèle de régression simple étant
Yi = axi + b + i

6
2.3 Estimation des paramètres du modèle : la méthode des moindres carrés

où chaque i N (0, σ 2 ). On cherche à estimer a et b à partir de l’échantillon ci-dessus. Le principe


des moindres carrés revient à estimer a et b par les valeurs qui minimise l’expression suivante (l’erreur
quadratique) :
Xn
(yi − b − axi )2 .
i=1

Les valeurs de a et b qui minimisent l’erreur quadratique s’expriment en fonction des moyennes, va-
riances et covariances empiriques de X et de Y . Rappelons que :

– les moyennes empiriques de X et de Y ,


n n
1X 1X
x= xi , y= yi ,
n n
i=1 i=1

– les variances empiriques de X et Y ,


n n n n
! !
2 1X 2 1X 2 1X 2 1X 2
SX = xi − xi ) , SY2 = yi − yi ) ,
n n n n
i=1 i=1 i=1 i=1

– la covariance de X et Y ,
n n n
!
2 1X 1X 1X
SXY = xi y− xi )( yi ) ,
n n n
i=1 i=1 i=1

– le coefficient de corrélation linéaire


S2
rXY = q XY .
2 S2
SX Y
Pn
Ainsi on admet que les valeurs de a et b qui minimisent i=1 (yi − b − axi )2 sont données par
2
SXY
– â = SX2

– b̂ = y − âx.

Remarques :
1. â et b̂ s’appellent les estimateurs des moindres carrés de a et de b.
2. ŷ = âx + b̂ s’appelle la valeur estimée ou la prédiction de y.
3. La droite d’équation ŷ = âx + b̂ s’appelle la droite de régression estimée de Y sur X.
4. i = yi − yˆi s’appelle le résidu de l’observation i.
5. La somme des carrés des résidus est
n
X n
X
2i = (yi − âxi − bˆi )2 .
i=1 i=1

7
2 MODÈLE LINÉAIRE SIMPLE

Exemple :

On a les données suivantes :

x 12.8 13.9 14.1 14.7 15.0 15.1 16.0 16.5 16.6 17.2 17.9
y 110 54 98 50 67 58 52 50 43 15 28

On cherche la droite de régression de y en x. Les calculs donnent

2 2
x = 15.43 y = 56.81 SX = 2.17 SXY = −31.96 â = −15.11 b̂ = 290.06.

Ainsi, la droite de régression a pour équation :

y = −15.11x + 90.06.

2.4 Inférence sur le modèle


Commençons par estimer la variabilité qu’il y’a sur la perterbation . Un estimateur sans biais de σ 2
est donné par l’expression suivante :

n
1 X 2
S2 = yi − (âxi + b̂) .
n−2
i=1

De même, les variances de â et b̂ sont estimées par

S2 1 2 (x̄)2
Sâ2 = 2 Sb̂2 = S (1 + 2 )
nSX n SX

Les résultats suivants permettent de calculer les lois des différents estimateurs, et donc d’en déduire
des tests sur les valeurs des paramètres :

– distribution de â
s
nSX2
1
ta = (â − a) = 2
(â − a) suit une distribution de Student à (n-2) degrés de liberté.
Sâ S

– distribution de b̂

1   s n  
tb = b̂ − a = (x̄)2
b̂ − b suit une distribution de Student à (n-2) degrés de liberté.
Sb̂ 2
S (1 + 2 )
 SX

– distribution de S2
S2
(n − 2) suit la loi du chi-deux χ2(n−2) .
σ2

8
2.4 Inférence sur le modèle

2.4.1 Intervalle de confiance pour a et b


Soit α ∈]0, 1[. On note t1−α/2 le quantile d’ordre (1 − α/2) de la loi de Student à (n-2) degrés de liberté.
En utilisant ce qui précède, nous déterminons les intervalles de confiance de niveau (1 − α) des para-
mètres a et b de la façon suivante :
" r r #
nSX2 nSX2
– a ∈ â − t1−α/2 2
S
, â + t1−α/2 2
S
 
r n
r n
– b ∈ b̂ − t1−α/2 (x̄)2
, b̂ + t1−α/2 (x̄)2

S2 (1+ 2 ) S2 (1+ 2 )
S S
X X

Exemple :

En utilisant les données du tableau précédent et en prenant α = 0.05, nous avons :

n = 11, ddl = n − 2 = 9, t0.975 = 2.262, S2 = 261.95, SX


2 = 240.72, S 2 = 683.96, et donc
Y

a ∈ [−22.59; 7.63] b ∈ [274.49; 305.63]

2.4.2 Test sur a


L’hypothèse que l’on souhaite tester est que le caractère explicatif n’apporte pas d’information, c’est-
à-dire que la pente a de la droite de régression linéaire est nulle :

H0 : a = 0 (contre H1 : a 6= 0)

On utilisera, comme variable de décision, la distribution ta présentée dans le paragraphe 2.4 explicié
au dessus. La statistique du test est donc
s
nSX2
t= â
S2

Pour un risque α, la règle de décision pour un test bilatéral est :


 
rejet de H0 ⇔ t ∈
/ −t1−α/2 , t1−α/2

t1−α/2 est le quantile d’ordre (1 − α/2) de la loi de Student à (n − 2) degrés de liberté.

Exemple :

Nous reprenons les données précédentes. Nous allons tester H0 : a = 0 contre H1 : a 6= 0 avec
−15.11
un risque α = 0.05. La statistique du test vaut ta = 16.18 √
23.92
= −4.56, t0.975 = 2.262. Comme
ta ∈
/ [−2.262; 2.262], l’hypothèse H0 est rejetée.

2.4.3 Intervalle de prédiction de Y sachant X = x0


L’ajustement affine étant réalisé, il peut servir à prévoir la valeur attendue pour Y quand l’expérimen-
tateur fixe X = x0 . L’estimation ponctuelle de cette valeur est ŷ = âx0 + b̂.

9
2 MODÈLE LINÉAIRE SIMPLE

Au risque α, l’intervalle de prédiction de valeur prise par Y est


" s s #
1 (x̄ − x0 )2 1 (x̄ − x0 )2
âx0 + b̂ − t1−α/2 S 1 + + 2 ; âx0 + b̂ + t1−α/2 S 1 + + 2
n nSX n nSX

Exemple :
Supposons que X est fixé à 15.5 et que α = 0.05. L’intervalle de prédiction de Y est le suivant
[17.52; 94.08].

10

Vous aimerez peut-être aussi