Analyse de la variance :
Mme Hamdad
1 Introduction
Il s’agit d’étudier la relation qui existe entre une variable quantitative dépendante
Y et une variable qualitative X appelée facteur à K modalités (niveaux). X per-
met de scinder la population en K groupes. Chacun relatif à une modalité. Le
but de l’ANOVA est d’étudier l’effet de X sur Y est cela en comparant les
moyennes des différents groupes.
Exemple 1 - Effet d’un médicament sur l’âge.
- Effet des méthodes d’enseignement d’un certain module sur les notes obte-
nues.
- Effet de deux facteurs types de niveau de responsabilité et âge sur le stress.
2 ANOVA à un facteur
Notations : Notons
- X : Variable qualitative à K P
modalités.
- nk : Taille du groupe k, n = nk .
- A l’intérieur de chaque groupe k, les observations sont indépendantes de
moyennes uk et de variance σ 2 . Ces derniers sont des paramètres inconnus es-
timés empiriquement par respectivement :
nk
1 X
Y k. = yki ,
nk i=1
et
K nk
1 XX
S2 = (yik − y k. )2
n−k i=1
k=1
Le modèle d’ANOVA1 s’écrit
yik = uk + eik , i = 1, ..., nk . (1)
tels que, E(eik ) = 0 et V ar(eik ) = σ 2 .
2.1 Test ANOVA1
Il s’agit d’étudier l’effet d’un facteur à k niveaux sur une variable qualitative
X.
La somme des écarts (Sum of Square) totale est décomposée comme suit :
SST = SSW + SSB
1
telles que
• SST= Somme des écarts quadratiques Totale,
nk
K X
X
(yki − y .. )2 (2)
k=1 i=1
• SSW= Somme des écarts quadratiques résiduels,
nk
K X
X
(yki − y k. )2 (3)
k=1 i=1
• SSB = Somme des écarts quadratiques inter groupes.
K
X
nj (yk. − y .. )2 (4)
k=1
Pour comparer l’effet du facteur X sur Y , on teste l’hypothèse H0 : u1 = ... = uk
contre l’alternative H1 :∃(j, k) / uj 6= uk . Avant d’effectuer ce test, on dresse
le tableau de l’ANOVA1 suivant :
ddl Somme des écarts : SS Somme des écarts moyen : M S F
SSB M SB
Modèle inter K −1 SSB M SB = K−1 F = M SW
Modèle intra n−K SSW M SW = SSW
n−K
Total n−1 SST M ST = SST
n−1
M SB
Par suite on calcul la statistique F = M SW qui suit une loi de Fisher à
(k − 1, n − k) degré de liberté. On compare cette dernière à la valeur tabulée de
Fisher au seuil α.
• Si sous H0 , F > f , alors nous rejetons H0 qui avait α chance de se réaliser.
• Sinon H0 est accepté, ce qui indique que la variable X n’a pas d’effet
linéaire sur Y .
Lorsque H0 est rejetée, un second test est effectué, pour vérifier si la différence
entre les moyennes est significative, donc on teste l’hypothèse H0 : mj = mk
contre H1 : mj 6= mk pour j 6= k.
La statistique de test suivante est utilisée :
Y j. − Y k.
T =√ q (5)
M SE n1j + 1
nk
qui suit une loi de Student à (n − k) ddl. M SE représente M SW.
Exemple 2 ANOVA à 1 facteur : :Une enquête a porté sur le niveau de
satisfaction des étudiants sur trois matières enseignées. Les indices de satisfac-
tion, notés de 0 à 20, obtenus sont :
2
EPS 6 10 8 9 7
Didactique 8 12 10 10 15
Statistique 3 4 4 5 4
On aimerait savoir si les étudiants préfèrent certaines matières plus que
d’autres. Le facteur est la matière avec 3 modalités . Dans ce qui suit les
différentes commandes R pour effectuer cette ANOVA1 sont présentées :
Organisation des données
X<-c( 6,10,8,9,7,8,12,10,10,15,3,4,4,5,4)
Matire<-rep(1:3,c(5,5,5))
Matire<-factor(algo)
Donnes <- data.frame(Mati\‘ere,X)
Application de l’ANOVA1 :
model=lm(X~Matire,data=Donnes)
anova(model)
Résultats
Analysis of Variance Table
Response: X
Analysis of Variance Table
Response: X
Df Sum Sq Mean Sq F value Pr(>F)
algo 2 123.33 61.667 0.0002157 ***
Residuals 12 40.00 3.333
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Au seuil α=5%, f (2, 12) = 3, 88, donc F = 18, 5 > f = 3, 88, on rejette H0 et
les étudiants ont des préférence. En effet, P r(f > F ) < 0.05. Dans un deuxième
temps, on compare les moyennes des matières deux à deux, en utilisant le t-test :
> pairwise.t.test(X,algo)
Pairwise comparisons using t tests with pooled SD
data: X and algo
1 2
2 0.02331 -
3 0.00936 0.00017
P value adjustment method: holm
On remarque, que deux à deux la différences entre les matières est significa-
tives au seuil α = 5% ( les p-value sont inférieures à 0, 05).
3
3 ANOVA à deux facteurs
Il s’agit d’étudier l’effet de deux facteurs ; A à J modalités et B à K modalités
sur la variable dépendante Y . Le modèle avec intéraction s’écrit
yijk = u... + αj + βk + γjk + eik , i = 1, ..., njk = c, j = 1, ..., J, k = 1, ..., K.
Pour garantir l’unicité
P de la solution,
P les contraintes
P d’identifiabilité
P suivantes
sont posées : ∀j, j αj = 0 et k γjk = 0, ∀k, k βk = 0 et k γjk = 0.
Les paramètres inconnus αj , βk et γjk représentent l’effet du facteur A, du
facteur B et de l’intéraction respectivement.
P Ils sont estimés par :
yijk
- αj est estimée par y .j.. − y ... = nj. − y ... .
- βk est estimée par y ..k − y ... .
- γjk est estimée par y ..jk − y .j. − y .k + y ... .
L’écart quadratique (Sum of Square) totale se décompose en :
SST = SS1 + SS2 + SSI + SSE.
tels que :
- SST = ijk (yijk − y ... )2
P
PJ
- SS1 = CK j=1 (y .j. − y ... )2
PK
- SS2 = CJP k=1 (y ..k − y ... )2
- SSI = C jk (y .jk − y .j. − y ..k + y ... )2
- SSE = ijk (yijk − y .jk )2 .
P
tels que
J K C
1 XXX
Y ... = yijk ,
JKC j=1 i=1
k=1
C
K X
1 X
Y .j. = yijk ,
KC
k=1 i=1
J C
1 XX
Y ..k = yijk ,
JC j=1 i=1
et
C
1 X
Y .jk = yijk .
C i=1
Tableau ANOVA à deux facteurs :
ddl Somme des écarts : SS Somme des écarts moyen : M S F
SS1 M S1
Facteur1 J −1 SS1 M S1 = J−1 F1 = M SE
SS2 M S2
Facteur2 K −1 SS2 M SW = K−1 F2 = M SE
SSI M SI
Intéraction (J − 1)(K − 1) SSI M SI = (J−1)(K−1) FI = M SE
SSE
Résidu JK(C − 1) SSE M SE = JK(C−1)
SST
Total JKC − 1 SST M ST = JKC−1
4
Remarque 3 S’il y a absence de l’effet d’intéraction, on suppose le modèle
additif, obtenu en supprimant le paramètre d’intéraction du modèle présenté ci-
haut. Dans ce cas le tableau d’ANOVA à deux facteurs est obtenu en substituant
la ligne erreur du tableau ci-dessous haut à la ligne intéraction. Et donc la ligne
erreur sera supprimée.
ddl Somme des écarts : SS Somme des écarts moyen : M S F
SS1 M S1
Facteur1 J − 1 SS1 M S1 = J−1 F1 = M SE
SS2 M S2
Facteur2 K − 1 SS2 M SW = K−1 F2 = M SE
SSE
Résidu (J − 1)(K − 1) SSE M SE = (J−1)(K−1)
SST
Total JKC − 1 SST M ST = JKC−1
Pour tester les effets du facteur1, facteur2 et de l’intéraction, on pose les
hypothèses suivantes :
- Effet du facteur1 : H01= αj = 0,∀j = 1, ..., J contre H11=∃j, tel que
αj 6= 0.
- Effet du facteur2 : H02=βk = 0, ∀k = 1, ..., K contre H12 :∃k, tel que
βk 6= 0.
- Effet de l’intéraction : H03=γjk = 0, ∀j = 1, ..., J, k = 1, ..., K contre
H13 :∃j, k tel que γjk 6= 0.
Test :
- Si sous H01, F1 > f1 , tels que f1 est la valeur tabulée de Fisher à
(J − 1, JK(C − 1) degré de liberté au seuil α, alors le premier facteur a un
effet sur Y .
- Si sous H02, F2 > f2 , tels que f2 est la valeur tabulée de Fisher à
(K − 1, JK(C − 1) degré de liberté au seuil α, alors le deuxième facteur a
un effet sur Y .
- Si sous H03, F3 > f3 , tels que f3 est la valeur tabulée de Fisher à (J−1)(K−
1), JK(C − 1) degré de liberté au seuil α, alors il existe un effet d’interaction
des deux facteurs sur Y .
Example 4 Anova à 2 facteurs sans intéractions : Le stress dans une entreprise
est étudié selon l’âge et le degré de responsabilité, le tableau des moyennes est
donné comme suit :
Age¡50 Age¿50 Y j.
Technicien 15,000 9,6667 12,3333
Cadre Inf 15,1667 15,8333 15,5000
Cadre Sup 14,5000 26,1667 20,3333
Y .k 14,8889 17,2222 16,0556
Le tableau de l’ANOVA2 sans intéraction est donnée par
5
ddl SS MSS
Effet de l’age 1 417.7785 417.7785
Effet respon 2 165.0003 82.50
Résidu 2 74.3296 37.164
Total 5 657.1084
pour tester l’effet de l’age au seuil α = 5%, on pose les hypothèse suivante :
H01= αj = 0,∀j = 1, 2. Contre H11=∃j = 1, 2, tel que αj 6= 0.
sous H01, on a F = 417.7785
37.164 = 11. 241 < 18.51,
Ainsi, on accepte H01, et donc l’age n’a pas d’effet sur le stress.
Pour tester l’effet de la responsabilité au seuil α = 5%, on pose les hypothèses
suivantes :
H02=βk = 0, ∀k = 1, 2, 3. Contre H12 :∃k = 1, 2, 3, tel que βk 6= 0
82.50
sous H02, on a F = 37.164 = 2. 219 9 < 19,
Et le niveau de responsabilité n’a pas d’effet sur le stress.