Analyse de la variance :
Mme Hamdad
1 Introduction
Il s’agit d’étudier la relation qui existe entre une variable quantitative dépen-
dante Y et une variable qualitative X appelée facteur à K modalités (niveaux).
X permet de scinder la population en K groupes. Chacun relatif à une moda-
lité. Le but de l’ANOVA est d’étudier l’e¤et de X sur Y est cela en comparant
les moyennes des di¤érents groupes.
Exemple 1 - E¤ et d’un médicament sur l’âge. - E¤ et des méthodes d’ensei-
gnement d’un certain module sur les notes obtenues. - E¤ et de deux facteurs
types de niveau de responsabilité et âge sur le stress.
2 ANOVA à un facteur
Notations :
- X : Variable qualitative à K P
modalités.
- nk : Taille du groupe k, n = nk .
- A l’intérieur de chaque groupe k, les observations sont indépendantes de
moyennes uk et de variance 2 . Ces derniers sont des paramètres inconnus esti-
més empiriquement par respectivement
nk
1 X
Y k: = yki ;
nk i=1
et
nk
K X
X
2 1
S = (yik y k: )2
n k
k=1 i=1
Le modèle s’écrit
yik = uk + eik ; i = 1; :::; nk : (1)
2
tels que, E(eik ) = 0 et V ar(eik ) = .
2.1 Test ANOVA1
Il s’agit d’étudier l’e¤et d’un facteur à k niveaux sur une variable qualitative
X. La somme des écarts (Sum of Square) totale est décomposée comme suit :
SST = SSW + SSB
telles que
SST= Somme des écarts quadratiques Totale,
1
nk
K X
X
(yki y :: )2 (2)
k=1 i=1
SSW= Somme des écarts quadratiques résiduels,
nk
K X
X
(yki y k: )2 (3)
k=1 i=1
SSB = Somme des écarts quadratiques inter groupes.
K
X
nj (yk: y :: )2 (4)
k=1
Pour comparer l’e¤et du facteur X sur Y , on teste l’hypothèse H0 : u1 = ::: = uk
contre l’alternative H1 :9(j; k) / uj 6= uk . Avant d’e¤ectuer ce test, on dresse
le tableau de l’ANOVA1 suivant
ddl Somme des écarts : SS Somme des écarts moyen : M S F
SSB SSB
Modèle inter K 1 SSB M SB = K 1 F = SSW
Modèle intra n K SSW M SW = SSW
n K
Total n 1 SST M ST = SST
n 1
M SB
Par suite on calcul la statistique F = M SW qui suit une loi de Fisher
à (k 1; n k) degré de liberté. On compare cette dernière à la valeur tabulée
de Fisher au seuil .
Si sous H0 , F > f , alors nous rejetons H0 qui avait chance de se réaliser.
Sinon H0 est accepté, ce qui indique que la variable X n’a pas d’e¤et
linéaire sur Y .
Lorsque H0 est rejetée, un second test est e¤ectué, pour véri…er si la di¤é-
rence entre les moyennes est signi…cative, donc on teste l’hypothèse H0 : mj =
mk contre H1 : mj 6= mk pour j 6= k.
La statistique de test suivante est utiisée :
Y j: Y k:
T =p q (5)
1 1
M SE nj nk
qui suit une loi de Student à (n k) ddl. M SE représente M SW:
Exemple 2 ANOVA à 1 facteur : :Une enquête a porté sur le niveau de sa-
tisfaction des étudiants sur trois matières enseignées. Les indices de satisfaction,
notés de 0 à 20, obtenus sont :
2
EPS 6 10 8 9 7
Didactique 8 12 10 10 15
Statistique 3 4 4 5 4
On aimerait savoir si les étudiants préfèrent certaines matières plus que
d’autres. le facteur est la matière avec 3 modalités . Dans ce qui suit les di¤é-
rentes commandes R pour e¤ectuer cette ANOVA1 sont présentées :
Organisation des données
X<-c( 6,10,8,9,7,8,12,10,10,15,3,4,4,5,4)
Mati\U{e8}re<-rep(1:3,c(5,5,5))
Mati\U{e8}re<-factor(algo)
Donn\U{e9}es <- data.frame(Mati\U{e8}re,X)
Application de l’ANOVA1 :
model=lm(X~Mati\U{e8}re,data=Donn\U{e9}es)
anova(model)
Résultats
Analysis of Variance Table
Response: X
Analysis of Variance Table
Response: X
Df Sum Sq Mean Sq F value Pr(>F)
algo 2 123.33 61.667 0.0002157 ***
Residuals 12 40.00 3.333
—
Signif. codes : 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1au seuil =5%,
f (2; 12) = 3; 88, donc F = 18; 5 > f = 3; 88; on rejette H0 et les étudiants
ont des préférence. En e¤et, P r(f > F ) < 0:05:Dans un deuxième temps, on
compare les moyennes des matières deux à deux, en utilisant le t-test :
> pairwise.t.test(X,algo)
Pairwise comparisons using t tests with pooled SD
data: X and algo
1 2
2 0.02331 -
3 0.00936 0.00017
P value adjustment method: holm
On remarque, que deux à deux la di¤érences entre les matières est signi…ca-
tives au seuil = 5% ( les p-value sont inférieures à 0,05):
3
14
12
10
8
6
4
1 2 3
3 ANOVA à deux facteurs
Dans ce cas nous étudions l’e¤et de deux facteurs ; A à J modalités et B à K
modalités sur la variable dépendante Y . Dans ce cas le modèle avec intéraction
s’écrit
yijk = u::: + j + k + jk + eik ; i = 1; :::; njk = c; j = 1; :::; J; k = 1; :::; K:
Pour garantir l’unicité
P de la solution,
P des contraintes
P d’identi…abilité
P suivantes
sont posées : 8j, j j = 0 et k jk = 0, 8k, k k = 0 et k jk = 0.
Les paramètres inconnus j , k et jk représentant l’e¤et du facteur A, du
facteur B et de l’intéraction respectivement.
P Ils sont estimés par :
y
- j est estimée par y :j:: y ::: = nj:ijk y ::: .
- k est estimée par y ::k y ::: . P
y
- jk est estimée par y ::jk y :j: y :k + y ::: = nj:ijk y ::: .
L’écart quadratique (Sum of Square) totale se décompose en :
SST = SS1 + SS2 + SSI + SSE:
tels que : P
- SST = ijk (yijk y ::: )2
PJ
- SS1 = CK j=1 (y :j: y ::: )2
4
PK
- SS2 = CJP k=1 (y ::k y ::: )2
- SSI = C jk (y :jk y :j: y ::k + y ::: )2
P
- SSE = ijk (yijk y :jk )2 .
tels que
J K C
1 XXX
Y ::: = yijk ;
JKC j=1 i=1
k=1
K C
1 XX
Y :j: = yijk ;
KC i=1
k=1
J C
1 XX
Y ::k = yijk ;
JC j=1 i=1
et
C
1 X
Y :jk = yijk :
C i=1
Tableau ANOVA à deux facteurs :
ddl Somme des écarts : SS Somme des écarts moyen : M S F
Facteur1 J 1 SS1 M S1 = JSS11 F1 = SS1
SSE
SS2 SS2
Facteur2 K 1 SS2 M SW = K 1 F2 = SSE
SSI SSI
Intéraction (J 1)(K 1) SSI M SI = (J 1)(K 1) FI = SSE
SSE
Résidu JK(C 1) SSE M SE = JK(C 1)
SST
Total JKC 1 SST M ST = JKC 1
Remarque 3 S’il y a absence de l’e¤ et d’intéraction, on suppose le modèle
additif, obtenu en supprimant le paramètre d’intéraction du modèle présenté ci-
haut. Dans ce cas le tableau d’ANOVA à deux facteurs est obtenu en substituant
la ligne erreur du tableau ci-dessous haut à la ligne intéraction. Et donc la ligne
erreur sera supprimée.
ddl Somme des écarts : SS Somme des écarts moyen : M S F
Facteur1 J 1 SS1 M S1 = JSS11 F1 =
SS2
Remarque 4 Facteur2 K 1 SS2 M SW = K 1 F2 =
Résidu (J 1)(K 1) SSE M SE = (J SSE1)(K 1)
SST
Total JKC 1 SST M ST = JKC 1
Pour tester les e¤ets du facteur1, facteur2 et de l’intéraction, on pose les
hypothèses suivantes :
- E¤et du facteur1 : H01= j = 0,8j = 1; :::; J contre H11=9j, tel que
j 6= 0.
5
- E¤et du facteur2 : H02= k = 0; 8k = 1; :::; K contre H12 :9k, tel que
k 6= 0.
- E¤et de l’intéraction : H03= jk = 0; 8j = 1; :::; J; k = 1; :::; K contre
H13 :9j; k tel que jk 6= 0.
Test :
- Si sous H01, F1 > f1 , tels que f1 est la valeur tabulée de Fisher à
(J 1; JK(C 1) degré de liberté au seuil , alors le premier facteur a un
e¤et sur Y .
- Si sous H02, F2 > f2 , tels que f2 est la valeur tabulée de Fisher à
(K 1; JK(C 1) degré de liberté au seuil , alors le deuxième facteur a
un e¤et sur Y .
- Si sous H03, F3 > f3 , tels que f3 est la valeur tabulée de Fisher à (J 1)(K
1); JK(C 1) degré de liberté au seuil , alors il existe un e¤et d’interaction
des deux facteurs sur Y .
Example 5 Anova à 2 facteurs sans intéractions : Le stress dans une entreprise
est étudié selon l’âge et le degré de responsabilité, le tableau des moyennes est
donné comme suit :
Age<50 Age>50 Y j:
Technicien 15,000 9,6667 12,3333
Cadre Inf 15,1667 15,8333 15,5000
Cadre Sup 14,5000 26,1667 20,3333
Y :k 14,8889 17,2222 16,0556
Le tableau de l’ANOVA2 sans intéraction est donnée par
ddl SS MSS
E¤ et de l’age 1 417.7785 417.7785
E¤ et respon 2 165.0003 82.50
Résidu 2 74.3296 37.164
Total 5 657.1084
pour tester l’e¤ et de l’age au seuil = 5%, on pose les hypothèse suivante :
H01= j = 0,8j = 1; 2: Contre H11=9j = 1; 2, tel que j 6= 0.
sous H01, on a F = 417:7785
37:164 = 11: 241 < 18:51;
Ainsi, on accepte H01, et donc l’age n’a pas d’e¤ et sur le stress.
Pour tester l’e¤ et de la responsabilité au seuil = 5%, on pose les hypothèse
suivantes :
H02= k = 0; 8k = 1; 2; 3: Contre H12 :9k = 1; 2; 3, tel que k 6= 0
82:50
sous H02, on a F = 37:164 = 2: 219 9 < 19;
Et le niveau de responsabilité n’a pas d’e¤ et sur le stress.