Cours ANOVA pour étudiants en stats
Cours ANOVA pour étudiants en stats
Hiver 2015
2
Analyse de la variance
c 2015 Michel Carbon
Table des matières
3
4 TABLE DES MATIÈRES
5 Comparaisons multiples 93
5.1 Contrastes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
5.1.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
5.1.2 Orthogonalité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
5.1.3 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
5.1.4 Test d’une hypothèse impliquant un contraste . . . . . . . . . . . . . 95
5.2 Comparaisons multiples sous l’hypothèse d’homoscédasticité . . . . . . . . . 96
5.2.1 La méthode de Tukey . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
5.2.2 La méthode de Tukey-Kramer . . . . . . . . . . . . . . . . . . . . . . 98
5.2.3 La méthode de Scheffé . . . . . . . . . . . . . . . . . . . . . . . . . . 99
5.2.4 La méthode de Bonferroni . . . . . . . . . . . . . . . . . . . . . . . . 101
5.2.5 La méthode de rejet séquentiel de Bonferroni et Holm . . . . . . . . . 102
5.3 Un exemple détaillé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
Analyse de la variance
c 2015 Michel Carbon
TABLE DES MATIÈRES 5
Analyse de la variance
c 2015 Michel Carbon
6 TABLE DES MATIÈRES
Analyse de la variance
c 2015 Michel Carbon
Chapitre 1
Fondements mathématiques et
statistiques
Ce chapitre sert à présenter brièvement quelques rappels sur la loi normale, la loi du
khi-deux, la loi t de Student et la loi F de Fisher. La connaissance de quelques propriétés
fondamentales de ces lois est indispensable à un traitement statistique rigoureux de l’analyse
de la variance, qui est l’objet de ce cours.
1 −x2 /2
f (x) = e .
2π
C’est une fonction paire, positive, qui a une forme en cloche, et telle que lim f (x) = 0,
x→±∞
comme on peut le voir sur la figure (1.2). C’est bien une densité de probabilité car :
7
8 CHAPITRE 1. FONDEMENTS MATHÉMATIQUES ET STATISTIQUES
Le premier point se démontre trivialement. Quant au second, on peut le prouver comme suit :
Z ∞ Z ∞
1 2
f (x) dx = √ e−x /2 dx
−∞ −∞ 2π
sZ
∞ Z ∞
1 −x2 /2 1
= ( √ e dx)( √ e−y2 /2 dy)
−∞ 2π −∞ 2π
sZ Z
∞ ∞
1 −(x2 +y2 )/2
= e dxdy
−∞ −∞ 2π
s
Z 2π Z ∞
1 −r2 /2
= e r drdθ
0 0 2π
s
Z 2π Z ∞
1
= dθ re−r2 /2 dr
0 2π 0
√
= 1 = 1.
y = r sin θ
Analyse de la variance
c 2015 Michel Carbon
1.1. LA LOI NORMALE 9
(x − µ)2
1 −
f (x) = √ e 2σ 2 x∈R
2πσ
Cette fonction est bel et bien une fonction de densité puisqu’on a :
1. f (x) > 0 pour tout x ∈ R ;
Z ∞
2. f (x)dx = 1.
−∞
Le premier point est trivial. On peut vérifier le deuxième grâce au changement de variable
y = (x − m)/σ dans le calcul aisé ci-dessous :
Z ∞ Z ∞
1 1 x−µ 2
f (x)dx = √ e− 2 ( σ ) dx
−∞ 2πσ
Z−∞∞
1 2
= √ e−y /2 dy
−∞ 2π
= 1,
E(X) = µ et V (X) = σ 2 .
Cela justifie a posteriori l’appellation de normale centrée réduite, et notée N (0, 1).
Théorème 1.1.2
Si X ∼ N (µ, σ 2 ), alors la fonction génératrice des moments (f.g.m) de la variable aléatoire
X est égale à :
2 2
MX (t) = etµ+t σ /2 .
Analyse de la variance
c 2015 Michel Carbon
10 CHAPITRE 1. FONDEMENTS MATHÉMATIQUES ET STATISTIQUES
Démonstration
MX (t) = E[etX ]
Z ∞
1 1 x−µ 2
= etx √ e− 2 (σ
)
dx
−∞ 2πσ 2
Z ∞
1 2
= et(µ+σy) √ e−y /2 dy
−∞ 2π
Z ∞
1 2 2 2 2 2
= etµ √ e−(y −2tσy+t σ −t σ )/2 dy
−∞ 2π
Z ∞
2 2 1 2 2 2
= etµ+t σ /2 √ e−(y−tσ) /2 dy = etµ+t σ /2
−∞ 2π
Analyse de la variance
c 2015 Michel Carbon
1.1. LA LOI NORMALE 11
Théorème 1.1.3
Soient X1 , X2 , · · · , Xn n variables indépendantes telles que Xi ∼ N (µi , σi2 ) pour i = 1, · · · , n.
X n
Soit Y = a0 + ai Xi où a0 , a2 , · · · , an sont des constantes. On a alors :
i=1
n
X n
X
Y ∼ N (a0 + ai µ i , a2i σi2 ) .
i=1 i=1
Calculons la f.g.m. de Y :
MY (t) = E[etY ]
Pn
= E[et(a0 + i=1 ai Xi )
]
n
Y n
Y
ta0 tai Xi ta0
= e E[e ]=e MXi (tai )
i=1 i=1
n
2 a2 σ 2 /2
Y
= eta0 etai µi +t i i
i=1
t{a0 + n
P 2
Pn 2 2
= e i=1 ai µi }+t { i=1 ai σi }/2
n
X n
X
On reconnaît la f.g.m. d’une loi normale de moyenne a0 + ai µi et de variance a2i σi2 .
i=1 i=1
Analyse de la variance
c 2015 Michel Carbon
12 CHAPITRE 1. FONDEMENTS MATHÉMATIQUES ET STATISTIQUES
Exemple 1.1.1
Soit X ∼ N (µ, σ 2 ). Appliquons le théorème précédent avec n = 1, a0 = −µ/σ et a1 = 1/σ.
X −µ
On obtient alors Z = ∼ N (0, 1), la loi normale standard.
σ
Cette loi joue un rôle primordial en calcul de probabilité. Notons sa densité et sa fonction de
Z z par : φ(·) et Φ(·). Elles sont respectivement définies par : φ(z) =
répartition respectivement
2 √
e−z /2 / 2π et Φ(z) = φ(t)dt.
−∞
Notons qu’il n’y a pas d’expressions explicites pour Φ(·). Ses valeurs numériques sont données
dans des tables qu’on trouve dans presque tous les livres de statistique et probabilité, des
logiciels d’analyses statistiques et certaines calculatrices scientifiques.
Ainsi, on peut calculer numériquement des probabilités du type P (a < X ≤ b), −∞ ≤ a ≤
b ≤ ∞, comme suit :
a−µ b−µ
P (a < X ≤ b) = P ( <Z≤ )
σ σ
b−µ a−µ
= Φ( ) − Φ( )
σ σ
Exemple 1.1.2
Soit {X1 , X2 , · · · , Xn } un échantillon issu d’une loi normale N (µ, σ 2 ), c’est-à-dire n variables
aléatoires i.i.d.
Appliquons le théorème précédent avec a0 = 0 et ai = 1/n pour i = 1, · · · , n.
On obtient alors :
n
1X
X̄ = Xi ∼ N (µ, σ 2 /n) .
n i=1
Définition 1.2.1
Soit k un entier strictement positif. On dit qu’une variable aléatoire continue X suit une loi
de khi-deux et on écrit X ∼ χ2k si et seulement si la densité de X s’écrit :
1
x(k/2)−1 e−x/2 si x ≥ 0
Γ(k/2)2k/2
f (x) = (1.2.1)
0 sinon
Z ∞
où : Γ(α) = y α−1 e−y dy (appelée fonction gamma). k est appelé le nombre de degrés de
0
liberté de cette loi.
Analyse de la variance
c 2015 Michel Carbon
1.2. LA LOI DU KHI-DEUX 13
Vérifions que la fonction définie par (1.2.1) est bel et bien une densité. Il est évident que
cette fonction est positive. Reste à vérifier que son
Z ∞intégrale vaut 1.
Par définition, pour r > 0, on a : Γ(r/2) = y (r/2)−1 e−y dy. Effectuons le changement
0
de variable y = x/2. Cette dernière intégrale est alors égale à :
Z ∞
x dx
Γ(r/2) = ( )(r/2)−1 e−x/2
0 2 2
Z ∞
1 (r/2)−1 −x/2
= r/2
x e dx .
0 2
On en déduit que : Z ∞
1
x(r/2)−1 e−x/2 dx = 1 ,
0 2r/2 Γ(r/2)
ce qu’il fallait démontrer.
À toutes fins utiles, on rappelle quelques propriétés de la fonction Γ. On a :
Γ(p) = (p − 1)Γ(p − 1) pour p > 0
Démonstration :
En effet, on a :
M (t) = E[eXt ]
Z ∞
1
= ext x(r/2)−1 e−x/2 dx
0 Γ(r/2)2r/2
∞ x
e− 2 (1−2t) x(r/2)−1
Z
= dx
0 Γ(r/2)2r/2
y
∞
e− 2 y (r/2)−1
Z
= dy = (1 − 2t)−r/2
0 Γ(r/2)2r/2 (1 − 2t)r/2
Analyse de la variance
c 2015 Michel Carbon
14 CHAPITRE 1. FONDEMENTS MATHÉMATIQUES ET STATISTIQUES
Proposition 1.2.2
Soient Z ∼ N (0, 1) et X = Z 2 . Alors X ∼ χ21 .
Démonstration :
Calculons la densité fX (x) pour x > 0. Elle est égale à :
d
fX (x) = FX (x)
dx
d
= P (X ≤ x)
dx
d
= P (Z 2 ≤ x)
dx
d √ √
= P (− x ≤ Z ≤ x)
dx
d √ √
= {Φ( x) − Φ(− x)}
dx
d √
= {2Φ( x) − 1}
dx
√ d √
= 2φ( x) { x}
dx
1
= √ e−x/2 .
2πx
On reconnaît alors la densité d’une loi khi-deux à 1 degré de liberté.
On représente dans la figure (1.4) ci-dessous quelques densités de lois du khi-deux.
Théorème 1.2.1
Soient U et V deux variables aléatoires indépendantes telles que U ∼ χ2u et V ∼ χ2v . Alors,
on a : W = U + V ∼ χ2u+v .
Calculons la f.g.m de W :
Analyse de la variance
c 2015 Michel Carbon
1.3. LA LOI T DE STUDENT 15
Exemple 1.2.1
Soit {X1 , X2 , · · · , Xn } un échantillon issu d’une loi normale N(µ, σ 2 ). Posons :
n
1X
S∗2 = (Xi − µ)2 .
n i=1
1 Γ((r + 1)/2) 1
f (t) = √ t ∈ R,
rπ Γ(r/2) (1 + t /r)(r+1)/2
2
Analyse de la variance
c 2015 Michel Carbon
16 CHAPITRE 1. FONDEMENTS MATHÉMATIQUES ET STATISTIQUES
Tout comme la loi normale standard N (0, 1), la loi de student tr est symétrique, centrée
et son graphe est en forme de cloche. Lorsque r devient grand, la loi t du Student converge
vers la loi normale standard.
Ci-dessous (voir figure (1.5)) sont tracées quelques densités de lois de Student :
Proposition 1.3.1
2
p variables aléatoires indépendantes telles que W ∼ N (0, 1) et V ∼ χr .
Soient W et V deux
Posons : T = W/ V /r. Alors, on a : T ∼ tr
u = v.
p
Ce qui nous donne w = t u/r et v = u. La densité bivariée de T et de U s’écrit alors :
r
u
g(t, u) = φ t fχ2r (u)|J|
r
√
1 r/2−1 − u
(1+ t2
) u
√ u e 2 r √ si u ≥ 0
2πΓ(r/2)2 r/2 r
=
0 sinon
Analyse de la variance
c 2015 Michel Carbon
1.4. LA LOI F DE FISHER 17
t2
u
où le passage de la ligne 2 à la ligne 3 se fait par un changement de variable : z = 1+ .
2 r
On reconnaît alors l’expression de la densité d’une loi tr de Student.
où n et m sont des entiers strictement positifs appelés nombres de degrés de liberté. On écrit
alors que : W ∼ Fn,m .
Proposition 1.4.1
Soient U et V deux variables aléatoires indépendantes telles que U ∼ χ2n et V ∼ χ2m . Posons
W = (U/n)/(V /m). Alors, on a : W ∼ Fn,m .
Analyse de la variance
c 2015 Michel Carbon
18 CHAPITRE 1. FONDEMENTS MATHÉMATIQUES ET STATISTIQUES
Exemple 1.4.1
2
Soient {X1 , X2 , · · · Xn } et {Y1 , Y2 , · · · Ym } deux échantillons issus respectivement de lois N (µX , σX )
2
et N (µY , σY ). On suppose que les moyennes théoriques µX et µY sont connues.
2 2
D’après l’exemple (1.2.1), nSX,∗ /σX ∼ χ2n et mSY,∗
2
/σY2 ∼ χ2m .
Analyse de la variance
c 2015 Michel Carbon
1.5. LES LOIS NON CENTRÉES 19
Définition 1.5.1
Soient n variables aléatoires indépendantes {X1 , X2 , · · · , Xn } telles que Xi ∼ N (µi , 1) pour
n
X Xn
2
i = 1, · · · , n. Posons Y = Xi . Alors la loi de Y ne dépend que de n et δ = µ2i . Sa
i=1 i=1
tδ
−n/2
f.g.m. est égale à MY (t) = (1 − 2t) e pour t < 1/2. On dit que Y suit une loi non
1−2t
Analyse de la variance
c 2015 Michel Carbon
20 CHAPITRE 1. FONDEMENTS MATHÉMATIQUES ET STATISTIQUES
La dernière intégrale ci-dessus est égale à 1 puisqu’on intègre la densité d’une loi normale de
moyenne µi (1 − 2t)−1 et de variance (1 − 2t)−1 sur l’ensemble R. Finalement, on obtient :
tδ
MY (t) = (1 − 2t)−n/2 e 1−2t
Analyse de la variance
c 2015 Michel Carbon
1.6. FORMES QUADRATIQUES 21
Proposition 1.5.1
La moyenne et la variance d’une loi du khi-deux non-centrée à n degrés de liberté et de
paramètre de non centralité δ sont égales respectivement à n + δ et 2(2δ + n) .
La figure (1.8) précédente représente les densités de différentes lois du khi-deux non-
centrées à 5 degrés de liberté avec des paramètres de non centralité respectives : δ = 0, 2
et 5. À degrés de liberté constants, la figure (1.8) montre que la moyenne et la variabilité
augmentent avec le paramètre δ.
Théorème 1.5.1
Soient U et V deux variables aléatoires telles que U ∼ χ2n (δ) et V ∼ χ2m .
Posons : W = (U/n)/(V /m). Alors W suit une loi F de Fisher décentrée à n et m degrés de
liberté et de paramètre de non centralité δ. On écrit alors W ∼ Fn,m (δ).
Analyse de la variance
c 2015 Michel Carbon
22 CHAPITRE 1. FONDEMENTS MATHÉMATIQUES ET STATISTIQUES
Définition 1.6.1
Soient n variables indépendantes X = {X1 , X2 , · · · , Xn }. Une forme quadratique en X est
Xn X
une variable aléatoire Q qui peut s’écrire sous la forme Q = aii Xi2 + 2 aij Xi Xj .
i=1 1=i<j=n
Exemple 1.6.1
Soit X = {X1 , X2 , · · · , Xn } un échantillon de taille n. Le carré de la moyenne arithmétique
X̄ 2 est une forme quadratique aléatoire en X. En effet, on a :
( n )2 n
2 1 X X 1 2 2 X
X̄ = Xi = X
2 i
+ 2
X i Xj .
n i=1 i=1
n n 1=i<j=n
1
Tous les éléments de la matrice A correspondante sont égaux à 2 . La matrice A s’écrit
n
1 T
alors : A = 2 1n 1n où 1n est le vecteur de taille n dont tous les éléments sont égaux à 1.
n
Exemple 1.6.2
Considérons maintenant la variance de l’échantillon définie par :
n
2 1 X
S = (Xi − X̄)2 .
n − 1 i=1
Le théorème suivant énonce les conditions nécessaires et suffisantes pour qu’une forme
quadratique aléatoire suive une loi du Khi-deux.
Analyse de la variance
c 2015 Michel Carbon
1.6. FORMES QUADRATIQUES 23
Théorème 1.6.1
Soit X = (X1 , X2 , · · · , Xn )T un vecteur aléatoire de variables indépendantes telles que Xi ∼
N (µi , σ 2 ) pour i = 1, · · · , n. (de même variance). Soit A une matrice symétrique de taille
n et de rang d, 0 < d ≤ n. Posons Q = XT AX. Alors : Q/σ 2 ∼ χ2d (δ) où δ = µT Aµ/σ 2
et µ = (µ1 , · · · , µn )T si et seulement si la matrice A est idempotente, i.e. si et seulement si
A2 = A.
Dans l’exemple qui suit, on utilise le dernier théorème pour démontrer un résultat classique
de la théorie d’échantillonnage, à partir d’une population normale. Ce résultat nous sera très
utile pour la suite de ce cours.
Exemple 1.6.3
Reconsidérons l’exemple (1.6.2) dans le cas où le vecteur X est un échantillon de taille n issu
d’une loi normale de moyenne µ et de variance σ 2 . Dans ce cas, on a E[X] = µ1n . On a vu
que la statistique Q = (n − 1)S 2 est une forme quadratique et que sa matrice correspondante
1
est égale à B = In − 1n 1T n . On a ici :
n
1 1 1
B2 = In − 1n 1n T + 2 1n 1n T 1n 1n T − 1n 1n T .
n n n
Or on a 1T n 1n = n, donc les deux derniers termes du membre droit de la dernière équation
s’annulent et ainsi : B2 = B.
D’après le théorème précédent, Q/σ 2 = (n − 1)S 2 /σ 2 suit une loi du khi-deux non centrée à d
degrés de liberté et de paramètre δ = (µ2 /σ 2 )1n T B1n où d est égal au rang de la matrice B.
La somme de toutes les colonnes 1n T B de la matrice B est nulle, on a donc δ = 0 et d ≤ n−1.
Les n − 1 premières colonnes de B sont indépendantes donc d = n − 1.
Exemple 1.6.4
Soient {X1 , X2 , · · · , Xn } et {Y1 , Y2 , · · · , Ym } deux échantillons issus respectivement de lois
2
N (µX , σX ) et N (µY , σY2 ).
2 2
D’après l’exemple (1.6.3), on a (n − 1)SX /σX ∼ χ2n−1 et (m − 1)SY2 /σY2 ∼ χ2m−1 .
2 2
Les deux échantillons sont indépendants donc (SX /σX )/(SY2 /σY2 ) ∼ Fn−1,m−1 d’après la pro-
position (1.4.1). Cette propriété est utilisée pour trouver un intervalle de confiance au niveau
2
1 − α pour le rapport de variances σX /σY2 lorsque les moyennes théoriques µX et µY sont
inconnues. Celui-ci s’écrit alors :
2 2
1 SX 1 SX
,
Fα/2,n−1,m−1 SY2 F1−α/2,n−1,m−1 SY2
Cette même propriété est utilisée pour tester l’égalité de variances de deux échantillons indé-
2
pendants lorsque les moyennes théoriques sont inconnues. On rejette l’hypothèse H0 : σX =
Analyse de la variance
c 2015 Michel Carbon
24 CHAPITRE 1. FONDEMENTS MATHÉMATIQUES ET STATISTIQUES
Théorème 1.6.2
Soit X = (X1 , X2 , · · · , Xn )T un vecteur aléatoire de variables indépendantes telles que Xi ∼
N (µi , σ 2 ) pour i = 1, · · · , n. (de même variance). Soient A et B deux matrices symétriques
de taille n et soient Q1 = XT AX et Q2 = XT BX leurs formes quadratiques associées.
Alors : Q1 et Q2 sont indépendantes si et seulement si AB = BA = 0.
Exemple 1.6.5
Reconsidérons les deux exemples (1.6.1) et (1.6.2) dans le cas où le vecteur X est un échan-
tillon de taille n issu d’une loi normale de moyenne µ et de variance σ 2 . On a vu que X̄ 2
1
et (n − 1)S 2 sont des formes quadratiques de matrices associées respectives A = 2 1n 1n T et
n
B = In − n1 1n 1n T . Calculons le produit matriciel AB. On a :
1 1
AB = 2
1n 1n T (In − 1n 1n T )
n n
1 T 1
= 1 n 1 n − 1n 1n T 1n 1n T .
n2 n3
Or 1Tn 1n = n, donc on a : AB = 0. Ainsi, d’après le théorème précédent, les statistiques S
2
et X̄ sont indépendantes.
On vient donc de démontrer un résultat classique en théorie de l’échantillonnage d’une
loi normale. On peut résumer les résultats antérieurs dans la proposition suivante :
Proposition 1.6.1
Soit {X1 , X2 , · · · , Xn } un échantillon issu d’une loi normale N (µ, σ 2 ).
n
X
2
Soient X̄ et S la moyenne et la variance de l’échantillon, respectivement définies par X̄ = Xi /n
i=1
n
X
2
et S = (Xi − X̄)2 /(n − 1). On a alors :
i=1
1. X̄ ∼ N (µ, σ 2 /n) (exemple (1.1.2))
2. (n − 1)S 2 /σ 2 ∼ χ2n−1 (exemple (1.6.3))
3. X̄ et S 2 sont indépendantes (exemple (1.6.5))
p
4. (X̄ − µ)/ S 2 /n ∼ tn−1 (proposition (1.3.1))
Analyse de la variance
c 2015 Michel Carbon
1.6. FORMES QUADRATIQUES 25
Exercices
Exercice 1
La taille moyenne de 500 élèves des petites classes d’un lycée est 1,51 m et l’écart-type
est 0,15 m. On suppose que la taille suit une loi normale.
1. Combien d’élèves ont une taille comprise entre 1,2 m et 1,55 m ?
2. Combien d’élèves mesurent au moins 1,85 m ?
3. Combien d’élèves ont une taille inférieure à 1,28 m ?
Exercice 2
Le diamètre intérieur moyen d’un échantillon de 200 rondelles produites par une machine
est égal à 1,275 cm et l’écart-type à 0,013 cm. L’usage que l’on fait des rondelles nécessite
que le diamètre varie entre des bornes de tolérance de 1,26 cm et 1,29 cm, sinon les rondelles
sont considérées comme défectueuses. Déterminez le pourcentage de rondelles défectueuses
produites par la machine, en supposant que ces diamètres sont de loi normale.
Exercice 3 Z 5
2
Calculez : e−3(x−4) dx .
3
Exercice 4
2
Soit X une variable aléatoire de f.g.m. MX (t) = e3t+8t , définie au voisinage de l’origine.
Calculez : P (−1 < X < 8).
Exercice 5
On suppose que Y suit une loi normale N (µ, σ 2 ), et que Y = ln X. Calculez E(X) et
V (X).
Exercice 6
On suppose que X est une variable aléatoire de loi gaussienne N (1, 4). Calculez la pro-
babilité suivante : P (1 < X 2 < 9).
Exercice 7
1. Calculez l’espérance et la variance d’une variable aléatoire X de loi du khi-deux ayant
pour nombre de degrés de liberté n.
Analyse de la variance
c 2015 Michel Carbon
26 CHAPITRE 1. FONDEMENTS MATHÉMATIQUES ET STATISTIQUES
2. Calculez l’espérance et la variance d’une variable aléatoire Y de loi uniforme sur [a, b].
3. Déterminez a et b tels que l’espérance et la variance d’une variable aléatoire de loi uni-
forme sur [a, b] coïncident respectivement avec l’espérance et la variance d’une variable
aléatoire d’une loi du khi-deux à 5 degrés de liberté.
Exercice 8
Les statistiques X et S 2 désignent les estimateurs usuels de m et σ 2 pour un échantillon
(X1 , X2 , · · · , Xn ) d’une loi normale N (m, σ).
1. Calculer
√ le coeficient de corrélation ρ entre X et la statistique de Student : T =
n(X − m)
.
S
2. Sachant que, lorsque k → +∞, on a :
k+1
Γ
2 1
r '1− ,
k k 4k
Γ
2 2
donnez une approximation à l’ordre 1 de ρ.
Exercice 9
Soient X1 et X2 deux variables aléatoires indépendantes telles que : X1 et Y = X1 + X2
aient pour lois respectives des lois du χ2r1 et χ2r (avec r1 < r).
Montrez que la loi de X2 est une loi du χ2r−r1 .
Exercice 10
r2
Soit F une variable aléatoire de loi Fr1 ,r2 . Calculez E[F k ] pour tout k < .
2
Exercice 11
Soient X1 et X2 deux variables aléatoires i.i.d. de loi à densité exponentielle de paramètre
1. Quelle est la loi de la variable aléatoire V = X1 /X2 ?
Exercice 12
On considère trois variables aléatoires indépendantes X1 , X2 et X3 toutes de lois du khi-
deux à, respectivement, r1 , r2 et r3 de degrés de liberté.
1. Montrez que Y1 = X1 /X2 et Y2 = X1 + X2 sont indépendantes et que Y2 ∼ χ2r1 +r2 .
Analyse de la variance
c 2015 Michel Carbon
1.6. FORMES QUADRATIQUES 27
2. En déduire que les variables aléatoires (X1 /r1 )/(X2 /r2 ) et (X3 /r3 )/((X1 +X2 )/(r1 +r2 ))
sont indépendantes et suivent chacune la loi de Fisher.
Exercice 13
On considère trois variables aléatoires indépendantes Xi , pour i = 1, 2, 3 et telles que
Xi ∼ N (i, i2 ). À partir de ces trois variables, construire des statistiques ayant pour lois
respectives :
1. χ23
2. t2
3. F1,2 .
Analyse de la variance
c 2015 Michel Carbon
28 CHAPITRE 1. FONDEMENTS MATHÉMATIQUES ET STATISTIQUES
Analyse de la variance
c 2015 Michel Carbon
Chapitre 2
On pose :
n1 n
1
1 X 1 X
X 1,• = X1,i S12 = (X1,i − X 1,• )2
n1 i=1 n1 − 1 i=1
n2 n
2
1 X 1 X
X 2,• = X2,i S22 = (X2,i − X 2,• )2
n2 i=1 n2 − 1 i=1
où X 1,• et X 2,• sont les moyennes théoriques des deux échantillons indépendants, où S12 et
S22 sont des estimateurs non biaisés de σ12 et σ22 respectivement.
29
30 CHAPITRE 2. COMPARAISON DE DEUX MOYENNES
σ2
X 1,• ∼ N (m1 , ) (2.1.1)
n1
σ2
X 1,• ∼ N (m2 , ) , (2.1.2)
n2
et
n1 − 1 2
S1 ∼ χ2n1 −1 (2.1.3)
σ2
n2 − 1 2
2
S2 ∼ χ2n2 −1 , (2.1.4)
σ
et ces quatre statistiques sont indépendantes. De plus, comme les échantillons sont indépen-
dants, grâce au chapitre 1, on a également :
2 1 1
X 1,• − X 2,• ∼ N m1 − m2 , σ + (2.1.5)
n1 n2
n1 + n2 − 2 2 1 2 2
2
S p = (n1 − 1)S1 + (n2 − 1)S2 ∼ χn1 +n2 −2 . (2.1.6)
σ2 σ2
Sp2 est l’estimateur global de la variance calculée en utilisant les deux échantillons globale-
ment :
(n1 − 1)S12 + (n2 − 1)S22 (n1 − 1)S12 + (n2 − 1)S22
Sp2 = = (2.1.7)
(n1 − 1) + (n2 − 1) n1 + n2 − 2
On rappelle qu’on a supposé que les deux variances σ12 et σ22 sont égales.
Variance connue
On suppose que la variance théorique commune aux deux populations est connue. Sous
ces hypothèses, on a :
2 1 1
X 1,• − X 2,• ∼ N m1 − m2 , σ +
n1 n2
Ainsi, sous H0 , on a :
2 1 1
X 1,• − X 2,• ∼ N 0, σ + ,
n1 n2
ce qui s’écrit encore :
X 1,• − X 2,•
Z=s ∼ N (0, 1) .
1 1
σ2 +
n1 n2
Analyse de la variance
c 2015 Michel Carbon
2.1. COMPARAISON DES MOYENNES DE DEUX ÉCHANTILLONS
INDÉPENDANTS 31
Donc, on rejette H0 contre H1 : m1 6= m2 au seuil (1 − α) si |Z| > Zα/2 .
On rejette H0 contre H1 : m1 > m2 au seuil (1 − α) si Z > Zα .
On rejette H0 contre H1 : m1 < m2 au seuil (1 − α) si Z < Zα .
Variance inconnue
En pratique, dans la plupart des cas, on ignore la variance théorique et on doit donc
l’estimer.
La statistique Sp2 , définie en (2.1.7), est un estimateur de σ 2 , tout comme S12 et S22 . En
effet, on a immédiatement :
E[S12 ] = E[S22 ] = E[Sp2 ] .
Intuitivement, Sp2 est un meilleur estimateur que S12 et S22 , car il utilise toute l’information
disponible dans les deux échantillons. On peut aussi vérifier que c’est le meilleur estimateur
sans biais de σ 2 parmi toutes les combinaisons linéaires de S12 et de S22 . Une telle combinaison
linéaire s’écrit sous la forme :
σ̂ 2 = aS12 + bS22 .
Cet estimateur est non biaisé, et donc :
et ainsi :
a + b = 1 ⇐⇒ b = 1 − a .
D’autre part, on a :
V ar[σ̂ 2 ] = a2 V ar[S12 ] + b2 V ar[S22 ]
2σ 4 2σ 4
= a2 + (1 − a)2 ,
n1 − 1 n2 − 1
en utilisant (2.1.3) et (2.1.4) et le fait qu’une v.a.r. U de loi du khi-deux à n degrés de liberté
a pour variance 2n.
On en déduit que :
a2 (1 − a)2
2 4
V ar[σ̂ ] = 2σ + .
n1 − 1 n2 − 1
Analyse de la variance
c 2015 Michel Carbon
32 CHAPITRE 2. COMPARAISON DE DEUX MOYENNES
a2 (1 − a)2
a 7→ + ,
n1 − 1 n2 − 1
n1 − 1 n2 − 1
de voir qu’elle est minimisée pour a = , ce qui correspond à b = . Le
n1 + n2 − 2 n1 + n2 − 2
σ̂ 2 optimal est donc égal à Sp2 .
X 1,• − X 2,•
T =s ∼ tn1 +n2 −2 . (2.1.8)
1 1
Sp2 +
n1 n2
Américains Japonais
7,11 3,52
6,06 2,02
8,00 4,91
6,87 3,22
4,77 1,92
La mobilité entre les Américains et les Japonais est-elle égale à 3,1 comme l’a prétendu une
étude antérieure ? (faire un test avec α = 0, 1)
On a :
32, 812
32, 81 221, 2255 −
x1,• = = 6, 562 , s21 = 5 = 1, 48157 ,
5 5−1
Analyse de la variance
c 2015 Michel Carbon
2.1. COMPARAISON DES MOYENNES DE DEUX ÉCHANTILLONS
INDÉPENDANTS 33
et
15, 592
15, 99 54, 6337 −
x2,• = = 3, 118 , s22 = 5 = 1, 50602 .
5 5−1
On a aussi :
s21 + s22 1, 48157 + 1, 50602
n1 = n2 = 5 , s2p = = = 1, 493795 .
2 2
On cherche à tester :
H0 : m1 − m2 = 3, 1 contre H1 : m1 − m2 6= 3, 1 .
Ona ici : n1 + n2 − 2 = 8 ; α/2 = 0, 05. Une table de loi de Student donne : t8;0,05 = 1, 860.
On rejette donc si : tobs < −1, 86 ou tobs > 1, 86.
Ici, H0 n’est pas rejeté.
N’oublions pas, dans cet exemple, qu’on a supposé que les lois de la mobilité dans chacun des
pays sont gaussiennes, que les variances sont égales, et que les échantillons sont indépendants.
Calcul de puissance
Sous l’hypothèse alternative H1 : m1 6= m2 , la statistique suivante suit une loi normale :
X − X 2,• s m1 − m2
s 1,•
∼N , 1
1 1 1 1
Sp2 + Sp2 +
n1 n2 n1 n2
C’est cette dernière loi qui est utilisée pour calculer la puissance du test.
Analyse de la variance
c 2015 Michel Carbon
34 CHAPITRE 2. COMPARAISON DE DEUX MOYENNES
Exemple 2.1.2
On a divisé un ensemble de 20 souris en deux groupes de 10 souris. Chacun de ces deux
sous-groupes a été soumis à une diète différente.
Les données sont les gains de poids des 20 souris après 3 semaines.
On veut tester l’hypothèse nulle que le gain de poids est le même dans chacun des deux
groupes.
Après une transformation logarithmique pour rendre les données normales, on obtient un
test non significatif (p-value=0,1877), avec une différence de moyennes m1 − m2 = −0, 32 et
une variance modifiée : 0,2715.
Quelle taille n doit avoir chaque groupe (supposés de même effectif ) pour que le test
d’égalité des moyennes bialtéral au seuil 5% ait une puissance de 90% ?
On va estimer la différence des moyennes par −0, 32 la variance
√ modifiée par 0, 2715.
Pour un n quelconque, la paramètre de non centralité ν ' −0, 44 × n. La puissance du test
est donc :
où Tn (ν) est une variable aléatoire avec une loi t non centrée de paramètre de non centralité
ν et de n degrés de liberté.
Tout ceci est obtenu via les lignes de code R suivantes pour faire des tests et tracer le
graphe de la fonction puissance :
# Données :
grp1 <- c(4,14,7,9,11,7,13,14,12,8)
grp2<- c(5,21,16,23,4,16,13,19,9,21)
# Représentations graphiques :
{\color{blue}boxplot(as.data.frame(cbind(grp1,grp2)))
boxplot(as.data.frame(cbind(log(grp1),log(grp2))))
Analyse de la variance
c 2015 Michel Carbon
2.1. COMPARAISON DES MOYENNES DE DEUX ÉCHANTILLONS
INDÉPENDANTS 35
# Calcul de l’estimation combinée :
varm<-(var(log(grp1))+var(log(grp2)))/2
nu=(mean(log(grp1))-mean(log(grp2)))/sqrt(2*varm)
pui<-rep(0,51)
for(i in (1:51)){
n<- 9+i
nu<- nu*sqrt(n)
pui[i]<- pt(qt(0.025,df=2*(n-1)),df=2*(n-1),ncp=nu)
+ 1-pt(qt(0.975,df=2*(n-1)),df=2*(n-1),ncp=nu)}
n<-10:60
plot(n,pui,type="l",ylab="Puissance",xlab="taille échantillon n",col="blue")
Analyse de la variance
c 2015 Michel Carbon
36 CHAPITRE 2. COMPARAISON DE DEUX MOYENNES
X 1,• − X 2,•
T0 = r 2 . (2.1.9)
S1 S22
+
n1 n2
Contrairement au test t de Student précédent, le dénominateur n’est pas basé sur une esti-
mation de la variance.
Le calcul du nombre de degré de liberté n1 + n2 − 2 doit être remplacé par une valeur
approchée, définie comme suit :
2
S12 S22
+
n1 n2
ν=
S14 S24
+
n21 (n1 − 1) n22 (n2 − 1)
Cette variante du test t de Student est appelé test de Welch. Le principe de la méthode de
Welch est de tenir compte intégralement du nombre de degrés de liberté de la variance la
plus élevée, et de ne faire internevnir que partiellement le nombre de degrés de liberté de la
variance la plus petite.
On remarquera aussi que, pour des échantillons de même taille, t et t0 sont strictement
équivalents.
Comme dans le test t de Student, on rejette H0 contre H1 : m1 6= m2 au seuil (1 − α) si
0
|T | > t1−α/2 .
On rejette H0 contre H1 : m1 > m2 au seuil (1 − α) si T 0 > t1−α .
On rejette H0 contre H1 : m1 < m2 au seuil (1 − α) si T 0 < t1−α .
Exemple 2.1.3
On s’intéresse à la comparaison de diverses méthodes d’échantillonnage de sols fores-
tiers. Pour cela, on a analysé, d’une part, 20 échantillons de terre prélevés individuellement,
et d’autre part, 10 échantillons moyens obtenus chacun en mélangeant 25 échantillons in-
dividuels. Tous les prélèvements ont été réalisés au hasard et indépendamment les uns des
autres. Les résultats relatifs à la teneur en K2 O exprimée en ppm (parts par million ou, ici,
milligrammes de K2 O par kilogramme de terre sèche)
Analyse de la variance
c 2015 Michel Carbon
2.1. COMPARAISON DES MOYENNES DE DEUX ÉCHANTILLONS
INDÉPENDANTS 37
Échantillons individuels Échantillons moyens
8,0 12,8 9,6
8,4 14,0 10,0
8,8 14,8 10,4
8,8 14,8 10,4
9,2 14,8 10,8
9,2 15,2 10,8
10,0 15,6 10,8
10,4 18,8 11,6
12,0 19,2 12,0
12,4 22,0 12,8
On peut alors aisément calculer les valeurs suivantes :
x1,• = 12, 96 et x2,• = 10, 92
H0 : m1 = m2 .
Le test t par paires ou par couples est réalisé en calculant les différences :
Analyse de la variance
c 2015 Michel Carbon
2.2. COMPARAISON DES MOYENNES DE DEUX ÉCHANTILLONS NON
INDÉPENDANTS 39
où t suit une loi de Student à n − 1 degrés de liberté.
Cette méthode requiert uniquement que les n couples d’observations constituent un échan-
tillon aléatoire simple et que la population des différences soit gaussienne.
Exemple 2.2.1
Dans une étude relative à l’alimentation du mouton, on a comparé deux méthodes d’ana-
lyse des matières fécales par spectrométrie. Pour cela, on a examiné 30 échantillons de ma-
tières fécales en appliquant sur chacune les deux méthodes d’analyse. Les résultats ci-dessous
sont exprimés en teneurs de lutécium observées.
La différence di entre les deux séries d’observations figure également dans le tableau ci-
dessus. Nous comparons les deux méthodes, il y a lieu d’effectuer un test t0 par paires, et non
par un test t standard relatif aux échantillons indépendants.
Les moyennes utilisées sont :
x1,• = 120, 83; x2,• = 119, 33; d = 1, 50
Le test t0 par paires donne les résultats suivants :
1, 50
t0obs = p = 3, 23 et P (|t0 | ≥ 3, 23) = 0, 0031,
187, 5/(30 × 29)
avec 29 degrés de liberté. La différence entre les deux méthodes d’analyse s’avère donc hau-
tement significative, bien que les différences observées di soient relativement petites.
Il était bien entendu hors de question d’appliquer le test classique t des échantillons indé-
pendants car la corrélation entre les deux séries est ici de ρ = 0, 982.
Analyse de la variance
c 2015 Michel Carbon
40 CHAPITRE 2. COMPARAISON DE DEUX MOYENNES
Exemple 2.2.2
Reprenons l’exemple des teneurs en lutécium radioactif. La somme des rangs relatifs aux
différences négatives est :
X− = 64
On en déduit que :
p
uobs = |64 − (26 . 27)/4) 26 . 27 . 53/24| = 2, 83
et
P (|U | ≥ 2, 83) = 0, 0047
en considérant que l’effectif est égal à n = 26 après élimination des quatre valeurs nulles.
La différence de moyennes est ici hautement significative, conclusion identique à celle du
test t0 par paires.
Analyse de la variance
c 2015 Michel Carbon
2.3. EXEMPLE (TRAITEMENT INFORMATIQUE DE LA COMPARAISON
DE DEUX MOYENNES) 41
5. Test de l’égalité des variances ;
6. Test de l’égalité des moyennes.
Nous allons comparer les poids, exprimés en grammes, de poulpes mâles et femelles pêchés
au large des côtes mauritaniennes. On a ici 15 poulpes mâles et 13 poulpes femelles. Le fichier
se nomme "poulpe.cvs".
{\color{blue}don<-read.table("poulpe.csv",header=TRUE,sep=";")}
summary(don)}
Poids Sexe
Min. : 300 Femelle:13
1st Qu.:1480 Mâle :15
Median :1800
Mean :2099
3rd Qu.:2750
Max. :5400
On voit que la variable Poids est bien quantitative et que la variable Sexe est bien qualitative.
boxplot(Poids~Sexe,ylab="Poids",xlab="Sexe",data=don, col="lightblue")
La figure (2.2) montre que les mâles sont en général plus lourds que les femelles puisque
médianes et quartiles de poids sont supérieurs chez les mâles.
Analyse de la variance
c 2015 Michel Carbon
42 CHAPITRE 2. COMPARAISON DE DEUX MOYENNES
tapply(don[,"Poids"],don[,"Sexe"],mean,na.rm=TRUE)
Femelle Mâle
1405.385 2700.000
{\color{blue}tapply(don[,"Poids"],don[,"Sexe"],sd,na.rm=TRUE)
Femelle Mâle
621.9943 1158.3547
tapply(don[,"Poids"],don[,"Sexe"],quantile,na.rm=TRUE)
$Femelle
0% 25% 50% 75% 100%
300 900 1500 1800 2400
$Mâle
0% 25% 50% 75% 100%
1150 1800 2700 3300 5400
Analyse de la variance
c 2015 Michel Carbon
2.3. EXEMPLE (TRAITEMENT INFORMATIQUE DE LA COMPARAISON
DE DEUX MOYENNES) 43
2.3.4 Test de la normalité des données dans chaque population
Pour construire le test de comparaison de moyennes, on fait souvent l’hypothèse que
l’estimateur de la moyenne, dans chaque sous-population, suit une loi normale. Cela est
vrai si la distribution des données suit une loi normale, ou si la taille de l’échantillon est
suffisamment grande (en pratique n > 30) grâce au théorème central limite.
Ici les effectifs sont inférieurs à 30. Il faut donc tester la normalité des données dans
chaque sous-population.
On peut utiliser le test de Shapiro-Wilk. Pour tester la normalité des mâles seuls, on
sélectionne les poids des mâles en imposant que la variable Sexe prenne la modalité " Mâle ".
On effectue une sélection des lignes en construisant le vecteur logique select. males. Les
composantes de ce vecteur sont TRUE pour un mâle et FALSE sinon. On construit le test
de Shapiro-Wilk sur les individus de cette sélection :
select.males<-don[,"Sexe"]=="Mâle"}
shapiro.test(don[select.males,"Poids"])}
La probabilité critique étant supérieure à 5%, on accepte la normalité des poids des mâles.
Pour les femelles, la conclusion est identique.
Quand l’hypothèse de normalité est rejetée, le test d’égalité des moyennes peut être réalisé
avec le test de Wilcoxon (Wilcox.test) ou celui de Kruskal et Wallis (kruskal.test).
var.test(Poids~Sexe,conf.level=0.95,data=don)}
Analyse de la variance
c 2015 Michel Carbon
44 CHAPITRE 2. COMPARAISON DE DEUX MOYENNES
La probabilité critique vaut 0, 037. On rejette donc H0 , et on peut considérer les variances
significativement différentes.
t.test(Poids~Sexe,alternative=’two.sided’,conf.level=0.95,var.equal=FALSE,data=don)
Analyse de la variance
c 2015 Michel Carbon
2.3. EXEMPLE (TRAITEMENT INFORMATIQUE DE LA COMPARAISON
DE DEUX MOYENNES) 45
La probabilité critique 0, 001 indique que les moyennes sont très significativement différentes.
Exercices
Exercice 1
Deux échantillons indépendants ont été sélectionnés, 130 d’une population 1 et 170 d’une
population 2. Les moyennes calculées sont respectivement : x1,• = 534 et x2,• = 615. Les
écarts-types correspondants sont connus et valent respectivement : σ1 = 25 et σ2 = 30..
1. On suppose dans cette question que : m1 −m2 = −70. Que dire de la loi de X 1,• −X 2,• ?
2. Testez H0 : m1 −m2 = −70 contre H1 : m1 −m2 < −70 au niveau α = 0.01.Interprétez
le résultat de votre test.
Exercice 2
Dans une université, on a mené une étude afin de comparer le nombre moyen d’heures
d’étude passées chaque semaine par des étudiants, en mettant l’accent entre les étudiants
athlètes et les étudiants qui ne le sont pas. Pour cela, un échantillon de 55 étudiants athlètes
a donné une moyenne hebdomadaire d’étude de 20,6 heures et un écart-type de 5,3 heures.
Un second échantillon de 200 non athlètes a, quant à lui, donné une moyenne hebdomadaire
d’étude de 23,5 heures et un écart-type de 4,1 heures.
1. À partir des échantillons observés, peut-on affirmer qu’il y a une différence significative
entre les nombres d’heures d’étude hebdomadaire efectués par les athlètes et ceux qui
ne le sont pas ? (Faites un test au niveau α = 0.01)
2. Construisez un intervalle de confiance à 99% pour m1 − m2 .
3. Est-ce qu’un intervalle de confiance à 95% sera plus étroit ou plus large qu’un intervalle
de confiance à 99% ?
Exercice 3
Un nouveau type de broches a été conçu par un laboratoire dentaire pour les enfants qui
doivent porter des appareils. Les nouvelles broches sont censées être plus confortables, d’un
aspect esthétique amélioré, et censées accélérer le processus de réalignement des dents.
Une expérience a été menée pour comparer les temps nécessaires au bon réalignement des
dents avec les anciennes broches et avec les nouvelles. Une centaine d’enfants a été choisie au
hasard, 50 dans chaque groupe. Un résumé des résultats obtenus est fourni dans le tableau
suivant :
Analyse de la variance
c 2015 Michel Carbon
46 CHAPITRE 2. COMPARAISON DE DEUX MOYENNES
Exercice 4
Une chaîne de grands supermarchés s’intéresse à savoir s’il existe une différence de durée
de vie, en jours, entre deux marques de pain : A et B. Deux échantillons de 50 pains de
chaque marque fraîchement cuits ont donné les résultats suivants :
Marque A Marque B
x̄1 =4.1 x̄2 =5,2
s1 =1,2 s2 =1,4
1. Déterminez les hypothèses H0 et H1 nécessaires pour étudier le problème posé.
2. Le test a été mené en utilisant un logiciel statistique. Interprétez les résultats ci-dessous :
Exercice 5
Un fabricant d’amortisseurs d’automobiles s’intéresse à la comparaison de ses amortis-
seurs vis-à-vis de ceux de son plus grand concurrent. Pour cela, chaque fabricant choisit 6
voitures au hasard et des amortisseurs sont montés sur les voitures concernées. Après que
les automobiles aient parcouru 30 000 kms, la résistance aux chocs des amortisseurs a été
mesurée, codée et enregistrée. Les résultats sont les suivants :
Voiture n˚ Fabricant Concurrent
1 8,8 8,4
2 10,5 10,1
3 12,5 12,0
4 9,7 9,3
5 9,6 9,0
6 13,2 13,0
Analyse de la variance
c 2015 Michel Carbon
2.3. EXEMPLE (TRAITEMENT INFORMATIQUE DE LA COMPARAISON
DE DEUX MOYENNES) 47
1. Peut-on conclure à une différence de résistance pour les amortisseurs entre les deux
fabricants après 30 000 kms d’utilisation ? (α = 0, 05)
2. Quelles hypothèses ont été nécessaires pour cette comparaison ?
3. Construire un intervalle de confiance à 95 % de la différence m1 − m2 . Interprétez.
Analyse de la variance
c 2015 Michel Carbon
48 CHAPITRE 2. COMPARAISON DE DEUX MOYENNES
Analyse de la variance
c 2015 Michel Carbon
Chapitre 3
3.1 Introduction
3.1.1 Exemple introductif
Un exemple de reproductibilité pour étudier les performances de trois laboratoires relati-
vement à la détermination de la quantité de sodium de lasalocide dans de la nourriture pour
de la volaille.
Une portion de nourriture contenant la dose nominale de 85 mg/kg de sodium de lasalocide
a été envoyée à chacun des laboratoires à qui il a été demandé de procéder à 10 réplications
de l’analyse.
Les mesures de sodium de lasalocide obtenues sont exprimées en mg/kg. Elles sont repro-
duites dans le tableau suivant :
Cette écriture du tableau est dite désempilée., Nous pouvons l’écrire sous forme standard
(empilée), c’est-à-dire avec deux colonnes, une pour la laboratoire et une pour la valeur de
la teneur en sodium de lasalocide mesurée, et trente lignes pour chacune des observations
réalisées.
49
50 CHAPITRE 3. ANALYSE DE LA VARIANCE À UN FACTEUR
Remarque 3.1.1 Dans la plupart des logiciels, c’est sous cette dernière forme que sont
saisies et traitées les données. Dans les deux tableaux, nous avons omis les unités de la mesure
réalisée pour abréger l’écriture. Mais en principe, cela doit être indiqué entre parenthèses à
côté de la mesure.
Analyse de la variance
c 2015 Michel Carbon
3.1. INTRODUCTION 51
Remarque 3.1.2 Il va de soi que, lorsque vous rentrez les données dans un logiciel, vous
n’indiquerez pas le mot "Laboratoire" à côté des lettres (A, B, C). Il est juste là pour vous
faciliter la compréhension du tableau.
yi,j i = 1, · · · , I ; j = 1, · · · , J(I).
Définition 3.1.2 Lorsque les échantillons sont de même taille, à savoir J(i) = I et ce, quel
que soit i, nous disons alors que l’expérience est équilibrée.
Remarque 3.1.3 Si les tailles des échantillons sont différentes, alors elles sont notées par :
ni où i = 1, · · · , I .
Mais ce plan expérimental est à éviter, si possible, parce que les différences qu’il est alors
possible de détecter, sont supérieures à celles du schéma équilibré.
Définition 3.1.3 En se plaçant dans le cas équilibré, nous notons les moyennes de chaque
échantillon par :
J
1X
ȳi,• = yi,j i = 1, · · · , I ,
J j=1
et les variances de chaque échantillon par :
J
1X
s2i (y) = (yi,j − ȳi,• )2 i = 1, · · · , I .
J j=1
Analyse de la variance
c 2015 Michel Carbon
52 CHAPITRE 3. ANALYSE DE LA VARIANCE À UN FACTEUR
Remarque 3.1.4 Cette dernière formule exprime la variance non corrigée. Très souvent,
dans les ouvrages ou logiciels, c’est la variance corrigée qui est utilisée : au lieu d’être divisée
par J, la somme est divisée par J − 1.
et
s1,c = 2, 224 s2,c = 2, 633 s3,c = 2, 616 .
n = I × J = 3 × 10 = 30 .
On aimerait savoir, et c’est l’objet de l’analyse de variance, s’il y a une différence pour
les teneurs en sodium de lasalocide entre les trois laboratoires.
Y a-t-il un effet laboratoire sur les teneurs en sodium de lasalocide ?
Voilà la question qui nous intéresse dans ce chapitre, et qui est l’objet principal de l’analyse
de la variance à un facteur.
3.1.2 Objectifs
L’analyse de la variance (ANOVA) est une méthode statistique qui permet d’étudier la
modification de la moyenne µ d’une quantité Y (variable réponse quantitative) selon l’in-
fluence éventuelle d’un ou de plusieurs facteurs d’expérience qualitatifs (traitements ... ).
Dans le cas où la moyenne n’est influencée que par un seul facteur (noté facteur A) , il s’agit
d’une analyse de la variance à un seul facteur ("one way ANOVA"), objet de ce chapitre. Un
facteur A est souvent une variable qualitative présentant un nombre restreint de modalités.
Le nombre de modalités (c’est-à-dire de niveaux) du facteur A sera noté I. On suppose que
Y suit une loi normale N (µi , σ 2 ) sur chaque sous-population i définie par les modalités de
A. L’objectif est ici de tester l’égalité des moyennes de ces populations, à savoir de tester
l’hypothèse nulle :
H0 : µ1 = µ2 = · · · = µI .
contre l’hypothèse alternative :
H1 : ∃ i0 6= i0 tel que µi0 6= µi0 (il existe au moins deux moyennes différentes) .
Pour chaque population i (ou modalité i du facteur A), on dispose d’un échantillon y de
ni observations de la variable réponse Y :
Analyse de la variance
c 2015 Michel Carbon
3.1. INTRODUCTION 53
4. Les modèles associés à l’analyse de variance sont des modèles linéaires. Donc la relation
fonctionnelle f sera tout simplement une somme de termes. Par exemple, si on souhaite
étudier une réponse continue Y à l’aide d’un facteur qualitatif A à effets fixes, avec un
nombre identique J de répétitions effectuées pour chacun des niveaux du facteur. µ est
l’effet moyen sur toute la population du facteur A.
On introduit alors le modèle :
Yi,j = µ + αi + εi,j i = 1, · · · , I ; j = 1, · · · , J.
Analyse de la variance
c 2015 Michel Carbon
54 CHAPITRE 3. ANALYSE DE LA VARIANCE À UN FACTEUR
I
X
sous la contrainte αi = 0, où Yi,j est la valeur prise par la variable réponse Y dans
i=1
la condition Ai lors de la j-ème répétition.
Les hypothèses classiques pour les erreurs sont :
(a) εi,j et εk,l sont indépendantes si (i, j) 6= (k, l) avec 1 ≤ i, k ≤ I et 1 ≤ j, l ≤ J.
(b) L(εi,j ) = N (0, σ 2 ).
Les µ, α1 , · · · , αI sont les paramètres du modèle. εi,j est parfois appelé terme d’erreur
du modèle. Les hypothèses faites sur les erreurs font partie intégrante de la définition du
modèle. Il faudra donc toujours examiner soigneusement ces conditions, car la validité
des résultats dépend fortement des conditions d’application.
Analyse de la variance
c 2015 Michel Carbon
3.2. MODÈLE À EFFETS FIXES 55
2. De plus, les lois statistiques des tests que l’on utilise pour tester les différentes hypo-
thèses présentes dans le tableau d’analyse de variance ne sont, dans la plupart des cas,
connues qu’approximativement.
Analyse de la variance
c 2015 Michel Carbon
56 CHAPITRE 3. ANALYSE DE LA VARIANCE À UN FACTEUR
I
X
sous la contrainte que : αi = 0, où Yi,j est la valeur prise par la variable réponse Y dans
i=1
la condition Ai lors de la j-ème répétition, et où εi,j est le résidu du modèle. Un individu
statistique est donc défini par le couple (i, j). L’analyse de variance revient alors à tester
l’égalité des moyennes dans chaque modalité, c’est-à-dire tester l’égalité des αi à zéro.
On fera les hypothèses importantes suivantes :
1. εi,j et εk,l sont indépendantes si (i, j) 6= (k, l) avec 1 ≤ i, k ≤ I et 1 ≤ j, l ≤ J.
2. L(εi,j ) = N (0, σ 2 ).
Nous supposerons que ces conditions d’utilisation sont bien remplies. Nous regroupons les
valeurs que peut prendre la réponse Y dans les conditions Ai lors des J répétitions dans le
tableau suivant :
Facteur A Y
A1 Y1,1 , · · · , Y1,J
.. ..
. .
Ai Yi,1 , · · · , Yi,J
.. ..
. .
AI YI,1 , · · · , YI,J
On notera également µi = µ+αi . Clairement, on a : Yi,j ∼ N (µi , σ 2 ) pour tout i = 1, · · · , I
et j = 1, · · · , J.
3.2.1 Notations
On a observé n = I × J valeurs de la variable Y indexée par deux indices i et j. La
moyenne de ces valeurs par rapport à l’indice i est notée Y•,j . Il s’agit simplement de la
moyenne de valeurs de la j-ème colonne du tableau :
I
1X
Y•,j = Yi,j .
I i=1
La moyenne de ces valeurs par rapport à l’indice j est notée Yi,• . Il s’agit simplement de la
moyenne de valeurs de la i-ème ligne du tableau :
J
1X
Yi,• = Yi,j .
J j=1
La moyenne globale par rapport aux indices i et j est notée Y•,• . Il s’agit simplement de la
moyenne globale du tableau :
I J
1 XX
Y•,• = Yi,j .
I J i=1 j=1
Analyse de la variance
c 2015 Michel Carbon
3.2. MODÈLE À EFFETS FIXES 57
Là aussi, il est aisé d’avoir les lois des éléments ci-dessus. Par exemple : Yi,• ∼ N (µi , σ 2 /J)
et Y•,• ∼ N (µ, σ 2 /n) où n = I × J.
Proposition 3.2.1
On a la décomposition fondamentale de l’analyse de variance suivante :
SCT OT = SCF + SCR . (3.2.5)
Remarquons que : Yi,j − Y•,• = Yi,j − Yi,• + Yi,• − Y•,• . D’où :
I X
X J I X
X J I X
X J
2 2
(Yi,j − Y•,• ) = (Yi,j − Yi,• ) + (Yi,• − Y•,• )2 , (3.2.6)
i=1 j=1 i=1 j=1 i=1 j=1
car le double produit, dans le développement de la somme au carré, vaut zéro. En effet :
I XJ I
" J #
X X X
2 (Yi,j − Yi,• )(Yi,• − Y•,• ) = 2 (Yi,• − Y•,• ) (Yi,j − Yi,• ) .
i=1 j=1 i=1 j=1
J
X
D’autre part, on remarque que : Yi,j = JYi,• par définition de Yi,• . D’où :
j=1
J
X
(Yi,j − Yi,• ) = JYi,• − JYi,• = 0 .
j=1
L’égalité (3.2.6), en utilisant (3.2.2), (3.2.3) et (3.2.4) peut alors s’écrire sous la forme de
la relation fondamentale (3.2.5) de l’ANOVA.
Analyse de la variance
c 2015 Michel Carbon
58 CHAPITRE 3. ANALYSE DE LA VARIANCE À UN FACTEUR
Proposition 3.2.2
Sous les hypothèses de normalité et d’égalité des variances, on a :
SCF
∼ χI−1 (δ)
σ2
I
X I
X
avec δ = J (µi − µ)2 = J αi2 .
i=1 i=1
I
X √
Il est facile de voir que SCF = JYi,• 2 −nY•,• 2 . Posons Zi = JYi,• pour i = 1, 2, · · · , I.
i=1
On a alors :
I
√ 2 1 X√
Zi ∼ N ( Jµi , σ ) et Y•,• = JZi .
n i=1
On en déduit que :
I I
X 1 X√
SCF = Zi2
− (√ JZi )2
i=1
n i=1
I √ √
X J 2 X J J
= (1 − )Zi − 2 Zi Zj
i=1
n i<j
n
1 T 1
A2 = (II − νν ) × (II − νν T )
n n
1 T 1 T 1
= II − νν − νν + 2 νν T νν T
n n n
I
X √ √
T
On peut remarquer que ν ν = J J = n.
i=1
Donc les deux derniers termes de la partie droite de la dernière équation s’annulent et on
a A2 = A.
D’après un théorème du chapitre 1, SCF /σ 2 suit alors
√ une√loi du khi-deux
√ χ2d (δ) où d est
l’ordre de la matrice A, δ = ξ T Aξ/σ 2 et ξ = E[Z] = ( Jµ1 , Jµ2 , · · · , JµI )T .
Analyse de la variance
c 2015 Michel Carbon
3.2. MODÈLE À EFFETS FIXES 59
I
X
D’où δ = J(µi − µ)2 /σ 2 .
i=1
Proposition 3.2.3
Sous les hypothèses usuelles de l’analyse de la variance, on a :
SCR
∼ χ2n−I .
σ2
En effet, posons :
J
1 X
Si2 = (Yi,j − Yi,• )2 .
J − 1 j=1
Proposition 3.2.4
Sous les hypothèses habituelles de l’analyse de la variance, les statistiques SCF et SCR sont
indépendantes et on a :
I
! I
!
SCT X X
2
∼ χ2n−1 J(µi − µ)2 /σ 2 = χ2n−1 J αi2 /σ 2
σ i=1 i=1
Pour i = 1, 2, · · · , I, les statistiques Yi,• et Si2 sont indépendantes d’après une proposition
du chapitre 1. Les statistiques SCF et SCR sont donc indépendantes puisque la première
est une fonction de {Y1,• , Y2,• , · · · , YI,• } et la deuxième est une fonction de {S12 , S22 , !
· · · , SI2 }.
XI
D’après un exercice du chapitre 1 , SCT = SCF + SCR ∼ χn−1 2
J(µi − µ)2 /σ 2 .
i=1
Analyse de la variance
c 2015 Michel Carbon
60 CHAPITRE 3. ANALYSE DE LA VARIANCE À UN FACTEUR
Proposition 3.2.5
Sous les hypothèses habituelles de l’analyse de la variance, posons :
SCF /(I − 1)
F = .
SCR /(n − I)
I
!
X
On a alors : F ∼ FI−1,n−I J αi2 /σ 2 .
i=1
Cette dernière proposition est une conséquence directe de la définition d’une loi de Fisher
non centrée. On en déduit alors que
I
X
I −1+ J(µi − µ)2 /σ 2
SCF /(I − 1) i=1 n−I
E =
SCR /(n − I) I −1 n−I −2
Sous cette hypothèse, les trois statistiques SCT , SCF et SCR suivent des lois du khi-deux
centrées à respectivement n − 1, I − 1 et n − I degrés de liberté.
H0 : µ1 = µ2 = · · · = µI
contre
H1 : il existe i 6= j tels que µi 6= µj ,
ce qui est équivalent au test d’hypothèses suivant :
H0 : α1 = α2 = · · · = αI = 0
contre
H1 : Il existe i0 ∈ {1, 2, · · · , I} tel que αi0 6= 0 .
Analyse de la variance
c 2015 Michel Carbon
3.2. MODÈLE À EFFETS FIXES 61
La construction de ce test est basée sur la méthode du rapport des maximums de vraisem-
blance. Lorsque la variance commune σ 2 est connue, la vraisemblance globale s’écrit sous la
forme :
I Y ni
Y 1 (Yij −µi )2
L(µ1 , µ2 , · · · , µI ) = {√ e− 2σ2 }
i=1 j=1 2πσ 2
I ni
2 −N 1 XX
= (2πσ ) 2 exp(− 2 (Yij − µi )2 )
2σ i=1 j=1
L’estimateur du maximum de vraisemblance du vecteur (µ1 , µ2 , · · · , µI ) est (Y1,• , Y2,• , · · · , YI,• ).
Sous H0 , cet estimateur devient (Y•,• , Ȳ•,• , · · · , Y•,• ). Le rapport des vraisemblances s’écrit
alors :
L(Y•,• , Y•,• , · · · , Y•,• )
Λ =
L(Y1,• , Y2,• , · · · , YI,• )
I ni
2 −N 1 XX
(2πσ ) 2 exp(− 2 (Yij − Y•,• )2 )
2σ i=1 j=1
= I ni
−N 1 XX
2
(2πσ ) exp(− 2
2 (Yij − Yi,• )2 )
2σ i=1 j=1
I ni I X ni
1 XX 2
X
= exp{− 2 (Yij − Y•,• ) − (Yij − Yi,• )2 }
2σ i=1 j=1 i=1 j=1
I
1 X
= exp{− 2 ni (Yi,• − Y•,• )2 }
2σ i=1
Le passage de l’avant dernière ligne à la dernière ligne se fait en remarquant que :
X ni
I X X ni
I X I
X
2 2
(Yij − Yi,• ) = (Yij − Y•,• ) − ni (Yi,• − Y•,• )2
i=1 j=1 i=1 j=1 i=1
Cette égalité a été établie lors de la décomposition de SCT en somme SCT = SCF + SCR .
I
1 X
Donc on rejette H0 si le rapport Λ = exp{− 2 ni (Yi,• − Y•,• )2 } est petit, c’est à dire
2σ i=1
I
X
si ni (Yi,• − Y•,• )2 /σ 2 est grand. On reconnaît l’expression de SCF /σ 2 .
i=1
Proposition 3.2.6
Lorsque la variance est connue, on rejette H0 au seuil 1 − α si et seulement si
SCF
> χ2I−1,1−α
σ2
En effet, d’après la section précédente, on a vu que SCF /σ 2 ∼ χ2I−1 sous H0 .
Analyse de la variance
c 2015 Michel Carbon
62 CHAPITRE 3. ANALYSE DE LA VARIANCE À UN FACTEUR
Analyse de la variance
c 2015 Michel Carbon
3.2. MODÈLE À EFFETS FIXES 63
Proposition 3.2.7
Lorsque la variance est inconnue, on rejette H0 au seuil 1 − α si et seulement si :
SCF /(I − 1) SF2
F = = 2 > FI−1,n−I,1−α
SCR /(n − I) SR
Analyse de la variance
c 2015 Michel Carbon
64 CHAPITRE 3. ANALYSE DE LA VARIANCE À UN FACTEUR
Les diverses quantités (3.2.2), (3.2.3) et (3.2.4) suivent, au facteur multiplicatif σ 2 près,
des lois du khi-deux avec des nombres de degrés de liberté respectifs IJ − 1, I − 1 et IJ − I.
Ceci est résumé dans le tableau suivant :
La liste y des données expérimentales y1,1 , · · · , y1,J , y2,1 , · · · , y2,J , · · · , yI,J permet de construire
une réalisation du tableau précédent :
Facteur A y
A1 y1,1 , · · · , y1,J
.. ..
. .
Ai yi,1 , · · · , yi,J
.. ..
. .
AI yI,1 , · · · , yI,J
La variation due au facteur A observée sur la liste de données y est définie par :
I
X
scF = J (yi,• − y•,• )2 .
i=1
Enfin, la variation totale observée sur la liste de données y est égale par :
I X
X J
scT OT = (yi,j − y•,• )2 .
i=1 j=1
Analyse de la variance
c 2015 Michel Carbon
3.2. MODÈLE À EFFETS FIXES 65
La relation fondamentale de l’ANOVA reste valable lorsqu’elle est évaluée sur la liste de
données y :
scT OT = scF + scR .
On peut résumer toutes ces informations dans le tableau d’analyse de variance suivant :
H0 : α1 = α2 = · · · = αI = 0
contre
H1 : Il existe i0 ∈ {1, 2, · · · , I} tel que αi0 6= 0 .
On rappelle que nous sommes dans le cas gaussien et que les variances sont supposées égales.
On montre alors que :
I
J X 2
E (ST2 ) = σ 2 + α
IJ − 1 i=1 i
I
J X 2
E (SF2 ) 2
= σ + α
I − 1 i=1 i
E (SR2 ) = σ 2 .
Clairement, sous H0 , les variables :
χ2F . χ2R S2
= F2 suit une loi de Fisher-Snedecor F(I − 1, IJ − I) .
I − 1 IJ − I SR
Analyse de la variance
c 2015 Michel Carbon
66 CHAPITRE 3. ANALYSE DE LA VARIANCE À UN FACTEUR
SF2
Le test de l’hypothèse nulle nécessite le calcul de la quantité : f = 2 .
SR
Le rejet de l’hypothèse nulle, au niveau α, intervient quand cette dernière quantité est
trop élevée, c’est-à-dire quand :
P (F ≥ f ) ≤ α ou f ≥ F1−α ,
avec une loi de Fischer-Snedecor à I − 1, IJ − I degrés de liberté. Ce test est unilatéral, car
dans tous les cas où H0 est fausse, les valeurs observées f dépassent en moyenne les valeurs
que donnent usuellement les lois F de Fisher-Snedecor.
On concluera donc à l’aide de la probabilité critique, et on rejettera H0 si cette probabilité
est inférieure ou égale au seuil α du test.
Lorsque H0 est rejetée, on peut alors procéder à des comparaisons multiples des différents
effets du niveau du facteur, ce qui sera vu plus loin.
3.2.3 Estimations
Les estimateurs µ̂, α̂1 , · · · , α̂I et σ̂ 2 des paramètres respectifs µ, α1 , · · · , αI et σ 2 du modèle
sont données par :
µ̂ = Y•,• ; α̂i = Yi,• − µ̂ 1≤i≤I
SCR
σ̂ 2 = = SR2 .
IJ − I
Ce sont des estimateurs sans biais. Les estimations obtenues pour une liste de données y,
notées µ̂(y), α̂1 (y),· · · , α̂I (y) et σ̂ 2 (y) des paramètres µ, α1 , · · · , αI et σ 2 du modèle se
déduisent des formules précédentes.
On peut en outre calculer comme suit des intervalles de confiance pour les moyennes des
différentes populations (parmi les I populations) :
s
SR2
Yi,• ± t1−α/2 ,
ni
Analyse de la variance
c 2015 Michel Carbon
3.2. MODÈLE À EFFETS FIXES 67
L’effet positif de 1,03 entre cette observation particulière et la moyenne générale provient, à
la fois du fait que cette teneur est mesurée dans un certain laboratoire, dont la moyenne est
inférieure de 0,47 par rapport à la moyenne générale, et que cette observation a une teneur
supérieure de 1,5 par rapport à la moyennes de toutes les teneurs observées dans ce même
laboratoire.
Un calcul similaire peut être effectué pour chaque des 30 observations, et en sommant les
carrés des écarts, on aboutit aux trois sommes des carrés des écarts :
Il y a donc une différence significative des moyennes des teneurs en sodium pour les 3 laboratoires.
3.2.5 Généralisation
Pour faire face aux cas pratiques, on peut généraliser au cas où, pour chaque modalité, le nombre
d’observations n’est pas nécessairement le même. On notera ni le nombre d’observations dans la
modalité Ai .
Analyse de la variance
c 2015 Michel Carbon
68 CHAPITRE 3. ANALYSE DE LA VARIANCE À UN FACTEUR
I
X
En notant n = ni , la moyenne globale est :
i=1
Ii n
1 XX
Y•,• = Yi,j .
n
i=1 j=1
La variation théorique totale ou somme totale des carrés des écarts vaut :
ni
I X
X
SCT OT = (Yi,j − Y•,• )2 . (3.2.9)
i=1 j=1
La relation fondamentale de l’ANOVA est toujours la relation (3.2.5). Les remarques faites dans
le paragraphe 1.2.2 quant aux lois rencontrées, restent valables ici, mutatis mutandis.
Le tableau d’analyse de variance s’écrit alors :
Analyse de la variance
c 2015 Michel Carbon
3.2. MODÈLE À EFFETS FIXES 69
Exemple 3.2.1
On veut comparer des hauteurs moyennes, exprimées en mètres, des arbres de trois types de hê-
traies. On cherche effectivement à savoir s’il existe ou non, en moyenne, des différences significatives
de hauteurs d’arbres entre les trois types de forêts. On suppose que les hypothèses de normalité et
d’égalité des variances sont satisfaites. Les données sont fournies dans le tableau suivant :
Il y a trois modalités, les trois types de hêtraies. Les valeurs relatives aux 37 endroits où les
mesures de hauteur ont été réalisées, produisent les moyennes respectives :
Appliqué à la première observation du premier échantillon (x1,1 = 23, 4), le modèle observé
d’analyse de variance s’écrit :
L’effet négatif de 1,58 m entre cette observation particulière et la moyenne générale provient,
à la fois du fait que l’endroit considéré appartient à un certain type de forêt dont la moyenne est
supérieure de 0,99 m par rapport à la moyenne générale, et que cet endroit présente une hauteur
inférieure de 2,57 m, par rapport à la moyenne de toutes les observations relatives à ce même type
de forêt.
Un calcul similaire peut être effectué pour chacun des 36 autres arbres, et, en sommant les carrés
des écarts ainsi obtenus, on aboutit aux trois sommes des carrés des écarts :
Cette façon de procéder n’est pas celle suivie habituellement, car on le fait souvent informatique-
ment, mais est utile d’un point de vue didactique pour bien comprendre le mécanisme de l’analyse
de variance.
Le tableau ci-dessous présente la somme des carrés des écarts obtenue de cette manière :
Analyse de la variance
c 2015 Michel Carbon
70 CHAPITRE 3. ANALYSE DE LA VARIANCE À UN FACTEUR
On peut aussi réaliser cette étude sous R. Les commandes sont les suivantes :
> hetraie<-rep(1:3,c(13,14,10))
> hauteur<-c(23.4,24.4,24.6,24.9,25.0,26.2,26.3,26.8,26.8,26.9,27.0,27.6,27.7,
+ + 22.5,22.9,23.7,24.0,24.4,24.5,25.3,26.0,26.2,26.4,26.7,26.9,27.4,28.5,
+ + 18.9,21.1,21.2,22.1,22.5,23.6,24.5,24.6,26.2,26.7)
> hetraie<-factor(hetraie)
> arbre<-data.frame(hetraie,hauteur)
> modele1<-aov(hauteur~hetraie,data=arbre)
> summary(modele1)
Le tableau d’analyse de variance fourni est le suivant :
Df Sum Sq Mean Sq F value Pr(>F)
hetraie 2 48.88 24.441 7.124 0.00261 **
Residuals 34 116.65 3.431
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
On conclut bien entendu comme ci-dessus.
Analyse de la variance
c 2015 Michel Carbon
3.3. MODÈLE À EFFETS ALÉATOIRES 71
Exemple 3.3.1
On s’intéresse au niveau en mathématiques des étudiants des cégéps de la région de Québec. On
prend alors un échantillon de 20 finissants de chaque cégep de la région de Québec. On leur fait
passer une épreuve commune, puis on compare les résultats. C’est une expérience à effets fixes. Les
modalités du facteur étudié sont les cégeps de la région de Québec. Ce facteur est fixe.
Supposons maintenant qu’on veuille répondre à la question suivante : Est ce que le niveau en mathé-
matiques est variable d’un cégep à l’autre dans la province de Québec ? Si tel était le cas, on aimerait
mesurer cette variabilité.
Dans un premier temps, on sélectionne un échantillon de cégeps parmi les cégeps de la province ;
ensuite on procède comme avant et on tire au hasard 20 étudiants de chaque cégep (il s’agit d’un
échantillonnage à deux degrés). On s’intéresse autant aux cégeps échantillonnés qu’à ceux qui ne
l’ont pas été, car on veut étudier la variabilité inter-cégeps des compétences en mathématiques. Dans
ce dernier contexte, le facteur cégep est aléatoire.
Comme nous l’avons signalé plus haut, dans le cas du modèle aléatoire, les populations dans
lesquelles les observations sont réalisées, sont choisies au hasard au sein d’un ensemble très vaste.
On admettra donc que les effets des Ai , à savoir les αi , sont des variables aléatoires de loi normale
2.
centrée de variance σA
Le modèle ne dépend plus, cette fois, que de trois paramètres µ, σ 2 et σA2 . Pour chacune des i
modalités, on effectue ni mesures d’une réponse Y qui est une variable continue. On notera encore
XI
n= ni le nombre total de mesures ayant été effectuées.
i=1
Le modèle est le suivant :
où Yi,j est la valeur prise par la variable réponse Y dans la condition Ai lors de la j-ème répétition.
On suppose que :
2
L(αi ) = N (0, σA ), ∀i, 1 ≤ i ≤ I ,
ainsi que l’indépendance des effets aléatoires :
αi est indépendant de αk si i 6= k et 1 ≤ i, k ≤ I .
Analyse de la variance
c 2015 Michel Carbon
72 CHAPITRE 3. ANALYSE DE LA VARIANCE À UN FACTEUR
Nous supposons que les conditions d’utilisation de ce modèle sont bien remplies ; l’étude de leur
vérification sera étudiée plus loin.
Avec ce modèle, on a : Yi,j ∼ N (0, σA 2 + σ 2 ). On dit alors que σ 2 et σ 2 sont les composantes de
A
la variance. Une partie de la variabilité de Y est expliquée par la variabilité entre les traitements
(σA2 ), l’autre par la variabilité résiduelle (σ 2 ).
On utilise toujours les mêmes quantités SCF , SCR , SCT OT , scF , scR et scT OT introduites à la
section 1.2. La relation fondamentale de l’ANOVA tient toujours :
H0 : α1 = α2 = · · · = αI = 0 .
Cette dernière n’a plus de sens dans le contexte d’une analyse de la variance à un facteur aléatoire
puisque les modalités sont aléatoires. On cherche à tester si le facteur influence la variabilité de la
variable réponse Y . Donc, on souhaite, cette fois, faire le test d’hypothèses suivant :
2 2
H0 : σA =0 contre H1 : σA 6= 0 .
La nullité de la variance des effets Ai implique l’égalité des moyennes de toutes les populations
considérées, et non pas seulement des moyennes des I populations pour lesquelles on dispose d’ob-
servations.
Bien que les deux scénarios soient très différents (entre effets fixes et effets aléatoires), on utilise
la même règle de décision dans les deux cas.
SF2
On rejettera H0 si 2 > FI−1,n−I,1−α .
SR
Le tableau d’analyse de variance suivant résume les informations nécessaires :
Sous l’hypothèse nulle H0 précédente d’absence d’effet du facteur A, et lorsque les conditions
de validité du modèle sont pleinement respectées, F est une variable aléatoire qui suit une loi de
Fisher-Snedecor à I − 1 et n − I degrés de liberté. Nous pouvons alors conclure, à partir d’une
Analyse de la variance
c 2015 Michel Carbon
3.3. MODÈLE À EFFETS ALÉATOIRES 73
Exemple 3.3.2
On s’intéresse à l’ensemble des prairies d’une région donnée, et on souhaite identifier l’impor-
tance, absolue ou relative, de la variabilité de la production fourragère, d’une part d’une prairie à
l’autre, et d’autre part, d’un endroit à l’autre à l’intérieur des différentes prairies.
Pour cela, on a choisi au hasard trois prairies dans l’ensemble du territoire considéré, puis au
sein de chacune de ces trois prairies, cinq petites parcelles de 2 m2 . En termes d’échantillonnage,
c’est un échantillonnage à deux degrés : le choix des trois prairies constitue trois unités du premier
degré et les 15 petites parcelles de 2 m2 constituent les 15 unités de second degré.
Dans chacune des 15 parcelles, on a mesuré les rendements en matière sèche de fourrage à une
date donnée. Les valeurs en tonnes par hectare sont les suivantes :
La probabilité de dépasser la valeur 4,23 est égale à 0,041, pour une variable F de loi de Fisher-
Snedecor à 2 et 12 degrés de liberté. Les différences entre prairies doivent donc être considérées
comme juste significatives.
Analyse de la variance
c 2015 Michel Carbon
74 CHAPITRE 3. ANALYSE DE LA VARIANCE À UN FACTEUR
Quand l’hypothèse H0 est vraie, cette quantité observée est approximativement une valeur observée
d’une variable de loi du khi-deux à I − 1 degrés de liberté.
H0 sera rejetée, au niveau α, si (test unilatéral) :
P (χ2 ≥ χ2obs ) ≤ α et χ2obs ≥ χ21−α .
Exemple 3.4.1
On reprend l’exemple de la hauteur des arbres de trois types de hêtraies. Le tableau ci-dessous
reprend les données et les rangs sont indiqués à droite :
Hauteurs Rangs
Type 1 Type 2 Type 3 Type 1 Type 2 Type 3
23,4 22,5 18,9 8 5,5 1
24,4 22,9 21,1 12,5 7 2
24,6 23,7 21,2 16,5 10 3
24,9 24,0 22,1 18 11 4
25,0 24,4 22,5 19 12,5 5,5
26,2 24,5 23,6 23 14,5 9
26,3 25,3 24,5 25 20 14,5
26,8 26,0 24,6 29,5 21 16,5
26,8 26,2 26,2 29,5 23 23
26,9 26,4 26,7 31,5 26 27,5
27,0 26,7 33 27,5
27,6 26,9 35 31,5
27,7 27,4 36 34
28,5 37
Total 316,5 280,5 106
Analyse de la variance
c 2015 Michel Carbon
3.4. MÉTHODE NON PARAMÉTRIQUE 75
Exercices
Exercice 1
On cherche à étudier l’effet d’un facteur traitement à 6 modalités sur le rendement de blé. Chaque
traitement a été répété sur 4 petites parcelles de 10 mètres carrés.
1. Complétez le tableau d’analyse de la variance suivant :
Source de Somme des carrés Degrés de Carrés fobs
variabilité des écarts liberté moyens
Facteur 72,25 ··· ··· ···
Résiduelle ··· ··· ···
Totale 125,35 ···
2. Quel pourcentage d’explication sur le rendement du blé est dû au traitement ?
Exercice 2
On considère cinq traitements T1 , · · · , T5 contre les boutons de fièvre, dont un est un placebo
(traitement T1 ). Ces traitements ont été administrés au hasard sur trente patients ( six patients
par groupe de traitement). Le délai, exprimé en jours, entre l’apparition des boutons de fièvre et la
cicatrisation complète a été recueilli chez chacun des trente patients, détaillé ci-dessous :
T1 T2 T3 T4 T5
5 4 6 7 9
8 6 4 4 3
7 6 4 6 5
7 3 5 6 7
10 5 4 3 7
8 6 3 5 6
1. Comparez les moyennes des délais de cicatrisation, délais observés sur cinq échantillons indé-
pendants (groupes de traitement).
2. Estimez les différents paramètres du modèle.
Exercice 3
Quinze veaux ont été répartis au hasard en trois lots, les veaux d’un même lot recevant une
alimentation particulière. Les gains de poids, observés au cours d’une même période et exprimés en
kg, sont présentés ci-dessous, une donnée étant manquante :
Peut-on considérer que les différences de moyennes constatées entre les alimentations des trois
lots sont significatives ?
Analyse de la variance
c 2015 Michel Carbon
76 CHAPITRE 3. ANALYSE DE LA VARIANCE À UN FACTEUR
Dans l’affirmative, estimez ces différences de moyennes et déterminez-en les limites de confiance
à 95%.
Exercice 4
Une compagnie emploie un grand nombre de représentants, et cherche à savoir lesquels d’entre
eux vendent le mieux, parmi les différentes catégories de représentants : ceux payés strictement à la
commission, ceux avec un salaire fixe, et ceux qui ont un salaire fixe plus une commission. Une étude
des ventes dans cette compagnie, sur le mois précédent, a donné les résultats suivants (résultats des
ventes obtenus en milliers de dollars par chaque représentant) :
1. Estimez les moyennes et les écarts-types pour les trois catégories. Faites une boîte à moustache
pour une meilleure illustration.
2. Est-ce qu’en moyenne, les ventes diffèrent en fonction des trois différentes catégories ?
3. Déterminez un intervalle à 90% pour les ventes de la catégorie des représentants recevant un
salaire plus une commission.
Exercice 5
On a relevé les salaires dans trois quartiers d’une grande ville. Ces trois quartiers sont en grande
partie occupés par trois communautés A, B et C différentes. Le tableau qui suit résume ces salaires
(en milliers de dollars) :
1. Y a-t-il une différence significative entre les moyennes des salaires dans les trois communautés ?
2. Donnez un intervalle de confiance à 95 % de la différence des moyennes de salaire entre les
deux premières communautés (α = 0, 05).
Analyse de la variance
c 2015 Michel Carbon
3.4. MÉTHODE NON PARAMÉTRIQUE 77
Exercice 6
Pour une étude de santé globale, on s’intéresse à la quantité de gras contenu dans des pièces de
viandes de boeuf. Pour cela, on a sélectionné au hasard quatre supermarchés. Dans chacun d’eux,
on a choisi aléatoirement 4 pièces de boeuf, d’un même poids d’un kilogramme, pour mesurer le
pourcentage de gras dans chacune. Les résultats sont les suivants :
Exercice 7
À l’issue d’un test de dégustation, on a recueilli 8 notes mesurant l’acidité ressentie pour chacune
de 4 bières blanches. Ces notes sont rassemblées dans le tableau suivant :
Bière 1 Bière 2 Bière 3 Bière 4
note 1 5 0 5 0
note 2 5 1 6 0
note 3 5 2 6 1
note 4 6 2 7 1
note 5 7 3 8 2
note 6 7 4 9 3
note 7 8 6 10 4
note 8 10 6 10 4
On pourra remarquer que chaque note est évaluée sur une échelle allant de 0 à 10. Par exemple, la
première note accordée à la bière 4 (note de 0) traduit une absence totale d’acidité pour cette bière
La huitième note de la bière 1 (note de 10) traduit au contraire une acidité extrême. Bien entendu,
chaque bière est évaluée par un jury indépendant des autres jurys.
1. Faites des boîtes à moustaches pour illustrer le lien entre l’acidité et la bière.
2. Quelle méthode semble adaptée pour savoir si les bières diffèrent par leur acidité ?
3. Écrire le modèle correspondant.
4. Dressez le tableau d’analyse de la variance correspondant.
5. Proposez un test pour comparer globalement ces bières (hypothèse nulle, hypothèse alterna-
tive, statistique de test, loi de la statistique sous H0 ). Prenez une décision au seuil de risque
α = 1 %.
6. Quel pourcentage de variabilité de la note est expliqué par le facteur bière ?
Analyse de la variance
c 2015 Michel Carbon
78 CHAPITRE 3. ANALYSE DE LA VARIANCE À UN FACTEUR
Analyse de la variance
c 2015 Michel Carbon
Chapitre 4
Remarque 4.0.1
Ces trois conditions se transfèrent immédiatement sur les variables aléatoires Yi,j .
Nous étudions les possibilités d’évaluer la validité des trois conditions que nous avons supposées
satisfaites.
79
CHAPITRE 4. VALIDATION DES HYPOTHÈSES D’UNE ANOVA À UN
80 FACTEUR
Planification 1 : On pourrait prendre les dix premiers rats de la grosse cage du début, et
les mettre dans des cages individuelles pour la diète 1. Les 10 restants seraient alors associés à la
deuxième diète. L’effet diète est donc ici confondu avec l’ordre de sortie de la cage de départ. Ce
sont peut-être les rats les plus actifs qui sont sortis en premier. Ainsi les 2 échantillons ne sont pas
nécessairement identiques au début de l’expérience.
Planification 2 : On utilise un tirage au hasard. Pour ce faire, on permute au hasard dix "1"
et dix "2".
Les instructions R pour faire cela sont :
sample(c(rep(1,10),rep(2,10)),20,replace=FALSE)
[1] 2 1 1 1 1 2 2 1 1 2 2 1 1 1 2 2 1 2 2 2
Le résultat fournit l’assignation de chacun des rats : le premier tiré reçoit la deuxième diète ; ceux
tirés en positions 2 à 5 reçoivent la diète 1 ; les positions 6 et 7 reçoivent la diète 2, etc...
Une bonne planification cherche à faire en sorte que les I échantillons soient le plus semblable
possible. Si une expérience est mal planifiée, l’interprétation d’un résultat significatif peut être
problématique. Il est peut-être causé par une planification déficiente. Dans l’expérience sur les rats,
ceux choisis en premier pourraient être plus en forme. C’est peut-être la raison pour laquelle les deux
échantillons ont des moyennes différentes.
Si on soupçonne qu’un facteur auxiliaire a un impact sur le résultat d’une expérience, on peut
incorporer ce facteur dans la planification pour s’assurer que les échantillons soient bien ”balancés“
pour ce facteur. Ce facteur auxiliaire est appelé bloc. Le schéma expérimental est appelé un schéma
aléatoire avec blocs.
Il faut aussi veiller à ce que les I échantillons soient indépendants les uns des autres.
Dans la plupart des situations, la réponse à cette question dépend de la façon avec laquelle on a ré-
colté les données. L’indépendance des échantillons, appelée aussi indépendance inter-échantillonnale,
est donc une conséquence directe du scénario de l’échantillonnage. Une situation standard dans la-
quelle cette hypothèse est violée, est le cas de données appariées, c’est-à-dire lorsque chaque obser-
vation dans un échantillon est reliée à une observation dans chacun des autres échantillons.
Exemple 4.1.1 Un chercheur en sciences médicales veut comparer deux médicaments pour réduire
le taux de glycémie chez les personnes âgées. Il prend des couples de personnes âgées et administre
à chacun des deux membres du couple un des deux médicaments. Les données ainsi récoltées ne sont
clairement pas indépendantes puisque les données d’un couple sont reliées entre elles. En effet, le
couple partage le quotidien, et il se peut qu’un couple fasse très attention à son alimentation alors
qu’un autre couple non, ou peu d’attention.
Analyse de la variance
c 2015 Michel Carbon
4.2. CONDITION DE NORMALITÉ 81
i = 1, 2, · · · , I. Si ce graphe montre une tendance quelconque, on peut penser que cette hypothèse
n’est pas vérifiée.
Est-ce que les observations sont indépendantes les unes des autres à l’intérieur de chaque échan-
tillon ?
Encore une fois, c’est le schéma expérimental qui rend cette hypothèse raisonnable. Le cas où les
données sont récoltées séquentiellement soulève un doute concernant la véracité de cette hypothèse.
En effet, il se peut que les données soient autocorrélées, c’est-à-dire que Yij soit corrélée avec Yi(j+1) .
On peut détecter cette situation en traçant le nuage de points (Yij , Yi,j+1 ) pour j = 1, 2, · · · , ni − 1,
ou en calculant les coefficients d’autocorrélation. Pour pouvoir répondre positivement à la question,
le nuage de points ne doit montrer aucune tendance et les autocorrélations ne doivent pas être
significativement différentes de 0.
Nous ne pouvons pas, en général, la tester pour chaque échantillon. En effet le nombre d’obser-
vations est souvent très limité pour chaque échantillon. Nous allons donc la tester sur l’ensemble
des données. D’où la nécessité de ramener toutes les observations à la même échelle pour avoir une
population homogène sur laquelle on va effectuer les différents tests de normalité.
Donc la loi des εi,j est identique pour toutes les unités.
Les moyennes µi sont inconnues. On va alors les estimer par les estimateurs :
ni
1 X
Yi,• = Yi,j pour tout i ∈ I .
ni
j=1
Nous obtenons alors les estimations yi,• . On en déduit les résidus, notés êi,j . Les résidus s’expriment
par :
êi,j = yi,j − yi,• i = 1, · · · I ; j = 1, · · · , ni ..
Les résidus peuvent s’interpréter comme des estimations des erreurs de mesure.
Définissons les résidus eij par : Yij − µi . On a alors eij ∼ N (0, σ 2 ), résidus estimés ci-dessus.
Analyse de la variance
c 2015 Michel Carbon
CHAPITRE 4. VALIDATION DES HYPOTHÈSES D’UNE ANOVA À UN
82 FACTEUR
4.2.1 Les cœfficients d’asymétrie et d’aplatissement
On peut déjà examiner les coefficients d’asymétrie et d’aplatissement.
Le cœfficient d’asymétrie (skewness) de l’échantillon {X1 , . . . , Xn } est donné par :
n
1X
(Xi − X)3
n
i=1
g1 = !3/2 .
n
1X
(Xi − X)2
n
i=1
Certains logiciels calculent un estimateur corrigé pour le biais. La valeur théorique de ces deux
statistiques est nulle lorsque les données sont normales.
Analyse de la variance
c 2015 Michel Carbon
4.3. CONDITION D’HOMOGÉNÉITÉ DES VARIANCES 83
Analyse de la variance
c 2015 Michel Carbon
CHAPITRE 4. VALIDATION DES HYPOTHÈSES D’UNE ANOVA À UN
84 FACTEUR
On effectue donc une analyse de la variance sur des données transformées. Pour i = 1, 2, · · · , I
et j = 1, 2, · · · , ni , définissons Zi,j par Zi,j = |Yi,j − Yi,• |. Le test de Levene consiste à effectuer une
ANOVA sur les variables transformées Zi,j .
Ainsi, on rejette l’hypothèse d’homogénéité des variances au seuil α si Fobs > Fα,I−1,N −I où Fobs
est défini par :
XI
ni (Zi,• − Z•,• )2 /(I − 1)
i=1
Fobs = I Xni
.
X
2
(Zi,j − Zi,• ) /(n − I)
i=1 j=1
Le test de Bartlett, considéré comme un test de rapport de vraisemblance est basé sur la statistique
L défini par :
n1 −1 n2 −1 nI −1
(S12 ) n−I (S22 ) n−I · · · (SI2 ) n−I
L= .
n1 − 1 2 n2 − 1 2 nI − 1 2
S1 + S2 + · · · + SI
n−I n−I n−I
Le dénominateur et le numérateur de la statistique L définis par l’équation ci-dessus sont les
moyennes arithmétiques et géométriques respectives de {S12 , S22 , · · · , SI2 } pondérées par w1 = (n1 −
1)/(n−I), w2 = (n2 −1)/(n−I), · · · , wI = (nI −1)/(n−I). Ces poids vérifient : w1 +w2 +· · ·+wI = 1.
On rejette l’hypothèse d’homogénéité des variances si L est trop grand. Il existe des tables pour
la distribution exacte de L. Néanmoins, en pratique, on utilise l’approximation qui suit. Posons :
−(n − I) log(L)
B=
c
avec
PI 1 1
( i=1 )−
ni − 1 n−I
c=1+ .
3(I − 1)
Sous H0 , lorsque les tailles des échantillons n1 , n2 , ·, nI tendent vers l’infini, on obtient asymptoti-
quement :
B ∼ χ2I−1 .
On rejette donc H0 si B > χ2I−1,α .
Analyse de la variance
c 2015 Michel Carbon
4.4. RÉSUMÉ ET COMMENTAIRES 85
Analyse de la variance
c 2015 Michel Carbon
CHAPITRE 4. VALIDATION DES HYPOTHÈSES D’UNE ANOVA À UN
86 FACTEUR
santé de certains composants chimiques, comme le dioxyde soufre (SO2 ), le dioxyde d’azote (N O2 ),
l’ozone(O3 ) et quelques autres particules flottant dans l’air.
Des stations de surveillance enregistrent les conditions météorologiques comme la température,
la nébulosité, le vent, etc... Nous allons analyser la relation existant entre le maximum journalier
de la concentration en ozone (en µg/m3 ) et la direction du vent (classée en quatre secteurs : Nord,
Sud, Est, Ouest). La variable vent possède donc 4 modalités. Pour cette étude, le fichier "ozone"
dispose de 112 données relevées durant l’été 2001 à Rennes en France. On utilise le logiciel R.
Les différentes étapes sont les suivantes :
1. Importation des données :
On importe le jeu de données et on va résumer les variables d’intérêts :
ozone<-read.table("ozone.txt",header=T)
attach(ozone)
summary(ozone[,c("maxO3","vent")])
maxO3 vent
Min. : 42.00 Est :10
1st Qu.: 70.75 Nord :31
Median : 81.50 Ouest:50
Mean : 90.30 Sud :21
3rd Qu.:106.00
Max. :166.00
Pendant l’été, le vent dominant est le vent d’Ouest, et il y a peu de journées avec un vent
d’Est.
2. Représentation des données : On va tracer ci-dessous les boîtes à moustaches pour chacune des
modalités de la variable qualitative, c’est-à-dire qu’on représente la dispersion de la variable
maxO3 en fonction de la direction du vent :
plot(maxO3 vent, data=ozone, pch=15,cex=0.5,col="green")
En examinant le graphique ci-dessus, il semble bien qu’il y ait un effet vent.
3. Analyse de l’homogénéité :
On cherche à tester l’égalité des variances, à savoir :
H0 : σ12 = σ22 = σ32 = σ42 contre H1 : il existe au moins deux variances non égales.
Le test de Levene consiste à réaliser une analyse de variance sur les valeurs absolues des
résidus :
model<-aov(maxO3~vent)
summary(aov(abs(model$res) ~ vent))
Analyse de la variance
c 2015 Michel Carbon
4.5. UN EXEMPLE DÉTAILLÉ 87
Figure 4.1 – Boîtes à moustaches de maxO3 selon les modalités de la variable vent
shapiro.test(ozone[select.est,"maxO3"])
Analyse de la variance
c 2015 Michel Carbon
CHAPITRE 4. VALIDATION DES HYPOTHÈSES D’UNE ANOVA À UN
88 FACTEUR
5. Analyse de la variance :
On peut lancer l’analyse de la variance pour tester la significativité du facteur vent :
ozone.aov <- aov(maxO3~vent)
summary(ozone.aov)
Analyse de la variance
c 2015 Michel Carbon
4.5. UN EXEMPLE DÉTAILLÉ 89
Figure 4.2 – Représentation des résidus selon les modalités de la variable vent
Call:
lm(formula = maxO3 ~ C(vent, sum), data = ozone)
Residuals:
Min 1Q Median 3Q Max
-60.600 -16.807 -7.365 11.478 81.300
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 94.738 3.053 31.027 <2e-16 ***
C(vent, sum)1 10.862 6.829 1.590 0.1147
C(vent, sum)2 -8.609 4.622 -1.863 0.0652 .
C(vent, sum)3 -10.038 4.097 -2.450 0.0159 *
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Analyse de la variance
c 2015 Michel Carbon
CHAPITRE 4. VALIDATION DES HYPOTHÈSES D’UNE ANOVA À UN
90 FACTEUR
F-statistic: 3.388 on 3 and 108 DF, p-value: 0.02074
Le logiciel R nous fournit les valeurs de µ̂, α̂1 , α̂2 et α̂3 (les vents sont numérotés suivant l’ordre
X 4
alphabétique). Or, comme αi = 0, pour trouver le coefficient α̂4 , le coefficient associé au
i=1
vent Sud, il faut calculer :
α̂4 = −α̂1 − α̂2 − α̂3 = 7, 785 .
La valeur de µ̂, notée ici Intercept, est la moyenne globale de la concentration en maxO3.
Les autres valeurs sont les écarts à cette moyenne pour la modalité de vent considéré. Le vent
d’ouest est significativement différent de la moyenne globale. C’est donc à cause de lui qu’on
a une différence significative entre les taux d’ozone suivant la direction du vent.
Exercices
Exercice 1
Validez les hypothèses du modèle dans l’exercice 2 du chapitre 3.
Exercice 2
Validez les hypothèses du modèle dans l’exercice 3 du chapitre 3.
Exercice 3
Validez les hypothèses du modèle dans l’exercice 4 du chapitre 3.
Exercice 4
Validez les hypothèses du modèle dans l’exercice 5 du chapitre 3.
Exercice 5
Validez les hypothèses du modèle dans l’exercice 6 du chapitre 3.
Exercice 6
Validez les hypothèses du modèle dans l’exercice 7 du chapitre 3.
Exercice 7
Nous voulons tester quatre types de carburateurs : A1, A2, A3 et A4. Pour chaque type de
carburateur, nous disposons de six pièces qui sont montées successivement en parallèle sur quatre
voitures que nous supposons avoir des caractéristiques parfaitement identiques. Le tableau ci-dessous
indique pour chacun des essais la valeur d’un paramètre lié à la consommation :
Analyse de la variance
c 2015 Michel Carbon
4.5. UN EXEMPLE DÉTAILLÉ 91
Essai A1 A2 A3 A4
1 21 23 18 20
2 24 23 19 21
3 25 32 28 25
4 20 23 19 15
5 34 32 24 29
6 17 15 14 9
Analyse de la variance
c 2015 Michel Carbon
CHAPITRE 4. VALIDATION DES HYPOTHÈSES D’UNE ANOVA À UN
92 FACTEUR
Analyse de la variance
c 2015 Michel Carbon
Chapitre 5
Comparaisons multiples
Si, après avoir effectué une analyse de variance, on rejette l’hypothèse d’égalité des moyennes
relatives à un facteur A à I modalités, une question intéressante est de savoir quelles sont les
moyennes qui diffèrent significativement des autres.
Reprenons l’exercice 1 du chapitre 3 sur les boutons de fièvre. On aimerait savoir quel est le
traitement le plus efficace, à savoir celui qui permet d’obtenir une cicatrisation la plus rapide.
Le test individuel de Student dans le modèle linéaire est parfaitement valide pour comparer deux
traitements choisis a priori. Par contre, il n’est pas du tout utilisable pour comparer par exemple le
traitement qui donne en apparence les résultats les meilleurs avec celui qui donne en apparence les
résultats les plus mauvais. Cela revient en effet à comparer tous les traitements deux à deux. Chaque
test a alors une probabilité α (niveau du test) de déclarer présente une différence qui n’existe pas.
Au total, sur les I(I − 1)/2 comparaisons possibles, la probabilité d’en déclarer une significative "par
hasard" devient importante. Pour contrôler un risque global sur les I(I − 1)/2 comparaisons deux à
deux, il existe diverses méthodes.
5.1 Contrastes
5.1.1 Définition
Pour introduire la notion de contraste, on considère le cas d’un modèle d’analyse de la variance
pour un facteur A à effets fixes. Nous noterons Ai , pour i = 1, · · · , I, les modalités contrôlées du
facteur A, et αi les effets de ces différentes modalités.
Reprenons le modèle :
Yi,j = µ + αi + εi,j , i = 1, · · · , I ; j = 1, · · · , J ,
I
X
avec la contrainte supplémentaire : αi = 0 ,
i=1
où Yi,j est la valeur prise par la variable réponse Y dans la condition Ai lors de la j-ème répétition.
Nous postulerons les hypothèses classiques suivantes pour les erreurs :
93
94 CHAPITRE 5. COMPARAISONS MULTIPLES
Définition 5.1.1
Nous appelons contraste L des I moyennes µ1 , · · · , µI la quantité :
L = l1 µ1 + l2 µ2 + · · · , +lI µI ,
I
X
où l1 , · · · , lI sont I nombres réels tels que : li = 0 et µ1 = µ + α1 , · · · , µI = µ + αI sont tels que :
i=1
α1 , · · · , αI sont les I différents effets des I niveaux du facteur A.
5.1.2 Orthogonalité
Considérons deux contrastes L1 et L2 définis par :
L1 = l1 µ1 + l2 µ2 + · · · , +lI µI ,
et
L2 = l10 µ1 + l20 µ2 + · · · , +lI0 µI ,
I
X I
X
Nous avons bien entendu : li = 0 et li0 = 0 et µ1 = µ + α1 , · · · , µI = µ + αI sont tels que :
i=1 i=1
α1 , · · · , αI sont les I différents effets des I niveaux du facteur A.
Définition 5.1.2
L1 et L2 sont des contrastes dits orthogonaux si et seulement si la relation suivante est vérifiée :
Par exemple les deux contrastes suivants sont des contrastes orthogonaux :
L1 = µ1 − µ2 et L2 = µ 1 + µ2 − µ3 − µ4 .
5.1.3 Estimation
Soit L un contraste. Un estimateur sans biais L̂ de ce contraste L est obtenu de la manière
suivante :
L̂ = l1 µ̂1 + l2 µ̂2 + · · · , +lI µ̂I ,
+ αi = µ̂ + α̂i , avec 1 ≤ i ≤ I.
où µ̂i = µ\
Analyse de la variance
c 2015 Michel Carbon
5.1. CONTRASTES 95
I
!2
X
li µ̂i
i=1
SCL̂ = J I
.
X
li2
i=1
I
!2
X
li µ̂i
i=1
SCL̂ = I
.
X li2
ni
i=1
I I
h i X 2 X li2
var L̂ = li2 var [Yi,• ] = σ 2 .
ni
i=1 i=1
Les hypothèses du modèle utilisé impliquent alors que, puisque L̂ est une combinaison linéaire de
variables aléatoires indépendantes qui suivent une loi normale, l’estimateur L̂ suit aussi une loi
normale. Donc :
L̂ − L
h i ∼ tn−I ,
r
\
var L̂
Remarque 5.1.1
L̂ − L
Le résultat sur la loi de r
\ h i permet de déterminer un intervalle de confiance de niveau 100(1−
var L̂
α)% pour la valeur du contraste L.
Analyse de la variance
c 2015 Michel Carbon
96 CHAPITRE 5. COMPARAISONS MULTIPLES
H0 : L = L0
L̂(y) − L0
l= v
u I
u X
ts2 li2
R
ni
i=1
est une réalisation d’une variable aléatoire suivant une loi de Student à n − I degrés de liberté. En
comparant la valeur l calculée à partir d’un échantillon à la valeur critique au seuil α pour une loi
de Student à n − I degrés de liberté, nous pouvons décider de la significativité du test. Certains
logiciels fournissent directement la probabilité critique associée au test d’un contraste, ce qui permet
aussi de conclure quant à la significativité du test.
On doit donc réaliser I(I −1)/2 comparaisons dans la première situation ou I −1 dans la seconde
situation où nous comparons les effets à un niveau de contrôle fixé a priori.
Tester l’égalité des effets de deux niveaux Ai et Aj , pour i 6= j, d’un facteur A revient à tester
la nullité du contraste L = µi − µj . Nous allons détailler dans ce qui suit les procédures de tests
simultanés de plusieurs contrastes en gardant à l’esprit que nous appliquerons principalement les
résultats dans le cas où ces contrastes sont des différences de moyennes.
On rappelle cependant que nous n’utiliserons l’un des tests de comparaisons multiples que si le
facteur étudié est à effets fixes et quand nous avons rejeté l’hypothèse nulle d’absence d’effet de ce
facteur sur la réponse Y .
Nous détaillons ici la théorie des comparaisons multiples pour le cas d’un modèle à un facteur
à effets fixes. Plus généralement, il est possible de comparer les effets des différents niveaux d’un
facteur si ceux-ci sont à effets fixes. À noter qu’il n’est généralement intéressant de comparer les
effets des différents niveaux d’un facteur que si aucun des termes d’interaction mettant en jeu ce
facteur n’a un effet significatif au seuil α.
Analyse de la variance
c 2015 Michel Carbon
5.2. COMPARAISONS MULTIPLES SOUS L’HYPOTHÈSE
D’HOMOSCÉDASTICITÉ 97
5.2.1 La méthode de Tukey
Cette méthode n’est valable que si le nombre de répétitions Ji d’une modalité à l’autre du facteur
A est constant. Ce nombre commun de répétitions est alors noté J. Pour une version de la méthode
de Tukey adaptée au cas où le plan n’est pas équilibré, on pourrait voir le paragraphe suivant sur la
méthode de Tukey-Kramer.
Soit L un contraste dont un estimateur est L̂. Un intervalle de confiance de niveau simultané
100(1 − α) % pour tous les contrastes considérés est donné par la formule :
I I
r ! r !
s2R 1 X s2R 1 X
L̂(y) − T |li | < L < L̂(y) + T |li | ,
J 2 J 2
i=1 i=1
Le test n’est pas significatif au seuil α et alors nous décidons de conserver par défaut l’hypothèse
nulle H0 si :
L̂(y)
r I
! < q(I, I(J − 1); 1 − α) .
s2R 1 X
T |li |
J 2
i=1
Appliqué au contexte des comparaisons multiples ( procédure souvent appelée "Tukey’HSD" pour
"Tukey’s Honestly Significance Difference"), l’intervalle de confiance ci-dessus se transforme de la
manière suivante puisque les contrastes étudiés sont du type : L = µi − µj avec i 6= j :
I
1X 1 1
|li | = (|1| + | − 1|) = (1 + 1) = 1 .
2 2 2
i=1
Analyse de la variance
c 2015 Michel Carbon
98 CHAPITRE 5. COMPARAISONS MULTIPLES
H0 : µi = µi0
H0 : α i = α i0
Il s’agit d’une adaptation de la méthode de Tukey au cas où le plan expérimental n’est pas équilibré.
Nous désirons comparer deux moyennes µi et µi0 , et nous remplaçons alors simplement la valeur J
correspondant au nombre total constant d’essais réalisés dans les conditions des modalités Ai du
facteur A par la moyenne harmonique du nombre de répétitions effectuées dans la modalité Ai et
dans la modalité Ai0 .
Analyse de la variance
c 2015 Michel Carbon
5.2. COMPARAISONS MULTIPLES SOUS L’HYPOTHÈSE
D’HOMOSCÉDASTICITÉ 99
Les intervalles de confiance précédents se modifient en conséquence :
s s
s2R 1 s2R 1
1 1
µ̂i (y) − µ̂i0 (y) − T + < µi − µi0 < µ̂i (y) − µ̂i0 (y) + T + ,
2 n i n i0 2 n i n i0
H0 : α i = α i0
Analyse de la variance
c 2015 Michel Carbon
100 CHAPITRE 5. COMPARAISONS MULTIPLES
Si l’intervalle de confiance obtenu contient la valeur 0, on décide que le contraste n’est pas
significativement différent de 0 au seuil α. A contrario, si l’intervalle de confiance ne contient pas 0,
alors on décide que le contraste est significativement différent de 0 au seuil α.
Nous désirons tester l’hypothèse :
H0 : L = 0
contre l’hypothèse alternative :
H0 : L 6= 0 .
Le test est significatif au seuil α et alors nous décidons de rejeter l’hypothèse nulle H0 en faveur de
l’hypothèse alternative H1 si :
L̂(y)
p
v ≥ F(I − 1, n − I; 1 − α) .
I
u !
u
t(I − 1)s2
X li2
R
ni
i=1
Le test n’est pas significatif au seuil α et on décide de conserver par défaut l’hypothèse nulle H0 en
faveur de l’hypothèse alternative H1 si :
L̂(y)
p
v < F(I − 1, n − I; 1 − α) .
I
u !
u
t(I − 1)s2
X li2
R
ni
i=1
I
X li2 1 (−1)2 1 1
= + = + .
ni ni n i0 n i n i0
i=1
Donc, dans le cas des comparaisons multiples, les intervalles de confiance ci-dessus se simplifient en :
s s
2 1 1 1 1
µ̂i (y) − µ̂i0 (y) − S (I − 1)sR + < µi − µi0 < µ̂i (y) − µ̂i0 (y) + S (I − 1s2R + .
n i n i0 n i n i0
H0 : µi = µi0
H0 : α i = α i0
Analyse de la variance
c 2015 Michel Carbon
5.2. COMPARAISONS MULTIPLES SOUS L’HYPOTHÈSE
D’HOMOSCÉDASTICITÉ 101
contre l’hypothèse alternative :
H1 : αi 6= αi0 .
Le test est significatif au seuil α et alors nous décidons de rejeter l’hypothèse nulle H0 en faveur de
l’hypothèse alternative H1 si :
Le test n’est pas significatif au seuil α et on décide de conserver par défaut l’hypothèse nulle H0 en
faveur de l’hypothèse alternative H1 si :
En utilisant ces intervalles de confiance pour décider simultanément de la significativité des I(I −1)/2
différences entre les effets des modalités du facteur A, nous sommes assurés que la probabilité
qu’aucune des différences n’est significative est exactement de valeur 1 − α.
Dans le cas où le plan est équilibré, on obtient l’intervalle de confiance de niveau 100(1 − α)
suivant :
r r
2(I − 1)s2R 2(I − 1)s2R
µ̂i (y) − µ̂i0 (y) − S < µi − µi0 < µ̂i (y) − µ̂i0 (y) + S .
J J
α = P [E1 ∪ E2 ∪ · · · ∪ Ek ]
≤ P [E1 ] + P [E2 ] + · · · + P [Ek ]
≤ k × αind .
Donc, si nous voulons être sûr que le risque de première espèce α associé globalement à la prise
simultanée de toutes les décisions lors des k comparaisons ou des k tests de contrastes est plus petit
qu’une valeur α0 fixée à l’avance, il suffit de choisir :
αind ≤ α0 /k .
Nous pouvons alors procéder à des comparaisons des moyennes deux à deux avec un test t de
Student de seuil α0 /k ou à un test de chacun des contrastes exposés précédemment au seuil α0 /k.
Cette procédure s’applique que le plan soit équilibré ou pas.
Analyse de la variance
c 2015 Michel Carbon
102 CHAPITRE 5. COMPARAISONS MULTIPLES
Les intervalles de confiance pour k comparaisons de deux moyennes µi et µi0 de deux groupes
d’effectifs respectifs ni et ni0 sont :
s s
2 1 1 2 1 1
µ̂i (y) − µ̂i0 (y) − tB sR + < µi − µi0 < µ̂i (y) − µ̂i0 (y) + tB sR + ,
n i n i0 n i n i0
α α
où tB = t n − I; 1 − est le 100 1 − quantile de la loi de Student à n − I degrés de liberté.
2k 2k
Remarque 5.2.1
On pourra retenir les conseils suivants pour utiliser la méthode de Bonferroni :
1. Le nombre de comparaisons k n’est pas très élevé. La procédure est trop conservatrice si k est
élevé.
2. On préfère la méthode de Bonferroni à celle de Scheffé si le nombre de comparaisons est
strictement inférieur à I 2 .
3. On préfère la méthode de Bonferroni à celle de Tukey si le nombre de comparaisons est stric-
tement inférieur à I(I − 1)/2 ou si on souhaite tester en plus un petit nombre de comparaisons
autres que celles des effets pricipaux des modalités Ai du facteur A.
Analyse de la variance
c 2015 Michel Carbon
5.3. UN EXEMPLE DÉTAILLÉ 103
> X<-data.frame(T1=c(5,8,7,7,10,8),T2=c(4,6,6,3,5,6),
+ T3=c(6,4,4,5,4,3),T4=c(7,4,6,6,3,5),T5=c(9,3,5,7,7,6))
> delai <- stack(X)$values
On peut tracer des boîtes à moustaches (voir dessin ci-dessous) pour examiner, traitement par
traitement des délais de cicatrisation pour chaque traitement, grâce à la commande :
> plot(delai traitement,col="green")
Figure 5.1 – Boîte à moustaches des délais de cicatrisation pour chaque traitement
On remarque aisément que la moyenne du traitement 1 (le placebo) est différente des autres. La
table d’ANOVA est appelée via la commande :
> mon.aov(delai~traitement)
>summary(mon.aov)
Comme l’ANOVA est un modèle linéaire, il est possible d’effectuer une analyse de variance du modèle
linéaire sous-jacent :
Analyse de la variance
c 2015 Michel Carbon
104 CHAPITRE 5. COMPARAISONS MULTIPLES
La valeur de la probabilité critique vaut 0,01359, et permet donc de conclure que les effets d’au
moins deux traitements diffèrent. Les estimations sont fournies grâce à la fonction summary pour le
modèle :
Call:
lm(formula = delai ~ traitement)
Residuals:
Min 1Q Median 3Q Max
-3.1667 -0.8750 -0.0833 0.8333 2.8333
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 7.5000 0.6245 12.010 7.06e-12 ***
traitementT2 -2.5000 0.8832 -2.831 0.00903 **
traitementT3 -3.1667 0.8832 -3.586 0.00142 **
traitementT4 -2.3333 0.8832 -2.642 0.01401 *
traitementT5 -1.3333 0.8832 -1.510 0.14366
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
L’intercept correspond ici à l’estimation du délai moyen du placebo (le traitement 1 est pris comme
référence). L’estimation associée à la variable T2 correspond à l’effet différentiel entre le placebo et
le traitement T2 . Les tests bilatéraux effectués dans ce modèle sont résumés ci-dessous :
Analyse de la variance
c 2015 Michel Carbon
5.3. UN EXEMPLE DÉTAILLÉ 105
H1
Intercept µ1 6= 0
Traitement T2 α2 6= 0 ⇔ µ1 6= µ2
Traitement T3 α3 6= 0 ⇔ µ1 6= µ3
Traitement T4 α4 6= 0 ⇔ µ1 6= µ4
Traitement T5 α5 6= 0 ⇔ µ1 6= µ5
Les résultats fournis par R nous indiquent qu’il existe une différence significative entre le placebo et
les traitements 2, 3 et 4. Dans ce cas de comparaison vis-à-vis du placebo, il était logique de prendre
le placebo comme référence.
Il est possible de choisir une autre référence ou une autre contrainte linéaire au moyen de l’ins-
truction C() comme le montre l’exemple ci-dessous :
> summary(lm(delai~C(traitement,base=2)))
Call:
lm(formula = delai ~ C(traitement, base = 2))
Residuals:
Min 1Q Median 3Q Max
-3.1667 -0.8750 -0.0833 0.8333 2.8333
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 5.0000 0.6245 8.006 2.32e-08 ***
C(traitement, base = 2)1 2.5000 0.8832 2.831 0.00903 **
C(traitement, base = 2)3 -0.6667 0.8832 -0.755 0.45739
C(traitement, base = 2)4 0.1667 0.8832 0.189 0.85184
C(traitement, base = 2)5 1.1667 0.8832 1.321 0.19847
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Les estimations et les tests de Student diffèrent des précédents. Les résultats montrent que le traite-
ment 2 ne diffère pas des traitements 3, 4 et 5, mais on retrouve que le test de Student est significatif
pour la comparaison de traitement 2 vis-à-vis du placebo.
I
X
À noter que pour obtenir la contrainte : αi = 0, il faut utiliser la commande : C(traitement,sum).
i=1
Supposons que nous voulions comparer les traitements 2 et 3. Il convient alors d’utiliser le
contraste : L1 = λt µ avec λ = (0, 1, −1, 0, 0)t et µ = (µ1 , · · · , µ5 )t , et d’effectuer le test H0 : L1 = 0
contre H1 : L1 6= 0. Pour cela, on peut utiliser la fonction fit.contrast( ) disponible dans le package
gregmisc :
Analyse de la variance
c 2015 Michel Carbon
106 CHAPITRE 5. COMPARAISONS MULTIPLES
> require(gregmisc)
> cmat <- rbind(" : 2 versus 3"=c(0,1,-1,0,0))
> fit.contrast(mon.aov,traitement,cmat)
Placebo T2 T3 T4
T2 0.090 - - -
T3 0.014 1.000 - -
T4 0.140 1.000 1.000 -
T5 1.000 1.000 0.483 1.000
Le logiciel R donne les valeurs ajustées suivant la correction de Bonferroni, c’est-à-dire que les
valeurs corrigées sont obtenues en multipliant les valeurs des tests de Student par le nombre de
tests effectués. Au vu des résultats ci-dessus, on trouve une valeur de probabilité critique de 0,014
entre le traitement 1 (placebo) et le traitement 3. Il existe donc une différence significative entre le
traitement 1 (placebo) et le traitement 3 au risque de 5 %.
On peut remarquer que la comparaison entre le traitement 1 et le traitement 3 avait déjà été
effectué auparavant. La valeur de la probabilité critique pour ce test individuel était de 0,0014.
Comme dix comparaisons ont été effectuées, cette dernière valeur a été multipliée par 10 par la
méthode de Bonferroni.
Comme cela a été détaillé ci-dessus, beaucoup d’autres méthodes sont possibles. Cependant,
dans le cas d’une analyse de variance à un facteur avec le même nombre d’observations par groupe,
la méthode de Tukey est la plus précise. Elle fournit des intervalles de confiance simultanés pour les
différences entre les paramètres µi − µj où 1 ≤ i < j ≤ I.
Analyse de la variance
c 2015 Michel Carbon
5.3. UN EXEMPLE DÉTAILLÉ 107
$traitement
diff lwr upr p adj
T2-Placebo -2.5000000 -5.0937744 0.09377442 0.0627671
T3-Placebo -3.1666667 -5.7604411 -0.57289224 0.0113209
T4-Placebo -2.3333333 -4.9271078 0.26044109 0.0927171
T5-Placebo -1.3333333 -3.9271078 1.26044109 0.5660002
T3-T2 -0.6666667 -3.2604411 1.92710776 0.9410027
T4-T2 0.1666667 -2.4271078 2.76044109 0.9996956
T5-T2 1.1666667 -1.4271078 3.76044109 0.6811222
T4-T3 0.8333333 -1.7604411 3.42710776 0.8770466
T5-T3 1.8333333 -0.7604411 4.42710776 0.2614661
T5-T4 1.0000000 -1.5937744 3.59377442 0.7881333
La méthode de Tukey va dans le même sens que les résultats obtenus via la méthode de Bon-
ferroni. En effet, seul l’intervalle de confiance ne contenant pas la valeur 0 est celui concernant la
différence entre le traitement 3 et le traitement 1 (placebo). Ainsi, le délai de cicatrisation étant plus
court pour le traitement 3, nous proposons d’utiliser ce traitement.
Analyse de la variance
c 2015 Michel Carbon
108 CHAPITRE 5. COMPARAISONS MULTIPLES
Exercices
Exercice 1
On reprend l’exercice 3 du chapitre 3.
1. Y a-t-il une différence significative entre la prise de poids des veaux par l’alimentation 1 et la
prise de poids des veaux par chacune des deux autres alimentations ?
2. Utilisez la méthode de Bonferroni pour effectuer toutes les comparaisons deux à deux des
prises de poids selon les alimentations.
3. Reprendre ces comparaisons en utilisant la méthode de Tukey.
4. Le fabricant d’alimentation 3 profère que son alimentation permet d’augmenter de 50 % la prise
de poids des veaux par rapport à l’alimentation 1. Que pensez-vous de cette affirmation ?
Exercice 2
On reprend l’exercice 7 du chapitre 3 sur l’acidité des bières.
1. Les acidités des bières 1 et 3 sont-elles 2 fois supérieures à celles des bières 2 et 4 ?
2. Comparez, en utilisant la méthode de Bonferroni, deux à deux les quatre bières quant à leur
acidité moyenne.
3. Utilisez la méthode de Tukey pour poursuivre cette comparaison.
Exercice 3
On veut comparer la perception de la saveur amère de 30 cidres bruts et de 30 cidres mi-secs.
Une note d’amertume variant entre 0 et 10 a été affectée pour chaque cidre par un jury de 20 experts.
Les résultats de cette étude se trouvent dans le fichier chap5.ex3.csv fourni.
Dans la suite, on notera Yb et Ym les variables amertume des cidres bruts et des cidres mi-secs
respectivement. On supposera que les notes d’amertume pour un même type de cidre (brut ou mi-
sec) suivent une loi normale. On supposera que la variance des notes est la même pour les cidres
bruts et les cidres mi-secs. On peut donc écrire : Yb ∼ N (µb , σ 2 ) et Ym ∼ N (µm , σ 2 ) avec µb , µm et
σ 2 des paramètres inconnus.
On souhaite dans un premier temps tester l’égalité des paramètres µb et µm .
1. Avant toute chose, testez d’abord l’égalité des variances, et testez la normalité des deux va-
riables Yb et Ym . Donnez aussi une estimation de σ 2 .
2. En vue de ce que l’on veut faire, quelle est l’hypothèse que l’on cherche à tester ? Quelle est
l’hypothèse alternative ? Quelles méthodes statistiques permettent de tester cette hypothèse ?
3. À partir de la question précédente, proposez deux stratégies de test de comparaison des deux
populations (cidres bruts et cidres demi-secs). Quelle est la région critique associé au risque
α de première espèce ?
4. Que décidez-vous de faire ici en effectuant ces deux tests ? Interprétez.
5. Quel lien existe-t-il entre les valeurs des deux statistiques de test utilisées dans ces deux tests ?
Analyse de la variance
c 2015 Michel Carbon
5.3. UN EXEMPLE DÉTAILLÉ 109
6. Démontrez que, dans le cas d’un facteur à deux modalités, la statistique de test calculée par
l’analyse de la variance est toujours égale au carré de la statistique de test pour le test de
Student correspondant.
7. Si on voulait comparer l’amertume de trois types de cidres (brut,demi-sec et doux), laquelle
des deux stratégies pourrait-on utiliser ?
8. Dans toute la suite, on s’intéresse à la puissance du test de comparaison de deux moyennes dans
le cas où la variance σ 2 est supposée connue et égale à 1,83. Proposez une nouvelle stratégie
de décision pour tester l’égalité des paramètres µb et µm , tenant compte de la connaissance
de σ 2 . Construisez ce test.
9. Montrez que, sous H1 , la loi de la statistique de test ne dépend que de l’écart entre les deux
moyennes (noté δ) : δ = µb − µm .
10. Dans le cas où l’échantillon contient autant de cidres bruts que de cidres demi-secs (nb =
nm = n), calculez la puissance du test en fonction de δ et n.
11. Calculez la taille de l’échantillon minimale pour détecter une différence entre µb et µm de
l’ordre de 0,5 point avec une probabilité valant 0,9 lorsque le test est construit avec un niveau
de confiance de 95 %.
12. Tracez, pour une taille d’échantillon de nb = nm = 30, la courbe de puissance du test, c’est-
à-dire tracez, en fonction de l’écart δ, la puissance du test d’égalité des paramètres µb et
µm .
Analyse de la variance
c 2015 Michel Carbon
110 CHAPITRE 5. COMPARAISONS MULTIPLES
Analyse de la variance
c 2015 Michel Carbon
Chapitre 6
L’analyse de variance à deux facteurs peut être considérée comme une généralisation de l’analyse
de variance à un facteur, permettant de tenir compte simultanément de deux facteurs. Les deux
facteurs peuvent être placés soit sur un pied d’égalité, soit subordonnés l’un à l’autre. Dans le
premier cas, les modèles d’analyse de variance sont dits croisés, et, dans le second cas, ils sont
appelés hiérarchisés ou multi-niveaux.
Là encore, on distinguera entre modèles fixes, modèles aléatoires et modèles mixtes. Une dis-
tinction importante sera faite entre le cas des effectifs égaux, souvent qualifié de plan équilibré ou
orthogonal, et le cas des effectifs inégaux, souvent qualifié de plan non équilibré ou non orthogonal.
Globalement, les conditions d’application de l’analyse de variance à deux facteurs sont de la
même nature que pour un seul facteur : populations normales, de même variance, et échantillons
simples et indépendants.
Nous irons plus rapidement dans la description de ce modèle, renvoyant au chapitre 3 pour les
démonstrations. Par exemple, la décomposition de la variation totale se fait de la même façon dans
le cas de l’analyse de la variance à un facteur.
Yi,j = µ + αi + βj + εi,j , i = 1, · · · , I ; j = 1, · · · , J .
I
X J
X
avec les contraintes supplémentaires : αi = 0 et βj = 0.
i=1 j=1
111
112 CHAPITRE 6. ANALYSE DE LA VARIANCE À DEUX FACTEURS
Yi,j est la valeur prise par la variable réponse Y dans les conditions (Ai , Bj ). On supposera
toujours réalisées les hypothèses standards suivantes :
1. εi,j et εk,l sont indépendantes si (i, j) 6= (k, l) avec 1 ≤ i, k ≤ I et 1 ≤ j, l ≤ J.
2. ∀ (i, j), i = 1, · · · , I ; j = 1, · · · , J , L(εi,j ) = N (0, σ 2 ).
L’étude de la vérification des hypothèses ci-dessus a été faite dans le précédent chapitre.
Nous regroupons les valeurs prises par la variable réponse Y dans les conditions (Ai , Bj ) dans le
tableau ci-dessous :
Facteur A Facteur B
B1 · · · Bj ··· BJ
A1 Y1,1 · · · Y1,j ··· Y1,J
.. .. .. .. .. ..
. . . . . .
Ai Yi,1 · Yi,j ··· Yi,J
.. .. .. .. .. ..
. . . . . .
AI YI,1 ··· YI,j ··· YI,J
On montre alors aisément la relation fondamentale de l’analyse de variance à deux facteurs sans
répétition :
SCT OT = SCA + SCB + SCR . (6.1.5)
Analyse de la variance
c 2015 Michel Carbon
6.1. MODÈLES À EFFETS FIXES 113
Aux différentes sommes des carrés des écarts peuvent être associés des nombres de degrés de
liberté :
On notera, comme dans le chapitre d’analyse de variance à un facteur, les carrés moyens théo-
riques par :
2 SCA 2 SCB 2 SCR SCT OT
SA = ; SB = ; SR = ; ST2 = ,
nA nB nR nT OT
qui constituent eux aussi des mesures globales de variations.
Notons y des données expérimentales y1,1 , · · · , y1,J , y2,1 , · · · , j2,J , · · · , yI,J permettant une réali-
sation du tableau précédent (6.1) :
Facteur A Facteur B
B1 · · · Bj ··· BJ
A1 y1,1 · · · y1,j ··· y1,J
.. .. .. .. .. ..
. . . . . .
Ai yi,1 · yi,j ··· yi,J
.. .. .. .. .. ..
. . . . . .
AI yI,1 ··· yI,j ··· yI,J
La variation totale observée sur la liste y de données expérimentales est définie par :
I X
X J
scT OT = (yi,j − y•,• )2 . (6.1.6)
i=1 j=1
La variation due au facteur A observée sur la liste y de données expérimentales est définie par :
I
X
scA = J (yi,• − y•,• )2 . (6.1.7)
i=1
Analyse de la variance
c 2015 Michel Carbon
114 CHAPITRE 6. ANALYSE DE LA VARIANCE À DEUX FACTEURS
La variation due au facteur B observée sur la liste y de données expérimentales est définie par :
J
X
scB = I (y•,j − y•,• )2 . (6.1.8)
j=1
La variation résiduelle observée sur la liste y de données expérimentales est quant à elle égale
à:
I X
X J
scR = (yi,j − yi,• − y•,j + y•,• )2 . (6.1.9)
i=1 j=1
La relation fondamentale de l’analyse de variance reste valable lorsqu’elle est évaluée sur la liste
y de données expérimentales :
scT OT = scA + scB + scR . (6.1.10)
H00 ; α1 = α2 = · · · = αI = 0
contre
H10 : Il existe i0 ∈ {1, 2, · · · , I} tel que αi0 6= 0 .
On notera, comme dans le chapitre d’analyse de variance à un facteur, les carrés moyens observés
par :
scA scB scR scT OT
s2A = ; s2B = ; s2R = ; s2T = ,
nA nB nR nT OT
qui constituent eux aussi des mesures globales de variations.
Sous l’hypothèse nulle H00 d’absence d’effet du facteur A et lorsque les conditions de validité
2 /S 2 qui suit une loi de
du modèle sont respectées, fA est la réalisation de la variable aléatoire SA R
Fisher-Snedecor à nA = I − 1 et nR = (I − 1)(J − 1) degrés de liberté.
On peut alors conclure grâce à la valeur critique, et on rejette l’hypothèse nulle si elle est
inférieure ou égale au seuil α du test, ou à l’aide d’une table. Il y a rejet si fA est supérieure ou
égale à la valeur critique issue de la table. Si l’hypothèse H00 est rejetée, on pourra procéder à des
comparaisons multiples des différents effets des niveaux du facteur, ce qui sera vu dans un chapitre
ultérieur dédié.
Nous pouvons répéter tout ce qui précède pour le facteur B. On peut souhaiter tester les hypho-
thèses :
H000 ; β1 = β2 = · · · = βI = 0
contre
H100 : Il existe j0 ∈ {1, 2, · · · , J} tel que βj0 6= 0 .
Sous l’hypothèse nulle H000 d’absence d’effet du facteur B et lorsque les conditions de validité
2 /S 2 qui suit une loi de
du modèle sont respectées, fB est la réalisation de la variable aléatoire SB R
Fisher-Snedecor à nB = J − 1 et nR = (I − 1)(J − 1) degrés de liberté.
Analyse de la variance
c 2015 Michel Carbon
6.1. MODÈLES À EFFETS FIXES 115
On peut alors conclure grâce à la valeur critique, et on rejette l’hypothèse nulle si elle est
inférieure ou égale au seuil α du test, ou à l’aide d’une table. Il y a rejet si fB est supérieure ou
égale à la valeur critique issue de la table. Si l’hypothèse H000 est rejetée, on pourra procéder à des
comparaisons multiples des différents effets des niveaux du facteur, ce qui sera vu dans un chapitre
ultérieur dédié.
Le tableau d’analyse de la variance à deux facteurs résume les choses ci-dessous :
scA s2A
Facteur A scA nA s2A = fA = H00 ou H10
nA s2R
scB s2B
Facteur B scB nB s2B = fB = H000 ou H100
nB s2R
scR
Résiduelle scR nR s2R =
nR
Totale scT OT nT OT
Les estimateurs µ̂, α̂1 , · · · , α̂I , β̂1 , · · · , β̂J et σ̂ 2 des paramètres respectifs µ, α1 , · · · , αI , β1 , · · · , βJ
et σ 2 du modèle sont données par :
SCR 2
σ̂ 2 = = SR .
(I − 1)(J − 1)
Ce sont des estimateurs sans biais. Les estimations obtenues pour une liste de données expérimen-
tales y, notées µ̂(y), α̂1 (y),· · · , α̂I (y), β̂1 (y),· · · , β̂J (y) et σ̂ 2 (y) des paramètres µ, α1 , · · · , αI , β1 , · · · , βJ
et σ 2 du modèle se déduisent mutatis mutandis des formules précédentes.
Exemple 6.1.1
L’influence d’un traitement grossissant, à base de vitamines, est étudiée sur des animaux de races
différentes. Pour cela nous disposons d’animaux de trois races, notées Ri , pour i = 1, 2, 3, et nous
avons effectué trois traitements, notés Dj , pour j = 1, 23, utilisant respectivement 5, 10 et 15µg de
vitamines B12 par cm3. Le gain moyen de poids par jour est mesuré, à l’issue d’un traitement de 50
jours dans chaque cas. Un seul animal est utilisé pour chaque couple « race-traitement ».
Analyse de la variance
c 2015 Michel Carbon
116 CHAPITRE 6. ANALYSE DE LA VARIANCE À DEUX FACTEURS
Race
R1 R2 R3
Traitement
D1 1,26 1,21 1,19
D2 1,29 1,23 1,23
D3 1,38 1,27 1,22
L’objectif est d’effectuer une analyse de la variance à deux facteurs sans répétition (il y a en effet
une seule observation par « case »). Les facteurs, contrôlés, à effets fixes, sont la race et la dose,
tous les deux à 3 modalités. La réponse est le gain moyen de poids.
Nous désirons tester les hypothèses suivantes :
R
H0 : Les races n’ont pas d’effet sur la prise de poids
contre
R
H1 : Les races ont un effet sur la prise de poids
puis
D
H0 : Les doses n’ont pas d’effet sur la prise de poids
contre
D
H1 : Les doses ont un effet sur la prise de poids
data: mod$res
W = 0.9798, p-value = 0.9632
Analyse de la variance
c 2015 Michel Carbon
6.1. MODÈLES À EFFETS FIXES 117
Nous décidons donc que l’hypothèse de normalité est vérifiée, c’est-à-dire que nous décidons que la
normalité de l’erreur théorique est acceptée.
Il ne nous reste plus qu’à vérifier l’égalité des variances des résidus, encore appelé l’homogénéité
des variances. Remarquons tout d’abord que nous ne pouvons pas tester l’égalité des variances : en
effet, nous n’avons qu’une observation par « case ».
Cependant, à titre indicatif, nous pouvons tester : l’égalité des variances des gains selon les races,
c’est-à-dire :
H0 : les variances des races sont égales
H1 : les variances des races ne sont pas égales
Nous effectuons pour cela le test de Bartlett, qui donne :
Nous décidons donc que l’hypothèse d’homogénéité est vérifiée, c’est-à-dire que nous décidons que
les variances théoriques des gains des trois races sont égales.
Nous pouvons tester aussi l’égalité des variances des gains selon les doses, c’est-à-dire :
H0 : les variances des doses sont égales
H1 : les variances des doses ne sont pas égales
Nous décidons donc que l’hypothèse d’homogénéité est vérifiée,c’est-à-dire que nous décidons que les
variances théoriques des gains de poids selon les trois doses sont égales.
Analyse de la variance
c 2015 Michel Carbon
118 CHAPITRE 6. ANALYSE DE LA VARIANCE À DEUX FACTEURS
I
X J
X
avec les contraintes supplémentaires : αi = 0 et βj = 0
i=1 j=1
I
X J
X
γi,j = 0 , ∀ j ∈ {1, · · · , J} et γi,j = 0 , ∀ i ∈ {1, · · · , I} .
i=1 j=1
On a introduit ici un terme d’interaction γi,j qui représente l’interaction entre les deux facteurs.
Yi,j,k est la valeur prise par la variable réponse Y dans les conditions (Ai , Bj ) lors du k-ième essai.
On supposera toujours réalisées les hypothèses standards suivantes :
L’étude de la vérification des hypothèses ci-dessus a été faite dans le précédent chapitre.
Nous regroupons les valeurs prises par la variable réponse Y dans les conditions (Ai , Bj ) lors des
K répétitions dans le tableau ci-dessous :
Facteur A Facteur B
B1 ··· Bj ··· BJ
A1 Y1,1,1 · · · Y1,1,K ··· Y1,j,1 · · · Y1,j,K ··· Y1,J,1 · · · Y1,J,K
.. .. .. .. .. ..
. . . . . .
Ai Yi,1,1 · · · Yi,1,K · Yi,j,1 · · · Yi,j,K ··· Yi,J,1 · · · Yi,J,K
.. .. .. .. .. ..
. . . . . .
AI YI,1,1 · · · YI,1,K ··· YI,j,1 · · · YI,j,K ··· YI,J,1 · · · YI,J,K
Analyse de la variance
c 2015 Michel Carbon
6.1. MODÈLES À EFFETS FIXES 119
Comme dans le chapitre 3, la variation théorique due au facteur A est définie par :
I
X
SCA = JK (Yi,•,• − Y•,•,• )2 .
i=1
Analyse de la variance
c 2015 Michel Carbon
120 CHAPITRE 6. ANALYSE DE LA VARIANCE À DEUX FACTEURS
On peut subdiviser les écarts par rapport à la moyenne générale Y•,•,• en deux, puis quatre
composantes :
= (Yi,•,• − Y•,•,• ) + (Y•,j,•) − Y•,•,• ) + (Yi,j,• − Yi,•,• − Y•,j,• + Y•,•,• ) + (Yi,j,k − Yi,j,• ) .
La première décomposition est identique à celle réalisée pour l’analyse de la variance à un facteur.
La seconde décomposition fait, quant à elle, apparaître deux termes de variations des facteurs, relatifs
à l’un et à l’autre des facteurs, un terme dit d’interaction, et un terme de variation résiduelle.
Par élévation au carré et sommation pour les I × J × K observations, on obtient l’équation
d’analyse de la variance à deux facteurs :
I X
X J X
K I
X J
X
2 2
(Yi,j,k − Y•,•,• ) = JK (Yi,•,• − Y•,•,• ) + IK (Y•,j,• )2
i=1 j=1 k=1 i=1 j=1
I
X I X
X J X
K
J 2
+K j=1 (Yi,j,• − Yi,•,• − Y•,j,• + Y•,•,• ) + (Yi,j,k − Yi,j,• )2 .
i=1 i=1 j=1 k=1
Les deux premiers facteurs sont des sommes de carrés dûs au deux facteurs, la troisième est une
somme de carrés liés à l’interaction, et la quatrième est une somme de carrés d’écarts résiduelle.
En utilisant les définitions ci-dessus, l’équation de l’analyse de variance à deux facteurs peut encore
s’écrire sous la forme :
SCT OT = SCA + SCB + SCAB + SCR .
Aux différentes sommes des carrés des écarts peuvent ici encore être asssociés des nombres de
degrés de liberté vérifiant la relation :
Il s’agit de IJK −1 degrés de liberté pour la somme totale, puisqu’elle fait intervenir globalement
IJK observations individuelles, I − 1 et J − 1 degrés de liberté pour les deux sommes de chacun des
deux facteurs, car elles sont calculées respectivement à partir de I et J moyennes, IJ(K − 1) degrés
de liberté pour la somme résiduelle puisqu’elle fait intervenir IJ échantillons de K observations, et,
par différence, (I − 1)(J − 1) degrés de liberté pour la somme des carrés des écarts de l’interaction.
Comme dans le cas de l’analyse de variance à un facteur, en divisant les différentes sommes des
2 , S 2 ,S 2 , S 2 et S 2 .
carrés des écarts, on obtient les carrés moyens : SA B AB R T
L’ensemble de ces résultats peut alors être présenté sous la forme d’un tableau de l’analyse de
variance :
Analyse de la variance
c 2015 Michel Carbon
6.1. MODÈLES À EFFETS FIXES 121
2 = SCA
Facteur A nA = I − 1 SCA SA
I −1
2 = SCB
Facteur B nB = J − 1 SCB SB
J −1
2 = SCAB
Interaction nAB = (I − 1)(J − 1) SCAB SAB
(I − 1)(J − 1)
2 = SCR
Résidus nR = IJ(K − 1) SCR SR
IJ(K − 1)
SCT OT
Total nT OT = IJK − 1 SCT OT ST2 =
IJK − 1
L’interaction Yi,j,• − Yi,•,• − Y•,j,• + Y•,•,• apparaît naturellement dans le modèle d’analyse de
variance à deux facteurs lorsqu’on veut équilibrer le modèle après y avoir fait figurer les deux termes
dus aux deux facteurs : Yi,•,• − Y•,•,• , Y•,j,• − Y•,•,• et le terme résiduel : Yi,j,k − Yi,j,• .
Ces termes d’interaction sont nuls quand les différences liées à l’action d’un des deux facteurs
ne dépendent pas de l’autre facteur, c’est-à-dire quand, par exemple, les écarts Yi,j,• − Y•,j• relatifs
au premier facteur sont indépendants des modalités j du second facteur.
En effet, quand ces écarts ne dépendent pas de j, ils sont tous égaux entre eux, pour chaque
valeur de i, et donc égaux aussi à leur moyenne :
De même, les termes d’interaction sont nuls quand les écarts Yi,j• −Yi,•,• relatifs au second facteur
sont indépendants de i, c’est-à-dire du premier facteur. De plus, ces deux conditions de nullité des
termes d’interaction sont strictement équivalentes.
Notons y des données expérimentales y1,1,1 , · · · , y1,1,K , y1,2,1 , · · · , j1,2,K , · · · , yI,J,K permettant
une réalisation du tableau précédent (6.5) :
Analyse de la variance
c 2015 Michel Carbon
122 CHAPITRE 6. ANALYSE DE LA VARIANCE À DEUX FACTEURS
Facteur A Facteur B
B1 ··· Bj ··· BJ
A1 y1,1,1 · · · y1,1,K ··· y1,j,1 · · · y1,j,K ··· y1,J,1 · · · y1,J,K
.. .. .. .. .. ..
. . . . . .
Ai yi,1,1 · · · yi,1,K · yi,j,1 · · · yi,j,K ··· yi,J,1 · · · yi,J,K
.. .. .. .. .. ..
. . . . . .
AI yI,1,1 · · · yI,1,K ··· yI,j,1 · · · yI,j,K ··· yI,J,1 · · · yI,J,K
La variation due au facteur A observée sur la liste y de données expérimentales est définie par :
I
X
scA = JK (yi,•,• − y•,•,• )2 .
i=1
La variation due au facteur B observée sur la liste y de données expérimentales est définie par :
J
X
scB = IK (y•,j,• − y•,•,• )2 .
j=1
La variation due à l’interaction des facteurs A et B, observée sur la liste y de données expéri-
mentales est définie par :
I X
X J
scAB =K (yi,j,• − yi,•,• − y•,j,• + y•,•,• )2 .
i=1 j=1
La variation résiduelle observée sur la liste y de données expérimentales est définie par :
I X
X J X
K
scR = (yi,j,k − yi,j,• )2 .
i=1 j=1 k=1
Enfin, la variation totale observée sur la liste y de données expérimentales est égale par :
I X
X J X
K
scT OT = (yi,j,k − y•,•,• )2 .
i=1 j=1 k=1
La relation fondamentale de l’analyse de variance reste valable lorsqu’elle est évaluée sur la liste
y de données expérimentales :
H00 ; α1 = α2 = · · · = αI = 0
Analyse de la variance
c 2015 Michel Carbon
6.1. MODÈLES À EFFETS FIXES 123
contre
H10 : Il existe i0 ∈ {1, 2, · · · , I} tel que αi0 6= 0 .
Sous l’hypothèse nulle H00 d’absence d’effet du facteur A et lorsque les conditions de validité
2 /S 2 qui suit une loi de
du modèle sont respectées, fA est la réalisation de la variable aléatoire SA R
Fisher-Snedecor à nA = I − 1 et nR = IJ(K − 1) degrés de liberté.
On peut alors conclure grâce à la valeur critique, et on rejette l’hypothèse nulle si elle est
inférieure ou égale au seuil α du test, ou à l’aide d’une table. Il y a rejet si fA est supérieure ou
égale à la valeur critique issue de la table. Si l’hypothèse H00 est rejetée, on pourra procéder à des
comparaisons multiples des différents effets des niveaux du facteur, ce qui sera vu dans un chapitre
ultérieur dédié.
Nous pouvons répéter tout ce qui précède pour le facteur B. On peut souhaiter tester les hypho-
thèses :
H000 ; β1 = β2 = · · · = βI = 0
contre
H100 : Il existe j0 ∈ {1, 2, · · · , J} tel que βj0 6= 0 .
Sous l’hypothèse nulle H000 d’absence d’effet du facteur B et lorsque les conditions de validité
2 /S 2 qui suit une loi de
du modèle sont respectées, fB est la réalisation de la variable aléatoire SB R
Fisher-Snedecor à nB = J − 1 et nR = IJ(K − 1) degrés de liberté.
On peut alors conclure grâce à la valeur critique, et on rejette l’hypothèse nulle si elle est
inférieure ou égale au seuil α du test, ou à l’aide d’une table. Il y a rejet si fB est supérieure ou
égale à la valeur critique issue de la table. Si l’hypothèse H000 est rejetée, on pourra procéder à des
comparaisons multiples des différents effets des niveaux du facteur, ce qui sera vu dans un chapitre
ultérieur dédié.
Nous pouvons également faire des tests d’hypothèses sur l’absence ou la présence d’interaction
entre les facteurs A et B :
contre
H1000 : Il existe (i0 , j0 ) ∈ {1, 2, · · · , I} × {1, 2, · · · , J} tel que γi0 ,j0 6= 0 .
Sous l’hypothèse nulle H0000 d’absence d’effet de l’interaction des facteurs A et B et lorsque
les conditions de validité du modèle sont respectées, fAB est la réalisation de la variable aléatoire
2 /S 2 qui suit une loi de Fisher-Snedecor à nAB (I − 1)(J − 1) et n = IJ(K − 1) degrés de
SAB R = R
liberté.
On peut alors conclure grâce à la valeur critique, et on rejette l’hypothèse nulle si elle est inférieure
ou égale au seuil α du test, ou à l’aide d’une table. Il y a rejet si fAB est supérieure ou égale à la
valeur critique issue de la table.
On résume toutes ces informations dans le tableau d’analyse de variance suivant :
Analyse de la variance
c 2015 Michel Carbon
124 CHAPITRE 6. ANALYSE DE LA VARIANCE À DEUX FACTEURS
scA s2A
Facteur A nA = I − 1 scA s2A = fA = H00 ou H10
nA s2R
scB s2B
Facteur B nB = J − 1 scB s2B = fB = H000 ou H100
nB s2R
scAB s2AB
Interaction nAB = (I − 1)(J − 1) scAB s2AB = fAB = H0000 ou H1000
nAB s2R
scR
Résidus nR = IJ(K − 1) scR s2R =
nR
scT OT
Total nT OT = IJK-1 scT OT s2T =
nT OT
Les estimateurs µ̂, α̂1 , · · · , α̂I , β̂1 , · · · , β̂J , γ̂1,1 ,γ̂1,2 , · · · , γ̂1,J , γ̂2,1 , · · · , γ̂I,J et σ̂ 2 des paramètres
respectifs µ, α1 , · · · , αI , β1 , · · · , βJ , γ1,1 , · · · , γI,J et σ 2 du modèle sont donnés par :
SCR 2
σ̂ 2 = = SR .
IJ(K − 1)
Exemple 6.1.2
Nous nous proposons d’analyser l’influence du temps et de trois espèces ligneuses d’arbres sur
la décomposition de la masse d’une litière constituée de feuilles de lierre. Pour ce faire, 24 sachets
d’une masse identique de feuilles de lierre ont été constitués, sachets permettant une décomposition
naturelle. Puis une première série de 8 sachets, choisis au hasard, a été déposée sous un chêne,
une deuxième sous un peuplier, et la dernière série sous un frêne. Après 2, 7, 10 et 16 semaines
Analyse de la variance
c 2015 Michel Carbon
6.1. MODÈLES À EFFETS FIXES 125
respectivement, deux sachets sont prélevés au hasard sous chaque arbre et la masse résiduelle est
déterminée pour chacun d’eux. Cette masse est exprimée en pourcentage de la masse initiale.
Les valeurs observées sont les suivantes :
Response: masse
Df Sum Sq Mean Sq F value Pr(>F)
semaine 3 1741.31 580.44 121.6927 3.004e-09 ***
espece 2 58.08 29.04 6.0881 0.01495 *
semaine:espece 6 30.22 5.04 1.0559 0.43853
Residuals 12 57.24 4.77
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
La probabilité critique (0, 43853) est supérieure à 5%, donc on accepte H0 , et on conclut à la
non-significativité de l’interaction. On peut tracer un graphe d’interaction :
Le parallélisme des courbes indique là aussi un manque d’interaction.
On va donc estimer à nouveau le modèle sans interaction. Cela donne :
Response: masse
Df Sum Sq Mean Sq F value Pr(>F)
semaine 3 1741.31 580.44 119.4657 4.509e-12 ***
espece 2 58.08 29.04 5.9767 0.01022 *
Analyse de la variance
c 2015 Michel Carbon
126 CHAPITRE 6. ANALYSE DE LA VARIANCE À DEUX FACTEURS
Figure 6.1 – Représentation des masses moyennes observées en fonction des deux facteurs
considérés
Les deux facteurs sont significatifs ; il y a donc un effet semaine et un effet espèce sur la masse
résiduelle de lierre.
Nous pouvons estimer les différents coefficients αi et βj .
Call:
lm(formula = masse ~ C(semaine, sum) + C(espece, sum), data = don)
Residuals:
Min 1Q Median 3Q Max
-3.1937 -1.4573 -0.3625 1.4516 3.8604
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 72.5896 0.4499 161.333 < 2e-16 ***
C(semaine, sum)1 12.8854 0.7793 16.534 2.5e-12 ***
C(semaine, sum)2 0.9188 0.7793 1.179 0.253777
C(semaine, sum)3 -3.1562 0.7793 -4.050 0.000751 ***
C(espece, sum)1 0.7104 0.6363 1.116 0.278902
C(espece, sum)2 -2.1583 0.6363 -3.392 0.003249 **
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Analyse de la variance
c 2015 Michel Carbon
6.2. MODÈLES À EFFETS ALÉATOIRES 127
On obtient une matrice de "Coefficients" qui comporte pour chaque paramètre (chaque ligne) 4
colonnes : son estimation, son écart-type estimé ("Std.Error"), la valeur observée de la statistique de
test considérée ; enfin, la probabilité critique (P r(> |t|)) donne pour la statistique de test sous H0 ,
la probabilité de dépasser la valeur estimée.
La valeur de µ, notée ici "Intercept" correspond à l’effet moyen. L’effet de la semaine 16 n’est
pas donné dans le listing de sortie, mais comme la somme des αi est nulle, on estime α4 par :
α4 = −α1 − α2 − α3 = −12, 8854 − 0, 9188 + 3, 1562 = −10, 648. De la même façon, on estime β3
par : β3 = −β1 − β2 = −0, 7104 + 2, 1583 = 1, 4479.
Yi,j = µ + αi + βj + εi,j , i = 1, · · · , I , j = 1, · · · , J ,
où Yi,j est la valeur prise par la variable réponse Y dans les conditions (Ai , Bj ). Nous supposons
aussi que :
L(αi ) = N (0, σA 2) ∀ i = 1, · · · , I
2
L(βi ) = N (0, σB ) ∀ j = 1, · · · , J
ainsi que l’indépendance des effets aléatoires :
αi indépendante de αk si i 6= k et 1 ≤ i, k ≤ I
βj indépendante de βk si j =6 k et 1 ≤ j, k ≤ J
αi indépendante de βj si 1 ≤ i ≤ I et 1 ≤ j ≤ J .
Analyse de la variance
c 2015 Michel Carbon
128 CHAPITRE 6. ANALYSE DE LA VARIANCE À DEUX FACTEURS
αi indépendante de εj,k si 1 ≤ i, j ≤ I et 1 ≤ k ≤ J ,
βj indépendante de εl,k si 1 ≤ l ≤ I et 1 ≤ j, k ≤ J .
Nous supposons que les conditions d’application de ce modèle sont bien remplies. Nous utilisons
ici les quantités SCA , SCB , SCR , SCT OT , scA , scB , scR , scT OT introduites à la section 5.1.1.
La relation fondamentale de l’analyse de variance tient toujours :
On introduit une fois encore le nombre de degrés de liberté associés à chaque ligne du tableau
de l’analyse de variance :
Nous pouvons résumer toutes ces informations dans le tableau d’analyse de variance suivant :
scA s2A
Facteur A scA nA s2A = fA = H00 ou H10
nA s2R
scB s2B
Facteur B scB nB s2B = fB = H000 ou H100
nB s2R
scR
Résiduelle scR nR s2R =
nR
Totale scT OT nT OT
Analyse de la variance
c 2015 Michel Carbon
6.2. MODÈLES À EFFETS ALÉATOIRES 129
L’analyse de la variance à deux facteurs aléatoires sans répétition permet deux tests de Fisher.
Le premier test concernant le facteur A est le suivant :
H00 : σA
2
=0
contre
H10 : σA
2
6= 0 .
Sous l’hypothèse nulle (H00 ) précédente, d’absence d’effet du facteur A, et lorsque les conditions
de validité du modèle sont respectées, fA est la réalisation d’une variable aléatoire qui suit une loi
de Fisher à I − 1 et (I − 1)(J − 1) degrés de liberté.
Le second test concernant le second facteur B est le suivant :
H000 : σB
2
=0
contre
H100 : σB
2
6= 0 .
0 rime
Sous l’hypothèse nulle (H0p ) précédente, d’absence d’effet du facteur B, et lorsque les condi-
tions de validité du modèle sont respectées, fB est la réalisation d’une variable aléatoire qui suit une
loi de Fisher à J − 1 et (I − 1)(J − 1) degrés de liberté.
2 , σ̂ 2 , σ̂ 2 des paramètres µ, σ 2 , σ 2 et σ 2 du modèle sont donnés par les
Les estimateurs µ̂, σ̂A B A B
formules suivantes :
µ̂ = Y•,• ,
2 1 2 2
2 1 2 2
σ̂A = SA − SR ; σ̂B = SB − SR ,
J I
SCR 2
σ̂ 2 = = SR ,
(I − 1)(J − 1)
2 = SCA 2 SCB 2 = SCR . Ces estimateurs sont non biaisés.
où SA , SB = et SR
nA nB nR
2 (y), σ̂ 2 (y),
Les estimations, obtenues pour une liste de données expérimentales y, notées µ̂(y), σ̂A B
2 2 2 2
σ̂ (y) des paramètres µ, σA , σB et σ du modèle, se déduisent immédiatement des formules ci-dessus :
µ̂(y) = y•,• ,
1 2 1 2
2 (y) = sA − s2R 2
sB − s2R ,
σ̂A ; σ̂B (y) =
J I
scR
σ̂ 2 (y) = = s2R .
(I − 1)(J − 1)
Exemple 6.2.1
Nous étudions la dissolution du principe actif contenu dans un type donné de comprimé issu
de lots de production distincts. Pour cela, six lots ont été sélectionnés au hasard parmi toute la
production et la dissolution de quatre comprimés pris au hasard dans chacun des lots est observée.
Après 15, 30, 45 et 60 minutes, un comprimé de chaque lot est sélectionné et le pourcentage de
principe actif dissous, par rapport à la valeur titre, est déterminé. Ces valeurs sont données dans le
Analyse de la variance
c 2015 Michel Carbon
130 CHAPITRE 6. ANALYSE DE LA VARIANCE À DEUX FACTEURS
tableau qui va suivre. Il est à noter que les temps d’observation à savoir, 15, 30, 45 et 60 minutes sont
des temps qui ont été choisis aléatoirement par l’expérimentateur qui n’avait pas de connaissance a
priori sur ces 24 comprimés.
Temps
15 min. 30 min. 45 min. 60 min.
Lots
Lot 1 66 87 93 90
Lot 2 60 91 99 98
Lot 3 69 91 93 92
Lot 4 61 97 97 101
Lot 5 61 84 106 103
Lot 6 57 88 94 99
L’expérimentateur se demande à partir de quel instant peut-on admettre qu’un comprimé est
entièrement dissous ?
Le tableau d’analyse de variance est le suivant :
Analysis of Variance Table
Response: principe
Df Sum Sq Mean Sq F value Pr(>F)
temps 3 4908.5 1636.15 66.6382 6.694e-09 ***
lots 5 83.2 16.64 0.6778 0.647
Residuals 15 368.3 24.55
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Pour le second test, la valeur critique "P-value" = 0,647, nous décidons donc de ne pas refuser
l’hypothèse nulle (H0 ). Par conséquent, nous n’avons pas réussi à mettre en évidence d’effet du
facteur aléatoire « Lot ». Le risque associé à cette décision est un risque de deuxième espèce. Pour
l’évaluer, il resterait à calculer la puissance de ce test.
Pour le premier test, la valeur critique "P-value" = 6.694e-09 , nous décidons donc de refuser
l’hypothèse nulle (H0 ). Par conséquent, nous pouvons dire, au seuil 5%, qu’il y a un effet significatif
du facteur aléatoire « Temps ».
Nous ne sommes pas capables de répondre à la question de l’expérimentateur, à savoir : « à partir
de quel instant pouvons-nous admettre qu’un comprimé est entièrement dissous ? », puisque nous ne
pouvons pas faire de tests de comparaisons multiples, étant donné que le facteur « Temps » est à
effets aléatoires.
Bien sûr, nous ne pouvons faire cette analyse des résultats, qu’en supposant avoir auparavant
vérifié que les conditions du modèle soient bien remplies.
Analyse de la variance
c 2015 Michel Carbon
6.2. MODÈLES À EFFETS ALÉATOIRES 131
Les termes Bj représentent un échantillon de taille J prélevé dans une population importante.
Nous admettrons que les effets des Bj sont distribués suivant une loi normale centrée de variance
2.
σB
Pour chacun des couples de modalités (Ai ; Bj ), nous effectuons K ≥ 2 d’une réponse Y qui est
une variable continue. Nous notons n = I × J × K le nombre total de mesures ayant été effectuées.
Nous introduisons alors le modèle suivant :
où Yi,j,k est la valeur prise par la variable réponse Y dans les conditions (Ai , Bj ) lors du k-ième
essai. Nous supposons aussi que :
L(αi ) = N (0, σA 2) ∀ i = 1, · · · , I ,
L(βi ) = N (0, σB )2 ∀ j = 1, · · · , J ,
2 )
L(γi,j ) = N (0, σAB ∀ i = 1, · · · , I j = 1, · · · , J ,
αi indépendante de αk si i 6= k et 1 ≤ i, k ≤ I ,
βj indépendante de βk si j 6= k et 1 ≤ j, k ≤ J ,
γi,j indépendante de γk,l si (i, j) 6= (k, l) avec 1 ≤ i, k ≤ I et 1 ≤ j, l ≤ J ,
αi indépendante de βj si 1 ≤ i ≤ I et 1 ≤ j ≤ J ,
αi indépendante de γj,k si 1 ≤ i, j ≤ I et 1 ≤ k ≤ J ,
βi indépendante de γj,k si 1 ≤ j ≤ I et 1 ≤ i, k ≤ J .
Nous postulons aussi les hypothèses classiques suivantes pour les erreurs :
αi indépendante de εj,k,l si 1 ≤ i, j ≤ I , 1 ≤ k ≤ J , et 1 ≤ l ≤ K ,
βj indépendante de εj,k,l si 1 ≤ j ≤ I , 1 ≤ i, k ≤ J et 1 ≤ l ≤ K ,
γi,j indépendante de εk,l,m si 1 ≤ i, k ≤ I , 1 ≤ j, l ≤ J et 1 ≤ m ≤ K .
Nous supposons que les conditions d’utilisation de ce modèle sont satisfaites. Une fois encore, nous
utilisons les quantités SCA , SCB , SCAB , SCR , SCT OT , scA , scB , scAB , scR et scT OT introduites
dans la section 6.1.2.
La relation fondamentale de l’analyse de variance s’écrit ici aussi :
Nous avons les degrés de liberté suivants, associés à chaque ligne du tableau de l’analyse de
variance :
Nous résumons toutes ces informations dans le tableau de l’analyse de variance suivant :
Analyse de la variance
c 2015 Michel Carbon
132 CHAPITRE 6. ANALYSE DE LA VARIANCE À DEUX FACTEURS
L’analyse de la variance à deux facteurs aléatoires avec répétitions permet trois tests de Fisher.
Le premier test concernant le facteur A est le suivant :
H00 : σA
2
=0
contre
H10 : σA
2
6= 0 .
Sous l’hypothèse nulle (H00 ) précédente, d’absence d’effet du facteur A, et lorsque les conditions
de validité du modèle sont respectées, fA est la réalisation d’une variable aléatoire qui suit une loi
de Fisher à I − 1 et (I − 1)(J − 1) degrés de liberté.
Le second test concernant le second facteur B est le suivant :
H000 : σB
2
=0
contre
H100 : σB
2
6= 0 .
Sous l’hypothèse nulle (H000 ) précédente, d’absence d’effet du facteur B, et lorsque les conditions
de validité du modèle sont respectées, fB est la réalisation d’une variable aléatoire qui suit une loi
de Fisher à J − 1 et (I − 1)(J − 1) degrés de liberté.
Enfin, le troisième test concernant l’interaction entre les facteurs A et B
H0000 : σAB
2
=0
contre
H1000 : σAB
2
6= 0 .
Sous l’hypothèse nulle (H0000 ) précédente, d’absence d’effet de l’interaction entre les facteurs A
et B, et lorsque les conditions de validité du modèle sont respectées, fAB est la réalisation d’une
variable aléatoire qui suit une loi de Fisher à (I − 1)(J − 1) et IJ(K − 1) degrés de liberté.
2 , σ̂ 2 , σ̂ 2
Les estimateurs µ̂, σ̂A 2 2 2 2 2
B AB et σ̂ des paramètres µ, σA , σB , σAB et σ du modèle sont
Analyse de la variance
c 2015 Michel Carbon
6.2. MODÈLES À EFFETS ALÉATOIRES 133
scA s2A
Facteur A scA nA s2A = fA = H00 ou H10
nA s2AB
scB s2B
Facteur B scB nB s2B = fB = 2 H000 ou H100
nB sAB
scAB s2AB
Interaction scAB nAB s2AB = fAB = H0000 ou H1000
nAB s2R
scR
Résiduelle scR nR s2R =
nR
Totale scT OT nT OT
µ̂ = Y•,•,• ,
2 1 2 2
2 1 2 2
σ̂A = SA − SAB ; σ̂B = SB − SAB ,
JK IK
2 1 2 2
σAB = SAB − SR
K
SCR 2
σ̂ 2 = = SR ,
(I − 1)(J − 1)
2 (y), σ̂ 2 (y),
Les estimations, obtenues pour une liste de données expérimentales y, notées µ̂(y), σ̂A B
2 (y),
σ̂AB 2 2 2 2 2
σ̂ (y) des paramètres µ, σA , σB , σAB et σ du modèle, se déduisent immédiatement des
Analyse de la variance
c 2015 Michel Carbon
134 CHAPITRE 6. ANALYSE DE LA VARIANCE À DEUX FACTEURS
formules ci-dessus :
µ̂(y) = y•,•,• ,
1 1
2 (y) = s2A − s2AB 2
s2B − s2AB ,
σ̂A ; σ̂B (y) =
JK IK
1 2
2 (y) = sAB − s2R
σ̂AB
K
scR
σ̂ 2 (y) = = s2R .
(I − 1)(J − 1)
Exemple 6.2.2
Les responsables d’un laboratoire d’analyse chimique par spectrométrie dans le proche infrarouge
se sont intéressés à la variabilité des résultats qu’ils obtenaient pour les mesures des teneurs en
protéines du blé. En particulier, ils se sont interrogés sur l’importance des différences qui pouvaient
découler des étapes successives de préparation des matières à analyser. Nous considérons ici le pro-
blème du broyage, en examinant les résultats obtenus à l’aide de trois moulins différents.
Cinq échantillons de grains de blé ont été prélevés au hasard dans un arrivage relativement impor-
tant et divisés chacun en trois sous-échantillons. Pour chacun des échantillons, les sous-échantillons
ont ensuite été affectés au hasard pour trois moulins choisis au hasard dans une production de mou-
lins et deux analyses chimiques ont été effectuées dans chaque cas.Le tableau ci-dessous présente les
teneurs en protéines, exprimées en pourcentages de la matière sèche :
Échantillons
Ech. 1 Ech. 2 Ech. 3 Ech. 4 Ech. 5
Moulins
13,33 13,62 13,53 13,60 13,97
Moul. 1
13,43 13,33 13,75 13,44 13,32
13,04 13,26 13,49 13,05 13,28
Moul. 2
13,34 13,49 13,59 13,44 13,67
13,24 13,33 13,07 13,47 13,46
Moul. 3
13,25 13,46 13,33 13,04 13,32
On cherche à analyser l’homogénéité des moulins, au sens où ils donnent les mêmes teneurs en
protéines après broyage.
Il s’agit bien, dans ce cas de figure, d’une analyse de la variance à deux facteurs aléatoires avec
répétitions.
Nous supposons que les conditions du modèle sont bien remplies.
L’étude de la variabilité des résultats en spectrométrie infrarouge est donnée ci-dessous dans le
tableau d’analyse de la variance associé :
Source Variations D.l.l. Carré moyen F Proba critique
Moulin 0,29246 2 0,14623 8,70 0,010
Echant 0,20731 4 0,05183 3,08 0,082
Moul*Echant 0,13451 8 0,01681 0,38 0,917
Erreur 0,66840 15 0,04456
Total 1,30268 29
Analyse de la variance
c 2015 Michel Carbon
6.3. MODÈLES À EFFETS MIXTES 135
Pour le premier test, P = 0, 010,et nous décidons donc, au seuil α = 0, 05, de refuser l’hypothèse
nulle H00 . Par conséquent, nous pouvons affirmer qu’il y a un effet significatif du facteur aléatoire
"moulin".
Pour le second test, P = 0, 082, et nous décidons au seuil α = 0, 05, de ne pas refuser l’hypothèse
nulle H000 . Par conséquent, nous n’avons pas réussi à mettre en évidence d’effet du facteur aléatoire
"échantillon".
Pour le troisième test, P = 0, 917, et nous décidons au seuil α = 0, 05, de ne pas refuser
l’hypothèse nulle H0000 . Par conséquent, nous n’avons pas réussi à mettre en évidence d’effet du facteur
aléatoire "interaction".
Pour chacun des couples de modalités (Ai , Bj ), on effectue une unique mesure d’une réponse Y
qui est une variable continue. Nous noterons, là encore, n = I × J le nombre total de mesures ayant
été effectuées.
On introduit le modèle suivant :
Yi,j = µ + αi + βj + εi,j , i = 1, · · · , I ; j = 1, · · · , J ,
I
X
avec la contrainte supplémentaire : αi = 0, où Yi,j est la valeur prise par la variable réponse
i=1
Y dans les conditions (Ai , Bj ).
On suppose aussi également que :
2
L(βj ) = N (0, σB ), ∀j : 1 ≤ j ≤ J ,
βi indépendant de βj si i 6= j et 1 ≤ i, j ≤ J .
βi indépendant de εj,k si 1 ≤ j ≤ I et 1 ≤ i, k ≤ J .
Analyse de la variance
c 2015 Michel Carbon
136 CHAPITRE 6. ANALYSE DE LA VARIANCE À DEUX FACTEURS
Nous supposons que les conditions d’utilisation de ce modèle sont satisfaites. Une fois encore, nous
utilisons les quantités SCA , SCB , SCR , SCT OT , scA , scB , scR et scT OT introduites dans la section
6.1.2.
La relation fondamentale de l’analyse de variance s’écrit ici aussi :
Nous avons les degrés de liberté suivants, associés à chaque ligne du tableau de l’analyse de
variance :
Nous résumons toutes ces informations dans le tableau de l’analyse de variance ci-dessous.
scA s2A
Facteur A scA nA s2A = fA = H00 ou H10
nA s2R
scB s2B
Facteur B scB nB s2B = fB = H000 ou H100
nB s2R
scR
Résiduelle scR nR s2R =
nR
Totale scT OT nT OT
L’analyse de la variance d’un modèle à effets mixtes facteurs aléatoires sans répétition permet
deux tests de Fisher. Le premier test concernant le facteur fixe A est le suivant :
H00 : α1 = α2 = · · · = αI = 0
Analyse de la variance
c 2015 Michel Carbon
6.3. MODÈLES À EFFETS MIXTES 137
contre
H10 : Il existe i0 ∈ {1, 2, · · · , I} tel que αi0 6= 0.
Sous l’hypothèse nulle (H00 ) précédente, d’absence d’effet du facteur fixe A, et lorsque les condi-
tions de validité du modèle sont respectées, fA est la réalisation d’une variable aléatoire qui suit
une loi de Fisher à I − 1 et (I − 1)(J − 1) degrés de liberté. Nous concluons alors à l’aide de la
valeur critique ("p-value"), et on rejette si elle est inférieure au seuil α du test. Lorsque l’hypothèse
nulle (H00 ) est rejetée, on peut alors procéder à des comparaisons multiples des différents effets des
niveaux du facteur.
Le second test concernant le second facteur aléatoire B est le suivant :
H000 : σB
2
=0
contre
H100 : σB
2
6= 0 .
Sous l’hypothèse nulle (H000 ) précédente, d’absence d’effet du facteur B, et lorsque les conditions
de validité du modèle sont respectées, fB est la réalisation d’une variable aléatoire qui suit une loi
de Fisher à J − 1 et (I − 1)(J − 1) degrés de liberté.
2 , σ̂ 2 des paramètres µ, α , · · · , α , σ 2 , et σ 2 du modèle sont
Les estimateurs µ̂, α̂1 , · · · , α̂I , σ̂B 1 I B
donnés par les formules suivantes :
µ̂ = Y•,•,• ,
α̂i = Yi,•,• − µ̂ , 1 ≤ i ≤ I ,
2 = 1 2 2
σ̂B SB − SR ,
I
SCR 2
σ̂ 2 = = SR ,
(I − 1)(J − 1)
1 2
2 (y) = sB − s2R ,
σ̂B
I
scR
σ̂ 2 (y) = = s2R .
(I − 1)(J − 1)
Exemple 6.3.1
Analyse de la variance
c 2015 Michel Carbon
138 CHAPITRE 6. ANALYSE DE LA VARIANCE À DEUX FACTEURS
Nous reprenons les données de l’exemple 6.2.1 que nous avions étudié dans le cas de l’analyse à
deux facteurs aléatoires sans répétition. Mais cette fois-ci, nous allons considérer le facteur « Temps
» comme un facteur fixe. Par contre le facteur « Comprimé » reste toujours un facteur aléatoire.
Le modèle statistique s’écrit de la façon suivante :
Y i,j = µ + αi + B j + εi,j
I
X
où i = 1, · · · , I et j = 1, · · · , J, avec la contrainte supplémentaire : = αi = 0,
i=1
où Y i,j est la valeur prise par la réponse Y dans les conditions (αi , B i ).
Notons n = I × J le nombre total de mesures ayant été effectuées.
Le tableau d’analyse de la variance pour Principe actif dissous est le suivant :
Pour le premier test, la probabilité critique vaut 0,647, et nous décidons de ne pas refuser l’hy-
pothèse nulle (H0 ). Par conséquent, nous n’avons pas réussi à mettre en évidence d’effet du facteur
aléatoire « Comprimé ».
Pour le deuxième test, la probabilité critique vaut 0,000, nous décidons de refuser l’hypothèse
nulle (H0 ). Par conséquent, nous pouvons dire, au seuil α = 5%, qu’il y a un effet significatif du
facteur fixe « Temps ».
Pour chacun des couples de modalités (Ai , Bj ), on effectue K mesures d’une réponse Y qui est
une variable continue. Nous noterons n = I × J × K le nombre total de mesures ayant été effectuées.
I
X I
X
avec les contraintes supplémentaires : αi = 0, et (αβ)i,j = 0 , ∀ j ∈ {1, · · · , J},
i=1 i=1
Analyse de la variance
c 2015 Michel Carbon
6.3. MODÈLES À EFFETS MIXTES 139
où Yi,j,k est la valeur prise par la réponse Y dans les conditions (Ai , Bj ) lors du k-ième essai. Nous
supposerons de plus que :
βi indépendant de βj si i 6= j et 1 ≤ i, j ≤ J ,
βi indépendant de (αβ)j,k si 1 ≤ j ≤ I et 1 ≤ i, k ≤ J .
βi indépendant de εj,k,l , 1 ≤ j ≤ I , 1 ≤ i, k ≤ J et 1 ≤ l ≤ K ,
(αβ)i,j indépendant de εk,l,m si 1 ≤ i, k ≤ I , 1 ≤ j, l ≤ J et ≤ m ≤ K .
Dans un modèle mixte restreint, les effets aléatoires croisant des facteurs à effets fixes et à effets
aléatoires, ici les (αβ)i,j , ne sont pas mutuellement indépendants à cause des contraintes portant sur
XI
leur somme : (αβ)i,j = 0 , ∀ j ∈ {1, · · · , J}. Par contre, ils le sont dès qu’on ne les considère pas
i=1
tous en même temps.
Nous introduisons aussi le modèle, dit non restreint, suivant :
βi indépendant de βj si i 6= j et 1 ≤ i, j ≤ J ,
(αβ)i,j indépendant de (αβ)k,l si (i, j) 6= (k, l) avec 1 ≤ i, k ≤ I et 1 ≤ j, l ≤ J ,
βi indépendant de (αβ)j,k si 1 ≤ j ≤ I et 1 ≤ i, k ≤ J .
Nous postulons là aussi les hypothèses classiques suivantes pour les erreurs :
Analyse de la variance
c 2015 Michel Carbon
140 CHAPITRE 6. ANALYSE DE LA VARIANCE À DEUX FACTEURS
βi indépendant de εj,k,l , 1 ≤ j ≤ I , 1 ≤ i, k ≤ J et 1 ≤ l ≤ K ,
(αβ)i,j indépendant de εk,l,m si 1 ≤ i, k ≤ I , 1 ≤ j, l ≤ J et ≤ m ≤ K .
Dans un modèle mixte non restreint, les effets aléatoires croisant des facteurs à effets fixes et à
effets aléatoires, ici les (αβ)i,j , sont mutuellement indépendants. Il n’existe aucun consensus sur une
raison statistique quelconque qui permettrait de privilégier l’une ou l’autre de ces approches. Nous
utiliserons plutôt des modèles restreints.
Nous supposons que les conditions d’utilisation de ce modèle sont satisfaites. Une fois encore, nous
utilisons les quantités SCA , SCB , SCAB , SCR , SCT OT , scA , scB , scAB , scR et scT OT introduites
dans la section 6.1.2.
On introduit une fois encore le nombre de degrés de liberté associés à chaque ligne du tableau de
l’analyse de variance (voir tableau ci-dessous) Nous résumons enfin ces informations dans le tableau
Analyse de la variance
c 2015 Michel Carbon
6.3. MODÈLES À EFFETS MIXTES 141
scA s2A
Facteur A nA = I − 1 scA s2A = fA = H00 ou H10
nA s2R
scB s2B
Facteur B nB = J − 1 scB s2B = fB = H000 ou H100
nB s2AB
scAB s2AB
Interaction nAB = (I − 1)(J − 1) scAB s2AB = fAB = H0000 ou H1000
nAB s2R
scR
Résidus nR = IJ(K − 1) scR s2R =
nR
scT OT
Total nT OT = IJK − 1 scT OT s2T =
nT OT
H00 : α1 = α2 = · · · = αI = 0
contre
H10 : Il existe i0 ∈ {1, 2, · · · , I} tel que αi0 6= 0.
Sous l’hypothèse nulle (H00 ) précédente, d’absence d’effet du facteur fixe A, et lorsque les condi-
tions de validité du modèle sont respectées, fA est la réalisation d’une variable aléatoire qui suit
une loi de Fisher à I − 1 et IJ(K − 1) degrés de liberté. Nous concluons alors à l’aide de la valeur
critique ("p-value"), et on rejette si elle est inférieure au seuil α du test. Lorsque l’hypothèse nulle
(H00 ) est rejetée, on peut alors procéder à des comparaisons multiples des différents effets des niveaux
du facteur.
Le second test concernant le second facteur aléatoire B est le suivant :
H000 : σB
2
=0
contre
H100 : σB
2
6= 0 .
Sous l’hypothèse nulle (H000 ) précédente, d’absence d’effet du facteur B, et lorsque les conditions
de validité du modèle sont respectées, fB est la réalisation d’une variable aléatoire qui suit une loi
de Fisher à J − 1 et (I − 1)(J − 1) degrés de liberté.
Analyse de la variance
c 2015 Michel Carbon
142 CHAPITRE 6. ANALYSE DE LA VARIANCE À DEUX FACTEURS
H0000 : σAB
2
=0
contre
H1000 : σAB
2
6= 0 .
Sous l’hypothèse nulle (H0000 ) précédente, d’absence d’effet de l’interaction entre les facteurs A
et B, et lorsque les conditions de validité du modèle sont respectées, fAB est la réalisation d’une
variable aléatoire qui suit une loi de Fisher à (I − 1)(J − 1) et IJ(K − 1) degrés de liberté.
Exemple 6.3.2
Eysenck (1974) a mené une étude consacrée à la rétention de matériel verbal en fonction du
niveau de traitement. Elle faisait varier aussi bien l’âge que la condition de rétention. Le modèle de
la mémorisation proposé par Craik et Lockhart (1972) stipule que le degré auquel un sujet se rappelle
un matériel verbal est fonction du degré auquel ce matériel a été traité lors de sa présentation initiale.
Ainsi, si l’on essaie de mémoriser une liste de mots, répéter simplement un mot pour soi-même (un
niveau de traitement très bas) ne permet pas de le mémoriser aussi bien que si l’on y réfléchit en
tentant de former des associations entre ce mot et un autre. Eysenck (1974) voulait tester ce modèle
et, plus important encore, examiner s’il pouvait contribuer à expliquer certaines différences relevées
entre des sujets jeunes et âgés concernant leur aptitude à se rappeler du matériel verbal. Eysenck
a réparti aléatoirement 50 sujets âgés de 55 à 65 ans dans cinq groupes ; les quatre premiers im-
pliquaient un apprentissage involontaire et le dernier un apprentissage intentionnel (l’apprentissage
involontaire se caractérisait par le fait que le sujet ne savait pas qu’il devrait plus tard se rappeler le
matériel appris).
Le premier groupe (addition) devait lire une liste de mots et se contenter de compter le nombre
de lettres de chacun d’eux. Il s’agissait du niveau de traitement le plus bas, puisqu’il n’était pas
nécessaire de mémoriser chaque mot autrement que comme une suite de lettres.
Le deuxième groupe (rimes) devait lire chaque mot et lui trouver une rime. Cette tâche impliquait
de considérer la consonance de chaque mot, mais pas sa signification.
Le troisième groupe (adjectifs) devait donner un adjectif qui aurait pu être utilisé pour modifier
chaque mot de la liste.
Le quatrième groupe (images) devait essayer de se former une image précise de chaque mot.
Cette dernière tâche était supposée nécessiter le niveau de traitement le plus élevé parmi les quatre
groupes d’apprentissage involontaire.
Aucun de ces groupes ne savait qu’il faudrait se rappeler les mots ultérieurement.
Enfin, le groupe d’apprentissage intentionnel devait lire la liste et mémoriser tous les mots. Après
avoir passé trois fois en revue la liste de 27 mots, les sujets devaient retranscrire tous les mots dont
ils se souvenaient.
Si l’apprentissage n’impliquait rien de plus qu’une exposition au matériel (soit la façon dont la
plupart d’entre nous lisent le journal ou, pis encore, un devoir), les cinq groupes devaient obtenir
des résultats identiques ; après tout, ils avaient tous vu tous les mots. Si le niveau de traitement était
important, on devait constater des différences sensibles entre les moyennes des groupes.
Analyse de la variance
c 2015 Michel Carbon
6.3. MODÈLES À EFFETS MIXTES 143
L’étude incluait 50 participants dont l’âge se situait entre 18 et 30 ans, ainsi que 50 participants
compris dans la tranche d’âge 55-65 ans. Pour plus de facilité, nous avons regroupé les 50 participants
dont l’âge se situait entre 18 et 30 ans dans une classe que nous appellerons « sujets jeunes » et les
50 participants dont l’âge se situait entre 55 et 65 ans dans une classe que nous allons appeler «
sujets âgés ».
Les données sont présentées dans le tableau suivant :
Analyse de la variance
c 2015 Michel Carbon
144 CHAPITRE 6. ANALYSE DE LA VARIANCE À DEUX FACTEURS
2. Pour le deuxième test, la probabilité critique vaut 0,001, nous décidons de refuser l’hypothèse
nulle (H0 ). Par conséquent, nous pouvons dire, au seuil α = 5%, qu’il y a un effet significatif
du facteur fixe « Méthode ».
3. Pour le troisième test, la probabilité critique vaut 0,000, nous décidons de refuser l’hypothèse
nulle (H0 ). Par conséquent, nous pouvons dire, au seuil α = 5%, qu’il y a un effet significatif
du facteur aléatoire « Interaction ».
Exercices
Exercice 1
Trois cafés ont été dégustés par 6 juges. Le tableau ci-dessous fournit les notes d’acidité accordées
par les 6 juges aux différents cafés :
Les notes sont attribuées sur la base d’une échelle allant de 0 (café très peu acide) à 10 (café très
acide).
1. On se pose la question de savoir si, en moyenne, certains cafés sont perçus plus acides que
d’autres. Dans cette perspective, on réalise dans un premier temps une analyse de variance à
un facteur, le facteur café (à trois modalités). Écrire le modèle correspondant et complétez le
tableau d’analyse de variance suivant :
Variabilité Variations D.l.l. Carrés moyens F
due au type de café 44,111 ··· ··· ···
due au résidu 61,667 ··· ···
totale ··· ···
2. Testez l’hypothèse selon laquelle les 3 cafés présentent en moyenne une acidité identique.
Donnez vos conclusions au risque 5 % (puis 1 %).
3. Quelle interprétation concrète donner à l’effet juge ? Est-il vraiment intéressant, lorsqu’on
s’intéresse seulement à l’effet café, de prendre en compte l’effet juge dans le modèle d’analyse
de variance ci-dessus ?
Analyse de la variance
c 2015 Michel Carbon
6.3. MODÈLES À EFFETS MIXTES 145
4. Écrire le modèle d’analyse de la variance comportant juste les deux effets café et juge, et
concluez.
5. Commentez les façons de noter des juges 1 et 3. Quel café achèteriez-vous si vous préférez les
cafés peu acides ?
Exercice 2
Lors d’une évaluation sensorielle, 31 personnes ont jugé 6 compotes de pomme sur la base de
critères relatifs à l’odeur, l’aspect, la texture et la saveur. À l’issue du test, chacun attribue à chaque
produit une note, dite note hédonique, allant de 0 (je n’aime pas du tout) à 10 (j’aime énormément).
Les données se trouvent dans le fichier "chap6_ex2.csv" contenant 31 × 6 = 186 données.
1. Tracez les boîtes à moustaches en fonction de chaque compote.
2. Proposez une méthode statistique permettant d’étudier l’influence de la compote sur la note
hédonique.
3. Faites une analyse de variance à un facteur en fonction du seul facteur compote. Quel modèle
utilisez-vous ? Y a-t-il des différences entre compotes ? Quelle compote est la plus appréciée ?
4. Reprendre l’étude en intégrant en plus l’effet juge. Qu’en conclure ?
Exercice 3
On fait une étude sur l’évolution de la viscosité de crème liquide dans le temps. On mesure la
viscosité à J + 5 (5 jours après la date de fabrication) et à J + 30. Plus la valeur de la mesure est
élevée et plus la crème est visqueuse. Les crèmes sont des crèmes UHT, et donc la viscosité ne doit
pas trop évoluer dans le temps. On suppose que la variance des viscosités est la même aux deux
dates.
Pour cette étude, on réalise une expérience dans laquelle on mesure la viscosité de 22 crèmes à
J + 5 et de 22 autres à J + 30. Les données se trouvent dans le fichier "chap6_ex3.csv".
1. Quel test d’hypothèse formalise la question suivante : "y a-t-il une différence de viscosité des
crèmes entre les deux dates ?"
2. Décrire complètement la procédure de test pour conclure éventuellement à l’existence d’une
différence ou non. Commentez les résultats obtenus. Quelle décision prendre sur cette base ?
3. À partir de maintenant, on suggère qu’il serait plus judicieux de comparer les viscosités à
J + 5 et à J + 30 à partir de crèmes provenant d’un même lot, car les crèmes d’un même
lot sont homogènes. On décide alors de faire une nouvelle expérience en choisissant 22 lots de
production et en effectuant, pour chaque lot, une mesure à J + 5 et une à J + 30. On est donc
confronté à un problème de comparaison de moyennes dites appariées.
Quels facteurs peut-on prendre en compte avec cette nouvelle structure des données ? Rappeler
l’équation qui décompose la variabilité de la viscosité en fonction de ces deux facteurs. En
déduire des procédures de test de ces deux facteurs. Quel est, a priori, l’intérêt de cette
nouvelle procédure par rapport à la précédente ?
4. Quelle conclusion tirez-vous à l’issue du test ?
Analyse de la variance
c 2015 Michel Carbon
146 CHAPITRE 6. ANALYSE DE LA VARIANCE À DEUX FACTEURS
Exercice 4
On évalue l’efficacité d’un nouveau traitement ayant pour objet d’améliorer le développement
global des enfants atteints de trisomie 21. Pour cela, une étude a été menée auprès de 12 enfants
trisomiques. Six d’entre eux ont reçu un produit actif alors que les six autres ont reçu un placebo, et
ce durant 6 mois. Un indice de développement global de chaque enfant a été calculé avant et après le
début de l’étude par un même psychologue. Cet indice de développement global résume l’ensemble
des capacités en terme de coordination, posture, langage et sociabilité. La nature du traitement
donné n’est connu ni de la famille du patient, ni du psychologue. Deux psychologues ont participé à
l’étude. Les données se trouvent dans le fichier "chap6_ex4.csv".
1. Proposez un modèle permettant de mettre en évidence un éventuel effet traitement.
2. Peut-on considérer que le nouveau traitement est efficace ?
Analyse de la variance
c 2015 Michel Carbon
6.3. MODÈLES À EFFETS MIXTES 147
Exercice 5
Le tableau ci-dessous présente le rendement de deux variétés de plantes lorsque trois types de
fongicides ont été appliqués.
Exercice 6
Pour étudier les facteurs influençant le rendement en blé, on a comparé trois variétés (L, N
et NF) de blé et deux apports d’engrais azotés ( un apport "normal", la dose 1, et un apport
"intensif", la dose 2). Trois répétitions pour chaque couple(variété, dose d’engrais) ont été effectuées
et le rendement (en quintal par hectare) a été mesuré. On s’intéresse principalement aux différences
qui pourraient exister d’une variété à l’autre, et aux interactions éventuelles des variétés avec les
apports azotés. Les données se trouvent dans le fichier "chap6_ex6.csv".
1. Écrivez le modèle relatif à cette étude.
2. La personne en charge de cette étude hésite entre les deux méthodes suivantes :
(a) Méthode 1 : conserver toutes les données ;
(b) Méthode 2 : substituer aux trois valeurs observées pour un même couple (variété, dose
d’engrais) leur valeur moyenne.
Pour chacune des deux méthodes, donnez les degrés de liberté des différentes sources de va-
riabilité présentes dans la table d’analyse de la variance. Quelle méthode utiliseriez-vous ?
Pourquoi ?
3. Faites les calculs et déterminez les effets significatifs, en prenant soin de construire les tests en
posant bien les hypothèses que vous voulez tester, la statistique de test sous H0 et la décision
que vous prenez. Quel modèle retenez-vous ?
4. Quelle variété et quelle dose d’azote conseilleriez-vous ?
Exercice 7
Lors d’un test hédonique, on s’intéresse à l’appréciation globale de trois chocolats. Pour cela, 45
juges ont participé à cette évaluation qui a eu lieu durant 2 jours (on dispose de 15 échantillons par
Analyse de la variance
c 2015 Michel Carbon
148 CHAPITRE 6. ANALYSE DE LA VARIANCE À DEUX FACTEURS
chocolat). Chaque juge n’a évalué qu’un chocolat. Comme chacun choisit son jour de dégustation et
le chocolat qu’il évalue, le nombre de données et la répartition des chocolats évalués ne sont pas les
mêmes d’un jour à l’autre.
On souhaite d’une part vérifier qu’il y a bien un effet chocolat, s’il y a un effet jour (les chocolats
pouvant être plus ou moins appréciés lors du premier ou du second jour), et un effet interaction
entre chocolat et jour.
Analyse de la variance
c 2015 Michel Carbon
Chapitre 7
Les modèles emboîtés d’analyse de la variance à deux facteurs correspondent à des situations où
un des critères est subordonné à l’autre.
Ainsi, par exemple, quand on compare les productions laitières d’une même race bovine dans deux
ou plusieurs régions, en choisissant au hasard et indépendamment plusieurs exploitations agricoles
dans chaque région, et en mesurant dans chacune d’elles les productions laitières de plusieurs bêtes,
elles aussi choisies au hasard et indépendamment les unes des autres, le facteur exploitation est
alors subordonné au facteur région, puisque le choix des exploitations est réalisé à l’intérieur de
chacune des régions, sans qu’il n’y ait aucune correspondance entre les différentes exploitations des
différentes régions.
Dans ces conditions, il ne se justifie pas de calculer x̄•,1,• qui serait relative aux premières
exploitations des différentes régions. Par contre, il se justifie toujours de calculer les moyennes
relatives à l’intérieur de chaque région, c’est-à-dire les moyennes x̄i,•,• relatives au premier critère
de classification.
Un point très important est que nous ne pourrons nous servir de modèles où les facteurs sont
emboîtés que si nous disposons de répétitions. Dans le cas contraire où les mesures ne seraient pas
répétées, le modèle que nous devrons alors utiliser pour analyser les données sera l’un de ceux déjà
exposés au chapitre 6.
149
CHAPITRE 7. ANALYSE DE LA VARIANCE À DEUX FACTEURS
150 EMBOÎTÉS
I
X J
X
avec les contraintes supplémentaires : αi = 0 et βj(i) = 0 , ∀ i ∈ {1, · · · , I} , où Yi,j,k est la
i=1 j=1
valeur prise par la réponse Y dans les conditions (Ai , Bj(i) ) lors de la k-ème mesure.
On supposera toujours réalisées les hypothèses standards suivantes :
1. εi,j,k et εl,m,n sont indépendantes si (i, j, k) 6= (l, m, n) avec 1 ≤ i, l ≤ I , 1 ≤ j, m ≤ J et
1 ≤ k, n ≤ K.
2. ∀ (i, j, k), i = 1, · · · , I ; j = 1, · · · , J ; k = 1, · · · , K ; L(εi,j,k ) = N (0, σ 2 ).
Nous supposerons que les conditions d’utilisation de ce modèle sont bien remplies.
Nous regroupons les valeurs prises par la variable réponse Y dans les conditions (Ai , Bj ) lors des
K répétitions dans le tableau ci-dessous :
A1 ··· AI
B1(1) ··· BJ(1) ··· ··· ··· B1(I) ··· BJ(1)
Y1,1,1 ··· Y1,J,1 ··· ··· ··· YI,1,1 ··· YI,J,1
.. .. .. .. .. ..
. . . ··· ··· ··· . . .
Y1,1,K ··· Y1,J,K ··· ··· ··· YI,1,K ··· YI,J,K
Nous rappelons que la variation théorique due au facteur A est définie par :
I
X
SCA = JK (Yi,•,• − Y•,•,• )2 .
i=1
Analyse de la variance
c 2015 Michel Carbon
7.1. MODÈLES À EFFETS FIXES 151
La liste y des données expérimentales y1,1,1 , · · · , y1,1,K , y1,2,1 , · · · , j1,2,K , · · · , yI,J,K permet de
construire une réalisation du tableau précédent :
A1 ··· AI
B1(1) ··· BJ(1) ··· ··· ··· B1(I) ··· BJ(1)
y1,1,1 ··· y1,J,1 ··· ··· ··· yI,1,1 ··· yI,J,1
.. .. .. .. .. ..
. . . ··· ··· ··· . . .
y1,1,K ··· y1,J,K ··· ··· ··· yI,1,K ··· yI,J,K
La variation due au facteur A observée sur la liste y de données expérimentales est définie par :
I
X
scA = JK (yi,•,• − y•,•,• )2 .
i=1
La variation due au facteur B dans le facteur A observée sur la liste y de données expérimentales
est définie par :
XI XJ
scB|A = K (yi,j,• − yi,•,• )2 .
i=1 j=1
La variation résiduelle observée sur la liste y de données expérimentales est définie par :
I X
X J X
K
scR = (yi,j,k − yi,j,• )2 .
i=1 j=1 k=1
Analyse de la variance
c 2015 Michel Carbon
CHAPITRE 7. ANALYSE DE LA VARIANCE À DEUX FACTEURS
152 EMBOÎTÉS
Enfin, la variation totale observée sur la liste y de données expérimentales est égale par :
I X
X J X
K
scT OT = (yi,j,k − y•,•,• )2 .
i=1 j=1 k=1
La relation fondamentale de l’analyse de variance reste valable lorsqu’elle est évaluée sur la liste
y de données expérimentales :
scT OT = scA + scB|A + scR .
On reconnaît parmi les quantités définies ci-dessus des quantités similaires à celles introduites
dans les chapitres 3 et 6.
Nous remarquons que les nouvelles quantités : SCB|A et scB|A sont liées aux relations précédentes
par les relations :
SCB|A = SCB + SCAB
scA s2A
Facteur A nA = I − 1 scA s2A = fA = H00 ou H10
nA s2R
scB|A s2B|A
Facteur B dans facteur A nB|A = I(J − 1) scB|A s2B|A = fB|A = H000 ou H100
nB|A s2R
scR
Résiduelle nR = IJ(K − 1) scR s2R =
nR
scT OT
Total nT OT = IJK-1 scT OT s2T =
nT OT
Analyse de la variance
c 2015 Michel Carbon
7.1. MODÈLES À EFFETS FIXES 153
H00 ; α1 = α2 = · · · = αI = 0
contre
H10 : Il existe i0 ∈ {1, 2, · · · , I} tel que αi0 6= 0 .
Sous l’hypothèse nulle H00 d’absence d’effet du facteur A et lorsque les conditions de validité du
2 /S 2 qui suit une loi de
modèle sont respectées, fA est la réalisation de la variable aléatoire SA R
Fisher-Snedecor à nA = I − 1 et nR = IJ(K − 1) degrés de liberté.
On peut alors conclure grâce à la valeur critique, et on rejette l’hypothèse nulle si elle est
inférieure ou égale au seuil α du test, ou à l’aide d’une table. Il y a rejet si fA est supérieure ou
égale à la valeur critique issue de la table. Si l’hypothèse H00 est rejetée, on pourra procéder à des
comparaisons multiples des différents effets des niveaux du facteur.
Nous pouvons répéter ce qui précède pour le facteur B :
contre
H100 : Il existe (i0 , j0 ) ∈ {1, 2, · · · , I} × {1, 2, · · · , J} tel que βj0 (io ) 6= 0 .
Sous l’hypothèse nulle H000 d’absence d’effet du facteur B dans le facteur A et lorsque les condi-
2 /S 2
tions de validité du modèle sont respectées, fB|A est la réalisation de la variable aléatoire SB|A R
qui suit une loi de Fisher-Snedecor à nB = I(J − 1) et nR = IJ(K − 1) degrés de liberté.
On peut alors conclure grâce à la valeur critique, et on rejette l’hypothèse nulle si elle est
inférieure ou égale au seuil α du test, ou à l’aide d’une table. Il y a rejet si fB est supérieure ou
égale à la valeur critique issue de la table. Si l’hypothèse H000 est rejetée, on pourra procéder à des
comparaisons multiples des différents effets des niveaux du facteur.
Les estimateurs µ̂, α̂1 , · · · , α̂I , β̂1(1) , β̂2(1) , · · · , β̂J(1) , · · · , β̂J(I) , et σ̂ 2 des paramètres respectifs µ,
α1 , · · · , αI , β1(1) , β2(1) , · · · , βJ(1) , · · · , βJ(I) et σ 2 du modèle sont donnés par :
SCR 2
σ̂ 2 = = SR .
IJ(K − 1)
Ce sont des estimateurs sans biais.
Les estimations obtenues pour une liste de données expérimentales y, notées µ̂(y), α̂1 (y),· · · ,
α̂I (y), β̂1(1) ,(y),β̂2(1) ,(y),· · · , β̂J(1) (y), · · · ,β̂J(I) (y) et σ̂ 2 (y) des paramètres µ, α1 , · · · , αI , β1(1) ,
β2(1) , · · · , βJ(1) , · · · ,βJ(I) et σ 2 du modèle se déduisent, mutatis mutandis, des formules précédentes.
Exemple 7.1.1
L’expérience consiste à évaluer le gain de masse, en grammes, entre la dixième et la vingtième
semaine, de poulets soumis à quatre régimes alimentaires obtenus en combinant des niveaux faibles
Analyse de la variance
c 2015 Michel Carbon
CHAPITRE 7. ANALYSE DE LA VARIANCE À DEUX FACTEURS
154 EMBOÎTÉS
ou élevés de calcium et de lysine. Deux enclos de six poulets ont été utilisés pour chacun des quatre
traitements.
Les deux facteurs, régime et enclos, sont contrôlés par l’expérimentateur.
Les données sont fournies dans le tableau ci-dessous :
Régime
LoCaLoL LoCaHiL HiCaLoL HiCaHiL
Enclos 1 2 1 2 1 2 1 2
573 1041 618 943 731 416 518 416
Gain 636 814 926 640 845 729 782 729
de 883 498 717 373 866 590 938 590
masse 550 890 677 907 729 552 755 552
en g. 613 636 659 734 770 776 672 776
901 685 817 1050 787 657 576 657
La signification des sigles ci-dessus est la suivante : par exemple, "LoCaLoL" signifie faible dose
en calcium et faible dose en lysine, "HiCaLoL" signifie haute dose en calcium et faible dose en lysine,
etc.
Le tableau de l’analyse de variance est le suivant :
Analysis of Variance Table
Response: masse
Df Sum Sq Mean Sq F value Pr(>F)
regime 3 53943 17981 0.7319 0.5391
regime:enclos 4 125688 31422 1.2791 0.2943
Residuals 40 982654 24566
Nous supposons bien sûr que les conditions du modèle sont bien remplies.
Analysons les résultats :
1. Pour le premier test, la valeur critique vaut 0,5391 et nous décidons de ne pas refuser l’hypo-
thèse nulle H0 . Par conséquent, nous n’avons pas réussi à mettre en évidence d’effet du facteur
à effets fixes régime. Le risque associé à cette décision est un risque de seconde espèce, et
pour l’évaluer, il resterait à calculer la puissance de ce test.
2. Pour le second test, la valeur critique vaut 0,2943 et nous décidons de ne pas refuser l’hypothèse
nulle H0 . Par conséquent, nous n’avons pas réussi à mettre en évidence d’effet du facteur à
effets fixes enclos dans le facteur régime. Le risque associé à cette décision est un risque de
seconde espèce, et pour l’évaluer, il resterait à calculer la puissance de ce test.
Analyse de la variance
c 2015 Michel Carbon
7.2. MODÈLES À EFFETS ALÉATOIRES 155
Les termes Bj(i) représentent un échantillon de taille J prélevé dans une population importante
dépendant du niveau Ai du facteur A. Nous admettrons que les effets des Bj(i) sont de loi normale
2 .
centrée de variance σB|A
Pour chacun des couples (Ai , Bj(i) ), nous effectuons K ≥ 2 mesures d’une réponse Y qui est une
variable continue. Nous noterons n = I × J × K le nombre total de mesures ayant été effectuées.
On introduit le modèle :
où Yi,j,k est la valeur prise par la réponse Y dans les conditions (Ai , Bj(i) ) lors de la k-ème mesure.
Nous supposons que :
L(αi ) 2 ),
= N (0, σA ∀i,1 ≤ i ≤ I ,
2 ),
L(βj(i) ) = N (0, σB|A ∀ (i, j) , 1 ≤ i ≤ I, 1 ≤ j ≤ J ,
αi et αj sont indépendants si i 6= j et 1 ≤ i, j ≤ I,
Analyse de la variance
c 2015 Michel Carbon
CHAPITRE 7. ANALYSE DE LA VARIANCE À DEUX FACTEURS
156 EMBOÎTÉS
On peut résumer toutes ces informations dans le tableau de l’ANOVA ci-dessous :
scA s2A
Facteur A nA = I − 1 scA s2A = fA = H00 ou H10
nA s2B|A
scB|A s2B|A
Facteur B dans facteur A nB|A = I(J − 1) scB|A s2B|A = fB|A = H000 ou H100
nB|A s2R
scR
Résiduelle nR = IJ(K − 1) scR s2R =
nR
scT OT
Total nT OT = IJK-1 scT OT s2T =
nT OT
H00 : σA
2
=0
contre
H10 : σA
2
6= 0 .
Sous l’hypothèse nulle (H00 ) précédente, d’absence d’effet du facteur A, et lorsque les conditions
de validité du modèle sont respectées, fA est la réalisation d’une variable aléatoire qui suit une loi
de Fisher à I − 1 et (I − 1)(J − 1) degrés de liberté.
H000 : σB|A
2
=0
contre
H100 : σB|A
2
6= 0 .
Sous l’hypothèse nulle (H000 ) précédente, d’absence d’effet du facteur B dans le facteur A, et
lorsque les conditions de validité du modèle sont respectées, fB|A est la réalisation d’une variable
aléatoire qui suit une loi de Fisher à I(J − 1) et IJ(K − 1) degrés de liberté.
Analyse de la variance
c 2015 Michel Carbon
7.2. MODÈLES À EFFETS ALÉATOIRES 157
2 , σ̂ 2 , σ̂ 2 des paramètres µ, σ 2 , σ 2
Les estimateurs µ̂, σ̂A 2
B|A A B|A et σ du modèle sont donnés par les
formules suivantes :
µ̂ = Y•,•,• ,
2 1 2 2
2 1 2 2
σ̂A = SA − SB|A ; σ̂B|A = SB|A − SR ,
JK K
SCR 2
σ̂ 2 = = SR ,
(I − 1)(J − 1)
2 = SCA 2 SCB|A 2 = SCR . Ces estimateurs sont non biaisés.
où SA , SB|A = et SR
nA nB|A nR
Les estimations obtenues pour une liste de données expérimentales y, notées µ̂(y), σ̂A 2 (y),
2 (y), σ̂ 2 (y) des paramètres µ, σ 2 , σ 2
σ̂B|A 2
A B|A et σ du modèle, se déduisent immédiatement des for-
mules ci-dessus :
µ̂(y) = y•,•,• ,
1 2 1 2
2 (y) =
σ̂A sA − s2B|A ; 2
σ̂B|A (y) = sB|A − s2R ,
JK K
scR
σ̂ 2 (y) = = s2R .
(I − 1)(J − 1)
Exemple 7.2.1
On a récolté des données d’une expérience conçue pour estimer la moisissure contenue dans une
pâte de piment produite par une entreprise agro-alimentaire. Pour cela, quinze lots de pots de pâte
de piment ont été sélectionnés au hasard dans la production de l’entreprise et dans chacun de ces
lots, deux pots de pâte ont été à nouveau sélectionnés au hasard. Deux prélèvements distincts de pâte
ont été analysés pour chacun de ces pots.
Remarquons que les deux facteurs, lot et échantillon, sont tous les deux considérés comme des
facteurs à effets aléatoires.
Les données sont fournies dans le tableau ci-dessous :
Lot 1 2 3 4 5
Échant. 1 2 1 2 1 2 1 2 1 2
Analyses 40 30 26 25 29 14 30 24 19 17
39 30 28 26 28 15 31 24 20 17
Lot 6 7 8 9 10
Échant. 1 2 1 2 1 2 1 2 1 2
Analyses 33 26 23 32 34 29 27 31 13 27
32 24 24 33 34 29 27 31 16 24
Lot 11 12 13 14 15
Échant. 1 2 1 2 1 2 1 2 1 2
Analyses 25 25 29 31 19 29 23 25 39 26
23 27 29 32 20 30 24 25 37 28
Analyse de la variance
c 2015 Michel Carbon
CHAPITRE 7. ANALYSE DE LA VARIANCE À DEUX FACTEURS
158 EMBOÎTÉS
Nous supposons les conditions du modèle bien remplies. Le tableau d’analyse de variance est alors le
suivant :
Analysis of Variance Table
Response: mesure
Df Sum Sq Mean Sq F value Pr(>F)
lot 14 1210.93 86.495 1.4917 0.2256179
lot:echant 15 869.75 57.983 63.255 < 2.2e-16 ***
Residuals 30 27.50 0.917
Analysons les résultats :
1. Pour le premier test, la probabilité critique vaut 0.2256179 et nous décidons de ne pas refuser
l’hypothèse nulle H0 . Par conséquent, nous n’avons pas réussi à mettre en évidence d’effet
du facteur à effets aléatoires lot. Le risque associé à cette décision est un risque de seconde
espèce, et pour l’évaluer, il resterait à calculer la puissance de ce test.
2. Pour le second test, la probabilité critique vaut quasiment zéro, et nous décidons, au seuil
α = 5 %, de refuser l’hypothèse nulle H0 . Par conséquent, nous pouvons dire qu’il y a un effet
significatif du facteur à effets aléatoires échantillon dans le facteur à effets aléatoires lot. Le
risque associé à cette décision est un risque de première espèce qui vaut 5 %.
Analyse de la variance
c 2015 Michel Carbon
7.3. MODÈLES À EFFETS MIXTES 159
Nous supposons que les conditions d’utilisation de ce modèle sont bien remplies.
Nous utilisons les quantités SCA , SCB|A , SCR , SCT OT , scA , scB|A , scR et scT OT introduites à
la première section .
Nous rappelons la relation fondamentale de l’ANOVA :
scA s2A
Facteur A nA = I − 1 scA s2A = fA = H00 ou H10
nA s2B|A
scB|A s2B|A
Facteur B dans facteur A nB|A = I(J − 1) scB|A s2B|A = fB|A = H000 ou H100
nB|A s2R
scR
Résiduelle nR = IJ(K − 1) scR s2R =
nR
scT OT
Total nT OT = IJK-1 scT OT s2T =
nT OT
Analyse de la variance
c 2015 Michel Carbon
CHAPITRE 7. ANALYSE DE LA VARIANCE À DEUX FACTEURS
160 EMBOÎTÉS
Nous souhaitons faire les tests d’hypothèses suivants :
H00 ; α1 = α2 = · · · = αI = 0
contre
H10 : Il existe i0 ∈ {1, 2, · · · , I} tel que αi0 6= 0 .
Sous l’hypothèse nulle H00 d’absence d’effet du facteur A et lorsque les conditions de validité du
modèle sont respectées, fA est la réalisation de la variable aléatoire SA 2 /S 2
B|A qui suit une loi de
Fisher-Snedecor à nA = I − 1 et nB|A = I(J − 1) degrés de liberté.
On peut alors conclure grâce à la valeur critique, et on rejette l’hypothèse nulle si elle est
inférieure ou égale au seuil α du test, ou à l’aide d’une table. Il y a rejet si fA est supérieure ou
égale à la valeur critique issue de la table. Si l’hypothèse H00 est rejetée, on pourra procéder à des
comparaisons multiples des différents effets des niveaux du facteur.
Le second test concernant le second facteur B est le suivant :
H000 : σB|A
2
=0
contre
H100 : σB|A
2
6= 0 .
Sous l’hypothèse nulle (H000 ) précédente, d’absence d’effet du facteur B dans le facteur A, et
lorsque les conditions de validité du modèle sont respectées, fB|A est la réalisation d’une variable
aléatoire qui suit une loi de Fisher à I(J − 1) et IJ(K − 1) degrés de liberté.
2 , σ̂ 2 des paramètres µ, α , α , · · · , α , σ 2
Les estimateurs µ̂, α̂1 , α̂2 , · · · , α̂I , σ̂B|A 2
1 2 I B|A et σ du
modèle sont donnés par les formules suivantes :
µ̂ = Y•,•,• ,
2 1 2 2
σ̂B|A = SB|A − SR ,
K
SCR 2
σ̂ 2 = = SR ,
(I − 1)(J − 1)
2
SCB|A 2 = SCR . Ces estimateurs sont non biaisés.
où SB|A = et SR
nB|A nR
Les estimations obtenues pour une liste de données expérimentales y, notées µ̂(y), α̂1 (y), · · · ,
2 (y), σ̂ 2 (y) des paramètres µ, α , · · · , α , σ 2
α̂I (y), σ̂B|A 2
1 I B|A et σ du modèle, se déduisent immédia-
Analyse de la variance
c 2015 Michel Carbon
7.3. MODÈLES À EFFETS MIXTES 161
µ̂(y) = y•,•,• ,
1 2
2 (y) =
σ̂B|A sB|A − s2R ,
K
scR
σ̂ 2 (y) = = s2R .
(I − 1)(J − 1)
Exemple 7.3.1
L’expérience porte sur la prise de poids quotidienne de jeunes cochons au cours de leur phase de
croissance. L’objectif de l’expérience est de déterminer l’influence du patrimoine génétique de cinq
pères sur leurs descendants. Pour cela, ces cinq mâles ont eu une portée avec deux mères différentes
et choisies au hasard. Dans chacune de ces portées, deux animaux ont été sélectionnés et leur masse
mesurée en grammes.
On peut remarquer que le facteur père est considéré comme un facteur à effets fixes et le facteur
mère comme un facteur à effets aléatoires.
Les données sont consignées ci-dessous :
Père 1 2 3
Mère 1 2 1 2 1 2
Gain de 2,77 2,58 2,28 3,01 2,36 2,72
masse 2,38 2,94 2,22 2,61 2,71 2,74
Père 4 5
Mère 1 2 1 2
Gain de 2,87 2,31 2,74 2,50
masse 2,46 2,24 2,56 2,48
Nous supposons les conditions du modèle bien remplies. Le tableau d’analyse de variance est alors le
suivant :
Response: poids
Df Sum Sq Mean Sq F value Pr(>F)
pere 4 0.09973 0.024932 0.2212 0.91553
pere:mere 5 0.56355 0.112710 2.9124 0.07067 .
Residuals 10 0.38700 0.038700
Analyse de la variance
c 2015 Michel Carbon
CHAPITRE 7. ANALYSE DE LA VARIANCE À DEUX FACTEURS
162 EMBOÎTÉS
1. Pour le premier test, la probabilité critique vaut 0,91553 et nous décidons donc de ne pas refuser
l’hypothèse nulle H0 . Par conséquent, nous n’avons pas réussi à mettre en évidence d’effet du
facteur à effets fixes père. Le risque associé à cette décision est un risque de seconde espèce.
Pour l’évaluer, il resterait à calculer la puissance de ce test.
2. Pour le second test, la probabilité critique est 0,07067 et nous décidons de ne pas refuser
l’hypothèse nulle H0 . Par conséquent, nous n’avons pas réussi à mettre en évidence d’effet du
facteur à effets aléatoires mère dans le facteur à effets fixes père. Le risque associé à cette
décision est un risque de seconde espèce. Pour l’évaluer, il resterait à calculer la puissance de
ce test.
Analyse de la variance
c 2015 Michel Carbon