Probabilités et statistique
Analyse de la variance
Module 12
Plan
• Introduction
• Comparaison de plusieurs moyennes
• Modèle
• Table d’analyse de la variance
• Validation du modèle
2
1. Introduction
L’analyse de variance permet de comparer simultanément les moyennes d’une
variable dans plusieurs populations, en général normales et de même variance.
Exemples :
Un informaticien a 7 modèles d’ordinateurs qu’il désire comparer du point de vue de la
performance.
Un médecin dispose de 3 médicaments servant à guérir une maladie. Il désire savoir
s’ils sont équivalents ou si l’un d’entre eux guérit plus rapidement que les autres.
Un directeur de magasin d’appareils électroniques est intéressé à comparer 4 méthodes
de publicité. Il veut savoir si ces méthodes sont équivalentes ou si l’une d’elles amène
plus de clients que les autres.
3
2. Comparaison de plusieurs moyennes
a) Yi ~ N(μi, σ2) avec i = 1, 2, …, a
On suppose a populations indépendantes.
Prenons a échantillons de même taille (cas balancé), un pour chaque population à
l’étude :
Population 1 : ( y11 , y12 , ... , y1n )
(
Population 2 : y21 , y22 , ... , y2 n )
...
Population a : (y a1
, ya 2 , ... , yan )
Voici la moyenne des observations pour le traitement i et la moyenne générale de
toutes les observations : n
yi. = ∑ yij ⇒ y i. = yi. / n
j =1
a n
y.. = ∑∑ yij ⇒ y .. = y.. / N
i =1 j =1
4
b) Hypothèses
Soit H0 : μ1 = μ2 = … = μa vs H1 : Au moins deux des moyennes μi ne sont pas égales.
Exemple :
On veut comparer 5 modèles de voitures par rapport à leur consommation d’essence.
Sont-elles équivalentes ? Laquelle est meilleure ?
Marque 1 2 3 4
A Chrysler 22 23 22 21
B Volkswagen 23 26 25 22
C Toyota 26 28 27 31
D Honda 25 23 20 24
E BMW 23 27 22 20
5
c) Vocabulaire :
Soit Y, la variable réponse
Exemple : la consommation d’essence
Facteur : Ce qui différencie les populations ou les traitements
Exemple : le modèle ou la marque
Unité expérimentale : Individu ou objet sur lequel la variable réponse est mesurée.
Exemple : automobile
Plan d’expérience : Procédure permettant d’attribuer les traitements aux unités
expérimentales.
6
d) Notation
Soit yij : j e observation du i e traitement
Exemple (à partir de la diapositive 5) : y21 = 23 , y34 = 31 etc …
.
Exemple :
y3• 112
y3• = 26 + 28 + 27 + 31 = 112 ⇒. y3 = = = 28
4 4
a
Nombre total d' observations : N = ∑ n = an
i =1
Variabilité totale : SCT = ∑ ∑ ( yij − y •• )
a n
2
i =1 j =1
7
3. Modèle
Soit le modèle suivant :
Yij = μ + τi + εij
où yij : jème observation prise lors du traitement i
μ : paramètre commun à tous les traitements, appelé moyenne générale
τi : paramètre associé au ième traitement
εij : composante (erreur) aléatoire
Ainsi, Yij ~ N(μ + τi, σ2), i = 1, 2, …, a, j = 1, 2, …, n.
a
Contrainte pour le cas balancé: ∑τ = 0
i =1
i
8
Exemple :
Soit 3 populations (toutes de loi Normale) : N(μ1, σ2), N(μ2, σ2), N(μ3, σ2).
n1 = n2 = n3 = 6
Y1 j ~ N( 7 , σ 2 )
Y2 j ~ N( 12 , σ 2 )
Y3 j ~ N( 5 , σ 2 ) j = 1,2 ,...,6
Yij = μ + τ i + εij i = 1,2 ,3
7 + 12 + 5
µ= =8
3
τ 1 = 7 − 8 = −1
τ = 12 − 8 = 4
2
τ = 5 − 8 = −3
3
∑τ = −1 + 4 − 3 = 0 ⇒ contrainte pour le cas balancé
3
i
i =1
9
Hypothèse nulle :
H 0 : µ1 = µ 2 = ... = µ a ⇔ H 0 : τ 1 = τ 2 = ... = τ a
Partition de la somme des carrés :
∑ ∑ (y − y ) = ∑ n( y i• − y •• ) + ∑ ∑ ( yij − y i )
a n 2 a 2 a n 2
ij ••
i =1 j =1 i =1 i =1 j =1
Variation totale de Y Variation de Y Variation de Y
expliquée par les inexpliquée par
traitements les traitements
(modèle)
SCT = SCM + SCE
SCT : Somme des carrés totale
SCM : Somme des carrés due au modèle
SCE : Somme des carrés des erreurs
10
4. Table d’analyse de la variance (ANOVA)
Source de Somme des Degrés de Carrés moyens Fobservé
variation carrés liberté
Modèle SCM a–1 MCM = SCM/(a – 1) MCM/MCE
Erreur SCE N–a MCE = SCE/(N – a)
Totale SCT N–1
Sous H0, nous avons :
MCM SCM /( a − 1)
F= = ~ Fa −1, N −a
MCE SCE /( N − a )
11
Exemple :
∑ (y − y )
n ni
∑y
2
Marque 1 2 3 4 n n ( y i • − y •• )
2
y i• 2
ij j =1
ij i•
j =1
A 22 23 22 21 4 22 16 1938 2
B 23 26 25 22 4 24 0 2314 10
C 26 28 27 31 4 28 64 3150 14
D 25 23 20 24 4 23 4 2130 14
E 23 27 22 20 4 23 4 2142 26
Total 20 88 11674 66
Regardons maintenant la diapositive suivante pour quelques détails sur ce tableau.
12
5
N = ∑ n = 20
i =1
5 4
y .. = ∑ ∑ yij / N = 480 / 20 = 24
i =1 j =1
yi2. y..2
5
SCM = ∑ − = 88
i =1 n N
5 4 y..2
SCT = ∑ ∑ yij − = 11674 − 480 2 / 20 = 154
2
i =1 j =1 N
SCE = SCT − SCM
À l’aide des résultats précédents, nous pouvons maintenant établir la table d’ANOVA
pour cet exemple (voir la diapositive suivante).
13
Table d’ANOVA
Source de Somme des Degrés de Carrés moyens Fobservé
variation carrés liberté
Modèle 88 4 22 5
Erreur 66 15 4.4
Total 154 19
Sous H 0 : τ 1 = τ 2 = ... = τ a = 0
SCT
~ χ N2 −1
σ 2
SCM
~ χ a2−1
σ 2
SCE
~ χ N2 −a
σ 2
SCM SCE
Les variables et étant indépendantes alors
σ 2
σ 2
SCM σ 2 × (a − 1) SCM (a − 1)
F= = ~ Fa −1, N −a
SCE σ 2 × ( N − a ) SCE ( N − a )
14
La loi de Fisher est tabulée aux pages 551 à 555 du livre de référence.
H0 : μ1 = μ2 = … = μa vs H1 : au moins deux des moyennes μi ne sont pas égales.
SCM ( a − 1)
Sous H 0 : Fobservé = ;
SCE ( N − a )
on rejette H 0 au seuil α si Fobservé ≥ Fα ,a −1, N −a .
Exemple : Consommation d’essence des modèles de voiture
Sous H 0 : Fobservé = 5 . F0.05 , 4 ,15 = 3.055
On rejette donc H 0 au seuil de 5 %, car Fobservé > F0.05 , 4 ,15 (5 > 3.055).
Ainsi, les modèles de voiture diffèrent quant à leur consommation d’essence.
15
Comparaisons multiples :
On calcule d’abord la plus petite différence significative.
PPDS = tα / 2 , N −a 2 × MCE n
On ordonne en croissance les moyennes des traitements.
On déclare significativement différentes les moyennes dont l’écart est supérieur à la
PPDS.
Exemple : La consommation d’essence
Pour α = 0.05, PPDS = t0.025,15 2 × 4.4 / 4 = 3.16
On écrit en ordre croissant les 5 moyennes :
y A yD yE yB yC
22 23 23 24 28
On déclare significativement différentes les moyennes dont l' écart est supérieur à la PPDS.
16
On constate que :
μA < μC
μD < μC
μE < μC
μB < μC
Seule la marque Toyota a une consommation d’essence différente des autres marques
d’automobiles.
Ainsi, nous avons les comparaisons multiples suivantes :
A D E B C
22 23 23 24 28
Notons qu’une ligne droite lie les moyennes qui ne sont pas significativement
différentes les unes des autres.
17
5. Validation du Modèle
2 hypothèses à vérifier :
• Normalité des erreurs
• Homogénéité des variances
Nous avons le modèle suivant :
Yij = µ + τ i + ε ij avec ε ij iid N (0 , σ 2 )
On vérifie ces hypothèses au moyen des résidus.
Résidu : eij = y ij − y i•
Exemple :
Marque 1 2 3 4 n y i• eij
A 22 23 22 21 4 22 0 1 0 -1
B 23 26 25 22 4 24 -1 2 1 -2
C 26 28 27 31 4 28 -2 0 -1 3
D 25 23 20 24 4 23 2 0 -3 1
E 23 27 22 20 4 23 0 4 -1 -3
18
Vérification de la normalité :
Cette vérification s’effectue par un diagramme en boîte ou par un histogramme des
résidus.
Histogramme
Valeurs -3 -2 -1 0 1 2 3 4
Fréquence 2 2 4 5 3 2 1 1
5
4
3 Il n’y a pas de problème avec la normalité
car la distribution des résidus est assez
2 symétrique et possède un seul maximum.
1
− 3 − 2 −1 0 1 2 3 4 5
19
Vérification de l’homogénéité des variances
eij
•
•
• •
1 • • •
0 • • •
22 23 28 y i•
−1 • • • •
• •
•
Étant donné que la distribution des points est assez symétrique autour de l’axe des x,
on peut conclure qu’il n’y a pas de problème d’homogénéité.
20
Cas où il y a hétérogénéité
Yi ~ N (µi , σ i2 ) avec i = 1, 2, ..., a
eij
eij •
•
• • • • •
• • • • • •
• •
• • • • • • • • • • • •
0
• •• • • • • y i• 0
• • • • • •• y i•
• • • • • •
• •• • •
La variance augmente avec la catégorie La variance est inégale
(tendance)
Transformations pour stabiliser la variance lorsque les points représentent une tendance
systématique :
Yij∗ = Yij ou Yij∗ = ln (Yij )
21