L ES ANALYSES DE VARIANCE (ANOVA)
C OMPARAISON DE PLUSIEURS MOYENNES OBSERVÉES
Benchikh Tawfik
Faculté de Médecine, UDL, SBA
1ère année Médecine
20 Mars 2024
B ENCHIKH TAWFIK B IOSTATISTIQUE
P LAN DU COURS
1 A NALYSE DE VARIANCE À UN FACTEUR
2 EXERCICE
B ENCHIKH TAWFIK B IOSTATISTIQUE
O BJECTIF DE LA ANOVA
La problématique de l’ANOVA consiste à utiliser les moyennes
observées sur les échantillons pour conclure à des différences
significatives sur les moyennes dans les sous-populations.
Il s’agit d’un test statistique permettant de comparer les moyennes
de plusieurs variables aléatoires indépendantes gaussiennes de
même variance.
O BJECTIF DE L’ANOVA
L’objectif de ANOVA: étudier l’effet des variables qualitatives sur
une variable quantitative.
On applique l’ANOVA (des modèles factoriels) quand on dispose:
d’une variable quantitative à expliquer,
d’une ou de plusieurs variables qualitatives explicatives, appelées
facteurs.
E XEMPLE
21 candidats, 3 examinateurs (resp. 6,8 et 7 étudiants)
Examinateur A B C
Notes 10 , 11 , 11 8 , 11 , 11 , 13 10 , 13 , 14 , 14
12 , 13 , 15 14 , 15 , 15 , 16 15 , 16 , 16
Effectis 6 8 7
Moyenne 12 13 14
Quelles est l’"effet d’examinateur" sur les notes des étudiants ?
T ERMINOLOGIE
1 facteur (variable qualitative): prend un nombre fini de modalités
(une classe). Il est totalement contrôlé( fixées par
l’expérimentateur).
Exemple: facteur "examinateur".
2 niveau: les différentes valeurs prises par un facteur (les modalités).
Exemple: niveaux A, B, C.
3 test de l’effet d’un facteur: tester si les moyennes des populations
sont égales.
4 La variable étudiée: Y, à valeurs numériques. Nous l’appelons la
réponse (response). Dans l’exemple: Y =(Note).
N OTATIONS ET LES D ONNÉES
1 Pour les observations nous utilisons deux indices:
le premier indice indique le numéro du groupe dans la population
(exemple: "Examinateur"),
le second indice indique le numéro de l’observation dans
l’échantillon.
2 Pour le premier indice, nous utilisons i (ou encore i0 ,i00 ,i1 ,i2 ).
3 Pour le second indice, nous utilisons j (ou encore j0 ,j00 ,j1 ,j2 ).
N OTATIONS ET LES DONNÉES
1 Ainsi les observations sont en général notées par:
yij ; i = 1, . . . , k et j = 1, . . . , ni
où i est l’indice du groupe (où de l’échantillon) définie par le facteur
explicatif (niveau), et I = {i = 1, . . . , k} (le nombre d’échantillons),
ni le nombre d’expériences dans le groupe i (taille des échantillons).
2 Définition: Lorsque les échantillons sont de même taille, nous
disons que l’expérience est équilibrée.
3 Si les tailles des échantillons sont différentes, alors elles sont
notées comme précedemment par: ni ,où i = 1, . . . , k.
N OTATIONS ET LES D ONNÉES : RÉSUMÉ
1 Un seul facteur F
2 k niveaux
3 k échantillons de tailles respectives n1 ,. . . ,nk .
k
X
4 Effectif total n = ni .
i=1
5 A chaque expérience, on mesure la valeur de la variable Y.
D ONNÉES
1 Données sous forme d’un tableau:
Niveau (Population) Nombre d’observation (Effectif) Valeurs de Y
1 n1 y11 , y12 , . . . , y1n1
2 n2 y21 , y22 , . . . , y2n2
.. ..
. . ...
k nk yk1 , yk2 , . . . , yknk
L ES D ONNÉES
1 Moyennes empiriques (moyenne dans chaque classe):
ni
X
Yij
j=1
Pour niveaux i : Yi. = ni .
2 Moyenne globale
ni
k X
X
Y.. = Yij .
i=1 j=1
Xk X ni
1
Y.. = n Yij .
i=1 j=1
C ONDITIONS DE TEST
1 les k échantillons sont indépendants.
2 Les yij sont des réalisations de la v.a. Yij N (mi , σ 2 ).
3 Yij et Yts indépendantes pour i 6= t et j 6= s.
4 L’écart-type (théorique) est le même pour tous les niveaux.
5 La moyenne (théorique) peut varier avec le niveau.
6 On veut savoir si les moyennes mi sont toutes égales ou non.
E STIMATION DES PARAMÈTRES
Sous l’hypothèse de normalité et d’indépendance des échantillons,
1 Yi. est un estimateur sans biais de mi et
σ2
m̂i = Yi. N (mi , ).
ni
2 L’estimateur de σ 2 est:
k ni
0 1 XX
Sn2 = (Yij − Yi. )2 .
n−k
i=1 j=1
T EST DE COMPARAISON DES MOYENNES
L’ANOVA consiste à construire le test d’hypothèse suivant:
H0 : toutes les moyennes sont identiques
H : au moins une des moyennes est différente des autres .
1
H0 : m1 = m2 = . . . = mk = m
⇔
H : ∃ i , j ∈ {1, . . . , k} tels que m 6= m .
1 i j
T EST DE COMPARAISON DES MOYENNES
ni
k X
X
La variabilité totale est: (Yij − Y.. )2 .
i=1 j=1
On peut écrire: Yij − Y.. = (Yij − Yi. ) + (Yi. − Y.. ) .
et on obtient:
X ni
k X X ni
k X k
X
2 2
(Yij − Y.. ) = (Yij − Yi. ) + ni (Yi. − Y.. )2
i=1 j=1 i=1 j=1 i=1
Variabilité totale = variabilité résiduelle + variabilité due au
modèle: SST = SSR + SSL .
SSL est la somme des carrés inter-groupes et SSR est la somme
des carrés intra-groupes.
T EST DE COMPARAISON DES MOYENNES : C ALCULS
On obtient:
k
X
SSL = SCR = ni (Yi. )2 − n(Y.. )2 ,
i=1
X ni
k X k
X
SSR = SCF = (Yij )2 − ni (Yi. )2 ,
i=1 j=1 i=1
T EST DE COMPARAISON DES MOYENNES
Pour tester l’hypothèse H0 on utilise la statistique:
SSL/(k − 1)
F= ∼ F(k − 1, n − k) (sous H0 )
SSR/(n − k)
est une réalisation d’une variable aléatoire F qui suit une loi de
Fisher à (k − 1) degrés de liberté au numérateur et (n − k) degrés
de liberté au dénominateur.
Pour un risque α fixé,la zone d’acceptation est: [0, f(k−1,n−k,1−α) ].
TABLEAU D ’ ANALYSE DE VARIANCE : L OGICIEL
Le tableau de variation donne un résumé des calculs effectués pour
l’analyse de variance.
Source Dégres Somme Carrés F p − value
de variation de liberté des carrés moyens
Expliqué (facteur) k−1 SLL(SCF) SLL/(k − 1) = CMF F = CMF/CMR
Résidus n−k SSR(SCR) SSR/(n − k) = CMR
Total n−1 SST(SCT)
T EST DE COMPARAISON DES MOYENNES : E XEMPLE
Yij = mi + εij avec i = 1; 2; 3; j = 1; . . . ; ni ; n1 = 6, n2 = 8, n3 = 7.
H0 : pas d’effet examinateur sur la notation.
H0 : m1 = m2 = m3 = m contre H1 : ∃i 6= j tel que mi 6= mj .
On obtient SSL = 12.95 et SSR = 98.
SSL/(3−1)
Donc fcal = SSR/(21−3) = 1.19.
La zone d’acceptation est [0, f(k−1,n−k,1−α) ] = [0, 3.55]: fth = 3.55.
Donc H0 est accepter: les examinateurs ont le même système de
notation.
T EST DE COMPARAISON DES MOYENNES : R EMARQUE
Le rejet de l’hypothèse d’égalité des moyennes ne signifie pas que
tous les mi sont différents entre eux.
On cherche souvent à tester l’égalité entre deux moyennes:
H0 : mh = mj contre H1 : mh 6= mj .
On utilise la statistique de test:
|Yh. − Yj. |
T=q q
SSR 1 1
n−k nh + nj
(tn−k : loi de Student à n − k degrés de liberté.)
La zone d’acceptation [−tn−k;1−α/2 , tn−k;1−α/2 ].
ANOVA: E XERCICE
On veut étudier l’effet de deux médicaments sur le taux de
lymphocytes d’animaux de laboratoires.
On construit un plan factoriel dans lequel il y a trois groupes
d’animaux d’effctifs 10 animaux par groupe.
On garde un des groupes comme témoin et l’on administre les
médicaments A et B aux deux autres groupes.
Groupe témoin 272 , 193 , 432 259; 386; 349; 320, 247; 260; 478
Groupe traité par A 468 , 383 , 375 , 398, 534; 451; 474; 278, 255; 528
Groupe traité par B 368 , 290 , 325 , 298, 314; 350; 378; 321, 275; 401
E XERCICE
Les données correspondent au modèle d’ANOVA: une variable de
groupe, une variable continue dont on veut comparer les moyennes.
P P
Indications numériques : j x1,j = 3196, j x2,j = 4094,
P
j x3,j = 3320 (somme de chaque ligne).
E XERCICE
La taille globale des 3 échantillon est:
(A) 10 (B) 20 (C) 30 (D) 40 (E) 60.
La moyenne globale est :
(A)256.67 (B)353.34 (C)415.33 (D)435.96 (E)563.75.
la variabilité expliqué SSL est:
(A)47361.9 (B)51426.85 (C)54211.17 (D)62516.54 (E)65785.76.
E XERCICE
Quelle sont les degrés de liberté:
(A) (2, 30) (B) (2, 27) (C) (3, 27) (D) (3, 30) (E) (29, 2).
Quelle est la valeurs de la statistique calculée F sachant que
SSR = 176130:(A) 3.63 (B) 2.42 (C) 4.003 (D) 2.689 (E) 6.84
la valeurs de la statistique théorique F:(niveau de confiance = 95%)
(A) 2.96 (B) 2.922 (C) 3.354 (D) 4.61 (E) 12.59
A quoi correspond le risque alpha ? (A.) à la probabilité de conclure
à une différence significative. (B.) à la probabilité de conclure à tort
à une absence de différence significative. (C.) à la probabilité de ne
pas conclure H1 alors que H1 est vraie. (D.) à la probabilité
d’accepter H0 alors que H0 est vraie. (E.) à la probabilité de
rejeter H0 alors que H0 est vraie.