0% ont trouvé ce document utile (0 vote)
67 vues24 pages

ANOVA: Comparaison de Moyennes Observées

Ce document présente les analyses de variance (ANOVA) pour comparer les moyennes de plusieurs échantillons. Il définit les termes utilisés, les conditions requises, et décrit le test statistique réalisé, incluant le calcul des sommes des carrés, le tableau d'ANOVA, et l'interprétation de la statistique F.
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
67 vues24 pages

ANOVA: Comparaison de Moyennes Observées

Ce document présente les analyses de variance (ANOVA) pour comparer les moyennes de plusieurs échantillons. Il définit les termes utilisés, les conditions requises, et décrit le test statistique réalisé, incluant le calcul des sommes des carrés, le tableau d'ANOVA, et l'interprétation de la statistique F.
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

L ES ANALYSES DE VARIANCE (ANOVA)

C OMPARAISON DE PLUSIEURS MOYENNES OBSERVÉES

Benchikh Tawfik

Faculté de Médecine, UDL, SBA


1ère année Médecine

20 Mars 2024

B ENCHIKH TAWFIK B IOSTATISTIQUE


P LAN DU COURS

1 A NALYSE DE VARIANCE À UN FACTEUR

2 EXERCICE

B ENCHIKH TAWFIK B IOSTATISTIQUE


O BJECTIF DE LA ANOVA

La problématique de l’ANOVA consiste à utiliser les moyennes


observées sur les échantillons pour conclure à des différences
significatives sur les moyennes dans les sous-populations.

Il s’agit d’un test statistique permettant de comparer les moyennes


de plusieurs variables aléatoires indépendantes gaussiennes de
même variance.
O BJECTIF DE L’ANOVA

L’objectif de ANOVA: étudier l’effet des variables qualitatives sur


une variable quantitative.
On applique l’ANOVA (des modèles factoriels) quand on dispose:
d’une variable quantitative à expliquer,
d’une ou de plusieurs variables qualitatives explicatives, appelées
facteurs.
E XEMPLE

21 candidats, 3 examinateurs (resp. 6,8 et 7 étudiants)

Examinateur A B C
Notes 10 , 11 , 11 8 , 11 , 11 , 13 10 , 13 , 14 , 14
12 , 13 , 15 14 , 15 , 15 , 16 15 , 16 , 16
Effectis 6 8 7
Moyenne 12 13 14

Quelles est l’"effet d’examinateur" sur les notes des étudiants ?


T ERMINOLOGIE

1 facteur (variable qualitative): prend un nombre fini de modalités


(une classe). Il est totalement contrôlé( fixées par
l’expérimentateur).
Exemple: facteur "examinateur".
2 niveau: les différentes valeurs prises par un facteur (les modalités).

Exemple: niveaux A, B, C.

3 test de l’effet d’un facteur: tester si les moyennes des populations


sont égales.
4 La variable étudiée: Y, à valeurs numériques. Nous l’appelons la
réponse (response). Dans l’exemple: Y =(Note).
N OTATIONS ET LES D ONNÉES

1 Pour les observations nous utilisons deux indices:


le premier indice indique le numéro du groupe dans la population
(exemple: "Examinateur"),
le second indice indique le numéro de l’observation dans
l’échantillon.

2 Pour le premier indice, nous utilisons i (ou encore i0 ,i00 ,i1 ,i2 ).
3 Pour le second indice, nous utilisons j (ou encore j0 ,j00 ,j1 ,j2 ).
N OTATIONS ET LES DONNÉES
1 Ainsi les observations sont en général notées par:

yij ; i = 1, . . . , k et j = 1, . . . , ni

où i est l’indice du groupe (où de l’échantillon) définie par le facteur


explicatif (niveau), et I = {i = 1, . . . , k} (le nombre d’échantillons),
ni le nombre d’expériences dans le groupe i (taille des échantillons).

2 Définition: Lorsque les échantillons sont de même taille, nous


disons que l’expérience est équilibrée.
3 Si les tailles des échantillons sont différentes, alors elles sont
notées comme précedemment par: ni ,où i = 1, . . . , k.
N OTATIONS ET LES D ONNÉES : RÉSUMÉ

1 Un seul facteur F
2 k niveaux
3 k échantillons de tailles respectives n1 ,. . . ,nk .
k
X
4 Effectif total n = ni .
i=1
5 A chaque expérience, on mesure la valeur de la variable Y.
D ONNÉES

1 Données sous forme d’un tableau:

Niveau (Population) Nombre d’observation (Effectif) Valeurs de Y


1 n1 y11 , y12 , . . . , y1n1
2 n2 y21 , y22 , . . . , y2n2
.. ..
. . ...
k nk yk1 , yk2 , . . . , yknk
L ES D ONNÉES

1 Moyennes empiriques (moyenne dans chaque classe):


ni
X
Yij
j=1
Pour niveaux i : Yi. = ni .
2 Moyenne globale
ni
k X
X
Y.. = Yij .
i=1 j=1
Xk X ni
1
Y.. = n Yij .
i=1 j=1
C ONDITIONS DE TEST

1 les k échantillons sont indépendants.


2 Les yij sont des réalisations de la v.a. Yij N (mi , σ 2 ).
3 Yij et Yts indépendantes pour i 6= t et j 6= s.
4 L’écart-type (théorique) est le même pour tous les niveaux.
5 La moyenne (théorique) peut varier avec le niveau.
6 On veut savoir si les moyennes mi sont toutes égales ou non.
E STIMATION DES PARAMÈTRES

Sous l’hypothèse de normalité et d’indépendance des échantillons,


1 Yi. est un estimateur sans biais de mi et

σ2
m̂i = Yi. N (mi , ).
ni

2 L’estimateur de σ 2 est:
k ni
0 1 XX
Sn2 = (Yij − Yi. )2 .
n−k
i=1 j=1
T EST DE COMPARAISON DES MOYENNES

L’ANOVA consiste à construire le test d’hypothèse suivant:



 H0 : toutes les moyennes sont identiques
 H : au moins une des moyennes est différente des autres .
1


 H0 : m1 = m2 = . . . = mk = m

 H : ∃ i , j ∈ {1, . . . , k} tels que m 6= m .
1 i j
T EST DE COMPARAISON DES MOYENNES
ni
k X
X
La variabilité totale est: (Yij − Y.. )2 .
i=1 j=1
On peut écrire: Yij − Y.. = (Yij − Yi. ) + (Yi. − Y.. ) .

et on obtient:
X ni
k X X ni
k X k
X
2 2
(Yij − Y.. ) = (Yij − Yi. ) + ni (Yi. − Y.. )2
i=1 j=1 i=1 j=1 i=1

Variabilité totale = variabilité résiduelle + variabilité due au


modèle: SST = SSR + SSL .

SSL est la somme des carrés inter-groupes et SSR est la somme


des carrés intra-groupes.
T EST DE COMPARAISON DES MOYENNES : C ALCULS

On obtient:
k
X
SSL = SCR = ni (Yi. )2 − n(Y.. )2 ,
i=1

X ni
k X k
X
SSR = SCF = (Yij )2 − ni (Yi. )2 ,
i=1 j=1 i=1
T EST DE COMPARAISON DES MOYENNES

Pour tester l’hypothèse H0 on utilise la statistique:

SSL/(k − 1)
F= ∼ F(k − 1, n − k) (sous H0 )
SSR/(n − k)

est une réalisation d’une variable aléatoire F qui suit une loi de
Fisher à (k − 1) degrés de liberté au numérateur et (n − k) degrés
de liberté au dénominateur.

Pour un risque α fixé,la zone d’acceptation est: [0, f(k−1,n−k,1−α) ].


TABLEAU D ’ ANALYSE DE VARIANCE : L OGICIEL

Le tableau de variation donne un résumé des calculs effectués pour


l’analyse de variance.

Source Dégres Somme Carrés F p − value


de variation de liberté des carrés moyens
Expliqué (facteur) k−1 SLL(SCF) SLL/(k − 1) = CMF F = CMF/CMR
Résidus n−k SSR(SCR) SSR/(n − k) = CMR
Total n−1 SST(SCT)
T EST DE COMPARAISON DES MOYENNES : E XEMPLE

Yij = mi + εij avec i = 1; 2; 3; j = 1; . . . ; ni ; n1 = 6, n2 = 8, n3 = 7.

H0 : pas d’effet examinateur sur la notation.

H0 : m1 = m2 = m3 = m contre H1 : ∃i 6= j tel que mi 6= mj .

On obtient SSL = 12.95 et SSR = 98.


SSL/(3−1)
Donc fcal = SSR/(21−3) = 1.19.

La zone d’acceptation est [0, f(k−1,n−k,1−α) ] = [0, 3.55]: fth = 3.55.

Donc H0 est accepter: les examinateurs ont le même système de


notation.
T EST DE COMPARAISON DES MOYENNES : R EMARQUE
Le rejet de l’hypothèse d’égalité des moyennes ne signifie pas que
tous les mi sont différents entre eux.

On cherche souvent à tester l’égalité entre deux moyennes:

H0 : mh = mj contre H1 : mh 6= mj .

On utilise la statistique de test:

|Yh. − Yj. |
T=q q
SSR 1 1
n−k nh + nj

(tn−k : loi de Student à n − k degrés de liberté.)

La zone d’acceptation [−tn−k;1−α/2 , tn−k;1−α/2 ].


ANOVA: E XERCICE

On veut étudier l’effet de deux médicaments sur le taux de


lymphocytes d’animaux de laboratoires.

On construit un plan factoriel dans lequel il y a trois groupes


d’animaux d’effctifs 10 animaux par groupe.

On garde un des groupes comme témoin et l’on administre les


médicaments A et B aux deux autres groupes.

Groupe témoin 272 , 193 , 432 259; 386; 349; 320, 247; 260; 478
Groupe traité par A 468 , 383 , 375 , 398, 534; 451; 474; 278, 255; 528
Groupe traité par B 368 , 290 , 325 , 298, 314; 350; 378; 321, 275; 401
E XERCICE

Les données correspondent au modèle d’ANOVA: une variable de


groupe, une variable continue dont on veut comparer les moyennes.
P P
Indications numériques : j x1,j = 3196, j x2,j = 4094,
P
j x3,j = 3320 (somme de chaque ligne).
E XERCICE

La taille globale des 3 échantillon est:


(A) 10 (B) 20 (C) 30 (D) 40 (E) 60.

La moyenne globale est :


(A)256.67 (B)353.34 (C)415.33 (D)435.96 (E)563.75.

la variabilité expliqué SSL est:


(A)47361.9 (B)51426.85 (C)54211.17 (D)62516.54 (E)65785.76.
E XERCICE
Quelle sont les degrés de liberté:
(A) (2, 30) (B) (2, 27) (C) (3, 27) (D) (3, 30) (E) (29, 2).
Quelle est la valeurs de la statistique calculée F sachant que
SSR = 176130:(A) 3.63 (B) 2.42 (C) 4.003 (D) 2.689 (E) 6.84
la valeurs de la statistique théorique F:(niveau de confiance = 95%)
(A) 2.96 (B) 2.922 (C) 3.354 (D) 4.61 (E) 12.59
A quoi correspond le risque alpha ? (A.) à la probabilité de conclure
à une différence significative. (B.) à la probabilité de conclure à tort
à une absence de différence significative. (C.) à la probabilité de ne
pas conclure H1 alors que H1 est vraie. (D.) à la probabilité
d’accepter H0 alors que H0 est vraie. (E.) à la probabilité de
rejeter H0 alors que H0 est vraie.

Vous aimerez peut-être aussi