0% ont trouvé ce document utile (0 vote)
65 vues21 pages

12 Anova

L'analyse de variance (ANOVA) est une méthode statistique utilisée pour comparer les moyennes de plusieurs populations afin de déterminer si elles sont significativement différentes. Le document présente les concepts fondamentaux de l'ANOVA, y compris les hypothèses, le modèle, la table d'analyse de variance, et les validations nécessaires pour assurer la normalité et l'homogénéité des variances. Des exemples pratiques illustrent l'application de l'ANOVA dans divers contextes, tels que la comparaison de la performance d'ordinateurs ou l'efficacité de médicaments.

Transféré par

Clara Bamouni
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
65 vues21 pages

12 Anova

L'analyse de variance (ANOVA) est une méthode statistique utilisée pour comparer les moyennes de plusieurs populations afin de déterminer si elles sont significativement différentes. Le document présente les concepts fondamentaux de l'ANOVA, y compris les hypothèses, le modèle, la table d'analyse de variance, et les validations nécessaires pour assurer la normalité et l'homogénéité des variances. Des exemples pratiques illustrent l'application de l'ANOVA dans divers contextes, tels que la comparaison de la performance d'ordinateurs ou l'efficacité de médicaments.

Transféré par

Clara Bamouni
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Probabilités et statistique

Analyse de la variance
Module 12
Plan

• Introduction

• Comparaison de plusieurs moyennes

• Modèle

• Table d’analyse de la variance

• Validation du modèle

2
1. Introduction
L’analyse de variance permet de comparer simultanément les moyennes d’une
variable dans plusieurs populations, en général normales et de même variance.

Exemples :

Un informaticien a 7 modèles d’ordinateurs qu’il désire comparer du point de vue de la


performance.

Un médecin dispose de 3 médicaments servant à guérir une maladie. Il désire savoir


s’ils sont équivalents ou si l’un d’entre eux guérit plus rapidement que les autres.

Un directeur de magasin d’appareils électroniques est intéressé à comparer 4 méthodes


de publicité. Il veut savoir si ces méthodes sont équivalentes ou si l’une d’elles amène
plus de clients que les autres.

3
2. Comparaison de plusieurs moyennes
a) Yi ~ N(μi, σ2) avec i = 1, 2, …, a

On suppose a populations indépendantes.

Prenons a échantillons de même taille (cas balancé), un pour chaque population à


l’étude :
Population 1 : ( y11 , y12 , ... , y1n )
(
Population 2 : y21 , y22 , ... , y2 n )
...
Population a : (y a1
, ya 2 , ... , yan )

Voici la moyenne des observations pour le traitement i et la moyenne générale de


toutes les observations : n
yi. = ∑ yij ⇒ y i. = yi. / n
j =1
a n
y.. = ∑∑ yij ⇒ y .. = y.. / N
i =1 j =1

4
b) Hypothèses

Soit H0 : μ1 = μ2 = … = μa vs H1 : Au moins deux des moyennes μi ne sont pas égales.

Exemple :

On veut comparer 5 modèles de voitures par rapport à leur consommation d’essence.

Sont-elles équivalentes ? Laquelle est meilleure ?

Marque 1 2 3 4
A Chrysler 22 23 22 21
B Volkswagen 23 26 25 22
C Toyota 26 28 27 31
D Honda 25 23 20 24
E BMW 23 27 22 20

5
c) Vocabulaire :

Soit Y, la variable réponse

Exemple : la consommation d’essence

Facteur : Ce qui différencie les populations ou les traitements

Exemple : le modèle ou la marque

Unité expérimentale : Individu ou objet sur lequel la variable réponse est mesurée.

Exemple : automobile

Plan d’expérience : Procédure permettant d’attribuer les traitements aux unités

expérimentales.

6
d) Notation

Soit yij : j e observation du i e traitement


Exemple (à partir de la diapositive 5) : y21 = 23 , y34 = 31 etc …
.
Exemple :

y3• 112
y3• = 26 + 28 + 27 + 31 = 112 ⇒. y3 = = = 28
4 4
a
Nombre total d' observations : N = ∑ n = an
i =1

Variabilité totale : SCT = ∑ ∑ ( yij − y •• )


a n
2

i =1 j =1

7
3. Modèle

Soit le modèle suivant :


Yij = μ + τi + εij

où yij : jème observation prise lors du traitement i


μ : paramètre commun à tous les traitements, appelé moyenne générale
τi : paramètre associé au ième traitement
εij : composante (erreur) aléatoire

Ainsi, Yij ~ N(μ + τi, σ2), i = 1, 2, …, a, j = 1, 2, …, n.


a

Contrainte pour le cas balancé: ∑τ = 0


i =1
i

8
Exemple :
Soit 3 populations (toutes de loi Normale) : N(μ1, σ2), N(μ2, σ2), N(μ3, σ2).
n1 = n2 = n3 = 6
Y1 j ~ N( 7 , σ 2 )
Y2 j ~ N( 12 , σ 2 )
Y3 j ~ N( 5 , σ 2 ) j = 1,2 ,...,6

Yij = μ + τ i + εij i = 1,2 ,3

7 + 12 + 5
µ= =8
3
τ 1 = 7 − 8 = −1
τ = 12 − 8 = 4
2

τ = 5 − 8 = −3
3

∑τ = −1 + 4 − 3 = 0 ⇒ contrainte pour le cas balancé


3

i
i =1

9
Hypothèse nulle :

H 0 : µ1 = µ 2 = ... = µ a ⇔ H 0 : τ 1 = τ 2 = ... = τ a

Partition de la somme des carrés :

∑ ∑ (y − y ) = ∑ n( y i• − y •• ) + ∑ ∑ ( yij − y i )
a n 2 a 2 a n 2

ij ••
i =1 j =1 i =1 i =1 j =1

Variation totale de Y Variation de Y Variation de Y


expliquée par les inexpliquée par
traitements les traitements
(modèle)

SCT = SCM + SCE

SCT : Somme des carrés totale


SCM : Somme des carrés due au modèle
SCE : Somme des carrés des erreurs
10
4. Table d’analyse de la variance (ANOVA)

Source de Somme des Degrés de Carrés moyens Fobservé


variation carrés liberté

Modèle SCM a–1 MCM = SCM/(a – 1) MCM/MCE

Erreur SCE N–a MCE = SCE/(N – a)

Totale SCT N–1

Sous H0, nous avons :

MCM SCM /( a − 1)
F= = ~ Fa −1, N −a
MCE SCE /( N − a )

11
Exemple :

∑ (y − y )
n ni

∑y
2
Marque 1 2 3 4 n n ( y i • − y •• )
2
y i• 2
ij j =1
ij i•
j =1

A 22 23 22 21 4 22 16 1938 2
B 23 26 25 22 4 24 0 2314 10
C 26 28 27 31 4 28 64 3150 14
D 25 23 20 24 4 23 4 2130 14
E 23 27 22 20 4 23 4 2142 26
Total 20 88 11674 66

Regardons maintenant la diapositive suivante pour quelques détails sur ce tableau.

12
5
N = ∑ n = 20
i =1
5 4
y .. = ∑ ∑ yij / N = 480 / 20 = 24
i =1 j =1

yi2. y..2
5
SCM = ∑ − = 88
i =1 n N
5 4 y..2
SCT = ∑ ∑ yij − = 11674 − 480 2 / 20 = 154
2

i =1 j =1 N
SCE = SCT − SCM

À l’aide des résultats précédents, nous pouvons maintenant établir la table d’ANOVA
pour cet exemple (voir la diapositive suivante).

13
Table d’ANOVA

Source de Somme des Degrés de Carrés moyens Fobservé


variation carrés liberté
Modèle 88 4 22 5
Erreur 66 15 4.4

Total 154 19

Sous H 0 : τ 1 = τ 2 = ... = τ a = 0
SCT
~ χ N2 −1
σ 2

SCM
~ χ a2−1
σ 2

SCE
~ χ N2 −a
σ 2

SCM SCE
Les variables et étant indépendantes alors
σ 2
σ 2

SCM σ 2 × (a − 1) SCM (a − 1)
F= = ~ Fa −1, N −a
SCE σ 2 × ( N − a ) SCE ( N − a )
14
La loi de Fisher est tabulée aux pages 551 à 555 du livre de référence.

H0 : μ1 = μ2 = … = μa vs H1 : au moins deux des moyennes μi ne sont pas égales.

SCM ( a − 1)
Sous H 0 : Fobservé = ;
SCE ( N − a )
on rejette H 0 au seuil α si Fobservé ≥ Fα ,a −1, N −a .

Exemple : Consommation d’essence des modèles de voiture

Sous H 0 : Fobservé = 5 . F0.05 , 4 ,15 = 3.055


On rejette donc H 0 au seuil de 5 %, car Fobservé > F0.05 , 4 ,15 (5 > 3.055).

Ainsi, les modèles de voiture diffèrent quant à leur consommation d’essence.

15
Comparaisons multiples :

On calcule d’abord la plus petite différence significative.

PPDS = tα / 2 , N −a 2 × MCE n

On ordonne en croissance les moyennes des traitements.


On déclare significativement différentes les moyennes dont l’écart est supérieur à la
PPDS.

Exemple : La consommation d’essence


Pour α = 0.05, PPDS = t0.025,15 2 × 4.4 / 4 = 3.16
On écrit en ordre croissant les 5 moyennes :
y A yD yE yB yC
22 23 23 24 28
On déclare significativement différentes les moyennes dont l' écart est supérieur à la PPDS.

16
On constate que :
μA < μC
μD < μC
μE < μC
μB < μC

Seule la marque Toyota a une consommation d’essence différente des autres marques
d’automobiles.

Ainsi, nous avons les comparaisons multiples suivantes :

A D E B C
22 23 23 24 28

Notons qu’une ligne droite lie les moyennes qui ne sont pas significativement
différentes les unes des autres.
17
5. Validation du Modèle
2 hypothèses à vérifier :
• Normalité des erreurs
• Homogénéité des variances

Nous avons le modèle suivant :

Yij = µ + τ i + ε ij avec ε ij iid N (0 , σ 2 )


On vérifie ces hypothèses au moyen des résidus.
Résidu : eij = y ij − y i•

Exemple :

Marque 1 2 3 4 n y i• eij
A 22 23 22 21 4 22 0 1 0 -1
B 23 26 25 22 4 24 -1 2 1 -2
C 26 28 27 31 4 28 -2 0 -1 3
D 25 23 20 24 4 23 2 0 -3 1
E 23 27 22 20 4 23 0 4 -1 -3

18
Vérification de la normalité :
Cette vérification s’effectue par un diagramme en boîte ou par un histogramme des
résidus.

Histogramme
Valeurs -3 -2 -1 0 1 2 3 4
Fréquence 2 2 4 5 3 2 1 1

5
4
3 Il n’y a pas de problème avec la normalité
car la distribution des résidus est assez
2 symétrique et possède un seul maximum.
1

− 3 − 2 −1 0 1 2 3 4 5

19
Vérification de l’homogénéité des variances
eij


• •
1 • • •
0 • • •
22 23 28 y i•
−1 • • • •
• •

Étant donné que la distribution des points est assez symétrique autour de l’axe des x,
on peut conclure qu’il n’y a pas de problème d’homogénéité.

20
Cas où il y a hétérogénéité

Yi ~ N (µi , σ i2 ) avec i = 1, 2, ..., a

eij
eij •

• • • • •
• • • • • •
• •
• • • • • • • • • • • •
0
• •• • • • • y i• 0
• • • • • •• y i•
• • • • • •
• •• • •
La variance augmente avec la catégorie La variance est inégale
(tendance)

Transformations pour stabiliser la variance lorsque les points représentent une tendance
systématique :
Yij∗ = Yij ou Yij∗ = ln (Yij )
21

Vous aimerez peut-être aussi