0% ont trouvé ce document utile (0 vote)

116 vues13 pages

Cours

Statistique

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

116 vues13 pages

Cours

Statistique

Transféré par

gracemaelan10

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

L’Analyse de Variance à 2 Facteurs

Vincent Tolon

03 février 2023

Contents
1 Contexte 2
1.1 Quand utiliser l’ANOVA 2 ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Facteurs, modalités, traitements, répétitions . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Effets additifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.4 Interactions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2 Modélisation 5
2.1 Notion de modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2 Le modèle d’ANOVA 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.3 Le modèle d’ANOVA 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

3 Le test d’ANOVA 2 7
3.1 Hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.2 Décomposition des SCE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.3 Le tableau d’ANOVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

4 Validation interne 10
4.1 Les résidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
4.2 Les hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
4.3 Diagnostique complet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
4.4 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

5 Regroupement des moyennes 11

5.1 Le problème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
5.2 Les solutions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

6 Les tailles d’effets 13

7 La conclusion 13

8 Vers la Régression Linéaire Multiple 13

1
Nous vous présentons ici l’analyse de variance à deux facteurs (ANOVA 2). Elle s’utilise pour mesurer les
effets simultanés de deux variables qualitatives (facteurs) sur une variable réponse quantitative. Ces
effets peuvent être additifs lorsqu’ils s’ajoutent de façon indépendante, ou interactifs lorsque l’effet d’un
facteur dépendent du niveau de l’autre.

1 Contexte
1.1 Quand utiliser l’ANOVA 2 ?
• Avec 1 Facteur : ANOVA 1 = comparaisons de moyennes multiples.
• Avec 2 Facteurs et plus : ANOVA 2 = différentiation des effets des facteurs A et B.
– Effet de A ?
– Effet de B ?
– Interactions A et B ?
• Nous découvrons donc les notions d’effets additifs et interactifs.

1.2 Facteurs, modalités, traitements, répétitions

• Un facteur est une variable qualitative dont on va tester l’effet sur la variable réponse y.
• Un facteur comporte plusieurs modalités (ou niveaux). Ex : A avec p modalités et B avec q modalités.
• Les traitements correspondent aux croisements des modalités de plusieurs facteurs. Ex :
A1 B1 ; A1 B2 ... soit p × q traitements possibles.
• Chaque traitement comporte un certain nombre de répétitions qui seront ici équilibrées en ANOVA2
pour simplifier.
• On peut résumer cela dans un tableau croisé: A (3 modalités) et B (2 modalités) avec 6 répétitions.

Facteurs A1 A2 A3
B1 xxxxxx xxxxxx xxxxxx
B2 xxxxxx xxxxxx xxxxxx

• On peut aussi représenter le tableau individus-variables :

## Ind A B y
## 1 1 A1 B1 49.5
## 2 2 A1 B1 50.5
## 3 3 A1 B1 50.4
## 4 4 A2 B1 56.4
## 5 5 A2 B1 57.8
## 6 6 A2 B1 57.3
## 7 7 A1 B2 54.5
## 8 8 A1 B2 55.5
## 9 9 A1 B2 55.4
## 10 10 A2 B2 61.4
## 11 11 A2 B2 62.8
## 12 12 A2 B2 62.3

2
• Exemple de contexte :
– Une variable réponse y.
– Facteur A : 2 modalités.
– Facteur B : 2 modalités.
– Donc 2 × 2 = 4 traitements.
– 3 répétitions soit N = 12.

1.3 Effets additifs

Ces effets existent lorsque chaque modalité de A et de B ajoutent (ou retirent) une quantité vis à vis de la
moyenne générale. L’effet de A est donc indépendant de celui de B. Pour un traitement, les deux quantités
associées aux modalités de A et B s’additionnent (ex: la moyenne de A1B1 correspond à l’addition de l’effet
de A1 et de celui de B1). Imaginons des plantes de taille moyenne égale à 40 cm tous facteurs confondus. Il
existe néanmoins deux variétés ayant des capacités de croissances différentes (+10 cm pour l’une et -10 cm
pour l’autre par rapport à la moyenne générale) puis l’effet d’un engrais modifiant la croissance (+10 cm
avec et -10 cm sans). La taille moyenne des plantes sera donc en théorie :
• plante à croissance rapide avec engrais: 60cm = 40+10+10.
• plante à croissance rapide sans engrais: 40cm = 40+10-10.
• plante à croissance lente avec engrais: 40cm = 40-10+10.
• plante à croissance lente sans engrais: 20cm = 40-10-10.
Graphiquement en cas d’effets additifs uniques nous obtenons pour un facteur des profils de moyennes qui
semblent identiques mais placés à différentes hauteurs suivant le niveau de l’autre facteur (graphique ne
correspondant pas à l’exemple sur les plantes).

62 yA2B2
60 Effet de B
58
yA2B1
y

56
yA1B2
54
Effet de B Effet de A
52
50 yA1B1

A1 A2

Figure 1: Exemple d’effets additifs

On peut voir ici un effet de A, puis un effet de B qui se répercute de manière identique au sein de A1 et A2
(Fig. 1). Nous aurions pu aussi construire avec les mêmes données un graphique représentant d’abord l’effet
de B puis l’effet de A au sein de B.

1.4 Interactions
On parle d’interaction lorsque l’effet d’un facteur dépend du niveau de l’autre. En reprenant notre exemple
on pourrait imaginer que l’effet de l’engrais sera inexistant pour la plante ayant déjà une croissance rapide
(elle trouve déjà tout ce qu’il lui faut) alors que l’engrais influencera fortement la plante à croissance lente qui
ne pourra atteindre son maximum de croissance qu’en cas de fertilisation. En reprenant les calculs précédant
et en ajoutant un terme (en gras) nous obtiendrions :

3
• plante à croissance rapide avec engrais: 50cm = 40+10+10-10.
• plante à croissance rapide sans engrais: 50cm = 40+10-10+10.
• plante à croissance lente avec engrais: 50cm = 40-10+10+10.
• plante à croissance lente sans engrais: 10cm = 40-10-10-10.
Graphiquement en cas d’effets interactifs nous obtenons pour un facteur des profils de moyennes qui ne sont
pas identiques (croisements, inversions, accentuations. . . ) suivant les niveaux de l’autre facteur (Fig. 2,
graphique ne correspondant pas à l’exemple ci-dessus). Notons que dans ce graphique les interactions ont
été rassemblées d’un seul coté en prenant le niveau A1B1 comme référence (voir cours sur le modèle linéaire).
Nous pouvons voir tous les cas de figure possible dans la Figure 3.

75 yA2B2
Interaction AB
70

60 Effet de B
yA2B1
55 yA1B2
Effet de B Effet de A
50 yA1B1

A1 A2

Figure 2: Exemple d’effets interactif

80 100

80 100
A B AB A* B AB A B* AB A* B* AB
B3

B1B2B3 B3 B3 B2
60

y y y y
B1B2B3 B1B2B3 B2 B2 B1
y

B3
40

B1B2B3 B1 B1 B2

B1
20

A1 A2 A1 A2 A1 A2 A1 A2
80 100

80 100

x x x x
A* B AB* A B* AB* A* B* AB* A B AB*
B2 B2B3

B3 B3 B2B3 B1 B2
60

y y y y
B1 B1 B1
y

B3 B3 B3
40

B3 B2 B1 B1 B2 B1

B2 B1 B2
20

A1 A2 A1 A2 A1 A2 A1 A2
x x x x
Figure 3: Exemples d’effets additifs et/ou interactifs

4
2 Modélisation
Nous allons découvrir la notion de modèle qui nous permettra de clarifier notre raisonnement, réaliser
l’ANOVA 2 et, plus tard, étendre cette approche sur des analyses plus diversifiées encore.

2.1 Notion de modèle

Modèle : Un outil mathématique pour conceptualiser, expliquer, simplifier, estimer, prédire une réalité.
Chaque modèle explique une part de la réalité (les prédictions) autour desquelles il existe toujours des erreurs :

Observation = M odèle + erreur ≡ Y = Ŷ + ε

2.2 Le modèle d’ANOVA 1

• Modèle par les moyennes : yij = µi + εij . Ici on résume les données par l’espérance de chaque groupe.
• Autre formulation (plus pratique) :
yij = µ + αi + εij
Ici on résume les données par une espérance générale autour de laquelle des effets s’ajouteront ou se
soustrairont suivant la modalité du facteur. Les αi permettent d’isoler l’effet du facteur ce qui sera
pratique pour les futurs développements. Par exemple pour poser des hypothèses de tests :
– H0 : αi = 0
– H1 : Au moins un αi ̸= 0
Graphiquement nous obtenons :

8
µ
6
αi
4 yi µ εij yij = µ + αi + εij
2 yij

A B C

Figure 4: Visualisation du modèle d’ANOVA1

Chaque valeur correspond donc à l’addition de l’espérance générale µ de l’effet du facteur αi et du résidu
qui lui est associé εij (j étant ici la répétition, Fig. 4).

2.3 Le modèle d’ANOVA 2

2.3.1 Formulations
La modélisation permet de développer facilement l’ANOVA 2 en ajoutant simplement des termes pour les
autres facteurs et pour l’interaction :
• 1 Facteur : yij = µ + αi + εij (j étant la répétition).
• 2 Facteurs : yijk = µ + αi + βj + εijk (sans interactions, k étant la répétition).
• 2 Facteurs : yijk = µ + αi + βj + γij + εijk (avec interactions, k étant la répétition).

5
75 yijk = µ + αi + βj + γij + εijk γ22 yA2B2
β2
70
α2
65
60 β2 β1
µ γ21 yA2B1
55 γ21 yA1B2
α1 γ11
50 yA1B1
45 β1

A1 A2

Figure 5: Visualisation du modèle d’ANOVA2 avec interaction

• 3 Facteurs : yijkl = µ + αi + βj + θk + γij + ... + εijkl (l étant la répétition).

...
Notons qu’il existera ici p αi (nombre de modalités de A), q βj (nombre de modalités de B) et p × q γij
(nombre de traitements). Graphiquement nous obtenons la Figure 5.
Chaque valeur correspond donc à l’addition de l’espérance générale µ de l’effet du facteur A αi , de celui du
facteur B βj , de l’interaction γij dans chaque traitement et du résidu qui lui est associé εijk (k étant ici la
répétition, Fig. 5).
Notons que les interactions correspondent bien à la différence entre les prédictions purement additives (flèches
noires, bleues et vertes) et les moyennes observées.

2.3.2 Estimations (2 facteurs)

Par simplification nous oublierons les “ˆ” sur les estimateurs :
• µ = ȳ = moyenne générale.
• αi = ȳi − ȳ = différences entre la moyenne dans Ai et la moyenne générale.
• βj = ȳj − ȳ différences entre la moyenne dans Bj et la moyenne générale.
• γij = ȳij − (µ + αi + βj ) = différences entre la moyenne dans le traitement Ai Bj et la prédiction du
modèle purement additif.
• εijk = yijk − (µ + αi + βj + γij ) = yijk − ŷij = différences entre la valeur et la prédiction du modèle
complet (soit le ŷij ).

2.3.3 Cas des mesures non-répétées

Lorsque les données sont coûteuses à obtenir (fréquent en entreprise) il arrive que le nombre de répétition
dans un traitement soit de 1. L’estimation d’un modèle complet est possible mais dans ce cas tous les εijk
seront nuls (Fig. 6). Le modèle devient parfait, mais il devient aussi complexe que la réalité (il faudra ici 4
paramètres pour prédire 4 données) ce qui n’est pas le but en modélisation. Il sera donc impossible d’estimer
une variance résiduelle et de poursuivre l’ANOVA 2.
Nous devrions en réalité abandonner l’idée d’étudier des choses trop complexes si nous n’en avons pas les
moyens (manque de données). La solution consistera alors à simplifier le modèle en abandonnant le terme
d’interactions. Le modèle sera alors plus simple que la réalité (Fig. 6), il sera possible de poursuivre l’analyse
en estimant (sans l’interaction) :

6
yijk = µ + αi + βj + γij + 0 γ22 yA2B2 yijk = µ + αi + βj + εijk yA2B2
75 75
β2 β2
70 70
α2 α2
65 65
60 β2 β1 60 β2 β1
µ γ21 yA2B1 µ yA2B1
55 γ21 yA1B2 55 yA1B2
α1 γ11 α1
50 yA1B1 50 yA1B1
45 β1 45 β1

A1 A2 A1 A2

Figure 6: Visualisation du modèle d’ANOVA2 avec et sans interaction sur données non repetées

• µ = ȳ
• αi = ȳi − µ
• βj = ȳj − µ
• εijk = yijk − (µ + αi + βj ) = yijk − ŷij = différences entre la valeur et la prédiction du modèle sans
l’interaction (soit le ŷij ).

3 Le test d’ANOVA 2
Nous allons ici vérifier si les variations produites par le facteur A, le facteur B et leur interaction, sont
suffisamment grandes pour conclure qu’elles ne proviennent pas seulement de la fluctuation d’échantillonnage.
Cela reviendra donc à décomposer les SCE en isolant les effets additifs de A et B puis l’effet interactif AB, à
estimer des variances à partir des degrés de liberté associés, puis à les comparer à la variance résiduelle avec
un test de Fisher. La notion de modèle nous aidera à calculer de manière simple les SCE.

3.1 Hypothèses
La modélisation permet d’isoler statistiquement les effets des facteurs et de leur interaction grâce aux coef-
ficients αi , βj et γij . Il suffira alors de postuler que leur valeur est nulle pour définir les hypothèses nulles.
On obtient :
• Effet de A :
– H0 : Tous les αi = 0
– H1 : Au moins un αi ̸= 0
• Effet de B :
– H0 : Tous les βj = 0

– H1 : Au moins un βj ̸= 0
• Interaction AB :
– H0 : Tous les γij = 0
– H1 : Au moins un γij ̸= 0

3.2 Décomposition des SCE

3.2.1 Notion de modèles emboîtés
Plus complexe qu’en ANOVA 1, la décomposition des SCE en ANOVA 2 peut néanmoins être simplifiée
grâce la notion de modèles “emboîtés”. Le but sera de comparer un modèle “complet” et un modèle “réduit”

7
d’un terme pour estimer les SCE expliquées par le terme que nous avons retiré. Commençons par retirer
l’interaction :
• Modèle 1 (complet) : yijk = µ + αi + βj + γij + εijk = ŷij1 + εijk1 . Nous pouvons calculer les SCE
expliquées par ce modèle complet en faisant :
p,q
X
SCEM 1 = nij (ŷij1 − µ)2
i,j

• Modèle 2 (réduit, sans l’interaction) : yijk = µ + αi + βj + εijk = ŷij2 + εijk2 . Nous pouvons
calculer les SCE expliquées par ce modèle réduit en faisant :
p,q
X
SCEM 2 = nij (ŷij2 − µ)2
i,j

Graphiquement nous obtenons la Figure 7. Pour obtenir la SCE expliquée par l’interaction AB il suffira
alors de soustraire les deux SCE du modèle complet et du modèle réduit :

SCEAB = SCEM 1 − SCEM 2

Ce calcul fonctionne avec des modèles emboîtés (le “réduit” est contenu dans le “complet”). On peut donc
poursuivre le raisonnement en retirant progressivement les termes et en comparant deux modèles successifs.

3.2.2 Décomposition
Pour estimer les SCE de chaque effet nous construisons une succession de modèles emboîtés, calculons leurs
SCE et soustrayons ces valeurs pour obtenir les SCE des termes retirés :

Modèle SCEM odèle SCEEf f et

M1 : ŷjk = µ + αj + βk + γjk SCEM 1 SCEAB = SCEM 1 − SCEM 2
M2 : ŷjk = µ + αj + βk SCEM 2 SCEB = SCEM 2 − SCEM 3
M3 : ŷj = µ + αj SCEM 3 SCEA = SCEM 3

PN
Avec SCET ot = i,j,k (yijk − ȳ)2 et SCEe = SCET ot − SCEM 1 . Au final tous les SCE s’additionnent pour
donner les SCE totaux :
SCET ot = SCEA + SCEB + SCEAB + SCEe

Notons que la notion de modèles emboîtés permettra aisément l’extension de l’ANOVA à 3, 4, . . . x facteurs
(en ajoutant des termes au modèle complet, puis en les retirant progressivement) tant que les données seront
suffisamment nombreuses et le plan d’expérience suffisamment bien construit.

3.3 Le tableau d’ANOVA

Nous pouvons maintenant construire le tableau d’ANOVA 2 à partir des SCE et des degrés de libertés
associés. Le principe est le même qu’en ANOVA 1, avec de nouveaux degrés de liberté à fixer pour B,
l’interaction AB et le résiduel. Les carrés moyens sont bien des variances, notamment CMe (ou CMr ) qui
représente la variance résiduelle. Les Fobs obtenus suivent bien une loi de F isher (voir cours ANOVA 1).

8
75 yijk = µ + αi + βj + γij + εijk γ22 y 75 yijk = µ + αi + βj + εijk yA2B2
A2B2
β2 β2
70 70
α2 α2
65 65
60 β2 β1 60 β2 β1
µ γ21 yA2B1 µ yA2B1
55 γ21 yA1B2 55 yA1B2
α1γ11 α1
50 yA1B1 50 yA1B1

45 β1 45 β1

A1 A2 A1 A2

Figure 7: Visualisation du modèle complet et du modèle réduit (sans interaction).

Source SCE ddl CM Fobs

Facteur A SCEA p−1 SCEA /(p − 1) CMA /CMe
Facteur B SCEB q−1 SCEB /(q − 1) CMB /CMe
Interaction AB SCEAB (p − 1)(q − 1) SCEAB /((p − 1)(q − 1)) CMAB /CMe
Résiduel SCEe N − pq SCEe /(N − pq)
Total SCET ot N −1

IMPORTANT : Nous observons que nous divisons bien tous les CMef f ets par le CMe et c’est ce qui fait
toute l’utilité de l’ANOVA 2. Par exemple, si nous avions réalisé une simple ANOVA 1, le CMA serait le
même qu’en ANOVA 2. En revanche, si B influence effectivement aussi y, le CMe de l’ANOVA 2 sera bien
plus petit que celui de l’ANOVA 1 car nous lui aurons aussi retiré tout l’effet de B et de l’interaction AB.
Le FA de l’ANOVA 2 sera donc bien supérieur à celui de l’ANOVA 1 (il aura donc plus de chances d’être
significativement supérieur à 1). Concrètement cela veut dire que l’on a mesuré l’effet de A en prenant en
compte (ou en retirant) celui de B et de l’interaction, ce qui accroît nos capacités à détecté un effet.
Avec avec les données présentées sur la Figure 7 on obtient :

## Analysis of Variance Table

##
## Response: y
## Df Sum Sq Mean Sq F value Pr(>F)
## A 1 530.67 530.67 1415.12 2.737e-10 ***
## B 1 380.81 380.81 1015.50 1.024e-09 ***
## A:B 1 117.81 117.81 314.17 1.050e-07 ***
## Residuals 8 3.00 0.37
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Il existe ici un effet additif significatif de A (les moyennes sont globalement différentes suivant A), un
effet additif significatif de B (les moyennes sont globalement différentes suivant B) et un effet d’interaction
significatif entre A et B (l’effet de A est plus ou moins important suivant le niveau de B et inversement).

9
4 Validation interne
4.1 Les résidus
L’ANOVA 2 comme l’ANOVA 1 repose sur une hypothèse forte qui suppose que l’ensemble des résidus suit
une loi Normale de moyenne 0 et d’écart-type σe appelé “écart-type résiduel” :

εijk = yijk − ŷij ∼ N (0, σ̂e )

Afin de faciliter certaines analyses ultérieures nous calculons aussi les “résidus standardisés” ce qui revient
à les diviser par leur propre écart-type. Dans ce cas ces seconds résidus devrons suivre une loi Normale
centrée-réduite :
εijk
εijkSt = ∼ N (0, 1)
σ̂e

Comme en ANOVA 1, cette hypothèse forte implique trois sous-hypothèses qu’il convient d’étudier.

4.2 Les hypothèses

Les hypothèses à vérifier ainsi que les outils utilisés pour cela sont strictement les mêmes qu’en ANOVA 1
(revoir le chapitre consacré) :
• La normalité : La forme de la distribution de l’ensemble des résidus doit être celle d’une loi Normale.
Outils : Histogramme des résidus, boxplot, QQplot, Test de Shapiro-Wilk . . .
• L’homoscédasticité : Les variations à l’intérieur des groupes (traitements) devront être de même
ampleur. Outils : Graph moyennes +/- écart-types, boxplot, “enveloppe” des εijk en fonction des ŷij ,
Test de Bartlett. . .
• L’indépendance : Les résidus doivent apparaître de manière aléatoire (imprévisible) autour des
moyennes. Deux résidus “voisins” ne doivent pas avoir de lien statistique (voir cours ANOVA 1).
Outils : Courbe moyenne des εijk en fonction des ŷij ou de tout autre mesure de proximité (spatiale,
temporelle, autre. . . ). Tests possibles.

4.3 Diagnostique complet

• Étudiez d’abord les éléments graphiques afin de voir si un problème manifeste existe.
• Les tests confirmerons souvent les choses mais ils peuvent être trompeurs (dans ce cas privilégiez les
graphiques et le “bon sens”) :
– Si par exemple l’effectif est très grand, les tests seront très puissants et détecterons presque
toujours des anomalies, quand bien même les graphiques ne seraient pas alarmants.
– A l’inverse si l’effectif est faible, les test pourraient être non-significatifs alors que certains prob-
lèmes pourraient être graphiquement manifestes.
• Si aucun problème n’apparaît vous pouvez interpréter vos résultats d’ANOVA sans autres
questionnements.
• Si vous déterminez qu’une ou plusieurs hypothèses ne sont pas respectées, ne rejetez pas vos
résultats d’ANOVA en bloc, mais nuancez les déjà en reportant simplement vos observations même
si tests et graphiques se contredisent. En cas de non-respect très marqué graphiquement et statis-
tiquement on peut recommander de ne pas valider l’ANOVA.
• Dans tous les cas proposez des explications à ces phénomènes (ex : y est une productivité en
tonne/ha qui aura une distribution asymétrique et bornée à 0 et ne pourra donc pas suivre une loi
Normale), ainsi qu’une amélioration de l’analyse (ex : nous pourrions transformer la variable avec
un log). N’oubliez pas que le rejet de ces hypothèses nous en apprend beaucoup sur nos données.

10
Histogram of residuals(lm2)
Residuals vs Fitted Normal Q−Q
200

30
4
22 22
150

25
3
29 39

Standardized residuals
29 39
100

20
2

Frequency
Residuals
50

15
1
0

10
−50

−1

5
−100

−2

0
−1.0 −0.5 0.0 0.5 −2 −1 0 1 2 −150 −50 0 50 100 150 200
Fitted values Theoretical Quantiles residuals(lm2)

Figure 8: Graphiques des Résidus.

4.4 Exemple
shapiro.test(residuals(lm2))

##
## Shapiro-Wilk normality test
##
## data: residuals(lm2)
## W = 0.94547, p-value = 0.001914
bartlett.test(y~traitements)

##
## Bartlett test of homogeneity of variances
##
## data: y by traitements
## Bartlett's K-squared = 57.401, df = 7, p-value = 4.974e-10
Les résidus sur cet exemple ne suivent pas une loi normale (p < 0.0019, test de Shapiro-Wilk). La loi est en
effet très légèrement asymétrique mais nous ne trouvons graphiquement rien de très alarmant (Fig. 8, graph
2 et 3). Il existe néanmoins une forte hétérogénéité de la variance résiduelle (p < 0.0001, test de Bartlett).
La variance est visiblement bien plus forte pour des moyennes basses ou haute, et faible pour les moyennes
intermédiaires (Fig. 8, graph 1). Vu l’ampleur de ce phénomène nous ne validons pas cette hypothèse et
recommandons d’étudier et résoudre ce problème d’hétéroscédasticité (ex: transformation de variable, choix
d’une autre variable, autres modèles) afin de valider l’ANOVA 2.

5 Regroupement des moyennes

5.1 Le problème
Une fois l’ANOVA (1 ou 2) réalisée et validée, ont peut tenter de regrouper les moyennes qui ne sont pas
significativement différentes et d’isoler celles qui le sont afin de définir des groupes de moyennes homogènes.
Commençons par appliquer des tests T fait deux à deux (soit 6 tests dans notre exemple, Fig. 7) :
## P.Value
## tA1B1_A2B1 0.000464
## tA1B1_A1B2 0.003427

11
## tA1B1_A2B2 0.000015
## tA2B1_A1B2 0.012136
## tA2B1_A2B2 0.000070
## tA1B2_A2B2 0.000033
Ici avec α = 5% toutes les moyennes semblent différentes (p < 0.05). Rappelons que le α représente le
risque, que nous acceptons, d’être induit en erreur par la fluctuation d’échantillonnage (si nous tombons par
malchance sur deux échantillons très différents alors qu’ils proviennent de la même population).
Mais lorsque l’on multiplie les tests sur les mêmes données un problème apparaît : le risque de conclure qu’au
moins un test sera significatif (le αglobal ) augmente avec le nombre de test (Fig. 9). Réalisons par exemple
100 tests T avec deux moyennes tirées au hasard dans une même loi normale (donc sous H0). Nous observons
plusieurs tests significatifs (en rouge, Fig. 9) alors que nous savons pertinemment que nous sommes sous
H0. . .
Distribution des P.Values (100 simulations)

1.0
10

100

0.8
8

Nombre de tests à réaliser

Alpha global
0.6
6

60
Frequency
4

0.4
40
2

0.2
0

0.0 0.2 0.4 0.6 0.8 1.0 2 4 6 8 10 12 14 2 4 6 8 10 12 14

p−values Nombre de moyennes à comparer Nombre de moyennes à comparer

Figure 9: Les problèmes de la multiplication des tests.

Nous savons que αglobal = 1−(1−α)Ntest , donc avec nos 6 test nous atteignons 0.265, soit une chance sur 4 de
faire de fausses conclusions avec un α = 0.05 appliqué sur chaque test. Si nous avions bien plus de moyennes
à comparer le nombre de tests exploserait (pour comparer N moyennes on a NT est = NM oy (NM oy − 1)/2)
et le αglobal s’approcherait de 1, Fig. 9).

5.2 Les solutions

5.2.1 La correction de Bonferroni
La correction de Bonferroni consiste à diviser le α par le nombre de tests réalisés et à utiliser ce nouveau
seuil pour interpréter les tests, soit
α
αb =
Ntests
Dans ce cas le αglobal se maintient bien en dessous de 0.05. Si nous reprenons notre exemple précédent (6
tests) avec αb = 0.05/6 = 0.0083 nous observons qu’une différence n’est plus significatives (celle entre A2B1
et A1B2). La méthode est donc moins sensible aux différences mais elle ne prend plus le risque d’avoir un
αglobal trop fort. Cette méthode simple est néanmoins considérée comme trop conservative et on préfère
aujourd’hui le test de Tukey.

5.2.2 Test de Tukey

Le test HSD de Tukey (Honestly Significant Difference) demande avant sa réalisation d’avoir vérifié la
présence d’un ou plusieurs effets significatifs dans l’ANOVA et réalisé sa validation interne. Ceci permettra
d’utiliser le CMresiduel dans le test. Le test de Tukey ressemble à un test classique avec pour deux moyennes
du groupe i et i′ :

12
V A − E(V A) mi − mi′
Qcalc = =q
σV A 1 CMe CMe
2 ( ni + n ′ ) i

Avec un test de Student classique (test T), le seuil théorique permettant la comparaison de deux échantillons
de taille 5 sera t0.975,10−2ddl = 2.306. Nous savons néanmoins qu’il sera trop faible et laissera le αglobal
augmenter avec le nombre de test.
Le test de tukey utilisera alors la loi des étendues studentisés qui fournira un seuil plus élevé à mesure que
le nombre de groupe à comparer augmentera. Avec 5 moyennes de taille 5 on obtiendra Q0.975;k=5;25−5ddl =
4.699. Notons que l’on se base sur les ddl résiduels de l’ANOVA et non sur les ddl d’une simple comparaison
par test T. Nous aurons ainsi moins de risque de conclure à tort à une différence et le test mettra en évidence
des différences significatives sans faire croître le αglobal .

6 Les tailles d’effets

On peut calculer les même tailles d’effets qu’en ANOVA1 (différences de moyennes, D-Cohen, Marge de
variation, R2 ). Il sera pertinent d’utiliser des moyennes provenant de groupes différents que vous aurez
identifié à l’étape précédente. On peut aussi reporter et utiliser les coefficients des modèles (qui ne sont
que des différences) pour estimer les tailles d’effet de A, B et A:B. On pourrait par exemple décrire en
remplacment des effets classiques :
• Coef = αi ; βj ou γij : les effets respectifs de la modalité i de A, j de B ou du traitement ij vis-à-vis
de la moyenne générale.
• Coef
y : ce même effet relativisé par la moyenne générale (utile pour des quantités).
• Coef
σ̂e : le D de Cohen appliqué au coefficient.
• R2 = SCEA +SCE B +SCEAB
SCET ot

7 La conclusion
Comme en ANOVA1 nous aurons plusieurs résultats, chacun répondant à des sous-questions différentes :
• Les graphiques ou tableaux synthétiques : à quoi ressemblent précisément les données et la
relation entre y et les facteurs ? Les effets semblent-ils additifs, interactifs ou les deux ? Dans quel
sens ces effets se produisent et sous quelle forme si interaction ? Quel est l’effet en apparence le plus
fort ?
• La P-value : ces effets peuvent-t-ils provenir du hasard ?
• Les groupes de moyennes : peut-on synthétiser nos résultats en faisant des groupes de moyennes
cohérents ? Est-ce utile ?
• Les tailles d’effets : quelle est la force de ces effets et est-elle intéressante dans notre contexte ?
• L’étude des résidus : sommes nous dans de bonnes conditions pour interpréter ces résultats ou existe-
t-il des propriétés particulières à nos données qui demanderaient de nouvelles méthodes d’analyse ?
La nouveauté sera donc la notion d’effet additif/interactif puis les regroupements de moyennes.

8 Vers la Régression Linéaire Multiple

L’analyse de variance à deux facteurs (ANOVA 2) vous permet de découvrir l’analyse multifactorielle avec
notamment la notion de plan d’expérience (modalités, traitements, répétitions) et d’interaction entre
facteurs. Nous avons également découvert la notion de modélisation des données, permettant entre autre
de décomposer les SCE avec des modèles emboîtés. Toutes ces notions nous seront utiles lorsqu’il s’agira
d’étudier l’influence de variables quantitatives multiples sur une variable réponse quantitative y. Ce sera le
cas de la Régression Linéaire Multiple (RLM).

Vous aimerez peut-être aussi

Mod. Lin. Anova À 2 Facteurs - Mars 2023
Pas encore d'évaluation
Mod. Lin. Anova À 2 Facteurs - Mars 2023
11 pages
Evenementelementaire 1
Pas encore d'évaluation
Evenementelementaire 1
49 pages
Anova À 2 Facteurs 2020
Pas encore d'évaluation
Anova À 2 Facteurs 2020
11 pages
03 Anova
Pas encore d'évaluation
03 Anova
17 pages
Chap 8 N
Pas encore d'évaluation
Chap 8 N
15 pages
Exposé Annova 1
Pas encore d'évaluation
Exposé Annova 1
49 pages
ANOVA à un facteur : Méthodes et exemples
Pas encore d'évaluation
ANOVA à un facteur : Méthodes et exemples
12 pages
ANOVA - Chapitre 3 - Deux Facteurs
Pas encore d'évaluation
ANOVA - Chapitre 3 - Deux Facteurs
26 pages
Introduction à l'Analyse de Variance (ANOVA)
Pas encore d'évaluation
Introduction à l'Analyse de Variance (ANOVA)
29 pages
Analyse de variance et homoscédasticité
Pas encore d'évaluation
Analyse de variance et homoscédasticité
28 pages
2024 MTH8302 ch12 ANOVA 2 UnFacteur
Pas encore d'évaluation
2024 MTH8302 ch12 ANOVA 2 UnFacteur
53 pages
ANOVA à Deux Facteurs Fixes
Pas encore d'évaluation
ANOVA à Deux Facteurs Fixes
13 pages
BS6-Anova2 2324 DM
Pas encore d'évaluation
BS6-Anova2 2324 DM
28 pages
Analyse de la variance à deux facteurs
Pas encore d'évaluation
Analyse de la variance à deux facteurs
18 pages
Anovacours070226 1173127759940
Pas encore d'évaluation
Anovacours070226 1173127759940
8 pages
Présentation ANOVA
Pas encore d'évaluation
Présentation ANOVA
24 pages
Introduction à l'ANOVA et ses applications
Pas encore d'évaluation
Introduction à l'ANOVA et ses applications
6 pages
Livre Statistique - Copie PDF
Pas encore d'évaluation
Livre Statistique - Copie PDF
100 pages
Chap3 ANOVA 1avril PDF
Pas encore d'évaluation
Chap3 ANOVA 1avril PDF
9 pages
Anova
Pas encore d'évaluation
Anova
54 pages
Chapitre9 (Analyse de Variance)
Pas encore d'évaluation
Chapitre9 (Analyse de Variance)
11 pages
Mat Sta 01-21-1
Pas encore d'évaluation
Mat Sta 01-21-1
77 pages
Analyse de La Variance - Pour Fusion
Pas encore d'évaluation
Analyse de La Variance - Pour Fusion
16 pages
Chapitre 2 ANOVA
Pas encore d'évaluation
Chapitre 2 ANOVA
25 pages
Aaa TD1 Généralités ANOVA1 Inter
Pas encore d'évaluation
Aaa TD1 Généralités ANOVA1 Inter
39 pages
Partie 2 Cours 1
Pas encore d'évaluation
Partie 2 Cours 1
3 pages
Poly Cours Inplex 24 25 Part2
Pas encore d'évaluation
Poly Cours Inplex 24 25 Part2
26 pages
Cours ANOVA1
Pas encore d'évaluation
Cours ANOVA1
6 pages
PSY M1 Info TD2
Pas encore d'évaluation
PSY M1 Info TD2
30 pages
Anova
Pas encore d'évaluation
Anova
37 pages
ANOVA et MANOVA : Analyse Statistique
Pas encore d'évaluation
ANOVA et MANOVA : Analyse Statistique
4 pages
Seance 8
Pas encore d'évaluation
Seance 8
10 pages
ANOVA: Comparaison de Moyennes Observées
Pas encore d'évaluation
ANOVA: Comparaison de Moyennes Observées
24 pages
Tâche 3 Statistiques
Pas encore d'évaluation
Tâche 3 Statistiques
10 pages
12 Anova
Pas encore d'évaluation
12 Anova
21 pages
Analyse de La Variance Et Test de Khi Deux
Pas encore d'évaluation
Analyse de La Variance Et Test de Khi Deux
31 pages
Statistique Chapitre 4
Pas encore d'évaluation
Statistique Chapitre 4
89 pages
Biométrie P2
Pas encore d'évaluation
Biométrie P2
53 pages
Analyse des Interactions Factorielles
Pas encore d'évaluation
Analyse des Interactions Factorielles
42 pages
Bases de l'ANOVA et méthodes d'analyse
0% (1)
Bases de l'ANOVA et méthodes d'analyse
3 pages
ANOVA Bases Theoriques
Pas encore d'évaluation
ANOVA Bases Theoriques
7 pages
Analyse Variance à Facteurs Multiples
Pas encore d'évaluation
Analyse Variance à Facteurs Multiples
3 pages
Cours Anova
Pas encore d'évaluation
Cours Anova
9 pages
Cours de Biostatistique 3
Pas encore d'évaluation
Cours de Biostatistique 3
64 pages
Anova 1
Pas encore d'évaluation
Anova 1
49 pages
ANOVA à Trois Critères de Classification
Pas encore d'évaluation
ANOVA à Trois Critères de Classification
45 pages
Méthodologie et Analyse Statistique
Pas encore d'évaluation
Méthodologie et Analyse Statistique
15 pages
Plans factoriels complets à deux niveaux
50% (2)
Plans factoriels complets à deux niveaux
30 pages
Anova 2
Pas encore d'évaluation
Anova 2
41 pages
Chapitre 3
Pas encore d'évaluation
Chapitre 3
46 pages
Tests d'hypothèses et ANOVA pour ingénieurs
Pas encore d'évaluation
Tests d'hypothèses et ANOVA pour ingénieurs
39 pages
ANOVA : Guide Complet et Applications
Pas encore d'évaluation
ANOVA : Guide Complet et Applications
17 pages
Revisions Stat
Pas encore d'évaluation
Revisions Stat
7 pages
Plans d'expériences factoriels 2k
100% (1)
Plans d'expériences factoriels 2k
37 pages
Plan Exp Anova
Pas encore d'évaluation
Plan Exp Anova
10 pages
Ilovepdf Merged
Pas encore d'évaluation
Ilovepdf Merged
36 pages
"Explorez les Invisibles du Sol"
Pas encore d'évaluation
"Explorez les Invisibles du Sol"
56 pages
Notre Maison
Pas encore d'évaluation
Notre Maison
1 page
Examen Rattrapage: Commande Robots
100% (2)
Examen Rattrapage: Commande Robots
2 pages
TP: Mise en œuvre du Multicast IP
0% (1)
TP: Mise en œuvre du Multicast IP
18 pages
Projet de Cours Assainissement HANNACHI
Pas encore d'évaluation
Projet de Cours Assainissement HANNACHI
19 pages
10 PAGES Cours de Terminologie Juridique S1
100% (1)
10 PAGES Cours de Terminologie Juridique S1
13 pages
Le Process Communication
33% (3)
Le Process Communication
19 pages
Comment Présenter Une Soutenance Devant Un Jury
100% (1)
Comment Présenter Une Soutenance Devant Un Jury
65 pages
Fascicule de SVT 3è Guisse - 2024 - 052010
Pas encore d'évaluation
Fascicule de SVT 3è Guisse - 2024 - 052010
40 pages
FR Manuel
Pas encore d'évaluation
FR Manuel
9 pages
Motivation des salariés à CCEI Bank
Pas encore d'évaluation
Motivation des salariés à CCEI Bank
73 pages
Note D Information Opv Sib
Pas encore d'évaluation
Note D Information Opv Sib
145 pages
Rapport de Stage Derniere Vers
Pas encore d'évaluation
Rapport de Stage Derniere Vers
35 pages
Chapitre 1 Gestion Des Risques
100% (1)
Chapitre 1 Gestion Des Risques
82 pages
Publicité Innovante sur Tickets de Caisse
Pas encore d'évaluation
Publicité Innovante sur Tickets de Caisse
9 pages
Introduction aux bétons hydrauliques
Pas encore d'évaluation
Introduction aux bétons hydrauliques
21 pages
Devoir - 2 $ 3 S2 SPC 2BAC
Pas encore d'évaluation
Devoir - 2 $ 3 S2 SPC 2BAC
2 pages
Antibiotiques (Evaluation TD
Pas encore d'évaluation
Antibiotiques (Evaluation TD
12 pages
Instructions de Montage Ventouse
Pas encore d'évaluation
Instructions de Montage Ventouse
4 pages
PDC Filtre À Tamis
Pas encore d'évaluation
PDC Filtre À Tamis
12 pages
Exposé Sur La Place de La Femme
Pas encore d'évaluation
Exposé Sur La Place de La Femme
5 pages
Cours 1
Pas encore d'évaluation
Cours 1
13 pages
Roald Dalh
Pas encore d'évaluation
Roald Dalh
9 pages
ITN Syllabus Algo Bac1
Pas encore d'évaluation
ITN Syllabus Algo Bac1
73 pages
Province de La Tshopo
Pas encore d'évaluation
Province de La Tshopo
4 pages
Spécifications de Tuyauterie à Enveloppe de Vapeur
Pas encore d'évaluation
Spécifications de Tuyauterie à Enveloppe de Vapeur
4 pages
Cours de Psychopédagogie pour Stagiaires
Pas encore d'évaluation
Cours de Psychopédagogie pour Stagiaires
45 pages
l3 Plan de Cours Cas de Synthese RH 2025-2026
Pas encore d'évaluation
l3 Plan de Cours Cas de Synthese RH 2025-2026
5 pages
TP Metre 1Bts B 2009
Pas encore d'évaluation
TP Metre 1Bts B 2009
4 pages