ANOVA et plans d’expérience
Atelier Statistique
Synopsis
“The analysis of variance is not a mathematical theorem, but rather a convenient method of arranging the
arithmetic.” —Ronald Fisher (1890–1962)
Plan d’expérience
Exemples de plans
Décrire les relations entre variables
Split – Apply – Combine (Wickham, 2011)
ANOVA à un facteur
ANOVA à deux facteurs
Effet d’interaction
Illustration
Méthode des blocs
Références
Plan d’expérience
Maximiser la précision en minimisant le nombre d’essais.
Mise en œuvre organisée d’un ensemble d’unités expérimentales pour carac-
tériser l’effet de certains traitements, ou combinaison de traitements, sur une
ou plusieurs variables réponses. Dans les plans factoriels, par exemple, on crois-
era tous les niveaux de tous les facteurs expérimentaux.
Prendre en considération un ou plusieurs facteurs de nuisance pendant la con-
stitution du dessin expérimental : organiser les sources de variation indésirables
de façon à ce qu’elles affectent les traitements de manière équivalente, rendant
ainsi possible la comparaison entre traitements.
Dagnelie P. (2012). Principes d’expérimentation: planification des expériences et analyse de leurs résul-
tats. Gembloux, Presses agronomiques (ISBN 978-2-87016-117-3). Édition électronique disponible à
l’adresse : [Link]
Exemples de plans
a1 a2 id y A B
b1 b2 b1 b2 s1 x1 a1 b1
s1 x2 a1 b1
a1 a2 id y A s1 x3 a1 b2
01 x1 a1 x1, x3, x5, x7, s1 x4 a1 b2
02 x2 a1 s1 x2 x4 x6 x8
x1, x2, x9, x10, s1 x5 a2 b1
03 x3 a1
x3, x4, x11, x12, ...
... s2 x12 a1 b2
x5, x6, x13, x14, 14 x14 a2
x7, x8 x15, x16 s2 x13 a2 b1
15 x15 a2 x9, x11, x13, x15,
16 x16 a2 s2 x10 x12 x14 x16
s2 x14 a2 b1
s2 x15 a2 b2
s2 x16 a2 b2
b1 b2 id y A B a1 a2 id y A B
01 x1 a1 b1 b1 b2 b1 b2 s1 x1 a1 b1
02 x2 a1 b1 s1 x2 a1 b1
03 x3 a1 b1 s1 x3 a1 b2
x1, x2, x9, x10, 04 x4 a1 b1 x1, x3, x5, x7, s1 x4 a1 b2
a1 x3, x4 x11, x12 s1 x2 x4 x6 x8
s2
05 x5 a2 b1 s2 x5 a2 b1
... ...
12 x12 a1 b2 s3 x12 a1 b2
13 x13 a2 b2 s4 x13 a2 b1
x5, x6, x13, x14, x9, x11, x13, x15,
a2 x7, x8 x15, x16
14 x14 a2 b2 s3 x10 x12 x14 x16
s4 s4 x14 a2 b1
15 x15 a2 b2 s4 x15 a2 b2
16 x16 a2 b2 s4 x16 a2 b2
Décrire les relations entre variables
R suit les conventions de notation proposées par Wilkinson & Rogers (Wilkinson
and Rogers, 1973; Chambers and Hastie, 1992) pour exprimer une relation ‘fonc-
tionnelle’, symbolisée par ~, entre une variable réponse y et une ou plusieurs
variables explicatives.
x régression linéaire simple
x + 0 idem avec suppression de l’intercept
a + b deux effets principaux (relation de croisement)
a * b équivalent à 1 + a + b + a:b, idem avec interaction
a / b équivalent à 1 + a + b + a %in% b (relation d’emboîtement)
fm <- y ~ a * b * c # modèle de base (A, B, C, AB, AC, BC, ABC)
mod1 <- aov(fm, data=dfrm) # estimation des paramètres du modèle
update(mod1, . ~ . -[Link]) # suppression de l'interaction ABC
Split – Apply – Combine (Wickham, 2011)
SPLIT APPLY COMBINE
mean
id A y 01 a1 12
01 a1 12 02 a1 10 a1 10
02 a1 10 03 a1 8
03 a1 8
04 a2 15 04 a2 15
05 a2 6 05 a2 6 a2 10.3 a1 10
06 a2 10 06 a2 10 a2 10.3
07 a3 9 07 a3 9 a3 10
08 a3 11 08 a3 11 a3 10 a4 8.3
09 a3 10 09 a3 10
10 a4 5
11 a4 8 10 a4 5
12 a4 12 11 a4 8 a4 8.3
12 a4 12
> y <- c(12,10,8,15,6,10,9,11,10,5,8,12)
> A <- gl(4, 3, 12, labels=paste("a", 1:4, sep=""))
> tapply(y, A, mean) # aggregate(y, list(A=A), mean)
a1 a2 a3 a4
10.000000 10.333333 10.000000 8.333333
ANOVA à un facteur
Formalisation du modèle :
Soit yij la j e observation dans le groupe i (facteur A). On peut décrire un modèle
à effet comme
yij = µ + αi + εij ,
où µ désigne la moyenne générale, αi l’effet du groupe i (i = 1, . . . , a), et εij ∼
∑
N(0, σ2 ) un terme d’erreur aléatoire. On impose généralement que ai=1 αi = 0.
L’hypothèse nulle se lit H0 : α1 = α2 = . . . = αa , et se teste à l’aide d’un test F à
a − 1 et N − a degrés de liberté.
> mod1 <- aov(y ~ A, data=d)
> summary(mod1)
ANOVA à deux facteurs
On considère deux effets fixes, dont l’interaction peut être l’objet d’étude ou
non.
Formalisation du modèle :
Soit yijk la k e observation pour le niveau i du facteur A (i = 1, . . . , a) et le niveau
j du facteur B (j = 1, . . . , b). Le modèle complet avec interaction s’écrit
yijk = µ + αi + βj + γij + εijk ,
où µ désigne la moyenne générale, αi (βj ) l’écart à la moyenne des moyennes de
groupe pour le facteur A (B), γij les écarts à la moyenne des moyennes pour les
traitements A × B, et εijk ∼ N(0, σ2 ) la résiduelle. Les effets αi et βj sont appelés
effets principaux, tandis que γij est l’effet d’interaction.
Les hypothèses nulles associées sont
HA
0 : α1 = α2 = . . . = αa , (a − 1) dl
HB0 : β1 = β2 = . . . = βb , (b − 1) dl
HAB
0 : γ11 = γ13 = . . . = γab , (a − 1)(b − 1) dl
Des tests F (CM effets / CM résiduelle) permettent de tester ces hypothèses.
> mod2a <- aov(y ~ A * B, data=d) # Effets A, B, AB
> summary(mod2a)
> mod2b <- update(mod2, . ~ . - A:B) # Effets A, B
> summary(mod2b)
Effet d’interaction
Absence d'interaction Interaction ordonnée Interaction croisée
b1 b2 b1 b2 b1 b2
Effet B Effet B
Effet B
a1 a2 a1 a2 a1 a2
Effet A Effet A Effet A
a1 a2 a1 a2 a1 a2
L'effet de B est le même quel que L'effet de B est plus important L'effet de B s'inverse
soit le niveau de A. dans la condition a2. entre a1 et a2.
Illustration
The effect of Vitamin C on tooth growth in Guinea Pigs. (Bliss, 1952)
The response is the length of odontoblasts (teeth) in each of 10 guinea pigs at each of three dose levels of Vitamin
C (0.5, 1, and 2 mg) with each of two delivery methods (orange juice or ascorbic acid).
> data(ToothGrowth)
> ToothGrowth$dose <- factor(ToothGrowth$dose) OJ VC
> fm <- len ~ supp * dose 35
> replications(fm, data=ToothGrowth)
30
supp dose supp:dose
30 20 10
25
> aggregate(fm, ToothGrowth, FUN=function(x) c(mean=mean(x), sd=sd(x)))
Tooth length
supp dose [Link] [Link] 20
1 OJ 0.5 13.230000 4.459709
15
2 VC 0.5 7.980000 2.746634
3 OJ 1 22.700000 3.910953 10
4 VC 1 16.770000 2.515309
5
5 OJ 2 26.060000 2.655058
6 VC 2 26.140000 4.797731 0.5 1 2
Dose (mg)
Estimation des paramètres du modèle :
> [Link] <- aov(fm, data=ToothGrowth)
> summary([Link])
Df Sum Sq Mean Sq F value Pr(>F)
supp 1 205.4 205.4 15.572 0.000231 ***
dose 2 2426.4 1213.2 92.000 < 2e-16 ***
supp:dose 2 108.3 54.2 4.107 0.021860 *
Residuals 54 712.1 13.2
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Deux remarques :
1. Les tests ci-dessus n’indiquent pas quelles paires de moyennes diffèrent significativement, mais permettent
de se prononcer sur l’existence d’un effet et le rejet de l’hypothèse nulle associée. Pour préciser quels sont
les traitements qui diffèrent deux à deux, il faudrait utiliser des procédures (post-hoc) de comparaisons
multiples.
2. Le facteur dose est traité comme une variable qualitative non ordonnée ; un test de linéarité de la relation
len ~ dose serait toutefois intéressant.
Tableau des effets :
> [Link]([Link], type="means", se=TRUE, cterms="supp:dose")
Tables of means
Grand mean
18.81333
supp:dose
dose
supp 0.5 1 2
OJ 13.23 22.70 26.06
VC 7.98 16.77 26.14
Standard errors for differences of means
supp:dose
1.624
replic. 10
Vérification des conditions d’application :
> qqmath(~ resid([Link]))
> bwplot(len ~ interaction(supp, dose), data=ToothGrowth)
> [Link](len ~ interaction(supp,dose),data=ToothGrowth)
Bartlett test of homogeneity of variances
data: len by interaction(supp, dose)
Bartlett's K-squared = 6.9273, df = 5, p-value = 0.2261
35
30
25
Tooth length
20
15
10
OJ/0.5 VC/0.5 OJ/1 VC/1 OJ/2 VC/2
Méthode des blocs
Répartir un ensemble hétérogène d’unités expérimentales (individus) en sous-
groupes plus homogènes (blocs) afin d’améliorer la comparaison entre traite-
ments (gain de puissance). Illustrations tirées de Lellouch and Lazar, 1974.
Blocs complets (avec ou sans répétition)
ANOVA à deux facteurs où l’un des facteurs est le facteur de bloc ; les traitements
sont orthogonaux aux blocs (si pas de valeur manquante).
Exemple : Pour des raisons d’économie de place, les animaux utilisés pour une expérience sont mis dans des cages
qui peuvent en contenir chacune 12. On dispose au total de 10 cages et l’on doit comparer 3 traitements A, B et C.
L’une des solutions consiste à répartir au hasard les 3 traitements parmi les 120 animaux. On conçoit cependant
qu’il puisse être intéressant, si l’on pense que les résultats observés dans chaque case risquent de présenter une
certaine homogénéité par rapport à l’ensemble, et qu’il existe corrélativement une certaine hétérogénéité d’une
cage à l’autre, d’attribuer les 3 traitements à 4 animaux à l’intérieur de chaque cage (par tirage au sort).
Blocs incomplets équilibrés
Même principe que la méthode BC mais le nombre d’unités expérimentales
disponibles par bloc est inférieur au nombre de traitements à comparer.
Chaque bloc contient le même nombre d’unités expérimentales, k ; chaque
traitement est attribué dans l’ensemble des blocs au même nombre d’unités, r ;
le nombre de blocs, λ, où apparaissent simultanément deux traitements quel-
conques est le même quel que soit le couple de traitements considérés.
Exemple : On veut comparer les réactions cutanées locales de 5 traitements A, B, C, D, E chez la souris. On
souhaiterait utiliser l’animal comme son propre témoin, en d’autres termes prendre chaque souris comme
bloc. Il se peut cependant que, compte-tenu des dimensions de la souris, il ne soit possible d’appliquer que 4
traitements à chaque animal.
Plan en carré latin
Même principe que la méthode BC mais on souhaite contrôler deux facteurs.
Exemple : On souhaite comparer 4 traitements appliqués localement au même animal, mais à des endroits
différents. Si la place de l’injection est une cause systématique et importante de variation, on constituera des
blocs ‘animal-place d’injection’ qui ne contiendront qu’une unité expérimentale.
Références
1 Wilkinson, G. and Rogers, C. (1973). Symbolic description of factorial models for analysis
of variance. Applied Statistics, 22, 392–399.
2 Chambers, J. and Hastie, T., editors (1992). Statistical Models in S. Wadsworth & Brooks.
ISBN: 0534167649.
3 Wickham, H. (2011). The split-apply-combine strategy for data analysis. Journal of Statis-
tical Software, 40(1).
4 Bliss, C. (1952). The Statistics of Bioassay. Academic Press.
5 Lellouch, J. and Lazar, P. (1974). Méthodes statistiques en expérimentation biologique.
Flammarion. ISBN: 225710398X.
ConTEXt version 2012.05.30 11:26, R version 2.15.1 (2012-06-22), [Link] 97377fd on 2012/10/15