Analyse de la
Variance
Encadré par: [Link] Amine
Présenté par :
ZOUGGARH Imane
OULED JAMAA Badr
Introduction :
Une expérience sur le terrain a été menée en 2006 et 2007 pour déterminer les effets de
différents niveaux d'engrais et densités de plantation sur le rendement (boisseaux par
acre). Les traitements comprenaient trois mélanges d'engrais choisies de manière
dirigéesur deux densités de plantes (1=faible densité, 2=haute densité) appliqué sur 96
plateaux homogènes et éloignés entres eux.
Le tableau ci-contre représente le rendement en fonction de la densité de plantation et le
type d’engrais.
Engrais
Densité 1 2 3
177,228692 176,479341 177,104186
176,408462 177,412462 176,903422
177,125486 177,385499 177,03271
176,746302 177,379779 176,40541
176,274949 176,434863 177,396331
176,6013 175,98348 177,055046
177,479507 176,436762 177,128368
176,114388 177,121049 176,353941
1
176,108313 176,603724 176,300517
177,262445 177,148829 177,115245
176,239016 176,999067 177,004038
176,039298 176,429156 177,701366
176,160587 176,895867 177,652275
175,938533 176,414495 177,187967
175,36084 177,580683 178,141644
175,945444 177,05548 177,687264
177,550041 176,044342 178,079635
177,703625 177,360818 177,540284
176,778342 176,975808 178,286042
177,061164 177,997995 176,43083
177,967203 176,933265 176,925576
177,030543 177,034093 177,344164
176,87413 176,067745 177,168302
176,008395 177,197721 179,060899
2
178,357441 177,208171 177,593352
176,918845 176,819077 177,794457
176,57307 178,134605 178,036858
176,817922 176,668323 177,632808
177,226424 177,779493 177,100418
177,164937 176,878898 177,405292
177,276996 176,957269 177,710613
175,88278 177,06172 177,118176
Validation des hypothèses d’application :
1- indépendance des données
2- normalité des résidus
3- homogénéité des variances (homoscédasticité)
1- les données sont indépendantes
2- afin de s’assurer de la normalité des variables indépendants on peut représenter les
données à l'aide de l'histogramme de fréquence et regarder si elles semblent s'ajuster
à une distribution normale
[Link]<-[Link]("C:/Users/hp/Desktop/
[Link]", header = TRUE, colClasses = c("factor",
"factor", "factor", "numeric"))
summary([Link])
hist([Link]$yield, prob=T,xlab="Rendement
agricole",main="histogramme de fréquence")
curve(dnorm(x,mean([Link]$yield),sd([Link]$yield)), add=T,col="red")
Nous observons que l’histogramme s’ajuste bien et les données sont centrées et semblent s'ajuster à la
courbe de la loi normale.
Boite à moustaches :
boxplot(yield ~ fertilizer , col=[Link](6),data=[Link])
boxplot(yield ~ density , col=[Link](3),data=[Link])
On observe, dans la première boite a moustache qui porte sur le rendement en fonction du fertiliseur ,
que la médiane se situe légèrement dans la partie inférieure de la boîte à moustache du troisième
fertiliseur quant aux autres, la médiane se situe presque dans la moitié et que le minimum et le
maximum sont symétriques .Même remarques pour la deuxième boite a moustache.
test de Shapiro-Wilk
En utilisant R on obtient le résultat suivant :
>[Link]([Link]$yield)
Shapiro-Wilknormality test
data: [Link]$yield
W = 0.989, p-value = 0.6135
D’où le test donne une probabilité de dépassement de 0.6135, supérieure à 0.05. L'hypothèse de
normalité est donc tolérée
3- homogénéité des variances
Test de Bartlett :
On teste l’hypothèse : H0 :σ 12=σ 22=…=σ I2 contre H1 : Les σ I2 ne sont pas toutes égales
La statistique du test :
1
Bobs = ¿ ~Loi de Khi-Deux à I-1 ddl
C
1
Avec C=1+ ¿
3( I −1)
>[Link](yield~interaction(fertilizer,density),data=[Link])
Bartlett test of homogeneity of variances
data: yield by interaction(fertilizer, density)
Bartlett's K-squared = 0.99284, df = 5,p-value = 0.9631
On a p-value=0.9631 donc on accepte H 0, d’où l’homogénéité des variances
Performance du test d’ANOVA :
L'ANOVA teste : si l'une des moyennes de groupe est différente de la moyenne globale
des données en vérifiant la variance de chaque groupe individuel par rapport à la variance
globale des données. Si un ou plusieurs groupes se situent en dehors de la plage de
variation prédite par l'hypothèse nulle (toutes les moyennes de groupe sont égales), alors
le test est statistiquement significatif.
Anova à un facteur :
On étudie l’effet de l’engrais sur le rendement agricole
>[Link]<- aov(yield ~ fertilizer, data = [Link])
>summary([Link])
DfSumSqMeanSq F value Pr(>F)
fertilizer 2 6.07 3.0340 7.863 7e-04 ***
Residuals 93 35.89 0.3859
Le résumé du modèle répertorie d'abord les variables indépendantes testées dans le modèle (dans ce
cas, nous n'en avons qu'une, « engrais ») et les résidus du modèle (« Résiduel »). Toute la variation
qui n'est pas expliquée par les variables indépendantes est appelée variance résiduelle. Le reste des
valeurs du tableau de sortie décrit la variable indépendante et les résidus :
La colonne Df affiche les degrés de liberté pour la variable indépendante (le nombre de niveaux dans
la variable moins 1) et les degrés de liberté pour les résidus (le nombre total d'observations moins un
et moins le nombre de niveaux dans les variables indépendantes ).
La colonne SumSq affiche la somme des carrés (c'est-à-dire la variation totale entre les moyennes du
groupe et la moyenne globale)
La colonne MeanSq est la moyenne de la somme des carrés, calculée en divisant la somme des carrés
par les degrés de liberté pour chaque paramètre.
La colonne F-value est la statistique de test du test F. Il s'agit du carré moyen de chaque variable
indépendante divisé par le carré moyen des résidus. Plus la valeur F est grande, plus il est probable
que la variation causée par la variable indépendante soit réelle et non due au hasard.
La colonne Pr(>F) est la valeur p de la statistique F. Cela montre la probabilité que la valeur F calculée
à partir du test soit produite si l'hypothèse nulle d'aucune différence entre les moyennes des
groupes était vraie.
La valeur p de la variable engrais est faible (p < 0,001), il apparaît donc que le type d'engrais utilisé a
un réel impact sur le rendement final agricole.
Anova à deux facteurs :
Tableau d’analyse de variance à deux facteurs avec répétition
Source de variation Sommes des carrés D.L. Moyenne des carrés F
Engrais SCFA I-1 MCFA MCFA /MCE
Densité de plantation SCFD J-1 MCFD MCFD/MCE
Interaction SCI (I-1)(J-1) MCI MCI/MCE
Erreur SCE IJ(K-1) MCE
Totale STC IJK-1
3 2 16 3 2 2 2
T2 T i .. T 2 T . j. T 2
Avec STC=∑ ∑ ∑ Y ijk − , SCFA=∑ , SCFD=∑
2
− − ,
i=1 j=1 k=1 IJK i=1 JK IJK j=1 IK IJK
3 2
T 2ij. 3 T 2i .. 2
T 2. j . T 2
SCI=∑ ∑ −∑ −¿ ∑ + ¿, SCE= STC-SCFA-SCFD-SCI
i=1 j=1 K i=1 JK j=1 IK IJK
Nous allons ajouter un deuxième facteur la densité de plantation
>[Link]<- aov(yield ~ fertilizer + density, data = [Link])
>summary([Link])
DfSumSqMeanSq F valuePr(>F)
fertilizer 2 6.068 3.034 9.073 0.000253 ***
density 1 5.122 5.122 15.316 0.000174 ***
Residuals 92 30.765 0.334
En rajoutant la densité de plantation nous avons obtenu un modèle meilleur que celui de
l’ANOVA à un facteur : la variance des residus ([Link]) a diminué de 35,89 à 30,765 et
les facteurs densité et engrais sont significatif puisque leurs p-value <0.001
Modele d’interaction :
Nous allons tester si les deux facteurs ont un effet d’interaction sur l’ANOVA
>[Link]<- aov(yield ~ fertilizer*density, data = [Link])
>summary([Link])
DfSumSqMeanSqF value Pr(>F)
fertilizer2 6.068 3.0349.001 0.000273 ***
density 1 5.122 5.12215.195 0.000186 ***
fertilizer:density 2 0.428 0.2140.635 0.532500
Residuals 90 30.337 0.337
La variable fertilizer :density a une valeur minimal de SumSq et une p-value qui est très grande donc
y’a pas une variation qui peut être expliquée par l’interaction entre l’engrais et la densité
[Link]([Link][,"density"],[Link][,"fertilizer"],[Link][,"yield"],col=(1:4))
Comparaison deux à deux des moyennes :
Test de comparaison multiple :Test de TukeyHSD
>tukey<-TukeyHSD([Link])
>tukey
Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = yield ~ fertilizer + density, data = [Link])
$fertilizer
difflwrupr p adj
2-1 0.1761687 -0.16822506 0.5205625 0.4452958
3-1 0.5991256 0.25473179 0.9435194 0.0002219
3-2 0.4229569 0.07856306 0.7673506 0.0119381
$density
difflwrupr p adj
2-1 0.461956 0.2275204 0.6963916 0.0001741
D’après les résultats du test post-hoc, on observe qu’il y’à une différence statistiquement significatif
entre l’engrais 3 et 1 et entre l’engrais 3 et 2puisque p<0.05 contrairement à celle entre l’engrais 2 et
1 qui n’est pas significatif. De mêmeil y’a une différence significatif entre la densité 1 et 2 .
D'après le test ANOVA, nous savons que la densité de plantation et le type d'engrais sont des
variables significatives. Pour afficher ces informations sur un graphique, nous devons montrer
lesquelles des combinaisons de type d'engrais + densité de plantation sont statistiquement
différentes les unes des autres. Pour ce faire, nous pouvons exécuter un autre test ANOVA +
TukeyHSD, cette fois en utilisant l'interaction de l'engrais et densité de plantation. Nous ne faisons
pas cela pour savoir si le terme d'interaction est significatif (nous savons déjà que ce n'est pas le cas),
mais plutôt pour savoir quelles moyennes de groupe sont statistiquement différentes les unes des
autres .
[Link]<-TukeyHSD([Link])
plot([Link], las = 1)
Conclusion
D’après le graphe ci-dessus on peut dire que la combinaison engrais+densité qui sont
significativement différentes les unes les autres sont ceux ayant un intervalle de confiance ne
contenant pas un 0 c'est-à-dire 3:1-1:1(lu comme engrais 3 +densité 1 contrastée avec l’engrais
1+densité 1) ;1:2-1:1 ; 2:2-1:1 ; 3:2-1:1 et 3:2-2:1