REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE
MINISTERE DE L’ENSEIGNEMENT SUPERIEUR ET DE LA RECHERCHE
SCIENTIFIQUE
Université Ferhat Abbas Sétif 1 - Faculté des Sciences de la Nature et de la Vie
Département d’agronomie
Polycopié de cours de Statistiques
Destiné aux étudiants de Licence en
Protection des Végétaux Agronomie
Dr Mebarkia Amar
1
Expérimentation
2
Expérimentation
✓
Elle permet de provoquer un phénomène en vue d’en étudier les conséquences. Pour cela on doit :
- maîtriser le contexte
- organiser l’expérience
Ce qui nous amène à Élaborer un protocole expérimental
L’élaboration d’un protocole expérimental est basé sur :
✓
thème,
✓
Objectifs de l’essai
✓
facteurs et traitements retenus
✓
dispositif expérimental (plan d’expérience)
✓
conduite de l’essai
✓
observations à réaliser
✓
budget
Les facteurs : Toute série d’éléments de même nature qui peuvent être comparés au cours d’une
expérimentation
✓
Facteurs (étudiés, aléatoires, contrôlés)
✓
Facteurs étudiés (qualitatifs, quantitatifs)
✓
Facteurs aléatoires
- Facteurs étudiés : introduits volontairement (variétés, doses de fertilisants, produits
phytosanitaires...)
- Facteurs aléatoires : terrain, environnement de l’essai = facteurs contrôlés lorsque le dispositif
expérimental utilisé les prend en compte
Les facteurs étudiés
✓
facteur étudié qualitatif: les variétés dans un essai chaque variété = 1 variante
✓
facteur étudié quantitatif : (numérique) ex : doses d’azote dans un essai chaque dose = 1 niveau = 1
modalité
Les facteurs aléatoires
Gradient d’hétérogénéité en expérimentations végétales :
✓
terrain (support de l’expérimentation)
✓
hétérogénéités naturelles [pente, veine de terre, cailloux]
✓
hétérogénéités liées à l'homme [haie, remembrement]
Interventions sur l’expérimentation
✓
hétérogénéités liées au travail du sol (réglage des outils, conditions des interventions)
✓
hétérogénéités liées aux interventions culturales (applications de produits phytosanitaires, de
fertilisants).
Les traitements
Un traitement : toute combinaison de différentes modalités, niveaux ou variantes de facteurs
étudiés.
Ex : essai comparatif de 3 variétés de blé :
1 facteur étudié = variété
✓
3 variétés = 3 variantes du facteur étudié = 3 traitements
Unité expérimentale: unité de base de l’expérience :
Exemple : essai avec 3 variétés de blé : 1 variété = 1 traitement = 1 unité expérimentale
elle est traitée individuellement
✓
elle fait l’objet d’au moins une observation
✓
elle est considérée individuellement lors de l’examen des résultats
Dispositif expérimental
Ensemble des parcelles ou unités expérimentales (nombres de traitements x nombre de répétitions)
:
✓
répartition particulière et caractéristique
✓
permet d’étudier un ou plusieurs facteurs
✓
permet de contrôler de 0 à plusieurs facteurs aléatoires en fonction de ses caractéristiques
Choix d’un dispositif expérimental : Il sera fonction :
✓
du nombre de facteurs étudiés
✓
du nombre de gradients d’hétérogénéité (potentiels ou réels)
✓
des contraintes liées à l’expérimentation (mise en place, conduite, observations...)
Les principaux dispositifs expérimentaux classiques
1 facteur étudié + aucun gradient d’hétérogénéité= dispositif en randomisation totale
✓
1 facteur étudié + 1 gradient d’hétérogénéité= dispositif en bloc (Fisher)
✓
1 facteur étudié + 2 gradients d’hétérogénéités = dispositif en carré latin
✓
2 facteurs étudiés + 1 gradient d’hétérogénéité= dispositif en factoriel bloc
✓
2 facteurs étudiés + 1 gradient d’hétérogénéité + 1 contrainte expérimentale= dispositif en split-plot
✓
acteurs étudiés + 1 gradient d’hétérogénéité + des contraintes expérimentales= dispositif en criss-
cross
Le dispositif en randomisation totale :
1 facteur étudié + aucun gradient d’hétérogénéité
✓
La forme du dispositif et la disposition des traitements est entièrement aléatoire
Le dispositif en bloc
1 facteur étudié + 1 gradient d’hétérogénéité
✓
1 répétition = 1 bloc qui suit le sens du gradient repéré
✓
Répartition aléatoire des traitements dans chaque bloc
Dispositif le plus utilisé en expérimentations végétales
5
Le dispositif en carré latin
1 facteur étudié + 2 gradients d’hétérogénéités perpendiculaires
✓
Chaque ligne et chaque colonne sont des blocs
✓
Répartition aléatoire des traitements dans chaque bloc
Chaque traitement figure une seule fois par ligne et par colonne
Le dispositif en factoriel bloc
2 facteurs étudiés + 1 gradient d’hétérogénéité
✓
1 répétition = 1 bloc qui suit le sens du gradient repéré
✓
Répartition aléatoire des traitements dans chaque bloc
6
Le dispositif en split-plot
2 facteurs étudiés + 1 gradient d’hétérogénéité + 1 contrainte expérimentale
✓
Chaque bloc est divisé en autant de sous bloc que de variantes du 1er facteur (facteur qualifié de
principal)
✓
Les traitements du second facteur sont affectés au hasard dans chaque sous bloc (facteur dit
subsidiaire)
Le dispositif en criss-cross
2 facteurs étudiés + 1 gradient d’hétérogénéité + des contraintes expérimentales
✓
Chaque bloc est divisé en autant de sous bloc que de variantes du 1er facteur (facteur qualifié de
principal)
✓
Les traitements du second facteur sont en vis à vis dans chaque sous bloc (facteur dit subsidiaire)
7
La réalisation de l’essai
✓
Quand l'objectif est bien défini, quand le type de dispositif est choisi, il faut faire le plan de
l'essai. Il représente l'agencement géographique (photographie aérienne), de toutes les
parcelles de l'essai.
✓
Il faut toujours prévoir des bandes de bordure de part et d'autre de l'essai pour éviter les
phénomènes de bordure.
8
ANALYSE DE LA VARIANCE A UN CRITERE DE
CLASSIFICATION
9
I- Les aspects descriptifs
I-1 Principes généraux
Les notions de modèle observé et de tableau d’analyse de la variance (ANOVA), et la
réalisation pratique de l’analyse. Il nous paraît en effet important, tant pour la
compréhension que pour l’utilisation de l’analyse de la variance, de conserver une certaine
aptitude au calcul «manuel », en particulier en ce qui concerne la détermination des
sommes des carres des écarts (SCE).
La décomposition de la variation totale
1◦ Nous supposerons qu’on dispose au départ de p échantillons ou séries d’observations,
d’effectifs ni (i = 1, . . ., p), et nous désignerons l’effectif total par n. :
2◦ Nous désignerons aussi les différentes observations par le symbole (i = 1 , . .,p) et (k
= 1 , . . . , ni), la valeur étant donc la observation du ´echantillon. On peut
en déduire p moyennes relatives aux p échantillons, et une moyenne générale
3◦ En fonction de ces différents éléments, il est possible de subdiviser les écarts entre les
observations individuelles et la moyenne générale en deux composantes additives :
La composante globale est appelée variation totale et les deux composantes partielles sont
appelées, d’une part, variation factorielle ou liée au facteur contrôlé, ou encore entre
échantillons, et d’autre part, variation résiduelle ou dans les échantillons.
4◦ En élevant au carré les deux membres de la relation précédente, et en sommant
pour toute les valeurs observées, on obtient l’´equation d’analyse de la variance:
10
On constate ainsi que la somme des carrés des écarts par rapport à la moyenne générale, est
appelée somme des carres des écarts totale : SCEt , peut elle aussi être divisée en deux
composantes additives : une somme des carrés des écarts factorielle : SCEa ou entre
échantillons, et une somme des carrées des écarts résiduelle SCEr, on peut résumer
l’´equation d’analyse de la variance sous la forme :
5◦ Des nombres de degrés de liberté : ddl peuvent être associés aux différentes sommes
des carrés des écarts. Ces nombres de degrés de liberté sont aussi additifs et se présentent
de la manière suivante :
6◦ En divisant les sommes des carrés des écarts par leurs nombres de degrés de liberté
respectifs, on définit des quantités appelées carré moyen total : CMt, un carré moyen
factoriel : CMa ou entre échantillons, et un carré moyen résiduel : CMr ou dans les
échantillons:
Ces carrés moyens sont aussi appelés variances et ils possèdent d’ailleurs certaines des
propriétés des variances, notamment en ce qui concerne leurs distributions
d’´echantillonnage.
11
7◦ Tableau d’analyse de la variance (ANOVA) : un critère de classification ou à un
seul Facteur
8◦ Le rapport des sommes des carrés des écarts factorielle sur la somme carrés des écarts
totale permet de définir facilement le rapport de corrélation, aussi appelé coefficient de
corrélation non linéaire :
D’une manière générale, ce paramètre joue, dans le cas d’une relation liant les différents
échantillons et les différentes observations. Le rapport de corrélation est toujours compris
entre 0 et 1. Il est égal à 0 quand toutes les moyennes sont ´égales entre elles, et il est
égal à 1 quand les variances des différents échantillons sont toutes nulles.
Certains logiciels associent systématiquement le carré du rapport de corrélation à toutes les
analyses de la variance, en utilisant la notation r² ou R², et non pas η² ou tout autre symbole
particulier. S’il s’agit bien l`a d’un paramètre jouant un rôle comparable `a celui du
coefficient de détermination, il y a lieu toutefois d’être attentif au fait qu’il ne s’agit
nullement, d’une façon générale, du carré d’un coefficient de corrélation classique.
Application
Dans cet exemple, nous allons vérifier s’il existe ou non, en moyenne, des différences
significatives de hauteurs entre les trois types de forêts, et chiffrer éventuellement ces
différences. Les hauteurs en mètre de 37 arbres sont mentionnées dans le tableau 1 suivant :
12
Tableau1. Comparaison des hauteurs des arbres de trois types de hêtraies : hauteurs
Observées, en mètres et rangs.
Les moyennes correspondantes sont :
¯x1 = 25,97 (23,4+24,4+…….+27,7)/13
¯x2 = 25,39 (22,5+22,9+……..+28,5)/14 ,
¯x3 = 23,14 (18,9+21,1+……..+26,7)/10 et la moyenne générale
¯x = 24,98 m. (25,97x 13+(25,39x14)+(23,14x10)/37
Prenant la première observation du premier échantillon (x11 = 23,4), le modèle observé
d’analyse de la variance s’´ecrit :
SCEt =165,5198
L’écart négatif de 1,58 m entre cette observation particulière et la moyenne générale
provient, à la fois, du fait que l’endroit considère appartient à un type de forêts dont la
moyenne est supérieure de 0,99 m, par rapport à la moyenne générale, et que cet endroit
présente une hauteur inferieure de 2,57 m, par rapport à la moyenne de toutes les
observations relatives à ce type de forêts.
Un calcul similaire pourrait être réalise pour chacune des 36 autres valeurs.
En sommant les carrés des écarts ainsi obtenus, on aboutirait aux trois sommes des carrés
des écarts définies précédemment : pour cela on obtient les sommes des carrés de la
manière suivante :
13
SCEt = (−1,58)² +(−1,58)² +(–0,58)² + (– 0,38)² +…………….……………….…………+ (1,82)²=165,53
SCEa = (0,99)²*13 +(0,41)²* 14+(1,84)²*10= 48,88
SCEr = (−2,57)²+(−1,57)²+(−1,37)²+(−1,07)²+……………………………………………+(+3,56)²=116,53
Cette façon de procéder est pour bien saisir le mécanisme de l’analyse de la variance.
Le tableau ci-dessous présente les sommes des carrés des écarts qui sont ainsi obtenues, les
nombres de degrés de liberté et les carrés moyens.
On applique ces 3 formules on obtient les carrés moyens respectifs dont n=37 arbres et p=3
2- Tableau d’analyse de la variance de la comparaison des hauteurs moyennes des arbres
de trois types de hêtraies
Ce carré moyen total (ou cette variance totale), auquel correspond un écart type égal `a 2,14
m (c’est la racine carrée du CMt), mesure globalement l’hétérogénéité des hauteurs, sans
tenir compte de la subdivision en trois types de forêts. Le carré moyen résiduel (ou la
variance résiduelle), auquel est associé un écart-type égal à 1,85 m (racine carrée du CMr),
mesure, toujours globalement, l’hétérogénéité des hauteurs à l’intérieure des trois types de
forêts. Il faut rappeler que
Enfin, le carré moyen factoriel (CMa), qui est de loin supérieur aux deux autres, met en
évidence l’existence de différences importantes de hauteur d’un type de hêtraies à l’autre.
En outre, on peut compléter l’analyse par le calcul du rapport de corrélation ou de
son carre :
η² = 48,88/165,53 = 0,30.
14
Ce paramètre mesure le degré de dépendance de la variable quantitative « hauteur des
arbres » en fonction de la caractéristique nominale « type de hêtraies ». Comme un
coefficient de détermination, il indique que 30 % de la variation totale peut être expliquée
par les différences entre types de forets.
La réalisation de l’analyse de la variance
1◦ Nous donnons à titre indicatif, quelques informations relatives à la réalisation de l’analyse
de la variance en. Cette réalisation consiste essentiellement en une suite de déterminations
de sommes de carrés d’écarts (SCE), semblables à celle qui peut être effectuée pour toute
série d’observations
2◦ En ce qui concerne la somme des carrés des écarts résiduelle, on peut calculer
séparément les sommes des carrés des écarts relatives aux différents échantillons ou séries
d’observations, et sommer ensuite les résultats ainsi obtenus. Si on désigne par Xi. et SCEi ,
respectivement, les sommes et les sommes des carrés des écarts relatives aux différentes
séries d’observations, on a :
En réalité, la détermination des sommes des carrés des écarts individuelles SCEi n’est pas
indispensable, en vue de calculer la somme des carrés des écarts résiduelle, mais cette
détermination permet d’obtenir facilement les variances des différentes séries
d’observations et donc de comparer ces variances, préalablement à toute inférence
statistique.
3◦ Quant à la somme des carrés des écarts totale (SCEt), on a, toujours par analogie avec le
cas d’une seule série d’observations :
Le symbole X.., désignant la somme de l’ensemble des n. observations :
On remarquera que le premier terme qui intervient dans la relation relative à la somme des
carrés des écarts totale SCEt n’est autre que la somme des premiers termes qui se
présentent dans l’expression relative aux sommes des carrés des écarts individuelles SCEi .
4◦ Enfin, la somme des carrés des écarts factorielle (SCEa) peut être obtenue soit
par différence :
15
SCEa = SCEt − SCEr
Soit par la relation :
Application : Dans l’exemple du tableau 1 comparaison des hauteurs des arbres de 3 types
de hêtraies : réalisation de l’analyse de la variance.
On calcul les SCE individuelles séparément selon la formule :
SCE1 = (23,4²+24,4²+……….+27,7²) - (23,4+24,4+………+27,7)²= 8.789,36 − 337,62²/13 = 22,15
SCE2 = (22,5²+22,9²+……….+29,5²) - (22,5+22,9+……….+29,5)²=9.062,96 − 355,42²/14 = 40,88
SCE3 = (18,9²+21,1²+……….+26,7²) - (18,9+21,1+……….+26,7)²= 5.408,22 −231,42²/10 = 53,62
SCEr = 22,15 + 40,88 + 53,62 = 116,65 ,
SCEt=(23,4−24,98)²+(24,4−24,98)²+(24,6−24,98)²+…………………..+(27,7−24,98)²+(22,5−24,98)²
+(22,9−24,98)²+(23,7−24,98)²+………..…………….…+(28,5-24,98)²+(18,9−24,98)²+(21,1− 24,98)²
+ (21,2− 24,98)²+……….…..+ (26,7− 24,98)²= (23.260,54 − 924,42²/37 =
165,53 SCEt=165,53 et
SCEa = SCEt − SCEr
5° Le test de l’hypothèse nulle émise nécessite le calcul de la quantité :
Le rejet de l’hypothèse, au niveau de probabilité α , intervient quand cette quantité
est trop élevée, c’est-à-dire quand :
avec p − 1 et n. − p degrés de liberté. Le caractère unilatéral du test résulte de ce que, dans
tous les cas ou l’hypothèse nulle est fausse, les valeurs Fobs dépassent en moyenne les
valeurs que donnent normalement les distributions F de Fisher-Snedecor.
Le rejet de l’hypothèse nulle, relative à un ensemble de p moyennes, soulève la question
de savoir quelles sont les moyennes qui différent significativement les unes des autres
16
En outre, on peut calculer comme suit des limites de confiance, pour les moyennes mi et
pour les différences de moyennes mi –mi’ :
La variable t de Student étant une variable à n − p degrés de liberté. Ces formules sont
semblables à celles qui concernent une ou deux populations, la seule différence étant que les
estimations antérieures de la variance σ² sont remplacées ici par CMr.
Des limites de confiance relatives à la variance σ² et à l’écart-type σ peuvent également être
obtenues selon les procédures habituelles, à partir de la somme des carrés des écarts ou du
carré moyen résiduel, et grâce à la distribution χ² à n – p degrés de liberté.
Application : l’exemple du tableau1 : comparaison des hauteurs des arbres de 3
types hêtraies suite de l’analyse de la variance :
Nous pouvons maintenant clôturer l’analyse de la variance que nous avons entamée `
A partir du tableau 1, on obtient selon la formule de la Fobs :
CMa= carré moyen factoriel= 48,88/3-1=24,44
CMr= carré moyen résiduel=116,65/37-3=3,43
Fobs=24,44/3,43=7,12 et P(F ≥ 7,12) = 0,0026
Conclusion : avec 2 et 34 degrés de liberté. L’hypothèse d’égalité des hauteurs moyennes des
arbres dans les trois types de hêtraies doit donc être rejetée, même au niveau de probabilité
0,01 : les différences observées sont hautement significatives.
Les limites de confiance des différences sont, pour un degré de confiance égal à 0,95 et
pour les deux premiers types de forets :
pour le premier et le troisième type de forêts :
et pour les deux derniers types de forêts :
Le fait que le premier intervalle de confiance englobe la valeur zéro indique qu’il n’y a pas de
différence significative entre les deux premiers types de hêtraies, ce qui était déjà la
17
conclusion de l’exemple. On peut en conséquence calculer éventuellement une moyenne
globale pour l’ensemble de ces deux types :
et déterminer des limites de confiance relatives à la différence entre cette nouvelle
moyenne et la moyenne du troisième type de forets :
La conclusion finale serait ainsi qu’il n’y a pas de différence significative de hauteur des
arbres entre les deux premiers types de hêtraies, qu’il existe au contraire une différence
hautement significative de hauteur entre ces deux types et le troisième, et que cette
différence peut être estimée à 2,5 m, avec des limites de confiance égales à 1,1 et 3,9 m, au
degré de confiance habituel (1 − α = 0,95).
En vue de tenir compte du fait qu’on procède en réalité `a trois comparaisons, dans la
détermination des trois intervalles de confiance initiaux, on aurait pu remplacer la valeur t
classique , par une valeur t définie au sens de Bonferroni:
.
Cette façon de faire aurait conduit à étendre assez sensiblement les différents intervalles de
confiance, sans modifier, dans le cas présent, les conclusions finales.
18
RESUME DE L’ANOVA A UN CRITERE DE CLASSIFICATION
19
I- ANOVA à un facteur - Introduction
1-Analyse de la variance :
L'analyse de la variance a pour but la comparaison des moyennes de k populations, à partir
d'échantillons aléatoires et indépendants prélevés dans chacune d'elles.
Ces populations sont en général des variantes (ou niveaux k) d'un ou plusieurs facteurs contrôlés de
variation (facteurs A, B, ...).
2-Conditions d'applications de l'ANOVA
• Les populations étudiées suivent une distribution normale
• Les variances des populations sont toutes égales (HOMOSCEDASTICITE)
• Les échantillons Ei de tailles ni sont prélevés aléatoirement et indépendamment dans les populations.
3-Procédure de calcul d'une ANOVA
• Déterminer si les échantillons varient de la même manière.
• Si nous démontrons l'homogénéité des variances, alors nous pouvons comparer les
moyennes de ces échantillons.
4-Problèmes liés à l'égalité des variances
Test de l'homogénéité des variances
: Les variances sont homogènes
: Au moins une des variances est différente des autres
✓
Utilisation d'un test de comparaison de plusieurs variances
5-Conclusion
: Est rejetée : il est théoriquement impossible de comparer des échantillons qui ne varient
pas de la même manière.
: N’est pas rejetée : par conséquent, il est possible de comparer les moyennes de tels
échantillons
6-Expérience avec k échantillons - Données initiales
20
• Soit une Expérience faisant intervenir k échantillons de ni individus.
• Le nombre total d'individus est
• On calcule la moyenne générale des mesures de l'expérience (G).
Variabilité totale
• Variabilité totale au sein de l'expérience (quel que soit l'échantillon) : reflète les écarts
de tous les individus par rapport à la moyenne générale (G) de l'expérience.
• Calcul de la Somme des Carrés des Écarts à la moyenne totale SCEr
• Degrés de liberté (DDL) associés : N-1.
Variabilité factorielle
• Variabilité factorielle : reflète les écarts des moyennes des échantillons (supposées
influencées par le facteur étudié) par rapport à la moyenne générale (G) de l'expérience.
• Calcul de la Somme des Carrés des Écarts à la moyenne factorielle (SCEF)
• DDL associés : k-1
21
Variabilité résiduelle
• Variabilité résiduelle (liée à l'individu) : reflète l'importance des variations individuelles dans
chaque échantillon.
• Calcul de la Somme des Carrés des Écarts à la moyenne résiduelle SCER
• DDL associés : N-k.
Bilan
Pour résumer :
• SCET=SCEF+SCER
• DDL associés : N-1 = k-1 + N-k.
• On comparera les variabilités factorielles s²F=SCEF/k-1 et résiduelle s²R=SCER/N-K
22
Comparaison des moyennes - Hypothèses
Ho : toutes les moyennes sont identiques
H1 : au moins une des moyennes est différente des autres
Variances totale, factorielle, résiduelle
ANOVA à un facteur - Conclusion
Tableau d'analyse de la variance :
SCET=SCEF+SCER
• F suit une loi de Snédécor à
• (test unilatéral : le rapport n’est pas obligatoirement supérieur à 1)
23
Choix du risque
• Risque de première espèce (erreur commise lorsqu’on rejette à tort)
Décision
Si => rejet de au risque :
La variance factorielle est significativement supérieure à la variance résiduelle : les
moyennes diffèrent significativement entre-elles. → on attribue une influence significative au
facteur étudié.
Recherche du degré de signification p (recherche du risque le plus petit possible pour
conclure au rejet de
Sinon rien ne permet de dire que les moyennes des populations ne sont pas égales => n’est pas
rejetée.
24
ANALYSE DE LA VARIANCE A DEUX CRITERE DE CLASSIFICATION
25
L’analyse de la variance à deux critères de classification
1- Introduction
1◦ L’analyse de la variance à deux critères de classification
Les deux facteurs envisagés peuvent être soit placés sur pied d’égalité dans ce cas les
modèles d’analyse de la variance sont dits croisés, soit au contraire subordonnés l’un à l’autre les
modèles sont dits hiérarchisés. Le cas hiérarchique est parfois qualifié aussi de multi-niveaux.
.
Dans les différents cas, on doit également faire la distinction entre les modèles fixes, les modèles
aléatoires et les modèles mixtes.
2◦ Nous considérerons tout d’abord les aspects descriptifs, puis les aspects inferentiels de l’analyse à
deux critères, en nous limitant dans un premier temps aux modèles croisés à effectifs égaux. Nous
envisagerons ensuite les modèles croisés à effectifs inégaux et les modèles hiérarchisés.
3◦ Les conditions d’application sont: populations normales et de même variance, et échantillons
aleatoires, simples et indépendants.
2- Les modèles croisés à effectifs égaux : Aspects descriptifs
- La décomposition de la variation totale
Considérons p q échantillons ou séries d’observations de même effectif n, et désignons les
observations individuelles par , les indices i, j et k étant relatifs respectivement aux différentes
modalités du premier critère de classification (i = 1 , . . . , p), aux différentes modalités du deuxième
critère de classification (j = 1 , . . . , q), et aux différentes observations d’un même échantillon ou
d’une même série (k = 1 , . . . , n).
A partir de telles données, on peut calculer différentes moyennes, à savoir une moyenne pour
chacun des échantillons ou séries d’observations (i = 1 , . . . , p et j = 1 , . . . , q) :
Une moyenne pour chacune des modalités de chacun des deux critères de classification (i = 1 , . . . , p
d’une part, et j = 1 , . . . , q d’autre part) :
et une moyenne générale :
26
- subdivision des écarts par rapport à la moyenne générale : en deux, puis en quatre
composantes :
La première décomposition est identique à celle qui a été réalisée en analyse de la variance à un
critère de classification. La seconde décomposition, qui constitue le modèle observé de l’analyse de
la variance à deux critères de classification, fait apparaitre deux termes de variation factorielle,
relatifs à l’un et l’autre des deux facteurs, un terme dit d’interaction, et un terme de variation
résiduelle.
- Par élévation au carré et sommation pour les n p q observations, on obtient ensuite
l’´equation d’analyse de la variance :
Les deux premières composantes sont des sommes de carrés d’écarts factorielles, la troisième est
une somme de carré d’écarts liée à l’interaction, et la quatrième est une somme de carrés d’écarts
résiduelle.
En affectant les lettres a et b , respectivement, à chacun des deux critères de classification, et en
désignant les différents termes par SCEt , SCEa , SCEb , SCEab et SCEr , on peut écrire aussi, de façon
simplifiée :
- Aux différentes sommes des carrés des écarts, peuvent être associés des nombres de degrés
de liberté, qui sont liés par la relation :
p q n−1 degrés de liberté pour la somme totale, puisqu’elle fait intervenir globalement les p q n
observations individuelles,
p−1 et q−1 degrés de liberté pour les deux sommes factorielles, puisqu’elles sont calculées
respectivement à partir de p et de q moyennes,
p q (n−1) degrés de liberté pour la somme résiduelle, puisqu’elle fait intervenir p q échantillons de n
observations, et
(p − 1) (q − 1) degrés de liberté pour la somme des carrés des écarts de l’interaction.
- Enfin, en divisant les différentes sommes des carrés des écarts par leurs nombres de degrés
de liberté, on obtient les carrés moyens CMt , CMa , CMb , CMab et CMr . L’ensemble des résultats
peut alors être présent sous la forme d’un tableau d’analyse de la variance ou ANOVA
27
Tableau 3. Analyse de variance (ANOVA) à deux critères de classification : modèles croisés à
Effectifs égaux
Application : Comparaison de trois types de sondes dans deux types de sols : analyse de
la variance.
Au cours d’une étude relative aux problèmes d’échantillonnage du sol, on a comparé, dans plusieurs
types de sols, différents types de sondes destinées à prélever des échantillons de terre, en
effectuant chaque fois diverses analyses chimiques. On s’intéresse principalement aux différences
qui pourraient exister d’un type de sondes à l’autre et aux interférences éventuelles des types de
sondes avec les types de sols.
Le tableau suivant est relatif à deux types de sols, à trois types de sondes, et aux teneurs en P2O5 ,
mg par 100 g de terre sèche, chacune des combinaisons sol-sonde ayant été l’objet de quatre
prélèvements indépendants les uns des autres.
Ce tableau présente à la fois les données initiales xijk , et les moyennes par type de sols et type de
sondes ¯xij. , par type de sols ¯xi.. , par type de sondes ¯x.j. , et générale ¯x... , toutes les moyennes
étant volontairement calculées avec une précision quelque peu abusive.
Tableau. Teneurs en P2O5 , en mg par 100 g de terre sèche, et moyennes observées, pour deux
types de sols et trois types de sondes.
= Moy. sonde1 pour le sol1=46,75= (43+45+46+53)/4
Moy. sonde1 pour le sol2=40,75= (40+40+40+43)/4
28
Moy. sonde2 pour le sol1=42,50= (41+42+43+44)/4
Moy. sonde2 pour le sol2=38,00= (35+37+40+40)/4
Moy. sonde3 pour le sol1=45,00= (42+44+46+48)/4
Moy. sonde3 pour le sol2=39,00= (37+39+40+40)/4
=43,75= (46,75+40,75)/2 sonde1 pour les 2 sols
=40,25= (42,50+38,00)/2 sonde2 pour les 2 sols
=42,00= (45,00+39,00)/2 sonde3 pour les 2 sols
=44,75= (46,75+42,50+45,00)/3
=39,25= (40,75+38,00+39,00)/3
=42,00= (44,75+39,25)/2
Tableau. Comparaison de trois types de sondes dans deux types de sols : tableau partiel d’analyse de
la variance (aspects descriptifs).
NB : Appliquer les formules et vérifier les valeurs des SCE et les CM
La réalisation de l’analyse de la variance
1◦ Nous désignerons par , respectivement, les sommes et les sommes des carrés des
écarts relatives aux différentes séries d’observations, et aussi par Xi.. , X.j. et X..., les sommes
relatives aux différentes modalités des deux critères de classification et la somme générale de toutes
les observations.
2◦ Les différentes sommes des carrés des écarts peuvent alors être obtenues à l’aide des relations suivantes :
29
Application. Comparaison de trois types de sondes dans deux types de sols : réalisation de l’analyse
de la variance.
Les différentes sommes sont :
X11. =(43+45+46+53)= 187, X12. = 163 , X13. = 180 ,
X21. = 170 , X22. = 152 ,
X23. = 156 ,
X1.. = 537, X2.. = 471 , X.1. = 350 , X.2. = 322 , X.3. = 336 , X... = 1.008 .
Calculées selon les principes habituels, les sommes des carrés des écarts relatives aux six séries
d’observations sont aussi :
SCE11 = (43²+45²+46²+53²)-(43+45+46+53)²/4=56,8
SCE12 = (40²+40²+40²+43²)-(40+40+40+43)²/4= 6,8
SCE13 = (42²+44²+46²+48²)-(42+44+46+48)²/4= 20,0
SCE21 = (41²+42²+43²+44²)-(41+42+43+44)²/4= 5
SCE22 = (35²+37²+40²+40²)-(35+37+40+40)²/4=18,0
SCE23 = (37²+39²+40²+40²)-(37+39+40+40)²/4= 6,0
SCEt = (43-42)²+(45-42)²+(46-42)²+(53-42²+(40-42) ²+(40-42) ²+(40-42) ²+(43-42) ²+(42-42) ²+ (44-42)
²+(46-42) ²+(48-42)²+(41-42) ²+(42-42) ²+(43-42) ²+(44-42) ²+(35-42) ²+(37-42) ²+(40-42) ²+(40-42)
²+(37-42) ²+(39-42) ²+(40-42) ²+(40-42) ²=346
SCEr= SCE11+ SCE12+ SCE13+ SCE21 +SCE22 +SCE23= 56,8 +6,8 + 20,0 +5 +18,0+ 6,0= 112,6
Comparaison de trois types de sondes dans deux types de sols : tableau complet d’analyse de
la variance.
On constate tout d’abord que l’interaction est non significative. Le test confirme donc la conclusion
intuitive que les différences entre types de sondes ne dépendent pas des types de sols et vice versa
Par contre, les différences observées sont très hautement significatives en ce qui concerne les types
de sols, et juste significatives en ce qui concerne les types de sondes.
La comparaison, plus intéressante, des trois types de sondes est un problème qui peut être traité
notamment par la méthode de Newman et Keuls. Cette méthode permet de montrer que les
résultats obtenus à l’aide du premier type de sondes sont significativement supérieurs aux résultats
fournis par le deuxième type de sondes, le troisième type conduisant à des résultats intermédiaires,
qui ne sont pas significativement différents des deux autres.
les valeurs suivantes des variables F de Fisher-Snedecor : Fa = 1,69 , Fb = 0,66 et Fab =
2,96 les probabilités correspondantes sont respectivement égales à 0,21 , 0,53 et 0,077
30
RESUME DE L’ANOVA A DEUX
CRITERES DE CLASSIFICATION
31
II- ANOVA à deux facteurs - Introduction
1-Définition
• Étude simultanée d’un facteur A à p modalités et d’un facteur B à q modalités.
• Pour chaque couple de modalités (A, B) :
o On a un échantillon
o Tous les Eij sont de mêmes tailles n.
2-Conditions d'applications de l'ANOVA
• Les populations étudiées suivent une distribution normale
• Les variances des populations sont toutes égales (HOMOSCEDASTICITE)
• Les échantillons Ei de tailles ni sont prélevés aléatoirement et indépendamment dans les
populations.
3-Procédure de calcul d'une ANOVA
• Déterminer si les échantillons varient de la même manière.
• Si nous démontrons l'homogénéité des variances, alors nous pouvons comparer les
moyennes de ces échantillons.
4-Problèmes liés à l'égalité des variances
Test de l'homogénéité des variances :
• les variances sont homogènes
• Au moins une des variances est différente des autres
→ Utilisation d'un test de comparaison de plusieurs variances
5-Conclusion
• Si est rejetée : il est théoriquement impossible de comparer des échantillons qui ne
varient pas de la même manière.
• Si n’est pas rejetée : par conséquent, il est possible de comparer les moyennes de tels
échantillons
6-Application : Tests possibles
• Influence du facteur A seul
• Influence du facteur B seul
• Interaction des deux facteurs:
✓
Si influence d'un facteur sur la moyenne des populations est différente en l'absence ou
en la présence de l'autre facteur
Hypothèses
32
: Le facteur A n’a pas d’influence sur la moyenne des populations.
: Le facteur B n’a pas d’influence sur la moyenne des populations.
: Il n’y a pas d’interaction entre les facteurs A et B.
: Au moins une des moyennes est différentes des autres.
Variances totale, factorielle, résiduelle
33
Décomposition de la variance factorielle
Conclusion
Tableau d'analyse de la variance :
34
Décision
35
Analyse De La Variance A Trois Critères De Classification
36
L’analyse de la variance à trois critères de classification :
Modèles croisés à effectifs égaux
Principes généraux
Nous présenterons successivement les aspects descriptifs et les aspects inférentiels de l’analyse à
trois critères, en nous limitant, dans un premier temps, aux échantillons de plusieurs observations.
Nous envisagerons ensuite le cas particulier des échantillons d’une seule observation.
- Les aspects descriptifs : échantillons de plusieurs observations
1◦ Pour trois critères de classification et dans le cas des effectifs égaux, on peut considérer qu’on a p
q r échantillons ou séries d’observations d’effectif n, et designer les observations individuelles par
(i = 1 , . . . , p , j = 1 , . . . , q ,k = 1 , . . . , r , et l = 1 , . . . , n). A partir de ces observations, on
peut calculer les différentes moyennes suivantes :
Ces moyennes sont relatives, respectivement, aux différentes combinaisons des modalités des trois
facteurs considérés simultanément (p q r moyennes ), aux différentes combinaisons des
modalités des trois facteurs considérés deux à deux (p q moyennes , p r moyennes , et
q r moyennes ), aux différentes modalités des trois facteurs considérés individuellement
(p moyennes ), q moyennes et r moyennes ) et à l’ensemble des p q r n
observations (moyenne générale ). Dans ces conditions, le modèle observé s’écrit :
Le deuxième membre de ce modèle contient : trois termes de variation factorielle liés
individuellement aux trois critères de classification, trois termes d’interaction des différents
facteurs considérés deux à deux, un terme d’interaction des trois facteurs considérés
simultanément, et un terme de variation résiduelle.
Les interactions des différents facteurs considérés deux à deux se présentent et doivent être
interprétées comme en analyse de la variance à deux critères de classification. Ces interactions
simples sont appelées interactions de deux facteurs ou interactions du premier ordre.
L’´equation d’analyse de la variance relative à ce modèle observé est :
37
Aux différentes sommes des carrés des écarts, correspondent des nombres de degrés de liberté liés
par la relation :
La division des sommes des carrés des écarts par les nombres de degrés de liberté permet de définir
les carrés moyens, et l’ensemble des résultats peut être présente sous la forme d’un tableau
d’analyse de la variance.
Application. ´Etude de la résistance de panneaux de particules à l’arrachage des clous : réalisation
de l’analyse de la variance
Au cours d’un essai préliminaire, destin à préciser les conditions de mesure de cette propriété, on à
étudié simultanément l’influence de trois facteurs : la grosseur des clous, le diamètre des anneaux
sur lesquels sont déposées les éprouvettes soumises aux essais, et la vitesse d’arrachage. Les essais
ont été effectues sur des éprouvettes carrées de 50 mm de coté, les modalités des trois facteurs
étant : 6,5 et 8 mm de diamètre en ce qui concerne les tètes des clous (i = 1 et 2), 22 et 30 mm de
diamètre en ce qui concerne les diamètres des anneaux servant de supports (j = 1 et 2), 22 , 45 et 90
mm par minute en ce qui concerne les vitesses d’arrachage (k = 1 , 2 et 3). En outre, cinq éprouvettes
ont été utilisées pour chacune des 12 combinaisons des modalités des trois facteurs (l = 1 , . . . , 5).
Tableau .Resistance de panneaux de particules à l’arrachage des clous (xijkl), en kg, pour deux
grosseurs de clous (i), deux diamètres d’anneaux (j), trois vitesses d’arrachage (k), et dans chaque
cas cinq éprouvettes (l).
Resistance de panneaux de particules `a l’arrachage des clous (xijkl), en kg, pour deux grosseurs de
clous (i), deux diamètres d’anneaux (j), deux vitesses d’arrachage (k), et dans chaque cas cinq
éprouvettes.
Ce tableau permet de calculer facilement les sommes de produits suivantes :
38
Tableau . Etude de la résistance de panneaux de particules à l’arrachage des clous : tableau
d’analyse de la variance
Références bibliographiques
Dagnelie, 2013
Kwanchai a. gomez, 2008
Mondher abrougui, 2008
Yves tille, 2010
Foued ben said, 2013
39