0% ont trouvé ce document utile (0 vote)
671 vues39 pages

Cours de Statistiques en Agronomie

Le document décrit les principes de base de la conception et de la réalisation d'expériences, y compris l'élaboration d'un protocole expérimental, les facteurs étudiés et aléatoires, les traitements, les dispositifs expérimentaux et l'analyse de la variance.

Transféré par

Blast Mind
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
671 vues39 pages

Cours de Statistiques en Agronomie

Le document décrit les principes de base de la conception et de la réalisation d'expériences, y compris l'élaboration d'un protocole expérimental, les facteurs étudiés et aléatoires, les traitements, les dispositifs expérimentaux et l'analyse de la variance.

Transféré par

Blast Mind
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE

MINISTERE DE L’ENSEIGNEMENT SUPERIEUR ET DE LA RECHERCHE

SCIENTIFIQUE

Université Ferhat Abbas Sétif 1 - Faculté des Sciences de la Nature et de la Vie

Département d’agronomie

Polycopié de cours de Statistiques


Destiné aux étudiants de Licence en
Protection des Végétaux Agronomie

Dr Mebarkia Amar

1
Expérimentation

2
Expérimentation


Elle permet de provoquer un phénomène en vue d’en étudier les conséquences. Pour cela on doit :

- maîtriser le contexte
- organiser l’expérience

Ce qui nous amène à Élaborer un protocole expérimental

L’élaboration d’un protocole expérimental est basé sur :



thème,

Objectifs de l’essai

facteurs et traitements retenus

dispositif expérimental (plan d’expérience)

conduite de l’essai

observations à réaliser

budget

Les facteurs : Toute série d’éléments de même nature qui peuvent être comparés au cours d’une
expérimentation

Facteurs (étudiés, aléatoires, contrôlés)

Facteurs étudiés (qualitatifs, quantitatifs)

Facteurs aléatoires

- Facteurs étudiés : introduits volontairement (variétés, doses de fertilisants, produits


phytosanitaires...)
- Facteurs aléatoires : terrain, environnement de l’essai = facteurs contrôlés lorsque le dispositif
expérimental utilisé les prend en compte

Les facteurs étudiés



facteur étudié qualitatif: les variétés dans un essai chaque variété = 1 variante

facteur étudié quantitatif : (numérique) ex : doses d’azote dans un essai chaque dose = 1 niveau = 1
modalité

Les facteurs aléatoires

Gradient d’hétérogénéité en expérimentations végétales :



terrain (support de l’expérimentation)

hétérogénéités naturelles [pente, veine de terre, cailloux]

hétérogénéités liées à l'homme [haie, remembrement]
Interventions sur l’expérimentation

hétérogénéités liées au travail du sol (réglage des outils, conditions des interventions)

hétérogénéités liées aux interventions culturales (applications de produits phytosanitaires, de
fertilisants).

Les traitements

Un traitement : toute combinaison de différentes modalités, niveaux ou variantes de facteurs


étudiés.
Ex : essai comparatif de 3 variétés de blé :
1 facteur étudié = variété

3 variétés = 3 variantes du facteur étudié = 3 traitements

Unité expérimentale: unité de base de l’expérience :

Exemple : essai avec 3 variétés de blé : 1 variété = 1 traitement = 1 unité expérimentale


elle est traitée individuellement

elle fait l’objet d’au moins une observation

elle est considérée individuellement lors de l’examen des résultats

Dispositif expérimental

Ensemble des parcelles ou unités expérimentales (nombres de traitements x nombre de répétitions)


:

répartition particulière et caractéristique

permet d’étudier un ou plusieurs facteurs

permet de contrôler de 0 à plusieurs facteurs aléatoires en fonction de ses caractéristiques

Choix d’un dispositif expérimental : Il sera fonction :



du nombre de facteurs étudiés

du nombre de gradients d’hétérogénéité (potentiels ou réels)

des contraintes liées à l’expérimentation (mise en place, conduite, observations...)

Les principaux dispositifs expérimentaux classiques


1 facteur étudié + aucun gradient d’hétérogénéité= dispositif en randomisation totale

1 facteur étudié + 1 gradient d’hétérogénéité= dispositif en bloc (Fisher)

1 facteur étudié + 2 gradients d’hétérogénéités = dispositif en carré latin

2 facteurs étudiés + 1 gradient d’hétérogénéité= dispositif en factoriel bloc

2 facteurs étudiés + 1 gradient d’hétérogénéité + 1 contrainte expérimentale= dispositif en split-plot

acteurs étudiés + 1 gradient d’hétérogénéité + des contraintes expérimentales= dispositif en criss-
cross
Le dispositif en randomisation totale :

1 facteur étudié + aucun gradient d’hétérogénéité



La forme du dispositif et la disposition des traitements est entièrement aléatoire

Le dispositif en bloc
1 facteur étudié + 1 gradient d’hétérogénéité

1 répétition = 1 bloc qui suit le sens du gradient repéré

Répartition aléatoire des traitements dans chaque bloc

Dispositif le plus utilisé en expérimentations végétales

5
Le dispositif en carré latin
1 facteur étudié + 2 gradients d’hétérogénéités perpendiculaires

Chaque ligne et chaque colonne sont des blocs

Répartition aléatoire des traitements dans chaque bloc

Chaque traitement figure une seule fois par ligne et par colonne

Le dispositif en factoriel bloc


2 facteurs étudiés + 1 gradient d’hétérogénéité

1 répétition = 1 bloc qui suit le sens du gradient repéré

Répartition aléatoire des traitements dans chaque bloc

6
Le dispositif en split-plot

2 facteurs étudiés + 1 gradient d’hétérogénéité + 1 contrainte expérimentale


Chaque bloc est divisé en autant de sous bloc que de variantes du 1er facteur (facteur qualifié de
principal)

Les traitements du second facteur sont affectés au hasard dans chaque sous bloc (facteur dit
subsidiaire)

Le dispositif en criss-cross

2 facteurs étudiés + 1 gradient d’hétérogénéité + des contraintes expérimentales


Chaque bloc est divisé en autant de sous bloc que de variantes du 1er facteur (facteur qualifié de
principal)

Les traitements du second facteur sont en vis à vis dans chaque sous bloc (facteur dit subsidiaire)

7
La réalisation de l’essai


Quand l'objectif est bien défini, quand le type de dispositif est choisi, il faut faire le plan de
l'essai. Il représente l'agencement géographique (photographie aérienne), de toutes les
parcelles de l'essai.


Il faut toujours prévoir des bandes de bordure de part et d'autre de l'essai pour éviter les
phénomènes de bordure.

8
ANALYSE DE LA VARIANCE A UN CRITERE DE
CLASSIFICATION

9
I- Les aspects descriptifs

I-1 Principes généraux

Les notions de modèle observé et de tableau d’analyse de la variance (ANOVA), et la


réalisation pratique de l’analyse. Il nous paraît en effet important, tant pour la
compréhension que pour l’utilisation de l’analyse de la variance, de conserver une certaine
aptitude au calcul «manuel », en particulier en ce qui concerne la détermination des
sommes des carres des écarts (SCE).

La décomposition de la variation totale

1◦ Nous supposerons qu’on dispose au départ de p échantillons ou séries d’observations,


d’effectifs ni (i = 1, . . ., p), et nous désignerons l’effectif total par n. :

2◦ Nous désignerons aussi les différentes observations par le symbole (i = 1 , . .,p) et (k


= 1 , . . . , ni), la valeur étant donc la observation du ´echantillon. On peut
en déduire p moyennes relatives aux p échantillons, et une moyenne générale

3◦ En fonction de ces différents éléments, il est possible de subdiviser les écarts entre les
observations individuelles et la moyenne générale en deux composantes additives :

La composante globale est appelée variation totale et les deux composantes partielles sont
appelées, d’une part, variation factorielle ou liée au facteur contrôlé, ou encore entre
échantillons, et d’autre part, variation résiduelle ou dans les échantillons.

4◦ En élevant au carré les deux membres de la relation précédente, et en sommant


pour toute les valeurs observées, on obtient l’´equation d’analyse de la variance:

10
On constate ainsi que la somme des carrés des écarts par rapport à la moyenne générale, est
appelée somme des carres des écarts totale : SCEt , peut elle aussi être divisée en deux
composantes additives : une somme des carrés des écarts factorielle : SCEa ou entre
échantillons, et une somme des carrées des écarts résiduelle SCEr, on peut résumer
l’´equation d’analyse de la variance sous la forme :

5◦ Des nombres de degrés de liberté : ddl peuvent être associés aux différentes sommes
des carrés des écarts. Ces nombres de degrés de liberté sont aussi additifs et se présentent
de la manière suivante :

6◦ En divisant les sommes des carrés des écarts par leurs nombres de degrés de liberté
respectifs, on définit des quantités appelées carré moyen total : CMt, un carré moyen
factoriel : CMa ou entre échantillons, et un carré moyen résiduel : CMr ou dans les
échantillons:

Ces carrés moyens sont aussi appelés variances et ils possèdent d’ailleurs certaines des
propriétés des variances, notamment en ce qui concerne leurs distributions
d’´echantillonnage.

11
7◦ Tableau d’analyse de la variance (ANOVA) : un critère de classification ou à un
seul Facteur

8◦ Le rapport des sommes des carrés des écarts factorielle sur la somme carrés des écarts
totale permet de définir facilement le rapport de corrélation, aussi appelé coefficient de
corrélation non linéaire :

D’une manière générale, ce paramètre joue, dans le cas d’une relation liant les différents
échantillons et les différentes observations. Le rapport de corrélation est toujours compris
entre 0 et 1. Il est égal à 0 quand toutes les moyennes sont ´égales entre elles, et il est
égal à 1 quand les variances des différents échantillons sont toutes nulles.

Certains logiciels associent systématiquement le carré du rapport de corrélation à toutes les


analyses de la variance, en utilisant la notation r² ou R², et non pas η² ou tout autre symbole
particulier. S’il s’agit bien l`a d’un paramètre jouant un rôle comparable `a celui du
coefficient de détermination, il y a lieu toutefois d’être attentif au fait qu’il ne s’agit
nullement, d’une façon générale, du carré d’un coefficient de corrélation classique.

Application

Dans cet exemple, nous allons vérifier s’il existe ou non, en moyenne, des différences
significatives de hauteurs entre les trois types de forêts, et chiffrer éventuellement ces
différences. Les hauteurs en mètre de 37 arbres sont mentionnées dans le tableau 1 suivant :

12
Tableau1. Comparaison des hauteurs des arbres de trois types de hêtraies : hauteurs
Observées, en mètres et rangs.

Les moyennes correspondantes sont :

¯x1 = 25,97 (23,4+24,4+…….+27,7)/13


¯x2 = 25,39 (22,5+22,9+……..+28,5)/14 ,
¯x3 = 23,14 (18,9+21,1+……..+26,7)/10 et la moyenne générale
¯x = 24,98 m. (25,97x 13+(25,39x14)+(23,14x10)/37

Prenant la première observation du premier échantillon (x11 = 23,4), le modèle observé


d’analyse de la variance s’´ecrit :

SCEt =165,5198

L’écart négatif de 1,58 m entre cette observation particulière et la moyenne générale


provient, à la fois, du fait que l’endroit considère appartient à un type de forêts dont la
moyenne est supérieure de 0,99 m, par rapport à la moyenne générale, et que cet endroit
présente une hauteur inferieure de 2,57 m, par rapport à la moyenne de toutes les
observations relatives à ce type de forêts.
Un calcul similaire pourrait être réalise pour chacune des 36 autres valeurs.

En sommant les carrés des écarts ainsi obtenus, on aboutirait aux trois sommes des carrés
des écarts définies précédemment : pour cela on obtient les sommes des carrés de la
manière suivante :

13
SCEt = (−1,58)² +(−1,58)² +(–0,58)² + (– 0,38)² +…………….……………….…………+ (1,82)²=165,53
SCEa = (0,99)²*13 +(0,41)²* 14+(1,84)²*10= 48,88
SCEr = (−2,57)²+(−1,57)²+(−1,37)²+(−1,07)²+……………………………………………+(+3,56)²=116,53

Cette façon de procéder est pour bien saisir le mécanisme de l’analyse de la variance.

Le tableau ci-dessous présente les sommes des carrés des écarts qui sont ainsi obtenues, les
nombres de degrés de liberté et les carrés moyens.

On applique ces 3 formules on obtient les carrés moyens respectifs dont n=37 arbres et p=3

2- Tableau d’analyse de la variance de la comparaison des hauteurs moyennes des arbres


de trois types de hêtraies

Ce carré moyen total (ou cette variance totale), auquel correspond un écart type égal `a 2,14
m (c’est la racine carrée du CMt), mesure globalement l’hétérogénéité des hauteurs, sans
tenir compte de la subdivision en trois types de forêts. Le carré moyen résiduel (ou la
variance résiduelle), auquel est associé un écart-type égal à 1,85 m (racine carrée du CMr),
mesure, toujours globalement, l’hétérogénéité des hauteurs à l’intérieure des trois types de
forêts. Il faut rappeler que

Enfin, le carré moyen factoriel (CMa), qui est de loin supérieur aux deux autres, met en
évidence l’existence de différences importantes de hauteur d’un type de hêtraies à l’autre.

En outre, on peut compléter l’analyse par le calcul du rapport de corrélation ou de


son carre :

η² = 48,88/165,53 = 0,30.

14
Ce paramètre mesure le degré de dépendance de la variable quantitative « hauteur des
arbres » en fonction de la caractéristique nominale « type de hêtraies ». Comme un
coefficient de détermination, il indique que 30 % de la variation totale peut être expliquée
par les différences entre types de forets.

La réalisation de l’analyse de la variance

1◦ Nous donnons à titre indicatif, quelques informations relatives à la réalisation de l’analyse


de la variance en. Cette réalisation consiste essentiellement en une suite de déterminations
de sommes de carrés d’écarts (SCE), semblables à celle qui peut être effectuée pour toute
série d’observations

2◦ En ce qui concerne la somme des carrés des écarts résiduelle, on peut calculer
séparément les sommes des carrés des écarts relatives aux différents échantillons ou séries
d’observations, et sommer ensuite les résultats ainsi obtenus. Si on désigne par Xi. et SCEi ,
respectivement, les sommes et les sommes des carrés des écarts relatives aux différentes
séries d’observations, on a :

En réalité, la détermination des sommes des carrés des écarts individuelles SCEi n’est pas
indispensable, en vue de calculer la somme des carrés des écarts résiduelle, mais cette
détermination permet d’obtenir facilement les variances des différentes séries
d’observations et donc de comparer ces variances, préalablement à toute inférence
statistique.
3◦ Quant à la somme des carrés des écarts totale (SCEt), on a, toujours par analogie avec le
cas d’une seule série d’observations :

Le symbole X.., désignant la somme de l’ensemble des n. observations :

On remarquera que le premier terme qui intervient dans la relation relative à la somme des
carrés des écarts totale SCEt n’est autre que la somme des premiers termes qui se
présentent dans l’expression relative aux sommes des carrés des écarts individuelles SCEi .

4◦ Enfin, la somme des carrés des écarts factorielle (SCEa) peut être obtenue soit
par différence :

15
SCEa = SCEt − SCEr
Soit par la relation :

Application : Dans l’exemple du tableau 1 comparaison des hauteurs des arbres de 3 types
de hêtraies : réalisation de l’analyse de la variance.
On calcul les SCE individuelles séparément selon la formule :

SCE1 = (23,4²+24,4²+……….+27,7²) - (23,4+24,4+………+27,7)²= 8.789,36 − 337,62²/13 = 22,15


SCE2 = (22,5²+22,9²+……….+29,5²) - (22,5+22,9+……….+29,5)²=9.062,96 − 355,42²/14 = 40,88
SCE3 = (18,9²+21,1²+……….+26,7²) - (18,9+21,1+……….+26,7)²= 5.408,22 −231,42²/10 = 53,62

SCEr = 22,15 + 40,88 + 53,62 = 116,65 ,

SCEt=(23,4−24,98)²+(24,4−24,98)²+(24,6−24,98)²+…………………..+(27,7−24,98)²+(22,5−24,98)²
+(22,9−24,98)²+(23,7−24,98)²+………..…………….…+(28,5-24,98)²+(18,9−24,98)²+(21,1− 24,98)²
+ (21,2− 24,98)²+……….…..+ (26,7− 24,98)²= (23.260,54 − 924,42²/37 =
165,53 SCEt=165,53 et
SCEa = SCEt − SCEr

5° Le test de l’hypothèse nulle émise nécessite le calcul de la quantité :

Le rejet de l’hypothèse, au niveau de probabilité α , intervient quand cette quantité


est trop élevée, c’est-à-dire quand :

avec p − 1 et n. − p degrés de liberté. Le caractère unilatéral du test résulte de ce que, dans


tous les cas ou l’hypothèse nulle est fausse, les valeurs Fobs dépassent en moyenne les
valeurs que donnent normalement les distributions F de Fisher-Snedecor.

Le rejet de l’hypothèse nulle, relative à un ensemble de p moyennes, soulève la question


de savoir quelles sont les moyennes qui différent significativement les unes des autres

16
En outre, on peut calculer comme suit des limites de confiance, pour les moyennes mi et
pour les différences de moyennes mi –mi’ :

La variable t de Student étant une variable à n − p degrés de liberté. Ces formules sont
semblables à celles qui concernent une ou deux populations, la seule différence étant que les
estimations antérieures de la variance σ² sont remplacées ici par CMr.

Des limites de confiance relatives à la variance σ² et à l’écart-type σ peuvent également être


obtenues selon les procédures habituelles, à partir de la somme des carrés des écarts ou du
carré moyen résiduel, et grâce à la distribution χ² à n – p degrés de liberté.

Application : l’exemple du tableau1 : comparaison des hauteurs des arbres de 3


types hêtraies suite de l’analyse de la variance :
Nous pouvons maintenant clôturer l’analyse de la variance que nous avons entamée `
A partir du tableau 1, on obtient selon la formule de la Fobs :

CMa= carré moyen factoriel= 48,88/3-1=24,44


CMr= carré moyen résiduel=116,65/37-3=3,43
Fobs=24,44/3,43=7,12 et P(F ≥ 7,12) = 0,0026

Conclusion : avec 2 et 34 degrés de liberté. L’hypothèse d’égalité des hauteurs moyennes des
arbres dans les trois types de hêtraies doit donc être rejetée, même au niveau de probabilité
0,01 : les différences observées sont hautement significatives.
Les limites de confiance des différences sont, pour un degré de confiance égal à 0,95 et
pour les deux premiers types de forets :

pour le premier et le troisième type de forêts :

et pour les deux derniers types de forêts :

Le fait que le premier intervalle de confiance englobe la valeur zéro indique qu’il n’y a pas de
différence significative entre les deux premiers types de hêtraies, ce qui était déjà la

17
conclusion de l’exemple. On peut en conséquence calculer éventuellement une moyenne
globale pour l’ensemble de ces deux types :

et déterminer des limites de confiance relatives à la différence entre cette nouvelle


moyenne et la moyenne du troisième type de forets :

La conclusion finale serait ainsi qu’il n’y a pas de différence significative de hauteur des
arbres entre les deux premiers types de hêtraies, qu’il existe au contraire une différence
hautement significative de hauteur entre ces deux types et le troisième, et que cette
différence peut être estimée à 2,5 m, avec des limites de confiance égales à 1,1 et 3,9 m, au
degré de confiance habituel (1 − α = 0,95).

En vue de tenir compte du fait qu’on procède en réalité `a trois comparaisons, dans la
détermination des trois intervalles de confiance initiaux, on aurait pu remplacer la valeur t
classique , par une valeur t définie au sens de Bonferroni:
.
Cette façon de faire aurait conduit à étendre assez sensiblement les différents intervalles de
confiance, sans modifier, dans le cas présent, les conclusions finales.

18
RESUME DE L’ANOVA A UN CRITERE DE CLASSIFICATION

19
I- ANOVA à un facteur - Introduction
1-Analyse de la variance :

L'analyse de la variance a pour but la comparaison des moyennes de k populations, à partir


d'échantillons aléatoires et indépendants prélevés dans chacune d'elles.

Ces populations sont en général des variantes (ou niveaux k) d'un ou plusieurs facteurs contrôlés de
variation (facteurs A, B, ...).

2-Conditions d'applications de l'ANOVA

• Les populations étudiées suivent une distribution normale


• Les variances des populations sont toutes égales (HOMOSCEDASTICITE)
• Les échantillons Ei de tailles ni sont prélevés aléatoirement et indépendamment dans les populations.

3-Procédure de calcul d'une ANOVA

• Déterminer si les échantillons varient de la même manière.


• Si nous démontrons l'homogénéité des variances, alors nous pouvons comparer les
moyennes de ces échantillons.

4-Problèmes liés à l'égalité des variances


Test de l'homogénéité des variances

: Les variances sont homogènes


: Au moins une des variances est différente des autres

Utilisation d'un test de comparaison de plusieurs variances

5-Conclusion
: Est rejetée : il est théoriquement impossible de comparer des échantillons qui ne varient
pas de la même manière.
: N’est pas rejetée : par conséquent, il est possible de comparer les moyennes de tels
échantillons

6-Expérience avec k échantillons - Données initiales

20
• Soit une Expérience faisant intervenir k échantillons de ni individus.
• Le nombre total d'individus est
• On calcule la moyenne générale des mesures de l'expérience (G).

Variabilité totale

• Variabilité totale au sein de l'expérience (quel que soit l'échantillon) : reflète les écarts
de tous les individus par rapport à la moyenne générale (G) de l'expérience.
• Calcul de la Somme des Carrés des Écarts à la moyenne totale SCEr
• Degrés de liberté (DDL) associés : N-1.

Variabilité factorielle

• Variabilité factorielle : reflète les écarts des moyennes des échantillons (supposées
influencées par le facteur étudié) par rapport à la moyenne générale (G) de l'expérience.
• Calcul de la Somme des Carrés des Écarts à la moyenne factorielle (SCEF)
• DDL associés : k-1
21
Variabilité résiduelle

• Variabilité résiduelle (liée à l'individu) : reflète l'importance des variations individuelles dans
chaque échantillon.
• Calcul de la Somme des Carrés des Écarts à la moyenne résiduelle SCER
• DDL associés : N-k.

Bilan

Pour résumer :

• SCET=SCEF+SCER
• DDL associés : N-1 = k-1 + N-k.
• On comparera les variabilités factorielles s²F=SCEF/k-1 et résiduelle s²R=SCER/N-K

22
Comparaison des moyennes - Hypothèses
Ho : toutes les moyennes sont identiques
H1 : au moins une des moyennes est différente des autres

Variances totale, factorielle, résiduelle

ANOVA à un facteur - Conclusion

Tableau d'analyse de la variance :

SCET=SCEF+SCER

• F suit une loi de Snédécor à


• (test unilatéral : le rapport n’est pas obligatoirement supérieur à 1)

23
Choix du risque
• Risque de première espèce (erreur commise lorsqu’on rejette à tort)

Décision

Si => rejet de au risque :

La variance factorielle est significativement supérieure à la variance résiduelle : les


moyennes diffèrent significativement entre-elles. → on attribue une influence significative au
facteur étudié.
Recherche du degré de signification p (recherche du risque le plus petit possible pour
conclure au rejet de

Sinon rien ne permet de dire que les moyennes des populations ne sont pas égales => n’est pas
rejetée.

24
ANALYSE DE LA VARIANCE A DEUX CRITERE DE CLASSIFICATION

25
L’analyse de la variance à deux critères de classification

1- Introduction

1◦ L’analyse de la variance à deux critères de classification

Les deux facteurs envisagés peuvent être soit placés sur pied d’égalité dans ce cas les
modèles d’analyse de la variance sont dits croisés, soit au contraire subordonnés l’un à l’autre les
modèles sont dits hiérarchisés. Le cas hiérarchique est parfois qualifié aussi de multi-niveaux.
.
Dans les différents cas, on doit également faire la distinction entre les modèles fixes, les modèles
aléatoires et les modèles mixtes.

2◦ Nous considérerons tout d’abord les aspects descriptifs, puis les aspects inferentiels de l’analyse à
deux critères, en nous limitant dans un premier temps aux modèles croisés à effectifs égaux. Nous
envisagerons ensuite les modèles croisés à effectifs inégaux et les modèles hiérarchisés.

3◦ Les conditions d’application sont: populations normales et de même variance, et échantillons


aleatoires, simples et indépendants.

2- Les modèles croisés à effectifs égaux : Aspects descriptifs

- La décomposition de la variation totale

Considérons p q échantillons ou séries d’observations de même effectif n, et désignons les


observations individuelles par , les indices i, j et k étant relatifs respectivement aux différentes
modalités du premier critère de classification (i = 1 , . . . , p), aux différentes modalités du deuxième
critère de classification (j = 1 , . . . , q), et aux différentes observations d’un même échantillon ou
d’une même série (k = 1 , . . . , n).

A partir de telles données, on peut calculer différentes moyennes, à savoir une moyenne pour
chacun des échantillons ou séries d’observations (i = 1 , . . . , p et j = 1 , . . . , q) :

Une moyenne pour chacune des modalités de chacun des deux critères de classification (i = 1 , . . . , p
d’une part, et j = 1 , . . . , q d’autre part) :

et une moyenne générale :

26
- subdivision des écarts par rapport à la moyenne générale : en deux, puis en quatre
composantes :

La première décomposition est identique à celle qui a été réalisée en analyse de la variance à un
critère de classification. La seconde décomposition, qui constitue le modèle observé de l’analyse de
la variance à deux critères de classification, fait apparaitre deux termes de variation factorielle,
relatifs à l’un et l’autre des deux facteurs, un terme dit d’interaction, et un terme de variation
résiduelle.

- Par élévation au carré et sommation pour les n p q observations, on obtient ensuite


l’´equation d’analyse de la variance :

Les deux premières composantes sont des sommes de carrés d’écarts factorielles, la troisième est
une somme de carré d’écarts liée à l’interaction, et la quatrième est une somme de carrés d’écarts
résiduelle.

En affectant les lettres a et b , respectivement, à chacun des deux critères de classification, et en


désignant les différents termes par SCEt , SCEa , SCEb , SCEab et SCEr , on peut écrire aussi, de façon
simplifiée :

- Aux différentes sommes des carrés des écarts, peuvent être associés des nombres de degrés
de liberté, qui sont liés par la relation :

p q n−1 degrés de liberté pour la somme totale, puisqu’elle fait intervenir globalement les p q n
observations individuelles,
p−1 et q−1 degrés de liberté pour les deux sommes factorielles, puisqu’elles sont calculées
respectivement à partir de p et de q moyennes,
p q (n−1) degrés de liberté pour la somme résiduelle, puisqu’elle fait intervenir p q échantillons de n
observations, et
(p − 1) (q − 1) degrés de liberté pour la somme des carrés des écarts de l’interaction.

- Enfin, en divisant les différentes sommes des carrés des écarts par leurs nombres de degrés
de liberté, on obtient les carrés moyens CMt , CMa , CMb , CMab et CMr . L’ensemble des résultats
peut alors être présent sous la forme d’un tableau d’analyse de la variance ou ANOVA

27
Tableau 3. Analyse de variance (ANOVA) à deux critères de classification : modèles croisés à
Effectifs égaux

Application : Comparaison de trois types de sondes dans deux types de sols : analyse de
la variance.

Au cours d’une étude relative aux problèmes d’échantillonnage du sol, on a comparé, dans plusieurs
types de sols, différents types de sondes destinées à prélever des échantillons de terre, en
effectuant chaque fois diverses analyses chimiques. On s’intéresse principalement aux différences
qui pourraient exister d’un type de sondes à l’autre et aux interférences éventuelles des types de
sondes avec les types de sols.

Le tableau suivant est relatif à deux types de sols, à trois types de sondes, et aux teneurs en P2O5 ,
mg par 100 g de terre sèche, chacune des combinaisons sol-sonde ayant été l’objet de quatre
prélèvements indépendants les uns des autres.
Ce tableau présente à la fois les données initiales xijk , et les moyennes par type de sols et type de
sondes ¯xij. , par type de sols ¯xi.. , par type de sondes ¯x.j. , et générale ¯x... , toutes les moyennes
étant volontairement calculées avec une précision quelque peu abusive.

Tableau. Teneurs en P2O5 , en mg par 100 g de terre sèche, et moyennes observées, pour deux
types de sols et trois types de sondes.

= Moy. sonde1 pour le sol1=46,75= (43+45+46+53)/4


Moy. sonde1 pour le sol2=40,75= (40+40+40+43)/4

28
Moy. sonde2 pour le sol1=42,50= (41+42+43+44)/4
Moy. sonde2 pour le sol2=38,00= (35+37+40+40)/4
Moy. sonde3 pour le sol1=45,00= (42+44+46+48)/4
Moy. sonde3 pour le sol2=39,00= (37+39+40+40)/4
=43,75= (46,75+40,75)/2 sonde1 pour les 2 sols
=40,25= (42,50+38,00)/2 sonde2 pour les 2 sols
=42,00= (45,00+39,00)/2 sonde3 pour les 2 sols
=44,75= (46,75+42,50+45,00)/3
=39,25= (40,75+38,00+39,00)/3
=42,00= (44,75+39,25)/2

Tableau. Comparaison de trois types de sondes dans deux types de sols : tableau partiel d’analyse de
la variance (aspects descriptifs).

NB : Appliquer les formules et vérifier les valeurs des SCE et les CM

La réalisation de l’analyse de la variance

1◦ Nous désignerons par , respectivement, les sommes et les sommes des carrés des
écarts relatives aux différentes séries d’observations, et aussi par Xi.. , X.j. et X..., les sommes
relatives aux différentes modalités des deux critères de classification et la somme générale de toutes
les observations.

2◦ Les différentes sommes des carrés des écarts peuvent alors être obtenues à l’aide des relations suivantes :

29
Application. Comparaison de trois types de sondes dans deux types de sols : réalisation de l’analyse
de la variance.

Les différentes sommes sont :

X11. =(43+45+46+53)= 187, X12. = 163 , X13. = 180 ,


X21. = 170 , X22. = 152 ,
X23. = 156 ,
X1.. = 537, X2.. = 471 , X.1. = 350 , X.2. = 322 , X.3. = 336 , X... = 1.008 .

Calculées selon les principes habituels, les sommes des carrés des écarts relatives aux six séries
d’observations sont aussi :
SCE11 = (43²+45²+46²+53²)-(43+45+46+53)²/4=56,8
SCE12 = (40²+40²+40²+43²)-(40+40+40+43)²/4= 6,8
SCE13 = (42²+44²+46²+48²)-(42+44+46+48)²/4= 20,0
SCE21 = (41²+42²+43²+44²)-(41+42+43+44)²/4= 5
SCE22 = (35²+37²+40²+40²)-(35+37+40+40)²/4=18,0
SCE23 = (37²+39²+40²+40²)-(37+39+40+40)²/4= 6,0

SCEt = (43-42)²+(45-42)²+(46-42)²+(53-42²+(40-42) ²+(40-42) ²+(40-42) ²+(43-42) ²+(42-42) ²+ (44-42)


²+(46-42) ²+(48-42)²+(41-42) ²+(42-42) ²+(43-42) ²+(44-42) ²+(35-42) ²+(37-42) ²+(40-42) ²+(40-42)
²+(37-42) ²+(39-42) ²+(40-42) ²+(40-42) ²=346

SCEr= SCE11+ SCE12+ SCE13+ SCE21 +SCE22 +SCE23= 56,8 +6,8 + 20,0 +5 +18,0+ 6,0= 112,6

Comparaison de trois types de sondes dans deux types de sols : tableau complet d’analyse de
la variance.

On constate tout d’abord que l’interaction est non significative. Le test confirme donc la conclusion
intuitive que les différences entre types de sondes ne dépendent pas des types de sols et vice versa
Par contre, les différences observées sont très hautement significatives en ce qui concerne les types
de sols, et juste significatives en ce qui concerne les types de sondes.

La comparaison, plus intéressante, des trois types de sondes est un problème qui peut être traité
notamment par la méthode de Newman et Keuls. Cette méthode permet de montrer que les
résultats obtenus à l’aide du premier type de sondes sont significativement supérieurs aux résultats
fournis par le deuxième type de sondes, le troisième type conduisant à des résultats intermédiaires,
qui ne sont pas significativement différents des deux autres.

les valeurs suivantes des variables F de Fisher-Snedecor : Fa = 1,69 , Fb = 0,66 et Fab =


2,96 les probabilités correspondantes sont respectivement égales à 0,21 , 0,53 et 0,077
30
RESUME DE L’ANOVA A DEUX
CRITERES DE CLASSIFICATION

31
II- ANOVA à deux facteurs - Introduction
1-Définition

• Étude simultanée d’un facteur A à p modalités et d’un facteur B à q modalités.


• Pour chaque couple de modalités (A, B) :
o On a un échantillon
o Tous les Eij sont de mêmes tailles n.

2-Conditions d'applications de l'ANOVA

• Les populations étudiées suivent une distribution normale


• Les variances des populations sont toutes égales (HOMOSCEDASTICITE)
• Les échantillons Ei de tailles ni sont prélevés aléatoirement et indépendamment dans les
populations.

3-Procédure de calcul d'une ANOVA

• Déterminer si les échantillons varient de la même manière.


• Si nous démontrons l'homogénéité des variances, alors nous pouvons comparer les
moyennes de ces échantillons.

4-Problèmes liés à l'égalité des variances


Test de l'homogénéité des variances :

• les variances sont homogènes


• Au moins une des variances est différente des autres

→ Utilisation d'un test de comparaison de plusieurs variances

5-Conclusion

• Si est rejetée : il est théoriquement impossible de comparer des échantillons qui ne


varient pas de la même manière.
• Si n’est pas rejetée : par conséquent, il est possible de comparer les moyennes de tels
échantillons

6-Application : Tests possibles

• Influence du facteur A seul


• Influence du facteur B seul
• Interaction des deux facteurs:

Si influence d'un facteur sur la moyenne des populations est différente en l'absence ou
en la présence de l'autre facteur
Hypothèses

32
: Le facteur A n’a pas d’influence sur la moyenne des populations.
: Le facteur B n’a pas d’influence sur la moyenne des populations.
: Il n’y a pas d’interaction entre les facteurs A et B.
: Au moins une des moyennes est différentes des autres.

Variances totale, factorielle, résiduelle

33
Décomposition de la variance factorielle

Conclusion
Tableau d'analyse de la variance :

34
Décision

35
Analyse De La Variance A Trois Critères De Classification

36
L’analyse de la variance à trois critères de classification :

Modèles croisés à effectifs égaux

Principes généraux

Nous présenterons successivement les aspects descriptifs et les aspects inférentiels de l’analyse à
trois critères, en nous limitant, dans un premier temps, aux échantillons de plusieurs observations.
Nous envisagerons ensuite le cas particulier des échantillons d’une seule observation.

- Les aspects descriptifs : échantillons de plusieurs observations

1◦ Pour trois critères de classification et dans le cas des effectifs égaux, on peut considérer qu’on a p
q r échantillons ou séries d’observations d’effectif n, et designer les observations individuelles par
(i = 1 , . . . , p , j = 1 , . . . , q ,k = 1 , . . . , r , et l = 1 , . . . , n). A partir de ces observations, on
peut calculer les différentes moyennes suivantes :

Ces moyennes sont relatives, respectivement, aux différentes combinaisons des modalités des trois
facteurs considérés simultanément (p q r moyennes ), aux différentes combinaisons des
modalités des trois facteurs considérés deux à deux (p q moyennes , p r moyennes , et
q r moyennes ), aux différentes modalités des trois facteurs considérés individuellement
(p moyennes ), q moyennes et r moyennes ) et à l’ensemble des p q r n
observations (moyenne générale ). Dans ces conditions, le modèle observé s’écrit :

Le deuxième membre de ce modèle contient : trois termes de variation factorielle liés


individuellement aux trois critères de classification, trois termes d’interaction des différents
facteurs considérés deux à deux, un terme d’interaction des trois facteurs considérés
simultanément, et un terme de variation résiduelle.

Les interactions des différents facteurs considérés deux à deux se présentent et doivent être
interprétées comme en analyse de la variance à deux critères de classification. Ces interactions
simples sont appelées interactions de deux facteurs ou interactions du premier ordre.

L’´equation d’analyse de la variance relative à ce modèle observé est :


37
Aux différentes sommes des carrés des écarts, correspondent des nombres de degrés de liberté liés
par la relation :

La division des sommes des carrés des écarts par les nombres de degrés de liberté permet de définir
les carrés moyens, et l’ensemble des résultats peut être présente sous la forme d’un tableau
d’analyse de la variance.

Application. ´Etude de la résistance de panneaux de particules à l’arrachage des clous : réalisation


de l’analyse de la variance
Au cours d’un essai préliminaire, destin à préciser les conditions de mesure de cette propriété, on à
étudié simultanément l’influence de trois facteurs : la grosseur des clous, le diamètre des anneaux
sur lesquels sont déposées les éprouvettes soumises aux essais, et la vitesse d’arrachage. Les essais
ont été effectues sur des éprouvettes carrées de 50 mm de coté, les modalités des trois facteurs
étant : 6,5 et 8 mm de diamètre en ce qui concerne les tètes des clous (i = 1 et 2), 22 et 30 mm de
diamètre en ce qui concerne les diamètres des anneaux servant de supports (j = 1 et 2), 22 , 45 et 90
mm par minute en ce qui concerne les vitesses d’arrachage (k = 1 , 2 et 3). En outre, cinq éprouvettes
ont été utilisées pour chacune des 12 combinaisons des modalités des trois facteurs (l = 1 , . . . , 5).

Tableau .Resistance de panneaux de particules à l’arrachage des clous (xijkl), en kg, pour deux
grosseurs de clous (i), deux diamètres d’anneaux (j), trois vitesses d’arrachage (k), et dans chaque
cas cinq éprouvettes (l).

Resistance de panneaux de particules `a l’arrachage des clous (xijkl), en kg, pour deux grosseurs de
clous (i), deux diamètres d’anneaux (j), deux vitesses d’arrachage (k), et dans chaque cas cinq
éprouvettes.

Ce tableau permet de calculer facilement les sommes de produits suivantes :

38
Tableau . Etude de la résistance de panneaux de particules à l’arrachage des clous : tableau
d’analyse de la variance

Références bibliographiques

Dagnelie, 2013
Kwanchai a. gomez, 2008
Mondher abrougui, 2008
Yves tille, 2010
Foued ben said, 2013

39

Vous aimerez peut-être aussi