ANALYSE DE VARIANCE
Introduction
L’analyse de variance (communément appelée Anova) est une extension du
principe de la comparaison de deux moyennes tel que nous l’avons vu dans le
chapitre précédent. Elle va nous permettre de comparer 3, 4, 5… moyennes
entre elles issues d’échantillons indépendants et appariés. On peut donc
théoriquement analyser une variable comprenant plus de deux modalités sans
avoir à effectuer des comparaisons deux à deux entre toutes les modalités.
L’intérêt de l’Anova ne s’arrête pas là puisqu’elle va permettre également
d’étudier des combinaisons de variables sans avoir à multiplier le nombre de
comparaisons.
1- Principe de la méthode
Rappel du principe de calcul de la variance d’échantillon
Variance =
Et donc Ecart-type =
On peut dire, en gros, que les écarts sont au numérateur (ce sont en fait les
carrés des écarts) et que le nombre d’écart est au dénominateur (nombre d’écarts
moins un puisqu’il s’agit d’un échantillon). La variance n’est donc rien d’autre
que la moyenne des carrés des différences.
Si on appelle les choses par leur nom, ce rapport n’est autre que le suivant :
1
Le test d’analyse de variance repose sur un principe simple selon lequel la
variation totale des mesures que l’on observe à partir de tous les échantillons
que l’on désire comparer est le résultat de la somme de la variation produite par
chacun des échantillons et la somme de la variation résultant de la différence
entre ces échantillons. Elle n’est donc que la somme des variances observées à
l’intérieur des groupes et de la variance observée entre les groupes.
Variation totale = Variation intragroupe + Variation intergroupe
A partir de ces différentes sources de variation, on peut obtenir les variances
correspondantes en divisant chacune de ces sources de variation par le nombre
de degrés de liberté qui s’applique. On obtient ainsi la variance totale, la
variance intragroupe et la variance intergroupe.
- La variance intergroupe
Elle provient de la variation observée entre la moyenne générale et chacune des
moyennes comparées. On peut alors comprendre que plus les moyennes sont
éloignées les unes des autres, plus elles produiront de variance intergroupe.
Réciproquement, plus ces moyennes seront proches de la moyenne générale,
plus la variance intergroupe sera faible.
- La variance intragroupe
La variance intragroupe, que l’on appelle encore parfois le résidu, résulte de la
somme des variances obtenues à partir de chacune des distributions comparées.
C’est donc la somme des variances trouvées à l’intérieur de chacune de ces
distributions.
Si les valeurs de chacune des distributions sont homogènes, la variance
intragroupe sera peu élevée. Si, au contraire, les valeurs de chacune des
distributions sont très hétérogènes, la variance intragroupe sera élevée.
Le rapport des variances, appelé F, n’est autre que celui qui résulte du rapport
effectué entre la variance intergroupe et la variance intragroupe soit :
F=
2
Comme on peut le voir, le F calculé est d’autant plus élevé que la variance
intergroupe est élevée et la variance intragroupe est faible.
Réciproquement, le F est d’autant plus petit que la variance intergroupe est
faible et la variance intragroupe est élevée.
Le F calculé sera comparé à celui tabulé par la loi du de Fisher-Snedecor. Celui-
ci est toujours positif. Ce test est donc un test à une seule issue. Il est évident
que, lorsque l’on dispose de trois moyennes, on ne peut guère, comme
précédemment, tester dans une analyse générale l’hypothèse de la supériorité de
l’une sur l’autre.
Hypothèses
L’hypothèse nulle H0, dans le cas du test d’analyse de variance, est celle
d’égalité des moyennes des échantillons étudiés.
L’hypothèse alternative H1 stipule, quant à elle, que les moyennes étudiées ne
sont pas toutes égales entre elles. Toutefois, si l’hypothèse nulle est rejetée
(généralement à un risque d’erreur ≤ 5%) et l’hypothèse alternative retenue, on
ne peut pourtant pas établir de la hiérarchie entre les moyennes avec l’analyse de
variance.
L’hypothèse de nullité peut en effet être rejetée dans 3 cas de figure si nous
avons 4 groupes: les moyennes sont toutes significativement différentes les
unes des autres, deux groupes de moyennes sont significativement différents les
uns des autres, une moyenne est significativement différente de l’ensemble des
autres moyennes.
Il faudra donc poursuivre cette analyse par des Anovas complémentaires ou,
comme nous avons appris à le faire précédemment, en procédant à des
comparaisons deux à deux entre chacune des moyennes (comparaisons de deux
moyennes d’échantillons au moyen du test de t de student par exemple). Cela
suppose bien évidemment, la formulation d’hypothèses complémentaires.
2- L’analyse de variance sur des moyennes d’échantillons indépendants
Comme son nom l’indique, l’analyse de variance pour échantillons indépendants
permet de comparer entre elles trois ou plis de trois moyennes provenant
d’échantillons indépendants.
3
Exercice d’application
Au cours d’une recherche portant sur la mémoire des informations imagées et
verbales, on a voulu connaître l’efficacité comparée de différents supports
d’information sur leur mémorisation. On présente, sur écran, à des groupes
différents de sujets, 24 actions selon 5 supports différents : sous la forme d’une
phrase narrant l’action effectuée par quelqu’un (1), d’un dessin où l’on voit
distinctement cette personne produire le comportement (2), d’une photo couleur
présentant la même action (3), d’une série de trois photos constituant trois étapes
distinctives de ce comportement (4) ou d’un court film présentant en continu ce
comportement (5). Par la suite, les sujets sont invités à rappeler les 24 actions
qui leur ont été présentées. Les résultats obtenus auprès de 5 échantillons
indépendants de 15 sujets chacun sont les suivants :
Phrase (1) Dessin (2) Photo (3) 3 photos (4) Film (5)
5 9 9 10 8
8 10 8 12 10
6 9 11 11 12
8 7 6 10 14
7 10 9 8 11
9 8 11 12 8
6 11 8 9 10
7 9 7 11 12
5 7 9 8 9
10 10 8 10 11
6 11 10 13 13
7 8 12 11 8
8 12 8 10 11
7 9 10 12 9
4 8 7 9 10
On fait l’hypothèse, au risque de 5%, d’une différence entre les performances de
rappel selon le support d’information utilisé.
4
Résolution
- Calcul des statistiques descriptives
Calculons les moyennes et l’écart-type de la distribution. Il convient, avant de
calculer les différentes sources de variation du tableau, de résumer chacune des
distributions à l’aide de la moyenne et de l’écart-type.
Phrase Dessin Photo 3 photos Film
Moyenne 6,87 9,20 8,87 10,40 10,40
Ecart-type 1,60 1,47 1,68 1,40 1,84
Comme on peut le voir, certaines moyennes sont différentes tandis que d’autres
s’avèrent identiques. On peut se demander s’il y a existence d’une différence
globale (l’Anova ne teste que la différence générale) entre les 5 moyennes
étudiées.
- Hypothèses
Les hypothèses statistiques qui peuvent être formulées pour une telle analyse
sont les suivantes :
L’hypothèse nulle H0 (avec un risque d’erreur fixé à 5%) est que
6,87 = 9,20 = 8,87 = 10,40 = 10,40 : les moyennes proviennent de la même
population parente. Elles sont certes différentes mais on estime que les
différences résultent de fluctuations « normales » d’échantillonnage.
L’hypothèse alternative H1 est donc 6,87 ≠ 9,20 ≠ 8,87 ≠ 10,40 ≠ 10,40 : les
moyennes sont issues de populations parentes différentes. Les différences
observées ne sont pas imputables à des fluctuations d’échantillonnage obtenues
à partir d’une même population.
- Calcul des variances
La variance totale : elle résulte, comme on l’a dit, de la somme des carrés
des écarts obtenus entre chacune des valeurs des 5 distributions étudiées et la
moyenne générale de ces 5 distributions, divisée par le nombre de valeurs moins
une.
5
La moyenne générale est ici facile à déterminer puisqu’elle n’est autre que la
moyenne des scores de rappel des comportements des 75 sujets.
Moyenne générale = = = 9,146 66 ≈ 9,147
La variance totale se calcule comme on le fait pour une distribution mais, cette
fois, on prend les valeurs de toutes les distributions. Pour calculer, il suffit
d’appliquer :
Variance totale =
Le calcul peut s’avérer fastidieux (75 mesures dans ce tableau, soit 75 écarts
différents à calculer), on calculera donc la variance totale à l’aide d’une formule
plus simple
Variance totale =
Variance totale = = =
= 4,20
- La variance intergroupe : c’est la variance résultant de la différence entre
la moyenne générale des groupes et les moyennes respectives des groupes. Elle
s’obtient en appliquant la formule suivante :
Variance intergroupe =
Cette formule est difficile à mettre en œuvre, donc on applique la formule
suivante
6
Variance intergroupe =
Certains calculs ont été déjà effectués, ce qui facilite l’emploi de cette
formule simplifiée :
Variance intergroupe =
- La variance intragroupe : c’est la variance « moyenne » obtenue à
l’intérieur des groupes. On peut aisément la calculer par différence puisque l’on
sait que si :
Variation totale = Variation intragroupe + Variation intergroupe
alors :
Variation intragroupe = Variation totale - Variation intergroupe
On sait ainsi que la variation n’est autre que le numérateur des rapports effectués
précédemment. La variation intragroupe est donc égale à :
310,93 – 127,44 = 183,49
La variance intragroupe est maintenant facile à déterminer. Il suffit de faire le
rapport entre la variation observée à l’intérieur des groupes (183,49) et le
nombre de degrés de liberté correspondant à cette source de variation. Cette
variance s’obtient en appliquant :
7
Variation intragroupe =
Comme la variation intragroupe est obtenue en faisant la différence entre la
variation totale et la variation intergroupe, le nombre de degrés de liberté de la
variance intragroupe résulte de la différence entre le nombre de degrés de liberté
correspondant à la variance totale et le nombre de degrés de liberté
correspondant à la variance intergroupe. Les choses s’enchaînent logiquement.
Ce qui est imputable à une source de variation est enlevé. Cela est valable pour
la variation comme pour les ddl.
La variance intragroupe est donc égale ici à :
- Autre méthode de détermination de la variance intragroupe : nous avons
vu calculer rapidement la variance intragroupe à partir de la différence faite
entre la variation totale et la variation intergroupe. On pourrait obtenir le même
résultat en appliquant, à l’intérieur de chacun des échantillons, la méthode
traditionnelle de détermination de la variance.
Pour la déterminer, on appliquera, par isomorphisme :
Variance intragroupe =
On peut constater que le numérateur n’est autre que le total de la variation
produite par chacun des échantillons. On détermine bien la différence faite entre
la variation entre les sujets à l’intérieur de chacun des échantillons. Au
dénominateur, le nombre de degrés de liberté se détermine comme
précédemment.
Il est inutile de calculer tous ces éléments. Nous allons appliquer la formule
simplifiée suivante :
8
Variance intragroupe =
Il suffit maintenant de remplacer les éléments par leur valeur
La variance intragroupe est donc = = = 2,62
- Calcul du rapport des variances
F= = = 12, 16
Le F calculé doit être compare à celui donné par la table des F théoriques de
Fisher-Snedecor au risqué de 5%. Cette table est tabulée en fonction de deux
degrés de liberté correspondant aux deux variances du rapport. Les premiers
degrés de liberté (ddl1) sont liés à la variance intergroupe et les seconds (ddl2)
sont liés à la variance intragroupe.
Le mode de calcul des degrés de liberté est donc le suivant :
ddl intergroupe (ddl1) = Nombre d’échantillons - 1
et
ddl intragroupe (ddl2) = (Effectif total – 1) – (Nombre d’échantillons – 1)
ddl intergroupe (ddl1) = 4
et
ddl intragroupe (ddl2) = 70
Le F théorique lu dans la table au seuil de 0,05 est donc 2,50.
9
NB : Le ddl1 est placé en colonne sur la table tandis que le ddl2 est disposé en
ligne.
Nous obtenons un F théorique de 2,50. Le F calculé ici (12,16) est supérieur à
celui donné par la table. Nous pouvons rejeter l’hypothèse de nullité et admettre
que les moyennes obtenues se différencient. De manière générale, on peut dire
que les moyennes des cinq échantillons comparées sont statistiquement
différentes.
Présentation d’un tableau d’analyse de variance
Il est coutume de présenter les résultats des différentes étapes de calcul d’une
analyse de variance dans un tableau de synthèse de la forme suivante :
Source de Variation ou Nombre Variances ou carrés
variation somme des carrés de moyens
des écarts degrés F
de
liberté
Intergroupe 127,44 4 31,86
Intragroupe 183,49 70 2,62 12,16
Total 310,93 74 4,20
Ce type de présentation est celui que l’on retrouve dans la plupart des manuels
de statistique consacrés à l’Anova.
Compléments d’analyse
Bien que l’on ait apporté la preuve d’une différence entre les moyennes, cette
différence n’est que générale et ne résulte pas d’une hiérarchie absolue entre les
moyennes. Il apparaît donc nécessaire de compléter cette analyse à l’aide de
comparaisons deux à deux.
On peut ainsi vérifier que :
- La moyenne du groupe 1 est significativement différente de toutes les
autres moyennes ;
- La moyenne du groupe 2 est différente de celle du groupe 4 ;
- La moyenne du groupe 3 est différente de celle du groupe 4 et de celle du
groupe 5.
10
3- L’analyse de variance sur des moyennes d’échantillons appariés
Si nous devons comparer trois ou plus de trois moyennes provenant
d’échantillons appariés, il est important de se rappeler que nous ne prélevons pas
plusieurs échantillons à chaque étape de notre analyse mais bien un seul.
Avec des mesures appariées (on les appelle encore des mesures répétées), on n’a
pas à tenir compte de la variabilité entre les sujets car ce n’est pas nécessaire de
vouloir apprécier ce qui relève de l’erreur engendrée par l’échantillonnage,
l’échantillon n’étant constitué que des mêmes sujets. La variabilité intersujet est
fixée une fois pour toutes et ne pourrait être cumulative au fur et à mesure des
étapes de prélèvement des mesures.
L’objectif est ici de retirer de la variation intragroupe ce qui relève de la
variabilité entre les sujets pour ne conserver que la variabilité relevant de ce qui,
faute de pouvoir le définir, ne résulte pas des différences entre sujets. Cet
indéfinissable sera donc ce qui constituera la variance intragroupe dans notre
analyse.
L’équation de la variation intragroupe devient donc :
Variation intragroupe = Variation intersujet + Variation résiduelle
Notre analyse de variance pour groupes appariés devra donc décomposer cette
variation intragroupe et ne tenir compte que de la variance résiduelle pour
calculer le rapport des variances.
F=
La valeur fournie par ce rapport sera comparée, au risque consenti, à celle
donnée par la table du F de Snedecor, comme nous l’avons fait dans le cas de la
comparaison d’échantillons indépendants.
11
Hypothèses
Il n’y a pas de changement par rapport à ce rapport à ce que nous avons vu
précédemment. L’hypothèse nulle H0 est celle d’égalité des moyennes des
distributions comparées tandis que l’hypothèse alternative H1, comme
d’habitude, stipule que les moyennes sont différentes. Ici encore, l’Anova teste
une différence générale entre les moyennes.
Application
Au cours d’une procédure de vérification méthodologique, un chercheur obsédé
par le contrôle des variables parasites et fervent partisan de la répartition
aléatoire a voulu savoir si nos habitudes de lecture (lecture de gauche à droite et
de haut en bas) n’ont pas un effet sur nos activités d’attribution de traits lors
d’une activité de description de personne à l’aide d’une liste de traits
personnologiques.
La tâche demandée aux sujets consiste à décrire une personne à l’aide d’une
liste de 40 traits apparaissant sur un écran d’ordinateur à raison de deux
colonnes de 20 traits répartis de manière aléatoire. Ces traits étant répartis de
manière rigoureusement homogènes sur toute la surface de l’écran, notre
chercheur définit quatre zones correspondant chacune à un quart de cette
surface. Ces quatre zones vont du quart supérieur gauche de l’écran au quart
inférieur droit. Pour chacune des zones, il mesure le nombre de traits utilisés
pour décrire la personne (la cible) présentée à l’aide d’un court portrait
comportemental
Les scores obtenus sont présentés dans le tableau et correspondent au nombre de
traits sélectionnés dans chacune des zones :
sujet 1er quart 2e quart 3e quart 4e quart
12
1 5 0 2 3
2 1 4 4 4
3 3 3 3 1
4 4 2 2 4
5 3 5 4 2
6 1 3 0 3
7 4 5 2 2
8 3 5 2 3
9 2 1 1 6
10 5 3 2 2
11 3 2 3 3
12 2 3 2 5
13 4 1 2 5
14 3 2 3 3
15 2 3 1 0
Ce chercheur pense qu’au risque de 5%, il existe une différence dans les
moyennes d’attribution de traits selon les zones.
Résolution
Les statistiques descriptives élémentaires obtenues sont les suivantes :
1er quart 2e quart 3e quart 4e quart
Moyenne 3,00 2,80 2,20 3,07
Ecart-type 1,25 1,52 1,08 1,58
La moyenne générale =
- La variance totale : elle se calcule comme nous l’avons fait
précédemment.
Variance totale =
13
Ce qui donne pour notre tableau :
Variance totale =
- La variance intergroupe : on pourrait l’appeler ici la variance
intercondition, interétape, intermoment … compte tenu du fait que ce sont les
mêmes sujets qui effectuent plusieurs épreuves. Le mode de calcul ne change
pas pour autant et s’obtient en appliquant :
Variance intergroupe =
Cela nous donne :
Variance intergroupe =
- La variance intragroupe : comme nous l’avons dit en introduction de ce
paragraphe, la variation intrzgroupe résulte de la somme de la variation
intersujet (résultant de la variabilité d’échantillonnage) et de la variation
intrasujet résiduelle qui, elle, est supposée résulter des variations des différentes
phases de mesures.
- La variance intersujet : c’est ma variance produite par la variabilité
intersujet (les différences que l’on observe entre les lignes du tableau). Comme
cet échantillon est toujours le même, on suppose que la variabilité se retrouve à
toutes les périodes de mesures. On pense que les différences normales entre les
sujets sont les mêmes à tout moment. Par conséquent, cette variabilité sera
14
calculée sur l’ensemble des mesures effectuées par chacun des sujets (somme
des lignes). On pourrait ainsi claculer la variation intersujet en prenant les écarts
observés entre la somme des mesures effectuées pour chaque sujet et la
moyenne de la distribution de ces sommes de mesures. La variance intersujet
s’obtient donc en appliquant :
Variance intersujet =
Pour déterminer la somme des valeurs de chacun des sujets, il suffit de cumuler les valeurs de
chacune de lignes du tableau :
Sujet Somme des valeurs
1 5 + 0 + 2 + 3 = 10
2 1 + 4 + 4 + 4 = 13
3 3 + 3 + 3 + 1 = 10
… …
… …
… …
13 4 + 1 + 2 + 5 = 12
14 3 + 2 + 3 + 3 = 11
15 2+3+1+2= 6
On peut maintenant calculer la moyenne de ces sommes de valeurs :
Moyenne des sommes des valeurs par sujet
Plutôt que de calculer chacun des écarts, on appliquera une formule plus simple
de calcul de la variance (ci-après).
Variance intersujet =
Appliquée à nos données, cela nous donne :
15
Variance intersujet =
On peut maintenant calculer la variation résiduelle. Il suffit pour cela de retirer
de la variation intragroupe totale, la variation intersujet que l’on vient de
calculer (17,16).
On détermine cette variation intragroupe totale en faisant la différence entre la
variation totale et la variation intergroupe :
Variation intragroupe = 112,62 - 7,19 = 105,43
On sait que cette variation intragroupe totale comprend deux sources de
variation :
Variation intragroupe = Variation intersujet + Variation intragroupe résiduelle
On peut donc, ici aussi, déterminer la variation résiduelle par différence :
Variation intragroupe résiduelle = Variation intragroupe – Variation intersujet
La variation intragroupe résiduelle est donc égale à : 105,43 - 17,16 = 88,27
Pour obtenir la variance intragroupe résiduelle, il suffit donc d’appliquer :
Variance intragroupe résiduelle =
16
On peut voir que le dénominateur, qui correspond aux degrés de liberté de la
variance intragroupe résiduelle, retire du nombre de degrés de liberté total le
nombre de degrés de liberté de la variance intergroupe et celui de la variance
intersujet.
Ouf, on peut enfin calculer la variance intragroupe résiduelle. On obtient ainsi :
Variance intragroupe résiduelle =
Toutes les variances ont été déterminées. Il ne reste plus qu’à faire le rapport de
variances nécessaires à la détermination du F :
F=
Les deux ddl se déterminent comme précédemment. Il s’agit de chacun des
dénominateurs des variances du rapport. Au risque de 5% le F théorique ddl1= 3
et ddl2 = 42 est de 2,83. La valeur du F calculé est inférieur à cette valeur. Nous
devons conserver l’hypothèse nullité. On n’apporte pas la preuve d’une
différence générale des moyennes d’attribution de traits selon les zones définies.
Le tableau de synthèse de l’analyse de la variance est quelque peu différent de
celui utilisé précédemment puisqu’il faut dissocier les deux sources de variation
contenues dans la variation intragroupe :
Variation ou Nombre de
Source de Variances ou carrés
somme des carrés degrés de F
variation moyens
des écarts liberté
Intergroupe 7,19 3 2,40
Intragroupe 1,14
Intersujet 17,16 14 1,23
17
Résiduelle 88,27 42 2,10
Total 112,62 49 1,91
L’hypothèse nulle d’égalité générale des moyennes doit être donc conservée.
Les différences observées entre les moyennes peuvent donc être attribuées à des
fluctuations normales d’échantillonnage. S’agissant de cette tâche, on peut dire
que notre sens de lecture n’affecte pas nos attributions personnologiques.
18