Chapitre 5
:
Quanti vs Quali:Analyse de la
variance (ANOVA)
Généralités
Modélisation
Analyse de la variance
Tableau d’analyse de la variance
1
Généralités
Quand utiliser l’ANOVA
Pour montrer une expérimentation.
Pour expliquer une variable quantitative Y au moyen d'une variable
explicative qualitative X.
La variable explicative est appelée facteur. Les modalités sont appelées
niveaux de facteur.
l’ANOVA teste si toutes les moyennes sont égales.
Possibilités et limites
2
Généralités
En statistique, l’analyse de la variance (ANOVA) est un modèle statistique utilisé
pour comparer les moyennes d’échantillons.
Exemple : un agronome veut étudier l'effet de 3 types d'engrais sur le
rendement a l'hectare de parcelles de blé. Ici,
Y = rendement a l'hectare (en tonnes), variable quantitative,
X = type d'engrais (A, B ou C), variable qualitative ou facteur.
Quel modèle linéaire pour étudier cette problématique ?
3
Tableau Récapitulatif
Type de la variable à Type de la ou des Modèle linéaire
expliquer variables explicatives correspondant
quantitative quantitative (1) régression linéaire simple
quantitative quantitatives (p) régression linéaire
multiple
quantitative qualitative (1) ANOVA a un facteur
quantitative qualitatives (p) ANOVA a plusieurs
facteurs
quantitative quantitative (s) analyse de la covariance
+ qualitative (s) (ANCOVA)
qualitative à 2 modalités quantitative (s) régression logistique
(codées 0/1)
qualitative qualitative (s) régression binomiale
4
Modélisation
moyenne de Y
effet de la ième modalité
erreur aléatoire
5
6
Hypothèses fondamentales
La forme générale de l'analyse de variance repose sur le test de
Fisher et donc sur la normalité des distributions et l'indépendance
des échantillons.
Normalité de la distribution : on suppose, sous l'hypothèse nulle,
que les échantillons sont issus d'une même population et suivent
une loi normale. Il est donc nécessaire de vérifier la normalité des
distributions et l’homoscédasticité.
Indépendance des échantillons : on suppose que chaque
échantillon analysé est indépendant des autres échantillons. En
pratique, c'est la problématique qui permet de supposer que les
échantillons sont indépendants.
7
Décomposition de la variabilité
Dans une ANOVA, la variance totale est répartie en deux
composantes:
La variance intergroupe: Mesure de la variance entre
les moyennes de groupes et entre celles-ci et la
moyenne totale. (Between)
La variance intragroupe: Mesure de la variance entre
les observations et leur moyenne de groupe.(within)
8
Décomposition de la variabilité
Répartition de la somme des carrés totale
m2
Y m
m3
m1
SC Totale SC Modèle (Groupes) SC Erreur
Groupe 1
Groupe 2
Groupe 3
9
Equation de l’Analyse de la Variance
Décomposition de la Somme des Carrés des Ecarts (SCE)
k ni k ni k ni
(Y Y ) (Y Y ) (Y Y )
i 1 j 1
ij ..
2
i 1 j 1
i. ..
2
i 1 j 1
ij i.
2
= SCEinter + SCEintra
10
Equation de l’Analyse de la Variance
Calculs pratiques
SCET (Yij Y ) 2 Yij Y 2 2YijY
2
ij ij ij ij
Yij NY 2 2Y Yij
2
, or : Y ij NY
ij ij ij
Yij NY 2
2 2
SCET Yij
T
2
ij
N
ij
SCE A (Yi. Y ) 2 ni (Yi. Y ) 2
2 2
Ti. T
SCE A
i ni N
ij i
SCE R SCET SCE A
11
Tableau de l’Analyse de la variance
Sources Somme Degré de Carré F
de variation des carrés liberté (ddl) Moyen (CM)
n-1
Totale
SCEA/k-1 CMA
Facteur k-1
CMR
Résidus n-k SCER/n-k
CMintergroupe mesure les différences moyennes au carré entre moyennes des
groupes.
CMrésiduel est une mesure de la précision.
12
Significativité du modèle
Rejeter H0 signifie admettre que le facteur qualitatif X joue un rôle significatif
sur Y .
13
Application
On désire étudier l’effet de quatre systèmes de présentation(A1, A2, A3
et A4) d’un produit dans les magasins. Un essai dans un magasin pendant
5 semaines donne les valeurs suivantes ( ventes en milliers de francs):
A1 A2 A3 A4
120 122 116 122
118 120 108 114
122 132 116 122
110 124 116 122
130 112 124 130
120 122 116 122
52 52 32 32
14
15
16
Tableau de l’Analyse de la variance
Sources Somme Degré de Moyenne
de variation des carrés liberté (ddl) quadratique
19
Totale =792
Entre =120 3 40
classes
Résidus 16 42
=672
Les variables suit une loi normale et ont la même variance, on peut calculer
la distribution du F. C’est une distribution qui dépend des degrés de liberté k-
1 et n-k.
17
18
19