Anova
Anova
DÉPARTEMENT DE MATHÉMATIQUES
MASTER en Mathématiques
Option : Statistique
Par
BESSIOUD Ziad
Titre :
Juin 2018
Dédicace
i
REMERCIEMENTS
Louange à Allah , seigneur de l’univers, Avant tout puissant de m’avior donné la volonté
et la force pour réaliser ce travail et sans qui ce travail n’aurait , sans doute , pas pu voir
le jour Mes vifs remerciments sont adressés à mon encadreur Madame Roubi A¤ef pour
ces conseils et ces orientations qui m’ont été d’une grande utilité au cours de l’élaboration
de mon mémoire .
Je tiens à remercie spécialement Monsieur Meraghni Djamel ( Pro¤esur à l’université de
Biskra) qui m’a fait l’honneur de présider mon jury de mémoire .
Je tiens à remercie également Mademoisselle Hassouna Houda pour avoir pris le temps de
lire et juger ce travail.
Je remercie tous les enseignants qui aider pour …naliser ce travail surtout le pro¤eseur
Meraghni Djamel et Mon encadreur Roubi A¤ef
Ainsi que tous les employé du Département de Mathématique .
Je remercie tout particulièrement mes parents pour leurs encouragements et soutien sur
tous les aspects et aussi tout ma famille .
Je remercie tous ceux qui ont …nalisé ce mémoire soit de prés du loin.
ii
Table des matières
Remerciements ii
Introduction 1
iii
Table des matières
Conclusion 36
Bibliographie 37
Annexe A : Logiciel R 39
3.3 Rappel sur l’algèbre linéaire [3; 9] . . . . . . . . . . . . . . . . . . . . . . . 39
3.4 Rappel sur les statistiques multidimensionnelles [7] . . . . . . . . . . . . . 43
3.4.1 Notations matricielles de vecteurs aléatoires . . . . . . . . . . . . . 43
3.4.2 Lois de Gauss multivariée[7; 9] . . . . . . . . . . . . . . . . . . . . . 44
3.5 Rappel sur quelque distributions [9] . . . . . . . . . . . . . . . . . . . . . . 45
iv
Table des …gures
v
Introduction
La Statistique est la science qui à partir de l’observation des phénomènes on peut obtenir
des informations ; elle utilise principalement les méthodes de la statistique mathématique
pour obtenir des résultats qui forment l’information statistique, ils peuvent porter sur
tous les domaines : économie, médecine, technique...etc. Dont le rôle de statisticien est de
prendre des décisions sur la base de résultats expérimentaux, en étant conscient [Link] y’
a un risque d’erreur lié à l’incertitude des observations ou des résultats expérimentaux,
avant de prendre une telle décision, il testera une hypothèse statistique correspondant à
son problème.
Dans le cadre des tests d’hypothèses, nous avons émis des hypothèses concernant la
moyenne d’une population puis comparé les moyennes de deux populations. L’analyse
de la variance (ANOVA) est la méthode employée pour comparer plusieurs moyennes. Au
cœur de cette méthode est la décomposition de la variabilité totale selon les di¤érentes
sources présentes dans les données. La variabilité totale est décomposée en deux sources :
la variabilité intra dûe à l’erreur expérimentale et la variabilité inter dûe aux écarts de
moyenne entre les di¤érentes modalités d’un facteur.
Une autre méthode appelée analyse de la variance multiple (MANOVA) sert à comparer
des moyennes mais des moyennes vectorielles de plusieurs échantillons, ou d’une autre
façon elle permet d’étudier l’e¤et d’un ou des plusieurs variables qualitatives (facteurs)
sur une variable multidimensionnelle.
L’objectif de ce mémoire est d’étudier le cas où deux facteurs se présentent. Pour arriver
1
Introduction
Chapitre 3 : Ce dernier chapitre est consacré à l’application de tous ce que nous avons
parlé dans les chapitres précédents sur des données réelles sous le logiciel R.
2
Chapitre 1
Ce chapitre est consacré à une méthode statistique appelée l’analyse de la variance (ANOVA)
qui a pour objectif d’étudier l’e¤et d’un ou de plusieurs variables qualitatives sur une va-
raible quantitative.
Dans cette section ,on va parler sur l’analyse de la variance (ANOVA), leurs types et ses
principes.
3
Chapitre 1. Analyse de la variance univariée
Dé…nition 1.2.1 L’analyse de la variance à un facteur nous permet de tester l’e¤et d’un
facteur contrôlé A ayant p modalités sur les moyennes d’une variable quantitative Y .
4
Chapitre 1. Analyse de la variance univariée
Un facteur contrôlé A se présente sous p modalités, chacune d’entre elles étant notée Ai .
Pour chacune des modalités nous e¤ectuons ni >2 mesures d’une réponse Y qui est une
p
X
varible continue. Nous notons n = ni le nombre total de mesures ayants été e¤ectuées.
i=1
Les données relatives à une analyse de variance à un facteur contrôlé sont structurées dans
un tableau du type suivant
Conséderons p échantillons Yi d’e¤ectifs ni , issu des p populations qui suivent p lois nor-
2
males N ( i ; ) de même variance. Chaque observation s’écrit Yij , avec
i = 1; p et j = 1; ni .
n
1X i 2
Yi = Yij v N i; ; i = 1; : : : ; p.
ni j=1 ni
p n p
1 XX i 2
1X
Y = Yij v N ; avec = (ni i ) .
n i=1 j=1 n n i=1
5
Chapitre 1. Analyse de la variance univariée
n
1X i
2
s2i (Y ) = Yij Yi ; i = 1; : : : ; p.
ni j=1
p n
2 1 XX i
2
s (Y ) = Yij Y .
n i=1 j=1
Yij Y = Yij Y i + Y i Y ,
| {z } | {z } | {z }
écart total écart résiduel écart factoriel
Le modèle théorique et
Yij = Yij + i
p
X
avec "ij v N ( ; 2
) et la contrainte supplémentaire i = 0:
i=1
Yij = + i + "ij
6
Chapitre 1. Analyse de la variance univariée
Sous H1
Yij = + i + "ij , b + bi = Y i ;
d’où
8
>
< bi = Y i Y
>
: "b = Y b bi = Yij Yi
ij ij
en remarquant que
Yij Y = Yij Yi+Yi Y,
il vient facilement
p n p n p
1 XX i
2 1 XX i
2 1X 2
Yij Y = Yij Yi + ni Y i Y .
n i=1 j=1 n i=1 j=1 n i=1
Remarque 1.2.1 L’equation ne contient pas de double produit car la somme des doubles
produits est nulle en raison de la nullité de la somme de écarts par rapport à la moyenne
En e¤et
p ni ni
" p
#
X X X X
2 Yij Yi Yi Y =2 Yi Y Yij Yi = 0.
i=1 j=1 j=1 i=1
formule qui n’est autre que celle de la variance totale décomposée en variance des moyennes
et moyenne des variances
p n p p
2 1 XX i
2 1X 2 1X 2
s (Y ) = Yij Yi = Yi Y + s (Y ) (2:1)
n i=1 j=1 p i=1 p i=1 i
7
Chapitre 1. Analyse de la variance univariée
variance !
p ni p p ni
X X 2 X 2 X X 2
Yij Y = ni Y i Y + Yij Yi ,
i=1 j=1 i=1 i=1 j=1
| {z } | {z } | {z }
SCT OT SCF ac SCRe s
où
n 1 = (p 1) + (n p)
Les sommes des carrés des écarts peuvent être divisées par leur nombres de degré de liberté
respectifs,
8 on obtient alors, les carrés moyens
>
>
>
> CMT ot = SCT ot (n 1)
<
CMF ac = SCF ac (p 1) :
>
>
>
>
: CMRe s = SCRe s (n p)
8
Chapitre 1. Analyse de la variance univariée
Nous concluons alors à l’aide des tables, en utilisant le quantille f de loi de Fisher à p 1
et n p degrés de liberté que
si F < f on dit que H0 est accepté et on conclut qu’il n’existe pas une in‡uence signi…-
cative du facteur A.
si F f , on a H0 est rejetée et conclut qu’il existe une in‡uence signi…cative du facteur
A.
Nous concluons alors à l’aide de la p-valeur, rejet de H0 si elle est inférieure ou égale au
seuil du test.
Lorsque l’hypothèse nulle H0 est rejetée, nous pouvons procéder à des comparaisons mul-
tiples des di¤érents e¤ets des niveaux du facteur.
Cette section est consacrée à l’étude des situations expérimentales dans lesquelles l’e¤et de
deux facteurs (variables qualitatives) est étudié simultanément, c’est-à-dire dans le même
protocole expérimental. En cela, elle constitue une extension à la situation précédente dans
laquelle on n’étudiait qu ’un seul facteur à la fois (ANOVA d’ordre 1).
9
Chapitre 1. Analyse de la variance univariée
N B1 B2 BJ
A1 Y111 Y121 Y1J1
Y112 Y122 Y1J2
Dé…nition 1.3.1 L’analyse de la variance à deux facteurs teste l’e¤et de deux facteurs
controlés A et B (variables qualitatives ) ayant respectivement I et J modalités sur les
moyennes d’une variable quantitative Y .
10
Chapitre 1. Analyse de la variance univariée
Par contre, si le modèle de référence retenu est le modèle (2:2), alors l’analyse de la variance
à deux facteurs avec répétitions consiste en réalisation de trois tests de Fisher à la fois,
dont la formulation est
11
Chapitre 1. Analyse de la variance univariée
La mise en oeuvre d’une ANOVA 2, se fait principalement en 4 étapes. Les détails de ces
étapes sont comme suit
Étape 1 (Conditions)
A…n de réaliser une analyse de la variance à deux facteurs, les conditions suivantes doivent
être véri…ées préalablement
Les IJ échantillons comparés sont mutuellement indépendants.
La variable quantitative étudiée suit une loi normale dans les IJ populations comparées.
Les IJ populations comparées ont même variance : Homogénéité des variances.
Quanti…er les di¤érentes statistiques intervenant dans L’ANOVA à deux facteurs et qui
sont
La moyenne globale de toutes les observations
1 XXX
I J K
Y ::: = Yijk avec n = IJK;
n i=1 j=1 k=1
1X
K
Y ij = Yijk pour i = 1; I et j = 1; J;
K k=1
1 XX
J K
Yi = Yijk pour i = 1; I;
JK j=1 k=1
12
Chapitre 1. Analyse de la variance univariée
1 XX
J K
Y j = Yijk pour i = 1; I;
IK i=1 k=1
X
I X
J X
K
2
SCT ot = Yijk Y ::: ;
i=1 j=1 k=1
X
I X
J X
K
2
SCRe s = Yijk Y ij ;
i=1 j=1 k=1
X
I X
J X
K
2
SCA = Yi Y ::: ;
i=1 j=1 k=1
X
I X
J X
K
2
SCB = Y j Y ::: ;
i=1 j=1 k=1
X
I X
J X
K
2
SCAB = Y ij Yi Y j + Y ::: ;
i=1 j=1 k=1
Avec le même raisonnement que dans l’ANOVA 1, on peut démontrer que la variation
quadratique totale des observations autour de la moyenne Y ::: peut être décomposée comme
suit
SCT ot = SCRe s + SCA + SCB + SCAB :
13
Chapitre 1. Analyse de la variance univariée
CMA
v F((I 1);IJ(K 1)) ;
CMRe s
CMB
v F((J 1);IJ(K 1)) ;
CMRe s
CMAB
v F((I 1)(J 1);IJ(K 1)) ;
CMRe s
Étape. 4 : (Décision)
Pour un seuil de risque ,nous quanti…ons les valeurs critiques fa , fb ; fc ( par la lecture
sur le table de Fisher ), telle que
CMA CMB CMAB
P CMRe s
< fa = 1 ;P CMRe s
< fb = 1 ;P CMRe s
< fc = 1 .
Ainsi les décisions des tests se font comme suit
CMA
Décision sur le premier facteur Si CMRe s
< fa ; alors le premier facteur n’a pas une
in‡uence signi…cative sur le caractère étudié.
14
Chapitre 1. Analyse de la variance univariée
CMA
Si CMRe s
fa , alors le premier facteur a une in‡uence signi…cative sur le caractère
étudié.
CMB
Décision sur le deuxième facteur Si CMRe s
< fb , alors le deuxième facteur n’a pas
une in‡uence signi…cative sur le caractère étudié.
CM B
Si CMRe s
fb ; alors le deuxième facteur a une in‡uence signi…cative sur le caractère
étudié.
CMAB
Décision sur l’interaction des deux facteurs Si CMRe s
< fc , alors l’interaction
des deux facteurs n’a pas une in‡uence signi…cative sur le caractère étudié .
CMAB
Si CMRe s
fc , alors l’interaction des deux facteurs a une in‡uence signi…cative sur le
caractère étudié.
Remarque 1.3.1 Les résultats d’une ANOVA 2 sont souvent présentés dans un tableau
de la forme suivante
15
Chapitre 2
2.1 Généralité
H0 : 1 = 2 = = K,
16
Chapitre 2. Analyse de la variance multiple à deux facteurs ( MANOVA 2 )
H0 : 1 = 2 = = K,
jEj
= v p;#H ;#E , ( est une variable de Wilks de paramètre p est de degrés de liberté #H et #E ),
jT j
où jEj et jT j sont les déterminants des matrices des sommes carées et des produits rési-
duelles et totales respectivement, que nous les étudions dans la section suivante.
On rejette l’hypothèse H0 si p;#H ;#E .
17
Chapitre 2. Analyse de la variance multiple à deux facteurs ( MANOVA 2 )
N B1 B2 BJ
A1 Y111 Y121 Y1J1
Y112 Y122 Y1J2
.. .. ..
. . .
Y11K Y12K Y1JK
A2 Y211 Y221 Y2J1
Y212 Y222 Y2J2
.. .. ..
. . .
Y21K Y22K Y2JK
.. .. .. .. ..
. . . . .
AI YI11 YI21 YIJ1
YI12 YI22 YIJ2
.. .. .. ..
. . . .
YI1K YI2K YIJK
tion
i = 1; 2; : : : ; I, j = 1; 2; : : : ; J, k = 1; 2; : : : ; K,
où ai est l’e¤et du ieme niveau d’un facteur A sur chacune des p variables de Yijk , bj est
18
Chapitre 2. Analyse de la variance multiple à deux facteurs ( MANOVA 2 )
l’e¤et du j eme niveau de B et cij est l’e¤et d’interaction. Nous utilisons les conditions
X X X X
ai = bj = cij = cij = 0,
i j i j
P
et les "ijk sont indépendamment et identiquementdistrubués selon la loi N p (0; ). Sous
P
la condition i ai = 0, l’e¤et de A est la moyenne sur les niveaux de B, donc ai = i ,
P P
où i = j ij J, et = ij ij IJ, il y’a des dé…nitions similaires pour bj et cij .
P
Comme dans le cas univarié, le vecteur moyen Yi est dé…ni par Yi = jk Y ijk KJ.
P
Les moyennes Y j , Yij , et Y , ont des dé…nitions analogues : Y j = ik Yijk KI,
P P
Yij = k Yijk =K, Y = ijk Yijk KIJ.
Le tableau de l’analyse de la variance multiple à deux facteurs contient les matrices des
sommes carrés et des produits et les degrés de liberté associés et il est de la forme suivant.
Noton que les degrés de liberté sont les mêmes dans le cas univarié.
Pour le modèle à deux facteurs plan équilibré, la matrice des sommes carrés et des produits
totales et partitionnée comme
T = HA + HB + HAB + E. (2.1)
19
Chapitre 2. Analyse de la variance multiple à deux facteurs ( MANOVA 2 )
produits pour toutes les paires de variables. Ainsi, le reme élément de HA correspondant à
eme
la r variable ( r = 1; 2; : : : ; p) est donnée par
X
I
2 X
I
Y2 Y 2r
i r
hArr = KJ Yi r Y r = , (2.2)
i=1 i=1
KJ KIJ
X
I XI
Yi r Yi s Y rY s
hArs = KJ Yi r Y r Yi s Y s = . (2.3)
i=1 i=1
KJ KIJ
X Yij2 r Y 2r
hABrr = hArr hBrr , (2.4)
ij
K KIJ
X Yij r Yij s Y rY s
hABrs = hArs hBrs .
ij
K KIJ
E=T HA HB HAB .
X Y 2r
2
err = Yijkr hArr hBrr hABrr , (2.5)
ijk
KIJ
X Y rY s
ers = Yijkr Yijks hArs hBrs hABrs .
ijk
KIJ
Comme dans le cas univarié, il existe trois hypothèses à tester, qui sont
20
Chapitre 2. Analyse de la variance multiple à deux facteurs ( MANOVA 2 )
H0 : "Les paramètres ai sont tous nuls " contre H1 : "les paramètres ai ne sont pas tous
nuls".
2/ E¤et du second facteur
H0 : "Les paramètres bj sont tous nuls " contre H1 :"les paramètres bj ne sont pas tous
nuls ".
3/ E¤et de l’interaction des deux facteurs
H0 : "Les paramètres cij sont tous nuls" contre H 1 :"les paramètres cij ne sont pas tous
nuls ".
Le test de validité de ces hypothèses peut se faire par di¤érentes méthodes, que nous
examinerons dans ce qui suit.
Les matrices HA , HB et HAB peut être comparées à E pour tester l’e¤et des deux facteurs A
et B et l’e¤et d’interaction . Alors, pour chaque cas et sous l’hypothèse H0 , les statistiques
Lambda de Wilks ( ) utilisées pour tester l’e¤et de A, B et l’e¤et de l’interaction de cet
ordre sont dé…nies comme suit
jEj
A = p;I 1;IJ(K 1) ,
jE + HA j
jEj
B = p;J 1;IJ(K 1) ,
jE + HB j
jEj
AB = p;(I 1)(J 1);IJ(K 1) .
jE + HAB j
21
Chapitre 2. Analyse de la variance multiple à deux facteurs ( MANOVA 2 )
La statistique du test de Roy (appellé aussi le test de la plus grande racine de Roy).se
1
base sur la plus grande valeur propre de la matrice E H, qu’on la note 1 Pour tester
H0 , on utilise la statistique
1
= ;
1+ 1
s = min (#H ; p) ;
1
m= (j#H pj 1) ;
2
1
N = (#E p 1) ;
2
22
Chapitre 2. Analyse de la variance multiple à deux facteurs ( MANOVA 2 )
X
s
i
(s) 1
V = tr (E + H) H = ; s = min (#H ; p) .
i=1
1+ i
(s) (s)
On rejette H0 , au seuil si V (s) V , où les valeurs critiques de V sont tabulées.
(s)
La valeur V est indexée par les paramètres s,m et N qui sont les mêmes paramètres que
ceux du test de Roy (pour plus de détail voir [8]):
X
s
(s) 1
U = tr E H = i; s = min (#H ; p) .
i=1
Le tableau (2.2) contient des données concernant une expérience sur 32 pièces de barres
en acier. L’objectif de cette expérience est d’étudier l’e¤et des deux facteurs vitesse de
rotation (A) et lubri…ants (B) qui ont 2 et 4 niveaux respectivement sur deux variables
mesurées sur chaque pièce de barre en acier, qui sont
Y1 : le moment de la force,
Y2 : la déformation.
Les tabeaux suivants résument les calculs des totaux pour chaque variable, pour chaque
combinaison des deux facteurs (dans les cellules) et les toataux marginaux sont pour
chaque niveau de A et B.
En utilisant les formules de calcul de hArr dans (2.2), l’élément (1,1) du HA (correspondant
23
Chapitre 2. Analyse de la variance multiple à deux facteurs ( MANOVA 2 )
A1 A2
Y1 Y2 Y1 Y2
B1 7:80 90:40 7:12 85:1
7:10 88:90 7:06 89:0
7:89 85:90 7:45 75:9
7:82 88:80 7:45 77:9
B2 9:00 82:50 8:19 66:0
8; 43 92; 40 8:25 74:5
7:65 82:40 7:45 83:1
7:70 87:40 7:45 86:4
B3 7:28 79:6 7:15 81:2
8:96 95:1 7:15 72:0
7:75 90:2 7:70 79:9
7:80 88:0 7:45 71:9
B4 7:60 94:1 7:06 81:2
7:70 86:6 7:04 79:9
7:82 85:9 7:52 86:4
7:80 88:8 7:70 76:4
A1 A2
B1 30:61 29:08 59:69
B2 32:61 31:34 64:12
B3 31:79 29:45 61:24
B4 30:22 29:32 59:54
125:40 119:19 244:59
Tab. 2.4 – Les totaux pour Y1.
A1 A2
B1 354:0 327:9 681:90
B2 344:70 310:0 654:70
B3 352:90 305:0 657:90
B4 355:40 323:90 679:3
1407:0 1266:80 2673:8
Tab. 2.5 –Les totaux pour Y2.
24
Chapitre 2. Analyse de la variance multiple à deux facteurs ( MANOVA 2 )
Pour l’élément (1,2) du HA (correspondant à Y1 Y2 ) nous utilisons (2.3) pour obtenir hArs
Donc 0 1
B 1:205 27:208 C
HA = @ A.
27:208 614:251
d’où 0 1
B 1:694 9:862C
HB = @ A.
9:862 74:874
25
Chapitre 2. Analyse de la variance multiple à deux facteurs ( MANOVA 2 )
alors 0 1
B0:132 1:585 C
HAB = @ A.
1:585 32:244
La matrice d’erreur E est obtenue en utilisant les formules de calcul données pour err et
ers dans (2.5). Par exemple, e11 et e12 sont calculés comme
2 2 2 (244:59)2
e11 = (7:80) + (7:10) + + (7:70) 1:205 1:694 0:132 = 4:897,
32
(244:59) (2673:8)
e12 = (7:80) (90:40)+ +(7:70) (76:4) 27:208 ( 9:862) 1:585 = 1:890.
32
avec
#E = IJ(K 1) = (2)(4)(4 1) = 24.
26
Chapitre 2. Analyse de la variance multiple à deux facteurs ( MANOVA 2 )
jEj 3602:2
A = = = 0:474 < 0;05;2;1;24 = 0:771,
jE + HA j 7600:2
et nous concluons que la vitesse a un e¤et signi…catif sur Y1 ou Y2 ou sur les deux.
Pour l’e¤et principal de B, nous avons
jEj 3602:2
B = = = 0:6916 > 0;05;2;3;24 = 0:591.
jE + HB j 5208:6
jEj 3602:2
AB = = = 0:6916 > 0;05;2;3;24 = 0:591,
jE + HAB j 5208:6
par conséquent nous concluons que l’e¤et d’interaction n’est pas signi…cative.
27
Chapitre 3
L’analyse de la variance multiple à deux facteurs (MANOVA 2) est une méthode visant à
expliquer des variables quantitatives par deux variables explicatives qualitatives (appelées
facteurs). Dans ce chapitre, nous allons présenter sous le logiciel R cette méthode en
utilisant deux exemples numériques réalisées sur des données réelles.
3.1 Exemple 1
Les données résumées dans le tableau (3.1) sont issues d’une expérience dans laquelle la
concentration de calcium (mg/100 ml) dans le plasma et le taux d’eau perdu (mg/min)
a été mesurée chez 12 oiseaux des deux sexes ayant subi ou non l’administration d’un
traitement hormonal ( [26]). Dans cet exemple l’objectif est de tester l’existence d’un e¤et
de sexe, de traitement et de leur interaction sur la concentration de calcium dans le plasma
et le taux d’eau perdu.
Les deux facteurs sont codés de la manière suivante
Pas de Traitement hormonal : h1, Traitement hormonal : h2 ;
Femelle : s1, Male : s2.
28
Application Numérique sous logicel R
Tab. 3.1 –Concentration en calcium (en mg/100 ml) et taux d’eau perdu (mg/min) des
individus en fonction de leur sexe et de l’administration d’hormone.
Y=cbind(CA,H2O)
Les sommes des carrées et des produits sont obtenues à l’aide de la fonction manova,
comme on montre ci dessous
manova(Y~hormone*sexe)
Call :
manova(Y ~hormone * sexe)
Terms :
hormone sexe hormone :sexe Residuals
resp 1 635:1075 14:7408 7:2075 228:7533
resp 2 102:0833 18:7500 36:7500 151:3333
Deg. of Freedom 1 1 1 8
Les tests sur les e¤ets principaux des 2 facteurs et l’e¤et d’interaction se fait en tapant la
commande suivante
29
Application Numérique sous logicel R
summary(manova(Y~hormone*sexe))
Au risque = 0:05, les résultats des tests indiquent un e¤et signi…catif du facteur hormone
sur les deux variables CA et H2O puisque la p valeur est inférieure à 0:05 (0:001140 < 0:05),
tandis que l’e¤et du facteur (sexe) n’est pas signi…catif (0:358439 > 0:05). Il n’y a par
ailleurs pas d’e¤et d’interaction entre les deux facteurs (0:274351 > 0:05) : l’e¤et du
facteur hormone est le même quelque soit le sexe des individus.
Remarque 3.1.1 - Les autres tests sont également disponibles sous R, et ils sont obtenus
en exécutant ces instructions
summary(manova(Y~hormone*sexe),test="W")
summary(manova(Y~hormone*sexe),test="H")
summary(manova(Y~hormone*sexe),test="R")
- Ces trois tests donnent les mêmes résultats que ceux obtenus par le test de Pillai.
3.2 Exemple 2
L’expérimentation est menée sur des grains de blé dur (Triticum durum Desf) fournies par
C.C.L.S (coopératives de céréales et légumes secs) de Biskra, les génotypes qui sont retenus
sont : HEDBA, BELYOUNI, BIDI 17. Les essais ont été conduits au laboratoire de
biologie d’université Mohamed Khider de Biskra El-Hadjeb.
Selon le protocole expérimental suivi, 20 grains sont placés dans une boîte de Pétri et ils
30
Application Numérique sous logicel R
sont tapissés par deux couches de papier absorbant humidi…ée par des di¤érentes concen-
trations de NaCl (0 g/l, 5g/l, 10g/l, 15g/l). Chaque traitement est répété trois fois. Après
15 jours, la longueur de radicule (racine) et de l’épicotyle (feuille) est mesurée (en cm).
Alors, chaque observation est présentée sous la forme suivante
Yij = (l1 ; l2 );
où
l1 : la longueur de radicule ;
l2 : la longueur de l’épicotyle.
Dans cet exemple, on veut étudier l’e¤et de variété de blé dur et de la concentration de
NaCl sur la longueur de radicule et la longueur de l’épicotyle.
La technique la plus adéquate pour traiter ce problème est la MANOVA 2 (les deux
facteurs simultanément). Notons qu’on peut aussi faire une MANOVA1 (chaque facteur
indépendamment).
Dans cette section, on va résoudre ce problème par une ANOVA 2 (l’étude de l’e¤et des
deux facteurs sur chaque variable séparément), puis on va appliquer la MANOVA 2.
31
Application Numérique sous logicel R
Avant d’appliquer l’ANOVA 2, un calcul des moyennes pour chaque variable, pour chaque
combinaison et pour chaque niveau des deux facteurs nous fournis les résultats présentés
dans le tableau (3.2).
Remarque 3.2.1 On a utilisé les notations v1, v2, v3 pour le facteur variété et c1, c2,
c3 et c4 pour les niveaux du facteur concentration.
32
Application Numérique sous logicel R
Response RADICULE :
Df Sum Sq Mean Sq F value Pr(>F)
VARIETE 2 1:8 0:90 0:7857 0.4562
CONCENTRATION 3 3571:17 1190:36 1036:1911 <2e-16 ***
VARIETE :CONCENTRATION 6 186:4 31:06 27:0411 <2e-16 ***
Residuals 708 813:3 1:15
Response EPICOTYLE :
Df Sum Sq Mean Sq F value Pr(>F)
VARIETE 2 17:79 8:90 18:042 2.279e-08 ***
CONCENTRATION 3 2459:67 819:89 1662:946 <2.2e-16 ***
VARIETE :CONCENTRATION 6 119:35 19:89 40:346 <2.2e-16 ***
Residuals 708 349:07 0:49
Signif. codes : 0 ‘***’0:001 ‘**’0:01 ‘*’0:05 ‘.’0:1 ‘’1
Les résultats de l’ANOVA 2 fournis par le logiciel R pour les deux variables radicule et
épicotyle sont présentés respectivement dans le tableau (3.3).
D’après les résultats de l’analyse de la variance et au seuil de risque = 0:05, on constate
que
D’une part, il n’existe pas un e¤et signi…catif du facteur variété sur la longueur des ra-
dicules puisque la p valeur est supérieure à (0:4562 > 0:05), mais il est hautement
signi…catif sur la longueur de l’épicotyle (la p valeur est inférieure strictement à ).
D’une autre part, il y’a des e¤ets très hautement signi…catifs de la concentration de NaCl
et ainsi de l’interaction (variété : concentration) sur les deux variables (radicule, épicotyle).
D’une part, la p valeur associée à ce facteur est strictement inférieure à (cela pour les
33
Application Numérique sous logicel R
Tab. 3.4 –Analyse de la variance multiple (MANOVA 2) avec les quatres statistiques du
test.
quatre statistiques du test), donc il existe une di¤érence signi…cative entre les longueurs
moyennes des radicules des trois types de variétés ou les longueurs moyennes des épicotyles
des trois types de variétés ou les deux.
Ce résultat est con…rmé par les résultats présentés dans le tableau (3.3) où on a montré
que pour un seuil de risque , le facteur variété a un e¤et signi…catif sur l’épicotyle mais
elle n’a pas un e¤et signi…cative sur la longueur des radicules.
Les di¤érents tests statistiques indiquent un e¤et hautement signi…catif du facteur concen-
tration sur la longueur des épicotyles ainsi que sur la longueur des radicules. Ces résultats
sont confondus avec les résultats obtenus précédemment.
34
Application Numérique sous logicel R
Les résultats de l’analyse de la variance multiple indiquent aussi qu’il existe un e¤et
d’interaction entre les deux facteurs variété et concentration très hautement signi…catif
sur la longueur des radicules et la longueur des épicotyles. Ces résultats sont similaires à
ceux présentés dans le tableau (3.3).
35
Conclusion
En…n L’analyse de la variance multivariée (MANOVA) utilise dans le même cadre concep-
tuel que l’ANOVA. Il s’agit d’une extension de l’ANOVA permettant de prendre en compte
une combinaison de variables dépendantes plutôt qu’une variable dépendante unique. Dans
le cadre de la MANOVA, les variables explicatives sont souvent appelées facteurs.
Ainsi l’avantage de l’utilisation d’une MANOVA au lieu de plusieurs ANOVA simultanées
réside dans le fait qu’elle prend en compte les corrélations entre les variables réponses et
permet ainsi une meilleure utilisation des informations provenant des données. La combi-
naison des variables dépendantes peut représenter une variable non mesurable directement.
Donc la MANOVA teste les e¤ets de facteurs sur plusieurs variables réponses. Avec une
MANOVA, il est donc possible de tester conjointement toutes les hypothèses testées par
une série d’ANOVAs avec plus de chance d’observer un e¤et signi…[Link] utilisée pour
e¤ectuer des tests multivariés dont le but est de véri…er si les paramètres correspondant aux
di¤érentes modalités d’un facteur sont signi…cativement di¤érents ou non. Par exemple,
on peut tester les e¤ets de quatre traitements appliqués à des plantes sur une qualité de
production représentée par une combinaison de variables, en incluant ou non des e¤ets
d’interaction.
L’objectif du présent mémoire est de discuter le cas de MANOVA 02 c’est -à-dire l’étude
de l’e¤et d’un 2 facteur …xe sur plusieurs variables, la réalisations de l’analyse de variance
multiple est équivalente à la réalisation d’un test ou plusieurs tests
36
Bibliographie
[3] [Link] , (1975). Analyse de la variance à plusieur variables. Les press agrono-
mique de Gembeux ASBL.
[5] Richard A Johnson and Dean [Link], (2007) . Applied Multivariate Statistical
Analysis, sixth edition ; Upper River , New Jersy.
francour@unice .fr
37
Bibliographie
[9] Gilbert. Saporta , (2006) Probabilité, Analyse des données et Statistique, deuxièmme
edition .Edition TECHNIP 27 rue Ginoux , 75737 PARIS , Cedex 15, FRANCE .
38
Annexe A : Rappel sur l’algèbre
linéaire et statistique
Dans cette Annexe on va présenter quelques notions sur l’algèbre Linéaire ( matrice,
l’inverse d’une matrice,. . . ) ainsi que les statistiques multidimensionnelles ( notations,
espérance ,: : :) ou nous focalisons principalement sur le cas d’un vecteur gaussien .
Une matrice X est un tableau rectangullaire de [Link] dit que X est de taille n p;si
X a n0lignes et p colonnes
1 .Une telle matrice est repésentée de la manière suivante :
B x11 : : : x1p C
B . .. .. C
X=B B .
. . . C
C
@ A
xn1 xnp
ou xij est l’élément de la ieme ligne de la j eme colonne , on le note aussi (X)ij .
8
>
< 1 si i = j
xij =
>
: 0 si i = j
39
Annexe A : Rappel sur l’algébre linéaire et statistique multidimensionnelle
c’est-à dire :
0 1
B1 0 0C
B C
B0 1 0C
B C
In = B . .. C
B .. . . . .. C
B . .C
@ A
0 0 1
Dé…nition 3.3.3 ( la matrice nulle )Une matrice est dite nulle si ses éléments sont toutes
nuls, c’est-à-dire :
xij = 0 8i = 1; n 8j = 1; p
La trace d’une matrice carée X d’ordre p, notée tr (X) est la somme de ses éléments
diagonaux, c’est-à-dire :
p
X
tr (X) = xii :
i=1
40
Annexe A : Rappel sur l’algébre linéaire et statistique multidimensionnelle
A toute matrice carrée d’ordre p, correspond un nombre réel ; noté jXj ou det (X) ; appelé
le déterminant de X , qui peut être obtenu comme suit :
Pour une matrice d’ordre 1 :
jx11 j = x11 ;
x11 x12
= x11 x22 x21 x12 ;
x21 x22
D’une façon générale , le déterminant d’une matrice carrée X peut être calculé grâce
aux notions de mineurs ou de cofacteurs.
Le mineur de l’élément xij d’une matrice X est le déterminant que l’on obtient en éliminant
la ieme ligne et la j eme colonne X .
Le cofacteur Xij de xij est égal au mineur de xij multiplié par ( 1)i+j .
Le déterminant de X peut être calculer en e¤ectuant la somme des produits des di¤érents
éléments d’une même colonne par leurs cofacteurs respectifs :
p
X
det (X) = xjj Xjj (pour tout j)
i=1
p
X
= xij Xij (pour tout i)
i=1
Notons que la transposée de la matrice des cofacteurs Xij est appelée ” matrice adjointe
”est désignée par adj (X).
1
La matrice inverse de X ; notée X ; peut être obtenue notamment en divisant la matrice
adjointe de X par le det (X) :
41
Annexe A : Rappel sur l’algébre linéaire et statistique multidimensionnelle
1 adj (X)
X = ; det (X) 6= 0:
det (X)
Soit X une matrice de taille n n, les trois conditions suivantes sont équivalentes :
[Link] X = 0:
2. il existe un vecteur colonne V 2 Rn est un vecteur colonne de taille n, alors
XV = 0 =) 0Rn :
1
3.X possède une matrice inverse , c’est-à-dire il existe une matrice X telle que :
1 1
X X = XX = In :
Les valeurs propres ou les valeurs caractérestiques d’une matrice carrée X d’ordre p,sont
les p solutions de l’equation caractérestique :
det (X Ip ) = 0:
Les valeurs propres peuvent être réelles ou complexes, positives, nulles ou négatives, dis-
tinctes ou confondues , mais on s’interesse ici aux valeurs propres réelles, alors que leurs
sommes est égale à la trace de la matrice X et leurs produits à son déterminant :
p
X
i = tr (X) ;
i=1
p
i = det (X) :
i=1
42
Annexe A : Rappel sur l’algébre linéaire et statistique multidimensionnelle
[7]
Pour établir les propriétés d’un p-uplets (X1 ,X2 , : : : ; Xp ) de variables aléatoires, il est
préférable d’adopter la notation matricielle. Ainsi, on note :
X = (X1 ; X2 ; : : : ; Xp )t ;
Si les covariances des composantes prises 2 à 2 existent, la matrice d’élément (i; j) égal à
cov (Xi ; Xj ) est appelle matrice des variances-covariances de X de taille p p et on la note
X
V (X) ou ,
0 1
2
B X1 cov (X1 ; X2 ) : : : cov (X1 ; Xp )C
B C
X B
B cov (X 2 ; X2 ) 2
X 2
cov (X 2 ; Xp )C
C
V (X) = =B .. .. .. C
B ... C
B . . . C
@ A
2
cov (Xp ; X1 ) cov (Xp ; X2 ) Xp
Notons que cette matrice est symétrique et que ses éléments diagonaux sont les variances
des composantes du vecteur aléatoire X , en e¤et :
43
Annexe A : Rappel sur l’algébre linéaire et statistique multidimensionnelle
= cov (Xj ; Xi ) ;
et
= V ar (Xi ) :
E [Y ] = AE [X] + C et V (Y ) = AV (X) At :
44
Annexe A : Rappel sur l’algébre linéaire et statistique multidimensionnelle
1 1
fX (x1 ; x2 ; : : : ; xp ) = 1=2
exp (X )t 1
(X ) :
(2 ) (det ) 2
Proposition 3.4.1 on dit qu’un vecteur aléatoire gussien a des composantes linéairement
indépandantes si et seulement si sa matrice des variances-covariances est diagonale , c’est-
à-dire si et seulement si les covariances des composantes prises deux à deux sont nulles
(cov (Xi ; Xj ) = 0 ; i 6= j) :
ni : l’e¤ectif de l’échantillon i ;
k : le degrés de liberté,avec k = ni 1;
jAj(k p 1)=2
exp 1
2
trA 1
f (A) = c ;
j jk=2
45
Annexe A : Rappel sur l’algébre linéaire et statistique multidimensionnelle
Dé…nition 3.5.2 (La distrubution de WILKS) Les distrubutions de WILKS sont re-
latives à des expressions du type
jA1 j
= ;
jA1 + A2 j
2
liberté ” , on la note v; et sa densité de probabilité est donnée par :
1 x2 p
1
f (x) = v
e 2 x2 2
;
2v=2 2
Z x
avec (x) = tx 1 e t dt:
0
X1 =v1
F = ;
X2 =v2
est une variable aléatoire qui suit une loi de Fisher a v1 et v2 degrés de liberté, avec
la densité de probabilité correspondante est donnée par :
v1=2 v1
v1 1
1 v2
x2 (p) (q)
f (x) = v1 v2 (v1 +v2 )=2
; avec (p; q) = :
; v1 (p + q)
2 2 1+ v2
x
46
Annexe B : Quelques commandes de
logiciel R
Le tableau ci-dessous présente les principales fonctions à utiliser a…n d’e¤ectuer d’analyse
de varince et la régression
47
Annexe B : Abréviations et Notations
Commande Description
48