République Démocratique Du Congo
Ministère de l’Enseignement Supérieur
et
Universitaire
Institut Supérieur des Techniques Médicales de kikwit
Cours de Biostatistiques
Destiné aux étudiants en deuxième année Santé publiques
Elaboré par : Ass.1 NGOVULA Ryaz Jeancy
NEW EDITION
Objectifs pédagogiques
L’objectif de cette brochure est d’apporter certains outils
méthodologiques classiquement utilisés pour décrire et tester
des phénomènes biologiques.
Introduction
Toute étude statistique peut être décomposée en deux
phases au moins : le rassemblement ou la collecte des
données, d'une part, et leur analyse ou leur interprétation,
d'autre part.
La collecte des données peut être décomposée en deux
étapes, l'une déductive ou descriptive et l'autre inductive.
La statistique descriptive a pour but de mesurer et de
présenter les données observées d'une manière telle qu'on
puisse en prendre connaissance aisément, par exemple sous
la forme de tableaux ou de graphiques.
L'inférence statistique permet d'étudier ou de généraliser
dans certaines conditions les conclusions ainsi obtenues à
l'aide de tests statistiques en prenant certains risques
d'erreur qui sont mesurées en utilisant la théorie des
probabilités (DAGNELIE.P., 1986).
1) La collecte des données : il existe deux façons de
collecter des données qui sont :
ère
a) Une simple observation : permet d’acquérir une 1
connaissance des phénomènes de la nature ex :
médiologie, économie……
b) Une expérimentation : l’expérience a pour but d’apporter
de nouvelles informations aux connaissances que l’on
possède déjà. Les phénomènes étudiés peuvent être
provoqués facilement en biologie, en physique et/ou en
biochimie et, pour réaliser une expérience il faut suivre
les étapes suivantes (DAGNELIE.P., 2003) :
• Planification
• Réalisation
• Collecte des données
• Analyse des données
• Interprétation des résultats
• Conclusion
Ce plan constitue la pierre angulaire de la méthode
expérimentale.
2) Analyse statistique : c’est l’application des tests
statistiques pour analyser les données collectées. Ces
tests sont expliqués dans les chapitres suivants.
Cours de bio statistiques Page 1
Chapitre I : Statistique descriptive à une dimension
ou statistique univariée
C’est une partie de la statistique qui a pour but :
- De rassembler des données numériques ;
- D’en donner des représentations graphiques ;
- D’en résumer l’information sous une forme condensée
plus accessible, plus commode.
Pour cela, on définit des valeurs caractéristiques qui sont les
paramètres de position et de dispersion (LEGRAS. B.,1998).
Généralité
La population est un ensemble de sujets (objets =
éléments) qui ont au-moins une propriété en commun.
L’échantillon de la population est un sous-ensemble de la
population. Cet échantillon doit être représentatif de la
population.
L’unité statistique est l’élément de la population sur lequel
on travaille. Par exemple, si on s’intéresse aux étudiants
d’une école, l’unité sera l’étudiant.
Variable statistique : c’est une caractéristique des individus
constituant la série étudiée.
On peut répartir les variables en deux catégories
principales.
Variables qualitatives : ce sont des variables non
mesurables.
On distingue deux catégories secondaires :
- Les variables ordinales (ou semi-quantitatives), elles
peuvent bénéficier d’un classement ordonné.
Exemple : intensité de la douleur
(nulle, légère, forte, ...) ; - Les
variables qualitatives pures.
Exemple : couleur des yeux.
Cours de bio statistiques Page 2
Variables quantitatives : ce sont des variables
mesurables. On distingue deux catégories secondaires
(LEGRAS. B.,1998):
- Les variables discontinues, elles ne peuvent prendre
qu’un nombre fini de valeurs. Exemple : nombre
d’enfants… ;
- Les variables continues, elles peuvent prendre un
nombre infini de valeurs.
Exemple : taille, pression artérielle, ….
1.1. Tableaux statistiques
Un tableau statistique est une représentation chiffrée d’un
fait social ou économique construit à partir d’une ou plusieurs
variables (ligne, colonne) chacune caractérisée par une ou
plusieurs modalités (âge, sexe, année,), par exemple un
tableau du poids de 5000 animaux :
I yi Classe de ni
i=1 y1 = 75,2 poids
i=2 y2 = 82,5
50 – 55 60
: :
55 – 60 2500
: :
60 – 65 470
: : Simplifier
:
: dans un cahier 96 pages : :
Tableau Tableau de: distribution des fréquences
:
n = 5000 y5000 = 65,0
1.2. : (Une seule page) :
Représentation graphiques : la
représentation graphique donne la 1ère idée de l’aspect
général des distributions étudiées. Il y a 3 types de
graphiques
a) Diagramme en bâtons : pour les variables
discontinues avec les valeurs discontinues.
Ex : nombre d’étudiants par filière :
B.V 53 Biochimie 25
B.M 30 Microbiologie 80
Nb étudiants
Cours de bio statistiques Page 3
Filière (discontinue)
b) Histogrammes : pour les variables continues avec
des valeurs continues de -∞ à +∞.
ni
(Continue) classe
c) Polygones de
fréquences : pour variables discontinues avec des
fréquences.
Ex : nombre d’accidents par mois :
Nb d’accidents
Cours de bio statistiques Page 4
Mois
1.3 Réduction des données
La réduction des données permet de condenser les données
sous forme des paramètres typiques qui sont les suivants :
Paramètres de position
Paramètres de dispersion
Paramètres de dissymétrie et d’aplatissement
1.3.1 Paramètres de position
Ce sont des valeurs moyennes qui servent à caractériser
l’ordre de grandeur des observations. Ce sont
principalement :
- La moyenne arithmétique
- La moyenne géométrique
- La moyenne harmonique
- La moyenne quadratique
- La médiane
- Le mode
a) La moyenne arithmétique X:̅
Cours de bio statistiques Page 5
ni = les valeurs observées
n i1+¿ 2+… …+ n ¿
x=
n = x=∑∋ n ¿
Propriétés :
*) la somme des ni - x est nulle
*) c’est par rapport à cette moyenne que la somme
de carrés des écarts est la plus petite.
b) La moyenne géométrique : xg
La moyenne géométrique xg d’une série statistique
composée de n valeurs positives
n1+n2+…nn est par définition, la racine n ième du
produit de ces n valeurs :
xg= x1+x2………xn(xi ≥ 0)
c) La moyenne harmonique : Xh
La moyenne harmonique d’une série de n valeurs
positives est égale à l’inverse de la moyenne
arithmétique des inverses n
yh 1 1 1 (xi
0) x1
x2 xn
d) La moyenne quadratique : la moyenne quadratique
d’une série des n valeurs positives, nulles ou
négative, est la racine carrée de la moyenne
arithmétique des carrés
yq x12 x22
xn
2n
e) La médiane :
La médiane est la valeur qui laisse 50% des
observations en-dessous et 50% des observations
au-dessus. On l’appelle également parfois
“percentile 50” : c’est la valeur centrale par
excellence.
Cours de bio statistiques Page 6
Pour la calculer, il faut d’abord trier l’échantillon.
Ensuite,
– si l’effectif n de l’échantillon est impair,
– si l’effectif n de l’échantillon est pair,
La médiane a, comme propriété, d’être peu
sensible aux valeurs extrêmes.
f) Le mode est la valeur la plus fréquente dans
l’échantillon. C’est la valeur dominante = la valeur
observée qui a la fréquence maximum. On peut
avoir des séries unimodales, bimodales et
plurimodales
Remarque : la moyenne arithmétique est la plus couramment
utilisée.
1.3.2 Paramètre de dispersion
Ce sont des paramètres qui permettent de chiffrer la
variabilité des valeurs observées, autour d’un paramètre de
position, ce sont principalement :
La variance
L’écart-type
Le coefficient de variation
L’écart-moyen absolu
L’amplitude
a) La variance : c’est la moyenne arithmétique des carrés
des écarts par rapport à la moyenne
n
2 i1 yi y2 SCE
S
Cours de bio statistiques Page 7
n n
Et la formule pratique de calcul est :
S 2 1n yi2
1nin1 yi
2 n i
1
SCE
b) L’écart-type : ou l’écart quadratique moyen c’est la
racine carrée de la variance :
SCE
S2
S n
c) Le coefficient de variation : il est utilisé pour comparer la
variabilité relative de plusieurs séries statistiques
S S
CV ou
100 %
x x
Remarques
2
s ,s et CV sont nuls si et seulement si tous les
écarts yi y sont nuls, c’est-à-dire si toutes les
valeurs observées sont égales entre elles, et à
leur moyenne ou plus simplement, s’il n’y a pas
de variabilité dans les observations
2
l’unité suit l’unité des donnée observée s (unité
au carré), s (unité), CV est sans unité ou en
pourcentage.
| |
d) L’écart-moyen absolu : em
Cours de bio statistiques Page 8
e) L’amplitude : w
C’est l’écart entre les valeurs extrêmes d’une série
d’observation classées par ordre croissants.
1.3.3 Paramètre de forme ou de dissymétrie et
d’aplatissement : coefficient de PEARSON et
FISHER
a) Moments centrés d'ordre k
– moyenne arithmétique des écarts à la moyenne
élevée à la puissance k.
– si k pair => paramètre de dispersion.
– si k impair => paramètre de symétrie.
b) Coefficient de Pearson et de Fisher
– b1 pour caractériser la symétrie de la courbe; b2
pour caractériser l'aplatissement.
– b1 = M32 / M23 : est voisin de 0 si la distribution est
symétrique.
– b2 = M4 / M22 : est voisin de 3 si la distribution suit
une loi normale (plus aplatie qu'elle si b2 < 3).
Chapitre 2 : La régression : statistique descriptive à
deux dimensions ou à deux variables ou bi variées
Cours de bio statistiques Page 9
Ce chapitre a pour but de mettre en évidence les
relations qui existent entre deux séries d’observations
considérées simultanément. Ici aussi on distingue 3 méthodes
(DAGNELIE. P., 2006) :
2.1. L’élaboration de tableaux statistiques :
permettant de condenser les données sous formes de
distribution de fréquences
2.2. La représentation graphique :
a) Diagrammes de dispersion ou nuage de points qui
sont obtenus en représentant chaque
couple d’observation (xi,yi) par un points dans un plan
(x,y).
b)Diagrammes en bâtons Pour distribution
de fréquences à deux dimensions c) Les
stéréogrammes
2.3-Réduction des données: il existe deux types de
paramètres:
les paramètres relatifs à une seule variable: sont
des paramètres qui ne concernent qu’une
variable à la fois: la moyenne, la variance, et
l’écart-type.
les paramètres relatifs aux deux variables: qui
servent à décrire les relations entre les deux
variables prises simultanément sont:
- La covariance
- Le coefficient de corrélation
- Le coefficient de détermination
- Les variances résiduelles
- Les droites de régression des moindres carrés
Cours de bio statistiques Page 10
2.3.1 La covariance: caractérise simultanément les deux
séries d’observation. Elle est positive ou négative selon que la
relation entre les deux séries de données est croissante ou
décroissante, c’est-à-dire selon que les valeurs élevées d’une
série correspondant, dans l’ensemble, aux valeurs élevées ou
aux valeurs peu élevées de l’autre.
Ex : Le tableau suivant montre les données observées de
poids et de taille de 5000 étudiants :
Poid Taill
s yi e xi
i y1 = x1 =
= 75,2 1,55
1 y2 = x2 =
i 82,5 1,82
= : :
2 : :
: y5000 = x5000 =
: 65,0 1,92
n=
500
0
n
xi xyi y
Covx.y i1
n
SPE
Covx.y
n
1n 1 n n
Covx.y n xi yi ni1 xi i1 yi
i 1
1
SPE xi yi n
xi yi
Cours de bio statistiques Page 11
Poid Taill
yi2 xi2 xiyi
s yi e xi
i y1 = x1 = (75,2)2 (1,55)2 75,21,55
= 75,2 y2 1,55 x2 (82,5)2 (1,82)2 82,51,82
1 = 82,5 = 1,82 : : :
i : : : : :
= : : : : :
2 : : (65,0)2 (1,92)2 65,01,92
: y5000 = x5000 =
: 65,0 1,92
:
n=
5000
Σ yi Σ xi Σ yi2 Σ xi2 Σ xiyi
2.3.2 Le coefficient de corrélation r : sert à mesurer
l’intensité de la relation qui existe entre les deux séries
de données pour autant que cette relation soit linéaire ou
approximativement linéaire.
r +1 r -1 r
0
Forte corrélation positive Forte corrélation négative
Pas de corrélation
1r1
-1 0 +1
Cov
x.y r
Cours de bio statistiques Page 12
Sx Sy
Cours de bio statistiques Page 13
Test de signification de la corrélation
Le premier test qui vient à l’esprit est la significativité de la
corrélation c’est-à-dire le coefficient de corrélation est-il
significativement différent de 0 ?
Le test s’écrit :
H : r=0
H : r ≠0
Remarque : (autres hypothèses alternatives). On peut vouloir
définir une hypothèse alternative différente (H : r<0 ou H : r
> 0). Les caractéristiques des distributions restent les
mê[Link] risque α donné, seul est modifié le seuil de
rejet de H puisque le test est unilatéral dans ce cas.
Le test étudié est paramétrique. On suppose a priori que
le couple (X.Y) suit une loi normale bivariée. Dans ce cas : la
distribution sous H de la statistique du test que nous
présenterons plus bas est exact : le test de significativité
équivaut à un test d’indépendance.
Cette restriction est moins contraignante lorsque n est
suffisamment grand (RAKOTOMALALA R., 2015). A partir de 25
observations, l’approximation est bonne, même si nous
écartons (un peu) de la distribution normale conjointe. La
distribution est valable sous l’hypothèse r=0. Mais le test de
significativité revient simplement à tester l’absence ou la
présence de corrélation.
Statistique du test : Sous H , la statistique :
Suit une loi de Student à (n-2) degrés de liberté. L’hypothèse
nulle est rejetée si :
Cours de bio statistiques Page 14
t t1
2.3.3 Le coefficient de détermination r2: est égale à la
part de la variation de y qui est expliquée par la
régression de y en x.
r 2 r 2 Coefficient de détermination (%)
0 r 2 1
2.3.4 Les droites de régression au sens des moindres
carrés et les variances résiduelles
La droite de régression de y en x a pour but de résumer
le nuage de points c’est-à-dire de représenter sur le plan
l’allure de la distribution à deux caractères. Cette droite
donne une idée de la façon dont varie en moyenne la variable
y dite dépendante ou variable à expliquer, en fonction de la
variable x, dite indépendante ou explicative. La droite est
appelée également diagramme de régression.
Lorsque le diagramme de régression est linéaire ou
approximativement linéaire, on peut s’efforcer de rechercher
l’équation de la droite qui s’y ajuste le mieux (DAGNELIE. P.,
2006).
2.3.5 La variance résiduelle de y apparait ainsi comme un
indice de dispersion des points observés autour de la
droite de régression de y en x
La quantité cov2(x,y)/s2x est considéré comme la part de la
variance de y qui est expliquée ou justifiée par régression de
y en x, tandis que la variance résiduelle est la part de cette
variance qui ne peut être expliquée de la sorte S 2y.x
yiobs yˆiest 2
n
L’écart-type résiduel: c’est la racine carrée de la variance
résiduelle, ce paramètre mesure la dispersion des points
Cours de bio statistiques Page 15
observés autour de la droite de régression. C’est l’erreur que
l’on connaitrait si l’on estime à l’aide del’équation
yabx Equation de régression
Sy.x S 2y.x
Remarque: L’équation de la régression est utilisée le plus
souvent dans un but de prévision ou d’estimation.
℮i: l’erreur d’ajustement
L’équation de la droite est alors de la forme y=a+bx cette
droite passe par le point moyen(x , ȳ).
covx y,
y a bx a y bx et b x2
s
On appelle résidus de y par rapport à x les écarts: y i-ŷ(xi)
entre les points correspondants de la droite de régression de
y en x. Ces écarts sont de somme et de moyenne nulle ce
sont ces valeurs qu’on ne peut pas expliquer.
La variance résiduelle de y est la variance de ces résidus.
Chapitre 3 : les méthodes statistiques relatives aux
moyennes
Ces méthodes sont subordonnées à deux conditions :
- la normalité des populations
- le caractère aléatoire et simple des échantillons
Dans le cas de certains tests relatifs aux moyennes ces
méthodes nécessitent une troisième condition :
- l’égalité des variances des populations.
Cours de bio statistiques Page 16
3.1 Intervalle de confiance et le test de conformité
d’une moyenne
3.1.1 Intervalle de confiance
Estimation de la moyenne : il est dit que la meilleure
estimation de la moyenne mˆ de la population est donnée par
la moyenne x de l'échantillon mˆ x
Intervalle de confiance de la moyenne estimée
- Dansle cas où la variance de la population parent est
connue les limites de l'intervalle de confiance sont alors :
xinf x xsup x
1 n 1 2 n 2
- Dansle cas où la variance de la population parent n'est pas
connue alors il faut l'estimer à partir de la
2 SCE nS 2 nS 2
variance de l'échantillon ˆ ˆ
n1 n1 n1
SCE SCE
donc : xinf x xsup x
1 nn1 1 2nn1
2
Dans la pratique quand n est supérieur à 30 (n30 ) on
remplace par la valeur 2 2 .
1 1 2
2
Cependant pour des effectifs inférieurs à 30 (n30) on utilise
la loi t de STUDENT et on remplace
12 par t12 12 t12 pour n 10,
ddl05
Cours de bio statistiques Page 17
Application : dans une forêtdistincte on a pris au hasard 12
arbres et on a mesuré leurs hauteurs :
20,4 ; 25,4 ; 25,6 ; 25,6 ; 26,6 ; 28,6 ; 28,7 ; 29,0 ; 29,8 ;
30,5 ; 30,9 ; 31,1.
Estimer la moyenne et calculer l'intervalle de confiance ?
x xi 27,68m mˆ x 27,68 m
3,107
SCE 106,16 xinf 27,682,201 12 25,70
ˆ 9,63 3,107 m n1 11 3,107
xsup 27,68 2,201
29,65
12
3.1.2 Test de conformité d’une moyenne
Test de conformité d'une moyenne: le test de conformité
d'une moyenne à pour but de vérifier si la moyenne m d'une
population est ou n'est pas égale à une valeur donnée m0. H0
:mm0 et on rejette cette hypothèse lorsque la moyenne
observé x est trop différente de la moyenne théorique m0 Le
test se réalise en calculant les quantités suivantes :
0,05
sitobs t12 RH0 m m0 n 1 ddl
x m0 x
m0 tobs ˆ
SCE n nn1
Application : supposant que l'on souhaite vérifier si la
forêt dans laquelle les 12 mesures ont été réalisées
Cours de bio statistiques Page 18
appartient, quand à la hauteur, à un type de forêt donné,
dont la moyenne est parfaitement connue et égale à 29 m.
27,6829
H0 :27,68 29 tobs 3,107 1,47 ett12 2,201 donc tobs t12
AH0 m m0
12
3.2 Le test de signification et l’intervalle de
confiance d’une différence de deux moyennes
: échantillons indépendants
Le cas de populations de même variance : On supposant
satisfaite les conditions précédentes et en admettant que les
échantillons sont indépendants et que les populations sont de
même variance on peut donc tester l'hypothèse d'égalité
suivante : H0 :m1 m2
x x
Sin1 n2 tobs 1 x2 tobs 1 x2
n11S12 SCE1 1
0,05 n2n2S222 2SCE 2
Sitobs n11 n11 t12
RH0 n12 n n12 n m1 m2
pour n2 n1 n2
2 ddl
Ce test est appelé test t de STUDENT ou test de STUDENT -
FISHER.
Cours de bio statistiques Page 19
Sin1 n2 n la formule se simplifie considérablement et elle
sera comme suit :
tobs x1 x2
SCE1 SCE2
nn1
0,05
Sitobs t1 RH0 m1 m2 pour 2n 1 ddl
2
Application : Dans 2 types de forêt distincte on a
mesuré les hauteurs respectivement de 13 et 14 arbres
choisis au hasard et indépendamment, dans le but de vérifier
si les hauteurs moyennes des 2 types de forêt sont ou ne sont
pas égale, les valeurs observées sont les suivantes :
Type Type 27,0 26,7
1 2 27,6 26,9
23,4 22,5 27,7 27,4
24,4 22,9 28,5
24,6 23,7
24,9 24,0
25,0 24,4
26,2 24,5
26,3 25,3
26,8 26,0
26,8 26,2
26,9 26,4
x1 25,97 x2 25,39
SCE1 22,15 SCE2 40,88
25,9725,39
Cours de bio statistiques Page 20
tobs 0,95
22,15 40,88 1 1
25 1314
t t 0,05 t0,975
2,060
1 1
2 2
n1 n2 2 25 ddl
Cours de bio statistiques Page 21
On constate que tobs 0,95est inférieure à t12 2,060 par
conséquent on accepte l’hypothèse d’égalité de la moyenne
des 2 types de forêt ; c’est-à-dire qu’il n’existe pas de
différences significatives entre m1 et m2
Remarque : quand n1 n2 avant d’appliquer le test t de
STUDENT d’égalité de 2 moyennes, il faut toujours vérifier
l’hypothèse d’égalité des 2 variances.
Chaque fois qu’on rejette l’hypothèse d’égalité de 2
moyennes il faut alors estimer la différence des 2 moyennes
et calculer sont intervalle de confiance.
Quandn1 n2 : x1 x2t12 SCE1 SCE2
n11 n12
n1 n20,052ddl n1
n2 2
Quandn1 n2 n : x1 x2 t SCE1 SCE2 0,05
1 nn1 2n 1ddl
2
Le cas de populations de variance inégale :
Plusieurs auteurs ont montré que l’hypothèse de normalité est
secondaire dans le test d’égalité de 2 moyennes. De même
l’hypothèse d’égalité des variances n’est pas fondamentale
lorsque les effectifs des échantillons sont égauxn1 n2.
Quand le test est non sensible à la non normalité et à
l’inégalité de variance, le test est alors robuste, par contre,
lorsque n1 n2il est absolument indispensable de s’assurer de
l’égalité de variance. Si cette hypothèse n’est pas vérifiée, il
est indispensable d’utiliser une méthode adaptée à ces
circonstances, on peut procéder à une transformation de
variable destinée à stabiliser la variance et utiliser ensuite le
test t de STUDENT (DAGNELIE.P .,1999).
.
Cours de bio statistique Page 22
3.3 Le test de signification et l’intervalle de confiance
d’une différence de deux moyennes : échantillons
associés par paires.
3.3.1 Introduction
Un autre cas important de comparaison de moyenne est
relatif aux échantillons dont les individus sont associés par
paires ou par couple ex : les mêmes individus soumis à 2
méthodes différentes
(comparaison de 2 méthodes). Pour tester l’égalité des
moyennes, on doit alors considérer la population de
différence et vérifier la nullité de la moyenne de ces
différences, les conditions d’application du test sont alors :
- le caractère aléatoire simple des échantillons.
- La normalité de la population de différence.
Le test d’égalité de moyennes s’écrit alors : H0 :m1 m2 ou
0
L’hypothèse se réalise en calculant les différences suivantes :
n n
d yx
1 2 di
tobs
yi xi
SCEd SCEd
y1 x1 y1 – d1
y2 x2 x1 y2 d2 nn1nn1
: : – x2 :
yn xn : dn
yn–
xn
y x d
Cours de bio statistique Page 23
2
1 di2
SCEd di n
Si tobs t RH0 m1 m2 pour n10,05ddl
1 2
Ce test est appelé test t de STUDENT pour échantillons
associés par paires ou par couple.
* Dans le cas du rejet de l’hypothèse d’égalité des 2
moyennes il faut alors estimer la différence des 2 moyennes
est calculer l’intervalle de confiance de cette différence.
ˆm1 m2 d
t12
nSCE
nd1
pour
n
10,d
dl05
Application : On a mesuré les hauteurs de 12 arbres avec 2
méthodes différentes :
Arbr Arbre
es s
Di
debo abatt
ut us
20,4 21,7 -1,3
25,4 26,3 -0,9
25,6 26,8 -1,2
25,6 28,1 -2,5
Cours de bio statistique Page 24
26,6 26,2 +0,4
28,6 27,3 +1,3
28,7 29,5 -0,8
29,0 32,0 -3,0
29,8 30,9 -1,1
30,5 32,3 -1,8
30,9 32,3 -1,4
31,1 31,7 -0,6
x1 x2 d
27,68 28,76 1,0
8
H0 :m1 m2
12,92
SCEdi 28,45 14,58
12
1,08 0,05
tobs 14,58 3,25 t1 0,205 t0,975 2,201 pour
n1ddl
132
tobs 3,25t 2,201 RH0 :m1 m2
1
2
donc : dinf = 1,81 m et dsup = 0,35 m
Cours de bio statistique Page 25
Chapitre 4 : Les méthodes statistiques
relatives aux variances
4.1. Introduction : toutes les méthodes
proposées sont applicables dans le cas des
conditions suivantes :
- les échantillons sont aléatoires, simples et
indépendants.
- la normalité des populations parents.
4.2 Estimation de la variance de la
population et intervalle de confiance
SCE SCE n
S2 ˆ S 2
n n1 n1
En pratique, et dans les conditions définies
précédemment, les limites de confiance (Sinf – Ssup)
sont donc pour un niveau de signification donné :
SCE SCE
0,05
- Quandn30 : Sinf2 et pour Sn1ddl
sup
2
1
2 2
2
2n 1 2 SCE
2
- Quandn30 : 2 Sinf 2n 3 1
2
etSsup 2SCE
2n3
Cours de bio statistique Page 26
1
2
4.3 Test de conformité d’une variance
H0 :2 02 Valeur théorique sik30
2
SCE
En pratique on calcule le rapport
suivant : obs 2 0
si obs2 2
ou2 RH0 2 02
si obs2 12
2
Quand k30 : le test peut être réalisée d’une
manière approchée en calculant la quantité
2 SCE suivante :
2 n 3
obs 02 si obs RH0 2 02
1
2
Application 1: reprenant une fois encore les 12
mesures de hauteur des arbres considérés
précédemment et estimons la variance des
hauteurs de toute la forêt et calculons ses limites
de confiance.
2
SCE106,169,651 m2 ˆ 3,106 m
ˆ n1 11
2
106,164,85Sinf 4,85 2,202
Sinf
21,9
106,16
Cours de bio statistique Page 27
Ssup2 27,8Ssup 27,8 5,272
3,82
Application 2: supposer que pour une race
bovine donnée dans une région donnée on ait
mesuré la production laitière de 50 bêtes choisis
au hasard et indépendamment et que l’on ait
obtenu comme SCE par rapport à la masse : SCE =
37.173.400 Kg2
SCE37.173.400
ˆ 871 Kg
n1 49
237.173.400
Sinf 730 Kg
97 1,96 237.173.400
97 1,96
Calculons l’intervalle de confiance :
Ssup 1093 Kg
Sinf 728Kg // 730Kg
Ssup 1085Kg //1093Kg
Supposons maintenant que l’écart type estimé
appartient à une production laitière ayant un écart
type égal à 1000 Kg.
0 237.173.400
obs 97 1,227 1,96 H0
:8711000 1.000.000 1 2
obs AH0 0 8711000
1
2
Cours de bio statistique Page 28
4.4 Les tests de comparaisons et l’intervalle
de confiance de rapport de 2 variances
4.4.1 Le test d’égalité de 2 variances H0 :11
22
Dans la pratique, on calcule le rapport des 2
variances en mettant la variance maximale en
numérateur et la variance minimale en
dénominateur et on calcule le rapport suivant :
Quand : n1 n2
2
0,05
Fobs ˆ max
2 si Fobs F RH 0 ˆ 12 ˆ 22 pour k n 1 ddl
1
1
ˆ min 1
k 2 n2 1ddl
2
1 SCE 22,151,846 ; 22
SCE 40,88 3,145 ˆ12 1,846 ˆmin2 ;
ˆ1
n1 12 n1 13
Cours de bio statistique Page 29
Quand : n1 n2 Fobs ˆmax22 Fobs
SCESCEmax si Fobs F RH0 ˆ12 ˆ22
ˆmin min 1 2
pour k1n01,05ddl
k2n 1ddl
Ce test est appelé test F de
FISHER
Application:
Les données de l’application x1 25,97
: n1 13 n2 14
SCE1 22,15
x2 25,39
SCE2 40,88
22 3,145 max2 1
2
; F 3,26pour
ˆmax23,1451,703 0,05
Fobs ˆ 2 k1 13
1,846 min 1
2 k2 12
Fobs F
On constate que Fobs F donc AH0 d’égalité
des 2 variances (ˆ12 ˆ22 ).
1
2
4.4.2 Deux tests d’égalité de plusieurs
variances : deux méthodes sont utilisées pour
tester l’égalité de variance de plusieurs
populations :
- letest de BARTLETT : pour les échantillons
d’effectifs différents et aussi pour des effectifs
constants. Ce test est long à réaliser.
- letest de HARTLEY : il est d’un usage
beaucoup plus rapide mais il ne s’applique qu’à
des échantillons de même effectifs. Dans les
Cours de bio statistique Page 30
deux cas les conditions d’application doivent
être très strictes.
a) Le test de BARTLETT : considérant p
échantillons aléatoires, simples des
effectifs n1,n2,...,nP
H0 :ˆ12 ˆ22 ...ˆp2 Calculons pour chaque
échantillon la SCE et laˆ2 , calculons aussi la
SCE de la variance estimée relative à
l’ensemble des observations
p
nn1 n2 ...nP nni
i1
k
SCESCEi SCE1 SCE2 ...SCEp ˆ2
SCE
n p
i1
En pratique le test se réalise en calculant la
quantité suivante :
Quand :n1 n2 ...nPp
2,3026 n p log ˆ
2 2
10
n i
1log10 ˆ i
2
obs p
i 1
1 1 1
1
3p 1i 1 ni 1 n p
Quand : n1 n2 ... nP n H0 :ˆ12 ˆ22 ...ˆp2
p
p log SCE
2,3026n 1
10 log10 SCE
p i
2
obs i 1
p 1
1
3 pn 1
22
RH0 ˆ12 ˆ22 ...ˆp2 pour p
10,ddl05
Cours de bio statistique Page 31
si obs 1
Application : considérons 3 types de forêts
dans lesquelles nous avons prélevé des
échantillons d’effectifs inégaux et pour lesquels
nous avons mesuré les hauteurs.
n= n= n=
13 14 10
Typ Type Type
e1 2 3
23,4 22,5 18,9
24,4 22,9 21,1
24,6 23,7 21,2
24,9 24,0 22,1
25,0 24,4 22,5
26,2 24,5 23,6
26,3 25,3 24,5
26,8 26,0 24,6
26,8 26,2 26,2
26,9 26,4 26,7
27,0 26,7
27,6 26,9
27,7 27,4
28,5
Paramè Type Type Type Tota
tres 1 2 3 ux
ni 13 14 10 n =
37
SCEi 22,1 40,8 53,6 SCE
5 8 2 =
116,
65
ˆi2 1,84 3,14 5,95 _
Cours de bio statistique Page 32
6 5 8
log10ˆ 0,266 0,497 0,775 _
i2 23 62 10
1
0,08 0,07 0,11 0,27
33 69 11 13
ni 1
- Testez l’égalité des variances des hauteurs
des 3 types de forêts
H0 :ˆ12 ˆ22 ˆ32
ˆ2 = 3,4309 log10ˆ2 = 0,53541
obs2 2,3026
340,53541120,26623130,497629
0,77510
Remarques
- le test de BARTLETT est très sensible à la
non normalité des populations parents
quels que soient les effectifs des
échantillons, de plus, il s’agit d’une
méthode approximative, qui n’est
satisfaisante que si les effectifs ni 4 et si
le nombre d’échantillons p n’est pas trop
élevé par rapport aux effectifs ni ce test ne
permet donc pas de comparer les
variances d’un grand nombre de petits
échantillons
1
obs2 3,46 120,05 5,99 (Pour 2ddl) obs2 12AH0 ˆ12 ˆ22 ˆ32
La variance des hauteurs est égale pour les 3 types de forêts.
Cours de bio statistique Page 33
- enfin, signalons que pour 2 populations, le
test de BARTLETT n’est strictement
équivalent au test F que si les 2
échantillons sont de même effectifs.
b) Le test de HARTLEY : lorsque les
effectifs des échantillons sont constants et
égaux à n le test de HARTLEY permet de
vérifier plus rapidement l’hypothèse
d’égalité des variances H0 :ˆ12 ˆ22
...ˆp2 quand n1 n2 ... nP n en effet, ce
test nécessite seulement le calcul des
différentes SCEi et le calcul des cautions ou
du rapport des valeurs extrêmes.
RH
Hobs SCESCEmaxmin si Hobs H 2 2
...ˆP2 pourknp01,05ddl
1 0 ˆ1 ˆ2
Chapitre 5 : L’analyse de la variance à un
et à deux critères de classification
5.1 Analyse de la variance à un critère de
classification
Le test d'analyse de la variance à un
critère ou à un facteur de classification consiste
à comparer plus de deux moyennes de
plusieurs populations à partir des données
Cours de bio statistique Page 34
d'échantillons aléatoires simples et
indépendants (DAGNELIE.P., 1999).
La réalisation du test se fait soit en
comparant la valeur de Fobs avec une valeur
théorique F1-α extraite à partir de la table F de
FISHER pour un niveau de signification α=0,05,
0,01 ou 0,001 et pour K1 et K2 degrés de liberté,
soit en comparant la valeur de la probabilité P
avec toujours les différentes valeurs de α=5%,
0,1 % ou 1‰. Selon que cette hypothèse
d'égalité des moyennes est rejetée au niveau
α=0,05; 0,01 ou 0,001, on dit
conventionnellement que l'écart observé est
significatif, hautement significatif ou très
hautement significatif (DAGNELIE.P.,1999).
H0 :m1 m2 test de STUDENT-FISHER
H0 :m1 m2 ... mP
L’analyse de la variance à un critère de
classification, ou à un facteur, a pour but de
comparer les moyennes de plusieurs
populations supposées normales et de même
variance, à partir d’échantillons aléatoires
simples et indépendants les uns des autres.
C’est une généralisation du test t de STUDENT
pour deux échantillons indépendants.
5.1.1 Principe de l’analyse de la variance
Pour tester l’hypothèse d’égalité des
moyennes de p populations H0 :m1 m2 ... mP
Cours de bio statistique Page 35
x
m1 m2 m3 mP
……………………
mˆ1 x1
n1 n2 n3 nP
xn1 x1 xn2 x2 xn3 x3 xnP xP
On prélève un échantillon aléatoire et simple
dans chaque population, les moyennes de ces
p échantillons et la moyenne générale de
l’ensemble des observations x permettent de
définir deux types de variations : les écarts
existants entre les différents échantillons
(variation entre échantillon ou variation
factorielle) et les écarts existants à l’intérieur
des échantillons (variation dans les échantillons
ou variation résiduelle).
L’importance de ces deux sources de variations
est mesurée par deux quantités : carré moyen
ou variance :
o le carré moyen factoriel est défini à partir des
écarts entre les moyennes des différents
échantillons et la moyenne générale (CM f ).
o le carré moyen résiduel (CMr ) est défini à
partir des écarts existants chaque fois entre
les valeurs observées et la moyenne de
l’échantillon correspondant. Lorsqu’il existe
des différences importantes entre les
Cours de bio statistique Page 36
moyennes des populations, on doit s’attendre
à ce qu’il en soit de même pour les
échantillons, on doit donc s’attendre aussi à
observer un carré moyen factoriel élevé, par
comparaison avec le carré moyen résiduel :
le rapport du carré moyen factoriel au carré
moyen résiduel est une mesure observée du
degré de fausseté de l’hypothèse nulle.
Dans le cas où le test d’égalité de plusieurs
moyennes concerne un nombre infini de
population alors on fait un échantillonnage à
deux degrés. Au 1er degré on choisit P
populations d’individus ou de mesures (unité
de 1er de degré). Au 2èmedegré on choisit un
échantillon de plusieurs individus ou de
plusieurs observations (unité de 2ème degré)
dans chacune de ces P populations.
L’H0 concerne alors l’égalité des moyennes de
l’infinité de populations.
H° : m1=m2=…=mp
- Quand le nombre de populations est fini
le modèle est fixe
- Quand le nombre de populations est infini
le modèle est aléatoire
5.1.2 Le modèle fixe
Considérons P échantillons d’effectifs n1, n2,
…,nP : n.=∑ni
Désignons par xik les valeurs observées, le
symbole xik représentant d’une manière
générale la kème observation (k= 1,2,..,ni) de
l’échantillon extrait de la ième population
Cours de bio statistique Page 37
(i=1,2,…,p) désignons en autre par x i les
moyennes des différents échantillons et X la
moyenne générale :
X nxi ik et x.
1 xik
n1i nxi
i ni
On peut alors écrire le modèle observé « la
variation totale se divise en deux composantes
additives » : l’écart par rapport à la moyenne
générale (variation totale)= l’écart des
moyennes des échantillons par rapport à la
moyenne générale (variation factorielle) + les
écarts existants à l’intérieur des échantillons
(variation résiduelle)
En élevant au carré les deux membres de cette
identité et en sommant pour toutes les valeurs
observées, on obtient l’équation de l’analyse de
la variance à un critère de classification :
La somme des carrés des écarts totale peut
elle aussi se diviser en deux composantes
additives : la SCE factorielle (entre échantillons)
et la SCE résiduelle
(dans les échantillons)
SCEt= SCEf+SCEr
Pour utiliser cette formule dans le test de
l’analyse de la variance, nous supposerons que
:
- Les P populations sont normales et de
même écart-type
Cours de bio statistique Page 38
- Les échantillons sont aléatoires, simples et
indépendants les uns des autres
Les carrés moyens sont : CMt= SCEt/n.-1
CMf= SCEf/P-1
CMr= SCEr/n.-P
Lorsque l’hypothèse nulle est vraie, le quotient
(résultat de division)
Fobs=CMf/CMr est donc une valeur observée
d’une variable F de SNEDECOR à k1=P-1 et k2=
n.-Pddl
La moyenne de cette variable F est voisine de
l’unité, les valeurs attendues du numérateur et
du dénominateur étant égales. Par contre
lorsque l’H° est fausse, la valeur attendue du
numérateur est supérieure à celle du
dénominateur et d’autant plus grande que l’H°
est plus fausse : la moyenne de la variable F
est donc supérieure à l’unité et, elle aussi,
d’autant plus grande que cette H° est plus
fausse.
On rejette donc l’H° lorsque au niveau α :
Fobs ≥ F1- α avec k1= P-1ddl
k2= n.-Pddl
5.1.3 Le modèle aléatoire
Dans le cas du modèle aléatoire tout ce qui
concerne les observations se présente sous la
même forme que pour le modèle fixe :
- Le modèle observé.
- L’équation de l’AVI.
- Les Sommes des Carrés des Ecarts.
Cours de bio statistique Page 39
- Les nombres de ddl.
- Les Carrés Moyens.
5.1.4 Réalisation de l’Analyse de la
variance
Quand les échantillons sont d’effectifs
inégaux
Les calculs peuvent être réalisés
conformément au tableau en utilisant les
notations et les formules suivantes :
Pour l’effectif total : n.= ∑ni
Pour les totaux par échantillon : Xi. xik
(pour tout i)
Pour le total général : X.. Xi.
Pour la somme des carrés général :T
xik2
Pour la somme des carrés des écarts
par échantillon :SCEi xik2 Xnii2.
Pour la somme des carrés des écarts
résiduelle : SCEr= ∑SCEi
X.. Xi.
X et xi
n. ni
Pour pouvoir dresser le tableau d’AVI, il reste à
calculer :
Le terme correctif : C= X2../n.
SCEt= T-C
SCEf= SCEt-SCEr
Cours de bio statistique Page 40
Les carrés moyens : CMf=SCEf/P-1
CMr=SCEr/n.-P
Ainsi que le rapport Fobs= CMf/CMr
On peut alors réaliser le test de l’H° nulle, par
comparaison de Fobs avec la valeur F1-α dont les
nombres de degrés de liberté sont : k 1= P-1 et
k2= n.-P
Quand les échantillons sont d’effectifs
égaux
Les calculs peuvent être simplifiés comme le
montre le tableau de l’analyse de la variance.
Les notions et les formules principales sont
alors les suivantes :
Pour l’effectif total : n.= Pn
Pour les totaux par échantillon : ik
Pour le total général : X..= ∑Xi.
Pour la somme des carrés général :
2
ik
Pour la somme des carrés des écarts par
échantillon :SCEi= ∑xik2-Xi.2/n
Pour la somme des carrés des écarts
résiduelle : SCEr= ∑SCEi
Le tableau d’AVI est dressé comme dans le cas
général grâce aux relations suivantes :
Pour le terme correctif : C= X..2/Pn
Pour la somme des carrés des écarts totale
: SCEt= T-C
Pour la somme des carrés des écarts
factorielle : SCEf= SCEt-SCEr Pour les
Cours de bio statistique Page 41
carrés moyens : CMf= SCEf/P-1 CM r=
SCEr/P(n-1)
Et le rapport final : Fobs= CMf/CMr
5.2 Analyse de variance à deux critères
de classification : Modèle croisés et
Echantillons de mêmes effectifs
Objectifs
1. De réaliser une analyse de variance à deux
critères de classification
2. De définir concrètement une interaction
entre deux facteurs
3. D’interpréter les résultats d’une analyse de
variance à deux critères de classification
Position du problème
Dans l’analyse de variance à un critère de
classification, le principe consistait à diviser la
variation totale en deux composantes :
Factor
ielle
Résid
uelle
Cette façon de procéder être étendue à deux
critère de classification, la variation totale étant
alors divisée en plus de deux composantes :
l’une résiduelle et les autres liées aux deux
critères de classification.
Cours de bio statistique Page 42
Les deux facteurs considérés peuvent être
placé sur le même pied (modèles croisés) ou
subordonnés l’un à l’autre (modèles
hiérarchisés).
Dans chaque cas, on doit distinguer un
modèle fixe, un modèle aléatoire et un modèle
mixte selon que les deux critères de
classification sont fixes. Aléatoire, ou l’un fixe ;
l’autre aléatoire.
Dans ce qui suivra, nous ne considérons que
la réalisation et l’interprétation de l’analyse de
variance à deux critères de classification pour
des modèles croisés et des échantillons de
mêmes effectifs.
5.2.1 Réalisation et interprétation de
l’analyse de variance à deux critères de
classification échantillons de plusieurs
observations
Présentation des données et des calculs
La présentation des tableaux des données et
des calculs se fera en deux parties.
A. Première partie
Tableau d’analyse de la variance à deux
critères de classification.
I 1 ....... p Tota
... ux
J 1 ..... ....... .......
Q 1 q
K ... ... ...
Cours de bio statistique Page 43
1 x1 …… x1q1 ……. xp11 …… xp
2 11 . x1 .. xp … q1
. x11 …… q2 . 12 …… xp
. 2 . . . ……. . … q2
. . . . . .
N . . . . .
x1 …… x1qn . xp1 …… .
1n . n … xpqn
…….
X X11. …… X1 ……. ……
i n . .q X p1. … X pq.
j n ……. n n
. k1 …… …… X...
n . k1
x k1 … k1
x2ij T
k211x12q
k ……. x2p k1 …… x2pqk
k
k1 …
X …….
…… Xp21 Xpq2
211./ X1 .2 ……
. ./ n ./n
n q / n …
X2ij. SCEr
/n …… SCEp SCEp
SCE1 . SCE1
SCEi 1 1 q
q
j
Réalisation des calculs avec les principales
notions et formules suivantes:
n
• Pour les totaux par échantillon : Xij. xijk
pour tout i et tout j
k1
pq
• Pour les totaux généraux: X... Xij.
i 1 j 1
pqn
Cours de bio statistique Page 44
• Pour la somme des carrés générale :T
xijk2
i 1 j 1 k 1
X...2
• Pour le terme correctif :C pqn
• Pour la somme des carrés des écarts
totale:SCEt T C
n 2
Xij2.
• Pour la somme des carrés des écarts par
échantillon : SCEij k1 xijk n
(pour tout i et tout j)
pq
• Pour la somme des carrés des écarts
résiduelle:SCErSCEij
i 1 j 1
La différence (SCEt –SCEr) est une somme
des carrés des écarts relative à l’ensemble
des facteurs contrôlés.
Cette différence sera en fait divisée en
trois composantes factorielles:
- Les deux premières liées chacune
à l’un des 2 facteurs contrôlés -
La troisième à l’interaction des 2
facteurs.
Pour cela, il faut dresser un deuxième
tableau de la façon suivante:
- en reportant le contenu de la ligne
Xij. du tableau précédant ; - et
en calculant les sommes suivantes :
q
Xi.. Xij. (pour tout i)
Cours de bio statistique Page 45
j
1
p
X. .j Xij. (pour tout j)
i1
B. Deuxième partie
Tableau d’analyse de la variance à deux
critères de classification:
Suite de la réalisation des calculs
J 1 ....................... q Xi..
i
1 X11 ....................... X1q . X1..
. . . . .
. . . . .
. . . . .
P Xp1. ...................... Xpq. Xp..
X.J. X.1. .................... X.q. X...
Dans ces conditions, on aura évidemment
p q
Xi.. X X. .j ...
i1 j1
Les sommes des carrés des écarts liées
aux deux facteurs seront:
SCEf qn1 in1 Xi2.. C
Cours de bio statistique Page 46
SCEb pn1 jq1 X. .2j C
On obtient alors par différance:
SCEfb SCEt – SCEr – SCEf – SCEb
Ou encore, l’équation de l’analyse de variance
pour deux facteurs contrôlés simultanément:
SCEt SCEf SCEbSCEb SCEr
Cette équation indique donc que la variation
totale (SCEt) peut être décomposée en 4
composantes principales:
Variation due au facteur a :SCEf
Variation due au facteur b : SCEb
Variation due à interaction entre les
facteurs a et b :SCEfb.
Une somme résiduelle.
La notion d’interaction sera précisée plus
loin
A ces différentes sommes des carrées sont
affectés des nombres de degrés de liberté
par la formule suivants :
pqn 1 p 1 q 1 p1 q
1 pq n 1
A cette étape, nous pouvons dresser le
tableau d’analyse de la variance en
calculant les nombres de degrés de liberté,
Cours de bio statistique Page 47
les carrés moyens et les valeurs de F f ,Fb et
Fab
Tableau d’analyse de variance
Source de ddl SCE CM F
variation
Facteur a p-1 SCEf CMf Ff
Facteur b q-1 SCEb CMb Fb
Interaction (p-1) (q- SCEfb SCEfb Ffb
Variation 1) pq SCEr CMr
résiduelle (n-1)
Totaux pqn-1 SCEt
5.2.2 Application pratique
Supposons que l’on veuille comparer, chez
deux races bovines différentes (critère 1), les
effets de 3 régimes alimentaire caractérisés par
des teneurs énergétiques différentes (critère 2)
: haut (H), bas (B) et moyen (M).
Le tableau suivant donne les résultats de la
production laitière (en kg de lait/jour)
Obtenus avec chacun de ces 3 régimes. Pour
chaque combinaison entre ces 2 critère, 4
valeurs sont données.
Cours de bio statistique Page 48
Tableau de comparaison des productions
laitières (en Kg de lait/j), chez 2 races bovines
différentes recevant 3 régimes énergétiques
différents (H, B ou M).
H B M Moyenne
(j = 1) (j= 2) (j=3) s
Race 33 31 32
1 (i= 35 32 34
1) 36 33 36
43 34 38 34,75
36,75 32,50 35,00
Race 30 25 27
2 (i= 30 27 29
2) 30 30 30
33 30 30 29,25
30,75 28,00 29,00
Meyenne 33,75 30,25 32,00 32,00
s
Ainsi calculées, ces moyennes montrent
une influence considérable du facteur (race).
En effet, tous régimes confondus, la race 2
présente une moyenne de 29,25 Kg de lait
contre 34,75 pour la race 1 soit une différence
de 5,5 Kg.
Calculées par rapport à la moyenne générale,
les différences dues à ce premier critère de
classification sont:
34,75-32,00=02,75
29,25 -32,00 =-2,75
Vous remarquerez que la somme de ces deux
termes est forcément [Link] la même façon,
si on considère le deuxième critère, on aura:
Cours de bio statistique Page 49
33,75-32,00 =1,75
30,25 -32,00 =-1,75
32,00 -32,00= 0
La somme de ces 3 termes étant également
nulle.
Considérons à présent l’interaction entre le
facteur (race) et le facteur (régime) .
Le tableau suivant illustre ce phénomène.
Tableau de calcul des termes de
l’interaction entre les 2 facteurs
H B M Somme
Race 1 0,25 -0,50 0,25 0
Race 2 -0,25 0,50 -0,25 0
Somme 0 0 0 0
La première case ombrée (0,25) est obtenue
ainsi:
36,75 - 34,17 - 33,75 + 32=0,25
De la même façon, la dernière case ombrée (-
0,25) est obtenue ainsi:
29-29,25-32+32= -0.25
Et ainsi de suite pour les autres cases......
Ces valeurs ainsi obtenues représentent les
termes de l’inter action entre les deux facteurs
étudiés.
Cours de bio statistique Page 50
Dans le cas présent l’interaction entre le
facteur (race) et le facteur (régime) peut être
considérée comme étant faible. On le
confirmera plus loin par des calculs.
Imaginons à présent, des valeurs différentes
pour la race 2 avec le régime B (valeurs en gras
dans le tableau suivant).
H B M M
(j=1) ( j = 2) (j=3)
Race 33 31 32
1 (i 35 32 34
=1) 36 33 36
43 34 38 28,75
36,50 32,50 35,00
Race 2 30 25,5 27
(i = 2) 30 28,5 29
30 24,5 30
33 27,5 30 28,75
30,75 26,5 29,00
Moyenne 33,75 29,50 32,00 31,75
s
Avec de telles valeurs, tous les termes de
l’interaction seraient exactement nuls.
Exemple:
Race 1, régime H :36,75-34,75-
33,75+31,75=0
Race2, régime B : 26,5-28,75-
29,50+31,75=0
Etc...
Ce cas particulier traduit l’absence totale
d’interaction entre les 2 facteurs.
Cours de bio statistique Page 51
Concrètement cela signifie que les 3 types de
régimes donnent exactement la même différence
entre les 2 races. Cet écart s’obtient tout
simplement par différence entre les valeurs
moyennes obtenues pour chaque race. Dans notre
cas, ce sera:
36,75-30,75(colonne1)=32,50 -
26,50(colonne 2) = 35,00 - 29,00(colonne3)
=6
Bien évidemment, cette valeur peut être
également obtenue directement par la différence
entre X (soit 34,75 pour la race 1) et X ( soit 28,75
pour la race 2). En effet :
34 ,75 -28,75 =6
Vous remarquez aussi que l’absence d’interaction
signifie aussi que les différences entre les races
sont indépendantes des régimes.
Exemples: 36,75 – 32,50=30,75-26,50=4,25
pour les régimes H et B
36 ,75 -35 ,00 = 30,75 -29,00 = 1,75
pour le régime H et M, ….. Etc.
En revanche, la présence de termes d’interaction
non nuls signifie qu’il existe une (dépendance)
entre les 2 facteurs étudiés.
Reprenons à présent les données du tableau et
effectuons l’analyse de variance.
Race Race Totaux
1 2
(i=1) (i=2)
H B M H B M
(j=1) (j= (j= (j=1) (j= (j=
Cours de bio statistique Page 52
2) 3) 2) 3)
1 33 31 32 30 25 27
2 35 32 34 30 27 29
3 36 33 36 30 30 30
4 43 34 38 33 30 30
Moyen 36,8 32, 35, 30,8 28, 29, -
ne 5 0 0 0
Xij 147 130 140 123 112 116 X..+768
5459 423 492 3789 315 337 T=24922
0 0 4 0
5402, 422 490 3782, 313 336 -
25 5 0 25 6 4
SCEij 56,8 5,0 20, 6,8 18, 6,0 SCEr=11
0 0 2,5
H B M Xi..
(j=1) (j=2) (j=3)
Race 147 130 140 417
1( i=1)
Race 123 112 116 351
2(i=2)
270 242 256 768
Terme correctif:C
X...
2
24576
pqn
Somme des carrées des écarts totale: SCEt
= T – C + 346,00
pq
Somme des carrées des écartes
résiduelle:SCErSCEij 112,5
Cours de bio statistique Page 53
i 1 j 1
4172 3512
SCEf 24576 181,50
12
2702 2422 2562
SCEb 24576 49,00
8
SCEfb 346,00112,50181,5049,00
3,00
Tableau de l’analyse de variance
Sources d ddl SCE CM Fobs Ftable
variation e
Race 1 181,5 181,5 29,04** F1 ;18 ;0,
* 05=4,41
Régime 2 49,0 24,5 3,92* F2 ;18 ;0,
05=3,55
Interactio 2 3,00 1,5 0,24 F2 ;18 ;0,
n 05=3,55
Variance 18 112,5 6,25
résiduelle
Totaux 23 346,0
Conclusion
• Il existe un effet race très important
(Fobs>>>ftable)
• Il existe un effet régime mais faible
( Fobs>Ftable):
• Il n’y a pas d’interaction entre la race
et le régime (Fobs<Ftable).
Cours de bio statistique Page 54
Références Bibliographiques
LEGRAS.B., 1998. Eléments de statistique à
l’usage des étudiants en médecine et en
biologie. Édition marketing S.A, Paris, pp 222.
DAGNELIE.P., 1986. Analyse statistique à
plusieurs variables. Gembloux, Pesses
agronomiques, pp. 362.
DAGNELIE.P., 2003. Principes
d'expérimentation. Planification des
expériences et analyse de leurs résultats. Les
Presses Agronomiques de Gembloux,
Belgique, pp.397.
DAGNELIE. P., 2006. Statistique théorique et
appliquée. Tomme 2: inférences à une et à
deux dimensions. Bruxelles-université DE
BOECK et LARCIER: pp.659.
RAKOTOMALALA R., 2015. Analyse de
corrélation. Étude des dépendances -
Variables quantitatives. Version 1.1. Université
Lumière Lyon 2. Notes de cours. pp99.
Cours de bio statistique Page 55