Formulaire Statistique
Formulaire Statistique
n
b) G est une fonction linéaire des observations de l'échantillon : G ui x i
i 1
c) Var ( G ) Var ( G' ) où G' est n'importe quel autre estimateur non biaisé de et qui satisfait la
condition (b)
B) Méthodes d'estimation
1) Méthode du maximum de vraisemblance
L( x 1 ,..., x n ; ) P ( x 1 ,..., x n ; ) P( x 1 ; ) ... P( x 2 ; ) (variable discrète)
L( x 1 ,..., x n ; ) f ( x 1 ,..., x n ; ) f ( x 1 ; ) ... f ( x 2 ; ) (variable continue)
On cherche le maximum de la fonction de vraisemblance
2) Méthode des moments
Consiste à estimer les paramètres inconnus 1 , 2 , ..., k , en posant l'égalité entre les k premiers
moments observés (connus) de l'échantillon et les k premiers moments (inconnus) correspondants de la
population.
Tests d’hypothèses
a) Risque de première espèce : P (rejeter H 0 / H 0 vraie ) ,
b) Risque de deuxième espèce : P (accepter H 0 / H 0 fausse ) .
c) Puissance du test : 1 P (rejeter H 0 / H 0 fausse )
1
Inférences relatives à une et deux moyennes
SCE1 SCE2 1 1
( x1 x 2 ) t 1 / 2 (t1-/2 possède n 1 + n 2 -2 d.l)
n1 n 2 2 n1 n 2
SCE1 SCE2
Si effectifs égaux ( n 1 = n 2 =n) : ( x1 x 2 ) t 1 / 2
n(n 1)
b) Comparaison de deux moyennes
H 0 : 1 - 2 d 0 (d0 : une constante)
x1 x 2 d 0
t obs (t de Student théorique possède n1+n2-2 d.l)
S CE1 S CE2 1 1
n1 n 2 2 n1 n 2
x1 x 2 d 0
Si les effectifs des 2 échantillons sont égaux: t obs
S CE1 S CE2
n(n 1)
La décision du test dépend de l’hypothèse alternative.
(w 1 w 2 ) 2 SCE1 SCE2
k avec w1 et w 2
w 12 w 22 n 1 (n 1 1) n 2 (n 2 1)
n1 1 n2 1
- Selon l'approximation de Cochran-Cox (pour mémoire)
3
4) Tests d’égalité de plusieurs variances
1) Test de Bartlett
n i p ln
p p
ˆ2 (n i 1) ln ˆ i2
i 1 i 1
obs
2
1 p 1 1
1
3(p 1)
i 1 n 1 p
i ni p
i 1
(n 1)ˆ
p 2
i i
i 1
ˆ 2
n p
p
i
i 1
p
S CE
(n 1) pln lnS CEi p
obs
2
p
p1
i 1 où S CE S CE
i 1
i
1
3p(n 1)
2) Test de HARTLEY
ˆ max
2
Nécessite, entre autres, l’égalité des effectifs : H obs
ˆ min
2
Les valeurs critiques H 1 sont consignées dans des tables statistiques en fonction de , du nombre de
populations p et du nombre de d.l. k=n-1. Test très peu utilisé par les praticiens.
3) Test de Levene
Quand l’utilise-t-on ? Quel est son principe ? Avec quels logiciels peut-on l’obtenir ?
ANOVA 1
1) Modèle :
a) Modèle observé : SCEt SCEa SCEr et b) Modèle théorique : à connaitre
2) Formules de calculs
Nombre d’échantillons : p et effectif de l’échantillon i : ni
n. i 1 n i y i . k i1 y ik y .. i 1 y i .
p n p
y ..2
T i 1 ki1 y ik2
p n
C
n.
La somme des carrés des écarts des observations de l'échantillon i :
SCEi ki1 y ik
n 2 1
ni
ni
y
k 1 ik
2
y i2.
SCE r i 1 SCE i
p p
SCE t T C SCEa SCEt SCEr (ou SCE a C)
i 1 ni
4
3) Tableau d'analyse de la variance
Sources de Degrés de Carrés
SCE Fobs Prob
variation liberté moyens
Variation factorielle p-1 SCE a CM a Fobs p-value
(entre populations)
Variation résiduelle n.-p SCE r CM r
(dans populations)
Total n.-1 SCE t
CM r CM r
• Moyennes : ˆ i y i t 1 2 et ˆ y t 1 2 (t de Student avec n.-p d.l.)
ni n.
1 1
• Différence entre 2 moyennes : ( i i ' ) ( y i y i ' ) t1 2 CM r
ni ni '
b) Modèle aléatoire :
- Composantes de la variance 2 et A2
( p 1)(CM a CM r ) 1
2 CM r A2
p
et n2 )
i 1 i
( b n.
b n.
(CM a CM r )
Si les échantillons ont le même effectif n : A2
n
CM a
- Moyenne générale : ˆ y t 1 2 (p-1 d.l).
np
ANOVA 2
A) Modèles croisés
1) Modèles
a) Modèle observé : SCE t SCEa SCEb SCEab SCE r
b) Modèles théoriques : 3 modèles à connaitre
2) Formules de calculs
y ijk j 1 Yij .
q n q
somme pour le ième niveau du facteur a : Yi .. j 1 k 1
y ijk i 1 Yij .
p n p
somme pour le jème niveau du facteur b : Y. j . i 1 k 1
Y...2
p q n
somme des carrés : T i 1 j 1
y 2 et facteur de correction : C
k 1 ijk npq
5
SCE ij k 1 y ijk
n
somme des carrées des écarts par échantillon : 2
Yij2. / n
1
p
somme des carrées des écarts liée au facteur a : SCE a Y2 C
i 1 i ..
qn
1
q
somme des carrées des écarts liée au facteur b : SCEb Y2 C
j 1 . j .
pn
SCE r i 1 j 1 SCE ij
p q
somme des carrées des écarts résiduelle :
somme des carrées des écarts totale: SCE t T C
somme des carrés des écarts de l'interaction : SCEab SCE t SCEa SCEb SCE r
SCE ab ni 1 j 1 ( y ij . y i .. y . j . y ... ) 2
p q
qui peut être aussi calculée par :
4) Remarques
a) Si l’interaction n’est pas significative, les modèles d’ANOVA sont dits additifs :
SCE ab SCE r
CM com .
( p 1)(q 1) pq( n 1)
qui constitue une estimation commune de la variance ² .
b) Pour modèle aléatoire, obtenir des estimations des variances des effets principaux :
ˆ 2 (CM a CM ab ) / qn ˆ 2 (CM b CM ab ) / pn ˆ 2 (CM ab CM r ) / n
̂ 2 CM r
c) Les tailles des effets associées à chacun des facteurs et à l'interaction :
SCE a SCE b SCE ab
a2 , b2 et ab
2
.
SCE t SCE t SCE t
d) Expériences en blocs aléatoires complets : estimation de la valeur manquante x ij :
pX i'. qX .' j X ..'
Estimation de la valeur manquante x ij : xˆ ij
( p 1)(q 1)
où X i'. , X .' j sont les sommes marginales et X ..' est la somme totale.
B) Modèles hiérarchisés
1) Modèles
a) Modèle observé : SCEt SCEa SCEb / a SCEr
b) Modèles théoriques : à connaitre
2) Formules de calculs
1) Réaliser une ANOVA2 et obtenir SCE b / a par : SCE b / a SCE t SCEa SCE r .
2) Réaliser p ANOVA 1, une pour chaque niveau du facteur principal, comme si l'on veut
"comparer" chaque fois les q niveaux du facteur hiérarchisé, et regrouper ensuite les résultats. On
obtient :
6
SCE r i 1 SCE ri et SCEb / a i 1 SCEbi
p p
où SCE ri et SCE bi sont les sommes des carrées des écarts résiduelle et factorielle de la i ème
ANOVA1.
La somme des carrées des écarts du facteur principal se calcule par la relation :
1
p
SCE a Y2 C
i 1 i ..
qn
si les effectifs des échantillons et les nombre des niveaux du facteur hiérarchisé par niveau du
facteur principal sont constants, ou par :
2
p Y i .. Y...2
SCE a i 1
ni . n..
si les effectifs des échantillons et/ou les nombre des niveaux du facteur hiérarchisé par niveau du
facteur principal sont différents.
3) Tableau d'analyse de la variance
Sources de variation Degrés de SCE CM
liberté
Facteur a p-1 SCEa CMa
Facteur b/a p(q-1) SCEb/a CMb/a
Variation résiduelle pq(n-1) SCEr CMr
Variation totale pqn-1 SCEt
H 0ij : i j où 1 i j p .
Calculer la différence entre 2 moyennes observée et la comparer avec la valeur critique suivante :
v c ((p), ) 2CM e n
est une valeur théorique relative à la distribution d'échantillonnage de la méthode utilisée
CMe est le carré moyen résiduel issu de l'ANOVA1 à degrés de liberté. Dans le cas, d'une
ANOVA2, on le remplace par le carré moyen qui a servi à la comparaison des p moyennes ;
n est le nombre total d'observations à partir duquel est calculée chacune des p moyennes.
CM e
v c Q1(p, )
n
où la valeur de Q est obtenue en fonction de , du nombre de moyennes (p) et de v. Si les effectifs ne
sont pas égaux, on peut utiliser la méthode de Tukey-Kramer :
( p , ) CM e 1 1
v ij Q 1
2 ni n j
où s est le nombre de moyennes du groupe et p est le nombre total de moyennes. La valeur critique est :
CM e
Ac ( p, )
s n
est donné en fonction de s, du nombre de d.l. (v) et du niveau de signification.
1) Méthode de Newman-Keuls
L’hypothèse d'homogénéité d'un groupe de s moyennes est rejetée si l'amplitude observée de ce groupe
x i x j égale ou dépasse la valeur critique :
CM e
vc q1( s, )
n
2) Méthode de Duncan
L’hypothèse d'homogénéité d'un groupe de s moyennes est rejetée si l'amplitude observée de ce groupe
x i x j égale ou dépasse la valeur critique :
( s , ) CM e
v c q1
n
C) Méthode de Dunnett
On teste la signification des p-1 hypothèses suivantes :
H 0 : i témoin où i 1, 2, ..., p 1
contre les hypothèses H 1 : i témoin , dans lesquelles le témoin est le p-ième traitement.
( p 1, ) 2CM e
Calculer Ao y i y témoin et la valeur critique v c d 1 / 2
n
d1(p1/ ,2 ) sont lues dans des tables en fonction du nombre de d.l. , de et du nb de comparaisons (p-1).
3) Intervalles de confiance
a) Coefficient de régression
b1 t 1 / 2 ̂ y2. x SCE x (t1-/2 avec n-2 d.l)
SPE 2
ˆ y2. x ( SCE y ) /( n 2)
SCE x
8
b) Ordonnée à l’origine
1 x2
b0 t 1 / 2 ̂ y2. x (t1-/2 avec n-2 d.l)
n SCE x
c) Valeur estimée de la variable Y à l’aide de la régression
- estimation pour une valeur moyenne:
ˆ Y / x b0 b1 x 0 y b1 ( x 0 x )
0
1 ( x0 x ) 2
ˆ Y / x0 t1 / 2ˆ y . x (t1-/2 avec n-2 d.l)
n SCE x
- estimation pour une valeur individuelle :
yˆ ( x 0 ) b0 b1 x0 y b1 ( x 0 x )
1 ( x0 x ) 2
yˆ t 1 / 2ˆ y . x 1 (t1-/2 avec n-2 d.l)
n SCE x
4) Tests de conformité
a) Coefficient de régression (cas du test bilatéral)
b1 b10
t obs (t1-/2 avec n-2 d.l)
̂ y2. x
SCE x
• Ou bien voir si l’intervalle de confiance de B1 contient ou non la constante b10 .
• Test de signification du coefficient de régression est un cas particulier du test de
conformité
n n n
ANOVA : ( yi y )2 ( ŷ i y ) 2 ( y i ŷ i )2
i 1 i 1 i 1
SCE t = SCE rég + SCE r .
Sources de variation d.l. SCE CM Fobs p-value
Régression 1 SCE reg CM reg Fobs p
Résidu n-2 SCE r CM r
Total n-1 SCE t
b) Ordonnée à l’origine (cas du test bilatéral)
b0 b00
t obs (t1-/2 avec n-2 d.l)
1 x2
2y . x
n SCE x
Le cas particulier de ce test (Ho : 0 0 ) permet de tester si la droite passe par l'origine.
9
( SCE y . x )1 ( SCE y . x ) 2
ˆ 2y . x
n1 n 2 4
( SCE y )1 SPE 12 ( SCE x )1 ( SCE y ) 2 SPE 22 ( SCE x ) 2
n1 n 2 4
6) Qualité de l’ajustement
a) Coefficient de détermination
R 2 SPE yŷ / SCE y SCE ŷ 2 R2 1
SCE r
SCE t
SCE reg
SCE t
.
cov( x , y ) SPE ( x , y )
1) Estimation ̂ r avec r
sx s y SCE x SCE y
2) Intervalle de confiance
1 1 r
z tanh 1 ( r ) loge
2 1 r
z1 z u1 / 2 n3 et z 2 z u1 / 2 n 3 avec
e 2 z1 1 e 2 z2 1
r1 et r2
e 2 z1 1 e 2 z2 1
3) Test de signification
r n2
Test bilatéral : t obs (t1-/2 avec n-2 d.l)
1 r2
On peut aussi comparer r observé et r théorique. Les valeurs de r théorique sont données par des
tables pour différentes valeurs de k=n-2 et .
4) Test de conformité
Comparer le coefficient de corrélation à une valeur donnée 0 différente de zéro (test approché)
1 1 r 1 1 0
log e log e
2 1 r 2 1 0
uobs
1/ n 3
10
5) Test d’égalité de deux coefficients de corrélation
z z2 z1 z 2
uobs 1
ˆ z 1 z 2 1 1
n1 3 n 2 3
B) Corrélation de rangs
di est la différence entre le rang de la première variable et le rang de la seconde variable pour
l'unité i.
b) Test de signification
Comparer les valeurs observée et théorique du coefficient de corrélation de Spearman.
où T j (t
i
3
ij t ij ) / 12 , où t ij représente, pour la variable j, le nombre d'ex-aequo au rang i.
b) Test de signification
• Effectifs petits : tables statistiques
• Effectifs relativement élevés, on peut utiliser l'approximation par la distribution khi-
deux : obs
2
k (n 1)W ( 12 à n-1d.l.)
11
Test d’ajustement
où p est le nombre de classes après un éventuel regroupement et r est le nombre de paramètres estimés.
B) Test de Kolmogorov-Smirnov
Le test consiste à calculer l'écart observé : F ( x ) N ' ( x ) pour les différentes classes et à comparer
l'écart maximum à une valeur critique
Lorsque l'effectif de l'échantillon dépasse 35, on peut utiliser les valeurs approchées suivantes :
• 1.36 / n pour un niveau de signification =0.05
• 1.63 / n pour un niveau de signification =0.01
et rejeter l'hypothèse nulle lorsque l'écart maximum dépasse la valeur approchée.
Dans le cas de distributions non entièrement définies, les valeurs critiques doivent être modifiées. Dans
le cas de distributions normales, on peut utiliser les valeurs critiques suivantes :
• 0.886 / n 1.5 pour un niveau de signification =0.05
• 1.031 / n 1.5 pour un niveau de signification =0.01
C) Quelques autres méthodes
1) Test de l'indice de dispersion pour la distribution de Poisson
̂ 2
Le test consiste à calculer la quantité : obs
2
( n 1) I e avec I e
x
qui, sous l’hypothèse nulle et lorsque la moyenne est assez grande (supérieure à 2 selon certains auteurs
et beaucoup plus grande selon d'autres), suit une distribution khi-deux à n-1 degrés de liberté. Ce test est
bilatéral, on rejette l'hypothèse d'une compatibilité avec une distribution de Poisson lorsque :
obs
2
2 / 2
c’est-à-dire dans le cas où la population est sous-dispersée, et lorsque :
obs
2
12 / 2
c’est-à-dire dans le cas où la population est sur-dispersée (agrégée).
Tests d’indépendance
12
A) Tests
1) Test khi-deux de Pearson
p ( nij nPˆij ) 2
q p nij2
q
et rejet si obs 12
2
obs
2
n avec k=(p-1)(q-1) d.l.
i 1 j 1nPˆ ij nPˆ
i 1 j 1 ij
ni . n. j
nPˆij nni' . n.' j
n
B) Mesures d'association
1) Le coefficient Phi :
obs
2
n
Utilisé surtout dans le cas où les deux variables sont dichotomiques.
2) Le coefficient de contingence
obs
2
C
obs
2
n
Plus fréquemment, les chercheurs utilisent ce qu'on appelle le coefficient de contingence corrigé qui a
l'avantage de varier entre 0 et 1. Celui-ci est donné par la relation :
C corrigé C / C max
dans laquelle Cmax peut être lue dans la table donnée par Champion.
C) Direction de la relation
Le coefficient Gamma
Le coefficient gamma, appelé aussi gamma de Goodman et Kruskal, permet d'obtenir de l'information
sur l'intensité et le sens de la relation linéaire de deux variables ordinales.
13
Proportions
xF / 2 ( x 1)
c) p1 et p2
( n x 1 ) xF / 2 ( n x )F' / 2 ( x 1 )
où F/2 et F'/2 sont deux variables de Ficher-Snedecor, la première possède 2x et 2(n-x+1) degrés de liberté et la seconde
possède 2(n-x) et 2(x+1) degrés de liberté.
d) Wald ajustée xw x u2 / 2 , nw n u 2 et p' x w / nw
1 / 2 1 / 2
C) Taille de l'échantillon
E2
14
E) Test d'egalite de deux proportions
a) H 1 : p1 p2 b) H 1' : p1 p2 c) H 1" : p1 p2
1) Echantillons indépendants
( n12 n21 1) 2
obs
2
n12 n21
b) Test exact basé sur la distribution binomiale (cas bilatéral) :
r
P ( X r ) 2 C ni 12 n21 0.5 n12 n21
i 0
où r=min(n12, n21).
15