0% ont trouvé ce document utile (0 vote)
242 vues15 pages

Formulaire Statistique

Transféré par

Sanae Kerzazi
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
242 vues15 pages

Formulaire Statistique

Transféré par

Sanae Kerzazi
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Introduction à la théorie de l’estimation

A) Qualités d’un estimateur

1) Estimateur sans biais


Sans biais : E (G )   et Biais  E (G )  
2) Estimateur de variance minimum
- Variance d'un estimateur G de  : Var (G )  E (G  E (G )) 2 .
- G est dit de variance minimum si : E (G  E (G )) 2  E (G *  E (G*)) 2 (G* est tout autre estimateur)
3) Estimateur efficace
4) Erreur quadratique moyenne d'un estimateur
EQM  E (G   ) 2
Sorte de combinaison de biais et de variance : EQM  Var (G )  ( E (G   )) 2 = variance + (biais) ²
5) Estimateur convergent
Un estimateur G de est dit convergent en probabilité si : lim P ( G     )  0   0.
n

Si lim E ( G )   et limVar ( G )  0 alors G est un estimateur convergent de .


n n

6) Estimateur asymptotiquement sans biais

7) Meilleur estimateur linéaire non biaisé


G meilleur estimateur linéaire non biaisé du paramètre  si :
a) G est un estimateur sans biais : E ( G )  


n
b) G est une fonction linéaire des observations de l'échantillon : G  ui x i
i 1
c) Var ( G )  Var ( G' ) où G' est n'importe quel autre estimateur non biaisé de  et qui satisfait la
condition (b)

B) Méthodes d'estimation
1) Méthode du maximum de vraisemblance
L( x 1 ,..., x n ; )  P ( x 1 ,..., x n ; )  P( x 1 ; ) ... P( x 2 ; ) (variable discrète)
L( x 1 ,..., x n ; )  f ( x 1 ,..., x n ; )  f ( x 1 ; ) ... f ( x 2 ; ) (variable continue)
On cherche le maximum de la fonction de vraisemblance
2) Méthode des moments
Consiste à estimer les paramètres inconnus  1 , 2 , ..., k , en posant l'égalité entre les k premiers
moments observés (connus) de l'échantillon et les k premiers moments (inconnus) correspondants de la
population.

Tests d’hypothèses
a) Risque de première espèce :   P (rejeter H 0 / H 0 vraie ) ,
b) Risque de deuxième espèce :   P (accepter H 0 / H 0 fausse ) .
c) Puissance du test : 1    P (rejeter H 0 / H 0 fausse )

1
Inférences relatives à une et deux moyennes

A) Cas d’une seule moyenne

1) Estimation et intervalle de confiance


ˆ  x et x  t1 / 2ˆ / n (t1-/2 de Student avec n-1 d.l)
ns 2 SCE
où ˆ 2  
n1 n1
• Longueur l de l'intervalle de confiance: l  2t 1 / 2ˆ / n
• Marge d’erreur : à connaitre
2) Taille de l’échantillon pour estimer la moyenne de la population avec une précision donnée
t 12 / 2ˆ 2 t 12 / 2 cv 2
n ou encore n 
d2 d r2
d : marge d'erreur, cv : coefficient de variation ( cv  (ˆ / x ) (100) ) et d r  (d / x ) (100)
3) Test de conformité d’une moyenne
x  0
Valeur observée de la variable t de Student : t obs 
ˆ / n
t de Student théorique possède n-1 d.l et la décision du test dépend de l’hypothèse alternative.
B) Cas de deux moyennes
B1) Echantillons indépendants
1) Deux populations de variances égales
a) Intervalle de confiance de la différence des moyennes

SCE1  SCE2 1 1
( x1  x 2 )  t 1  / 2    (t1-/2 possède n 1 + n 2 -2 d.l)
n1  n 2  2  n1 n 2 
SCE1  SCE2
Si effectifs égaux ( n 1 = n 2 =n) : ( x1  x 2 )  t 1  / 2
n(n  1)
b) Comparaison de deux moyennes
H 0 : 1 -  2  d 0 (d0 : une constante)
x1  x 2  d 0
t obs  (t de Student théorique possède n1+n2-2 d.l)
S CE1  S CE2 1 1 
  
n1  n 2  2  n1 n 2 
x1  x 2  d 0
Si les effectifs des 2 échantillons sont égaux: t obs 
S CE1  S CE2
n(n  1)
La décision du test dépend de l’hypothèse alternative.

2) Deux populations de variances différentes


• Si effectifs égaux et si la variance d'une population n'est pas plus de trois fois la variance de l'autre
population, le test t de Student est assez robuste
• Procéder à une transformation de variables destinée à stabiliser les variances et utiliser ensuite le test
t de Student
• Utiliser l’approximation de Welch-Satterthwaite ou l’approximation de Cochran-Cox.
2
Approximations de Welch-Satterthwaite et de Cochran-Cox :
Estimations séparées de variances :
x  x2  d0 x1  x 2  d 0
t'obs  1  .
ˆ 12 ˆ 22 S CE1

S CE2

n1 n 2 n 1 (n 1  1) n 2 (n 2  1)

- Selon l'approximation de Satterthwaite, la variable t de Student possède k d.l :

(w 1  w 2 ) 2 SCE1 SCE2
k avec w1  et w 2 
w 12 w 22 n 1 (n 1  1) n 2 (n 2  1)

n1  1 n2  1
- Selon l'approximation de Cochran-Cox (pour mémoire)

B2) Échantillons associés par paires

a) Intervalle de confiance de la différence de deux moyennes


SCEd
d  t 1 / 2 ˆ D ou ( x1  x 2 )  t 1  / 2 (t1-/2 de Student théorique possède n-1d.l.)
n(n  1)
b) Comparaison des deux moyennes
d  d0 x1  x 2  d 0
H0 :  D  d0 t obs  =
ˆ D / n S CEd
n(n  1)
La décision dépend de l’hypothèse alternative et la distribution t de Student à n-1 d.l.
Inférences concernant les variances
1) Estimation et intervalle de confiance
ns² SCE SCE SCE
ˆ 2   et  2  (  2 possède n-1 d.l)
n1 n1  12  / 2  2 / 2
2) Test de conformité
ns 2 S CE
On calcule la valeur observée  obs
2
  (  2 théorique possède n-1 d.l.)
 02  02
et on prend, pour un niveau de signification , la décision selon l’hypothèse alternative :
(a) sous H 1 :  2   02 , on rejette H 0 si  obs
2
  12
(b) sous H 1' :  2   02 , on rejette H 0 si  obs
2
  2
(c) sous H 1" :  2   02 , on rejette H 0 si  obs
2
  2 / 2 ou  obs
2
  12 / 2

3) Test d’égalité de deux variances


(a) sous H 1 :  12   22 , on calcule Fobs
'
 ˆ 12 / ˆ 22 et on rejette H 0 si Fobs
'
 F1 
où la variable F possède k 1  n 1  1 et k 2  n 2  1 degrés de liberté

(b) sous H 1' :  12   22 , on calcule Fobs


"
 ˆ 22 / ˆ 12 et on rejette H 0 si Fobs
"
 F1 
où la variable F possède k 1  n 2  1 et k 2  n1  1 degrés de liberté

(c) sous H "1 :  12   22 , on calcule Fobs  


ˆ max
2
/ ˆ min
2
et rejette H 0 si Fobs  F1 / 2
où la variable F possède kmax et kmin d.l, k max est le nombre de d.l. qui correspond à
̂ max
2
et kmin est le nombre de d.l. qui correspond à ̂ min
2
.

3
4) Tests d’égalité de plusieurs variances
1) Test de Bartlett

 n i  p  ln   
p p
 ˆ2  (n i  1) ln ˆ i2
 
i 1 i 1
 obs
2
 
 

1 p 1 1
1   
3(p  1) 

i 1 n  1 p
i ni  p 
 i 1 

Rejeter l’hypothèse nulle lorsque  obs


2
  12 (  2 possède p-1 d.l).

 (n  1)ˆ
p 2
i i
i 1
ˆ 2

 n p
p
i
i 1

Lorsque les effectifs des échantillons sont égaux ( n1  n 2  ...  n p  n ) :

 p 

S CE
(n  1) pln  lnS CEi  p
 
 obs
2
  p
p1
i 1  où S CE   S CE
i 1
i
1
3p(n  1)
2) Test de HARTLEY

ˆ max
2
Nécessite, entre autres, l’égalité des effectifs : H obs 
ˆ min
2

Les valeurs critiques H 1  sont consignées dans des tables statistiques en fonction de , du nombre de
populations p et du nombre de d.l. k=n-1. Test très peu utilisé par les praticiens.

3) Test de Levene
Quand l’utilise-t-on ? Quel est son principe ? Avec quels logiciels peut-on l’obtenir ?

ANOVA 1

1) Modèle :
a) Modèle observé : SCEt  SCEa  SCEr et b) Modèle théorique : à connaitre

2) Formules de calculs
Nombre d’échantillons : p et effectif de l’échantillon i : ni
n.   i 1 n i y i .  k i1 y ik y ..  i 1 y i .
p n p

y ..2
T  i 1 ki1 y ik2
p n
C
n.
La somme des carrés des écarts des observations de l'échantillon i :

SCEi  ki1 y ik 
n 2 1
ni
 ni
y
k 1 ik
 2

y i2.
SCE r  i 1 SCE i 
p p
SCE t  T  C SCEa  SCEt  SCEr (ou SCE a  C)
i 1 ni

4
3) Tableau d'analyse de la variance
Sources de Degrés de Carrés
SCE Fobs Prob
variation liberté moyens
Variation factorielle p-1 SCE a CM a Fobs p-value
(entre populations)
Variation résiduelle n.-p SCE r CM r
(dans populations)
Total n.-1 SCE t

4) Taille de l’effet du facteur


SCE a SCE a  ( p  1 )CM r
2  et 2 
SCE t SCE t  CM r
5) Estimations de paramètres
a) Modèle fixe :
 SCE r SCE r
• Variance commune :  ²  CM r avec 2  (  2 possède n.-p d.l)
 12 / 2  / 2
2

CM r CM r
• Moyennes : ˆ i  y i  t 1 2 et ˆ  y  t 1 2 (t de Student avec n.-p d.l.)
ni n.
  1 1 
• Différence entre 2 moyennes : (  i   i ' )  ( y i  y i ' )  t1 2 CM r   
 ni ni ' 
b) Modèle aléatoire :
- Composantes de la variance  2 et  A2
  ( p  1)(CM a  CM r ) 1
 2  CM r  A2  
p
et n2 )
i 1 i
( b  n. 
b n.
 (CM a  CM r )
Si les échantillons ont le même effectif n :  A2 
n
CM a
- Moyenne générale : ˆ  y  t 1 2 (p-1 d.l).
np

ANOVA 2

A) Modèles croisés
1) Modèles
a) Modèle observé : SCE t  SCEa  SCEb  SCEab  SCE r
b) Modèles théoriques : 3 modèles à connaitre
2) Formules de calculs
  y ijk   j 1 Yij .
q n q
 somme pour le ième niveau du facteur a : Yi ..  j 1 k 1

  y ijk  i 1 Yij .
p n p
 somme pour le jème niveau du facteur b : Y. j . i 1 k 1

 y ijk et somme générale : Y...  i 1  j 1 k 1 y ijk


n p q n
 somme par échantillon : Yij .  k 1

Y...2
  
p q n
 somme des carrés : T  i 1 j 1
y 2 et facteur de correction : C 
k 1 ijk npq
5
SCE ij  k 1 y ijk
n
 somme des carrées des écarts par échantillon : 2
 Yij2. / n
1

p
 somme des carrées des écarts liée au facteur a : SCE a  Y2 C
i 1 i ..
qn
1

q
 somme des carrées des écarts liée au facteur b : SCEb  Y2 C
j 1 . j .
pn
SCE r  i 1  j 1 SCE ij
p q
 somme des carrées des écarts résiduelle :
 somme des carrées des écarts totale: SCE t  T  C
 somme des carrés des écarts de l'interaction : SCEab  SCE t  SCEa  SCEb  SCE r
SCE ab  ni 1  j 1 ( y ij .  y i ..  y . j .  y ... ) 2
p q
qui peut être aussi calculée par :

3) Tableau d'analyse de la variance


Sources de Degrés de
SCE CM Fobs
variation liberté
Facteur a p-1 SCEa CMa
Facteur b q-1 SCEb CMb
Interaction (p-1)(q-1) SCEab CMab
Variation résiduelle pq(n-1) SCEr CMr
Variation totale pqn-1 SCEt

4) Remarques
a) Si l’interaction n’est pas significative, les modèles d’ANOVA sont dits additifs :
SCE ab  SCE r
CM com  .
( p  1)(q  1)  pq( n  1)
qui constitue une estimation commune de la variance  ² .
b) Pour modèle aléatoire, obtenir des estimations des variances des effets principaux :
ˆ 2  (CM a  CM ab ) / qn ˆ 2  (CM b  CM ab ) / pn ˆ 2   (CM ab  CM r ) / n
̂ 2  CM r
c) Les tailles des effets associées à chacun des facteurs et à l'interaction :
SCE a SCE b SCE ab
 a2  ,  b2  et  ab
2
 .
SCE t SCE t SCE t
d) Expériences en blocs aléatoires complets : estimation de la valeur manquante x ij :
pX i'.  qX .' j  X ..'
Estimation de la valeur manquante x ij : xˆ ij 
( p  1)(q  1)
où X i'. , X .' j sont les sommes marginales et X ..' est la somme totale.

B) Modèles hiérarchisés
1) Modèles
a) Modèle observé : SCEt  SCEa  SCEb / a  SCEr
b) Modèles théoriques : à connaitre
2) Formules de calculs
1) Réaliser une ANOVA2 et obtenir SCE b / a par : SCE b / a  SCE t  SCEa  SCE r .
2) Réaliser p ANOVA 1, une pour chaque niveau du facteur principal, comme si l'on veut
"comparer" chaque fois les q niveaux du facteur hiérarchisé, et regrouper ensuite les résultats. On
obtient :

6
SCE r  i 1 SCE ri et SCEb / a  i 1 SCEbi
p p

où SCE ri et SCE bi sont les sommes des carrées des écarts résiduelle et factorielle de la i ème
ANOVA1.
La somme des carrées des écarts du facteur principal se calcule par la relation :
1

p
SCE a  Y2 C
i 1 i ..
qn
si les effectifs des échantillons et les nombre des niveaux du facteur hiérarchisé par niveau du
facteur principal sont constants, ou par :
2
p Y i .. Y...2
SCE a  i 1 
ni . n..
si les effectifs des échantillons et/ou les nombre des niveaux du facteur hiérarchisé par niveau du
facteur principal sont différents.
3) Tableau d'analyse de la variance
Sources de variation Degrés de SCE CM
liberté
Facteur a p-1 SCEa CMa
Facteur b/a p(q-1) SCEb/a CMb/a
Variation résiduelle pq(n-1) SCEr CMr
Variation totale pqn-1 SCEt

Comparaisons multiples de moyennes

A) Méthodes de comparaisons des moyennes deux à deux

H 0ij :  i   j où 1  i  j  p .
Calculer la différence entre 2 moyennes observée et la comparer avec la valeur critique suivante :

v c   ((p), ) 2CM e n
  est une valeur théorique relative à la distribution d'échantillonnage de la méthode utilisée
 CMe est le carré moyen résiduel issu de l'ANOVA1 à  degrés de liberté. Dans le cas, d'une
ANOVA2, on le remplace par le carré moyen qui a servi à la comparaison des p moyennes ;
 n est le nombre total d'observations à partir duquel est calculée chacune des p moyennes.

1) Méthode de la plus petite différence significative


( ) 2CM e
v c  t 1  / 2 (si effectif constant)
n
( )  1 1 
v c  t 1 / 2 CM e   (si effectifs différents)
 ni n j 
 
2) Méthode de Tukey

CM e
v c  Q1(p, )
n
où la valeur de Q est obtenue en fonction de , du nombre de moyennes (p) et de v. Si les effectifs ne
sont pas égaux, on peut utiliser la méthode de Tukey-Kramer :
( p , ) CM e  1 1 
v ij  Q 1  
2  ni n j 
 

B) Méthodes de comparaisons des moyennes par groupes


7
H 0s :  i   j  ...   s avec 2  s  p

où s est le nombre de moyennes du groupe et p est le nombre total de moyennes. La valeur critique est :
CM e
Ac   ( p, )
s n
 est donné en fonction de s, du nombre de d.l. (v) et du niveau de signification.
1) Méthode de Newman-Keuls
L’hypothèse d'homogénéité d'un groupe de s moyennes est rejetée si l'amplitude observée de ce groupe
x i  x j égale ou dépasse la valeur critique :
CM e
vc  q1( s, )
n
2) Méthode de Duncan
L’hypothèse d'homogénéité d'un groupe de s moyennes est rejetée si l'amplitude observée de ce groupe
x i  x j égale ou dépasse la valeur critique :

( s , ) CM e
v c  q1
n
C) Méthode de Dunnett
On teste la signification des p-1 hypothèses suivantes :
H 0 :  i   témoin où i  1, 2, ..., p  1
contre les hypothèses H 1 :  i   témoin , dans lesquelles le témoin est le p-ième traitement.

( p 1, ) 2CM e
Calculer Ao  y i  y témoin et la valeur critique v c  d 1 / 2
n
d1(p1/ ,2 ) sont lues dans des tables en fonction du nombre de d.l. , de  et du nb de comparaisons (p-1).

Inférences concernant la régression linéaire

1) Droites de régression de la population et de l’échantillon


Yi   0   1 x i   i et Yi  b0  b1 x i  e i
2) Estimation des paramètres
COV ( x , y ) SPE xy
ˆ 1  b1   et ˆ 0  b0  y  b1 x
2 SCE x
Sx
2
n n
1 n  n
1 n  n 
SCE x   ( x i  x )  
2
x i2    xi  et SPE xy   x i y i    x i   y i 
i 1 i 1 n  i 1  i 1 n  i 1  i 1 

3) Intervalles de confiance
a) Coefficient de régression
b1  t 1 / 2 ̂ y2. x SCE x (t1-/2 avec n-2 d.l)
SPE 2
ˆ y2. x  ( SCE y  ) /( n  2)
SCE x

8
b) Ordonnée à l’origine
1 x2 
b0  t 1 / 2 ̂ y2. x    (t1-/2 avec n-2 d.l)
 n SCE x 
c) Valeur estimée de la variable Y à l’aide de la régression
- estimation pour une valeur moyenne:
ˆ Y / x  b0  b1 x 0  y  b1 ( x 0  x )
0

1 ( x0  x ) 2
ˆ Y / x0  t1 / 2ˆ y . x  (t1-/2 avec n-2 d.l)
n SCE x
- estimation pour une valeur individuelle :
yˆ ( x 0 )  b0  b1 x0  y  b1 ( x 0  x )
1 ( x0  x ) 2
yˆ  t 1 / 2ˆ y . x 1   (t1-/2 avec n-2 d.l)
n SCE x
4) Tests de conformité
a) Coefficient de régression (cas du test bilatéral)
b1  b10
t obs  (t1-/2 avec n-2 d.l)
̂ y2. x
SCE x
• Ou bien voir si l’intervalle de confiance de B1 contient ou non la constante b10 .
• Test de signification du coefficient de régression est un cas particulier du test de
conformité
n n n
ANOVA :  ( yi  y )2   ( ŷ i  y ) 2   ( y i  ŷ i )2
i 1 i 1 i 1
SCE t = SCE rég + SCE r .
Sources de variation d.l. SCE CM Fobs p-value
Régression 1 SCE reg CM reg Fobs p
Résidu n-2 SCE r CM r
Total n-1 SCE t
b) Ordonnée à l’origine (cas du test bilatéral)
b0  b00
t obs  (t1-/2 avec n-2 d.l)
1 x2 
 2y . x   
 n SCE x 
Le cas particulier de ce test (Ho :  0  0 ) permet de tester si la droite passe par l'origine.

5) Test de parallélisme (cas du test bilatéral)


b1  b2 (t1-/2 avec n1+n2-4 d.l)
t obs 
 1 1 
ˆ y2. x   
 ( SCE x ) 1 ( SCE x ) 2 
La variance résiduelle commune se calcule par l'expression suivante :

9
( SCE y . x )1  ( SCE y . x ) 2
ˆ 2y . x 
n1  n 2  4
( SCE y )1  SPE 12 ( SCE x )1  ( SCE y ) 2  SPE 22 ( SCE x ) 2

n1  n 2  4
6) Qualité de l’ajustement
a) Coefficient de détermination

R 2  SPE yŷ / SCE y SCE ŷ 2 R2  1
SCE r
SCE t

SCE reg
SCE t
.

b) Analyse des résidus


- Résidus : e i  y i  ŷ i
- Intervalle de confiance : [ t1 / 2ˆ Y . x ,  t1 / 2ˆ Y . x ] .
- Résidu "standardisé " : e is  e i ̂ Y . x
- Résidus "normalisés": ei
einorm 
1 ( xi  x )2 
̂ Y . x 1    
 n SCE x 
7) Linéarité selon les paramètres
 1 
Exemples : et Yi   0   1     i
Yi   0   1 x i2   i
 xi 
8) Transformations de variables (exemple)
Yi   0 x i  1  i devient après une transformation
logarithmique : log( Yi )   0'   1 log( x i )  log  i

Inférences concernant la corrélation

A) Coefficient de corrélation linéaire

cov( x , y ) SPE ( x , y )
1) Estimation ̂  r avec r 
sx s y SCE x SCE y
2) Intervalle de confiance
1 1 r
z  tanh 1 ( r )  loge
2 1 r
z1  z  u1 / 2 n3 et z 2  z  u1 / 2 n  3 avec
e 2 z1  1 e 2 z2  1
r1  et r2 
e 2 z1  1 e 2 z2  1
3) Test de signification
r n2
Test bilatéral : t obs  (t1-/2 avec n-2 d.l)
1 r2
On peut aussi comparer r observé et r théorique. Les valeurs de r théorique sont données par des
tables pour différentes valeurs de k=n-2 et .

4) Test de conformité
Comparer le coefficient de corrélation  à une valeur donnée  0 différente de zéro (test approché)
1 1 r 1 1  0
log e  log e
2 1 r 2 1  0
uobs 
1/ n  3
10
5) Test d’égalité de deux coefficients de corrélation
z  z2 z1  z 2
uobs  1 
ˆ z 1 z 2 1 1

n1  3 n 2  3

6) Test d’égalité de plusieurs coefficients de corrélation


k k k
 obs
2
  ( n i  3)( z i  z ) 2 où z   ( n  3) z  ( n  3) .
i i i
i 1 i 1 i 1

B) Corrélation de rangs

1) Coefficient de corrélation de Spearman


a) Calcul
• remplacer chaque valeur de la première variable par son rang et, indépendamment, chaque
valeur de la seconde variable par son rang. Calculer ensuite le coefficient de corrélation de
Pearson sur les rangs obtenus
• Quand il n'y a pas de valeurs égales pour une même variable (absence d'ex-aequo), utiliser:
n
6  d i2
i 1
ˆ s  rs  1 
n( n  1)
2

di est la différence entre le rang de la première variable et le rang de la seconde variable pour
l'unité i.
b) Test de signification
Comparer les valeurs observée et théorique du coefficient de corrélation de Spearman.

2) Coefficient de corrélation de rangs de Kendall


Une autre mesure du degré de liaison basée sur les rangs, avec une logique différente de celle du
coefficient de Spearman

3) Coefficient de concordance de Kendall


a) Définition
Exprime le degré d'association entre plusieurs variables ou classes (k>2)
La procédure de calcul consiste à :
• transformer chacune des k variables en rangs ;
• sommer les rangs relatifs à chaque unité (cette somme est notée Ri) ;
• utiliser la relation suivante :
12 SCE R
W
k 2 ( n 3  n)
On tiendra compte des ex-aequo, en utilisant la relation suivante :
SCE R
W
k 2 ( n 3  n)  k  j 1 T j
1 k
12

où T j   (t
i
3
ij  t ij ) / 12 , où t ij représente, pour la variable j, le nombre d'ex-aequo au rang i.

b) Test de signification
• Effectifs petits : tables statistiques
• Effectifs relativement élevés, on peut utiliser l'approximation par la distribution khi-
deux :  obs
2
 k (n  1)W (  12 à n-1d.l.)

11
Test d’ajustement

A) Test d'ajustement khi-deux de PEARSON

1) Cas de lois complètement définies


p
( ni  nPi ) 2 p n i2
 obs
2
  nPi
ou  obs
2

nPi
n (  12 avec p-1 d.l)
i 1 i 1

2) Cas de lois incomplètement définies


p
( ni  nP̂i ) 2 p n i2
 obs
2
 ou  obs
2
  nP̂ n (  12 avec p-1-r d.l)
i 1 nP̂i i 1 i

où p est le nombre de classes après un éventuel regroupement et r est le nombre de paramètres estimés.

B) Test de Kolmogorov-Smirnov
Le test consiste à calculer l'écart observé : F ( x )  N ' ( x ) pour les différentes classes et à comparer
l'écart maximum à une valeur critique
Lorsque l'effectif de l'échantillon dépasse 35, on peut utiliser les valeurs approchées suivantes :
• 1.36 / n pour un niveau de signification =0.05
• 1.63 / n pour un niveau de signification =0.01
et rejeter l'hypothèse nulle lorsque l'écart maximum dépasse la valeur approchée.

Dans le cas de distributions non entièrement définies, les valeurs critiques doivent être modifiées. Dans
le cas de distributions normales, on peut utiliser les valeurs critiques suivantes :
• 0.886 / n  1.5 pour un niveau de signification =0.05
• 1.031 / n  1.5 pour un niveau de signification =0.01
C) Quelques autres méthodes
1) Test de l'indice de dispersion pour la distribution de Poisson

̂ 2
Le test consiste à calculer la quantité :  obs
2
 ( n  1) I e avec I e 
x
qui, sous l’hypothèse nulle et lorsque la moyenne est assez grande (supérieure à 2 selon certains auteurs
et beaucoup plus grande selon d'autres), suit une distribution khi-deux à n-1 degrés de liberté. Ce test est
bilatéral, on rejette l'hypothèse d'une compatibilité avec une distribution de Poisson lorsque :
 obs
2
  2 / 2
c’est-à-dire dans le cas où la population est sous-dispersée, et lorsque :
 obs
2
  12 / 2
c’est-à-dire dans le cas où la population est sur-dispersée (agrégée).

2) Test de Shapiro-Wilk pour la distribution normale


Savoir interpréter les résultats d’un logiciel statistique.

Tests d’indépendance
12
A) Tests
1) Test khi-deux de Pearson
p ( nij  nPˆij ) 2
q p nij2
q
    et rejet si  obs   12
2
 obs
2
n avec k=(p-1)(q-1) d.l.
i 1 j 1nPˆ ij nPˆ
i 1 j 1 ij
ni . n. j
nPˆij  nni' . n.' j 
n

2) Test khi-deux du rapport de vraisemblance


p q nij
 ML
2
 2  nij ln et rejet si  obs
2
  12 avec k=(p-1)(q-1) d.l.
i 1 j 1 nPˆ ij

3) Test exact de Fisher


4) Statistique de Mantel-Haenszel
Deux variables mesurées selon des échelles ordinales
 MH
2
 (n  1)r 2
Relation linéaire significative entre les deux variables si  MH
2
  12 où  12 possède 1 d.l.

5) Test d’homogénéité de distributions


Le test se réalise mathématiquement de la même manière que le test d'indépendance.

B) Mesures d'association
1) Le coefficient Phi :
 obs
2

n
Utilisé surtout dans le cas où les deux variables sont dichotomiques.

2) Le coefficient de contingence
 obs
2
C
 obs
2
n
Plus fréquemment, les chercheurs utilisent ce qu'on appelle le coefficient de contingence corrigé qui a
l'avantage de varier entre 0 et 1. Celui-ci est donné par la relation :
C corrigé  C / C max
dans laquelle Cmax peut être lue dans la table donnée par Champion.

3) Le coefficient phi de Cramer


 obs
2
c 
n( k  1)
dans laquelle k est la plus petite valeur entre le nombre de lignes et de colonnes (k=min(p,q)).

C) Direction de la relation
Le coefficient Gamma
Le coefficient gamma, appelé aussi gamma de Goodman et Kruskal, permet d'obtenir de l'information
sur l'intensité et le sens de la relation linéaire de deux variables ordinales.

13
Proportions

A) Estimations ponctuelles d'une proportion


Différentes méthodes :
x x1 x  ( u2 )/ 2 x2 x  0.5
p̂  x 1  ; p̂  x 2  ; p̂  1  / 2 ˆ  x3 
;p ˆ  x4 
; p .
n n 2 n  u2 n4 n1
1  / 2

B) Intervalle de confiance d'une proportion

1) Tables statistiques des proportions (effectif petit et/ou …)


2) Approximations
pˆ (1  pˆ ) pˆ (1  pˆ )
a) p1  pˆ  u1 / 2 et p 2  pˆ  u1 / 2
n n
u2 2
pˆ (1  pˆ ) u 1 / 2 u2 2
pˆ (1  pˆ ) u 1 / 2
1  / 2
pˆ  1  / 2
 u1 / 2  pˆ   u1 / 2 
2n n 4n 2 2n n 4n 2
b) p1  et p2 
1  (u 2 )/ n 1  (u 2 )/ n
1 / 2 1 / 2

xF / 2 ( x  1)
c) p1  et p2 
( n  x  1 )  xF / 2 ( n  x )F' / 2  ( x  1 )
où F/2 et F'/2 sont deux variables de Ficher-Snedecor, la première possède 2x et 2(n-x+1) degrés de liberté et la seconde
possède 2(n-x) et 2(x+1) degrés de liberté.
d) Wald ajustée xw  x  u2 / 2 , nw  n  u 2 et p' x w / nw
1 / 2 1 / 2

p' (1  p' ) p' (1  p' ) .


p1  p' u1 / 2 et p2  p' u1 / 2
nw nw
Si le degré de confiance est de 95%, on a, après arrondi : p'  x  2
n4
p' (1  p' ) et p' (1  p' )
p1  p' 1.96 p2  p' 1.96 .
n4 n4
e) Transformation angulaire
y1  2 arcsin x / n  u1 / 2 / n et y2  2 arcsin x / n  u1 / 2 / n
2 2
  y    y 
p1   sin 1   et p2   sin 2   où les angles sont exprimés en radians.
  2    2 

C) Taille de l'échantillon

1) Tables statistiques des proportions


2) np et n(1-p) sont au moins égaux à 20, on a : n  u1 / 2 p(1  p)
2

E2

D) Test de conformite d'une proportion


Approximation normale (se rappeler de H0 ) :
pˆ  p0
uobs 
p0 (1  p0 )
n

a1) sous H1 : p  p0 , on rejette H 0 lorsque uobs  u1


a2) sous H 1' : p  p0 , on rejette H 0 lorsque uobs   u1
a3) sous H 1" : p  p0 , on rejette H 0 lorsque uobs  u1 / 2

14
E) Test d'egalite de deux proportions

a) H 1 : p1  p2 b) H 1' : p1  p2 c) H 1" : p1  p2

1) Echantillons indépendants

1.1 Tests utilisant l'approximation normale


a) Test utilisant la meilleure estimation de la proportion théorique commune aux deux populations :
n1. pˆ 1  n2. pˆ 2 .
pˆ 
n1.  n2.
Calculer :
pˆ 1  pˆ 2
uobs 
 1 1 
pˆ (1  pˆ )  
 1.
n n 2. 

a) sous H 1 : p1  p2 , on rejette H 0 si uobs  u1


b) sous H 1' : p1  p2 , on rejette H 0 si uobs   u1
c) sous H 1" : p1  p2 , on rejette H 0 si uobs  u1 / 2
b) Test obtenu à partir de l'intervalle de confiance de p1- p2. Calculer :
pˆ 1  pˆ 2
'
uobs 
pˆ 1 (1  pˆ 1 ) pˆ 2 (1  pˆ 2 )

n1. n2.
1.2 Le test exact de Fisher

2) Echantillons associés par paires


a) Approximation : test en calculant la quantité :  2  ( n12  n21 ) , et en rejetant l'hypothèse nulle
2
obs
n12  n21
lorsque obs
2
 12 avec 1 degré de liberté. Certains auteurs utilisent la relation suivante :

( n12  n21  1) 2
 obs
2

n12  n21
b) Test exact basé sur la distribution binomiale (cas bilatéral) :
r
P ( X  r )  2 C ni 12  n21 0.5 n12  n21
i 0
où r=min(n12, n21).

15

Vous aimerez peut-être aussi