Tests Non Paramétriques en Statistiques
Tests Non Paramétriques en Statistiques
iii
CHAPITRE 1
Ce cours a pour objectif la présentation des tests non paramétriques les plus
couramment utilisés. Il se situe dans le cadre de l’inférence statistique et des tests
d’hypothèse usuels : on cherche à apprécier des caractéristiques d’un population à
partir d’un échantillon issu de cette population.
Un test non-paramétrique présente quelques avantages :
1. Son application est relativement facile et rapide,
2. S’applique à des échantillons de petites tailles,
3. S’applique à des caractères qualitatifs, à des grandeurs de mesure, à des rangs
de classement, etc.
On distinguera principalement les deux familles suivantes :
a). Test du Khi-deux de Pearson :
(1) Test d’ajustement ou d’adéquation entre deux distributions.
(2) Test d’indépendance dans un tableau de contingence.
(3) Test d’homogénéité de plusieurs populations.
b) Tests appliqués aux rangs et aux signes
(1) Test de la somme des rangs (Wilcoxon et Mann-Withney)
(2) Test de signes
(3) Test de la somme des rangs des di¤érences positives (Wilcoxon)
(4) Test d’indépendance de rangs de Spearman
1
2 1. LES TESTS NON PARAM ÉTRIQUES
face 1 2 3 4 5 6
Oi 15 7 4 11 6 17
Ti 10 10 10 10 10 10
6
X 2
2 (Oi Ti ) (15 10)2 (7 10)2 (4 10)2
cal = = + +
i=1
Ti 10 10 10
(11 10)2 (6 10)2 (17 10)2
+ + +
10 10 10
= 13:6
1
Sous l’hypothèse H0 :"p1 = = p6 = ”, la variable aléatoire 2cal a donc pris la
6
valeur 13; 6. Or le seuil de rejet lu dans la table de la loi du 2 ;v est 20:05;5 = 11; 07.
La valeur observée dépassant cette valeur, on est amené à rejeter l’hypothèse H0
au risque = 0; 05. On notera qu’au risque = 0; 025, on rejette aussi H0 . Mais
au risque = 0; 01, on ne peut plus rejeter l’hypothèse H0 malgré la mauvaise
impression donnée par les résultats. Si on persiste à vouloir le risque 0; 01, il est
plus raisonnable de recommencer l’expérience avec un échantillon de taille beaucoup
plus grande.
Tester l’hypothèse (risque = 0; 05) selon laquelle la profession des parents n’a
pas d’in‡uence sur l’accès à cette grande école.
Il s’agit du test d’ajustement d’une distribution théorique, on pose les hypothèses
H0 : "la profession des parents n’a pas d’in‡uence sur l’accès à cette grande
école", la proportion des admis est constante pour toutes les professions soit p =
402
4936 ' 0; 0814
H1 :" la profession des parents in‡ue sur l’accès à cette grande école"
Sous H0 , le nombre d’admis pour la i-ième profession est Ni p.
2
ni Ni p
i Ni ni e¤ ectif observé Ni p e¤ ectif théorique Ni p
2244 402
1 2244 180 4936 ' 182; 76 0:0416
988 402
2 988 89 4936 ' 80; 47 0; 9042
575 402
3 575 48 4936 ' 46; 830 0; 0293
423 402
4 423 37 4936 ' 34; 450 0; 1887
287 402
5 287 13 4936 ' 23; 374 4; 6050
210 402
6 210 18 4936 ' 17; 10 0; 0471
209 402
7 209 17 4936 ' 17; 02 '0
Total 4936 402 402 5; 8181
2
Le calculé vaut 5; 8181. Le nombre de degrés de liberté est 7 1 = 6. La
table fournit 26;0;95 = 12; 59 donc 2 calculé < 26;0;95 .
On ne rejette pas H0 , ce qui signi…e que la profession des parents n’a pas d’in-
‡uence sur l’accès à cette grande école.
6 1. LES TESTS NON PARAM ÉTRIQUES
N pi ni X (ni 2
N pi )
Classe ni zi (zi ) pi N pi
corrigée corrigée N pi
i
[0; 10[ 5 3:0769 0:0010 0:0009 0:9 10:4 11 0:0346
[10; 20[ 6 2:3077 0:0105 0:0095 9:5
[20; 30[ 40 1:5385 0:0620 0:0515 51:5 51:5 40 2:568
[30; 40[ 168 0:7692 0:2209 0:1589 158:9 158:9 168 0:5211
[40; 50[ 288 0 0:5 0:2791 279:1 279:1 288 0:283
[50; 60[ 277 0:7692 0:7791 0:2791 279:1 279:1 277 0:0158
[60; 70[ 165 1:5385 0:9380 0:1589 158:9 158:9 165 0:234
[70; 80[ 49 2:3077 0:9895 0:0515 51:5 51:5 49 0:1214
[80; 90[ 2 3:0769 0:9990 0:0095 9:5 9:5 2 5:9211
T otal 1000 1 1000 1000 1000 9:7
1. TEST D’AJUSTEM ENT DE DEUX DISTRIBUTIONS : “TEST DU KHI-DEUX” 7
Problème : Tester l’hypothèse (au risque = 0; 01) selon laquelle X suit une
loi de Poisson de paramètre 3; 5.
On pose
H0 : "X P(3; 5)"
H1 : "X ne suit pas P(3; 5)"
i
(3; 5)
Sous H0 , pi = p (X = i) = e 3;5 , on a donc le tableau de valeurs suivant
i!
N pi ni X (ni N pi )2
xi ni pi N pi
corrigee corrigee N pi
i
0 6 0; 0302 6; 04 6; 04 6 0; 00026
1 15 0; 1057 21; 14 21; 14 15 1; 78333
2 40 0; 1850 37 37 40 0; 24324
3 42 0; 2158 43:16 43:16 42 0; 03118
4 37 0:1888 37; 76 37; 76 37 0; 01530
5 30 0; 1322 26; 44 26; 44 30 0; 47933
6 10 0; 0771 15; 42 15; 42 10 1; 90508
7 12 0; 0385 7; 7 7; 7 12 2; 40130
8 8 0; 0169 3; 38 5; 34 8 1; 32502
9 0 0; 0098 1; 96
Total 200 1 200 200 200 8; 18404
8 1. LES TESTS NON PARAM ÉTRIQUES
On a e¤ ectué le regroupement des deux dernières classes car l’e¤ ectif théorique
y est inférieur à 5: Après ce regroupement, le nombre de classes est de 9. Le nombre
de degrés de liberté est 9 1 1 = 7. Au risque = 0; 01, 27;0:99 = 18; 48 donc
2 2
cal = 8; 18404 < 7;0:99 On ne rejette pas l’hypothèse H0 et X P ( = 3; 5) au
risque = 0; 01:
Exemple 6 (loi binomiale). Supposons qu’on ait recueilli 300 bô¬tes contenant
chacune trois ampoules. Dans chaque bô¬te, on compte le nombre d’ampoules défec-
tueuses. On obtient les résultats suivants
Nombred’ampoules Nombre de bô¬tes
défectueuses xi observées ni
0 190
1 95
2 10
3 5
Total 300
Pour chaque ampoule testée, on peut observer deux états di¤ érents : l’ampoule
est défectueuse ou non. Le nombre X d’ampoules défectueuses par bô¬te suit une loi
binomiale de paramètres n = 3 et p. Déterminons p. Dans la distribution observée,
le nombre d’ampoules défectueuses est de 0 190 + 1 95 + 2 10 + 3 5 = 130 soit
130 ampoules défectueuses sur un total de 900 ampoules. La proportion d’ampoules
130
défectueuses est alors de w 0; 144
900
Prenons p = 0; 15
Problème : Tester l’hypothèse (au risque = 0; 01) selon laquelle le nombre
d’ampoules défectueuses par bô¬te suit une loi binomiale de paramètres n = 3 et
p = 0; 15:
On considère donc les hypothèses suivantes :
– H0 : X "B (3; 0:15)"
– H1 : X ne suit pas cette loi binomiale"
et on détermine ensuite les probabilités théoriques (X B) :
p0 = P fX = 0g = (0; 85) w 0; 6141
3
X (ni 2
N pi )
xi ni N pi
i
N pi
0 190 184; 23 0; 18071
1 95 97; 53 0; 06563
2 ou 3 15 18; 24 0; 57553
Total 300 300 0; 82187
2. Test de normalité
Les tests précédents sont des tests généraux s’appliquant sur n’importe quelle
loi. Lorsque la loi à tester est la loi normale, on parle de test de normalité.
On cherche à se déterminer entre :
H0 : les données suivent une loi normale.
H1 : les données ne suivent pas une loi normale
x x
y = : (on note la fonction de répartition de la loi normale centrée
réduite)
Pour chaque valeur xi de la variable X, on peut calculer P (X < xi ) puis en
déduire, à l’aide d’une table de la fonction , yi tel que (yi ) = P (X < xi ).
Si la variable est gaussienne, les points de coordonnées (xi ; yi ) sont alignés sur
x x
la droite d’équation y =
Exemple 7. Lors d’un examen noté sur 20, on obtient les résultats suivants :
– 10% des candidats ont obtenu moins de 4
– 30% des candidats ont obtenu moins de 8
– 60% des candidats ont obtenu moins de 12
– 80% des candidats ont obtenu moins de 16
On cherche à déterminer si la distribution des notes est gaussienne, et, si oui,
ce que valent son espérance et son écart type.
On connaît donc 4 valeurs xi , et, pour ces 4 valeurs, on connaît P (X < xi ).
10 1. LES TESTS NON PARAM ÉTRIQUES
Les points paraissent alignés. La droite coupe l’axe des abscisses au point d’abs-
cisse 11 et le coe¢ cient directeur est 0:18 environ, ce qui donnerait un écart type
1
de = 5; 6: Cela laisse penser que la distribution est gaussienne de paramètres
0; 18
= 11 et = 5; 6:
12 1. LES TESTS NON PARAM ÉTRIQUES
laquelle sous H0 est distribuée selon la loi du khi-deux 2(k 1)(l 1)[Link]l : noté 2
table pour le risque dérreur choisi.
– Décision et conclusion du test statistique :
L’hypothèse nulle H0 d’indépendance est rejetée, au niveau , si 2calcule
2
table (le test statistique est toujours unilatéral).
4. Test de Kolmogorov-Smirnov
Le principe est simple. On mesure l’écart maximum qui existe soit entre une
fonction de répartition empirique (donc des fréquences cumulées) et une fonction
de répartition théorique, soit entre deux fonctions de répartition empiriques.
Dans le premier cas, soit une fonction de répartition empirique Fn et la fonction
de répartition d’une loi de probabilité théorique F .
Dn = sup jFn (x) F (x)j
x2R
Précisons que le test de K-S est indépendant de cette loi théorique : on peut
comparer la répartition empirique aussi bien à une loi normale qu’à une loi de
Poisson ou autre.
Etant donnés :
(1) Un échantillon de taille n d’observations d’une variable,
(2) Et une fonction de répartition de référence F (x), le test de Kolmogorov
teste l’hypothèse H0 selon laquelle l’échantillon a été prélevé dans une
population de fonction de répartition F (x).
Pour cela, il calcule sur l’échantillon une quantité D, appelée "statistique de
Kolmogorov", dont la distribution est connue lorsque H0 est vraie. La statistique
de Kolmogorov-Smirnov Dn est dé…nie par
Dn = sup jFn (x) F (x)j
x2R
où Fn (x) est la proportion des observations dont la valeur est inférieure ou égale à
x (fonction de répartition empirique).
Une valeur élevée de D (D = jFn (x) F (x)j ) est une indication que la distri-
bution de l’échantillon s’éloigne sensiblement de la distribution de référence F (x),
et qu’il est donc peu probable que H0 soit correcte. Plus précisément,
c X r 1
P sup jFn (x) F (x)j > ! (c) = 2 ( 1) exp 2r2 c2
x2R n !1
pour toute constante c > 0. Le terme (c) vaut 0; 05 pour c = 1; 36. Pour
c
n > 100, la valeur critique du test est approximativement de la forme p . Les
n
valeurs usuelles de c en fonction de sont :
0; 200 0; 10 0; 05 0; 02 0; 01
c 1; 073 1; 224 1; 358 1; 517 1; 628
c
Si Dn > p , on rejette H0 .
n
Exemple 9. Une nouvelle clientèle étrangère est attendue dans une station
balnéaire. A…n de mieux connaître leurs goûts, des brasseurs ont commandé une
étude de marché. En début de saison, on demande à vingt de ces nouveaux touristes
de donner leur préférence parmi cinq types de bières, de la moins amère (bière 1)
à la plus amère (bière 5). A l’aide d’un test de K-S, le chargé d’études décide de
4. TEST DE KOLM OGOROV-SM IRNOV 15
comparer les résultats avec une loi uniforme, c’est-à-dire une situation où chaque
bière aurait eu la préférence de quatre répondants.
Les résultats de l’enquête sont les suivants :
13251224122133245112
On se …xe un risque d’erreur de 5%. L’hypothèse H0 à tester est celle de l’égalité
avec une loi uniforme.
Résumons les écarts entre observations et répartition uniforme :