0% ont trouvé ce document utile (0 vote)
35 vues19 pages

Tests Non Paramétriques en Statistiques

Ce document présente les tests non paramétriques, utilisés en statistique pour évaluer des caractéristiques d'une population à partir d'un échantillon. Il aborde principalement le test du Khi-deux, qui permet de vérifier la concordance entre une distribution expérimentale et une distribution théorique. Des exemples pratiques illustrent l'application de ces tests dans divers contextes.

Transféré par

red oun
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
35 vues19 pages

Tests Non Paramétriques en Statistiques

Ce document présente les tests non paramétriques, utilisés en statistique pour évaluer des caractéristiques d'une population à partir d'un échantillon. Il aborde principalement le test du Khi-deux, qui permet de vérifier la concordance entre une distribution expérimentale et une distribution théorique. Des exemples pratiques illustrent l'application de ces tests dans divers contextes.

Transféré par

red oun
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Statistiques inférentielle 2

Table des matières

Chapitre 1. Les tests non paramétriques 1


1. Test d’ajustement de deux distributions : “test du khi-deux” 1
2. Test de normalité 9
3. Test de Khi-deux d’indépendance 12
4. Test de Kolmogorov-Smirnov 14

iii
CHAPITRE 1

Les tests non paramétriques

Ce cours a pour objectif la présentation des tests non paramétriques les plus
couramment utilisés. Il se situe dans le cadre de l’inférence statistique et des tests
d’hypothèse usuels : on cherche à apprécier des caractéristiques d’un population à
partir d’un échantillon issu de cette population.
Un test non-paramétrique présente quelques avantages :
1. Son application est relativement facile et rapide,
2. S’applique à des échantillons de petites tailles,
3. S’applique à des caractères qualitatifs, à des grandeurs de mesure, à des rangs
de classement, etc.
On distinguera principalement les deux familles suivantes :
a). Test du Khi-deux de Pearson :
(1) Test d’ajustement ou d’adéquation entre deux distributions.
(2) Test d’indépendance dans un tableau de contingence.
(3) Test d’homogénéité de plusieurs populations.
b) Tests appliqués aux rangs et aux signes
(1) Test de la somme des rangs (Wilcoxon et Mann-Withney)
(2) Test de signes
(3) Test de la somme des rangs des di¤érences positives (Wilcoxon)
(4) Test d’indépendance de rangs de Spearman

1. Test d’ajustement de deux distributions : “test du khi-deux”


Introduction
Le test de Pearson, appelé aussi le test du khi-deux est un outil statistique
qui permet de véri…er la concordance entre une distribution expérimentale et une
distribution théorique.
On cherche donc à d´eterminer si un modèle théorique est susceptible de repréé-
senter adéquatement le comportement probabiliste de la variable observée, compor-
tement fondé sur les fréquences des résultats obtenus sur l’´echantillon.
Comment procéder ?
Répartitions expérimentales
On répartit les observations suivant k classes (si le caractère est continu) ou
k valeurs (si le caractère est discret). On dispose alors des e¤ectifs des k classes :
O1 ; O2 ; :::; Ok . On a bien sûr la relation
k
X
Oi = N
i=1

1
2 1. LES TESTS NON PARAM ÉTRIQUES

où N est le nombre total d’observations e¤ectuées.


Répartitions théoriques
En admettant comme plausible une distribution théorique particulière, on peut
construire une répartition idéale des observations de l’´echantillon de taille N
en ayant recours aux probabilités tablées (ou calculées) du modèle théorique :
p1 ; p2 ; :::; pk . On obtient alors les e¤ectifs théoriques Ti en 2 érivant Ti = N pi :
On dispose automatiquement de la relation
k
X
Ti = N
i=1

Dé…nition de l’écart entre les deux distributions


Pour évaluer l’écart entre les e¤ectifs observés ni et les e¤ectifs théoriques Ti ,
on utilise la somme des écarts normalisés entre les deux distributions, à savoir
2 2 2
2 (O1 T1 ) (O2 T2 ) (Ok Tk )
= + + :::;
T1 T2 Tk
La statitistique 2 représente une sorte de “distance” globale entre les e¤ec-
tifs observées et les e¤ectifs attendus. plus la distribution étudiée di¤érer de la
distribution théorique.
Mais quel est le nombre de degrés de liberté de cette
variable du khi-deux ?
1. Si la distribution théorique est entièrement spéci…ée, c’est-‘a-dire si on cherche
à déterminer si la distribution observée suit une loi dont les paramètres sont connus
avant même de choisir l’échantillon, on a k 1 degrés de liberté (k carrés indépen-
dants moins une relation entre les variables).
2. S’il faut d’abord estimer r paramétres de la loi à partir des observations
de l’échantillon (par exemple on cherche si la distribution est normale mais on ne
connait d’avance ni sa moyenne ni son écart-type), il n’y a plus que k 1 r degrés
de liberté.
Dans le cas général, on dira que la loi du khi-deux suivie par l’écart entre les
deux distributions a k 1 r degrés de liberté lorsqu’on a estimé r paramétres de
la loi théorique à partir des observations de l’´echantillon (avec la possibilité pour
r de valoir 0).
Remarque 1. Le nombre d’observations par classes ne doit pas être faible, N pi
doit être supérieur à 5, 8i = 1; 2; :::; k: Dans le cas contraire, on regroupe deux ou
plusieurs classes adjacentes de façon à réaliser cette condition. On tient compte de
ce regroupement pour le nombre de degrés de liberté.
2
Le test d’ajustement de
Il nous faut maintenant décider, à l’aide de cet indicateur qu’est le 2 , si les
écarts entre les e¤ectifs théoriques et ceux qui résultent des observations sont signi-
…catifs d’une di¤érence de distribution ou si ils sont dus aux ‡uctuations d’échan-
tillonnage. Nous procéderons comme d’habitude en quatre étapes.
1ére étape : Formulation des hypothèses.
On va donc tester l’hypothèse H0 contre l’hypothèse H1 :
1. TEST D’AJUSTEM ENT DE DEUX DISTRIBUTIONS : “TEST DU KHI-DEUX” 3

H0 Les observations suivent la distribution théorique spéci…ée


H1 Les observations ne suivent la distribution théorique spéci…ée
2éme étape : Détermination de la fonction 2
On utilise la variable aléatoire
2 2 2
2 (O1 T1 ) (O2 T2 ) (Ok Tk )
= + + :::;
T1 T2 Tk
3éme étape : Détermination des valeurs critiques de 2 délimitant les
zones d’acceptation et de rejet.
On impose à la zone d’acceptation de H0 concernant la valeur du 2 d’être un
intervalle dont 0 est la borne inferieure (car un 2 est toujours positif).
Il nous faut donc déterminer dans la table la valeur maximale 2 ; de l’´ecart
entre les deux distributions imputable aux variations d’échantillonnage au seuil de
signi…cation , c’est-à dire véri…ant P 2 > 2 ; = . 2 ; représente donc la
valeur critique pour un test sur la concordance entre deux distributions et le test
sera toujours unilatéral à droite.
4éme étape : Calcul de la valeur de 2 prise dans l’échantillon et
conclusion du test.
On calcule la valeur 20 prise par 2 dans l’échantillon.
– Si la valeur 20 se trouve dans la zone de rejet, on dira que l’écart observé
entre les deux distributions est statistiquement signi…catif au seuil .
Cet écart est anormalement élevé et ne permet pas d’accepter H0 : On rejette
H0 .
– Si la valeur 20 se trouve dans la zone d’acceptation, on dira que l’écart-
réduit observé n’est pas signi…catif au seuil . Cet écart est imputable aux
‡uctuations d’échantillonnage. On accepte H0

Exemple 1. Un pisciculteur possède un bassin qui contient trois variétés de


truites : communes, saumonées et arc-en-ciel. Il voudrait savoir s’il peut considérer
que son bassin contient autant de truites de chaque variété. Pour cela, il e¤ ectue,
au hasard 399 prélèvements avec remise et obtient les résultats suivants :

Variétés saumonée commune arc-en-ciel


E¤ ectifs 145 118 136
4 1. LES TESTS NON PARAM ÉTRIQUES

Solution 1. On cherche à savoir s’il y a équirépartition des truites entre


chaque espèce c’est-à-dire on suppose de L0 est la loi uniforme, une probabilité de
399
1=3 pour chaque classe (soit Ci = = 133)
13
C’est-à dire on souhaite tester l’ajustement de cette loi à une loi connue uni-
forme
Variétés commune saumonée arc-en-ciel
E¤ ectifs Oi 145 118 136
E¤ ectifs Ti 133 133 133
On obtient
2 2 2
2 (O1 T1 ) (O2 T2 ) (O3 T3 )
calculee = + +
T1 T2 T3
(145 133)2 (118 133)2 (136 133)2
= + + 2:84
133 133 133
La valeur théorique lue dans la table du 2 ;v au risque de 5% avec = 3 1 0 =
2 degrés de liberté vaut 5:99.
On ne peut rejeter l’hypothèse que son bassin contient autant de truites de
chaque variété car 2calculee < 2 ;v

Exemple 2. On veut tester si un dé n’est pas truqué au risque = 0; 05. Pour


cela on lance le dé 60 fois et on obtient les résultats suivants

face 1 2 3 4 5 6
Oi 15 7 4 11 6 17
Ti 10 10 10 10 10 10

On a fait …gurer dans le tableau la valeur espérée Ti du nombre d’apparitions


de i dans l’l’hypothèse où le dé n’est pas truqué, ceci a…n de faciliter le calcul de la
2
cal qui est donc ici égale à

6
X 2
2 (Oi Ti ) (15 10)2 (7 10)2 (4 10)2
cal = = + +
i=1
Ti 10 10 10
(11 10)2 (6 10)2 (17 10)2
+ + +
10 10 10
= 13:6
1
Sous l’hypothèse H0 :"p1 = = p6 = ”, la variable aléatoire 2cal a donc pris la
6
valeur 13; 6. Or le seuil de rejet lu dans la table de la loi du 2 ;v est 20:05;5 = 11; 07.
La valeur observée dépassant cette valeur, on est amené à rejeter l’hypothèse H0
au risque = 0; 05. On notera qu’au risque = 0; 025, on rejette aussi H0 . Mais
au risque = 0; 01, on ne peut plus rejeter l’hypothèse H0 malgré la mauvaise
impression donnée par les résultats. Si on persiste à vouloir le risque 0; 01, il est
plus raisonnable de recommencer l’expérience avec un échantillon de taille beaucoup
plus grande.

Exemple 3 (loi uniforme). Une statistique relative aux résultats du concours


d’entrée à une grande école fait ressortir les répartitions des candidats et des admis
1. TEST D’AJUSTEM ENT DE DEUX DISTRIBUTIONS : “TEST DU KHI-DEUX” 5

selon la profession des parents.

Profession des candidats Nombre de candidats Nombre d’admis


Fonctionnaires et assimilés 2244 180
Commerce, industrie 988 89
Professions libérales 575 48
Propriétaires rentiers 423 37
Propri´ etaires agricoles 287 13
Artisans, petits commerçants 210 18
Banque, assurance 209 17
Total 4936 402

Tester l’hypothèse (risque = 0; 05) selon laquelle la profession des parents n’a
pas d’in‡uence sur l’accès à cette grande école.
Il s’agit du test d’ajustement d’une distribution théorique, on pose les hypothèses
H0 : "la profession des parents n’a pas d’in‡uence sur l’accès à cette grande
école", la proportion des admis est constante pour toutes les professions soit p =
402
4936 ' 0; 0814
H1 :" la profession des parents in‡ue sur l’accès à cette grande école"
Sous H0 , le nombre d’admis pour la i-ième profession est Ni p.

2
ni Ni p
i Ni ni e¤ ectif observé Ni p e¤ ectif théorique Ni p
2244 402
1 2244 180 4936 ' 182; 76 0:0416
988 402
2 988 89 4936 ' 80; 47 0; 9042
575 402
3 575 48 4936 ' 46; 830 0; 0293
423 402
4 423 37 4936 ' 34; 450 0; 1887
287 402
5 287 13 4936 ' 23; 374 4; 6050
210 402
6 210 18 4936 ' 17; 10 0; 0471
209 402
7 209 17 4936 ' 17; 02 '0
Total 4936 402 402 5; 8181
2
Le calculé vaut 5; 8181. Le nombre de degrés de liberté est 7 1 = 6. La
table fournit 26;0;95 = 12; 59 donc 2 calculé < 26;0;95 .
On ne rejette pas H0 , ce qui signi…e que la profession des parents n’a pas d’in-
‡uence sur l’accès à cette grande école.
6 1. LES TESTS NON PARAM ÉTRIQUES

Exemple 4 (loi normale). On suppose que le rendement X (quintaux par hec-


tares d’une parcelle de blé) suit une loi normale N (m; ). L’observation du rende-
ment de 1000 parcelles a donné les résultats suivants :

Rendement Nombre de parcelles


[0; 10[ 5
[10; 20[ 6
[20; 30[ 40
[30; 40[ 168
[40; 50[ 288
[50; 60[ 277
[60; 70[ 165
[70; 80[ 49
[80; 90[ 2
Total 1000

A…n de mettre en place un test d’ajustement, d´ eterminons dans un premier


temps la moyenne arithmétique et l’écarttype de la distribution observée :
1 X
E (X) = = ni xi = 49:76
N i
1 X 2
V (X) = 2 = ni x2i [E (X)] = 164:5424 donc ' 12; 827
N i
Problème : Tester l’hypothèse (risque = 0; 05) selon laquelle l’ajustement de
la distribution observée à une loi normale N (50; 13) est acceptable.
Les hypothèses du test du 2 sont les suivantes :
H0 : “X N (50; 13)”
H1 : “X ne suit pas N (50; 13)” On désigne par [a0 ; a1 [, [a1 ; a2 [ ; :::; [a8 ; a9 [
les classes et par x1 ; x2 ; :::; x9 les centres de ces classes. Sous H0 ; X N (50; 13)
X 50
et Z = N (0; 1), donc pi = p (X 2 [ai 1 ; ai [) = (zi) (zi 1 )
13
ai 50 ai 1 50
avec zi = et zi 1 = . L’e¤ ectif théorique de la iéme classe
13 13
X (ni N pi ) 2
2
est 1000pi et ; .On a le tableau suivant
i
N p i

N pi ni X (ni 2
N pi )
Classe ni zi (zi ) pi N pi
corrigée corrigée N pi
i
[0; 10[ 5 3:0769 0:0010 0:0009 0:9 10:4 11 0:0346
[10; 20[ 6 2:3077 0:0105 0:0095 9:5
[20; 30[ 40 1:5385 0:0620 0:0515 51:5 51:5 40 2:568
[30; 40[ 168 0:7692 0:2209 0:1589 158:9 158:9 168 0:5211
[40; 50[ 288 0 0:5 0:2791 279:1 279:1 288 0:283
[50; 60[ 277 0:7692 0:7791 0:2791 279:1 279:1 277 0:0158
[60; 70[ 165 1:5385 0:9380 0:1589 158:9 158:9 165 0:234
[70; 80[ 49 2:3077 0:9895 0:0515 51:5 51:5 49 0:1214
[80; 90[ 2 3:0769 0:9990 0:0095 9:5 9:5 2 5:9211
T otal 1000 1 1000 1000 1000 9:7
1. TEST D’AJUSTEM ENT DE DEUX DISTRIBUTIONS : “TEST DU KHI-DEUX” 7

On e¤ ectue le regroupement des deux premières classes car N pi < 5: Le 2


calculé vaut 9:7. Après le regroupement, il reste 8 classes, les deux paramétres de la
loi normale sont donnés, le nombre de degrés de liberté est = 8 1 = 7: A l’aide
de la table, on obtient ‘ 27;0;95 = 14:07. Ainsi, 2cal < 27;0;95 .
On ne rejette pas H0 , l’ajustement de la distribution observée à une loi normale
N (50; 13) est acceptable ne spéci…e pas complètement la loi qu’on considère.
Exemple 5 (loi de Poisson). Supposons qu’on s’intéresse au nombre de voi-
tures se présentant par minute à un poste de péage sur une autoroute. On peut se
demander si cette variable aléatoire peut être modélisée par une loi de Poisson
(P ( )). On souhaite donc tester l’hypothèse fondamentale H0 : "X P ( )" contre
l’hypothèse alternative H1 : "X ne suit pas P ( )". On ne précise pas la valeur du
paramètre . On peut toutefois l’estimer à partir des données disponibles mais dans
ce cas, r = 1. Le nombre de degrés sera alors = k r 1 = k 2.
On e¤ ectue 200 comptages au péage
xi 0 1 2 3 4 5 6 7 8 9 T otal
ni 6 15 40 42 37 30 10 12 8 0 200
ni xi 0 15 80 126 148 150 60 84 64 0 727
où xi et ni désignent respectivement le nombre de voitures par minute et l’e¤ ec-
tif correspondant lors de l’observation no i ( par exemple; x1 = 0 et n1 = 6) c’est-
‘a-dire que lors de 6 observations, il y a 0 voiture). La moyenne arithmétique de
cette distribution observée est
X
ni xi 727
X = = 3:635 ' 3:5
ni 200

Problème : Tester l’hypothèse (au risque = 0; 01) selon laquelle X suit une
loi de Poisson de paramètre 3; 5.
On pose
H0 : "X P(3; 5)"
H1 : "X ne suit pas P(3; 5)"
i
(3; 5)
Sous H0 , pi = p (X = i) = e 3;5 , on a donc le tableau de valeurs suivant
i!
N pi ni X (ni N pi )2
xi ni pi N pi
corrigee corrigee N pi
i
0 6 0; 0302 6; 04 6; 04 6 0; 00026
1 15 0; 1057 21; 14 21; 14 15 1; 78333
2 40 0; 1850 37 37 40 0; 24324
3 42 0; 2158 43:16 43:16 42 0; 03118
4 37 0:1888 37; 76 37; 76 37 0; 01530
5 30 0; 1322 26; 44 26; 44 30 0; 47933
6 10 0; 0771 15; 42 15; 42 10 1; 90508
7 12 0; 0385 7; 7 7; 7 12 2; 40130
8 8 0; 0169 3; 38 5; 34 8 1; 32502
9 0 0; 0098 1; 96
Total 200 1 200 200 200 8; 18404
8 1. LES TESTS NON PARAM ÉTRIQUES

On a e¤ ectué le regroupement des deux dernières classes car l’e¤ ectif théorique
y est inférieur à 5: Après ce regroupement, le nombre de classes est de 9. Le nombre
de degrés de liberté est 9 1 1 = 7. Au risque = 0; 01, 27;0:99 = 18; 48 donc
2 2
cal = 8; 18404 < 7;0:99 On ne rejette pas l’hypothèse H0 et X P ( = 3; 5) au
risque = 0; 01:

Exemple 6 (loi binomiale). Supposons qu’on ait recueilli 300 bô¬tes contenant
chacune trois ampoules. Dans chaque bô¬te, on compte le nombre d’ampoules défec-
tueuses. On obtient les résultats suivants
Nombred’ampoules Nombre de bô¬tes
défectueuses xi observées ni
0 190
1 95
2 10
3 5
Total 300

Pour chaque ampoule testée, on peut observer deux états di¤ érents : l’ampoule
est défectueuse ou non. Le nombre X d’ampoules défectueuses par bô¬te suit une loi
binomiale de paramètres n = 3 et p. Déterminons p. Dans la distribution observée,
le nombre d’ampoules défectueuses est de 0 190 + 1 95 + 2 10 + 3 5 = 130 soit
130 ampoules défectueuses sur un total de 900 ampoules. La proportion d’ampoules
130
défectueuses est alors de w 0; 144
900
Prenons p = 0; 15
Problème : Tester l’hypothèse (au risque = 0; 01) selon laquelle le nombre
d’ampoules défectueuses par bô¬te suit une loi binomiale de paramètres n = 3 et
p = 0; 15:
On considère donc les hypothèses suivantes :
– H0 : X "B (3; 0:15)"
– H1 : X ne suit pas cette loi binomiale"
et on détermine ensuite les probabilités théoriques (X B) :
p0 = P fX = 0g = (0; 85) w 0; 6141
3

p1 = P fX = 1g = C31 (0; 15) (0; 85) w 0; 3251


2

p2 = P fX = 2g = C32 (0; 15) (0; 85) w 0; 0574


2

p3 = P fX = 3g = C33 (0; 15) w 0; 0034


3

On a le tableau (provisoire) suivant :

x e¤ ectif observé ni pi e¤ ectif théorique


0 190 0; 6141 184; 23
1 95 0; 3251 97; 53
2 10 0; 0574 17; 22
3 5 0; 0034 1; 02
T 300 1 300

L’e¤ ectif théorique de la quatrième classe est faible, en e¤ et 1; 02 < 5: On


e¤ ectue un regroupement de classes, les classes 2 et 3.
2. TEST DE NORM ALITÉ 9

X (ni 2
N pi )
xi ni N pi
i
N pi
0 190 184; 23 0; 18071
1 95 97; 53 0; 06563
2 ou 3 15 18; 24 0; 57553
Total 300 300 0; 82187

Après le regroupement, le nombre de classes est 3, le nombre de degrés de libertè


est 3 1 = 2. Au risque = 0; 01, 22;0:99 = 9; 21: Donc 2calc = 0; 82187 < 22;0:99 .
On ne rejette pas H0 au pro…t de H1 . On considère que le nombre d’ampoules
défectueuses par bô¬te suit une loi binomiale de paramètre n = 3, p = 0; 15 au
risque = 0; 01

2. Test de normalité
Les tests précédents sont des tests généraux s’appliquant sur n’importe quelle
loi. Lorsque la loi à tester est la loi normale, on parle de test de normalité.
On cherche à se déterminer entre :
H0 : les données suivent une loi normale.
H1 : les données ne suivent pas une loi normale

2.1. Méthodes graphiques : Droite de Henry. La droite de Henry est


une méthode pour visualiser les chances qu’a une distribution d’être gaussienne.
Elle permet de lire rapidement la moyenne et l’écart type d’une telle distribution.
Principe : On représente les quantiles théoriques en fonction des quantiles
observés (Diagramme Q-Q).
Si X est une variable gaussienne de moyenne x et de variance 2 et si Z est une
variable de loi normale centrée réduite, on a les égalités suivantes :
X x xi x
P (X < xi ) = P < = P (Z < yi ) = (yi )

x x
y = : (on note la fonction de répartition de la loi normale centrée
réduite)
Pour chaque valeur xi de la variable X, on peut calculer P (X < xi ) puis en
déduire, à l’aide d’une table de la fonction , yi tel que (yi ) = P (X < xi ).
Si la variable est gaussienne, les points de coordonnées (xi ; yi ) sont alignés sur
x x
la droite d’équation y =

Exemple 7. Lors d’un examen noté sur 20, on obtient les résultats suivants :
– 10% des candidats ont obtenu moins de 4
– 30% des candidats ont obtenu moins de 8
– 60% des candidats ont obtenu moins de 12
– 80% des candidats ont obtenu moins de 16
On cherche à déterminer si la distribution des notes est gaussienne, et, si oui,
ce que valent son espérance et son écart type.
On connaît donc 4 valeurs xi , et, pour ces 4 valeurs, on connaît P (X < xi ).
10 1. LES TESTS NON PARAM ÉTRIQUES

En utilisant la table “Table de la fonction de répartition de la loi normale


centrée réduite”, on détermine les yi correspondants :
xi P (X < xi ) = (yi ) yi
4 0; 10 1; 282
8 0; 30 0; 524
12 0; 60 0; 253
16 0; 80 0; 842
2. TEST DE NORM ALITÉ 11

Fig. 1. Droite de Henry

Les points paraissent alignés. La droite coupe l’axe des abscisses au point d’abs-
cisse 11 et le coe¢ cient directeur est 0:18 environ, ce qui donnerait un écart type
1
de = 5; 6: Cela laisse penser que la distribution est gaussienne de paramètres
0; 18
= 11 et = 5; 6:
12 1. LES TESTS NON PARAM ÉTRIQUES

3. Test de Khi-deux d’indépendance


Le test de khi-deux est fréquemment utilisè pour tester si deux caractères,
qualitatifs ou quantitatifs (répartis en classes), observès dans une population sont
indépendants ou si, au contraire, ils sont dépendants : présentent un certain degré
d’association (liaison).
Définition 1 (Dé…nition du test d’indépendance). Le test d’indépendance est
utilisé pour tester l’hypothèse nulle d’absence de relation entre deux variables qua-
litatives. On peut également dire que ce test véri…e l’hypothèse d’indépendance de
ces variables. Si deux variables dépendent l’une de l’autre, la variation de l’une
in‡uence la variation de l’autre.
3.1. Principe général du test :
(1) Un échantillon aléatoire de taille n est prélevé d’une population et est
observé selon deux caractères X à p modalités et Y à q modalités.
(2) La répartition des n observations suivant les modalitès croisées des deux
caractères se présente sous la forme d’un tableau à double entrée appelé
tableau de contingence.
(3) Il s’agit par la suite de tester, à l’aide du khi-deux de Pearson, si les deux
caractères sont indépendants ou non.
Tableau de contingence. Tableau des e¤ectifs observès :
y1 :::: yj ::: yl Total ligne
P
x1 n11 n1j :::: n1l n1 : = j n1j
: : : : : :
: : : : : :
: : : : : :
xi ni1 ...... nij :::: nil :
: : : : : :
: : : : : :
: : : : : :
xk nk1 nkj :::: nkl : P P
P
Total colonne n:1 = i ni1 ...... n:j ...... n:l n = n:: = i j nij
– Les hypothèses statistiques peuvent s’énoncer ainsi :
H0 les caractères : X et Y sont indépendants
H1 les caractères : X et Y sont dépendants
– Sous l’hypothése nulle H0 : indépendance des deux caractères, on a,
nij
pij = pi :p:j : 8(i = 1; :::; k et j = 1; :::; l) (probabilités conjointes pij =
n
– l’estimation des e¤ectifs théoriques s’obtient en répartissant la taille de l’échan-
tillon n dans les proportions obtenues selon les estimations des probabilités
conjointes (indépendance en probabilité)
n
^
(indépendance en probabilité) : fij = nni : n:ni = nij : d’ou n ^ ij = ni n:n:i
– Pour comparer les répartitions théorique et observèe, on calcule, sous l’hy-
pothèse nulle H0 la quantité :
k X
X l 2
2 (nij n
^ ij )
calcule = ;
i j
n
^ ij
3. TEST DE KHI-DEUX D’INDÉPENDANCE 13

laquelle sous H0 est distribuée selon la loi du khi-deux 2(k 1)(l 1)[Link]l : noté 2
table pour le risque dérreur choisi.
– Décision et conclusion du test statistique :
L’hypothèse nulle H0 d’indépendance est rejetée, au niveau , si 2calcule
2
table (le test statistique est toujours unilatéral).

Exemple 8. Test d’indépendance : taux de guérison et côut du médicament.


Pour comparer l’e¢ cacité de 2 médicaments comparables, mais de prix très
di¤ érents, la Sécurité sociale a e¤ ectué une enquête sur les guérisons obtenues avec
ces deux traitements. Les résultats sont présentés dans le tableau suivant :
Original Générique Total
Guérisons 156 44 200
Non-guérisons 44 6 50
Total 200 50 250
Au seuil de signi…cation = 5%, peut-on conclure que ces deux médicaments
ont la même e¢ cacité ?
(1) Hypothèses statistiques :
(2) Seuil de signi…cation :
(3) Conditions d’application du test :
(4) Degré de liberté :
(5) Statistique de test :
2
(6) Calcul de la statistique du calculé sous l’hypothèse nulle H0 :
(7) Règle de décision et conclusion
H0 indépendance
1. Hypothèses statistiques
H1 dépendance
2. Seuil de signi…cation : = 5%
3. Conditions d’application du test : Un échantillon aléatoire de taille n = 250
observé selon deux caractères qualitatifs à k = 2 et l = 2 modalités.
4. Degré de liberté : (k 1) (l 1) = [Link]l:
Pk Pl (n n^ )2
5. Statistique de test : 2calcule = i j ijn^ ij ij 2
[Link]l :
2
6. Calcul de la statistique du calcule sous l’hypothèse nulle H0 Indépendance

Original Générique Total


200 200 200 50
Guérisons 250 = 160 250 = 40 200
Non-guérisons 50250200 = 40 50 50
250 = 10 50
Total 200 50 250
ni :n:i
Tableau aux e¤ ectifs théoriques n ^ ij =
n
k l
X X (nij n 2
2 ^ ij )
calcule = = 2:5
i j
n^ ij
7. Décision et conclusion : fractile de la loi du 21 (cf. table) : 21; =5% =
3; 84. La valeur du 2 calculé appartient à la zone de non-rejet de H0 . En e¤ et, 2
calculé = 2; 5 < 21; =5%
14 1. LES TESTS NON PARAM ÉTRIQUES

Il n’y a pas de dépendance signi…cative entre les deux caractères : le taux de


guérison et le c ôut du médicament sont indépendants. Au seuil de signi…cation
= 5%, on peut conclure que ces deux médicaments ont la même e¢ cacité

4. Test de Kolmogorov-Smirnov
Le principe est simple. On mesure l’écart maximum qui existe soit entre une
fonction de répartition empirique (donc des fréquences cumulées) et une fonction
de répartition théorique, soit entre deux fonctions de répartition empiriques.
Dans le premier cas, soit une fonction de répartition empirique Fn et la fonction
de répartition d’une loi de probabilité théorique F .
Dn = sup jFn (x) F (x)j
x2R

Précisons que le test de K-S est indépendant de cette loi théorique : on peut
comparer la répartition empirique aussi bien à une loi normale qu’à une loi de
Poisson ou autre.
Etant donnés :
(1) Un échantillon de taille n d’observations d’une variable,
(2) Et une fonction de répartition de référence F (x), le test de Kolmogorov
teste l’hypothèse H0 selon laquelle l’échantillon a été prélevé dans une
population de fonction de répartition F (x).
Pour cela, il calcule sur l’échantillon une quantité D, appelée "statistique de
Kolmogorov", dont la distribution est connue lorsque H0 est vraie. La statistique
de Kolmogorov-Smirnov Dn est dé…nie par
Dn = sup jFn (x) F (x)j
x2R

où Fn (x) est la proportion des observations dont la valeur est inférieure ou égale à
x (fonction de répartition empirique).
Une valeur élevée de D (D = jFn (x) F (x)j ) est une indication que la distri-
bution de l’échantillon s’éloigne sensiblement de la distribution de référence F (x),
et qu’il est donc peu probable que H0 soit correcte. Plus précisément,
c X r 1
P sup jFn (x) F (x)j > ! (c) = 2 ( 1) exp 2r2 c2
x2R n !1

pour toute constante c > 0. Le terme (c) vaut 0; 05 pour c = 1; 36. Pour
c
n > 100, la valeur critique du test est approximativement de la forme p . Les
n
valeurs usuelles de c en fonction de sont :
0; 200 0; 10 0; 05 0; 02 0; 01
c 1; 073 1; 224 1; 358 1; 517 1; 628
c
Si Dn > p , on rejette H0 .
n
Exemple 9. Une nouvelle clientèle étrangère est attendue dans une station
balnéaire. A…n de mieux connaître leurs goûts, des brasseurs ont commandé une
étude de marché. En début de saison, on demande à vingt de ces nouveaux touristes
de donner leur préférence parmi cinq types de bières, de la moins amère (bière 1)
à la plus amère (bière 5). A l’aide d’un test de K-S, le chargé d’études décide de
4. TEST DE KOLM OGOROV-SM IRNOV 15

comparer les résultats avec une loi uniforme, c’est-à-dire une situation où chaque
bière aurait eu la préférence de quatre répondants.
Les résultats de l’enquête sont les suivants :
13251224122133245112
On se …xe un risque d’erreur de 5%. L’hypothèse H0 à tester est celle de l’égalité
avec une loi uniforme.
Résumons les écarts entre observations et répartition uniforme :

Classe E¤ ectifs Uniforme Cumul réel Cumul théorique D


1 6 4 0; 30 0; 20 0; 10
2 7 4 0; 65 0; 40 0; 25
3 3 4 0; 80 0; 60 0; 20
4 2 4 0; 90 0; 80 0; 10
5 2 4 1; 00 1; 00 0; 00

La distance la plus élevée s’établit à D = 0; 25:


c
On calcule pour n = 20 et = 5% la valeur de p = 0; 303. Bien que
20
ces touristes semblent préférer les bières les moins amères, on ne peut pas rejeter
l’hypothèse selon laquelle ils n’ont pas de préférence particulière.

Vous aimerez peut-être aussi