Application des Tests non paramétriques
3. Test de Kolmogorov Smirnov
-Homogénéité: comparaison de deux échantillons
Test
-Adéquation d’une distribution à une fonction de répartition :
uniformité , normalité
Procédure du test d’adéquation
1) Formuler l’hypothèse
H0 : la distribution de la variable de la série est uniforme
H1: la distribution de la variable de la série n’est pas uniforme
2) Supposer H0 vraie
3) Calculer la statistique D
1
Procédure du test d’adéquation
Calcul de la statistique D
a) Ranger la série en ordre croissant
b) Calculer D+ et D-
D+= Max ((i/N)-Vi), 1<= i <= N
D- = Max (Vi-((i-1)/N)), 1<= i <= N
c) Calculer D
D= Max (D+,D-)
i Vi i/N (i-1)/N D+ D-
1 0.05 0.2 0 0.15 0.05 D-= 0.21
D+=0.26
2 0.14 0.4 0.2 0.26 -0.06 D= 0.26
3 0.44 0.6 0.4 0.165 0.04
4 0.81 0.8 0.6 -0.01 0.21
5 0.93 1.0 0.8 0.01 0.13
4) Fixer le seuil de signification et déterminer D
5) Comparer Dcalculée et D et conclure
Dcalculée = 0.26 , à un seuil de 0.05 D 0.565
2
Conclusion: Dcalculée <Dseuil accepter H0: la répartition est uniforme
3
Procédure du test d’homogènieté
1) H0: la distribution des variables dans l’échantillon 1 est identique à celle de
l’échantillon 2
2) Supposons H0 est vraie
3) Calculer la statistique D
D = Max ( des différences entre les variables en proportions cumulées)
D= Max (Di)
4) Dc= 1.36/racine carré de (total Vi) pour seuil =0.05
5) Décider Dcalculée <Dc => accepter H0
Si Dcalculée > Dc rejet de H0 les variables de ech1 et ech2 sont distribuées
différemment
4
Exemple
Vi 1 Propo- Cumu- Vi2 Propo- Cumu- Différe
rtion lés rtion lés nce
20 0.161 0.161 4 0.032 0.032 0.129
30 0.241 0.403 27 0.217 0.25 0.153
13 0.104 0.508 28 0.225 0.475 0.032
20 0.161 0.669 18 0.145 0.620 0.048
40 0.330 1 47 0.379 1 0
124 124
D=Max 0.153
0.05 D 1.36 / N 0.122 L’effectif total de chaque proportion est
124 . On utilise cette formule pour
Dcritique pour N>50
D calculée > Dcritique les fréquences sont distribuées différemment H0 est
rejeté 5
Table de Kolmogorov- Smirnov
6
4. Test de khi deux
-Homogénéité: comparaison de deux échantillons
Test
-Adéquation d’une distribution à une fonction de
répartition : uniformité , normalité
Procédure du test homogénéité
indépendance des variables qualitatives
Tester s’il ya lien entre le sexe et les résultats scolaires
Soit le tableau suivant des résultats des étudiants
résultat filles garçons total
Très faibles 8 20 28
Plutôt faibles 14 45 59
Plutôt fort 32 31 63
Très fort 30 20 50
84 116 200
7
1) H0: les résultats scolaires et le sexe sont indépendants
H1: il ya un lien entre les résultat et le sexe
2) Vérification des conditions d’application
On a 200 total de l’effectif 84 filles 42% 116 garçons 58%
Calculons les effectifs théoriques à partir de ces pourcentages
Filles 42% Garçons 58% total
Très faible 11.5 16.24 28
Plutôt faible 24.88 34.22 59
Plutôt fort 26.46 36.54 63
Très fort 21 29 50
84 116 200
Fo : fréquence réelle observée
Ft: fréquence théorique la fréquence est trouvée si les résultats et le sexe sont indépendants
3) Calculons la statistique khi deux
fo1 ft1 (8 11.5) 2
( f o ft )2 Exemple pout i=1 1.202
2
18.80 ft1 11.5
i ft
8
Rq: il faut que tous les effectifs sont supérieur à 5 sinon grouper les valeurs dans
une même classe
4) Nombre de degré de liberté:
(nbre des lignes 1)(nbre des colonnes 1) 3*1 3
Déterminer la valeur de khi deux critique
Pour seuil de 5% ddl= 3 c 7.8147
2
2
cal 2
c
On rejette H0
Il ya un lien entre les résultats et
le sexe des étudiants
9
Procédure du test d’adéquation : de normalité
1) Formuler l’hypothèse H0 : La variable suit une loi normale
H1: la distribution de la variable n’est pas normale
2) On suppose que H0 est vraie : on compare alors avec une variable théorique qui
suit une loi normale
3) On calcule la statistique 2
calcul à partir d’un tableau contenant les valeurs
réelles et les valeurs théorique : explication dans l’exemple
4) On fixe un seuil de signification ex : 0.05 et extrait critique de la table
2
si cal table
2 2
5) On décide alors H0 est acceptée
Si 2 cal 2table alors H0 est rejetée
10
Exemple:
Une entreprise fabrique des rondelles , les diamètres (mm) sont donnés dans la colonne
1 et l’effectif est donné dans la colonne 2
H0: la variable suit une loi normale au risque signification de 5%
diamètre xi ni ni*xi ni * xi2
[15,25] 20 18 360 7200
[25,35] 30 42 1260 37800
[35,45] 40 74 2960 118400
[45,55] 50 50 2500 125000
[55,65] 60 16 960 57600
somme 200 8040 346000
La moyenne x
nixi 8040 40.2
N 200
nixi
2
La variance 34600
Vx x2 40.22 113
N 200
L’ écart type échantillon e Vx 113.2 10.675
N 200
L’ écart type estimé e N 1 10.675 199 10.7
La question est ce que la variable suit une loi normale N(40.2, 10.7)
11
Diamètre ni observé Ti théorique ni -Ti (no i Ti ) 2
Ti
[15,25] 18 15.54 2.456 0.3881
[25,35] 42 47.16 -5.16 0.564
[35,45] 74 71.92 2.08 0.0601
[45,55] 50 48.92 1.28 0.0336
[55,65] 16 16.656 -0.0656 0.02584
(noi Ti ) 2
somme 200 200 1.0722 2
cal
Ti
Comment calculer Ti ??? T1,T2,T3,T4,T5
P(X<25) probabilité que la variable diamètre soit inferieur à 25
T1= 200(P(X<25) ) proportion de l’effectif qui a le diamètre <25
T1=200*P((x-40.2)/10.7 – (25-40.2)/10.7)=
200 P (T 1.42) 200 (1.42) 200(1 (1.42)) 15.544
12
Diamètre ni observé Ti théorique ni -Ti (no i Ti ) 2
Ti
[15,25] 18 15.54 2.456 0.3881
[25,35] 42 47.16 -5.16 0.564
[35,45] 74 71.92 2.08 0.0601
[45,55] 50 48.92 1.28 0.0336
[55,65] 16 16.656 -0.0656 0.02584
(noi Ti ) 2
somme 200 200 1.0722 2
cal
Ti
Comment calculer Ti ??? T1,T2,T3,T4,T5
T2=200*P(25<=x<35) center la loi et déterminer à partir de table ou bien
déterminer à partir des fonctions de logiciel
T5=200-[T1+T2+T3+t4]=16.656
Rq: si l’effectif théorique est <5 il faut regrouper les effectifs dans une même classe
Déterminer la valeur qui deux seuil table au degré de liberté suivant:
nbre de classe 1 nbre des paramètres à estimer
Dans notre cas deux paramètres (2) à estimer : moyenne et écart type
13
(noi Ti )2 5 1 2 2
2 cal
Ti À partir de la table
c ( 2) 5.99
2
1.0722
2
cal c (table)
2
=> H0 est valide est accepté au seuil de signification 5%
14
Table de la loi de Khi-Deux
P( v2 v2, )
15
Table de la loi de Khi-Deux
Pour 30, La loi
du 2 peut
être approximée par
la loi normale ( , )
16