@ Bordas, Paris, 1988 ISBN 2-04-018650-6 Pour les Presses de
l'Université Laval ISBN 2-7637-7224-2
"Toute représentation ou reproduction, intégrale ou partielle, faite
sans le consentement de l'auteur, ou de ses ayants-droit, ou ayants-
cause, est illicite (loi du 11 mars 1957, alinéa 1 er de l'article 40).
Cette représentation ou reproduction, par quelque procédé que ce
soit, constituerait une contrefaçon sanctionnée par les articles 425 et
suivants du Code pénal. La loi du 11 mars 1957 n'autorise, aux
termes des alinéas 2 et 3 de l'article 41, que les copies ou
reproductions strictement réservées à l'usage privé du copiste et non
destinées à une utilisation collective d'une part, et, d'autre part, que
les analyses et les courtes citations dans un but d'exemple et
d'illustration."
Avant - Propos
Ce tome 2, sous-titré "exercices et compléments" fait suite au tome
1 qui porte le même titre et qui est sous-titré "exposé fondamental".
n en reprend le plan et ses différents chapitres portent le même titre
que ceux du tome 1, à l'exception du chapitre 1. En effet, ce dernier,
intitulé "Introduction" dans le tome 1, ne se prête pas à des
compléments et nous avons jugé intéressant de présenter en tête de
l'ouvrage des exercices de probabilité, en particulier les études
détaillées de quelques lois classiques. Nous avons souvent eu à
nous y référer dans la suite.
La plupart des exercices proposés, hormis, bien sûr, ceux du
chapitre 1, sont déjà répertoriés à la fin de chaque chapitre du tome
1. On les retrouve donc ici, avec le même numéro, mais souvent
avec un énoncé plus détaillé et plus complet. Nous leur avons ajouté
d'autres exercices et quelques exemples numériques.
Le lecteur rencontrera fréquemment des références pour lesquelles,
en général, le numéro du tome n'est pas précisé car il est sans
ambigüité. C'est ainsi qu'une référence à un théorème, à une
formule ou à une remarque est relative au tome 1, tandis qu'une
référence à un exercice se rapporte au tome 2. De plus, le numéro
du chapitre de référence n'est donné que s'il est différent de celui
dans lequel se trouve la référence en question. Ceci, bien sûr, dans
le but d'alléger la rédaction.
Une courte bibliographie figure à la fin de l'ouvrage. Elle ne
concerne que les textes signalés dans le cours de ce tome 2 et qui
ne figurent pas déjà dans la bibliographie du tome 1.
Les notations sont les mêmes que celles du tome 1. C'est ainsi que
nous avons conservé la notation "Log" pour le logarithme népérien
et la notation" -" pour la différence, en général propre, de deux
ensembles.
Enfin, trois pages de ce volume sont consacrées à des errata du
tome 1 que nous avons rencontrés ou qui nous ont été
obligeamment signalés par des lecteurs que nous tenons à
remercier ici. Souhaitons, sans trop y croire, que cette liste soit
exhaustive. .. Et, bien qu'aucun tome 3 ne
v
soit prévu pour signaler les errata, certainement nombreux, du
présent ouvrage, nous demandons à nos lecteurs attentifs de nous
en faire part lorsqu'ils en découvriront.
Qu'ils soient d'avance remerciés, ainsi que les Editions Dunod qui
ont accueilli nos deux ouvrages dans la collection "Dunod Décision",
sans oublier non plus les Presses de l'Université Laval.
Philippe Capéraà Université Laval, Québec
Alain Baille et Bernard Van Cutsem Université Joseph Fourier,
Grenoble
VI
Errata du tome 1
au lieu de
page 51 ligne + 8
F<sG
page 57 ligne -7
. .. = f(O) / g(O) = 1.
page 86 légende du tableau 10 Table 10. Valeurs du niveau de
t*max pour quelques lois usuelles
page 114 ligne + 14
1 'hypothèse "G"
page 144 ligne -2
T h(N) - Jlh(N) (9) lim P( ) = <I>(x), N
cr h (N/ 9 )
page 154 Table 6 première ligne troisième colonne
1t 2 /3
troisième ligne troisième colonne
page 177 ligne + 12
2 2 c (1 - c) -+ m-l n-l
2 sI m
c= 2 2 ' sI s2 -+- m n
vn
lire
F<r G
. .. = f(O) / g(O).
Table 10. Valeurs du niveau de confiance calculé avec t* max pour
quelques lois usuelles
l'hypothèse "Ho"
T - Jl (9) lim P( h(N) h(N)
x) = <I>(x), N
cr h (N)(9)
1t 2 /12
3/4
( 2 2 ) -1
+ (1 - c) m-l n-l
c=
2 sI m:I 2 2' sI s2 -+- m-l n-l
page 197 ligne -7
page 213 ligne
page 221 ligne -9
page 222 ligne +12
page 231ligne -9
page 232 ligne 4
page 280 ligne -4
page 282 ligne + 16
page 289 ligne -4
ERRATA DU TOME 1 : EXPOSE FONDAMENTAL
-V(W n +)
-VV(W n +)
(voir exercice V.l)
(voir exercice V.4)
1 R.j - (N + 1) / 2 1
1 R .j - (N + 1) / 2 1
12 N+l 2 KN = N(N+l) (W N - T)
12 n N+l 2 KN= m(N+l) (W N - T )
Po(Wij
c) = a.
P o (Wlj
c) = a.
le cas où nI = ... = nk = n,
le cas où n2 = ... = nk = n
2 't = (C 2 - D 2 ) 2,n n (n-l) (n-2) .
1 't 2 ,n = n (n-l) (n-2) (C 2 - D 2 ).
avec i et j
avec i < j
3) \:1 x e rR ,
3) \:1 Y e rR ,
page 352 et 353 légende de la table LI
la relation ai = a n + l-i
la relation ai = - an+ l-i
page 353 légende de la table LI
(à suivre)
(suite)
VIII
ERRATA DU TOME 1 : EXPOSE FONDAMENTAL
page 354 remplacer la table L2 par la table ci-dessous
.10 .05 .02 .0]
.10 .05 .02 .01 3 .789 .767 .756 .753 26 .933 .920 .904 .891 4 .792
.748 .707 .687 27 .935 .923 .906 .894 5 .806 .762 .715 .686 28 .936
.924 .908 .896 6 .826 .788 .743 .713 29 .937 .926 .910 .898 7 .838
.803 .760 .730 30 .939 .927 .912 .900 8 .85] .818 .778 .749 9 .859
.829 .791 .764 31 .940 .929 .914 .902 10 .869 .842 .806 .781 32
.941 .930 .915 .904 33 .942 .931 .917 .906 11 .876 .850 .8]7 .792 34
.943 .933 .919 .908 12 .883 .859 .828 .805 35 .944 .934 .920 .910
13 .889 .866 .837 .814 36 .945 .935 .922 .912 14 .895 .874 .846
.825 37 .946 .936 .924 .914 15 .901 .881 .855 .835 38 .947 .938
.925 .916 16 .906 .887 .863 .844 39 .948 .939 .927 .917 17 .910
.892 .869 .851 40 .949 .940 .928 .9]9 18 .914 .897 .874 .858 19 .917
.901 .879 .863 41 .950 .941 .929 .920 20 .920 .905 .884 .868 42
.951 .942 .930 .922 43 .951 .943 .932 .923 21 .923 .908 .888 .873
44 .952 .944 .933 .924 22 .926 .911 .892 .878 45 .953 .945 .934 .926
23 .928 .914 .895 .881 46 .953 .945 .935 .927 24 .930 .916 .898
.884 47 .954 .946 .936 .928 25 .931 .918 .901 .888 48 .954 .947
.937 .929 49 .955 .947 .937 .929 50 .955 .947 .938 .930
Table L2. a-quantiles de la statistique SW de Shapiro- Wilk
IX
METHODES ET MODELES
EN STATISTIQUE NON PARAMETRIQUE
Tome 2 : Exercices et compléments
Table des Matières
Avant - Propos
Errata du tome 1
V VII XI
Table des Matières
Chapitre 1. EXERCICES DE PROBABILITE
Exercices
1à
Chapitre II. STATISTIQUES D'ORDRE
Exercices 111.1 à 111.3 Exercices IV.l à IV. 3 Exercices V.l à V.6
27 38 52
Chapitre III. EXEMPLES D'UTILISATION DES STATISTIQUES
D'ORDRE
Exercice 1.1 69 Exercices ILl à IL2 70 Exercices 111.1 à 111.2 75
Exercices IV.l à IV.6 80 Exercice VI.I 100 Exercices VII. 1 à VII.4 100
Chapitre IV. PROBLEMES A DEUX ECHANTILLONS Exercice 1.1
113 Exercice 11.1 114 Exercice 111.1 116 Exercices IV.l à IV.3 117
Exercices V.l à V.2 123 Exercices VI. 1 à VI.5 129 Exercices VII. 1 à
VII.4 148 Exercices VIn.l à VIII. 5 156 Exercices IX.l à IX.2 169 XI
TABLE DES MA TIERES
Chapitre V. PROBLEMES A UN ECHANTILLON
Exercices 111.1 Exercices IV.l Exercices V.l Exercice VI.I
à III. 9 à IV. 4 à V.6
177 192 203 218
Chapitre VI. COMPARAISON DE k TRAITEMENTS Exercices ll.1 à
II.13 Exercices 111.1 à 111.7
223 255
Chapitre VII . TESTS D'INDEPENDANCE. MESURES
D'ASSOCIATION
Exercices ll.l Exercices 111.1 Exercices IV.l Exercices V.l
à 11.8 à 111.5 à IV.2 à V.7
279 309 322 329
Chapitre VIII. TESTS D'ADEQUATION
Exercices II. 1 à II. 8 Exercices 111.1 à III. 4
343 369
BIBLIOGRAPHIE
383
XII
Chapitre 1
EXERCICES DE PROBABILITES
Exercice 1. Soit X une variable aléatoire réelle de loi F et soit r (r >
0) tel que IE(IXI T) existe. Montrer que
\:1 a > 0,
+00 a' ( 1 - F(x»
J x' dF(x) a
et en déduire que
lim [x T ( 1 - F(x) ) ] = lim (lxl T F(x) ) = o.
x-+ + 00
x-+ - 00
Soit a> O. On a
+00 +00 J x' dF(x)
J a' dF(x) = a' ( 1 - F (a) ). a a
L'existence de lE (IXI T) signifie que
+00 f Ixl' dF(x) < +00,
- 00
d'où
+00 lim J x' dF(x) = O. a-+ + 00 a
Puisque l'on a (a > 0) +00 o
a' ( 1 - F(x»
J x' dF(x), a
on en déduit que
lim [a T ( 1 - F(a) ) ] = O.
a-+ + 00
1. EXERCICES DE PROBABILITES
On montrerait de même que
lim (laiT F(a) ) = 0
a-+ - 00
en remarquant que
\:1 a < 0,
a f Ixlr dF(x)
lal r F(a).
_ 00
Cette propriété sera utilisée principalement pour r = 1 et r = 2.
Remarque. Cette propriété n'admet pas de réciproque. En effet, on
peut déterminer une fonction de répartition F telle que
1 - F(x) rv
x-+ + 00
x T Log x
et l'on a alors
lim [x T ( 1 - F(x) ) ] = 0
x-+ + 00
sans que lE (IXI T) existe.
Exercice 2. Soient al,... , ak (k
2) des éléments distincts de rR. On considère un vecteur aléatoire X
de dimension k dont la loi est uniforme sur l'ensemble des
permutations de A = {a}, ... , ak}. Déterminer l'espérance
mathématique, la matrice des corrélations et celle des covariances
du vecteur X et appliquer le résultat au cas où A = {l, ... , k}.
Il est à peu près évident (on laisse au lecteur le soin d'expliciter une
démonstration) que chacune des composantes Xi (1
k) du vecteur X suit la loi uniforme sur l'ensemble A. On a donc 1 k
IE(X.) = - L a. 1 k j= 1 J
et
k21
2 IE(X) = - £.J a. , k j=l J
d'où
1 k 2 l ( k ) 2 V(X i ) = - L a. - - L a. . k j= 1 J k 2 j= 1 J
1. EXERCICES DE PROBAB
ITES
Soient i et i' deux éléments distincts de {l,..., k}. Laissons encore au
lecteur le soin de montrer de façon explicite que le vecteur aléatoire
(Xi, Xi') suit la loi uniforme sur l'ensemble 1 des couples d'éléments
distincts de A. On a donc
lE (X. X..) = 1 L a. a., 1 1 CardI J J (j,j') E 1
[( k ) 2 k ] 1 La j -La
, k (k - 1) j=l j=l
d'où
Cov(X., X..) = ( 1 - 2- J( i a ) 2 1 1 k(k-1) k 2 j=l J
1 k (k - 1)
kLa
. 1 J J=
=(k2(
_ 1) J (
ajJ
1 k (k - 1)
kLa
. 1 J J=
1 = - - V(X.). k _ 1 1
On en déduit
1 Corr ( X. X., ) = - - l' 1 ' k - 1
ce qui fait que la matrice des corrélations du vecteur X ne dépend
pas de l'ensemble A, mais seulement de k. Ses termes diagonaux
sont, bien sûr, égaux à 1 et les autres sont 1 égaux à --. k - 1 La
matrice des covariances du vecteur X est le produit de la matrice
des corrélations par le scalaire V(Xi).
Enfin, lorsque A = {1, ... , k}, on obtient
k1
k+1 lE (X) = - £.J j = - k j= 1 2
3
1. EXERCICES DE PROBABILITES
.2 ( k + 1 ) 2 V(X) = - £.J J - - k j=l 2
(k + 1) (2 k + 1) 6
- ( k;l J
k2-1
12
et
k+l Cov(X i , Xi') = - - . 12
Remarque. Le lecteur intéressé pourra déduire aisément des
résultats de cet exercice la démonstration des deux premières
propriétés énoncées dans le théorème R.III.3.1 0 puisque, d'une
part, avec les notations de ce théorème, chacune des sommes Snj
considérées est la somme de cj{n) composantes du vecteur X
considéré ci-dessus (à condition d'y remplacer k par n) et que,
d'autre part, aucune des composantes de X ne figure dans deux
sommes Sn,j relatives à des indices j distincts.
Exercice 3. On désigne par <p et <1> respectivement la densité et la
fonction de répartition de la loi eN (0, 1). Calculer les dérivées des
applications définies sur IR * par
X 1---7
<p(x)
et
(:-
3)
(x).
x
En déduire que
\:1 x > 0,
(:-
3)
(x) < 1 - <II(x) <
x)
et que
<p(x) '" x ( 1 - <I>(x) ).
x-+ + 00
En tenant compte du fait que <p'(X) = - X <p(x), on aboutit, après un
calcul simple, à
d ( <p(x» ) ( 1 ) dx
= - 1 + x 2 <p(x)
et
:x [( : ,-
3)
(x) ] = - ( 1 -
4)
(x).
I. EXERCICES DE PROBABILITES
Or, on a
\:1 x * 0,
3 1 1- 4<1<1+ 2 , x x
d'où, puisque <p(x) > 0,
\:1 x * 0,
(1-
4 ) q>( x) < q>( x) < (1 +
2 ) q>( x).
En intégrant les trois membres de cette inégalité sur l'intervalle [x,
+oo[ (x> 0), on obtient
-too [ ( 1 1 ) ] -too [ - <P( t t) ]x ' - -;--7 q>(t)
< [Il>(t)]x <
soit
\:1 x > 0,
( 1 1 ) <p(x) - - 3 <p(x) < 1 - <I>(x) < -. x x x
On en déduit que
<p( x)
"J
1 - <I>(x),
xX
+ 00
soit que
<p(x) "J X ( 1 - <I>(x) ).
+ 00
Remarque. On a, de même, en changeant x en (- x),
<p(x) "J - x <I>(x).
- 00
Exercice 4. Etude de la loi hypergéométrique Une urne contient N
boules dont NI sont blanches et N2 sont noires (N 1 + N2 = N). On
extrait n boules (1
N) de l'urne. Déterminer la loi de la variable aléatoire X égale au
nombre de boules blanches extraites et déterminer /' espérance
mathématique de X ainsi que sa variance. La loi de X s'appelle "loi
hypergéométrique" et on la notera
(n ; NI, N2).
Pour probabiliser l'expérience proposée, on suppose que les N
boules sont numérotées de 1 à N, les boules blanches étant
affectées des NI premiers numéros, et l'on considère comme
équiprobables toutes les parties à n éléments de l'ensemble
1. EXERCICES DE PROBABILITES
{ 1, ... , N}. Le nombre de ces parties qui correspondent à X = k (0
n) est alors égal à
1 c;:, ce nombre étant supposé nul si k > NI ou si n - k > N 2. D'où
\:Ike {O,...,n},
P(X = k) =
ck
-k NI N2 C n N
On remarque que
nL
C n - k - C n NI N 2 - NI +N2' k=O
égalité qui peut être établie directement par des considérations
combinatoires.
On a
n IE(X) = L k P(X = k) k=O
n = L k P(X = k) k=l
1n=-Lk
C n - k . rJ1 NI N2 \""N k = 1
Or
kC
l=N1C
-11_1 '
d'où
N n lE (X) = --.!. L
-l
-k rJ1 N1- 1 N2 \""N k= 1
_ NI r: C
j=o
C J C(n-l)-j N r l N 2
U = k - 1)
NNCn-11
-1 = 1 N - C n Nl+N2-1 N
n NI
On obtient, de même,
6
1. EXERCICES DE PROBABILITES
n lE ( X (X - 1) ) = L k (k - 1) P(X = k) k=O
n = L k (k - 1) P(X = k) k=2
1 n - - L k (k - 1) C k
-k C n k=2 NI N2 N
_ NI (NI - 1) i
,2 Cn,k - C n Nl-2 N2 N k=2
N 1 (N 1 - 1) _ 2 = n
-2 C N
n (n - 1) NI (NI - 1)
=
N (N - 1)
D'où, enfin, le calcul de la variance.
V(X) = IE(X2) - ( IE(X) )2 = IE( X (X - 1) ) + IE(X) - ( IE(X) )2
N ( N - 1)
2 2 n NI n NI +--- N N 2
n (n - 1) NI (NI - 1)
n NI 2 [ (n - 1) N (NI - 1) + N (N - 1) - n NI (N - 1)] N (N - 1)
=
n NI 2 [ (n - N) NI + (N - n) N ] N (N - 1)
n NI (N - n) (N - NI) = = N 2 (N - 1)
n NI N 2 (N - n) N 2 (N - 1)
On constate que cette variance est nulle lorsque NI ou N2 est nul ou
lorsque n = N, ce qui était prévisible puisque X suit alors une loi de
Dirac.
Remarque. On pourrait aussi supposer que les n boules sont
extraites une à une et considérer comme équiprobables les suites de
n éléments distincts de {1,..., N}. On peut alors écrire, comme pour
la loi binomiale dans le cas de tirages avec remise, que X est
1. EXERCICES DE PROBABILITES
la somme de n variables Xi de loi de Bernoulli. On peut encore
montrer que cette loi est NI :B ( 1, -), mais les variables Xi ne sont
pas indépendantes. On a encore, néanmoins, N
n NI IE(X) = n IE(X.) = - 1 N
et l'on peut également retrouver V (X).
Exercice 5. Etude de la loi multinomiale On effectue une suite de n
(n e lN.) épreuves indépendantes. Chaque épreuve possède r issues
possibles (r
2), soit a}, ... , ar, dont les probabilités respectives sont Pl, ... , Pro
On a PI + ... + PT = 1 et l'on suppose que les Pj sont tous non nuls.
Soit X = ( Xl, ... , Xr) le vecteur aléatoire dont chaque composante Xj
est égale au nombre de réalisations de l'issue aj correspondante. 1)
Déterminer la loi de X après avoir précisé le support Ar,n de cette loi
qui est défini par
Ar,n = (x e [Rr; P(X = x) > Q}.
La loi de X s'appelle "loi multinomiale" et on la notera
r(n; Pl, ... , Pr). 2) Définir n vecteurs aléatoires indépendants Xl de
même loi dont X soit la somme. Déterminer l'espérance
mathématique et la matrice des covariances de Xl et en déduire
celles de X.
1) Les composantes Xj de X ne peuvent prendre que des valeurs
entières naturelles et, d'autre part, on a
r L X j = n, j=l
d'où
Ar,n = {x e IN r ; Xl + ... + X r = n}.
Soit x e Ar,n. On doit déterminer la probabilité pour que X = x, c'est-
à-dire la probabilité de réaliser XI fois al,..., X r fois ar. Si l'ordre de
ces réalisations est imposé, la probabilité de l'événement
correspondant est égale à
XI X2 x r Pl P2 Pr .
On a donc
XI x2 x r P(X = X) = K(x 1 , ... , Xr) PI P2 ... Pr '
1. EXERCICES DE PROBABILITES
OÙ K(X1, ... , x r ) désigne le nombre de façons de ranger n objets
dont XI sont indiscernables, X2 autres également indiscernables,
etc. On a donc
XI X2 K(xl' ... , x r ) = C n C n - XI
<: X r -1 1 n - (xI + ... + x r -2)
n! " , ' xI' x 2 . ... xr'
d'où
\:1 x e Ar ,n '
x. r p. J I1 J P(X = X) = n! . Xl" . J=l f
2) On peut attacher à chacune des n épreuves un vecteur aléatoire
Xi = (X
, ... , X;)
dont la définition est analogue à celle de X, mais ne concerne que
l'épreuve 1. L'indépendance des n épreuves entraîne celle des Xl et
l'on a n X = LXi. i=l
Chacun des vecteurs aléatoires Xl suit la loi Mr(l ; pl, ... , Pr), c'est-à-
dire la loi dont le support est constitué par les vecteurs ej de la base
canonique de (R r et qui est définie par
\:Ije {l,...,r},
1 P(X = ej) = Pj .
(On rappelle que ej désigne l'élément de (Rr dont toutes les
composantes sont nulles, sauf la jème qui est égale à 1). On a alors
r IE(X i ) =
Pj e j = (Pl' ... , Pr) J=1
et
r
IE( Xi (Xi)' ) = L p. (e. e. ' ) = L p. M. , . 1 J JJ . 1 J J J= J=
où M j désigne la matrice carrée d'ordre r dont tous les éléments
sont nuls sauf celui de la jème ligne et de la jème colonne qui est
égal à 1.
1. EXERCICES DE PROBABILITES
On en déduit que le terme général Àjk de la matrice des covariances
de Xl est défini
par
! p. (1 - p.) J J Àjk = - Pj Pk
si k = j ,
si k * j .
On obtient, enfin,
lE (X) = n IE(X I ) = n (PI, ... , Pr)
et pour matrice des covariances de X la matrice carrée d'ordre r de
terme général n Àjk'
Remarque. La loi multinomiale généralise, bien sûr, la loi binomiale.
On peut montrer aisément que l'on a
Mr(m; Pl, ... , Pr) * cMr(n ; Pl, ... , Pr) = Mr(m + n ; PI, ... , Pr).
Exercice 6. Etude de la loi logistique 1) Vérifier que la fonction F
définie par
F(x) = 1 + e- x
1
xe
eX + 1
est la fonction de répartition d'une loi de probabilité sur IR
symétrique dont on écrira la densité f. Soit X une variable aléatoire
réelle de loi F et soit (Jl, a) un élément de IR x IR +*. Déterminer la
densité fJl,o de la variable aléatoire réelle Y = Jl+ a X. On appelle
"loi logistique de paramètres Jl et a" et l'on note
(Jl, a) la loi de densité fJl,o' 2) On se propose de calculer les
moments d'ordre pair de la loi F, c'est-à-dire de la loi
(O, 1). Pour cela, on effectue un développement de lafonction f en
série entière de e- X et l'on montre, grâce à l'échange d'un signe
d'intégration et d'un signe de sommation que l'on pourra justifier, que
l'on a
\:Ike rN*,
22k-1 _ 1 . E(X 2k ) = 2 2k - 2 (2k)! S2k'
où l' on a posé
\:1 p e rN* - {l},
+00 Sp = L
. n=l n P
la
1. EXERCICES DE PROBABILITES
En particulier, déterminer la variance de la loi :;fl (0, 1), puis celle de
la loi 1t 2 :;fl (Jl, a). On rappelle que S2 = 6'
1) On vérifie immédiatement que F est une fonction définie sur rR,
continue, strictement croissante, que
lim F(x) = 0
et
lim F(x) = 1, x
+oo
x
-oo
et que
\:Ixe rR, F(x) + F( -x) = 1.
On a
-x x e e f(x) = 2 = 2 . (1 + e- x) ( eX + 1)
Enfin
x-Jl
x-Jl
0' 0' 1 x-Jl 1 e 1 e f (x) = - f( - ) = - - Jl,O' a a a ( _ x: ) 2 - a ( x: ) 2 .
l+e e +1
2) Remarquons d'abord que tous les moments d'ordre entier positif
de la loi F (=
(0, 1» existent et que ceux d'ordre impair sont nuls, puisque cette loi
est symétrique par rapport à l'origine. Soit k un entier strictement
positif. On a
E(X 2k ) = 2 f x2k f(x) dx = 2 [- x2k e' x 2 dx. rR 0 (l+e- x )
On sait que
\:lue ]-1,1[,
-toc -toc 1 = *-<_l) =
(L (_I)n+1u n ) = L (_1)n+1 n un-l, (1 +u)2 du 1 +u du n=l n=l
d'où
\:1 x > 0,
-x -toc e = L (_ 1 )n+ 1 n e - nx. (1 + e- x)2 n=1
11
1. EXERCICES DE PROBABILITES
On a donc
-too E(X 2k ) = 2 f ( l (_l)n+l n x2k e,nx ) dx, o n=l
soit, si l'échange des signes J et L est justifié,
E(X 2k ) = 2
(_l)n+l n [f +oo x2k e,nx dX ] n-l 0
= 2 l (_l)n+l n [
f +OOt 2k e-t dt ] 1 2k+l n= n 0
[ -too 1 n+l ] = 2 L (- ) (2k)! n=l n 2k
D'autre part, on a
-toc 1 -toc -too L (-1 )n+ L 1 L 1 ( 2 ) 22k -1_ 1 n=1 n 2k = n=1 n 2k -
2n=1 (2n)2k = 1- 2 2k S2k = 22k-l S2k,
d'où
22k-1_ 1 lE (X 2k ) = 22k-2 (2k)! S2k.
Quant à l'échange des signes J et L, il est justifié par le théorème de
Lebesgue dit "de la convergence dominée", puisque
x2k e- X \:1 x > 0, 'r;j N e tN, £..J (-1 )n+ 1 n x2k e- nx
£..J n x2k e- nx = n = 1 n = 1 (1-e- x )2
et que
f +oo x2k e- x 2 dx < + 00, o (1 - e -x)
comme on le vérifiera aisément en remarquant que
12
1. EXERCICES DE PROBABILITES
X2k e- x
rv x 2k - 2 .
(1-e- x )2 x
o+
Enfin, lorsque k = 1, on a
2 V(X) = IE(X2) = 2 S2 =
2 2 On en déduit que la variance de la loi :;fl 0.1, a) est égale à a 3
1C .
Exercice 7. Etude de la loi double exponentielle 1) Vérifier que la
fonction f définie par
1 f(x) = - e- 1 xl 2
est la densité d'une loi de probabilité dont on calculera la fonction de
répartition F. Soit X une variable aléatoire réelle de loi F et soit (Jl, a)
un élément de rR x rR +*. Déterminer la densité fJl,cr de la variable
aléatoire réelle Y = Jl + a X. On appelle "loi double exponentielle de
paramètres Jl et a" et l'on note S) e(Jl, a) la loi de densité fJl,cr' Si X
est une variable aléatoire réelle de loi me(Jl, a), quelle est la loi de 1
XI? En déduire les moments d'ordre pair de la loi me(O, a) et la
variance de la loi S)e(Jl, a). 2) Soit XI'"'' X n un échantillon d'une loi
m e(Jl, a). Déterminer les estimateurs du maximum de
vraisemblance de a lorsque Jl est connu et de Jl lorsque a est
connu. Sont-ils sans biais? Déterminer l' estimateur du maximum de
vraisemblance du paramètre (Jl, a). (Il est conseillé de n'aborder
cette question qu'après l'étude du chapitre II du tome 1).
1) On vérifie immédiatement que la fontion f est définie sur rR,
strictement positive et que l'on a
f f(x) dx = Jt oo e- x dx = 1. rR 0
On remarque également que f est paire, donc que la loi
correspondante est symétrique par rapport à l'origine.
13
1. EXERCICES DE PROBABILITES
On a
x F(x) = f [(t) dt =
1 x -e 2
si x
0,
-00
1 x 1 - - e- 2
si x
o.
D'autre part,
1 f x-Jl ) 1 _ IX-I.tI fj.1,a(x) = cr f\ --cr = 2a e a.
Enfin, si X suit la loi me(O, a) et si Y = 1 X 1, on a
1 fy(Y) = ( fx(Y) + f x ( -y) ) 1l 1R +(y) = 2 fx(Y) 1l 1R +(y) = - e a 1l
1R + a
ce qui montre que 1 X 1 suit la loi 'E(a). On en déduit que
\:1 k e rN*, IE(X 2k ) = IE( IXe k ) = (2k)! a 2k ,
les moments d'ordre impair de X étant, bien sûr, nuls. En particulier,
on a
V(X) = IE(X 2 ) = 2 a 2
et cette valeur est également celle de la variance de la loi me(Jl, a).
2) La fonction de vraisemblance L s'écrit
1 n n - - L IXi - j.11 Il 1 ai=1 L(Jl, a ; xl' ... , x n ) = f (x) = - e . 1 j.1,a n
1= (2 a)
et son logarithme népérien
est défini par
1n
(Jl, a ; XI, . . . , x n ) = - n Log 2 - n Log a - - L 1 Xi - JlI. a i =1
14
1. EXERCICES DE PROBABILITES
Lorsque Jl est connu, on écrit que
a 1 n - :;fl (Jl, a ; x}, ... , x n ) = - -TI... + - L 1 Xi - JlI = 0 aa a a 2 i=l
et l'on en déduit que l' estimateur cr du maximum de vraisemblance
de a est défini par
n a = À L 1 Xi - JlI. i=l
n est sans biais puisque 1 Xi - JlI suit la loi 'I(a) et vérifie donc
lE (1 Xi - JlI) = a.
Lorsque a est connu, nous devons chercher le minimum de la
fonction <p définie
par
Jl) = L 1 Xi - JlI i=l
que l'on écrit plutôt sous la forme
Jl) = L 1 X(i) - JlI, i=1
où x(i) désigne la réalisation de la statistique d'ordre X(i) (voir II.1
chap. II). Il apparaît alors que la fonction <p est affine par morceaux
et que sa dérivée est égale à
· (-n) sur l'intervalle ] - 00, x(1)[, · (2p-n) sur l'intervalle ] x(p)' X(p+l)[ ·
n sur l'intervalle ] x(n)' +00 [ .
(l
n-l),
On en déduit que, si n est impair (0 = 2p+ 1), la fonction <p est
mInImum pour Jl = x(p+1) et que, si n est pair (n = 2p), la fonction <p
est minimum sur l'intervalle X( ) + X( +1) [X(p)' x(p+1)]. Dans ce
dernier cas, on prend pour estimateur p p et on en 2 conclut que,
quelle que soit la parité de n, l'estimateur il du maximum de
vraisemblance de Jl est la médiane empirique X de l'échantillon (voir
II.4.2 chap. ll).
Cet estimateur est sans biais puisque la loi S)e(Jl, a) est symétrique
par rapport à Jl et que l'on a donc (voir exercice Ill. 2 chap. II)
15
1. EXERCICES DE PROBABILITES
\:lie {l,...,n},
lE (X(i» + lE (X(i+ 1» = 2 Jl,
d'où, quelle que soit la parité de n,
lE (X) = Jl.
Enfin, déterminons l'estimateur du maximum de vraisemblance du
paramètre (Jl, a). Les calculs déjà effectués nous permettent
d'afftrmer que la fonction L est maximum pour
n (Jl, a) = (x, À L 1 Xi - xl ) i=1
L'estimateur @, â) cherché est donc défini par
n @,o) = ( X , ÀL IXi - x l ). i=1
On a encore lE (jl) = Jl, mais on ne peut déterminer de facon simple
lE (3). Toutefois, on sait que l'estimateur @, â) est
asymptotiquement sans biais (voir Lehmann (1983), p. 415).
On peut également remarquer que la loi de â ne dépend pas de Jl
et, donc, que â est un estimateur de a libre relativement à Jl.
Exercice 8. Soit k un entier strictement positif et soient al,..., ak,
ak+1 des nombres réels strictement positifs. On appelle "loi de
Dirichlet de paramètres al,... , ak+l" et l'on note S)k (al, ... , ak ; ak+l)
la loi de probabilité sur JRk dont la densité f est définie par
\:1 xe JRk,
a1- 1 ak- 1 ak+1- 1 .ç'I f(x) = K xI'" x k (1 - xI ... - x k ) a Sk (x),
où K désigne un nombre réel et où
+* k Sk = ( x E (JR) Xl + ... + xk < 1 }.
1 ) Montrer que
K= r(a 1 ) ... r(a k ) r(a k + 1 )
r(b)
où l'on a posé b = al + ... + ak + ak+l' On vérifiera d'abord que
16
1. EXERCICES DE PROBABILITES
\:1 a > 0, \:1 b > 0, \:1 x > 0,
x f ta,l (x - t)b,l dt = Xa+b'l
(a , b). o
Quelle est la loi de Dirichlet lorsque k = 1 ou lorsque al = ... = ak =
ak+1 = 1 ? Dans toute la suite de l'exercice, X = (X}, ... , X k )
désigne un vecteur aléatoire de loi S>k (al, ... , ak ; ak+l). 2) Soient
rI, ... , rk des nombres réels. Préciser l'existence et déterminer la
valeur
de
fI r2 rk lE (XI X 2 ... X k ).
En déduire l'espérance mathématique de X et sa matrice des
covariances. 3) Déterminer les lois marginales de la loi de Dirichlet.
On remarquera que l'on peut se contenter de déterminer la loi du
vecteur aléatoire (XI,... , X p ), où 1
p < k. 4) Déterminer par sa densité la loi du vecteur aléatoire T = (Tl,
... , T0 défini par
Tl = 1 - XI ,
1 - XI ... - Xi T.= 1 1 - XI'" - X i _ 1
(2
k).
En déduire que les composantes Ti du vecteur T sont indépendantes
et suivent des lois Bêta 1 que l'on précisera. Enoncer et démontrer
une réciproque.
1) L'intégrale proposée se calcule en posant u = k. On obtient
x f t a - l (x - t)b-l dt o
1 = xa+b-l f u a - l (1 - u)b,l du = o
Xa+b-1
(a, b).
On a
1 (a1- 1 ak- 1 ak+1-1 K = J
Xl." x k (1 - xI ... - x k ) dX 1 ... dX k Sk
( al 1 ak_l- 1 = J Xl - ... Xk_l Sk-l
[ 1-xl...-xk_l ] ak- 1 ak+l- 1 l X k ( 1 - Xl ... - X k ) dX k dx l ... dX k _ l
17
1. EXERCICES DE PROBABILITES
i a1-1 ak_l- 1 ak+ a k+1- 1 =
(ak' a k + 1 ) Xl'" xk_1 (1 - xI ... - x k _ 1 ) dX 1 ... dX k _ 1 . Sk-l
En continuant le calcul, on obtient
1K=
(ak' a k + 1 )
(ak_l' a k + a k + 1 ) ...
(al' a 2 + ... + a k + a k + 1 )
r(a 1 ) ... r(a k ) r(a k + 1 )
r(a 1 + ... + a k + a k + 1 )
d'où
K= r(a 1 ) ... r(a k ) r(a k + 1 )
r(b)
Lorsque k = 1, on a
1 a1-1 a2- 1 t;1 f(x) = x (1 - x) 8 ]O,l[(X)
(al' a 2 )
et la loi tt)1(al; a2) n'est autre que la loi
1(aJ, a2).
Lorsque al = ... = ak+1 = 1, on a K = k! , d'où
f(x) = k! 11 Sk (x)
et la loi m k (I,..., 1 ; 1) est la loi uniforme sur Sk.
2) Soient rI, ... , rk des nombres réels. On a
fI fk i al+fl-l ak+ f k- 1 ak+1- 1 IE(X 1 ... X k ) = K Xl". x k (1 - XI." - x k
) dX 1 ... dX k . Sk
D'après le calcul effectué à la première question et ce que nous
savons de la fonction
, cette espérance existe si et seulement si
\:1 i e {1 , ... , k},
ai + ri > 0,
soit
\:1 i e {1,..., k},
ri > - ai
et l'on a alors
18
1. EXERCICES DE PROBABILITES
rI rk r(b) r(a 1 + r 1) ... r(a k + r k ) r(a k + 1 ) IE(X 1 ... X k ) = r(a 1 )
... r(a k ) r(a k + 1 ) r(b + r)
= r(b) TI r(a i +ri) , r(b + r) i=l r(a.) 1
où l'on a posé r = rI + ... + rk. En particulier, si l'un des ri est égal à 1
et les autres nuls, on a
IE(X.)= r(b) 1 r(b + 1)
r(a i + 1) r(a i )
a. 1
d'où
1 IE(X) = - (al".' , a k ). b
De même, on a
lE (X
) = r(b) 1 r(b + 2)
r(a i + 2) ai (ai + 1) r(a i ) b (b + 1)
d'où
ai (ai + 1) ( ai ) 2 V(X i ) = - - = b (b + 1) b
ai (b - ai) b 2 (b + 1) .
Enfin, si 1
i<j
k, on a
r(a i + 1) r(a j + 1) r(a i ) r(a j )
a. a. 1 J
r(b) IE(X. X.) = 1 J r(b + 2)
=
b (b + 1)
d'où
a. a. 1 J Cov(X i , X j ) = b (b + 1)
a. a. 1 J b 2
a. a. 1 J - - b 2 (b + 1) .
La matrice des covariances de X est ainsi entièrement déterminée.
3) Soit à déterminer la loi d'un vecteur aléatoire Y constitué par p (1
P < k) composantes distinctes de X. Etant donné que l'on peut
pennuter les composantes de X, à condition de permuter les
coefficients ai correspondants, on peut supposer que
y = eX J, ... , X p ).
19
1. EXERCICES DE PROBABILITES
La densité fy de Y est alors définie par
v y E IR P , fy(Y) = f f(xl' ... . x k ) d
+l ... dx k . fR k - p
Cette densité est nulle si y
Sp. Si y e Sp, on a
81- 1 8p-1 i 8p+l-1 8k- 1 8k+1- 1 fy(Y) = K Xl ... X p Xp+1'" x k (1 - xl
... - X k ) dX p + 1 ... dX k ' Dp(Y)
où l'on a posé
Dp(Y) = { (X p +}, ... , Xk) e (IR +*)k-p ; Xp+ 1 + ... + Xk < 1 - xl... - X
p ).
En effectuant un calcul analogue à celui de la première question
qu'on laisse au lecteur le soin de détailler, on obtient, toujours si ye
Sp,
_ 81-1 8p-1 r(ap+l)'" r(a k ) r(a k + 1 ) 8p+l + ... +8k+ak+1-1 fy(Y) - K
Xl ... x p (1 - xl ... - X p ) , r(a p + 1 + ... + a k + a k + 1 )
d'où
p _ a1-1
-1 8p+1+...+ak+ak+1-1
\:1 Y e IR, fy(y) - KI xl ... x p (1 - xl ... - X p ) a sp (y),
où l'on a posé
r(b) K 1 = r(a 1 ) ... r(
) r(ap+1 + ... + a k + a k + 1 )
C'est dire que Y suit la loi S'>p(aJ,..., a p ; ap+l + ... + ak + ak+l).
4) On a T = cp(X), où cp est l'application de Sk dans IR k définie par
( 1 - xl - x 2 1 - xI'" - x k J cp(xl' ... , x k ) = 1 - xI' , ... , . 1 - xl 1 - xl ... -
Xk_1
On vérifie aisément que l'application réciproque cp-1 est définie par
cp-1(t}, ... , tk) = ( 1 - tl, t1 (1 - t2), ... , t1... tk-l (1 - tk»
et que l'on a donc
20
1. EXERCICES DE PROBABILITES
cp(S0 = {t e IRk; cp-1(t) e Sk} = {t e IRk; 1 - t1 > 0, tl (1 - t2) > 0, ... ,
tl... tk-l (1 - tk) > 0, tl... tk > O} k = ]0, 1 [ .
L'application cp réalise donc une bijection de Sk sur ]0, l[k. D'autre
part, les matrices jacobiennes de cp et de cp-l sont triangulaires et
l'on a donc
det J -1 (tl' ... , t k ) = (-1) ( - t 1 ) ( - t 1
) ... ( - t 1
... t k - 1 ) cp
( l) k k-1 k-2 = - t 1 12 ... t k _ 1 .
La densité fT du vecteur aléatoire T est alors définie par
fT(t) = f( cp-l(t) ) 1 det Jcp-l (t) 111 ]0,1 [k(t)
81- 1 82- 1 8k- 1 = K (1 - t 1 ) ( t 1 (1 -
) ) ... ( t 1 ... t k _ 1 (1 - t k ) )
8k+l- 1 k-l k-2 (1 (t 1
... t k ) t 1 t2 ... t k - 1 a k(t) ]0,1 [
k TI (8i+1-1) +... + (8k- 1 ) + (8k+1- 1 ) + (k-i) 8i- 1 (1 = K [ t i (1 - t i )
a ]O,I[(t i )] i=1
k TI 8i+l + ... + 8k + 8k+l - 1 8i- 1 (1 = K [ t i (1 - t i ) a ]0 1 [( t i ) ] . i=1
·
De cette factorisation, nous déduisons que les composantes Ti du
vecteur T sont indépendantes et que chacune d'elles suit une loi
Bêta 1. Plus précisément,
\:lie {1,...,k},
Ti suit la loi PI (ai+1 + ... + ak + ak+h ai).
La réciproque s'énonce facilement de la façon suivante. Si T est un
vecteur aléatoire de dimension k dont les composantes Ti sont
indépendantes et de lois respectives pl(ai+l + ... + ak + ak+l, ai),
alors le vecteur aléatoire X défini par X = cp-1(T) suit la loi g)k(al, ... ,
ak; ak+l)' Cette réciproque ne demande, en fait, aucune
démonstration nouvelle puisqu'il suffit de reprendre la démonstration
ci-dessus en y échangeant les rôles de cp et de cp-l, ainsi que k
ceux de Sk et de ]0, 1 [ .
21
1. EXERCICES DE PROBABILITES
Exercice 9. Etude des lois de Dirichlet ordonnées (suite de l'exercice
précédent) 1) Soit X = (Xl, ... , Xk) un vecteur aléatoire de loi de
Dirichlet f) k (a l, ... , ak ; ak+ 1). Déterminer la densité de la loi du
vecteur aléatoire y = (Y b ... , Y k) défini par
\:1 i e {l, ... ,k},
Yi = XI + ... + Xi.
La loi du vecteur Y est appelée "loi de Dirichlet ordonnée de
paramètres " é d\ (.) ( ) a lt ... , ak+ 1 et not e eu k a lt ... , ak ; ak+ 1 .
Réciproquement, étant donné un vecteur aléatoire Y dont la loi est
(.) S)k (ab ... , ak; ak+l)' déterminer un vecteur aléatoire X fonction
de Y qui soit de loi f)k(al, ... , ak ; ak+l). (.) Quelle est la loi S) k (1, ...
, 1 ; 1) ? 2) Déterminer l'espérance mathématique et la matrice des
covariances de Y. 3) Quelle est la loi de Yk? Plus généralement,
quelle est la loi d'une composante Yp(l
pSk) de Y? 4) En déduire, en considérant les composantes TI et T 2
du vecteur aléatoire T défini à l'exercice précédent, que, si U et V
sont des variables aléatoires réelles indépendantes de lois
respectives PI (r, s) et Pt (r + s, t), alors la variable aléatoire W = U V
est de loi Pt (r, s + t). 5) Soient kt,. ..-, kp des entiers tels que
o < kt < k2 < ... < kp
k.
Montrer, grdce au résultat établi à la question 4, que le vecteur
aléatoire Z = (Zl, ... , Zp) défini par Zl = Xl + ... + X k1 ' Z2 = X k1 + 1
+ ... + X k2 '
Zp = Xkp-l+l + ... + X kp
suit une loi de Dirichlet (non ordonnée) que l'on précisera. En
déduire les lois marginales d'une loi de Dirichlet ordonnée.
1) On peut écrire que Y = cp(X), où cp est une application linéaire
bijective de 1Rn+1 dont le détenninant est égal à 1. L'application
réciproque cp-l est défmie par
22
1. EXERCICES DE PROBABll..ITES
XI = YI,
Xi = Yi .. Yi-l
(2 S i
k)
et l'on a
<p(S0 = ( Y E IRk; <p-l(y) E Sk } = {y E IRk; YI > 0, Y2" YI > 0, ...,
Yk" Yk-l > 0, Yk < 1 } = {y E IR k ; 0 < YI < Y2 < ... < Yk < 1 } --- =
]0,1 [k .
La densité fy de Y est donc défmie par
al-l a2- 1 ak- I ak+I-1 (1 fy(Y) = K YI (Y2" YI) ... (Yk" Yk-I) (1 .. Yk) ii
]O,I[1t (y),
où
r(a l + ... + a k +
+l) K - - . r(a l ) ... r(a k ) r(a k + l )
(.) Réciproquement, bien sûr, si Y est de loi S)k (ab ... , ak ; ak+l) le
vecteur aléatoire X = cp -1 (Y) défmi par
Xl = YI, Xi = Yi .. Yi-I (2 S i
k)
est de loi S) k(al, ... , ak ; ak+I). fi 1 d\ (.) 1 1 . . fi En ln, on remarque
que a loi ilJ k (1, ... , 1 ; 1) n'est autre que a 01 unI orme sur ]0, l[k.
2) D'après les résultats de l'exercice précédent, on a immédiatement
\:1 p e {l,..., k},
al + ... + a p lE (Y p> = , b
soit
1 IE(Y) = - (b l , ... , b k ) , b
en posant
\:1 p E {l,..., k},
bp = al + ... + a p
et, comme à l'exercice précédent, b = al + ... + ak + ak+l.
23
1. EXERCICES DE PROBABILITES
De même, on a, si 1 S P
k,
Cov(Y p, y q) = COV(XI + ... + Xp, XI + ... + X q )
p = L V(X i ) + L L Cov(X i , X j ) i=1 l
p ISj
q,ji!i
1 [ p ] = L ai (b - ai) - L L ai a. b 2 (b + 1) i=l l
pl
q,ji!i J
= 1 [ b fa i - ff ai a j ] b 2 (b + 1) i=l i=1 j=1
1 = 2 (b b p - b p b q ) b (b + 1) b p (b - b q ) = b 2 (b + 1) .
En particulier, on a
b p (b - b p ) V(Y ) = . P b 2 (b + 1)
La matrice des covariances de Y est ainsi entièrement déterminée.
3) La densité f Yk de la composante Yk de Y est définie par fYt(Yt) =
f fy(y) dYl ... dYt,l ' k-l IR
soit, en tenant compte de la fonction indicatrice qui figure dans fy,
J 81-1 82 -1 8k- 1 fYk(Yk) = K ____ YI (Y2 - YI) ... (Yk - Yk-l) dYl ...
dYk_l ]O,Yk[k-l
8k+l- 1 (1 x (1 - Yk) a ]O,l[(Yk)'
L'intégrale se calcule aisément en posant
\:lie (l,...,k-l),
u' = Yi 1 Yk
24
1. EXERCICES DE PROBABILITES
et en considérant la densité de la loi g)
!1 (a J, ... , ak-l ; ak). On obtient
f 81-1 82- 1 8k_l- 1 8k- 1 fYk(Yk) = K
U 1 (u 2 - u 1 ) ... (u k - 1 - u k _ 2 ) (1 - u k _ 1 ) dU 1 ... dU k _ 1
]O,Yk[k-l
81+...+ a k- 1 ak+l- 1 .a x Yk (1 - Yk) a ]O,l[(Yk)
r(a 1 + ... + a k + a k + 1 ) r(a 1 )... r(a k ) 81 +...+ak- 1 ak+1- 1 .a =
Yk (1 - Yk) a ]0,1 [(Yk) r(a 1 ) ... r(a k ) r(a k + 1 ) r(a 1 + ... + a k )
=
1 81+...+8k- 1 8k+l-1.a Yk (1 - Yk) a ]O,l[(Yk). p(a 1 + ... + a k , a k +
1)
La loi de Y k est donc la loi PI (al + ... + ak, ak+l).
Plus généralement, étant donné p tel que 1
k, on sait (question 3 de l'exercice précédent) que le vecteur
aléatoire (X 1, ... , X p ) suit la loi
p(al + ... + a p ; a p +l + ... + ak + ak+l). On en déduit que la loi de Y
p est la loi Pl (al + ... + a p , ap+l + ... + ak + ak+1), soit la loi Pl (b p ,
b - b p ).
4) On a montré, à l'exercice précédent, que les composantes Ti du
vecteur aléatoire T sont indépendantes et de lois respectives PI (ai+l
+ ... + ak + ak+h ai). En particulier, les variables aléatoires T2 et TI
sont indépendantes et de lois respectives
1(a3 + ... + ak+l, a2)
et
1(a2 + ... + ak+l, al)
et leur produit est égal à 1 - Y 2 dont la loi est PI (b - b2, h2), soit
Pl(a3 + ... + ak+l, al + a2).
On en déduit la propriété formulée dans l'énoncé en posant
r = a3 + ... + ak+ h
s = a2,
t = al
et en remarquant que r, s et t ainsi définis sont trois nombres réels
strictement positifs quelconques.
Remarque. On peut établir directement la propriété en cherchant
d'abord la densité du vecteur aléatoire (U, W).
25
I. EXERCICES DE PROBABILITES
5) Considérons le vecteur aléatoire U = (U 1, ... , U p ) défini à partir
du vecteur Z comme l'a été le vecteur T à partir du vecteur X. On a
U 1 = 1 - Zt,
1 - Z. 1 U.= 1 1 - 21-1
(2
p),
d'où
U 1 = TI T 2 ... Tkt' U 2 = T k1 + 1 ... T k2 ,
U p =T k +1'" Tk' p-l P
On en déduit que les composantes du vecteur U sont indépendantes
et, grâce à la propriété montrée à la question 4 et étendue, de
proche en proche, à un produit de plus de deux variables de lois
Bêta 1, que la loi de Ui (1
p) est la loi PI (a k '+ 1 + ... + a k + l , al + ... + a k .). 1 1 En utilisant
la réciproque énoncée à la question 3 de l'exercice précédent, on en
déduit que le vecteur aléatoire Z suit la loi S'>p(st, ... , sp; Sp+1), où
l'on a posé
SI = al + ... + a k1 ' s2 = a k + 1 + ... + a k ' 1 2
S p = a k + 1 + ... + a k ' p-l p sp+l = akp+l + ... + a k + 1 .
Enfin, si nous considérons le "sous-vecteur" (Y k ' ... , Y k ) de Y, on
a1p
y kl = Zl' Y k2 = ZI +
, ... , Y kp = ZI + ... + Zp ,
et l'on en déduit, grâce au résultat de la question 1, que la loi de ce
sous-vecteur est la loi (.) S)k (SI, ... , sp ; Sp+1). Les lois marginales
des lois de Dirichlet ordonnées sont donc elles-mêmes des lois de
Dirichlet ordonnées.
26
Chapitre il
STATISTIQUES D'ORDRE
Exercice 111.1. Lois des statistiques d'ordre Soit Xl"'" X n un
échantillon de taille n de la loi F et soit X(I)"'" X(n) l'échantillon
ordonné associé. 1) Déterminer la loi F(r) de la statistique X(r)' où 1
n. 2) Dans le cas où la loi F admet une densité f, déduire du résultat
précédent la densité f(r) de X(r) et justifier le moyen mnémonique
donné à la remarque 111.2.2. 3) Déterminer la loi F(r,s) de la
statistique (X(r)' X(s»' où 1
r<s
o. 4) Dans le cas où la loi F admet une densité f, déduire du résultat
précédent la densité f(r,s) de (X(r)' X(s» et justifier le moyen
mnémonique donné à la remarque 111.2.8. 5) Soient rI"'.' rk des
entiers tels que 1
rI < r2 < ... < rk
n. En supposant que la loi F admet une densité f, déterminer la
densité f(f1"'.' fk) de la statistique (X(fl)"" ,X(fk» en utilisant, sans
chercher à le justifier, un moyen mnémonique analogue à celui de la
question 4.
1) Soit x e IR et soit Al' événement {X(r)
x}. Désignant par P la probabilité dans l'espace probabilisé sur
lequel sont définies les variables aléatoires Xi, on a
f(r)(x) = P(A).
D'autre part, A = U Aj, où Aj désigne l'événement "j des variables
aléatoires j=r Xi (1
n) sont inférieures ou égales à x, les autres sont supérieures à x".
Les événements Aj étant deux à deux incompatibles, on a
n F(r)(x) =
P(A j ). J=r
27
II. STATISTIQUES D'ORDRE
Désignant, enfin, par '!P j,n l'ensemble des parties à J éléments de
l'ensemble { 1, ... , n}, on a
A.= U J Je i!P j,n
[ (n {Xi
x} ) n (n {Xi > x} ) ]. ie J i
Les variables aléatoires Xi étant indépendantes et de même loi, les
événements entre crochets ont tous la même probabilité, à savoir
(F(x)
(I-F(x»n- j . Comme, de plus, ils sont deux à deux incomptabiles et
qu'il y en a C
, on obtient
P(A j ) = C
(F(x»j (I-F(x»n- j ,
d'où
n \:1 x e IR, F(r)(x) =
C
(F(x)
(l-F(x»n- j . J=r
Remarque. Ce résultat s'applique à toute loi F, continue ou non.
2) Si F admet une dérivée f, F(r) admet aussi une dérivée f(r) et si
l'on désigne par
la fonction définie par
(t) = L d n J (l_t)n- j , j=r
ona
f(r)(x) = <1>'(F(x» f(x).
. On laisse au lecteur le soin de vérifier que, dans le calcul de la
dérivée de <1>, les termes s'éliminent deux à deux et que l'on
obtient
'(t) = r c: {-1 (l_t)n-r,
d'où
f(r)(x) = r c: (F(x»r-l (I_F(x»n-r f(x).
28
II. STATISTIQUES D'ORDRE
Pour justifier le moyen mnémonique, écrivons que
. F(r)(x+h) - F(r)(x) f(r)(x) = lim h-+ 0 h
= lim P(x < X(r)
x+h) = lim P(x-h < X(r)
x) . h-+ 0+ h h-+ 0- - h
Les deux cas (h > 0 et h < 0) se traitant de façon analogue, bornons-
nous au cas où h tend vers 0 par valeurs positives. On peut écrire
n
{x<X(r)
x+h} = U Bj, j=1
où Bj désigne l'événement "j et j seulement des variables aléatoires
Xi sont supérieures à x et inférieures ou égales à x+h et X(r) se
trouve parmi ces j variables".
Les événements Bj étant deux à deux incompatibles, on a
n P(x < X(r)
x+h) = L P(B.). . 1 J J=
Si l'on désigne par C j l'événement "j et j seulement des variables
aléatoires Xi sont supérieures à x et inférieures ou égales à x+h", on
a Bj C Cj, donc P(B j )
P(C j ). Or, en raisonnant comme à la question 1, on peut écrire
C j = U [ ( . n {Xi e ]x, x+h] } J n ( . n {Xi e: ]x, x+h] } J ] , Je P j,n 1 e J
1
J
d'où
P(C j ) = C
[F(x+h)-F(x)]j [1-F(x+h)+F(x)]n- j .
On remarque alors que P(C j ) est un infiniment petit relativement à h
d'ordre j au moins et qu'il en est donc de même de P(B j ). On aura
donc
P(B 1) f(r)(x) = lim - h-+ 0+ h
29
n. STATISTIQUES D'ORDRE
Puisque BI est l'événement "(r-l) des variables aléatoires Xi sont
inférieures ou égales à x, l'une est supérieure à x et inférieure ou
égale à x+h et les (n-r) autres sont supérieures à x+h", le moyen
mnémonique se ttouve justifié et l'on a
P(Bl) =
-l (F(x»r-l (n-r+l) (F(x+h)-F(x» (I..F(x+h»n-r, Ii
d'où
f(r)(x) = (n..r+ 1)
l (F(x)l-l (I_F(x»n-r f(x),
ce qui est bien le résultat obtenu plus haut puisque
(n-r+l) ë- 1 = ré. n n
3) Soit (x, y) un élément de 1R2. On a
F(r.s) (x, y) = P( (X(r) S x} n (X(s) s y}).
On remarque que si y S x, on a
(X(s) S y)} C (X(r) S x}
et, donc,
F(r.s)(x, y) = F(s)(Y).
Considérons le cas où x < y. Par analogie avec la question 1, posons
A= (X(r) S x} n (X(I) S y}.
On a alors
n k A= U U A. k , k . J. =5 J=r
où Aj,k désigne l'événement "j des variables aléatoires Xi sont
inférieures ou égales à x, (k-j) sont supérieures à x et inférieures ou
égales à y, les (n-k) autres sont supérieures à y". D'où
n k P(A) ;: L L P(Aj k)' k=s j=r ·
En raisonnant comme à la question 1, on obtient
P(A j . k ) = c: d k (F(x)
(F(y) - F(x»k- j (1 - F(y})n-k,
30
II. STATISTIQUES D'ORDRE
d'où
n k L L n! (F(x)
(F(y) - F(x»k- j (l_F(y»n-k si x < y, F(r,s)(x, y) = k=s j=r j! (k-j)! (n-k)!
F(s)(Y) si x
y.
4) Si F admet une dérivée f, la loi de (X(r)' X(s» admet une densité
f(r,s) définie par
2 d f(r,s)(X' y) = dX dY F(r.s)(X' y).
Si l'on désigne par
la fonction définie par
nk
(t, u) = L L k=s j=r j! (k-j)! (n-k)!
n!
(u-t)k- j (l_u)n-k,
on a
"t,u (F(x), F(y» f(x) f(y) f(r,s)(x, y) = o
si x < y,
si x
y.
Ecrivant la fonction
sous la fonne
n, [ k
( ) k-j ] <1> (t, u) = L n. (l_u)n-k L u-t , k=s (n-k)! j=r j ! (k-j) !
on vérifiera aisément, grâce à des éliminations de tennes, que
n,
n.
't(t, u) = .i.J k=s (n-k)!
(l_u)n-k
r-1 ( ) k-r t u-t
(r-l)! (k-r) !
et, donc, que
I\,U(t, u) = (r-l)! (s-r-l)! (n-s)!
n!
r-1 ( ) s-r-1 (1 ) n-s t u-t -u,
31
II. STATISTIQUES D'ORDRE
d'où
n! f(r s)(x, y) = (F(x)l-l (F(y)_F(x»s-r-l (l_F(y»n-s f(x) f(y) 11 R 2 (x, y).
· (r-l)! (s-r-l)! (n-s)!
Pour justifier le moyen mnémonique, procédons comme à la
question 2 en écrivant
que
f(r.s)(x, y) = lim a
O. b
F(r.s)(x+a, y+b) - F(r.s)(x, y+b) - F(r.s)(x+a, y) + F(r.s)(x, y) ab
TI Y a quatre cas à étudier, selon les signes de a et de b. Comme ils
sont analogues, bornons-nous au cas où a et b sont positifs. On doit
donc chercher
lim
P( (x < X(r)
x+a} n (y < X(s)
y+b})
++a
0.b
ab
et l'on peut écrire que
nn
(x < X(r)
x+a} n (y < X(s)
y+b}=.U U B j . k , J= 1 k= 1
où Bj.k désigne l'événement "j et j seulement des variables
aléatoires Xi sont supérieures à x et inférieures ou égales à x+a, X(r)
se trouvant parmi elles, k et k seulement des Xi sont supérieures à y
et inférieures où égales à y+b, X(s) se trouvant parmi elles." Puisque
l'événement {X(r)
X(s)} est certain, on peut poser f(r,s)(x, y) = 0 si x
y , et, donc, se borner au cas où x < y. On peut alors imposer à a de
réaliser x+a
y. En remarquant que les événements Bj,k sont deux à deux
incompatibles (certains sont d'ailleurs impossibles), puis en
raisonnant sur les ordres des infiniment petits P(Bj,k) comme à la
question 2, on aboutit à
f(r,slx, y) = lim a
0+. b
0+
P(B 11 ) ,
ab
Or B1,1 est l'événement "(r-l) des variables aléatoires Xi sont
inférieures ou égales à x , l'une est supérieure à x et inférieure ou
égale à x+a, (s-r-l) sont supérieures à x+a et inférieures ou égales à
y, l'une est supérieure à y et inférieure ou égale à y+b
32
II. STATISTIQUES D'ORDRE
et, enfin, les (n-s) autres sont supérieures à y+b". Le moyen
mnémonique se trouve donc justifié et l'on a
P(B 1 ,l) = é
l (F(x)l-l (n-r+ 1) (F(x+a)-F(x» C
-_:-l (F(y)_F(x+a»s-r-1 (n-s+l) (F(y+b)-F(y» (I_F(y+b»n-s.
On obtient donc (si x < y )
f(r,s)(x, y) = C
1 (n-r+ 1)
:-1 (n-s+ 1) (F(x»r-l (F(y)_F(x»s-r-l (I_F(y»n-s f(x) f(y),
ce qui est bien le résultat obtenu plus haut, puisque
n! c:- 1 (n-r+ 1)
-r-1 (n-s+ 1) = . n n-r (r-l)! (s-r-l)! (n-s)!
5) En raisonnant comme à la question 4, on obtient
[ k-1 ] rl-1 r. 1-r'-1 n f(r1.... ,rk)(x 1 , ..., x k ) = K(n; rI' ..., r k ) (F(x 1 »
fi (F(x j + 1 )-F(x j »J+ J (I-F(x k » J=l
[ fI f(X j ) ] l1_k (xl' ... , x k ), J= 1 IR
où K(n; rI' ... , r k ) est le nombre de façons de partager les n
variables aléatoires Xi en (2k+l) "paquets" comportant
respectivement r 1 -1, 1, r 2 -r 1 -1, 1, ... , 1, r j + 1 -r f l, 1, ... , 1, r k -
r k _ 1 -1, 1, n-r k éléments. On a donc
n! K(n ; rl"" , r k ) = (rI -1 )! 1! (r 2 - r 1- 1 )! 1! . .. (r k - r k _ el)! 1! (n -
r k) !
n!
(rl-l)! [ fI (rrrj'l-l)!] (n-r k )!
Remarque. Si k = n, c'est-à-dire si rj = j (1
n), on retrouve la densité du vecteur des statistiques d'ordre X(.).
33
II. STATISTIQUES D'ORDRE
Exercice 111.2. Soit X un échantillon de taille n d'une loi continue F
dont la densité f est symétrique par rapport à m (m e IR), c'est-à-dire
vérifie
'V t e IR, f(m+t) = f(m-t).
Montrer que les densités des statistiques d'ordre de dimension 1
vérifient
'Vre {l, ... ,nl, 'V te IR,
f(r)(m+t) = f(n+l-r) (m-t).
Généraliser à des statistiques d'ordre de dimension supérieure.
On sait que la fonction de répartition F de la loi donnée vérifie
\:1 t e IR,
F(m+t) + F(m-t) = 1.
D'autre part, on a
'Vre{I,...,n}, 'Vxe IR,
n! r-l n-r f(r)(x) = (F(x» (I-F(x» f(x) (r-l)! (n-r)!
et on en déduit
n! f(n+l_r)(m-t) = (F(m_t»n-r (I_F(m_t»r-l f(m-t) (r-l)! (n-r)!
n!
(I_F(m+t»n-r (F(m+t)l-l f(m+t) (r-l)! (n-r)!
= f(r)(m+t).
On vérifiera, de même, que, si r et s sont deux entiers tels que 1
r < s S; n, on a
'V (t, u) e IR 2 ,
f(r,s)(m+t, m+u) = f(n+1-s,n+1-r)(m-u, m-t).
Exercice 111.3. Exemples d'applications du théorème 111.3.4 et de
son corollaire 111.3.7
Dans les quatre questions de cet exercice, qui sont indépendantes,
X(I) et X(n) désignent respectivement la plus petite et la plus grande
observation d'un échantillon de taille n d'une loi continue F. Toutes
les limites demandées sont des limites en loi lorsque n devient infini.
34
II. STATISTIQUES D'ORDRE
1) On suppose que F est la loi I(À). Déterminer la limite de la
statistique
X(1) Z =n- n . À
2) On suppose que F est la loi r (2, 1). Déterminer les limites des
statistiques
Y n = X(n) - Log n - Log Log n et Zn = Yiï X(I).
3) On suppose que F désigne la loi S>e(O, 1). Déterminer la limite
de la statistique
Y n = X(n) - Log n.
4) Enfin, si F désigne la loi
(0, 1), déterminer la limite de la statistique
Y n = X(n) - Log n.
Rappelons que les fonctions de répartition respectives de X(1) et de
X(n)' soit F(I) et F(n) , sont définies par
F(l)(X) = 1-(I-F(x»n et F(n) = (F(x»n.
1) On a
F(x) = (l-e-x/Â.) 11 IR +(x),
d'où
F(l)(x) = (l-e- n x/Â.) 11 1R +(x).
La fonction de répartition FZn de la statistique Zn est donc définie
par
FZn (x) = F(I)(Àx/n) = (l-e- X ) 11 1R +(x).
C'est dire que la loi de Zn est, pour tout n, la loi t (1) qui est donc
également la loi limite cherchée. Elle est du type 2 (corollaire Ill.3.7).
Rappelons qu'on trouvera une limite concernant X(n) dans l'exemple
llI.3.5.
2) La densité f de la loi r (2, 1) est défmie par
f(x) = x e- X 11 IR +(x),
d'où
F(x) = (1 - (x+l) e- X ) 11 1R +(x)
35
II. STATISTIQUES D'ORDRE
et, donc,
F(1)(x) = (1 - (x+ l)n e- nX ) 11 rR+(x),
F(n)(x) = (1 - (x+ 1) e-X)O 11 IR +(x).
La fonction de répartition Fy de la statistique Y n est définie par n
Fy (x) = F(n)(x + Log n + Log Log n). n
En posant bn = Log n + Log Log n, on a donc
! -b (1 - (x + 1 + b n ) e- x e n)n Fy (x) = n o
. > b SI X - - n'
sinon.
Puisque b n tend vers +00, on a, pour tout x de IR, x
- b o à partir d'un certain rang. On doit donc chercher la limite (n
+00) de
Fy (x) = ( 1- (x+ 1 +b n ) e- X e-bn )0, n
forme indéterminée du type 1 00 , puisque lim (b n e-bn) = O. On a
donc
Log Fy (x) 'V -n (x+ 1 +bn) e- X e-bn n
'V -n b n e- X e-bn n
'V -n (Log n) e- x (n Log nr 1 = - e- x , n
d'où
'Vx E IR,
Fy (x)
exp( - e- x ). n n
On reconnaît une loi limite du type 3 (théorème ill.3.4). La fonction
de répartition FZn de la statistique Zn est définie par
FZn (x) = F(1)(
= (1 - (1+
)n e-X
) l1 rR +(x).
36
II. STATISTIQUES D'ORDRE
On doit chercher la limite de
Un = (1+
)o e- XVD .
Or
Log Un = n Log (1+
)n e- xm
et un développement limité à l'ordre 2 relativement à l'infmiment petit
montre que
2 x lim Log Un =-, 2
d'où
lim Fy (x) = (1 - e- x2 /2) 11 rR + (x). n
La limite obtenue est du type 2 avec a = 2 (corollaire 111.3.8).
3) La fonction de répartition F de la loi m e(O, 1) est définie par
(exercice 7 chap. 1)
1 x -e 2
si x
0,
F(x) =
1 x 1 - - e- 2
si x
O.
La fonction de répartition Fy de la statistique Y n est donc définie par
n
2- n en(x + Log n)
si x
- Log n,
Fy (x) = F(n)(x+Log n) = n
1 (1 _ _ e-x)n 2n
si x
- Log n.
Pour tout élément x de IR, on a x
-Log n à partir d'un certain rang. On doit donc chercher la limite de
1 (1 - - e-x)n, . 2n
laquelle est égale à exp(-':' e- X ) = exp(- e- (x+Log 2) ). 2 On obtient
donc une limite du type 3 (théorème 111.3.4).
37
II. STATISTIQUES D'ORDRE
4) La fonction de répartition F de la loi
(0, 1) est défmie par (exercice 6 chap. 1) F(x) = (1 +e-xr 1 ,
d'où
F(n)(x) =(1 +e-Xr D
et
Fy (x) = F(n)(x+Log n) = (1 +e -x/nr n n
dont la limite est exp(- e- X ), encore du type 3 (théorème llI.3.4).
Remarque. On obtiendrait, pour ces deux dernières lois, des limites
analogues concernant X(1)' puisque ces lois sont symétriques par
rapport à l'origine.
Exercice IV.I. Soit X h ..., X n un échantillon de taille n de la loi I(À) et
soit X(1), ... ,X(n) l'échantillon ordonné associé. Soient Yi (1
i Sn) les statistiques définies par
YI = X(l),
Yi = X(i) - X(i-l) (2 S i
n).
1) Montrer que les statistiques Yi sont indépendantes et déterminer
leurs lois. 2) En déduire que, si r et s désignent deux entiers tels que
1
r < s Sn, les statistiques X(r) et X(s) - X(r) sont indépendantes et
généraliser ce résultat. Exprimer les lois de X(r) et de X(s) - X(r)
sous forme de produits de convolution de lois exponentielles et en
déduire que X(s) - X(r) a la même loi que la (s-r)ème statistique
d'ordre d'un échantillon de taille (n-r) de la loi t (À). 3) Déduire des
questions précédentes les résultats énoncés dans l'exemple /V.2.2,
à
savoir
n 1 IE(X(r» = À L -, i=n-r+ 1 i
n 1 V(X(r» = Cov(X(r), X(s» = À 2 . L :2' I=n-r+ 1 1
1) On conn ait la densité f de la loi 'I(À)
1 -x(À
f(x) = - e il IR +(x). À
38
II. STATISTIQUES D'ORDRE
On en déduit la densité f') du vecteur des statistiques d'ordre
n t<.)(x) = n! TI f(xi) 11 f{n (x) i=l n = nD: n exp(-
LXi) l1ft+n (X). À i=l
Soit <p l'application linéaire de IR n dans IR n définie par
CP(XI , ... , Xn) = (xl' X2 - Xl' ... , Xn - Xn-l).
Elle est bijective, de détenninant égal à 1, et vérifie
,." cp(1R+ n ) = IR +n.
De plus
n cp-1(Y1' ... ,Yn) = (YI' YI+Y2 ' ... ,L Yi), i=l
d'où la densité fy du vecteur Y des statistiques Yi
1 n fy(Y) = n! À -n exp (- - L (n-i+ 1) Yi ) 1l 1R + n (y) À i=l
n . 1 n TI n-l+ (1 = n! À- (exp ( - - Yi) a 1R+(Yi) ). i=l À
Cette factorisation nous montre que les statistiques Yi sont
indépendantes et de lois respectives '1 (+ 1 ). n-l+
2) On a
r X(r) = L Yi i=l
et
s X(s) - X(r) = L Yi, i=r+ 1
ce qui enttaîne l'indépendance de ces deux statistiques. Plus
généralement, si rI, r2, ... , rk sont des entiers tels que 1 S ri < r2 < ...
< rk
n, les statistiques X(r 1 ), X(r 2 )-X(f 1 ), ... , X(r k ) - X(r k _ 1 ) sont
indépendantes.
39
II. STATISTIQUES D'ORDRE
De plus, la loi de X(r) est le produit de convolution des lois 1(+ 1 )' où
i varie n-I+ de 1 à r, ou encore le produit de convolution des lois 'I(
), où j varie de (n-r+ 1) à n. J De même, la loi de X(s) - X(r) est le
produit de convolution des lois t <+ 1 )' n-I+ où i varie de (r+ 1) à s,
ou encore le produit de convolution des lois 1 (
), où j varie J de (n-s+ 1) à (n-r). On en conclut que la loi de X(s) -
X(r) est celle de la (s-r)ème statistique d'ordre d'un échantillon de
taille (n-r) de la loi I(À).
3) Sachant que la moyenne et la variance de la loi t(À) sont
respectivement égales à À et À 2 , les convolutions ci-dessus nous
permettent d'écrire que
n 1 IE(X(r» = Â L -, i=n-r+ 1 i
V (X(r» = '),.2 . i .
. l=n-r+1 1
Enfin, l'indépendance des statistiques X(r) et X(s) - X(r) nous permet
d'écrire que
Cov(X(r), X(s) - X(r» = 0,
ce qui donne
Cov(X(r), X(s» = V(X(r».
Exercice IV.2. Calculer les moments d'ordre 1 des statlstlques
d'ordre d'un échantillon de taille n de la loi eN (0, 1) dans les cas
suivants
1) n = 2,
2) n = 3,
3) n = 4.
On effectuera ces calculs à partir de la densité de l'échantillon
ordonné X(1) , ... , X(n).
Remarque préliminaire. On a lE (X(r» = - IE(X(n-r+l», puisque la loi
eN (0, 1) est symétrique.
1) n = 2.
On sait que IE(X(1» = - IE(X(2»' Calculons IE(X(2» =
2. La densité f{.) de X(.) est définie par
..l) 1 1 2 2 Q t" (x, y) = - exp [- - (x + y )] a - R 2 (x, y) , 1t 2
40
II. STATISTIQUES D'ORDRE
d'où
1 J I 2 2 112 = - y exp [- - (x + y )] dx dy X 2 ft2
L e-x2
[f- Y e- ln dy ]dx
1 J 2 1 1 = - e- x dx = - fit = - X X fit' IR
et, finalement,
E(X(2» = - E(x(l» = k .
2) n = 3.
On sait que IE(X(1» = - IE(X(3» et que IE(X(2» = O. Calculons
IE(X(3» = 1l3.
La densité t<.) de x<.) est définie par
6 1 t<.)(x, y, z) = 3/2 exp [- - (x 2 + y2 + z2)] ll R 3 (x, y, z), (2x) 2
d'où
3 f I J.13 = 112 3/2 z exp [- - (x 2 + y2 + z2)] dx dy dz 2 X 3 2 R
[ +00 ] _ 3 1 2 2 _z212 - 2 112 1t 3/2
2 exp [- '2 (x + y )]
z e dz dx dy
- 3 f [ 1 2 2 ] - 1/2 3/2 exp - - (x + 2 y) dx dy. 2 X 2 2 IR
U ne intégration en coordonnées polaires conduit à
41
II. STATISTIQUES D'ORDRE
3 = 1// 3/2 l 2 1t + rR x [1[/4. 51[/4]
2 exp [-
(cos 2 a + 2 sin 2 a)] p dp da. 2
Or
-'A. p 2/2 d [ 1 _'A. p2 /2 ] J_ p e p = - - e o À 0
1
(À > 0),
d'où
51[/4 l1J = 21// 3(2 f 1t 1[14
da 2 2 . cos a + 2 sin a
Comme f 51[/4 da f 1[/2 da 2 . 2 - 2 2 1[/4 cos a + 2 SIn a -1[12 COS
a (1 + 2 tg 9)
_ dt _ --L -too _ 1t - 2 -.Pi" [Arctg n'21_ 00 - .Pi"' 1 +2 t '
-00
on a
J.!3 = -L. . 2fii
3) n = 4.
On sait que IE(X(1» = - IE(X(4» et que IE(X(2» = - IE(X(3»'
Calculons IE(X(4» = Jl4 et IE(X(3» = J.!3.
42
II. STATISTIQUES D'ORDRE
De la même façon que précédemment, on a
6 f i J,14 = - t exp [- - (x 2 + y2 + z2 + t 2 )] dx dy dz dt x 2 2 ft4
6 f i = - exp [- - (x 2 + y2+ 2 z2)] dx dy dz. x 2 2 ft3
Une intégration en coordonnées sphériques conduit à
2 J,14 =
f exp [-
(cos 2 À + 2 sin 2 Â,)] p2 cos À dp d9 dÀ, x 2 2 Ii
où
X x A = IR+ X {(9, À) e [0, 2x[ x ] - 2' 2] ; cos 9
sin 9, sin 9 cos À
sin À}
+ X 5x . x = IR x {(9, À) ; "4
4' Arctg(sIn 9)
À < 2} .
D'autre part, on sait que f
2 1 2 - x 2 12C1 dx = #T 2 , Y 2x cr x e v
-00
soit
f +oo 2 2 - x 2 12C1 -3 /z xe dx=o--. 2
-00
On a donc
2 p2 exp [-
(cos 2 À. + 2 sin2
)] dp = {X (cos 2 À. + 2 sin 2 À.r 312 , o 2 J 1:
d'où
2 51t/4 [ 1t/2 ] P 6 f f cos À "2 J,14 = 1/2 3n. 2. 2 3n. dÀ d9. 2 x 1t/4
Arctg(sin 9) (cos À + 2 SIn À)
43
II. STATISTIQUES D
ORDRE
On vérifie alors facilement que
1t/2 '\ 1t/2 '\ f cos A f dA 2 + . 2À. 312 dÂ. = 2 + 2 À 312 Ar ( . 9)
(COS À. 2 sIn ) Ar ( . 9) cos À (1 2 tg ) ctg sm ctg sm
du = (1 + 2 u 2 )312 sin 9
+00 = [ (1 + 2 U i)ll2 lin 0 1 sin 9 - 2 112 - (1 + 2 sin 2 9)1/2 '
d'où
[ 51t
] 6 x sin 9 Il = - - d9 4 2112 X 312 2 112 t4 (1 + 2 sin 2 9)112 .
On obtient alors
f 51t/4 sin 9 2 112 d9 = f 5 1t /4 sin 9 2 112 d9 1t/4 (1 + 2 sin 9) 1t/4
(3 - 2 cos 9) = ...L [ Arcos( Ji cos 9) t lt/4 fi fi 1t/4 = L (Arcos
- Arcos L ) fi fi fi = -12 (x - 2 Arcosif)'
On en déduit fmalement
114 =
Arcos(
). XIX ,3
Une valeur approchée de Jl4 est 1.03.
44
II. STATISTIQUES D'ORDRE
Calculons, enfin, 113.
113 = 6 2 f z exp [-
(x 2 + y2 + z2 + t 2 )] dx dy dz dt x 4 2 R
= :2 l 3 exp [-
(x 2 + y2 + t 2 )] [f z e- ill dz J dx dy dt R
6 f [ 1 ] 2 2 = 2 exp - - (x 2 + y2 + t 2 ) (e- Y 12 - e- t 12) dx dy dt X
_3 2 R
6 f 1 6 f 1 = 2 exp [- - (x 2 + 2 y2 + t 2 )] dx dy dt - 2 exp [- - (x 2 + y2
+ 2 t 2 )] dx dy dt X iR 3 2 X iR 3 2
6 f i = - exp [- - (x 2 + 2 y2+ t 2 )] dx dy dt - Jl4. x 2 2 _3 R
On poursuit l'intégration en coordonnées sphériques en posant
! x = p cos 9 cos À, t = P sin 9 cos À, y = p sin À,
et l'on obtient
2 6 f P 113 + 114 = 2 exp [- - (cos 2 À + 2 sin 2 À)] p2 cos À dp d9
dÀ, x, 2 !J.
où
X X t:,.' = IR + x {(9, À) e [0, 2x[ x ] - 2' 2[ ; cos 9 cos À
sin À
sin 9 cos À}
+ X 5x . = IR x {(9, À) ; "4
4' Arctg(cos 9)
Arctg(sIn 9)}.
45
II. STATISTIQUES D'ORDRE
On obtient donc, par un calcul voisin de celui déjà effectué,
Sn/4 6 f u sin 9 J,1 + Il - [ ] da 3 4 - 2 1 n. 1t3/2 (1 + 2 u 2 )1n. n
œs9
6 f 5 n /4 [ sin a cos a ] = -
2 1 n. 1t 3/2 (1 + 2 sin 2 a)1n. (1 + 2 cos 2 a)ln. . 1t/4
Grâc . a 31t a e au changement de vanable
2" - , on peut constater que
f 51t/4 _ cos e f 51t/4 sin e 2 1 da = 2 1 da (1 + 2 cos a) 12 (1 + 2 sin
a) n. 1t/4 1t/4
et, d'après les calculs précédents, cette intégrale est égale à
fi (X-2Arco sk) .
d'où
6 J,13 + J,14 = 3/2 (1t - 2 Arco s ..
) , 1t ,3
et, enfin,
6 J,13 = 3/2 (1t - 3 Arcosi:=). 1t 13 On peut montrer que
=
/2 Arctg (if) et qu'une valeur approchée de Jl3 1t
est 0.297.
Remarque 1. Le calcul des moments d'ordre 1 des statistiques
d'ordre d'un échantillon de taille n de la loi eN (J,1, cr 2 ) se ramène
au calcul précédent en posant X'i = Xi - J,1 cr (1
n). On dispose alors d'un échantillon de la loi eN (0, 1) et l'on a
, X(r) - J,1 X (r) = cr
(1
n),
d'où
lE (X(r») = J,1 + cr lE (X' (r»'
46
II. STATISTIQUES D'ORDRE
Remarque 2. L'énoncé de l'exercice IV.2, tel qu'il est proposé dans le
tome 1, demande également le calcul de la matrice An des
covariances du vecteur X<.) pour n = 2, 3 et 4. Sans entrer dans le
détail de ce calcul, nous donnons quelques indications pour guider le
lecteur, ainsi que les résultats. On remarque tout d'abord que la
matrice An est symétrique par rapport à ses deux diagonales
puisque la loi eN (0, 1) est symétrique (voir exercice 111.2). D'autre
part, on peut éviter le calcul des variances des statistiques d'ordre si
l'on sait (voir exercice VII.2 chap. III) que la somme des termes
d'une ligne de la matrice An est égale à 1. Il suffit alors de calculer
des tennes du type E(X(r)X(s» (r < s) par les mêmes méthodes que
celles utilisées ci-dessus et il s'avère que les calculs sont plus
simples que ceux des moments d'ordre 1. En voici les résultats (on
complètera les matrices par symétrie).
Pour n = 2, lE (X(1)X(2» = IE(XIX2) = lE (Xl) IE(X2) = 0, d'où 1 1 1--
1t
A2=
1t 1 = [ 0.6817 1-- 1t
0.3183 ] . 0.6817
fi Pour n = 3, IE(X(1)X(2» = 2 1t et
fi lE (X(1)X(3» = - -, d'où 1t
[ 0.5595 A3=
0.2757 0.4487
0.1649 ] 0.2757 . 0.5595
Pour n = 4, E (X(l)X(2» = fi . E (X(l)X(3» = 3 - 2 fi , E (X(l)X(4» = _.1
et 1t 1t 1t lE (X X ) 2 fi - 3 d '''' (2) (3) = 1t ' ou
[ 0.4917 At=
0.2456 0.3605
0.1580 0.2359 0.3605
0.1047 ] 0.1580 0.2456 0.4917
On trouvera des valeurs numériques de ces moments pour de plus
grandes valeurs de n dans les tables de Sarhan-Greenberg (1956).
47
II. STATISTIQUES D'ORDRE
Exercice IV.3. Démonstration du théorème IV.2.5 S oit Xl, . .. , X n un
échantillon d'une loi F symétrique par rapport à Xo (xo e IR) et
unimodale et soit X(l), ... , X(n) l'échantillon ordonné associé.
Supposant que 1E(X(r» existe, on se propose de montrer que
n+l 1 r · si r.
-, IE(X(r»
F- (-), 2 n+l
n+l 1 r · si r
-, IE(X(r»
F- (-). 2 n+l
1) Remarquer que l'on peut se ramener au cas où Xo = 0 et que l'on
peut se borner à n+l étudier le cas où r>-. 2
n+l On suppose donc désormais Xo = 0 et r>-. 2
Montrer que
1 1 E(X(r» = f F,l(u) H(u) du = f [(Vl(u) H(u) + V l (1-u) H(1-u)] du, o
1/2
où l'on a posé
H(u) = n c:- 1 u r - 1 ( l-u)n-r. n-1
2) Soient u un élément de ]
, 1[ et a un élément de [
, 1]. Montrer que l'on a 2 2
F- 1 (a u + (l-a) (l-u»
a F- 1 (u) + (l-a) F- 1 (I-u).
En déduire que, si l'on pose
u H(u) + (l-u) H(I-u) <p(u) = , H(u) + H(I-u)
on a
[H(u) + H(I-u)] F- 1 (<p(u»
F- 1 (u) H(u) + F- 1 (I-u) H(I-u).
48
II. STATISTIQUES D'ORDRE
3) Montrer, en appliquant l'inégalité de Jensen, que
1 r IE(X(r»
F- (-). n+l
(Ali (1976»
1) On se ramène au cas où Xo = 0 en posant Yi = Xi - Xo (1
n). On est alors en présence d'un échantillon de la loi G symétrique
par rapport à l'origine et unimodale définie par
G(x) = F(x+Xo).
Comme, d'autre part, on a
lE (Y (r» = lE (X (r» - Xo
et
G- 1 (u) = F- 1 (u) - "0,
il suffit de montrer les inégalités pour Xo = O. On sait que l'on a alors
lE (X(n+ 1-r» = - lE (X(r»
et
F- 1 (I-u) = - F- 1 (u),
n+l d'où, si r < -, 2
( Ir ) ( 1 n+l-r ) IE(X(r»
F- (-) <=) IE(X(n+1-r»
F- (-) . n + 1 n+ 1
n+l On se limite donc à étudier le cas où r > -. On a alors 2 E(X(r» = f
xdF(r)(x) , IR
où F(r) désigne la fonction de répartition de X(r)' On sait que
dF(r)(x) = H(F(x» dF(x),
49
II. STATISTIQUES D'ORDRE
d'où
E(X(r» = f x H(F(x» dF(x) IR
1 = f F-l(u) H(u) du o
1/2 1 = f F'l(u) H(u) du + f F-l(u) H(u) du o ln
1 = f . [F-l(u) H(u) + F-l(l-u) H(1-u)] du, 1/2
puisque, par changement de variable (u
l-u), on a
1/2 1 f F-
u) H(u) du = f F,l(l-u) H(l-u) du. o 1/2
2) La fonction F- 1 est définie sur ]0, 1[ et vérifie
F- 1 (u) + F- 1 (I-u) = O.
De plus, elle est concave sur ]0,
] et convexe sur [
, 1 [. Si u e ]
, 1 [ et si 2 2 2 a e [
, 1], on peut écrire 2
1 au + (l-a) (1-u) = - (2-2a) + (2a - 1) u, " 2
d'où, puisque 0
2a -1
1 et que F- 1 est convexe sur [
, 1[, 2
F- 1 (a u + (l-a) (l-u»
(2-2a) F-1(
) + (2a-l) F- 1 (u), 2
0 + a F- 1 (u) - (l-a) F-1(u)
a F -1(u) + (l-a) F- 1 (I-u).
Remarquons que, si a E [0,
], on a l'inégalité contraire. Le lecteur est invité à 2 visualiser ces
résultats en traçant la représentation graphique de la fonction F -1.
50
II. STATISTIQUES D'ORDRE
Enfin, on peut écrire que
<p( u) = a u + (1 - a) (1 - u)
H(u) en posant a = H(u) + H(I-u)
1 et l'on a a E [-, 1[ car 2
H(u) ( l-u ) n+I-2r 0< = - < 1. H(I-u) u
On en déduit que
1 F- 1 (u) H(u) + F- 1 (I-u) H(I-u) F - (<p( u»
, H(u) + H(I-u)
d'où le résultat demandé.
3) On a vu que
1 E(x(r» = f [F,l(u) H(u) + F- l (l-u) H(1-u)] du, 1/2
d'où
1 1E(X(r»
f [H(u) + H(1-u)] F'l(q>(u» du. 1/2 On sait que F -1 est convexe sur [
, 1 [ et que <p(u) appartient à cet intervalle. De 2
plus, on vérifie aisément que
1 1 f [H(u) + H(1-u)) du = f H(u) du = 1, 1/2 0
puisque H est la densité de la loi Pl (r, n-r+ 1). D'où, par application
de l'inégalité de Jensen,
1 1 f [H(u) + H(1-u)] F-l(q>(u» du
F-I (f [H(u) + H(1-u)] q>(u) du ). 1/2 1/2
51
II. STATISTIQUES D'ORDRE
Enfm
1 1 f [H(u) + H(1-u)] <p(u) du = f [u H(u) + (1-u) H(1-u)] du 1/2 1/2
1 = f uH(u)du=
, o n+l
puisque l'espérance mathématique de la loi Pl (a, b) est
b . On a donc bien a+
1 r E(X(r»
F- ( - ). n+l
Exercice V.I. Propriétés du préordre de van Zwet Soient F et G deux
lois de probabilité sur IR vérifiant les propriétés énoncées dans la
définition V.3.1 . 1) Démontrer la propriété (V.l), à savoir
(F <s G) <=> (G- 1 0 F est convexe sur IR+ n (support de F»).
2 ) Montrer que le préordre de van Zwet ne dépend pas des
paramètres d'échelle des lois F et G. 3) On suppose, de plus, que G
est une loi unimodale. Montrer que, quel que soit le nombre réel
strictement positif a, on a
U[-a,a] <sG.
4) On suppose, de plus, que F est une loi "en forme de U". Montrer
que, quels que soient les nombres réels strictement positifs, a, cr, cr'
et À, on a
F <s U [-a, a] <s eN (0, cr 2 ) <s :t: (0, cr') <s S)e(O, À).
On utilisera les résultats des questions précédentes.
1) Soit A l'intersection de IR + et du support de F. On a
+ A = [0, a] (a > 0) ou A = IR .
52
II. STATISTIQUES D'ORDRE
Posons <p = G- 1 0 F. Puisque la densité g est strictement positive
sur le support de G, la fonction G- 1 est la fonction réciproque de G,
elle est dérivable sur ]-1, 1[ et l'on a 1 (G- 1 ),(u) = . g(G- 1 (u»
La fonction cp est donc dérivable sur l'intérieur A' de A (A' = ]0, a[ ou
A' = ]0, +co[) et l'on a
(<p convexe sur A) <=> (<p' croissante sur A' ).
Or
v x E A',
' ( ) f(x) cp x = . g(G-1(F(x»)
On en déduit, en posant u = F(x), soit x = F-1(u) puisque la densité f
est strictement positive sur le support de F, que la convexité de <p
sur A équivaut à la croissance de la fonction
f(F-l(U» u
g(G-1(u»
sur l'intervalle ]
, 1[, c'est-à-dire à la propriété "F <s GU. 2
2) Soit Â. un nombre réel strictement positif. Si X est une variable
aléatoire de loi F, la loi FI de la variable aléatoire Â.X est définie par
x F1(x) = F(-) Â.
et la densité correspondante fI par
1 x fl(x) = - f(-). Â. Â.
On a donc
VUE ]-1,1[,
F 1 - 1 (U) = Â. F- 1 (u),
1 fI (Ft-t(u» = - f(F -1(u». À
53
II. STATISTIQUES D'ORDRE
Si l'on effectue également un changement d'échelle sur la loi G,
avec la constante positive Â,', on a
fI (F 1 -1 ( u) ) Â,' f(F-1 (u» gl(G 1 - 1 (U» - i g(G- 1 (u»'
d'où le résultat demandé, à savoir
(F <s G) <=> (FI <s G 1 ).
3) En utilisant le résultat de la question 2, on peut supposer que a =
1. Désignant par U la fonction de répartition de U[-I, 1], on doit
montrer que la fonction G- 1 0 U est 1 x+l convexe sur [-, 1]. Or U(x)
= - (-1
1), d'où 2 2
1 1 x+l (G- 0 U)(x) = G- ( - ). 2
La loi G étant unimodale, la fonction G est concave sur IR +, donc
G- 1 est convexe sur [2.-, 1 [, ainsi que G- 1 0 U. 2
4) En utilisant le résultat de la question 2, on peut supposer que les
nombres a, cr, cr' et À sont tous égaux à 1 et que le support de F, qui
est évidemment borné, est l'intervalle [-1,1].
Montrons d'abord que F <s U [-1, 1], sachant que la fonction f est
croissante sur [0, 1 [, donc que F est convexe sur IR + n (support de
F). Si U désigne encore la fonction de répartition de U[-I, 1], on a U-
1 (u) = 2u - 1, soit U- 1 0 F = 2 F - 1.
La convexité de F entraîne celle de U- 1 0 F.
Le résultat de la question 3 nous prouve que U [ -1, 1] <s eN (0, 1).
Montrons ensuite que
(0, 1) <s S)e(O, 1). Désignant par Let D les fonctions de répartition
respectives de
(0, 1) et S)e(O, 1), nous devons montrer que D- 1 0 Lest convexe
sur IR +. On a (voir exercices 6 et 7 chap. 1)
1 L(x) = 1 + e- x
54
II. STATISTIQUES D'bRDRE
et
1 D(x) = 1 - - e- x (x
0), 2
soit
D- 1 (u) = -l..og( 2(1 - u) )
1 (-
u < 1), 2
d'où, après un calcul aisé,
+ \:Ixe IR ,
(D-l 0 L)(x) = Log(1 + eX) - Log 2.
eX Cette fonction est convexe, car sa dérivée x
- est croissante. On a donc 1 + eX
bien
:t: (0, 1) <s
e(O, 1).
Enfin, montrons que eN (0, 1) <s :t: (0, 1), soit, en désignant par <1>
la fonction de répartition de eN (0, 1), que la fonction H = L- 1 0 <1>
est convexe sur IR +. Puisque
L-1(u) = Log u - Log(1 - u),
on a
H(x) = Log <I>(x) - Log(1 - <I>(x».
La fonction H étant deux fois dérivable, montrons que H" est positive
sur IR + . En utilisant le fait que <1>' est positive et que
<I>"(x) = - x <I>'(X),
on montre aisément que H" a le même signe que la fonction u
définie par
u(x) = x ( <l>2(x) - <I>(x) ) + <I>'(X) ( 2 <I>(x) - 1 ).
On remarque que u(O) = 0 et que u(x)
0, d'après le résultat de
X-++oo
l'exercice 3 chap. 1.
Etudions les variations de u.
u'(x) = <l>2(x) - <I>(x) + 2 <I>,2(x).
55
II. STATISTIQUES D'ORDRE
Ona
1 1 u'(O) = - - - > 0 1t 4
et
u'(x)
x -++00
et, de plus,
u"(x) = <I>'(x) v(x),
où
v(x) = 2 <I>(x) -1 - 4 x <I>'(X).
Ona
v(O) = 0 et v(x)
1.
x -++00
Enfin, on étudie le signe de v en calculant sa dérivée
v'(x) = 2 (2 x 2 - 1) <I>'(x).
La fonction VI étant du signe de (2 x 2 - 1), on peut alors dresser un
tableau de variations (le lecteur est invité à le faire) qui pennet de
découvrir successivement . qu'il existe un réel a supérieur à '* tel
que v, donc u", soit négative sur ]0, a[ et positive sur ]a, +00[, . qu'il
existe un réel b (0 < b < a) tel que u' soit positive sur ]0, b[ et
négative sur ]b, +00[, . que la fonction u, donc la fonction H", est
strictement positive sur ]0, +00[.
n s'ensuit que H est bien convexe sur IR+, ce qui achève la
démonstration.
Exercice V.2. Soient X et Y deux variables aléatoires symétriques et
soient XI et y 1 deux variables aléatoires ayant même loi que IXI et
IYI respectivement. Montrer que
(1) (X <s Y)
(XI <s. YI)
et que
(2) (X <r Y)
(Xl <r* YI).
Remarque. Les équivalences proposées impliquent le théorème
V.3.3 et le généralisent quelque peu.
56
II. STATISTIQUES D'ORDRE
Soient F, 0, FI et 0 1 les fonctions de répartition respectives de X, Y,
Xl et y l' Exprimons FI et 0 1 au moyen de F et de 0, puis F 1 - l et G
1 - l au moyen de F- 1 et de G- l . On sait que, si x < 0, FI (x) = G l
(x) = O. Supposons donc x
O. On a
F 1 (x) = P(X 1
x) = P(IXI
x) = P(-x
x) = P(X
x) - P(X < -x) = P(X
x) - P( -x < -x) (car X et -X ont la même loi)
= P(X S x) - P(X > x) = P(X S x) - (1 - P(X S x» = 2 F(x) - 1.
Pour nous placer dans les hypothèses de définition des ordres <s et
<r, on suppose que F et G sont continues à l'origine, c'est-à-dire que
F(O) = G(O) =
, ce qUI 2 entraîne F 1 (0) = G 1 (0) = 0, c'est-à-dire la continuité de
FI et de G 1 à l'origine. On a donc
FI (x) = (2 F(x) - 1) 11 IR +(x)
et de même pour G 1.
Soit u un élément de ]0, 1 [. On a
F 1 - 1 (U) = Inf (x; Fl(x)
u} = Inf (x ; 2 F(x) - 1
u} u+l = Inf (x; F(x)
- } 2 1 u+l = F- (-) 2
d A G -1 et e meme pour 1 .
Pour montrer l'équivalence (1), il suffit de remarquer que
IR+ n (support de F) = IR+ n (support de FI)
et que, pour tout élément x de cet ensemble, on a
57
II. STATISTIQUES D'ORDRE
-1 -1 FI (x) + 1 -1 -1 (0 1 0 F 1 )(x) = 0 ( ) = 0 (F(x» = (G 0 F)(x). 2
Les fonctions 0 1 - 1 0 FI et 0- 1 0 F étant égales, la convexité de
l'une équivaut à celle de l'autre. Pour montrer l'équivalence (2), on
exprime G 1 - 1 , F 1 - 1 au moyen de 0- 1 , F- 1 , soit
\:1 u E ]0, 1[,
l ( U+ 1 J 1 G-- 0 1 - (u) 2 Fl'l(u) - Fl C;1 ) .
u+l 1 Puisque ( u E ]0, 1 [) équivaut à (- E ]-, 1 [), la croissance de la
fonction 2 2 G -1 0- 1 1
1 sur ]0, 1 [ équivaut à celle de - sur ]-, 1 [. F - F- 1 2 1
Exercice V.3. Démonstration de la seconde partie du théorème V.3.3
Soient X et Y deux variables aléatoires dont les fonctions de
répartition respectives F et 0 vérifient F(O) = 0(0) = O. Montrer que
(X <r* Y) => (\:1 a E IR, X a <r* ya).
Désignons par Flet 0 1 les fonctions de répartition respectives de X a
et ya. Elles vérifient FI (0) = 0 1 (0) = O. Soit x > O. On a
a F 1 (x) = P(X
x).
On est amené à séparer le cas "a > 0" du cas "a < 0", le cas "a = 0"
étant sans intérêt. Si a > 0, on a
FI (x) = P(X
x lia) = F(x lia).
Soit u un 61ément de ]0, 1[. On a
F 1 - 1 (U) = Inf{x ; F 1 (x)
u} = Inf {x ; F(x lla )
u}
et, par conséquent,
58
II. STATISTIQUES D'ORDRE
[F 1 - 1 (U)] lIa = F -l(u),
soit
F l-l(u)= [F -l(u)]a.
On a donc
(0 1 - 1 /F 1 - 1 ) = (0- 1 /F- 1 )a,
ce qui fait que la croissante de 0- 1 / F l implique celle de 0 1 - 1 / F1
-1.
Supposons maintemant a < O. On peut se contenter d'étudier le cas
où a = -1, puisque X a = (X- a )-1 et que la propriété est déjà
démontré dans le cas "a> 0". On a
1 1 1 FI (x) = P( -
x) = P(X
-) = 1 - F( - - 0). X x x
Soit u un élément de ]0, 1 [. On a
1 1 F 1 - (u) = Inf{x; F 1 (x)
u} = Inf (x ; 1 - F(- - 0)
u} x
1 = Inf{x ; F(- - 0)
l-u} x
d'où
1 1 =Sup{x;F(x-O)
l-u}. FI - (u)
On peut aisément vérifier que, pour tout élément v de ]0, 1 [, on a
Sup (x ; F(x - 0)
v} = F -l(v + 0),
en vérifiant que F -1 est continue à gauche et en considérant les
trois cas possibles, à savoir . F ne prend pas la valeur v, . F prend la
valeur v en un seul point, . F prend la valeur v sur un intervalle non
réduit à un point.
D'où
-1 1 FI (u) = F- 1 «1-u) + 0)
et
G 1-\U) F 1 - 1 (U)
F- 1 «1-u)+ 0) G- 1 «1-u)+ 0) .
59
II. STATISTIQUES D'ORDRE
La fonction G- 1 / P -1 étant supposée croissante sur ]0, 1 [, la
fonction <p définie
par
P-1(I_u) <p( u) = G- 1 (I-u)
est également croissante sur ]0, 1[. De plus, elle est continue à
droite et l'on a
G t - 1 (I-u) 1 = <p(u-O). P 1 - (l-u)
Il s'ensuit que la fonction G 1 -1/ FI -1 est croissante sur ]0, 1 [ et
que l'on a donc
bien
1 1 - <r* -. X Y
Remarque. Cette propriété, complétée par celle que l'on a montrée à
l'exercice précédent, permet d'écrire que
(X <r Y) => (\:la E IR, IXl a <r* IYl a ).
On peut aussi en déduire que, si a est un entier impair, on a
(X <r Y) => (X a <r y a ),
puisque les lois de X a et de ya sont alors symétriques et que l'on a
IXal <r* Iyal.
Exercice V.4. Autre démonstration du théorème V.4.1 1) Soit h une
fonction convexe sur un intervalle [a, b] (a < b). Montrer que la
fonction <p définie par
h(x) - h(a) <p(x) = x-a
est croissante sur l'intervalle ]a, b]. 2) Utiliser ce résultat pour
démontrer le théorème VA.], à savoir
(F <s G) => (F <r G).
1) Soient Xo et xI deux nombres réels tels que a < Xo < xI
b. Montrons que <p(x o )
<p(x 1 ).
60
II. STATISTIQUES D'ORDRE
Soit Â. l'élément de ]0, l[ tel que Xo = Â. a + (l-Â.) xl' On a, puisque h
est
convexe
h(Xo)
Â. h(a) + (l-Â.) h(x l )
d'où
h(x o ) - h(a) (1-Â.) (h(x l ) - h(x o » cp(x o ) =
, Xo - a (1-Â.) (xl - xo)
soit
cp(x o )
cp(x l ).
2) Soient F et G deux lois appartenant à Gj s dont les supports sont
des intervalles et qui possèdent des densités strictement positives
sur ces supports. On suppose que F <s G, c'est-à-dire que
G- I 0 F est convexe sur IR+ n (support F).
Désignons par A cet ensemble. On a A = [0, a] (a> 0) ou A = IR+. La
fonction cp définie sur A - {O} par
G l -1 G-l(F(x» _ G-I(F(O» G- 1 (F(x» <p(x) = - = = FI -1 x - 0 x
1 est croissante. Déduisons-en que G- l / F- l est croissante sur ]-, 1[.
Soient Do et u 1 tels 2 1 que - < 110 < u i < 1. Désignons par Xo et xl
les éléments de A - {O} définis par 2 F(x o ) = 110 et F(x 1 ) = u l .
On a 0 < Xo < xl' d'où cp(Xo)
cp(x l ), soit
G- 1 (F(x o » G- 1 (F(x 1 »
Xo xl
c'est-à-dire (G- 1 / F- 1 )(u o )
(G- 1 / F- 1 ) (u l ), ce qui achève la démonstration.
Exercice V.5. Soit £ un élément donné de l'intervalle ]0, 1[. A tout
nombre a strictement positif, on associe la loi
Ga = (1-£)
1 + £ Ôa.
61
n. STATISTIQUES D'ORDRE
1 ) Montrer que, si 1
b ou 0 < b
1, on a
Ga <r* Gb.
2) Soient X et Y a deux variables aléatoires indépendantes de lois
respectives F et Ga- Déterminer par sa fonction de répartition la loi
de Za = X Ya. Déduire du résultat de la question 1 une comparaison
de Za et
pour l'ordre "<r", lorsque F est une loi de Gj s à rapport de
vraisemblance monotone pour un paramètre (/ échelle. On
appliquera le théorème de Rivest (V.45.). 3) Appliquer le résultat de
la question 2 à la comparaison, pour l'ordre "<r", des lois cHc(E, cr)
pour une valeur donnée de E (exemple V.4.9).
1) Détenninons les fonctions Ga et G a - 1 .
Si a > 1, on a
Ga(X) = 1: - £
d'où
Ga'l(u) = { :
Si 0 < a < 1, on a
Ga(X) = E
d'où
l(U) = { :
si x < 1
si 1
x<a
si x
a,
si 0 < u
1 - E si 1 - E < u
1.
si x < 1 si a
x<1
si x
1,
si 0 < u
E si E < U
1.
Si a=l, G a = Ôl et l'on a G a - 1 (u) = 1 si O<u
1.
On en déduit que, si 1
b, on a
Gbl(U) = !
G a - 1 (u) - a
si 0 < u
1-E
si 1 - E < u
1,
62
II. STATISTIQUES D'ORDRE
d'où Ga <r* Gb, puisque Gb- 1 / G a - 1 est croissante sur ]0, 1[.
De même, si 0 < b
1, on a
! b Gb1(u) - G
l(u) = :
si 0 < u
si £ < u
1,
d'où Ga <r* Gb.
Remarque. Chacun des deux cas examinés peut se déduire de
l'autre en appliquant le résultat de l'exercice V.3, puisque, si Y est de
loi Ga, lN est de loi Gl/ a .
2) Désignons par Ha la fonction de répartition de Zao On a, en
supposant a:l: 1,
Ha(x) = P(Za
x) = P(X Y a
x)
= P( {X Y a
x} n (Y a = 1}) + P( {X Y a
x} n (Y a = a})
x = P( {X
x} n ( Y a = 1}) + P( {X
-} n (Y a = a}) a
x = P(X
x) P(Y a = 1) + P(X
-) P{Ya= a) a
x = (1-£) F(x) + £ F(-). a
Cette égalité est encore vérifiée si a = 1, puisque l'on a, alors, Ha =
F. En appliquant le théorème de Rivest et le résultat de la question 1,
on peut écrire que, SI 1
b ou 0 < b
1, on a Za <r Zb.
3) La fonction de répartition Fa de la loi eN c (£, cr) est définie par
Fa(x) = (1- £) <I>(x) + £ <I>(x/cr),
où <I> désigne la fonction de répartition de la loi cH (0, 1), puisque
eN c(£, cr) = (1-£) eN (0, 1) + £ eN (0, cr 2 ).
On sait, d'autre part, que eN (0, 1) est une loi de "s à rapport de
vraisemblance monotone pour un paramètre d'échelle. En
appliquant le résultat de la question 2, on peut donc écrire que, si 1
cr
cr' ou 0 < cr'
cr
1, on a,
eN c(£, cr) <r cH c(£, cr').
63
D. STATISTIQUES D'ORDRE
Remarque. La loi eN c(£, 1) qui n'est autre que la loi eN (0, 1) est un
minimum, relativement à l'ordre "<r" , de l'ensemble des lois eN c(£,
0) pour une valeur donnée de £.
Exercice V.6 1) Soient F et 0 deux lois continues appartenant à '1 s
et dont les supports sont des intervalles. Montrer qu'une condition
nécessaire et suffisante pour que l'on n'ait pas (F <r 0) est qu'il
existe des nombres réels Â., "0 et XI tels que
Â. > 0, 0 < "0 < Xh O(Â, "0) - F("o) < 0, O(Â. XI) - F(X1) > o.
2) Utiliser cette propriété pour montrer (exemple V.4.9) que, quels
que soient les nombres £ et £' tels que 0 < £ < E' < 1, il existe cr > 0
tel que l'on n'ait pas
eN c(£, a) <r eN c(£', cr).
1) Remarquons d'abord que, pour tout élément u de ]0, 1[,
l'ensemble {x ; F(x) = u} est un singleton. En effet, cet ensemble
n'est pas vide puisque F est continue et, si cet ensemble était un
intervalle non réduit à un point, cet intervalle ne ferait pas partie du
support qui ne serait alors pas lui-même un intervalle. On pourra
donc écrire que
Vue ]0, 1 [,
( X = F -I(u» <=> ( F(x) = u ).
Il en est de même pour G, bien sûr.
Supposons que l'on n'ait pas (F <r G), donc que G -1/ F -1 ne soit
pas croissante 1 . sur ]-, 1[. Il eXIste donc Uo et Ul tels que 2
1 - < Uo < Ul < 1 et (G -1/ F- I ) (Uo) > (0 -1/ F-I)(Ul)' 2
Posons Xo = F-l(u o ), XI = F-I(uI) et considérons un nombre réel Â.
(Â. > 0) tel que (G -1/ F-l)(Ul) < Â. < (G,I/ F
l)(Uo). On a 0 < Xo < XI et, d'autre part,
64
II. STATISTIQUES D'ORDRE
G-l(u ) (G- l /p-1)(Ul)<Â.)=> ( 1 <Â.) Xl
=> (G- 1 (Ul) < Â. Xl) => (Ul < G(Â.Xl) )
=> (G(Â.X1) - F(X1) > 0 ).
De même
( (G -1/ p-l)(Uo) < Â.) => (G(Â.Xo) - F(xo) < 0 ).
La condition nécessaire est donc établie.
Réciproquement, supposons qu'il existe Â., Xo et Xl tels que
Â. > 0, 0 < Xo < XI, G(Â.Xo) - F(Xo) < 0 et G(Â.X1) - F(X1) > O.
En posant U o = F(xo) et Ul = F(Xl), on établira aisément, en
s'inspirant de la démonstration précédente, que l'on a
1 - < U o < Ul < 1 et (G -1/ F- l )(U1) < Â. < (G -1/ F- 1 )(u o ) 2
1 ce qui signifie que G- 1 / F -1 n'est pas croissante sur ]-,1 [. 2
On laisse au lecteur le soin d'énoncer, par passage aux propriétés
contraires, une condition nécessaire et suffisante pour que l'on ait (F
<rG).
2) Soient e et e' tels que 0 < e < e' < 1. Montrons que l'on peut
trouver cr > 0 tel que l'on n'ait pas (eN c(e, cr) <r eN c(e', cr».
Désignons par F et G les fonctions de répartition respectives de eN
c(e, cr) et eN c(e', a). On sait qu'elles sont continues et strictement
croissantes sur IR. Posons, pour tout À > 0,
HÂ,(x) = G(Àx) - F(x).
Si <I> désigne la fonction de répartition de la loi eN (0, 1), on a
F(x) = (l-e) <I>(x) + e <I>(X) , cr
65
II. STATISTIQUES D'ORDRE
d'où
HÂ,(x) = (1-£') <I>(Àx) + £' <I>( À x ) - (1-£) <I>(x) + £ <I>( x ). cr a
La fonction HÂ, étant nulle en 0 et tendant vers 0 lorsque x
+00, montrons que l'on peut déterminer À > 0 et cr > 0 tels que sa
dérivée HÂ,' soit négative au voisinage de 0+ et de +00. Nous
serons alors assurés qu'il existe Xo et XI tels que
o < Xo < x}, HÂ,(x o ) < 0, HÂ,(X1) > O.
_ x 2 On sait que <I>'(X) = .b e 2 , d'où ,21t
2 2 Â, x 2 Â, x 2 x 2 _
ff1tHÂ,' (x) = À (1-£') e- 2 + £' Â. e- 20 2 _ (1-£) e- 2 _
e 20 2 . cr cr
On est assuré que HÂ,' est négative au voisinage de +00 si À > 1.
En effet, dans ce
cas, on a
_ Â, 2 X 2 _ X2
À (1-£') e 2
2 - (1-£) e
0-
+oo
et
_ Â,2 X2 _
co' À 2 0 2 £ 2 0 2
e--e
0- . cr cr
+oo
Supposons donc À > 1. Pour que HÂ,' soit négative au voisinage de
0, il suffit d'avoir HÂ,'(O) < 0, soit
À (1 - £') + £' À - (1 - £) -
< 0, cr cr
soit
1 À (1- £'+ ..E..:..) < 1 - £ + .£. , cr cr
ou encore
À<
1-£+
cr 1 1 - £' +
cr
66
II. STATISTIQUES D'ORDRE
Cette condition est compatible avec la précédente si
1<
l-E+£" cr , , 1 - E' + E.:.. cr
soit si
E' - E cr
< E' - E,
ce qui exige cr > 1.
Nous en concluons que, quels que soient £, £' et cr tels que
o < E < E' < 1 et cr > 1,
on n'a pas
eN c(£, cr) <r eN C(£', cr).
67
Chapitre III
EXEMPLES D'UTILISATION DES
STATISTIQUES D'ORDRE
Exercice 1.1 1) Soit {X n ; ne lN.} une suite de variables aléatoires.
On suppose que la loi de 1 1 X n est la loi (1 - -)
1 + - Sn. Déterminer la limite en loi de cene suite et vérifier que la n
n moyenne et la variance de cette loi limite ne sont pas égales aux
limites respectives de E (X n ) et de V (X n ). 2) En s'inspirant de la
question 3 de l'exercice V.S chap. Il, déterminer une suite {(En, crn) ;
ne lN.} d'éléments de [0, 1] x IR+. telle que la variance de la loi limite
de la suite {cH c(E n , crn) ; n E lN.} soit différente de la limite de la
variance de la loi cH c(E n , crn).
1) La fonction de répartition Fn de X n est définie par
1 1 Fn(x) = ( 1 - n) 11 [1, +oo[(x) + n 11 [n, +oo[(x)
et l'on a donc
'TI x E IR, Iim Fn(x) = 11 [1, +oo[(x), n-++oo
On en déduit que la loi limite est la loi
1 dont la moyenne et la variance sont respectivement égales à 1 et à
0, alors que
111 lE (X n ) = 1 - - + (-) n = 2 - - ---+ 2 n n n
n-++oo
et que
1 1 2 1 2 V (X n ) = 1- - + (-) n - (2 - -) ---+ +00. n n n n-++oo
(J)
III. EXEMPLES D'UTILISATION DES STATISTIQUES D'ORDRE
2) D'après la question 3 de l'exercice V.5 chap. II, nous savons que,
si Y est une variable aléatoire réelle indépendante de chacune des
variables aléatoires réelles X n ci- &.( u 1 .. dessus et de loi
(0,1), alors Zn = X n y est de loi ""1 c( -, n). La fonction de répartItion
n
G n de Zn est donc définie par
1 1 x Gn(x) = (1 - -) <I>(x) + (-) <1>(-), n n n
où <1> désigne la fonction de répartition de la loi eN (0, 1).
La loi limite de la suite {Zn; n e IN*} est donc la loi eN (0, 1), puisque
\:1 x e IR , lim Gn(x) = <I>(x),
+oo
et l'on a
lE (Zn) = lE (X n ) lE (Y) = 0,
1 V(Zn) = IE(Zn 2 ) = IE(Xn 2 ) lE(y 2 ) = n + 1 - -
+00. n
+oo
On peut donc proposer la suite définie par
\:1 n E IN*,
1 (En, crn) = ( -, n). n
On remarquera, en particulier, qu'il ne suffit pas que les lois de la
suite et la loi limite soient continues et admettent des moments
d'ordre quelconque pour que la variance de la loi limite soit la limite
de la suite des variances.
Exercice II.1. Montrer que l'on n'a pas
[-1, 1] <r eN (0, 1),
où "<r" désigne l'ordre de Lawrence.
Posons F =
[-1, 1] et G = eN (0, 1) et montrons que l'on n'a pas F <r G. On peut,
pour cela, s'inspirer de la remarque II.2.2 et vérifier que
eo ( X , X )
ep ( X , X) ,
70
III. EXEMPLES D'UTn..ISA TION DES STATISTIQUES D'ORDRE
ce qui, d'après le théorème II.2.1, contredit l'hypothèse "P <r G".
Ona
-- (2 1 2 ep(X, X) = 4 f (0) V p = 4 - =- 6 3
et
-- 2 2 2 eo(X, X) = 4 g (0) V G = - < -. 1t 3
On peut aussi effectuer une démonstration directe en montrant que
la fonction G- 1 (.) / p-l (.) n'est pas croissante sur]
, 1[. 2 On a, pour x e [0,1],
f(x) = 1 - x,
d'où
1 x 2 P(x) = - + x - -. 2 2
1 On en tire, pour u E] -, 1 [, 2
p-1(U) = 1 -
2 (l-u).
Au lieu d'étudier les variations de la fonction G- 1 (.) / F- 1 (.), on
peut se contenter de regarder quelques valeurs numériques. On sait
que
G- 1 ( ) f ( O ) lim 1 U = - = V2 1t = 2.51 u
(1I2)+ F- (u) g(O)
et l'on a
G- 1 (0.6) / P-l(0.6) = 0.253 /0.106 = 2.39.
Cela suffit pour afftrmer .que G- 1 (.) / p-1(.) n'est pas croissante sur
]
, 1 [ et 2
nous donner le résultat demandé. Remarquons que la fonction G- 1
(.) / p-l(.) n'est pas non plus décroissante sur ]
, 1 [, puisqu'elle devient infinie lorsque u tend vers 1-. On n'a donc
pas non 2 plus G <r P. Les lois t; [-1, 1] et eN (0, 1) ne sont pas
comparables pour l'ordre <r.
71
III. EXEMPLES D'UTR..ISA TION DES STATISTIQUES D'ORDRE
Exercice II.2. Soit F une loi appartenant à (cN c (£, a); (£, a) E [0,1] x
IR+*}. +* - - Déterminer la région de [0, 1] x IR dans laquelle t;: (X, X)
1. (Kubat, 1979) On sait que e F (X, X ) = 4 f2(0) V F' où f désigne la
densité de F et VF sa variance. Puisque
F = cN c (£, a) = (1- £) cN(O, 1) + £ eN (0, ( 2 ),
ona
f (0) = --L (1 - £ +
) Y21C a
et
V F = 1-£+£a 2 ,
d'où
- - 2 £ 2 -2 eF(X, X) = - ( 1 - £ + -) (1 - £ + £ (J). 1C a
On remarque que, si £ = 0 ou £ = 1 ou a = 1, c'est-à-dire si F est une
loi - - 2 normale centtée, on a eF(X, X) = K < 1. Ces cas étant
exclus, on a
(e F (X, X )
1)
(g(£, cr)
),
où l'on a posé
£ g(£, a) = (1 - £ + _)2 (1 - £ + £ cr). a
Pour préciser la région cherchée, on peut, par exemple, fixer £ (£ E
]0, 1 [) et étudier sur IR # la fonction
définie par
g£( cr) = g(£, cr).
Ona
2£ £ 2£ £ g£'(a) = - (1 - £ + - ) «1 - £) a3 + £ - 1) = - (1 - £ + -) (1- £)
(03 - 1). 2 2 2 2 a a a a
72
III. EXEMPLES D'UTILISATION DES STATISTIQUES D'ORDRE
Cette expression est du signe de (cr -1). Comme, d'autre part, on a
lim g£(cr) = lim g£(cr) = + 00 et g£(I) = 1, 0-+0+ a-H-oo
on en déduit que l'équation g£(cr) =
admet deux racines encadrant 1 et que l'on a g£( cr)
à l'extérieur de l'intervalle ouvert que déterminent ces deux racines.
La forme de la région D cherchée apparaît alors et l'on peut faire un
tracé sommaire de la courbe
qui la limite et qui est définie par
= {( E, cr) E ]0, 1 [ x rR +* ; g (£, cr) =
}.
On peut obtenir plus de précision dans le tracé de la courbe <6 en
effectuant quelques calculs numériques, mais aussi en déterminant
les points de
à tangente horizontale (voir figure 1). Pour cela, cherchons pour
quelles valeurs de cr l'équation g(£, cr) =
admet une seule racine £ sur l'intervalle ]0, 1[. On peut remarquer
qu'il suffit de se limiter au cas où cr > 1, car on a
g(1 - £, 1.) = g(£, cr). cr
Etudions, sur l'intervalle ]0, 1 [ et en nous limitant à cr> 1, la fonction
go définie
par
ga(E) = g(£, cr).
On obtient, après un calcul que le lecteur est invité à effectuer,
(cr-1)2 1 ga' (£) = (1 - £ cr - ) (cr + 2 - 3 (cr + 1) £) cr cr
et l'on vérifie que, sur [0, 1], ga' est du signe de (cr + 2) - 3 (cr + 1) E.
On en déduit que la fonction & passe par un maximum pour
cr+2
3 (cr + 1)
(e ]0, ID
£=
et, puisque g.,(0) = g.,(1) = 1 < ; , le nombre de racines de l'équation
g.,(e) = ; dépend du signe de
73
III. EXEMPLES D'UTll..ISATION DES STATISTIQUES D'ORDRE
cr+2 1t g( )--= a 3 (cr + 1) 2
2 4 (cr + cr + 1)3 1t 27 cr 2 (cr + 1)2 2
Un calcul approché élémentaire montre que cette expression
s'annule pour cr o = 2.22 et crI = l/cr o = 0.45. Les valeurs
correspondantes de £ sont Eo = 0.44 et £ 1 = 1 - £0 = 0.56. On peut
alors effectuer un tracé relativement précis de la courbe
(figure 1).
cr o 2
cri .................................
£0
£1
1
Figure 1
Remarque. On constate que
,...., - \:1 £ E [0, 1], \:1 cr E ]crl, cr o [ , ef(X, X) < 1.
C'est dire que, si al < a < a o , la médiane empirique est un moins
bon estimateur du paramètre de localisation pour la loi eN c(£,cr)
que la moyenne empirique, et ceci indépendamment de la valeur de
E. C'est le cas, en particulier, si l'on sait que a est voisin de 1.
74
III. EXEMPLES D'UTn..ISA TION DES STATISTIQUES D'ORDRE
Exercice In.l. Montrer que, si F est une loi de "s et si Xa désigne la
moyenne empirique a-tronquée, on a
[J P - 1 (1_a) ] V F ( Xa ) = (1 - 2ar 2 0 t 2 dF(t) + a 2 (F'l(1 - a»2 .
D'après le théorème 111.3.9 chap. II, on sait que
1 [ 1 J 2 Vp( Xa) =
A 2 (u)du -
A (u) du .
où la fonction A vérifie
A'(u) = J (u) (F-1)'(u). a
La fonction J a est la fonction de poids de la moyenne a-tronquée,
soit
1 \:1 u E [0, 1], Ja(u) = 11 [a, 1-a](U). 1- 2a
1 Puisque cette fonction est symétrique par rapport à - et que la loi F
est une loi 2
symétrique par rapport à 0, on peut écrire
- f I 2 V p ( Xa) = 2 A (u) du, 1/2
1 si l'on a imposé A( -) = 0, ce qui suffit pour réaliser 2
1 f A(u) du = O. o
75
III. EXEMPLES D'UTn..ISATIONDES STATISTIQUES D'ORDRE
1 La fonction A ainsi choisie est définie sur [-, 1] par 2
1 F- 1 (u) 1- 2a 1 F- 1 (1 _ a) 1- 2a
1 si -
1- a, 2
A(u) =
si 1 - a
1,
d'où
VF (X a ) = (1 - 2ar 2 [ {-a (Fl)2(u) du + a 2 (p-l(1 _ a»2 ] . 1/2
ou, encore, en posant t = p-l(u),
[ -1 ] F (l-a) V F ( Xa ) = (1 - 2ar 2 i t 2 dF(t) + a 2 (Fl(1 - a»2 .
Exercice 111.2. Soit F une loi appartenant à "s dont la densité est
continue et strictement positive en O.
1 1 ) Montrer que V F (X ) est la limite de V F(X a ) lorsque a tend
vers par 2
valeurs inférieures. En déduire que la conclusion du théorème
111.2.1 est encore vérifiée si /' on y remplace X
par X, à condition de supposer que G vérifie les mêmes hypothèses
que P. 2) On suppose que la loi F est fortement unimodale. En
utilisant le résultat de la question 4 de l'exercice /V.S, montrer que
1 \:1 a e [0, -], 2
1+4a
_ 1 - 2 a (1 - Log (2 a»
eF(X, Xa)
2 3 (1 - 2 a)2
3) Application. Déduire de ces inégalités, écrites pour a = 0, qu'il
existe des lois normales contaminées qui ne sont pas fortement
unimodales. Plus précisément, montrer que, pour tout élément £ de
]0, 1 [, il existe cr> 0 tel que la loi .H c(£, cr) ne soit pas fortement
unimodale. (Loh 1984a)
76
III. EXEMPLES D'UTILISATION DES STATISTIQUES D'ORDRE
1) D'après l'exercice 111.1, on a
[I F - I (1_a> ] V F<X a ) = 2 2 t 2 dF(t) + a (F"l(l _ a»2 (1 - 2a) 0
et l'on sait que
- 1 Vp(X) = 4 (2(0) .
1 Lorsque u tend vers -, on a 2
1 F- 1 (u) = p-l(u) _ F- 1 ( _) "V 2
(u -
) (F-l)'(
) 2 2 1 "V (u - -) / f(O), 2
1 d'où, si a tend vers -, 2
1 F- I (1 - a) "V (- - a) / f(O). 2
D'autre pan, en appliquant à l'intégrale I F - I (l-Q> f F-l(1-Q> t 2
dF(t) = t 2 f(t) dt o 0
la formule de la moyenne, on vérifie qu'elle est un infiniment petit
d'ordre au moins égal 1 à 3 relativement à (- - a). 2
On a donc
2a (112 - a)2 V P(X a ) = "V (1 _ 2a)2 f(O) a-+(1flf
1 ---+ 4 r(O) = V f(X). a-+(lflf
1 D'après le théorème Ill.2.1, si F <r G et si 0 S a
J3 < -, on a 2
e p(Xp , Xa)
eo (Xp , X a ),
77
III. EXEMPLES D'UTILISATION DES STATISTIQUES D'ORDRE
soit
v p(XcJ / V p (Xp )
V o (XcJ / V o (Xp ).
1 En supposant que 0 < f(O) < +00 et 0 < g(O) < +00 et en faisant
tendre J3 vers - 2
par valeurs inférieures, on obtient
ep(X, Xa )
eo(X, X a ).
2) Si la loi F est fortement unimodale, on sait que 0 < f(x) < +00 en
tout point x tel que 0 < F(x) < 1. En particulier, 0 < f(O) < +00
puisque F appartient à "s et sa densité vérifie ainsi les hypothèses
de l'énoncé. D'autre part, d'après le résultat de la question 4 de
l'exercice IV.5, on a
U [ -1,1] <s F <s S) e(O, 1),
donc
U[-l,l] <r F <r S)e(O, 1)
et l'on peut appliquer le résultat de la question précédente pour
obtenir un encadrement de ep( X , X a ). Si G désigne la loi U[ -1,1],
on a
eo( X , Xa ) = V o (X a ) / V o( X ) = 4 g2(O) V o (X a ) = V o (X a )
[ 0-1(1-«) 2 ] = 2 2 f
dt + a (G- 1 (1 - a»2 , (1 - 2a) 0 2
soit, puisque G- 1 (1 - a) = 1 - 2a,
- - 2 eo(X, Xa) = 2 (1 - 2a)
( ( 1 - 2a)3 J 6 + a (1 - 2a)2
1+4a
3
'.
78
III. EXEMPLES D'UTILISATION DES STATISTIQUES D'ORDRE
1 Si, maintenant, G désigne la loi
e(O, 1), on a g(x) = - e- 1xl , d'où 2
ec;( X , Xa ) = 4 g2 (0) V G (X a ) = V G (X a ),
soit, puisque G- 1 (1 - a) = - Log (2a),
[f - Log (2a) 2 ] ""- 2 t t 2 eG(X, Xa) = 2 - e- dt + a Log (2a) (1 - 2a) 0
2
= 2 2 ( [- ( t 2 + t + 1) e'tr Log (2a) + a Lol(2a) J (1 - 2a) 2 0 2 2 (1 -
2a (1 - Log (2a»). (1 - 2a)
=
On obtient bien le résultat demandé.
Remarque. On peut montrer aisément que cette dernière expression
est une fonction décroissante de a. Comme elle tend vers 2 quand a
tend vers 0, on peut écrire que, si F est fortement uni modale et
appartient à "s, on a
1 \:1 a E [0, -[ , 2
l "" - -
eF(X, Xa)
2. 3
3)Application. Pour a = 0, l'encadrement obtenu s'écrit
l '" _ -
eF(X, X)
2. 3
Or, on a vu à l'exercice Il.2 que, si F = cN c (£, cr), on a
""- 2 E 2 2 eF(X, X) = - (1 - £ + -) (1 - £ + £ cr ). 1t cr
Lorsque £ est un élément de ]0, 1 [, cette efficacité peut prendre des
valeurs supérieures à 2 puisqu'elle devient infinie si cr tend vers 0 ou
devient lui-même infini. On en déduit qu'il existe des lois normales
contaminées non fortement unimodales et, même, que pour tout E
appartenant à ]0, 1[, il existe des lois eN c(e, 0) non fortement
unimodales.
79
III. EXEMPLES D'UTILISATION DES STATISTIQUES D'ORDRE
Remarque. Cette méthode ne pennet pas de savoir si une loi
donnée, en particulier une loi nonnale contaminée, est fortement
unimodale. Par exemple, si F = .H c(O.I, 3), on obtient ep(X, X) =
0.998 et l'on ne peut conclure. Cette loi, en fait, n'est pas fortement
unimodale, comme on pourra le voir en montrant que la fonction -
Log f n'est pas convexe ou encore fi que la fonction - - n'est pas
croissante. Le lecteur qui souhaiterait faire le calcul pourra f
vérifier que
fi f' - - (2.9) > - - (3.1), f f
ces deux tennes étant respectivement égaux à 1.3 et à 1.1.
Exercice IV.I. Déterminer un L-estimateur asymptotiquement efficace
pour la loi
(0, 1).
D'après le théorème IV.1.5, un L-estimateur asymptotiquement
efficace pour une loi F de ,. s est obtenu à partir de la fonction de
poids J définie par
\:1 u e ]0, I[ , J(u) = b'(F- 1 (u» / 1(1),
f' où b = - -. f On vérifie aisément que la loi :;fi (0, 1) répond aux
hypothèses de ce théorème. Pour cette loi, on a
-x e f(x) = 2 = F(x) ( 1 - F(x) ), (e- x + 1)
d'où
b(x) = 2 F(x) - 1
et
b'(x) = 2 f(x).
Comme, d'autre part, on a
-1 U F (u) = Log _ 1 ' - u
on en déduit
J(u) = 2 u (1 - u) / I(t).
80
III. EXEMPLES DtUTILISATION DES STATISTIQUES D'ORDRE
Puisque J est une densité et que
t f U (1 - u) du =
,o6
on a donc
J(u) = 6u (1 - u).
1 On remarque que I(f) = -, ce que l'on peut retrouver en écrivant
que 3
1 1(f) = f b 2 (F'l(u» du. o
Un L-estimateur T n asymptotiquement efficace pour la loi
(0, 1) est donc défini
par
1 n i 6 n Tn=-LJ(-) X(i)= 2 Li (n+l-i)X(i)' n i =1 n + 1 n (n + 1) i=l
Exercice IV.2. A tout nombre réel k strictement positif, on associe la
loi Fk dont la densité fk est continûment dérivable sur IR et définie
par
! 2 k -x /2 1 e fk(x) = -k3 lxl k 2 e
si Ixl
k,
si Ixl > k,
où k1, k2 et k3 sont des nombres réels. 1) Déterminer kt, k2 et k3. 2)
Soit a = Fk(-k). Montrer que la moyenne asymptotiquement efficace
pour la loi Fk.
a-tronquée est un L-estimateur
1) Pour que la densité fk et sa dérivée soient continues aux points k
et -k, il faut et il suffit que l'on ait
1 k _k 2 /2 -kk3 le =k 2 e , k 2 /2 -kk3 kt k e- =
k3 e ,
81
III. EXEMPLES D'UTILISATION DES STATISTIQUES D'ORDRE
d'où nous tirons
k3 = k et
= kt e k /2.
Enfm, écrivons que fk est une densité, c'est -à-dire
+00 k +00 2. = i ft(x) dx = k l i e,à2 dx +
f e- kx dx 2 0 0 k 1 k 2 _k2 = k 1 Y21t (<1>(k) - -) + - e , 2 k
où <1> désigne la fonction de répartition de la loi cH (0, 1). On a
donc
= k 1 e -k /2, 1{l 1 1 _k2{l 1 k 1 [(21t) (<1>(k) - -) + - e ] = -. 2 k 2
Si l'on désigne par <p la densité de la loi cH(O, 1), on peut écrire
2 k1 Y21t [ 2 cI>(k) - 1 + - <p(k) ] = 1, k
et l'on obtient donc
2 k 1 = (21tr 1 /2 [2cI>(k) - 1 + - <p(k)r 1 , k
_k 2 /2 k 2 = k 1 e , k3 = k.
2) Ecrivons la densité fk sous la forme
! k _x2/2 1 e fk(x) = 2 k k {l - k Ixl 1 e
si Ixl
k,
si Ixl
k,
où k1 est déterminé ci-dessus. Pour trouver un L-estimateur
asymptotiquement efficace pour la loi Fk, appliquons, comme dans
l'exercice précédent, le théorème IV.l.5. On notera toutefois que la
dérivée seconde de la densité fk n'est pas continue pour Ixl = k, ce
qui ne met pas en défaut la démonstration du théorème.
82
III. EXEMPLES D'UTILISATION DES STATISTIQUES D'ORDRE
On détermine donc la fonction de poids Jk du L-estimateur cherché
par
\:1 u e ]0, 1 [, Jk(u) = 11c'(F k 1 (u» / I(f k ),
f' où
=-
. On a f k
bk(x) = { X Ixi k- x
si Ixl
k,
si Ixl
k,
soit
bk'(x) = {
si Ixl < k si Ixl
k,
, d'où
Jk(U) = {
/ I(f k ')
si 1 F k 1 (u) 1 < k, sinon.
Or
( 1 F k 1 (U) 1 < k )
(::) ( -k < F k 1 (U) < k ) (::) (Fk(-k) < u < Fk(k) ) (::) ( a < u < 1 - a ),
puisque l'on a posé a = Fk(-k).
D'où, fmalement,
1 Jk(U) = - l1]a l-a[ (u), 1 (f k ) ,
soit, puisque Jk est une densité
1 Jk(U) =
]a,l-a[(U). 1- 2a
On reconnaît la fonction de poids de la moyenne a-tronquée.
83
III. EXEMPLES D'UTILISATION DES STATISTIQUES D'ORDRE
Remarque. On pourra vérifier que l'on a
<p(le ) a=k1 fEë-. k
Exercice IV.3. A tout nombre réel t supérieur ou égal à 1, on associe
la loi F't dont la densité f't est définie par
\:1 x e IR,
't f't(x) = K't e - Ixl ,
où K't désigne un nombre réel. 1) Calculer K't et montrer que
(1
t' < t) ::) (F't <r F't'),
où "<r" désigne l'ordre de Lawrence. On utilisera le résultat de la
question 1 de l'exercice V.6 chap. II. 1 - 2) Etant donné un élément a
de ]0, -[, on désigne par X
n le L-estimateur 2 ·
dont la fonction de poids la est définie par
1 J a = 2a. (1l IO,al + 11 [l-a,lO.
Montrer que toute loi F't pour laquelle t > 2 admet un L-estimateur X
.n asymptotiquement plus efficace que Xn . On sera amené, sachant
que la/onction Log r est strictement convexe, à utiliser le résultat de
la question 1 de l'exercice IV 5.
1) On a
+00 +00 1 _ f - Ixl't d - 2f - X 't dx K - e x- e 't _ 0
+00 2f - u 1 1/'t-1 d = .e -u u o t
2 1 t+ 1 = - r( -) = 2 r( - ), t t t
84
III. EXEMPLES D'UTILISATION DES STATISTIQUES D'ORDRE
d'où
( 't+1 J -1 K't = 2 r(
).
On peut remarquer que FI = f)e(O, 1), que F2 = .N (O,
) et que la limite de F't, 2 lorsque 't devient infini, est U[_I, 1].
Soient 't et 't' tels que 1
't' < 't. Pour montrer que F't <r F't', utilisons la propriété démontrée à
la question 1 de l'exercice V.6 chap. II en montrant qu'il n'existe pas
trois nombres réels À., Xo et x 1 tels que
À >0,
o < Xo < x},
H)..(x o ) < 0,
H)..(x 1) > 0,
où l'on a posé
H)..(x) = F't' (Àx) - F't(x).
Etudions le signe de H)..(x) sur IR+ et, d'abord, celui de sa dérivée
't' 't H '(x) = À. K e- (u) - K e- x ).. 't' 't 't 't 't' K = À K't' e- x [ex - ()..x) _
] . À. K, 't
Le signe de H)..'(x) est celui de l'expression entre crochets,
expression que nous désignons par u(x). Posant
v(x) = x't - (À.x)'t',
on a
K V ( x ) 't u(x) = e - - À. K, 't
et, puisque
v(x) = x't (1 - À. 't' x't'-'t ),
nous avons
u(x) -----+ +00.
X -.+00
85
III. EXEMPLES D'UTILISATION DES STATISTIQUES D'ORDRE
D'autre part,
v'(x) = t X't-1- t' À.'t' X't'-l
= X't'-l [ t X't-'t' - t'À.'t' ].
La fonction v' s'annule donc une fois sur ]0, +oo[ en étant d'abord
négative, puis positive. Il s'ensuit que la fonction v, donc la fonction u
également, est d'abord décroissante, puis croissante. Le signe de
u(x) dépend donc de celui de u(O) qui dépend lui-même de À..
D'autte part, la fonction H)..' s'annule au moins une fois sur ]0, +00[,
puisque
H).. (0) = lim H).. (x) = O. X-Hoo
Examinant alors les deux cas possibles (le lecteur est invité à
dresser un tableau de variation), nous obtenons les résultats
suivants. . Si u(O) S 0, la fonction H).. est décroissante, puis
croissante, donc strictement négative sur ]0, +00[. . Si u(O) > 0, la
fonction H).. est croissante, puis décroisssante, puis croissante. Elle
s'annule une fois sur ]0, +oo[ en étant d'abord positive, puis
négative. C'est dire qu'il est impossible de trouver À., Xo et Xl tels
que
À. > 0,
o < Xo < XI,
H)..(Xo) < 0,
H)..(X1) > o.
On a donc bien
F't <r F't' .
2) On suppose t > 2 et l'on se propose de montrer que l'on peut
trouver un élément 1 a de ]0, -[ tel que 2
-c - VF (Xn) Cp't(){a,n, X n ) = V
(x
,n> > 1.
On sait que V
(Xn ) est la variance de la loi F't, soit
- f +- 2 V
(Xn) = 2 x f't(x) dx. o
86
III. EXEMPLES D'UI1LISATION DES STATISTIQUES D'ORDRE
D'autte part, d'après le théorème IV. 1.3, on a
1 [ 1 ] 2 V"'
.,,) =
A 2(u) du -
A(u) du .
où
Vue ]0, 1[, A' (u) = Ja(u) (F-l)' (u). 1 En imposant, de plus, A(-) = 0,
on obtient 2
1 V"' (X
.n) = 2 f A 2(u) du. 1/2
1 La fonction A est ici définie sur [-, 1[ par 2
1 si -
1 - a, 2
A(u) =
1 1 1 - [F (u) - F- (1- a)] 2a 't 't
si 1 - a
u < 1,
d'où
1 VF
(X
.n> =
f (F-l(u) - F- 1 (1 - a» 2 du 2 't 't 2a l-a =
f-(t - t./ f't(t) dt . 2a t o
où l'on a posé ta = F- 1 (1 - a). Puisque a = 1 - F (ta), on obtient 't 't
(1 - F (t »2 +- - - 't 0 f 2 e F (X
.n, X n ) = 4 x f (x) dx . 't
't f (t - t./ f't(t) dt 0 t o
87
III. EXEMPLES D'UTILISATION DES STATISTIQUES D'ORDRE
En remarquant que cette expression est égale à 1 pour 10 = 0, ce
qui était prévisible 1 (a = -), il nous suffit de montrer qu'elle est
supérieure à 1 lorsque t est voisin de 0 à 2 droite, ce que nous allons
faire en monttant que la fonction '1' définie par
2 ( 1 - F (x) ) 't 'l'(x) = +00 f (t - x)2 f't(t) dt x
admet une dérivée strictement positive en O.
Ecrivant que 'l'(x) = a 2 (x) / b(x), on a
'1"(0) = a(O) ( 2 a'(O) b(O) - a(O) b'(O) ) / b 2 (0) ,
avec
1 a(O) = -, 2
+00 +00 b(O) = f t 2 f't(t) dt = K't f t 2 e-I't dt o 0
3 +00
_ 1 K r( - ) f -u l 't 't 3 't = K't e (-) u dt = - r(-) = l ' o 't 't 't 2r( _ ) 't
a'(O) = - ft(O) = - Kt,
2 +00 K r( - ) f 't 2 't b'(O) = - 2 t f (t) dt = - 2 - r( - ) = - 't 1 o 't 't r( _ ) 't
Le signe de '1"(0) est donc celui de
3 2 r( - ) r( - ) 't 't - Kt 1 + 1 r( -) 2r( - ) 't 't
88
III. EXEMPLES D'UTILISATION DES STATISTIQUES D'ORDRE
soit celui de
2 t+1 3 r( - ) r( - ) - r( - ). t t t
Or, la fonction Log r étant strictement convexe, nous en déduisons,
en appliquant à la fonction 1/ r le résultat de la question 1 de
l'exercice IV.5, que, si y > 0, la fonction r(.) / r(y +.) est strictement
décroissante sur IR +. 2 Puisque - < 1, on a donc t
\:1 Y > 0,
2 r(- ) t r(l) 1 2 > = r( y + _) r(y + 1) r(y + 1) t
1 En prenant y = -, on obtient le résultat cherché, à savoir '1"(0) > 0,
ce qui achève la t
démonstration.
Exercice IV.4. Déterminer la courbe d'influence d'une moyenne
empIrIque a-tronquée pour une loi F satisfaisant aux conditions du
théorème IV.1.3. On se placera en particulier dans le cas où F
appartient à "s (voir exemple IV.3.3).
Puisque la loi F satisfait aux conditions du théorème IV.1.3, on peut
utiliser le résultat du théorème IV.3.1, à savoir
+00 +00 Ic(x ; F, T) = f F(t) J(F(t» dt - f J(F(t» dt, ...00 x
que nous écrivons sous la forme
1 1 Ic(x ; F, T) = i u J(u) dF,l(u) - i J(u) dFl(u). o F(x)
Pour la moyenne empirique a-tronquée Xa , on a
J(u) = (1 - 2ar 1 1l ]a,l- a[(u),
89
III. EXEMPLES D'UTILISATION DES STATISTIQUES D'ORDRE
d'où
[f 14 1 ] Ic(x ; F, Xa ) = (1 - 2ar 1 u dFl(u) -11 ]«,l-«[(U) dF-l(u) , a F(x)
(1-2ar l [f-« u dFl(u) - F 1 (1-a) + F1(a)] si X
F1(a), Ic(x ; F, Xa ) = (1-2ar l [ f-« U dF1(u) - F 1 (1 - a) + x ] si FI (a)
F,l(l-a), (1-2ar l r-« u dFl(u) a
si x
F- 1 (I-a).
On remarque que cette courbe d'influence est continue et bornée.
Dans le cas où la loi P appartient à "s, on peut simplifier les fonnules
ci-dessus en écrivant que
f 1-a J l-a u dF- 1 (u) = [ u F-1(u) ]
- a - F- 1 (u) du a a
= (1 - a) p-l(l-a) - a F 1 (a) = F-1(1-a),
puisque
P- 1 (1-u) = - F- 1 (u).
On retrouve alors les fonnules données à l'exemple IV.3.3, à savoir
(1 - 2ar 1 F1(a) Ic(x; F, Xa ) = (1 - 2ar 1 x (1 - 2ar 1 P- 1 (1 - a)
si x S F-1(a), si F- 1 (a)
x S F 1 (1 - a), si x
F-1(1 - a).
On remarque que cette courbe d'influence est une fonction impaire.
90
III. EXEMPLES D'UTILISATION DES STATISTIQUES D'ORDRE
Exercice IV.5. Etude des lois fortement unimodales 1) Soit f une
application de IR dans IR +*. On pose cp = - Log f. Montrer que,
pour que cp soit convexe, il faut et il suffit que, pour tout réel positif
u, la fonction gu définie par
f(x) gu (x) = f(x + u)
soit croissante. Pour montrer que la condition est sujJisante, on se
souviendra que, pour que cp soit convexe, il sujJit que
\:1 (a, b) E IR 2 ,
a+b 1 cp( - )
- (cp(a) + cp(b». 2 2
2) Soit F une loi appartenant à <1 et dont la densité f est strictement
positive en tout point de IR. Déduire du résultat de la question 1 que,
pour que F soitfortement unimodale (voir R .III.]), il faut et il suffit que
F soit à rapport de vraisemblance monotone pour un paramètre de
localisation, c'est-à-dire telle que, pour tout réels Jl et Jl' vérifiant Jl <
Jl', lafonction f(. - Jl') / f(. - Jl) soit croissante. Cette propriété peut-
elle être étendue au cas où la densité f n'est pas strictement positive
sur tout IR ? 3) Vérifier que le fait, pour une loi, d'être fortement
unimodale ne dépend pas du paramètre de localisation-échelle.
Déterminer parmi toutes les lois usuelles appartenant à " (voir pages
323 à 325, tome 1) celles qui sont fortement unimodales (pour les
lois normales contaminées, on se reportera à l'exercice 111.2). Les
lois étudiées aux exercices /V.2 et /V.3 sont-elles fortement
unimodales ? 4) Soit F une loi fortement unimodale appartenant à "s.
Montrer que
U[-I,I] <s F <s fDe(O, 1).
On pourra se reporter à l'exercice V.l chap. II pour la première de
ces inégalités. Pour démontrer la seconde, on utilisera le résultat de
la question 1 ci-dessus.
1) Supposons la fonction cp convexe et montrons que gu est
croissante si u > O. Soient Xl et X2 tels que Xl < X2. On remarque
que Xl + U et X2 appartiennent à l'intervalle ]x}, X2 + u[ et que
(Xl + u) + X2 = Xl + (X2 + u).
91
ln. EXEMPLES DtUTILISATION DES STATISTIQUES D'ORDRE
TI existe donc un élément Â. de l'intervalle ]0, 1[ tel que
Xl + U = Â. Xl + (1 - Â.) (X2 + u), X2 = (1 - Â.) Xl + Â. (X2 + u),
d'où
cp(X 1 + u)
Â. cp(x 1) + (1 - Â.) CP(X2 + u), CP(X2)
(1 - Â.) CP(X1) + Â. CP(X2 + u).
En additionnant ces deux inégalités, on obtient
CP(X1 + u) + CP(X2)
CP(X1) + CP(X2 + u),
soit
f(X1 + u) f(X2)
f(X1) f(X2 + u)t
ou encore
gu(X1)
gu(X2),
ce qui montre que la fonction gu est croissante. Supposons la
fonction gu croissante pour tout u > 0 et montrons que cp est
convexe. Etant donné deux éléments a et b de IR 2 , montrons que
a+b 1 cp( - )
- (cp(a) + cp(b», 2 2
ce qui suffit pour établir la convexité de cp.
b-a Supposant a < b, ce qui n'enlève rien à la généralité, on pose u
= - et on écrit 2
que
a+b gu(a)
gu( - ), 2
soit
a+b f(-) 2 f(b)
f( a)
a+b f(-) 2
d'où
a+b Log f(a) + Log f(b)
2 Log f( - ), 2
92
III. EXEMPLES D'UTILISATION DES STATISTIQUES D'ORDRE
ce qui est l'inégalité cherchée.
2) Soient x, x', Jl et Jl' des nombres réels tels que x < x' et Jl < Jl'.
L'inégalité
f(x - Jl') f(x'- Jl ')
f(x - Jl) f(x'- Jl)
peu t s'écrire
gu(x 1)
gu(X2),
, " , en posant u = Jl - Jl, xl = X - Jl, x2 = x - Jl . Le fait, pour F, d'être
à rapport de vraisemblance monotone pour un paramètre de
localisation équivaut donc à la croissance de la fonction gu pour tout
u > 0, propriété elle- nlême équivalente à la convexité de la fonction
- Log f (question 1), laquelle caractérise les lois fortement
unimodales à densité strictement positive. Si la densité f n'est pas
strictement positive sur tout IR, on définit encore la forte unimodalité
de F par la convexité de la fonction cp = - Log f, mais en considérant
que cp prend ses valeurs dans IR. Dans ce cas, si cp est convexe, il
est aisé de montrer que l'ensemble sur lequel elle est finie est un
intervalle. C'est dire que la densité f est strictement positive sur
l'intervalle ouvert (x; 0 < F(x) < 1} et qu'on peut la prendre nulle en
dehors de cet intervalle. Afin d'éviter les expressions de la fonne
"0/0", on dit qu'une loi est à rapport de vraisemblance monotone
pour un paramètre de localisation si, pour tous réels x, x', Jl et Jl' tels
que x < x' et Jl < Jl', on a
f(x - Jl') f(X'- Jl)
f(x'-Jl') f(x - Jl).
Les démonstrations effectuées ci-dessus, en particulier à la question
1, montrent que cette propriété est encore équivalente à la forte
unimodalité de la loi F. Autrement dit, elle caractérise les lois
fortement unimodales.
3) Soit F une loi appartenant à " et soit F
,a (Jl E IR, cr > 0) la loi définie par
\:1 x E IR,
x-Jl F
a(x) = F( - ). cr
La densité f
a est définie par
1 x-Jl f
,a(x) = - f( - ) cr cr
93
III. EXEMPLES D'UI1LISATION DES STATISTIQUES D'ORDRE
et la convexité de la fonction - Log f équivaut à celle de - Log f
,(J. En ce qui concerne les lois usuelles, on laisse au lecteur le soin
de chercher celles pour lesquelles la fonction -Log f est convexe, ce
qui équivaut à la croissance de la f' fonction - -. On pourra ainsi
montrer que, parmi les lois usuelles, sont fortement f unimodales la
loi uniforme, la loi triangulaire, la loi double exponentielle, la loi
logistique, la loi nonnale, la loi r(a, Â.) lorsque a
1 (donc, en particulier, la loi exponentielle) et la loi Pt (a, b) lorsque a
1 et b
1. Les lois nonnales contaminées mises à pan (voir l'exercice 111.2),
les autres lois usuelles appartenant à
et recensées dans les pages 323 à 325 du tome 1 ne sont pas
fortement unimodales. Enfm, on pourra vérifier que les lois Fk
étudiées à l'exercice IV.2 sont fonement unimodales, ainsi que les
lois F't étudiées à l'exercice IV.3 lorsque t
1.
4) On sait (voir R.lII.I) qu'une loi fonement unimodale est unimodale.
On déduit donc du résultat de l'exercice V.l chap. fi que l'on a
U [ ..1, 1] <s F
si F est fortement unimodale et appartient à "s. Désignons par 0 la
loi ()e(O, 1) et monttons que la fonction O-} oF est convexe 1 sur
l'ensemble IR+ n (suppon de F). On sait (exercice V.l chap. II) que, si
u
-, on a 2
0-1(U) = -Log (2 (1 .. u»,
d'où, si x
0,
(0- 1 0 F) (x) = -Log (2 (1 - F (x»).
On doit montrer que cette fonction est convexe sur l'intervalle 1 (x ; -
S F(x) < l}, ce qui revient à montrer que sa dérivée est croissante sur
cet 2 intetvalle. Or
(0- 1 0 Fr (x) = f(x) . 1 .. F(x)
Soient Xl et X2 tels que 0 S Xl < x2, F (X2) < 1. Montrons que
f(x l ) S 1 .. F(x})
f(x 2 ) 1 - F(x 2 )
94
III. EXEMPLES D'UTll..ISA TION DES STATISTIQUES D'ORDRE
D'après la question 1, on sait que
vu
0, f(XI) f(X2 + u) S f(X2) f(xI + u),
d'où
+- +- f(XI) f f(x 2 + u) du
f(x 2 ) f f(x l + u) du . o 0
soit
f(XI) (1 - F(X2»
f(X2) (1 - F(XI»,
ce qui est le résultat cherché.
Remarque. Les lois U [-1, 1] et S)e(O, 1) étant elle-mêmes fortement
unimodales, elles sont, pour le préordre u<s", respectivement
minimum et maximum de l'ensemble des lois fortement unimodales
appartenant à ,. s.
Exercice IV. 6. Dans tout cet exercice, ci> désigne la loi
(0, 1) et F une loi qui appartient à "s, qui n'est pas une loi normale et
qui vérifie F <r cI>, où u<r" désigne /' ordre de lAwrence. On
suppose également que la densité f de la loi F vérifie f(O) > O. 1)
Montrer que, si l'on désigne par G et \}I les lois dont les densités
respectives g et '1' sont définies par
( ) F-1(x) g x = 1 f F,l(u) du 1/2
11 ]112,l[(x)
et
-1 ci> (x) <1 'l'(x) = 1 a ]ll2,I[(x) , f <1>,1 (u) du 1/2
on a \}I >i G (voir définition R.III.4.1). En déduire, par application du
théorème R.III.4.2, que
+00 f x dF(x) > f(O) VP. o
où V F désigne la variance de la loi F, après avoir remarqué que les
hypothèsesfaites sur F impliquent l'existence de V F'
95
III. EXEMPLES DtUTILISATION DES STATISTIQUES D'ORDRE
1 -c 2) Etant donné un élément a de ]0, -[, on désigne par Xa,n le L-
estimateur 2 dont la fontion de poids la est définie par
1 J a = 2a ( 11 IO,al + 11]I ,a,l 1 ).
Montrer que la loi F admet un L-estimateur X
,n asymptotiquement plus efficace que Xn. On remarquera que cette
propriété généralise le résultat de la question 2 de l'exercice IV.3 et
l'on évitera ainsi certains calculs.
-1 <1> 1 1) Puisque F <;. <1>, la fonction _ 1 est croissante sur [-,
1[. De plus, F- 2
-1 <1> (u) lim u
ll2 F- 1 (u)
-1 (<1> )'( 1/2) = (F- 1 )'( 1/2)
f(F- 1 (1/2»
f(O)
==
-1 cp(<I> (112»
cp(O)
où cp désigne la densité de la loi <1>. On a donc
\:1 u E ]
, 1[, F- 1 (u)
À <I>-l(u), 2
,l,,
cp(O) ou on a pose 1\. =-. f(O) On remarque alors que
1 1 +00 J p-l(u) du ::;; À. J p-l(u) du = À. i x d<tl(x) < + 00, 1/2 1/2 0
ce qui justifie la définition de la loi G.
Montrons que 'II >i G, soit que
\:1 x e IR, '¥(x)
G(x)
ou, plus simplement, que
1 \:1 xe [-,1], 2
(G - '¥)(x)
0,
96
III. EXEMPLES D'UTILISATION DES .STATISTIQUES D'ORDRE
1 puisque les fonctions G et '1' sont égales à 0 sur ] -00, -] et à 1 sur
[1,+00[. Sur 2 1 l'intervalle] -, 1[ la fonction G - 'l'admet pour dérivée
g - '1' qui a le même signe que 2
la fonction h définie par
f1
-1 'V (u) du h(x) = 1/2 1 f p-l(u) du 1/2
-1 cI> (x) F- 1 (x) .
La fonction h est décroissante et, comme elle ne peut garder le
même signe sur l'intervalle puisque
(G - '1')(0) = (G - '1')(1) = 0,
1 il existe un élément Xo de] -, 1[ tel que 2
1 \:1 xe] -, xo], h(x)
0, 2 \:1 xe [xo,l[, h(x)
O.
1 La fonction (G - 'l') est donc croissante sur [-, xo] et décroissante
sur [x o ' 1], 2
d'où
1 \:1 x e [-, 1], G(x)
'l'(x). 2
Enfin, pour montrer l'inégalité demandée, écrivons que
+00 1 i x dF(x) = f Fl(u) du o 1/2
et que
+00 1 Vp = 2 i x 2 dF(x) = 2 f (F l (u»2 du. o 1/2
97
III. EXEMPLES D'UTILISATION DES STATISTIQUES D'ORDRE
On remarque que ces intégrales sont finies puisque F- 1 (u)
Â. <I>-l(u). On peut même ajouter que F admet des moments de tout
ordre.
En appliquant le théorème R.lll.4.2, on obtient, puisque F- 1 est
croissante,
1 1 f F,l(u) g(u) du
f p-l(u) 'l'(u) du , 1/2 1/2 soit 1 1 f (F'(u»2 du f F,l(u) <1>,1 (u) du 1/2
1/2 1 1 f p-l(u) du f <1>-1 (u) du 1/2 1/2 ou encore 1 f p-l(u) <1>-1 (u)
du V p
1/2 +00 cp(O) 2 f x dF(x) 0 pUIsque
1 +00 +00 f <I>-I(u) du = f x cp(x) dx = -L f x e- x212 dx = -L = cp(O).
-{21t -(21t 1/2 0 0
On achève la démonstration en écrivant que
f I f I f +oo À F- 1 (u) <I>-l(u) du
Â. (<1>-1 (u»2 du = À x 2 cp(x) dx = - 1/2 1/2 0 2
et en montrant que cette dernière inégalité est stricte. En effet, s'il
s'agissait d'une égalité, on aurait
1 f (Â. <I>,l(u) - F'l(u» <I>'l(u) du = 0, 1/2
98
III. EXEMPLES D'UTILISATION DES STATISTIQUES D'ORDRE
soit, puisque <1>-1 est strictement positive,
1 \:1 u E [-, 1[, F- 1 (u) = À <I>-1(u) 2
ou encore, en posant x = F- 1 (u),
x \:1 x > 0, F(x) = <1>( -), À
ce qui impliquerait que F est une loi normale, hypothèse écartée par
l'énoncé.
On a donc
V p +00 2 f x dF(x) o
2À <- , 2cp(0)
soit
+00 f x dF(x) > f(O) Vp. o
2) La propriété demandée est une généralisation de celle établie à la
question 2 de l'exercice IV.3. En effet, dans cet exercice, on a, si t >
2, F't <r F 2 , soit F't <r <1> puisque F 2 est la loi eN (O,
) et que le préordre "<;." ne dépend pas des paramètres d'échelle
des 2 lois considérées. Les calculs effectuées pour résoudre la
question 2 de l'exercice IV.3 montrent qu'il existe un L-estimateur X
.n asymptotiquement plus efficace que X n SI
(1)
2 a'(O) b(O) - a(O) b'(O) > 0,
où l'on a posé
a(x) = 1 - F(x)
et
+00 b(x) = f (t-x)2 dF(t). x
Ona
1 . V p a(O) = -, b(O) = -, a'(O) = -f(O) 2 2
99
III. EXEMPLES D'UTILISATION DES STATISTIQUES D'ORDRE
et
+00 b'(O) = - 2 f x dF(x). o
La condition (1) s'écrit donc
+00 - £(0) VF + f x dF(x) > 0, o
ce qui est justement l'inégalité établie à la question 1.
Exercice VI.I. Soit X(1), ... , X(n) un échantillon ordonné d'une loi F
qui appartient à <1 s. Pour tout élément i de {l, ... , n}, on pose Yi =
X(i + 1) - X(i). Montrer que la loi de Yi - Y n-i appartient à "s.
Posons Zi = Yi - Y n-i et montrons que Zï et - Zi ont la même loi. On
a
Zï = X(i + 1) - X(i) - X(n + 1 - i) + X(n - i),
- Zi = X(n + 1 - i) - X(n - i) - X(i + 1) + X(i).
Or, puisque F appartient à "s, on sait que les statistiques
T = (X(1), ... , X(i), ... , X(n» et T' = ( - X(n), ... , - X(n + 1 - i), ... , -
X(1) )
ont la même loi. Comme il existe une application cp de IR n dans IR
telle que
Zi = cp(T) et - Zi = cp(T '),
on en déduit que la loi de Zï appartient à c:r s.
Exercice VII.! 1) On considère l'application cp de IR n dans IR
définie par
cp(x) = X' il X - 2 C' X,
où il est une matrice symétrique d'ordre n définie positive, C une
matrice unicolonne à n lignes et X la matrice unicolonne fo171lie par
les composantes de x.
100
III. EXEMPLES D'UTILISATION DES STATISTIQUES DtORDRE
Montrer que <p(x) est minimum pour X = a -1 e. On pourra
développer l'expression
( X - a-le)' a ( X - a-le ).
2) On reprend les notations de la section VII.1.b et l'on se propose
d'expliciter - l'estimateur en du paramètre e de variance minimale,
sachant qu'il s'obtient en minimisant
'1'(9) = (X(.) - A 9)' B- 1 (X(.) - A 9).
En utilisant le résultat de la question 1, montrer que l'on obtient
_ a' MX(') Jln = -
et
_ l' M X(.) crn =
!:J.
!:J.
où
M = B- 1 (1 a t - a 1') B- 1
et
fJ. = det (At B- 1 A).
On pourra également vérifier que
!:J. = l' M a.
3) Montrer que l'estimateur 9n est sans biais et déterminer sa
matrice des covariances. 4) On suppose que la loi F appartient à ,. s.
Montrer qu'il existe une matrice J de permutation d'ordre n, que l'on
précisera, telle que les vecteurs y(.) et - J y(.) aient la même loi. En
déduire les relations (VII. 5), à savoir
_ l' B- 1 X(.) Jln = l' B- 1 1
et
a' B- 1 X(.) - crn = a' B- 1 a '
-
Déterminer la matrice des covariances de 9n.
1) On a
( X - a- 1 c )' a ( x - 0-IC ) = X' a X - X' C - C' X + C' 0- 1 C = X' a X -
2 C' X + C' 0- 1 C = <p(x) + C' 0- 1 C,
101
III. EXEMPLES Dt
ISATION DES STATISTIQUES D'ORDRE
en tenant compte du fait que les matrices x'e et e'x sont égales
puisqu'elles sont transposées l'une de l'autte et qu'elles n'ont qu'un
élément. Puisque la matrice n est définie positive, le premier
membre de cette égalité est minimum pour X = n- 1 e et il en est de
même de <p(x) qui n'en diffère que d'une constante.
2) Ecrivons
'1'(9) = 9' ( A' B- 1 A ) 9 - X(.). B- 1 A 9 - 9' A' B- 1 X(.) + X(.), B- 1
X(.) = 9' ( A' B- 1 A ) 9 - 2 ( A' B- 1 X('»' 9 + X(.). B- 1 X(.).
On vérifie aisément que la matrice symétrique A'B- 1 A est définie
positive en écrivant la fonne quadratique sur IR 2 qui lui est associée
et en se souvenant que la matrice B, donc la matrice B- 1 , est elle-
même définie positive.
- D'après le résultat de la question 1, l'estimateur 9n cherché est
défini par
- 9n = ( A' B- 1 A rI A' B- 1 X(.).
En effectuant des produits de matrices par blocs, on vérifie aisément
que l'on a
[ l' B- 1 1 A' B- 1 A = a' B- 1 1
l' B- 1 a ] , a' B- 1 a
d'où, en posant !:J. = det ( A' B- 1 A ),
1 [ a' B- 1 a (A' B- 1 Ar 1 = - !:J. _ l' B- 1 a
- a' B- 1 1 ] l' B- 1 1 .
On en déduit
- 1 [ al B- 1 a 9n= - !:J. _ l' B- 1 a
- al B- 1 1 ] [ l' ] B-1 X(.) l' B- 1 1 a'
1 [ a' B- 1 a l' - a' B- 1 1 a' ] - B- 1 X(,) -
- l' B- 1 a l' + l' B- 1 1 a'
= 2- [ -a' ] MX('). !:J. l'
102
III. EXEMPLES D'
ISA110N DES STATISTIQUES D'ORDRE
si l'on pose
M = B- 1 (1 a' - al') B- 1 .
On peut remarquer que M est antisymétrique. On en déduit
_ a' M X(.) fJ.n = -
et
_ l' M X(.) on = â
On peut en outre écrire
â = ( l' B- 1 1 ) ( a' B- 1 a) - ( l' B- 1 a)2
= l'B- 1 1 a'B- 1 a _1'B- 1 a l'B- 1 a = l'M a.
3) Puisque IE(X(i» = fJ. + 0 ah on peut écrire
lE (X(.» = fJ. 1 + 0 a,
d'où
_ - a' M 1 a' M a 1E(fJ.n) = fJ. - 0, â â l'MI l'Ma lE(ân) = fJ. + o. â â
De l' antisymétrie de M, on tire
a' M a = (a' M a)' = - a' M a = 0, a' M 1 = (a' MI)' = - l' M a = - â,
d'où
lE <;ln) = fJ.
et
1E(Ôn> = cr.
- Pour calculer la matrice des covariances de en, soit Aê a , il est
plus simple de revenir à l'égalité
- en = ( A' B- 1 A rI At B- 1 X(.)
et de se souvenir que la matrice des covariances de X(.) est c? B.
On a donc
103
III. EXEMPLES Dt
ISA TION DES STATISTIQUES D'ORDRE
Aê D = ( AI B -1 A j -1 AI B -1 ( cr 2 B ) ( ( AI B -1 A r i A 1 B -1 )' = cr
2 ( AI B- 1 A rI AI B- 1 B B- 1 A ( AI B- 1 A rI
= cr 2 ( AI B- 1 A rI,
d'où
_ al B- 1 a V (J.1n) = cr 2 , fJ.
l' B- 1 1 V(Ôn) = cr 2 , fJ.
- a' B- 1 1 Cov (Îln, an) = cr 2 . fJ.
On remarque que la matrice Aê D ne dépend pas de J.1 et qu'elle
est proportionnelle à cr, ce qui était prévisible puisque J.1 est un
paramètre de localisation et cr un paramètre d'échelle.
4) Dans le cas où la loi F appartient à "s, on sait que les vecteurs
aléatoires Y(1), ... , Y(n) et (-Y(n), ... , -Y(1» ont la même loi. On peut
écrire ces vecteurs sous la forme y(.) et - JY('), où J est la matrice de
permutation d'ordre n qui "retourne" un élément de [Rn, soit la
matrice dont tous les éléments sont nuls sauf ceux de la seconde
diagonale (i+j = n+ 1) qui sont égaux à 1. On remarque que la
matrice J vérifie la relation
J = J' = J -1.
En écrivant que les vecteurs y(.) et - JY(') ont la même moyenne et
la même matrice des covariances, on obtient les égalités
a=-Ja
et
B = J B J.
On en déduit que la matrice AI B- 1 A est diagonale. En effet
l' B- 1 a = l' (J B J rI a = l' J B- 1 J a = l' B- 1 (- a) = - l' B- 1 a,
d'où
l' B- 1 a = O.
104
III. EXEMPLES D'UTILISATION DES STATISTIQUES D'ORDRE
On a alors
- [ (1' B- 1 lr 1 en = o
] [ l' ] o B- 1 X(,) (a' B- 1 ar 1 a' '
d'où
_ l' B- 1 X(.) Jln = l' B- 1 1
et
a' B- 1 X(.) - crn = l' a' B- a
Puisque Aê n = cr 2 ( A' B- 1 A rI, on a
2 _ cr V(Jln) = l ' l' B- 1
2 cr V@n) = l ' a' B- a
Cov (jIn, an) = O.
Exercice VII.2 1) Soient Xl, ... , X n des variables aléatoires
indépendantes de lois respectives eN (mi, cr?) (1
n). On pose
1 n X = - L Xi n i=l
et
- - y = (Xl - X, ... , X n - X).
Déterminer une condition nécessaire et suffisante pOW" que les
éléments aléatoires X et Y soient indépendants. 2) Avec les
notations de la section VII.1.b, en déduire que, lorsque F est la loi - -
eN (0, 1), on a B 1 = 1, l' B = l'et, donc, Jln = Xn.
1) Le vecteur aléatoire X = (Xl, ... , X n ) est gaussien puisque ses
composantes Sont normales et indépendantes. Le vecteur aléatoire
(X ,Y) est également gaussien puisqu'il est l'image de X par une
application linéaire de [Rn dans [Rn+l. Les sous-vecteurs X et Y du
vecteur ( X, Y) sont donc indépendants si et seulement s'ils sont
non-corrélés, c'est-à-dire si
\:1 i e {1 , ... , n}, Cov ( X , Y i) = O.
105
III. EXEMPLES D'UTILISATION DES STATISTIQUES D'ORDRE
Or
Cov (X ,Yv = Cov (X , Xi - X) = Cov (X , Xv - V (X )
1 n = - Cov ( L Xj' Xi) - V( X) n j=l
1 - = - V(Xi) - V(X). n
Une condition nécessaire et suffisante cherchée est donc que les
variances des Xi soient toutes égales à nV (X) , ou encore que l'on
ait
222 cri = cr2 =. .. = crn .
2) Puisqu'on se place dans le cas où Xl, ... , X n est un échantillon
de la loi eN (0, 1), la condition ci-dessus est satisfaite. De
l'indépendance de X et Y, on déduit celle de X et de
(.) - - - y - (X(1) - X, ... , X(n) - X),
puisque y(.) est l'image de Y par une application de [Rn dans [Rn.
On a donc
\:1 i e {l,..., n}, Cov (X , X(i) - X) = O.
Or
Cov ( X, X(i) - X) = Cov (X , X(i» - V (X )
1 n = - Cov (L X(j), X(i» - V ( X) n j=l
1 n = - L Cov (X(i), X(j» - V (X) , n j=l
- 1 d'où, puisque V (X) = -, n
\:lie {1,...,n},
n L Cov (X(i), X(j» = 1, j=l
106
III. EXEMPLES D'UTILISATION DES STATISTIQUES D'ORDRE
soit
\:lie {l,...,n},
nL
ij = 1, j=1
ce qui signifie que B 1 = 1 . On en déduit, puisque B est symétrique
et inversible, l' B = 1', puis l' = l' B- 1 . Enfin, d'après la relation (VII.5)
démontrée à la dernière question de l'exercice précédent, on a
_ l' B- 1 X(.) l' X(.) 1 n _ J.1n = = = - LX(i) = Xn. l' B -1 1 l' 1 n j= 1
Exercice VII.3. On reprend les notations de la section VII.2 et on se
propose de déterminer le L-estimateur or, 0) des moindres carrés du
paramètre Ol, cr) de localisation-échelle en n'utilisant que les r plus
petites des n données (données censurées) . 1) En se reportant à
l'exercice VII. 1 , montrer que l'on a
[ J.1 ] [ X(l) ] a = (A' 8,1 Afl A' 8,1 =
.(
)
et que la matrice des covariances de (jI, 0) est cr2 (A' B- 1 Ar 1 . On
précisera avec soin ce que sont les matrices A et B. 2) On suppose
que les données proviennent de la loi exponentielle décalée 1(J.1,
a). En utilisant les résultats de l'exercice N.1 chap. II, calculer la
matrice B- 1 et en déduire que la matrice A' B- 1 a . tous les termes
de sa première ligne nuls, sauf le premier qui est égal à n 2 , . tous
les termes de sa deuxième ligne égaux à 1, sauf le dernier qui est
égal à (0 - r + 1). 3) Montrer que
A' 8- 1 A = [:2
et en déduire la matrice des covariances de l'estimateur ur, 0), ainsi
que les coefficients ai et bi.
107
III. EXEMPLES D'UTILISATION DES STATISTIQUES D'ORDRE
1) Les résultats que l'on demande de montrer ne sont autres que
ceux obtenus à la question 2 de l'exercice Vll.l. Toutefois, il faut bien
préciser que, si la matrice An' a que r lignes et si la matrice B est
d'ordre r, les coefficients ai et
ij de ces matrices sont les moyennes et les covariances des r
premières observations d'un échantillon ordonné de taille n de la loi
F de base. Ou, encore, les matrices A et B considérées ici sont les
matrices obtenues en ne conservant des matrices considérées à
l'exercice VII.l que les r premières lignes (et les r premières colonnes
en ce qui concerne B). Enfin, on peut remarquer que tout ce qui suit
s'applique à des données non censurées. Il suffit, pour cela, de
supposer que r = n.
2) On sait, d'après l'exercice IV.l chap. n, que l'on a
n 1 a. = L -, 1 k=n-Î+1 k
n 1 J3.. = L , 11 k=n-i+1 k 2
J3ij = J3ji = J3ii
si i < j .
Pour alléger la notation, posons J3i = J3ih d'où J3ij = J3min (i.j).
Pour inverser la matrice B, on écrit la transformation
y = BX,
soit
Yi = J31 xl + ... + J3i-1 xi-1 + J3i (Xi + ... + x r )
(1
r)
et l'on exprime les Xi en fonction des Yi. Ce calcul simple étant
laissé aux soins du lecteur, on aboutit au résultat suivant où Wij
désigne le terme général de la matrice B- 1
'ij = 0 si Ii - jl > 1, ·
'i,i+1 = J3'i+1,i = - ( J3i+1 - J3i rI = - ( n - i )2 si 1
i < r, ·
'ii = - (
'i-1.i +
'i+1.i ) si 1 < i < r, ·
'll = n 2 + ( n - 1 )2, . J3'rr = ( n - r + 1 )2.
Si l'on pose C = A' B- 1 , on a
r CI. = L J3'.. J i= 1 IJ
et
r c 2 . = La. J3'.. . J i= 1 1 IJ
108
III. EXEMPLES D'
ISA TION DES STATISTIQUES D'ORDRE
En tenant compte des égalités ci-dessus, on obtient
. Clj
=0 R' R' 2 = tJ 11 + 1-' 21 = n , = al
'll + a2
'21 = «n - 1)2 + n 2 ) al - (n - 1)2 a2 = (n - 1)2 (al - a2) + n 2 al = - (n -
1) + n = 1,
si j > 1,
· CIl · c21
. C2j
= aj-l
'j-l,j + aj
'jj + aj+l
'j+l,j = (aj-l - aj)
'j-l,j + (aj+l - aj)
'j+l,j = (n - j + 1) - (n - j) = 1
SI 1 < j < r,
· C2r = ar-l
'r-l,r + a r
'rr = (n - r + 1)2 (Œr - Œr-1) = n-r+ 1.
3) En calculant At 8- 1 A = C A, on obtient
[ 2 n A' B- 1 A = (r - 1) + (n - r + 1)
n:a l ] = [:2 :].
avec
Â. = al + ... + Œr-1 + (n - r + 1) Œr.
n 1 En écrivant que <Xi = L -, on obtient k=n-Î+I k
r-l r-2 1 1 1 1 Â.=-+-+...+ +(n-r+l)(-+-+...+ ) n n-l n-r+2 n n-l n-r+l
n n-l n-r+l = - + - + ... + = r, n n-l n-r+l
d'où
A' B'l A = [:2 ;].
(A' 8- 1 Af1 =
1 2 (r - 1) n
[ r -n 2 ] . -n n
109
m. EXEMPLES D'
ISATION DES STATISTIQUES D'ORDRE
Puisque la matrice des covariances de (jï, êJ) est égale à cr 2 (At 0-
1 Ar 1 , on a
'Tr;'i'\ J.I. = r 0'2 , V
L C l':r
- 0'2 y \J.Io) ,a) = , ov ,J.I., a) = . (r - 1) n 2 r - 1 (r - 1) n
Enfin, en calculant la matrice (At 0- 1 Ar 1 At 0- 1 , on obtient
rn-l al = , (r - 1) n
1 a_- -a - -1. - ... - 1-1 - - , (r - 1) n
n-r+ 1
= - , (r - 1) n
n-l b 1 = - - , r - 1
1 b 2 = ... = b r _ 1 = - , r - 1
n-r+l b = r
r-1
Exercice VII.4. Avec les notations de la section VII.3 et en supposant
que la loi F possède une espérance mathématique, montrer qu'une
condition nécessaire et suffisante pour que les estimateurs *J.l.n et *
crn donnés par les formules (VII.B) soient sans biais est que
n n LZ i = La. i=l i=l 1
et
n n La.z.=Lz
. 1 1 1 i=l i=l
Que devient cette condition lorsque F appartient à "s?
On a obtenu en (Vn.8) n .
1 Z(Zi-Z) J.l.n =
( - - ) X(i) . l n v J=
n.
Zi-Z X crn =
- (i) . I v J=
où
1 n z=-L Zï et n . 1 J=
n v=L (Zi- z )2. j=l
Puisque lE (X(i» = J.I. + cr <Xi, ces estimateurs sont sans biais si et
seulement si on a les relations
n
1 Z ( z' - Z)
( - . 1 ) (J.I. + cr ai) = J.I. . l n v J=
et
z..z £.J --L- (J.I. + cr ai) = cr . I v J=
110
m. EXEMPLES D'UTILISATION DES STATISTIQUES D'ORDRE
n qui, en tenant compte de L (Zi - z) = 0, s'écrivent i=l
nnn
L <Xi - oz (L <Xi Zi - z L <Xi) = 0 n i=l n i=l i=l
et
n L (Zï - Z) ai = v, i=l
soit
(1)
n n (...!.+z2)L ai-zL ŒïZï=O n . 1 . 1 1= 1=
et
n n L ai Zï - z L ai = v. i=l i=l
n En combinant ces deux relations pour éliminer L <Xi Zit on obtient
i=l
n ...!.L <Xi =ZV, n . 1 1=
soit, puisque v n'est pas nul (les nombres Zï ne sont pas tous
égaux),
n n La. = Lz i . i=l 1 i=l
En portant cette égalité dans la deuxième relation de (1), on obtient
n L ai Zï - n z2 = v, i=l
soit
n n L <Xi zi = v + n z2 = L z?, i=l i=l
puisque
n n V = L (Zï - z)2 = L Zï 2 - n z2, i=l i=l
d'où la condition nécessaire et suffisante demandée.
Si, de plus, la loi F appartient à "s, on a alors
Vie (l,...,n),
Œn+l-i = - ai.
111
III. EXEMPLES D'UTILISATION DES STATISTIQUES D'ORDRE
n En particulier, L <Xi = 0 et la condition nécessaire et suffisante
cherchée devient i=l
z=o
et
n n L ai Zi = L Zï 2 . i= 1 i= 1
112
Chapitre IV
PROBLEMES A DEUX ECHANTILLONS
Exercice 1.1. Démonstration du théorème 1.2.1 Avec les notations et
les hypothèses du théorème /2.1, montrer que
1 'TI (s(.), r<.» e
, P( (S(.), R(.)} = (s(.), r<.)} ) = - N!
et que
m' \:1 r<.) = (rI, ... ,r n ), {rI, ... ,r n } C {l, ... ,N}, P(R(.) = r<.)} =--.:. N!
Les deux échantillons étant indépendants, on peut considérer que
(X}, ... , X m , y}, ... , y n) est un échantillon de taille N de la loi F et
que (S(.), R(.» est le vecteur des rangs associé à cet échantillon. On
sait alors, puisque F appartient à ", que la loi de ce vecteur est
uniforme sur
(théorème II.3.1 chap. II), d'où la première égalité demandée.
Cherchons maintenant la loi de R(.) qui est une loi marginale de la
loi obtenue ci- dessus. Soit r<.) = (rh... ,r n ) un n-uplet d'éléments
distincts de {l,..., N}. Puisque la loi du vecteur (S(.), R('» est
uniforme, on a
Â. P(R(.) = r<.)} = -, N!
où À désigne le nombre d'éléments de S(.) tels que (S(.), r<.» E
, c'est-à-dire le nombre de permutations des m éléments de
l'ensemble {l,..., N} \ {rI, ... ,rn>. D'où À = m! et
m' P(R(.) = r<.» = --.:. N!
113
IV. PROBLEMES A DEUX ECHANTILLONS
Exercice II.1. On se propose de démontrer la relation donnée à la
remarque //.2.3, soit
k ( , ) 2 P O (D+
_) = n. n,n n (0 - k)! (0 + k)!
Pour cela, on considère un couple (m, n) d'éléments de lN et on
appelle IIchemin sur le quadrillage unitaire" allant de l'origine 0 au
point M(m, n) toute suite (aj, bj)OSjSm+n d'éléments de 1N2 telle
que . ao = b o = 0, . \:1 jE {O, 1, ... , m+n-l}, (aj+1, bj+1) = (aj + 1, bj)
ou (aj+b bj+l) = (aj, bj+ 1),
. (a m + n , b m + n ) = (m, n).
On représentera géométriquement un tel chemin par une ligne
brisée continue allant de 0 à M en empruntant les droites d'abscisse
ou d'ordonnée entière, les coordonnées le long de cette ligne étant
croissantes lorsqu'on va de 0 à M. 1) Déterminer le nombre A(m, n)
de tels chemins. Soit k un entier strictement positif. On désigne par
Ak(m, n) le nombre de chemins sur le quadrillage unitaire allant de 0
à M et tels que
3 j e {O, 1, ... , m+n}
aj - bj = k.
Géométriquement, il s'agit des lignes brisées qui touchent ou
traversent la droite d'équation x - y = k. Déterminer Ak(m, n) si m - n
k ou si m
k. Montrer que, si m - n < k et m
1, on a
Ak(m, n) = Ak(m - 1, n) + Ak(m, n - 1)
et que cette relation, jointe aux résultats obtenus précédemment,
détermine les valeurs de Ak(m, n) pour m - n < k et m > k. En
déduire que, si m - n S k et m
k, on a
"m-k Ak(m, n) = \....m+n .
2) Avec les notations de la remarque //2.3, montrer que si 1 S k S n,
on a
+ k Ak(n, n) Po(Dn,n
-) = n A(n, n) et en déduire la valeur de cene probabilité.
114
IV. PROBLEMES A DEUX ECHANT
LONS
1) Définir un chemin sur le quadrillage unitaire allant de 0 à M revient
à se donner n éléments j de {O, 1, ... , m + n - 1} pour lesquels on a
(aj+}, bj+t) = (aj + 1, bj),
d'où
A(m, n) = c: + n = <: + n .
Si m - n
k, on a évidemment Ak(m, n) = A(m, n). Si m < k, on a Ak(m, n) = 0
et, si m = k, Ak(m, n) = 1. Supposons m - n < k et m
1. L'ensemble des chemins répondant à la question est l'union de
deux ensembles disjoints de chemins, selon que (a m + n -1, bm+n-
l) est égal à (m - 1, n) ou à (m, n - 1). D'autre part, si aj - bj = k, on a
certainement j
m + n - 1, puisque m - n > k. On en déduit
Ak(m, n) = Ak(m - 1, n) + Ak(m, n - 1).
Cette relation, jointe aux résultats obtenus pour m - n = k et pour m =
k, permet de déterminer les valeurs de Ak(m, n) pour m - n < k et m
> k. En effet, on peut calculer les valeurs de Ak(k + 1, n) pour n
2, à partir de
A k (k + 1, 1) = A(k + 1, 1) = k + 2,
grâce à la relation de récUITence
Ak(k + 1, n) = Ak(k, n) + Ak(k + 1, n - 1),
soit
Ak(k + 1, n) = Ak(k + 1, n - 1) + 1,
puis ensuite les valeurs de Ak(k + 2, n) pour n
3, etc.
On en déduit que, pour m - n
k et m
k, on a bien
-k Ak(m, n) = m+n
puisque
-k . SI m = k, on a L-ni+n = 1, . C m - k
. SI m - n = k, on a m+n= m + n = A(m, n), . si m - n < k et m
1, on a
rffl - k L-m + n =
dm - 1) - k
- k (m - 1) + n + m + (n - 1) ,
115
IV. PROBLEMES A DEUX ECHANTll...LONS
d'après une propriété classique des combinaisons.
2) En reprenant les notations de la section II.2, on peut associer à
chaque réalisation Z = (Zl, ... , Z2n> de Z = (Zl, ... , Z2n) un chemin
sur le quadrillage unitaire allant de 0 à M(n, n) e,n posant
. (aj+b bj+l) = (aj + 1, bj) . (aj+l' bj+l) = (aj, bj + 1)
si Zj+l = 1, si Zj+l = O.
Sous l'hypothèse Ho, toutes les réalisations de Z sont équiprobables
et il yen a A(n, n). Soit k un entier tel que 1
k
n. On vérifie aisément que Fn(x) - Gn(x) prend les valeurs aj - bj (0
2n) lorsque x varie de -00 à +00. La réalisation d:,n de D:,n est donc
définie par
n < = max (a. - b.). ,n
.< J J V::::J_n
+ k On a d n n
- s'il existe j (0
2n) tel que aj - bj = k et il y a donc Ak(n, n) , n k réalisations z de Z
pour lesquelles d:,n
-. TI en résulte n
+ k Ak(n, n)
k (n! )2 Po(Dn.n
;) = A(n, n) =
n = (n - k)! (n + k)!
On remarque que cette relation est encore vérifiée pour k = O.
Exercice 111.1. Avec les notations de l'exemple 111.3.10, montrer
que, pour m, n et a o donnés (m e lN., n e lN., a o e ]0,
D, il existe un élément (a, J..L) de IR X IR+. tel 2
que
Pm,n(J..L, a) > 1 - Œ o .
Ona
Pm,n(J..L, a) = PJ.1(X 1
a, ... , X m
a, YI> a, ... , y n > a),
où Xl,.'.' X m et YI, ... , y n sont deux échantillons indépendants des
lois F (F e "s) et Fil respectivement.
116
IV. PROBLEMES A DEUX ECHANT
LONS
On a alors
Pm.nO.L, a) = Fm(a) (1 - F(a - J.1.»n.
Pour une yaleur donnée de a, Pm.n(J.1., a) est une fonction
croissante de J.1. telle que
lim Pm.n(J.1., a) = Fm(a). J.L
+-
TI suffit donc de choisir a qui réalise
Fm(a) > 1 - CXo, soit F(a) > (1 - a o )1/ m ,
ce qui est toujours possible et de déterminer ensuite J.1. > 0 tel que
Pm.n(J.1., a) > 1 - a o .
Exercice IV.1. Démonstration du théorème IV.2.3 Etant donné N
variables aléatoires indépendantes Xi (1
N) de lois respectives Fi (1
N) appartenant à ", soit TN = t(Xt, ... , XN) une statistique telle que
IE(TN) = 0 et IE(
) < +00. On considère l' ensemble
des variables aléatoires LN de la/orme
= L ti(x i ) i=l
. et l'on désigne par
l'élément de
défini par
= L (Xi)' où t; (Xi) = IE(T N 1 Xi)' i=l
. l)Montrerque IE
) =0 et que
. . IE( (TN -
) ) = O.
On rappelle les relations suivantes où X et Y désignent deux
variables aléatoires et où les espérances écrites sont supposées
exister
lE ( lE (Y 1 X) ) = lE (Y), lE (Y <p(X) 1 X) = <p(X) lE (Y 1 X),
et, si X et Y sont indépendantes, IE(Y 1 X) = IE(Y).
117
IV. PROBLEMES A DEUX ECHANTll..LONS
2) En déduire que
IE( (TN -
)2) = Inf { IE( (T N -
)2);
e :iC } = V(T N ) - V
).
1) On a
N N N IE
) = L IE( (Xi) ) = L IE( IE
TN 1 Xi» = L IE(T N ) = O. i=l i=1 i=l
On a également
N***
* IE( (TN -
)(
» = IE[ (TN -
) £.J (t i (Xi) - ti(X i ) ) ] i=l
* * = £.J IE[ (TN -
) (t i (X) - ti(X i ) ) ] i=l N
* * = £.J lE [ lE [ (T N -
) (t i (Xi) - ti(X i ) ) 1 Xi ] ] i=l N
* * = £.J IE[ ( t i (X) - ti(X i ) ) IE( (T N -
) 1 Xi ] . i=1
Or
N*
* IE( (TN -
) 1 Xi) = IE( (TN -
t j (X j ) ) 1 Xi) J=l N *
* = IE( (T N - t i (Xi) - . £.J. .tj(X j » 1 Xi) J=I, J
IN*
* = IE(T NI Xi) - t i (X) - £.J IE( t. (X.) ) . 1 .. J J J= , J
I
= 0,
d'où le résultat demandé.
2) En écrivant
lE 2 lE * * 2 «TN-
»= «(TN-
)+
» ) = IE( (TN -
)2) + IE( (
)2) + 21E «T N -
) ) lE * 2 lE * 2 = «TN-
»+ «
-
»,
on voit que l'on a
\:1
, IE( (T N -
)2)
IE( (T N _
)2),
118
IV. PROBLEMES A DEUX ECHANTll..LONS
d'où la première égalité demandée.
En choisissant
= 0, on obtient
IE(T
) = IE( (TN -
)2) + 1E(
2),
soit
· 2 · IE( (TN -
) ) = V(TN) - V
).
Exercice IV.2. Démonstration du corollaire IV.2.5 Soient Xl, ... , X m
et YI, ... , y n deux échantillons indépendants de la loi F appartenant
à ". On pose
m n 1 TN =
(11]0, +oo[(Yj - Xi) - 2" ). 1=1 J=l
Vérifier que l'on est dans les conditions d'application du théorème
IV.2.3 démontré . à l'exercice précédent et déterminer la projection
de T N'
On a IE(T N) = 0 puisque
IE( 11 ]0, +oo[(Y j - Xi) ) = P( 11 ]0, +oo[(Y j - Xi) = 1) = P(y. - X. > 0)
J112
et IE(T
) < +00 puisque T N est bornée. Nous devons calculer, pour tout i (1
m) et tout j (1
n), IE(T N 1 Xi) et IE(T N 1 Y j ). Puisque T N est symétrique par
rapport à tous les Xi d'une part et par rapport à tous les Y j d'autre
part, nous pouvons nous contenter de calculer, par exemple, 1 E(T
NI Xl) et E(T NI y 1)' Posant T ij = 11 ]0, -1(Y j - Xi) - 2' on a
m n IE(T N 1 Xl) = L L lE (T ij 1 Xl)' i= 1 j= 1
Si i * 1, T.. et X I sont indépendants et l'on a IJ
IE(Tij 1 XI) = lE (T ij ) = O.
119
IV. PROBLEMES A DEUX ECHANTll..LONS
Si i = 1, on a 1 E(T lj 1 Xl) = E( 11]0. -r(Yj - Xl) 1 XI) - 2" 1 = P(Y j - Xl
> 0 1 Xl) - - 2 1 1 = 1 - F(X 1 ) - - = - - F(X 1 ), 2 2
d'où
n 1 IE(T N 1 Xl) = L IE(T lj 1 Xl) = n ( - - F(X I ) ). j=l 2
On montre de même que
IE(TN 1 YI) = m (F(Y I ) - 112).
On en déduit que la projection
de T N est donnée par
. mIn 1
= n L ( - - F(X.) ) + m L (F(Y.) - - ). i=l 2 1 j=l J 2
Exercice IV.3. Démonstration du théorème IV.4.3 Avec les notations
du paragraphe W.4.b, montrer que, sous l' hypothèse Ho et avec des
entiers k, dl, ... , dk fixés, on a
. N + 1 lEo(W N ) = 2
et
. m (N + 1) Vo(WN) = 12 n
k m L (d; - di)' 12 n N (N - 1) i=l
n.1
. On a WN=-£.J Ri' d'où n i=l
n.1
. . lEo(W N ) = - £.J lEo(R i ) = lE o (R 1 ), n i=1
par raison de symétrie.
120
IV. PROBLEMES A DEUX ECHANTll..LONS
Or, les entiers k, dl, ... , dk étant fixés, on peut considérer que R
est une d variable aléatoire qui prend les valeurs r
(1
k) avec les probabilités respectives
.N
On en déduit
k*1
* lEo(R I ) = - £.J d h rh . N h=l
On peut considérer que lEo(R
) est l'abscisse du barycentre des k points d d'abscisses r
affectés des coefficients
(1
h
k). Mais, puisque r
est l'abscisse N de l'équibarycentre des points d'abscisses dl + ... +
dh-l + j (1
dJt), alors lEo(R
) est l'abscisse de l'équibarycentre des points d'abscisses 1,..., N,
d'où
* N + 1 lEo(R I ) = 2
et
* N + 1 lEo(WN) = lEo(WN) = 2
Pour calculer V o(W
), on écrit que n * 1-
* Vo(WN) = 2 V o ( £.JRi ) n i=l n 1
* * = 2" (£.J V o(R i ) + 2 £.J Covo(R i , R j ) ) n i= l l
i<j
n 1 * n-l * * = - V o (R 1 ) + - Cov o (R 1 , R 2 ) n n
par raison de symétrie. On a
k *2 1
*2 lEo(R I ) = - £.J d h rh . N h=l En raisonnant comme ci-dessus,
c'est-à-dire en considérant que r
est l'abscisse de l'équibarycentre des points d'abscisses a + j (a = dl
+ ... + dh-l, 1
dh)' on peut affmner que
dh 1
2 *2 - £.J (a + j) - rh d h j=l
121
IV. PROBLEMES A DEUX ECHANTll..LONS
d
- 1 est la variance de la loi unifonne sur {l, ... , dh} que l'on sait être
égale à - (voir 12
exercice 2 chap. 1). D'où
d h 2 *2
. 2 d h (d h - 1) d h rh = £.J (a + J) - 12 j=l
On obtient donc k N k 2 1
*2 1
.2 1
3 lE o (R 1 ) = - £.J d h rh = - £.J 1 - - £.J (d h - dh)' N h=l N i=l 12 N
h=l
1 N Puisque lEo(R
) = - L i 2 et que lEo(R
) = IEO(R I ), on peut écrire que N i=l k * 1
3 V o(R I ) = V o(R I ) - - £.J (d h - dh). 12 N h=l
Enfin, pour calculer Cov o(R
, R;), il nous faut préciser la loi du couple * * (Rt, R 2 ) sous
l'hypothèse Ho, les entiers k, db ... , dk étant connus. On a, sous ces
conditions,
* * * * * Po( (RI' R 2 ) = (r h1 , r h2 ) ) = Po(RI = r ht ) P o (R 2 = r h2
1 RI = r h1 )
d h * * = - P o (R 2 = rh 1 RI = rh ) N 2 1
d h (d h - 1) 1 1
si h 2 = hl'
N (N - 1) = d h 1 d h2
si h 2 * hl'
N (N - 1)
On en déduit
k**1
*2
* * lE o (R 1
) = ( £.J d h (d h - 1) rh + 2 £.J d h d h rh rh ) N (N - 1) hl = 1 1 1 1 l
hl <h2
k1212kk1
.*2
*2 ( ( £.J d h rh) - £.J d h rh ) N (N - 1) h= l' h= 1 1 N N 1 k ( (L i)2 - L
i 2 + - L (d
- dh) ), N (N - 1) i=l i=l 12 h=l
122
IV. PROBLEMES A DEUX ECHANTILLONS
d'après les calculs déjà effectués. On constate que
k**1
3 lEo(R 1 R 2 ) = lEo(R 1
) + £.J (d h - dh) 12 N (N - 1) h=l
et, puisque lEo(R
) = IEO(R 1 ), on a
k**1
3 Cov o(Rl' R 2 ) = Cov o(Rl'
) + £.J (d h - dh)' 12 N (N - 1) h=l
On peut alors écrire
[ k ] [ k ] * 1 1 3 n-l 1 3 Vo(WN)=- V o (R 1 )--L(d h -d h ) +- Cov o (R
1 ,R 2 )+ L(dh-d h ) N 12 N h=l n 12 N (N - 1) h=l
k 1 n-l
3 =Vo(W N )- (1--)£.J(d h -d h ) 12 N n N - 1 h=l
km
3 = Vo(W N ) - £.J (d h - dh) 12 n N (N - 1) h= 1
k m (N + 1) m
3 = £.J (d h - dh)' 12 n 12 n N (N - 1) h= 1
* On remarque que Vo(WN)
Vo(WN) et qu'il n'y a égalité entre ces deux variances que si les
entiers d h sont tous égaux à 1, c'est-à-dire s'il n'y a pas d'ex-requo.
Exercice V.1. Démonstration du théorème V.l.8 A vec les notations
du théorème V.I.B et en utilisant les résultats du théorème V.l.I,
montrer que l' on a
- 1 1 a) J.1N(W) = - +
(Pl - -), 2 2 -
2 2 b) N VN(W) = - ( (1 -
) (P2 - Pl) +
(P3 - Pl) ). 1-
Pour établir la relation b), on pourra effectuer un calcul direct ou
procéder de lafaçon suivante. On montre d'abord que, si X est une
variable aléatoire de loi F, on a
123
IV. PROBLEMES A DEUX ECHANTILLONS
G(X) - E( G(X) ) = r- G(x) d( Fl(x) - F(x) ) = f-( F(x) - Fl(x) ) dG(x),
-00 -00 où FI (X) = {
si x < X, si x
X,
puis on montre que la première intégrale qui figure dans l'expression
de N V N(f) est égale 1 à - V( G(X) ). 2
D'après le théorème V.l.l, on a
+00
(T) = f J( H(x) ) dG(x).
-00
Si T = W , on a J(u) = u, d'où
f +oo +00 +00 IlN (W ) = H(x) dG(x) =
f F(x) dG(x) + (1 -
) f G(x) dG(x)
1 = ÀN PI + (1 -
) - 2 1 1 =-+À N (p --). 2 1 2
La relation a) est donc établie. De la même façon, on a, puisque
J'(U) = 1,
N VN (W) = 12_
[ (1 -
) f f F(x) (1 - F(y» dG(x) dG(y)
x<y +
f ty G(x) (1 - G(y» dF(x) dF(y) ].
124
IV. PROBLEMES A DEUX ECHANTILLONS
Or J J F(x) (1 - F(y» dG(x) dG(y) = J J F(x) dG(x) dG(y) - J f F(x) F(y)
dG(x) dG(y) xq
y xq = J f F(x) dG(x) dG(y) -
J f F(x) F(y) dG(x) dG(y) xq
22=J
<yF(X) dG(x) dG(y) -
[f: F(x) dG(X)] 2 P2 - Pl
car on peut écrire que
P2 = P(YI > Xl, Y2 > Xl) = P( Xl < Min (YI, Y2»
= J f F( Min (x, y» dG(x) dG(y)
2 = 2 J f F(x) dG(x) dG(y). x<y
De même, on a
f J G(x) (1 - G(y» dF(x) dF(y) = f J (1 - (1 - G(x» ) (1 - G(y» dF(x)
dF(y) x<y x<y
= J f (1 - G(y» dF(x) dF(y) - J f (1 - G(x» (1 - G(y» dF(x) dF(y) x<y
x<y
= J f (1 - G(y» dF(x) dF(y) -
J f (1 - G(x» (1 - G(y» dF(x) dF(y) xq
22=f
<y (1 - G(y» dF(x) dF(y) -
[J
-(1 - G(x» dF(X)]
2 P3 - Pl
125
IV. PROBLEMES A DEUX ECHANTll..LONS
car on peut écrire que
P3 = P(YI > XI, YI > X2) = P( YI > Max (XI, X2» = f f (1- G( Max (x, y)
) dF(x) dF(y) fR2 = 2 f f (1 - G(x» dF(x) dF(y). x<y
On obtient bien -
22NV
= - «1 -
) (P2 - Pl) +
(P3 - Pl) ). 1-
Nous présentons également la solution obtenue par la seconde
méthode, car il s'agit d'un procédé fructueux et souvent utilisé. Soit X
une variable aléatoire de loi F. On a
+- E( G(X) ) = f G(x) dF(x)
-00
et l'on peut écrire que
G(X) = r- G(x) dFl(x),
-00
d'où
G(X) - E( G(X) ) = r- G(x) d( Fl(x) - F(x) )
..00
+- = [G(x) (Fl(x) - F(x) ) J: + f (F(x) - Fl(x) ) dG(x)
-00
= r- ( F(x) - FI (x) ) dG(x).
-00
On remarque que
P2 = IE( (1 - G(X»2 ) et Pl = IE( 1 - G(X) ),
donc que
P2 - P1 = V( 1 - G(X) ) = V( G(X) ).
126
IV. PROBLEMES A DEUX ECHANTll..LONS
Or
V( G(X» = E [ U
-( F(x) - Fl(x) ) dG(x) J] = E [J
2 ( F(x) - FI (x) )( F(y) - FI (y) ) dG(x) dG(Y)] = J f E[ (F(x) - Fl(x) )
(F(y) - Fl(y) ) ] dG(x) dG(y) fR2 = 2 J f E [ (F(x) - Fl(x) ) (F(y) - Fl(y) ) ]
dG(x) dG(y) , x<y
l'int!oduction du signe "lE" sous l'intégrale étant justifiée par le fait
que l'expression (F(x) - Fl(X) ) (F(y) - Fl(y» est bornée. Comme elle
prend les valeurs
( F(x) - 1 ) ( F(y) - 1 ) F(x) ( F(y) - 1 ) F(x) F(y)
si X S x , si x < X S y , si X > Y ,
on a
IE[ (F(x) - Fl(X» (F(y) - Fl(Y»] = (F(x) -1) (F(y) -1) F(x) + F(x) (F(y) -1)
(F(y) - F(x» + F(x) F(y) (1 - F(y» = F(x) (1 - F(y».
On obtient donc P2 - P
= 2 J f F(x) ( 1 - F(y) ) dG(x) dG(y). x<y
On pourrait montrer, de la même façon, que
P3 - P
= 2 J J G(x) ( 1 - G(y) ) dF(x) dG(y) x<y
en considérant une variable aléatoire X de loi G, en remarquant que
2 P3 - Pl = V( F(X) )
127
IV. PROBLEMES A DEUX ECHANTll..LONS
et en écrivant que
+- +- F(X) - E( F(X» = f F(x) d( Gl(X) - G(x» = f (Gl(X) - G(x) ) dF(x),
où la définition de Gl est analogue à celle de FI- On laisse au lecteur
le soin d'expliciter ce calcul.
Exercice V.2. Démonstration du corollaire V.I.II A vec les notations et
les hypothèses du théorème V.1.1, montrer que, sous l' hypothèse
Ho, on a
[ T N - Il (T) J lim P 0
t = <I>(t), N
V o,N (T)
où
1 11/1') = f J(u) du o
et
[ 1 1 ] N V n,N(I') = ---=-- f J2(u) du - (f J(u) du )2 . 1
00
Pour établir ces résultats, il suffit d'appliquer le théorème V.l.l sous 1
'hypothèse Ho, c'est-à-dire en supposant que F = G. On a alors H =
F = G, d'où
+- 1 11 0 (1') = f J( F(x) ) dF(x) = f J(u) du - 0
et N V o,N(I') = 12_
[ (1 -
) f ty F(x) ( 1 - F(y) ) J'( F(x) ) 1'( F(y) ) dF(x) dF(y) +
f f F(x) ( 1 - F(y) ) 1'( F(x) ) 1'( F(y) ) dF(x) dF(y) ] x<y = 2
Jf F(x) ( 1 - F(y) ) J'( F(x) ) J'( F(y) ) dF(x) dF(y) 1 - Â '
x<y = :_
J f u (1 - v) J'(u) 1'(v) du dv
OSU<V
128
IV. PROBLEMES A DEUX ECHANTll..LONS
= ;_
[ If u f(u) J'(v) du dv -
If u v J'(u) J'(v) du dV ]
OSu<v
1 [0.1]2 = ;_
[fUJ'(u)[tJ'(V)dV ]dU -
[fUJ'(U)duJJ.
Pour achever le calcul, on peut prendre J(I) = 0, puisque l'expression
ci-dessus ne dépend que de la fonction J'. On obtient
N V o,N(T) = 2_
[ -tu J'(u) J(u) du - 2. [ t u J'(u) dU ] 2 ] , 1
020
d'où, après une intégration par parties effectuée sur chacune des
intégrales,
N Vn,N(f) = 1
[fJ 2 (U) du - [fJ(U) du JJ.
Exercice VI.I. Démonstration du théorème VI.l.3 En s'inspirant de la
démonstration du théorème lV.1.S chap. III, démontrer le théorème
VI.l.3.
Rappelons qu; on se place dans le modèle de localisation (1.3." s) et
que l'on suppose que les hypothèses 1 et II énoncées en VI. 1 sont
vérifiées. Supposant, de plus, que la loi F est fortement unimodale,
on cherche s'il existe une fonction score J croissante, vérifiant
1 \:1 u e ]0,1[, J(u) + J(1 - u) = 2 J(-) 2
et telle que le test correspondant soit AMP pour tester 1 'hypothèse
Ho: "J! = 0" contre l'hypothèse Hl : "J! > 0" (ou "J! < 0" ou, encore, "J!
* 0" ). On cherche donc à rendre maximum 1.' efficacité du test, ce
qui, d'après la relation (VI.2), revient à rendre maximum l'expression
129
IV. PROBLEMES A DEUX ECHANTILLONS
1 f J'(U) f( F'\u) ) du o A= fJ 2 (U)du _ [fJ(U)du J
Nous inspirant de la démonstration du théorème IV .1.5 chap. III,
nous imposons les contraintes
1 f J(u)du=O o
et
1 f J2(u) du = 1. o
1 Remarquons que la première contrainte revient à imposer J( -) = 0
ou, encore, à 2 1 remplacer J(u) par J(u) - J( -) et que la seconde
revient à multiplier la fonction J par une 2
constante. Ces contraintes n'enlèvent rien à la généralité et
reviennent à remplacer la fonction score par une fonction score qui
conduit à un test équivalent (on peut se reporter, à ce sujet, à la
remarque faite pp. 148-149 du tome 1). On a alors
1 A = f J'(u) f( p-l(u) ) du o
et une intégration par parties conduit à 1 A = [ J(u) f( p-l(u) ) ]: + f
J(u) b( F,l(u) ) du, o fi , l , , b ou on a pose = - -. f
La partie tout intégrée est nulle puisque
\:1 u e ]0, 1[, J(u) + J(1 - u) = 0 et f( F- 1 (u) ) = f( F-- 1 (1 - u) ),
d'où
lim ( J(u) f( F- 1 (u) ) ) + lim (J(u) f( F- 1 (u) ) ) = O. U
O+ u
l
130
IV. PROBLEMES A DEUX ECHANTILLONS
Une application de l'inégalité de Cauchy-Schwarz nous permet alors
d'écrire que
111 A 2
f p(u) du f b 2 ( p-l(u) ) du = f b 2 ( p-l(u) ) du. 000
Le maximum de A est atteint si l'égalité est réalisée, c'est-à-dire si et
seulement s'il existe un nombre réel k tel que
f' J = k b(p-1) = - k - 0 F- 1 . f
On en déduit que le test défini par la fonction score
f' -1 J=--oF f
est AMP, la croissance de la fonction J découlant du fait que la loi F
est fortement f' unimodale (- - est une fonction croissante). On a
bien, également, f
\:1 u e ]0, 1 [,
J(u) + J(1 - u) = 0,
puisque F appartient à "s.
Exercice VI.2. Calculer les efficacités des tests décrits dans la
section VI.2, ainsi que celle du test de Student. Pour le test de
Student, on se reportera au théorème V.2.4 (voir remarque V.2.8) et
on utilisera le fait que
n21
- 2 Sn (Y) = - £.J (y. - Y n) n . 1 J J= convergent en probabilité vers la
variance V F de la loi P lorsque m et n deviennent infinis.
n21
- 2 Sm (X) = - £.J (Xi - X m ) m i=1
et
Sauf pour le test de Student qui n'est pas un test de rang, nous
utiliserons la relation (VI. 1 ) écrite avec le dénominateur de la
relation (VI.2), c'est-à-dire sous la forme
131
IV. PROBLEMES A DEUX ECHANTILLONS
22[f
- J'( F(x» f(x) dx ] c = À (1 - À) 1 [ 1 ] 2 .
J2(u) du -
}(u) du
Test de la médiane
La fonction score J = 11 ] 1/2, 1 [ de ce test ne vérifie pas 1
'hypothèse II. On peut, néanmoins, adopter
1 J = 11 ]ll2.l[ + 2 11 (l12)
de façon à avoir
1 \:1 u E ]0, 1[, J(u) + J(l - u) = 2 J(-), 2
mais les hypothèses du théorème V.1.l ne pourront être vérifiées (1
n'est pas continue 1 en -). Admettons néanmoins que la relation
(VI.l) soit encore applicable, comme le 2
montrerait une étude détaillée des démonstrations des théorèmes
invoqués, à condition d'écrire son numérateur sous la forme
2[f
-f(X) dJ( F(x) )] .
Puisque
1 1 . 1 f J\u) du = f J\u) du = f du = 2. o 1/2 1/2 2
et que
+00 f f(x) dJ( F(x) ) = f(O),
-00
on obtient
c 2 = 4 À (1 - À) f2 (0).
132
IV. PROBLEMES A DEUX ECHANTll..LONS
Test de Wilcoxon ou de Mann-Whitney
On a J(u) = u, d'où
2 c 2 = 12 À ( 1 - À) [ J
- r(x) dx ] ·
Tests de Fisher-Yates et de van der Waerden
La fonction J =
-1 est la fonction score du test de van der Waerden et la fonction
score limite du test de Fisher- Yates. Nous avons donc, pour ces
deux tests,
1 1 +00 +00 f J(u) du = f <11,1 (u) du = f x d<ll(x) = f x <p(x) dx = 0, o
0 -00 -00
où <p désigne la dérivée de
, c'est-à-dire la densité de la loi eN (0, 1). De même, on a
1 +00 f J2(u) du = f x 2 <p(x) dx = 1, o -00
d'où
2 c 2 = À (1 - À) [ J
-( <11-\ (F(x» r(x) dx ] [ f + 00 f(x) ] 2 = À (1 - À) 1 dx. - 00 <p(
(F(x»)
Test de G astwirth
1 On a, pour tout élément p de ]0, -[, 2
{ u - P Jp(u) = 0 u-(I-p)
si 0 < u
p, si P
1 - p, si 1 - P
u < 1,
133
IV. PROBLEMES A DEUX ECHANTILLONS
donc
1 f Vu) du = 0 o
et
f I 2 f 1/2 2 f p 2 2 3 P 2 3 Jp(U) du = 2 Jp(u) du = 2 (u - p) du = - [ (u
- p) ] 0 = - p . o 0 0 33
D'autre part
J'p = 11 ]O,p[ + 11 ]1-p,l[ ,
d'où
-1
fP
f J'( F(x) ) f(x) dx = f(x) dx + J f(x) dx.
p-l(l_p)
On en déduit [ -1 ] 2 P (p) + 00 c 2 = 2 33 f f(x) dx + f f(x) dx . p - 00
p-1(1_p)
On remarque que si, de plus, F appartient à "s, les deux intégrales
ci-dessus sont égales puisque f est paire et F- 1 ( p) et p-l( 1 - p)
opposés. Dans ce cas, on a
2 6 c - p3
[ p-1() ] 2 f
P f(x) dx .
Test de Student
Considérons le test de Student pour tester 1 'hypothèse "Jl = 0"
contre l'hypothèse: "Jl > 0". D'après 1.1, il est défini par la statistique
TN=
--Xm-ynmS
(X) + n S
(Y) m.In. m+n-2 mn
Comme ce n'est pas un test de rang, nous ne pouvons utiliser la
relation (VI.!), mais nous pouvons utiliser le résultat du théorème
V.2.4, d'après la remarque V.2.8. Pour cela, déterminons
134
IV. PROBLEMES A DEUX ECHANTILLONS
c= lim N-+too
dlE(TN) dJl
= 0 j NVo(T N ) ,
m en supposant encore que - a pour limite À, avec À E ]0, 1[. N On
sait que S
(X) et S
(Y) convergent en probabilité vers la variance Vp de la loi F lorsque
m et n deviennent infinis et l'on a donc
2 2 m Sm(X) + n Sn(Y) m +n
2 (m + n) V p
N V p V p =- l'V , m n N-+too N À (1 - À)
m +n - 2
l'V m n N-+too (m + n) m n
d'où
E(TN) N
YN
À(l-À) N---H«» Vp
et
dIE (T N ) . _ / À (1 - À) l'V m
V . dJl N-+too P
=o
D'autre part, on a
_ _ V p V p NV p Vo(X m - Y n ) =- +-=- m n mn
d"où
lim VO(T N ) = 1 N-H-oo
et on en déduit
À(l-À) c - Vp'
Exercice VI.3. Démonstration du théorème VI.3.2 On considère le
modèle de localisation pour deux échantillons (1.3. cJj s) que l'on
restreint aux lois qui admettent un moment d'ordre deux. Supposons
que les hypothèses 1 et Il de la section VI soient vérifiées et que la
dérivée de (
-1 0 F) soit bornée au voisinage de l'infini. On veut tester l'
hypothèse "Jl = 0" contre l' hypothèse "Jl * 0" et l'on considère les
statistiques
et T N de van der Waerden et de Student respectivement.
135
IV. PROBLEMES A DEUX ECHANTILLONS
On se propose de montrer que
ep(VD, T)
et que ep(VD, T) = 1 si et seulement si F est une loi normale. 1) Soit
X une variable aléatoire telle que P(X > 0) = 1 et que IE(X) et
1E(1/X) existent. Montrer, grâce à l'inégalité de Cauchy-Schwarz,
que
lE (X) lE (1/X)
et que lE (X) lE (1/X) = 1 si et seulement si X suit une loi de Dirac.
Peut -on encore considérer que l'inégalité ci-dessus est vérifiée si
l'une, au moins, des deux espérances n'existe pas ? 2) Déterminer
ep(VD, T) et déduire du résultat de la question 1 que
-2 ep(VD, 1)
Vp[J
q>(
-\ F(x» ) dx ] .
Montrer, grâce à une intégration par parties et à une application de
l'inégalité de Cauchy-Schwarz, que l'on a
ep(VD, T)
1.
On sera amené à utiliser les résultats des exercices 1 et 3 chap. 1. 3
) Montrer que l'on a
ep(VD, T) = 1
si et seulement si F est une loi normale.
1) On sait que, si U et V sont deux variables aléatoires qui
possèdent des moments d'ordre deux, on a
[ IE(UV) ]2
1E(U2) 1E(V2),
l'égalité étant vérifiée si et seulement s'.il existe (a, b) * (0, 0) tel que
P(a U + b V = 0) = 1.
Il suffit alors de prendre U = Xll2 et V = X-l12 pour obtenir l'inégalité
demandée. Pour que l'on ait IE(X) 1E(1/X) = 1, il faut et il suffit qu'il
existe (a, b) * (0, 0) tel que
136
IV. PROBLEMES A DEUX ECHANTll..LONS
P(a X1/2 + b X-112 = 0) = 1,
soit
P(a X + b = 0) = 1
ou, encore,
b P(X = - -) = 1, a
puisque a * 0 (a = 0 implique b = 0, ce qui est exclu). Il s'agit bien du
cas où X suit une loi de Dirac. Puisque P(X > 0) = 1, on ne peut avoir
IE(X) = 0 ou 1E(1/X) = O. Si l'une, au moins, des espérances
n'existe pas, on peut dire qu'elle est infinie et que le produit est infini,
donc supérieur à 1. Remarquons qu'il est possible que IE(X) et
1E(1/X) soient toutes les deux infinies, par exemple si X admet pour
densité la fonction (1 + . f2111R + (.) .
2) On sait que
2 Cvo ep(VD, T) = 2' Cr
où c YD et c T désignent les efficacités respectives des tests de van
der Waerden et de Student. D'après les résultats de l'exercice VI.2,
on a donc
[f + 00 r(x) J 2 ep(VD, T) = V p -1 dx . - 00 <p(
(F(x»)
Si l'on considère une variable aléatoire X de loi F et si l'on pose
y= -1 <p( <1> (F(X»)
f(X)
on a
P(Y > 0) = 1
et
f f(x) E(Y)= +- 1 dx. _ <p( <1> (F(x»)
137
IV. PROBLEMES A DEUX ECHANTILLONS
On peut alors appliquer le résultat de la question 1 et l'on a
1 IE(Y)
= 1E(1/Y) f +oo <p( <1>-1 ( F(x) ) ) dx
1
-00
d'où
2 eF(VD, T)
VF[f
- Ip( cI>'\ F (x) » dX] .
Sous réserve de l'existence des quantités écrites, effectuons une
intégration par parties. On obtient
r- 1p(cI>'l (F(x))) dx =
+00 [ x 1p(cI>'\F(x») J: - f x 1p'(cI>'\F (x))) (cI>'\ (F(x» f(x) dx
-00
+00 = [x 1p(cI>'l (F(x») J: + f x cI>'l (F(x» f(x) dx .
puisque
-1 1 (<1> )'(u) = -1 <p( <1> (u»
et
<p'(t) -=-t. <p(t)
Montrons que la partie tout intégrée est nulle. Comme l'expression
entre crochets est une fonction impaire de x, nous n'étudions sa
limite que pour x tendant vers +00. D'après l'exercice 3 chap. 1, on
sait que
-1 -1 -1 <1> (F(x») 2 x <p( <1> (F(x»)) l'v X <1> (F(x)) ( 1 - F(x) ) = x
(1 - F(x) ). x 4 + 00 X
Puisque F admet un moment d'ordre deux, on a (voir exercice 1
chap. 1)
lim (x 2 ( 1 - F(x) ) ) = 0
n ---7+00
-1 (<1> -1 0 F) d '" " b " . . d 1 ' . f . . l , . cI> (F ( x ) ) et, puisque a
une envee ornee au vOIsInage e ln lnl, expreSSIon
x
est également bornée au voisinage de l'infini. En effet
]38
IV. PROBLEMES A DEUX ECHANTILLONS
3 M > 0, 3 a > 0, ( x
a)
( (<1>-1 0 F)'(x)
M ),
d'où
\:1 x
a, <I>-l( F(x) ) - <I>-l( F(a) )
M (x - a),
soit
-1 -1 -1 <1> (F(x» <1> (F(a» M (x-a) <1> (F(a»
+ M. x x x a
On obtient donc
-2 eF(VD, 1) ;2 V F [ f: x 11>'\ F(x) ) f(x) dx ] .
Enfm, une application de l'inégalité de Cauchy-Schwarz nous montre
que
2 2 [f: x 11>,1 (F(x) ) f(x) dx ] = [f:(x ./ f(x) ) [ 11>,1 (F(x) ) ./ f(x) ] dx ]
+00 f +oo 2 -1 2
f x f(x) dx (II> (F(x» f(x) dx .
-00
-00
Or
+00 f x 2 f(x) dx = V F
_00
et
f +oo 1 f +oo -1 2 -1 2 2 [II> (F(x»] f(x) dx = f [II> (u)] du = t q>(t) dt =
1, -00 0 _00
d'où
2 [f
x 11>'\ F(x) ) f(x) dx ]:5; V F
et
ep(VD, T)
1.
139
IV. PROBLEMES A DEUX ECHANTILLONS
3) Pour avoir ep(VD, T) = 1, il faut et il suffit que la première inégalité
démontrée à la question 2 et celle obtenue en appliquant l'inégalité
de Cauchy-Schwarz soient des égalités, c'est-à-dire que
. la fonction
f(.) -1 <p( <1> (F(.»)
soit constante sur le support de F,
. il existe k (k E IR) tel que
\:1 x E IR,
-1 <1> (F(x» ../ f(x) = k x ../ f(x) .
La deuxième condition s'écrit
F(x) = <I>(k x),
ce qui signifie que F est une loi normale. On vérifie que la première
condition est alors satisfaite, puisque
f(x) = k <p(k x),
d'où
(X) = k q>(kx) = k. <p( <1> (F(x») <p(kx)
On a donc eF(VD, T) = 1 si et seulement si F est une loi normale.
1 Exercice VI.4. Montrer qu'il existe unefonction 'Y positive et
croissante sur ]-, 1[ 2 telle que, si <1> désigne lafonction de
répartition de la loi cH (0, 1), on ait
1 \:1 u E ]-, 1[, <I>-I(u) = u y(u). 2
1 Pour tout élément u de ]-, 1[, on pose 2
-1 <1> (u) -y(u) = . u
140
IV. PROBLEMES A DEUX ECHANTD...LONS
1 La fonction y est évidemment positive sur ]-, 1[ et, pour montrer
qu'elle est 2 croissante sur cet intervalle, on montre que la fonction y
0 cIJ est croissante sur ]0, +00[. On a
x (y 0 cIJ)(x) = y ( cIJ(x) ) = -. cIJ(x)
cIJ(x) Posons 'l'(x) = - et montrons que 'l'est décroissante sur ]0,
+00[. On a, en x désignant par <p la densité de la loi .N (0, 1),
<p(x) cIJ(x) x <p(x) - cIJ(x) 'l''(x) = - -
=2xxx
Or, si l'on pose
g(x) = x <p(x) - cIJ(x),
1 on a g(O) = - - < ° et g'(x) = x <p'(x) < 0 sur IR+. On en déduit que
g(x), donc 'l''(x), 2 est négative sur ]0, +00 [ .
Exercice VI.S
Question préliminaire. Soient XI,..., X n un échantillon d'une loi F
continue et X(1.n),... , X(n,n) l'échantillon ordonné associé. Etant
donné un élément Â. de l'intervalle ]0, 1 [, on définit la suite (r(n); n E
lN.} par r(n) = I[Â. n]l et l'on considère les statistiques 1 r(n) A (Â.) = -
L X ( ' ) n I,n r(n) i= 1
et
1 n Bn(Â.) = - L X(i n)' r(n) i=n-r(n)+ 1 ·
On admet (cela peut s'établir, par exemple, à partir du théorème
111.3.9 chap.ll) que ces statistiques convergent en loi
respectivement vers les lois de Dirac en a(À) et b(Â.) définis par
Â. I P - 1 (Â.) 111 a(À) = -1 F' (u) du = - x dF(x) Â. 0 Â. ..00
et
f I I +oo 1 -1 1 b(À) = i F (u) du = i l-Â. p- 1 (1-Â.)
x dF(x) .
141
IV. PROBLEMES A DEUX ECHANTILLONS
Quelle relation lie a(Â.) et b(Â.) lorsque F appartient à "s? Calculer
a(À) et b(À) lorsque la loi F est a) la loi .N (0, 1), b) la loi
(0, 1), 1 c) la loi S)e(O, 1), en se limitant ici au cas où À
-. 2
Soient les 20 données suivantes - 1.352 - 0.664 - 0.521 - 0.208 -
0.152 - 0.054 0.194 0.256 0.431 0.601 et - 0.241 - 0.103 0.312 0.401
0.461 0.624 0.652 0.714 0.731 5.523.
On suppose que les 10 premières sont les réalisations d'un
échantillon d'une loi F qui appartient à "s et les 10 autres les
réalisations d'un échantillon d'une loi F
définie par
\:1 XE IR,
(x) = F(x - Jl).
On veut tester au seuil a = 0.03 l' hypothèse Ho: "Jl = 0" contre l'
hypothèse RI: "Jl > 0". 1) Quelles conclusions obtient-on en
effectuant le test de la médiane et celui de Wilcoxon ? 2) a) A quelle
conclusion conduit le test de Student ? b) Cette conclusion est-elle
modifiée si l'on remplace la dernière donnée (5.523) par 1.200?
Quelle remarque inspire le résultat obtenu? 3) Pour choisir un test
de rang le plus adapté qui soit aux données du problème, on peut
proposer la méthode suivante. a) On considère la statistique RN de
Hoog (Hoog (1974)) définie par
B N (0.2) - A N (0.2) R N = B N (0.5) - A N (0.5)
dont on sait, d'après la question préliminaire, qu'elle tend en loi, sous
l' hypothèse Ho, vers une loi de Dirac en un point h(F) que l'on
précisera. Déterminer la valeur de h(F) lorsque F est l'une des trois
lois classiques proposées à la question préliminaire.
142
IV. PROBLEMES A DEUX ECHANTILLONS
b) Calculer la valeur h20 prise par la statistique HN pour les données
de l'énoncé. Quelle est, parmi les trois lois considérées, celle pour
laquelle h(F) est le plus proche de h20? Lequel des deux tests
proposés à la question 1 parait alors le mieux adapté aux données?
Quel intérêt présente la statistique de Hoog ?
Question préliminaire. Lorsque la loi F appartient à "s, on a, par
raison de symétrie, a(À) + b(À) = O. Pour l'établir de façon
rigoureuse, il suffit de poser y = -x dans la deuxième intégrale qui
définit b(À). On a alors, en tenant compte de la relation F(x) + F(y) =
1,
J - f -F-1(l- '\) b(Â.) =
y dF(y) = -
II. Y dF(y). _F- 1 (1-Â.) ..00
Si l'ensemble (x; P(x) = À} est réduit à un point, on a P- 1 (1 - À) =
_P- 1 (À) et, donc, b(Â.) = -a(À). Sinon, cet ensemble est un
intervalle et F- 1 (1 - À) et _P- 1 (À) ne sont pas égaux. Mais, la
fonction F étant constante sur J'intervalle [-F- 1 (1 - À), F- 1 (Â.)],
on a
f F - 1 (Â.) Y dF(y) = 0 -1 '\ -F (1-1\.)
et, donc, encore b(À) = -a(À).
Remarque. On a également a(À) = IE( X 1 X
F1( À) ) et b(À) = IE( X 1 X
P- 1 (1 - À) ) puisque, par exemple, si c est tel que F( c) * 0, la loi de
X sachant X
c admet pour fonction de répartition
F(x) x
-11 ] [ (x) + 11 [ [ (x). F(c) -oo,c c.
On a donc
c IE(X 1 X
c) =
f x dF(x). F (c) ..00
Calculons seulement a(À) dans les trois cas proposés puisque, dans
chacun de ces cas, on a b(À) = -a(À).
143
IV. PROBLEMES A DEUX ECHANTILLONS
a) En désignant par
la fonction de répartition de la loi .N (0, 1), on a
f cl>-l (À.) f cl>-1 (À.) x2 1 -1 2 1 1 1 2 1 - 2 (ci> (À.» a(À) = i x d
(x) = i - x e dx = - e -00 -00 J2;c À J2;c
b) Si la loi F est la loi
(0, 1), on a (voir exercice 6 chap. 1)
x e F(x) = - et eX + 1
-1 À F (Â.) = Log-. 1 - À
En écrivant que
J x dF(x) = x F(x) - J F(x) dx = x F(x) - Log(e x + 1),
on obtient 1 [ -1 ( À J] À 1 a(À) = - À F (À) - Log - + 1 = Log - + -
Log(1 - À). Â. l-À l-À Â.
c) Si la loi F est la loi S)e (0, 1), on a (voir exercice 7 chap. 1)
1 X F(x) = - e 2
si x
et
p-l(À) = Log(2À)
1 si À
-, 2
d'où, si
1 '\ <- 1\.- , 2 Log (2À.) 1 f il Log(2À.) a(Â.) = - - x eX dx = - [xe X -
eX] = Log(2Â.) - 1. Â. 2 2Â.
-00
1) En adoptant les notations du chapitre IV du tome 1, on a m = n =
10 et N = 20. On vérifie, de plus, que les rangs Ri prennent les
valeurs
4, 7, 11, 12, 14, 16, 17, 18, 19 et 20
N + 1 dont 8 sont supérieures à - = 10.5. La valeur prise par la
statistique MN est donc 2 égale à 8. Au seuil 0.03, nous acceptons
l'hypothèse Ho si
144
IV. PROBLEMES A DEUX ECHANTll...LONS
P o(MN
8)
0.03.
Or, d'après le théorème IV. 1.3, la statistique MN suit la loi 'ae(10;
10,10). On a donc (voir exercice 4 chap. 1)
8 -2 9 1 10 0 CIO Cio + CIO CIO + CIO CIO Po (MN
8) = 10 C20
2126 = 184 756 = 0.0115.
Le test de la médiane conduit donc à rejeter l'hypothèse Ho au seuil
0.03.
Pour le test de Wilcoxon, considérons plutôt la statistique UN de
Mann-Whitney pour laquelle nous disposons d'une table. Puisque
n UN = L Ri _ n (n + 1) , i=l 2
la valeur prise par UN est ici égale à 93 (= 138 - 45). Au seuil 0.03,
nous acceptons l'hypothèse Ho si
Po(UN
93)
0.03.
Or, d'après la table F du tome 1 et en tenant compte de la symétrie
de la loi de UN,
on a
Po(UN
93) = Po(UN
7) = 0.0002,
ce qui conduit encore à rejeter 1 'hypothèse Ho.
2) a) On peut définir la statistique T N de Student, avec des
notations classiques (voir, par exemple, l'exercice VI.2), par
TN=
Yn-X m m S
(X) + n S
(Y) m + n m+n-2 mn
La région critique, pour tester l'hypothèse Ho contre l'hypothèse H},
est de la fonne {TN
ca} et, sous l'hypothèse Ho, la statistique TN suit la loi :J't (N - 2).
Les valeurs prises par les moyennes et les variances empiriques des
deux échantillons sont ici
145
IV. PROBLEMES A DEUX ECHANTILLONS
X n = - 0.1469, Ym = 0.9074,
(X) = 0.3044 et s
(Y) = 2.24667,
d'où l'on en déduit que la statistique TN prend la valeur 1.900. Au
seuil 0.03, nous acceptons l'hypothèse Ho si
Po(TN
1,9)
0.03.
La consultation d'une table de la loi :ft (18) montre que
Po(TN
1,9)
0.037.
Nous sommes donc conduits à accepter l'hypothèse Ho.
b) Seules les valeurs correspondant au deuxième échantillon sont
modifiées et
l'on a
Ym = 0.4751 et s
(Y) = 0.1581,
d'où la valeur 4.200 prise par la statistique TN. On a alors
Po(TN
4.2) < 0.002
et nous sommes donc conduits à rejeter l'hypothèse Ho.
Ce résultat est assez paradoxal car, en diminuant la dernière
donnée, il nous semble que nous "rapprochons" le second
échantillon du premier et que nous devrions donc confirmer
l'acceptation de 1 'hypothèse Ho. On peut remarquer que la
modification introduite ne change en rien les valeurs prises par les
statistiques MN et UN et, donc, les conclusions des tests
correspondants.
Toutefois, nous pouvons expliquer ce paradoxe en introduisant la
notion de monotonie d'un test, notion étudiée à l'exercice III.5 chap.
V en ce qui concerne les problèmes à un échantillon. On laisse au
lecteur le soin de définir de façon analogue cette monotonie pour les
problèmes à deux échantillons et de vérifier que les tests de la
médiane et de Wilcoxon sont monotones, tandis que celui de
Student ne l'est pas, comme nous le prouve l'exemple numérique ci-
dessus.
3) a) D'après le résultat de la question préliminaire, la limite en loi de
la statistique HN est la loi de Dirac en h(F) défini par
b(0.2) - a(0.2) h(F) = . b(0.5) - a(0.5)
146
IV. PROBLEMES A DEUX ECHANTILLONS
Lorsque la loi F appartient à "s, ce qui. est le cas des trois lois
considérées, on a
a(O.2) h(F) = , a(O.5)
ce qui conduit aux résultats suivants que l'on obtient aisément.
Si F = eN (0, 1), Si F = :;E (0, 1), Si F = me(O, 1),
h(F) = 1.76. h(F) = 1.81. h(F) = 1.92.
b) On a ici
b 20 (0.2) -
o(0.2) h 20 = b 2o (0.5) - a 2o (0.5)
où a2o(0.2) et a2o(0.5) désignent respectivement la moyenne des 4
et des 10 plus petites données, b2o(0.2) et b20(0.5) correspondant,
de même, aux plus grandes données. On obtient
1.905 + 0.6945 h 20 = = 1.96. 1.045 + 0.2845
Panni les trois lois proposées, c'est la loi double exponentielle qui
donne la valeur de h(F) la plus proche de h20. Nous sommes aJors
amenés à penser que le test le mieux adapté aux données du
problème est celui de la médiane puisque l'on sait (voir VL2 du tome
1) qu'il est AMP pour la loi double exponentielle.
La statistique de Hoog présente d'abord l'intérêt d'être indépendante
du paramètre de localisation-échelle, ce qui justifie que nous nous
soyons limités, pour le calcul de h(F), aux lois nonnale, logistique et
double exponentielle de paramètre (0, 1).
De plus, la statistique de Hoog tient largement compte des données
extrêines et permet donc d' éval uer le poids des queues de la loi F
sans qu'on connaisse celle-ci. En particulier, dans le cas présent,
nous remarquons le caractère aberrant de la donnée 5.523, ce qui
nous amène à penser que la loi F a des queues lourdes. Il n'est
donc pas étonnant que ce soit la loi double exponentielle qui
paraisse la plus proche de la loi F inconnue, puisque c'est, panni les
trois lois considérées, celle qui a les queues les plus lourdes pour le
préordre de van Zwet et, donc, également pour le préordre de
Lawrence (voir exercice V.l chap. II).
147
IV. PROBLEMES A DEUX ECHANTILLONS
Remarque. Il peut paraître' étonnant que l'on considère les N
observations, et pas seulement les m premières qui sont relatives à
la loi F, pour chercher le test le plus adéquat. En fait, cela n'est
guère choquant si l'on admet que Il n'est pas très éloigné de O.
Mais, surtout, ce choix est justifié par le fait que, sous l'hypothèse
Ho, la statistique (S(.), R(.» constituée par les rangs des N
observations lorsqu'elles sont ordonnées toutes ensemble ne
dépend pas de la loi F, du moment que celle-ci appartient à "
(théorème 1.2.1 démontré à l'exercice 1.1). La statistique de Hoog
est donc une statistique de rang au sens où on l'a enten4u dans la
définition 1.2.2. Il s'ensuit, rappelons-le, que le seuil d'un test
construit à partir d'une telle statistique ne dépend pas de la loi F.
Enfin, le lecteur intéressé par quelques développements théoriques
consultera avec profit le chapitre vrn de Hajek (1969).
Exercice VII.I. On se propose de déterminer l'estimateur de Hodges-
Lehmann du paramètre Il de translation (voir définition VII.2.2) déduit
du test de la médiane dont la statistique MN est définie par
N1
N+l MN = - £.J 11 (i - -) Zi' n i=l JO,
[2
1) Déterminer cet estimateur lorsque N est pair. Il est conseillé de
commencer par le cas où m et n sont impairs. 2) On se place dans le
cas où N est impair. Proposer une statistique Mt N' légèrement
différente de la statistique MN' qui tienne compte du fait que l'on
peut avoir
N+l 1=
1 et qui réalise lEo(M ' N ) = -. 2
Déterminer l'estimateur de Hodges-Lehmann déduit de cette
statistique.
1) Supposons N pair. On sait (théorème IV. 1.3) que
1 Mo = IE(}(M N ) = - 2
et que
1 n N+l MN = - L 11 JO [ (R U) - -). n j=l'
Etant donné la réalisation (x(l),..., X(m» et (Y(1), ... , Y(n» des deux
échantillons ordonnés, on considère la fonction t N définie par
148
IV. PROBLEMES A DEUX ECHANTILLONS
N+l t N (J.1) = - £.J 11 ]0,+00[( r(j)(J.1) - ), n j=l 2
où r(j)(J.1) désigne le rang de Y(j) - J.1 lorsqu'on ordonne les N
nombres X(l), ... , x(m), Y(l) - J.1, ... , Y(n) - J.1. On détennine les
nombres J.1N. et J.1N.. définis par
1 J.1N. = sup (J.1 ; t N (J.1) > - } 2
1 et J.1N.. = inf (J.1 ; t N (J.1) < - } 2
et l' estimateur J.1N cherché est défini par
'- 1 J.1N = - (J.1N. + J.1N ..). 2
. Supposons d'abord que m et n sont impairs et posons
m=2p+l
et
n=2q+1.
1 Pour avoir t N (J.1) > -, il faut et il suffit que 2
n N+l L 11 ]0,+00[( r(j)(J.1) - )
q + 1, j=l 2
soit
N + 1 3 r(q+1)(J.1) > = p + q + -. 2 2
Si l'on désigne par Â. le nombre d'éléments X(i) qui sont inférieurs à
Y(q+1) - J.1, cette condition s'écrit
q + 1 + À > p + q + 1, À> p,
ce qui équivaut à
X(p+l) < Y(q+1) - J.1,
J.1 < Y(q+1) - X(P+l) = Y - x,
d'où
. - - J.1N = Y-X.
149
IV. PROBLEMES A DEUX ECHANTILLONS
1 De même, pour avoir t N (Jl) < -, il faut et il suffit que 2
N+l r(q+l)(J..l) < 2
3 = p + q + -, 2
soit
N + 1 r(q+l)(Jl) < 2
q+1+À
p + q + 1, À
p,
ce qui équivaut à
X(p+1) > Y(q+1) - Jl,
Jl > y - x,
d'où
JlN ** = f - x.
On en déduit
JlN = y-x.
. Supposons maintenant que m et n sont pairs et posons
m =2 P et n = 2 q.
En raisonnant comme ci-dessus, on obtient
N+l ( tN(Jl) > -) Ç:) (£.J 11 ]0,+00[( rU)(Jl) - )
q + 1 ) 2 j=l 2
N + 1 Ç:) (r(q)(Jl) > ) 2 Ç:) (r(q)(Jl)
p+q+1)
Ç:) (q+À
p+q+l)
<=> (À
p + 1 ),
où À désigne maintenant le nombre d'éléments X(i) qui sont
inférieurs à Y(q) - Jl. On obtient donc
150
IV. PROBLEMES A DEUX ECHANTILLONS
1 ( tN(Jl) > -) (:::) (X(p+1) < Y(q) - Jl ) 2
(:::) (Jl < Y(q) - X(p+ 1) ),
d'où
JlN'" = Y(q) - X(p+1)'
De même, on a
n1
N+l ( tN(Jl) < -) (:::) (£.J 11 ]0,+00[( r(j)(Jl) - )
q + 1 ) 2 j=l 2
N+l (:::) (r(q+1)(Jl) < ) 2 (:::) (r(q+1)(Jl)
P+q)
(:::) (q+l+Â
p+q)
(:::) (Â
p - 1 ),
où Â désigne ici le nombre d'éléments X(i) qui sont inférieurs à
Y(q+1) - J.!. On obtient donc
1 ( tN(Jl) < -) (:::) ( X(p) > Y(q+1) - Jl ) 2
(:::) ( Jl > Y(q+1) - x(p) ),
d'où
JlN"'''' = Y(q+1) - x(P).
On en déduit
1 Y(q) + Y(q+1) X(p) + X(p+1) JlN = - (Jl ... + Jl ......) = 2 N N 2 2
On trouve encore
JlN = f - x.
2) Supposons N impair. On sait (théorème IV. 1.3) que
N - 1 Mo = lEo(M N ) = - . 2N
151
IV. PROBLEMES A DEUX ECHANTILLONS
Pour tenir compte de la possibilité d'avoir 1 =
N+l 2
posons (voir
remarque IV. 1.5)
n1
N+l 1 N+l M'N = - £.J [11 ]0,+00[( i - ) + - 11 (O)( i - )] Zi. n i=l 2 2 2
On a alors (théorème 111.1.1)
n1
N+l1 N+l M'o = IEO(M'N) = - £.J [11 ]0,+00[( i - ) + -11 (O)( i - ) ] N i=l
222
1 N-l 1 1 =-(-+-)=-. N 2 2 2
Remarquons que, si N est pair, on a M'N = MN' puisqu'on ne peut
alors avoir
N+l
1=
2
En raisonnant comme à la question 1 (on laisse au lecteur le soin
d'écrire les équivalences), on peut montrer que
. si m est pair (et n impair), soit m = 2 p, on a
* - t **- J..LN = Y - X(P+l) e J..LN = Y - x(p),
. si n est pair (et m impair), soit n = 2 q, on a
* - ** - J..LN = Y(q) - x et J..LN = Y(q+l) - X.
Dans les deux cas, on obtient donc encore ici
J..LN = y -x.
Exercice VII.2. Avec les données de l'exemple VII.2.7, déterminer
l'estimation du paramètre de translation J..L déduite de la statistique
de van der Waerden. On pourra utiliser la table 9 (p. 168 du tome 1)
.
TI nous faut chercher, dans la table 9, les valeurs J..LN* et J..LN**
définies par
152
IV. PROBLEMES A DEUX ECHANTILLONS
JlN. = sup {Jl ; VD N (Jl) > O} JlN.. = inf {Jl; VDN(Jl) < O}.
Or, la plus petite valeur positive de 8VD N (Jl) est 0.01 et elle est
prise lorque Jl est juste plus grand que 1.49 (X(i) = 1.07 et YU) =
2.56). La plus grande valeur négative de 8VD N (Jl) est -0.36 et elle
est prise lorsque Jl est juste plus grand que 1.54 (x(i) = 1.75 et YU) =
-0.21). On a donc
JlN. = JlN.. = 1.54
et cette valeur est l'estimation cherchée.
Exercice VII.3. Démonstration du théorème VII.2.1 On considère le
modèle de localisation pour deux échantillons (1.3. Gj s)' Soit TN
une statistique linéaire de rang dont la fonction score J vérifie
\:1 u e ]0,1[,
1 JN (u) + JN (1 - u) = 2 JN (-) . 2
Montrer que la loi de l'estimateur de Hodges-Lehmann du paramètre
Jl est symétrique par rapport à Jl.
Etant donné un nombre réel Jlo, on considère les échantillons
indépendants Xl, ... , X m et YI,".' y n de la loi F et de la loi F
o respectivement, où F appartient à "s et où F
o est définie par
\:1 x e rR,
o (x) = F(x - Jlo).
On se propose de montrer que la loi de l'estimateur JlN de Hodges-
Lehmann (voir définition VII.2.2) est symétrique par rapport à Jlo, ou
encore que JlN et 2Jlo - JlN ont la même loi. Remarquons bien que
l'on considère ici JlN comme une variable aléatoire, c'est- à-dire
comme une fonction des Xi et des Yj. Pour des raisons de
commodité, 'JlN désignera à la fois cette variable aléatoire et sa
réalisation. Il en sera de même pour JlN. et Jl .. N .
Puisque F appartient à "s, une variable aléatoire X de loi F a la
même loi que -x et, de même, une variable aléatoire Y de loi F
o a la même loi que 2Jlo - Y. Si nous posons
\:1 i e {l,..., m}, X' i = - Xi , \:1 j e {l,..., n}, Y'j = 2 Jlo - y j ,
153
IV. PROBLEMES A DEUX ECHANTILLONS
X' 1, ... , X'm et Y'l, ... , Y'n sont encore deux échantillons
indépendants des lois F et Fllo respectivement. Ceci nous permet
d'afftrmer que leurs estimateurs de Hodges-Lehmann ,...., ,...-., J.!N
et J.!'N ont la même loi. Désignant par des lettres minuscules les
réalisations de ces échantillons, on définit les fonctions t N et t ' N
par
r j (J.!) tN(J.!) = -
JI'l - ), n j=l N + 1 , 1
r ' j (Ji) tN(J.!) = -
JN( -), n j= 1 N + 1
où riJ.!) désigne le rang de Yj - J.! lorsq u ' on ordonne les N
nombres Xl,..., X m , YI - J.!, ... , Yn - Ji et r'iJ.!) le rang de y'j - J.!
lorsqu'on ordonne les nombres XiI, ... , x ' m , Y'1 - J.!, ... , y'n - J.!
qui sont respectivement égaux à -Xl,..., -x m , 2J.!o - J.! - YI, ... ,
2J.!o - J.! - Yn, c'est-à-dire à -Xl,..., -X m , - (YI - (2Jio - J.! », ... , - (
Yn - ( 2J.1o - J.! )). On en déduit
r'iJ.!) = N + 1 - rj(2J.1o - J.!)
puisque, si N nombres réels sont changés en leurs opposés, le rang
r de chacun d'eux devient N + 1 - r. D'où
1 n r. (2J.! - J.!) t'N(Ji) = - L J N ( 1 _ JO ) n j=l N + 1 1
1 r j (2J.!o - J.!) = - £.J ( 2 J( - ) - J N ( ) ) n j=l 2 N + 1 1 = 2 J( - ) -
tN(2
- J.!) 2 = 2 Mo - tN(2
- J.!),
puisque, d'après le théorème 111.1.1, on a
1 N i Mo = lEo(T N ) = - LJ N ( -) N i=l N + 1 N. . 1
1 N+I-I = - £.J ( J N ( -) + J N ( ) ) 2N i= 1 N + 1 N + 1 1 = J(-). 2
154
IV. PROBLEMES A DEUX ECHANTILLONS
On en déduit que
Jl'N* = sup {Jl ; t'N (Jl) < Mo} = sup (Jl ; 2Mo - t N (2flo - Jl) < Mo} =
sup (Jl ; t N (2Jlo - Jl) > Mo} = {Jl ; 2flo - Jl = JlN**}
= 2Jlo - JlN ** .
De même, on a
Jl ' ** - 2Jl Jl * N - 0 - N'
d'où
"-"
Jl'N = 2Jlo - JlN.
Puisque JlN et Jl'N , considérés comme variables aléatoires, ont la
même loi, on en déduit que JlN a même loi que 2fJ<> - JlN , donc
que sa loi est symétrique par rapport à Jlo.
Rappelons que ce résultat permet de conclure que, si l'espérance de
JlN existe, l'estimateur JlN est sans biais, puisqu'on a alors
lE ( JlN ) = 2Jlo - lE ( JlN ) ,
soit
lE ()lN) = Jlo.
Exercice VII.4. Utilisation d'une méthode graphique On se place
dans le cadre du modèle de localisation (1.3."0) et l'on se propose
de trouver une méthode graphique pour estimer le paramètre Jl ou
pour tester l' hypothèse Ho : "Jl = 0" contre l' hypothèse HI : "Jl * 0" à
partir des réalisations xb ... , x m et YI, ... , Yn des deux échantillons.
Pour cela, on considère, dans un repère cartésien, les mn points M ij
de coordonnées Xi et Yj (1
m, 1
j
n). Par chacun de ces points, on mène la droite de coefficient
directeur égal à 1 et l'on désigne par A ij son point d'intersection
avec ['axe des ordonnées. Calculer l'ordonnée aij de chacun des
points A ij et proposer une méthode graphiqu£ pour déterminer la
valeur de l'estimateur de Jl de Hodges - Lehmann associé à la
statistique de Mann - Whitney, ainsi que l'intervalle de confiance
pour Jl de niveau 1 - a (O<a<l).
155
IV. PROBLEMES A DEUX ECHANTILLONS
Déduire de cet intervalle la conclusion du test de niveau a de l'
hypothèse Ho contre l' hypothèse Hl.
La droite de coefficient directeur égal à 1 qui passe par le point Mij a
pour équation
y - Yj = x - Xi,
d'où son ordonnée à l'origine
aij = Yj - Xi.
On sait (voir exemple VII.2.5) que la valeur de l'estimateur de J..L de
Hodges- Lehmann associé à la statistique de Mann-Whitney (ou de
Wilcoxon) est la médiane des mn nombres élïj' Il suffit donc, pour
avoir cette valeur, de considérer les mn points A ij et de déterminer
l'abscisse de leur "point médian". De même, l'intervalle de confiance
pour tl de niveau 1 - a est de la forme [Ô(k+1)' Ô(mn-k)], où Ô(1)'"''
Ô(mn) désignent les mn nombres aij rangés dans l'ordre croissant
(voir remarque VII.3.1). L'entier k est déterminé à partir de la loi de la
statistique UN de Mann-Whitney pour tl = 0 (voir exemple VII.3.2),
cette loi étant tabulée (table F) ou approchée par une loi normale
(théorème IV.2.6). Une fois déterminé cet entier k, il est donc aisé de
"lire" sur le graphique l'intervalle de confiance puisqu'il suffit de
chercher le (k+ 1 )ème point Aij lorsqu'on parcourt l'axe des
ordonnées dans le sens croissant, puis dans le sens décroissant.
Les deux points obtenus ont pour ordonnées respectives Ô(k+l) et
Ô(mn-k)' Enfin, si l'on teste l'hypothèse Ho: "tl = 0" contre
l'hypothèse Hl : "tl * 0" au niveau a, il suffit de déterminer l'intervalle
de confiance ci-dessus de niveau l-a. On accepte l'hypothèse Ho si
le nombre 0 appartient à cet intervalle, c'est-à-dire, graphiquement,
si l'origine se trouve entre les deux points Aij déterminés ci-dessus.
On rejette 1 'hypothèse Ho sinon.
Exercice VIII.I. Démonstration de la relation (VIII.l) Avec les
notations de la section VIII.I et en supposant que les hypothèses 1*
et 11* sont vérifiées, montrer, en s'inspirant de la démonstration du
théorème VI.I.2, que l'efficacité c d'un test de rang de l' hypothèse
Ho: "cr = 1" contre l' hypothèse Hl: "cr > 1" ou "cr < 1" ou "cr * 1"
vérifie la relation
156
IV. PROBLEMES A DEUX ECHANTILLONS
22[f
-X f( F(x) ) r(X) dx ] c = Â. (1 - Â.) 1 [ 1 ] 2 .
p(u) du -
J(u) du
On sait, d'après le théorème V.2.4 et avec les notations de ce
théorème, que l'on a
. Jl'h(N)(9 N ) c= lim N-++oo J'h(N) cr h (N)(9 o )
D'après le théorème V .1.1, on a, pour un paramètre d'échelle,
J +oo X x
(N)(9N) = J( Ân(N) F(x) + (1 - Ân(N» F(-) ) dF(-) . __ 9 N 9 N
Après un changement de variable simple, on peut écrire
+00 1lt,(N)(9 N ) = J J (
(N) F(9 N x) + (1 -
(N» F(x) ) dF(x) .
--
Nous en déduisons, grâce à une dérivation sous l'intégrale justifiée
par les hypothèses,
+00 Il'h(N)(9 N ) =
(N) J f(
(N)F(9Nx) + (1 - Ân(N» F(x) ) x f(9 N x) dF(x),
--
d'où
lim Jl'h(N)(9 N ) = À J +- x J'( F(x) ) r(x) dx. N -++00 --
D'autre part, d'après le corollaire V.1.11 (que nous avons démontré à
l'exercice V.2), on a
157
IV. PROBLEMES A DEUX ECHANTILLONS
[ 1 [ 1 J 2 ] 2 Àh(N) 2 h(N) u h (N)(9 o ) = _ f J (u) du - f J(u) du . 1
Ân(N) 0 0
On en déduit immédiatement la relation cherchée.
Remarque. On peut, plus précisément, écrire que
J +OO C = J ----;;:- x J'( F(x) ) r(x) dx,
-00
où l'on a posé
1[1J2A=
p(u) du -
J(u) du .
La même remarque peut être faite à propos du modèle de
localisation (relation (VI. 1».
Exercice VllI.2. Calculer les efficacités des tests décrits à la section
VIII.2.
Pour tous ces tests, nous utiliserons la relation (VIII. 1 ) établie à 1
'exercice VIII. 1 , à
savolf
2 2 [J
-x J'( F(x» r(x) dx ] c = À (1 - À) 2 . f J2(u) du - [f J(u) du ]
et, pour alléger la notation, nous désignons par A le dénominateur
ci-dessus.
Test de Ansari-Bradley Sa fonction score est définie par
1 J(u) = lu - -1 , 2
158
IV. PROBLEMES A DEUX ECHANTll...LONS
d'où
1 [ 1 ] 2 A=2 f (U-
)2du-4 f (u-
)du 1/2 2 1/2 2
1 - - 48
D'autre part, on a
r(u) = L
si 1/2 < u < 1, si 0 < u < 1/2,
d'où
J +- f F-I(1I2) +- x r( F(x» r(x) dx = - x r(x) dx + f x r(x) dx. -00 -00 p-1
(112)
On en déduit
[ -1 ] 2 F (112) + 00 c 2 = 48 À. (1 - 1..) J x r(x) dx - f x r(x) dx . _00
F- 1 (1/2)
Si, de plus, la loi F appartient à Gj s, on a
2 c 2 = 192 À. (1 - 1..) [ f -x r(x) dX] ·
Test de Mood Sa fonction score est définie par
1 2 J(u) = (u - -) , 2
d'où
1 [ 1 ] 2 A = f (u -
)4 du - f (u -
)2 du o 2 0 2
1 -- 180
159
IV. PROBLEMES A DEUX ECHANTILLONS
Puisque r(u) = 2u - 1, on a
2 c 2 = 180 À (1 - À) [f
-x ( 2 F(x) - 1 ) r(x) d.x ] .
Si, de plus, la loi F appartient à "s, on a
2 c 2 = 720 À (1 - À) [ f -x ( 2 F(x) - 1 ) r(x) dX] .
Test de Klotz Sa fonction score est la fonction (<1>-1)2, d'où
1 [ 1 ] 2 -1 4 -1 2 A =
(et» (u» du -
(et» (u» du .
En posant t = <I>-l(u) dans ces intégrales, on obtient
2 A = f:t4 q>(t) dt - [(-t 2 q>(t) dt] = 3 - 1 = 2.
D'autre part, on a
-1 -1 -1 <1> (u) J'(u) = 2 <1> (u) (<1> )'(u) = 2 -1 <p( <1> (u»
d'où
c 2 = 2 À (1 - À) [ f _ + 00 - x et»'l
F(x) ) r(x) dx ] 2. <p( <1> (F(x»)
Si, de plus, F appartient à "s, la fonction qui figure sous 1
intégrale est paire.
Test de Gastwirth ... 1 Sa fonction score J p (p e ]0, -[) est défmie par
2
160
IV. PROBLEMES A DEUX ECHANTILLONS
{ p - U . Jp(U) = 0 u-(I-p)
si 0 < u
p, si p < u < 1 - p, si 1 - p
u < 1,
d'où
p 1 [ pl ] 2 A = f (p - ul du + f (u - (1 - p) )2 du - f (p - u) du + f (u - (1 -
p) ) du o I-p 0 I-p f p [f P ] 2 2 2 3 4 3 2 =2 (u-p) du-4 (p-u)du =-p -p
=p (--p). o 0 3 3
Puisque
{ -1 (J;)'(U) =
si 0 < u < p, si p < u < 1 - p, si 1 - p < u < 1,
on obtient
[ F-1 ] 2 À(l-À) (P) +00 C 2 = 3 f x f(x) dx - f x f2(x) dx . p (2/3 - p) _
00 -1 F (l-p)
1 On retrouve l'efficacité du test de Ansari-Bradley pour p =-. 2 Si F
appartient à cJj s, les deux intégrales écrites sont opposées, d'où
[ + 00 ] 2 2 4 À (1 - À) c = 3 f x r(x) dx . p (2/3 - p) -1 F (l-p)
Test de Siegel- Tukey Il nous faut déterminer sa fonction score J
comme limite de la fonction J N qui, ici, dépend de N et qui n'est, en
fait, définie que pour les valeurs de la variable de la forme 1
(1
N). On a, avec les notations de VIII.2.e,
N+1
1 * JN(-)=
N+1
161
IV. PROBLEMES A DEUX ECHANTILLONS
et l'on peut supposer, par exemple, que la fonction J N est en
escalier et vérifie
\:1 i E {O, 1, ... , N},
[ i i+ 1 [ \:lUE - - N+l'N+l '
1 JN(u) = J N (-), N+l
soit
\:1 u E [0, 1[,
I[ (N+l) u]1 JN(u) = J N ( ). N+l
. D'autre part, on peut aisément exprimer Ri en fonction de Ri. Le
lecteur pourra effectuer cette recherche et vérifier que l'on a
. R. = 1
2R. 1 2 R. - 1 1 2 (N + 1) - 2 Ri 2 N + 1 - 2 R. 1
si Ri = 2k
(N + 1 )/2, si Ri = 2k + 1
( N + 1 )/2, si N - R. = 2k > N/2, 1 si N - R. = 2k + 1 > N/2. 1
Puisque
. R. R. 1 1 = J N ( ), N+l N+l
on a
2i
ou
2 i + 1 (selon la parité de i)
N + 1 si i
'
1JN()=N+1
N + 1 2i 2- N + 1
N + 1 2 i + 1 ou 2 - (selon la parité de N - i) N + 1
N + 1 si i >
Enfin, on complète la définition de J N en posant JN(O) = O. On
vérifie alors que, si 1 u e ]0, -[, on a, en désignant par i la partie
entière de (N + 1) u, 2
1 1 J N (u) - 2u 1 = 1 J N ( ) - 2u 1 N + 1
1
1JN()-N+112
2i
1 + 21 N+l N+l 3
-u1
+ = N+l N+l N+l
d'où
J (u) = 2u
1 SI ue ]-,1[. 2
162
IV. PROBLEMES A DEUX ECHANTILLONS
On montrerait de même que l'on a
J (u) = 2 (1 - u)
1 SI ue ]-,1[. 2
1 En complétant par J ( -) = 1, la fonction J est alors en tièremen t
déterminée et l'on 2
peut calculer l'efficacité du test. On a
112 [ 112 ] 2 A = 2 L (2u)2 du - 4 L 2u du
1 12
et
f +oo f F-l (112) +00 x J'( F(x) ) f(x) dx = 2 x f(x) dx - 2 f x f(x) dx. -00
F- 1 (1/2)
On obtient finalement la même efficacité que pour le test d'Ansari-
Bradley, soit
[ -1 ] 2 F (1/2) + 00 c 2 = 48 A (1 - A) f x f2(x) dx - f x f(x) dx . _00 F-
1 (l12)
Test de Savage Ici encore, nous devons chercher la fonction J
comme limite de la fonction J N et, puisque cette dernière fonction
n'est définie que pour les valeurs de la variable de la forme 1
N+1
(1
N), nous supposons encore que
\:1 i e {O, 1, ... , N},
[ i i+ 1 [ \:lue -- N+l' N+l '
1 JN(u) = J N ( -), N+l
soit
\:1 u e [0, 1 [,
1 [ (N + 1) u ] 1 JN(u) = J N ( ). N+l
D'autre part
N 1 )= L j=N-i+1 j
\:lie {l,...,N},
lN ( N + 1
163
IV. PROBLEMES A DEUX ECHANTILLONS
En convenant que cette expression est égale à 0 si i = 0, on obtient
\:lue [0,1[,
1 J N (u) = £.J . j=N+I-I[ (N + 1) u JI J
1 N . -- L (
r1 N + 1 j=N+I-I[ (N + 1) u JI N + 1
et, d'après ce que l'on sait de la valeur moyenne d'une fonction, la
limite de cette expression est
f I dt
= - Log(1 - u), 1- u
d'où
\:1 u E [0, 1[,
J(u) = - Log(1 - u) .
On a donc
1[1]2A=
Log 2 (1 - u) du -
Log(l - u) du 1 [ 1 ] 2 =
Lolt dt -
Log t dt = 1
1 et, puisque J'(u) = -, on obtient 1 - u
[ + 00 f ] 2 c 2 = À (1 - À) f x (x) dx . 1 - F(x) - 00
Exercice VIII.3. Montrer que le test de Savage est LMP pour la
famille des lois exponentielles {'I (0, À) ; À > O}.
On sait (voir page 120 du tome 1) que, pour un paramètre d'échelle,
un test de rang LMP pour la loi F est déterminé à partir de la
statistique linéaire de rang suivante
( f I(V(i» J TN = - -
lEo 1+ V(i) Zi' n 1= 1 f(V (i»
164
IV. PROBLEMES A DEUX ECHANTILLONS
OÙ V(I),'" , V (N) est un échantillon ordonné de la loi F. Cherchons le
test de rang LMP pour la famille ('E (O;À) ; À> O). On peut prendre F
= 1(0, 1) et l'on a alors
f(x) = e- x et
f(x) -=-1 f(x)
(x > 0),
d'où
1 N TN = - L ( lEo(V(i» - 1 ) Zi' n i=1
Or, d'après le résultat de l'exercice N.l chap. TI, on a
N 1 lEo(V(i
=.
-:-' J=N-1+1 J
d'où la fonction score J N définie par
. N 1 JN(
) = lEo(V(i» - 1 = ( L -:-) - 1. N + 1 j=N-i+l J
On obtient un test équivalent au test de Savage, ce qui montte que
ce dernier est bien LMP pour la famille considérée.
Exercice VIII.4. Montrer que le test de Savage est LMP pour la
famille (FJl; Jl E IR) des lois FJl définies par les densités
\:1 x E IR,
fJ.l(x) = exp( x - Jl - exp(x - Jl) ).
On sait (voir page 119 du tome 1) que, pour un paramètte de
localisation, un test de rang LMP pour la loi F est détenniné à partir
de la statistique linéaire de rang suivante
f '(V(i» TN = - £.J lEo( - ) Zi ' n i= 1 f(V (i»
où V (1), ... , V (N) est un échantillon ordonné de la loi F. On peut
prendre pour loi F la loi dont la densité f est définie par
\:1 XE IR,
f(x) = exp( x - exp(x) ).
165
IV. PROBLEMES A DEUX ECHANTILLONS
On a alors
f(x) x --=e -1 f(x)
et l'on doit donc déterminer
lEo(e V(i) _ 1) = lEo(e V(i» - 1.
On peut facilement montrer (on laisse au lecteur le soin d'expliciter
le calcul) que, si X est une variable aléatoire de loi F, alors Y = eX
est de loi 1(0, 1). Il s'ensuit que e V(l), ... , e v(n) est un échantillon
ordonné de la loi 1(0, 1). On a donc
N 1 lE (e V(i» = L o . j=N-i+l J
et l'on obtient la même statistique linéaire de rang qu'à l'exercice
précédent, ce qui montre que le test de Savage est bien LMP pour la
famille considérée.
Exercice VIII.S. A tout nombre réel 8 strictement positif, on associe
la loi Fe dont la densité fe est définie par
{f 1 2 t;1 fe(x) = - exp ( - - (x - 8) ) 8 rR +(x - 8). 1t 2
Etant donné, de plus, un nombre réel a strictement positif, on
désigne par Ge,cr la loi définie par
\:1 x E IR,
x G e (x) = Fe(-). ,cr a
1 ) Montrer que l' on a
1 1 G e - (-)=8a+aa, ,cr 2
où a == 0.675. Montrer que la quantité
f<>O X
(x) dx - f-HI x
(x) dx a+e -00
166
IV. PROBLEMES A DEUX ECHANTll..LONS
peut être négative ou positive suivant les valeurs de 8. 2) En
déduire, d'après le théorème V.2.4, que le test d'Ansari-Bradley,
utilisé pour tester l' hypothèse "a = 1" contre les hypothèses
alternatives du type (V.8) écrites pour un paramètre d'échelle, peut
être asymptotiquement biaisé. (Moses (1963»
1) On a évidemment
1 1 G- 1 (-) = a F- 1 (_). e,cr 2 e 2
D'autre part, puisque
fe(x) = 2 cp(x - 8) 11 IR +(x - 8),
où cp désigne la densité de la loi eN (0, 1), on a
Fe(x) = ( 2 <1>(x - S) - 1 ) 11 fR+(x - 8),
d'où
1 1 ( Fe(x) = -) <=> (2 <1>(x - S) - 1 = - ) 2 2 3 <=> (<1>(x - S) = - ) 4
<=> (x=S+<1>-\2-». 4
On en tire
1 1 G e - (-) = 8 a + a a, ,cr 2
3 où a = <1>-1 ( -) == 0.675. 4
Remarque. La loi Fe est celle de la variable aléatoire IX - SI, où X
est de loi eN (S, 1).
Considérons la fonction H définie par
+00 a+e H(9) = l x Ç(x) dx - l x Ç(x) dx a+e
f +oo f a+e = x
(x) dx - x
(x) dx. a+e e
167
IV. PROBLEMES A DEUX ECHANTILLONS
En posant t = x - 9, on obtient
f +oo a H(O) = 4 (t + 0) <p2(t) dt - f 4 (t + 0) <p 2(t) dt a 0 =4 o [(-
<p\t)dt - f<P2(t)dt] + 4[(-t<p2(t)dt - ft<p2(t)dt]
[ f +oo a ] [ + 00 a ] 2 9 t 2 t 2 2 t 2 t 2 = -;- a e- dt -
e- dt + -;
t e- dt -
t e' dt .
2 En remarquant qu'une primitive de e - t est fi <1>(t fI), on obtient
1 1 2 H(9) =
( 1 - 2 <1>(a (2) + - ) + - (2 e- a - 1) IX 2 X
31 2 = 2 9 (_ _ 2 <1>(a (2) ) + - (2 e- a - 1) fi[ 2 . 1t
On remarque que les deux termes entre crochets sont de signes
conttaires puisque
2 e - a == 0.634 et que
2 <1>(a 6) > 2 <1>(a) =
.2
C'est dire que, lorsque 9 varie de 0 à +00, la fonction H(9) change
de signe.
2) D'après la relation (V.9) écrite dans l'énoncé du théorème V.2.4, le
test considéré est asymptotiquement biaisé si
1 - <1>(d a - b c) < a,
soit si
1 - <1>(da - b c) < 1 - <1>(da),
c'est-à-dire si c < 0, puisque b > O. D'après la remarque faite à la fin
de l'exercice VIII. 1 , le signe de c est également celui de
168
IV. PROBLEMES A DEUX ECHANTILLONS
-1 _ J Fe (1/2) 1 +00 x
(x) dx + x
(x) dx. -00 F;1(1I2)
1 Cette expression n'est autre que (- H(9» puisque F
l (-) = 9 + a. 2 D'après le résultat de la question 1, il existe des
valeurs de 9 pour lesquelles H(9) > 0, donc pour lesquelles le test d'
An sari- Bradley est asymptotiquement biaisé.
Exercice IX.I. Soient F et G deux lois appartenant à " et soient Pb P2
et P3 les probabilités définies au théorème V.1.8. 1) Montrer, avec
les notations de ce chapitre, que la variance de la statistique UN de
Mann-Whitney paut s'écrire
V(UN) = m n (PI - P1 2 ) + m n (n - 1) (P2 - P1 2 ) + m n (m - 1) (P3 -
PI 2 ).
2) Montrer que l'estimateur m n 2 VN(U) défini à la section IX.] peut
s'écrire
2 - * *2 2 * *2 2 * *2 m n VN(U) = m n (Pl - PI ) + m n (P2 - Pl ) + m n
(P3 - PI ),
* où la définition de Pi (i e {l, 2, 3} ) est obtenue à partir de celle de Pi
en Y remplaçant F et G par les fonctions de répartition empiriques
Fm et G n respectivement.
1) Rappelons que Xl, ... , X m et YI, ... , y n sont deux échantillons
indépendants des lois F et G respectivement et que l'on a posé
m n UN =
11 ]O,+oo[(Yj - Xi). 1= 1 J= 1
On a donc
m n IE(U N ) =
IE( 11 ]O,-too[(Yj - Xi) ) 1= 1 J= 1 m n = L L P(Yj > Xi) = m n Pl i= 1
j= 1
et
m n V(UN) = L L V( 11]0 +oo[(Yj - Xi) ) + L Cov( 11]0 +oo[(Yj - Xi) .
11]0 +oo[(Y k - Xh) ). i= 1 j= l' (i,j)
«h,k)' ,
169
IV. PROBLEMES A DEUX ECHANTILLONS
Puisque 11 ]O,+oo[(Yj - Xi) est une variable aléatoire de loi :B (n, PI),
sa variance est égale à (Pl - PI 2 ). D'autre part, si i * h et j
k, les variables aléatoires 11 ]O,+oo[(Yj - Xi) et 11 ]O,+oo[(Y k - Xh)
sont indépendantes et leur covariance est nulle. Il nous reste à
calculer les covariances des m n (m - 1) couples de la forme ( 11
]O,+oo[(Y j - Xi), 11 ]O,+oo[(Y k - Xi» U * k) et des m n (n - 1)
couples de la fonne ( 11 ]O,+oo[(Yj - Xi), 11 ]O,+oo[(Yj - Xh» (i * h).
On a, en remarquant que le produit de deux variables de Bernoulli
est encore une variable de Bernoulli,
Cov( 11 ]O,+oo[(Yj - Xi), 11 ]O,+oo[(Y k - Xi» = lE ( 11 ]O,+oo[(Yj - Xi)
.11 ]O,+oo[(Y k - Xi) ) - P1 2 '2 = P(Yj - Xi > 0, y k - Xi > 0) - Pl _ 2 -
P3 - Pl
et, de même,
Cov ( 11 ]O,+oo[(Yj - Xi), 11 ]O,+oo[(Y k - Xi) ) = P2 - P1 2 ,
d'où
V(UN) = m n (Pl - P1 2 ) + m n (n - 1) (P2 - P1 2 ) + m n (m - 1) (P3 -
PI 2 ).
2) Dans la section IX.1, on a défini l' estimateur m n 2 VN(U) par m n
m n 2 VN(U) = L (Pi _ p )2 + L (Qj _ Q )2 + p Q , i= 1 j= 1
où
Pi = n Gn(X(i»'
Qj = m Fm(Y G»'
m-1
P = m £.J Pi i=l
n et Q = k L Qj . j=1
On peut également écrire
(1)
m n m n 2 VN(U) = L p? + L Qj2 - m pl - n Q2 + p Q . i= 1 j= 1
D'autre part, si l'on pose
+00 p; = f F m(X) dGn(x),
-00
on a
n n n- p; =
À Fm(Y(j) = À
Fm(Y(j) = Jn L Qi =
. J=l J=1 J=l
170
IV. PROBLEMES A DEUX ECHANTll..,LONS
On a également f +oo m m p; = ( 1 - Gn(x) ) dFm(x) =
ïk ( 1 - Gn(X j ) ) = 1 -
Gn(X(i» = 1 -
-00
De même, on a
f +oo m p; = ( 1 - Gn(x) )2 dFm(x) =
(1 _
i )2
-00
m m m = 1 - -L L Pi + --L L p? = 1 - 2
+ --L L p? m n i=l m n 2 i=l m n 2 i=l
et
f +oo n n p; =
(x) dGn(x) =
L(
)2 = + L Q/. j=l no n j=l -00
De ces relations, on tire
n P = n (1 - p;), Q = m P;' L Qj2 = m 2 n P;' j=l m
2 2 * P 2 * * £.J Pi = m n (P2 - 1 + 2 0 ) = m n (P2 - 2 Pl + 1). i=l
En portant ces résultats dans la relation (1), on obtient
2 - 2 * * 2 * 2 * 2 2 *2 * * m n VN(U) = no n (P2 - 2 PI + 1) + m n P3 -
m n (1 - Pl) - m n Pl + m n Pl ( 1 -Pl) * *2 2 * *2 2 * *2 = m n (Pl - Pl )
+ m n (P2 - Pl ) + m n (P3 - PI ).
Remarque. On a trouvé
* Q P Pl = m = 1 - 0'
d'où la relation
m fi + n Q = m n,
soit
m n L Pi + L Qj = m n. i= 1 j= 1
171
IV. PROBLEMES A DEUX ECHANTll..,LONS
Le résultat peut s'obtenir directement puisque l'on a
Pi = S(i) - i
et
Qj = Rü) - j,
d'où
m n m n m n L Pi + L Qj = (L S(i) + L RU» - L i - L j i=l j=l i=l j=l i=l j=l
N (N + 1) m (m + 1) n (n + 1) = = m n. 2 2 2
Exercice IX.2. (Suite de l'exercice IX.l) Avec les hypothèses et les
notations de l'exercice IX.], on suppose que F appartient à "s et qu'il
existe un élément (
, cr) de IR x IR +* tel que
\:1 x e IR,
x-
G(x) = F( - ). cr
* 1) Montrer que, lorsque
= 0 et cr = 1, la loi de la statistique UN définie à la section lX.1 est
indépendante de F et symétrique par rapport à O. * 2) Montrer que,
lorsque
= 0, la loi de la statistique UN converge vers la loi m .N (0, 1) quand
N augmente indéfiniment et que le rapport - admet une limite À qui N
appartient à ]0, 1[.
1) On a défini la statistique U
par
UNI UN = _ m (- - - ). VN(U) mn 2
On peut dire que U
n'est fonction que des rangs S(i) et R(j), puisque, d'une part, - VN(U)
s'exprime au moyen des variables aléatoires Pi et Qj définies par
Pi = S(i) - i
et
Qj = R(j) - j
et que, d'autre part,
m n m n m n UN =
11 ]o.-+-[(Yj - Xù =
11 ]o.-+-[(Y (j) - X(i» =
11 ]o.-+-[(RU) - S(i». 1=1 J=l 1=1 J=l 1=1 J=l
172
IV. PROBLEMES A DEUX ECHANTll..,LONS
Lorsque
= 0 et cr = 1, on a F = G et l'on sait que, sous cette hypothèse Ho, la
loi du vecteur (S(1), ... , S(m),
1), ... , R(n» ne dépend pas de la loi F si F appartient à ". La loi de U
ne dépend donc pas non plus de la loi F. Si, de plus, F appartient à
"s, posons
X'i = - Xi (1
m)
et
Y'j = - Yj (1
n).
On peut alors dire que (X'},..., X'm, Y'}, ... , Y'
est un échantillon de taille N de la loi F. Si nous montrons que la
statistique U'
relative à cet échantillon vérifie
,. . U N = - UN'
. . . nous pourrons dire que UN et -UN ont la même loi ou, encore,
que la loi de UN est symétrique par rapport à O.
On ad' abord, avec des notations évidentes,
m n U'N =
11 ]O,+oo[(Y'j - X'i) 1=1 J=l m n = L L 11]0 +oo[(Xi - Yj) i=l j=l ' m n =
L L ( 1 - 11]0 +oo[(Y j - Xi) ) i= 1 j= l ' = m n - UN'
d'où
U'N 1 UN 1 - - - = - (- - - ). mn 2 mn 2
Montrons enfin, pour achever la démonstration, que
- - V'N( U ) = VN(U).
On a
m n m n 2 V'N(U) = L (P'i _ p l)2 + L (Q'j _ Q )2 + P'Q ' . i=l j=l
Or P'i = S'(i) - i, où S'(i) est le rang de X'(i). On a
X'(i) = - X(m+l-i),
173
IV. PROBLEMES A DEUX ECHANTll..,LONS
d'où
S'(i) = N + 1 - S(m+l-i), P'i = N + 1 - i - S(m+l-i) = n + (m + 1 - i) -
S(m+l-i) = n - Pm+l-i.
De même, on a
Q' j = m - Qn+l-j,
d'où
p' = n - P,
Q' = m - Q,
m n m n 2 V'N(U) = L (Pi _ p )2 + L (Qj _ Q )2 + (n - P ) (m - Q) = m n
2 VN(U), i=l j=l puisque, d'après la remarque faite à la fin de
l'exercice IX.l, on a
(n - P ) (m - Q ) = m n - (m P + n Q) + P Q = P Q .
* Ceci achève la démonstration du fait que la loi de UN est
symétrique par rapport à 0 lorsque F appartient à "s.
2) On se place dans le cas où Jl = O. On a donc
\:1 x e IR,
x G(x) = F( - ). cr
On sait, d'après le théorème V.1.1, que, dans les conditions où nous
nous plaçons m UN -1E(UN) (N
+oo, -
À avec À e ]0, ID, la loi de converge vers la loi N j V(UN)
eN (0, 1).
1 On a IE(U N ) = m n Pl et, puisque F et G appartiennent à cJjf s, PI
= -. En effet 2
+co +co +co Pl = f F(x) dG(x) = f F( -x) dG(-x) = f (1 - F(x) ) dG(x) = 1
- Pl'
-00
-00
mn d'où IE(U N ) = - et l'on peut écrire que 2
u' -
V(U N ) N - m n 2 VN(U)
UN - lE (UN) ,J V (UN)
174
IV. PROBLEMES A DEUX ECHANTll..,LONS
* Pour montrer que la loi limite de UN est la loi eN (0, 1), il suffit donc
de montrer V (UN) que ...... converge en probabilité vers 1. Or on
peut écrire m n 2 VN(U)
V(UN) m n 2 VN(U)
1 2 n-l 2 m-l 2 N (p 1 - Pl) + N (P2 - Pl) + rr (P3 - Pl) = 1 * *2 n * *2 m
* *2 N (p 1 - Pl) + N (P2 - Pl) + N (P3 - Pl)
* * * et, puisque Pl' P2 et P3 convergent en probabilité vers Pl' P2 et
P3 respectivement, le numérateur et le dénominateur convergent
tous deux en probabilité vers
(1 - À) (P2 - P1 2 ) + À(P3 - P1 2 ).
* Le quotient tend bien vers 1 en probabilité et la loi limite de UN est
donc la loi eN (0, 1).
Remarque. On déduit de ce résultat (voir tome 1, page 178) que, si
l'on teste l'hypothèse * "f.! = 0" contre l'hypothèse "f.! * 0", tout test
défini à partir de la statistique UN a un seuil asymptotiquement
indépendant de la loi F, du moment que cette loi appartient à "s,
175
Chapitre V
PROBLEMES A UN ECHANTILLON
Exercice 111.1. Avec les notations de la section 111.2, montrer que,
sous l' hypothèse Ho et avec des entiers k, do, dI, ... , dk donnés, on
a
* n (n + 1) - do (do + 1) lEo(W: ) = 4
et
k n ,+* 1 1
3 Vo(W n ) = - (n (n + 1)(2n + 1) - do(d o + 1)(2d o + 1» - - £.J (di -
di)' 24 48 i=l
n n De même que l'on a w: = Li z7, on a ici W:* = L i* z:-, avec i= 1 i=
1
* * d h + 1 i = rh = do + ... + d h _ 1 + 2
SI
do + ... + d h _ 1 < i < do + ... + dh'
Sous 1 'hypothèse Ho, les variables aléatoires ZT sont
indépendantes et prennent la valeur 1 si IXI(i) correspond à une
observation Xi strictement positive, la valeur 0 sinon. Les Z7 sont
donc des variables aléatoires de loi S5 (1,
), sa ur celles correspondant à des observations nulles (1
qui sont nulles. D'où
n n .* 1 k lEo(W:*) = L i* lEo(Z:-) = L
= - L d h r:. i=l i=d o +1 2 2 h=l
Or on a vu à l'exercice IV.3 chap. IV (avec des notations légèrement
différentes) que
* n (n + 1) £.J d h rh = . h=O 2
177
V. PROBLEMES A UN ECHANTILLON
* do + 1 Puisque r 0 = , on en déduit 2
* n (n + 1) - do(d o + 1) lEo(W
)=.4
D'autre part, on a
n n k nr+*
.* 2 + 1
.* 2 1
*2 V o( vv n ) = £.J (1) V o(Zi ) = - £.J (1) = - £.J d h rh . i=l 4 i=d o +1
4 h=l
Toujours d'après l'exercice IV .4.3 chap. IV, on a
k n 1 k Ld h r: 2 = Li 2 - - L(d
- d h ) h=O i=l 12 h=O
ou encore
knk
*2
.2 1
3 £.J d h rh = £.J 1 - - £.J (d h - d h ) h=l i=d o +1 12 h=l
n (n + 1)(2n + 1) - do(d o + 1)(2d o + 1) 1
3 = - - £.J (d h - d h ), 6 12 h=l
d'où
k n r+* 1 1
3 Vo(VV n ) = - (n (n + 1)(2n + 1) - do(d o + 1)(2d o + 1» - - £.J (di -
di)' 24 48 i=l
Exercice 111.2. Montrer que les probabilités Pl' P2 et P3 définies au
théorème 111.3.1 vérifient la relation
2 P2 + Pl P3 = 2
Désignons par A, B et C respectivement les événements {X 1 > O},
{X2 > O} et {X 1 + X2 > O}. On a
Pl = P(A) = P(B), P2 = P(C) et P3 = P(A n C) = P(B n C).
178
v. PROBLEMES A UN ECHANTILLON
On peut écrire
2 P3 = P(A n C) + P(B n C) = P( (A n C) U (B n C) ) + P(A n B n C) =
P( (A U B) n C ) + P(A n B n C).
Or
( (XI> 0) et (X2 > 0»
(Xl + X2 > 0)
(Xl> 0) ou (X2 > 0) ),
ce qui se traduit par
A n BeC eAU B.
On en tire
2 P3 = P(C) + P(A n B) = P(C) + P(A) P(B) 2 = P2 + Pl.
Exercice 111.3. Démonstration du théorème 111.4.1 Montrer, en
s'inspirant de la démonstration du théorème ///.3.9 chap./V, que,
dans le modèle (1.1." s), le test de rang signé de Wilcoxon utilisé
pour tester l' hypothèse Ho : "Jl = 0" contre l' hypothèse Hl : "Jl > 0"
a unefonction puissance croissante.
Posons
w;. = T n (X l' ... , X n ).
La fonction puissance
du test est alors définie par
(Jl) = PJl( T n (X 1 , ... , X n )
c),
avec les notations du théorème 111.3.9 chap. IV. Soient Il et Jl' tels
que 0
Jl
Jl'. Posant
= Jl' - Jl, on a
(JlI) = PJl'( Tn(X}, ... , X n )
c ) = PJl( T n (X1 +
, ... , X n +
c ),
puisque, si une variable aléatoire X est de loi' FJl' la variable
aléatoire X +
est de loi FJl'. Pour montrer que
(Jl')
(Jl), il suffit de montrer que
T n (X1 +
,... ,Xn+
Tn(X}"" ,X n ),
179
V. PROBLEMES A UN ECHANTILLON
ce qui est évident si l'on écrit la statistique w: sous la forme (111.7),
à savoir
w: = Tn(X}, ... , X n ) = L 11 ]O,+oo[(Xi + Xj). l
i
j
Exercice 111.4. Montrer que la limite, lorsque n devient infini, des
taux de résistance à l'acceptation et au rejet du test de rang signé de
Wilcoxon est égale à 0.29.
D'après l'étude qui suit la définition 111.4.2, le taux de résistance à
l'acceptation * m 'ta,n du test de rang signé de Wilcoxon est égal à -,
où m* est l'entier défmi par n
(n - m* - 1 )(n - m*) < 2ca
(n - m*)(n - m* + 1).
Si nous posons x = n - m*, x est l'élément de lN défini par
x (x - 1) < 2c a
x (x + 1),
c'est-à-dire par
x 2 - x - 2c a < 0,
x 2 + x - 2ca
O.
D'où, après résolution de ces inéquations du second degré,
1111--+-
1 + 8ca
x<-+-
1 + 8ca, 2 2 2 2
11*11n----
1 + 8c a <m
n +- - -
1 + 8ca, 2 2 2 2
11111----
1 + 8c a < 'ta,n
1+---
1 + 8c a . 2n 2n 2n 2n
Or, d'après le corollaire 111.2.5, on a
2 n c 'V- a ' n---H- 4
d'où
lim
't a,n
= 1 - 2- fi = 0.29. 12
n-++oo
180
V. PROBLEMES A UN ECHANTILLON
Pour le taux de résistance au rejet 't r . n , il suffit de remplacer, dans
le calcul précédent, 2c a par (n (n + 1) - 2c a ). Comme on a
n (n + 1) - 2c rv a n-++oo
2n
rv 2c , 2 n-++oo a
le résultat est inchangé, d'où
lim 't = 0.29. r.n
n -++00
Exercice III.S. Soit un test de l' hypothèse Ho: "Jl = 0" contre l'
hypothèse HI : "Jl > 0" défini à partir d'une statistique t(X}, ... , X n ).
Désignant par
la région critique du test, on dit que le test est monotone si, étant
donné deux éléments (XI, ... , x n ) et (x'},..., x'n) de IR n tels que
\:lie {1,...,n},
x'ï
Xi,
on a
( (Xl, ... , X n ) e
) => (X'}, ... , x'n) e
).
1) Montrer que le test du signe et le test de rang signé de Wilcoxon
sont monotones. 2) Montrer que le test de Student n'est pas
monotone. On pourra, par exemple, étudier les variations de t(X1, ...
, x n ) lorsque XI = ... = X n -l = 1 et que Xn varie de 1 à +00.
1) Pour le test du signe, on a
= { (XI, ... , x n ); L l1]o.+oo[(xi)
s } i=1
et la monotonie du test résulte du fait que, si
\:lie {1,...,n},
X'i
Xi,
on a
n n L 11 ]O.+oo[(X'i)
L 11 ]O,+oo[(Xi). i=l i=l
De même pour le test de rang signé de Wilcoxon en écrivant W:
sous la forme
w: = L 11 ]O,+oo[(Xi + Xj). l
181
v. PROBLEMES A UN ECHANTILLON
On rapprochera ce dernier résultat de celui obtenu à l'exercice III.3.
2) La région critique du test de Student est définie par
<a = ( (x}, ... , x n ) ; t n (Xl, ... , x n )
Ca },
où
t n ( xl' ... , X n ) =
n Lx. 1 i=1
n 1 n Lx
--(Lx.)2 1 n 1 i= 1 i= 1
On a donc
n -1 +x n t n ( 1, ... , 1, x n ) = = j 2 1 2 n - 1 + x - - (n - 1 + x ) n n n
n-l+
j n - 1 2 -- (x - 1) n n
d'où, en supposant que X n e ]1, +00[,
= j n x n + (n - 1) . t n ( 1, ... , 1, x n ) n - 1 x - 1 n
Cette fonction de X n est strictement décroissante sur ] 1, +00 [ .
Etant donné X n et x'n tels que 1 < X n < x'n, il suffit de choisir Ca tel
que
t n (l, ... ,1, x ' n ) < Ca
tn(l, ... ,1, x n )
pour aVOlf
(1, ... , 1, x n ) e <a et (1, ... ,1, x'n)
<a,
ce qui montre que le test de Student n'est pas monotone.
1 Exercice 111.6. Montrer que, lorsque Jl est voisin de 0, les
quantités - + Jl f(O) et 2 1 - + 2Jl f*(0) sont respectivement des
approximations des probabilités PI (Jl) et P2(Jl) 2 définies au
théorème 111.3 .J. On rappelle que f* désigne la densité de la loi F *
F (page J97 du tome J).
182
V. PROBLEMES A UN ECHANTILLON
On a défini
PI (Jl) = PJ!(X 1 > 0)
et
P2(Jl) = PJ!(X1 + X2 > 0),
OÙ XI et X2 sont deux variables aléatoires indépendantes de loi FJ!'
On peut écrire
PI (Jl) = PJ!(XI - Jl > -Jl)
et
P2(Jl) = PJ!(XI + X2 - 2Jl > - 2Jl),
soit, puisque XI - Jl et X2 - Jl sont indépendantes et de loi F,
f J! 1 1 Pl (Jl) = 1 - F( -Jl) = F(Jl) = - + ( F(Jl) - F(O) ) = - + f(t) dt 2 2 0
et, de même,
f 2J! 1 * P2(Jl) = - + f (t) dt . 2 0
Lorsque Jl est voisin de 0, on a r £(t) dt == Il £(0) o
ou, plus précisément, Jl f(O) est le premier terme du développement
limité de cette intégrale. On peut donc écrire
1 PI (Jl) :f: - + Il f(O) 2
et, de même,
1 P2(Jl) :f: - + 2 Jl r'(O). 2
Rappelons que, puisque
+00 'if x E IR, tex) = f £(t) £(x - t) dt,
on a
+00 +00 £*co) = f Cet) £( -t) dt = f r(t) dt.
183
V. PROBLEMES A UN ECHANTILLON
Exercice 111.7. Montrer que la taille d'échantillon requise pour que le
test de Student de l' hypothèse Ho: "Jl = 0" contre l' hypothèse Hl: "Jl
> 0" atteigne une puissance au moins égale à J3(Jl) pour un seuil a
et une valeur Jl fIXés est donnée approximativement
par
V p n == ( <I»-I( J3(Jl) ) + <1»-1(1 - a) )2 2 . Jl 1 n _ On pourra
utiliser le fait que - L (Xi - Xn)2 converge en probabilité vers V p. n-l
i=l
Le test de Student est défini par la région critique
(t) = { xn {if } Q
C . / -L. t (Xi - xJ2
n - 1 i= 1
Etant donné a, Jl et J3(Jl), on cherche à partir de quelle valeur de n
on pourra réaliser
Po(<a) = a
et
PJ1(<a)
J3(Jl).
1 n _ En se servant du fait que - L (Xi - Xn)2 converge en probabilité
vers V p et n - 1 i= 1 que X n - Jl {fi converge en loi vers la loi eN (0,
1), on peut écrire vVp
Po(
) !Ë Po F
c)
<I>(c)
et
) !Ë p
F;vf
c) = p
F
,TI
c-Y
F ,TI)
1 - <1> (c - Y
F ,TI) .
On devra donc réaliser
1 - <I»(c) = a,
soit c = <1»-1(1 - a)
et
1 - <1> (c - Y
!3(Il),
soit c
Y
F ,TI + <I>'l( 1 - !3(Il) ).
184
V. PROBLEMES A UN ECHANTILLON
Pour que ces deux conditions soient compatibles, il faut que l'on ait
<1> ,1 (1 - a)
"
F .fiî + <1>,1 ( 1 - J3(IJ.) ),
"
F .fiî
<1>-1(1 - a) + <I>'l( J3(IJ.) ),
d'où
Vn
(<1>-1(
(Jl) ) + <1>-1(1 - a) )2 --; . Jl
Exercice 111.8. Vérifier, grâce aux formules données dans les
sections II et 111.4.b, que, si T et T' sont deux tests choisis parmi
ceux qui figurent dans la table 2 (tests du signe, de rang signé de
Wilcoxon et de Student) et si n et n' représentent les tailles
d'échantillon requises pour ces deux tests respectivement (a,
et Jl étant fixés), on a
n lim - = eF(T " T), n'
où eF(T ' , T) représente l'efficacité relative asymptotique obtenue
dans la section VI chap.lV pour les tests correspondants.
Pour le test du signe S, utilisons la formule (11.5)
1 ( 1 -1 -1 J 2 ns == 2 - <1> (1 - a) + J p(1 - p) <1> (
) (p - 1/2) 2
où p = F(Jl). Pour le test de rang signé de Wilcoxon W+, la formule
(111.12) nous donne
( <1>-1 (
) + <1>-1 (1 _ a) )2 n +== W 12 (Jl f* (0) )2
Enfm, pour le test de Student T, nous avons obtenu à l'exercice
111.7
( <1>-1 (
) + <1>-1 (1 _ a) )2 n T == V F . 2 Jl
185
V. PROBLEMES A UN ECHANTILLON
D'autre part, on sait, d'après le théorème V.2.6 chap. N, que
c' 2 eF(T " T) = ( - ) , c
où c et c' désignent les efficacités respectives des deux tests. Les
efficacités Cw et CT des tests W et T qui ont été obtenues à
l'exercice VI.2 chap. N vérifient
2
= 12 Â (1 - Â) [J
-f2(X) dx ] 2 À (1 - À) Cr= V F
Pour le test du signe, nous considérons, en fait, le test de la
médiane dont l'efficacité Cs vérifie
2 2 Cs = 4 À (1 - À) f (0).
On a alors immédiatement
2 [ +00 ] 2 eF(W,T)=(
)=12VF J_ f2(x)dx
et
n lim -2... = 12 VF( r(O) )2. n + W
Ces deux quantités sont égales puisque, f appartenant à "s, on a
+00 +00 f\O) = f f(x) f( -x) dx = f f 2(x) dx.
Pour comparer le test du signe avec les deux autres, nous devons
d'abord utiliser l'approximation de p établie à l'exercice III.6, laquelle
est en fait un développement limité à l'ordre 1 relativement à Il
1 P == - + Il f(O). 2
186
V. PROBLEMES A UN ECHANTILLON
On a alors
111 p (1 - p) == ( - + Jl f(O) ) ( - - Jl f(O) ) = - ( 1 - 4 Jl2f 2(0) ) 224
et
1 2 2 1 2 2 vi p (1 - p) == - ( 1 - 2Jl f (0» = - - Jl f (0), 2 2
toujours en effectuant, en fait, un développement limité, d'où
1 ( 1 -1 1 -1 2 2 -1 ) ns == 2 - <1> (1 - a) + - <1> (P) - Jl f (0) <1> (p)
, ( Jl f(O) ) 2 2
soit
( <1>-1 (1 _ a) + <1>-1 (p) )2 n :::: S - 4 Jl2 f2(0)
On vérifie alors immédiatement que l'on a bien
f 2(0) . nw+ ep(S, W) = ... 2 - hm - 3 ( f (0) ) ns
et
ep(S, T) = 4 V P f2(0) = lim '1r . ns
Remarque. Ces résultats sont à rapprocher de la propriété énoncée
en section IV (page 202 du tome 1), à savoir
ep(T;, T;) = ep(T l' T 2)
et de ce qui en est déduit.
Exercice 111.9. Montrer que les trois tests suivants sont convergents
(voir le dernier alinéa de R. W pour la définition de cette propriété).
1) Test du signe. 2) Test de rang signé de Wilcoxon. 3) Test de
Student (on utilisera les résultats de l'exercice 111.7). Pour chacun
de ces tests, on montrera la convergence aussi bien dans le cas
unilatéral que dans le cas bilatéral.
187
v. PROBLEMES A UN ECHANTILLON
1) Test du signe Avec les notations du paragraphe II, supposons que
l'on teste l'hypothèse Ho : "Jl = 0" contre l'hypothèse HI: "Jl > 0". Soit
{sn} une suite d'entiers naturels telle que
lim P o(Sn
sn) = a,
n -++00
où a est un élément donné de ]0, 1 [ (remarquons que nous notons
Sn et non Sa la valeur critique du test puisqu'elle dépend, ici, de n).
Monttons que
\:1 Jl > 0,
lim
(Jl) = 1, n
n -++00
où J3n(J.1) désigne la fonction puissance du test. D'après les
relations (11.2) et (II.4), on a
( n + 1 - 2 sn J lim <1> =a n-++oo /ll
et
_ ( n p + 1/2 - sn J
(Il) = <1> , n v' np (1 - p)
1 où P = F (Il) > -. 2
De la première relation, on tire
-1 n + 1 - 2 sn rv /ll <1> (a),
n-++oo
d'où
sn
rv
n 2'
n -++00
On a alors
n p + 1/2 - sn
rv
p - 1/2 v' p(l-p)
/ll
+00,
v' np(l-p)
n-++ oo
d'où
lim
( Il) = 1. n
n-rtoo
Le test est bien convergent. On effectuerait un calcul analogue
lorsque l'hypothèse HI est "Jl < 0".
188
V. PROBLEMES A UN ECHANTILLON
Dans le cas où l'hypothèse Hl est "Jl:#= 0", le test est bilatéral et sa
région critique est de la forme
{Sn
Sn} U {Sn
s'n},
où Sn et s'n sont deux entiers tels que 0
s'n < Sn
n.
Puisque la loi de Sn, sous l'hypothèse Ho, est symétrique par
rapport à on 2
Impose
1 sn + s n = n
et l'on a alors
Po(Sn
Sn) = Po(Sn
s'n),
d'où
( n + 1 - 2 Sn J Po«(Sn
sn} U (Sn
s'n}) == 2 cI> /0 . Si l'on suppose
( n + 1 - Sn J lim 2 <1> = a, n-H-oo /0
on obtient encore
n sn rv 2. n-H"oo
D'autre part, un calcul simple conduit à
_ ( n p + 1(2 - Sn J ( n (1 - p) + 1/2 - Sn J
( Jl) = <1> + <1> , n
np(l-p)
np(l-p) 1 où p = F(Il) est supérieur ou inférieur à (strictement) selon
que Il est positif ou 2
(1)
négatif.
On vérifie alors que
\:1 Il * 0,
lim
(fl) = 1, n
+oo
puisque, dans tous les cas (Il > 0 ou Il < 0), l'un des deux termes du
second membre de (1) tend vers 1 et l'autre vers O. Le test bilatéral
du signe est, lui aussi, convergent.
189
V. PROBLEMES A UN ECHANTILLON
2) Test de rang signé de Wilcoxon Avec les notations du paragraphe
III, supposons que l'on teste l'hypothèse Ho : "Il = 0" contre
l'hypothèse Hl: "Il > 0". Soit {c n } une suite d'entiers naturels telle
que
lim Po(
c n ) = a, n-++oo
où a est un élément donné de ]0, 1 [. Montrons que
\:1 Il > 0,
lim Pn(ll) = 1. n-++oo
D'après la relation (llI.9), on a
2n
C rv n n -++00 4
et le théorème ll1.3.2 nous conduit à
[ c n - IE(W
)]
(fl) == 1 - <1> n j V
=:: [ IE(W:) - c n ] -<1> . j v
D'après le théorème III. 3.1, on a
IE(
)-cn
2 n rv - (2 P2 - 1), 4
n-++oo
en remarquant bien que (2 P2 - 1) n'est pas nul puisque cette
expression est équivalente (Il
0) à 4 Il (0) et que
... f 2 f (0) = f (x) dx * O. IR
Toujours d'après le théorème 111.3.1, on a
v <W:) rv n
3 2 n (P4 - P2)'
n -++00
si P4 - p; * O. Dans ce cas
190
V. PROBLEMES A UN ECHANTILLON
lE (w:) - c n 2 P2 - 1 l'v /n -+ +00 j V
) n-+t<>o 4 j P4 - p
+oo
et, donc,
lim
(Jl) = 1. n n
+oo
Dans le cas où P4 - p
= 0, V(w:) est un infiniment grand d'ordre inférieur à 3 relativement à
n et les limites ci-dessus sont inchangées. On remarquera que ce
cas se présente, par exemple, lorsque F admet un support fini [-a, a]
et que Jl
a, puisqu'on a alors P2 = P4 = 1. Le test est donc bien convergent et
on effectuerait un calcul analogue lorsque l'hypothèse HI est "Jl < 0".
Dans le cas où 1 'hypohèse Hl est "Jl * 0", le test est bilatéral et sa
région critique de la forme
{w:
c n } U {w:
c ' n },
n (n + 1) où c n et c'n sont deux entiers tels que 0
c'n
cn
. 2 Ici encore, puisque la loi de W
sous l'hypothèse Ho est symétrique par rapport à n (n + 1) . , on
Impose 4
n (n + 1) C n + c ' n = . 2
Le calcul qui suit et qui permet de vérifier que le test est convergent
est analogue à celui que nous avons effectué pour le test du signe.
Aussi laissons-nous au lecteur le soin de l'expliciter.
3) Test de Student Supposons d'abord que l'on teste l'hypothèse Ho:
"Jl = 0" contre l'hypothèse HI: "Jl > 0". En adoptant les notations de
l'exercice 111.7, on considère une suite {
n} de régions critiques définies par leurs valeurs critiques C n et
telles que
lim Po(
n) = a,
+oo
où a est un élément donné de ]0, 1 [.
191
V. PROBLEMES A UN ECHANTILLON
Montrons que
\:1 J.! > 0,
lim P (
n) = 1.
n-++oo
D'après les résultats de l'exercice 111.7, on a
Po(
n) == 1 - <I>(c n ),
d'où
lim en = <1>-1(1 - a)
n-++oo
et
P(
n) == 1 - <1> [ c n -
/i1 ] ,
fi;
d'où
lim P (
n) = 1.
n-++oo
Le test est bien convergent et on effectuerait un calcul analogue
lorsque 1 'hypothèse Hl est "J.! < 0". Dans le cas où l'hypothèse Hl
est "J.! * 0", le test est bilatéral et l'on impose aux deux valeurs
critiques en et c ' n d'être opposées puisque la loi de la statistique de
Student est symétrique par rapport à 0 sous 1 'hypothèse Ho. Nous
laissons au lecteur le soin de terminer le calcul et de vérifier que le
test bilatéral de Student est, lui aussi, convergent.
Exercice IV.I. Démonstration du théorème IV.l.l En considérant le
modèle de localisation (1.1." s), soit
une statistique de rang signé définie par
n ( R+ J n. T
=
L J+
]O,+oo[(Xi) =
L J+ (
) zr, n i=l n + 1 n i=l n + 1
où J+ est unefonction définie sur [0, 1[. Montrer que l'on a
1 n . lEo(T
= - LJ+ (
) , 2n i=l n + 1
1 n . 2 VO(
)=2 L ( J+ (
)) 4n i=l n + 1
192
V. PROBLEMES A UN ECHANTILLON
et que, toujours sous l' hypothèse Ho, la loi de "Ç est symétrique.
On sait, d'après le théorème 111.2.2, que, sous l'hypothèse Ho, les
variables aléatoires Z7 sont indépendantes et de même loi $(1,
). On a donc
+ 1 lEo(Z. ) = - 1 2
et
+ 1 Vo(Zi) =-, 4
d'où l'on tire immédiatement les relations demandées. De plus,
chacune des variables Z7 a la même loi que la variable (1 - Z7).
Puisqu'elles sont indépendantes, on peut dire que "Ç a la même loi
que
n.
LJ+ (
) (1 - Z7) = 2IE o ("Ç) -"Ç . n i=l n + 1
C'est dire que "Ç a une loi symétrique par rapport à lEo("Ç).
Exercice IV.2. Démonstration des relations (IV.6) et (IV. 7) 1)
Désignons par J.l (T+) l'espérance asymptotique de "Ç donnée par
la relation an (W.4) lorsque XI , ... , X n est un échantillon de la loi F
a définie par n
\:1 x E rR, Fa (x) = F(x - Sn)' n
où F appartient à "s et où {Sn} est une suite réelle de limite nulle.
Montrer que l'on a lim
'o (T+) =
f - J '( F(x) ) f2(x) dx, n-++oo n 2 _00
où J est définie à partir de J+ par
\:1 u E [0, 1 [ ,
+ ( 1 U ) J (u) = J 2 + 2 .
2) Montrer, à partir de la relation (W 5), que la limite Vo(T+) de
nVn(T+), lorsque n devient infini et sous l' hypothèse Ho, est donnée
par
193
V. PROBLEMES A UN ECHANTILLON
f +oo 1 + 1 2 1 2 V o(T ) = - J (F(x) ) f(x) dx = - f J (u) du. 4 -00 4 0
Avec les notations du théorème IV .2.1, on a
G(x) = F(x - en),
d'où
H(x) = ( F(x - en) - F( -x - en) ) 11 IR +(x).
La relation (IV.4) devient
Jl (r)= f - J +(F(X-6 )-F(-x-6 »f(x-6 )dx e n n n n 0 +00 = f J\ F(t) - F(-t
- 26n) ) f(t) dt, - en
après avoir posé t = x - en.
On doit chercher
lim
dJl (T+) en
soit
dJl (T+) en
n -++00
de n
de n
en=0
La dérivation sous le signe d'intégration étant justifiée par les
hypothèses du théorème IV.2.l, on obtient
dJl (T+) +00 en f = J+( F(-8 ) - F( -8 » f(-8 ) + 2 J+I( F(t) - F(-t - 2B »
f(-t - 2e ) f(t) dt, d8 n n n n n n -e n d'où (J+(O) = 0 )
dJl (T+) en
de n
= 2 f-J+'( F(t) - F(-t» f(-t) f(t) dt. e = 0 0 n
Puisque, toujours dans le cadre de la remarque IV.2.2, la loi F
appartient à <W s, la fonction f est paire et l'on a
1 J+ '( F(t) - F( -t) ) = J+ '(2F(t) - 1) = - 1'( F(t) ), 2
194
V. PROBLEMES A UN ECHANTILLON
d'où
Iim
'O (T+) = r oo J'( F(x) ) f 2(X) dx n-H-oo n 0 +00 =
f f( F(x) ) f2(X) dx,
-00
la dernière transformation s'appuyant sur le fait que
\;;j U E ]0, 1 [,
J'(1 - u) = J'(u).
La relation (IV .6) est donc établie.
Pour démontrer la relation (IV.7), nous devons chercher la limite (n
+oo) de n Vn(T+) donnée par la relation (IV.5), sous l'hypothèse Ho,
c'est-à-dire lorsque F = G. On a alors, si x > 0,
J+( H(x) ) = J( F(x) )
1 - H(x) = 2 ( 1 - F(x) ), 1 .r '( H(x) ) = - 1'( F(x) ), 2
H(x) = F(x) - F(-x) = 2 F(x) - 1,
et
et l'on peut écrire que 2 Vo(T
= Iim Vn(T') = roop( F(x» dF(x) - [ r-J( F(x» dF(X) ] + 1, n-.++oo 0 0
avec
1 = J f '1'( F(x), F(y) ) dF(x) dF(y) = J f '1' (u, v) du dv, O<x<y
1/2<u<v<1
où l'on a posé
'l'(u, v) = (2u - 1) (1 - v) J'(u) J'(v) - (2u - 1) J'(u) J(v) + 2 (1 - v) J(u)
J'(V) = (2u - 1) J'(U) ( (1 - v) J'(V) - J(v) ) + 2 (1 - v) J(u) J'(V).
195
V. PROBLEMES A UN ECHANTILLON
On en déduit
1 1 = f (2u - 1) J'(u)( [ (1 - v) J(v) ]
) du + 2 f f (1 - v) J(u) J'(v) du dv 1/2 112<u<v< 1
1 1 [ 1 ] = f (2u - 1) J'(u) (u - 1) J(u) du + 2 f J(u) f (1 - v) J'(v) dv du.
1/2 1/2 u
U ne intégration par parties permet d'écrire
1 1 f (1 - v) J'(v) dv = [(1 - v) J(v) ]
+ f J(v) dv u u 1 = (u - 1) J(u) + f J(v) dv, u
d'où
1 1 1 = f (2u - 1) (u - 1) J'(u) J(u) du + 2 f (u - 1) p(u) du + 2 f f J(u)
J(v) du dv. 1/2 1/2 1/2<u<v<1
Une dernière intégration par parties et une transformation de la
dernière intégrale double écrite conduisent à
[ 2 ] 1 1 J (u) 4u - 3 2 1= (2u-l)(u-l)2 + f (2(U-l)-Z )J(U)dU +ff
J(u)J(v)dudv 1/2 1/2 [1/2,1]2 1 [ 1 ] 2 = -
f p(u) du + f J(u) du 2 1/2 1/2 2 = -
r- J2 ( F(x) ) dF(x) + [ r-J( F(x) ) dF(X) ] . 200
On obtient donc
+ 1 f +oo 2 1 f +oo 2 1 f I 2 V o(T ) = - J (F(x) ) dF(x) = - J (F(x) ) f(x)
dx = - J (u) du . 20 4_00 4 0 La relation (IV. 7) est établie.
196
V. PROBLEMES A UN ECHANTILLON
Exercice IV.3. Montrer que le test de rang signé de Wilcoxon est
LMP et AMP pour la loi
(0, 1). On pourra d'abord chercher la loi d'une variable aléatoire Z
défirde par
IXI 1 e - Z= e IXI + 1 '
où X est elle-même une variable aléatoire de loi :.c (0, 1).
Soit X une variable aléatoire de loi
(0, 1). Posons
Y=IXI
et
ye-1Z=y.e+1
Désignant par Fx et Fy les fonctions de répartition respectives de X
et de Y,
on a
1 eX Fx(x)=-=- 1 + e -x eX + 1
et
\:1 Y
0,
e Y - 1 Fy(y) = Fx (y) - Fx (-y) = - . e Y + 1
On a donc Z = Fy(Y) et l'on sait (théorème 111.1.2 chap. II) que Z
suit la loi U [0, 1].
Déterminons alors un test de rang signé qui soit LMP pour la loi
(0, 1). On sait (p. 202 du tome 1) qu'il est défini par la statistique
1 n ( f' J
= - L lEo - - (1 XI +) ll]Q,+oo[(Xi), n i= 1 f (Ri)
où f désigne la densité de la loi
(0, 1). On a
x e f(x) = 2 ' (ex + 1)
d'où
- Log f(x) = 2 Log ( eX + 1 ) - x ,
f ' 2 eX eX - 1 - - (x)=- -1 =-. f eX + 1 eX + 1
197
v. PROBLEMES A UN ECHANTILLON
1Xi l e - 1 Si l'on pose Zi = IX.I (1
n), alors, sous l'hypothèse Ho, ZI, ... , Zn e 1 + 1 est un échantillon
de la loi U[O, 1]. De plus, puisque l'application
eX - 1 eX + 1
est strictement croissante, on a
\:lie {l,...,n},
Z(i) =
IXI(i) e - 1 IXI(i) . e + 1
D'autre part, on sait (exemple IV.2.1 chap. II) que l'on a
\:lie {l,...,n},
1 IE(Z(i» = -, n + 1
d'où, en remplaçant i par R7 dans cette dernière relation,
nR+1
= - £.J
]O,+oo[(Xi) n i=1 n + 1
n (n + 1)
Le test défini par T
étant équivalent à celui défini par W;, on peut en conclure que le test
de rang signé de Wilcoxon est LMP pour la loi
(0, 1).
Déterminons enfin un test de rang signé qui soit AMP pour la loi
(0, 1). On sait (p. 202 du tome 1) qu'il est défini par la statistique
1 n f 1 ( ( IR: J J
' = - - L - F- 1 _ + 1
]O,+oo[(Xi) n i=1 f 2 2 (n + 1)
où f et F désignent respectivement la densité et la fonction de
répartition de la loi
(0, 1). Puisque l'on a
\:1 x e fR,
X e F(x) = -, eX + 1
on en déduit
198
V. PROBLEMES A UN ECHANTILLON
\:1 u e ]0, 1 [,
-1 U F (u) = Log -, 1 - u
d'où
\:1 u e ]0, 1 [,
fI l-u - 1 - - ( F- 1 (u) ) = = 2u - 1. f u -+1 1 - u
On a donc
1 n R:
'=-L1
]O,+oo[(Xi) =
= n i= 1 n + 1
w+ n
n (n + 1)
On en conclut que le test de rang signé de Wilcoxon est également
AMP pour la loi
(0, 1).
Exercice IV.4. Déterminer la limite du taux de résistance du test de
rang signé défini par la statistique de van der Waerden donnée par
la relation (1V.3). On pourra utiliser la propriété suivante qui
généralise le théorème concernant la valeur moyenne d'unefonction.
Soit g une fonction strictement positive définie sur ]0, 1 [ et
intégrable sur [0, 1] et soit {Pn; n e IN*} une suite d'entiers tels que
\:1 n e IN* ,
Pn
n.
p Alors, pour que la suite {
} admette une limite À, il faut et il suffit que la suite n
de terme général
1 Pn . -Lg (
J n i=l n + 1
admette une limite L et l' on a
À L = f g(x) dx. o
D'après les relations (IV. 1) et (lV.3), le test considéré est défini par la
statistique
n ( R + J + 1 -IIi YDn = - L <1> - + 11 ]0 +oo[(X), n i=l 2 2 (n + 1) ·
199
V. PROBLEMES A UN ECHANTILLON
où
désigne la fonction de répartition de la loi
(0, 1), et sa région critique pour tester l'hypothèse Ho : "J.l = 0"
contre l'hypothèse Hl : "J.l > 0" est de la forme {VD
ca,n} .
En supposant le seuil a fixé et en raisonnant comme on l'a fait pour
le test de rang
signé de Wilcoxon (page 195 du tome 1), on montre aisément (on
laisse au lecteur le soin * m d'expliciter le raisonnement) que le taux
de résistance à l'acceptation 'ta,n est égal à -, n
où m* est l'entier défini par
1 n-m*-l 1 . 1 n-m* 1 .
-1 ( 1 J
-1 ( 1 J - £.J
-+ <c
-£.J<I> -+ . n i=1 2 2 (n + 1) a,n n i=l 2 2 (n + 1)
On se propose de chercher la limite À (n
+00) de 'ta,n (on remarquera que m* dépend de n, bien que cela
n'apparaisse pas explicitement). Si cette limite existe, elle réalise
*n-m-1
* n-m
= 1 - À.
lim
=lim
n-H.oo
n-Hoo
n
En appliquant la propriété donnée dans l'énoncé à la fonction g
définie par
-1 ( 1 x ) g(x) = <1> 2" + 2" '
c'est-à-dire, en fait, à la fonction J+ du test, on voit que la limite À
cherchée existe si et seulement si la suite {ca,n} admet une limite (n
+00) et que l'on a alors
f I-À. -1 1 x <1> ( - + - J dX = lim ca,n' o 2 2 n
+oo
Nous devons donc d'abord chercher cette dernière limite, si elle
existe. La valeur critique ca,n est définie par
Po(VD
c )=a a,n
et l'on peut montrer (voir corollaire 111.2.5 et théorème IV.2.I) que la
statistique
VD + IE( + n - 0 VD n ) J Vo(VD
200
V. PROBLEMES A UN ECHANTILLON
converge, quand n devient infini, vers la loi cH (0, 1). On a donc
[ c - lEo(VD
) ] + a,n Po (VD n
C ) == 1 - <1> , a,n
+ Vo(VDn)
d'où
+
+-1 C == lEo(VD n ) + Vo(VD n ) <1> (1 - a). a,n
D'après le théorème N.I.l, on a
+1
-1 ( 1 i ) lEo(VD n ) = - £.J <1> - + , 2n i=l 2 2 (n + 1)
1 n ( -1 ( 1 i )) 2 V o (VD
) = 2 L <1> - + . 4n i=l 2 2 (n + 1)
La propriété donnée dans l'énoncé nous conduit à
. + 1 f I -1 ( 1 x ) lim lEo(VDn) = - <1> - + - dx n-H-oo 2 0 2 2
et à
lim Vo(VD
) = 0 n-Hoo
pUIsque
1
[ -IIi ] 2 f I -1 1 x 2 lim - £.J <1> - + = <1> - + - dx. n-H
n i=l ( 2 2 (n + IJ J (2 2) ]
On a donc
1 f I -1 ( 1 x ) lim c =- <1> -+- dx n-H-oo a,n 2 0 2 2
et l'on remarque que cette limite ne dépend pas de a. On la calcule
en posant
-1 ( 1 x ) t=<I> 2+2 '
soit x = 2 <I>(t) - 1,
201
V. PROBLEMES A UN ECHANTILLON
d'où, en désignant par cp la densité de la loi eN (0, 1) et en se
souvenant que cp'(t) = - t cp(t), f +oo +00 lim c = t cp(t) dt = - f cp'(t)
dt = [ cp(t) t
=.
. a,n y £.1t n
+oo 0 0
Enfin, la limite À du taux de résistance à l'acceptation 'ta,n est
définie par
f 1-Â. -1 1 x 1 o cI> h.. + -;:-)dX = v2x .
En effectuant le même changement de variable, on obtient
-1 l-Â. f <l> (1-À/2) -11 x <1>-1 (1-Â./2) f cI> ( - + - ) dx = 2 t cp(t) dt =
- 2 [ cp(t) ] 0 o 2 2 0
2 -1 =
[ _ e- t /2]<1> (1-Â./2)
d'où
soit
1 - exp [-
[ cI> -1 ( 1 -
J r] =
, [ cI> ,1 (1 -
J r = Log 4,
-1 ( À J cI> 1 - 2' = y Log 4,
À = 2 ( 1 - <I> O' Log 4) = 2 ( 1 - <I>(O.1774)) = 2 (1 - 0.88(5),
À = 0.239.
En ce qui concerne le taux de résistance au rejet 'tr,n, nous aurons
des résultats m* analogues puisqu'on peut montrer qu'il est égal à -,
où m* est l'entier défini par n
202
V. PROBLEMES A UN ECHANTILLON
-1 ( 1 i J 1
-1 ( 1 1 J - £.J <I> -+ <c
- £.J <I> -+ . n i=n-m.+l 2 2 (n + 1) a. n i=n-m. 2 2 (n + 1)
La limite fl de 'tr,n (n
+00) est alors définie par
f I -1 ( 1 x J <I> - + - dx = lim ca.,n' 1 2 2 n
+oo -Jl
Un calcul analogue à celui que nous avons effectué conduit à À = fl.
On peut aussi remarquer que, puisque l'on a
J I-À 1 -1 1 x 1 -1 1 x
(2 + 2 ) dx = 2 f
(2 + 2 ) dx, o 0
on a également
J l-À 1
'l C + : JdX = J
-l C + : J dx, o l-À
d'où À = fl . Concluons en écrivant que
lim 'ta,n = lim 'tr,n = 0.239. n
+oo n
+oo
Exercice V.I. Montrer que la fonction t:(.) définie à la section V.1.a est
décroissante.
Etant donné une réalisation XI,... , X n de l'échantillon, on considère
la fonction t: définie à partir de la fonction score J+ par
+1
+ ( rT(fl) J 011 tn(fl) = - £.J J - 8 ]O,+oo[(Xi - fl), n i=1 n + 1
où r T (fl) désigne le rang de 1Xi - fll dans la suite lx 1 - fll, ... , IXn -
fll. Montrons que cette fonction est décroissante, en nous souvenant
du fait que la fonction J+ est croissante et positive sur [0, 1 [.
203
V. PROBLEMES A UN ECHANTILLON
On peut d'abord remarquer que, SI J.1 est inférieur à tous les Xi, soit
si J.1 < Inf xi' on a l
+1
+ ( r 7 (J.1) J 1
+ ( i J t n (J.1) = - £.J J - = - £.J J - n i=l n + 1 n i=l n + 1
et que, si J.1 > Sup xi' on a t
(J.1) = O. Ce sont là respectivement la plus grande et la plus 1
n
petite valeur que peut prendre t
(J.1). Considérons alors deux nombres réels J.1 et J.1' tels que J.1 <
J.1' et comparons
(J.1) et t
(J.1 '). Un premier cas à examiner est celui où
{i ; Xi> J.1} = {i ; Xi> J.1'},
c'est-à-dire le cas où aucun des Xi n'appartient à l'intervalle [J.1,
J.1'[. Désignant par 1 l'ensemble écrit ci -dessus, on a
+1
+ ( r 7 (J.1) J t n (J.1) = - £.J J n ieI n+l
et
1 ( r:t"(J.1 1 ) J
(J.1') = - L J+ 1 . n ieI n+l
D'autre part,
\:1 i e 1, 0 < Xi - J.1' < Xi - J.1, d'où IXi - J.1'1 < IXi - J.11
et
\:1 i E 1, Xi - J.1' < Xi - J.1
0, d'où IXi - J.1'1 > 1Xi - J.11.
On en déduit que _
\:1 i e 1,
r7(J.1')
r7(Jl),
d'où
\:1 i e 1,
J+ ( r7(JlI) J
J+ ( r7(Jl) J . n+l n+l
On a donc bien
(Jl')
(Jl).
Le second cas est celui où l'un, au moins, des Xi appartient à
l'intervalle [Jl, Jl'[. Supposons qu'il n'yen ait qu'un, soit xi ' et que, de
plus, Jl et Jl' soient suffisamment o proches de xi pour que l'on ait o
204
v. PROBLEMES A UN ECHANTILLON
(1)
(Jl) = r
(Jl') = 1. la la
On a alors, en posant 1 = {i ; Xi> Jl'},
(+J+1
+ ri (Jl) tn(Jl) = - £.J J nie 1 U { io } n + 1
et
+, 1
+ ( r7(JlI) J tn(Jl) = - £.J J n ieI n+l
et, en raisonnant comme dans le premier cas et en tenant compte de
(1), on peut montrer que
\:1 i e 1,
r7(Jl')
r7(Jl).
On en déduit
1
( r 7 (Jl) J t:(Jl')
- £.J J+
t:(Jl). n ieI n+l
La fonction t: est bien décroissante.
Exercice V.2. Démonstration du théorème V.1.1 Montrer que la
fonction
(.) est une fonction en escalier décroissante dont l'ensemble des
discontinuités est
{ x(i) + x(j) . 1 < . < . < } , _1_J_n 2
XC) + x(j) et dont l'amplitude du saut au point 1 est égale à 2
( J+ ( j - i ) _ J+ ( j - i + 1 )) . n n+l n+l
On utilisera les résultats de l'exercice précédent et on pourra
s'inspirer de la démonstration du théorème VII.2.1 chap./V.
D'après les résultats de l'exercice V.1, on sait que la fonction
est décroissante et que, pour Jl < Jl', on ne peut avoir t:(Jl) < t:(Jl')
que si . soit l'un des Xi appartient à l'intervalle [Jl, Jl'[, . soit aucun
des Xi n'appartient à l'intervalle [Jl, Jl'[, mais il existe 1 tel
que
Xi > Jl' et r7(Jl') < r7(Jl).
205
V. PROBLEMES A UN ECHANTILLON
Cette dernière condition exige que, de plus, il existe j (* i) tel que
x. < Jl , J
+ + r j (Jl) < ri (Jl)
et
rj(JlI) > r7(Jl').
On doit donc avoir
IXj - JlI < 1Xi - JlI et
1Xi - Jl'I < IXj - Jl'I,
soit
Jl - Xj < Xi - Jl
et
, 1 xi - Jl < Jl - Xj,
c'est -à-dire
x. + x. Jl< 1 J <Jl'. 2
On en conclut que la fonction t
est en escalier et que les seuls points en lesquels elle peut admettre
une discontinuité sont les points d'abscisse Xi et ceux d'abscisse x.
+ x. 1 J. . (1 * J). 2
En appelant X(I),'" , x(n) la réalisation de l'échantillon ordonné, on
peut dire que l'ensemble des points d'éventuelle discontinuité est
{ x(i) + x u ) . 1 < . < . < } , _I_J_n 2
On peut supposer que tous les éléments de cet ensemble sont
distincts puisque, la loi F de base étant continue, la probabilité pour
qu'il en soit ainsi est égale à 1. xC) + x u ) Déterminons l'amplitude
du saut au point d'abscisse 1 . 2
Si i = j, l'étude effectuée à l'exercice V.l montre que, pour Jl et Jl'
suffisamment proches de X(i), on a
+ 1 + 1 + ( 1 ) 1 ( + + ( 1 )) tn(Jl) - tn(Jl) = - - J - = - - J (0) - J , n n+l n
n+l
puisque J+ (0) = O.
X(i) + x u ) Si i < j, on a, pour J.1 et Jl' suffisamment proches de , 2
rj(Jl)=j-i+l et r7(Jl ' )=j-i,
206
V. PROBLEMES A UN ECHANTILLON
d'où
1 ( ( J . - i J (J ' - i + 1 JJ t:(Jl') - t:(Jl) = - J+ - J+ . n n+l n+l
Le résultat demandé est donc établi.
Remarques. 1) Si la fonction .r- n'est pas strictement croissante,
certaines des amplitudes de saut calculées ci-dessus peuvent être
nulles. Il n'y aura, en fait, pas de saut au point correspondant. C'est
pourquoi nous avons utilisé plus haut l'expression "éventuelle
discontinuité".
2) On peut vérifier que la somme des amplitudes de tous les sauts
est bien égale à la variation totale de la fonction telle qu'on l'a
calculée à l'exercice V.1. On a, en effet,
1 L ( + ( j - i J + ( j - i + 1 JJ 1 i i ( + ( j - i J + ( j - i + 1 JJ n l
n J n+l - J n+l =-;j=li=l J n+l - J n+1
1 n . =--LJ+ ( J J . n j= 1 n + 1
Exercice V.3. Avec les notations de la section V.l, on désigne par B
une partie non vide de l'ensemble {(i, j) ; 1
n} telle que
( (i, j) e B) => (n - j + 1, n - i + 1) e B ).
Pour tout entier m de rN*, on pose
Am = {(i, j) e B ; i
m}.
Montrer que le coefficient de tolérance de l'estimateur
X ( O ) + X U ) MED { I ; (i, j) e B} 2
* m est égal à -, où n
m* = Max {m e rN; Card B + 1
2 Card A m +1}.
On pourra d'inspirer de la démonstration du théorème V.l.9.
(Hettmansperger (1984))
207
v. PROBLEMES A UN ECHANTILLON
Remarquons tout d'abord que la suite {Am; m e lN.} est décroissante
relativement à la relation d'inclusion, ce qui implique que, si un entier
m vérifie la relation
(1)
Card B + 1
2 Card A m +1,
tous les entiers qui lui sont inférieurs la vérifient également. D'autre
part, puisque Al = B et B * 0, l'entier 0 vérifie la relation (1) et,
puisque A n +1 = 0, l'entier n ne la vérifie pas. On a donc 0
m. < n et
\:Im
m., \:Im>m.,
Card B+l
2 Card A m +1, Card B+l > 2 Card A m +1.
Désignons par Jln(B) l'estimateur considéré, c'est-à-dire la médiane
de l'ensemble
X ( ' ) + X (j) E = { l ; (i, j) e B}. 2
La propriété de symétrie imposée à B fait que les coefficients de
tolérance à gauche et à droite de Jln(B) sont égaux (voir définition
II.4.1 chap. II). Nous pouvons alors nous inspirer du début de la
démonstration du théorème V.1.9, c'est-à-dire chercher le plus petit
entier m tel que i) X(m+1)
iln(B), ii) si l'on fixe X(m+2),... , x(n) et si l'on fait tendre X(m+ 1) vers
- 00, alors Jln(B) tend vers - 00.
La loi de base étant continue, on peut supposer que les nombres
X(i) + x(j) sont distincts et, donc, que Card E = Card B. Distinguons
alors deux cas, suivant la parité de Card B.
Premier cas. Supposons Card B impair et posons Card B = 2k + 1 (k
0). Nous savons alors que fln(B) est le (k + l)ème plus petit élément
de E. Soit m un élément de {l, ... t n}. Lorsque X(m+1) tend vers - 00,
il en est de même de X(l), ... , X(m) et la médiane J1n(B) tend vers -
00 si le nombre des éléments de E pour lesquels i
m + 1 est supérieur ou égal à k + 1, c'est-à-dire si
Card {(i, j ) e B ; i
m + 1}
k + 1,
soit si
CardB+l Card B - Card A m +2
2
ou, encore, si
2 Card A m +2
Card B - 1.
208
V. PROBLEMES A UN ECHANTILLON
Si l'on pose
m* = Min {m; 2 Card A m +2
Card B - 1},
on a également, en tenant compte des remarques faites au début de
la solution,
m * - 1 = Max {m ; 2 Card A m +2 > Card B - 1},
soit
m * = Max {m ; 2 Card A m + 1 > Card B - 1}.
Puisque Card B est impair, donc Card B - 1 pair, on a
(2 Card A m +1 > Card B - 1) <=> (2 Card A m +1
Card B + 1),
d'où
m * = Max {m ; 2 Card A m + 1
Card B + 1}.
* m Pour pouvoir affirmer que le coefficient de tolérance cherché est
égal à -, il faut n
'" encore montrer que X(m.+1)
Jln(B).
Or, pour tout élément (i, j) de Am.+1, on a
X(i) + x(j) X(m.+1)
puisque m* + 1
j. De plus, puisque m* réalise
2 Card Am.+1
Card B + 1,
soit
Card Am.+1
k + 1,
X(i) + x(j) . . le plus petit des nombres , avec (l, J) e Am.+b est
inférieur ou égal à iln(B). 2
On a donc bien
X(m.+1)
n(B)
* m et - est le coefficient de tolérance cherché. n
209
V. PROBLEMES A UN ECHANTILLON
Deuxième cas. Supposons Card B pair et posons Card B = 2k (k >
0). On sait que f1n(B) est la demi-somme du kème et du (k + l)ème
plus petits éléments de E. En raisonnant comme dans le premier
cas, on doit réaliser
Card {(i, j) E B ; i
m + l}
k,
soit
CardB Card B - Card A m +2
ou, encore,
2 Card A m +2
Card B.
Si l'on pose
m* = Min {m; 2 Card A m +2
Card B},
on a également
m* = Max {m; 2 Card A m +l > Card B},
soit, en tenant compte du fait que Card B est impair,
m * = Max {m ; 2 Card A m + 1
Card B + 1 } .
La fin du raisonnement, consistant à montrer que x(m.+l)
Jln(B), est analogue à celle effectuée dans le premier cas et nous
laissons au lecteur le soin de l'expliciter.
Exercice V.4. Soit F une loi fortement unimodale. 1) Montrer que, si
F appartient à "s, on a
U[-l, 1] <s F <s
e(O, 1).
On pourra se reporter à fa question 4 de l'exercice N.5 chap. Ill. 2)
Montrer que la loi F* = F * F estfortement unimodale. On utilisera les
propriétés établies aux questions 1 et 2 de l'exercice IV.5 chap. Ill,
ainsi que les résultats du théorème R.lII.4.2 en montrant, de plus,
que, si F et G sont deux lois appartenant à ", on a (F>(
)G) => (F>iG).
1) La propriété demandée a été établie à la question 4 de l'exercice
IV.5 chap. III.
2) On sait que que la loi F* admet la densité r* définie par
'il x E IR, r* (x) = f f(x - t) f(t) dl. IR
210
V. PROBLEMES A UN ECHANTILLON
D'après les questions 1 et 2 de l'exercice cité en référence, on doit
montrer que, si u, Xl et x2 sont trois nombres réels tels que u > 0, Xl
< x2, on a
(1)
f*(XI) (X2 + u)
(X2) (Xl + u).
On remarque d'abord que, puisque le support de F est un intervalle,
borné ou non, comme on l'a établi à la question 2 de l'exercice cité
en référence, il en est de même de celui de F*. Il s'ensuit que la
nullité de (Xl + u) entraîne celle de (Xl) ou de (X2 + u) puisque
Xl < Xl + U
et
Xl + u < X2 + u.
L'inégalité (1) est alors vérifiée dans ce cas. Comme elle l'est
également, de façon évidente, lorsque f*(X2 + u) = 0, il reste à
l'établir dans le cas où (Xl + u) et (X2 + u) sont non nuls. Montrons
donc que
* * f (xl) f (X 2 ) *
* f (Xl + u) f (X 2 + u) soit que l f(x l - t) f(t) dt l f(x 2 - t) f(t) dt rR rR
l f(x l + U - t) f(t) dt l f(X2 + u - t) f(t) dt rR rR
En posant z = Xl - t dans les intégrales du premier membre et z = X2
- t dans celles du second, on se ramène à montrer que
l f(z) f(x l - z) dz rR
l f(z) f(x 2 - z) dz rR
f f(z + u) f(x l - z) dz rR
f f( z + u) f( X2 - z) dz Ut
que l'on peut écrire sous la forme
(2)
IE 01 (<p)
IE G2 (<p)
211
V. PROBLEMES A UN ECHANTll..LON
en posant
{ f(z) / f(z + u) <p( z) = o
si f(z + u) * 0,
si f(z+ u) = 0,
et en désignant par Gi (i e (l, 2}) la loi de probabilité dont la densité
gi est défmie par
f(z + u) f(x i - z) gi(z) = l f(z + u) f(x i - z) dz rR
On sait que la fonction <p est croissante lorsque f(z + u) * 0 (voir
question 1 de l'exercice IV.5 chap. III), donc en particulier sur les
supports des lois Gi. D'après le théorème R.llI.4.2, l'inégalité (2) est
vérifiée si l'on montre que G2 >i G1. n est, en fait, aisé de montrer
que G2 >(.l) G1, puisque, toujours d'après le théorème R.llI.4.2, il
suffit pour cela que la fonction g2 / gl soit croissante lorsqu'elle est
définie. Or
g2(Z) f(x 2 - z) f( (-z) - (-x 2 ) ) =K =K gl(z) f(x 1 - z) f( (-z) - (-xl) )
où K est une constante positive. En se servant du fait que f est à
rapport de vraisemblance monotone pour un paramètre de
localisation (question 2 de l'exercice cité en référence), on g2 (z) voit
que est une fonction décroissante de (-z), donc une fonction
croissante de z. gl (z)
n reste, enfin, à montrer que, si F et G sont deux lois appartenant à
", on a
( F >(
) G) => (F >i G ).
Cette propriété est une conséquence du théorème R.lII.4.3, mais on
peut l'établir directement de la façon suivante. Soit x tel que G(x) >
O. D'après la définition R.llI.4.1, on a
\:1 YI < x,
\:1 Y2
x,
F(Y2) - F(Y1)
G(Y2) - G(Y1)
F(x) - F(Y1) G(x) - G(Y1)
si, de plus, G(Y1) < G(x).
212
V. PROBLEMES A UN ECHANTILLON
En faisant tendre YI vers - 00 et Y2 vers +00, on obtient
F(x)
G(x).
Si la fonction G s'annule, on pose
a = Sup (x ; G(x) = O}
et l'on a alors, G étant continue, G(a) = O. D'autre part, puisque
\:1 x > a, 0
F(x) < G(x),
on a (x -+ a) F(a) = 0, d'où
( G(x) = 0) => (F(x) = 0 ).
On a bien établi que
\:1 x e IR,
F(x)
G(x),
soit
F >i G,
ce qui achève la démonstration.
Exercice V.S. Utilisation d'une méthode graphique On se place dans
le cadre du modèle de localisation (1.1.'" s) et l'on se propose de
trouver une méthode graphique pour estimer le paramètre Jl ou pour
tester l' hypothèse Ho : "Jl = 0" contre l' hypothèse Hl : "Jl :1= 0" à
partir de la réalisation x},..., X n de l'échantillon. Pour cela, on
considère, dans un repère cartesien, les n points Mi d'abscisse Xi (1
i
n) et d'ordonnée nulle et l'on désigne par Aij le point d'intersection de
la droite de coefficient directeur égal à 1 qui passe par Mi et de la
droite de coefficient directeur égal à -1 qui passe par M j . Calculer
l'abscisse aij de chacun des points Aij et, en s'inspirant de l'exercice
VIlA chap./V, proposer une méthode graphique pour déterminer la
valeur de l' es timate ur de Jl de Hodges-Lehmann associé à la
statistique de WiIcoxon W
, ainsi que l'intervalle de confiance pour Jl de niveau 1 - a (0 < a <
1). Déduire de cet intervalle la conclusion du test de niveau a de l'
hypothèse Ho contre l' hypothèse HI.
213
V. PROBLEMES A UN ECHANTILLON
x. + x. On a, évidemment, aij = aji = 1 J . Il suffit alors de considérer
les projections 2
A' ij des points Aij sur l'axe des abscisses en remarquant que A' ij =
A' ji et que A I M d . n (n + 1) . (1 . . ) l , f . , ii = i et e raIsonner sur
ces pOInts
n comme on a aH a 2
l'exercice VII.4 chap. IV sur les points Mij, l'axe des ordonnées étant
remplacé par l'axe des abscisses. C'est ainsi que la valeur de
l'estimateur de Jl de Hodges-Lehmann associé à la statistique de
Wilcoxon w;. est l'abscisse du "point médian" (voir exemple V.1.5) et
que l'intervalle de confiance pour Jl de niveau 1 - a est obtenu en
prenant les abscisses des (k+ l)èmes points A\j rencontrés lorsqu'on
parcourt l'axe des abscisses dans chacun des deux sens (voir V.2).
L'entier k est déterminé à partir de la loi de la statistique
pour Jl = 0, cette loi étant tabulée (table G) ou approchée par une loi
normale (corollaire IIL2.5). Enfin, dans le cas du test, on accepte ou
non l'hypothèse Ho selon que l'origine se trouve, ou non, entre les
deux points A ' ij déterminés ci-dessus.
Exercice V.6. On se place dans le modèle (1.1." s) et l'on considère
les neuf observations suivantes
2.235 1.341
3.669 2.685
1.476 2.405
1.886 1.406
2.227
Déterminer des estimations ponctuelles du paramètre de localisation
Jl, ainsi que des intervalles de confiance à 95% de ce même
paramètre, en utilisant successivement 1) la statistique de Wilcoxon,
2) le test de Student, 3) fa statistique de van de Waerden. Pour
obtenir le dernier des intervalles de confiance demandés, on sera
amené à dresser une table partielle de la statistique de van der
Waerden.
Désignons par Xi (1
9) les observations et par x(i) (1
9) les observations rangées. On a, avec les notations habituelles,
9 X9= à L X(i) = 2.148, i=l
X9 = x(5) = 2.227,
2]4
V. PROBLEMES A UN ECHANTILLON
9s
L X[ - X
= 0.4893, i=l
d'où
S9 = 0.6995.
1) On sait que la valeur prise par l'estimateur déduit de la statistique
de rang signé de Wilcoxon est la médiane de l'ensemble
A = { x(i) + x(j) . 1 < . < . < 9 } , _I_J- , 2
soit le 23 ème élément dans l'ordre croissant de cet ensemble qui en
comporte 45. Le lecteur est invité à dresser un tableau analogue à
celui de l'exemple V.1.8 du tome 1 (p. 206). En désignant par
k) (1
45) les éléments ordonnés de l'ensemble A, on obtient
'" (X(4) + X(6») Jl9 = a(23) = = 2.0605. 2
Pour obtenir l'intervalle de confiance à 95%, nous devons (voir V.2
du tome 1) déterminer l'entier k tel que P o(W9
k) soit le plus proche possible de a/2, a étant ici égal à 0.05 (= 1 -
0.95). La table G du tome 1 nous donne
P o (W9
5) = 0.0195
et
P o (W9
6) = 0.0273.
Cette seconde valeur étant la plus proche de 0.025, nous adoptons
l'intervalle de confiance [a(7), a(39)] pour lequel on a 1 - a = 0.945.
On lit, dans le tableau que l'on a dressé,
X(1) +X(4) a(7) = = 1.6135 2
et
a(39) = X(8) = 2.685.
D'où l'intervalle de confiance [1.613, 2.685].
2) La valeur de l'estimateur de Student est ici simplement x9' soit
2.148 et l'intervalle de confiance est [x9 - À, x9 + À] avec
À=
Stil (1-
).
2]5
V. PROBLEMES A UN ECHANTll..LON
Une table de la loi de Student nous donne
Stg 1 (0.975) = 2.306,
d'où À = 0.570 et l'intervalle de confiance [1.578, 2.718].
3) La statistique de van der Waerden est ici définie par
9+1
-1 1 i
VD 9 =- £.J 'V (-+-)Li' 9 i=l 2 9+ 1
où <1> désigne la fonction de répartition de la loi .N (0, 1) et, d'après
le théorème V .1.1, la fonction vd; associée à cette statistique est en
escalier et décroissante. Ses points de discontinuité sont les
éléments de l'ensemble A défini à la question 1 et l'amplitude du
saut x(i) + x(j) au point est égale à 2
1 [ -1 ( 1 j-i ) -1 ( 1 j-i+l )] - <1> -+- -<1> -+ . 9 2 10 2 10
-1 ( 1 i J La valeur de M: = lEo(VD;) est ici égale à - £.J <1> - + 2 x 9
i=l 2 2 x 10
et une
table de la loi <1>-1 nous donne
= 3.3835.
Pour obtenir la valeur de l'estimateur de Hodges-Lehmann (définition
V.1.2), nous devons chercher pour quelle valeur de la variable la
fonction vd; traverse la valeur M:. Le lecteur est alors invité à
complèter le tableau dressé à la question 1 en s'inspirant de la table
9 (page 168 du tome 1) c'est-à-dire en inscrivant, dans chacune des
45 cases du tableau, l'amplitude multipliée par 9 du saut de la
fonction vd; ainsi que la valeur prise par . x(i) + x(j) 9 Vd;Ol) pour Il
Juste plus grand que . 2
On découvre ainsi que · pour Jl juste après a(23)' on a 9 vd;(Jl) =
3.389, · pour J.l juste après a(24)' on a 9 vd;(J.l) = 3.223,
d'où
"" * ** X(3) + X(8) J.l9 = Jl9 = Jl9 =
24) = = 2.0805. 2
216
V. PROBLEMES A UN ECHANTILLON
On remarque que cette valeur de l' estimateur est proche de celle
obtenue à la première question qui était
23). Pour obtenir l'intervalle de confiance cherché, il nous faut
disposer d'une table de la fonction de répartition de la statistique
VO;, car une approximation normale est trop imprécise pour n = 9.
En l'absence d'une telle table, nous pouvons la dresser, au moins
partiellement, en remarquant que les valeurs prises par VO; sont les
nombres
-1 ( 1 i J £.JcI> -+- ie J 2 20 '
Je
( {l, ... , 9} ),
en convenant que cette somme est nulle si J est la partie vide. Pour
chacune de ces 2 9 = 512 valeurs, la fonction de répartition s'accroît
de 1/512 et, puisqu'ici a/2 = 0.025, il nous suffit de connaître les 13
plus petites valeurs prises par VO; car
12 13 - <0.025 <-. 512 512
En remarquant, de plus, que la fonction J + définie par
-1 ( 1 u J J\u)=c1I 2"+2"
est convexe sur [0, 1[ et nulle en 0, on a, pour tout couple (U1, U2)
de nombres positifs distincts de somme inférieure à 1,
j+(U1) + Y(U2) < j+(U1 + U2),
soit, si 1
i<j
9 et i + j
9,
-1 ( 1 i J -1 ( 1 j J -1 ( 1 i + j J cI> -+- +CI> -+- <cI> -+- . 2 20 2 20 2
20
Cette remarque aide à ranger par ordre croissant les 13 premières
valeurs de VO; et l'on s'aperçoit aisén1ent que la 12 ème et la 13
ème sont obtenues pour j = {2, 4} et j = { 1, 5} et respectivement
égales à 0.778 et 0.800. On a donc + 12 Po( 9 V0 9
0.778 ) = - = 0.0234 512
217
V. PROBLEMES A UN ECHANTILLON
et
+ 13 Po( 9 VD 9
0.800) = - = 0.0254. 512
a Cette dernière valeur étant la plus proche de -, on cherche, enfin,
dans le tableau 2 déjà dressé, pour quelle valeur de Jl la fonction vd;
traverse la valeur 0.800. On trouve ainsi que
· pour Jl juste après a(39), on a 9 v
(Jl) = 0.841, · pour Jl juste après a(40), on a 9 vd;(Jl) = 0.674.
L'intervalle de confiance cherché est donc [
6),
40)] et l'on a
a(6) = X(3) = 1.476
et
X(4) + X(9) a(40) = = 2.7775. 2
D'où l'intervalle de confiance [1.476, 2.778].
Exercice VI.I. On se propose de montrer, sur un exemple, que la
courbe d'influence d'un R -estimateur peut être rendue aussi grande
que l'on veut pour certaines lois asymétriques. 1) Montrer, à partir de
la relation (V.7), que, si la loi F appartient à " et admet pour support
un intervalle, la courbe d'influence de l' estimateur
n associé à w: est donnée par
\:1 x e Supp (F),
'" 1/2 - F( 2M(F) - x) Ic(x ; F, Jl) = r- f( 2M(F) - Y ) f(y) dy
-00
et déduire de la relation (V .5) que
1 2M (F) = (F* r 1 (2)'
où l'on a posé p* = F * F. 2) Etant donné deux nombres réels E et a
tels que
o < E < a,
2 a E = 1,
218
V. PROBLEMES A UN ECHANTILLON
on considère la loi F dont la densité f est définie par
f = a 11 [-£,0] + E 11 [D,a].
Montrer que l'on a
o
2 M(F)
a-E
et en déduire que la courbe d'influence de l'estimateur Iln associé à
W
peut être rendue aussi grande que l' on veut pour cette loi F.
Pour alléger la notation, posons, dans la relation (V. 7), À = 2 M(F).
Elle s'écrit alors, en supposant que x appartient au support de F,
r oo 2 f(À. - y) f(y) dy + r-( ô/À. - y) - F(À. - y) ) dF(y) £=0 -00 _00
dM(F ) £
dE
+00 + f F(À. - y) d( ô/y) - F(y) ) = O.
-00
On a
f +00 f À-x
x(À - y) dF(y) = dF(y) = F(À - x)
-00
-00
et
r OO F(À. - y) d( Ôx(y) ) = F(À. - x),
-00
d'où
+00 +00 2 Ic(x ; F,I!) f f(À. - y) f(y) dy + 2 F(À. - x) - 2 f F(À. - y) dF(y)
= O.
-00
_00
En tenant compte de la relation (V.5) appliquée à F, on obtient
_ 1/2 - F(À - x) Ic(x ; F, Jl) = r-f(À. - y) f(y) dy
-00
219
V. PROBLEMES A UN ECHANTILLON
De plus, d'après la relation (V.5), on a
* 1 F (À) = - 2
* et, puisque la loi F admet pour support un intervalle, il en est de
même de la loi F . La fonction F* est donc strictement croissante sur
ce support et l'on peut écrire
1 À = (F*r 1 ( - ). 2
2) Pour montrer que
a - £,
il suffit de montrer que l'on a
* 1 * F (0)
F (a - E). 2
Si X et Y désignent deux variables aléatoires indépendantes de loi F,
la loi F* est celle de X + Y. Puisque la loi F est uniforme sur chacun
des intervalles [-£, 0] et 1 [0, a] et attribue la probabilité - à chacun
d'eux, la loi du couple (X, Y), c'est-à-dire la 2 loi F
F, est uniforme sur chacun des quatre pavés [-E,0]2, [0, a]2, [-£, 0] X
[0, a] et 1 [0, a] x [-E, 0] et elle attribue la probabilité à chacun d'eux.
4
Le calcul de
F* (0) = P(X + Y
0)
et de
* F (a - £) = P(X + Y
a - E)
se ramène donc à des calculs d'aires (le lecteur est invité à faire une
figure) et l'on obtient
2 * 1 E F (0) = - + 4 4
* 1 (a - E) 2 £ (2a - E) F (a - £) = - + 2 + 4 8 a 2
2 1 * 1 Puisque 0 < E < a et 2a E = 1, on a £ < -, d'où F (0) <-. 2 2
220
V. PROBLEMES A UN ECHANTILLON
Un calcul simple conduit à
4 2 ... 4£ -8£ +7 F (a - £) =
1 1 et il est aisé de vérifier que cette expression est supérieure à - SI
£2 < - 2 2
Enfin, pour montrer que l'on peut rendre la courbe d'influence aussi
grande que l'on veut, on remarque d'abord que le numérateur de
Ic(x; F,
) n'est, en général, pas nul (il ne l'est, en fait, que pour une seule
valeur de x). Il suffit alors de montrer que le dénominateur, qui ne
dépend pas de x, peut être rendu aussi petit que l'on veut par un
choix judicieux de £. On a
f<>O £0.. - x) f(x) dx = {fO.. - x) f(x) dx -00 -E o a = a f f(À - x) dx + £
f f(À - x) dx -E 0 o 1
E =a f £dx+£ f £dx+ f adx -E 0 1
= 2a £2 + À £2
= £ + À £2 < £ + a £2 = 3 £ . 2
En choisissant £ assez proche de 0, on peut donc rendre la courbe
d'influence aussi grande que l'on veut.
Remarque. Il est possible de trouver un exemple pour lequel le
support de F est rR. Il suffit, pour cela, de remplacer les deux lois
uniformes dont F est une combinaison convexe par deux lois
exponentielles, c'est-à-dire de poser
f(x) = a e x/E 11 fi{ -(x) + £ e- x/a 11 fi{ +(x)
en imposant encore 0 < £ < a et 2 a £ = 1. Nous n'avons pas choisi
de développer cet exemple car les calculs y sont un peu plus longs,
mais ils n'offrent aucune difficulté et le lecteur est invité à les
effectuer. Signalons-lui simplement qu'il sera amené à montrer que 0
< 2 M(F) < a.
221
Chapitre VI
COMPARAISON DE k TRAITEMENTS
Exercice II.1 l) Avec les notations de la section Il.l.a, montrer que /'
on a
12 k R} K - L
- 3 (N + 1). N - N (N + 1) j= 1 n j
2) En déduire que l'on a KN
N - 1 et que l'égalité a lieu si et seulement si les entiers nj sont tous
égaux à 1.
1) Il suffit, pour établir la relation, de développer les carrés. En effet
k N 1 2 k k N 1 2k Ln. ( R.. -
) =L n.R?-(N+l)L n.R..+ (
) Ln. ' I J J 2 . 1 J J . 1 J J 2 ' l J J= J= J= J=
k R.J . k N ( N + 1 )2 =
- - (N + l)
R' j + . J=1 n. J=1 4 J
Or
k k n j N,. N (N + 1) L R. = L L R.. = L 1 = . . 1 J . 1 . 1 IJ . 1 2 J= J=
1= 1=
On a donc
K _ 12 [ i RoJ _ N(N+ })2 ] N - N (N + 1) J=1 n j 4
kR
'J £.J - - 3 (N + 1). N (N + 1) j= 1 n. J
12
223
VI. COMPARAISON DE k TRAITEMENTS
2) On sait que, si l'on désigne par x la moyenne arithmétique de n
nombres Xi (1
n), on a
nn
(_)2
2 -2 £.J Xi - X = £.J Xi - n X , i= 1 i= 1
d'où
n nx2
L xr, i=l l'égalité ayant lieu si et seulement si les Xi sont tous égaux.
En appliquant, pour chaque valeur de j, cette inégalité aux nj
variables Rij, on obtient
2 n' R..
= nj
j
R ij , n. 1=1 J
d'où
k nj KN< 12 LLR
.-3(N+l). - N (N + 1) j=l i=l IJ
Or
k nj N L L R
. = L i 2 = N (N + 1) (2N + 1) , . 1 . 1 IJ . 1 6 J= 1= 1=
d'où
KN
2 (2N + 1) - 3 (N + 1),
KN
N - 1.
De plus, l'égalité a lieu si et seulement si, pour chaque valeur de j,
on a
n' J n2
2 nj R.j = £.J R ij , i=l
ce qui exige l'égalité des nj variables Rij. Cette éventualité est à
rejeter si nj > 1. puisqu'on suppose que les N observations ne
comportent pas d'ex-aequo. On aura donc KN = N - 1 si et
seulement si les entiers nj sont tous égaux à 1, ce qui, sur le plan
statistique, est inintéressant!
Exercice II.2. Montrer que si, dans la statistique donnée en (11.5),
section II.1.c, or. remplace les observations par leurs rangs, on
obtient une fonction croissante de KN. On pou"a utiliser les résultats
de l'exercice II.1.
224
VI. COMPARAISON DE k TRAITEMENTS
Désignons par TN la statistique obtenue en remplaçant les Xij par
les Rij dans la statistique donnée en (11.5). Après avoir remarqué
que l'on doit remplacer X.. par la N + 1 moyenne des N variables Rij,
soit par -, on obtient 2
k _ N+1 2 L n. ( R..-- ) N - k j=l J J 2 TN=
k nj L L (R ï - R..)2 . 1 . 1 J J J= 1=
-1 N - k [ 12 k nj _ 2 ] = - KN L L (R ij - R 'j) . k - 1 N (N + 1) j=l i=l
Or, d'après la relation écrite au début de la solution de la question 2
de l'exercice ILl, on a
nj nj
-2
(Rij - R.j) =
R ij - nj R .j, 1= 1 1= 1
d'où
k nj k nj k LL (R.. - R .)2 = LLR
. - Ln. R2. . 1 . IJ .J . 1 . IJ. J .J J= 1=1 J= 1=1 J=l
Nk2_
.2
R' j -£.JI -£.J- . 1 . l n. 1= J= J
k 2 = N (N + 1) (2N + 1) _ L R. j . 6 j=l n. J
On en déduit [ k 2 ] -1 N - k 12 R' j T N = - KN 2 (2N + 1) -.
- , k - 1 N (N + 1) J=l n j
soit, d'après l'expression de KN obtenue à la question 1 de l'exercice
II.1,
225
VI. COMPARAISON DE k TRAITEMENTS
N - k -1 TN=- K N [4N+2-(K N +3(N+l»] k - 1
N - k KN
k - 1 N - 1 - KN
Cette fonction de KN est une fonction homographique croissante.
Exercice II.3. Avec les hypothèses et les notations du théorème
Il.1.5, on se propose de montrer que la loi du vecteur T = (TI, ... , T
k) converge vers la loi eN k(O, A) grâce à l(l méthode des
projections définie au théorème IV.2.3 chap. IV et utilisée dans le
théorème IV.2.6 chap. IV. 1) Question préliminaire. Soit X}, ... , X n
un échantillon de la loi U [0, 1] et soit (RI,..., Rn) le vecteur des rangs
associé à cet échantillon. Pour tout couple (i, j) tel que 1
n, 1
n, i * j, on pose Uij =
]O,+oo[(Xi - X j ). Exprimer Ri en fonction des U ij, déterminer lE (U ij
1 Xk = x) pour 1
n et x e ]0, 1 [ et en déduire que
{ n / 2 + 1 - X k E (Ri 1 X k ) = 1 + ( n - 1 ) X k
si i;t: k, si i = k.
2) On adopte les notations du théorème 11.1.5 et l'on pose
1 = {(i, j) ; 1
k, 1
nj}
et
\:1 (i, j) e 1,
y.. - F ( X' . ) IJ - IJ .
En utilisant les résultats de la question 1, calculer, pour (u, v) e 1 et 1
k, - . * * Eo(R.j 1 Xuv) et en déduire que la projection L = (LI' ... , L k )
de T sur
(voir théorème IV.2.3 chap. IV) est définie par
. L. = J
(N + 1) (N - n j )
12 n. J
[ N - n. ]
L y uv - L y uv ' n j (U,V)E 1 (U,V)E 1-1
avec
J = {( u, v) el; v = j} = {l, ... , nj} x {j}.
3) Déterminer les matrices des covariances des vecteurs T et L. et
montrer que la matrice des covariances du vecteur T - L. tend vers
O. On admettra que
A(T - L.) = A(T) - A(L*).
226
VI. COMPARAISON DE k TRAITEMENTS
4) Montrer que la loi de L* tend, dans les conditions du théorème
11.1.5, vers la loi eN k(O, A). On utilisera, pour cela, le corollaire
R.lII.3.7 et le théorème suivant (voir Serfling, 1980).
Théorème. Soit {Zn = (Zln, ... , Zkn) ; n e It...j} une suite de vecteurs
aléatoires de dimension k. Pour que la loi de Zn tende vers celle de
Z = (ZI, ... , Zk), il faut et il suffit k que, pour tout élément (a 1, ... , ak)
de rR k, la loi de L a, Z'n tende vers celle de . 1 J J J=
k L a. Z J ' . ' 1 J J= 5) Déduire des résultats des questions 3 et 4
que la loi de T tend, dans les conditions du théorème 11.1.5, vers la
loi eN k(O, A).
1) On peut écrire
Ri = 1 + L V ï . 1 <'< ,. J -J_n,J=ït1
1 Si k;1: i et k;1: j, on a lE (V ij 1 Xk = x) = lE (V ij) = -, puisque les
variables Xi, 2
X j et Xk sont indépendantes. Par ailleurs, on a, toujours avec i;1: j et
puisque Vij est une variable de Bernoulli,
lE (Vij 1 Xi = x) = P(Vij = 1 1 Xi = x) = P(X i > Xj 1 Xi = x) = P(Xj < x)
=x
et, de même,
lE (U ij 1 Xj = x) = P(Xi > x) = 1 - x.
On peut écrire ces résultats sous la forme
! 1/2 IE(U ij 1 X k ) = Xi 1 - X. J
si k;1: i et k * j, si k = i, si k = j.
On a
IE(Ri IX k)=I+ L IE(VijIXk), 1
n,j=ïti
d'où
lE (Ri 1 Xi) = 1 + (n - 1) Xi
227
VI. COMPARAISON DE k TRAITEMENTS
et, si k * i,
n-2 n IE(Ri 1 Xk) = 1 + - + (1 - Xk) = - + 1 - Xk. 2 2
2) On sait que les N variables Yij «i, j) el) constituent un échantillon
de la loi U [0, 1], sous 1 'hypothèse Ho. On a donc, d'après le
résultat de la question 1,
IE(Rij 1 Xuv) = IE(Rij 1 Y uv) { N / 2 + 1 - Y uv = 1 + (N - 1) Y uv
si (i, j) * (u, v), si (i, j) = (u, v).
D'autre part, on a
n. _ 1 J lEo(R.j 1 Xuv) = - L lEo(Rij 1 X uv ), n. i=l J
d'où
. si v * j,
- N lEo(R.j 1 Xuv) = - + 1 - Y uv , 2
. si v = j,
lE - 1 N o(R.j 1 Xuv) = - ( (nj - 1) ( - + 1 - Y uv) + 1 + (N - 1) Y uv ) n.
2J
N N N-nj = - + 1 - - + - Y uv . 2 2 n. n. J J
On sait, d'après le théorème IV.2.3 chap. IV, que la projection L* de
T sur
est définie par
L* = L lEo(T 1 Xuv)' (U,V)E 1
soit,
\:Ije {1,...,k},
L; = L lEo(T j 1 X uv )' (U,V)E 1
Or, en posant
a.= J
12 n. J
(1
k),
(N + 1) (N - n j )
on a
-- N+l Tj = aj (R.j - -), 2
228
VI. COMPARAISON DE k TRAITEMENTS
d'où
. si v * j,
1 lEo(Tj 1 Xuv) = aj (- - y uv) 2 ( lN N - n j J lEo(Tj 1 Xuv) = aj - - - + -
Y uv 2 2 n. n. J J
. si v = j,
N - n. 1 _---.2 aj(Y uv --). n. 2 J
Enfin, on a
L; = L Eo(Tj 1 Xuv) (u, V)E 1
[ N - n j 1 1 ] = a. -
(y--)+
( - - y ) J £.J uv £.J uv. n j (U,V)E J 2 (U,V)E I-J 2
... On remarque que l'on a bien lEo(L.) = 0 puisque toutes les
variables Y uv sont de J 1 loi U[O, 1]. D'autre part, il est facile de
vérifier que les termes "-" s'éliminent, ce qui 2
conduit au résultat demandé
3) D'après le théorème II.1.4, on a immédiatement a
V(T.)=a
V ( R . ) = --1... V ( R . ) = 1 o J J O.J 2 0 .J n. J
et, si i * j,
a. a. - - 1 J COVo(Ti, Tj) = ai aj COVo(R.i, R.j) = - Covo(R.i, R.j) n. n.
1J
n. n. 1 J
(N - n. ) (N - n.) 1 J
D'autre part, puisque les N variables Y uv sont indépendantes et de
variance égale à
, on a 12
Vo(L;) = :
[C
jnj Jn j + (N - n j )] =
N N+l
229
VI. COMPARAISON DE k TRAITEMENTS
. . * * Enfin, pour calculer Covo(Li' L j ), avec i * j, on écrit Li et Lj
sous la forme
= ai [ N - ni i y ui -
y uj - L y uv J ' ni u=l u=l (U,V)E I,v:;ti,v:;tj
* L. =a. J J
[ ni N nj J - n. - L y ui + ----.:! L y uj - L y uv . u=l n j u=l (U,V)E
I,v:;ti,v:;tj
On obtient, toujours grâce à l'indépendance des N variables Y uv,
* . ai a j ( N - ni N - n j J Cov (L., L.) = - - - n. - - n. + (N - n. - n.) o 1 J
12 1 J 1 J n. n. 1 J
a. a. N =-N
= 12 N + 1
n. n. 1 J
(N - n) (N - n j )
On peut aisément admettre la relation
A(T - L*) = A(T) - A(L.)
qui est une conséquence de la version vectorielle du théorème
IV.2.3 chap. IV que l'on a démontré à l'exercice IV.l de ce chapitre.
La matrice des covariances de T - L * tend bien vers 0 dans les
conditions du théorème II.1.5 puisque, d'une part, V o ( L.) tend vers
1 et, d'autre part, Covo(Ti, Tj) et * * Cov o(L i ' L j ) ont pour limite
commune
À. À. 1 J
(1 - À.) (1 - À.) 1 J
On remarque que les matrices des covariances de T et de L *
tendent vers la matrice A définie au théorème 11.1.5.
4) D'après le théorème donné dans l'énoncé, nous devons montrer
que, si k a = (al' ... , a k ) est un élément quelconque de fR k, la loi
de
a J L; tend, dans les J=1 k conditions du théorème II.1.5, vers la loi
de La. Z J " où Z = (ZI' ... ,
) désigne un . 1 J J=
230
VI. COMPARAISON DE k TRAITEMENTS
k vecteur aléatoire de loi eN k(O, A). On sait que la loi de La. z. est
alors la loi . 1 J J J= eN (0, Q(a», où Q désigne la fonne quadratique
associée à A.
Ecrivons que
k L a. L J
=L
y uv . . J uv J= 1 (U,V)E 1
On a
N-n
uv = a v a v v - L nv l
k,j:;tv N k =-
a -L a.a.. nv v j= 1 J J
a. a. J J
On remarque que
uv ne dépend pas de u. 1 En rétablissant le tenne "-" que l'on a
supprimé à la fin de la question 2, on écrit 2
k L * L I a L. = Y -- . j J
uv (uv ), J=1 (u,v)EI 2
1 ce qui pennet d'appliquer le corollaire R.lII.3.7 puisque les N
variables (Y - -) uv 2
2 1 sont indépendantes, centrées, de même loi et de variance a = - Il
reste à chercher la 12
limite b 2 de
k(kJ2L
2=Lnv
a v a - L a J ' a. uv v. J (u,v)EI v=1 nv J=l
k 222 ( k J 2 ( k J 2 = L N lIv a v _ 2N L a a + N L a a v= 1 nv j= 1 J J
j= 1 J J
kN222(kJ2
av = L - N L a j a. . v=l nv j=l J
231
VI. COMPARAISON DE k TRAITEMENTS
Puisque, dans les conditions du théorème ll.1.5, on a
2À' J a.
, J N (1 - À j )
on obtient
k 2 [ k JR ] 2
12 a.
12 À. b 2 = Hm £.J
= £.J ---1. - £.J ---2 a. (u.v)eI uv j=l 1 - Àj j=1 1 - Àj J
k = L 12 a
- 2 L 12 j= 1 J l
i<j
À.À. 1 J
a. a.. (I-À.)(I-À.) 1 J 1 J
k On en déduit que la loi limite de L a. L J
est la loi normale centrée de variance . 1 J J= égale à
ka2b2=La
- 2 L j=l J l
i<j
À. À. 1 J a. a. = Q(a). (1 - À.) (1 - À.) 1 J 1 J
La loi limite de L * est donc bien la loi eN k(O, A).
5) Ecrivons que
* * T = L + (T - L ).
Alors, puisque A (T - L *) tend vers 0, on peut dire que T - L * tend
vers 0 en probabilité. TI s'ensuit que la loi limite de T est la même
que celle de L *, soit eN k(O, A).
Exercice II.4. Avec les notations de la section II.1, on pose (comme
dans l'exercice II.3)
1 = {(i, j) ; 1
j
k, 1
nj}.
1) Montrer que, pour tout j (1
k), on a
n. n. ( n. + 1)
R' j = J J +
£.J 11 ]o.+oo[(X ij - Xuv)' 2 1=1 (u.v)e I-J
où
J={(u,v)e I;v=j)={l,...,nj} x {j}.
232
VI. COMPARAISON DE k TRAITEMENTS
En déduire que
( n. - N J E(T) = a j .2....- + <
ny P(Y y < Y j ) , 2 l_v_k,v*J
où Yj et Y v désignent deux variables aléatoires indépendantes de
lois respectives F
. et J F
et où l'on a posé
a.= J
12 n. J
(N + 1) (N - n j )
2) On se place dans le cas où la fonction f est continue sur IR et
tend vers 0 lorsque x
+ 00 ou x
- 00 . On suppose qu'il existe un élément (ô}, ... , ô0 de fRk tel que
1 (Jl}, ... , Jlk) =
(ô}, ... , Ôk)
et que N devient infini avec
\:Ije {1,...,k},
n. lim
= Àj e ]0, 1[. N-+-+oo N
Montrer que m 2À ' ( k JJ +OO lim IE(T j ) =
Ôj-
À i Ô i f(x) dx. N-+too 1 - À. 1=1 J -
On remarquera que les hypothèses faites sur la densité f impliquent
l'intégrabilité sur IR de la fonction f2 et l'uniforme continuité sur IR de
la fonction f.
1) Soit {Xij; (i, j) E I} une réalisation de l'échantillon. On remarque
que le rang rij d'une réalisation Xij est égal au rang r'ïj qu'occupe
cette réalisation dans le jèm e échantillon plus le nombre de
réalisations Xuv des autres échantillons (v * j) qui sont inférieures à
Xij, soit que l'on a
rij = r' ij + L 11 ]O.+oo[(Xij - x uv ). (u,v)e I-J
233
VI. COMPARAISON DE k TRAITEMENTS
On a donc
n. n. J n. (n. + 1) J r.j = L rij = J J + L L 11 ]O,+oo[(Xij - x uv ), i=l 2 i=l
(u,v)EI-J
d'où
n. n. (n. + 1) J R.j = J J + L L 11 ]O,+oo[(Xij - X uv ). 2 i= 1 (U,V)E I-J
On en déduit
n. n. (n. + 1) J lE (R.j) = J J + L L P(Xij > Xuv) 2 i= 1 (U,V)E I-J
n. (n. + 1) L J J = + nj nv P(Y v > Yj), 2 l
k,v:;tj
pUIsque, pour v donné (v '# j), les variables Xij et Xuv sont
indépendantes et de lois respectives FJlj et FJlv' Enfin, puisque
T.=a. ( Roj -
J J J n. 2 ' J
on obtient
( n. - N J IE(T.)=a.
n P ( Y <Y. ) J J k.J v v J . 2 l
k,v:;tj
2) On peut écrire
+co P(Y v < Y j ) = f F (y) f (y) dy Jl v Ilj
+co = f F (y - J.! ) f (y - J.!.) d Y v J
+co = f F( x + (J.!. - J.! ) ) f(x) dx J v
234
VI. COMPARAISON DE k TRAITEMENTS
f -t<>o Ô' - Ô v = F(x + J m ) f(x) dx.
Pour alléger la notation, posons a = Ôj - Ôv et effectuons un
développement limité suivant les puissances de vk- de la dernière
intégrale écrite. On a
F(x +
) = F(x) +
f(X +
9(x») ,
avec 0 < 8(x) < 1, d'où
-t<>o -t<>o -t<>o f F(x + #rI f(x) dx = f F(x) f(x) dx +#r f f(x +
9(x») f(x) dx
f(X + #i 9(x») f(x) dx.
Montrons que la dernière intégrale écrite a pour limite f-f2(X) dx. On
a
-t<>o -t<>o-t<>o 1 f f(x +
9(x») f(x) dx - f f2(x) dx 1
f 1 f(x + Jr 9(x») - f(x) 1 f(x) dx.
On peut montrer aisément (ce sont des résultats classiques
d'analyse) que les hypothèses faites sur f impliquent l'intégrabilité
sur rR de f2 et l'absolue continuité sur rR de f ( ce dernier résultat
est acquis dès qu'une fonction est continue sur rR et admet des
limites au voisinage de +00 et de -00). Soit, donc, € > O. Il existe 11
> 0 tel que
( lx - x'l < 11)
(If(x) - f(x')1 < E ).
Si
< 11, soit si N > (
r on a
-t<>o -t<>o-t<>o 1 f f(x +
9(x»)f(x) dx - f f2(x) dx 1
f E f(x) dx = E,
235
VI. COMPARAISON DE k TRAITEMENTS
ce qui montre que l'on a bien
+00 J +oo N::..J f(x + lN 9(x») f(x) dx = f2(X) dx. -00 -00
On peut alors écrire que J +oo 1 Ôj - Ôv 2 1 P(Y v - Y j ) = 2: + m f
(x) dx + o( m )'
-00
d'où
[ n. - N N - n. [ k nv (Ô. - Ô ) J J +00 ( 1 )] IE(T j ) = a j ..2....-- +
+ L. J v f(x) dx + (N - n j ) 0 - 2 2 v=l.v
J v'N v'N _00
k Ô. N - L Ô n J +oo J v v v-l = a j - f(x) dx + o(/"N) . v'N -00
Enfin, on remarque que
1 run; 1
a j = ..lN + 1 J
N:_ v'N J
'
d'où
m 2À ' [( k n )f +OO ] lE (T) 'V ----.:! Ô j - L Ô v
r(x) dx + o( 1) , N-H<>o 1 - À. v=l N J -00
soit
m 2 À. ( k JJ +oo lim lE(Tj) = ----.:! Ô j -
À i Ô i f2(x) dx. N
+oo 1 - À. 1=1 J _00
236
VI. COMPARAISON DE k 'TRAITEMENTS
Exercice II.5. Montrer que l'espérance mathématique et la variance,
sous l' hypothèse Ho, de la statistique T de Jonckheere définie par la
relation (11.6) sont données par les relatiom
lEo(T) =
( N 2 - f nf J , 4 J=1
Vo<T) =
( N 2 (2N + 3) -
(nf (2n j + 3) ) J . 72 J= 1
La statistique T est définie par
T= LU.." 1 <. "< k JJ -J<J -
où U jj' est la statistique de Mann-Whitney (voir section IV.2.a chap.
IV) calculée à partir des échantillons j et j'. On a donc
nj nj' U.., = L L 11]0 +oo[(Xi'" - X ï ). JJ . 1 ., 1 , J J 1= 1 =
D'après les résultats de la section IV.2.b chap. IV, on a
n. n., lE J J (U..,) =- o JJ 2
et
n. n., (n. + n., + 1) V (U..,) = J J J J . o JJ 12
On en tire immédiatement
Eo(T)=
L n.n..=
[( fn. J 2-fn
]=
( N2-fn
J.2l
j<j'
k J J 4 j=l J j=1 J 4 j=l J
Pour calculer la variance de T, écrivons que
V o(T) = L V o(U ..,) + L Cov o(U jj" Uj"j"')' l
j<j'
k JJ U,j',j",j"')e J
avec
J = {(j ., ." '''' ) . 1 <' 'f < k 1 <." .", < k (j .' ) (j " '''' )} ,J,J,J, -J<J-, -J <J -
"J * ,J .
L'indépendance des échantillons entraîne l'indépendance de Ujj' et
Uj"j'" lorsque les quatre entiers j, j', j" et j'" sont distincts. Dans ce
cas, la covariance est nulle. Il ne restera donc, dans la somme sur J
ci-dessus, que les termes suivants
237
VI. COMPARAISON DE k TRAITEMENTS
. Covo(Vjj', Vjj") avec j <j', j <j", j' * j", . Covo(Vjj", Vj'j") avec j<j", j'<j",
j;t:j', . Covo(Vjj" Vj'j") et Covo(Vj'j", Vii') avec j < j' < j".
En regroupant deux à deux les termes égaux, on obtient
V o(T) = L V o(V..,) 1 <' "< k JJ -J<J -
+ 2 L [Cov (V.." V..,,) + Cov (V.."' V",,,) + Cov (V.", V",,,) ]. 1 <' ., '''< k
0 JJ JJ 0 JJ JJ 0 JJ JJ -J<J <J -
Commençons par calculer Cov o(Vjj', Vii") en écrivant
nj nj' V..,=L L Y.., JJ . 1 . 1 1112 11 = 12= nj nj" V.." = L L z.. , JJ . 1 .
1 1314 13= 14=
où
y. . =11 ]0 [ (X." - X. ,), 1112 ,+00 IV lIJ Z. . = 11 ]0 [ (X.." - X. ,). 13 1
4 ,+00 14J 13J
On a
nj nj nj' nj" Cov (V.." V..,,) = L L L L COVo(Y i i ' Zi i ). o JJ JJ . 1 . 1 .
1 . 1 12 34 11= 13= 12= 14=
Or les variables aléatoires y.. et Z.. sont indépendantes si i 1 ;t: i3. Il
reste 11 1 2 13 1 4
donc
nj nj' nj" Cov o (V J ' J '" V J ' J ''') = L L L Cov o(Yii ' Zii ). . 1 ' 1 . 1 2
4 1= 12= 14=
De plus, y.. et Z.. suivent la loi de Bernoulli :B (1,
) et leur produit suit 112 114 2 également une loi de Bernoulli. On a
donc
1 Cov (y.. , Z.. ) = lE (y.. z.. ) - - o 112 114 0 112 114 4
1 = p (y.. Z.. = 1) - - o 112 114 4 1 = P (y.. = z.. = 1) - - o 112 114 4
238
VI. COMPARAISON DE k TRAITEMENTS
1 = P (X. ., > X.., X. '11 > X..) - _ 4 . o IV IJ 14J IJ
Les variables aléatoires Xi ] ', X. ., et X. '11 étant indépendantes et
de même loi F 12J 14J continue, les six permutations sont
équiprobables et il yen a deux qui réalisent l'événement ci-dessus.
On en déduit
111 Cov (y.. Zoo) = - - - = o 112' 114 3 4 12
d'où
n. J Cov (U "', U ",,) = o JJ JJ
n., n." J J
12
Le calcul est analogue et le résultat est le même en ce qUI concerne
Co v 0 (U jj" , U j'j" ) . Pour Covo(Ujj', Uj'j"), le calcul est encore
analogue, mais le résultat différent car on aboutit, avec des notations
voisines, à
1 1 1 1 Cov (y. . Z'.. ) = P (X. . < X.., < X. ,") - - = - - - = - - o 1 Ji' 114
0 lIJ IJ 14J 4 6 4 12
puisqu'il n'y a plus qu'une permutation qui réalise l'événement écrit.
On a alors
n. J Cov ( u '" U .,.,, ) = - o JJ' JJ
n., n." J J 12
d'où finalement
n. n., (n. + n., + 1)
V 0 (T) = £.J J J J J + 2 £.J l
j<j'$k 12 l
j<j'<j"
n. n., n." J J J
12
En utilisant la relation
( k J 3 k N 3 = Ln. =L n?+3 L (n
n.,+n.n
)+6 L n.n"n.", j=l J j=l J l
j<j'
kJJJJl
j<j'<j"
kJJJ
239
VI. COMPARAISON DE k TRAITEMENTS
on obtient
Vo(T) =
( N 3 - fn
+ 3 L n. n.. J 36 '= 1 J 1 <' "< k J J J -J<J - =
[ N3 - f n
+ 2. ( N 2 - f n 2 J ] 36 j=1 J 2 j=l J =
( N 2 (2N + 3) - f ( nf (2n j + 3) ) J . 72 J=l
Exercice II.6. Test de Page (1963) 1) On considère le modèle (1.2."
0) et l'on souhaite tester l' hypothèse H " " l ' h hè H " < < " l ' . d 0: III
= ... = Ilk contre ypot se 1: III - ... - Ilk, une au mozns es inégalités
étant stricte. Avec les notations de la section II.2, on définit la
statistique LN par
k LN = -L L ( j - k + 1 ) ( R .j _ N + 1 ) . YN j=l 2 2
a) Montrer que
N+l
1 ( k+l ) 2 lEo(LN) = 0 et V o(LN) = -
- j - - . 12 J=1 n j 2
b) Montrer que, sous l' hypothèse Ho, la loi de LN converge, sous
les mêmes conditions que celles du théorème II.1.5, vers une loi
normale dont on précisera la moyenne et la variance. On utilisera les
résultats de l'exercice II.3 en considérant que LN est une forme
linéaire du vecteur T. c) En déduire que l'on peut adopter la région
(LN
Y Vo(LN) q,-1(1 - a)}
comme région critique pour tester l' hypothèse Ho contre l'
hypothèse Hl au seuil a, approximativement du moins. 2) On
considère maintenant le modèle (1.3."0)' les hypothèses Ho et HI
restant les mêmes. Avec les notations de la section 111.2, on définit
la statistique L'N par
k1_
( . k + 1 ) ( ,n (k + 1» ) LN - £.J J - - R.. - . j=l 2 J 2
240
VI. COMPARAISON DE k TRAITEMENTS
a) Montrer que
k 2 (k 2 - 1) (k + 1) V o(Lt N ) = . 144 b) Montrer que, sous l'
hypothèse Ho, la loi de L'N converge, lorsque n devient infini, vers
une loi normale dont on précisera la moyenne et la variance. Pour
cela, on remarquera que l'on peut écrire L'N sous la/orme
lEo(L'N) = 0
et
n L' N =l
x' ffl £.J ., i=l
où les Xi sont des variables aléatoires indépendantes de même loi
(voir exercice 111.1 ). c) Proposer, en s'inspirant de la question 1.c,
une région critique pour tester l' hypothèse Ho contre l' hypothèse
HI, approximativement au niveau a.
1) a) D'après le théorème TI.l.4, on a
- N+ 1 lEo(R.j) = -, 2
_ (N - n j ) (N + 1) V o(R.j) = 12 n. J
et
- - N+l Covo(R.ï, R.j) = - -. 2
On en déduit immédiatement que lEo(LN) = 0 et que
_1[
( . k+l ) 2 (N-nj)(N+l) N+l
( . k+l )( . k+l )] Vo
)-- £.J J-- -2- £.J 1-- J-- N j=1 2 12 n. 12 l
i<j
k22J
=N+1i
( j _ k + 1 ) 2 _ N + 1 [ i ( j _ k + 1 ) \ 2 L ( i _ k + 1 ) ( j _ k + 1 12 j=1
n. 2 12 N j=l 2 l
i<j
k22J
( j_
) 2_
[ i ( j_
)] 2 12 j= 1 n. 2 12 N j= 1 2 J
= N+l i
( j_ k+l ) 2. 12 j=l n. 2 J
241
VI. COMPARAISON DE k TRAITEMENTS
b) Remarquons d'abord que, sous les conditions du théorème
11.1.5, on a
1 ( k + 1 J 2 lim Vo
)=-£.J- j-- . N
12 j=1 À. 2 J
Désignant par
cette limite, montrons que la loi limite de LN est eN (0,
). Avec les notations de l'exercice II.3, on peut écrire
--L
( . k + 1 J Tj LN = £.J J - - - VN j= 1 2 a. J k = L a' N T J ' , . 1 J J=
où
a jN =
(N - n j ) (N + 1) 12 N n j
Il apparaît donc que LN est une forme linéaire du vecteur T. Puisque
l'on a
lim _ {ÇF - Àj a jN - - N
+oo Àj
et que la loi limite de T est la loi eN k(O, A), on peut dire que la loi
limite de LN est la loi {ÇF -À' eN (0, a'Aa), où a désigne la matrice
unicolonne dont le jèrnc élément est ----1. . À. J On peut vérifier que
l'on a bien cJ2 = a'Aa, mais on peut également dire, plus
simplement, que, puisque la matrice A est la limite de la matrice des
covariances de T (voir exercice TI.3), la variance de la loi limite de
LN est également la limite de V o(L N ).
c) Il en résulte que, pour N suffisamment grand, la fonction de
répartition de la loi de LN est proche de celle de la loi eN (0, V o(LN)
). D'autre part, si l'hypothèse Hl est vraie, c'est-à-dire s'il existe jo(l
jo
k - 1) tel que Jl. < Jl. l' les statistiques I R . j - N + 1 ) ont une valeur
moyenne positive pour Jo Jo + \ 2 j > jo, négative sinon. Les
coefficients affectés à ces statistiques étant croissants avec j et k+l
positifs pour j > -, on est donc amené à adopter une région critique
de la forme 2 {LN
C}. On a alors
242
VI. COMPARAISON DE k TRAITEMENTS
a = P (L > c) = P ( LN > - c )
1 _ <1> ( c ) o N - 0 Y VJLN) - 1 / VJLN) - Y VJLN) ,
d'où
c == y V o(LN) <1)-1 (1 - a).
2) a) D'après le théorème 111.1.2 démontré à l'exercice lll.l, on a
lE ' n (k + 1) o(R .j) = , 2
2 n ( k - 1 ) V o(R' .j) = 12
et
n (k + 1) Covo(R'j, R'.j) = - . 12
On en déduit immédiatement que lEo(L'N) = 0 et que
,_1[
( . k + 1 ) 2 n (k 2 - 1) n (k + 1)
( . k + 1 ) ( . k + 1 )] Vo(L N )-- £.J J-- -2 £.J 1-- J-- n j=1 2 12 12 1
i<j
k22
k+1[
(k+1)2
( k + 1 )( k + 1 )] = - (k - 1) £.J j - - - 2 £.J i - - j - - 12 j=1 2 l
i<j
k22
[ kf ( j_
) 2 _ ( f ( j_
)J 2 ] 12 J= 1 2 J= 1 2
= k (k + 1) f ( j _ k + 1 ) 2 = k (k + 1) [ f / _ k ( k + 1 ) 2 ] 12 j=l 2 12 j=l
2
= k(k+1) ( k(k+l)(2k+l) _ k(k+l)2 J 12 6 4
k 2 (k + 1)2 (k - 1) k 2 (k 2 - 1) (k + 1) = 144 144
n b) En écrivant que R'.j = L R'ij, on obtient i= 1
n RI.. _ n (k + 1) = L ( R 1 ï _ k + 1 ) , J 2 i= 1 J 2
243
VI. COMPARAISON DE k TRAITEMENTS
d'où
L'N =
t(j-
J[
( R'ij -
J] J=l 2 1=1 2
=li [ f ( j-
J( R'ï-
J] -ID i=1 j=l 2 J 2
n =l
X' Vfï £.J 1, i=l
en posant
k Xi = L ( j -
J( R'ï -
J ' j= 1 2 J 2
D'après les résultats de l'exercice 111.1, les vecteurs aléatoires (Rtil,
... , Rtik) sont indépendants et de même loi. Il en est donc de même
des variables aléatoires Xi qui, de plus, sont centrées et admettent
une variance. On a d'ailleurs
V o(LtN) = V o(Xi),
ce qui explique pourquoi la variance de L'N ne dépend pas de n.
D'après le théorème de la limite centrale, la loi limite de L'N est donc
la loi eN (0, V o(L'N».
c) En raisonnant comme on l'a fait à la question l.c, on adopte une
région critique de la forme {LtN
c} et l'on obtient
Y V o(L'N) {J}-I(1 - a).
Exercice II.7 1) Soit X}, ... , X n , Y, Z (n
1) un échantillon d'une loi F continue. On désigne par R et S les
rangs de Y et de Z dans les échantillons respectifs X}, ... , X n , Y et
n
XI, ... , X n , Z. Montrer que la covariance de R et S est égale à
12
On écrira
n R = 1 + L n ]O,+oo[(Y - Xi). i=1
244
VI. COMPARAISON DE k TRAITEMENTS
2) Avec les notations de la section II.3 .a, montrer que
n. n. - 1 J Wl.=
+LS.., J 2 i=l D
où Sij désigne le rang de Xij dans l'échantillon Xu, X2}, ... , X n1 }, Xij
(j #: 1). En déduire que, si j et j' sont deux élément distincts de (2,...,
k), on a
nI Cov o(W Ij, W 1j') = - . 12
1) Posons, pour alléger la notation
Vi = 11 ]Üt+oo[(Y - Xi)
et
Vi = 11 ]Üt+oo[(Z - Xi).
On a
n R = 1 + L Vi i=l
et
n S = 1 + L Vi , i=l
d'où
n n Cov(R, S) = L L Cov(Vi, Vj) i= 1 j= 1 n = L Cov(Vi, Vi) i=l
puisque Vi et Vj sont indépendantes si i #: j. Les variables aléatoires
Vi, Vi et ViVi suivant des lois de Bernoulli, on peut écrire
COV(Vi, Vi) = E(ViVi) - E(Vi) E(Vi) = P(ViVi = 1) - P(Ui = 1) P(Vi = 1)
1 = P(V i = Vi = 1) - - 4 1 = P(Y > Xi, Z > Xi) - -. 4
Les variables aléatoires Xi, Y et Z étant indépendantes et de même
loi F continue, les six pennutations sont équiprobables et deux
d'entre elles réalisent "Y > Xi, Z > Xi",
245
VI. COMPARAISON DE k TRAITEMENTS
d'où
1 1 1 Cov(U., V.) = - - - = - 1 1 3 4 12
et
n Cov(R, S) =-. 12
2) Si l'on désigne par Tij le rang de Xij dans le jème échantillon, on a
R .. - S " + T.. - 1 IJ - IJ IJ '
d'où
nj nj nj
R.. -
S.. +
T.. - n. £.J IJ - £.J IJ £.J IJ J i=1 i=l i=l
n. J n. (n. + 1)
J J = £.J Sij + - nj. i=l 2
On a bien
n. n. 1 J n. -1 1 J W1j = - LRij =
+ - LSij. n. i-1 2 n. i-1 J - J -
On en déduit, avec des notations évidentes,
( n. n" J 1 J J COV o (Wlj, W1j') = - Cov o
Sij'
Si'j' n.n., 1=1 1=1 J J
nj nj' LL
Cov o(Sij, Si'j').
n. n., i=l i'=l J J
n D'après la question 1, toutes ces dernières covariances sont
égales à
, d'où 12
nI Covo(W Ij, Wlj') = -. 12
Exercice II.8. On considère le modèle (1.2.'" 0), l' hypothèse Ho: "J.!I
= ... = J.!k" et les (k - 1) hypothèses H' oj : "
j
1" (2
k). On suppose que
246
VI. COMPARAISON DE k TRAITEMENTS
n2 = ... = nk = n et que [' on utilise le premier test envisagé dans la
section II.3.a (page 231) avec a 2 = ... = a k = a. Montrer, en utilisant
le théorème 111.3.9 chap. IV, que la probabilité de rejeter à tort [' une
au moins des hypothèses H'oj est maximum lorsque Ho est vraie.
D'après la section II.3.a, l'hypothèse Hoj, donc l'hypothèse H'oj à
plus forte raison, est rejetée si W Ij
c, où c est défini par
P o (Wlj
c) = a.
Supposons que l'une, au moins, des hypothèses H'oj soit vraie et,
pour alléger la notation, supposons que les (r - 1) premières
hypothèses H'oj soient vraies et les (k - r) dernières fausses (2
k). On a donc
J.12
J.1}, ..., J.1r
J.11 et J.1r+ 1 > J.11, ... , J.1k > J.11.
On rejettera à tort au moins l'une des (r - 1) premières hypothèses
H'oj s'il existe J (2
r) tel que W 1j
c, autrement dit si Max W l'
c. La probabilité de cet 2
r J événement est une fonction de J.11, J.12, ... , J.1r et nous la
notons sous la forme
P (Max W 1 .
c). Jl1' ... ,Jl r 2 <' < J -J_r
D'après le théorème 111.3.9 chap. IV, cette probabilité est une
fonction croissante de chacun des J.1j (2
r) et elle est donc maximum lorsque J.12 = ... = J.1r = J.11, soit
lorsque 1 'hypothèse Ho est vraie. On remarquera aussi que cette
probabilité est égale à
[ r ] P U {W 1 .
c} Jl1 ' ... ,Jl r j=l J
et qu'elle est donc, lorsque tous les Jlj (1
k) sont fixés, une fonction croissante de r.
Exercice II.9. Justifier les approximations (11.11), (11.12), (11.14) et
(11.17). On utilisera l'inégalité de Bonferroni, à savoir
P (i
l Ai)
P (Ai)'
247
VI. COMPARAISON DE k TRAITEMENTS
sous forme d'approximation, c'est-à-dire en écrivant, pour les
événements Ai que l'on considèrera,
P (i
/i)
P (Ai)'
L'approximation (11.11) consiste à écrire que l'on a
-1 ( a J m(a 1 ,k-l,p) ={J) 1--, k-l
où m(a1, k - 1, p) est le (1 - al) - quantile de la loi du maximum des
composantes d'un vecteur normal (ZI,... ,Zk-1) dont les composantes
sont centrées réduites et admettent deux à deux p pour coefficient
de corrélation. Si nous posons x = m(a1, k - 1, p), nous devons
écrire
P ( max z.
x) = 1 - a , 1
k-1 J 1
( k-l J P n {Z.
x} = 1 - a , '=1 J 1
(k-l J P
l (Zj > x} = al'
(k - 1) P(Zj > x)
al'
al 1 - {J)(x)
-, k - 1
d'où
-1 ( al J x
{J) 1--. k - 1
On peut remarquer que, si l'on écrit l'inégalité de Bonferroni, on
aboutit à
1 ( al J x
<1> 1--, k - 1
ce qui montre que l'approximation obtenue est par excès.
248
VI. COMPARAISON DE k TRAITEMENTS
La relation (ll.12) propose une approximation du nombre c défini par
Po( max ( R .j - R .1
c) ) = a 2
j
k
ou, encore, par
k Po( U { R .j- R .1
C} )=a, j=2
d'où
k L Po( R .j - R .1
c)
a. j=2
Une seconde approximation consiste à remplacer la loi, sous
l'hypothèse Ho, de (R . j - R . 1 ) par la loi eN (0, V o( R .j - R . 1 »,
ce qui est justifié par le fait que l'on peut montrer (voir démonstration
du théorème 11.1.5 ou exercice ll.3) que la loi limite de
R. - R 1 .J .
V ( R . - R 1 ) o.J .
est la loi eN (0, 1).
D'après le théorème II.1.4, on a
-2 - - N + 1 ( N - n j + N - n I + 2 J OJ = Vo(R.j - R.1) =- 12 n j nI
N (N + 1) nI + n j = 12 nI n j
On a donc
P o( R .j - R .l
c) Of 1 - cI> ( ;J '
d'où
t [ 1 - <1> (
)] == a. J-2 cr. J
Une dernière approximation consiste à admettre que les (k - 1)
termes du premier membre sont voisins, ce qui revient à supposer
que les nj sont eux-mêmes proches les uns des autres. On a alors
1 _ <1> (
) == a , a. k - 1 J
249
VI. COMPARAISON DE k TRAITEMENTS
d'où
c == U j cI>'l ( 1 - a J ' k - 1
soit
c:::
N (N + 1) nI + n j -1 ( <1> 1- 12 nI n j
1 J.
C'est l'approximation (11.12).
Les approximations (11.14) et (11.17) consistent à écrire que l'on a
q l-a,k :Ë
,1:: -1 ( a J v2 <1> 1- , k (k - 1)
où q1-a,k désigne le (1 - a) - quantile de la loi de l'étendue d'un
échantillon de taille k de la loi .N (0, 1). D'après la section II.4.a (voir
aussi exercice 11.11), h ql-a,k est le (1 - a) - quantile de la loi du
maximum des valeurs absolues des composantes d'un vecteur 1 Z d
di . k (k - 1) d l ' " d ' " d norma e menSIon ont es composantes sont
centrees re ultes et posse ent 2
certaines corrélations qui n'interviennent pas dans le calcul ci-
dessous. On a alors, en désignant par Zjj' (1
j < j'
k) les composantes du vecteur Z et en posant 1 x = V2 ql-a,k'
P( max 1 Z... 1
x) = 1 - a, 1 <' "< k JJ - J<J -
soit, après un calcul analogue à celui effectué pour justifier
l'approximation (11.11),
a P(I Z.., 1 > x) ::: JJ k (k - 1) / 2 2a 2 P(Z.., > x) ::: , JJ k (k - 1) a
1 - <I>(x) :Ë
k (k - 1)
d'où
-1 ( a J x
cI> 1- k (k _ 1) .
250
VI. COMPARAISON DE k TRAITEMENTS
On a donc bien
q1-a,k :Ë
,,'-;:- -1 ( a J . ,2<1> 1- . k (k - 1)
Remarque. L'approximation proposée pour Cjj' à la remarque 11.4.3
est obtenue de la même façon que l'approximation (11.12).
Exercice II.10. Avec les hypothèses et les notations de la section
II.4.a, calculer la matrice de corrélation, sous l' hypothèse Ho, du
vecteur aléatoire
(W 12, W 13, ... , Wk-l,k).
On utilisera les résultats de l'exercice 115.
D'après la section IV.2.a chap. IV, on a, pour j * j'et puisque les nj
sont tous
égaux à n,
n (n + 1) Vjj' = n Wjj' - 2
d'où, si j * j'et j" * j'",
Corr ( W", W.".", ) = Co rr (V ." V .".,,' ) o JJ' JJ 0 ll' JJ .
On a vu à l'exercice 11.5 que l'on a
3 n . Covo(Vjj', Vjj") =- 12 3 n . Covo(Vjj'" Vj'j") = - 12 3 n . Cov o(Ujj',
Vj'f') = - - 12
si j<j', j <j" et j'*j",
si j < j", j' < j" et j * j',
si j <j' <j",
. Covo(U jj', Uj"j"') = 0
si j, j', j" et j'" sont distincts.
Comme, de plus, on a, pour j * j',
2 n (2n + 1) V o(Vjj') = , 12
251
VI. COMPARAISON DE k TRAITEMENTS
on en déduit
n . Corro(W jj', W jj") = 2n + 1
si j < j', j < j Il et j' * j",
n . Corro(W jj", Wj'j") = 2n + 1
si j < j", j' < j Il et j * j',
n . Corro(W jj', Wj'j") = - 2n + 1
si j < j' < j",
. Corro(W.ij', Wj"j"') = 0
si j, j', j" et j'" sont distincts.
k (k - 1) De plus, bien sûr, la matrice de corrélation, qui est d'ordre ,
a tous les 2
termes de sa diagonale principale égaux à 1.
Exercice II.11. Soit X un vecteur aléatoire de loi .N k(k-l)/2 (0, B) où
B désigne la limite de la matrice de corrélation obtenue à l'exercice
II.10. Montrer que la loi du maximwn des valeurs absolues des
composantes du vecteur X est la même que celle de l'étendue d'un
échantillon YI, ... , y k de la loi .N (0,
). 2
k (k - 1) On cherchera d'abord la loi du vecteur Z de dimension dont
les 2
composantes Zjj' (1
j < j'
k) sont définies par Zjj' = Yj - Yj'.
Le vecteur Z est l'image du vecteur aléatoire gaussien (YI,..., Y k)
par une application linéaire de IR k dans IR k (k-1)/2. Il est donc lui-
même gaussien. Il est centré et nous pouvons déterminer sa matrice
de covariance. On a
V(Zjj') = V(Yj - Yj') = V(Yj) + V(Yj') = 1,
Cov(Zjj', Zj"j"') = Cov(Yj - Yj', Yj" - Yj''')
= Cov(Yj, Yj") - Cov(Yj, Yjlll) - Cov(Yj" Yj") + Cov(Yj" Yj"')'
En tenant compte du fait que les Yj sont des variables aléatoires
indépendantes et de 1 variance égale à -, on obtient immédiatement
2
252
VI. COMPARAISON DE k TRAITEMENTS
1 . COV(Zjj" Zij") = - 2 1 . COV(Zjj", Zj'j") = - 2 1 . COV(Zjj" Zj'j") = - -
2
si j < j', j < j" et j' * j",
si j < j", j' < j" et j * j',
si j < j' < j" ,
. Cov(Zjj" Zj"j''') = 0
si j, j', j" et j'" sont distincts.
En comparant avec les résultats de l'exercice II.10, on voit que les
vecteurs X et Z ont la même loi. Comme, d'autre part, l'étendue de
l'échantillon YI,. .. , y k est égale à
Max IY. - Y.,I = Max 1 Z.., 1, l
j<j'
kJJ1
j<j'
k JJ
elle admet la même loi que le maximum des valeurs absolues des
composantes du vecteur aléatoire X.
Exercice II.12. Trouver un exemple de réalisation de trois
échantillons de taille 3 (k = n = 3) tels qu'il soit possible de conclure
que le deuxième traitement est meilleur que le premier, le troisième
meilleur que le deuxième, mais néanmoins le premier meilleur que le
troisième (voir remarque II.4.1 ).
Il s'agit de trouver les rangs des neuf réalisations lorsqu'elles sont
toutes ordonnées de telle façon qu'il existe un nombre réel c tel que
W12
c,
W23
et
W31 < c.
Nous devons donc, en fait, avoir
W31 < Min(w12, W23).
La solution n'est pas unique et chaque lecteur pourra en trouver une.
Proposons, par exemple, celle où les rangs des réalisations sont 1 ,
2 et 9 pour le premier échantillon, 3, 4 et 5 pour le second, 6 , 7 et 8
pour le troisième. On a alors
3+4+5 4+5+6 1+2+6 W12 = = 4, W23 = = 5 et W31 = = 3.
253
VI. COMPARAISON DE k TRAITEMENTS
Exercice II.13. En utilisant le résultat de l'exemple VII. 3 .2 chap. IV,
justifier l'intervalle de confiance au niveau (1 - a) pour Jlj' - Jlj donné
à la relation //.15.
On a déterminé à la section II.4.a la valeur critique c définie par
Po(max W jj'
c) = a, j*j'
ce qui peut encore s'écrire
Po(max Wjj' < c) = 1 - a, j*j'
soit
(1)
P o( n {W jj' < c} ) = 1 - a. j*j'
D'après le résultat de l'exemple VII.3.2 chap. IV, un intervalle de
confiance de niveau (1 - a) pour Jlj' - Jlj déterminé à partir de la
statistique de Wilcoxon est défini par
[ jj , jj' ]
(k+l)'
2 ' (n - k)
jj' où
(k) désigne la k ème plus petite des différences Xi'j' - Xij (1
n, 1
il
n) et où k est défini par
jj' \:1 Jl <
(k+1)'
t.., (Jl)
C, JJ
jj' \:1 Jl >
(k+ 1)'
t jj , (Jl) < c.
Ces deux conditions peuvent s'écrire
jj' jj' tjj'(
(k+l) + 0) < c
tjj'(
(k+l) - 0),
soit
h' h' tjj'(
(k+l) + 0) < c
tjj'(
(k) + 0).
n+l n+1 La fonction tjj' est décroissante, elle varie de n + - à et elle
fait un saut 2 2 d'amplitude -
en chacun des n 2 points L'1
r On a donc, pour tout h CI
h
n 2 ), n
jj' n + 1 h tjj'(
(h) + 0) = n + 2 -
'
d'où
n+1 k+1 n+l k n +--- <c
n +- --, 2 n 2 n
254
VI. COMPARAISON DE k TRAITEMENTS
soit
2 ( n+l ) 2 ( n+l ) n -n c- 2 -l<k
n -n c- 2 .
En supposant, pour alléger, que nc est un entier, on obtient donc
2 ( n+l ) k=n -n c- 2 '
d'où l'intervalle
[ jj' jj' ]
(n2-n(c- n;l )+ 1)' \n(c- n;l ))
et la relation (1) ci-dessus nous permet d'écrire la relation (11.15), à
savoir
p[.
,!
J ( \ ( n+l ) )
j' -
J ( "j' ( n+l )))] = 1 - a . J=ït J n - n c - - + 1 n c - - 2 2
Exercice 111.1. Démonstration du théorème 111.1.2 Avec les
hypothèses et les notations de la section III, montrer que
lE ' n (k + 1) o (R .j) = , 2
2 n ( k - 1 ) V o(R'.j) = 12
et
n (k + 1) Cov o(R ' .j, R' .j') = - . 2
Rappelon s que l'on a
n R"-
R'" .J - £.J IJ' i= 1
où R'ï J désigne le rang de la jème observation du i ème bloc. Les n
vecteurs aléatoires R'i = (R'il,..., R'ik) (1
n) sont indépendants puisque, dans le modèle (1.4), les n vecteurs
(Xi 1, ... , Xik) le sont. D'autre part, sous l'hypothèse Ho, chacun de
ces n derniers vecteurs étant formé de variables échangeables et
admettant une loi continue, chacun des vecteurs R'i ci-dessus suit la
loi uniforme sur l'ensemble Lk des k! permutations de {l,..., k}. On a
donc (voir exercice 2 chap. 1)
n (k + 1) lEo(R'.J) = £.J lEo(R'ij) = n lEo(R'ïj) = i=1 2
255
VI. COMPARAISON DE k TRAITEMENTS
et
n n n (k 2 _ 1) V o(R'.j) = V o(L R'ij) = L V o(R'ij) = n V o(R'i) = , i=l i=l
12
car, pour j donné, les R'ij (1
n) sont indépendants.
Enfin, si 1
j <j'
k, on a
n n C ov ( R'. R' ., ) = Cov (
R'..
R""' ) o .J,.J 0
IJ'
1 J 1= 1 1 = 1
nn=
? COVo(R'ij, R'i'j') 1= 11 = 1
n = L COVo(R'ij, R'ij'), i=l
car, si i * i', R'ij et R'i'j' sont indépendants. On en déduit, toujours
d'après les résultats de l'exercice 2 chap. 1,
n (k + 1) Cov o(R ' .j, R'.j') = n COVo(R'ij, R'ïj') = - . 2
Exercice 111.2. Démonstration du théorème 111.1.3 1) A l'aide du
théorème de la limite centrale vectoriel (théorème R./II.3.5),
déterminer la loi limite, lorsque n devient infini, k restant fixé, du
vecteur aléatoire U = (U b ... , U k) défini par
\:1 j e {1,...,k } ,
Uj = V k (
\n 1) ( R '.j - k; 1 ).
2) Vérifier que la loi limite obtenue est celle du vecteur aléatoire
z = (Y 1 - Y, ... , Y k - Y),
où YI,..., Y k désigne un échantillon de la loi
(0, 1) et où l'on a posé
_ 1 k Y=-LY.. k j= 1 J
256
VI. COMPARAISON DE k TRAITEMENTS
En déduire que, sous l' hypothèse Ho, la loi de FN converge, pour k
fixé et lorsque n augmente indéfiniment, vers la loi X 2 k _ 1 .
1) On peut écrire
/2!!i; ( n J D.= l2n 2-LR,.._ k+l J k (k + 1) n i=l IJ 2
(l2 f ( R'" -
) /0 J
i=l IJ 2 '
d'où
U=
iSi' /0 J
i=l
en posant Si = ( R' il - k: 1 , ... , R' ik _ k : 1 )-
D'après l'exercice 111.1, les vecteurs aléatoires Si soin
indépendants, de même loi centrée et possédant une matrice des
covariances A. Le théorème de la limite centrale vectoriel (théorème
R.III.3.5) nous permet alors d'affirmer que la loi limite de D, lorsque n
devient infini, est la loi .N k(O, A), où l'on a posé
12 A= A. k (k + 1)
On a, toujours d'après l'exercice 111.1,
12 k - 1 a.. = V (R'..) = - JJ k (k + 1) 0 IJ k
.. . 1 et, SI J ;f. J ,
a.., = JJ
12 k (k + 1)
1 Cov ( R'.. R'.., ) = - - o IJ' IJ . k
2) Le vecteur Z est gaussien car il est l'image par une application
linéaire du vecteur (Y 1, ... , Y k) lui-même gaussien. De plus, il est
centré. Déterminons sa matrice des covariances en remarquant
d'abord que
( k J - 111 Cov(Yj, Y) = Cov Y., - L Yi = - V(y.) = - . J k i=l k J k
257
VI. COMPARAISON DE k TRAITEMENTS
On a
- - V(Yj - Y) = V(Yj) + V(Y) - 2 Cov(Yj, Y) 1 2 k-l =1+---=- k k k
et
_ _ - - 1 Cov(Yj - Y, Yj' - Y) = - 2 Cov(Yj, Y) + V(Y) = - -. k
On vérifie que la matrice A obtenue à la première question est la
matrice des covariances de Z. k Enfin, puisque FN = L U
et que la loi limite du vecteur U est la loi de Z, la . 1 J J= k loi limite
de FN est la loi de L (Yj - y )2, c'est-à-dire la loi X 2 k _ 1 . j=l
Exercice 111.3. Avec les notations de la section III, on pose
T'=
T. £.J l' i=l
où Ti est la statistique de Jonckheere (voir exercice II.5) calculée
pour les observations du i ème bloc. Montrer les relations (111.3) et
(111.4), à savoir
lE n k (k - 1) o (T ') = 4
et
nk(k-l)(2k+5) Vo(T ') = . 72
Nous avons vu à l'exercice III.l que les n vecteurs aléatoires (R'il,...,
R'ïk) (1
i
n) sont indépendants et suivent la même loi. Il s'ensuit qu'il en est de
même pour les n variables aléatoires Ti. On a donc
lEo(T ') = n lEo(Ti)
et
V o(T ') = n V o(Ti).
D'autre part, l'exercice 11.5 nous fournit les valeurs de lEo(Ti) et de
V o(Ti) en faisant nI = ... = nk = 1, d'où N = k, dans les relations qui
donnent lEo(T) et V o(T). On obtient
1 2 k (k - 1) lE (T.) = - (k - k) = , o 1 4 4
258
VI. COMPARAISON DE k TRAITEMENTS
1 2 k (2k 2 + 3k - 5) V (T.) = - (k (2k + 3) - 5k) = o 1 72 72
k (k - 1) (2k + 5) = 72
d'où
lE n k (k - 1) (T ') = o 4
et
nk(k-l)(2k+5) V 0 (T ') = . 72
Exercice 111.4. Avec les notations de la section 111.2, on suppose
que k = 3 et qu'il existe une loi G appartenant à "s et des nombres
réels Si (1
n) tels que
\:lie {l,...,n}, \:1 (XI, X2,x3)e (R3,
3 F(X1, x2, X3) = II G(Xj - Si). j=l
On se propose de calculer lEo(W
2
3)' 1) En utilisant la relation (111.7) chap. V, montrer que l'on a
lEo(
3) = L P o (X h2 - X h1 + X i2 - XiI> 0, X' 3 - X' 1 + X k3 - X k1 > 0). l
< h <'< 1 <'< k < J J - _Ln, -J-_n
Montrer que, pour calculer ces probabilités, on peut supposer que
les variables aléatoires Xij (1
n, 1
3) sont indépendantes et de loi G. 2) En examinant les différentes
possibilités d'égalité des entiers h, i, j et k, montrer que l'on a
lE 0 (
3) =
n (n - 1) (n - 2) (n - 3) + n (n - 1) (n - 2) (
+ A (G) J 16 4 +n(n-l) (
+2B(G) J +
' 12 3
où l' on a posé
A(G) = P(Y 1
Y 2 + y 3 - Y 4, Y 1
Ys + Y 6 - Y 7),
B(G) = P(Y1
Y2, YI
Y3 + Y4 - Ys),
en désignant par YI, ... , y 7 des variables aléatoires indépendantes
de loi G. 3 ) Montrer que l' on a
lim Corro(
2'
3) = 12 A(G) - 3. n ---+-toc
Quel encadrement de A (G) en déduit-on?
259
VI. COMPARAISON DE k TRAITEMENTS
1) La relation (ID.7) chap. V relative à un échantillon de taille n s'écrit
w: =
11 Jo.+oo[(X i + X j ). l
Avec les notations de la section ill.2, on peut donc écrire
W;2 =
11 JO,+oo[( (X h2 - X h1 ) + (X i2 - Xii) ) 1
lSn
et l'on a donc
W;2 W;3 = . L. 11 JO,+oo[(X h2 - X h1 + X i2 - Xii) 11 Jo.+oo[(X j3 - X
j1 + X k3 - X k1 ). l
n. l
En remarquant que, si U et V sont des variables de Bernoulli, il en
est de même de UV et que l'on a alors
IE(UV) = P(UV = 1) = P(U = 1, V = 1),
on en déduit
lE o (W;2 W;3) = L P o(X h2 - X h1 + X i2 - XiI> 0, X j3 - X j1 + X k3 -
X k1 > 0). l
n. l
j
On sait que, dans le modèle (1.4), les n vecteurs aléatoires (XiI, X i
2, Xi3) sont indépendants. En outre, nous supposons ici que, pour
tout i (1
n), la fonction Fi se factorise, ce qui entraîne l'indépendance de Xi}'
Xi2 et Xi3. Nous en déduisons donc que les variables aléatoires Xij
(1
n, 1
3) sont indépendantes. Enfin, on remarque que, pour tout j (1
3), les n variables aléatoires Xij + Si sont de loi G. Puisque l'on a,
par exemple,
Xi2 - XiI = (Xi2 + Si) - (XiI + Si),
les probabilités que nous avons à calculer ne dépendent pas des
nombres Si. En d'autres termes, on peut supposer que tous les Si
sont nuls, ou encore que toutes les variables aléatoires Xij sont de
loi G.
2) Les probabilités que nous avons à calculer prennent des valeurs
différentes selon que les entiers h, i, j et k prennent une, deux, trois
ou quatre valeurs distinctes. Nous devons donc examiner les
différents cas rencontrés et, pour chacun de ces cas, calculer le
nombre de termes concernés et la valeur qu'ils prennent.
260
VI. COMPARAISON DE k TRAITEMENTS
Pour alléger l'écriture, posons
Àh,i,j,k = P o (X h 2 - Xh1 + Xi2 - XiI > 0, X j 3 - Xj1 + Xk3 - Xkl > 0).
1er cas. Les quatre entiers h, i, j et k sont égaux. TI y a n tels termes
et l'on a
À. . . . = P ( X . 2 - X . 1 > 0 X . 3 - X . 1 > 0 ) 1,1,1,1 0 1 1 , 1 1 = P
o( XiI < Xi2, XiI < X i 3).
1 Cette probabilité est égale à - puisque les six permutations
possibles sont 3 équiprobables et qu'il Y en a deux qui réalisent
l'événement considéré. n La somme des termes relatifs à ce premier
cas est donc égale à -. 3
2ème cas. Trois des quatre entiers h, i, j et k sont égaux et le
quatrième est distinct de ceux -ci.
n (n - 1) On peut, par exemple, avoir h < i = j = k. Il Y a tels termes et
l'on a 2
À h . . . = P ( X h 2 - X h1 + X' 2 - X' l > 0 X' 3 - X' l > 0 ) ,1,1,1 0 1 1 ,
1 1 = Po(XiI < Xi3, XiI < Xh2 + Xi2 - Xh1) = B(G).
n (n - 1) , On laisse au lecteur le soin de vérifier qu'il y a encore
termes egaux à 2
B(G) lorsque c'est i, j ou k qui est distinct des trois autres entiers (h =
j = k < i ou j < h = i = k ou h = i = j < k). La somme des termes relatifs
à ce deuxième cas est donc égale à 2n(n-l) B(G).
3ème cas. Deux des entiers h, i, j et k sont égaux, les deux autres
sont égaux entre eux, mais distincts des deux premiers. On peut, en
fait, avoir
h=i*j=k
ou
h = j < i = k.
Pour la première de ces deux hypothèses, il ya n (n - 1) termes et
l'on a
Ài,i,j,j = P o (Xi2 - XiI > 0, Xj3 - Xj1 > 0) 1 2 1 = P o (Xi2 - XiI > 0),P o
(Xj3 - Xj1 > 0) = (-) 2 4
261
VI. COMPARAISON DE k TRAITEMENTS
n (n - 1) Pour la seconde hypothèse, il y a termes et l'on a 2 Àh,i,h,i
= P o (Xh2 - XhI + Xi2 - XiI> 0, Xh3 - XhI + Xi3 - XiI> 0) = Po(XhI +
XiI < Xh2 + Xi2, XhI + XiI < Xh3 + Xi3) 1 = P(ZI < Z2, ZI < Z3) = -, 3
n désignant par ZI, Z2 et Z3 des variables aléatoires indépendantes
de loi G * G.
5 n (n - 1) La somme des termes relatifs à ce troisième cas est donc
égale à 12
4ème cas. Deux des entiers h, i, j et k sont égaux, les deux autres
sont distincts et distincts des deux premiers. Il y a, ici, six
hypothèses à examiner. Nous laissons au lecteur le soin d'entrer
dans les détails et nous nous contentons d'explications sommaires.
n (n - 1) (n - 2) . Si h = i (ou j = k), il y a termes et l'on a 2
Àh,h,j,k = P o (Xh2 - Xhl > 0, Xj3 - Xjl + X k 3 - XkI > 0) = P o (X h1 <
X h 2).P o (XjI + XkI < Xj3 + X k 3) 1 = P o (Xhl < Xh2).P(ZI < Z2) = -.
4
1 On a également Àh,i,j,j = -. 4
. n (n - 1) (n - 2) , . Si h = j (ou i = k), Il y a termes et 1 on a 3
Àh,i,h,k = P o (Xh2 - Xhl + Xi2 - XiI> 0, Xh3 - Xhl + Xk3 - Xkl > 0) = P
o (Xil < Xh2 + Xi2 - XhI, XiI < Xh3 + Xk3 - Xkl) = A(G).
On a également Àh,i,j,i = A(G).
. n(n-l)(n-2) . Si h = k (ou i = j), Il Y a tennes que l'on vérifie aisément
être 6
égaux à A(G).
262
VI. COMPARAISON DE k TRAITEMENTS
La somme des termes relatifs à ce quatrième cas est donc égale à 1
n(n-l)(n-2)(-+A(G». 4
Sème cas. Les quatre nombres h, i , j et k sont distincts. Le nombre
de termes est égal à
2 -2 n (n - 1) (n - 2) (n - 3) C x c:::. 2 = n n- 4
et l'on a
Àh.i,j,k = P o(X h2 - Xh1 + Xi2 - X il > O).P o(Xj3 - Xj1 + Xk3 - Xkl >
0) = ( P o (Xh2 - Xhl + Xi2 - XiI> 0) )2 = ( P o(Xil + Xhl < Xi2 + Xh2)
)2 2 1 = (P(ZI < Z2» =-. 4
La somme des termes relatifs à ce cinquième cas est donc égale à n
(n - 1) (n - 2) (n - 3) 16
On obtient donc bien
lEo(
3) =
n (n - 1) (n - 2) (n - 3) + n (n - 1) (n - 2) ( 2- + A (G) J 16 4 + n (n - 1)
(
+ 2 B (G) J +
. 12 3
Remarque. On peut s'assurer que l'on n'a pas oublié de termes en
vérifiant que le nombre total de termes qui interviennent dans les
différents cas est bien égal au nombre de termes du ( n (n + 1» ) 2 I"
soit à 2 !
3) On a montré, au corollaire 111.2.3 chap. V, que
lE + _ n (n + 1) o(W n ) - 4
et
nJ'f- _ n (n + 1) (2n + 1) V 0 ( vv n) - . 24
Ces résultats sont encore vrais si l'on y remplace w:. par
2 ou
3. En effet,
2' par exemple, n'est autre que la statistique w:. relative à
l'échantillon
(X12 - X ll , ... , Xn2 - X n 1)
263
VI. COMPARAISON DE k TRAITEMENTS
et, d'après le raisonnement effectué à la question 1, il s'agit là, en
fait, d'un échantillon de la loi G * G qui appartient, elle aussi, à "s, On
a donc n 2 (n + 1)2 Covo(
2'
3) = lEo(
3)- 16
2 2 n (n - 1) (n - 2) (n - 3) - n (n + 1) ( 1 J = + n (n - 1) (n - 2) - + A (G)
16 4 + n (n - 1) ( 2.. + 2 B(G» ) +
12 3
3 ( 1 ) 2 = n A(G) - 4" + À n + Jl n .
1 1 Cette covariance est donc équivalente (n
+00) à n 3 (A(G) - -) si A(G) * -. 4 4
Sinon, c'est un infiniment grand d'ordre inférieur à 3. Comme on a
3 j n (n + 1) (20 + 1) n V o(
2) V o(
3) = V o(
2) = f'J 24 n-H-oo 12
on en déduit que Cov o(W;2' W
3) COIT o (W;2' W;3) = j V o (W;2) V o (W;3)
12 ( A(G) - : ).
n-H-oo
soit que
lim COITo(
2'
3) = 12 A(G) - 3. n-H-oo
Comme cette limite doit être un élément de l'intervalle [-1, 1], on en
déduit que l'on a nécessairement
11-
A(G)
-63
pour toute loi G continue et appartenant à "s. En fait, Lehmann
(1964) (voir également Miller (1981), page 162) a montré que l'on a
même
17-
A(G)
- , 4 24
264
VI. COMPARAISON DE k TRAITEMENTS
ce qui fait que
1o
lim Corro(
2'
3)
-. n
+oo 2
On peut montrer assez facilement que, si G est une loi normale, on a
1 1 . fi A(G) = - - - Arcsm = 0.2902. 2 1t 1t
Enfin, si G est une loi de Cauchy, A(G) = 0.2879 et, si G est une loi
uniforme, 733 7 A(G) = - = 0.2909, valeur très proche de - = 0.2917.
2 520 24
Remarque. Ces valeurs numériques nous montrent que
lim Corro(
2'
3) n
+oo
dépend de la loi G, ce qui implique que la statistique proposée en
(111.6) (page 246 du tome 1) a une loi, sous 1 'hypothèse Ho, qui
dépend de la loi des observations.
Exercice 111.5. Avec les définitions et les notations de la section
111.4, on se propose de montrer que, si l'alignement est tel que,
pour tout i e {l,..., n}, il y ait, parmi les réalisations des observations
alignées, au moins une négative et une positive (ce qui est le _ 1 k
cas, en particulier, si l'on a choisi ai = - L X ij ), alors, sous l'
hypothèse Ho, la loi de k j=1
FN conditionnée par n Ai converge, pour k fzxé et lorsque n
augmente indéfiniment, Î=I vers la loi X 2 k-l' On admet, pour cela, le
théorème suivant (Lehmann (1975)) qui est une conséquence du
théorème R./II.3 .8.
Théorème. Pour tout entier n strictement positif, soit X 1n , ... , X nn
une famille de vecteurs aléatoires indépendants de dimension k
donnée et de matrices des covariances respectives AIn, ... , Ann. On
suppose la condition de Lindeberg (voir théorème R.III.3.6) vérifiée
pour chacune des k familles X
n (X
n désignant la jème composante de X in ) et, de plus, que
\:1 U, j') e {l,..., k} 2 ,
lim Corr ( i X{n. i X{
J = PH' . . I . I JJ n
-too 1= 1=
265
VI. COMPARAISON DE k TRAITEMENTS
Alors, la loi du vecteur Y n = (Y
, ... , Y
) défini par
\:Ije {l,...,k},
fx
- E ( fXj J ln ln J . i=l i=l Y n = j
X{n J
converge, lorsque n augmente indéfiniment, vers la loi eN k(O, p), où
p désigne la matrice carrée d'ordre k de terme général Pjj'.
1) Appliquer le théorème ci-dessus en y remplaçant les variables
aléatoires Xin par
n
les rangs Rij (( conditionnés par n At (on pourra préciser ce que l'on
entend par là). i=l
Pour montrer que la condition de Lindeberg est vérifiée, on montrera
que si, pour n donné, ro désigne le rang de la réalisation la plus
proche de 0 aprés alignement, on a
\:lie {l,...,n},
\:1 je {l, ..., k},
........ n 1 V ( R..I nA. ) > - Inf ( r.. - r ) 2 o IJ 1 - IJ 0 i= 1 k l
et l'on en déduira qu'il existe À> 0 tel que
* \:InetN,
\:Ije {l,...,k},
nn
........ 3 £.J V o(Rij 1 n Ai)
À n . i= 1 i= 1
2) En déduire la propriété cherchée en s'inspirant du raisonnement
effectué à la question 2 de l'exercice 111.2.
1) Dire que l'on "remplace" les variables xtn par les rangs
........ Rij "conditionnés par
n Ai ", c'est dire, en fait, que l'on considère, avec les notations du
théorème, que pour i=l tout n e tN *, la loi conjointe des n vecteurs
Xin est la loi conjointe des n
n vecteurs Ri = (Ri1, ... , Rik) conditionnée par n Ai' i=1
Sous 1 'hypothèse Ho, cette loi est, d'après la relation 111.7, celle de
n vecteurs aléatoires indépendants dont chacun suit la loi uniforme
sur l'ensemble des permutations de l'ensemble {ril,..., rik}
correspondant. On a donc
266
VI. COMPARAISON DE k TRAITEMENTS
n lEo(Î
ij 1 n Ai) = ri., i=l
n 1 k - L 2 V ( R.'lnA. ) =- ( r.'-r. ) o IJ 1 IJ 1. i=l k j=l
et, d'après les résultats de l'exercice 2 chap. 1,
n n - - 1- Cov o ( (Rij, Rij') 1 n Ai) = - - V o(Rij 1 n Aï>. i= 1 k - 1 i= 1
* On en déduit que l'on a, pour tout n e tN et pour tout couple (j, j')
d'éléments distincts de {l,..., k},
n n n 1 COIT o [ (L Rij, L Rij') 1 n Ai] = - -, i= 1 i= 1 i= 1 k - 1
1 soit, avec les notations du théorème, poo, = - - 1) k _ 1 . La
matrice p du théorème a donc ses termes diagonaux égaux à 1 et
ses autres 1 termes égaux à --. k - 1
Montrons maintenant que la condition de Lindeberg est vérifiée pour
tout J E {l,... , k}. On remarque que j n'intervient pas ici puisque, pour
i donné, la loi de
Rij conditionnée par n Ai ne dépend pas de j. Posons (voir théorème
R.III.3.6) i=l
nnlnk2
- 2 Bn = £.J V o(Rij 1 n Ai) = - £.J £.J (rij - ri) . i=l i=l k i=l j=l
Soit, pour n donné, ro le rang de la réalisation la plus proche de 0
après alignement. Puisque, pour tout i e {l, ... , n}, il Y a au moins
une réalisation négative et une réalisation positive après alignement,
on peut affrrmer que
\:lie {l,...,n},
3 jo e {l,... , k},
ro e [ri., rij).
On a donc
(rij - ri)2
(rij - ro)2
Inf (rij - ro)2. o 0 l
On en déduit
n - 1 2 V o(Rij 1 n Ai)
Inf (r ï - ro) , i=l k l
kJ
267
VI. COMPARAISON DE k TRAITEMENTS
d'où
2 1 2 Bn > - 1 f ( ) n rij - ro . k l
Or, puisque les entiers fij sont distincts, l'un étant d'ailleurs égal à ro,
le second membre de cette inégalité est minimum lorsque figurent
sous le signe de sommation une fois 0, deux fois }2, deux fois 2 2 ,
... ,enfin une fois (if si n est pair ou deux fois ( 0; 1 r si n est impair.
On laisse au lecteur le soin de vérifier que l'on en déduit l'existence
d'un nombre À strictement positif tel que
. \:1 ne lN,
B
Â. n 3 .
La condition de Lindeberg s'écrit ici
\:1 E > 0,
nn1
-2
- lim 2
lEo[ Rij a ]EBn,+oo[(Rij) 1 .n Ai] = O. n-Hoo B 1=1 1=1 n
On remarque que, pour tout € > 0, on peut déterminer n tel que
\:lie {1,...,n},
\:1 j e {l,..., k}, 11 ]EBn,+oo[(Rij) = O.
Il suffit, pour cela, que k n = Max R ij
E Bn
E V À n 3 , i,j
soit que
k 2 n >- - 2. ÀE
La limite écrite dans la condition de Lindeberg est bien nulle puisque
la suite considérée est nulle à partir d'un certain rang.
Enfin, avec les notations du théorème, on a
yj = n
t Rij - E ( t Rij 1 n Ai ) i=l
i=l 1=1 AÇft Rijl n Ai' 'V V
i=l 1=1}
268
VI. COMPARAISON DE k TRAITEMENTS
-nnR.-
f. .J £.J 1. i=l
,J t V
Rijl n Air i=l 1=1
n ( R . _ fi k + 1 ) .J 2
£ t t (rij - ri.f i=l j=l
La loi limite du vecteur (Y
, ... , y
) est la loi eN k(O, p).
2) On remarque que l'on a, en conditionnant par n Ai ' i=1
- n 2 (k - 1)
( A n k + 1 ) 2 FN = £.J R.j- n k j=l 2 L L (rij - fi.f i=l j=l
k-1
.2
(R - 1 . ) 2 = - £.J (Y
) = £.J - y
. k j=l j=l k
On peut alors achever la démonstration comme on l'a fait à la
question 2 de l'exercice III.2 puisque la loi limite du vecteur VY y n
est la loi du vecteur Z défini dans cet exerCIce.
Exercice 111.6. On se place dans le cadre du modèle (1.4.9) défini
par la relation (111.5) et, avec les notations de la section 111.4, on
suppose que k = 2 et que l'on a choisi, ' l ' . d { 1 } - O . - XiI + Xi 2
pour tout e ement 1 e , ... , n, 1 - . 2
1 ) Montrer que
\:lie {l,...,n},
- - Rit + Ri2 = 2 n + 1
et en déduire la valeur du dénominateur de FN en remarquant
qu'elle dépend de n et non des observations.
269
VI. COMPARAISON DE k TRAITEMENTS
Montrer que
( 2 ) 2 .- Sn n FN = À W - - - - , n n 2 4
où Ân, que l'on déterminera, s'exprime en fonction de n. 2) En
déduire que le test construit à partir de FN est asymptotiquement
équivalent au test bilatéral de rang signé de Wilcoxon.
.- 1) Désignons par X'ïj les observations après alignement (X'ij = X ij
- ai). On a
\:lie {l,...,n},
X'ïl + X'ï2 = 0,
d'où
Ril + Ri2 = 2 n + 1 et Ri. = 2 n + 1 . 2
On en déduit que l'on a, pour tout élément i de {l,..., n},
.-.- .-.- 1 Ri 1 - Ri. 1 = 1 Ri2 - Ri. 1
1 3 et que les n valeurs de cette expression sont -, 2 2
2n-1
Le dénominateur D de
, ... ,
2
.- FN peut donc s'écrire
.- A2 1 22 2 D = 2 £.J (R i1 - Ri) = - (1 + 2 +... + (2n - 1) ) i=1 2
2n n =
[ L i 2 - L (2i)2] 2 i=1 i=1
n (2n + 1) (2n - 1) = 6
On a donc
2 .- 6 n
l A 2 1 ) 2 FN = 2
R.j - n + . 4 n - 1 J=1 2
.- .- Mais, puisque, pour tout i, on a Ril + Ri2 = 2 n + 1, on en déduit
.- .- R. 1 + R.2 = 2 n + 1,
270
VI. COMPARAISON DE k TRAITEMENTS
d'où
I R .l - 2n; 1 1 = 1 R .2 - 2n ; 1 1 =
1 R .2 - R .l l,
soit
- 3n - - 2 FN = 2 (R.2 - R.l) . 4 n - 1
On remarque que l'on a
n n n Sn = L j1]O,+oo[(Xi2 - XiI) = L j1]O,+oo[( X' i2 - X'iI) = L
j1]O,+oo[(Ri2 - Ri}) i=1 i=l i=l
et
nn+
-+ oÇ'I
-+ oÇ'I -- W n = £.J Ri 8 ]O,+oo[(Xi2 - XiI) = £.J Ri 8 ]O,+oo[(Ri2 -
Ril), i= 1 i= 1
où R7 désigne le rang de 1 Xi2 - XiII dans la suite 1 X12 - Xll 1, ... , 1
X n 2 - X n l 1. Ce rang R7 est également celui de 1 X'i2 - X'ï1 1
dans la suite 1 X'12 - X'III, ... , 1 X ' n 2 - X'nl 1. Mais, puisque, pour
tout élément i de {l,..., nI, X'iI et X'ï2 sont opposées, R7 prend la
valeur 1 si et seulement si les réalisations de X'ïl et X'ï2 sont les plus
proches de 0, c'est-à-dire si {Ri1, Ri2} prend la valeur {n, n + l}. Plus
généralement, R7 prend la valeur k si et seulement si (Ril, Ri2}
prend la valeur {n - k + 1, n + k}, d'où
- - -+ 1 R' 2 - R' 1 1 + 1 R . - 1 1 1- 2
On en déduit
n__W+=
1 Ri2 - Ri 1 1 + 1 oÇ'I (R R n £.J 8 ]O,+oo[ - i2 - - il) i=1 2
n1
- - oÇ'I - - 1 = - £.J 1 R i2 - Ril 1 8]O,+oo[(Ri2 - Ril) + - Sn. 2 i= 1 2
271
VI. COMPARAISON DE k TRAITEMENTS
- Enfm, on achève le calcul de FN en écrivant que
nAA1
_ _ R.2 - R.l = - £.J (Ri2 - RH) n i=1
nn1[
- -.;'1 - -
- -.;'1 - - ] = - £.J 1 Ri2 - Ril l a]O,+oo[(Ri2 - Rn) -
1 Ri2 - Rit 1 a]O,+oo[(Ril - Ri2) n i=l i=1
nn1[
- -.;'1 - -
- - .;'1 - - ] = - £.J 1 Ri2 - Rn 1 a ]O,+oo[(Ri2 - Rn) - £.J 1 Ri2 - Rn 1 (
1 - a ]O,+oo[(Ri2 - RH) ) n i=1 i=1
nn2
- -.;'1 - - 1
- - = - £.J 1 Ri2 - Rn 1 a ]O,+oo[(Ri2 - Rn) - - £.J 1 Ri2 - Ri 1 1 n i=l n
i=l
4 ( Sn J 1
- - = - w: - - - - £.J 1 Ri2 - Rn 1 n 2 n i=l
4 ( Sn J I = - w: - - - - ( 1 + 3 + ... + (2n + 1) ), n 2 n
puisque les différentes valeurs prises par 1 Ri2 - Ri! 1, soit par 21 Ri!
- 2n ; 1 1 sont 1, 3, ... , 2n - 1, comme on l'a vu plus haut.
On a donc
A A 4 ( '1"1 r+ Sn J I 2 R.2 - R.l = - W n - - - - n n 2 n
_ Sn _ n2 J n n 2 4
et on en déduit
( 2 ) 2 - 48 Sn n FN = n (4 n 2 _ 1) w: - 2' - 4' .
2) Le test bilatéral de rang signé de Wilcoxon admet une région
critique de la forme (I w: -lEo(W:) 1
c} ou, encore, de la forme
272
VI. COMPARAISON DE k TRAITEMENTS
- Eo(
C ) . j V o(w+;.)
Les valeurs de lEo<w;.) et de V o<w;.) données par le corollaire
111.2.3 chap. V, à
savolT
lE nr+ n(n+l) o(w -) = n 4
et
ur+-. n (n + 1) (2n + 1) V o( YY n) = , 24
sont encore valables ici car nous nous plaçons dans le modèle
(1.4.9) (on peut se reporter au raisonnement effectué à la question 3
de l'exercice 111.4).
On écrit donc
2 FN = 48 (
_ n (n + 1) +
_ Sn ] n(4n 2 -1) 4 4 2
2 48 [
- lEo(w;J n - 2 Sn ] = Vo(
) + n (2n - 1) (2n + 1) . j V o<w;.) 4 j V o<w;.)
2 = 2 (n + 1) [ w+;. - E 0 <w:.> + n - 2 Sn J . 2n + 1 j vo(W:) 4 j
vo<w;.)
Or, puisque 0
Sn
n, on a
-n
n - 2 Sn
n,
d'où
n - 2 S lim n = O. n
4 j V o <w;.)
On a donc, pour n assez grand, 2 - [
- lEo(
) J FN
j V o<w;.)
- - et le test défini par FN et dont la région critique est de la forme
{FN
c'} est bien asymptotiquement équivalent au test bilatéral de rang
signé de Wilcoxon.
273
VI. COMPARAISON DE k TRAITEMENTS
Exercice 111.7. On se place dans le cadre de la section III.l.a dont
on adopte les notations. On suppose que les observations sont
dichotomiques, c'est-à-dire que chaque traitement n'a que deux
issues, le succès ou l'échec. L'observation Xij est supposée prendre
la valeur 1 en cas de succés, la valeur 0 sinon. * 1 ) Montrer que la
statistique de Friedmann FN s'écrit alors
= k (k - 1) ( f À
_ p2 ) , n j=1 J k Lm. p . 1 1 i=1
où mi et Pi désignent respectivement le nombre d'échecs et le
nombre de succés du bloc 1, Aj le nombre de succés du traitement j
et p le nombre total de succés. On a donc
TI k P = LPi = LA.. . 1 . 1 J 1= J=
2) Comparer les quatre traitements suivants pour chacun desquels
on dispose de dix réalisations des observations.
1 2 3 4 5 6 7 8 9 10 1 1 1 1 1 1 1 0 0 0 1 2 1 1 1 1 1 1 1 0 0 1 3 1 1 1
000001041100001000
* 3) On se place dans le cas où k = 2. Montrer que la statistique F 2n
s'exprime en fonction des nombres A et B de blocs respectivement
égaux à (l, 0) et à (0, 1). Préciser la loi de A, conditionnée par A + B,
sous l' hypothèse Ho. Application. Comparer deux à deux les quatre
traitements de l'exemple de la question 2.
1) Avec les notations de la section III.1.a, on a, pour tout (1
n), si = 1 ou Si = 2 et
274
VI. COMPARAISON DE k TRAITEMENTS
S. 1
333
(d ij - d ij ) = (mi - mi) + (Pi - Pi) 1=1 2 2 = (mi + Pi) (mi - mi Pi + Pi -
1)
= k ( (mi + Pi)2 - 3 mi Pi - 1)
= k ( k 2 - 3 mi Pi - 1).
Le dénominateur de F
est donc égal à
k 3 - k - 3 k mi Pi _ 3
1-
3-2
mi Pi' 1=1 n (k - k) n (k - 1) 1=1
* Les rangs moyens R' ij sont définis par
m. + 1 1
* R'..= IJ
2
SI X ij :;:: 0, SI X.. = 1, IJ
Pi + 1 m.+- 1 2
ou encore par
, * mi + 1 mi + Pi k - Pi + 1 k R .. = + x.. = + - x". IJ 2 2 IJ 2 2 IJ
On a donc R ·
j=
f. ( k - Pi + 1 +
xi' J = k + 1 _ E. +
Â.., n i=1 2 2 J 2 2n 2n J
d'où
k2k22[k2)L(R'
j-k+1t=-
L ( Â.. - E. ) =
L Â.
. j=1 2 4 n 2 j=1 J k 4 n 2 j=1 J k
275
VI. COMPARAISON DE k TRAITEMENTS
On en déduit
12 n
( f,).,2 _ p2 ) * k (k + 1) 4 n 2 j= 1 j k F N = , 3 n 2
mi Pi n (k - 1) 1=1
soit
= k (k - 1) ( f).,
_ p2 ) . n j=l J k Lm. p . 1 1 i=l
* 2) Dans le cas de l'exemple proposé, la valeur prise par FN est
égale à 7.846.
* On sait que la loi limite de F N , sous l'hypothèse Ho et lorsque n
devient infini, est la loi X 2 k-l' soit, ici, la loi X 2 3. En admettant
cette approximation justifiée pour n = 10, la table BI du tome 1 nous
donne
* P o(F N
7 .80)
0.0503.
Cette probabilité étant faible, nous reje!ons l'hypothèse Ho et en
concluons que les quatre traitements n'ont pas le même effet. La
question suivante va nous permettre de les comparer deux à deux.
3) Si k = 2, désignons par A, B et C les nombres de blocs
respectivement égaux à (1,0), (0,1) et (1,1). On a alors
n L mi Pi = A + B, AI = A + C, A2 = B + C, i=l
d'où
F* - 2 [ (A + C)2 + (B + C)2 - 2- (A + B + 2C)2], 2n - A + B 2
soit
2 * (A - B) F 2n = . A+B
276
VI. COMPARAISON DE k TRAITEMENTS
Cette statistique est connue sous le nom de "statistique de Mac
Nemar". Elle ne fait intervenir que les nombres de blocs pour
lesquels les deux traitements ont donné des résultats différents, ce
qui ne doit pas nous étonner. De plus, si l'on est amené à rejeter
l'hypothèse Ho, soit si (A - B)2 est relativement grand devant A + B,
on peut affirmer que le premier traitement est plus efficace que le
second si A> B. Enfin, sous 1 'hypothèse Ho, c'est-à-dire si les
traitements ont le même effet, on peut dire que, si A + B est connu,
la loi conditionnelle de A (et également celle de B) est la loi
binomiale :B (A + B, .:.) puisque, dans le cas où les deux traitements
ont eu des effets 2 1 différents, les probabilités d'avoir un bloc (1, 0)
ou (0, 1) sont égales à -. 2
Application. Comparons, par exemple, les deux premiers
traitements. Les valeurs * a et b prises par A et B sont
respectivement égales à 0 et 1 et F 2n prend la valeur 1. Si l'on
admet l'approximation de la loi de F;n' sous l'hypothèse Ho, par la loi
X? 1 qui n'est autre que la loi du carré d'une variable aléatoire X de
loi eN (0, 1), on obtient
Po(F;n
1) :f: P(X 2
1) = P(I X 1
1) = 2 P(X
1) = 2 (1 - 0.841) = 0.318.
D'autre part, si nous comparons les traitements 2 et 3, nous
obtenons a = 5 et b = 1, d'où la valeur 2.67 pour F;n. Nous avons
alors
. P o (F 2n
2.67) :f: 2 P(X
1.634) = 2 (1 - 0.949) = 0.102
et l'on en conclut que ces traitements sont d'efficacité différente, le
second étant meilleur que le troisième. On laisse au lecteur le soin
de vérifier que les traitements 3 et 4 semblent avoir la 1 même
efficacité car F;n prend la valeur -. 3
D'autres comparaisons montreraient que chacun des deux premiers
traitements est plus efficace que chacun des deux derniers, ce qui
est compatible avec les résultats obtenus ci-dessus et avec la
conclusion de la question 2.
277
Chapitre VIT
TESTS D'INDEPENDANCE
MESURES D'ASSOCIATION
Exercice II.1. Montrer que les vecteurs aléatoires (X, Y) définis ci-
dessous ont une loi H qui présente une dépendance positive par
quadrant. 1) Etant donné une variable aléatoire réelle X et une
fonction réelle s croissante sur rR, on pose (X, Y) = ( X, s(X) ). 2) On
pose (X, Y) = (X, X + U) où X et U désignent deux variables
aléatoires réelles indépendantes dont la loi commune est a) la loi 'E
(1), b) la loi U[O, 1]. 3) Etant donné trois variables aléatoires réelles
U, V et W indépendantes et de loi 1(1), on pose (X, Y) = (U + V, U +
W).
On adopte les notations de la section TI.l.b. 1) On a
H (x, y) = P(X
x, Y
y) = P(X
x, s(X)
y)
et l'on remarque que, si s(x)
y, on a
(X
x)
(s(X)
s(x»
(s(X)
y ).
On a donc, dans ce cas,
H (x, y) = P(X
x) = F(x)
F(x) G(y).
Au contraire, si s(x) > y, on a
( X > x)
(s(X)
s(x»
(s(X) > y ),
d'où
( s(X)
y)
(X
x)
279
VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION
et, donc,
H(x, y) = G(y)
F(x) G(y).
La dépendance positive par quadrant de la loi H est établie.
2) a) On suppose que X et U sont de loi '1 (1). On remarque d'abord
que l'on a, presque certainement,
o < X < Y.
Si (x, y) ne satisfait pas la relation 0 < x < y, on vérifie que l'on a
H(x, y) = F(x) = 0 ou H(x, y) = G(y),
d'où
H(x, y)
F(x) G(y).
Supposons que l'on ait 0 < x < y. On a alors
( -X F x) = 1 - e
et, puisque Y suit la loi 1(1) * 1(1), soit la loi r(2, 1),
G(y) = 1 - (y + 1) e- Y .
On a
H(x, y) = P(X
x, X + U
y) = fI e't e'U dt du, D(x,y)
où D(x, y) = { (t, u) ; t
x, t + u
y }. On a donc
X y4 X H(x, y) = f e- t dt f e'u du = f e't (1 - et,y) dt o 0 0
x f ( -t -y ) d 1 -x -y = e -e t= -e -xe. o
On en déduit
H(x, y) - F(x) G(y) = 1 - e- x - xe -Y- (1 - e- x ) (1 - (y + 1) e- Y )
= e -y ( (1 + y) (1 - e- x ) - x ).
280
VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION
Posons
-x q>(y) = (1 + y) (1 - e ) - x.
La fonction q> est une fonction croissante et, pour y = x, on a
q>( x) = (1 + x) (1 - e - x) - x = 1 - (x + 1) e - x = G( x)
O.
La fonction q> est donc positive ou nulle sur [x, +oo[ et cela établit la
dépendance positive par quadrant de la loi H.
b) On suppose maintenant que X et U sont de loi U [0, 1]. On a
alors, presque certainement,
0<X<Y<X+l<2
et, si l'on raisonne comme on l'a fait au a), on voit que l'on peut
limiter l'étude au cas où l'on a
o < x < y < x + 1 < 2.
On a alors F(x) = x et G(y) = P(X + U
y) = f f dx du, L\(y) où
(y) = { (x, u) e [0, 1]2 ; x + u
y }. Un simple calcul d'aire conduit à
{ 2 G(y) = y / 2 1 - (2 - y)2 / 2
si 0
1, . 1 < < 2 SI _ Y - .
De même, on détermine H(x, y) par
H(x, y) = ff dt du, D(x,y)
où D(x, y) = { (t, u) e [0, 1]2 ; t
x, t + u S y }. Là encore, il s'agit d'un simple calcul d'aire qu'on laisse
au lecteur le soin d'expliciter. On obtient
_ { (x / 2) (2 Y - x) H(x, y) - 2 x - (x - y + 1) /2
si y
1, si y
1.
281
VII. TESTS D'INDEPENDANCE. MESURES D' ASSOCIATION
On a donc, si y
1, soit si 0 < x < y
1,
2 x y H(x, y) - F(x) G(y) = - (2y - x) - x - 2 2 x 2 = - (2y - x - y ) 2
et la quantité entre parenthèses est positive car c'est une fonction
décroissante de x qui est
ositive ou nulle pour x = y.
De même, si y
1, soit si 1
Y < x + 1 < 2,
2 (x - y + 1) x 2 H(x, y) - F(x) G(y) = x - - x + - (2 - y) 2 2 1 22 = - ( (2
- y) - (x - y + 1) ) 2
et cette expression est positive car c'est une fonction décroissante
de x sur [y - 1, 1] qUI s'annule pour x = 1. La dépendance positive
par quadrant de la loi H est donc établie.
3) Les variables aléatoires X et Y sont de loi r(2, 1) et l'on peut, ici,
se borner à supposer que x et y sont positifs. Par ailleurs, par raison
de symétrie, on a
\:1 (x, y) e OR +)2,
H(x, y) = H(y, x)
et l'on peut limiter l'étude au cas où 0 < x
y. On a F = G et
F(x) = 1 - (x + 1) e- x .
D'autre part,
H(x, y) = P(U + W
x, V + W
y) ffS - (u+v+w) d d d = e u v w, D(x,y)
où D(x, y) = { (u, v, w) e ([R+)3 ; U + w
x, v + w
y ). On a donc
282
VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION
x H(x, y) = f e- W dw J f e-(u+v) du dv ° [O,x-w] x [O,y-w] x = f e' w (1
- e W - x ) (1 - e W - Y ) dw ° x f ( -w -y -x w-x-y ) d = e -e -e +e w ° 1
-x ( -y -x ) -(x+y) ( X 1) = -e -x e +e +e e - .
On en déduit, après un calcul simple,
H(x, y) - F(x) G(y) = e- Y [ y (1 - (x + 1) e- x ) + 2 - x - (x + 2) e- x ].
L'expression entre crochets est une fonction croissante de y qui,
lorsque y = x, est égale à
<p(x) = 2 - (x 2 + 2x + 2) e- x
et cette dernière expression est positive si x > 0 puisque c'est une
fonction croissante de x (<p'(x) = x 2 e- x ) nulle pour x = O.
L'expression entre crochets est donc positive lorsque o < x
y et la loi H présente bien une dépendance positive par quadrant.
Exercice II.2. Montrer que, si (X, Y) est un vecteur aléatoire réel de
loi continue, les quatre relations écrites à la remarque II.1.2 sont
équivalentes. Ecrire quatre relations équivalentes analogues dans le
cas de la dépendance négative par q undrant.
Désignons par (1), (2), (3) et (4) respectivement les quatre relations
écrites à la remarque II.1.2. Montrons, tout d'abord, que (1) => (2) en
remarquant que la continuité de la loi du vecteur (X, Y) fait que les
probabilités écrites ne sont pas modifiées lorsqu'on y remplace des
inégalités non strictes par des inégalités strictes (ou le contraire).
Supposons la relation (1) vraie. Nous appuyant sur la propriété très
générale
p(AnB') = P(A) - p(AnB),
où BI désigne l'événenlent contraire de B, nous pouvons écrire
283
VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION
P(X
x, Y
y) = P(X
x) - P(X
x, Y < y) = P(X
x) - P(X
x, Y
y)
P(X
x) - P(X
x) P(Y
y)
P(X
x) ( 1 - P(Y
y) )
P(X
x) P(Y > y)
P(X
x) P(Y
y).
Par un calcul très analogue, nous montrerions que (2)
(3), pUIS que (3) => (4) et que (4)
(1). L'équivalence des quatre relations est donc établie. Dans le cas
de la dépendance négative par quadrant, nous pouvons écrire
quatre relations analogues obtenues en changeant les sens des
inégalités entre probabilités. Ces relations sont, bien évidemment,
équivalentes.
Exercice II.3. Démonstration de la relation de Hoeffding Soit (X, Y)
un vecteur aléatoire de loi H dont on désigne par F et G les lois
marginales. On se propose de montrer que, si IE(X), IE(Y) et IE(XY)
existent, on a (relation de Hoeffding) Cov(X, Y) = E(XY) - E(X) E(Y)
= J f (H(x, y) - F(x) G(y) ) dx dy. 1R2
1) Vérifier que, si (Xl, X2) et (Y}, Y 2) sont deux vecteurs
indépendants de loi H,
on a
IE[ (Xl - X2) (YI - Y2)] = 2 ( lE (XY) - IE(X) IE(Y) ).
2) Soient a, b , c et d quatre nombres réels. Calculer J f cI>(a, b, c, d
; u, v) du dv, fR2
où l' on a posé
<I>(a, b, c, d ; u, v) = [
]u,+oo[(a) -
]u,+oo[(b) ] [
]v,+oo[(c) -
]v,+oo[(d) ].
Montrer que l'on a
284
VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION
E[ (Xl - X 2 ) (YI - Y 2 )] = E [f
2<1>(XI' X 2 , YI' Y 2 ; u, V) du dv ] = f f E[ <1>(XI' X 2 , YI' Y 2 ; u,
v)] du dv. (R2 3) En déduire la relation de Hoeffding.
1) On a IE[ (Xl - X2) (YI - Y2)] = IE(XI Y 1 - XI Y 2 - X2 Y 1 + X2Y2) =
IE(XI Y I) -1E(X1) IE(Y2) -1E(X2) IE(YI) + IE(X2 Y 2) = 2 ( IE(XY) -
IE(X) IE(Y) ).
2) L'intégrale double se factorise et l'on a
f (11 [u.+oo[(a) - 11 [u.+oo[(b) ) du = fi{
_ f b du
si a
b,
fdU b
si a
b,
= a - b,
d'où
f f <1>(a, b, c. d ; u, v) du dv = (a - b) (c - d). fi{2
En remplaçant dans cette relation a, b, c et d par Xl, X2, y 1 et Y 2
respectivement, on obtient
E[ (Xl - X 2 ) (YI - Y 2 )] = E [f
2<1>(XI' X 2 , YI' Y 2 ; u, v) du dV] .
D'après le théorème de Fubini, on peut échanger "lE " et le signe
d'intégration si
E [f f IR2 1 <1>( Xl' X 2 , YI' Y 2 ; u, v) 1 du dv ] < + 00.
285
VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION
Or
J f 1 $(a, b, c, d ; u, v) 1 du dv = 1 a - b Il c - d l, 1R2
d'où
E[J
2' $( Xl' X 2 , y l' Y 2 ; U, V) 1 du dv ] = E [ 1 Xl - X 2 Il YI - Y 2 1 ]
et cette espérance est finie car IE(I X 1), IE(I y 1) et IE(I XY 1) le
sont.
On a donc bien la relation demandée.
3) On en déduit 2 Cov (X, Y) = J f E[ $(XI' X 2 , YI' Y 2 ; u, v)] du dv
1R2
et l'on a
IE[ <1>(X}, X2, YI, Y2; u, v)] =IE[
[u,+oo[(X1)
[v,+oo[(YI) -
[u,+oo[(X 1 )
[v,+oo[(Y2) -
[u,+oo[(X2) 11 [v,+oo[(Y 1) + 11 [u,+oo[(X2) 11 [v,+oo[(Y 2) ]
= 2 lE [ 11 [u,+oo[(X) 11 [v,+oo[(Y) ] - 2 lE [ 11 [u,+oo[(X) ] lE [ 11 [v
,+oo[(Y)
Or, on vérifie aisément que
lE [
[u,+oo[(X) ] = 1 - F(u),
lE[l1[v,+oo[(Y)] = I-F(v)
et, de même,q ue
lE [ 11 [u,+oo[(X)
[v,+oo[(Y) ] = P(X
u, Y
v) = H(u, v) - F(u) - G(v) + 1.
On obtient donc
Cov(X, Y) = J f [H(u, v) - F(u) - G(v) + 1 - ( 1 - F (u) ) ( 1 - G (v) )] du
dv 1R2 = J f [H(u, v) - F(u) G(v) ] du dv. 1R2 C'est la relation
demandée.
286
VII. TESTS D'INDEPENDANCE. MESURES D' ASSOCIATION
Exercice II.4. Soit (X, Y) un vecteur aléatoire de loi H telle que H ( [0,
1]2 ) = 1. On suppose que les variables aléatoires X et Y suivent la
loi uniforme sur l'intervalle [0, 1], que la densité de H est constante
sur chacun des six rectangles
1 1 A = ]0, -[ x ]0, -[, 2 3
112 B = ]0, -[ x ]-, -[, 2 3 3
1 2 C = ]0, -[ x ]-, 1 [, 2 3
1 1 D = ]-, 1 [ x ]0, -[, 2 3
1 1 2 E = ]-, 1 [ x ]-, -[, 2 3 3
1 2 F = ]-, 1 [ x ]-, 1 [ 2 3
1 et que H(C) = -. On pose H(A) = a et H(B) = p. 6 Montrer que [' on
peut choisir a et p de telle façon que les trois propositions suivantes
soient vérifiées a) X et Y sont en dépendance positive par quadrant,
b) Y est en dépendance positive par régression sur X, c) X n'est en
dépendance ni positive ni négative par régression sur Y. Quelle
conclusion cette étude peut -elle inspirer?
Puisque la loi de X est uniforme sur [0, 1], on a
1 1 H(A) + H(B) + H(C) = P(O < X < -) =-, 2 2
d'où
1 a + p = -. 3
De même, puisque la loi de Y est unifolme sur [0, 1], on a
1 H(A) + H(D) = H(B) + H(E) = H(C) + H(F) = -, 3
d'où
H(D) = p,
1 H(E) = a et H(F) =-. 6
On en déduit que la loi H admet une densité égale à 6a sur A et E, à
6p sur B et D et à
sur C et F. Le calcul de H(x, y) sur le carré [0, 1]2 se ramène donc à
des 6
calculs d'aires de rectangles qu'on laisse au lecteur le soin
d'expliciter. On obtient, après 1 simplifications et en tenant compte
de a + p =-, 3
287
VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION
· H(x, y) = 6 a x y . H(x, y) = 2 (a -
)x+6
x y . H(x, y) = x y · H(x, y) = 3 (a -
)y+6
x y . H(x, y) = 2 (a -
)+2(
- a) x + 3 (
- a) y + 6 a x y
sur A, sur B, sur C et sur F, sur D, sur E.
a) Cherchons à quelle condition l'on a 2 \:1 (x, y) e [0, 1], H(x, y) - x y
O.
On obtient, en tenant compte de l'égalité
6a-1=1-6
= 3 (a -
),
. H(x, y) - x y = 3 (a -
) x y . H(x, y) - x y = (a -
) x (2 - 3y) . H(x, y) - x y = 0 . H(x, y) - x y = 3 (a -
) y (1 - x) · H(x, y) - x y = (a - (3) (1 - x) (2 - 3y)
sur A, sur B, sur C et sur F, sur D, sur E.
Pour que X et Y soient en dépendance positive par quadrant, il faut
et il suffit que l'on ait a
(3. Le cas a = (3 étant sans intérêt (X et Y sont alors
indépendantes), on 111 supposera désormais que l'on a a >
, soit - < a < - et, donc, 0 <
<-. 636
b) Etudions maintenant la dépendance par régression de Y sur X,
c'est-à- dire cherchons si l'application
P (Y
Y 1 X = x)
est, quel que soit y, une fonction monotone de x sur l'intervalle ]0, 1
[. La densité conditionnelle de Y sachant X = x (x e ]0, 1[) est égale à
h(x, y) puisque la densité de X est égale à 1. On a donc
2 \:I(x,y)e ]0, 1[,
P(Y
y 1 X = x) = rh (x, t) dt o
et l'on peut porter les différentes valeurs de cet
e probabilité dans le tableau 1 suivant. On vérifie aisément que, pour
y donné, cette probabilité est une fonction décroissante de x lorsque
a>
. On a bien une dépendance positive par régression de Y sur X.
288
VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION
c) Le calcul de P(X
x 1 Y = y) étant analogue au précédent puisque x p (X
x 1 Y = y) = f h(t, y) dt, o on porte les différentes valeurs de cette
probabilité dans le tableau II suivant. On constate que, pour x donné,
la probabilité obtenue n'est pas une fonction 1 monotone de y
puisque, par exemple pour 0 < x
-, on a 2
2 \:1 (x, y) e ]0, 1[ ,
6ax>6JJx
et
6 JJ x < x.
1 1 xe] 0, 2[ xe] 2' 1[ 1 Y e [0, 3] 6ay 6JJy 1 2 2 (JJ - a) + 6 a y
ye[3'3] 2 (a - JJ) + 6 JJ y 2 ye [3,1] Y Y
Tableau 1
1 1 xe] 0, 2[ xe] 2' l[ 1 3 (a - JJ) + 6 JJ x y e [0, 3] 6ax 1 2 6JJx 3 (JJ -
a) + 6 a x ye [3' 3] 2 ye [3,1] x x
Tableau II
289
VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION
On peut donc conclure de cette étude qu'une dépendance par
régression d'une variable Y sur une variable X n'implique pas
nécessairement que X soit en dépendance par régression sur Y.
Toutefois (théorème II.1.5 démontré à l'exercice II.5), il suffit que
l'une des deux variables soit en dépendance par régression sur
l'autre pour que les deux variables soient en dépendance de même
signe par quadrant.
Exercice II.5. Démonstration du théorème II.1.5 Soit (X, Y) un
vecteur aléatoire à valeurs dans rR 2 . On considère les trois
propriétés suivantes.
(1) \:1 (x, y) e rR 2 ,
P(X
x, Y
y)
P(X
x) P(Y
y).
(2) \if Y e rR , l'application
x
P(Y
y1X
x)
est décroissante sur (x; P(X
x) > O}. (3) \:1 Y e rR, /'application
P(Y
y 1 X = x)
est décroissante sur /'ensemble sur lequel elle est définie. Montrer
que (3) => (2) => (1) et en déduire la démonstration du théorème
II.1.5 selon lequel/' ensemble j 2 est inclus dans l'ensemble j 1 (voir
les notations de la section 1I.1.c). A-t-on une propriété analogue
concernant les ensembles dl et d2? Indication. Pour démontrer que
(3) => (2), on écrira que x P(X
x, Y
y) = f P(Y
y 1 X = t) dF(t),
où F désigne lafonction de répartition de X et on utilisera le
théorème R.lll.4.2.
On remarque d'abord qu'il est aisé de démontrer que (2) => (1). En
effet, soit x tel que P(X
x) > 0 et soit x' > x. D'après la propriété (2), on a
P(Y
y1X
x)
P(Y
y1X
x').
En faisant tendre x' vers +00, on obtient
P(Y
y) 1 X
x)
P(Y
y),
290
VII. TESTS D'INDEPENDANCE. MESURES D' ASSOCIATION
soit
P(Y
y, X
x)
P(Y
y) P(X
x).
Enfin, la relation (1) est triviale si P(X
x) = 0 car les deux membres de (1) sont alors nuls.
Montrons que (3) =:) (2). Supposons que la propriété (3) est vérifiée
et considérons trois nombres réels x}, X2 et y tels que X2 > Xl et P(X
Xl) > O. Désignant par F la fonction de répartition de X, on a
Xl +00 P(Y
y, X
Xl) f P(Y
y 1 X = t) f P(Y
y1X
Xl) = = dF(t) = <p (t) dF 1 (t), F(x 1 ) -00 F(x 1 ) -00 y
où l'on a posé
<p (t) = P(Y
y 1 X = t) Y
et
F(t) F 1 (t) = 11 ] -00 X [ (t) + 11 [ X +oo [ (t). F(x 1 ) · 1 l'
On remarque que FI est une fonction de répartition et que l'on peut
donc écrire
P(Y
y1X
X l ) = IE F (<p ). 1 Y
On a, de même,
P(Y
Y1X
X 2 ) = IE F2 (<Py)'
avec
F(t) F 2 (t) = 11 ] -00 X [ (t) + 11 [ X +oo [ (t). F(x 2 ) · 2 2.
On vérifie aisément que
\1tE IR,
F1(t)
F 2 (t) (c'est-à-dire F 2 >iFI)
et, puisque <Py est une fonction décroissante sur l'ensemble sur
lequel elle est définie, on a, d'après le théorème R.III.4.2,
IE F1 (<Py)
IE F2 (<Py)'
soit
P(Y
y) 1 X
XI)
P(Y
Y 1 X :5; X 2)'
La propriété (2) est bien vérifiée.
291
VII. TESTS D'INDEPENDANCE. MESURES D' ASSOCIATION
On en déduit que toute loi H sur 1R2 qui appartient à '3 2 , c'est-à-
dire qui vérifie la propriété (3), vérifie également la propriété (1),
c'est-à-dire appartient à :1 1. L'ensemble :1 2 est inclus dans
l'ensemble J'}, c'est l'énoncé du théorème II.1.5. On montrerait de
même, grâce à des inégalités de sens contraire, que l'ensemble 42
est inclus dans l'ensemble 41.
Exercice II.6. Montrer que les vecteurs aléatoires (X, Y) définis ci-
dessous sont tels que y est en dépendance par régression sur X. On
précisera le signe de cette dépendance. 1) On pose Y = a + bX + U,
où X et U sont deux variables aléatoires indépendantes et a et b
deux nombres réels tels que b * O. 2) Le vecteur aléatoire (X, Y) est
gaussien et son coefficient de corrélation r n'est pas nul. 3) Les
variables aléatoires X et Y sont deux composantes distinctes d'un
vecteur (X 1, ... , X r ) de loi multinomiale. 4) Les variables aléatoires
X et Y sont deux composantes distinctes d'un vecteur (Xl, ... , X n )
de loi de Dirichlet. 5) Les variables aléatoires X et Y sont
respectivement les rè me et sème statistiques d'ordre (r < s) d'un
échantillon de taille n d'une loi F qui possède une densité f
strictement positive sur l'intervalle 1 = (x ; 0 < F(x) < 1}. Etudier
également le cas où, toujours avec r < s, X et Y désignent
respectivement les sème et rèm e statistiques d'ordre. (Lehmann
(1966»
1) On remarque que X et Y sont indépendantes si b = O. Sinon, on a
P(Y
y IX = x) = P(a + b X + U
y 1 X = x) = P(a + b x + U
y 1 X = x) = P( a + b x + U
y),
cette dernière égalité étant justifiée par le fait que X et U sont
indépendantes. D'où
P(Y
y 1 X = x) = P(U
y - b x - a) = Fu(Y - b x - a),
où Fu désigne la fonction de répartition de U. Cette dernière
expression est, quel que soit y réel, une fonction décroissante ou
croissante de x selon que b est positif ou négatif. On peut dire que Y
est en dépendance par régression sur X, le signe de cette
dépendance étant celui de b.
292
VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION
2) Désignant par eN (mx,
) et eN (my,
) les lois respectives de X et Y, on sait que, quel que soit x réel, la loi
conditionnelle de Y sachant X = x est la loi eN (my + r (x - mx), (1 -
). On a donc
\:1 (x, y) E 1R2,
[ y - my - r (x - m x ) ] P(Y
y 1 X = x) = <1>
' cr v 1 - r- y
où <1> désigne la fonction de répartition de la loi eN (0, 1). On en
conclut, comme on l'a fait à la question 1, que Y est en dépendance
par régression sur X, le signe de cette dépendance étant celui de r.
On remarque d'ailleurs que la conclusion est la même si l'on
échange X et Y.
3) Supposons que X et Y sont deux composantes distinctes d'un
vecteur (XI, ... , X r ) de loi multinomiale cMr(n; PI, ... , Pr). Ses
différentes composantes Xj jouant des rôles analogues, on peut
supposer que X et Y sont les deux premières. On peut montrer
aisément, à partir de la définition de la loi multinomiale donnée à
l'exercice 5 chap. 1 que X suit la loi $ (n, Pl) et que le vecteur
aléatoire (X, Y, n - X - Y) suit la loi multinomiale cM 3(n ; Pl, P2, 1 -
Pl - P2). On a donc, en désignant par x et y deux éléments de lN tels
que x + y
n,
n! x y n-x-y P [ (X, Y) = (x, y) ] = PI P2 (1 - PI - P2) xl yI (n - x - y)!
et
P(Y = y 1 X = x) = P[ (X, Y) = (x, y) ] P(X = x)
(n - x)! = yI (n - x - y)!
( p J y ( 1 - P - P ) n-x-y
12=C
_x pY (1 _ p)n-x-y, 1 - Pl 1 - PI
P2 en posant p = -. 1 - PI Si 0
n - x, on a
y P(Y
y 1 X = x) = LC
_x
(1 _ p)n-x-j. j=o
On doit chercher si, pour y donné (0
n), cette fonction de l'entier x est monotone lorsque 0
n - y. Pour cela, posons m = n - x et étudions la monotonie de la
fonction <p définie par
293
VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION
\:ImerN,
y,
y <p(m) = LC
pÏ (1 _ p)m -j. j=O
Ona
y <p(m + 1) = L C
+1 J (1 _ p)m+l-j j=O y = L (C
+C
l) J (1 - p)m+1-j (en posant C
1 = 0 si j = 0) j=o y y = L C
pÎ (1 - p)m+1-j + L C
l pÎ (1 _ p)m+l-j j=o j=l y-1 (1 ) ( )
C i i+1 1 ) m-i = -p <pm +£.J m P (-p i=O = (1 - p) <p(m) + p (<p(m) -
C
pY (1 _ p)m-y)
= <p(m) - C
py+l (1 _ p)m-y < <p(m).
Il s'ensuit que la fonction <p est décroissante, donc que <p(n - x) est
une fonction croissante de x lorsque x varie par valeurs entières de 0
à n - y. On en conclut que Y est en dépendance négative par
régression sur X lorsque X et Y sont deux composantes distinctes
quelconques d'un vecteur aléatoire de loi multinomiale.
4) Supposons que X et Y sont deux composantes distinctes d'un
vecteur aléatoire (Xl, ... , X n ) de loi de Dirichlet. On sait (exercice 8
chap. 1) que (X, Y) est alors lui- même de loi de Dirichlet et l'on peut
en déduire aisément que, si 0 < x < 1, la loi y conditionnelle de -
sachant X = x est une loi
de première espèce. Soit
1 (a, b) 1 - x
cette loi. On a donc
P(Y
y 1 X = x) =
y i l - x 1 t a - 1 (1 _ t )b-l dt
(a, b) o
SI 0
1 - x,
1
SI Y
1 - x.
Pour une valeur donnée de y (0 < y < 1), cette probabilité est une
fonction croissante de x lorsque x varie de 0 à 1.
294
VII. TESTS D'INDEPENDANCE. MESURES D' ASSOCIATION
On en conclut que Y est en dépendance négative par régression sur
X lorsque X et Y sont deux composantes distinctes quelconques
d'un vecteur aléatoire de loi de Dirichlet.
5) Supposons que X et Y sont respectivement les rè me et sème
statIStIques d'ordre d'un échantillon de taille n d'une loi F qui
possède une densité strictement positive sur l'intervalle 1 = (x ; 0 <
F(x) < l} et que 1
r<s
n. Désignons par f(r) et f(r,s) respectivement les densités des lois de
X et de (X, Y). On a (exercice III. 1 chap. II)
n! f(r)(x) = (F(x»r-1 (1 - F(x»n-r f(x), (r - l)! (n - r)!
nt f(r s)(x, y) = . (F(x»r-1 (F(y)_F(x»s-r-l (l_F(y»n-s f(x) f(y) 11 iR? (x,
y). , (r-l)! (s-r-1)! (n-s)!
Pour tout élément x de 1, on a f(r)(x) * 0 et la densité conditionnelle
de Y sachant X = x, que nous notons f
1 x' est définie par
t _ f(r,s) (x, y) yi x(y) - = f(r)(x)
(n - r)! (s - r - 1)! (n - s)!
(F(y) - F(x»s-r-1 (1 _ F(y)n-s f(y) 11 00 (y). (1 _ F(x»n-r [X,+ [
(n - r)! 1 On a donc, en posant K = = (s - r - l)! (n - s)!
(s - r, n - s + 1)
y P(Y
y 1 X = x) = f f
1 x(t) dt
-00
SI Y
x,
y K f (F(t) - F(x))s-r-1 (1 - F(t»n-s f(t) dt (1 - F(x) )n-r x
si y > x.
F(t) - F(x) En posant u = dans l'intégrale, on obtient, si y > x, 1 - F(x)
295
VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION
F(y) - F(x) f I - F(x) P(Y
y 1 X = X) = K u s - r - 1 (1 - u)n-s du = G s - r , n-s+1 ( F(Y) - F(X» )
, o 1 - F(x)
où Ga,b désigne la fonction de répartition de la loi 131 (a, b). On doit
étudier, pour y donné, les variations de P(Y
y 1 X = x) losque x varie sur l'intervalle ouvert 1. Plusieurs cas se
présentent, suivant la position de y par rapport à 1.
. Si Y
Inf 1 (ce cas étant sans objet si Inf 1 = -00), on a
\:1 x e 1, x > y,
d'où
P(Y
y 1 X = x) = O.
. Si Y e 1, on a
J ( F(Y) - F(X» ) P(Y
y 1 X = x) = 1 :s.r.n-S+l 1 - F(x)
si Inf 1 < x < y,
si y
Sup I.
. Si Y
Sup 1 (ce cas étant sans objet si Sup 1 = +00), on a
\:1 x e 1, x < y,
d'où
( F(Y) - F(X» ) P (Y
Y 1 X = x) = G s - r ,n-s+1 = 1 1 - F(x)
car F(y) = 1.
Seul le second cas (ye 1) est intéressant et P(Y
y 1 X = x) est alors une fonction décroissante (au sens large) de x
car les fonctions F et G s - r ,n-s+l sont strictement F(y) - t
croissantes sur 1 et ]0, 1 [ respectivement et la fonction
homographique t 1-) 1 - t
est décroissante sur ]0, F(y)[.
Le cas où X et Y désignent respectivement les sème et xè me
statistiques d'ordre (r < s) s'étudie de façon analogue. Laissant au
lecteur le soin d'effectuer les calculs détaillés, contentons-nous de
donner les principaux résultats.
Avec les mêmes notations que ci-dessus, on obtient, si x e 1,
11
(y) = (F(y)l-l (F(x) - F(y»s-r-1 f(y) 11 (y), y 1 x J3(r, s _ r) (F(x»s-l ]-
oo,x]
296
VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION
d'où
P(Y
y 1 X = x) = !
( F(y) ) r,s-r F(x)
. > SI Y - X,
si y < x,
ce qui entraîne que P(Y
y 1 X = x) est une fonction décroissante (au sens large) de x sur I.
On en conclut que Y est en dépendance positive par rapport à X
lorsque X et Y désignent deux statistiques d'ordre distinctes d'un
échantillon d'une loi F dont la densité est strictement positive sur
l'intervalle (x; 0 < F(x)
l}.
Exercice II.7. Démonstration du théorème II.1.7 Etant donné trois
variables aléatoires indépendantes U , V et W de lois respectives F ,
G et K et un nombre réel 'Y, on pose X = U + 'Y W et Y = V + 'Y W.
1) Calculer, en supposant que U , V et W admettent des moments
d'ordre deux, l'espérance mathématique et la matrice des
covariances du vecteur aléatoire (X, Y). 2) Montrer que la loi H du
vecteur aléatoire (X, Y) est définie par H(x, y) = i F(x - 'Y t) G(y - 'Y t)
dK(t). IR 3) Montrer que, si la loi K est continue et si les lois F et G
sont continûment dérivables sur IR et y admettent des densités
bornées notées respectivement f et g, alors la loi H admet une
densité h définie par h(x, y) = i f(x - 'Y t) g(y - 'Y t) dK(t). IR
1) Si U, V et W admettent des espérances mathématiques, on a
lE (X) = lE (U) + 'Y lE (W)
et
lE (Y) = lE (V) + 'Y lE (W).
De même, si U, V et W adrriettent des variances notées
respectivement aD,
et cr w , on a
V(X) = aD + y- a
, V(Y) =
+ y-
Cov(X, Y) = Cov(U + yW, V + yW) = y-
297
VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION
d'où
AU =[
] + i[
].
2) Soit H la loi du vecteur aléatoire (X, Y). On a
H(x, y) = P(X
x, Y
y) = P(U + yW
x, V + y W
y) = f P[ (U +yW
x, V +yW
y) 1 W = t] dK(t). IR
L'indépendance des variables aléatoires U , V et W, donc du vecteur
(U, V) et de la variable W, pennet d'affirmer que la loi de (U, V)
conditionnée par W n'est autre que la loi de (U, V). D'où
H(x, y) = f P(U
x - Y t, V
Y - yt) dK(t) = f F(x - yt) G(y - yt) dK(t). IR IR
2 aH 3) La loi H admet une densité h si la dérivée existe presque
partout sur axay 1R2. De plus, cette dérivée est obtenue en dérivant
sous le signe d'intégration si l'application <p définie par
<p(x, y, t) = F(x - y t) G(y - Y t) 2 aH admet K-presque partout une
dérivée - et s'il existe une fonction 'lf K-intégrable sur ax ay fi{ telle
que, K-presque partout sur IR,
2 a <p - (x, y, t)
'lf(t). ax ay
Les hypothèses faites sur les lois F et Gnous pennettent d'écrire que
a 2 <p \:1 (x, y, t) E 1R3, - (x, y, t) = f(x - 'Y t) g(y - 'Y t) ax ay et,
puisque les fonctions f et g sont bornées, il existe une fonction 'JI
constante, donc K-intégrable qui répond à la question.
298
VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION
Les conditions de dérivation sous le signe d'intégration sont alors
remplies et l'on a
h(x, y) = i f(x - 'Y t) g(y - 'Y t) dK(t). rR
Remarque. Les conditions données ci-dessus sont suffisantes, maIS
non nécessaires. On peut donc en trouver d'autres différentes et,
même, moins restrictives, mais la démonstration relève alors de
techniques d'analyse plus sophistiquées.
Exercice II.8. Dépendance monotone par régression On désigne par
':10 l'ensemble des lois continues sur 1R2. Etant donné une loi H qui
appartient à ':1 0 , on note H(. 1 x) lafonction de répartition de la loi
de Y conditionnée par X = x lorsque cette loi est définie et H- 1 (. 1
x) safonction réciproque, c'est-à-dire la fonction définie pour tout
élément u de ]0, 1 [ par
H- 1 (u 1 x) = inf (y ; H(y 1 x)
u}.
Etant donné deux lois H et Hl qui appartiennent à ':1 0 , on dit que Hl
présente une dépendance par régression de Y sur X supérieure à
celle de H, et l'on note "H <d Hl" si, pour tout couple (u, v)
d'éléments de ]0, l[ et pour tout couple (x, x') de nombres réels
vérifiant x < x' et tels que les expressions écrites ci-dessous aient un
sens, on a
( H- 1 (u 1 x')
H- 1 (v 1 x) )
( Hï 1 (u 1 x')
Hï\v 1 x) ).
On remarque que la relation" <;t" est réflexive et transitive (relation
de préordre).
1) Soient H et Hl deux éléments de ':10' On suppose, de plus, que
les fonctions H(. 1 x) et HI (. 1 x) sont continues et strictement
croissantes pour tout nombre réel x pour lequel elles sont définies.
a) Montrer que l'on a H <d Hl si et seulement si, pour tout élément (y,
y') de IR 2 et pour tout couple (x, x') de nombres réels vérifiant x < x'
et tels que les expressions écrites ci-dessous aient un sens, on a
( H(y 1 x)
H 1 (y' 1 x» =:) (H(y 1 x')
H1(Y' 1 x') ).
b) Application. On suppose que H est la loi d'un couple de variables
aléatoires indépendantes. Montrer que l'on a H <d Hl si et seulement
si Hl présente une
299
VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION
dépendance positive par régression de Y sur X. Enoncer et
démontrer une condition nécessaire et suffisante pour qUi! l'on ait Hl
«i H. 2) Exemple 1. Avec les hypothèses et les notations de
l'exemple 1 de l'exercice II.6, on note Hb la loi de (X, Y). Montrer que
( b < b')
(Hb <d Hb')'
3) Exemple Z. Soient X et U deux variables aléatoires
indépendantes. On suppose que X suit la loi U [0, 1], que la loi de U
est continue et que P(U
0) = O. Pour tout nombre réel a tel que a > -1, on désigne par Ha la
loi du couple ( X, (1 + aX)U). Montrer que
( -1 < a < a')
(Ha «i Ha' ).
4) Exemple 3. Soient F et G deux lois de probabilité sur IR. On
suppose que chacune d'elles admet une densité strictement positive
sur son support. A tout nombre réel CI tel que a < 1, on associe la
fonction définie Ha définie sur IR 2 par
F (x) G (y) H (x, y) = . a 1 - a ( 1 - F (x) ) ( 1 - G (y) )
(Ali et alias (1978».
Vérifier que Ha est une loi continue sur IR 2 qui possède une densité
et montrer que
( -1 < a < a' < 1)
(Ha <d Ha' ).
Pour établir cette dernière propriété, on s'assurera d'abord que l'on
peut utiliser le résultat de la question 1 a. (D'après Yanagimoto et
Okamoto (1969».
1) a) Supposons que H «i Hl et soient x, y et y' trois nombres réels
tels que
H(y 1 x)
Hl(y' 1 x).
Soit x' > x tel que les lois H(. 1 x') et HI (. 1 x') existent. Montrons par
contradiction que
H(y 1 x')
HI (y' 1 x')
et, pour cela, supposons que l'on ait
H(y 1 x') < Hl (y' 1 x').
300
VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION
Si nous posons
u = H1(Y' 1 x')
et
v = H1(y' 1 x),
soit, puisque les fonctions HI(. 1 x) et HI(. 1 x') sont continues et
strictement croissantes,
y' = H
I(u 1 x') = H;l(v 1 x),
nous avons
H(y 1 x)
et
u > H(y 1 x').
Soit, alors, w tel que H(y 1 x') < w < u. Des inégalités précédentes,
nous déduisons, puisque H(. 1 x) et H (. 1 x') sont des fonctions
continues et strictement croissantes,
H- I (v 1 x)
et
y < H-I(w 1 x').
On a donc
H-I(w 1 x')
H- 1 (v 1 x),
d'où
Hï 1 (w 1 x')
Hï 1 (v 1 x),
puisque H <;t Hl, On en déduit
Hïl(v 1 x')
Hïl(w 1 x') < Hïl(u 1 x'),
soit
y'
H;I(w 1 x') < y',
ce qui établit la contradiction cherchée.
La réciproque s'établit de façon analogue et nous allons en donner
une démonstration moins détaillée. Soient donc u, v, x et x' (x < x')
tels que
H- 1 (u 1 x')
H- 1 (v 1 x).
Supposons que l'on ait
Hï 1 (u 1 x') < Hï 1 (v 1 x)
et posons
y = H- 1 (v 1 x)
et
y' = Hil(u 1 x').
On a alors
Y
H-l (u 1 x')
et
y' < Hi 1 (v 1 x),
301
VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION
d'où, en considérant z tel que y' < Z < H
l (v 1 x),
v = H(y 1 x) > Hl (z 1 x),
ce qui implique
H(y 1 x')
HI(Z 1 x')
et, enfin,
u = HI(Y' 1 x') < HI(z 1 x')
H (y 1 x')
u,
relation qui établit la contradiction cherchée.
b) Puisque la loi H est celle de deux variables aléatoires
indépendantes, la loi H(.I x) ne dépend pas de x et n'est autre que la
loi F de X. Si la loi Hl présente une dépendance positive par
régression de Y sur X, la fonction H(y 1.) est, quel que soit y,
décroissante sur son domaine de définition. Sous réserve que les
expressions écrites ci -dessous aient un sens, on a donc, si x < Xl et
si H(y 1 x)
Hl(Y' 1 x),
H(y 1 x') = H(y 1 x)
Hl(Y' 1 x)
Hl(Y' 1 Xl),
soit H «i HI. Réciproquement, supposons H «t Hl et soient x, x' et y
trois nombres réels tels que x < x' et que les lois Hl (. 1 x) et Hl (. 1
x') existent. Si nous supposons que l'on a
Hl(y 1 x) < Hl(y 1 x'),
il existe y' tel que
Hl (y 1 x) < F(y') < HI (y 1 x'),
soit tel que
HI(Y 1 x) < H(y' 1 x) = H(yl 1 Xl) < Hl(y 1 x').
Les deux inégalités strictes écrites ci-dessus sont en contradiction
avec le fait que H <d Hl. On a donc
HI(y 1 x)
HI(Y 1 x'),
ce qui signifie que HI présente une dépendance positive par
régression de Y sur X. On montrerait de même que l'on a Hl <d H si
et seulement si HI présente une dépendance négative par
régression de Y sur X. On remarque que l'on en déduit que l'on a HI
<d H2 si Hl et H2 vérifient les conditions données en tête de la
question 1 et présentent des régressions respectivement négative et
positive de Y sur X.
302
VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION
2) Exemple 1. Nous avons obtenu (exemple 1 de l'exercice II.6)
Hb(Y 1 x) = P(U
y - bx - a) = Fu(y - bx - a),
en désignant par Fu la fonction de répartition de U. Etant donné u (0
< u < 1), on a donc
Hb 1 (u 1 x) = inf {y ; Fu (y - bx - a)
u}, = a + bx + FJ (u).
On a alors
( Hb1(U 1 x')
Hb 1 (v 1 x) )
( b (x' - x) + Fü 1 (u)
Fü 1 (v) )
et, puisque x < x', cette inégalité implique, si b < b ' ,
b ' (x' - x) + FJ(u)
FJ(v)
soit
Hb
(U 1 x')
Hb
(V 1 x).
D'où le résultat demandé, à savoir
( b < b ' ) => (Hb <d Hb')'
3) Exemple 2. Posant Y = (1 + aX)U, on a P(Y > 0) = 1 pUIsque a >
-1 et puisque P(O < X < 1) = P(U > 0) = 1. On a alors, si 0 < x < 1 et
en tenant compte du fait que X et U sont indépendantes,
Ha(Y 1 x) = P( (1 + aX)U
y 1 X = x) = P ( (1 + ax) U
y) ( y J =Fu 1 + ax '
en désignant encore par Fu la fonction de répartition de U. On en tire
(0 < u < 1)
(u 1 x) = (1 + ax) FJ(u).
On a alors
(1) ( H
l(u 1 x')
l(v 1 x)) <=> (a( x'FJ(u) - xF
(v) )
FJ(v) - FJ(u) )
et, sous réserve d'avoir
x 'FJ(u) - xFJ(v) ;? 0,
303
VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION
on en déduit, lorsque a < a',
a '( x'FJ(u) - xFJ(v) )
FJ(v) - FJ(u),
soit
H-
(u 1 x')
H-
(v 1 x). a a
Montrons, pour achever la démonstration, qu'il n'est pas possible
d'avoir
x 'FJ(u) - xFJ(v) < o.
En se souvenant que
\:1 u e ]0, 1[,
(u) > 0,
on aurait alors, puisque x < x', F
(u) < F
(v), d'où a < 0, c'est-à-dire -1 < a < 0, dans la relation (1). Cette
relation peut alors s'écrire
lai ( xF
(v) - x'F
(u) )
FJ(v) - F
(u),
ce qui est impossible puisque la 1< 1 et
xFJ(v) - x'F
(u) = x ( F
(v) - FJ(u) ) + (x - x') FJ(u) < FJ(v) - FJ(u).
On a donc bien montré que
( -1 < a < a ' ) => (Ha <;t Ha' ).
Remarque. La loi Ha présente une dépendance par régression de Y
sur X qui est positive si a > 0 et négative si a < 0, la loi Ho étant celle
d'un couple de variables aléatoires indépendantes. Cette remarque
illustre l'application proposée à la question 1 et une remarque
analogue peut être faite à propos de l'exemple 1.
4) Exemple 3. On remarque d'abord que Ha est bien une loi de
probabilité continue sur IR 2 puisque la fonction Ha est continue,
croissante au sens large relativement à x et à y et qu'elle tend vers 0
lorsque x et y tendent vers -00 et vers 1 lorsque x et y tendent vers
+00. De plus, la loi Ha posséde une densité ha définie par
2 aH a h (x, y) = - (x, y) a ax ay
304
VII. TESTS D'INDEPENDANCE. MESURES D' ASSOCIATION
et, si l'on désigne par f et g les densités respectives des lois F et G
et par <1>a la fonction définie sur [0, 1]2 par
<1> (u, v) = a l-a(l-u)(I-v)
uv
on a
2 d<I» a h (x, y) = - (F(x), G(y) ) f(x) g(y). a dUdV
On suppose désormais que -1 < a < 1. Pour comparer les
dépendances par régression de Y sur X de deux lois Ha, nous
devons d'abord déterminer la loi Ha(. 1 x) dont on sait que la densité
ha(. 1 x) est celle définie, pour tout nombre x tel que f(x) * 0, c'est-à-
dire pour tout élément x du support de F, par
2 h (x, y) d <I» a a h (y 1 x) = = - ( F(x), G(y) ) g(y). a f(x) du av
On a donc
J y [ d<I» ] y H (y 1 x) = h (t 1 x) dt =
( F(x), G(t) ) . a a dU -00
Or
d<1> a V ( 1 - a (1 -v) ) -(u, v) = 2 dU [1 - a (1 - u) (1 - v)]
et l'on a donc
d<1> a H (y 1 x) = - ( F(x), G(y) ). a dU
Nous devons nous assurer que l'on peut appliquer le résultat de la
question la. La fonction Ha(. 1 x) est bien continue et elle est
strictement croissante si la fonction ha(. 1 x) est positive, soit si
2 \:1 (u, v) e ]0, 1 [ ,
2 d<I» a (u, v) > O. dUdV
305
VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION
Un calcul qu'on laisse au lecteur le soin d'effectuer conduit à
2 d <1> a 2 a u v + (1 - a) ( 1 - a (1 - u) (1 - v) ) (u, v) = dUdV
3 [1 - a (1 - u) (1 - v)]
et l'on doit vérifier que le numérateur <Pa (u, v) de cette expression
est positif sur ]0, le. Pour u fixé (u e ]0, ID, <Pa (u, v) est une
fonction affine de v et l'on a
<Pa (u, 0) = (1 - a) ( 1 - a (1 - u) ) > 0, <pa (u, 1) = 2 a u + (1 - a)
et cette dernière expression est positive sur [0, 1] puisque c'est une
fonction affine de u positive pour u = 0 et pour u = 1. D'où
\:I(u,v)e ]0,1[2,
<Pa (u, v) > O.
Enfin, nous devons montrer que, si x et x
sont deux éléments du support de F tels que x < x', y et y' deux
éléments du support de G et si -1 < a < a' < 1, on a
( Ha(Y 1 x)
Ha'(y' 1 x» => (Ha(Y 1 x')
Ha'(y' 1 x') ),
soit que
[ d<1> d<1> J a a' -(u, v)
-(u, v') dU dU
[ d<1> d<1> J a a' -(u ' , v)
- (u ' , v') dU dU
si U, u ' , v et v' sont quatre éléments de ]0, 1 [ tels que u < u ' . On
remarque que les lois F et G n'interviennent plus et que l'on s'est, en
fait, ramené à la loi du couple (U, V) défini par U = F (X) et V = G
(Y). Cette loi admet <1>a pour fonction de répartition et ses deux lois
marginales sont U[O, 1]. On laisse au lecteur le soin de vérifier que
l'on est ramené à montrer que
( 'If(u)
A)
( 'If(u ' )
A ),
où l'on a posé
1 - a' (1 - u) (1 - v') 'If (u) = 1 - a (1 - u) (1 - v)
et
A=
v' ( 1 - a' (1 -v') ) v ( 1 - a (1 - v) )
306
VII. TESTS D'INDEPENDANCE.
JESURES D' ASSOCIATION
La propriété est vérifiée si la fonction homographique '1' qui est
définie et continue sur [0, 1] est croissante. Or sa dérivée, on le
vérifie aisément, est du signe de
a' (1 - v') - a (1 - v).
Il nous faut donc examiner le cas où la fonction 'l'est strictement
décroissante sur [0, 1], c'est-à-dire le cas où
a' (1 - v') < a (1 - v).
Nous montrerons que l'on a alors . soit '1'(0) < A, donc l'inégalité
'''l'(u)
A" impossible, . soit '1'(1)
A, donc l'inégalité '''l'(u')
A" réalisée.
On remarque que '11(1) = 1 et que A = J -; '11(0) . ce qui fait que
v' ( 'Jf(0) < A) <=> ( '1'(0) < - ) v
et
v ( '1'(1)
A) <=> ( '1'(0)
- ). 1 V
Etudions séparément les cas "a' > 0" et "a' < 0" en remarquant que
l'on ne peut avoir a' = 0 puisque l'on aurait alors a (1 - v) > 0, ce qui
contredit l'hypothèse a < a'.
1er cas. a' > O. On a alors
a 1 - v' < - (1 - v), a'
. , SOit v > V o avec
a V o = 1 - - (1 - v). a'
Montrons que '1'(0) < A, soit que
1 - a'(1 - v') v <- , 1 - a (1 - v) v
ce qui revient à montrer que la fonction a définie par
a (v') = v' ( 1 - a (1 - v) ) - v ( 1 - a' (1 -v') )
est strictement positive sur l'intervalle ]v o , 1 [. C'est une fonction
affine et l'on a
307
VII. TESTS D'INDEPENDANCE. MESURES D' ASSOCIATION
a (1) = 1 - a (1 - v) - v = (1 - a) (1 - v) > 0
et
a (va) = Va ( 1 - a (1 - v) ) - v ( 1 - a' (1 - va) )
= (va - v) - a Va (1 - v) + a' v (1 - va) a = (va - v) - a Va (1 - v) + a' v -
(1 - v) a'
= (va - v) - a Va (1 - v) + a v (1 - v)
= (va - v) ( 1 - a (1 - v) ) a = ( 1 - v - - (1 - v) ) ( 1 - a (1 - v) ) a'
a = ( 1 - - ) (1 - v) ( 1 - a (1 - v) ) a'
a et cette expression est strictement positive car a < a' et a' > 0,
donc - <1. a'
On a donc bien 'V{O) < A.
2ème cas. a' < 0, donc -1 < a < a'. On a alors a 1 - v' > - (1 - v), a'
soit v' < Va. Montrons que, dans ce cas, on a 'Jf(I)
A, soit
1 - a' (1 - v') v
- 1 - a (1 - v) v'
ce qui revient à montrer que la fonction b définie par
b (v') = v'( 1 - a' (1 - v') ) - v ( 1 - a (1 - v) )
est négative ou nulle sur l'intervalle ]0, var. C'est une fonction
polynomiale du second degré et, si nous remarquons que
b(O) = - v ( 1 - a (1 - v) ) < 0
et
b(I)= I-v( l-a( I-v» = (1 - a) (1 - v) > 0,
308
VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION
il nous suffit de montrer que b(v o )
0 pour être assurés du résultat puisque l'équation b(v ' ) = 0 ne peut
admettre qu'une seule racine sur l'intervalle ]0, 1[. Un calcul
analogue à celui effectué dans le premier cas conduit à
a b(v o ) = ( 1 - -) (1 - v) ( 1 - a (1 - v) ) a'
a et cette expression est strictement négative car a < a' < 0, donc - >
1. a'
La propriété demandée est donc établie.
Remarque. On remarque, ici encore, que la loi Ho est celle d'un
couple de variables aléatoires indépendantes. Nous en déduisons,
grâce au résultat de la question 1 b, que la loi Ha présente une
dépendance par régression de Y sur X qui est positive si a > 0 et
négative si a < 0, propriété que nous pouvons vérifier directement à
partir de l'expression de lfa(y 1 x).
Exercice 111.1. Démonstration du théorème 111.2.3 En utilisant les
résultats du théorème 111.1.1, montrer que, sous l' hypothèse Ho, la
( n n n ) statistique n Qn suit la loi hypergéométrique symétrique 'ae
-; -, - lorsque n est 2 2 2 ( n - 1 n - 1 n + 1 ) pair et la loi
hypergéométrique 'ire -; -, - lorsque n est impair (voir exercice 222 4
chap. 1 pour la notation et les propriétés de cette loi). En déduire,
toujours sous l' hypothèse Ho, l'espérance mathématique et la
variance de la statistique n
D'après la relation (111.2), on a
( n+l ) ( n+l ) n Qn = 6 11. ]0._[ i - 2 11. ]0._[ R[i] - 2
et le théorème 111.1.1 nous apprend q
e, sous 1 'hypothèse Ho, la loi du vecteur (RU]' ... , R[n]) est la loi
uniforme sur l'ensemble Ln des permutations de {l,..., n}.
n Supposons, par exemple, que n est pair et posons m = -. La
statistique n Qn 2
peut prendre les valeurs {O,..., m} et, pour que l'on ait n Qn = k, il
faut et il suffit que, parmi les m rangs R[m+l], ... , R[n], il Y en ait k
qui soient strictement supérieurs à m et
309
VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION
m - k inférieurs ou égaux à m. Or la loi de l'ensemble {R[m+l],"', R[n]}
est la loi uniforme sur l' ensem ble des parties à m éléments de { 1,
... , n}. On reconnaît la génération de la loi hypergéométrique et l'on
peut donc en conclure que n Qn suit la loi -ae (m ; m, m), soit la loi -
ae (
J . On a 2 2 2
n \:1 k e {O,..., -}, 2
-k m m P(n Q = k) = = n Cm n
(m!)4 2 2 ' n! (k!) «m - k)! )
n lE (n Q ) = - o n 4
4m
2n
et
Vo(n Qn) = 2 n (n - 1)
16 (n - 1)
On remarque que cette loi est symétrique puisque
n P(n Qn = k) = P(n Qn = - - k). 2
En raisonnant de façon analogue, on montre que, si n est impair et si
l'on pose n - 1 ( n - 1 n - 1 n + 1 ) m = -, la loi de n Qn est la loi -
ae(m; m, m + 1), soit la loi -ae -; -, - 2 222
On a donc
{ n - 1 } \:1 k e 0,. .. , 2 '
-k P(n Q = k) = m m+ 1 = n
n
(m!)2 ( (m + l)! )2 n! k! (k + l)! ( (m - k)! ) 2 '
2 2 m (n - 1) lEo(n Qn) = - = n 4n
et
m 2 (m + 1)2 Vo(n Qn) = 2 n (n - 1)
2 (n - 1) (n + 1) 16 n 2
Exercice 111.2. Démonstration des formules (III.7a) et (III.7b) A vec
les notations de la section 111.3 .b, montrer que, si l'échantillon Xl,'" ,
X n présente h groupes d'observations égales d'effectifs respectifs
dl, ... , dh et si l'échantillon YI, ... , y n présente k groupes
d'observations égales d'effectifs respectifs f1,...,fk,ona
nn
S
= n + 1 £.J 1 £.J 1 ' n i=1 n i=l 2
i(s
_ n + 1 ) 2 = n i=l 2
et
i(R
_ n + 1 ) 2 = n i=l 2
2 n -1-v
2 n -1-u
12
12
310
VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION
où l'on a posé
1 h 3 u=-L(d. - d. ) 1 1 n i=l
et
1kv=-L(
- fi). n i=l
D'après les calculs effectués à l'exercice IV.3 chap. IV, on sait que
l'on a
nnn
L S; =
L
=
L j = n + 1 , n i=l n i=l n j=l 2
et, par exemple,
n2n2kd3d2
L ( S;_ n+l ) =
L ( j_ n+l ) _
L i- i = n-l-u , n i=l 2 n j=l 2 n i=l 12 12
n 2 - 1 puisque - est la variance de la loi unifonne sur {l,..., n}. 12
. On a, bien sûr, une relation analogue concernant Ri' On en déduit
aisément la relation qui définit le coefficient p
Exercice 111.3. Démonstration du théorème 111.4.13 Soit (Un)
2 une suite de variables aléatoires indépendantes. On suppose que
la loi de Un est la loi uniforme sur l'ensemble An = {-n + 1, -n + 3, ... ,
n - 3, n - 1}. Pour tout entier n supérieur ou égal à 2, on pose V n =
U2 + ... + Un. Déterminer le support Bn de la loi de V n et montrer
que, si l'on pose Pn(s) = P(V n = s), on a
1 P2(-I) = p2(1) =-, 2
\:1 n
2, \:1 s e Bn+h
n Pn+1(S) = 1 L Pn(s + n - 2 k). n + 1 k=O
Calculer l'espérance mathématique et la variance de V n'
On peut écrire An = {-n + 1 + 2k ; 0
n - 1} et l'on remarque que Card An = n. Ona
B2 = A2 = {-l, 1}, B3={s+t;se A2,te A3}={-3,-I,I,3}=A4.
311
VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION
En remarquant que les éléments de Bn sont des entiers de
l'intervalle n(n-l) n(n-l) [ - , ], on peut effectuer une récurrence en
supposant que 2 2
_ { n (n - 1) '. <. < n (n - 1) } Bn - - + 2 J , 0 - J - . 2 2
On a alors
B n +l = {s + t ; S e Bn, t e A n +1}
{ n (n - 1) n (n - 1) } = - -n+2j+2k;0
,O
n 2 2 { n ( n + 1 ) n ( n + 1 ) } = - + 2 (j + k) ; 0
j+k
.22
L'hypothèse de récurrence est vérifiée à l'ordre (n + 1), ce qui
achève la démonstration. On remarque que
Bn = Am,
n (n - 1) avec m = + 1. 2
Puisque V2 = U2, on a évidemment
1 \:1 s e {-l, 1}, P2 (s) = -. 2
Soit n
2. On a
\:1 s e B n + b Pn+1 (s) = P(V n+1 = s)
= P(V n + U n + 1 = s)
n = L P(Un+ 1 = -n + 2 k, V n = s + n - 2 k) k=O
n = L P(U n +1 = -n + 2 k) P(V n = s + n - 2 k) k=O
=
n 1 L Pn( s + n - 2 k), n + 1 k=O
en utilisant le fait que U n +1 et V n sont indépendantes et que la loi
de U n +l est uniforme sur A n + 1 dont le cardinal est égal à n + 1.
312
VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION
La loi de Un étant symétrique par rapport à l'origine, on a lE (U n) =
0, d'où lE (V n ) =0. Enfm
n Var(V n ) = L Var(Uk) k=2
Un + n - 1 et, en remarquant que suit la loi unifonne sur {l,..., n} dont
la variance est
2n-1
(voir exercice 2 chap. 1), on a
12
2 2 n - 1 n - 1 Var(U n ) = 4 - = -, 12 3
d'où
1 n 2 1 n 2 Var(Vn)=-L(k -1)=-L(k -1) 3 k=2 3 k=l
( i k2 _ n J = n (n - 1) (2 n + 5) . 3 k=l 18
Exercice 111.4 1) On se propose de montrer la relation liant pn, 't n
et 't2,n donnée à la section 111.6, à savoir
3 3 (n - 2) P n = 't + 't 2 . n + 1 n n + l ,n
On rappelle que
't = 2,n
C 2 - D 2 n (n - 1) (n - 2)
OÙ C 2 et D 2 désignent les nombres de triplets de couples (Xi, Yi)
distincts qui sont respectivement en concordance et en discordance
d'ordre 2. En déduire que /' on a
't = 2,n
- 1. n (n - 1) (n - 2)
2C2
Montrer que [' on peut écrire C2 sous [aforme
C 2 = L L 11 rR +(R[k] - R[i]) + L L 11 rR +(R[i] - R[k])' l
i<j
n kE J. . l
j<i
n kE J. . IJ IJ
313
VII. TESTS D'INDEPENDANCE. MESURES D' ASSOCIATION
où l'on a posé Iij = {l, ... , n} - {i, j } .
Montrer que l'on a
L 11 IR+(R[k] - R[i]) = 0 - 1 - R[i] -11 IR+(R[j] - R[i]) kEJ. . I,J
et exprimer, de même, L 11 IR+(R[i] - R[k]) en jonction de R[i] et de
11 IR+(R[j] - R[i]J. kE J. . 1,J En déduire, grâce aux relations (111.4)
et (111.8), que C 2 s'exprime en fonction de Pn et de 'en et établir la
relation cherchée. 2) Montrer les relations concernant 1E('t2,n) et
lE(pJ données à la fin de la section
111.6.
1) Soit A l'ensemble des triplets (i,j,k) d'éléments distincts de {1,...,n}.
On a
C 2 + D 2 = Card A = n (n - 1) (n - 2),
donc
C 2 - D 2 = 2 C 2 - (C 2 + D 2 ) = 2 C 2 - n (n - 1) (n - 2),
d'où l'on tire
2C2
't = 2,n
- 1. n (n - 1) (0 - 2)
On a
C 2 = L 11 IR+[(Xi - X j ) (Yi - Y 0] (i,j,k)E A
= L 11 IR +[(X(i) - X(j» (Y ri] - Y [k»] (i,j,k)E A
= L l1 IR +[(i - j) (R[i] - R[k»]. (i,j,k)E A
En séparant les tennes pour lesquels i < j et ceux pour lesquels i > j,
on obtient
C 2 = L L 11 IR +(R[k] - R[i]) + L L 11(R +(R[i] - R[k]). l
i<j
n kE J. . l
j<i
n kE J. . IJ IJ
Remarque. On peut montrer que les deux termes de cette somme
sont égaux, ce qui fait que les définitions de 't2,n diffèrent d'un
auteur à l'autre.
314
VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION
Reprenons le calcul. On a
{ n-l- R o £.J 8 rR +(R[k] - R[i]) = [1] kE Jo. n - R [ o ] I,J 1
si R[i] < R[j]' si R[i] > R[j]'
puisque cette expression est égale au nombre d'éléments de (l,..., n)
qui sont différents de R[j] et strictement supérieurs à R[i]. On peut
écrire
L 11 rR +(R[k] - R[i]) = n - 1 - R[i] + 11 rR +(R[i] - R[j]) kE Jo. I,J
et, de même, on montre aisément que l'on a
L 11 rR +(R[i] - R[k]) = R[i] - 2 + 11 rR +(R[j] - R[i]). kE J. . I,J
On en tire
C 2 = L [n - 1 - R[i] + 11 rR+(R[i] - R[j])] + L [R[i] - 2 + 11 rR+(R[j] -
R[i])]. l
i<j
nl
j<i
n
n (n + 1) En remarquant qu'il y a termes qans chaque somme et que
2
L 11 rR +(R[i] - R[j]) = L 11 rR +(R[j] - R[i]), l
i<j
nl
j<i
on obtient
n (n - 1)
C 2 = (n - 3) + 2 £.J 11 rR+(R[i] - Rm) - £.J R[i] + £.J R[i]. 2 l
i<j
nl
i<j
nl
j<i
n
Enfin, on a
n L R[i] = L (n - i) R[i] = L (n - i) R[i] l
i<j
nl
i<n i=l
et
n L R[i] = L (i - 1) R[i] = L (i - 1) R[i], l
j<i
n 1<i
n i=l
d'où
n n (n - 1) (n - 3)
C 2 = + 2 £.J 11 rR+(R[i] - R[j]) + £.J (2 i - (n + 1) ) R[i]' 2 1
i<j
n i= 1
315
VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION
D'après les relations (111.4) et (111.8), on a
nn
( . n + 1 ) n (n + 1) (n - 1)
( 2 1 - (n + 1) ) R[i] = 2
1 - - R[i] = P n 1= 1 1= 1 2 6
et
n(n-l) 2 £.J 11 IR +(R[i] - R[j]) = (1 - 't n ), l
i<j
n2
d'où
n (n - 1) (n - 3) n ( n - 1 ) n (n + 1) (n - 1) C 2 = + (1 - 't ) + P 2 2 n 6 n
n (n - 1) (n - 2) n (n - 1) - 't + 2 2 n
n (n + 1) (n - 1) Pn 6
et
2 C 2 't n n + 1 't = -1=--+ P 2 n n' , n (n - 1) (n - 2) n - 2 3 (n - 2)
d'où l'on tire la relation cherchée, soit
3 3 (n - 2) P = 't + 't 2 . n n + 1 n n + l ,n
2) En raisonnant comme on l'a fait au théorème 111.4.10 pour
trouver lE ('t n ), on obtient
2 lE ('t 2 ) = lE (C 2 ) - 1. ,n n (n - 1) (n - 2)
Or
C 2 = L 11 fR+[(Xi - X j ) (Yi - Yk)], (i,j,k)E A
d'où
IE(C 2 ) = L P[(Xi - Xj) (Yi - Yk) > 0] (i.j,k)E A
= (Card A) P[(X1 - X2) (YI - Y 3) > 0],
puisque tous les termes de la somme sont égaux. On en tire
1E('t2.n) = 2 P[(X 1 - X2) (YI - Y3) > 0] - 1,
316
VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION
pUIS
lE (Pn) =
[2 P[(X1 - X2) (YI - Y2) > 0] - 1 + (n - 2) [2 P[(XI - X2) (YI - Y3) > 0] -
1]].
n+l
On retrouve lEo(pJ = 0 puisque les deux probabilités écrites ci-
dessus sont égales à
sous 1 'hypothèse Ho. 2
Exercice 111.5. Monotonie d'une statistique de rang On désigne par
1:n /' ensemble des permutations de {l,..., n}. A tout élement a de
1:n, on associe l'ensemble A( a) défini par
A(a) = {( a(i), aU»; i <j, a(i) < aU)}.
1) Etant donné deux éléments a et a' de
n' on dit que a est mieux ordonnée que a' et l'on note "a' <0 a" si A(
a') c A( a). Montrer que la relation "<0" est une relation d'ordre. Pour
cela, on montrera que, si A(a) = A(a'), on a alors a- 1 (1) = a , - 1 (1),
puis a- 1 (2) = a , - 1 (2), et ainsi de suite. 2) Soient a et a' deux
élements distincts de Ln tels que a' <0 a. On pose
j = min (i; a(i) * a'(i)}.
Remarquant que
(aU), aU + 1), ..., a(n)} = (a'U), a'U + 1), ..., a'(n)},
on considère l'entier k (k > j) tel que a(k) = a'G). Montrer, en
considérant l'entier h (h > j) tel que a'(h) = aU), que aU) < a'U).
Montrer, de même, que a(k - 1) < a(k) et en déduire que, si t désigne
l'élément de Ln qui échange a(k - 1) et a(k) en laissant les autres
éléments de {l,..., n} invariants, on a, en posant al = t 0 a,
A(a1) = A(a) - {( a(k - 1), a(k»}
et
a' <0 al.
Déduire des résultats précédents qu'il existe des éléments a o , a},
... , a p de Ln tels que
1 a = a p <0 a p -1 <0 ... <0 al <0 a o = a
317
VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION
et que
\:lie {l,...,p},
ai = ti 0 ai-l,
où ti est une permutation qui échange deux éléments de la forme ai-l
(k - 1), ai-l (k) en laissant invariants les autres éléments de {l,..., n}.
3) Soit T une statistique de rang pour Un échantillon d'une loi
continue sur IR 2, c'est-à-dire, en reprenant les notations du
paragraphe III, une statistique définie par
T = <I>(R[1], ... , R[n])'
On dit que la statistique T est croissante si, étant donné deux
éléments a et a' de Ln, on a
( a' <0 a)
(<I>( 0',-1(1), ... , a,-I(n) )
<1>( 0'-1(1), ... , a- 1 (n) ) ).
Montrer que les statistiques de Kendall, de Spearmann et du
quadrant sont croissantes. Pour ces deux dernières, on utilisera le
résultat de la question 2. (D'après Yanagimoto et Okamoto (1969».
1) La relation "<0" est évidemment réflexive et transitive. Il reste à
montrer que, si a' <0 a et a <0 a', c'est-à-dire si A(a) = A(a ' ), on a a
= a'. On remarque que
( ( 1, aU) ) e A (a» <=> (0'-1(1) <j )
et, par conséquent, que le nombre d'éléments de {l,..., n} strictement
supérieurs à a- 1 (1) est égal au nombre p d'éléments de A(a) de la
forme (l, k). D'où a- 1 (1) = n - p et, donc, a- 1 (1) = a,-I(l) si A(a) =
A(a'). De même, le nombre d'éléments de {l,..., n} strictement
supérieurs à 0'-1(2) et différents de 0'-1(1) est égal au nombre q
d'éléments de A(a) de la fOIl11e (2, k), d'où
-1 n - q si a (1) < n - q,
-1 a (2) =
n-q-1
sInon,
et, donc, 0'-1(2) = 0',-1(2) si A(a) = A(a'). On peut ainsi, de proche en
proche, montrer que
V ie {l, ..., n},
-1 ( . ) '-1 ( . ) a 1 = a l,
318
VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION
soit que a = a'.
2) D'après la définition même de j, on a a'(j) * aU). Supposons que
a'U) < a U). On a alors
( a'U), aU) ) = ( a(k), aU) ) = ( a'U), a ' ( .e) )
et ce couple appartient à A(a ' ) puisque j <.e et n'appartient pas à
A(a) puisque k > j, ce qui contredit 1 'hypothèse a' <0 a. De même, si
l'on considère l'entier m (m
j) tel que a'(m) = a(k - 1), on a m
j car a'G) = a(k)
a(k - 1), donc m > k et, si l'on avait a(k) < a(k - 1), le couple ( a'U),
a'(m) ) = ( a(k), a(k - 1»
appartiendrait à A( a') et non à A( a).
La permutation al est définie par
al (k) = a(k - 1), al (i) = a(i) SI
al (k - 1) = a(k), i
k - 1 et i
k.
On remarque alors que le couple (a(k - 1), a(k) ) appartient à A(a) et
non à A(al) puisque a(k - 1) < a(k), que tout autre élément de A(a)
appartient à A(al) et que tout élément de A(al) appartient à A(a). On
a donc bien
A(aÜ = A( a) - {( a(k - 1), a(k) )}
et, pour établir que a' <0 al, il suffit de montrer que (a(k - 1), a(k) ) é
A (a'), c' est- à-dire que
( a' (m), a'(j) )
A( a'),
ce qui est exact puisque m > j. Enfin, si al
a', on peut recommencer en remplaçant a par al et, puisque l'on
retire à chaque fois un élément à l'ensemble A(.), on aboutit, de
proche en proche, à 1 a p = a, avec
p = Card A(a) - Card A(a').
3) Soient a et a' deux éléments de Ln. Posons
\:1 i E {l, ..., n},
-1 ( ' ) a 1 = ri,
,-1 ( ' ) , a 1 = ri.
319
VII. TESTS D'INDEPENDANCE. MESURES D' ASSOCIATION
On remarque que
A( a) = {(i, j) ; i < j, ri < rj}
et, donc, que la relation "a' <0 a" équivaut à la propriété
(i < j, r'i < r'j)
(ri < rj).
La statistique de Kendall est définie (remarque 111.4.5) par
't = 1 - 4 L 11 +(R[i] - Rm) n n (n - 1) l
i<j
nR
et, en considérant la fonction <1> correspondante, on a donc, si a'
<0 a,
c1>(rl'...,r n )-c1>(r'I'...,r'n)= 4 L [11 +(r'i-r'.)-lI +(ri-r j )] n (n - 1) l
i<j
nRJR
et cette quantité est évidemment positive ou nulle puisque tous les
tennes entre crochets sont égaux à 1 ou à O.
La statistique de Spearmann est définie (remarques 111.3.3 et
111.3.4) par
n 12
n + 1 Pn = £.J i R[i] - 3 -. n (n + 1) (n - 1) i=l n - 1
La fonction <1> correspondante est donc définie par
n <I>(r l' ... , r n ) = Â. L i ri + Jl, i=l
avec Â. > O. On peut alors utiliser le résultat de la question 2 et,
donc, se borner à montrer la propriété dans le cas où a' = t 0 cr. On
a alors cr 1-1 = cr -1 0 t, puisque t- 1 = t, et il existe donc un entier k
(2
n) et deux éléments io et jo de {l,..., n} tels que
io < jo, cr(i o ) = cr'Uo) = k - 1, crUo) = a'(io) = k
et l'on a a'(i) = a(i) si i * io et i * jo.
320
VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION
On en déduit
n <I>(r l' ... , r n ) - <I>(r ' l' ... , r ' n ) = À L (i ri - i r'i) i=l
= À ( (k - 1) cr- 1 (k - 1) - (k - 1) cr,-l(k - 1) + k cr- 1 (k) - k cr,-I(k) ) = À
( (k - 1) io - (k - 1) jo + k jo - k io ) = À Go - io) > O.
Enfin, procédons de la même façon et avec les mêmes notations
pour la statistique du quadrant qui est définie (remarque TII.2.2) par
( n+l ) ( n+l ) Q =-£.J 11 i-- 11 R. -- n n i= 1 ]O,+oo[ 2 ]O,+oo[ [1] 2 .
On obtien t donc
<I>(rl, ... , r n ) - <I>(r'l, ... , r'n)
1 [ ( n+l ) ( n+l ) ( n+l ) ( n+l ) =- 11 k-l-- 11 i -- -11 k-l-- 11 . -- n
]O,+oo[ 2 ]O,+oo[ 0 2 ]O,+oo[ 2 ]O,+oo[ Jo 2
(1 ( n+l ) ( n+l ) ( n+l ) ( n+l )] +8 k-- 11 . -- -11 k-- 11 i -- ]O,+oo[ 2
]O,+oo[ Jo 2 ]O,+oo[ 2 ]O,+oo[ 0 2
[ 11 ( k-
J -ll ( k-l-
J][ l1 ( j-
J -l1 ( i-
n ]O,+oo[ 2 ]O,+oo[ 2 ]O,+oo[ 0 2 ] 0, +00 [ 0 2
et cette expression est positive ou nulle puisque les deux termes
entre parenthèses ne peuvent prendre que les valeurs 1 ou O.
Les trois statistiques considérées sont donc bien croissantes au
sens où nous l'avons défini.
Complément. A titre de complément, nous tenons à signaler un
théorème établi par les auteurs de l'article cité en référence et qui
concerne les notions introduites dans le présent exercice et dans
l'exercice II.8. Théorème. Si T est une statistique de rang croissante,
alors, quel que soit c réel, la fonction puissance du test défini par la
région critique {T
c} est croissante relativement à la relation de pré ordre "<;t" (que l'on
a définie à l'exercice II.8).
321
VII. TESTS D'INDEPENDANCE. MESURES D' ASSOCIATION
Autrement dit, et avec des notations évidentes, si T est croissante et
si F «i G,
alors
\:Ic e IR,
Pp(T
c)
Pa(T
c).
La démonstration qu'en donnent les auteurs de l'article nous a paru
trop ardue et de caractère trop théorique pour pouvoir faire l'objet
d'un exercice, mais le lecteur intéressé pourra s'y reporter.
Exercice IV.I. On considère le coefficient de concordance de Kendall
défini en lV.l.l par
k 2 C = 12 L ( R . _ n (k + 1) J n n 2 k (k 2 _ 1) j=I'J 2 .
On a, évidemment, C n
O. 1 ) Montrer qu'il existe des valeurs de n et de k pour lesquelles on
ne peut réaliser C n = O. 2 ) Montrer que
k n 2 k n ( R ) 2 k 2 L L R.. - k + 1 = L L R.. _
+ 2- L R.. _ n (k + 1) . j=l i=l (IJ 2 ) j=l i=l IJ n n j=l (J 2 )
En déduire que en
1 et montrer que, quels que soient les entiers n et k, on peut réaliser
en = 1.
1) Pour que en prenne la valeur 0, il faut et il suffit que l'on ait
\:1 je {l,..., k},
n (k + 1) r.j = 2
Puisque r.j est un entier, il est impossible de réaliser cette condition
lorsque n (k + 1), 1 . A ." d . 1 .. k . n est pas ut-meme entIer, c est-a-
rre orsque n est Imparr et parr. 2 R M A d l ' n (k + 1) . . 1 ' " l ,
emarque. eme ans e cas ou est entIer, 1 n est pas sur que on 2
puisse réaliser en = o. Il s'agit là d'un problème combinatoire délicat
que nous pouvons soumettre à la sagacité de nos lecteurs ! Il Y a
tout de même un cas où l'on peut réaliser C n = 0, c'est celui où l'on
a n = k. Il suffit alors que, pour chaque valeur de j, on ait {rlj, ... , rnj}
= {l, ... , n}.
322
VII. TESTS D'INDEPENDANCE. MESURES D' ASSOCIATION
2) En remarquant que, pour chaque valeur de j,
R.. J
est la moyenne des
observations Rij, on a V a E IR, V jE {l, ... ,k}, t(Rij _ a)2 =
( Rij _ R' j J 2+ n ( R'j - a J 2, 1= 1 1= 1 n n
k+l d'où, en prenant a = - et en sommant de j = 1 à k, 2
k n k + 1 2 k n ( R.j J 2 1 k n (k + 1) 2 LL ( Ri.-- ) =LL Rï-- +-L ( R..- ) .
. 1 ' 1 J 2 . 1 ' 1 J . 1 J 2 J= 1= J= 1= n n J=
On a donc
k2kn2
( . _ n (k + 1» ) <
( .. _
) £.J R'J - n £.J £.J RIJ j=l 2 j=l i=l 2
et le second membre de cette inégalité ne dépend que de n et de k
puisqu'il est égal à
n k k+1 2 2 k . k+1 2 n L L ( Ri' - - ) = n L ( J - - ) . i=1 j=1 J 2 j=l 2
On sait (exercice 2 chap. 1) que la variance de la loi uniforme sur
{l,..., k} est k 2 - 1 égale à -, d'où 12
f ( j _ k + 1 ) 2= k (k 2 - 1) . j= 1 2 12
On en tire
c = 12 f ( R.. _ n (k + 1) ) 2
12 n 2 k (k 2 - 1) n n 2 k (k 2 _ 1) j=1 J. 2 n 2 k (k 2 - 1) 12
soit en
1.
323
VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION
Enfin, pour que en prenne la valeur 1, il faut et il suffit que
k n r" J 2 L L ( ri' - -2 = 0, . 1 . 1 J J= 1= n
c'est-à-dire que, pour chaque valeur de j, les n nombres rij soient
égaux. Pour cela, il suffit, par exemple, que pour chaque valeur de j,
les n nombres rij soient égaux à j. Plus généralement, il faut et il
suffit qu'il existe une permutation a de { 1, ... , k} telle que
\:1 je {l,..., k},
'Vie {1,...,n},
rij = aO).
Le coefficient C n peut donc prendre la valeur 1 quels que soient les
entiers n
et k.
Exercice IV.2. (Suite de l'exercice IV.l) 1) Montrer que le coefficient
de concordance de Kendall en est égal, à un facteur multiplicatif
près, à la statistique FN qui a servi à définir le test de Friedman
(définition //1.1.1 chap. VI). On tiendra compte dufait que les
notations utilisées dans les chapitres VI et VII sont différentes. En
déduire, grâce aux résultats du théorème 111.1.2 chap. VI,
l'espérance mathématique, sous l' hypothèse Ho, de la statistique C
n . 2 ) Toujours avec les notations de la section IV, on associe à
toute paire {i, i'} d'éléments de {l,..., n} le coefficient de corrélation
empirique Pii' des vecteurs n (n - 1) (Ril, ... , Rik) et (Ri'l, ... , Ri'k) et
l'on désigne par M r la moyenne de ces 2
coefficie nts . Montrer que l' on a 12
( k + 1 ) ( k + 1 ) (n - 1) M = £.J £.J 2 R.. - - R.t. -- r n k (k 2 _ 1) j=l l
i<i'
n IJ 2 IJ 2
et en déduire que
(n - 1) M r + 1 C = n n
3) Calculer l'espérance mathématique, sous l' hypothèse Ho, de la
statistique
1r et retrouver ainsi le résultat de la question 1.
324
VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION
Calculer la variance, sous l' hypothèse Ho, de la statistique M r et en
déduire celle de Cn. On montrera d'abord que les coefficients Pü'
sont deux à deux non corrélés.
1) Remarquons tout d'abord que les rangs notés R'ij au paragraphe
III du chapitre VI ne sont autres que les rangs notés Rij à la section
IV du chapitre VII. En adoptant les notations du chapitre VII, on peut
écrire
k 2 FN = 12 n L ( R.j _ k + 1 J k (k + 1) j= 1 n 2 k 2 = 12 L ( R. j _ n (k
+ 1» ) n k (k + 1) j= 1 2
= n (k - 1) Cn.
On a, en utilisant les résultats du théorème TI1.1.2 chap. VI,
k 2 lE _ 12
lE ( n (k + 1» ) o(F N ) - £.J 0 R..- n k (k + 1) j= 1 J 2
=
12 k L V o(R. j ) n k (k + 1) j= 1 12 V o(R. j ) n (k + 1)
2 n (k - 1) = k - 1, 12
12
n (k + 1)
d'où
1 lEo(C n ) = -. n
2) D'après le résultat de l'exercice IV.l, on peut écrire
Vie {l,...,n},
L R.. = k + 1 k j= 1 IJ 2
et
f ( Rï _ k + 1 ) 2 k j=1 J 2
k2-1
12
325
VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION
On a donc, pour toute paire {i, i'} d'éléments de {l,..., n},
k
L ( R.. -
) ( RoI' -
) k j= 1 IJ 2 IJ 2 P ii' = k 2 _ 1
12
2 f ( Ri j - k + 2 1 ) ( Ri'j - k + 2 1 ) . k (k - 1) J= 1
Or
M= r
2 L p.." ( 1) .., 11 n n - 1
1<1
donc
[ k ] (n - 1) M = 12 L 2 L R.. _ k + 1 R.t. _
+ 1 r n k (k 2 _ 1) l,;i<i'';n j=l (IJ 2) (IJ 2)
k = 12 L L 2 ( R.. _ k + 1 ) ( R.'. _ k + 1 ) . n k (k 2 - 1) j=1 1
Î<i'
n IJ 2 IJ 2
D'après la relation
2 2 L a. a" = ( i a ) - i a 2 , 1 1 1 1 l
i<i'
n i=1 i=1
on obtient
[ 2 12 k n k + 1 k n k + 1 2 (n - 1)
= L L Ri' - - - L L Ri' - - n k (k 2 - 1) j= 1 el (J 2) J j= 1 i= 1 (J 2)
On a
VjE {l,...,k},
( _ k + 1 ) _ _ n (k + 1) £.J R.. -R. i= 1 IJ 2 'J 2
et l'on a montré à l'exercice précédent que
k n 2 2 LL ( Ri'_ k+1 ) = nk(k -1) . j= 1 i= 1 J 2 12
326
VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION
On en tire
12
( n (k + 1) J 2 (n - 1)
= 2 £.J R' j - - 1 n k (k - 1) j=l 2
= n C n - 1,
soit
(n - 1)
+1Cn=.n
3) On a
lEo(M r ) = 2 L lEo(p..,) n (n - 1) l
i<i'
n 11
et
12
[( k + 1 J ( k + 1 J] lEo(p..,) = 2 £.J lEo R' J ' - - Ri' J ' - - . 11 k (k _ 1)
j= 1 1 2 2
Sous 1 'hypothèse Ho, les n vecteurs (Rn, ... , Rik) sont
indépendants et chacun suit la loi uniforme sur l'ensemble des
permutations de {l,..., k}. On a alors
lE [( R.. -
J ( R'" -
J] = lE ( RH -
J lE ( R'" -
J = 0 o IJ 2 IJ 2 0 IJ 2 0 IJ 2 '
k+l car chacune des variables aléatoires Rij admet - pour espérance
mathématique. 2
1 On a donc lEo(pii') = 0, d'où lEo(Mr) = 0 et lEo(C n ) = -, résultat
déjà obtenu à n
la question 1.
Montrons que les coefficients Pii' sont deux à deux non corrélés,
c'est-à-dire que, SI {i, i'} et {j, j'} sont deux paires distinctes
d'éléments de {l,..., n}, on a
Cov o(Pii', Pjj') = 0,
soit lEo(Pii' Pjj') = O.
En fait, le problème ne se pose que si les deux paires ont un
élément commun puisque, sinon, l'indépendance des vecteurs
(RH,..., Rik) entraîne celle des deux coefficients considérés. Pour
alléger la notation, montrons, sans rien perdre de la généralité, que
lE o (Pl2 P13) = o.
327
VII. TESTS D'INDEPENDANCE. MESURES D' ASSOCIATION
12 On a, en posant K = 2 ' k (k - 1)
P 12 P l3 = K 2 [t ( R lj - k: 1 ) ( R 2j _ k: 1 )] [t ( R lj _ k: 1 ) ( R3j _ k :
1 )]
k k = K 2 L L ( RI. -
J ( RI" -
J ( R2. -
J ( R3" -
J ' j=l 1'=1 J 2 J 2 J 2 J 2
Chaque terme de cette somme a une espérance .mathématique
nulle puisque l'indépendance des trois vecteurs (Ri 1, ... , Rik), i e {l,
2, 3}, permet d'écrire cette espérance sous forme d'un produit de
trois termes et que l'on a
( k+l ) ( k+l ) Eo R 2j - 2 = Eo R3j - 2 = o.
On a bien lE o (P12 P13) = 0 et l'on en déduit que
Vo(M r ) = 2 4 2 L Vo(Pii') = 2 V o (P 12 ), n (n - 1) l
i<i'
n n (n - 1)
par raison de symétrie. D'autre part, on a
v o(P12) = lEo(pi
et
( k+1 J( k+1 J P 12 = K
R 1j - - R 2j - - , J= 1 2 2
d'où
1 k [( k+ I J 2 ( k+ I J 2 ] 2: V o (P I2 ) =
lEo R 1j - - R 2j - - K J= 1 2 2
[( k+ I J( k+ I J( k+ I J( k+ I J] + 2
lEo R 1j - - R 2j - - RIf - - R 2f - - l
J<i
n2222
k [( k+1 J 2 ] [( k+1 J 2 ] =
Eo R lj - 2 Eo R 2j - 2
+ 2g
n Eo [( R lj - k: 1 J ( RIj' - k: 1 J] Eo [( R 2j - k: 1 J( R 2r k: 1 J]
328
VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION
= k [ V o(R1j) ]2 + k (k - 1) [ COV o (R1j, R1j') ]2,
en tenant compte du fait que les vecteurs (RH,".' RnJ, i e {l, 2}, sont
indépendants et de même loi uniforme sur l'ensemble des
permutations de {l,. .. , k}. On sait alors (exercice 2 chap. 1) que
k 2 - 1 V o (R 1 j) = - et 12
k+l COV o (R1j, R 1 j') = - -, 2
d'où
1 (k 2 - 1)2 (k + 1)2 k 2 (k + 1)2 (k - 1) "2 V 0 (p 12) = k + k (k - 1) =
K 144 144 144
2 k 2 (k + 1)2 (k - 1) 1 V o (PI2) = K -- 144 k - 1
et, enfin,
2
Vo(
) = n (n - 1) (k - 1)
et
2 ( n-l ) 2(n-l) Vo(C n ) = - Vo(
) = 3 . n (k - 1) n
Exercice V.l 1) Soit (X, Y) un vecteur aléatoire de loi H continue sur
rR 2. Exprimer m(X, Y) en fonction de H(
112(F),
112(G», où F et G désignent les lois respectives de X et de Y. En
déduire que, si H appartient à '3 1 , on a m(X, Y)
O. 2) On suppose que (X, Y) est un vecteur gaussien dont les lois
marginales sont réduites . Montrer que
Corr(X, Y) = sin ( : m(X, Y) J .
1) Pour alléger l'écriture, posons
a=
112(F)
et
b=
112(G).
Ona
m(X, Y) = 2
(X, Y) - 1
329
VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION
et
II4(X, Y) = P[(X - a) (Y - b) > 0] = P(X - a > 0, Y - b > 0) + P(X - a < 0,
Y - b < 0) = 1 - P( {X - a
O} U {Y - b
O} ) + H( a, b) = 1 - P(X - a
0) - P(Y - b
0) + P(X - a
0, Y - b
0) + H(a, b) = 1 - F(a) - G(b) + 2 H(a, b) = 2 H(a, b),
d'où
m(X, Y) = 4 H(a, b) - 1.
Si H appartient à j 1, on a
1 H(a, b)
F(a) G(b) = -, 4
d'où
m(X, Y)
O.
Remarque. On a, de même, m(X, Y)
0 lorsque H appartient à dl.
2) On peut supposer que le vecteur (X, Y) est centré, c'est-à-dire
que l'on a
1/2(F) =
If2(G) = 0, ce qui n'enlève rien à la généralité. On a alors, en
désignant par h la densité du vecteur (X, Y),
m(X, Y) = 4 H(O, 0) - 1
et
H(O, 0) = fI h(x, y) dx dy = fI h(x, y) dx dy. (fR-)2 (fR+)2
Soit A la matrice des covariances du vecteur (X, Y). On a, en posant
r = Corr(X, Y),
A=(
),
donc
A-l_
( 1 -r ) - 1 - r 2 -r 1
et
1 ( -1 2 2 J h(x, y) =
exp
(x + y - 2 r x y) . 2 1t V 1 - r- 2 v 1 - r-
330
VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION
D'où, en effectuant une intégration en coordonnées polaires,
H(O, 0) = 0 J f exp [ b (1- r sin 2e) ] p dp de. 21t l-r + [ 7t ] 2 l-r rRxO-
'2
En se souvenant que
f +oo 2 Àp 1 _ Àp2
1 e- pdp=-- [e ] =- o 2À 0 2À
( À > 0 ),
on obtient
7t
r-2 1 2 v 1 - r- H(O, 0) = 2 1t 0 1 - r sin 2e
de
soit, en posant t = tg e,
r-2 f
r-2 f
v 1 - r- dt v 1 - r- dt H(O, 0) = 2 = 2 2 2 1t 0 1 - 2 r t + t 2 1t 0 (t - r)
+ (1 - r )
[ ] 1 t-r 1 1t r =- [ AfCt g ] =- -+Arctg 21t J17 0 21t 2 J17
1 1 r = - + - Arctg . 4 21t
On a donc
2 r m(X, Y) = - Arctg J17 1t 1 2 - r
r et, en posant a = Arctg r-2' on vérifie aisément, puisque cos a> 0,
que v 1 - r- . tg a SIn a = tg a cos a = = r. j 1 + tg 2 a
331
VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION
On obtient finalement Corr(X, Y) = r = sin ( : m(X, Y) J.
Exercice V.2. Soit (X, Y) un vecteur aléatoire de loi H continue sur IR
2. 0 n désigne par F et G les lois respectives de X et Y et l'on pose U
= F(X) et V = G(Y). 1 ) Montrer que
t+(X, Y) = 21E( H(X, Y) ).
2) On suppose que H appartient à dl. Montrerqu'i/ en est de même
de la loi Hl de (U, V) et en déduire, grâce à la relation de Hoeffding
(voir exercice II.3) que t(X, Y)
o. 3) On suppose que (X, Y) est un vecteur gaussien dont les lois
marginales sont réduites. Montrer, en se ramenant à la question 2 de
l'exercice V.l, que l'on a
Corr(X, Y) = sin ( : t(X, Y) J .
1) On peut écrire (voir définition V.2.1) que
t+(X, Y) = f P[(X - x) (Y - y) > 0] dH(x, y). rR 2
D'après un calcul déjà effectué à la question 1 de l'exercice V.l, on
obtient
P( (X - x) (Y - y) > 0 ) = 2 H(x, y) - F(x) - G(y) + 1,
d'où
t+(X, Y) = f (2 H(x, y) - F(x) - G(y) + 1 ) dH(x, y) rR 2
= lE ( 2 H(X, Y) - F(X) - G(Y) + 1 ) = 2 IE( H(X, Y) ) - IE(U) - IE(V) + 1
= 21E( H(X, Y) ),
puisque la loi commune à U et V est la loi U [0, 1].
332
VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION
2) On a 2 \:1 (u, v) e ]0, 1[ ,
Hl (u, v) = P(U
u, V
v) = P(U < u, V < v) = P( F(X) < u, G(Y) < v ) = P( X < F- 1 (u), Y < G-
1 (v) ) -1 -1 ( » = H( F (u), G v ,
d'où, si H appartient à ':J 1,
-1 -1 ) H1(U, v)
F( F (u» G( G (v) = u v.
On vérifie ainsi que Hl appartient à ':J 1.
On a alors
t+(X, Y) = 2 IE( H(X, Y) )
2 IE( F(X) G(Y) )
2 lE (UV)
et, d'après la relation de Hoeffding,
E(uv) - E(U) E(V) = f (Hl(u, v) - uv) du dv
0, [0.1 ]2
d'où
1 IE(UV)
IECU) IE(V) =-, 4
ce qui implique
1 t+(X, Y)
-2
et
t(X, Y)
O.
Remarque. On a, de même, t(X, Y)
0 lorsque H appartient à 41.
3) Soient (XI, YI) et (X2, Y2) deux vecteurs aléatoires indépendants
dont la loi commune est une loi gaussienne dont les lois marginales
sont réduites.
333
VII. TESTS D'INDEPENDANCE. MESURES D' ASSOCIATION
Le vecteur aléatoire (X 1, YI, X2, y 2) est alors gaussien et il en est
de même du vecteur (XI - X2, YI - Y 2) qui est image du précédent
par une application linéaire de 1R4 dans IR 2. On a
V(XI - X2) = V(Y 1 - Y2) = 2
et
Cov(X 1 - X2, YI - Y2) = COV(Xl, YI) + Cov( X2, Y2) = 2 Cov(X, Y).
TI suffit alors de considérer le vecteur
(Z, T) = ( X'jt 2 , Ylj{2 )
pour obtenir un vecteur gaussien dont les composantes sont
centrées et réduites. De plus, Cov(Z, T) = Cov(X, Y), donc Corr(Z, T)
= Corr(X, Y).
On sait alors (voir exercice V.l) que
Corr(Z, T) = sin ( : m(Z, T) J .
En remarquant que
m+(Z, T) = P(Z T > 0) = P[(XI - X2) (YI - Y2) > 0] = 't+(X, Y),
on obtient
m(Z, T) = 't(X, Y),
d'où
Corr(X, Y) = sin ( : 't(X, Y) J .
Exercice V.3. Soit (X, Y) un vecteur aléatoire de loi H continue sur IR
2. On désig ne par F et G les lois respectives de X et de Y et l'on
pose U = F(X) et V = G(Y). Montrer que
p+(X, Y) = 2 lE (UV)
et en déduire que
11--
p+(X, Y) - p_(X, Y)
-. 3 3
334
VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION
On a, par définition,
p+(X, Y) = P[(X 1 - X2) (YI - Y 3) > 0]
où (X}, YI), X2 et Y3 désignent un vecteur aléatoire et deux variables
aléatoires indépendants et de lois respectives H, F et G. On peut
donc écrire p /X, Y) = f P[(x - X 2 ) (y - Y 3) > 0] dH(x, y). rR 2
On a
P[ (x - X2) (y - Y 3) > 0] = P(X2 - x > 0, Y 3 - Y > 0) + P(X2 - x < 0, Y
3 - Y < 0) = P(X2 > x) P(Y3 > y) + P(X2 < x) P(Y3 < y) = ( 1 - F(x) ) (
1 - G(y) ) + F(x) G(y) = 2 F(x) G(y) - F(x) - G(y) + 1,
d'où
p+(X, Y) = f [2 F(x) G(y) - F(x) - G(y) + 1] dH(x, y) rR 2
= lE (2 UV - U - V + 1) = 2 lE (UV),
puisque la loi commune à U et V est la loi U[O, 1].
En écrivant que
-1
Corr(U, V)
1, 1 on a, puisque Var(U) = Var(V) = - , 12
11--
IE(UV) - IE(U) IE(V)
- , 12 12
soit
1111---
IE(UV)
- + - , 4 12 4 12
335
VII. TESTS D'INDEPENDANCE. MESURES D' ASSOCIATION
11-
IE(UV)
-, 6 3
d'où
12-
p+(X, Y)
-33
et, enfin, puisque
p+(X, Y) - p_(X, Y) = 2 p+(X, Y) - 1, 1 1 - -
p+(X, Y) - p_(X, Y)
-. 3 3
Exercice V.4. Montrer, en considérant la table 3 (p. 280 du Tome 1),
que l'on a les relations données à la remarque V.3.2, à savoir
a) 1t+(X, Y) + 1t_(X, Y) = 1,
1 + 1t+(X, Y) b) p+(X, Y) = , 3 d'où p(X, Y) = 1t+(X, Y) - 1t_(X, Y),
c) 1t+(X, Y) est égale à la probabilité pour que la permutation (R[1],
R[2], R[3]) présente 0 ou 1 inversion.
Chacune des six dispositions correspondant à chacune des
colonnes de la table 3 a, pour une loi H continue sur 1R2 donnée,
une probabilité Pi. On a, bien sûr,
Pl + P2 + ... + P6 = 1.
Pour chacune de ces colonnes, les six numérotations possibles
correspondant aux six lignes de la table 3 sont équiprobables. On
peut alors écrire que
6 1t+(X, Y) = L ai Pi, i=l
6 1t_(X, Y) = L a'i Pi, i=1
et
6 p+(X, Y) = L
i Pi, i=l
où les coefficient <Xi, a'i et
i sont définis de la façon suivante.
. ai = 1 si, dans la colonne i, on trouve "c" dans chacune des deux
premières lignes, ou dans chacune des deux suivantes, ou dans
chacune des deux dernières. Sinon, ai = O.
336
VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION
· a'ï est défini de la même façon que ai en remplaçant "c" par "d". ·
Pi est la proportion de "c" que l'on trouve dans la colonne i, c'est-à-
dire le nombre de "c" divisé par 6.
Pour montrer les propriétés a) et b) de l'énoncé, il suffit de vérifier
que l'on a
\:lie {1,...,6},
ai + al i = 1,
1 + a. 1 Pi=
Pour montrer la propriété c), il suffit de vérifier que ai = 1 si et
seulement si la permutation de (R[I], R[2], R[3]) qui correspond à la
colonne i présente 0 ou 1 inversion. Ces vérifications sont
immédiates puisque les six couples (ah a 'ï) sont respectivement
égaux à (1,0), (1,0), (0, 1), (1,0), (0, 1) et (0, 1) et que les six 22121
1 valeurs de Pi sont respectivement -, -, -, -, - et -. 33333 3
D'autre part, les six permutations de (R[1], R[2], R[3]) sont
respectivement égales à (1,2,3), (1,3,2), (2,3, 1), (2, 1, 3), (3, 1,2) et
(3, 2, 1). Les nombres d'inversions qu'elles présentent sont
respectivement égaux à 0, 1, 2, 1,2 et 3.
Enfin, on a,
p(X, Y) = 3 ( 2 p+(X, Y) - 1 ) = 2 1t+(X, Y) - 1 = 1t+(X, Y) - 1t_(X, Y).
Remarque. On a la relation 1t+(X, Y) + 1t_(X, Y) = 1, bien que l'on
n'ait pas exactement défini 1t_(X, Y) comme la probabilité de
l'événement contraire de celui dont 1t+(X, Y) est la probabilité. En
fait, c'est bien de cela qu'il s'agit, puisque l'on constate que, pour
tout i appartenant à {l, ... ,6}, on a ai + a'i = 1.
Exercice V.S. Soit (X, Y) un vecteur aléatoire de loi H continue sur rR
2 . 1) Montrer que, si H appartient à d}, on a p(X, Y)
O. 2) On suppose que (X, Y) est un vt;cteur gaussien dont les lois
marginales sont réduites . Montrer, en se ramenant à la question 2
de l'exercice V.1, que l' on a
Corr(X, Y) = 2 sin ( : p(X, Y) J .
337
VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION
1) On a
p /X, Y) = f P[(X - x) (Y - y) > 0] dF(x) dG(y), rR 2
où F et G désignent les lois respectives de X et de Y. D'après un
calcul déjà effectué à la question 1 de l'exercice V.l, on a
P[(X - x) (Y - y) > 0] = 2 H(x, y) - F(x) - G(y) + 1,
d'où, si H appartient à ':1 1 ,
p+(X, Y)
f (2 F(x) G(y) - F(x) - G(y) + 1) dF(x) dG(y) rR 2
2 f F(x) dF(x) f G(y) dG(y) - f F(x) dF(x) f dG(y) rR rR rR rR - f dF(x) f
G(y) dG(y) + f dF(x) f dG(y) rR rR rR rR
2(
) 2_
_
+1 2 2 2
-. 2
On obtient bien
p(X, Y) = 3 (2 p+(X, Y) - 1)
O.
Remarque. On a, de même, p(X, Y)
0 lorsque H appartient à (J 1.
2) Puisque les vecteurs et variables aléatoires (XI, YI), X2 et Y 3
sont gaussiens et indépendants, le vecteur aléatoire (X 1, YI, X2, Y
3) est gaussien. Le vecteur aléatoire (X 1 - X2, YI - Y 3) est alors
gaussien comme image du précédent par une application linéaire de
rR 4 dans IR 2. On a
V(XI - X2) = V(Y1 - Y3) = 2
338
VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION
et
COV(XI - X2, YI - Y 3) = COV(X 1 , YI) = COV(X, Y).
Le vecteur (Z, T) défini par
(Z, T) = ( Xl i t 2 , Yl i {3 )
est un vecteur gaussien dont les composantes sont centrées et
réduites et l'on a
1 1 Cov(Z, T) = - Cov(X, Y), d'où Corr(Z, T) = - Corr(X, Y). 2 2
On sait alors (voir exercice V.l) que
Corr(Z, T) = sin ( : m(Z, T) ) .
En remarquant que
m+(Z, T) = P(ZT > 0) = P[(X 1 - X2) (YI - Y3) > 0] = p+(X, Y),
on obtient
1 m(Z, T) = 2 p+(X, Y) - 1 = - p(X, Y), 3
d'où
Corr(X, Y) = 2 sin ( : p(X. y»).
Exercice V .6. Soit (X, Y) un vecteur aléatoire de loi H continue sur
IR en utilisant un résultat établi à l'exercice V.3, que l' on a
p(X, Y) = y(X, Y) = Corr( F(X), G(Y) ),
où F et G désignent les lois respectives de X et de Y.
Posons U = F(X) et V = G(Y). On a vu, à l'exercice V.3, que l'on a
p+(X, Y) = 2 [[ (UV).
339
VII. TESTS D'INDEPENDANCE. MESURES D' ASSOCIATION
1 1 Comme on a IE(U) = IE(V) = - et Var(U) = Var(V) = -, on en
déduit 2 12
1 y(X, Y) = 12 [lE (UV) - -] = 12 lE (UV) - 3 = 6 p+(X, Y) - 3 = p(X, Y).
4
Exercice V. 7. Soit (X, Y) un vecteur aléatoire de loi H continue sur
IR 2 . On désigne par F et G les lois respectives de X et de Y.
Montrer, en utilisant des résultats établis aux exercices V.2 et V.5,
que l' on a
t(X, Y) = 4 [ f f H(x, y) dH(x, y) - f f F(x) G(y) dF(x) dG(Y) ]
2 ffi2 = 4 f f H(x, y) dH(x, y) - 1 ffi2
et
p(X, Y) = 12 f f [H(x, y) - F(x) G(y)] dF(x) dG(y)
2 = 12 f f H(x, y) dF(x) dG(y) - 3. ffi2
On a vu, à l'exercice V.2, que l'on a
t+(X, Y) = 2 IE( H(X, Y) ) = 2 J f H(x, y) dH(x, y),
d'où
't(X, Y) = 2 't+(X, Y) - 1 = 4 f f H(x, y) dH(x, y) - l. ffi2
340
VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION
En remarquant que
J I F(x) G(y) dF(x) dG(y) = f F(x) dF(x) f G(y) dG(y) =
2 fR fR 4 fR
on a également
't(X, Y) = 4 [ fI H(x, y) dH(x, y) - fI F(x) G(y) dF(x) dG(y) fR2 fR2
Par ailleurs, on a écrit, à l'exercice V.5,
p+(X, Y) = f f [2 H(x, y) - F(x) - G(y) + 1] dF(x) dG(y) fR2 = 2 f f H(x,
y) dF(x) dG(y) -
+ 1 2 2 2 fR = 2 JI H(x, y) dF(x) dG(y), fR2
d'où
p(X, Y) = 6 p+(X, Y) - 3 = 12 J f H(x, y) dF(x) dG(y) - 3 fR2 = 12 f f
[H(x, y) - F(x) G(y)] dF(x) dG(y). fR2
341
Chapitre VIII
TESTS D' ADEQUATION
Exercice II.1. Soit Xl, ... , X n un échantillon de la loi définie, pour
tout élément a de [-1, 1], par la densité suivante
l+ax 'V x E IR, f(x ; 6) = 2 11 I-l,lj(x).
On divise l'intervalle ]-1, 1] en k classes Ci = ]Ci-1, Ci] avec
-1 = Co < CI < ... < Ck-1 < Ck = 1
- et l'on se propose de trouver un estimateur an de a. 1) Vérifier que
la méthode du maximum de vraisemblance et celle du khi-deux -
minimum (voir section II.1) ne permettent pas, en général,
d'expliciter an- On pourra poser, pour tout élément i de {l,..., k},
Ci + c i _ 1 a.= 1
et
Ci - c i - 1 'l = . 1 2
2
2) Montrer que fa méthode du khi-deux minimum modifié de Neyman
(voir encore - section II.l) permet d'expliciter en. On écrira cette
solution.
Désignons par ni le nombre des réalisations qui appartiennent à la
classe Ci. On a, bien sûr,
k L ni = n. i=l
1) La méthode du maximum de vraisemblance revient à chercher
pour quelle valeur de a la fonction de vraisemblance n. k (pi(a)) 1
L(nl' ... , n k ; a) = n! II i= 1 n.f l'
343
VIII. TESTS D'ADEQUATION
est maximum, où pi(a) désigne la probabilité de la classe Ci. On a
c. c. pi(9) = f 1 f(x ; 9) dx = [ ; + 9 :2 r = ci-1 c
l
( c. + c. -1 J l+a 1 1 2
Ci - c i _ 1
= J3i (1 + a ai).
Pour chercher le maximum de la fonction L, on peut considérer son
logarithme népérien
. On a
(nI' ... , n k ; a) = K + L ni Log pi(a) i=l k = K + L ni (Log 13. + Log (1
+ a a.) ), i=l 1 1
où l'on a posé
k K = Log(n!) - L Log(n i !). i=l
En dérivant par rapport à a, on obtient
k- a
ai ni - (nI' ... , n k ; a) = L aa i= 1 1 + a a. 1
et
2 a2
k - ai ni -(n 1 ,...,n k ;a)=L 2 . as 2 i= 1 (1 + S a)
Cette dernière expression est négative et la fonction - est donc
décroissante sur aa
[-1, 1]. Trois cas se présentent alors, suivant que cette derivée
s'annule ou non.
. Soit - (nI, ... , nk ; -1)
0, ce qui se produit, par exemple, si tous les ni as
-
relatifs aux <Xi positifs sont nuls. La fonction
est alors décroissante sur [-1, 1] et an prend la valeur -1.
344
VIII. TESTS D'ADEQUATION
. Soit - (nI, ... , nk ; 1)
0, ce qui se produit, par exemple, si tous les ni ae
relatifs aux <Xi négatifs sont nuls. La fonction
est alors croissante sur [-1, 1] et en prend la valeur 1. a
. Soit - (nI, ... , nk ; -1) > 0 et - (nI, ... , nk ; 1) < O. La fonction
ae ae
passe alors par un maximum pour la valeur de e qui annule - et
que nous ne pouvons ae
en général expliciter puisqu'elle est solution d'une équation
algébrique de degré k - 1.
Considérons maintenant la méthode du khi-deux minimum. Elle
consiste à rendre minimum l'expression X 2 (e) définie par
ke22
(ni - n Pi( » X (e) = £.J i=l n pi(e)
et dont la dérivée par rapport à e est
2 k [ 2 J d( X (e) ) =
Ln2_
de n i=l Pi 2 (e)
dpi(8) de
=_
dpi(9) £.J 2 ' n i=l Pi (e) de
puisque
k dpi(e) d ( k ) d L =- Lpi(e) =-(1)=0. i=l de de i=l de
On a donc
d( X2(9) ) = _
f ai n/ . de n i=l (1+ e a.)2 1
On vérifie aisément que cette dérivée est croissante sur l'intervalle
[-1,1] et l'on a donc une discussion analogue à la précédente.
345
VU!. TESTS D'ADEQUATION
d( X2(9) ) . Soit reste positive sur l'intervalle ]-1, 1 [, ce qui se
produit, par de
- exemple, si tous les ni relatifs aux ai positifs sont nuls. L'estimateur
en prend alors la valeur -1. d( X 2 (e) ) . Soit reste négative sur
l'intervalle ]-1, 1 [, ce qui se produit, par de
- exemple, si tous les ni relatifs aux ai négatifs sunt nuls.
L'estimateur en prend alors la valeur 1. d( X 2 (e) ) . Soit s'annule sur
l'intervalle ]-1, 1 [, ce qui correspond à un de minimum de X 2 (e),
mais la valeur correspondante de e ne peut être explicitée.
2) La méthode du khi-deux modifié de Neyman consiste à remplacer,
dans X 2 (9), les dénominateurs n pi(9) par les ni correspondants, ce
qui suppose, en particulier, que ceux-ci ne sont pas nuls. On doit
alors rendre minimum la fonction Y définie par
k2
(ni - n pi(8) ) Y(e) = £.J i= 1 ni
dont la dérivée Y' est donnée par
n p.(9) - n. dp I .(e) Y'(e) = 2 n £.J 1 1 i=l ni de
= 2 n 2 f pi(9) dPi(9) , i=l n. de 1
puisque l'on sait que
L k dpi(e) - 0 - . i=l de
On obtient
k 2 a.
. Y'(9) = 2 n 2 L
(1+ 9 a.). i=l n. 1 1
346
VIII. TESTS D'ADEQUATION
On vérifie aisément que cette fonction est croissante et l'on a donc
une discussion analogue à la précédente. On laisse au lecteur le
soin de la détailler, mais on remarque tout de même que la fonction
Y' peut garder un signe constant sur [-1, 1]. Par exemple, en
supposant que k = 2 et que CI = 0, on vérifie que l'on a
Y' ( -1)
SI nI
3 n2
et
Y'(l)
SI n2
3 nI.
Dans le cas où la fonction Y' change de signe sur l'intervalle ]-1, 1 [,
la fonction - Y passe par un minimum et la valeur prise par l'
estimateur an de a peut être explicitée puisqu'elle est solution d'une
équation linéaire. Elle est égale à
k 2 a.
. L 1 1 i=l n. 1 k 2 2 . a.
. L 1 1 i=l n. 1
Exercice II.2. Soit Xl, ... , X n un échantillon d'une loi de Poisson de
paramètre 8 (8 > 0). On considère les k classes suivantes
CI = {O, ... , j}, C 2 = {j + l}, ..., Ck _ 1 = {j + k - 2}, Ck = {j + k - 1, ...},
où j est un élément donné de tN. On désigne par ni (1
k) le nombre de réalisations qui appartiennent à la classe Ci. - 1)
Montrer que la valeur a prise par l'estimateur du maximum de
vraisemblance vérifie la relation
J -m
(r:- 1)! n a = nI m-1. J -m L
, m=O .
-m k.l L (r:- 1)! + L (i + j -1) ni + nk m=J+k-1 i=2 X ?' . k l m! m=J+ -
+00
- 2) En déduire que l'on a approximativement a = "n.
347
VIII. TESTS D'ADEQUATION
1) La fonction de vraisemblance L s'écrit
k II ( pi(9) ) ni i=l L(n 1 ' ... , n k ; 9) = n!
n.' l'
où pi(9) désigne la probabilité de la classe Ci. On a
. m J 9 -9
p1(9) = e £.J - , m=O m!
\:1 i e {2,... , k - 1},
j+i-1 _ 9 9 pi(9) = e , U+i-l)!
+00 -9
pk(9) = e £.J m=j+k-1
m9
m!
On remarque que la fonction L passe en général par un maximum
car elle tend vers o lorsque 8 tend vers 0+ ou vers +00. En effet
lim p1(9)=1 9
O+
et
1im pk(9) = 1 9
+oo
et, dans chacun de ces deux cas, toutes les autres probabilités pi(9)
tendent vers O. La fonction L a donc bien ses deux limites nulles,
sauf dans les cas particuliers où l'on aurait nI = n ou k = n. Nous
écartons ces cas qui correspondent, en fait, à un choix contestable
des classes Ci. La valeur prise par l' estimateur du maximum de
vraisemblance doit donc annuler la dérivée de la fonction L ou,
encore, la dérivée de son logarithme népérien
. On a
(nI' ... , n k ; 9) = K + L ni Log pi(9), i=l
en posant
k K = Log(n!) - L Log(n i !), i=l
d'où
k ni dpi(9) - (nI' ... , n k ; 9) = L - . a9 i=l pï<8) d9
348
VIII. TESTS D'ADEQUATION
Un calcul simple conduit à
dP1 (8) = e- 9 [ t e m . 1 _ t d8 m=l (m - 1)! m=O
8 m J -9
=e £.J m! m=l
m - 1 8 - Pl (8), (m - 1)!
1 dPi(8) i+j-l \:lie {2,...,k-l}, = - 1, pi(8) d8 8 [_ m.l -toc :
] dpk(e) = e'o L e L d8 m=j+k-1 (m - 1)! m=j+k-1
-too -9
=e £.J
m - 1 8 - pk(8). (m - 1)!
m=j+k-1
a
En annulant -, on obtient la relation a8
m - 1 e' o t e m=l (m - 1)!
I ( i + j - 1 ) - 1 + £.J ni - 1 + n k Pl (8) i=2 8
-9 e
-toc L m=j+k-1 (m - 1)! - 1 pk(8)
m-18
nI
= 0,
k soit, en tenant compte de L ni = n et en remplaçant Pl (8) et pk(8)
par leurs i=l
expreSSIons,
J m - 1 L 8 nI m
l (m-l)! +
i+j-l J m Î=2 8 L
m=O m!
-toc L m=j+k-1
m - 1 8 (m - l)!
ni + n k
= n.
-toc L
me
m=j+k-1 m!
8 Enfin, en multipliant les deux membres de cette égalité par -, on
obtient le résultat n
proposé dans l'énoncé, à savoir le fait que la valeur 8 prise par l'
estimateur vérifie la relation
349
VIII. TESTS D'ADEQUATION
-m
e k-1
(m - 1)!
( . . 1) m=J+k-1 + £.J 1 + J - ni + nk i=2 r Ii'" . k l m! m=J+ -
+00
J -nt
(r:- 1)! n e = nI m-1. J -m L
m=O .
Remarquons bien que nous ne nous posons pas la question de
savoir si cette relation admet une solution unique. Il faudrait, pour
cela, comme dans l'exercice 11.1, étudier le signe de la dérivée
seconde de la fonction
...!
2) On a
1 n 1-+00 x n = - L Xi = - L m n'm, n i=l n m=O
sÏ, pour tout élément m de tN, on désigne par n ' m le nombre des
réalisations Xi égales à m.
On remarque donc que l'on a e = x n si nI = nk = 0, c'est-à-dire si
toutes les réalisations appartiennent à {j + 1, ... , j + k - 2}. Cela peut
correspondre à un choix des entiers j et k qui définissent les classes
Ci. Il suffit, en effet, que j soit strictement inférieur à la plus petite des
réalisations Xi et j + k - 1 strictement supérieur à la plus - grande,
soit j < X(l) et j + k - 1 > x(n), pour avoir nI = nk = 0 et, donc, e = xn.
Plus généralement, on est amené à choisir les entiers j et k, donc à
définir les - classes Ci, de telle sorte que les effectifs nI et nk soient
faibles. Ecrire que e :::: x n revient alors à admettre que les nI
réalisations de la classe CI et les nk réalisations de la classe Ck ont
pour moyennes respectives les nombres
J L m=l
m - 1 e (m - 1)!
et
-too m-1 L e
= m=j+k-1 (m - 1)! . -too m L e m=j+k-l m!
a=
. m J e L- m=O m!
Cette approximation peut être justifiée par le fait que, si X est une
variable aléatoire de loi de Poisson de paramètre e, on a (on laisse
au lecteur le soin de le vérifier)
a = lE (X 1 X
j)
et
=IE(XIX
j +k-l).
350
VIII. TESTS D'ADEQUATION
Exercice II.3. Soit X J, ... , X n un échantillon d'une loi normale eN
(J!,
) dont les paramètres sont inconnus. On partage IR en k classes Ci
en choisissant a e IR et b > 0 et en posant
CI = ]-00, a], C2 = ]a, a + b], ... ,
Ck-l = ]a + (k - 3) b, a + (k - 2) b], Ck = ]a + (k - 2) b, +00[.
Pour tout élément i de {l,..., k}, on désigne par ni le nombre de
réalisations qui appartiennent à la classe Ci et l'on note <p(.; J!,
) la densité de la loi eN (J!,
). Montrer que la méthode du maximum de vraisemblance conduit au
système d'équations
( x cp( x ; Il, U \ dx 1 k J c . J!=-L ni 1 n i=1
f cp(x; Il, U 2 ) dx C. 1
f 2 2 (x - J!) cp(x; J!, a ) dx 2 1 k ci a = - L ni n i=1
f cp(x; Il, U 2 ) dx C. 1
La fonction de vraisemblance L s'écrit
n' 1 2 k (Pi(Il,U 2 ») L(nl' ... , n k ; J!, a ) = n! II , i= 1 n. ! 1
où
2 r 2 Pi( Jl, a ) = J _ cp(x; J!, a ) dx. c. 1
Son logarithme népérien
s'écrit 2 k 2
(nl' ... , n k ; Jl, a ) = K + L ni Log( Pi(J!, a », i=l
351
VUI. TESTS D'ADEQUATION
en posant
k K = Log(n!) - L Log(n i !). i=l
L'estimateur du maximum de vraisemblance est, en général, obtenu
en annulant les dérivées partielles de la fonction :;c par rapport à Jl
et a, ce qui conduit au système d 'équations
k 2 L ni à( Pi(J.J., U ) ) = 0, i=l 2 dJl Pi(Jl, a )
n. 1
2 d( Pi(Jl, a ) ) = O. da
k L i=l 2 Pi(Jl, a )
On a, en admettant que l'on peut dériver sous le signe d'intégration,
ce qui est aisé à justifier,
2 2 d( Pi(Jl, a ) ) 1 dcp(X; Jl, a ) = dx dJl c. dJl 1
1 X-Jl 2 = 2 cp(x; Jl, a ) dx Ci a
2 [ Li x cp(x ; 1.1., u 2 ) dx - 1.1. Pi(l.I., u\ ]
et
2 2 d( Pi(Jl, a » 1 dcp(X ; Jl, a ) = dx da c. da 1
1 [ 2 ] 1 (x - Jl) 2 = -
+ 3 cp(x ; Jl, a ) dx Ci a
1 [1 2 2 2 2 ] = "3 (x - Jl) cp(x; Jl, a ) dx - a Pi{f.l, a) , a Ci
352
VIII. TESTS D'ADEQUATION
d'où le système d'équations
k L L n. 1 1 i=1
2 x cp( x ; J!, a ) dx
2 Pi(J!, a )
k - J! L ni = 0, i=l
f 2 2 k (x - J!) cp(x; J!, a ) dx L Ci _ i=l 2 Pi(J!, a )
2 k a L ni = O. i=l
k Enfin, en tenant compte de L ni = n et en remplaçant Pi(J!, ( 2 ) par
son
i=l
expression, on obtient
f x cp(x ; J!, ( 2 ) dx 1 k c. J!=-L ni 1 n i=1
f cp(x; Il. u\ dx c. 1
f 2 2 (x - J!) cp(x; J!, a ) dx 2 1 k Ci a = - L n. 1 n i=l
f cp(x; Il. U 2 ) dx C. 1
Exercice II.4. On se propose de montrer (voir remarque II.1.1) que,
si XI,..., X n est un échantillon d'une loi Fe donnée et si les k classes
Ci sont fixées, la loi de la o statistique X2(80) converge, lorsque n
devient infini, vers la loi X 2 k-1' 1) On adopte les notations de la
section II.1 en posant, pour alléger,
(pI, ... , Pk) = ( Pl (8 0 ), ... , Pk(8 0 ) ).
353
VITI. TESTS D'ADEQUATION
Quelle est la loi du vecteur aléatoire (NI,... , N0 ? Montrer, grâce au
théorème de la limite centrale (théorème R1II.35) que la loi du
vecteur aléatoire l ( N 1 - npl Nk - nPk ) {fi
,...,
tend, lorsque n devient infini, vers une loi normale eN k(O, A) dont
on précisera la matrices des covariances A. 2) Soit (Y 1, ... , Y k) un
vecteur aléatoire de loi eN k(O, A ). Montrer que yi +... + Y
suit la loi X 2 k _ 1 . Pour cela, on précisera les valeurs propres de la
matrice A en remarquant qu'elle peut s'écrire sous la forme Ik - AA',
où Ik désigne la matrice unité d'ordre k et A une matrice colonne
dont les coefficients ai (1
k) vérifient k L a
= 1, et qu'elle peut donc être interprétée comme la matrice de la
projection i=l orthogonale de (Rk sur le sous-espace orthogonal au
vecteur (ab... , ak). En déduire que la loi limite de la statistique
X2(8o) est la loi X 2 k-l .
1) Chacune des composantes Nj du vecteur aléatoire (NI,..., Nk) est
égale au nombre des observations Xi (1
n) qui appartiennent à la classe C} On en déduit que la loi de (NI,... ,
Nk) est la loi multinomiale cMk(n; Pl, ... , Pk). On sait (exercice 5
chap. 1) que l'on peut considérer ce vecteur comme la somme de n
vecteurs aléatoires indépendants Vi de loi cMk(l; PI, ..., Pk). En
considérant une suite (Ui)i
1 de vecteurs aléatoires indépendants de loi cMk(l; PI, ... , Pk), on
peut appliquer le théorème R.III.3.5 et en déduire que le vecteur
aléatoire
1/
[(N l, ... , N k) - n lE (V i) ]
admet pour loi limite, lorsque n devient infini, la loi eN k(O, Ao), où
Ao est la matrice des covariances de chacun des vecteurs Vi. On
sait (exercice 5 chap. 1) que
lE (Vi) = (PI, ... , Pk)
o et que le terme général À.. de la matrice Ao est défini par IJ
o { p. ( 1 - p. ) À.. = J J IJ - Pi Pj
SI 1 = J , si i '# j
354
VIII. TESTS D'ADEQUATION
On en déduit que la loi limite du vecteur aléatoire
.lI N1 - np1 Nk - nPk ) Vii \ ip1 ,...,
est la loi eN k(O, A), où le terme général Àïj de la matrice A est défini
par
o À.. À" - IJ IJ - "Pi Pj ,
soit par
{ 1 - Pj À.. - IJ - _ " Pi Pj
SI i = j,
si i * j.
2) On remarque que l'on a A = Ik - AA', où A désigne la matrice
colonne à k k lignes dont les coefficients ai sont respectivement
égaux à
. On a bien L a
= 1 et, i=l laissant au lecteur le soin de vérifier la propriété
géométrique donnée dans l'énoncé, on peut préciser que la matrice
A admet les valeurs propres 1 et 0 avec les ordres de multiplicité
respectifs k - 1 et 1. Il existe donc une matrice orthogonale C telle
que la matrice C'AC soit une matrice diagonale D dont les k - 1
premiers termes de la diagonale sont égaux à 1 et le dernier nul.
Soit Y = (YI, ... , Y k) un vecteur aléatoire de loi eN k(O, A). Le
vecteur aléatoire Z = (Zl, ... , Zk) défini par Z = CY est de loi eN k(O,
D). Il a donc ses composantes indépendantes, les k - 1 premières
étant de loi eN (0, 1) et la dernière presque sûrement nulle. Puisque
C est orthogonale, on a
k k ( k-l )
Yf =
Zf =
ZJ p.s. , J=l J=l J=l
ce qui montre que la loi de y; + ... + Y
est la loi X 2 k-r On en déduit, puisque la loi limite de .l l N 1 - n PIN
k - nPk ) Vii \ ip1 ,..., v'Pk
est celle de Y, que la loi limite de
k21
(N. - np.) _ £.J J J = X2(8 ) . 0 n J=l p. J
355
VIII. TESTS D'ADEQUATION
2 2 . 11 ' 2 est celle de YI + ... + Y k' SOIt a 01 X k-1'
Remarque. La propriété que nous venons d'établir est connue sous
le nom de "théorème de Karl Pearson".
Exercice II.5. On se propose de montrer (voir remarque II.1.1) que,
si (N 1, ... , Nk) est un échantillon d'une loi multinomiale cM, k(n ; Pb
... , Pk), le test classique du khi-deux est asymptotiquement
équivalent au test du rapport des vraisemblances maximales
lorsqu'on teste l' hypothèse Ho: "(PI, ... , Pk) = (Pl0, ... , Pko)" contre
l' hypothèse Hl: "(Pb ... , Pk) * (P10, ... , Pko)". On rappelle que,
lorsqu'on teste l' hypothèse Ho: "8 = 8 0 " contre l' hypothèse HI : "8
* 8 0 ", le test du rapport des vraisemblances maximales est défini
par la région critique
{ L(X ; 8 0 ) < \ L(X ; ê) - Car
- où L désigne la fonction de vraisemblance de la loi de l'échantillon
considéré et 8 l'estimateur de maximLUn de vraisemblance.
Question préliminaire. Soit a = (al, ... , ak) un élément de (IR +)k et
soit f l'application de (IR lk dans IR définie par
k a. f(x) = L xi Log
, i= 1 Xi
où Xl, ... , X n sont les composantes de x. On pose
k k A = { X ; X e (IR +)k - {a), L Xi = L ai }. i= 1 i= 1
Montrer que
\:1 X e A,
f(x) < O.
On pourra étudier les variations sur [0, 1] de la fonction cp définie
par
cp(t) = f(x + tu),
où u est un élément de rR k tel que a + u e A.
356
VIII. TESTS D'ADEQUATION
Soit (N 1, ... , N k) un échantillon de la loi multinomiale cM k(n ; Pl, ...
, Pk). On pose, pour alléger la notation,
P = (pl, ... , Pk)
et
Po = (P10' ... , Pko)
et l' on teste l' hypothèse Ho: "p = Po" contre l' hypothèse HI: "p *
Po".
1) Rappeler quelle est la région critique du test du khi-deux
classique de niveau a (O<a < 1). 2) Déterminer, à partir du résultat
de la question préliminaire, le test <l>a du rapport des
vraisemblances maximales de niveau a (0 < a < 1). Montrer que sa
région critique tend, lorsque n devient infini, vers celle du test du khi-
deux. On sera amené à effectuer un développement à l'ordre deux
de lafonction "Log" au N. 1 voisinage de - . n
Question préliminaire.
On remarque que f(a) = 0, donc que cp(O) = O. On doit donc
montrer que cp(l) < O. Or on a
k cp'(t) = LUi (Log i=1
a. 1
- 1)
ai + t U i
et
k 2 cp"(t) = L - u i < O. i= 1 a. + t u. 1 1
La fonction cp' est donc décroissante sur [0, 1] et
k cp'(O) = - L u i = 0 i=1
puisque a + u e A et, donc,
k k L (a. + u. ) = La. . 1 1 1 i= 1 i= 1
On en déduit que la fonction cp' est négative sur ]0, 1], donc la
fonction cp décroissante sur [0, 1]. On a bien cp(l) < 0, soit
\:1 x e A,
f(x) < O.
357
VIII. TESTS D'ADEQUATION
1) On sait que le test classique du khi-deux de niveau a est défini
par la région
critique
k 2 L (Ni - n Pio) i=l n P . 10
c,a
où Ca est choisi tel que
.[
(Ni - n Pio) 2 J lim Po £.J
c = a, . l a n ---+ +00 1= n Pio
soit, d'après le résultat de l'exercice II.4,
ca = <x 2 k -1 r 1 (1 - a).
2) La fonction de vraisemblance L de la loi multinomiale est définie
par
n!
k II N. Pi 1. i=l
L(N l' ... , N k ; p) = k II Ni! i=l
k k II N.
On doit chercher le maximum de Pi)' soit celui de £.J Ni Log Pi
lorsque P i= l i= 1
varte, avec Pl + ... + Pk = 1. D'après le résultat de la question
préliminaire, on a
L k N. L k N. N. 1 1 1 - Log Pi
- Log -, i=l n i=l n n
en posant a = p et (xl' ... , X k ) = ( :1 , ... , :k ).
( N N ) " ." ,., . 1 k De plus, 1 egalIte n est reahsee que SI P = -;;-,...,
-;;- .
On a donc
p=( :l ,..., :k l
358
vnI. TESTS D'ADEQUATION
Le test <l>a est alors défini par la région critique
k TI i=l
N. 1 Pio
c' a
TI ( Ni ) N i i=1 n
ou encore par
{ f Ni ( Log Ni - Log Pi J
À. } , i=1 n 0 a
où Àa est choisi tel que
1im P [ f N. ( Log Ni - Logp. J
À ] = a. o. 1 10 a n
+oo 1=1 n
N. En développant la fonction "Log" à l'ordre 2 au voisinage de
, on obtient n N. n ( N' J 1 ( N. J 2 Log p. - Log
= - Pi -
- - Pi -
, 10 n N. 0 n 2 p '
0n11
avec
N. , ] 1 [ Pie -, Pi · n 0
Si l'on tient compte de la relation
k ( N J k k L Ni
Pi -
=nLPi -LNi=O, . l N. 0 n . 1 0 . 1 1= 1 1= 1=
on obtient pour région critique
{ k N. ( N. 2 } L
Pi' -
2À. , . l ,2 0 n a 1= p i
soit
! k Ni (Ni - n pio)2 ) L -
2À . i= 1 n n pIf a
359
VIII. TESTS D'ADEQUATION
Lorsque n devient infini,
N. 1 et P'i admettent Pi pour limite et la région critique o
devient
! k (N. _ n p. )2 )
1 10 £.J ;::: 2 À . . l a 1= n p. 10
On reconnait la région critique du test du khi-deux classique, ce qui
nous permet d'affirmer que les deux tests sont asymptotiquement
équivalents.
Exercice II.6. Démonstration des relations (11.5), (11.7), et (11.8) On
adopte les notations de la section II.2. 1) Montrer que les statistiques
D: et D
peuvent s'écrire
+ { 1 . } Dn = max
- Z(i) ; 1
n.
et
{ i-l } D
= max Z(i) - --;- ; 1
n.
2) Montrer que la statistique en de Cramer-von Mises peut se mettre
sous [aforme
1 n 2i _ 1 2 C n = - + L ( Z(i) - - J . 12n i=l 2n
3) Enfin, montrer que la statistique An de Anderson-Darling peut
s'écrire
1 n An = - n - -
(2 i - 1) Log( Z(i)( 1 - Z(n+l-i» ). n 1=1
Pour simplifier l'écriture, posons X(o) = - 00 et X(n+1) = + 00, d'où
Z(o) = 0 et Z(n+l) = 1.
1) On a, par définition,
+ Dn = sup (Fn(x) - Fe (x) ). xerR 0
Sur chacun des intervalles Ci = [X(i), X(i+l)[ (0
, l'intervalle étant ouvert à 1 gauche pour i = 0), la fonction Fn garde
la valeur constante et l'on a donc n
360
VIII. TESTS D'ADEQUATION
. . 1 1 SUp (Fn(x) - Fe (x) ) = - - Fe (X(i» = - - Z(i)" x E C. 0 non 1
On en déduit
+ { i . } { i . } Dn = max
- Z(i) ; 0
n = max
- Z(i) ; 1
n,
la suppression du terme (nul) relatif à i = 0 étant justifiée par le fait
que le terme 1 - Z(n) relatif à n est positif ou nul.
De la même façon, on a
1 sup (Fe (x) - Fn(x) ) = Z(i+1) - -, x E Ci 0 n
d'où
= max { Z(i+ 1) - : ; 0
n } = max { Z(i+ 1) - : ; 0
n - l},
puisque le terme relatif à i = n est nul et que celui relatif à i = 0 est
positif ou nul. En changeant i en i - 1, on obtient
{ i-l } D
= max Z(i) -
;1
n.
2) La statistique en de Cramer-von Mises est définie par
+00 C n = n f (F n (x) - F 9 (x) ) 2 dF 9 (x). o 0
On a donc
n I X(i+l). 2 Cn=n
-Fe (X» ) dFe (x) 1=0 X n 0 0 (i)
n l Z(i+l). 2 = n
( 2- - U ) du 1=0 Z n (i)
=;
[( : - Z(i) j- (: - Z(i+ 1) J ]
361
Vlll. TESTS D'ADEQUATION
[t(
- Z(i» ) 3 -
- Z(i+l» ) 3 ] 3 1=1 n 1=0 n
n [ . 3. 1 3 ] =
- Z(i» ) - (
- Z(i» ) . 3 1=1 n n
a+b a-b Etant donné deux nombres a et b, si l'on pose m = - et À = -,
on a 2 2
b 3 - a 3 = (m + À)3 - (m - À)3 = 2 À 3 + 6 À m 2 .
On peut donc écrire
i 3 i _ 1 3 1 3 6 2i _ 1 2 ( -; - Z(i») - ( -;- - Z(i) ) = 2 ( 2n ) + 2n ( Z(i) -
2;"' ),
d'où
n n [ 1 3 2i-l 2 ] 1 n 2i-1 2 C =-L -+- z. -- =-+L Z.-- n 3 i= 1 4 n 3 n (
(1) 2 n) 12 n i= 1 (1) 2 n ).
3) Enfm, la statistique de Anderson-Darling est définie par
2 f +oo (Fn(x) - F9 (x) ) o An = n dF 9 (x) F (x) ( 1 - F (x» 0 -00 9 0 9
0
et l'on a donc, en utilisant la même méthode qu'à la question 2,
. 2 _ n 1 Z(i+ 1 ) (
- u ) An - n L du. i=O Z(i) u (1 - u)
Soit À un nombre réel. On a
2 2 2 (À - u) À (À - 1) =-1+-+ u (1 - u) u 1 - u
362
Vlll. TESTS D'ADEQUATION
d'où
f 2 (À - U) 2 2 du = - u + À Log 1 u 1 - (À - 1) Log 1 1 - u 1. u (1 - u)
En tenant compte des termes nuls, on a donc
[ n n . 2 Z n-1. 2 1 Z J 1 (i + 1) 1 - (i + 1)
=n
( Z(i) - Z(i + 1) ) +
( - ) Log -
( - - 1 ) Log 1=0 1= 1 n Z(i) 1=0 n 1 - Z(i)
1 n 1 n-1 = - n + -
i 2 ( Log Z(i + 1) - Log Z(i) ) - -
(n - i)2 ( Log (1 - Z(i + 1» - Log (1 - Z(i
). n 1=1 n 1=0
On peut écrire
nnn
i 2 ( Log Z(i + 1) - Log Z(i) ) =
i 2 Log Z(i + 1) -
i 2 Log Z(i) 1=1 1=1 1=1
n-1 n =
i 2 Log Z(i + 1) -
i 2 Log Z(i) 1=0 1= 1
nn=
(i - 1)2 Log Z(i) -
i 2 Log Z(i) 1= 1 1= 1
n=-
(2i - 1) Log Z(i)" 1=1
De même, on écrit
n-l
(n - i)2 ( Log(l - Z(i + 1» - Log(l - Z(i) ) ) 1=0
n-l n-l =
(n - i)2 Log(1 - Z(i + 1) -
(n - i)2 Log(1 - Z(i» 1=0 1=0
n=
«n - i + 1)2 - (n - i)2) Log(l - Z(i» 1=1
n=
(j2 _ Ci - 1)2) Log(1 - Z(n+l_j» J=1
363
Vlll. TESTS D'ADEQUATION
n=
(2 j - 1) Log(1 - Z(n+l_j»' J=l
après avoir posé j = n - i + 1.
On a donc
1[nn]
=-n--
(2 i - 1) Log Z(i) +
(2 j - 1) Log( 1 - Z (n+ I-j» , n 1=1 J=l
soit
1 n An=-n--
(2i-l)Log(Z(i)(I-Z(n+l_i»))' n 1=1
Exercice II.7. Soit Xl'''.' X n un échantillon empirique d'une loi F dont
le support est l'intervalle [0, 1]. Proposer un test de l' hypothèse Ho:
"F = U [0, 1]" contre l' hypothèse HI : "F est une loi exponentielle
tronquée", c'est-à-dire une loi Fk (k * 0) dont la densité f k est définie
par
fk(X) = K e kx 11 [O.1](x).
On pourra, par exemple, considérer le test du rapport des
vraisemblances.
On calcule
K= 1 f ekx dx o
-- k e - 1
et l'on remarque que, puisque Fk est définie sur [0, 1] par
eh - 1 Fk(x) = k ' e - 1
la loi U[O, 1] n'est autre que la limite de la loi Fk lorsque k tend vers
O. Le test du rapport des vraisemblances est défini par la région
critique
{ Lk(X) } Lo(X)
ca '
364
VIII. TESTS D'ADEQUATION
où Lo et Lk désignent les fonctions de vraisemblance relatives aux
deux hypothèses. D'où, puisque Lo(X) = l,
(ek\J
n k LXi i=l e
c,a
soit
nk1
e - k£.J Xi
Logc +nLog-. i= 1 a k
La forme de la région critique dépend du signe de k. Plus
précisément, si l'hypothèse HI est limitée aux lois Fk avec k > 0 ou k
< 0, on obtient un test unilatéral dont la région critique est de la
forme
Xn
aa SI k > 0,
Xn
aa si k < o.
Si l'hypothèse HI contient toutes les lois Fk pour k * 0, on peut
proposer un test bilatéral dont la région critique est de la forme
{ Xn
aa} U { X n
ba},
avec 0 < aa < b a < 1. La détermination de aa (et de b a dans le cas
du test bilatéral) nécessite la
n connaissance de la loi de X n , ou encore de L Xh sous
l'hypothèse Ho' Cette loi n'est i=1 pas simple, mais il en existe des
tables. Toutefois, pour des valeurs suffisamment grandes de n, on
peut utiliser une approximation normale puisque, d'après le
théorème de la limite centrale (théorème R. 111.3.5), la loi limite de
X n - lEo( X n ) =
V o(X n )
( Xn -
est la loi eN (0, 1). On obtient donc, dans le cas du test unilatéral,
l 1 -1 aa= - <1> (I-a) 2
si k < 0,
365
vnl. TESTS D'ADEQUATION
aa == l + 1 <1>-1(1_ a) 2 f12;;
si k > 0,
en désignant par <1> la fonction de répartition de la loi eN (0, 1).
Enfin, dans le cas du test bilatéral, on pose
1 aa = - - Âa et 2
1 ba. = - + Àa 2
et l'on obtient
Àa
1 <I>-l(I_
). f12;; 2
Exercice II.8. (suite de l'exercice II. 7) On reprend l'énoncé de
l'exercice II. 7 en supposant, maintenant, que la loi Fk est la loi
J31(k+ 1, 1) (k>-I,k*O). On étudiera, de plus, le test du rapport des
vraisemblances maximales (voir exercice 115) et on le comparera au
test du rapport des vraisemblances.
Le densité f k de la loi Fk est ici définie par
fk(X) = (k + 1) xk 11 ]O.l[(x)
et la loi U [0, 1] n'est autre que la loi F O' Le test du rapport des
vraisemblances est défini par la région critique
n (k+ 1)n (II Xi)k
ca' i=1
soit
n k L Log Xi
Log Ca - n Log(k + 1). i=1
Ici encore, on peut proposer un test unilatéral si 1 'hypothèse HI se
limite aux lois Fk telles que k > 0 ou -1 < k < 0 et un test .bilatéral
sinon. D'autre part, un calcul simple montre que, si une variable
aléatoire X est de loi 131 (k+ 1, 1), alors Y = - Log X suit la 1 loi
exponentielle de paramètre -. On adopte la statistique k+l
366
Vlll. TESTS D'ADEQUATION
n T = - 2 L Log Xi i=l
dont la loi, sous 1 'hypothèse Ho, est la loi r(n, 2), soit la loi X22n'
Les tests unilatéraux sont alors définis par
(X 2 2n r 1 (a) T
(X 2 2n r 1 (1 - a)
si
k > 0,
SI
- 1 < k < O.
Un test bilatéral est défini par une région critique de la fonne
{T
aa} U {T
b a },
avec 0 < aa. < ba.. On doit avoir
(1)
(X 2 2n )(éla) + 1 - (X 2 2n )(ba.) = a
et l'on peut, de plus, imposer au test d'être sans biais, c'est-à-dire tel
que sa fonction puissance P vérifie
(2)
dp 1 - =0 dk k=O .
La loi de T, sous l'hypothèse HI' est la loi r(n, k
1 ) et l'on a donc
P(k) = X 2 2n ( (k + 1) éla) + 1 - X 2 2n ( (k + 1) b a ).
Un calcul simple qu'on laisse au lecteur le soin d'expliciter montre
que la condition (2) devient
(3)
2 n Log aa - aa = 2 n Log b a - b a
et il est alors possible de montrer qu'il existe un couple (éla, ba.) et
un seul vérifiant (1) et (3) et tel que 0 < éla < b a .
Le test du rapport des vraisemblances maximales est défini (voir
exercice II. 5) par une région critique de la forme
1 Ii (X) > 1 Lo (X) - Ca ,
367
VIII. TESTS D'ADEQUATION
- où k désigne l' estimateur de maximum de vraisemblance. On
obtient aisément,
- 2n k = - - 1, T
d'où une région critique définie par
(2n)(T)2nT-1-2
Log ca - n Log T'
ou encore par
T T 1 - - Log -
1 + - Log c . 2n 2n n a
On vérifie alors que la fonction <p définie pour x > 0 par
<p(x) = x - Log x
passe par un minimum égal à 1 pour x = 1. Il s'ensuit que, si ca> 1,
la région critique est de la forme
{T
aa} U {T
b ex },
avec 0 < au. < b a et
<p ( aa J = <p ( b ex J = 1 +
Log c . 2n 2n n a
Les nombres
et b a sont donc liés par la relation
a a b b a ex a a - - Log - = - - Log -, 2n 2n 2n 2n
d'où
2 n Log a ex - aa = 2 n Log b a - b a .
On retrouve la relation (3), ce qui montre que ce dernier test a la
même régior critique que celui obtenu plus haut. Cette propriété est
d'ailleurs vérifiée par une largt famille de lois. On pourra, à ce sujet,
consulter Lehmann (1959).
368
VIII. TESTS D'ADEQUATION
Exercice 111.1. Supposons que le test du khi-deux soit adopté
comme test de normalité (voir section III.l.a). Etant donné un
échantillon X}, ... , X n , on considère les k classes Ci suivantes
] - -1 1 ] CI = -00, X n + <1> (-) Sn , k
\:lie {l, ... ,k-l},
] - -1 i - 1 - -1 i ] Ci = X n + <1> (-) Sn, X n + <1> (-) Sn k k
] - k-l ] Ck = X n + <I>-l( - ) Sn, + 00 , k
où <1> désigne lafonction de répartition de la loi eN (0, 1). Montrer
que, sous l' hypothèse Ho, c'est-à-dire si l'échantillon est celui d'une
loi normale eN 0.1, ( 2 ), la loi de la statistique X2( Xn , S
) ne dépend pas du paramètre 2 (Il, a ).
On a, par définition,
k - 2 2 X2 ( X S2 ) =
(Ni - n Pi(X n , Sn) ) n, n
- 2 i=1 n Pi(X n , Sn)
où, pour tout élément i de {l,..., k}, Ni désigne le nombre
d'observations qui appartiennent à la classe Ci et Pi( X n , S
) la probabilité de la classe Ci lorsque 2 _ - 2 (Il, a ) - (X n , Sn). Pour
alléger la notation, appelons ai(X) et bi(X) les bornes de la classe Ci
(1
k). On a donc, en posant <1>-1(0) = -00 et <1>-1(1) = +00 et en
désignant par <p(. ; Il, ( 2 ) la densité de la loi eN (Il, ( 2 ),
bi(X) Pi( X n . S
) = f q>(x ; Xn . S
) dx. ai(X)
. x - X soIt, en posant t = Sn n ,
_J
_l(
'l(
) Pi(X n , S
) = <p(t ; 0, 1) dt = [ <1>(t)] -1 i-l
-T
l)
(k)
369
Vlll. TESTS D'ADEQUATION
d'où
2- 2 k
( n ) 2 X (X n , Sn) = - £.J Ni - - . n i= 1 k
Posons
\;fje {1,...,n},
X ' .= J
X j - Il -, a
de telle sorte que X'I, ... , X ' n est un échantillon de la loi .N (0, 1).
On a alors
n - 1 X' X ' -
X '. - n - Il n--£.J - n . 1 J a J=
et
1/2 S' = [ 2. i (X' . _ X ' )2 ] n n. J n J=l
Sn
=
Pour l'échantillon X'I,..., X ' n , les bornes des 'classes deviennent
- -1 ( i ) X n + <1> - Sn - Il . k = X' + <1> -1 ( 1... ) S' 0' n k n
et elles ne dépendent pas du paramètre (Il, c?-). On peut donc en
conclure que, sous 1 'hypothèse Ho, la loi de la statistique X2( Xn ,
S
) ne dépend pas du paramètre (Il, c?-) puisque cette statistique n'est
autre que
k k 2 - L ( Ni - !: ) , n i= 1 k
où Ni (1
k) désigne le nombre d'éléments d'un échantillon X'},..., X'n de la loi
eN (0, 1) qui appartiennent à la classe
] - 1 i-l - 1 1 ] C'i = X ' n + <1>- ( - ) Sn, X ' n + <1>- ( - ) Sn , k k
la classe C'k étant ouverte à droite.
Remarque. Plus généralement, si la loi de l'échantillon est continue
et si l'on définit les classes Ci de façon analogue, la statistique X2(
Xn , S
) ne dépend pas du paramètre de
370
VIII. TESTS D'ADEQUATION
localisation-échelle de cette loi. Il n'est donc pas étonnant que nous
constations ici que cette statistique ne dépend pas du paramètre (Jl,
) lorsque la loi de l'échantillon est normale.
Exercice 111.2 Question préliminaire. Soit (X, Y) un vecteur aléatoire
gaussien dont les composantes sont centrées réduites et de
coefficient de corrélation égal à r. Montrer que
IE(X 4 y4) = 3 (3 + 24 r 2 + 8 r 4 ).
Pour éviter de longs calculs, on pourra procéder par
conditionnement en sachant que, si (X, Y) est un vecteur gaussien,
la loi de X sachant Y = Y est la loi
( -V V (X) 2 ) eN IE(X) + r V(Y) (y - IE(Y), (1 - r ) V(X) .
Etant donné un échantillon Xl, ... , X n d'une loi normale Jl 0.1,
), on considère la statistique B2,n définie par
_1
(Xi - Xn )4 B2.n - - £.J 4 ' n i=1 Sn
1) Montrer que la statistique B2,n est libre relativement au paramètre
0.1,
). En déduire que les statistiques B2,n et S
sont indépendantes grâce au théorème suivant dû à Basu (voir, par
exemple, Lehmann (1983)). Théorème. Soit T une statistique
complète et exhaustive pour une famille {Fe; e e e}. Alors toute
statistique libre (c'est-à-dire dont la loi ne dépend pas de e) est
indépendante de T.
2) En utilisant les résultats de la question 1, en particulier en
supposant que 2 (
, a ) = (0, 1), montrer que
n - 1 lE (B 2 ) = 3 - .n 1 n+
3) En utilisant, de plus, le résultat de la question préliminaire,
calculer lE (B 2 2 ) et en .n déduire que
24 n (n - 2) (n - 3) V (B 2 n) = . · (n + 1)2 (n + 3) (n + 5)
371
VIII. TESTS D'ADEQUATION
Question préliminaire. Ecrivons que
IE(X 4 y4) = IE( IE(X 4 y41 Y) ] = IE[ y 4 1E(X 4 1 Y) ].
La loi de X sachant Y = Y est, ici, la loi cH (r y, 1 - r 2 ) et l'on doit
chercher le moment d'ordre 4 de cette loi. Plus généralement, si Z
est une variable aléatoire de loi cH (m,
), on a, en posant U = Z - m,
lE(r) = IE( (m + U)4) = lE(m 4 + 4 m 3 U + 6 m 2 U 2 + 4 m U 3 + U 4
) = m 4 + 6 m 2 1E(U2) + IE(U 4 ) = m 4 + 6 m 2 a 2 + 3 a 4 ,
cette égalité étant encore vérifiée si a = 0, c'est-à-dire si Z suit la loi
de Dirac en m. On a donc, en toute généralité (-1
1),
IE(X 4 1 Y = y) = r 4 y4 + 6
y2 (1 -
) + 3 (1 _
)2,
soit
lE (X 4 1 Y) = r 4 y4 + 6
(1 -
) Y 2 + 3 (1 - r'l)2,
d'où
lE (X 4 y4) = lE ( r 4 y8 + 6
(1 _
) y6 + 3 (1 _ r'l)2 y4 ).
On sait que
\;f P E lN.,
lE(y2p) = 1.3.5... (2p - 1)
et l'on obtient donc
IE(X 4 y4) = 105 r 4 + 90
(1 -
) + 9 (1 _
)2 = 3 (3 + 24
+ 8 r 4 ).
1) Pour montrer que la statistique B2,n est libre relativement au
paramètre (
,
),
posons
\;fiE {1,...,n},
X. -
, 1 X.=- 1 a
372
VIII. TESTS D'ADEQUATION
de façon que X'I, ... , X'n soit un échantillon de la loi eN (0, 1). On a
alors, avec des notations évidentes,
X , - (X n - Jl) n- a
et
S'2 = S
n2'a
d'où
B'2.n = B2.n ,
ce qui montre que la loi de B2.n ne dépend pas du paramètre (Jl, ( 2
). On peut, d'ailleurs, faire à propos de la statistique B2.n la même
remarque que celle que nous avons faite à la fin de l'exercice
précédent concernant la statistique X2 (X n, S
).
D'autre part, on sait que la statistique (X n , S
) est complète et exhaustive pour la famille des lois normales. Le
théorème de Basu nous permet alors d'affirmer que les statistiques
B2.n et ( X n , S
), donc les statistiques B2,n et S
, sont indépendantes.
2) On peut supposer que (Jl,
) = (0, 1) pour le calcul de lE (B2,n). On a
lE (B2,n S
) = lE (B2.n) lE (S
),
d'où
lE ( i(X i - x i J 1 i=l lE (B 2 n) = - . , n IE(S
On sait que n S
suit la loi X? = r( n - 1 , 2), d'où n-l 2
2 4 4 n-l ( n-l J n-l IE(S )=- - -+ 1 =-. n n 2 2 2 n 2
De plus,
-4 -4 IE( £.J (Xi - X n ) ) = n IE( (XI - X n ) ) i=1
et
_ 1 1 1 X 1 -X n =(1--)X 1 --X2-". --X n . n n n
373
VIII. TESTS D'ADEQUATION
On en déduit que la loi de (X 1 - X n ) est la loi
( 2 J 1 n-l n-l oN 0, ( 1 -
) + 7 = N ( 0, --;; ).
d'où
lE - 4 ( n - 1 ) 2 ( (Xl - X n ) ) = 3 --;; ,
et, enfin,
( n - 1 ) 2 n2 n - 1 IE(B2.n)=3 -
=3 . n n-l n+l
3) On procède de la même façon pour calculer lE (B
.n)' On a
2 1 IE(B 2 ) =- ,n 2 n
E[(
(Xi - X n)4 J]
lE (S:)
En outre,
8 2 4 n - 1 ( n - 1 ) ( n - 1 ) ( n - 1 ) E(Sn) = n 4 2 2+ 1 2+ 2 2+ 3
(n - 1) (n + 1) (n + 3) (n + 5) = 4 n
et
n n IE[( L (Xi - Xn )4 )2] = IE[ L (Xi - Xn )8 + L (Xi - X n ) (X J - X n )]
i= 1 i= 1 i;tj
-8 -4 --4 = n IE(XI - X n ) ) + n (n - 1) IE(XI - X n ) (X2 - X n ) ).
Pour le premier terme de cette somme, nous avons
4 4 - 8 ( n - 1 ) (n - 1) E«XI - X n ) ) = 3.5.7 --;; = 105 n 4
et, pour calculer le second, nous utilisons le résultat de la question
préliminaire. En effet (XI - X n , X2 - X n ) est un vecteur gaussien
puisqu'il est l'image par une application linéaire du vecteur gaussien
(Xl, ... , X n ). On a
374
VIII. TESTS D'ADEQUATION
- - n-l V(X 1 - X n ) = V(X2 - X n ) = - n
et
Cov(X 1 - X n , X2 - X n ) = - 2 Cov(X}, X n ) + V( X n )
2 - = - - V(Xl) +V(X n ) n
211 = - - + - = - -, n n n
d'où
- - 1 r = Corr(X 1 - X n , X2 - X n ) = - - n - 1
et
4 E«XI - Xn )4 (X2 - Xn )4) = (n - 4 1 ) E(x 4 yi) n
4 . 3 (n - 1) ( 24 8 J = 3 + + 4 2 4 n (n - 1) (n - 1)
3 = 4 ( 3 (n - 1)4 + 24 (n - 1)2 + 8 ). n
De ces divers résultats, on déduit
[
] (n - 1)4 3 (n - 1) lE (£.J (Xi- X n )4)2 =105 3 + 3 (3(n-1)4+24(n-
1)2+8) i=l n n
3 (n - 1) = 3 (3(n-l)4+35(n-1)3+ 2 4(n-1)2+8) n
3 (n - 1) = 2 (3 n 3 + 23 n 2 - 63 n+ 45). n
On a donc
3 2 lE 2 _ 3 n + 23 n - 63 n + 45 (B 2 n) - 3 , , (n + 1) (n + 3) (n + 5)
d'où, enfin,
322 3 n + 23 n - 63 n + 45 (n - 1) V(B 2 ) = 3 - 9 ,n (n + 1) (n + 3) (n +
5) (n + 1) 2
375
VIII. TESTS D'ADEQUATION
24 n (n - 2) (n - 3) = (n + 1)2 (n + 3) (n + 5)'
Remarque. Cette variance est nulle pour n = 2 et n = 3, ce qui
signifie que, dans ces deux cas, B2.n ne dépend pas des Xi et est
égal à son espérance calculée à la question 2. Ce résultat est
évident si n = 2, puisque, si a et b sont deux nombres opposés, on a
a 4 + b 4 2 a 4 1 (a 2 + b 2 )2 = 4 a 4 = 2"
Il est moins évident pour n = 3. On pourra, toutefois, vérifier
aisément que, si a, b et c sont trois nombres de somme nulle, on a
bien
a4+b4+c41
(a 2 + b 2 + c 2 )2 2
Exercice 111.3. Etant donné un échantillon XI, ... , X n d'une loi F, on
considère la statistique SW n de Shapiro- Wilk (voir section III.l.d)
définie par
-2 an (a' B-l a)2 SW n = n S
(a' B-2 a)2
( t ai X(j) ) 2 1=1
2 n Sn
On rappelle (section VII.l.b chap. Ill) que
a' B- 1 X(.) an = a' B- 1 a et que, si Y(1), ... , Y(n) désigne un
échantillon ordonné de la loi eN (0,1), la matrice a est la matrice
colonne dont le terme de la ligne i est IE(Y(i» et la matrice B est la
matrice carrée d'ordre n dont le terme général est Cov(Y(i), y (j». l)
Montrer que la statistique SW n est invariante par translation et par
homothétie. 2) Montrer que SW n
1.
1) On a
2 _ (a'B- 1 X(.»2 _ 1 [ a'B-l X(.) J SW n - 2 2 -
n Sn ( a' B- a) n Sn j a' B- 2 a
1
( f ai X(i) J 2, 1= 1
--- S 2 n n
376
VIII. TESTS D'ADEQUATION
où la matrice colonne a constituée par les ai est définie par
a' B- 1 a'= =Àa'B- 1 , j a' B- 2 a
en posant À = (a' B- 2 ar 1 /2. Remarquons bien, en effet, que la
forme quadratique associée à B- 2 est définie positive puisque
a' B- 2 a = (a' B- 1 ) (B- 1 a) = (B- 1 a)' (B- 1 a).
Pour montrer l'invariance de SW n par translation, considérons un
nombre réel m et posons
\;f ie {l,..., n},
X'i = Xi - m.
On a alors, avec des notations évidentes,
X' n = X n - m,
S'
= S2n
et
1 SW' =- n S ,2 n n
( t ai X'(i J ) 2 1=1
2-n
.
(
ai (X(i) - m) ) .
Or
nn
a. = a' 1 = À a' B- 1 1 = À a' 1 = À
a. = 0 £.J 1 £.J 1 ' i= 1 i= 1
d'après les résultats de l'exercice VII.2 chap. III. D'où
SW'n = SW n .
De même, montrons l'invariance de SW n par homothétie. On
considère un nombre réel k non nul et l'on pose
\;f i e {l,..., n},
X'i = k Xi .
On a alors
X'n = k X n
et
S'
= k 2 S2n
377
VIII. TESTS D'ADEQUATION
d'où
2 SW n ' =
2 ( tai X'(i» ) . n k S 1=1 n
Si k > 0, on a
\;f i E {l, ..., n},
X' (i) = k X(i),
d'où SW'n = SW n .
Si k < 0, on a
\;f i E {l,..., n},
X' (i) = k X(n+ l-i)
et
2 SW'n = I S 2 ( t ai X(n+l.i J ) n n 1=1
2-
( t a,,+l.i X(iJ ) . n Sn 1=1
Montrons que l'on a
\;fie {1,...,n},
an+ 1- i = - ai,
ce qui entraîne SW'n = SW n.
Soit J la matrice carrée d'ordre n dont tous les termes sont nuls sauf
ceux de la diagonale non principale qui sont égaux à 1. On a,
d'après les résultats de la question 4 de l'exercice VII. 1 chap. III,
B = JBJ
et
a =-Ja.
On en déduit
B- 1 = (J B J rI = J B- 1 J
et
a = Â, B- 1 a = Â, (J B- 1 J a) = - Â, J B- 1 (- J a) = - Â, J B- 1 a = - J
a,
ce qui est la relation cherchée.
378
VIII. TESTS D'ADEQUATION
2) Puisque la somme des ai (1
n) est nulle, on peut écrire
ai (X(i) - Xn ) ) 2 SW = 1=1 n n . L (X(i) - xn f i=1
D'après l'inégalité de Cauchy-Schwarz, on a
n n n ( L ai (X(i) - X n ) )2
L a? L (X(i) - Xn )2. i=1 i=1 i=l
De plus
n L a? = a' a = 'A,2 a' B- 1 (a' B- 1 )' = 'A,2 a' B- 2 a = 1. i=1
On a donc bien
SW n
1.
Remarque. L'énoncé de cet exercice, tel qu'il figure dans le tome 1,
propose également l'inégalité
2 n al -
SWn n-l
que nous n'avons pas reprise ici. En effet, la démonstration de cette
inégalité, due à Mallows, est simplement résumée dans Shapiro-
Wilk (1965). Elle fait appel à des considérations de convexité et se
termine par des vérifications numériques. A notre connaissance,
aucune autre démonstration n'en a été publiée.
Exercice 111.4. Soit XI,..., X n un échantillon d'une loi F. On
considère n nombres réels ai (1
n) et l'on pose
n y = L ai Xi. i=1
1) On suppose que la loi F admet un moment d'ordre 3 . Montrer que
le coefficient d'asymétrie de la loi de Y est plus proche de 0 que celui
de la loi F. Appliquer ce résultat aux résidus ei (section 111.4).
379
VIII. TESTS D'ADEQUATION
2) En supposant maintenant que la loi F possède un moment d'ordre
4, montrer que le coefficient d'aplatissement de la loi de Y est plus
proche de 0 que celui de la loi F et appliquer ce résultat aux résidus
1) Le coefficient d'asymétrie de la loi d'une variable aléatoire X est
défini par
lE ( ( X - lE (X) )3 ) K(X) = 3 ' cr (X)
où cr(X) = Y V(X) . On peut supposer la loi F centrée, quitte à
remplacer Xi par Xi - lE (Xi). La loi de y est également centrée et l'on
a
n V(Y) = CL a?) a 2 (X 1 ) i=1
et
E(y3) = E[(
ai xjJ] = (
a/ J E(X 1 3 )
puisque les termes X? Xj (i * j) et Xi Xj Xk (i, j et k distincts) ont une
espérance mathématique nulle. On a donc
n La. 3 1 i=1 K(Y) = 3/2 K(X) ( t aj2 J 1=1
et il nous reste à montrer que
( t a/ J 2
( ta/ J 3. 1= 1 1= 1
Or
( i ai2 J 3- ( i a/ J 2=3 L (aj4a2+a/a.
+6 L a j 2 a 2 a; -2 L a j 3 a j 3 i=1 i=1 l
i.:::j
nJJ1
i<j<k
nJ1
i<j
22 2 2
222 = £.J a. a. (3 a. - 2 a. a. + 3 a. ) + 6 £.J a. a. a k 1 J 1 IJ J 1 J 1
i<j
n1
i<j<k
n
et cette quantité est positive puisque le trinôme 3 x 2 - 2 x + 3 est
positif.
380
VIII. TESTS D'ADEQUATION
On a bien
1 K(Y) 1
1 K(X) 1
et ce résultat peut être appliqué aux résidus ei qui sont des
combinaisons linéaires des €j eux-mêmes indépendants et de même
loi supposée posséder un moment d'ordre 3.
2) Le coefficient d'aplatissement de la loi d'une variable aléatoire X
est défini par
lE ( ( X - lE (X) ) 4 ) y(X) = 4 - 3. cr (X)
Ici encore, nous pouvons supposer la loi F centrée. On a alors lE (Y)
= 0 et
lE(y4) = lE [ ( t ai Xi ) 4 J = ( t aj4 ) IE(X:) + 6 (
a i 2 a j 2 ) cr 4 (X), 1=1 1=1 1
I<J
puisque tous les autres termes du développement ont une
espérance mathématique nulle.
On en déduit 2 ( t 3;4 ) IE(X:) + 6 (
a i 2 a/ ) cr 4(X) - 3 ( t aj2 ) cr 4(X) 1=1 1
I<J
n 1=1 y(Y) = 2 (
a i 2 ) U 4 (X)
3;4) E(X:)-3(
a;4)u 4 (X)
a j 4 = = y(X) 2 2 (
aj2) u 4 (X) (
aj2)
et l'on a bien
1 -y(Y) 1
1 y(X) 1
pUIsque
2 ( i a.2 ) -
a. 4 = 2
a. 2 a 2 > O. 1 £.JI £.J 1 J- i=1 i=1 1
i<j
Le résultat obtenu peut, bien sûr, être appliqué aux résidus ei.
381
Bibliographie
Ali M.M. (1976). Geometric proof of a bound in order statistics. La
revue canadienne de statistique, 4,315-318.
Ali M.M., Mikhaïl M.N., Haq M.S. (1978). A class of bivariate
distributions including the bivariate logistic. J. multivariate analysis,
8, 405-412.
Hoog R.V. (1974). Adaptative Robust Procedures: A partial review
and some suggestions for future applications and theory. J. Amer.
Statist. Assoc., 69, 909-923.
Kubat Peter (1979). Mean or median ? (A note on an old problem).
Statistica Neerlendica, 33, 191-196.
Lehmann E.L. (1964). Asymptotically nonparametric inference in
some linear models with one observation per cell. Ann. Math.
Statist., 35, 726-734.
Sarhan A.E., Greenberg B.G. (1956). Estimation of location and
scale parameters by order statistics from singly and doubly censored
samples. Ann. Math. Statist., 27, 427-451.
Yanagimoto Takemi, Okamoto Masashi (1969). Partial orderings of
permutations and monotonicity of a rank correlation statistic. Ann.
Inst. Statist. Math., 21, 489-506.
383