0% ont trouvé ce document utile (0 vote)
29 vues940 pages

Methodes Et Modeles en Statisti - Inconnu (E)

Transféré par

Cheikh Goumbala
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
29 vues940 pages

Methodes Et Modeles en Statisti - Inconnu (E)

Transféré par

Cheikh Goumbala
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

@ Bordas, Paris, 1988 ISBN 2-04-018650-6 Pour les Presses de

l'Université Laval ISBN 2-7637-7224-2

"Toute représentation ou reproduction, intégrale ou partielle, faite


sans le consentement de l'auteur, ou de ses ayants-droit, ou ayants-
cause, est illicite (loi du 11 mars 1957, alinéa 1 er de l'article 40).
Cette représentation ou reproduction, par quelque procédé que ce
soit, constituerait une contrefaçon sanctionnée par les articles 425 et
suivants du Code pénal. La loi du 11 mars 1957 n'autorise, aux
termes des alinéas 2 et 3 de l'article 41, que les copies ou
reproductions strictement réservées à l'usage privé du copiste et non
destinées à une utilisation collective d'une part, et, d'autre part, que
les analyses et les courtes citations dans un but d'exemple et
d'illustration."

Avant - Propos

Ce tome 2, sous-titré "exercices et compléments" fait suite au tome


1 qui porte le même titre et qui est sous-titré "exposé fondamental".
n en reprend le plan et ses différents chapitres portent le même titre
que ceux du tome 1, à l'exception du chapitre 1. En effet, ce dernier,
intitulé "Introduction" dans le tome 1, ne se prête pas à des
compléments et nous avons jugé intéressant de présenter en tête de
l'ouvrage des exercices de probabilité, en particulier les études
détaillées de quelques lois classiques. Nous avons souvent eu à
nous y référer dans la suite.

La plupart des exercices proposés, hormis, bien sûr, ceux du


chapitre 1, sont déjà répertoriés à la fin de chaque chapitre du tome
1. On les retrouve donc ici, avec le même numéro, mais souvent
avec un énoncé plus détaillé et plus complet. Nous leur avons ajouté
d'autres exercices et quelques exemples numériques.

Le lecteur rencontrera fréquemment des références pour lesquelles,


en général, le numéro du tome n'est pas précisé car il est sans
ambigüité. C'est ainsi qu'une référence à un théorème, à une
formule ou à une remarque est relative au tome 1, tandis qu'une
référence à un exercice se rapporte au tome 2. De plus, le numéro
du chapitre de référence n'est donné que s'il est différent de celui
dans lequel se trouve la référence en question. Ceci, bien sûr, dans
le but d'alléger la rédaction.

Une courte bibliographie figure à la fin de l'ouvrage. Elle ne


concerne que les textes signalés dans le cours de ce tome 2 et qui
ne figurent pas déjà dans la bibliographie du tome 1.

Les notations sont les mêmes que celles du tome 1. C'est ainsi que
nous avons conservé la notation "Log" pour le logarithme népérien
et la notation" -" pour la différence, en général propre, de deux
ensembles.

Enfin, trois pages de ce volume sont consacrées à des errata du


tome 1 que nous avons rencontrés ou qui nous ont été
obligeamment signalés par des lecteurs que nous tenons à
remercier ici. Souhaitons, sans trop y croire, que cette liste soit
exhaustive. .. Et, bien qu'aucun tome 3 ne
v

soit prévu pour signaler les errata, certainement nombreux, du


présent ouvrage, nous demandons à nos lecteurs attentifs de nous
en faire part lorsqu'ils en découvriront.

Qu'ils soient d'avance remerciés, ainsi que les Editions Dunod qui
ont accueilli nos deux ouvrages dans la collection "Dunod Décision",
sans oublier non plus les Presses de l'Université Laval.

Philippe Capéraà Université Laval, Québec

Alain Baille et Bernard Van Cutsem Université Joseph Fourier,


Grenoble

VI

Errata du tome 1

au lieu de

page 51 ligne + 8
F<sG

page 57 ligne -7

. .. = f(O) / g(O) = 1.

page 86 légende du tableau 10 Table 10. Valeurs du niveau de


t*max pour quelques lois usuelles

page 114 ligne + 14

1 'hypothèse "G"

page 144 ligne -2

T h(N) - Jlh(N) (9) lim P( ) = <I>(x), N

cr h (N/ 9 )

page 154 Table 6 première ligne troisième colonne


1t 2 /3

troisième ligne troisième colonne

page 177 ligne + 12

2 2 c (1 - c) -+ m-l n-l

2 sI m

c= 2 2 ' sI s2 -+- m n

vn

lire

F<r G
. .. = f(O) / g(O).

Table 10. Valeurs du niveau de confiance calculé avec t* max pour


quelques lois usuelles

l'hypothèse "Ho"

T - Jl (9) lim P( h(N) h(N)

x) = <I>(x), N

cr h (N)(9)

1t 2 /12

3/4

( 2 2 ) -1

+ (1 - c) m-l n-l

c=

2 sI m:I 2 2' sI s2 -+- m-l n-l


page 197 ligne -7

page 213 ligne

page 221 ligne -9

page 222 ligne +12

page 231ligne -9

page 232 ligne 4

page 280 ligne -4

page 282 ligne + 16

page 289 ligne -4

ERRATA DU TOME 1 : EXPOSE FONDAMENTAL


-V(W n +)

-VV(W n +)

(voir exercice V.l)

(voir exercice V.4)

1 R.j - (N + 1) / 2 1

1 R .j - (N + 1) / 2 1

12 N+l 2 KN = N(N+l) (W N - T)

12 n N+l 2 KN= m(N+l) (W N - T )

Po(Wij

c) = a.
P o (Wlj

c) = a.

le cas où nI = ... = nk = n,

le cas où n2 = ... = nk = n

2 't = (C 2 - D 2 ) 2,n n (n-l) (n-2) .

1 't 2 ,n = n (n-l) (n-2) (C 2 - D 2 ).

avec i et j

avec i < j

3) \:1 x e rR ,

3) \:1 Y e rR ,

page 352 et 353 légende de la table LI


la relation ai = a n + l-i

la relation ai = - an+ l-i

page 353 légende de la table LI

(à suivre)

(suite)

VIII

ERRATA DU TOME 1 : EXPOSE FONDAMENTAL

page 354 remplacer la table L2 par la table ci-dessous

.10 .05 .02 .0]

.10 .05 .02 .01 3 .789 .767 .756 .753 26 .933 .920 .904 .891 4 .792
.748 .707 .687 27 .935 .923 .906 .894 5 .806 .762 .715 .686 28 .936
.924 .908 .896 6 .826 .788 .743 .713 29 .937 .926 .910 .898 7 .838
.803 .760 .730 30 .939 .927 .912 .900 8 .85] .818 .778 .749 9 .859
.829 .791 .764 31 .940 .929 .914 .902 10 .869 .842 .806 .781 32
.941 .930 .915 .904 33 .942 .931 .917 .906 11 .876 .850 .8]7 .792 34
.943 .933 .919 .908 12 .883 .859 .828 .805 35 .944 .934 .920 .910
13 .889 .866 .837 .814 36 .945 .935 .922 .912 14 .895 .874 .846
.825 37 .946 .936 .924 .914 15 .901 .881 .855 .835 38 .947 .938
.925 .916 16 .906 .887 .863 .844 39 .948 .939 .927 .917 17 .910
.892 .869 .851 40 .949 .940 .928 .9]9 18 .914 .897 .874 .858 19 .917
.901 .879 .863 41 .950 .941 .929 .920 20 .920 .905 .884 .868 42
.951 .942 .930 .922 43 .951 .943 .932 .923 21 .923 .908 .888 .873
44 .952 .944 .933 .924 22 .926 .911 .892 .878 45 .953 .945 .934 .926
23 .928 .914 .895 .881 46 .953 .945 .935 .927 24 .930 .916 .898
.884 47 .954 .946 .936 .928 25 .931 .918 .901 .888 48 .954 .947
.937 .929 49 .955 .947 .937 .929 50 .955 .947 .938 .930

Table L2. a-quantiles de la statistique SW de Shapiro- Wilk

IX

METHODES ET MODELES

EN STATISTIQUE NON PARAMETRIQUE

Tome 2 : Exercices et compléments

Table des Matières


Avant - Propos

Errata du tome 1

V VII XI

Table des Matières

Chapitre 1. EXERCICES DE PROBABILITE

Exercices

Chapitre II. STATISTIQUES D'ORDRE


Exercices 111.1 à 111.3 Exercices IV.l à IV. 3 Exercices V.l à V.6

27 38 52

Chapitre III. EXEMPLES D'UTILISATION DES STATISTIQUES


D'ORDRE

Exercice 1.1 69 Exercices ILl à IL2 70 Exercices 111.1 à 111.2 75


Exercices IV.l à IV.6 80 Exercice VI.I 100 Exercices VII. 1 à VII.4 100
Chapitre IV. PROBLEMES A DEUX ECHANTILLONS Exercice 1.1
113 Exercice 11.1 114 Exercice 111.1 116 Exercices IV.l à IV.3 117
Exercices V.l à V.2 123 Exercices VI. 1 à VI.5 129 Exercices VII. 1 à
VII.4 148 Exercices VIn.l à VIII. 5 156 Exercices IX.l à IX.2 169 XI

TABLE DES MA TIERES

Chapitre V. PROBLEMES A UN ECHANTILLON

Exercices 111.1 Exercices IV.l Exercices V.l Exercice VI.I

à III. 9 à IV. 4 à V.6


177 192 203 218

Chapitre VI. COMPARAISON DE k TRAITEMENTS Exercices ll.1 à


II.13 Exercices 111.1 à 111.7

223 255

Chapitre VII . TESTS D'INDEPENDANCE. MESURES


D'ASSOCIATION

Exercices ll.l Exercices 111.1 Exercices IV.l Exercices V.l

à 11.8 à 111.5 à IV.2 à V.7

279 309 322 329

Chapitre VIII. TESTS D'ADEQUATION

Exercices II. 1 à II. 8 Exercices 111.1 à III. 4

343 369
BIBLIOGRAPHIE

383

XII

Chapitre 1

EXERCICES DE PROBABILITES

Exercice 1. Soit X une variable aléatoire réelle de loi F et soit r (r >


0) tel que IE(IXI T) existe. Montrer que

\:1 a > 0,

+00 a' ( 1 - F(x»

J x' dF(x) a

et en déduire que
lim [x T ( 1 - F(x) ) ] = lim (lxl T F(x) ) = o.

x-+ + 00

x-+ - 00

Soit a> O. On a

+00 +00 J x' dF(x)

J a' dF(x) = a' ( 1 - F (a) ). a a

L'existence de lE (IXI T) signifie que

+00 f Ixl' dF(x) < +00,

- 00

d'où

+00 lim J x' dF(x) = O. a-+ + 00 a


Puisque l'on a (a > 0) +00 o

a' ( 1 - F(x»

J x' dF(x), a

on en déduit que

lim [a T ( 1 - F(a) ) ] = O.

a-+ + 00

1. EXERCICES DE PROBABILITES

On montrerait de même que

lim (laiT F(a) ) = 0

a-+ - 00
en remarquant que

\:1 a < 0,

a f Ixlr dF(x)

lal r F(a).

_ 00

Cette propriété sera utilisée principalement pour r = 1 et r = 2.

Remarque. Cette propriété n'admet pas de réciproque. En effet, on


peut déterminer une fonction de répartition F telle que

1 - F(x) rv

x-+ + 00
x T Log x

et l'on a alors

lim [x T ( 1 - F(x) ) ] = 0

x-+ + 00

sans que lE (IXI T) existe.

Exercice 2. Soient al,... , ak (k

2) des éléments distincts de rR. On considère un vecteur aléatoire X


de dimension k dont la loi est uniforme sur l'ensemble des
permutations de A = {a}, ... , ak}. Déterminer l'espérance
mathématique, la matrice des corrélations et celle des covariances
du vecteur X et appliquer le résultat au cas où A = {l, ... , k}.

Il est à peu près évident (on laisse au lecteur le soin d'expliciter une
démonstration) que chacune des composantes Xi (1

k) du vecteur X suit la loi uniforme sur l'ensemble A. On a donc 1 k


IE(X.) = - L a. 1 k j= 1 J
et

k21

2 IE(X) = - £.J a. , k j=l J

d'où

1 k 2 l ( k ) 2 V(X i ) = - L a. - - L a. . k j= 1 J k 2 j= 1 J

1. EXERCICES DE PROBAB

ITES

Soient i et i' deux éléments distincts de {l,..., k}. Laissons encore au


lecteur le soin de montrer de façon explicite que le vecteur aléatoire
(Xi, Xi') suit la loi uniforme sur l'ensemble 1 des couples d'éléments
distincts de A. On a donc

lE (X. X..) = 1 L a. a., 1 1 CardI J J (j,j') E 1


[( k ) 2 k ] 1 La j -La

, k (k - 1) j=l j=l

d'où

Cov(X., X..) = ( 1 - 2- J( i a ) 2 1 1 k(k-1) k 2 j=l J

1 k (k - 1)

kLa

. 1 J J=

=(k2(

_ 1) J (

ajJ

1 k (k - 1)
kLa

. 1 J J=

1 = - - V(X.). k _ 1 1

On en déduit

1 Corr ( X. X., ) = - - l' 1 ' k - 1

ce qui fait que la matrice des corrélations du vecteur X ne dépend


pas de l'ensemble A, mais seulement de k. Ses termes diagonaux
sont, bien sûr, égaux à 1 et les autres sont 1 égaux à --. k - 1 La
matrice des covariances du vecteur X est le produit de la matrice
des corrélations par le scalaire V(Xi).

Enfin, lorsque A = {1, ... , k}, on obtient

k1

k+1 lE (X) = - £.J j = - k j= 1 2

3
1. EXERCICES DE PROBABILITES

.2 ( k + 1 ) 2 V(X) = - £.J J - - k j=l 2

(k + 1) (2 k + 1) 6

- ( k;l J

k2-1

12

et

k+l Cov(X i , Xi') = - - . 12


Remarque. Le lecteur intéressé pourra déduire aisément des
résultats de cet exercice la démonstration des deux premières
propriétés énoncées dans le théorème R.III.3.1 0 puisque, d'une
part, avec les notations de ce théorème, chacune des sommes Snj
considérées est la somme de cj{n) composantes du vecteur X
considéré ci-dessus (à condition d'y remplacer k par n) et que,
d'autre part, aucune des composantes de X ne figure dans deux
sommes Sn,j relatives à des indices j distincts.

Exercice 3. On désigne par <p et <1> respectivement la densité et la


fonction de répartition de la loi eN (0, 1). Calculer les dérivées des
applications définies sur IR * par

X 1---7

<p(x)

et

(:-

3)

(x).
x

En déduire que

\:1 x > 0,

(:-

3)

(x) < 1 - <II(x) <

x)

et que

<p(x) '" x ( 1 - <I>(x) ).

x-+ + 00

En tenant compte du fait que <p'(X) = - X <p(x), on aboutit, après un


calcul simple, à
d ( <p(x» ) ( 1 ) dx

= - 1 + x 2 <p(x)

et

:x [( : ,-

3)

(x) ] = - ( 1 -

4)

(x).

I. EXERCICES DE PROBABILITES

Or, on a

\:1 x * 0,
3 1 1- 4<1<1+ 2 , x x

d'où, puisque <p(x) > 0,

\:1 x * 0,

(1-

4 ) q>( x) < q>( x) < (1 +

2 ) q>( x).

En intégrant les trois membres de cette inégalité sur l'intervalle [x,


+oo[ (x> 0), on obtient

-too [ ( 1 1 ) ] -too [ - <P( t t) ]x ' - -;--7 q>(t)

< [Il>(t)]x <

soit

\:1 x > 0,

( 1 1 ) <p(x) - - 3 <p(x) < 1 - <I>(x) < -. x x x


On en déduit que

<p( x)

"J

1 - <I>(x),

xX

+ 00

soit que

<p(x) "J X ( 1 - <I>(x) ).

+ 00

Remarque. On a, de même, en changeant x en (- x),


<p(x) "J - x <I>(x).

- 00

Exercice 4. Etude de la loi hypergéométrique Une urne contient N


boules dont NI sont blanches et N2 sont noires (N 1 + N2 = N). On
extrait n boules (1

N) de l'urne. Déterminer la loi de la variable aléatoire X égale au


nombre de boules blanches extraites et déterminer /' espérance
mathématique de X ainsi que sa variance. La loi de X s'appelle "loi
hypergéométrique" et on la notera

(n ; NI, N2).

Pour probabiliser l'expérience proposée, on suppose que les N


boules sont numérotées de 1 à N, les boules blanches étant
affectées des NI premiers numéros, et l'on considère comme
équiprobables toutes les parties à n éléments de l'ensemble

1. EXERCICES DE PROBABILITES
{ 1, ... , N}. Le nombre de ces parties qui correspondent à X = k (0

n) est alors égal à

1 c;:, ce nombre étant supposé nul si k > NI ou si n - k > N 2. D'où

\:Ike {O,...,n},

P(X = k) =

ck

-k NI N2 C n N

On remarque que

nL

C n - k - C n NI N 2 - NI +N2' k=O

égalité qui peut être établie directement par des considérations


combinatoires.
On a

n IE(X) = L k P(X = k) k=O

n = L k P(X = k) k=l

1n=-Lk

C n - k . rJ1 NI N2 \""N k = 1

Or

kC

l=N1C

-11_1 '

d'où

N n lE (X) = --.!. L

-l

-k rJ1 N1- 1 N2 \""N k= 1


_ NI r: C

j=o

C J C(n-l)-j N r l N 2

U = k - 1)

NNCn-11

-1 = 1 N - C n Nl+N2-1 N

n NI

On obtient, de même,

6
1. EXERCICES DE PROBABILITES

n lE ( X (X - 1) ) = L k (k - 1) P(X = k) k=O

n = L k (k - 1) P(X = k) k=2

1 n - - L k (k - 1) C k

-k C n k=2 NI N2 N

_ NI (NI - 1) i

,2 Cn,k - C n Nl-2 N2 N k=2

N 1 (N 1 - 1) _ 2 = n

-2 C N

n (n - 1) NI (NI - 1)

=
N (N - 1)

D'où, enfin, le calcul de la variance.

V(X) = IE(X2) - ( IE(X) )2 = IE( X (X - 1) ) + IE(X) - ( IE(X) )2

N ( N - 1)

2 2 n NI n NI +--- N N 2

n (n - 1) NI (NI - 1)

n NI 2 [ (n - 1) N (NI - 1) + N (N - 1) - n NI (N - 1)] N (N - 1)

=
n NI 2 [ (n - N) NI + (N - n) N ] N (N - 1)

n NI (N - n) (N - NI) = = N 2 (N - 1)

n NI N 2 (N - n) N 2 (N - 1)

On constate que cette variance est nulle lorsque NI ou N2 est nul ou


lorsque n = N, ce qui était prévisible puisque X suit alors une loi de
Dirac.

Remarque. On pourrait aussi supposer que les n boules sont


extraites une à une et considérer comme équiprobables les suites de
n éléments distincts de {1,..., N}. On peut alors écrire, comme pour
la loi binomiale dans le cas de tirages avec remise, que X est

1. EXERCICES DE PROBABILITES

la somme de n variables Xi de loi de Bernoulli. On peut encore


montrer que cette loi est NI :B ( 1, -), mais les variables Xi ne sont
pas indépendantes. On a encore, néanmoins, N
n NI IE(X) = n IE(X.) = - 1 N

et l'on peut également retrouver V (X).

Exercice 5. Etude de la loi multinomiale On effectue une suite de n


(n e lN.) épreuves indépendantes. Chaque épreuve possède r issues
possibles (r

2), soit a}, ... , ar, dont les probabilités respectives sont Pl, ... , Pro
On a PI + ... + PT = 1 et l'on suppose que les Pj sont tous non nuls.
Soit X = ( Xl, ... , Xr) le vecteur aléatoire dont chaque composante Xj
est égale au nombre de réalisations de l'issue aj correspondante. 1)
Déterminer la loi de X après avoir précisé le support Ar,n de cette loi
qui est défini par

Ar,n = (x e [Rr; P(X = x) > Q}.

La loi de X s'appelle "loi multinomiale" et on la notera

r(n; Pl, ... , Pr). 2) Définir n vecteurs aléatoires indépendants Xl de


même loi dont X soit la somme. Déterminer l'espérance
mathématique et la matrice des covariances de Xl et en déduire
celles de X.

1) Les composantes Xj de X ne peuvent prendre que des valeurs


entières naturelles et, d'autre part, on a
r L X j = n, j=l

d'où

Ar,n = {x e IN r ; Xl + ... + X r = n}.

Soit x e Ar,n. On doit déterminer la probabilité pour que X = x, c'est-


à-dire la probabilité de réaliser XI fois al,..., X r fois ar. Si l'ordre de
ces réalisations est imposé, la probabilité de l'événement
correspondant est égale à

XI X2 x r Pl P2 Pr .

On a donc

XI x2 x r P(X = X) = K(x 1 , ... , Xr) PI P2 ... Pr '

1. EXERCICES DE PROBABILITES
OÙ K(X1, ... , x r ) désigne le nombre de façons de ranger n objets
dont XI sont indiscernables, X2 autres également indiscernables,
etc. On a donc

XI X2 K(xl' ... , x r ) = C n C n - XI

<: X r -1 1 n - (xI + ... + x r -2)

n! " , ' xI' x 2 . ... xr'

d'où

\:1 x e Ar ,n '

x. r p. J I1 J P(X = X) = n! . Xl" . J=l f

2) On peut attacher à chacune des n épreuves un vecteur aléatoire

Xi = (X
, ... , X;)

dont la définition est analogue à celle de X, mais ne concerne que


l'épreuve 1. L'indépendance des n épreuves entraîne celle des Xl et
l'on a n X = LXi. i=l

Chacun des vecteurs aléatoires Xl suit la loi Mr(l ; pl, ... , Pr), c'est-à-
dire la loi dont le support est constitué par les vecteurs ej de la base
canonique de (R r et qui est définie par

\:Ije {l,...,r},

1 P(X = ej) = Pj .

(On rappelle que ej désigne l'élément de (Rr dont toutes les


composantes sont nulles, sauf la jème qui est égale à 1). On a alors

r IE(X i ) =

Pj e j = (Pl' ... , Pr) J=1

et
r

IE( Xi (Xi)' ) = L p. (e. e. ' ) = L p. M. , . 1 J JJ . 1 J J J= J=

où M j désigne la matrice carrée d'ordre r dont tous les éléments


sont nuls sauf celui de la jème ligne et de la jème colonne qui est
égal à 1.

1. EXERCICES DE PROBABILITES

On en déduit que le terme général Àjk de la matrice des covariances


de Xl est défini

par

! p. (1 - p.) J J Àjk = - Pj Pk
si k = j ,

si k * j .

On obtient, enfin,

lE (X) = n IE(X I ) = n (PI, ... , Pr)

et pour matrice des covariances de X la matrice carrée d'ordre r de


terme général n Àjk'

Remarque. La loi multinomiale généralise, bien sûr, la loi binomiale.


On peut montrer aisément que l'on a

Mr(m; Pl, ... , Pr) * cMr(n ; Pl, ... , Pr) = Mr(m + n ; PI, ... , Pr).

Exercice 6. Etude de la loi logistique 1) Vérifier que la fonction F


définie par

F(x) = 1 + e- x
1

xe

eX + 1

est la fonction de répartition d'une loi de probabilité sur IR


symétrique dont on écrira la densité f. Soit X une variable aléatoire
réelle de loi F et soit (Jl, a) un élément de IR x IR +*. Déterminer la
densité fJl,o de la variable aléatoire réelle Y = Jl+ a X. On appelle
"loi logistique de paramètres Jl et a" et l'on note

(Jl, a) la loi de densité fJl,o' 2) On se propose de calculer les


moments d'ordre pair de la loi F, c'est-à-dire de la loi

(O, 1). Pour cela, on effectue un développement de lafonction f en


série entière de e- X et l'on montre, grâce à l'échange d'un signe
d'intégration et d'un signe de sommation que l'on pourra justifier, que
l'on a

\:Ike rN*,

22k-1 _ 1 . E(X 2k ) = 2 2k - 2 (2k)! S2k'

où l' on a posé
\:1 p e rN* - {l},

+00 Sp = L

. n=l n P

la

1. EXERCICES DE PROBABILITES

En particulier, déterminer la variance de la loi :;fl (0, 1), puis celle de


la loi 1t 2 :;fl (Jl, a). On rappelle que S2 = 6'

1) On vérifie immédiatement que F est une fonction définie sur rR,


continue, strictement croissante, que

lim F(x) = 0

et

lim F(x) = 1, x

+oo
x

-oo

et que

\:Ixe rR, F(x) + F( -x) = 1.

On a

-x x e e f(x) = 2 = 2 . (1 + e- x) ( eX + 1)

Enfin

x-Jl

x-Jl

0' 0' 1 x-Jl 1 e 1 e f (x) = - f( - ) = - - Jl,O' a a a ( _ x: ) 2 - a ( x: ) 2 .


l+e e +1
2) Remarquons d'abord que tous les moments d'ordre entier positif
de la loi F (=

(0, 1» existent et que ceux d'ordre impair sont nuls, puisque cette loi
est symétrique par rapport à l'origine. Soit k un entier strictement
positif. On a

E(X 2k ) = 2 f x2k f(x) dx = 2 [- x2k e' x 2 dx. rR 0 (l+e- x )

On sait que

\:lue ]-1,1[,

-toc -toc 1 = *-<_l) =

(L (_I)n+1u n ) = L (_1)n+1 n un-l, (1 +u)2 du 1 +u du n=l n=l

d'où

\:1 x > 0,

-x -toc e = L (_ 1 )n+ 1 n e - nx. (1 + e- x)2 n=1


11

1. EXERCICES DE PROBABILITES

On a donc

-too E(X 2k ) = 2 f ( l (_l)n+l n x2k e,nx ) dx, o n=l

soit, si l'échange des signes J et L est justifié,

E(X 2k ) = 2

(_l)n+l n [f +oo x2k e,nx dX ] n-l 0

= 2 l (_l)n+l n [

f +OOt 2k e-t dt ] 1 2k+l n= n 0

[ -too 1 n+l ] = 2 L (- ) (2k)! n=l n 2k

D'autre part, on a
-toc 1 -toc -too L (-1 )n+ L 1 L 1 ( 2 ) 22k -1_ 1 n=1 n 2k = n=1 n 2k -
2n=1 (2n)2k = 1- 2 2k S2k = 22k-l S2k,

d'où

22k-1_ 1 lE (X 2k ) = 22k-2 (2k)! S2k.

Quant à l'échange des signes J et L, il est justifié par le théorème de


Lebesgue dit "de la convergence dominée", puisque

x2k e- X \:1 x > 0, 'r;j N e tN, £..J (-1 )n+ 1 n x2k e- nx

£..J n x2k e- nx = n = 1 n = 1 (1-e- x )2

et que

f +oo x2k e- x 2 dx < + 00, o (1 - e -x)

comme on le vérifiera aisément en remarquant que


12

1. EXERCICES DE PROBABILITES

X2k e- x

rv x 2k - 2 .

(1-e- x )2 x

o+

Enfin, lorsque k = 1, on a

2 V(X) = IE(X2) = 2 S2 =

2 2 On en déduit que la variance de la loi :;fl 0.1, a) est égale à a 3


1C .

Exercice 7. Etude de la loi double exponentielle 1) Vérifier que la


fonction f définie par
1 f(x) = - e- 1 xl 2

est la densité d'une loi de probabilité dont on calculera la fonction de


répartition F. Soit X une variable aléatoire réelle de loi F et soit (Jl, a)
un élément de rR x rR +*. Déterminer la densité fJl,cr de la variable
aléatoire réelle Y = Jl + a X. On appelle "loi double exponentielle de
paramètres Jl et a" et l'on note S) e(Jl, a) la loi de densité fJl,cr' Si X
est une variable aléatoire réelle de loi me(Jl, a), quelle est la loi de 1
XI? En déduire les moments d'ordre pair de la loi me(O, a) et la
variance de la loi S)e(Jl, a). 2) Soit XI'"'' X n un échantillon d'une loi
m e(Jl, a). Déterminer les estimateurs du maximum de
vraisemblance de a lorsque Jl est connu et de Jl lorsque a est
connu. Sont-ils sans biais? Déterminer l' estimateur du maximum de
vraisemblance du paramètre (Jl, a). (Il est conseillé de n'aborder
cette question qu'après l'étude du chapitre II du tome 1).

1) On vérifie immédiatement que la fontion f est définie sur rR,


strictement positive et que l'on a

f f(x) dx = Jt oo e- x dx = 1. rR 0

On remarque également que f est paire, donc que la loi


correspondante est symétrique par rapport à l'origine.

13
1. EXERCICES DE PROBABILITES

On a

x F(x) = f [(t) dt =

1 x -e 2

si x

0,

-00

1 x 1 - - e- 2

si x

o.

D'autre part,
1 f x-Jl ) 1 _ IX-I.tI fj.1,a(x) = cr f\ --cr = 2a e a.

Enfin, si X suit la loi me(O, a) et si Y = 1 X 1, on a

1 fy(Y) = ( fx(Y) + f x ( -y) ) 1l 1R +(y) = 2 fx(Y) 1l 1R +(y) = - e a 1l


1R + a

ce qui montre que 1 X 1 suit la loi 'E(a). On en déduit que

\:1 k e rN*, IE(X 2k ) = IE( IXe k ) = (2k)! a 2k ,

les moments d'ordre impair de X étant, bien sûr, nuls. En particulier,


on a

V(X) = IE(X 2 ) = 2 a 2

et cette valeur est également celle de la variance de la loi me(Jl, a).

2) La fonction de vraisemblance L s'écrit


1 n n - - L IXi - j.11 Il 1 ai=1 L(Jl, a ; xl' ... , x n ) = f (x) = - e . 1 j.1,a n
1= (2 a)

et son logarithme népérien

est défini par

1n

(Jl, a ; XI, . . . , x n ) = - n Log 2 - n Log a - - L 1 Xi - JlI. a i =1

14

1. EXERCICES DE PROBABILITES

Lorsque Jl est connu, on écrit que

a 1 n - :;fl (Jl, a ; x}, ... , x n ) = - -TI... + - L 1 Xi - JlI = 0 aa a a 2 i=l

et l'on en déduit que l' estimateur cr du maximum de vraisemblance


de a est défini par
n a = À L 1 Xi - JlI. i=l

n est sans biais puisque 1 Xi - JlI suit la loi 'I(a) et vérifie donc

lE (1 Xi - JlI) = a.

Lorsque a est connu, nous devons chercher le minimum de la


fonction <p définie

par

Jl) = L 1 Xi - JlI i=l

que l'on écrit plutôt sous la forme

Jl) = L 1 X(i) - JlI, i=1

où x(i) désigne la réalisation de la statistique d'ordre X(i) (voir II.1


chap. II). Il apparaît alors que la fonction <p est affine par morceaux
et que sa dérivée est égale à

· (-n) sur l'intervalle ] - 00, x(1)[, · (2p-n) sur l'intervalle ] x(p)' X(p+l)[ ·
n sur l'intervalle ] x(n)' +00 [ .

(l

n-l),

On en déduit que, si n est impair (0 = 2p+ 1), la fonction <p est


mInImum pour Jl = x(p+1) et que, si n est pair (n = 2p), la fonction <p
est minimum sur l'intervalle X( ) + X( +1) [X(p)' x(p+1)]. Dans ce
dernier cas, on prend pour estimateur p p et on en 2 conclut que,
quelle que soit la parité de n, l'estimateur il du maximum de
vraisemblance de Jl est la médiane empirique X de l'échantillon (voir
II.4.2 chap. ll).

Cet estimateur est sans biais puisque la loi S)e(Jl, a) est symétrique
par rapport à Jl et que l'on a donc (voir exercice Ill. 2 chap. II)

15

1. EXERCICES DE PROBABILITES
\:lie {l,...,n},

lE (X(i» + lE (X(i+ 1» = 2 Jl,

d'où, quelle que soit la parité de n,

lE (X) = Jl.

Enfin, déterminons l'estimateur du maximum de vraisemblance du


paramètre (Jl, a). Les calculs déjà effectués nous permettent
d'afftrmer que la fonction L est maximum pour

n (Jl, a) = (x, À L 1 Xi - xl ) i=1

L'estimateur @, â) cherché est donc défini par

n @,o) = ( X , ÀL IXi - x l ). i=1

On a encore lE (jl) = Jl, mais on ne peut déterminer de facon simple


lE (3). Toutefois, on sait que l'estimateur @, â) est
asymptotiquement sans biais (voir Lehmann (1983), p. 415).
On peut également remarquer que la loi de â ne dépend pas de Jl
et, donc, que â est un estimateur de a libre relativement à Jl.

Exercice 8. Soit k un entier strictement positif et soient al,..., ak,


ak+1 des nombres réels strictement positifs. On appelle "loi de
Dirichlet de paramètres al,... , ak+l" et l'on note S)k (al, ... , ak ; ak+l)
la loi de probabilité sur JRk dont la densité f est définie par

\:1 xe JRk,

a1- 1 ak- 1 ak+1- 1 .ç'I f(x) = K xI'" x k (1 - xI ... - x k ) a Sk (x),

où K désigne un nombre réel et où

+* k Sk = ( x E (JR) Xl + ... + xk < 1 }.

1 ) Montrer que

K= r(a 1 ) ... r(a k ) r(a k + 1 )

r(b)
où l'on a posé b = al + ... + ak + ak+l' On vérifiera d'abord que

16

1. EXERCICES DE PROBABILITES

\:1 a > 0, \:1 b > 0, \:1 x > 0,

x f ta,l (x - t)b,l dt = Xa+b'l

(a , b). o

Quelle est la loi de Dirichlet lorsque k = 1 ou lorsque al = ... = ak =


ak+1 = 1 ? Dans toute la suite de l'exercice, X = (X}, ... , X k )
désigne un vecteur aléatoire de loi S>k (al, ... , ak ; ak+l). 2) Soient
rI, ... , rk des nombres réels. Préciser l'existence et déterminer la
valeur

de

fI r2 rk lE (XI X 2 ... X k ).
En déduire l'espérance mathématique de X et sa matrice des
covariances. 3) Déterminer les lois marginales de la loi de Dirichlet.
On remarquera que l'on peut se contenter de déterminer la loi du
vecteur aléatoire (XI,... , X p ), où 1

p < k. 4) Déterminer par sa densité la loi du vecteur aléatoire T = (Tl,


... , T0 défini par

Tl = 1 - XI ,

1 - XI ... - Xi T.= 1 1 - XI'" - X i _ 1

(2

k).

En déduire que les composantes Ti du vecteur T sont indépendantes


et suivent des lois Bêta 1 que l'on précisera. Enoncer et démontrer
une réciproque.

1) L'intégrale proposée se calcule en posant u = k. On obtient

x f t a - l (x - t)b-l dt o
1 = xa+b-l f u a - l (1 - u)b,l du = o

Xa+b-1

(a, b).

On a

1 (a1- 1 ak- 1 ak+1-1 K = J

Xl." x k (1 - xI ... - x k ) dX 1 ... dX k Sk

( al 1 ak_l- 1 = J Xl - ... Xk_l Sk-l

[ 1-xl...-xk_l ] ak- 1 ak+l- 1 l X k ( 1 - Xl ... - X k ) dX k dx l ... dX k _ l

17

1. EXERCICES DE PROBABILITES

i a1-1 ak_l- 1 ak+ a k+1- 1 =

(ak' a k + 1 ) Xl'" xk_1 (1 - xI ... - x k _ 1 ) dX 1 ... dX k _ 1 . Sk-l


En continuant le calcul, on obtient

1K=

(ak' a k + 1 )

(ak_l' a k + a k + 1 ) ...

(al' a 2 + ... + a k + a k + 1 )

r(a 1 ) ... r(a k ) r(a k + 1 )

r(a 1 + ... + a k + a k + 1 )

d'où

K= r(a 1 ) ... r(a k ) r(a k + 1 )

r(b)
Lorsque k = 1, on a

1 a1-1 a2- 1 t;1 f(x) = x (1 - x) 8 ]O,l[(X)

(al' a 2 )

et la loi tt)1(al; a2) n'est autre que la loi

1(aJ, a2).

Lorsque al = ... = ak+1 = 1, on a K = k! , d'où

f(x) = k! 11 Sk (x)

et la loi m k (I,..., 1 ; 1) est la loi uniforme sur Sk.

2) Soient rI, ... , rk des nombres réels. On a

fI fk i al+fl-l ak+ f k- 1 ak+1- 1 IE(X 1 ... X k ) = K Xl". x k (1 - XI." - x k


) dX 1 ... dX k . Sk

D'après le calcul effectué à la première question et ce que nous


savons de la fonction
, cette espérance existe si et seulement si

\:1 i e {1 , ... , k},

ai + ri > 0,

soit

\:1 i e {1,..., k},

ri > - ai

et l'on a alors

18

1. EXERCICES DE PROBABILITES

rI rk r(b) r(a 1 + r 1) ... r(a k + r k ) r(a k + 1 ) IE(X 1 ... X k ) = r(a 1 )


... r(a k ) r(a k + 1 ) r(b + r)
= r(b) TI r(a i +ri) , r(b + r) i=l r(a.) 1

où l'on a posé r = rI + ... + rk. En particulier, si l'un des ri est égal à 1


et les autres nuls, on a

IE(X.)= r(b) 1 r(b + 1)

r(a i + 1) r(a i )

a. 1

d'où

1 IE(X) = - (al".' , a k ). b

De même, on a

lE (X

) = r(b) 1 r(b + 2)
r(a i + 2) ai (ai + 1) r(a i ) b (b + 1)

d'où

ai (ai + 1) ( ai ) 2 V(X i ) = - - = b (b + 1) b

ai (b - ai) b 2 (b + 1) .

Enfin, si 1

i<j

k, on a

r(a i + 1) r(a j + 1) r(a i ) r(a j )

a. a. 1 J

r(b) IE(X. X.) = 1 J r(b + 2)

=
b (b + 1)

d'où

a. a. 1 J Cov(X i , X j ) = b (b + 1)

a. a. 1 J b 2

a. a. 1 J - - b 2 (b + 1) .

La matrice des covariances de X est ainsi entièrement déterminée.

3) Soit à déterminer la loi d'un vecteur aléatoire Y constitué par p (1

P < k) composantes distinctes de X. Etant donné que l'on peut


pennuter les composantes de X, à condition de permuter les
coefficients ai correspondants, on peut supposer que

y = eX J, ... , X p ).

19
1. EXERCICES DE PROBABILITES

La densité fy de Y est alors définie par

v y E IR P , fy(Y) = f f(xl' ... . x k ) d

+l ... dx k . fR k - p

Cette densité est nulle si y

Sp. Si y e Sp, on a

81- 1 8p-1 i 8p+l-1 8k- 1 8k+1- 1 fy(Y) = K Xl ... X p Xp+1'" x k (1 - xl


... - X k ) dX p + 1 ... dX k ' Dp(Y)

où l'on a posé

Dp(Y) = { (X p +}, ... , Xk) e (IR +*)k-p ; Xp+ 1 + ... + Xk < 1 - xl... - X
p ).

En effectuant un calcul analogue à celui de la première question


qu'on laisse au lecteur le soin de détailler, on obtient, toujours si ye
Sp,
_ 81-1 8p-1 r(ap+l)'" r(a k ) r(a k + 1 ) 8p+l + ... +8k+ak+1-1 fy(Y) - K
Xl ... x p (1 - xl ... - X p ) , r(a p + 1 + ... + a k + a k + 1 )

d'où

p _ a1-1

-1 8p+1+...+ak+ak+1-1

\:1 Y e IR, fy(y) - KI xl ... x p (1 - xl ... - X p ) a sp (y),

où l'on a posé

r(b) K 1 = r(a 1 ) ... r(

) r(ap+1 + ... + a k + a k + 1 )

C'est dire que Y suit la loi S'>p(aJ,..., a p ; ap+l + ... + ak + ak+l).

4) On a T = cp(X), où cp est l'application de Sk dans IR k définie par

( 1 - xl - x 2 1 - xI'" - x k J cp(xl' ... , x k ) = 1 - xI' , ... , . 1 - xl 1 - xl ... -


Xk_1
On vérifie aisément que l'application réciproque cp-1 est définie par

cp-1(t}, ... , tk) = ( 1 - tl, t1 (1 - t2), ... , t1... tk-l (1 - tk»

et que l'on a donc

20

1. EXERCICES DE PROBABILITES

cp(S0 = {t e IRk; cp-1(t) e Sk} = {t e IRk; 1 - t1 > 0, tl (1 - t2) > 0, ... ,


tl... tk-l (1 - tk) > 0, tl... tk > O} k = ]0, 1 [ .

L'application cp réalise donc une bijection de Sk sur ]0, l[k. D'autre


part, les matrices jacobiennes de cp et de cp-l sont triangulaires et
l'on a donc

det J -1 (tl' ... , t k ) = (-1) ( - t 1 ) ( - t 1

) ... ( - t 1

... t k - 1 ) cp
( l) k k-1 k-2 = - t 1 12 ... t k _ 1 .

La densité fT du vecteur aléatoire T est alors définie par

fT(t) = f( cp-l(t) ) 1 det Jcp-l (t) 111 ]0,1 [k(t)

81- 1 82- 1 8k- 1 = K (1 - t 1 ) ( t 1 (1 -

) ) ... ( t 1 ... t k _ 1 (1 - t k ) )

8k+l- 1 k-l k-2 (1 (t 1

... t k ) t 1 t2 ... t k - 1 a k(t) ]0,1 [

k TI (8i+1-1) +... + (8k- 1 ) + (8k+1- 1 ) + (k-i) 8i- 1 (1 = K [ t i (1 - t i )


a ]O,I[(t i )] i=1

k TI 8i+l + ... + 8k + 8k+l - 1 8i- 1 (1 = K [ t i (1 - t i ) a ]0 1 [( t i ) ] . i=1


·

De cette factorisation, nous déduisons que les composantes Ti du


vecteur T sont indépendantes et que chacune d'elles suit une loi
Bêta 1. Plus précisément,
\:lie {1,...,k},

Ti suit la loi PI (ai+1 + ... + ak + ak+h ai).

La réciproque s'énonce facilement de la façon suivante. Si T est un


vecteur aléatoire de dimension k dont les composantes Ti sont
indépendantes et de lois respectives pl(ai+l + ... + ak + ak+l, ai),
alors le vecteur aléatoire X défini par X = cp-1(T) suit la loi g)k(al, ... ,
ak; ak+l)' Cette réciproque ne demande, en fait, aucune
démonstration nouvelle puisqu'il suffit de reprendre la démonstration
ci-dessus en y échangeant les rôles de cp et de cp-l, ainsi que k
ceux de Sk et de ]0, 1 [ .

21

1. EXERCICES DE PROBABILITES

Exercice 9. Etude des lois de Dirichlet ordonnées (suite de l'exercice


précédent) 1) Soit X = (Xl, ... , Xk) un vecteur aléatoire de loi de
Dirichlet f) k (a l, ... , ak ; ak+ 1). Déterminer la densité de la loi du
vecteur aléatoire y = (Y b ... , Y k) défini par

\:1 i e {l, ... ,k},


Yi = XI + ... + Xi.

La loi du vecteur Y est appelée "loi de Dirichlet ordonnée de


paramètres " é d\ (.) ( ) a lt ... , ak+ 1 et not e eu k a lt ... , ak ; ak+ 1 .
Réciproquement, étant donné un vecteur aléatoire Y dont la loi est
(.) S)k (ab ... , ak; ak+l)' déterminer un vecteur aléatoire X fonction
de Y qui soit de loi f)k(al, ... , ak ; ak+l). (.) Quelle est la loi S) k (1, ...
, 1 ; 1) ? 2) Déterminer l'espérance mathématique et la matrice des
covariances de Y. 3) Quelle est la loi de Yk? Plus généralement,
quelle est la loi d'une composante Yp(l

pSk) de Y? 4) En déduire, en considérant les composantes TI et T 2


du vecteur aléatoire T défini à l'exercice précédent, que, si U et V
sont des variables aléatoires réelles indépendantes de lois
respectives PI (r, s) et Pt (r + s, t), alors la variable aléatoire W = U V
est de loi Pt (r, s + t). 5) Soient kt,. ..-, kp des entiers tels que

o < kt < k2 < ... < kp

k.

Montrer, grdce au résultat établi à la question 4, que le vecteur


aléatoire Z = (Zl, ... , Zp) défini par Zl = Xl + ... + X k1 ' Z2 = X k1 + 1
+ ... + X k2 '

Zp = Xkp-l+l + ... + X kp

suit une loi de Dirichlet (non ordonnée) que l'on précisera. En


déduire les lois marginales d'une loi de Dirichlet ordonnée.
1) On peut écrire que Y = cp(X), où cp est une application linéaire
bijective de 1Rn+1 dont le détenninant est égal à 1. L'application
réciproque cp-l est défmie par

22

1. EXERCICES DE PROBABll..ITES

XI = YI,

Xi = Yi .. Yi-l

(2 S i

k)

et l'on a

<p(S0 = ( Y E IRk; <p-l(y) E Sk } = {y E IRk; YI > 0, Y2" YI > 0, ...,


Yk" Yk-l > 0, Yk < 1 } = {y E IR k ; 0 < YI < Y2 < ... < Yk < 1 } --- =
]0,1 [k .
La densité fy de Y est donc défmie par

al-l a2- 1 ak- I ak+I-1 (1 fy(Y) = K YI (Y2" YI) ... (Yk" Yk-I) (1 .. Yk) ii
]O,I[1t (y),

r(a l + ... + a k +

+l) K - - . r(a l ) ... r(a k ) r(a k + l )

(.) Réciproquement, bien sûr, si Y est de loi S)k (ab ... , ak ; ak+l) le
vecteur aléatoire X = cp -1 (Y) défmi par

Xl = YI, Xi = Yi .. Yi-I (2 S i

k)

est de loi S) k(al, ... , ak ; ak+I). fi 1 d\ (.) 1 1 . . fi En ln, on remarque


que a loi ilJ k (1, ... , 1 ; 1) n'est autre que a 01 unI orme sur ]0, l[k.

2) D'après les résultats de l'exercice précédent, on a immédiatement


\:1 p e {l,..., k},

al + ... + a p lE (Y p> = , b

soit

1 IE(Y) = - (b l , ... , b k ) , b

en posant

\:1 p E {l,..., k},

bp = al + ... + a p

et, comme à l'exercice précédent, b = al + ... + ak + ak+l.

23

1. EXERCICES DE PROBABILITES
De même, on a, si 1 S P

k,

Cov(Y p, y q) = COV(XI + ... + Xp, XI + ... + X q )

p = L V(X i ) + L L Cov(X i , X j ) i=1 l

p ISj

q,ji!i

1 [ p ] = L ai (b - ai) - L L ai a. b 2 (b + 1) i=l l

pl

q,ji!i J

= 1 [ b fa i - ff ai a j ] b 2 (b + 1) i=l i=1 j=1

1 = 2 (b b p - b p b q ) b (b + 1) b p (b - b q ) = b 2 (b + 1) .
En particulier, on a

b p (b - b p ) V(Y ) = . P b 2 (b + 1)

La matrice des covariances de Y est ainsi entièrement déterminée.

3) La densité f Yk de la composante Yk de Y est définie par fYt(Yt) =


f fy(y) dYl ... dYt,l ' k-l IR

soit, en tenant compte de la fonction indicatrice qui figure dans fy,

J 81-1 82 -1 8k- 1 fYk(Yk) = K ____ YI (Y2 - YI) ... (Yk - Yk-l) dYl ...
dYk_l ]O,Yk[k-l

8k+l- 1 (1 x (1 - Yk) a ]O,l[(Yk)'

L'intégrale se calcule aisément en posant

\:lie (l,...,k-l),
u' = Yi 1 Yk

24

1. EXERCICES DE PROBABILITES

et en considérant la densité de la loi g)

!1 (a J, ... , ak-l ; ak). On obtient

f 81-1 82- 1 8k_l- 1 8k- 1 fYk(Yk) = K

U 1 (u 2 - u 1 ) ... (u k - 1 - u k _ 2 ) (1 - u k _ 1 ) dU 1 ... dU k _ 1
]O,Yk[k-l

81+...+ a k- 1 ak+l- 1 .a x Yk (1 - Yk) a ]O,l[(Yk)

r(a 1 + ... + a k + a k + 1 ) r(a 1 )... r(a k ) 81 +...+ak- 1 ak+1- 1 .a =


Yk (1 - Yk) a ]0,1 [(Yk) r(a 1 ) ... r(a k ) r(a k + 1 ) r(a 1 + ... + a k )

=
1 81+...+8k- 1 8k+l-1.a Yk (1 - Yk) a ]O,l[(Yk). p(a 1 + ... + a k , a k +
1)

La loi de Y k est donc la loi PI (al + ... + ak, ak+l).

Plus généralement, étant donné p tel que 1

k, on sait (question 3 de l'exercice précédent) que le vecteur


aléatoire (X 1, ... , X p ) suit la loi

p(al + ... + a p ; a p +l + ... + ak + ak+l). On en déduit que la loi de Y


p est la loi Pl (al + ... + a p , ap+l + ... + ak + ak+1), soit la loi Pl (b p ,
b - b p ).

4) On a montré, à l'exercice précédent, que les composantes Ti du


vecteur aléatoire T sont indépendantes et de lois respectives PI (ai+l
+ ... + ak + ak+h ai). En particulier, les variables aléatoires T2 et TI
sont indépendantes et de lois respectives

1(a3 + ... + ak+l, a2)

et

1(a2 + ... + ak+l, al)


et leur produit est égal à 1 - Y 2 dont la loi est PI (b - b2, h2), soit

Pl(a3 + ... + ak+l, al + a2).

On en déduit la propriété formulée dans l'énoncé en posant

r = a3 + ... + ak+ h

s = a2,

t = al

et en remarquant que r, s et t ainsi définis sont trois nombres réels


strictement positifs quelconques.

Remarque. On peut établir directement la propriété en cherchant


d'abord la densité du vecteur aléatoire (U, W).

25
I. EXERCICES DE PROBABILITES

5) Considérons le vecteur aléatoire U = (U 1, ... , U p ) défini à partir


du vecteur Z comme l'a été le vecteur T à partir du vecteur X. On a

U 1 = 1 - Zt,

1 - Z. 1 U.= 1 1 - 21-1

(2

p),

d'où

U 1 = TI T 2 ... Tkt' U 2 = T k1 + 1 ... T k2 ,

U p =T k +1'" Tk' p-l P

On en déduit que les composantes du vecteur U sont indépendantes


et, grâce à la propriété montrée à la question 4 et étendue, de
proche en proche, à un produit de plus de deux variables de lois
Bêta 1, que la loi de Ui (1

p) est la loi PI (a k '+ 1 + ... + a k + l , al + ... + a k .). 1 1 En utilisant


la réciproque énoncée à la question 3 de l'exercice précédent, on en
déduit que le vecteur aléatoire Z suit la loi S'>p(st, ... , sp; Sp+1), où
l'on a posé

SI = al + ... + a k1 ' s2 = a k + 1 + ... + a k ' 1 2

S p = a k + 1 + ... + a k ' p-l p sp+l = akp+l + ... + a k + 1 .

Enfin, si nous considérons le "sous-vecteur" (Y k ' ... , Y k ) de Y, on


a1p

y kl = Zl' Y k2 = ZI +

, ... , Y kp = ZI + ... + Zp ,

et l'on en déduit, grâce au résultat de la question 1, que la loi de ce


sous-vecteur est la loi (.) S)k (SI, ... , sp ; Sp+1). Les lois marginales
des lois de Dirichlet ordonnées sont donc elles-mêmes des lois de
Dirichlet ordonnées.

26
Chapitre il

STATISTIQUES D'ORDRE

Exercice 111.1. Lois des statistiques d'ordre Soit Xl"'" X n un


échantillon de taille n de la loi F et soit X(I)"'" X(n) l'échantillon
ordonné associé. 1) Déterminer la loi F(r) de la statistique X(r)' où 1

n. 2) Dans le cas où la loi F admet une densité f, déduire du résultat


précédent la densité f(r) de X(r) et justifier le moyen mnémonique
donné à la remarque 111.2.2. 3) Déterminer la loi F(r,s) de la
statistique (X(r)' X(s»' où 1

r<s

o. 4) Dans le cas où la loi F admet une densité f, déduire du résultat


précédent la densité f(r,s) de (X(r)' X(s» et justifier le moyen
mnémonique donné à la remarque 111.2.8. 5) Soient rI"'.' rk des
entiers tels que 1

rI < r2 < ... < rk

n. En supposant que la loi F admet une densité f, déterminer la


densité f(f1"'.' fk) de la statistique (X(fl)"" ,X(fk» en utilisant, sans
chercher à le justifier, un moyen mnémonique analogue à celui de la
question 4.

1) Soit x e IR et soit Al' événement {X(r)


x}. Désignant par P la probabilité dans l'espace probabilisé sur
lequel sont définies les variables aléatoires Xi, on a

f(r)(x) = P(A).

D'autre part, A = U Aj, où Aj désigne l'événement "j des variables


aléatoires j=r Xi (1

n) sont inférieures ou égales à x, les autres sont supérieures à x".


Les événements Aj étant deux à deux incompatibles, on a

n F(r)(x) =

P(A j ). J=r

27

II. STATISTIQUES D'ORDRE

Désignant, enfin, par '!P j,n l'ensemble des parties à J éléments de


l'ensemble { 1, ... , n}, on a
A.= U J Je i!P j,n

[ (n {Xi

x} ) n (n {Xi > x} ) ]. ie J i

Les variables aléatoires Xi étant indépendantes et de même loi, les


événements entre crochets ont tous la même probabilité, à savoir
(F(x)

(I-F(x»n- j . Comme, de plus, ils sont deux à deux incomptabiles et


qu'il y en a C

, on obtient

P(A j ) = C

(F(x»j (I-F(x»n- j ,

d'où

n \:1 x e IR, F(r)(x) =

C
(F(x)

(l-F(x»n- j . J=r

Remarque. Ce résultat s'applique à toute loi F, continue ou non.

2) Si F admet une dérivée f, F(r) admet aussi une dérivée f(r) et si


l'on désigne par

la fonction définie par

(t) = L d n J (l_t)n- j , j=r

ona

f(r)(x) = <1>'(F(x» f(x).

. On laisse au lecteur le soin de vérifier que, dans le calcul de la


dérivée de <1>, les termes s'éliminent deux à deux et que l'on
obtient

'(t) = r c: {-1 (l_t)n-r,


d'où

f(r)(x) = r c: (F(x»r-l (I_F(x»n-r f(x).

28

II. STATISTIQUES D'ORDRE

Pour justifier le moyen mnémonique, écrivons que

. F(r)(x+h) - F(r)(x) f(r)(x) = lim h-+ 0 h

= lim P(x < X(r)

x+h) = lim P(x-h < X(r)

x) . h-+ 0+ h h-+ 0- - h

Les deux cas (h > 0 et h < 0) se traitant de façon analogue, bornons-


nous au cas où h tend vers 0 par valeurs positives. On peut écrire

n
{x<X(r)

x+h} = U Bj, j=1

où Bj désigne l'événement "j et j seulement des variables aléatoires


Xi sont supérieures à x et inférieures ou égales à x+h et X(r) se
trouve parmi ces j variables".

Les événements Bj étant deux à deux incompatibles, on a

n P(x < X(r)

x+h) = L P(B.). . 1 J J=

Si l'on désigne par C j l'événement "j et j seulement des variables


aléatoires Xi sont supérieures à x et inférieures ou égales à x+h", on
a Bj C Cj, donc P(B j )

P(C j ). Or, en raisonnant comme à la question 1, on peut écrire

C j = U [ ( . n {Xi e ]x, x+h] } J n ( . n {Xi e: ]x, x+h] } J ] , Je P j,n 1 e J


1

J
d'où

P(C j ) = C

[F(x+h)-F(x)]j [1-F(x+h)+F(x)]n- j .

On remarque alors que P(C j ) est un infiniment petit relativement à h


d'ordre j au moins et qu'il en est donc de même de P(B j ). On aura
donc

P(B 1) f(r)(x) = lim - h-+ 0+ h

29

n. STATISTIQUES D'ORDRE

Puisque BI est l'événement "(r-l) des variables aléatoires Xi sont


inférieures ou égales à x, l'une est supérieure à x et inférieure ou
égale à x+h et les (n-r) autres sont supérieures à x+h", le moyen
mnémonique se ttouve justifié et l'on a

P(Bl) =

-l (F(x»r-l (n-r+l) (F(x+h)-F(x» (I..F(x+h»n-r, Ii


d'où

f(r)(x) = (n..r+ 1)

l (F(x)l-l (I_F(x»n-r f(x),

ce qui est bien le résultat obtenu plus haut puisque

(n-r+l) ë- 1 = ré. n n

3) Soit (x, y) un élément de 1R2. On a

F(r.s) (x, y) = P( (X(r) S x} n (X(s) s y}).

On remarque que si y S x, on a

(X(s) S y)} C (X(r) S x}

et, donc,
F(r.s)(x, y) = F(s)(Y).

Considérons le cas où x < y. Par analogie avec la question 1, posons

A= (X(r) S x} n (X(I) S y}.

On a alors

n k A= U U A. k , k . J. =5 J=r

où Aj,k désigne l'événement "j des variables aléatoires Xi sont


inférieures ou égales à x, (k-j) sont supérieures à x et inférieures ou
égales à y, les (n-k) autres sont supérieures à y". D'où

n k P(A) ;: L L P(Aj k)' k=s j=r ·

En raisonnant comme à la question 1, on obtient

P(A j . k ) = c: d k (F(x)

(F(y) - F(x»k- j (1 - F(y})n-k,


30

II. STATISTIQUES D'ORDRE

d'où

n k L L n! (F(x)

(F(y) - F(x»k- j (l_F(y»n-k si x < y, F(r,s)(x, y) = k=s j=r j! (k-j)! (n-k)!

F(s)(Y) si x

y.

4) Si F admet une dérivée f, la loi de (X(r)' X(s» admet une densité


f(r,s) définie par

2 d f(r,s)(X' y) = dX dY F(r.s)(X' y).

Si l'on désigne par

la fonction définie par

nk
(t, u) = L L k=s j=r j! (k-j)! (n-k)!

n!

(u-t)k- j (l_u)n-k,

on a

"t,u (F(x), F(y» f(x) f(y) f(r,s)(x, y) = o

si x < y,

si x

y.

Ecrivant la fonction

sous la fonne

n, [ k
( ) k-j ] <1> (t, u) = L n. (l_u)n-k L u-t , k=s (n-k)! j=r j ! (k-j) !

on vérifiera aisément, grâce à des éliminations de tennes, que

n,

n.

't(t, u) = .i.J k=s (n-k)!

(l_u)n-k

r-1 ( ) k-r t u-t

(r-l)! (k-r) !

et, donc, que

I\,U(t, u) = (r-l)! (s-r-l)! (n-s)!

n!
r-1 ( ) s-r-1 (1 ) n-s t u-t -u,

31

II. STATISTIQUES D'ORDRE

d'où

n! f(r s)(x, y) = (F(x)l-l (F(y)_F(x»s-r-l (l_F(y»n-s f(x) f(y) 11 R 2 (x, y).


· (r-l)! (s-r-l)! (n-s)!

Pour justifier le moyen mnémonique, procédons comme à la


question 2 en écrivant

que

f(r.s)(x, y) = lim a

O. b

F(r.s)(x+a, y+b) - F(r.s)(x, y+b) - F(r.s)(x+a, y) + F(r.s)(x, y) ab


TI Y a quatre cas à étudier, selon les signes de a et de b. Comme ils
sont analogues, bornons-nous au cas où a et b sont positifs. On doit
donc chercher

lim

P( (x < X(r)

x+a} n (y < X(s)

y+b})

++a

0.b

ab

et l'on peut écrire que

nn
(x < X(r)

x+a} n (y < X(s)

y+b}=.U U B j . k , J= 1 k= 1

où Bj.k désigne l'événement "j et j seulement des variables


aléatoires Xi sont supérieures à x et inférieures ou égales à x+a, X(r)
se trouvant parmi elles, k et k seulement des Xi sont supérieures à y
et inférieures où égales à y+b, X(s) se trouvant parmi elles." Puisque
l'événement {X(r)

X(s)} est certain, on peut poser f(r,s)(x, y) = 0 si x

y , et, donc, se borner au cas où x < y. On peut alors imposer à a de


réaliser x+a

y. En remarquant que les événements Bj,k sont deux à deux


incompatibles (certains sont d'ailleurs impossibles), puis en
raisonnant sur les ordres des infiniment petits P(Bj,k) comme à la
question 2, on aboutit à

f(r,slx, y) = lim a

0+. b

0+

P(B 11 ) ,

ab
Or B1,1 est l'événement "(r-l) des variables aléatoires Xi sont
inférieures ou égales à x , l'une est supérieure à x et inférieure ou
égale à x+a, (s-r-l) sont supérieures à x+a et inférieures ou égales à
y, l'une est supérieure à y et inférieure ou égale à y+b

32

II. STATISTIQUES D'ORDRE

et, enfin, les (n-s) autres sont supérieures à y+b". Le moyen


mnémonique se trouve donc justifié et l'on a

P(B 1 ,l) = é

l (F(x)l-l (n-r+ 1) (F(x+a)-F(x» C

-_:-l (F(y)_F(x+a»s-r-1 (n-s+l) (F(y+b)-F(y» (I_F(y+b»n-s.

On obtient donc (si x < y )

f(r,s)(x, y) = C

1 (n-r+ 1)
:-1 (n-s+ 1) (F(x»r-l (F(y)_F(x»s-r-l (I_F(y»n-s f(x) f(y),

ce qui est bien le résultat obtenu plus haut, puisque

n! c:- 1 (n-r+ 1)

-r-1 (n-s+ 1) = . n n-r (r-l)! (s-r-l)! (n-s)!

5) En raisonnant comme à la question 4, on obtient

[ k-1 ] rl-1 r. 1-r'-1 n f(r1.... ,rk)(x 1 , ..., x k ) = K(n; rI' ..., r k ) (F(x 1 »
fi (F(x j + 1 )-F(x j »J+ J (I-F(x k » J=l

[ fI f(X j ) ] l1_k (xl' ... , x k ), J= 1 IR

où K(n; rI' ... , r k ) est le nombre de façons de partager les n


variables aléatoires Xi en (2k+l) "paquets" comportant
respectivement r 1 -1, 1, r 2 -r 1 -1, 1, ... , 1, r j + 1 -r f l, 1, ... , 1, r k -
r k _ 1 -1, 1, n-r k éléments. On a donc

n! K(n ; rl"" , r k ) = (rI -1 )! 1! (r 2 - r 1- 1 )! 1! . .. (r k - r k _ el)! 1! (n -


r k) !
n!

(rl-l)! [ fI (rrrj'l-l)!] (n-r k )!

Remarque. Si k = n, c'est-à-dire si rj = j (1

n), on retrouve la densité du vecteur des statistiques d'ordre X(.).

33

II. STATISTIQUES D'ORDRE

Exercice 111.2. Soit X un échantillon de taille n d'une loi continue F


dont la densité f est symétrique par rapport à m (m e IR), c'est-à-dire
vérifie

'V t e IR, f(m+t) = f(m-t).


Montrer que les densités des statistiques d'ordre de dimension 1
vérifient

'Vre {l, ... ,nl, 'V te IR,

f(r)(m+t) = f(n+l-r) (m-t).

Généraliser à des statistiques d'ordre de dimension supérieure.

On sait que la fonction de répartition F de la loi donnée vérifie

\:1 t e IR,

F(m+t) + F(m-t) = 1.

D'autre part, on a

'Vre{I,...,n}, 'Vxe IR,

n! r-l n-r f(r)(x) = (F(x» (I-F(x» f(x) (r-l)! (n-r)!


et on en déduit

n! f(n+l_r)(m-t) = (F(m_t»n-r (I_F(m_t»r-l f(m-t) (r-l)! (n-r)!

n!

(I_F(m+t»n-r (F(m+t)l-l f(m+t) (r-l)! (n-r)!

= f(r)(m+t).

On vérifiera, de même, que, si r et s sont deux entiers tels que 1

r < s S; n, on a

'V (t, u) e IR 2 ,

f(r,s)(m+t, m+u) = f(n+1-s,n+1-r)(m-u, m-t).

Exercice 111.3. Exemples d'applications du théorème 111.3.4 et de


son corollaire 111.3.7
Dans les quatre questions de cet exercice, qui sont indépendantes,
X(I) et X(n) désignent respectivement la plus petite et la plus grande
observation d'un échantillon de taille n d'une loi continue F. Toutes
les limites demandées sont des limites en loi lorsque n devient infini.

34

II. STATISTIQUES D'ORDRE

1) On suppose que F est la loi I(À). Déterminer la limite de la


statistique

X(1) Z =n- n . À

2) On suppose que F est la loi r (2, 1). Déterminer les limites des
statistiques

Y n = X(n) - Log n - Log Log n et Zn = Yiï X(I).

3) On suppose que F désigne la loi S>e(O, 1). Déterminer la limite


de la statistique
Y n = X(n) - Log n.

4) Enfin, si F désigne la loi

(0, 1), déterminer la limite de la statistique

Y n = X(n) - Log n.

Rappelons que les fonctions de répartition respectives de X(1) et de


X(n)' soit F(I) et F(n) , sont définies par

F(l)(X) = 1-(I-F(x»n et F(n) = (F(x»n.

1) On a

F(x) = (l-e-x/Â.) 11 IR +(x),

d'où

F(l)(x) = (l-e- n x/Â.) 11 1R +(x).


La fonction de répartition FZn de la statistique Zn est donc définie
par

FZn (x) = F(I)(Àx/n) = (l-e- X ) 11 1R +(x).

C'est dire que la loi de Zn est, pour tout n, la loi t (1) qui est donc
également la loi limite cherchée. Elle est du type 2 (corollaire Ill.3.7).
Rappelons qu'on trouvera une limite concernant X(n) dans l'exemple
llI.3.5.

2) La densité f de la loi r (2, 1) est défmie par

f(x) = x e- X 11 IR +(x),

d'où

F(x) = (1 - (x+l) e- X ) 11 1R +(x)

35

II. STATISTIQUES D'ORDRE


et, donc,

F(1)(x) = (1 - (x+ l)n e- nX ) 11 rR+(x),

F(n)(x) = (1 - (x+ 1) e-X)O 11 IR +(x).

La fonction de répartition Fy de la statistique Y n est définie par n

Fy (x) = F(n)(x + Log n + Log Log n). n

En posant bn = Log n + Log Log n, on a donc

! -b (1 - (x + 1 + b n ) e- x e n)n Fy (x) = n o

. > b SI X - - n'

sinon.

Puisque b n tend vers +00, on a, pour tout x de IR, x

- b o à partir d'un certain rang. On doit donc chercher la limite (n


+00) de

Fy (x) = ( 1- (x+ 1 +b n ) e- X e-bn )0, n

forme indéterminée du type 1 00 , puisque lim (b n e-bn) = O. On a


donc

Log Fy (x) 'V -n (x+ 1 +bn) e- X e-bn n

'V -n b n e- X e-bn n

'V -n (Log n) e- x (n Log nr 1 = - e- x , n

d'où

'Vx E IR,

Fy (x)

exp( - e- x ). n n
On reconnaît une loi limite du type 3 (théorème ill.3.4). La fonction
de répartition FZn de la statistique Zn est définie par

FZn (x) = F(1)(

= (1 - (1+

)n e-X

) l1 rR +(x).

36

II. STATISTIQUES D'ORDRE

On doit chercher la limite de

Un = (1+

)o e- XVD .

Or
Log Un = n Log (1+

)n e- xm

et un développement limité à l'ordre 2 relativement à l'infmiment petit

montre que

2 x lim Log Un =-, 2

d'où

lim Fy (x) = (1 - e- x2 /2) 11 rR + (x). n

La limite obtenue est du type 2 avec a = 2 (corollaire 111.3.8).

3) La fonction de répartition F de la loi m e(O, 1) est définie par


(exercice 7 chap. 1)

1 x -e 2

si x
0,

F(x) =

1 x 1 - - e- 2

si x

O.

La fonction de répartition Fy de la statistique Y n est donc définie par


n

2- n en(x + Log n)

si x

- Log n,

Fy (x) = F(n)(x+Log n) = n

1 (1 _ _ e-x)n 2n
si x

- Log n.

Pour tout élément x de IR, on a x

-Log n à partir d'un certain rang. On doit donc chercher la limite de

1 (1 - - e-x)n, . 2n

laquelle est égale à exp(-':' e- X ) = exp(- e- (x+Log 2) ). 2 On obtient


donc une limite du type 3 (théorème 111.3.4).

37

II. STATISTIQUES D'ORDRE

4) La fonction de répartition F de la loi

(0, 1) est défmie par (exercice 6 chap. 1) F(x) = (1 +e-xr 1 ,

d'où

F(n)(x) =(1 +e-Xr D


et

Fy (x) = F(n)(x+Log n) = (1 +e -x/nr n n

dont la limite est exp(- e- X ), encore du type 3 (théorème llI.3.4).

Remarque. On obtiendrait, pour ces deux dernières lois, des limites


analogues concernant X(1)' puisque ces lois sont symétriques par
rapport à l'origine.

Exercice IV.I. Soit X h ..., X n un échantillon de taille n de la loi I(À) et


soit X(1), ... ,X(n) l'échantillon ordonné associé. Soient Yi (1

i Sn) les statistiques définies par

YI = X(l),

Yi = X(i) - X(i-l) (2 S i

n).

1) Montrer que les statistiques Yi sont indépendantes et déterminer


leurs lois. 2) En déduire que, si r et s désignent deux entiers tels que
1

r < s Sn, les statistiques X(r) et X(s) - X(r) sont indépendantes et


généraliser ce résultat. Exprimer les lois de X(r) et de X(s) - X(r)
sous forme de produits de convolution de lois exponentielles et en
déduire que X(s) - X(r) a la même loi que la (s-r)ème statistique
d'ordre d'un échantillon de taille (n-r) de la loi t (À). 3) Déduire des
questions précédentes les résultats énoncés dans l'exemple /V.2.2,
à

savoir

n 1 IE(X(r» = À L -, i=n-r+ 1 i

n 1 V(X(r» = Cov(X(r), X(s» = À 2 . L :2' I=n-r+ 1 1

1) On conn ait la densité f de la loi 'I(À)

1 -x(À

f(x) = - e il IR +(x). À

38

II. STATISTIQUES D'ORDRE


On en déduit la densité f') du vecteur des statistiques d'ordre

n t<.)(x) = n! TI f(xi) 11 f{n (x) i=l n = nD: n exp(-

LXi) l1ft+n (X). À i=l

Soit <p l'application linéaire de IR n dans IR n définie par

CP(XI , ... , Xn) = (xl' X2 - Xl' ... , Xn - Xn-l).

Elle est bijective, de détenninant égal à 1, et vérifie

,." cp(1R+ n ) = IR +n.

De plus

n cp-1(Y1' ... ,Yn) = (YI' YI+Y2 ' ... ,L Yi), i=l

d'où la densité fy du vecteur Y des statistiques Yi


1 n fy(Y) = n! À -n exp (- - L (n-i+ 1) Yi ) 1l 1R + n (y) À i=l

n . 1 n TI n-l+ (1 = n! À- (exp ( - - Yi) a 1R+(Yi) ). i=l À

Cette factorisation nous montre que les statistiques Yi sont


indépendantes et de lois respectives '1 (+ 1 ). n-l+

2) On a

r X(r) = L Yi i=l

et

s X(s) - X(r) = L Yi, i=r+ 1

ce qui enttaîne l'indépendance de ces deux statistiques. Plus


généralement, si rI, r2, ... , rk sont des entiers tels que 1 S ri < r2 < ...
< rk

n, les statistiques X(r 1 ), X(r 2 )-X(f 1 ), ... , X(r k ) - X(r k _ 1 ) sont


indépendantes.

39
II. STATISTIQUES D'ORDRE

De plus, la loi de X(r) est le produit de convolution des lois 1(+ 1 )' où
i varie n-I+ de 1 à r, ou encore le produit de convolution des lois 'I(

), où j varie de (n-r+ 1) à n. J De même, la loi de X(s) - X(r) est le


produit de convolution des lois t <+ 1 )' n-I+ où i varie de (r+ 1) à s,
ou encore le produit de convolution des lois 1 (

), où j varie J de (n-s+ 1) à (n-r). On en conclut que la loi de X(s) -


X(r) est celle de la (s-r)ème statistique d'ordre d'un échantillon de
taille (n-r) de la loi I(À).

3) Sachant que la moyenne et la variance de la loi t(À) sont


respectivement égales à À et À 2 , les convolutions ci-dessus nous
permettent d'écrire que

n 1 IE(X(r» = Â L -, i=n-r+ 1 i

V (X(r» = '),.2 . i .

. l=n-r+1 1

Enfin, l'indépendance des statistiques X(r) et X(s) - X(r) nous permet


d'écrire que
Cov(X(r), X(s) - X(r» = 0,

ce qui donne

Cov(X(r), X(s» = V(X(r».

Exercice IV.2. Calculer les moments d'ordre 1 des statlstlques


d'ordre d'un échantillon de taille n de la loi eN (0, 1) dans les cas
suivants

1) n = 2,

2) n = 3,

3) n = 4.

On effectuera ces calculs à partir de la densité de l'échantillon


ordonné X(1) , ... , X(n).

Remarque préliminaire. On a lE (X(r» = - IE(X(n-r+l», puisque la loi


eN (0, 1) est symétrique.
1) n = 2.

On sait que IE(X(1» = - IE(X(2»' Calculons IE(X(2» =

2. La densité f{.) de X(.) est définie par

..l) 1 1 2 2 Q t" (x, y) = - exp [- - (x + y )] a - R 2 (x, y) , 1t 2

40

II. STATISTIQUES D'ORDRE

d'où

1 J I 2 2 112 = - y exp [- - (x + y )] dx dy X 2 ft2

L e-x2

[f- Y e- ln dy ]dx

1 J 2 1 1 = - e- x dx = - fit = - X X fit' IR
et, finalement,

E(X(2» = - E(x(l» = k .

2) n = 3.

On sait que IE(X(1» = - IE(X(3» et que IE(X(2» = O. Calculons


IE(X(3» = 1l3.

La densité t<.) de x<.) est définie par

6 1 t<.)(x, y, z) = 3/2 exp [- - (x 2 + y2 + z2)] ll R 3 (x, y, z), (2x) 2

d'où

3 f I J.13 = 112 3/2 z exp [- - (x 2 + y2 + z2)] dx dy dz 2 X 3 2 R

[ +00 ] _ 3 1 2 2 _z212 - 2 112 1t 3/2

2 exp [- '2 (x + y )]

z e dz dx dy
- 3 f [ 1 2 2 ] - 1/2 3/2 exp - - (x + 2 y) dx dy. 2 X 2 2 IR

U ne intégration en coordonnées polaires conduit à

41

II. STATISTIQUES D'ORDRE

3 = 1// 3/2 l 2 1t + rR x [1[/4. 51[/4]

2 exp [-

(cos 2 a + 2 sin 2 a)] p dp da. 2

Or

-'A. p 2/2 d [ 1 _'A. p2 /2 ] J_ p e p = - - e o À 0

1
(À > 0),

d'où

51[/4 l1J = 21// 3(2 f 1t 1[14

da 2 2 . cos a + 2 sin a

Comme f 51[/4 da f 1[/2 da 2 . 2 - 2 2 1[/4 cos a + 2 SIn a -1[12 COS


a (1 + 2 tg 9)

_ dt _ --L -too _ 1t - 2 -.Pi" [Arctg n'21_ 00 - .Pi"' 1 +2 t '

-00

on a
J.!3 = -L. . 2fii

3) n = 4.

On sait que IE(X(1» = - IE(X(4» et que IE(X(2» = - IE(X(3»'

Calculons IE(X(4» = Jl4 et IE(X(3» = J.!3.

42

II. STATISTIQUES D'ORDRE

De la même façon que précédemment, on a

6 f i J,14 = - t exp [- - (x 2 + y2 + z2 + t 2 )] dx dy dz dt x 2 2 ft4

6 f i = - exp [- - (x 2 + y2+ 2 z2)] dx dy dz. x 2 2 ft3

Une intégration en coordonnées sphériques conduit à


2 J,14 =

f exp [-

(cos 2 À + 2 sin 2 Â,)] p2 cos À dp d9 dÀ, x 2 2 Ii

X x A = IR+ X {(9, À) e [0, 2x[ x ] - 2' 2] ; cos 9

sin 9, sin 9 cos À

sin À}

+ X 5x . x = IR x {(9, À) ; "4

4' Arctg(sIn 9)

À < 2} .

D'autre part, on sait que f

2 1 2 - x 2 12C1 dx = #T 2 , Y 2x cr x e v

-00
soit

f +oo 2 2 - x 2 12C1 -3 /z xe dx=o--. 2

-00

On a donc

2 p2 exp [-

(cos 2 À. + 2 sin2

)] dp = {X (cos 2 À. + 2 sin 2 À.r 312 , o 2 J 1:

d'où

2 51t/4 [ 1t/2 ] P 6 f f cos À "2 J,14 = 1/2 3n. 2. 2 3n. dÀ d9. 2 x 1t/4
Arctg(sin 9) (cos À + 2 SIn À)

43
II. STATISTIQUES D

ORDRE

On vérifie alors facilement que

1t/2 '\ 1t/2 '\ f cos A f dA 2 + . 2À. 312 dÂ. = 2 + 2 À 312 Ar ( . 9)


(COS À. 2 sIn ) Ar ( . 9) cos À (1 2 tg ) ctg sm ctg sm

du = (1 + 2 u 2 )312 sin 9

+00 = [ (1 + 2 U i)ll2 lin 0 1 sin 9 - 2 112 - (1 + 2 sin 2 9)1/2 '

d'où

[ 51t

] 6 x sin 9 Il = - - d9 4 2112 X 312 2 112 t4 (1 + 2 sin 2 9)112 .

On obtient alors
f 51t/4 sin 9 2 112 d9 = f 5 1t /4 sin 9 2 112 d9 1t/4 (1 + 2 sin 9) 1t/4
(3 - 2 cos 9) = ...L [ Arcos( Ji cos 9) t lt/4 fi fi 1t/4 = L (Arcos

- Arcos L ) fi fi fi = -12 (x - 2 Arcosif)'

On en déduit fmalement

114 =

Arcos(

). XIX ,3

Une valeur approchée de Jl4 est 1.03.

44

II. STATISTIQUES D'ORDRE

Calculons, enfin, 113.

113 = 6 2 f z exp [-

(x 2 + y2 + z2 + t 2 )] dx dy dz dt x 4 2 R
= :2 l 3 exp [-

(x 2 + y2 + t 2 )] [f z e- ill dz J dx dy dt R

6 f [ 1 ] 2 2 = 2 exp - - (x 2 + y2 + t 2 ) (e- Y 12 - e- t 12) dx dy dt X


_3 2 R

6 f 1 6 f 1 = 2 exp [- - (x 2 + 2 y2 + t 2 )] dx dy dt - 2 exp [- - (x 2 + y2
+ 2 t 2 )] dx dy dt X iR 3 2 X iR 3 2

6 f i = - exp [- - (x 2 + 2 y2+ t 2 )] dx dy dt - Jl4. x 2 2 _3 R

On poursuit l'intégration en coordonnées sphériques en posant

! x = p cos 9 cos À, t = P sin 9 cos À, y = p sin À,

et l'on obtient

2 6 f P 113 + 114 = 2 exp [- - (cos 2 À + 2 sin 2 À)] p2 cos À dp d9


dÀ, x, 2 !J.


X X t:,.' = IR + x {(9, À) e [0, 2x[ x ] - 2' 2[ ; cos 9 cos À

sin À

sin 9 cos À}

+ X 5x . = IR x {(9, À) ; "4

4' Arctg(cos 9)

Arctg(sIn 9)}.

45

II. STATISTIQUES D'ORDRE

On obtient donc, par un calcul voisin de celui déjà effectué,

Sn/4 6 f u sin 9 J,1 + Il - [ ] da 3 4 - 2 1 n. 1t3/2 (1 + 2 u 2 )1n. n

œs9
6 f 5 n /4 [ sin a cos a ] = -

2 1 n. 1t 3/2 (1 + 2 sin 2 a)1n. (1 + 2 cos 2 a)ln. . 1t/4

Grâc . a 31t a e au changement de vanable

2" - , on peut constater que

f 51t/4 _ cos e f 51t/4 sin e 2 1 da = 2 1 da (1 + 2 cos a) 12 (1 + 2 sin


a) n. 1t/4 1t/4

et, d'après les calculs précédents, cette intégrale est égale à

fi (X-2Arco sk) .

d'où

6 J,13 + J,14 = 3/2 (1t - 2 Arco s ..

) , 1t ,3

et, enfin,

6 J,13 = 3/2 (1t - 3 Arcosi:=). 1t 13 On peut montrer que


=

/2 Arctg (if) et qu'une valeur approchée de Jl3 1t

est 0.297.

Remarque 1. Le calcul des moments d'ordre 1 des statistiques


d'ordre d'un échantillon de taille n de la loi eN (J,1, cr 2 ) se ramène
au calcul précédent en posant X'i = Xi - J,1 cr (1

n). On dispose alors d'un échantillon de la loi eN (0, 1) et l'on a

, X(r) - J,1 X (r) = cr

(1

n),

d'où

lE (X(r») = J,1 + cr lE (X' (r»'


46

II. STATISTIQUES D'ORDRE

Remarque 2. L'énoncé de l'exercice IV.2, tel qu'il est proposé dans le


tome 1, demande également le calcul de la matrice An des
covariances du vecteur X<.) pour n = 2, 3 et 4. Sans entrer dans le
détail de ce calcul, nous donnons quelques indications pour guider le
lecteur, ainsi que les résultats. On remarque tout d'abord que la
matrice An est symétrique par rapport à ses deux diagonales
puisque la loi eN (0, 1) est symétrique (voir exercice 111.2). D'autre
part, on peut éviter le calcul des variances des statistiques d'ordre si
l'on sait (voir exercice VII.2 chap. III) que la somme des termes
d'une ligne de la matrice An est égale à 1. Il suffit alors de calculer
des tennes du type E(X(r)X(s» (r < s) par les mêmes méthodes que
celles utilisées ci-dessus et il s'avère que les calculs sont plus
simples que ceux des moments d'ordre 1. En voici les résultats (on
complètera les matrices par symétrie).

Pour n = 2, lE (X(1)X(2» = IE(XIX2) = lE (Xl) IE(X2) = 0, d'où 1 1 1--


1t

A2=

1t 1 = [ 0.6817 1-- 1t

0.3183 ] . 0.6817
fi Pour n = 3, IE(X(1)X(2» = 2 1t et

fi lE (X(1)X(3» = - -, d'où 1t

[ 0.5595 A3=

0.2757 0.4487

0.1649 ] 0.2757 . 0.5595

Pour n = 4, E (X(l)X(2» = fi . E (X(l)X(3» = 3 - 2 fi , E (X(l)X(4» = _.1


et 1t 1t 1t lE (X X ) 2 fi - 3 d '''' (2) (3) = 1t ' ou

[ 0.4917 At=

0.2456 0.3605

0.1580 0.2359 0.3605

0.1047 ] 0.1580 0.2456 0.4917


On trouvera des valeurs numériques de ces moments pour de plus
grandes valeurs de n dans les tables de Sarhan-Greenberg (1956).

47

II. STATISTIQUES D'ORDRE

Exercice IV.3. Démonstration du théorème IV.2.5 S oit Xl, . .. , X n un


échantillon d'une loi F symétrique par rapport à Xo (xo e IR) et
unimodale et soit X(l), ... , X(n) l'échantillon ordonné associé.
Supposant que 1E(X(r» existe, on se propose de montrer que

n+l 1 r · si r.

-, IE(X(r»

F- (-), 2 n+l

n+l 1 r · si r

-, IE(X(r»

F- (-). 2 n+l
1) Remarquer que l'on peut se ramener au cas où Xo = 0 et que l'on
peut se borner à n+l étudier le cas où r>-. 2

n+l On suppose donc désormais Xo = 0 et r>-. 2

Montrer que

1 1 E(X(r» = f F,l(u) H(u) du = f [(Vl(u) H(u) + V l (1-u) H(1-u)] du, o


1/2

où l'on a posé

H(u) = n c:- 1 u r - 1 ( l-u)n-r. n-1

2) Soient u un élément de ]

, 1[ et a un élément de [

, 1]. Montrer que l'on a 2 2

F- 1 (a u + (l-a) (l-u»

a F- 1 (u) + (l-a) F- 1 (I-u).


En déduire que, si l'on pose

u H(u) + (l-u) H(I-u) <p(u) = , H(u) + H(I-u)

on a

[H(u) + H(I-u)] F- 1 (<p(u»

F- 1 (u) H(u) + F- 1 (I-u) H(I-u).

48

II. STATISTIQUES D'ORDRE

3) Montrer, en appliquant l'inégalité de Jensen, que

1 r IE(X(r»

F- (-). n+l

(Ali (1976»
1) On se ramène au cas où Xo = 0 en posant Yi = Xi - Xo (1

n). On est alors en présence d'un échantillon de la loi G symétrique


par rapport à l'origine et unimodale définie par

G(x) = F(x+Xo).

Comme, d'autre part, on a

lE (Y (r» = lE (X (r» - Xo

et

G- 1 (u) = F- 1 (u) - "0,

il suffit de montrer les inégalités pour Xo = O. On sait que l'on a alors

lE (X(n+ 1-r» = - lE (X(r»

et
F- 1 (I-u) = - F- 1 (u),

n+l d'où, si r < -, 2

( Ir ) ( 1 n+l-r ) IE(X(r»

F- (-) <=) IE(X(n+1-r»

F- (-) . n + 1 n+ 1

n+l On se limite donc à étudier le cas où r > -. On a alors 2 E(X(r» = f


xdF(r)(x) , IR

où F(r) désigne la fonction de répartition de X(r)' On sait que

dF(r)(x) = H(F(x» dF(x),

49

II. STATISTIQUES D'ORDRE

d'où
E(X(r» = f x H(F(x» dF(x) IR

1 = f F-l(u) H(u) du o

1/2 1 = f F'l(u) H(u) du + f F-l(u) H(u) du o ln

1 = f . [F-l(u) H(u) + F-l(l-u) H(1-u)] du, 1/2

puisque, par changement de variable (u

l-u), on a

1/2 1 f F-

u) H(u) du = f F,l(l-u) H(l-u) du. o 1/2

2) La fonction F- 1 est définie sur ]0, 1[ et vérifie

F- 1 (u) + F- 1 (I-u) = O.

De plus, elle est concave sur ]0,

] et convexe sur [
, 1 [. Si u e ]

, 1 [ et si 2 2 2 a e [

, 1], on peut écrire 2

1 au + (l-a) (1-u) = - (2-2a) + (2a - 1) u, " 2

d'où, puisque 0

2a -1

1 et que F- 1 est convexe sur [

, 1[, 2

F- 1 (a u + (l-a) (l-u»

(2-2a) F-1(

) + (2a-l) F- 1 (u), 2

0 + a F- 1 (u) - (l-a) F-1(u)

a F -1(u) + (l-a) F- 1 (I-u).

Remarquons que, si a E [0,

], on a l'inégalité contraire. Le lecteur est invité à 2 visualiser ces


résultats en traçant la représentation graphique de la fonction F -1.
50

II. STATISTIQUES D'ORDRE

Enfin, on peut écrire que

<p( u) = a u + (1 - a) (1 - u)

H(u) en posant a = H(u) + H(I-u)

1 et l'on a a E [-, 1[ car 2

H(u) ( l-u ) n+I-2r 0< = - < 1. H(I-u) u

On en déduit que

1 F- 1 (u) H(u) + F- 1 (I-u) H(I-u) F - (<p( u»

, H(u) + H(I-u)

d'où le résultat demandé.


3) On a vu que

1 E(x(r» = f [F,l(u) H(u) + F- l (l-u) H(1-u)] du, 1/2

d'où

1 1E(X(r»

f [H(u) + H(1-u)] F'l(q>(u» du. 1/2 On sait que F -1 est convexe sur [

, 1 [ et que <p(u) appartient à cet intervalle. De 2

plus, on vérifie aisément que

1 1 f [H(u) + H(1-u)) du = f H(u) du = 1, 1/2 0

puisque H est la densité de la loi Pl (r, n-r+ 1). D'où, par application
de l'inégalité de Jensen,

1 1 f [H(u) + H(1-u)] F-l(q>(u» du

F-I (f [H(u) + H(1-u)] q>(u) du ). 1/2 1/2


51

II. STATISTIQUES D'ORDRE

Enfm

1 1 f [H(u) + H(1-u)] <p(u) du = f [u H(u) + (1-u) H(1-u)] du 1/2 1/2

1 = f uH(u)du=

, o n+l

puisque l'espérance mathématique de la loi Pl (a, b) est

b . On a donc bien a+

1 r E(X(r»

F- ( - ). n+l

Exercice V.I. Propriétés du préordre de van Zwet Soient F et G deux


lois de probabilité sur IR vérifiant les propriétés énoncées dans la
définition V.3.1 . 1) Démontrer la propriété (V.l), à savoir
(F <s G) <=> (G- 1 0 F est convexe sur IR+ n (support de F»).

2 ) Montrer que le préordre de van Zwet ne dépend pas des


paramètres d'échelle des lois F et G. 3) On suppose, de plus, que G
est une loi unimodale. Montrer que, quel que soit le nombre réel
strictement positif a, on a

U[-a,a] <sG.

4) On suppose, de plus, que F est une loi "en forme de U". Montrer
que, quels que soient les nombres réels strictement positifs, a, cr, cr'
et À, on a

F <s U [-a, a] <s eN (0, cr 2 ) <s :t: (0, cr') <s S)e(O, À).

On utilisera les résultats des questions précédentes.

1) Soit A l'intersection de IR + et du support de F. On a

+ A = [0, a] (a > 0) ou A = IR .

52
II. STATISTIQUES D'ORDRE

Posons <p = G- 1 0 F. Puisque la densité g est strictement positive


sur le support de G, la fonction G- 1 est la fonction réciproque de G,
elle est dérivable sur ]-1, 1[ et l'on a 1 (G- 1 ),(u) = . g(G- 1 (u»

La fonction cp est donc dérivable sur l'intérieur A' de A (A' = ]0, a[ ou


A' = ]0, +co[) et l'on a

(<p convexe sur A) <=> (<p' croissante sur A' ).

Or

v x E A',

' ( ) f(x) cp x = . g(G-1(F(x»)

On en déduit, en posant u = F(x), soit x = F-1(u) puisque la densité f


est strictement positive sur le support de F, que la convexité de <p
sur A équivaut à la croissance de la fonction
f(F-l(U» u

g(G-1(u»

sur l'intervalle ]

, 1[, c'est-à-dire à la propriété "F <s GU. 2

2) Soit Â. un nombre réel strictement positif. Si X est une variable


aléatoire de loi F, la loi FI de la variable aléatoire Â.X est définie par

x F1(x) = F(-) Â.

et la densité correspondante fI par

1 x fl(x) = - f(-). Â. Â.

On a donc

VUE ]-1,1[,

F 1 - 1 (U) = Â. F- 1 (u),
1 fI (Ft-t(u» = - f(F -1(u». À

53

II. STATISTIQUES D'ORDRE

Si l'on effectue également un changement d'échelle sur la loi G,


avec la constante positive Â,', on a

fI (F 1 -1 ( u) ) Â,' f(F-1 (u» gl(G 1 - 1 (U» - i g(G- 1 (u»'

d'où le résultat demandé, à savoir

(F <s G) <=> (FI <s G 1 ).

3) En utilisant le résultat de la question 2, on peut supposer que a =


1. Désignant par U la fonction de répartition de U[-I, 1], on doit
montrer que la fonction G- 1 0 U est 1 x+l convexe sur [-, 1]. Or U(x)
= - (-1

1), d'où 2 2
1 1 x+l (G- 0 U)(x) = G- ( - ). 2

La loi G étant unimodale, la fonction G est concave sur IR +, donc


G- 1 est convexe sur [2.-, 1 [, ainsi que G- 1 0 U. 2

4) En utilisant le résultat de la question 2, on peut supposer que les


nombres a, cr, cr' et À sont tous égaux à 1 et que le support de F, qui
est évidemment borné, est l'intervalle [-1,1].

Montrons d'abord que F <s U [-1, 1], sachant que la fonction f est
croissante sur [0, 1 [, donc que F est convexe sur IR + n (support de
F). Si U désigne encore la fonction de répartition de U[-I, 1], on a U-
1 (u) = 2u - 1, soit U- 1 0 F = 2 F - 1.

La convexité de F entraîne celle de U- 1 0 F.

Le résultat de la question 3 nous prouve que U [ -1, 1] <s eN (0, 1).

Montrons ensuite que

(0, 1) <s S)e(O, 1). Désignant par Let D les fonctions de répartition
respectives de

(0, 1) et S)e(O, 1), nous devons montrer que D- 1 0 Lest convexe


sur IR +. On a (voir exercices 6 et 7 chap. 1)
1 L(x) = 1 + e- x

54

II. STATISTIQUES D'bRDRE

et

1 D(x) = 1 - - e- x (x

0), 2

soit

D- 1 (u) = -l..og( 2(1 - u) )

1 (-

u < 1), 2

d'où, après un calcul aisé,


+ \:Ixe IR ,

(D-l 0 L)(x) = Log(1 + eX) - Log 2.

eX Cette fonction est convexe, car sa dérivée x

- est croissante. On a donc 1 + eX

bien

:t: (0, 1) <s

e(O, 1).

Enfin, montrons que eN (0, 1) <s :t: (0, 1), soit, en désignant par <1>
la fonction de répartition de eN (0, 1), que la fonction H = L- 1 0 <1>
est convexe sur IR +. Puisque

L-1(u) = Log u - Log(1 - u),

on a

H(x) = Log <I>(x) - Log(1 - <I>(x».


La fonction H étant deux fois dérivable, montrons que H" est positive
sur IR + . En utilisant le fait que <1>' est positive et que

<I>"(x) = - x <I>'(X),

on montre aisément que H" a le même signe que la fonction u


définie par

u(x) = x ( <l>2(x) - <I>(x) ) + <I>'(X) ( 2 <I>(x) - 1 ).

On remarque que u(O) = 0 et que u(x)

0, d'après le résultat de

X-++oo

l'exercice 3 chap. 1.

Etudions les variations de u.

u'(x) = <l>2(x) - <I>(x) + 2 <I>,2(x).


55

II. STATISTIQUES D'ORDRE

Ona

1 1 u'(O) = - - - > 0 1t 4

et

u'(x)

x -++00

et, de plus,

u"(x) = <I>'(x) v(x),


v(x) = 2 <I>(x) -1 - 4 x <I>'(X).

Ona

v(O) = 0 et v(x)

1.

x -++00

Enfin, on étudie le signe de v en calculant sa dérivée

v'(x) = 2 (2 x 2 - 1) <I>'(x).

La fonction VI étant du signe de (2 x 2 - 1), on peut alors dresser un


tableau de variations (le lecteur est invité à le faire) qui pennet de
découvrir successivement . qu'il existe un réel a supérieur à '* tel
que v, donc u", soit négative sur ]0, a[ et positive sur ]a, +00[, . qu'il
existe un réel b (0 < b < a) tel que u' soit positive sur ]0, b[ et
négative sur ]b, +00[, . que la fonction u, donc la fonction H", est
strictement positive sur ]0, +00[.
n s'ensuit que H est bien convexe sur IR+, ce qui achève la
démonstration.

Exercice V.2. Soient X et Y deux variables aléatoires symétriques et


soient XI et y 1 deux variables aléatoires ayant même loi que IXI et
IYI respectivement. Montrer que

(1) (X <s Y)

(XI <s. YI)

et que

(2) (X <r Y)

(Xl <r* YI).

Remarque. Les équivalences proposées impliquent le théorème


V.3.3 et le généralisent quelque peu.

56

II. STATISTIQUES D'ORDRE


Soient F, 0, FI et 0 1 les fonctions de répartition respectives de X, Y,
Xl et y l' Exprimons FI et 0 1 au moyen de F et de 0, puis F 1 - l et G
1 - l au moyen de F- 1 et de G- l . On sait que, si x < 0, FI (x) = G l
(x) = O. Supposons donc x

O. On a

F 1 (x) = P(X 1

x) = P(IXI

x) = P(-x

x) = P(X

x) - P(X < -x) = P(X

x) - P( -x < -x) (car X et -X ont la même loi)

= P(X S x) - P(X > x) = P(X S x) - (1 - P(X S x» = 2 F(x) - 1.

Pour nous placer dans les hypothèses de définition des ordres <s et
<r, on suppose que F et G sont continues à l'origine, c'est-à-dire que
F(O) = G(O) =

, ce qUI 2 entraîne F 1 (0) = G 1 (0) = 0, c'est-à-dire la continuité de


FI et de G 1 à l'origine. On a donc

FI (x) = (2 F(x) - 1) 11 IR +(x)


et de même pour G 1.

Soit u un élément de ]0, 1 [. On a

F 1 - 1 (U) = Inf (x; Fl(x)

u} = Inf (x ; 2 F(x) - 1

u} u+l = Inf (x; F(x)

- } 2 1 u+l = F- (-) 2

d A G -1 et e meme pour 1 .

Pour montrer l'équivalence (1), il suffit de remarquer que

IR+ n (support de F) = IR+ n (support de FI)

et que, pour tout élément x de cet ensemble, on a

57
II. STATISTIQUES D'ORDRE

-1 -1 FI (x) + 1 -1 -1 (0 1 0 F 1 )(x) = 0 ( ) = 0 (F(x» = (G 0 F)(x). 2

Les fonctions 0 1 - 1 0 FI et 0- 1 0 F étant égales, la convexité de


l'une équivaut à celle de l'autre. Pour montrer l'équivalence (2), on
exprime G 1 - 1 , F 1 - 1 au moyen de 0- 1 , F- 1 , soit

\:1 u E ]0, 1[,

l ( U+ 1 J 1 G-- 0 1 - (u) 2 Fl'l(u) - Fl C;1 ) .

u+l 1 Puisque ( u E ]0, 1 [) équivaut à (- E ]-, 1 [), la croissance de la


fonction 2 2 G -1 0- 1 1

1 sur ]0, 1 [ équivaut à celle de - sur ]-, 1 [. F - F- 1 2 1

Exercice V.3. Démonstration de la seconde partie du théorème V.3.3


Soient X et Y deux variables aléatoires dont les fonctions de
répartition respectives F et 0 vérifient F(O) = 0(0) = O. Montrer que

(X <r* Y) => (\:1 a E IR, X a <r* ya).


Désignons par Flet 0 1 les fonctions de répartition respectives de X a
et ya. Elles vérifient FI (0) = 0 1 (0) = O. Soit x > O. On a

a F 1 (x) = P(X

x).

On est amené à séparer le cas "a > 0" du cas "a < 0", le cas "a = 0"
étant sans intérêt. Si a > 0, on a

FI (x) = P(X

x lia) = F(x lia).

Soit u un 61ément de ]0, 1[. On a

F 1 - 1 (U) = Inf{x ; F 1 (x)

u} = Inf {x ; F(x lla )

u}

et, par conséquent,

58
II. STATISTIQUES D'ORDRE

[F 1 - 1 (U)] lIa = F -l(u),

soit

F l-l(u)= [F -l(u)]a.

On a donc

(0 1 - 1 /F 1 - 1 ) = (0- 1 /F- 1 )a,

ce qui fait que la croissante de 0- 1 / F l implique celle de 0 1 - 1 / F1


-1.

Supposons maintemant a < O. On peut se contenter d'étudier le cas


où a = -1, puisque X a = (X- a )-1 et que la propriété est déjà
démontré dans le cas "a> 0". On a

1 1 1 FI (x) = P( -
x) = P(X

-) = 1 - F( - - 0). X x x

Soit u un élément de ]0, 1 [. On a

1 1 F 1 - (u) = Inf{x; F 1 (x)

u} = Inf (x ; 1 - F(- - 0)

u} x

1 = Inf{x ; F(- - 0)

l-u} x

d'où

1 1 =Sup{x;F(x-O)

l-u}. FI - (u)

On peut aisément vérifier que, pour tout élément v de ]0, 1 [, on a

Sup (x ; F(x - 0)
v} = F -l(v + 0),

en vérifiant que F -1 est continue à gauche et en considérant les


trois cas possibles, à savoir . F ne prend pas la valeur v, . F prend la
valeur v en un seul point, . F prend la valeur v sur un intervalle non
réduit à un point.

D'où

-1 1 FI (u) = F- 1 «1-u) + 0)

et

G 1-\U) F 1 - 1 (U)

F- 1 «1-u)+ 0) G- 1 «1-u)+ 0) .

59
II. STATISTIQUES D'ORDRE

La fonction G- 1 / P -1 étant supposée croissante sur ]0, 1 [, la


fonction <p définie

par

P-1(I_u) <p( u) = G- 1 (I-u)

est également croissante sur ]0, 1[. De plus, elle est continue à
droite et l'on a

G t - 1 (I-u) 1 = <p(u-O). P 1 - (l-u)

Il s'ensuit que la fonction G 1 -1/ FI -1 est croissante sur ]0, 1 [ et


que l'on a donc

bien

1 1 - <r* -. X Y
Remarque. Cette propriété, complétée par celle que l'on a montrée à
l'exercice précédent, permet d'écrire que

(X <r Y) => (\:la E IR, IXl a <r* IYl a ).

On peut aussi en déduire que, si a est un entier impair, on a

(X <r Y) => (X a <r y a ),

puisque les lois de X a et de ya sont alors symétriques et que l'on a


IXal <r* Iyal.

Exercice V.4. Autre démonstration du théorème V.4.1 1) Soit h une


fonction convexe sur un intervalle [a, b] (a < b). Montrer que la
fonction <p définie par

h(x) - h(a) <p(x) = x-a

est croissante sur l'intervalle ]a, b]. 2) Utiliser ce résultat pour


démontrer le théorème VA.], à savoir

(F <s G) => (F <r G).


1) Soient Xo et xI deux nombres réels tels que a < Xo < xI

b. Montrons que <p(x o )

<p(x 1 ).

60

II. STATISTIQUES D'ORDRE

Soit Â. l'élément de ]0, l[ tel que Xo = Â. a + (l-Â.) xl' On a, puisque h


est

convexe

h(Xo)

Â. h(a) + (l-Â.) h(x l )

d'où

h(x o ) - h(a) (1-Â.) (h(x l ) - h(x o » cp(x o ) =

, Xo - a (1-Â.) (xl - xo)


soit

cp(x o )

cp(x l ).

2) Soient F et G deux lois appartenant à Gj s dont les supports sont


des intervalles et qui possèdent des densités strictement positives
sur ces supports. On suppose que F <s G, c'est-à-dire que

G- I 0 F est convexe sur IR+ n (support F).

Désignons par A cet ensemble. On a A = [0, a] (a> 0) ou A = IR+. La


fonction cp définie sur A - {O} par

G l -1 G-l(F(x» _ G-I(F(O» G- 1 (F(x» <p(x) = - = = FI -1 x - 0 x

1 est croissante. Déduisons-en que G- l / F- l est croissante sur ]-, 1[.


Soient Do et u 1 tels 2 1 que - < 110 < u i < 1. Désignons par Xo et xl
les éléments de A - {O} définis par 2 F(x o ) = 110 et F(x 1 ) = u l .
On a 0 < Xo < xl' d'où cp(Xo)

cp(x l ), soit
G- 1 (F(x o » G- 1 (F(x 1 »

Xo xl

c'est-à-dire (G- 1 / F- 1 )(u o )

(G- 1 / F- 1 ) (u l ), ce qui achève la démonstration.

Exercice V.5. Soit £ un élément donné de l'intervalle ]0, 1[. A tout


nombre a strictement positif, on associe la loi

Ga = (1-£)

1 + £ Ôa.

61

n. STATISTIQUES D'ORDRE

1 ) Montrer que, si 1

b ou 0 < b

1, on a
Ga <r* Gb.

2) Soient X et Y a deux variables aléatoires indépendantes de lois


respectives F et Ga- Déterminer par sa fonction de répartition la loi
de Za = X Ya. Déduire du résultat de la question 1 une comparaison
de Za et

pour l'ordre "<r", lorsque F est une loi de Gj s à rapport de


vraisemblance monotone pour un paramètre (/ échelle. On
appliquera le théorème de Rivest (V.45.). 3) Appliquer le résultat de
la question 2 à la comparaison, pour l'ordre "<r", des lois cHc(E, cr)
pour une valeur donnée de E (exemple V.4.9).

1) Détenninons les fonctions Ga et G a - 1 .

Si a > 1, on a

Ga(X) = 1: - £

d'où

Ga'l(u) = { :
Si 0 < a < 1, on a

Ga(X) = E

d'où

l(U) = { :

si x < 1

si 1

x<a

si x

a,

si 0 < u

1 - E si 1 - E < u

1.
si x < 1 si a

x<1

si x

1,

si 0 < u

E si E < U

1.

Si a=l, G a = Ôl et l'on a G a - 1 (u) = 1 si O<u

1.

On en déduit que, si 1

b, on a

Gbl(U) = !

G a - 1 (u) - a
si 0 < u

1-E

si 1 - E < u

1,

62

II. STATISTIQUES D'ORDRE

d'où Ga <r* Gb, puisque Gb- 1 / G a - 1 est croissante sur ]0, 1[.

De même, si 0 < b

1, on a

! b Gb1(u) - G

l(u) = :
si 0 < u

si £ < u

1,

d'où Ga <r* Gb.

Remarque. Chacun des deux cas examinés peut se déduire de


l'autre en appliquant le résultat de l'exercice V.3, puisque, si Y est de
loi Ga, lN est de loi Gl/ a .

2) Désignons par Ha la fonction de répartition de Zao On a, en


supposant a:l: 1,

Ha(x) = P(Za

x) = P(X Y a

x)

= P( {X Y a

x} n (Y a = 1}) + P( {X Y a
x} n (Y a = a})

x = P( {X

x} n ( Y a = 1}) + P( {X

-} n (Y a = a}) a

x = P(X

x) P(Y a = 1) + P(X

-) P{Ya= a) a

x = (1-£) F(x) + £ F(-). a

Cette égalité est encore vérifiée si a = 1, puisque l'on a, alors, Ha =


F. En appliquant le théorème de Rivest et le résultat de la question 1,
on peut écrire que, SI 1

b ou 0 < b

1, on a Za <r Zb.

3) La fonction de répartition Fa de la loi eN c (£, cr) est définie par


Fa(x) = (1- £) <I>(x) + £ <I>(x/cr),

où <I> désigne la fonction de répartition de la loi cH (0, 1), puisque

eN c(£, cr) = (1-£) eN (0, 1) + £ eN (0, cr 2 ).

On sait, d'autre part, que eN (0, 1) est une loi de "s à rapport de
vraisemblance monotone pour un paramètre d'échelle. En
appliquant le résultat de la question 2, on peut donc écrire que, si 1

cr

cr' ou 0 < cr'

cr

1, on a,

eN c(£, cr) <r cH c(£, cr').

63

D. STATISTIQUES D'ORDRE
Remarque. La loi eN c(£, 1) qui n'est autre que la loi eN (0, 1) est un
minimum, relativement à l'ordre "<r" , de l'ensemble des lois eN c(£,
0) pour une valeur donnée de £.

Exercice V.6 1) Soient F et 0 deux lois continues appartenant à '1 s


et dont les supports sont des intervalles. Montrer qu'une condition
nécessaire et suffisante pour que l'on n'ait pas (F <r 0) est qu'il
existe des nombres réels Â., "0 et XI tels que

Â. > 0, 0 < "0 < Xh O(Â, "0) - F("o) < 0, O(Â. XI) - F(X1) > o.

2) Utiliser cette propriété pour montrer (exemple V.4.9) que, quels


que soient les nombres £ et £' tels que 0 < £ < E' < 1, il existe cr > 0
tel que l'on n'ait pas

eN c(£, a) <r eN c(£', cr).

1) Remarquons d'abord que, pour tout élément u de ]0, 1[,


l'ensemble {x ; F(x) = u} est un singleton. En effet, cet ensemble
n'est pas vide puisque F est continue et, si cet ensemble était un
intervalle non réduit à un point, cet intervalle ne ferait pas partie du
support qui ne serait alors pas lui-même un intervalle. On pourra
donc écrire que

Vue ]0, 1 [,
( X = F -I(u» <=> ( F(x) = u ).

Il en est de même pour G, bien sûr.

Supposons que l'on n'ait pas (F <r G), donc que G -1/ F -1 ne soit
pas croissante 1 . sur ]-, 1[. Il eXIste donc Uo et Ul tels que 2

1 - < Uo < Ul < 1 et (G -1/ F- I ) (Uo) > (0 -1/ F-I)(Ul)' 2

Posons Xo = F-l(u o ), XI = F-I(uI) et considérons un nombre réel Â.


(Â. > 0) tel que (G -1/ F-l)(Ul) < Â. < (G,I/ F

l)(Uo). On a 0 < Xo < XI et, d'autre part,

64

II. STATISTIQUES D'ORDRE

G-l(u ) (G- l /p-1)(Ul)<Â.)=> ( 1 <Â.) Xl

=> (G- 1 (Ul) < Â. Xl) => (Ul < G(Â.Xl) )


=> (G(Â.X1) - F(X1) > 0 ).

De même

( (G -1/ p-l)(Uo) < Â.) => (G(Â.Xo) - F(xo) < 0 ).

La condition nécessaire est donc établie.

Réciproquement, supposons qu'il existe Â., Xo et Xl tels que

Â. > 0, 0 < Xo < XI, G(Â.Xo) - F(Xo) < 0 et G(Â.X1) - F(X1) > O.

En posant U o = F(xo) et Ul = F(Xl), on établira aisément, en


s'inspirant de la démonstration précédente, que l'on a

1 - < U o < Ul < 1 et (G -1/ F- l )(U1) < Â. < (G -1/ F- 1 )(u o ) 2

1 ce qui signifie que G- 1 / F -1 n'est pas croissante sur ]-,1 [. 2

On laisse au lecteur le soin d'énoncer, par passage aux propriétés


contraires, une condition nécessaire et suffisante pour que l'on ait (F
<rG).

2) Soient e et e' tels que 0 < e < e' < 1. Montrons que l'on peut
trouver cr > 0 tel que l'on n'ait pas (eN c(e, cr) <r eN c(e', cr».
Désignons par F et G les fonctions de répartition respectives de eN
c(e, cr) et eN c(e', a). On sait qu'elles sont continues et strictement
croissantes sur IR. Posons, pour tout À > 0,

HÂ,(x) = G(Àx) - F(x).

Si <I> désigne la fonction de répartition de la loi eN (0, 1), on a

F(x) = (l-e) <I>(x) + e <I>(X) , cr

65

II. STATISTIQUES D'ORDRE

d'où

HÂ,(x) = (1-£') <I>(Àx) + £' <I>( À x ) - (1-£) <I>(x) + £ <I>( x ). cr a


La fonction HÂ, étant nulle en 0 et tendant vers 0 lorsque x

+00, montrons que l'on peut déterminer À > 0 et cr > 0 tels que sa
dérivée HÂ,' soit négative au voisinage de 0+ et de +00. Nous
serons alors assurés qu'il existe Xo et XI tels que

o < Xo < x}, HÂ,(x o ) < 0, HÂ,(X1) > O.

_ x 2 On sait que <I>'(X) = .b e 2 , d'où ,21t

2 2 Â, x 2 Â, x 2 x 2 _

ff1tHÂ,' (x) = À (1-£') e- 2 + £' Â. e- 20 2 _ (1-£) e- 2 _

e 20 2 . cr cr

On est assuré que HÂ,' est négative au voisinage de +00 si À > 1.


En effet, dans ce

cas, on a

_ Â, 2 X 2 _ X2

À (1-£') e 2
2 - (1-£) e

0-

+oo

et

_ Â,2 X2 _

co' À 2 0 2 £ 2 0 2

e--e

0- . cr cr

+oo

Supposons donc À > 1. Pour que HÂ,' soit négative au voisinage de


0, il suffit d'avoir HÂ,'(O) < 0, soit
À (1 - £') + £' À - (1 - £) -

< 0, cr cr

soit

1 À (1- £'+ ..E..:..) < 1 - £ + .£. , cr cr

ou encore

À<

1-£+

cr 1 1 - £' +

cr

66

II. STATISTIQUES D'ORDRE

Cette condition est compatible avec la précédente si


1<

l-E+£" cr , , 1 - E' + E.:.. cr

soit si

E' - E cr

< E' - E,

ce qui exige cr > 1.

Nous en concluons que, quels que soient £, £' et cr tels que

o < E < E' < 1 et cr > 1,

on n'a pas

eN c(£, cr) <r eN C(£', cr).


67

Chapitre III

EXEMPLES D'UTILISATION DES

STATISTIQUES D'ORDRE

Exercice 1.1 1) Soit {X n ; ne lN.} une suite de variables aléatoires.


On suppose que la loi de 1 1 X n est la loi (1 - -)

1 + - Sn. Déterminer la limite en loi de cene suite et vérifier que la n


n moyenne et la variance de cette loi limite ne sont pas égales aux
limites respectives de E (X n ) et de V (X n ). 2) En s'inspirant de la
question 3 de l'exercice V.S chap. Il, déterminer une suite {(En, crn) ;
ne lN.} d'éléments de [0, 1] x IR+. telle que la variance de la loi limite
de la suite {cH c(E n , crn) ; n E lN.} soit différente de la limite de la
variance de la loi cH c(E n , crn).

1) La fonction de répartition Fn de X n est définie par

1 1 Fn(x) = ( 1 - n) 11 [1, +oo[(x) + n 11 [n, +oo[(x)


et l'on a donc

'TI x E IR, Iim Fn(x) = 11 [1, +oo[(x), n-++oo

On en déduit que la loi limite est la loi

1 dont la moyenne et la variance sont respectivement égales à 1 et à


0, alors que

111 lE (X n ) = 1 - - + (-) n = 2 - - ---+ 2 n n n

n-++oo

et que

1 1 2 1 2 V (X n ) = 1- - + (-) n - (2 - -) ---+ +00. n n n n-++oo

(J)

III. EXEMPLES D'UTILISATION DES STATISTIQUES D'ORDRE


2) D'après la question 3 de l'exercice V.5 chap. II, nous savons que,
si Y est une variable aléatoire réelle indépendante de chacune des
variables aléatoires réelles X n ci- &.( u 1 .. dessus et de loi

(0,1), alors Zn = X n y est de loi ""1 c( -, n). La fonction de répartItion


n

G n de Zn est donc définie par

1 1 x Gn(x) = (1 - -) <I>(x) + (-) <1>(-), n n n

où <1> désigne la fonction de répartition de la loi eN (0, 1).

La loi limite de la suite {Zn; n e IN*} est donc la loi eN (0, 1), puisque

\:1 x e IR , lim Gn(x) = <I>(x),

+oo

et l'on a
lE (Zn) = lE (X n ) lE (Y) = 0,

1 V(Zn) = IE(Zn 2 ) = IE(Xn 2 ) lE(y 2 ) = n + 1 - -

+00. n

+oo

On peut donc proposer la suite définie par

\:1 n E IN*,

1 (En, crn) = ( -, n). n

On remarquera, en particulier, qu'il ne suffit pas que les lois de la


suite et la loi limite soient continues et admettent des moments
d'ordre quelconque pour que la variance de la loi limite soit la limite
de la suite des variances.

Exercice II.1. Montrer que l'on n'a pas


[-1, 1] <r eN (0, 1),

où "<r" désigne l'ordre de Lawrence.

Posons F =

[-1, 1] et G = eN (0, 1) et montrons que l'on n'a pas F <r G. On peut,


pour cela, s'inspirer de la remarque II.2.2 et vérifier que

eo ( X , X )

ep ( X , X) ,

70

III. EXEMPLES D'UTn..ISA TION DES STATISTIQUES D'ORDRE

ce qui, d'après le théorème II.2.1, contredit l'hypothèse "P <r G".

Ona

-- (2 1 2 ep(X, X) = 4 f (0) V p = 4 - =- 6 3
et

-- 2 2 2 eo(X, X) = 4 g (0) V G = - < -. 1t 3

On peut aussi effectuer une démonstration directe en montrant que


la fonction G- 1 (.) / p-l (.) n'est pas croissante sur]

, 1[. 2 On a, pour x e [0,1],

f(x) = 1 - x,

d'où

1 x 2 P(x) = - + x - -. 2 2

1 On en tire, pour u E] -, 1 [, 2

p-1(U) = 1 -

2 (l-u).

Au lieu d'étudier les variations de la fonction G- 1 (.) / F- 1 (.), on


peut se contenter de regarder quelques valeurs numériques. On sait
que

G- 1 ( ) f ( O ) lim 1 U = - = V2 1t = 2.51 u

(1I2)+ F- (u) g(O)

et l'on a

G- 1 (0.6) / P-l(0.6) = 0.253 /0.106 = 2.39.

Cela suffit pour afftrmer .que G- 1 (.) / p-1(.) n'est pas croissante sur
]

, 1 [ et 2

nous donner le résultat demandé. Remarquons que la fonction G- 1


(.) / p-l(.) n'est pas non plus décroissante sur ]

, 1 [, puisqu'elle devient infinie lorsque u tend vers 1-. On n'a donc


pas non 2 plus G <r P. Les lois t; [-1, 1] et eN (0, 1) ne sont pas
comparables pour l'ordre <r.

71

III. EXEMPLES D'UTR..ISA TION DES STATISTIQUES D'ORDRE


Exercice II.2. Soit F une loi appartenant à (cN c (£, a); (£, a) E [0,1] x
IR+*}. +* - - Déterminer la région de [0, 1] x IR dans laquelle t;: (X, X)

1. (Kubat, 1979) On sait que e F (X, X ) = 4 f2(0) V F' où f désigne la


densité de F et VF sa variance. Puisque

F = cN c (£, a) = (1- £) cN(O, 1) + £ eN (0, ( 2 ),

ona

f (0) = --L (1 - £ +

) Y21C a

et

V F = 1-£+£a 2 ,

d'où

- - 2 £ 2 -2 eF(X, X) = - ( 1 - £ + -) (1 - £ + £ (J). 1C a
On remarque que, si £ = 0 ou £ = 1 ou a = 1, c'est-à-dire si F est une
loi - - 2 normale centtée, on a eF(X, X) = K < 1. Ces cas étant
exclus, on a

(e F (X, X )

1)

(g(£, cr)

),

où l'on a posé

£ g(£, a) = (1 - £ + _)2 (1 - £ + £ cr). a

Pour préciser la région cherchée, on peut, par exemple, fixer £ (£ E


]0, 1 [) et étudier sur IR # la fonction

définie par

g£( cr) = g(£, cr).

Ona
2£ £ 2£ £ g£'(a) = - (1 - £ + - ) «1 - £) a3 + £ - 1) = - (1 - £ + -) (1- £)
(03 - 1). 2 2 2 2 a a a a

72

III. EXEMPLES D'UTILISATION DES STATISTIQUES D'ORDRE

Cette expression est du signe de (cr -1). Comme, d'autre part, on a

lim g£(cr) = lim g£(cr) = + 00 et g£(I) = 1, 0-+0+ a-H-oo

on en déduit que l'équation g£(cr) =

admet deux racines encadrant 1 et que l'on a g£( cr)

à l'extérieur de l'intervalle ouvert que déterminent ces deux racines.


La forme de la région D cherchée apparaît alors et l'on peut faire un
tracé sommaire de la courbe

qui la limite et qui est définie par

= {( E, cr) E ]0, 1 [ x rR +* ; g (£, cr) =


}.

On peut obtenir plus de précision dans le tracé de la courbe <6 en


effectuant quelques calculs numériques, mais aussi en déterminant
les points de

à tangente horizontale (voir figure 1). Pour cela, cherchons pour


quelles valeurs de cr l'équation g(£, cr) =

admet une seule racine £ sur l'intervalle ]0, 1[. On peut remarquer
qu'il suffit de se limiter au cas où cr > 1, car on a

g(1 - £, 1.) = g(£, cr). cr

Etudions, sur l'intervalle ]0, 1 [ et en nous limitant à cr> 1, la fonction


go définie

par

ga(E) = g(£, cr).

On obtient, après un calcul que le lecteur est invité à effectuer,

(cr-1)2 1 ga' (£) = (1 - £ cr - ) (cr + 2 - 3 (cr + 1) £) cr cr


et l'on vérifie que, sur [0, 1], ga' est du signe de (cr + 2) - 3 (cr + 1) E.
On en déduit que la fonction & passe par un maximum pour

cr+2

3 (cr + 1)

(e ]0, ID

£=

et, puisque g.,(0) = g.,(1) = 1 < ; , le nombre de racines de l'équation


g.,(e) = ; dépend du signe de

73

III. EXEMPLES D'UTll..ISATION DES STATISTIQUES D'ORDRE

cr+2 1t g( )--= a 3 (cr + 1) 2


2 4 (cr + cr + 1)3 1t 27 cr 2 (cr + 1)2 2

Un calcul approché élémentaire montre que cette expression


s'annule pour cr o = 2.22 et crI = l/cr o = 0.45. Les valeurs
correspondantes de £ sont Eo = 0.44 et £ 1 = 1 - £0 = 0.56. On peut
alors effectuer un tracé relativement précis de la courbe

(figure 1).

cr o 2

cri .................................

£0

£1
1

Figure 1

Remarque. On constate que

,...., - \:1 £ E [0, 1], \:1 cr E ]crl, cr o [ , ef(X, X) < 1.

C'est dire que, si al < a < a o , la médiane empirique est un moins


bon estimateur du paramètre de localisation pour la loi eN c(£,cr)
que la moyenne empirique, et ceci indépendamment de la valeur de
E. C'est le cas, en particulier, si l'on sait que a est voisin de 1.

74

III. EXEMPLES D'UTn..ISA TION DES STATISTIQUES D'ORDRE

Exercice In.l. Montrer que, si F est une loi de "s et si Xa désigne la


moyenne empirique a-tronquée, on a

[J P - 1 (1_a) ] V F ( Xa ) = (1 - 2ar 2 0 t 2 dF(t) + a 2 (F'l(1 - a»2 .


D'après le théorème 111.3.9 chap. II, on sait que

1 [ 1 J 2 Vp( Xa) =

A 2 (u)du -

A (u) du .

où la fonction A vérifie

A'(u) = J (u) (F-1)'(u). a

La fonction J a est la fonction de poids de la moyenne a-tronquée,


soit

1 \:1 u E [0, 1], Ja(u) = 11 [a, 1-a](U). 1- 2a

1 Puisque cette fonction est symétrique par rapport à - et que la loi F


est une loi 2

symétrique par rapport à 0, on peut écrire


- f I 2 V p ( Xa) = 2 A (u) du, 1/2

1 si l'on a imposé A( -) = 0, ce qui suffit pour réaliser 2

1 f A(u) du = O. o

75

III. EXEMPLES D'UTn..ISATIONDES STATISTIQUES D'ORDRE

1 La fonction A ainsi choisie est définie sur [-, 1] par 2

1 F- 1 (u) 1- 2a 1 F- 1 (1 _ a) 1- 2a

1 si -

1- a, 2

A(u) =
si 1 - a

1,

d'où

VF (X a ) = (1 - 2ar 2 [ {-a (Fl)2(u) du + a 2 (p-l(1 _ a»2 ] . 1/2

ou, encore, en posant t = p-l(u),

[ -1 ] F (l-a) V F ( Xa ) = (1 - 2ar 2 i t 2 dF(t) + a 2 (Fl(1 - a»2 .

Exercice 111.2. Soit F une loi appartenant à "s dont la densité est
continue et strictement positive en O.

1 1 ) Montrer que V F (X ) est la limite de V F(X a ) lorsque a tend


vers par 2

valeurs inférieures. En déduire que la conclusion du théorème


111.2.1 est encore vérifiée si /' on y remplace X

par X, à condition de supposer que G vérifie les mêmes hypothèses


que P. 2) On suppose que la loi F est fortement unimodale. En
utilisant le résultat de la question 4 de l'exercice /V.S, montrer que

1 \:1 a e [0, -], 2

1+4a

_ 1 - 2 a (1 - Log (2 a»

eF(X, Xa)

2 3 (1 - 2 a)2

3) Application. Déduire de ces inégalités, écrites pour a = 0, qu'il


existe des lois normales contaminées qui ne sont pas fortement
unimodales. Plus précisément, montrer que, pour tout élément £ de
]0, 1 [, il existe cr> 0 tel que la loi .H c(£, cr) ne soit pas fortement
unimodale. (Loh 1984a)

76

III. EXEMPLES D'UTILISATION DES STATISTIQUES D'ORDRE

1) D'après l'exercice 111.1, on a

[I F - I (1_a> ] V F<X a ) = 2 2 t 2 dF(t) + a (F"l(l _ a»2 (1 - 2a) 0


et l'on sait que

- 1 Vp(X) = 4 (2(0) .

1 Lorsque u tend vers -, on a 2

1 F- 1 (u) = p-l(u) _ F- 1 ( _) "V 2

(u -

) (F-l)'(

) 2 2 1 "V (u - -) / f(O), 2

1 d'où, si a tend vers -, 2

1 F- I (1 - a) "V (- - a) / f(O). 2

D'autre pan, en appliquant à l'intégrale I F - I (l-Q> f F-l(1-Q> t 2


dF(t) = t 2 f(t) dt o 0
la formule de la moyenne, on vérifie qu'elle est un infiniment petit
d'ordre au moins égal 1 à 3 relativement à (- - a). 2

On a donc

2a (112 - a)2 V P(X a ) = "V (1 _ 2a)2 f(O) a-+(1flf

1 ---+ 4 r(O) = V f(X). a-+(lflf

1 D'après le théorème Ill.2.1, si F <r G et si 0 S a

J3 < -, on a 2

e p(Xp , Xa)

eo (Xp , X a ),

77

III. EXEMPLES D'UTILISATION DES STATISTIQUES D'ORDRE

soit
v p(XcJ / V p (Xp )

V o (XcJ / V o (Xp ).

1 En supposant que 0 < f(O) < +00 et 0 < g(O) < +00 et en faisant
tendre J3 vers - 2

par valeurs inférieures, on obtient

ep(X, Xa )

eo(X, X a ).

2) Si la loi F est fortement unimodale, on sait que 0 < f(x) < +00 en
tout point x tel que 0 < F(x) < 1. En particulier, 0 < f(O) < +00
puisque F appartient à "s et sa densité vérifie ainsi les hypothèses
de l'énoncé. D'autre part, d'après le résultat de la question 4 de
l'exercice IV.5, on a

U [ -1,1] <s F <s S) e(O, 1),

donc

U[-l,l] <r F <r S)e(O, 1)


et l'on peut appliquer le résultat de la question précédente pour
obtenir un encadrement de ep( X , X a ). Si G désigne la loi U[ -1,1],
on a

eo( X , Xa ) = V o (X a ) / V o( X ) = 4 g2(O) V o (X a ) = V o (X a )

[ 0-1(1-«) 2 ] = 2 2 f

dt + a (G- 1 (1 - a»2 , (1 - 2a) 0 2

soit, puisque G- 1 (1 - a) = 1 - 2a,

- - 2 eo(X, Xa) = 2 (1 - 2a)

( ( 1 - 2a)3 J 6 + a (1 - 2a)2

1+4a

3
'.

78

III. EXEMPLES D'UTILISATION DES STATISTIQUES D'ORDRE

1 Si, maintenant, G désigne la loi

e(O, 1), on a g(x) = - e- 1xl , d'où 2

ec;( X , Xa ) = 4 g2 (0) V G (X a ) = V G (X a ),

soit, puisque G- 1 (1 - a) = - Log (2a),

[f - Log (2a) 2 ] ""- 2 t t 2 eG(X, Xa) = 2 - e- dt + a Log (2a) (1 - 2a) 0


2

= 2 2 ( [- ( t 2 + t + 1) e'tr Log (2a) + a Lol(2a) J (1 - 2a) 2 0 2 2 (1 -


2a (1 - Log (2a»). (1 - 2a)

=
On obtient bien le résultat demandé.

Remarque. On peut montrer aisément que cette dernière expression


est une fonction décroissante de a. Comme elle tend vers 2 quand a
tend vers 0, on peut écrire que, si F est fortement uni modale et
appartient à "s, on a

1 \:1 a E [0, -[ , 2

l "" - -

eF(X, Xa)

2. 3

3)Application. Pour a = 0, l'encadrement obtenu s'écrit

l '" _ -

eF(X, X)

2. 3

Or, on a vu à l'exercice Il.2 que, si F = cN c (£, cr), on a


""- 2 E 2 2 eF(X, X) = - (1 - £ + -) (1 - £ + £ cr ). 1t cr

Lorsque £ est un élément de ]0, 1 [, cette efficacité peut prendre des


valeurs supérieures à 2 puisqu'elle devient infinie si cr tend vers 0 ou
devient lui-même infini. On en déduit qu'il existe des lois normales
contaminées non fortement unimodales et, même, que pour tout E
appartenant à ]0, 1[, il existe des lois eN c(e, 0) non fortement
unimodales.

79

III. EXEMPLES D'UTILISATION DES STATISTIQUES D'ORDRE

Remarque. Cette méthode ne pennet pas de savoir si une loi


donnée, en particulier une loi nonnale contaminée, est fortement
unimodale. Par exemple, si F = .H c(O.I, 3), on obtient ep(X, X) =
0.998 et l'on ne peut conclure. Cette loi, en fait, n'est pas fortement
unimodale, comme on pourra le voir en montrant que la fonction -
Log f n'est pas convexe ou encore fi que la fonction - - n'est pas
croissante. Le lecteur qui souhaiterait faire le calcul pourra f

vérifier que

fi f' - - (2.9) > - - (3.1), f f


ces deux tennes étant respectivement égaux à 1.3 et à 1.1.

Exercice IV.I. Déterminer un L-estimateur asymptotiquement efficace


pour la loi

(0, 1).

D'après le théorème IV.1.5, un L-estimateur asymptotiquement


efficace pour une loi F de ,. s est obtenu à partir de la fonction de
poids J définie par

\:1 u e ]0, I[ , J(u) = b'(F- 1 (u» / 1(1),

f' où b = - -. f On vérifie aisément que la loi :;fi (0, 1) répond aux


hypothèses de ce théorème. Pour cette loi, on a

-x e f(x) = 2 = F(x) ( 1 - F(x) ), (e- x + 1)

d'où

b(x) = 2 F(x) - 1
et

b'(x) = 2 f(x).

Comme, d'autre part, on a

-1 U F (u) = Log _ 1 ' - u

on en déduit

J(u) = 2 u (1 - u) / I(t).

80

III. EXEMPLES DtUTILISATION DES STATISTIQUES D'ORDRE

Puisque J est une densité et que

t f U (1 - u) du =

,o6
on a donc

J(u) = 6u (1 - u).

1 On remarque que I(f) = -, ce que l'on peut retrouver en écrivant


que 3

1 1(f) = f b 2 (F'l(u» du. o

Un L-estimateur T n asymptotiquement efficace pour la loi

(0, 1) est donc défini

par

1 n i 6 n Tn=-LJ(-) X(i)= 2 Li (n+l-i)X(i)' n i =1 n + 1 n (n + 1) i=l

Exercice IV.2. A tout nombre réel k strictement positif, on associe la


loi Fk dont la densité fk est continûment dérivable sur IR et définie
par
! 2 k -x /2 1 e fk(x) = -k3 lxl k 2 e

si Ixl

k,

si Ixl > k,

où k1, k2 et k3 sont des nombres réels. 1) Déterminer kt, k2 et k3. 2)


Soit a = Fk(-k). Montrer que la moyenne asymptotiquement efficace
pour la loi Fk.

a-tronquée est un L-estimateur

1) Pour que la densité fk et sa dérivée soient continues aux points k


et -k, il faut et il suffit que l'on ait

1 k _k 2 /2 -kk3 le =k 2 e , k 2 /2 -kk3 kt k e- =

k3 e ,

81
III. EXEMPLES D'UTILISATION DES STATISTIQUES D'ORDRE

d'où nous tirons

k3 = k et

= kt e k /2.

Enfm, écrivons que fk est une densité, c'est -à-dire

+00 k +00 2. = i ft(x) dx = k l i e,à2 dx +

f e- kx dx 2 0 0 k 1 k 2 _k2 = k 1 Y21t (<1>(k) - -) + - e , 2 k

où <1> désigne la fonction de répartition de la loi cH (0, 1). On a


donc

= k 1 e -k /2, 1{l 1 1 _k2{l 1 k 1 [(21t) (<1>(k) - -) + - e ] = -. 2 k 2

Si l'on désigne par <p la densité de la loi cH(O, 1), on peut écrire
2 k1 Y21t [ 2 cI>(k) - 1 + - <p(k) ] = 1, k

et l'on obtient donc

2 k 1 = (21tr 1 /2 [2cI>(k) - 1 + - <p(k)r 1 , k

_k 2 /2 k 2 = k 1 e , k3 = k.

2) Ecrivons la densité fk sous la forme

! k _x2/2 1 e fk(x) = 2 k k {l - k Ixl 1 e

si Ixl

k,

si Ixl

k,

où k1 est déterminé ci-dessus. Pour trouver un L-estimateur


asymptotiquement efficace pour la loi Fk, appliquons, comme dans
l'exercice précédent, le théorème IV.l.5. On notera toutefois que la
dérivée seconde de la densité fk n'est pas continue pour Ixl = k, ce
qui ne met pas en défaut la démonstration du théorème.

82

III. EXEMPLES D'UTILISATION DES STATISTIQUES D'ORDRE

On détermine donc la fonction de poids Jk du L-estimateur cherché


par

\:1 u e ]0, 1 [, Jk(u) = 11c'(F k 1 (u» / I(f k ),

f' où

=-

. On a f k

bk(x) = { X Ixi k- x

si Ixl

k,
si Ixl

k,

soit

bk'(x) = {

si Ixl < k si Ixl

k,

, d'où

Jk(U) = {

/ I(f k ')

si 1 F k 1 (u) 1 < k, sinon.

Or
( 1 F k 1 (U) 1 < k )

(::) ( -k < F k 1 (U) < k ) (::) (Fk(-k) < u < Fk(k) ) (::) ( a < u < 1 - a ),

puisque l'on a posé a = Fk(-k).

D'où, fmalement,

1 Jk(U) = - l1]a l-a[ (u), 1 (f k ) ,

soit, puisque Jk est une densité

1 Jk(U) =

]a,l-a[(U). 1- 2a

On reconnaît la fonction de poids de la moyenne a-tronquée.

83

III. EXEMPLES D'UTILISATION DES STATISTIQUES D'ORDRE


Remarque. On pourra vérifier que l'on a

<p(le ) a=k1 fEë-. k

Exercice IV.3. A tout nombre réel t supérieur ou égal à 1, on associe


la loi F't dont la densité f't est définie par

\:1 x e IR,

't f't(x) = K't e - Ixl ,

où K't désigne un nombre réel. 1) Calculer K't et montrer que

(1

t' < t) ::) (F't <r F't'),

où "<r" désigne l'ordre de Lawrence. On utilisera le résultat de la


question 1 de l'exercice V.6 chap. II. 1 - 2) Etant donné un élément a
de ]0, -[, on désigne par X

n le L-estimateur 2 ·
dont la fonction de poids la est définie par

1 J a = 2a. (1l IO,al + 11 [l-a,lO.

Montrer que toute loi F't pour laquelle t > 2 admet un L-estimateur X

.n asymptotiquement plus efficace que Xn . On sera amené, sachant


que la/onction Log r est strictement convexe, à utiliser le résultat de
la question 1 de l'exercice IV 5.

1) On a

+00 +00 1 _ f - Ixl't d - 2f - X 't dx K - e x- e 't _ 0

+00 2f - u 1 1/'t-1 d = .e -u u o t

2 1 t+ 1 = - r( -) = 2 r( - ), t t t

84

III. EXEMPLES D'UTILISATION DES STATISTIQUES D'ORDRE


d'où

( 't+1 J -1 K't = 2 r(

).

On peut remarquer que FI = f)e(O, 1), que F2 = .N (O,

) et que la limite de F't, 2 lorsque 't devient infini, est U[_I, 1].

Soient 't et 't' tels que 1

't' < 't. Pour montrer que F't <r F't', utilisons la propriété démontrée à
la question 1 de l'exercice V.6 chap. II en montrant qu'il n'existe pas
trois nombres réels À., Xo et x 1 tels que

À >0,

o < Xo < x},

H)..(x o ) < 0,

H)..(x 1) > 0,
où l'on a posé

H)..(x) = F't' (Àx) - F't(x).

Etudions le signe de H)..(x) sur IR+ et, d'abord, celui de sa dérivée

't' 't H '(x) = À. K e- (u) - K e- x ).. 't' 't 't 't 't' K = À K't' e- x [ex - ()..x) _

] . À. K, 't

Le signe de H)..'(x) est celui de l'expression entre crochets,


expression que nous désignons par u(x). Posant

v(x) = x't - (À.x)'t',

on a

K V ( x ) 't u(x) = e - - À. K, 't

et, puisque
v(x) = x't (1 - À. 't' x't'-'t ),

nous avons

u(x) -----+ +00.

X -.+00

85

III. EXEMPLES D'UTILISATION DES STATISTIQUES D'ORDRE

D'autre part,

v'(x) = t X't-1- t' À.'t' X't'-l

= X't'-l [ t X't-'t' - t'À.'t' ].

La fonction v' s'annule donc une fois sur ]0, +oo[ en étant d'abord
négative, puis positive. Il s'ensuit que la fonction v, donc la fonction u
également, est d'abord décroissante, puis croissante. Le signe de
u(x) dépend donc de celui de u(O) qui dépend lui-même de À..
D'autte part, la fonction H)..' s'annule au moins une fois sur ]0, +00[,
puisque

H).. (0) = lim H).. (x) = O. X-Hoo

Examinant alors les deux cas possibles (le lecteur est invité à
dresser un tableau de variation), nous obtenons les résultats
suivants. . Si u(O) S 0, la fonction H).. est décroissante, puis
croissante, donc strictement négative sur ]0, +00[. . Si u(O) > 0, la
fonction H).. est croissante, puis décroisssante, puis croissante. Elle
s'annule une fois sur ]0, +oo[ en étant d'abord positive, puis
négative. C'est dire qu'il est impossible de trouver À., Xo et Xl tels
que

À. > 0,

o < Xo < XI,

H)..(Xo) < 0,

H)..(X1) > o.

On a donc bien
F't <r F't' .

2) On suppose t > 2 et l'on se propose de montrer que l'on peut


trouver un élément 1 a de ]0, -[ tel que 2

-c - VF (Xn) Cp't(){a,n, X n ) = V

(x

,n> > 1.

On sait que V

(Xn ) est la variance de la loi F't, soit

- f +- 2 V

(Xn) = 2 x f't(x) dx. o

86

III. EXEMPLES D'UI1LISATION DES STATISTIQUES D'ORDRE

D'autte part, d'après le théorème IV. 1.3, on a


1 [ 1 ] 2 V"'

.,,) =

A 2(u) du -

A(u) du .

Vue ]0, 1[, A' (u) = Ja(u) (F-l)' (u). 1 En imposant, de plus, A(-) = 0,
on obtient 2

1 V"' (X

.n) = 2 f A 2(u) du. 1/2

1 La fonction A est ici définie sur [-, 1[ par 2

1 si -

1 - a, 2
A(u) =

1 1 1 - [F (u) - F- (1- a)] 2a 't 't

si 1 - a

u < 1,

d'où

1 VF

(X

.n> =

f (F-l(u) - F- 1 (1 - a» 2 du 2 't 't 2a l-a =

f-(t - t./ f't(t) dt . 2a t o

où l'on a posé ta = F- 1 (1 - a). Puisque a = 1 - F (ta), on obtient 't 't

(1 - F (t »2 +- - - 't 0 f 2 e F (X

.n, X n ) = 4 x f (x) dx . 't


't f (t - t./ f't(t) dt 0 t o

87

III. EXEMPLES D'UTILISATION DES STATISTIQUES D'ORDRE

En remarquant que cette expression est égale à 1 pour 10 = 0, ce


qui était prévisible 1 (a = -), il nous suffit de montrer qu'elle est
supérieure à 1 lorsque t est voisin de 0 à 2 droite, ce que nous allons
faire en monttant que la fonction '1' définie par

2 ( 1 - F (x) ) 't 'l'(x) = +00 f (t - x)2 f't(t) dt x

admet une dérivée strictement positive en O.

Ecrivant que 'l'(x) = a 2 (x) / b(x), on a

'1"(0) = a(O) ( 2 a'(O) b(O) - a(O) b'(O) ) / b 2 (0) ,

avec
1 a(O) = -, 2

+00 +00 b(O) = f t 2 f't(t) dt = K't f t 2 e-I't dt o 0

3 +00

_ 1 K r( - ) f -u l 't 't 3 't = K't e (-) u dt = - r(-) = l ' o 't 't 't 2r( _ ) 't

a'(O) = - ft(O) = - Kt,

2 +00 K r( - ) f 't 2 't b'(O) = - 2 t f (t) dt = - 2 - r( - ) = - 't 1 o 't 't r( _ ) 't

Le signe de '1"(0) est donc celui de

3 2 r( - ) r( - ) 't 't - Kt 1 + 1 r( -) 2r( - ) 't 't

88

III. EXEMPLES D'UTILISATION DES STATISTIQUES D'ORDRE

soit celui de
2 t+1 3 r( - ) r( - ) - r( - ). t t t

Or, la fonction Log r étant strictement convexe, nous en déduisons,


en appliquant à la fonction 1/ r le résultat de la question 1 de
l'exercice IV.5, que, si y > 0, la fonction r(.) / r(y +.) est strictement
décroissante sur IR +. 2 Puisque - < 1, on a donc t

\:1 Y > 0,

2 r(- ) t r(l) 1 2 > = r( y + _) r(y + 1) r(y + 1) t

1 En prenant y = -, on obtient le résultat cherché, à savoir '1"(0) > 0,


ce qui achève la t

démonstration.

Exercice IV.4. Déterminer la courbe d'influence d'une moyenne


empIrIque a-tronquée pour une loi F satisfaisant aux conditions du
théorème IV.1.3. On se placera en particulier dans le cas où F
appartient à "s (voir exemple IV.3.3).

Puisque la loi F satisfait aux conditions du théorème IV.1.3, on peut


utiliser le résultat du théorème IV.3.1, à savoir
+00 +00 Ic(x ; F, T) = f F(t) J(F(t» dt - f J(F(t» dt, ...00 x

que nous écrivons sous la forme

1 1 Ic(x ; F, T) = i u J(u) dF,l(u) - i J(u) dFl(u). o F(x)

Pour la moyenne empirique a-tronquée Xa , on a

J(u) = (1 - 2ar 1 1l ]a,l- a[(u),

89

III. EXEMPLES D'UTILISATION DES STATISTIQUES D'ORDRE

d'où

[f 14 1 ] Ic(x ; F, Xa ) = (1 - 2ar 1 u dFl(u) -11 ]«,l-«[(U) dF-l(u) , a F(x)

(1-2ar l [f-« u dFl(u) - F 1 (1-a) + F1(a)] si X


F1(a), Ic(x ; F, Xa ) = (1-2ar l [ f-« U dF1(u) - F 1 (1 - a) + x ] si FI (a)

F,l(l-a), (1-2ar l r-« u dFl(u) a

si x

F- 1 (I-a).

On remarque que cette courbe d'influence est continue et bornée.


Dans le cas où la loi P appartient à "s, on peut simplifier les fonnules
ci-dessus en écrivant que

f 1-a J l-a u dF- 1 (u) = [ u F-1(u) ]

- a - F- 1 (u) du a a

= (1 - a) p-l(l-a) - a F 1 (a) = F-1(1-a),

puisque

P- 1 (1-u) = - F- 1 (u).

On retrouve alors les fonnules données à l'exemple IV.3.3, à savoir


(1 - 2ar 1 F1(a) Ic(x; F, Xa ) = (1 - 2ar 1 x (1 - 2ar 1 P- 1 (1 - a)

si x S F-1(a), si F- 1 (a)

x S F 1 (1 - a), si x

F-1(1 - a).

On remarque que cette courbe d'influence est une fonction impaire.

90

III. EXEMPLES D'UTILISATION DES STATISTIQUES D'ORDRE

Exercice IV.5. Etude des lois fortement unimodales 1) Soit f une


application de IR dans IR +*. On pose cp = - Log f. Montrer que,
pour que cp soit convexe, il faut et il suffit que, pour tout réel positif
u, la fonction gu définie par

f(x) gu (x) = f(x + u)

soit croissante. Pour montrer que la condition est sujJisante, on se


souviendra que, pour que cp soit convexe, il sujJit que
\:1 (a, b) E IR 2 ,

a+b 1 cp( - )

- (cp(a) + cp(b». 2 2

2) Soit F une loi appartenant à <1 et dont la densité f est strictement


positive en tout point de IR. Déduire du résultat de la question 1 que,
pour que F soitfortement unimodale (voir R .III.]), il faut et il suffit que
F soit à rapport de vraisemblance monotone pour un paramètre de
localisation, c'est-à-dire telle que, pour tout réels Jl et Jl' vérifiant Jl <
Jl', lafonction f(. - Jl') / f(. - Jl) soit croissante. Cette propriété peut-
elle être étendue au cas où la densité f n'est pas strictement positive
sur tout IR ? 3) Vérifier que le fait, pour une loi, d'être fortement
unimodale ne dépend pas du paramètre de localisation-échelle.
Déterminer parmi toutes les lois usuelles appartenant à " (voir pages
323 à 325, tome 1) celles qui sont fortement unimodales (pour les
lois normales contaminées, on se reportera à l'exercice 111.2). Les
lois étudiées aux exercices /V.2 et /V.3 sont-elles fortement
unimodales ? 4) Soit F une loi fortement unimodale appartenant à "s.
Montrer que

U[-I,I] <s F <s fDe(O, 1).

On pourra se reporter à l'exercice V.l chap. II pour la première de


ces inégalités. Pour démontrer la seconde, on utilisera le résultat de
la question 1 ci-dessus.
1) Supposons la fonction cp convexe et montrons que gu est
croissante si u > O. Soient Xl et X2 tels que Xl < X2. On remarque
que Xl + U et X2 appartiennent à l'intervalle ]x}, X2 + u[ et que

(Xl + u) + X2 = Xl + (X2 + u).

91

ln. EXEMPLES DtUTILISATION DES STATISTIQUES D'ORDRE

TI existe donc un élément Â. de l'intervalle ]0, 1[ tel que

Xl + U = Â. Xl + (1 - Â.) (X2 + u), X2 = (1 - Â.) Xl + Â. (X2 + u),

d'où

cp(X 1 + u)

Â. cp(x 1) + (1 - Â.) CP(X2 + u), CP(X2)

(1 - Â.) CP(X1) + Â. CP(X2 + u).

En additionnant ces deux inégalités, on obtient


CP(X1 + u) + CP(X2)

CP(X1) + CP(X2 + u),

soit

f(X1 + u) f(X2)

f(X1) f(X2 + u)t

ou encore

gu(X1)

gu(X2),

ce qui montre que la fonction gu est croissante. Supposons la


fonction gu croissante pour tout u > 0 et montrons que cp est
convexe. Etant donné deux éléments a et b de IR 2 , montrons que

a+b 1 cp( - )

- (cp(a) + cp(b», 2 2
ce qui suffit pour établir la convexité de cp.

b-a Supposant a < b, ce qui n'enlève rien à la généralité, on pose u


= - et on écrit 2

que

a+b gu(a)

gu( - ), 2

soit

a+b f(-) 2 f(b)

f( a)

a+b f(-) 2

d'où

a+b Log f(a) + Log f(b)

2 Log f( - ), 2
92

III. EXEMPLES D'UTILISATION DES STATISTIQUES D'ORDRE

ce qui est l'inégalité cherchée.

2) Soient x, x', Jl et Jl' des nombres réels tels que x < x' et Jl < Jl'.
L'inégalité

f(x - Jl') f(x'- Jl ')

f(x - Jl) f(x'- Jl)

peu t s'écrire

gu(x 1)

gu(X2),

, " , en posant u = Jl - Jl, xl = X - Jl, x2 = x - Jl . Le fait, pour F, d'être


à rapport de vraisemblance monotone pour un paramètre de
localisation équivaut donc à la croissance de la fonction gu pour tout
u > 0, propriété elle- nlême équivalente à la convexité de la fonction
- Log f (question 1), laquelle caractérise les lois fortement
unimodales à densité strictement positive. Si la densité f n'est pas
strictement positive sur tout IR, on définit encore la forte unimodalité
de F par la convexité de la fonction cp = - Log f, mais en considérant
que cp prend ses valeurs dans IR. Dans ce cas, si cp est convexe, il
est aisé de montrer que l'ensemble sur lequel elle est finie est un
intervalle. C'est dire que la densité f est strictement positive sur
l'intervalle ouvert (x; 0 < F(x) < 1} et qu'on peut la prendre nulle en
dehors de cet intervalle. Afin d'éviter les expressions de la fonne
"0/0", on dit qu'une loi est à rapport de vraisemblance monotone
pour un paramètre de localisation si, pour tous réels x, x', Jl et Jl' tels
que x < x' et Jl < Jl', on a

f(x - Jl') f(X'- Jl)

f(x'-Jl') f(x - Jl).

Les démonstrations effectuées ci-dessus, en particulier à la question


1, montrent que cette propriété est encore équivalente à la forte
unimodalité de la loi F. Autrement dit, elle caractérise les lois
fortement unimodales.

3) Soit F une loi appartenant à " et soit F

,a (Jl E IR, cr > 0) la loi définie par

\:1 x E IR,

x-Jl F
a(x) = F( - ). cr

La densité f

a est définie par

1 x-Jl f

,a(x) = - f( - ) cr cr

93

III. EXEMPLES D'UI1LISATION DES STATISTIQUES D'ORDRE

et la convexité de la fonction - Log f équivaut à celle de - Log f

,(J. En ce qui concerne les lois usuelles, on laisse au lecteur le soin


de chercher celles pour lesquelles la fonction -Log f est convexe, ce
qui équivaut à la croissance de la f' fonction - -. On pourra ainsi
montrer que, parmi les lois usuelles, sont fortement f unimodales la
loi uniforme, la loi triangulaire, la loi double exponentielle, la loi
logistique, la loi nonnale, la loi r(a, Â.) lorsque a

1 (donc, en particulier, la loi exponentielle) et la loi Pt (a, b) lorsque a

1 et b

1. Les lois nonnales contaminées mises à pan (voir l'exercice 111.2),


les autres lois usuelles appartenant à
et recensées dans les pages 323 à 325 du tome 1 ne sont pas
fortement unimodales. Enfm, on pourra vérifier que les lois Fk
étudiées à l'exercice IV.2 sont fonement unimodales, ainsi que les
lois F't étudiées à l'exercice IV.3 lorsque t

1.

4) On sait (voir R.lII.I) qu'une loi fonement unimodale est unimodale.


On déduit donc du résultat de l'exercice V.l chap. fi que l'on a

U [ ..1, 1] <s F

si F est fortement unimodale et appartient à "s. Désignons par 0 la


loi ()e(O, 1) et monttons que la fonction O-} oF est convexe 1 sur
l'ensemble IR+ n (suppon de F). On sait (exercice V.l chap. II) que, si
u

-, on a 2

0-1(U) = -Log (2 (1 .. u»,

d'où, si x

0,

(0- 1 0 F) (x) = -Log (2 (1 - F (x»).


On doit montrer que cette fonction est convexe sur l'intervalle 1 (x ; -
S F(x) < l}, ce qui revient à montrer que sa dérivée est croissante sur
cet 2 intetvalle. Or

(0- 1 0 Fr (x) = f(x) . 1 .. F(x)

Soient Xl et X2 tels que 0 S Xl < x2, F (X2) < 1. Montrons que

f(x l ) S 1 .. F(x})

f(x 2 ) 1 - F(x 2 )

94

III. EXEMPLES D'UTll..ISA TION DES STATISTIQUES D'ORDRE

D'après la question 1, on sait que

vu

0, f(XI) f(X2 + u) S f(X2) f(xI + u),


d'où

+- +- f(XI) f f(x 2 + u) du

f(x 2 ) f f(x l + u) du . o 0

soit

f(XI) (1 - F(X2»

f(X2) (1 - F(XI»,

ce qui est le résultat cherché.

Remarque. Les lois U [-1, 1] et S)e(O, 1) étant elle-mêmes fortement


unimodales, elles sont, pour le préordre u<s", respectivement
minimum et maximum de l'ensemble des lois fortement unimodales
appartenant à ,. s.

Exercice IV. 6. Dans tout cet exercice, ci> désigne la loi

(0, 1) et F une loi qui appartient à "s, qui n'est pas une loi normale et
qui vérifie F <r cI>, où u<r" désigne /' ordre de lAwrence. On
suppose également que la densité f de la loi F vérifie f(O) > O. 1)
Montrer que, si l'on désigne par G et \}I les lois dont les densités
respectives g et '1' sont définies par

( ) F-1(x) g x = 1 f F,l(u) du 1/2

11 ]112,l[(x)

et

-1 ci> (x) <1 'l'(x) = 1 a ]ll2,I[(x) , f <1>,1 (u) du 1/2

on a \}I >i G (voir définition R.III.4.1). En déduire, par application du


théorème R.III.4.2, que

+00 f x dF(x) > f(O) VP. o

où V F désigne la variance de la loi F, après avoir remarqué que les


hypothèsesfaites sur F impliquent l'existence de V F'

95
III. EXEMPLES DtUTILISATION DES STATISTIQUES D'ORDRE

1 -c 2) Etant donné un élément a de ]0, -[, on désigne par Xa,n le L-


estimateur 2 dont la fontion de poids la est définie par

1 J a = 2a ( 11 IO,al + 11]I ,a,l 1 ).

Montrer que la loi F admet un L-estimateur X

,n asymptotiquement plus efficace que Xn. On remarquera que cette


propriété généralise le résultat de la question 2 de l'exercice IV.3 et
l'on évitera ainsi certains calculs.

-1 <1> 1 1) Puisque F <;. <1>, la fonction _ 1 est croissante sur [-,


1[. De plus, F- 2

-1 <1> (u) lim u

ll2 F- 1 (u)

-1 (<1> )'( 1/2) = (F- 1 )'( 1/2)

f(F- 1 (1/2»
f(O)

==

-1 cp(<I> (112»

cp(O)

où cp désigne la densité de la loi <1>. On a donc

\:1 u E ]

, 1[, F- 1 (u)

À <I>-l(u), 2

,l,,

cp(O) ou on a pose 1\. =-. f(O) On remarque alors que

1 1 +00 J p-l(u) du ::;; À. J p-l(u) du = À. i x d<tl(x) < + 00, 1/2 1/2 0

ce qui justifie la définition de la loi G.


Montrons que 'II >i G, soit que

\:1 x e IR, '¥(x)

G(x)

ou, plus simplement, que

1 \:1 xe [-,1], 2

(G - '¥)(x)

0,

96

III. EXEMPLES D'UTILISATION DES .STATISTIQUES D'ORDRE

1 puisque les fonctions G et '1' sont égales à 0 sur ] -00, -] et à 1 sur


[1,+00[. Sur 2 1 l'intervalle] -, 1[ la fonction G - 'l'admet pour dérivée
g - '1' qui a le même signe que 2
la fonction h définie par

f1

-1 'V (u) du h(x) = 1/2 1 f p-l(u) du 1/2

-1 cI> (x) F- 1 (x) .

La fonction h est décroissante et, comme elle ne peut garder le


même signe sur l'intervalle puisque

(G - '1')(0) = (G - '1')(1) = 0,

1 il existe un élément Xo de] -, 1[ tel que 2

1 \:1 xe] -, xo], h(x)

0, 2 \:1 xe [xo,l[, h(x)

O.

1 La fonction (G - 'l') est donc croissante sur [-, xo] et décroissante


sur [x o ' 1], 2
d'où

1 \:1 x e [-, 1], G(x)

'l'(x). 2

Enfin, pour montrer l'inégalité demandée, écrivons que

+00 1 i x dF(x) = f Fl(u) du o 1/2

et que

+00 1 Vp = 2 i x 2 dF(x) = 2 f (F l (u»2 du. o 1/2

97

III. EXEMPLES D'UTILISATION DES STATISTIQUES D'ORDRE

On remarque que ces intégrales sont finies puisque F- 1 (u)

Â. <I>-l(u). On peut même ajouter que F admet des moments de tout


ordre.
En appliquant le théorème R.lll.4.2, on obtient, puisque F- 1 est
croissante,

1 1 f F,l(u) g(u) du

f p-l(u) 'l'(u) du , 1/2 1/2 soit 1 1 f (F'(u»2 du f F,l(u) <1>,1 (u) du 1/2

1/2 1 1 f p-l(u) du f <1>-1 (u) du 1/2 1/2 ou encore 1 f p-l(u) <1>-1 (u)
du V p

1/2 +00 cp(O) 2 f x dF(x) 0 pUIsque

1 +00 +00 f <I>-I(u) du = f x cp(x) dx = -L f x e- x212 dx = -L = cp(O).


-{21t -(21t 1/2 0 0

On achève la démonstration en écrivant que

f I f I f +oo À F- 1 (u) <I>-l(u) du

Â. (<1>-1 (u»2 du = À x 2 cp(x) dx = - 1/2 1/2 0 2

et en montrant que cette dernière inégalité est stricte. En effet, s'il


s'agissait d'une égalité, on aurait

1 f (Â. <I>,l(u) - F'l(u» <I>'l(u) du = 0, 1/2


98

III. EXEMPLES D'UTILISATION DES STATISTIQUES D'ORDRE

soit, puisque <1>-1 est strictement positive,

1 \:1 u E [-, 1[, F- 1 (u) = À <I>-1(u) 2

ou encore, en posant x = F- 1 (u),

x \:1 x > 0, F(x) = <1>( -), À

ce qui impliquerait que F est une loi normale, hypothèse écartée par
l'énoncé.

On a donc

V p +00 2 f x dF(x) o

2À <- , 2cp(0)
soit

+00 f x dF(x) > f(O) Vp. o

2) La propriété demandée est une généralisation de celle établie à la


question 2 de l'exercice IV.3. En effet, dans cet exercice, on a, si t >
2, F't <r F 2 , soit F't <r <1> puisque F 2 est la loi eN (O,

) et que le préordre "<;." ne dépend pas des paramètres d'échelle


des 2 lois considérées. Les calculs effectuées pour résoudre la
question 2 de l'exercice IV.3 montrent qu'il existe un L-estimateur X

.n asymptotiquement plus efficace que X n SI

(1)

2 a'(O) b(O) - a(O) b'(O) > 0,

où l'on a posé

a(x) = 1 - F(x)

et
+00 b(x) = f (t-x)2 dF(t). x

Ona

1 . V p a(O) = -, b(O) = -, a'(O) = -f(O) 2 2

99

III. EXEMPLES D'UTILISATION DES STATISTIQUES D'ORDRE

et

+00 b'(O) = - 2 f x dF(x). o

La condition (1) s'écrit donc

+00 - £(0) VF + f x dF(x) > 0, o

ce qui est justement l'inégalité établie à la question 1.


Exercice VI.I. Soit X(1), ... , X(n) un échantillon ordonné d'une loi F
qui appartient à <1 s. Pour tout élément i de {l, ... , n}, on pose Yi =
X(i + 1) - X(i). Montrer que la loi de Yi - Y n-i appartient à "s.

Posons Zi = Yi - Y n-i et montrons que Zï et - Zi ont la même loi. On


a

Zï = X(i + 1) - X(i) - X(n + 1 - i) + X(n - i),

- Zi = X(n + 1 - i) - X(n - i) - X(i + 1) + X(i).

Or, puisque F appartient à "s, on sait que les statistiques

T = (X(1), ... , X(i), ... , X(n» et T' = ( - X(n), ... , - X(n + 1 - i), ... , -
X(1) )

ont la même loi. Comme il existe une application cp de IR n dans IR


telle que

Zi = cp(T) et - Zi = cp(T '),

on en déduit que la loi de Zï appartient à c:r s.


Exercice VII.! 1) On considère l'application cp de IR n dans IR
définie par

cp(x) = X' il X - 2 C' X,

où il est une matrice symétrique d'ordre n définie positive, C une


matrice unicolonne à n lignes et X la matrice unicolonne fo171lie par
les composantes de x.

100

III. EXEMPLES D'UTILISATION DES STATISTIQUES DtORDRE

Montrer que <p(x) est minimum pour X = a -1 e. On pourra


développer l'expression

( X - a-le)' a ( X - a-le ).

2) On reprend les notations de la section VII.1.b et l'on se propose


d'expliciter - l'estimateur en du paramètre e de variance minimale,
sachant qu'il s'obtient en minimisant
'1'(9) = (X(.) - A 9)' B- 1 (X(.) - A 9).

En utilisant le résultat de la question 1, montrer que l'on obtient

_ a' MX(') Jln = -

et

_ l' M X(.) crn =

!:J.

!:J.

M = B- 1 (1 a t - a 1') B- 1

et
fJ. = det (At B- 1 A).

On pourra également vérifier que

!:J. = l' M a.

3) Montrer que l'estimateur 9n est sans biais et déterminer sa


matrice des covariances. 4) On suppose que la loi F appartient à ,. s.
Montrer qu'il existe une matrice J de permutation d'ordre n, que l'on
précisera, telle que les vecteurs y(.) et - J y(.) aient la même loi. En
déduire les relations (VII. 5), à savoir

_ l' B- 1 X(.) Jln = l' B- 1 1

et

a' B- 1 X(.) - crn = a' B- 1 a '

-
Déterminer la matrice des covariances de 9n.

1) On a

( X - a- 1 c )' a ( x - 0-IC ) = X' a X - X' C - C' X + C' 0- 1 C = X' a X -


2 C' X + C' 0- 1 C = <p(x) + C' 0- 1 C,

101

III. EXEMPLES Dt

ISATION DES STATISTIQUES D'ORDRE

en tenant compte du fait que les matrices x'e et e'x sont égales
puisqu'elles sont transposées l'une de l'autte et qu'elles n'ont qu'un
élément. Puisque la matrice n est définie positive, le premier
membre de cette égalité est minimum pour X = n- 1 e et il en est de
même de <p(x) qui n'en diffère que d'une constante.

2) Ecrivons

'1'(9) = 9' ( A' B- 1 A ) 9 - X(.). B- 1 A 9 - 9' A' B- 1 X(.) + X(.), B- 1


X(.) = 9' ( A' B- 1 A ) 9 - 2 ( A' B- 1 X('»' 9 + X(.). B- 1 X(.).
On vérifie aisément que la matrice symétrique A'B- 1 A est définie
positive en écrivant la fonne quadratique sur IR 2 qui lui est associée
et en se souvenant que la matrice B, donc la matrice B- 1 , est elle-
même définie positive.

- D'après le résultat de la question 1, l'estimateur 9n cherché est


défini par

- 9n = ( A' B- 1 A rI A' B- 1 X(.).

En effectuant des produits de matrices par blocs, on vérifie aisément


que l'on a

[ l' B- 1 1 A' B- 1 A = a' B- 1 1

l' B- 1 a ] , a' B- 1 a

d'où, en posant !:J. = det ( A' B- 1 A ),

1 [ a' B- 1 a (A' B- 1 Ar 1 = - !:J. _ l' B- 1 a

- a' B- 1 1 ] l' B- 1 1 .
On en déduit

- 1 [ al B- 1 a 9n= - !:J. _ l' B- 1 a

- al B- 1 1 ] [ l' ] B-1 X(.) l' B- 1 1 a'

1 [ a' B- 1 a l' - a' B- 1 1 a' ] - B- 1 X(,) -

- l' B- 1 a l' + l' B- 1 1 a'

= 2- [ -a' ] MX('). !:J. l'

102

III. EXEMPLES D'

ISA110N DES STATISTIQUES D'ORDRE

si l'on pose

M = B- 1 (1 a' - al') B- 1 .
On peut remarquer que M est antisymétrique. On en déduit

_ a' M X(.) fJ.n = -

et

_ l' M X(.) on = â

On peut en outre écrire

â = ( l' B- 1 1 ) ( a' B- 1 a) - ( l' B- 1 a)2

= l'B- 1 1 a'B- 1 a _1'B- 1 a l'B- 1 a = l'M a.

3) Puisque IE(X(i» = fJ. + 0 ah on peut écrire

lE (X(.» = fJ. 1 + 0 a,
d'où

_ - a' M 1 a' M a 1E(fJ.n) = fJ. - 0, â â l'MI l'Ma lE(ân) = fJ. + o. â â

De l' antisymétrie de M, on tire

a' M a = (a' M a)' = - a' M a = 0, a' M 1 = (a' MI)' = - l' M a = - â,

d'où

lE <;ln) = fJ.

et

1E(Ôn> = cr.

- Pour calculer la matrice des covariances de en, soit Aê a , il est


plus simple de revenir à l'égalité

- en = ( A' B- 1 A rI At B- 1 X(.)
et de se souvenir que la matrice des covariances de X(.) est c? B.
On a donc

103

III. EXEMPLES Dt

ISA TION DES STATISTIQUES D'ORDRE

Aê D = ( AI B -1 A j -1 AI B -1 ( cr 2 B ) ( ( AI B -1 A r i A 1 B -1 )' = cr
2 ( AI B- 1 A rI AI B- 1 B B- 1 A ( AI B- 1 A rI

= cr 2 ( AI B- 1 A rI,

d'où

_ al B- 1 a V (J.1n) = cr 2 , fJ.

l' B- 1 1 V(Ôn) = cr 2 , fJ.

- a' B- 1 1 Cov (Îln, an) = cr 2 . fJ.


On remarque que la matrice Aê D ne dépend pas de J.1 et qu'elle
est proportionnelle à cr, ce qui était prévisible puisque J.1 est un
paramètre de localisation et cr un paramètre d'échelle.

4) Dans le cas où la loi F appartient à "s, on sait que les vecteurs


aléatoires Y(1), ... , Y(n) et (-Y(n), ... , -Y(1» ont la même loi. On peut
écrire ces vecteurs sous la forme y(.) et - JY('), où J est la matrice de
permutation d'ordre n qui "retourne" un élément de [Rn, soit la
matrice dont tous les éléments sont nuls sauf ceux de la seconde
diagonale (i+j = n+ 1) qui sont égaux à 1. On remarque que la
matrice J vérifie la relation

J = J' = J -1.

En écrivant que les vecteurs y(.) et - JY(') ont la même moyenne et


la même matrice des covariances, on obtient les égalités

a=-Ja

et

B = J B J.
On en déduit que la matrice AI B- 1 A est diagonale. En effet

l' B- 1 a = l' (J B J rI a = l' J B- 1 J a = l' B- 1 (- a) = - l' B- 1 a,

d'où

l' B- 1 a = O.

104

III. EXEMPLES D'UTILISATION DES STATISTIQUES D'ORDRE

On a alors

- [ (1' B- 1 lr 1 en = o

] [ l' ] o B- 1 X(,) (a' B- 1 ar 1 a' '

d'où
_ l' B- 1 X(.) Jln = l' B- 1 1

et

a' B- 1 X(.) - crn = l' a' B- a

Puisque Aê n = cr 2 ( A' B- 1 A rI, on a

2 _ cr V(Jln) = l ' l' B- 1

2 cr V@n) = l ' a' B- a

Cov (jIn, an) = O.

Exercice VII.2 1) Soient Xl, ... , X n des variables aléatoires


indépendantes de lois respectives eN (mi, cr?) (1

n). On pose

1 n X = - L Xi n i=l
et

- - y = (Xl - X, ... , X n - X).

Déterminer une condition nécessaire et suffisante pOW" que les


éléments aléatoires X et Y soient indépendants. 2) Avec les
notations de la section VII.1.b, en déduire que, lorsque F est la loi - -
eN (0, 1), on a B 1 = 1, l' B = l'et, donc, Jln = Xn.

1) Le vecteur aléatoire X = (Xl, ... , X n ) est gaussien puisque ses


composantes Sont normales et indépendantes. Le vecteur aléatoire
(X ,Y) est également gaussien puisqu'il est l'image de X par une
application linéaire de [Rn dans [Rn+l. Les sous-vecteurs X et Y du
vecteur ( X, Y) sont donc indépendants si et seulement s'ils sont
non-corrélés, c'est-à-dire si

\:1 i e {1 , ... , n}, Cov ( X , Y i) = O.

105

III. EXEMPLES D'UTILISATION DES STATISTIQUES D'ORDRE

Or
Cov (X ,Yv = Cov (X , Xi - X) = Cov (X , Xv - V (X )

1 n = - Cov ( L Xj' Xi) - V( X) n j=l

1 - = - V(Xi) - V(X). n

Une condition nécessaire et suffisante cherchée est donc que les


variances des Xi soient toutes égales à nV (X) , ou encore que l'on
ait

222 cri = cr2 =. .. = crn .

2) Puisqu'on se place dans le cas où Xl, ... , X n est un échantillon


de la loi eN (0, 1), la condition ci-dessus est satisfaite. De
l'indépendance de X et Y, on déduit celle de X et de

(.) - - - y - (X(1) - X, ... , X(n) - X),

puisque y(.) est l'image de Y par une application de [Rn dans [Rn.

On a donc
\:1 i e {l,..., n}, Cov (X , X(i) - X) = O.

Or

Cov ( X, X(i) - X) = Cov (X , X(i» - V (X )

1 n = - Cov (L X(j), X(i» - V ( X) n j=l

1 n = - L Cov (X(i), X(j» - V (X) , n j=l

- 1 d'où, puisque V (X) = -, n

\:lie {1,...,n},

n L Cov (X(i), X(j» = 1, j=l

106

III. EXEMPLES D'UTILISATION DES STATISTIQUES D'ORDRE


soit

\:lie {l,...,n},

nL

ij = 1, j=1

ce qui signifie que B 1 = 1 . On en déduit, puisque B est symétrique


et inversible, l' B = 1', puis l' = l' B- 1 . Enfin, d'après la relation (VII.5)
démontrée à la dernière question de l'exercice précédent, on a

_ l' B- 1 X(.) l' X(.) 1 n _ J.1n = = = - LX(i) = Xn. l' B -1 1 l' 1 n j= 1

Exercice VII.3. On reprend les notations de la section VII.2 et on se


propose de déterminer le L-estimateur or, 0) des moindres carrés du
paramètre Ol, cr) de localisation-échelle en n'utilisant que les r plus
petites des n données (données censurées) . 1) En se reportant à
l'exercice VII. 1 , montrer que l'on a

[ J.1 ] [ X(l) ] a = (A' 8,1 Afl A' 8,1 =

.(

)
et que la matrice des covariances de (jI, 0) est cr2 (A' B- 1 Ar 1 . On
précisera avec soin ce que sont les matrices A et B. 2) On suppose
que les données proviennent de la loi exponentielle décalée 1(J.1,
a). En utilisant les résultats de l'exercice N.1 chap. II, calculer la
matrice B- 1 et en déduire que la matrice A' B- 1 a . tous les termes
de sa première ligne nuls, sauf le premier qui est égal à n 2 , . tous
les termes de sa deuxième ligne égaux à 1, sauf le dernier qui est
égal à (0 - r + 1). 3) Montrer que

A' 8- 1 A = [:2

et en déduire la matrice des covariances de l'estimateur ur, 0), ainsi


que les coefficients ai et bi.

107

III. EXEMPLES D'UTILISATION DES STATISTIQUES D'ORDRE

1) Les résultats que l'on demande de montrer ne sont autres que


ceux obtenus à la question 2 de l'exercice Vll.l. Toutefois, il faut bien
préciser que, si la matrice An' a que r lignes et si la matrice B est
d'ordre r, les coefficients ai et

ij de ces matrices sont les moyennes et les covariances des r


premières observations d'un échantillon ordonné de taille n de la loi
F de base. Ou, encore, les matrices A et B considérées ici sont les
matrices obtenues en ne conservant des matrices considérées à
l'exercice VII.l que les r premières lignes (et les r premières colonnes
en ce qui concerne B). Enfin, on peut remarquer que tout ce qui suit
s'applique à des données non censurées. Il suffit, pour cela, de
supposer que r = n.

2) On sait, d'après l'exercice IV.l chap. n, que l'on a

n 1 a. = L -, 1 k=n-Î+1 k

n 1 J3.. = L , 11 k=n-i+1 k 2

J3ij = J3ji = J3ii

si i < j .

Pour alléger la notation, posons J3i = J3ih d'où J3ij = J3min (i.j).
Pour inverser la matrice B, on écrit la transformation

y = BX,

soit
Yi = J31 xl + ... + J3i-1 xi-1 + J3i (Xi + ... + x r )

(1

r)

et l'on exprime les Xi en fonction des Yi. Ce calcul simple étant


laissé aux soins du lecteur, on aboutit au résultat suivant où Wij
désigne le terme général de la matrice B- 1

'ij = 0 si Ii - jl > 1, ·

'i,i+1 = J3'i+1,i = - ( J3i+1 - J3i rI = - ( n - i )2 si 1

i < r, ·

'ii = - (

'i-1.i +

'i+1.i ) si 1 < i < r, ·

'll = n 2 + ( n - 1 )2, . J3'rr = ( n - r + 1 )2.

Si l'on pose C = A' B- 1 , on a


r CI. = L J3'.. J i= 1 IJ

et

r c 2 . = La. J3'.. . J i= 1 1 IJ

108

III. EXEMPLES D'

ISA TION DES STATISTIQUES D'ORDRE

En tenant compte des égalités ci-dessus, on obtient

. Clj

=0 R' R' 2 = tJ 11 + 1-' 21 = n , = al

'll + a2

'21 = «n - 1)2 + n 2 ) al - (n - 1)2 a2 = (n - 1)2 (al - a2) + n 2 al = - (n -


1) + n = 1,

si j > 1,
· CIl · c21

. C2j

= aj-l

'j-l,j + aj

'jj + aj+l

'j+l,j = (aj-l - aj)

'j-l,j + (aj+l - aj)

'j+l,j = (n - j + 1) - (n - j) = 1

SI 1 < j < r,

· C2r = ar-l

'r-l,r + a r

'rr = (n - r + 1)2 (Œr - Œr-1) = n-r+ 1.

3) En calculant At 8- 1 A = C A, on obtient
[ 2 n A' B- 1 A = (r - 1) + (n - r + 1)

n:a l ] = [:2 :].

avec

Â. = al + ... + Œr-1 + (n - r + 1) Œr.

n 1 En écrivant que <Xi = L -, on obtient k=n-Î+I k

r-l r-2 1 1 1 1 Â.=-+-+...+ +(n-r+l)(-+-+...+ ) n n-l n-r+2 n n-l n-r+l

n n-l n-r+l = - + - + ... + = r, n n-l n-r+l

d'où

A' B'l A = [:2 ;].

(A' 8- 1 Af1 =
1 2 (r - 1) n

[ r -n 2 ] . -n n

109

m. EXEMPLES D'

ISATION DES STATISTIQUES D'ORDRE

Puisque la matrice des covariances de (jï, êJ) est égale à cr 2 (At 0-


1 Ar 1 , on a

'Tr;'i'\ J.I. = r 0'2 , V

L C l':r

- 0'2 y \J.Io) ,a) = , ov ,J.I., a) = . (r - 1) n 2 r - 1 (r - 1) n

Enfin, en calculant la matrice (At 0- 1 Ar 1 At 0- 1 , on obtient

rn-l al = , (r - 1) n

1 a_- -a - -1. - ... - 1-1 - - , (r - 1) n


n-r+ 1

= - , (r - 1) n

n-l b 1 = - - , r - 1

1 b 2 = ... = b r _ 1 = - , r - 1

n-r+l b = r

r-1

Exercice VII.4. Avec les notations de la section VII.3 et en supposant


que la loi F possède une espérance mathématique, montrer qu'une
condition nécessaire et suffisante pour que les estimateurs *J.l.n et *
crn donnés par les formules (VII.B) soient sans biais est que

n n LZ i = La. i=l i=l 1

et
n n La.z.=Lz

. 1 1 1 i=l i=l

Que devient cette condition lorsque F appartient à "s?

On a obtenu en (Vn.8) n .

1 Z(Zi-Z) J.l.n =

( - - ) X(i) . l n v J=

n.

Zi-Z X crn =

- (i) . I v J=

1 n z=-L Zï et n . 1 J=

n v=L (Zi- z )2. j=l

Puisque lE (X(i» = J.I. + cr <Xi, ces estimateurs sont sans biais si et


seulement si on a les relations
n

1 Z ( z' - Z)

( - . 1 ) (J.I. + cr ai) = J.I. . l n v J=

et

z..z £.J --L- (J.I. + cr ai) = cr . I v J=

110

m. EXEMPLES D'UTILISATION DES STATISTIQUES D'ORDRE

n qui, en tenant compte de L (Zi - z) = 0, s'écrivent i=l

nnn

L <Xi - oz (L <Xi Zi - z L <Xi) = 0 n i=l n i=l i=l

et
n L (Zï - Z) ai = v, i=l

soit

(1)

n n (...!.+z2)L ai-zL ŒïZï=O n . 1 . 1 1= 1=

et

n n L ai Zï - z L ai = v. i=l i=l

n En combinant ces deux relations pour éliminer L <Xi Zit on obtient


i=l

n ...!.L <Xi =ZV, n . 1 1=

soit, puisque v n'est pas nul (les nombres Zï ne sont pas tous
égaux),
n n La. = Lz i . i=l 1 i=l

En portant cette égalité dans la deuxième relation de (1), on obtient

n L ai Zï - n z2 = v, i=l

soit

n n L <Xi zi = v + n z2 = L z?, i=l i=l

puisque

n n V = L (Zï - z)2 = L Zï 2 - n z2, i=l i=l

d'où la condition nécessaire et suffisante demandée.

Si, de plus, la loi F appartient à "s, on a alors

Vie (l,...,n),
Œn+l-i = - ai.

111

III. EXEMPLES D'UTILISATION DES STATISTIQUES D'ORDRE

n En particulier, L <Xi = 0 et la condition nécessaire et suffisante


cherchée devient i=l

z=o

et

n n L ai Zi = L Zï 2 . i= 1 i= 1

112

Chapitre IV

PROBLEMES A DEUX ECHANTILLONS


Exercice 1.1. Démonstration du théorème 1.2.1 Avec les notations et
les hypothèses du théorème /2.1, montrer que

1 'TI (s(.), r<.» e

, P( (S(.), R(.)} = (s(.), r<.)} ) = - N!

et que

m' \:1 r<.) = (rI, ... ,r n ), {rI, ... ,r n } C {l, ... ,N}, P(R(.) = r<.)} =--.:. N!

Les deux échantillons étant indépendants, on peut considérer que


(X}, ... , X m , y}, ... , y n) est un échantillon de taille N de la loi F et
que (S(.), R(.» est le vecteur des rangs associé à cet échantillon. On
sait alors, puisque F appartient à ", que la loi de ce vecteur est
uniforme sur

(théorème II.3.1 chap. II), d'où la première égalité demandée.


Cherchons maintenant la loi de R(.) qui est une loi marginale de la
loi obtenue ci- dessus. Soit r<.) = (rh... ,r n ) un n-uplet d'éléments
distincts de {l,..., N}. Puisque la loi du vecteur (S(.), R('» est
uniforme, on a

Â. P(R(.) = r<.)} = -, N!

où À désigne le nombre d'éléments de S(.) tels que (S(.), r<.» E


, c'est-à-dire le nombre de permutations des m éléments de
l'ensemble {l,..., N} \ {rI, ... ,rn>. D'où À = m! et

m' P(R(.) = r<.» = --.:. N!

113

IV. PROBLEMES A DEUX ECHANTILLONS

Exercice II.1. On se propose de démontrer la relation donnée à la


remarque //.2.3, soit

k ( , ) 2 P O (D+

_) = n. n,n n (0 - k)! (0 + k)!

Pour cela, on considère un couple (m, n) d'éléments de lN et on


appelle IIchemin sur le quadrillage unitaire" allant de l'origine 0 au
point M(m, n) toute suite (aj, bj)OSjSm+n d'éléments de 1N2 telle
que . ao = b o = 0, . \:1 jE {O, 1, ... , m+n-l}, (aj+1, bj+1) = (aj + 1, bj)
ou (aj+b bj+l) = (aj, bj+ 1),

. (a m + n , b m + n ) = (m, n).
On représentera géométriquement un tel chemin par une ligne
brisée continue allant de 0 à M en empruntant les droites d'abscisse
ou d'ordonnée entière, les coordonnées le long de cette ligne étant
croissantes lorsqu'on va de 0 à M. 1) Déterminer le nombre A(m, n)
de tels chemins. Soit k un entier strictement positif. On désigne par
Ak(m, n) le nombre de chemins sur le quadrillage unitaire allant de 0
à M et tels que

3 j e {O, 1, ... , m+n}

aj - bj = k.

Géométriquement, il s'agit des lignes brisées qui touchent ou


traversent la droite d'équation x - y = k. Déterminer Ak(m, n) si m - n

k ou si m

k. Montrer que, si m - n < k et m

1, on a

Ak(m, n) = Ak(m - 1, n) + Ak(m, n - 1)

et que cette relation, jointe aux résultats obtenus précédemment,


détermine les valeurs de Ak(m, n) pour m - n < k et m > k. En
déduire que, si m - n S k et m

k, on a
"m-k Ak(m, n) = \....m+n .

2) Avec les notations de la remarque //2.3, montrer que si 1 S k S n,


on a

+ k Ak(n, n) Po(Dn,n

-) = n A(n, n) et en déduire la valeur de cene probabilité.

114

IV. PROBLEMES A DEUX ECHANT

LONS

1) Définir un chemin sur le quadrillage unitaire allant de 0 à M revient


à se donner n éléments j de {O, 1, ... , m + n - 1} pour lesquels on a

(aj+}, bj+t) = (aj + 1, bj),

d'où

A(m, n) = c: + n = <: + n .
Si m - n

k, on a évidemment Ak(m, n) = A(m, n). Si m < k, on a Ak(m, n) = 0


et, si m = k, Ak(m, n) = 1. Supposons m - n < k et m

1. L'ensemble des chemins répondant à la question est l'union de


deux ensembles disjoints de chemins, selon que (a m + n -1, bm+n-
l) est égal à (m - 1, n) ou à (m, n - 1). D'autre part, si aj - bj = k, on a
certainement j

m + n - 1, puisque m - n > k. On en déduit

Ak(m, n) = Ak(m - 1, n) + Ak(m, n - 1).

Cette relation, jointe aux résultats obtenus pour m - n = k et pour m =


k, permet de déterminer les valeurs de Ak(m, n) pour m - n < k et m
> k. En effet, on peut calculer les valeurs de Ak(k + 1, n) pour n

2, à partir de

A k (k + 1, 1) = A(k + 1, 1) = k + 2,

grâce à la relation de récUITence

Ak(k + 1, n) = Ak(k, n) + Ak(k + 1, n - 1),


soit

Ak(k + 1, n) = Ak(k + 1, n - 1) + 1,

puis ensuite les valeurs de Ak(k + 2, n) pour n

3, etc.

On en déduit que, pour m - n

k et m

k, on a bien

-k Ak(m, n) = m+n

puisque

-k . SI m = k, on a L-ni+n = 1, . C m - k

. SI m - n = k, on a m+n= m + n = A(m, n), . si m - n < k et m

1, on a
rffl - k L-m + n =

dm - 1) - k

- k (m - 1) + n + m + (n - 1) ,

115

IV. PROBLEMES A DEUX ECHANTll...LONS

d'après une propriété classique des combinaisons.

2) En reprenant les notations de la section II.2, on peut associer à


chaque réalisation Z = (Zl, ... , Z2n> de Z = (Zl, ... , Z2n) un chemin
sur le quadrillage unitaire allant de 0 à M(n, n) e,n posant

. (aj+b bj+l) = (aj + 1, bj) . (aj+l' bj+l) = (aj, bj + 1)

si Zj+l = 1, si Zj+l = O.

Sous l'hypothèse Ho, toutes les réalisations de Z sont équiprobables


et il yen a A(n, n). Soit k un entier tel que 1
k

n. On vérifie aisément que Fn(x) - Gn(x) prend les valeurs aj - bj (0

2n) lorsque x varie de -00 à +00. La réalisation d:,n de D:,n est donc
définie par

n < = max (a. - b.). ,n

.< J J V::::J_n

+ k On a d n n

- s'il existe j (0

2n) tel que aj - bj = k et il y a donc Ak(n, n) , n k réalisations z de Z


pour lesquelles d:,n

-. TI en résulte n

+ k Ak(n, n)

k (n! )2 Po(Dn.n

;) = A(n, n) =

n = (n - k)! (n + k)!
On remarque que cette relation est encore vérifiée pour k = O.

Exercice 111.1. Avec les notations de l'exemple 111.3.10, montrer


que, pour m, n et a o donnés (m e lN., n e lN., a o e ]0,

D, il existe un élément (a, J..L) de IR X IR+. tel 2

que

Pm,n(J..L, a) > 1 - Œ o .

Ona

Pm,n(J..L, a) = PJ.1(X 1

a, ... , X m

a, YI> a, ... , y n > a),

où Xl,.'.' X m et YI, ... , y n sont deux échantillons indépendants des


lois F (F e "s) et Fil respectivement.

116
IV. PROBLEMES A DEUX ECHANT

LONS

On a alors

Pm.nO.L, a) = Fm(a) (1 - F(a - J.1.»n.

Pour une yaleur donnée de a, Pm.n(J.1., a) est une fonction


croissante de J.1. telle que

lim Pm.n(J.1., a) = Fm(a). J.L

+-

TI suffit donc de choisir a qui réalise

Fm(a) > 1 - CXo, soit F(a) > (1 - a o )1/ m ,

ce qui est toujours possible et de déterminer ensuite J.1. > 0 tel que

Pm.n(J.1., a) > 1 - a o .
Exercice IV.1. Démonstration du théorème IV.2.3 Etant donné N
variables aléatoires indépendantes Xi (1

N) de lois respectives Fi (1

N) appartenant à ", soit TN = t(Xt, ... , XN) une statistique telle que
IE(TN) = 0 et IE(

) < +00. On considère l' ensemble

des variables aléatoires LN de la/orme

= L ti(x i ) i=l

. et l'on désigne par

l'élément de

défini par

= L (Xi)' où t; (Xi) = IE(T N 1 Xi)' i=l


. l)Montrerque IE

) =0 et que

. . IE( (TN -

) ) = O.

On rappelle les relations suivantes où X et Y désignent deux


variables aléatoires et où les espérances écrites sont supposées
exister

lE ( lE (Y 1 X) ) = lE (Y), lE (Y <p(X) 1 X) = <p(X) lE (Y 1 X),

et, si X et Y sont indépendantes, IE(Y 1 X) = IE(Y).

117

IV. PROBLEMES A DEUX ECHANTll..LONS

2) En déduire que
IE( (TN -

)2) = Inf { IE( (T N -

)2);

e :iC } = V(T N ) - V

).

1) On a

N N N IE

) = L IE( (Xi) ) = L IE( IE

TN 1 Xi» = L IE(T N ) = O. i=l i=1 i=l

On a également

N***

* IE( (TN -

)(

» = IE[ (TN -
) £.J (t i (Xi) - ti(X i ) ) ] i=l

* * = £.J IE[ (TN -

) (t i (X) - ti(X i ) ) ] i=l N

* * = £.J lE [ lE [ (T N -

) (t i (Xi) - ti(X i ) ) 1 Xi ] ] i=l N

* * = £.J IE[ ( t i (X) - ti(X i ) ) IE( (T N -

) 1 Xi ] . i=1

Or

N*

* IE( (TN -

) 1 Xi) = IE( (TN -

t j (X j ) ) 1 Xi) J=l N *

* = IE( (T N - t i (Xi) - . £.J. .tj(X j » 1 Xi) J=I, J

IN*

* = IE(T NI Xi) - t i (X) - £.J IE( t. (X.) ) . 1 .. J J J= , J

I
= 0,

d'où le résultat demandé.

2) En écrivant

lE 2 lE * * 2 «TN-

»= «(TN-

)+

» ) = IE( (TN -

)2) + IE( (

)2) + 21E «T N -

) ) lE * 2 lE * 2 = «TN-

»+ «

-
»,

on voit que l'on a

\:1

, IE( (T N -

)2)

IE( (T N _

)2),

118

IV. PROBLEMES A DEUX ECHANTll..LONS

d'où la première égalité demandée.

En choisissant

= 0, on obtient
IE(T

) = IE( (TN -

)2) + 1E(

2),

soit

· 2 · IE( (TN -

) ) = V(TN) - V

).

Exercice IV.2. Démonstration du corollaire IV.2.5 Soient Xl, ... , X m


et YI, ... , y n deux échantillons indépendants de la loi F appartenant
à ". On pose

m n 1 TN =

(11]0, +oo[(Yj - Xi) - 2" ). 1=1 J=l

Vérifier que l'on est dans les conditions d'application du théorème


IV.2.3 démontré . à l'exercice précédent et déterminer la projection
de T N'

On a IE(T N) = 0 puisque

IE( 11 ]0, +oo[(Y j - Xi) ) = P( 11 ]0, +oo[(Y j - Xi) = 1) = P(y. - X. > 0)


J112

et IE(T

) < +00 puisque T N est bornée. Nous devons calculer, pour tout i (1

m) et tout j (1

n), IE(T N 1 Xi) et IE(T N 1 Y j ). Puisque T N est symétrique par


rapport à tous les Xi d'une part et par rapport à tous les Y j d'autre
part, nous pouvons nous contenter de calculer, par exemple, 1 E(T
NI Xl) et E(T NI y 1)' Posant T ij = 11 ]0, -1(Y j - Xi) - 2' on a

m n IE(T N 1 Xl) = L L lE (T ij 1 Xl)' i= 1 j= 1

Si i * 1, T.. et X I sont indépendants et l'on a IJ

IE(Tij 1 XI) = lE (T ij ) = O.
119

IV. PROBLEMES A DEUX ECHANTll..LONS

Si i = 1, on a 1 E(T lj 1 Xl) = E( 11]0. -r(Yj - Xl) 1 XI) - 2" 1 = P(Y j - Xl


> 0 1 Xl) - - 2 1 1 = 1 - F(X 1 ) - - = - - F(X 1 ), 2 2

d'où

n 1 IE(T N 1 Xl) = L IE(T lj 1 Xl) = n ( - - F(X I ) ). j=l 2

On montre de même que

IE(TN 1 YI) = m (F(Y I ) - 112).

On en déduit que la projection

de T N est donnée par

. mIn 1

= n L ( - - F(X.) ) + m L (F(Y.) - - ). i=l 2 1 j=l J 2


Exercice IV.3. Démonstration du théorème IV.4.3 Avec les notations
du paragraphe W.4.b, montrer que, sous l' hypothèse Ho et avec des
entiers k, dl, ... , dk fixés, on a

. N + 1 lEo(W N ) = 2

et

. m (N + 1) Vo(WN) = 12 n

k m L (d; - di)' 12 n N (N - 1) i=l

n.1

. On a WN=-£.J Ri' d'où n i=l

n.1

. . lEo(W N ) = - £.J lEo(R i ) = lE o (R 1 ), n i=1

par raison de symétrie.


120

IV. PROBLEMES A DEUX ECHANTll..LONS

Or, les entiers k, dl, ... , dk étant fixés, on peut considérer que R

est une d variable aléatoire qui prend les valeurs r

(1

k) avec les probabilités respectives

.N

On en déduit

k*1

* lEo(R I ) = - £.J d h rh . N h=l

On peut considérer que lEo(R

) est l'abscisse du barycentre des k points d d'abscisses r

affectés des coefficients

(1
h

k). Mais, puisque r

est l'abscisse N de l'équibarycentre des points d'abscisses dl + ... +


dh-l + j (1

dJt), alors lEo(R

) est l'abscisse de l'équibarycentre des points d'abscisses 1,..., N,


d'où

* N + 1 lEo(R I ) = 2

et

* N + 1 lEo(WN) = lEo(WN) = 2

Pour calculer V o(W

), on écrit que n * 1-

* Vo(WN) = 2 V o ( £.JRi ) n i=l n 1

* * = 2" (£.J V o(R i ) + 2 £.J Covo(R i , R j ) ) n i= l l

i<j
n 1 * n-l * * = - V o (R 1 ) + - Cov o (R 1 , R 2 ) n n

par raison de symétrie. On a

k *2 1

*2 lEo(R I ) = - £.J d h rh . N h=l En raisonnant comme ci-dessus,


c'est-à-dire en considérant que r

est l'abscisse de l'équibarycentre des points d'abscisses a + j (a = dl


+ ... + dh-l, 1

dh)' on peut affmner que

dh 1

2 *2 - £.J (a + j) - rh d h j=l

121

IV. PROBLEMES A DEUX ECHANTll..LONS

d
- 1 est la variance de la loi unifonne sur {l, ... , dh} que l'on sait être
égale à - (voir 12

exercice 2 chap. 1). D'où

d h 2 *2

. 2 d h (d h - 1) d h rh = £.J (a + J) - 12 j=l

On obtient donc k N k 2 1

*2 1

.2 1

3 lE o (R 1 ) = - £.J d h rh = - £.J 1 - - £.J (d h - dh)' N h=l N i=l 12 N


h=l

1 N Puisque lEo(R

) = - L i 2 et que lEo(R

) = IEO(R I ), on peut écrire que N i=l k * 1

3 V o(R I ) = V o(R I ) - - £.J (d h - dh). 12 N h=l

Enfin, pour calculer Cov o(R


, R;), il nous faut préciser la loi du couple * * (Rt, R 2 ) sous
l'hypothèse Ho, les entiers k, db ... , dk étant connus. On a, sous ces
conditions,

* * * * * Po( (RI' R 2 ) = (r h1 , r h2 ) ) = Po(RI = r ht ) P o (R 2 = r h2


1 RI = r h1 )

d h * * = - P o (R 2 = rh 1 RI = rh ) N 2 1

d h (d h - 1) 1 1

si h 2 = hl'

N (N - 1) = d h 1 d h2

si h 2 * hl'

N (N - 1)

On en déduit
k**1

*2

* * lE o (R 1

) = ( £.J d h (d h - 1) rh + 2 £.J d h d h rh rh ) N (N - 1) hl = 1 1 1 1 l

hl <h2

k1212kk1

.*2

*2 ( ( £.J d h rh) - £.J d h rh ) N (N - 1) h= l' h= 1 1 N N 1 k ( (L i)2 - L


i 2 + - L (d

- dh) ), N (N - 1) i=l i=l 12 h=l

122

IV. PROBLEMES A DEUX ECHANTILLONS

d'après les calculs déjà effectués. On constate que


k**1

3 lEo(R 1 R 2 ) = lEo(R 1

) + £.J (d h - dh) 12 N (N - 1) h=l

et, puisque lEo(R

) = IEO(R 1 ), on a

k**1

3 Cov o(Rl' R 2 ) = Cov o(Rl'

) + £.J (d h - dh)' 12 N (N - 1) h=l

On peut alors écrire

[ k ] [ k ] * 1 1 3 n-l 1 3 Vo(WN)=- V o (R 1 )--L(d h -d h ) +- Cov o (R


1 ,R 2 )+ L(dh-d h ) N 12 N h=l n 12 N (N - 1) h=l

k 1 n-l

3 =Vo(W N )- (1--)£.J(d h -d h ) 12 N n N - 1 h=l

km

3 = Vo(W N ) - £.J (d h - dh) 12 n N (N - 1) h= 1


k m (N + 1) m

3 = £.J (d h - dh)' 12 n 12 n N (N - 1) h= 1

* On remarque que Vo(WN)

Vo(WN) et qu'il n'y a égalité entre ces deux variances que si les
entiers d h sont tous égaux à 1, c'est-à-dire s'il n'y a pas d'ex-requo.

Exercice V.1. Démonstration du théorème V.l.8 A vec les notations


du théorème V.I.B et en utilisant les résultats du théorème V.l.I,
montrer que l' on a

- 1 1 a) J.1N(W) = - +

(Pl - -), 2 2 -

2 2 b) N VN(W) = - ( (1 -

) (P2 - Pl) +

(P3 - Pl) ). 1-

Pour établir la relation b), on pourra effectuer un calcul direct ou


procéder de lafaçon suivante. On montre d'abord que, si X est une
variable aléatoire de loi F, on a
123

IV. PROBLEMES A DEUX ECHANTILLONS

G(X) - E( G(X) ) = r- G(x) d( Fl(x) - F(x) ) = f-( F(x) - Fl(x) ) dG(x),

-00 -00 où FI (X) = {

si x < X, si x

X,

puis on montre que la première intégrale qui figure dans l'expression


de N V N(f) est égale 1 à - V( G(X) ). 2

D'après le théorème V.l.l, on a

+00

(T) = f J( H(x) ) dG(x).

-00

Si T = W , on a J(u) = u, d'où
f +oo +00 +00 IlN (W ) = H(x) dG(x) =

f F(x) dG(x) + (1 -

) f G(x) dG(x)

1 = ÀN PI + (1 -

) - 2 1 1 =-+À N (p --). 2 1 2

La relation a) est donc établie. De la même façon, on a, puisque


J'(U) = 1,

N VN (W) = 12_

[ (1 -

) f f F(x) (1 - F(y» dG(x) dG(y)

x<y +

f ty G(x) (1 - G(y» dF(x) dF(y) ].

124

IV. PROBLEMES A DEUX ECHANTILLONS


Or J J F(x) (1 - F(y» dG(x) dG(y) = J J F(x) dG(x) dG(y) - J f F(x) F(y)
dG(x) dG(y) xq

y xq = J f F(x) dG(x) dG(y) -

J f F(x) F(y) dG(x) dG(y) xq

22=J

<yF(X) dG(x) dG(y) -

[f: F(x) dG(X)] 2 P2 - Pl

car on peut écrire que

P2 = P(YI > Xl, Y2 > Xl) = P( Xl < Min (YI, Y2»

= J f F( Min (x, y» dG(x) dG(y)

2 = 2 J f F(x) dG(x) dG(y). x<y

De même, on a
f J G(x) (1 - G(y» dF(x) dF(y) = f J (1 - (1 - G(x» ) (1 - G(y» dF(x)
dF(y) x<y x<y

= J f (1 - G(y» dF(x) dF(y) - J f (1 - G(x» (1 - G(y» dF(x) dF(y) x<y


x<y

= J f (1 - G(y» dF(x) dF(y) -

J f (1 - G(x» (1 - G(y» dF(x) dF(y) xq

22=f

<y (1 - G(y» dF(x) dF(y) -

[J

-(1 - G(x» dF(X)]

2 P3 - Pl

125
IV. PROBLEMES A DEUX ECHANTll..LONS

car on peut écrire que

P3 = P(YI > XI, YI > X2) = P( YI > Max (XI, X2» = f f (1- G( Max (x, y)
) dF(x) dF(y) fR2 = 2 f f (1 - G(x» dF(x) dF(y). x<y

On obtient bien -

22NV

= - «1 -

) (P2 - Pl) +

(P3 - Pl) ). 1-

Nous présentons également la solution obtenue par la seconde


méthode, car il s'agit d'un procédé fructueux et souvent utilisé. Soit X
une variable aléatoire de loi F. On a

+- E( G(X) ) = f G(x) dF(x)

-00
et l'on peut écrire que

G(X) = r- G(x) dFl(x),

-00

d'où

G(X) - E( G(X) ) = r- G(x) d( Fl(x) - F(x) )

..00

+- = [G(x) (Fl(x) - F(x) ) J: + f (F(x) - Fl(x) ) dG(x)

-00

= r- ( F(x) - FI (x) ) dG(x).

-00
On remarque que

P2 = IE( (1 - G(X»2 ) et Pl = IE( 1 - G(X) ),

donc que

P2 - P1 = V( 1 - G(X) ) = V( G(X) ).

126

IV. PROBLEMES A DEUX ECHANTll..LONS

Or

V( G(X» = E [ U

-( F(x) - Fl(x) ) dG(x) J] = E [J

2 ( F(x) - FI (x) )( F(y) - FI (y) ) dG(x) dG(Y)] = J f E[ (F(x) - Fl(x) )


(F(y) - Fl(y) ) ] dG(x) dG(y) fR2 = 2 J f E [ (F(x) - Fl(x) ) (F(y) - Fl(y) ) ]
dG(x) dG(y) , x<y
l'int!oduction du signe "lE" sous l'intégrale étant justifiée par le fait
que l'expression (F(x) - Fl(X) ) (F(y) - Fl(y» est bornée. Comme elle
prend les valeurs

( F(x) - 1 ) ( F(y) - 1 ) F(x) ( F(y) - 1 ) F(x) F(y)

si X S x , si x < X S y , si X > Y ,

on a

IE[ (F(x) - Fl(X» (F(y) - Fl(Y»] = (F(x) -1) (F(y) -1) F(x) + F(x) (F(y) -1)
(F(y) - F(x» + F(x) F(y) (1 - F(y» = F(x) (1 - F(y».

On obtient donc P2 - P

= 2 J f F(x) ( 1 - F(y) ) dG(x) dG(y). x<y

On pourrait montrer, de la même façon, que

P3 - P

= 2 J J G(x) ( 1 - G(y) ) dF(x) dG(y) x<y


en considérant une variable aléatoire X de loi G, en remarquant que

2 P3 - Pl = V( F(X) )

127

IV. PROBLEMES A DEUX ECHANTll..LONS

et en écrivant que

+- +- F(X) - E( F(X» = f F(x) d( Gl(X) - G(x» = f (Gl(X) - G(x) ) dF(x),

où la définition de Gl est analogue à celle de FI- On laisse au lecteur


le soin d'expliciter ce calcul.

Exercice V.2. Démonstration du corollaire V.I.II A vec les notations et


les hypothèses du théorème V.1.1, montrer que, sous l' hypothèse
Ho, on a

[ T N - Il (T) J lim P 0

t = <I>(t), N

V o,N (T)

1 11/1') = f J(u) du o

et

[ 1 1 ] N V n,N(I') = ---=-- f J2(u) du - (f J(u) du )2 . 1

00

Pour établir ces résultats, il suffit d'appliquer le théorème V.l.l sous 1


'hypothèse Ho, c'est-à-dire en supposant que F = G. On a alors H =
F = G, d'où

+- 1 11 0 (1') = f J( F(x) ) dF(x) = f J(u) du - 0


et N V o,N(I') = 12_

[ (1 -

) f ty F(x) ( 1 - F(y) ) J'( F(x) ) 1'( F(y) ) dF(x) dF(y) +

f f F(x) ( 1 - F(y) ) 1'( F(x) ) 1'( F(y) ) dF(x) dF(y) ] x<y = 2

Jf F(x) ( 1 - F(y) ) J'( F(x) ) J'( F(y) ) dF(x) dF(y) 1 - Â '

x<y = :_

J f u (1 - v) J'(u) 1'(v) du dv

OSU<V

128

IV. PROBLEMES A DEUX ECHANTll..LONS

= ;_

[ If u f(u) J'(v) du dv -

If u v J'(u) J'(v) du dV ]

OSu<v

1 [0.1]2 = ;_

[fUJ'(u)[tJ'(V)dV ]dU -
[fUJ'(U)duJJ.

Pour achever le calcul, on peut prendre J(I) = 0, puisque l'expression


ci-dessus ne dépend que de la fonction J'. On obtient

N V o,N(T) = 2_

[ -tu J'(u) J(u) du - 2. [ t u J'(u) dU ] 2 ] , 1

020

d'où, après une intégration par parties effectuée sur chacune des
intégrales,

N Vn,N(f) = 1

[fJ 2 (U) du - [fJ(U) du JJ.

Exercice VI.I. Démonstration du théorème VI.l.3 En s'inspirant de la


démonstration du théorème lV.1.S chap. III, démontrer le théorème
VI.l.3.

Rappelons qu; on se place dans le modèle de localisation (1.3." s) et


que l'on suppose que les hypothèses 1 et II énoncées en VI. 1 sont
vérifiées. Supposant, de plus, que la loi F est fortement unimodale,
on cherche s'il existe une fonction score J croissante, vérifiant
1 \:1 u e ]0,1[, J(u) + J(1 - u) = 2 J(-) 2

et telle que le test correspondant soit AMP pour tester 1 'hypothèse


Ho: "J! = 0" contre l'hypothèse Hl : "J! > 0" (ou "J! < 0" ou, encore, "J!
* 0" ). On cherche donc à rendre maximum 1.' efficacité du test, ce
qui, d'après la relation (VI.2), revient à rendre maximum l'expression

129

IV. PROBLEMES A DEUX ECHANTILLONS

1 f J'(U) f( F'\u) ) du o A= fJ 2 (U)du _ [fJ(U)du J

Nous inspirant de la démonstration du théorème IV .1.5 chap. III,


nous imposons les contraintes

1 f J(u)du=O o

et

1 f J2(u) du = 1. o
1 Remarquons que la première contrainte revient à imposer J( -) = 0
ou, encore, à 2 1 remplacer J(u) par J(u) - J( -) et que la seconde
revient à multiplier la fonction J par une 2

constante. Ces contraintes n'enlèvent rien à la généralité et


reviennent à remplacer la fonction score par une fonction score qui
conduit à un test équivalent (on peut se reporter, à ce sujet, à la
remarque faite pp. 148-149 du tome 1). On a alors

1 A = f J'(u) f( p-l(u) ) du o

et une intégration par parties conduit à 1 A = [ J(u) f( p-l(u) ) ]: + f


J(u) b( F,l(u) ) du, o fi , l , , b ou on a pose = - -. f

La partie tout intégrée est nulle puisque

\:1 u e ]0, 1[, J(u) + J(1 - u) = 0 et f( F- 1 (u) ) = f( F-- 1 (1 - u) ),

d'où

lim ( J(u) f( F- 1 (u) ) ) + lim (J(u) f( F- 1 (u) ) ) = O. U

O+ u
l

130

IV. PROBLEMES A DEUX ECHANTILLONS

Une application de l'inégalité de Cauchy-Schwarz nous permet alors


d'écrire que

111 A 2

f p(u) du f b 2 ( p-l(u) ) du = f b 2 ( p-l(u) ) du. 000

Le maximum de A est atteint si l'égalité est réalisée, c'est-à-dire si et


seulement s'il existe un nombre réel k tel que

f' J = k b(p-1) = - k - 0 F- 1 . f

On en déduit que le test défini par la fonction score

f' -1 J=--oF f
est AMP, la croissance de la fonction J découlant du fait que la loi F
est fortement f' unimodale (- - est une fonction croissante). On a
bien, également, f

\:1 u e ]0, 1 [,

J(u) + J(1 - u) = 0,

puisque F appartient à "s.

Exercice VI.2. Calculer les efficacités des tests décrits dans la


section VI.2, ainsi que celle du test de Student. Pour le test de
Student, on se reportera au théorème V.2.4 (voir remarque V.2.8) et
on utilisera le fait que

n21

- 2 Sn (Y) = - £.J (y. - Y n) n . 1 J J= convergent en probabilité vers la


variance V F de la loi P lorsque m et n deviennent infinis.

n21

- 2 Sm (X) = - £.J (Xi - X m ) m i=1

et
Sauf pour le test de Student qui n'est pas un test de rang, nous
utiliserons la relation (VI. 1 ) écrite avec le dénominateur de la
relation (VI.2), c'est-à-dire sous la forme

131

IV. PROBLEMES A DEUX ECHANTILLONS

22[f

- J'( F(x» f(x) dx ] c = À (1 - À) 1 [ 1 ] 2 .

J2(u) du -

}(u) du

Test de la médiane

La fonction score J = 11 ] 1/2, 1 [ de ce test ne vérifie pas 1


'hypothèse II. On peut, néanmoins, adopter

1 J = 11 ]ll2.l[ + 2 11 (l12)
de façon à avoir

1 \:1 u E ]0, 1[, J(u) + J(l - u) = 2 J(-), 2

mais les hypothèses du théorème V.1.l ne pourront être vérifiées (1


n'est pas continue 1 en -). Admettons néanmoins que la relation
(VI.l) soit encore applicable, comme le 2

montrerait une étude détaillée des démonstrations des théorèmes


invoqués, à condition d'écrire son numérateur sous la forme

2[f

-f(X) dJ( F(x) )] .

Puisque

1 1 . 1 f J\u) du = f J\u) du = f du = 2. o 1/2 1/2 2

et que

+00 f f(x) dJ( F(x) ) = f(O),


-00

on obtient

c 2 = 4 À (1 - À) f2 (0).

132

IV. PROBLEMES A DEUX ECHANTll..LONS

Test de Wilcoxon ou de Mann-Whitney

On a J(u) = u, d'où

2 c 2 = 12 À ( 1 - À) [ J

- r(x) dx ] ·

Tests de Fisher-Yates et de van der Waerden


La fonction J =

-1 est la fonction score du test de van der Waerden et la fonction


score limite du test de Fisher- Yates. Nous avons donc, pour ces
deux tests,

1 1 +00 +00 f J(u) du = f <11,1 (u) du = f x d<ll(x) = f x <p(x) dx = 0, o


0 -00 -00

où <p désigne la dérivée de

, c'est-à-dire la densité de la loi eN (0, 1). De même, on a

1 +00 f J2(u) du = f x 2 <p(x) dx = 1, o -00

d'où

2 c 2 = À (1 - À) [ J

-( <11-\ (F(x» r(x) dx ] [ f + 00 f(x) ] 2 = À (1 - À) 1 dx. - 00 <p(

(F(x»)

Test de G astwirth
1 On a, pour tout élément p de ]0, -[, 2

{ u - P Jp(u) = 0 u-(I-p)

si 0 < u

p, si P

1 - p, si 1 - P

u < 1,

133

IV. PROBLEMES A DEUX ECHANTILLONS

donc

1 f Vu) du = 0 o

et
f I 2 f 1/2 2 f p 2 2 3 P 2 3 Jp(U) du = 2 Jp(u) du = 2 (u - p) du = - [ (u
- p) ] 0 = - p . o 0 0 33

D'autre part

J'p = 11 ]O,p[ + 11 ]1-p,l[ ,

d'où

-1

fP

f J'( F(x) ) f(x) dx = f(x) dx + J f(x) dx.

p-l(l_p)

On en déduit [ -1 ] 2 P (p) + 00 c 2 = 2 33 f f(x) dx + f f(x) dx . p - 00


p-1(1_p)

On remarque que si, de plus, F appartient à "s, les deux intégrales


ci-dessus sont égales puisque f est paire et F- 1 ( p) et p-l( 1 - p)
opposés. Dans ce cas, on a
2 6 c - p3

[ p-1() ] 2 f

P f(x) dx .

Test de Student

Considérons le test de Student pour tester 1 'hypothèse "Jl = 0"


contre l'hypothèse: "Jl > 0". D'après 1.1, il est défini par la statistique

TN=

--Xm-ynmS

(X) + n S

(Y) m.In. m+n-2 mn

Comme ce n'est pas un test de rang, nous ne pouvons utiliser la


relation (VI.!), mais nous pouvons utiliser le résultat du théorème
V.2.4, d'après la remarque V.2.8. Pour cela, déterminons
134

IV. PROBLEMES A DEUX ECHANTILLONS

c= lim N-+too

dlE(TN) dJl

= 0 j NVo(T N ) ,

m en supposant encore que - a pour limite À, avec À E ]0, 1[. N On


sait que S

(X) et S

(Y) convergent en probabilité vers la variance Vp de la loi F lorsque


m et n deviennent infinis et l'on a donc

2 2 m Sm(X) + n Sn(Y) m +n

2 (m + n) V p

N V p V p =- l'V , m n N-+too N À (1 - À)
m +n - 2

l'V m n N-+too (m + n) m n

d'où

E(TN) N

YN

À(l-À) N---H«» Vp

et

dIE (T N ) . _ / À (1 - À) l'V m

V . dJl N-+too P

=o

D'autre part, on a

_ _ V p V p NV p Vo(X m - Y n ) =- +-=- m n mn
d"où

lim VO(T N ) = 1 N-H-oo

et on en déduit

À(l-À) c - Vp'

Exercice VI.3. Démonstration du théorème VI.3.2 On considère le


modèle de localisation pour deux échantillons (1.3. cJj s) que l'on
restreint aux lois qui admettent un moment d'ordre deux. Supposons
que les hypothèses 1 et Il de la section VI soient vérifiées et que la
dérivée de (

-1 0 F) soit bornée au voisinage de l'infini. On veut tester l'


hypothèse "Jl = 0" contre l' hypothèse "Jl * 0" et l'on considère les
statistiques

et T N de van der Waerden et de Student respectivement.

135

IV. PROBLEMES A DEUX ECHANTILLONS


On se propose de montrer que

ep(VD, T)

et que ep(VD, T) = 1 si et seulement si F est une loi normale. 1) Soit


X une variable aléatoire telle que P(X > 0) = 1 et que IE(X) et
1E(1/X) existent. Montrer, grâce à l'inégalité de Cauchy-Schwarz,
que

lE (X) lE (1/X)

et que lE (X) lE (1/X) = 1 si et seulement si X suit une loi de Dirac.


Peut -on encore considérer que l'inégalité ci-dessus est vérifiée si
l'une, au moins, des deux espérances n'existe pas ? 2) Déterminer
ep(VD, T) et déduire du résultat de la question 1 que

-2 ep(VD, 1)

Vp[J

q>(

-\ F(x» ) dx ] .
Montrer, grâce à une intégration par parties et à une application de
l'inégalité de Cauchy-Schwarz, que l'on a

ep(VD, T)

1.

On sera amené à utiliser les résultats des exercices 1 et 3 chap. 1. 3


) Montrer que l'on a

ep(VD, T) = 1

si et seulement si F est une loi normale.

1) On sait que, si U et V sont deux variables aléatoires qui


possèdent des moments d'ordre deux, on a

[ IE(UV) ]2

1E(U2) 1E(V2),

l'égalité étant vérifiée si et seulement s'.il existe (a, b) * (0, 0) tel que
P(a U + b V = 0) = 1.

Il suffit alors de prendre U = Xll2 et V = X-l12 pour obtenir l'inégalité


demandée. Pour que l'on ait IE(X) 1E(1/X) = 1, il faut et il suffit qu'il
existe (a, b) * (0, 0) tel que

136

IV. PROBLEMES A DEUX ECHANTll..LONS

P(a X1/2 + b X-112 = 0) = 1,

soit

P(a X + b = 0) = 1

ou, encore,

b P(X = - -) = 1, a
puisque a * 0 (a = 0 implique b = 0, ce qui est exclu). Il s'agit bien du
cas où X suit une loi de Dirac. Puisque P(X > 0) = 1, on ne peut avoir
IE(X) = 0 ou 1E(1/X) = O. Si l'une, au moins, des espérances
n'existe pas, on peut dire qu'elle est infinie et que le produit est infini,
donc supérieur à 1. Remarquons qu'il est possible que IE(X) et
1E(1/X) soient toutes les deux infinies, par exemple si X admet pour
densité la fonction (1 + . f2111R + (.) .

2) On sait que

2 Cvo ep(VD, T) = 2' Cr

où c YD et c T désignent les efficacités respectives des tests de van


der Waerden et de Student. D'après les résultats de l'exercice VI.2,
on a donc

[f + 00 r(x) J 2 ep(VD, T) = V p -1 dx . - 00 <p(

(F(x»)

Si l'on considère une variable aléatoire X de loi F et si l'on pose

y= -1 <p( <1> (F(X»)

f(X)
on a

P(Y > 0) = 1

et

f f(x) E(Y)= +- 1 dx. _ <p( <1> (F(x»)

137

IV. PROBLEMES A DEUX ECHANTILLONS

On peut alors appliquer le résultat de la question 1 et l'on a

1 IE(Y)

= 1E(1/Y) f +oo <p( <1>-1 ( F(x) ) ) dx

1
-00

d'où

2 eF(VD, T)

VF[f

- Ip( cI>'\ F (x) » dX] .

Sous réserve de l'existence des quantités écrites, effectuons une


intégration par parties. On obtient

r- 1p(cI>'l (F(x))) dx =

+00 [ x 1p(cI>'\F(x») J: - f x 1p'(cI>'\F (x))) (cI>'\ (F(x» f(x) dx

-00

+00 = [x 1p(cI>'l (F(x») J: + f x cI>'l (F(x» f(x) dx .

puisque
-1 1 (<1> )'(u) = -1 <p( <1> (u»

et

<p'(t) -=-t. <p(t)

Montrons que la partie tout intégrée est nulle. Comme l'expression


entre crochets est une fonction impaire de x, nous n'étudions sa
limite que pour x tendant vers +00. D'après l'exercice 3 chap. 1, on
sait que

-1 -1 -1 <1> (F(x») 2 x <p( <1> (F(x»)) l'v X <1> (F(x)) ( 1 - F(x) ) = x


(1 - F(x) ). x 4 + 00 X

Puisque F admet un moment d'ordre deux, on a (voir exercice 1


chap. 1)

lim (x 2 ( 1 - F(x) ) ) = 0

n ---7+00

-1 (<1> -1 0 F) d '" " b " . . d 1 ' . f . . l , . cI> (F ( x ) ) et, puisque a


une envee ornee au vOIsInage e ln lnl, expreSSIon
x

est également bornée au voisinage de l'infini. En effet

]38

IV. PROBLEMES A DEUX ECHANTILLONS

3 M > 0, 3 a > 0, ( x

a)

( (<1>-1 0 F)'(x)

M ),

d'où

\:1 x

a, <I>-l( F(x) ) - <I>-l( F(a) )

M (x - a),
soit

-1 -1 -1 <1> (F(x» <1> (F(a» M (x-a) <1> (F(a»

+ M. x x x a

On obtient donc

-2 eF(VD, 1) ;2 V F [ f: x 11>'\ F(x) ) f(x) dx ] .

Enfm, une application de l'inégalité de Cauchy-Schwarz nous montre


que

2 2 [f: x 11>,1 (F(x) ) f(x) dx ] = [f:(x ./ f(x) ) [ 11>,1 (F(x) ) ./ f(x) ] dx ]


+00 f +oo 2 -1 2

f x f(x) dx (II> (F(x» f(x) dx .

-00

-00
Or

+00 f x 2 f(x) dx = V F

_00

et

f +oo 1 f +oo -1 2 -1 2 2 [II> (F(x»] f(x) dx = f [II> (u)] du = t q>(t) dt =


1, -00 0 _00

d'où

2 [f

x 11>'\ F(x) ) f(x) dx ]:5; V F

et

ep(VD, T)

1.
139

IV. PROBLEMES A DEUX ECHANTILLONS

3) Pour avoir ep(VD, T) = 1, il faut et il suffit que la première inégalité


démontrée à la question 2 et celle obtenue en appliquant l'inégalité
de Cauchy-Schwarz soient des égalités, c'est-à-dire que

. la fonction

f(.) -1 <p( <1> (F(.»)

soit constante sur le support de F,

. il existe k (k E IR) tel que

\:1 x E IR,

-1 <1> (F(x» ../ f(x) = k x ../ f(x) .

La deuxième condition s'écrit


F(x) = <I>(k x),

ce qui signifie que F est une loi normale. On vérifie que la première
condition est alors satisfaite, puisque

f(x) = k <p(k x),

d'où

(X) = k q>(kx) = k. <p( <1> (F(x») <p(kx)

On a donc eF(VD, T) = 1 si et seulement si F est une loi normale.

1 Exercice VI.4. Montrer qu'il existe unefonction 'Y positive et


croissante sur ]-, 1[ 2 telle que, si <1> désigne lafonction de
répartition de la loi cH (0, 1), on ait

1 \:1 u E ]-, 1[, <I>-I(u) = u y(u). 2


1 Pour tout élément u de ]-, 1[, on pose 2

-1 <1> (u) -y(u) = . u

140

IV. PROBLEMES A DEUX ECHANTD...LONS

1 La fonction y est évidemment positive sur ]-, 1[ et, pour montrer


qu'elle est 2 croissante sur cet intervalle, on montre que la fonction y
0 cIJ est croissante sur ]0, +00[. On a

x (y 0 cIJ)(x) = y ( cIJ(x) ) = -. cIJ(x)

cIJ(x) Posons 'l'(x) = - et montrons que 'l'est décroissante sur ]0,


+00[. On a, en x désignant par <p la densité de la loi .N (0, 1),

<p(x) cIJ(x) x <p(x) - cIJ(x) 'l''(x) = - -

=2xxx

Or, si l'on pose


g(x) = x <p(x) - cIJ(x),

1 on a g(O) = - - < ° et g'(x) = x <p'(x) < 0 sur IR+. On en déduit que


g(x), donc 'l''(x), 2 est négative sur ]0, +00 [ .

Exercice VI.S

Question préliminaire. Soient XI,..., X n un échantillon d'une loi F


continue et X(1.n),... , X(n,n) l'échantillon ordonné associé. Etant
donné un élément Â. de l'intervalle ]0, 1 [, on définit la suite (r(n); n E
lN.} par r(n) = I[Â. n]l et l'on considère les statistiques 1 r(n) A (Â.) = -
L X ( ' ) n I,n r(n) i= 1

et

1 n Bn(Â.) = - L X(i n)' r(n) i=n-r(n)+ 1 ·

On admet (cela peut s'établir, par exemple, à partir du théorème


111.3.9 chap.ll) que ces statistiques convergent en loi
respectivement vers les lois de Dirac en a(À) et b(Â.) définis par

Â. I P - 1 (Â.) 111 a(À) = -1 F' (u) du = - x dF(x) Â. 0 Â. ..00


et

f I I +oo 1 -1 1 b(À) = i F (u) du = i l-Â. p- 1 (1-Â.)

x dF(x) .

141

IV. PROBLEMES A DEUX ECHANTILLONS

Quelle relation lie a(Â.) et b(Â.) lorsque F appartient à "s? Calculer


a(À) et b(À) lorsque la loi F est a) la loi .N (0, 1), b) la loi

(0, 1), 1 c) la loi S)e(O, 1), en se limitant ici au cas où À

-. 2

Soient les 20 données suivantes - 1.352 - 0.664 - 0.521 - 0.208 -


0.152 - 0.054 0.194 0.256 0.431 0.601 et - 0.241 - 0.103 0.312 0.401
0.461 0.624 0.652 0.714 0.731 5.523.

On suppose que les 10 premières sont les réalisations d'un


échantillon d'une loi F qui appartient à "s et les 10 autres les
réalisations d'un échantillon d'une loi F

définie par

\:1 XE IR,

(x) = F(x - Jl).

On veut tester au seuil a = 0.03 l' hypothèse Ho: "Jl = 0" contre l'
hypothèse RI: "Jl > 0". 1) Quelles conclusions obtient-on en
effectuant le test de la médiane et celui de Wilcoxon ? 2) a) A quelle
conclusion conduit le test de Student ? b) Cette conclusion est-elle
modifiée si l'on remplace la dernière donnée (5.523) par 1.200?
Quelle remarque inspire le résultat obtenu? 3) Pour choisir un test
de rang le plus adapté qui soit aux données du problème, on peut
proposer la méthode suivante. a) On considère la statistique RN de
Hoog (Hoog (1974)) définie par

B N (0.2) - A N (0.2) R N = B N (0.5) - A N (0.5)

dont on sait, d'après la question préliminaire, qu'elle tend en loi, sous


l' hypothèse Ho, vers une loi de Dirac en un point h(F) que l'on
précisera. Déterminer la valeur de h(F) lorsque F est l'une des trois
lois classiques proposées à la question préliminaire.
142

IV. PROBLEMES A DEUX ECHANTILLONS

b) Calculer la valeur h20 prise par la statistique HN pour les données


de l'énoncé. Quelle est, parmi les trois lois considérées, celle pour
laquelle h(F) est le plus proche de h20? Lequel des deux tests
proposés à la question 1 parait alors le mieux adapté aux données?
Quel intérêt présente la statistique de Hoog ?

Question préliminaire. Lorsque la loi F appartient à "s, on a, par


raison de symétrie, a(À) + b(À) = O. Pour l'établir de façon
rigoureuse, il suffit de poser y = -x dans la deuxième intégrale qui
définit b(À). On a alors, en tenant compte de la relation F(x) + F(y) =
1,

J - f -F-1(l- '\) b(Â.) =

y dF(y) = -

II. Y dF(y). _F- 1 (1-Â.) ..00

Si l'ensemble (x; P(x) = À} est réduit à un point, on a P- 1 (1 - À) =


_P- 1 (À) et, donc, b(Â.) = -a(À). Sinon, cet ensemble est un
intervalle et F- 1 (1 - À) et _P- 1 (À) ne sont pas égaux. Mais, la
fonction F étant constante sur J'intervalle [-F- 1 (1 - À), F- 1 (Â.)],
on a

f F - 1 (Â.) Y dF(y) = 0 -1 '\ -F (1-1\.)

et, donc, encore b(À) = -a(À).

Remarque. On a également a(À) = IE( X 1 X

F1( À) ) et b(À) = IE( X 1 X

P- 1 (1 - À) ) puisque, par exemple, si c est tel que F( c) * 0, la loi de


X sachant X

c admet pour fonction de répartition

F(x) x

-11 ] [ (x) + 11 [ [ (x). F(c) -oo,c c.

On a donc

c IE(X 1 X

c) =

f x dF(x). F (c) ..00


Calculons seulement a(À) dans les trois cas proposés puisque, dans
chacun de ces cas, on a b(À) = -a(À).

143

IV. PROBLEMES A DEUX ECHANTILLONS

a) En désignant par

la fonction de répartition de la loi .N (0, 1), on a

f cl>-l (À.) f cl>-1 (À.) x2 1 -1 2 1 1 1 2 1 - 2 (ci> (À.» a(À) = i x d

(x) = i - x e dx = - e -00 -00 J2;c À J2;c

b) Si la loi F est la loi

(0, 1), on a (voir exercice 6 chap. 1)

x e F(x) = - et eX + 1

-1 À F (Â.) = Log-. 1 - À

En écrivant que
J x dF(x) = x F(x) - J F(x) dx = x F(x) - Log(e x + 1),

on obtient 1 [ -1 ( À J] À 1 a(À) = - À F (À) - Log - + 1 = Log - + -


Log(1 - À). Â. l-À l-À Â.

c) Si la loi F est la loi S)e (0, 1), on a (voir exercice 7 chap. 1)

1 X F(x) = - e 2

si x

et

p-l(À) = Log(2À)

1 si À

-, 2

d'où, si
1 '\ <- 1\.- , 2 Log (2À.) 1 f il Log(2À.) a(Â.) = - - x eX dx = - [xe X -
eX] = Log(2Â.) - 1. Â. 2 2Â.

-00

1) En adoptant les notations du chapitre IV du tome 1, on a m = n =


10 et N = 20. On vérifie, de plus, que les rangs Ri prennent les
valeurs

4, 7, 11, 12, 14, 16, 17, 18, 19 et 20

N + 1 dont 8 sont supérieures à - = 10.5. La valeur prise par la


statistique MN est donc 2 égale à 8. Au seuil 0.03, nous acceptons
l'hypothèse Ho si

144

IV. PROBLEMES A DEUX ECHANTll...LONS

P o(MN

8)
0.03.

Or, d'après le théorème IV. 1.3, la statistique MN suit la loi 'ae(10;


10,10). On a donc (voir exercice 4 chap. 1)

8 -2 9 1 10 0 CIO Cio + CIO CIO + CIO CIO Po (MN

8) = 10 C20

2126 = 184 756 = 0.0115.

Le test de la médiane conduit donc à rejeter l'hypothèse Ho au seuil


0.03.

Pour le test de Wilcoxon, considérons plutôt la statistique UN de


Mann-Whitney pour laquelle nous disposons d'une table. Puisque

n UN = L Ri _ n (n + 1) , i=l 2

la valeur prise par UN est ici égale à 93 (= 138 - 45). Au seuil 0.03,
nous acceptons l'hypothèse Ho si

Po(UN
93)

0.03.

Or, d'après la table F du tome 1 et en tenant compte de la symétrie


de la loi de UN,

on a

Po(UN

93) = Po(UN

7) = 0.0002,

ce qui conduit encore à rejeter 1 'hypothèse Ho.

2) a) On peut définir la statistique T N de Student, avec des


notations classiques (voir, par exemple, l'exercice VI.2), par

TN=

Yn-X m m S

(X) + n S
(Y) m + n m+n-2 mn

La région critique, pour tester l'hypothèse Ho contre l'hypothèse H},


est de la fonne {TN

ca} et, sous l'hypothèse Ho, la statistique TN suit la loi :J't (N - 2).
Les valeurs prises par les moyennes et les variances empiriques des
deux échantillons sont ici

145

IV. PROBLEMES A DEUX ECHANTILLONS

X n = - 0.1469, Ym = 0.9074,

(X) = 0.3044 et s

(Y) = 2.24667,

d'où l'on en déduit que la statistique TN prend la valeur 1.900. Au


seuil 0.03, nous acceptons l'hypothèse Ho si

Po(TN

1,9)

0.03.
La consultation d'une table de la loi :ft (18) montre que

Po(TN

1,9)

0.037.

Nous sommes donc conduits à accepter l'hypothèse Ho.

b) Seules les valeurs correspondant au deuxième échantillon sont


modifiées et

l'on a

Ym = 0.4751 et s

(Y) = 0.1581,

d'où la valeur 4.200 prise par la statistique TN. On a alors

Po(TN

4.2) < 0.002


et nous sommes donc conduits à rejeter l'hypothèse Ho.

Ce résultat est assez paradoxal car, en diminuant la dernière


donnée, il nous semble que nous "rapprochons" le second
échantillon du premier et que nous devrions donc confirmer
l'acceptation de 1 'hypothèse Ho. On peut remarquer que la
modification introduite ne change en rien les valeurs prises par les
statistiques MN et UN et, donc, les conclusions des tests
correspondants.

Toutefois, nous pouvons expliquer ce paradoxe en introduisant la


notion de monotonie d'un test, notion étudiée à l'exercice III.5 chap.
V en ce qui concerne les problèmes à un échantillon. On laisse au
lecteur le soin de définir de façon analogue cette monotonie pour les
problèmes à deux échantillons et de vérifier que les tests de la
médiane et de Wilcoxon sont monotones, tandis que celui de
Student ne l'est pas, comme nous le prouve l'exemple numérique ci-
dessus.

3) a) D'après le résultat de la question préliminaire, la limite en loi de


la statistique HN est la loi de Dirac en h(F) défini par

b(0.2) - a(0.2) h(F) = . b(0.5) - a(0.5)

146
IV. PROBLEMES A DEUX ECHANTILLONS

Lorsque la loi F appartient à "s, ce qui. est le cas des trois lois
considérées, on a

a(O.2) h(F) = , a(O.5)

ce qui conduit aux résultats suivants que l'on obtient aisément.

Si F = eN (0, 1), Si F = :;E (0, 1), Si F = me(O, 1),

h(F) = 1.76. h(F) = 1.81. h(F) = 1.92.

b) On a ici

b 20 (0.2) -

o(0.2) h 20 = b 2o (0.5) - a 2o (0.5)

où a2o(0.2) et a2o(0.5) désignent respectivement la moyenne des 4


et des 10 plus petites données, b2o(0.2) et b20(0.5) correspondant,
de même, aux plus grandes données. On obtient
1.905 + 0.6945 h 20 = = 1.96. 1.045 + 0.2845

Panni les trois lois proposées, c'est la loi double exponentielle qui
donne la valeur de h(F) la plus proche de h20. Nous sommes aJors
amenés à penser que le test le mieux adapté aux données du
problème est celui de la médiane puisque l'on sait (voir VL2 du tome
1) qu'il est AMP pour la loi double exponentielle.

La statistique de Hoog présente d'abord l'intérêt d'être indépendante


du paramètre de localisation-échelle, ce qui justifie que nous nous
soyons limités, pour le calcul de h(F), aux lois nonnale, logistique et
double exponentielle de paramètre (0, 1).

De plus, la statistique de Hoog tient largement compte des données


extrêines et permet donc d' éval uer le poids des queues de la loi F
sans qu'on connaisse celle-ci. En particulier, dans le cas présent,
nous remarquons le caractère aberrant de la donnée 5.523, ce qui
nous amène à penser que la loi F a des queues lourdes. Il n'est
donc pas étonnant que ce soit la loi double exponentielle qui
paraisse la plus proche de la loi F inconnue, puisque c'est, panni les
trois lois considérées, celle qui a les queues les plus lourdes pour le
préordre de van Zwet et, donc, également pour le préordre de
Lawrence (voir exercice V.l chap. II).

147

IV. PROBLEMES A DEUX ECHANTILLONS


Remarque. Il peut paraître' étonnant que l'on considère les N
observations, et pas seulement les m premières qui sont relatives à
la loi F, pour chercher le test le plus adéquat. En fait, cela n'est
guère choquant si l'on admet que Il n'est pas très éloigné de O.
Mais, surtout, ce choix est justifié par le fait que, sous l'hypothèse
Ho, la statistique (S(.), R(.» constituée par les rangs des N
observations lorsqu'elles sont ordonnées toutes ensemble ne
dépend pas de la loi F, du moment que celle-ci appartient à "
(théorème 1.2.1 démontré à l'exercice 1.1). La statistique de Hoog
est donc une statistique de rang au sens où on l'a enten4u dans la
définition 1.2.2. Il s'ensuit, rappelons-le, que le seuil d'un test
construit à partir d'une telle statistique ne dépend pas de la loi F.
Enfin, le lecteur intéressé par quelques développements théoriques
consultera avec profit le chapitre vrn de Hajek (1969).

Exercice VII.I. On se propose de déterminer l'estimateur de Hodges-


Lehmann du paramètre Il de translation (voir définition VII.2.2) déduit
du test de la médiane dont la statistique MN est définie par

N1

N+l MN = - £.J 11 (i - -) Zi' n i=l JO,

[2

1) Déterminer cet estimateur lorsque N est pair. Il est conseillé de


commencer par le cas où m et n sont impairs. 2) On se place dans le
cas où N est impair. Proposer une statistique Mt N' légèrement
différente de la statistique MN' qui tienne compte du fait que l'on
peut avoir
N+l 1=

1 et qui réalise lEo(M ' N ) = -. 2

Déterminer l'estimateur de Hodges-Lehmann déduit de cette


statistique.

1) Supposons N pair. On sait (théorème IV. 1.3) que

1 Mo = IE(}(M N ) = - 2

et que

1 n N+l MN = - L 11 JO [ (R U) - -). n j=l'

Etant donné la réalisation (x(l),..., X(m» et (Y(1), ... , Y(n» des deux
échantillons ordonnés, on considère la fonction t N définie par
148

IV. PROBLEMES A DEUX ECHANTILLONS

N+l t N (J.1) = - £.J 11 ]0,+00[( r(j)(J.1) - ), n j=l 2

où r(j)(J.1) désigne le rang de Y(j) - J.1 lorsqu'on ordonne les N


nombres X(l), ... , x(m), Y(l) - J.1, ... , Y(n) - J.1. On détennine les
nombres J.1N. et J.1N.. définis par

1 J.1N. = sup (J.1 ; t N (J.1) > - } 2

1 et J.1N.. = inf (J.1 ; t N (J.1) < - } 2

et l' estimateur J.1N cherché est défini par

'- 1 J.1N = - (J.1N. + J.1N ..). 2

. Supposons d'abord que m et n sont impairs et posons


m=2p+l

et

n=2q+1.

1 Pour avoir t N (J.1) > -, il faut et il suffit que 2

n N+l L 11 ]0,+00[( r(j)(J.1) - )

q + 1, j=l 2

soit

N + 1 3 r(q+1)(J.1) > = p + q + -. 2 2

Si l'on désigne par Â. le nombre d'éléments X(i) qui sont inférieurs à


Y(q+1) - J.1, cette condition s'écrit

q + 1 + À > p + q + 1, À> p,
ce qui équivaut à

X(p+l) < Y(q+1) - J.1,

J.1 < Y(q+1) - X(P+l) = Y - x,

d'où

. - - J.1N = Y-X.

149

IV. PROBLEMES A DEUX ECHANTILLONS

1 De même, pour avoir t N (Jl) < -, il faut et il suffit que 2

N+l r(q+l)(J..l) < 2

3 = p + q + -, 2
soit

N + 1 r(q+l)(Jl) < 2

q+1+À

p + q + 1, À

p,

ce qui équivaut à

X(p+1) > Y(q+1) - Jl,

Jl > y - x,

d'où

JlN ** = f - x.

On en déduit
JlN = y-x.

. Supposons maintenant que m et n sont pairs et posons

m =2 P et n = 2 q.

En raisonnant comme ci-dessus, on obtient

N+l ( tN(Jl) > -) Ç:) (£.J 11 ]0,+00[( rU)(Jl) - )

q + 1 ) 2 j=l 2

N + 1 Ç:) (r(q)(Jl) > ) 2 Ç:) (r(q)(Jl)

p+q+1)

Ç:) (q+À

p+q+l)

<=> (À

p + 1 ),
où À désigne maintenant le nombre d'éléments X(i) qui sont
inférieurs à Y(q) - Jl. On obtient donc

150

IV. PROBLEMES A DEUX ECHANTILLONS

1 ( tN(Jl) > -) (:::) (X(p+1) < Y(q) - Jl ) 2

(:::) (Jl < Y(q) - X(p+ 1) ),

d'où

JlN'" = Y(q) - X(p+1)'

De même, on a

n1

N+l ( tN(Jl) < -) (:::) (£.J 11 ]0,+00[( r(j)(Jl) - )

q + 1 ) 2 j=l 2
N+l (:::) (r(q+1)(Jl) < ) 2 (:::) (r(q+1)(Jl)

P+q)

(:::) (q+l+Â

p+q)

(:::) (Â

p - 1 ),

où Â désigne ici le nombre d'éléments X(i) qui sont inférieurs à


Y(q+1) - J.!. On obtient donc

1 ( tN(Jl) < -) (:::) ( X(p) > Y(q+1) - Jl ) 2

(:::) ( Jl > Y(q+1) - x(p) ),

d'où

JlN"'''' = Y(q+1) - x(P).


On en déduit

1 Y(q) + Y(q+1) X(p) + X(p+1) JlN = - (Jl ... + Jl ......) = 2 N N 2 2

On trouve encore

JlN = f - x.

2) Supposons N impair. On sait (théorème IV. 1.3) que

N - 1 Mo = lEo(M N ) = - . 2N

151

IV. PROBLEMES A DEUX ECHANTILLONS

Pour tenir compte de la possibilité d'avoir 1 =

N+l 2
posons (voir

remarque IV. 1.5)

n1

N+l 1 N+l M'N = - £.J [11 ]0,+00[( i - ) + - 11 (O)( i - )] Zi. n i=l 2 2 2

On a alors (théorème 111.1.1)

n1

N+l1 N+l M'o = IEO(M'N) = - £.J [11 ]0,+00[( i - ) + -11 (O)( i - ) ] N i=l
222

1 N-l 1 1 =-(-+-)=-. N 2 2 2

Remarquons que, si N est pair, on a M'N = MN' puisqu'on ne peut


alors avoir

N+l

1=
2

En raisonnant comme à la question 1 (on laisse au lecteur le soin


d'écrire les équivalences), on peut montrer que

. si m est pair (et n impair), soit m = 2 p, on a

* - t **- J..LN = Y - X(P+l) e J..LN = Y - x(p),

. si n est pair (et m impair), soit n = 2 q, on a

* - ** - J..LN = Y(q) - x et J..LN = Y(q+l) - X.

Dans les deux cas, on obtient donc encore ici

J..LN = y -x.

Exercice VII.2. Avec les données de l'exemple VII.2.7, déterminer


l'estimation du paramètre de translation J..L déduite de la statistique
de van der Waerden. On pourra utiliser la table 9 (p. 168 du tome 1)
.
TI nous faut chercher, dans la table 9, les valeurs J..LN* et J..LN**
définies par

152

IV. PROBLEMES A DEUX ECHANTILLONS

JlN. = sup {Jl ; VD N (Jl) > O} JlN.. = inf {Jl; VDN(Jl) < O}.

Or, la plus petite valeur positive de 8VD N (Jl) est 0.01 et elle est
prise lorque Jl est juste plus grand que 1.49 (X(i) = 1.07 et YU) =
2.56). La plus grande valeur négative de 8VD N (Jl) est -0.36 et elle
est prise lorsque Jl est juste plus grand que 1.54 (x(i) = 1.75 et YU) =
-0.21). On a donc

JlN. = JlN.. = 1.54

et cette valeur est l'estimation cherchée.

Exercice VII.3. Démonstration du théorème VII.2.1 On considère le


modèle de localisation pour deux échantillons (1.3. Gj s)' Soit TN
une statistique linéaire de rang dont la fonction score J vérifie
\:1 u e ]0,1[,

1 JN (u) + JN (1 - u) = 2 JN (-) . 2

Montrer que la loi de l'estimateur de Hodges-Lehmann du paramètre


Jl est symétrique par rapport à Jl.

Etant donné un nombre réel Jlo, on considère les échantillons


indépendants Xl, ... , X m et YI,".' y n de la loi F et de la loi F

o respectivement, où F appartient à "s et où F

o est définie par

\:1 x e rR,

o (x) = F(x - Jlo).

On se propose de montrer que la loi de l'estimateur JlN de Hodges-


Lehmann (voir définition VII.2.2) est symétrique par rapport à Jlo, ou
encore que JlN et 2Jlo - JlN ont la même loi. Remarquons bien que
l'on considère ici JlN comme une variable aléatoire, c'est- à-dire
comme une fonction des Xi et des Yj. Pour des raisons de
commodité, 'JlN désignera à la fois cette variable aléatoire et sa
réalisation. Il en sera de même pour JlN. et Jl .. N .

Puisque F appartient à "s, une variable aléatoire X de loi F a la


même loi que -x et, de même, une variable aléatoire Y de loi F

o a la même loi que 2Jlo - Y. Si nous posons

\:1 i e {l,..., m}, X' i = - Xi , \:1 j e {l,..., n}, Y'j = 2 Jlo - y j ,

153

IV. PROBLEMES A DEUX ECHANTILLONS

X' 1, ... , X'm et Y'l, ... , Y'n sont encore deux échantillons
indépendants des lois F et Fllo respectivement. Ceci nous permet
d'afftrmer que leurs estimateurs de Hodges-Lehmann ,...., ,...-., J.!N
et J.!'N ont la même loi. Désignant par des lettres minuscules les
réalisations de ces échantillons, on définit les fonctions t N et t ' N
par

r j (J.!) tN(J.!) = -

JI'l - ), n j=l N + 1 , 1
r ' j (Ji) tN(J.!) = -

JN( -), n j= 1 N + 1

où riJ.!) désigne le rang de Yj - J.! lorsq u ' on ordonne les N


nombres Xl,..., X m , YI - J.!, ... , Yn - Ji et r'iJ.!) le rang de y'j - J.!
lorsqu'on ordonne les nombres XiI, ... , x ' m , Y'1 - J.!, ... , y'n - J.!
qui sont respectivement égaux à -Xl,..., -x m , 2J.!o - J.! - YI, ... ,
2J.!o - J.! - Yn, c'est-à-dire à -Xl,..., -X m , - (YI - (2Jio - J.! », ... , - (
Yn - ( 2J.1o - J.! )). On en déduit

r'iJ.!) = N + 1 - rj(2J.1o - J.!)

puisque, si N nombres réels sont changés en leurs opposés, le rang


r de chacun d'eux devient N + 1 - r. D'où

1 n r. (2J.! - J.!) t'N(Ji) = - L J N ( 1 _ JO ) n j=l N + 1 1

1 r j (2J.!o - J.!) = - £.J ( 2 J( - ) - J N ( ) ) n j=l 2 N + 1 1 = 2 J( - ) -


tN(2

- J.!) 2 = 2 Mo - tN(2

- J.!),

puisque, d'après le théorème 111.1.1, on a


1 N i Mo = lEo(T N ) = - LJ N ( -) N i=l N + 1 N. . 1

1 N+I-I = - £.J ( J N ( -) + J N ( ) ) 2N i= 1 N + 1 N + 1 1 = J(-). 2

154

IV. PROBLEMES A DEUX ECHANTILLONS

On en déduit que

Jl'N* = sup {Jl ; t'N (Jl) < Mo} = sup (Jl ; 2Mo - t N (2flo - Jl) < Mo} =
sup (Jl ; t N (2Jlo - Jl) > Mo} = {Jl ; 2flo - Jl = JlN**}

= 2Jlo - JlN ** .

De même, on a

Jl ' ** - 2Jl Jl * N - 0 - N'

d'où

"-"
Jl'N = 2Jlo - JlN.

Puisque JlN et Jl'N , considérés comme variables aléatoires, ont la


même loi, on en déduit que JlN a même loi que 2fJ<> - JlN , donc
que sa loi est symétrique par rapport à Jlo.

Rappelons que ce résultat permet de conclure que, si l'espérance de


JlN existe, l'estimateur JlN est sans biais, puisqu'on a alors

lE ( JlN ) = 2Jlo - lE ( JlN ) ,

soit

lE ()lN) = Jlo.

Exercice VII.4. Utilisation d'une méthode graphique On se place


dans le cadre du modèle de localisation (1.3."0) et l'on se propose
de trouver une méthode graphique pour estimer le paramètre Jl ou
pour tester l' hypothèse Ho : "Jl = 0" contre l' hypothèse HI : "Jl * 0" à
partir des réalisations xb ... , x m et YI, ... , Yn des deux échantillons.
Pour cela, on considère, dans un repère cartésien, les mn points M ij
de coordonnées Xi et Yj (1

m, 1
j

n). Par chacun de ces points, on mène la droite de coefficient


directeur égal à 1 et l'on désigne par A ij son point d'intersection
avec ['axe des ordonnées. Calculer l'ordonnée aij de chacun des
points A ij et proposer une méthode graphiqu£ pour déterminer la
valeur de l'estimateur de Jl de Hodges - Lehmann associé à la
statistique de Mann - Whitney, ainsi que l'intervalle de confiance
pour Jl de niveau 1 - a (O<a<l).

155

IV. PROBLEMES A DEUX ECHANTILLONS

Déduire de cet intervalle la conclusion du test de niveau a de l'


hypothèse Ho contre l' hypothèse Hl.

La droite de coefficient directeur égal à 1 qui passe par le point Mij a


pour équation

y - Yj = x - Xi,

d'où son ordonnée à l'origine

aij = Yj - Xi.
On sait (voir exemple VII.2.5) que la valeur de l'estimateur de J..L de
Hodges- Lehmann associé à la statistique de Mann-Whitney (ou de
Wilcoxon) est la médiane des mn nombres élïj' Il suffit donc, pour
avoir cette valeur, de considérer les mn points A ij et de déterminer
l'abscisse de leur "point médian". De même, l'intervalle de confiance
pour tl de niveau 1 - a est de la forme [Ô(k+1)' Ô(mn-k)], où Ô(1)'"''
Ô(mn) désignent les mn nombres aij rangés dans l'ordre croissant
(voir remarque VII.3.1). L'entier k est déterminé à partir de la loi de la
statistique UN de Mann-Whitney pour tl = 0 (voir exemple VII.3.2),
cette loi étant tabulée (table F) ou approchée par une loi normale
(théorème IV.2.6). Une fois déterminé cet entier k, il est donc aisé de
"lire" sur le graphique l'intervalle de confiance puisqu'il suffit de
chercher le (k+ 1 )ème point Aij lorsqu'on parcourt l'axe des
ordonnées dans le sens croissant, puis dans le sens décroissant.
Les deux points obtenus ont pour ordonnées respectives Ô(k+l) et
Ô(mn-k)' Enfin, si l'on teste l'hypothèse Ho: "tl = 0" contre
l'hypothèse Hl : "tl * 0" au niveau a, il suffit de déterminer l'intervalle
de confiance ci-dessus de niveau l-a. On accepte l'hypothèse Ho si
le nombre 0 appartient à cet intervalle, c'est-à-dire, graphiquement,
si l'origine se trouve entre les deux points Aij déterminés ci-dessus.
On rejette 1 'hypothèse Ho sinon.

Exercice VIII.I. Démonstration de la relation (VIII.l) Avec les


notations de la section VIII.I et en supposant que les hypothèses 1*
et 11* sont vérifiées, montrer, en s'inspirant de la démonstration du
théorème VI.I.2, que l'efficacité c d'un test de rang de l' hypothèse
Ho: "cr = 1" contre l' hypothèse Hl: "cr > 1" ou "cr < 1" ou "cr * 1"
vérifie la relation

156
IV. PROBLEMES A DEUX ECHANTILLONS

22[f

-X f( F(x) ) r(X) dx ] c = Â. (1 - Â.) 1 [ 1 ] 2 .

p(u) du -

J(u) du

On sait, d'après le théorème V.2.4 et avec les notations de ce


théorème, que l'on a

. Jl'h(N)(9 N ) c= lim N-++oo J'h(N) cr h (N)(9 o )

D'après le théorème V .1.1, on a, pour un paramètre d'échelle,

J +oo X x

(N)(9N) = J( Ân(N) F(x) + (1 - Ân(N» F(-) ) dF(-) . __ 9 N 9 N

Après un changement de variable simple, on peut écrire

+00 1lt,(N)(9 N ) = J J (

(N) F(9 N x) + (1 -
(N» F(x) ) dF(x) .

--

Nous en déduisons, grâce à une dérivation sous l'intégrale justifiée


par les hypothèses,

+00 Il'h(N)(9 N ) =

(N) J f(

(N)F(9Nx) + (1 - Ân(N» F(x) ) x f(9 N x) dF(x),

--

d'où

lim Jl'h(N)(9 N ) = À J +- x J'( F(x) ) r(x) dx. N -++00 --

D'autre part, d'après le corollaire V.1.11 (que nous avons démontré à


l'exercice V.2), on a

157
IV. PROBLEMES A DEUX ECHANTILLONS

[ 1 [ 1 J 2 ] 2 Àh(N) 2 h(N) u h (N)(9 o ) = _ f J (u) du - f J(u) du . 1


Ân(N) 0 0

On en déduit immédiatement la relation cherchée.

Remarque. On peut, plus précisément, écrire que

J +OO C = J ----;;:- x J'( F(x) ) r(x) dx,

-00

où l'on a posé

1[1J2A=

p(u) du -

J(u) du .
La même remarque peut être faite à propos du modèle de
localisation (relation (VI. 1».

Exercice VllI.2. Calculer les efficacités des tests décrits à la section


VIII.2.

Pour tous ces tests, nous utiliserons la relation (VIII. 1 ) établie à 1


'exercice VIII. 1 , à

savolf

2 2 [J

-x J'( F(x» r(x) dx ] c = À (1 - À) 2 . f J2(u) du - [f J(u) du ]

et, pour alléger la notation, nous désignons par A le dénominateur


ci-dessus.

Test de Ansari-Bradley Sa fonction score est définie par

1 J(u) = lu - -1 , 2

158
IV. PROBLEMES A DEUX ECHANTll...LONS

d'où

1 [ 1 ] 2 A=2 f (U-

)2du-4 f (u-

)du 1/2 2 1/2 2

1 - - 48

D'autre part, on a

r(u) = L

si 1/2 < u < 1, si 0 < u < 1/2,

d'où

J +- f F-I(1I2) +- x r( F(x» r(x) dx = - x r(x) dx + f x r(x) dx. -00 -00 p-1


(112)
On en déduit

[ -1 ] 2 F (112) + 00 c 2 = 48 À. (1 - 1..) J x r(x) dx - f x r(x) dx . _00


F- 1 (1/2)

Si, de plus, la loi F appartient à Gj s, on a

2 c 2 = 192 À. (1 - 1..) [ f -x r(x) dX] ·

Test de Mood Sa fonction score est définie par

1 2 J(u) = (u - -) , 2

d'où

1 [ 1 ] 2 A = f (u -

)4 du - f (u -

)2 du o 2 0 2

1 -- 180
159

IV. PROBLEMES A DEUX ECHANTILLONS

Puisque r(u) = 2u - 1, on a

2 c 2 = 180 À (1 - À) [f

-x ( 2 F(x) - 1 ) r(x) d.x ] .

Si, de plus, la loi F appartient à "s, on a

2 c 2 = 720 À (1 - À) [ f -x ( 2 F(x) - 1 ) r(x) dX] .

Test de Klotz Sa fonction score est la fonction (<1>-1)2, d'où

1 [ 1 ] 2 -1 4 -1 2 A =

(et» (u» du -

(et» (u» du .
En posant t = <I>-l(u) dans ces intégrales, on obtient

2 A = f:t4 q>(t) dt - [(-t 2 q>(t) dt] = 3 - 1 = 2.

D'autre part, on a

-1 -1 -1 <1> (u) J'(u) = 2 <1> (u) (<1> )'(u) = 2 -1 <p( <1> (u»

d'où

c 2 = 2 À (1 - À) [ f _ + 00 - x et»'l

F(x) ) r(x) dx ] 2. <p( <1> (F(x»)

Si, de plus, F appartient à "s, la fonction qui figure sous 1

intégrale est paire.

Test de Gastwirth ... 1 Sa fonction score J p (p e ]0, -[) est défmie par
2

160
IV. PROBLEMES A DEUX ECHANTILLONS

{ p - U . Jp(U) = 0 u-(I-p)

si 0 < u

p, si p < u < 1 - p, si 1 - p

u < 1,

d'où

p 1 [ pl ] 2 A = f (p - ul du + f (u - (1 - p) )2 du - f (p - u) du + f (u - (1 -
p) ) du o I-p 0 I-p f p [f P ] 2 2 2 3 4 3 2 =2 (u-p) du-4 (p-u)du =-p -p
=p (--p). o 0 3 3

Puisque

{ -1 (J;)'(U) =

si 0 < u < p, si p < u < 1 - p, si 1 - p < u < 1,

on obtient
[ F-1 ] 2 À(l-À) (P) +00 C 2 = 3 f x f(x) dx - f x f2(x) dx . p (2/3 - p) _
00 -1 F (l-p)

1 On retrouve l'efficacité du test de Ansari-Bradley pour p =-. 2 Si F


appartient à cJj s, les deux intégrales écrites sont opposées, d'où

[ + 00 ] 2 2 4 À (1 - À) c = 3 f x r(x) dx . p (2/3 - p) -1 F (l-p)

Test de Siegel- Tukey Il nous faut déterminer sa fonction score J


comme limite de la fonction J N qui, ici, dépend de N et qui n'est, en
fait, définie que pour les valeurs de la variable de la forme 1

(1

N). On a, avec les notations de VIII.2.e,

N+1

1 * JN(-)=

N+1
161

IV. PROBLEMES A DEUX ECHANTILLONS

et l'on peut supposer, par exemple, que la fonction J N est en


escalier et vérifie

\:1 i E {O, 1, ... , N},

[ i i+ 1 [ \:lUE - - N+l'N+l '

1 JN(u) = J N (-), N+l

soit

\:1 u E [0, 1[,

I[ (N+l) u]1 JN(u) = J N ( ). N+l

. D'autre part, on peut aisément exprimer Ri en fonction de Ri. Le


lecteur pourra effectuer cette recherche et vérifier que l'on a
. R. = 1

2R. 1 2 R. - 1 1 2 (N + 1) - 2 Ri 2 N + 1 - 2 R. 1

si Ri = 2k

(N + 1 )/2, si Ri = 2k + 1

( N + 1 )/2, si N - R. = 2k > N/2, 1 si N - R. = 2k + 1 > N/2. 1

Puisque

. R. R. 1 1 = J N ( ), N+l N+l

on a

2i

ou

2 i + 1 (selon la parité de i)
N + 1 si i

'

1JN()=N+1

N + 1 2i 2- N + 1

N + 1 2 i + 1 ou 2 - (selon la parité de N - i) N + 1

N + 1 si i >

Enfin, on complète la définition de J N en posant JN(O) = O. On


vérifie alors que, si 1 u e ]0, -[, on a, en désignant par i la partie
entière de (N + 1) u, 2

1 1 J N (u) - 2u 1 = 1 J N ( ) - 2u 1 N + 1

1
1JN()-N+112

2i

1 + 21 N+l N+l 3

-u1

+ = N+l N+l N+l

d'où

J (u) = 2u

1 SI ue ]-,1[. 2

162

IV. PROBLEMES A DEUX ECHANTILLONS


On montrerait de même que l'on a

J (u) = 2 (1 - u)

1 SI ue ]-,1[. 2

1 En complétant par J ( -) = 1, la fonction J est alors en tièremen t


déterminée et l'on 2

peut calculer l'efficacité du test. On a

112 [ 112 ] 2 A = 2 L (2u)2 du - 4 L 2u du

1 12

et

f +oo f F-l (112) +00 x J'( F(x) ) f(x) dx = 2 x f(x) dx - 2 f x f(x) dx. -00

F- 1 (1/2)
On obtient finalement la même efficacité que pour le test d'Ansari-
Bradley, soit

[ -1 ] 2 F (1/2) + 00 c 2 = 48 A (1 - A) f x f2(x) dx - f x f(x) dx . _00 F-


1 (l12)

Test de Savage Ici encore, nous devons chercher la fonction J


comme limite de la fonction J N et, puisque cette dernière fonction
n'est définie que pour les valeurs de la variable de la forme 1

N+1

(1

N), nous supposons encore que

\:1 i e {O, 1, ... , N},

[ i i+ 1 [ \:lue -- N+l' N+l '

1 JN(u) = J N ( -), N+l


soit

\:1 u e [0, 1 [,

1 [ (N + 1) u ] 1 JN(u) = J N ( ). N+l

D'autre part

N 1 )= L j=N-i+1 j

\:lie {l,...,N},

lN ( N + 1

163

IV. PROBLEMES A DEUX ECHANTILLONS


En convenant que cette expression est égale à 0 si i = 0, on obtient

\:lue [0,1[,

1 J N (u) = £.J . j=N+I-I[ (N + 1) u JI J

1 N . -- L (

r1 N + 1 j=N+I-I[ (N + 1) u JI N + 1

et, d'après ce que l'on sait de la valeur moyenne d'une fonction, la


limite de cette expression est

f I dt

= - Log(1 - u), 1- u

d'où

\:1 u E [0, 1[,

J(u) = - Log(1 - u) .
On a donc

1[1]2A=

Log 2 (1 - u) du -

Log(l - u) du 1 [ 1 ] 2 =

Lolt dt -

Log t dt = 1

1 et, puisque J'(u) = -, on obtient 1 - u

[ + 00 f ] 2 c 2 = À (1 - À) f x (x) dx . 1 - F(x) - 00

Exercice VIII.3. Montrer que le test de Savage est LMP pour la


famille des lois exponentielles {'I (0, À) ; À > O}.

On sait (voir page 120 du tome 1) que, pour un paramètre d'échelle,


un test de rang LMP pour la loi F est déterminé à partir de la
statistique linéaire de rang suivante

( f I(V(i» J TN = - -
lEo 1+ V(i) Zi' n 1= 1 f(V (i»

164

IV. PROBLEMES A DEUX ECHANTILLONS

OÙ V(I),'" , V (N) est un échantillon ordonné de la loi F. Cherchons le


test de rang LMP pour la famille ('E (O;À) ; À> O). On peut prendre F
= 1(0, 1) et l'on a alors

f(x) = e- x et

f(x) -=-1 f(x)

(x > 0),

d'où

1 N TN = - L ( lEo(V(i» - 1 ) Zi' n i=1

Or, d'après le résultat de l'exercice N.l chap. TI, on a


N 1 lEo(V(i

=.

-:-' J=N-1+1 J

d'où la fonction score J N définie par

. N 1 JN(

) = lEo(V(i» - 1 = ( L -:-) - 1. N + 1 j=N-i+l J

On obtient un test équivalent au test de Savage, ce qui montte que


ce dernier est bien LMP pour la famille considérée.

Exercice VIII.4. Montrer que le test de Savage est LMP pour la


famille (FJl; Jl E IR) des lois FJl définies par les densités

\:1 x E IR,

fJ.l(x) = exp( x - Jl - exp(x - Jl) ).


On sait (voir page 119 du tome 1) que, pour un paramètte de
localisation, un test de rang LMP pour la loi F est détenniné à partir
de la statistique linéaire de rang suivante

f '(V(i» TN = - £.J lEo( - ) Zi ' n i= 1 f(V (i»

où V (1), ... , V (N) est un échantillon ordonné de la loi F. On peut


prendre pour loi F la loi dont la densité f est définie par

\:1 XE IR,

f(x) = exp( x - exp(x) ).

165

IV. PROBLEMES A DEUX ECHANTILLONS

On a alors

f(x) x --=e -1 f(x)


et l'on doit donc déterminer

lEo(e V(i) _ 1) = lEo(e V(i» - 1.

On peut facilement montrer (on laisse au lecteur le soin d'expliciter


le calcul) que, si X est une variable aléatoire de loi F, alors Y = eX
est de loi 1(0, 1). Il s'ensuit que e V(l), ... , e v(n) est un échantillon
ordonné de la loi 1(0, 1). On a donc

N 1 lE (e V(i» = L o . j=N-i+l J

et l'on obtient la même statistique linéaire de rang qu'à l'exercice


précédent, ce qui montre que le test de Savage est bien LMP pour la
famille considérée.

Exercice VIII.S. A tout nombre réel 8 strictement positif, on associe


la loi Fe dont la densité fe est définie par

{f 1 2 t;1 fe(x) = - exp ( - - (x - 8) ) 8 rR +(x - 8). 1t 2

Etant donné, de plus, un nombre réel a strictement positif, on


désigne par Ge,cr la loi définie par
\:1 x E IR,

x G e (x) = Fe(-). ,cr a

1 ) Montrer que l' on a

1 1 G e - (-)=8a+aa, ,cr 2

où a == 0.675. Montrer que la quantité

f<>O X

(x) dx - f-HI x

(x) dx a+e -00

166

IV. PROBLEMES A DEUX ECHANTll..LONS

peut être négative ou positive suivant les valeurs de 8. 2) En


déduire, d'après le théorème V.2.4, que le test d'Ansari-Bradley,
utilisé pour tester l' hypothèse "a = 1" contre les hypothèses
alternatives du type (V.8) écrites pour un paramètre d'échelle, peut
être asymptotiquement biaisé. (Moses (1963»

1) On a évidemment

1 1 G- 1 (-) = a F- 1 (_). e,cr 2 e 2

D'autre part, puisque

fe(x) = 2 cp(x - 8) 11 IR +(x - 8),

où cp désigne la densité de la loi eN (0, 1), on a

Fe(x) = ( 2 <1>(x - S) - 1 ) 11 fR+(x - 8),

d'où

1 1 ( Fe(x) = -) <=> (2 <1>(x - S) - 1 = - ) 2 2 3 <=> (<1>(x - S) = - ) 4


<=> (x=S+<1>-\2-». 4
On en tire

1 1 G e - (-) = 8 a + a a, ,cr 2

3 où a = <1>-1 ( -) == 0.675. 4

Remarque. La loi Fe est celle de la variable aléatoire IX - SI, où X


est de loi eN (S, 1).

Considérons la fonction H définie par

+00 a+e H(9) = l x Ç(x) dx - l x Ç(x) dx a+e

f +oo f a+e = x

(x) dx - x

(x) dx. a+e e

167

IV. PROBLEMES A DEUX ECHANTILLONS


En posant t = x - 9, on obtient

f +oo a H(O) = 4 (t + 0) <p2(t) dt - f 4 (t + 0) <p 2(t) dt a 0 =4 o [(-


<p\t)dt - f<P2(t)dt] + 4[(-t<p2(t)dt - ft<p2(t)dt]

[ f +oo a ] [ + 00 a ] 2 9 t 2 t 2 2 t 2 t 2 = -;- a e- dt -

e- dt + -;

t e- dt -

t e' dt .

2 En remarquant qu'une primitive de e - t est fi <1>(t fI), on obtient

1 1 2 H(9) =

( 1 - 2 <1>(a (2) + - ) + - (2 e- a - 1) IX 2 X

31 2 = 2 9 (_ _ 2 <1>(a (2) ) + - (2 e- a - 1) fi[ 2 . 1t

On remarque que les deux termes entre crochets sont de signes


conttaires puisque

2 e - a == 0.634 et que
2 <1>(a 6) > 2 <1>(a) =

.2

C'est dire que, lorsque 9 varie de 0 à +00, la fonction H(9) change


de signe.

2) D'après la relation (V.9) écrite dans l'énoncé du théorème V.2.4, le


test considéré est asymptotiquement biaisé si

1 - <1>(d a - b c) < a,

soit si

1 - <1>(da - b c) < 1 - <1>(da),

c'est-à-dire si c < 0, puisque b > O. D'après la remarque faite à la fin


de l'exercice VIII. 1 , le signe de c est également celui de

168
IV. PROBLEMES A DEUX ECHANTILLONS

-1 _ J Fe (1/2) 1 +00 x

(x) dx + x

(x) dx. -00 F;1(1I2)

1 Cette expression n'est autre que (- H(9» puisque F

l (-) = 9 + a. 2 D'après le résultat de la question 1, il existe des


valeurs de 9 pour lesquelles H(9) > 0, donc pour lesquelles le test d'
An sari- Bradley est asymptotiquement biaisé.

Exercice IX.I. Soient F et G deux lois appartenant à " et soient Pb P2


et P3 les probabilités définies au théorème V.1.8. 1) Montrer, avec
les notations de ce chapitre, que la variance de la statistique UN de
Mann-Whitney paut s'écrire

V(UN) = m n (PI - P1 2 ) + m n (n - 1) (P2 - P1 2 ) + m n (m - 1) (P3 -


PI 2 ).

2) Montrer que l'estimateur m n 2 VN(U) défini à la section IX.] peut


s'écrire

2 - * *2 2 * *2 2 * *2 m n VN(U) = m n (Pl - PI ) + m n (P2 - Pl ) + m n


(P3 - PI ),
* où la définition de Pi (i e {l, 2, 3} ) est obtenue à partir de celle de Pi
en Y remplaçant F et G par les fonctions de répartition empiriques
Fm et G n respectivement.

1) Rappelons que Xl, ... , X m et YI, ... , y n sont deux échantillons


indépendants des lois F et G respectivement et que l'on a posé

m n UN =

11 ]O,+oo[(Yj - Xi). 1= 1 J= 1

On a donc

m n IE(U N ) =

IE( 11 ]O,-too[(Yj - Xi) ) 1= 1 J= 1 m n = L L P(Yj > Xi) = m n Pl i= 1


j= 1

et
m n V(UN) = L L V( 11]0 +oo[(Yj - Xi) ) + L Cov( 11]0 +oo[(Yj - Xi) .
11]0 +oo[(Y k - Xh) ). i= 1 j= l' (i,j)

«h,k)' ,

169

IV. PROBLEMES A DEUX ECHANTILLONS

Puisque 11 ]O,+oo[(Yj - Xi) est une variable aléatoire de loi :B (n, PI),
sa variance est égale à (Pl - PI 2 ). D'autre part, si i * h et j

k, les variables aléatoires 11 ]O,+oo[(Yj - Xi) et 11 ]O,+oo[(Y k - Xh)


sont indépendantes et leur covariance est nulle. Il nous reste à
calculer les covariances des m n (m - 1) couples de la forme ( 11
]O,+oo[(Y j - Xi), 11 ]O,+oo[(Y k - Xi» U * k) et des m n (n - 1)
couples de la fonne ( 11 ]O,+oo[(Yj - Xi), 11 ]O,+oo[(Yj - Xh» (i * h).
On a, en remarquant que le produit de deux variables de Bernoulli
est encore une variable de Bernoulli,

Cov( 11 ]O,+oo[(Yj - Xi), 11 ]O,+oo[(Y k - Xi» = lE ( 11 ]O,+oo[(Yj - Xi)


.11 ]O,+oo[(Y k - Xi) ) - P1 2 '2 = P(Yj - Xi > 0, y k - Xi > 0) - Pl _ 2 -
P3 - Pl

et, de même,

Cov ( 11 ]O,+oo[(Yj - Xi), 11 ]O,+oo[(Y k - Xi) ) = P2 - P1 2 ,


d'où

V(UN) = m n (Pl - P1 2 ) + m n (n - 1) (P2 - P1 2 ) + m n (m - 1) (P3 -


PI 2 ).

2) Dans la section IX.1, on a défini l' estimateur m n 2 VN(U) par m n


m n 2 VN(U) = L (Pi _ p )2 + L (Qj _ Q )2 + p Q , i= 1 j= 1

Pi = n Gn(X(i»'

Qj = m Fm(Y G»'

m-1

P = m £.J Pi i=l

n et Q = k L Qj . j=1

On peut également écrire


(1)

m n m n 2 VN(U) = L p? + L Qj2 - m pl - n Q2 + p Q . i= 1 j= 1

D'autre part, si l'on pose

+00 p; = f F m(X) dGn(x),

-00

on a

n n n- p; =

À Fm(Y(j) = À

Fm(Y(j) = Jn L Qi =

. J=l J=1 J=l

170
IV. PROBLEMES A DEUX ECHANTll..,LONS

On a également f +oo m m p; = ( 1 - Gn(x) ) dFm(x) =

ïk ( 1 - Gn(X j ) ) = 1 -

Gn(X(i» = 1 -

-00

De même, on a

f +oo m p; = ( 1 - Gn(x) )2 dFm(x) =

(1 _

i )2

-00

m m m = 1 - -L L Pi + --L L p? = 1 - 2
+ --L L p? m n i=l m n 2 i=l m n 2 i=l

et

f +oo n n p; =

(x) dGn(x) =

L(

)2 = + L Q/. j=l no n j=l -00

De ces relations, on tire

n P = n (1 - p;), Q = m P;' L Qj2 = m 2 n P;' j=l m

2 2 * P 2 * * £.J Pi = m n (P2 - 1 + 2 0 ) = m n (P2 - 2 Pl + 1). i=l

En portant ces résultats dans la relation (1), on obtient

2 - 2 * * 2 * 2 * 2 2 *2 * * m n VN(U) = no n (P2 - 2 PI + 1) + m n P3 -
m n (1 - Pl) - m n Pl + m n Pl ( 1 -Pl) * *2 2 * *2 2 * *2 = m n (Pl - Pl )
+ m n (P2 - Pl ) + m n (P3 - PI ).

Remarque. On a trouvé
* Q P Pl = m = 1 - 0'

d'où la relation

m fi + n Q = m n,

soit

m n L Pi + L Qj = m n. i= 1 j= 1

171

IV. PROBLEMES A DEUX ECHANTll..,LONS

Le résultat peut s'obtenir directement puisque l'on a

Pi = S(i) - i

et
Qj = Rü) - j,

d'où

m n m n m n L Pi + L Qj = (L S(i) + L RU» - L i - L j i=l j=l i=l j=l i=l j=l

N (N + 1) m (m + 1) n (n + 1) = = m n. 2 2 2

Exercice IX.2. (Suite de l'exercice IX.l) Avec les hypothèses et les


notations de l'exercice IX.], on suppose que F appartient à "s et qu'il
existe un élément (

, cr) de IR x IR +* tel que

\:1 x e IR,

x-

G(x) = F( - ). cr

* 1) Montrer que, lorsque


= 0 et cr = 1, la loi de la statistique UN définie à la section lX.1 est
indépendante de F et symétrique par rapport à O. * 2) Montrer que,
lorsque

= 0, la loi de la statistique UN converge vers la loi m .N (0, 1) quand


N augmente indéfiniment et que le rapport - admet une limite À qui N

appartient à ]0, 1[.

1) On a défini la statistique U

par

UNI UN = _ m (- - - ). VN(U) mn 2

On peut dire que U

n'est fonction que des rangs S(i) et R(j), puisque, d'une part, - VN(U)
s'exprime au moyen des variables aléatoires Pi et Qj définies par

Pi = S(i) - i

et
Qj = R(j) - j

et que, d'autre part,

m n m n m n UN =

11 ]o.-+-[(Yj - Xù =

11 ]o.-+-[(Y (j) - X(i» =

11 ]o.-+-[(RU) - S(i». 1=1 J=l 1=1 J=l 1=1 J=l

172

IV. PROBLEMES A DEUX ECHANTll..,LONS

Lorsque

= 0 et cr = 1, on a F = G et l'on sait que, sous cette hypothèse Ho, la


loi du vecteur (S(1), ... , S(m),

1), ... , R(n» ne dépend pas de la loi F si F appartient à ". La loi de U


ne dépend donc pas non plus de la loi F. Si, de plus, F appartient à
"s, posons

X'i = - Xi (1

m)

et

Y'j = - Yj (1

n).

On peut alors dire que (X'},..., X'm, Y'}, ... , Y'

est un échantillon de taille N de la loi F. Si nous montrons que la


statistique U'

relative à cet échantillon vérifie

,. . U N = - UN'
. . . nous pourrons dire que UN et -UN ont la même loi ou, encore,
que la loi de UN est symétrique par rapport à O.

On ad' abord, avec des notations évidentes,

m n U'N =

11 ]O,+oo[(Y'j - X'i) 1=1 J=l m n = L L 11]0 +oo[(Xi - Yj) i=l j=l ' m n =
L L ( 1 - 11]0 +oo[(Y j - Xi) ) i= 1 j= l ' = m n - UN'

d'où

U'N 1 UN 1 - - - = - (- - - ). mn 2 mn 2

Montrons enfin, pour achever la démonstration, que

- - V'N( U ) = VN(U).

On a

m n m n 2 V'N(U) = L (P'i _ p l)2 + L (Q'j _ Q )2 + P'Q ' . i=l j=l


Or P'i = S'(i) - i, où S'(i) est le rang de X'(i). On a

X'(i) = - X(m+l-i),

173

IV. PROBLEMES A DEUX ECHANTll..,LONS

d'où

S'(i) = N + 1 - S(m+l-i), P'i = N + 1 - i - S(m+l-i) = n + (m + 1 - i) -


S(m+l-i) = n - Pm+l-i.

De même, on a

Q' j = m - Qn+l-j,

d'où

p' = n - P,
Q' = m - Q,

m n m n 2 V'N(U) = L (Pi _ p )2 + L (Qj _ Q )2 + (n - P ) (m - Q) = m n


2 VN(U), i=l j=l puisque, d'après la remarque faite à la fin de
l'exercice IX.l, on a

(n - P ) (m - Q ) = m n - (m P + n Q) + P Q = P Q .

* Ceci achève la démonstration du fait que la loi de UN est


symétrique par rapport à 0 lorsque F appartient à "s.

2) On se place dans le cas où Jl = O. On a donc

\:1 x e IR,

x G(x) = F( - ). cr

On sait, d'après le théorème V.1.1, que, dans les conditions où nous


nous plaçons m UN -1E(UN) (N

+oo, -

À avec À e ]0, ID, la loi de converge vers la loi N j V(UN)


eN (0, 1).

1 On a IE(U N ) = m n Pl et, puisque F et G appartiennent à cJjf s, PI


= -. En effet 2

+co +co +co Pl = f F(x) dG(x) = f F( -x) dG(-x) = f (1 - F(x) ) dG(x) = 1


- Pl'

-00

-00

mn d'où IE(U N ) = - et l'on peut écrire que 2

u' -

V(U N ) N - m n 2 VN(U)

UN - lE (UN) ,J V (UN)

174
IV. PROBLEMES A DEUX ECHANTll..,LONS

* Pour montrer que la loi limite de UN est la loi eN (0, 1), il suffit donc
de montrer V (UN) que ...... converge en probabilité vers 1. Or on
peut écrire m n 2 VN(U)

V(UN) m n 2 VN(U)

1 2 n-l 2 m-l 2 N (p 1 - Pl) + N (P2 - Pl) + rr (P3 - Pl) = 1 * *2 n * *2 m


* *2 N (p 1 - Pl) + N (P2 - Pl) + N (P3 - Pl)

* * * et, puisque Pl' P2 et P3 convergent en probabilité vers Pl' P2 et


P3 respectivement, le numérateur et le dénominateur convergent
tous deux en probabilité vers

(1 - À) (P2 - P1 2 ) + À(P3 - P1 2 ).

* Le quotient tend bien vers 1 en probabilité et la loi limite de UN est


donc la loi eN (0, 1).

Remarque. On déduit de ce résultat (voir tome 1, page 178) que, si


l'on teste l'hypothèse * "f.! = 0" contre l'hypothèse "f.! * 0", tout test
défini à partir de la statistique UN a un seuil asymptotiquement
indépendant de la loi F, du moment que cette loi appartient à "s,

175

Chapitre V

PROBLEMES A UN ECHANTILLON

Exercice 111.1. Avec les notations de la section 111.2, montrer que,


sous l' hypothèse Ho et avec des entiers k, do, dI, ... , dk donnés, on
a

* n (n + 1) - do (do + 1) lEo(W: ) = 4

et

k n ,+* 1 1

3 Vo(W n ) = - (n (n + 1)(2n + 1) - do(d o + 1)(2d o + 1» - - £.J (di -


di)' 24 48 i=l
n n De même que l'on a w: = Li z7, on a ici W:* = L i* z:-, avec i= 1 i=
1

* * d h + 1 i = rh = do + ... + d h _ 1 + 2

SI

do + ... + d h _ 1 < i < do + ... + dh'

Sous 1 'hypothèse Ho, les variables aléatoires ZT sont


indépendantes et prennent la valeur 1 si IXI(i) correspond à une
observation Xi strictement positive, la valeur 0 sinon. Les Z7 sont
donc des variables aléatoires de loi S5 (1,

), sa ur celles correspondant à des observations nulles (1

qui sont nulles. D'où

n n .* 1 k lEo(W:*) = L i* lEo(Z:-) = L

= - L d h r:. i=l i=d o +1 2 2 h=l


Or on a vu à l'exercice IV.3 chap. IV (avec des notations légèrement
différentes) que

* n (n + 1) £.J d h rh = . h=O 2

177

V. PROBLEMES A UN ECHANTILLON

* do + 1 Puisque r 0 = , on en déduit 2

* n (n + 1) - do(d o + 1) lEo(W

)=.4

D'autre part, on a

n n k nr+*

.* 2 + 1

.* 2 1
*2 V o( vv n ) = £.J (1) V o(Zi ) = - £.J (1) = - £.J d h rh . i=l 4 i=d o +1
4 h=l

Toujours d'après l'exercice IV .4.3 chap. IV, on a

k n 1 k Ld h r: 2 = Li 2 - - L(d

- d h ) h=O i=l 12 h=O

ou encore

knk

*2

.2 1

3 £.J d h rh = £.J 1 - - £.J (d h - d h ) h=l i=d o +1 12 h=l

n (n + 1)(2n + 1) - do(d o + 1)(2d o + 1) 1

3 = - - £.J (d h - d h ), 6 12 h=l

d'où

k n r+* 1 1
3 Vo(VV n ) = - (n (n + 1)(2n + 1) - do(d o + 1)(2d o + 1» - - £.J (di -
di)' 24 48 i=l

Exercice 111.2. Montrer que les probabilités Pl' P2 et P3 définies au


théorème 111.3.1 vérifient la relation

2 P2 + Pl P3 = 2

Désignons par A, B et C respectivement les événements {X 1 > O},


{X2 > O} et {X 1 + X2 > O}. On a

Pl = P(A) = P(B), P2 = P(C) et P3 = P(A n C) = P(B n C).

178

v. PROBLEMES A UN ECHANTILLON

On peut écrire

2 P3 = P(A n C) + P(B n C) = P( (A n C) U (B n C) ) + P(A n B n C) =


P( (A U B) n C ) + P(A n B n C).
Or

( (XI> 0) et (X2 > 0»

(Xl + X2 > 0)

(Xl> 0) ou (X2 > 0) ),

ce qui se traduit par

A n BeC eAU B.

On en tire

2 P3 = P(C) + P(A n B) = P(C) + P(A) P(B) 2 = P2 + Pl.

Exercice 111.3. Démonstration du théorème 111.4.1 Montrer, en


s'inspirant de la démonstration du théorème ///.3.9 chap./V, que,
dans le modèle (1.1." s), le test de rang signé de Wilcoxon utilisé
pour tester l' hypothèse Ho : "Jl = 0" contre l' hypothèse Hl : "Jl > 0"
a unefonction puissance croissante.

Posons
w;. = T n (X l' ... , X n ).

La fonction puissance

du test est alors définie par

(Jl) = PJl( T n (X 1 , ... , X n )

c),

avec les notations du théorème 111.3.9 chap. IV. Soient Il et Jl' tels
que 0

Jl

Jl'. Posant

= Jl' - Jl, on a

(JlI) = PJl'( Tn(X}, ... , X n )

c ) = PJl( T n (X1 +

, ... , X n +

c ),
puisque, si une variable aléatoire X est de loi' FJl' la variable
aléatoire X +

est de loi FJl'. Pour montrer que

(Jl')

(Jl), il suffit de montrer que

T n (X1 +

,... ,Xn+

Tn(X}"" ,X n ),

179

V. PROBLEMES A UN ECHANTILLON

ce qui est évident si l'on écrit la statistique w: sous la forme (111.7),


à savoir

w: = Tn(X}, ... , X n ) = L 11 ]O,+oo[(Xi + Xj). l

i
j

Exercice 111.4. Montrer que la limite, lorsque n devient infini, des


taux de résistance à l'acceptation et au rejet du test de rang signé de
Wilcoxon est égale à 0.29.

D'après l'étude qui suit la définition 111.4.2, le taux de résistance à


l'acceptation * m 'ta,n du test de rang signé de Wilcoxon est égal à -,
où m* est l'entier défmi par n

(n - m* - 1 )(n - m*) < 2ca

(n - m*)(n - m* + 1).

Si nous posons x = n - m*, x est l'élément de lN défini par

x (x - 1) < 2c a

x (x + 1),

c'est-à-dire par

x 2 - x - 2c a < 0,
x 2 + x - 2ca

O.

D'où, après résolution de ces inéquations du second degré,

1111--+-

1 + 8ca

x<-+-

1 + 8ca, 2 2 2 2

11*11n----

1 + 8c a <m

n +- - -

1 + 8ca, 2 2 2 2

11111----

1 + 8c a < 'ta,n

1+---

1 + 8c a . 2n 2n 2n 2n
Or, d'après le corollaire 111.2.5, on a

2 n c 'V- a ' n---H- 4

d'où

lim

't a,n

= 1 - 2- fi = 0.29. 12

n-++oo

180

V. PROBLEMES A UN ECHANTILLON

Pour le taux de résistance au rejet 't r . n , il suffit de remplacer, dans


le calcul précédent, 2c a par (n (n + 1) - 2c a ). Comme on a
n (n + 1) - 2c rv a n-++oo

2n

rv 2c , 2 n-++oo a

le résultat est inchangé, d'où

lim 't = 0.29. r.n

n -++00

Exercice III.S. Soit un test de l' hypothèse Ho: "Jl = 0" contre l'
hypothèse HI : "Jl > 0" défini à partir d'une statistique t(X}, ... , X n ).
Désignant par

la région critique du test, on dit que le test est monotone si, étant
donné deux éléments (XI, ... , x n ) et (x'},..., x'n) de IR n tels que

\:lie {1,...,n},
x'ï

Xi,

on a

( (Xl, ... , X n ) e

) => (X'}, ... , x'n) e

).

1) Montrer que le test du signe et le test de rang signé de Wilcoxon


sont monotones. 2) Montrer que le test de Student n'est pas
monotone. On pourra, par exemple, étudier les variations de t(X1, ...
, x n ) lorsque XI = ... = X n -l = 1 et que Xn varie de 1 à +00.

1) Pour le test du signe, on a

= { (XI, ... , x n ); L l1]o.+oo[(xi)

s } i=1

et la monotonie du test résulte du fait que, si


\:lie {1,...,n},

X'i

Xi,

on a

n n L 11 ]O.+oo[(X'i)

L 11 ]O,+oo[(Xi). i=l i=l

De même pour le test de rang signé de Wilcoxon en écrivant W:


sous la forme

w: = L 11 ]O,+oo[(Xi + Xj). l

181
v. PROBLEMES A UN ECHANTILLON

On rapprochera ce dernier résultat de celui obtenu à l'exercice III.3.

2) La région critique du test de Student est définie par

<a = ( (x}, ... , x n ) ; t n (Xl, ... , x n )

Ca },

t n ( xl' ... , X n ) =

n Lx. 1 i=1

n 1 n Lx

--(Lx.)2 1 n 1 i= 1 i= 1

On a donc
n -1 +x n t n ( 1, ... , 1, x n ) = = j 2 1 2 n - 1 + x - - (n - 1 + x ) n n n

n-l+

j n - 1 2 -- (x - 1) n n

d'où, en supposant que X n e ]1, +00[,

= j n x n + (n - 1) . t n ( 1, ... , 1, x n ) n - 1 x - 1 n

Cette fonction de X n est strictement décroissante sur ] 1, +00 [ .


Etant donné X n et x'n tels que 1 < X n < x'n, il suffit de choisir Ca tel
que

t n (l, ... ,1, x ' n ) < Ca

tn(l, ... ,1, x n )

pour aVOlf

(1, ... , 1, x n ) e <a et (1, ... ,1, x'n)

<a,
ce qui montre que le test de Student n'est pas monotone.

1 Exercice 111.6. Montrer que, lorsque Jl est voisin de 0, les


quantités - + Jl f(O) et 2 1 - + 2Jl f*(0) sont respectivement des
approximations des probabilités PI (Jl) et P2(Jl) 2 définies au
théorème 111.3 .J. On rappelle que f* désigne la densité de la loi F *
F (page J97 du tome J).

182

V. PROBLEMES A UN ECHANTILLON

On a défini

PI (Jl) = PJ!(X 1 > 0)

et

P2(Jl) = PJ!(X1 + X2 > 0),

OÙ XI et X2 sont deux variables aléatoires indépendantes de loi FJ!'


On peut écrire

PI (Jl) = PJ!(XI - Jl > -Jl)

et

P2(Jl) = PJ!(XI + X2 - 2Jl > - 2Jl),

soit, puisque XI - Jl et X2 - Jl sont indépendantes et de loi F,

f J! 1 1 Pl (Jl) = 1 - F( -Jl) = F(Jl) = - + ( F(Jl) - F(O) ) = - + f(t) dt 2 2 0

et, de même,

f 2J! 1 * P2(Jl) = - + f (t) dt . 2 0

Lorsque Jl est voisin de 0, on a r £(t) dt == Il £(0) o

ou, plus précisément, Jl f(O) est le premier terme du développement


limité de cette intégrale. On peut donc écrire
1 PI (Jl) :f: - + Il f(O) 2

et, de même,

1 P2(Jl) :f: - + 2 Jl r'(O). 2

Rappelons que, puisque

+00 'if x E IR, tex) = f £(t) £(x - t) dt,

on a

+00 +00 £*co) = f Cet) £( -t) dt = f r(t) dt.

183

V. PROBLEMES A UN ECHANTILLON

Exercice 111.7. Montrer que la taille d'échantillon requise pour que le


test de Student de l' hypothèse Ho: "Jl = 0" contre l' hypothèse Hl: "Jl
> 0" atteigne une puissance au moins égale à J3(Jl) pour un seuil a
et une valeur Jl fIXés est donnée approximativement

par

V p n == ( <I»-I( J3(Jl) ) + <1»-1(1 - a) )2 2 . Jl 1 n _ On pourra


utiliser le fait que - L (Xi - Xn)2 converge en probabilité vers V p. n-l
i=l

Le test de Student est défini par la région critique

(t) = { xn {if } Q

C . / -L. t (Xi - xJ2

n - 1 i= 1

Etant donné a, Jl et J3(Jl), on cherche à partir de quelle valeur de n


on pourra réaliser

Po(<a) = a

et
PJ1(<a)

J3(Jl).

1 n _ En se servant du fait que - L (Xi - Xn)2 converge en probabilité


vers V p et n - 1 i= 1 que X n - Jl {fi converge en loi vers la loi eN (0,
1), on peut écrire vVp

Po(

) !Ë Po F

c)

<I>(c)

et

) !Ë p

F;vf

c) = p

F
,TI

c-Y

F ,TI)

1 - <1> (c - Y

F ,TI) .

On devra donc réaliser

1 - <I»(c) = a,

soit c = <1»-1(1 - a)

et

1 - <1> (c - Y

!3(Il),

soit c
Y

F ,TI + <I>'l( 1 - !3(Il) ).

184

V. PROBLEMES A UN ECHANTILLON

Pour que ces deux conditions soient compatibles, il faut que l'on ait

<1> ,1 (1 - a)

"

F .fiî + <1>,1 ( 1 - J3(IJ.) ),

"

F .fiî

<1>-1(1 - a) + <I>'l( J3(IJ.) ),

d'où

Vn
(<1>-1(

(Jl) ) + <1>-1(1 - a) )2 --; . Jl

Exercice 111.8. Vérifier, grâce aux formules données dans les


sections II et 111.4.b, que, si T et T' sont deux tests choisis parmi
ceux qui figurent dans la table 2 (tests du signe, de rang signé de
Wilcoxon et de Student) et si n et n' représentent les tailles
d'échantillon requises pour ces deux tests respectivement (a,

et Jl étant fixés), on a

n lim - = eF(T " T), n'

où eF(T ' , T) représente l'efficacité relative asymptotique obtenue


dans la section VI chap.lV pour les tests correspondants.

Pour le test du signe S, utilisons la formule (11.5)

1 ( 1 -1 -1 J 2 ns == 2 - <1> (1 - a) + J p(1 - p) <1> (

) (p - 1/2) 2

où p = F(Jl). Pour le test de rang signé de Wilcoxon W+, la formule


(111.12) nous donne
( <1>-1 (

) + <1>-1 (1 _ a) )2 n +== W 12 (Jl f* (0) )2

Enfm, pour le test de Student T, nous avons obtenu à l'exercice


111.7

( <1>-1 (

) + <1>-1 (1 _ a) )2 n T == V F . 2 Jl

185

V. PROBLEMES A UN ECHANTILLON

D'autre part, on sait, d'après le théorème V.2.6 chap. N, que

c' 2 eF(T " T) = ( - ) , c

où c et c' désignent les efficacités respectives des deux tests. Les


efficacités Cw et CT des tests W et T qui ont été obtenues à
l'exercice VI.2 chap. N vérifient
2

= 12 Â (1 - Â) [J

-f2(X) dx ] 2 À (1 - À) Cr= V F

Pour le test du signe, nous considérons, en fait, le test de la


médiane dont l'efficacité Cs vérifie

2 2 Cs = 4 À (1 - À) f (0).

On a alors immédiatement

2 [ +00 ] 2 eF(W,T)=(

)=12VF J_ f2(x)dx

et

n lim -2... = 12 VF( r(O) )2. n + W

Ces deux quantités sont égales puisque, f appartenant à "s, on a

+00 +00 f\O) = f f(x) f( -x) dx = f f 2(x) dx.


Pour comparer le test du signe avec les deux autres, nous devons
d'abord utiliser l'approximation de p établie à l'exercice III.6, laquelle
est en fait un développement limité à l'ordre 1 relativement à Il

1 P == - + Il f(O). 2

186

V. PROBLEMES A UN ECHANTILLON

On a alors

111 p (1 - p) == ( - + Jl f(O) ) ( - - Jl f(O) ) = - ( 1 - 4 Jl2f 2(0) ) 224

et

1 2 2 1 2 2 vi p (1 - p) == - ( 1 - 2Jl f (0» = - - Jl f (0), 2 2

toujours en effectuant, en fait, un développement limité, d'où


1 ( 1 -1 1 -1 2 2 -1 ) ns == 2 - <1> (1 - a) + - <1> (P) - Jl f (0) <1> (p)
, ( Jl f(O) ) 2 2

soit

( <1>-1 (1 _ a) + <1>-1 (p) )2 n :::: S - 4 Jl2 f2(0)

On vérifie alors immédiatement que l'on a bien

f 2(0) . nw+ ep(S, W) = ... 2 - hm - 3 ( f (0) ) ns

et

ep(S, T) = 4 V P f2(0) = lim '1r . ns

Remarque. Ces résultats sont à rapprocher de la propriété énoncée


en section IV (page 202 du tome 1), à savoir

ep(T;, T;) = ep(T l' T 2)

et de ce qui en est déduit.


Exercice 111.9. Montrer que les trois tests suivants sont convergents
(voir le dernier alinéa de R. W pour la définition de cette propriété).
1) Test du signe. 2) Test de rang signé de Wilcoxon. 3) Test de
Student (on utilisera les résultats de l'exercice 111.7). Pour chacun
de ces tests, on montrera la convergence aussi bien dans le cas
unilatéral que dans le cas bilatéral.

187

v. PROBLEMES A UN ECHANTILLON

1) Test du signe Avec les notations du paragraphe II, supposons que


l'on teste l'hypothèse Ho : "Jl = 0" contre l'hypothèse HI: "Jl > 0". Soit
{sn} une suite d'entiers naturels telle que

lim P o(Sn

sn) = a,

n -++00

où a est un élément donné de ]0, 1 [ (remarquons que nous notons


Sn et non Sa la valeur critique du test puisqu'elle dépend, ici, de n).
Monttons que
\:1 Jl > 0,

lim

(Jl) = 1, n

n -++00

où J3n(J.1) désigne la fonction puissance du test. D'après les


relations (11.2) et (II.4), on a

( n + 1 - 2 sn J lim <1> =a n-++oo /ll

et

_ ( n p + 1/2 - sn J

(Il) = <1> , n v' np (1 - p)

1 où P = F (Il) > -. 2

De la première relation, on tire


-1 n + 1 - 2 sn rv /ll <1> (a),

n-++oo

d'où

sn

rv

n 2'

n -++00

On a alors

n p + 1/2 - sn

rv
p - 1/2 v' p(l-p)

/ll

+00,

v' np(l-p)

n-++ oo

d'où

lim

( Il) = 1. n

n-rtoo

Le test est bien convergent. On effectuerait un calcul analogue


lorsque l'hypothèse HI est "Jl < 0".

188
V. PROBLEMES A UN ECHANTILLON

Dans le cas où l'hypothèse Hl est "Jl:#= 0", le test est bilatéral et sa


région critique est de la forme

{Sn

Sn} U {Sn

s'n},

où Sn et s'n sont deux entiers tels que 0

s'n < Sn

n.

Puisque la loi de Sn, sous l'hypothèse Ho, est symétrique par


rapport à on 2

Impose
1 sn + s n = n

et l'on a alors

Po(Sn

Sn) = Po(Sn

s'n),

d'où

( n + 1 - 2 Sn J Po«(Sn

sn} U (Sn

s'n}) == 2 cI> /0 . Si l'on suppose

( n + 1 - Sn J lim 2 <1> = a, n-H-oo /0

on obtient encore

n sn rv 2. n-H"oo
D'autre part, un calcul simple conduit à

_ ( n p + 1(2 - Sn J ( n (1 - p) + 1/2 - Sn J

( Jl) = <1> + <1> , n

np(l-p)

np(l-p) 1 où p = F(Il) est supérieur ou inférieur à (strictement) selon


que Il est positif ou 2

(1)

négatif.

On vérifie alors que

\:1 Il * 0,

lim

(fl) = 1, n

+oo
puisque, dans tous les cas (Il > 0 ou Il < 0), l'un des deux termes du
second membre de (1) tend vers 1 et l'autre vers O. Le test bilatéral
du signe est, lui aussi, convergent.

189

V. PROBLEMES A UN ECHANTILLON

2) Test de rang signé de Wilcoxon Avec les notations du paragraphe


III, supposons que l'on teste l'hypothèse Ho : "Il = 0" contre
l'hypothèse Hl: "Il > 0". Soit {c n } une suite d'entiers naturels telle
que

lim Po(

c n ) = a, n-++oo

où a est un élément donné de ]0, 1 [. Montrons que

\:1 Il > 0,
lim Pn(ll) = 1. n-++oo

D'après la relation (llI.9), on a

2n

C rv n n -++00 4

et le théorème ll1.3.2 nous conduit à

[ c n - IE(W

)]

(fl) == 1 - <1> n j V

=:: [ IE(W:) - c n ] -<1> . j v

D'après le théorème III. 3.1, on a


IE(

)-cn

2 n rv - (2 P2 - 1), 4

n-++oo

en remarquant bien que (2 P2 - 1) n'est pas nul puisque cette


expression est équivalente (Il

0) à 4 Il (0) et que

... f 2 f (0) = f (x) dx * O. IR

Toujours d'après le théorème 111.3.1, on a

v <W:) rv n

3 2 n (P4 - P2)'

n -++00
si P4 - p; * O. Dans ce cas

190

V. PROBLEMES A UN ECHANTILLON

lE (w:) - c n 2 P2 - 1 l'v /n -+ +00 j V

) n-+t<>o 4 j P4 - p

+oo

et, donc,

lim

(Jl) = 1. n n

+oo

Dans le cas où P4 - p

= 0, V(w:) est un infiniment grand d'ordre inférieur à 3 relativement à


n et les limites ci-dessus sont inchangées. On remarquera que ce
cas se présente, par exemple, lorsque F admet un support fini [-a, a]
et que Jl

a, puisqu'on a alors P2 = P4 = 1. Le test est donc bien convergent et


on effectuerait un calcul analogue lorsque l'hypothèse HI est "Jl < 0".
Dans le cas où 1 'hypohèse Hl est "Jl * 0", le test est bilatéral et sa
région critique de la forme

{w:

c n } U {w:

c ' n },

n (n + 1) où c n et c'n sont deux entiers tels que 0

c'n

cn

. 2 Ici encore, puisque la loi de W

sous l'hypothèse Ho est symétrique par rapport à n (n + 1) . , on


Impose 4

n (n + 1) C n + c ' n = . 2

Le calcul qui suit et qui permet de vérifier que le test est convergent
est analogue à celui que nous avons effectué pour le test du signe.
Aussi laissons-nous au lecteur le soin de l'expliciter.
3) Test de Student Supposons d'abord que l'on teste l'hypothèse Ho:
"Jl = 0" contre l'hypothèse HI: "Jl > 0". En adoptant les notations de
l'exercice 111.7, on considère une suite {

n} de régions critiques définies par leurs valeurs critiques C n et


telles que

lim Po(

n) = a,

+oo

où a est un élément donné de ]0, 1 [.

191

V. PROBLEMES A UN ECHANTILLON

Montrons que
\:1 J.! > 0,

lim P (

n) = 1.

n-++oo

D'après les résultats de l'exercice 111.7, on a

Po(

n) == 1 - <I>(c n ),

d'où

lim en = <1>-1(1 - a)

n-++oo

et

P(
n) == 1 - <1> [ c n -

/i1 ] ,

fi;

d'où

lim P (

n) = 1.

n-++oo

Le test est bien convergent et on effectuerait un calcul analogue


lorsque 1 'hypothèse Hl est "J.! < 0". Dans le cas où l'hypothèse Hl
est "J.! * 0", le test est bilatéral et l'on impose aux deux valeurs
critiques en et c ' n d'être opposées puisque la loi de la statistique de
Student est symétrique par rapport à 0 sous 1 'hypothèse Ho. Nous
laissons au lecteur le soin de terminer le calcul et de vérifier que le
test bilatéral de Student est, lui aussi, convergent.

Exercice IV.I. Démonstration du théorème IV.l.l En considérant le


modèle de localisation (1.1." s), soit

une statistique de rang signé définie par

n ( R+ J n. T
=

L J+

]O,+oo[(Xi) =

L J+ (

) zr, n i=l n + 1 n i=l n + 1

où J+ est unefonction définie sur [0, 1[. Montrer que l'on a

1 n . lEo(T

= - LJ+ (

) , 2n i=l n + 1

1 n . 2 VO(

)=2 L ( J+ (

)) 4n i=l n + 1

192

V. PROBLEMES A UN ECHANTILLON
et que, toujours sous l' hypothèse Ho, la loi de "Ç est symétrique.

On sait, d'après le théorème 111.2.2, que, sous l'hypothèse Ho, les


variables aléatoires Z7 sont indépendantes et de même loi $(1,

). On a donc

+ 1 lEo(Z. ) = - 1 2

et

+ 1 Vo(Zi) =-, 4

d'où l'on tire immédiatement les relations demandées. De plus,


chacune des variables Z7 a la même loi que la variable (1 - Z7).
Puisqu'elles sont indépendantes, on peut dire que "Ç a la même loi
que

n.

LJ+ (

) (1 - Z7) = 2IE o ("Ç) -"Ç . n i=l n + 1


C'est dire que "Ç a une loi symétrique par rapport à lEo("Ç).

Exercice IV.2. Démonstration des relations (IV.6) et (IV. 7) 1)


Désignons par J.l (T+) l'espérance asymptotique de "Ç donnée par
la relation an (W.4) lorsque XI , ... , X n est un échantillon de la loi F
a définie par n

\:1 x E rR, Fa (x) = F(x - Sn)' n

où F appartient à "s et où {Sn} est une suite réelle de limite nulle.


Montrer que l'on a lim

'o (T+) =

f - J '( F(x) ) f2(x) dx, n-++oo n 2 _00

où J est définie à partir de J+ par

\:1 u E [0, 1 [ ,

+ ( 1 U ) J (u) = J 2 + 2 .

2) Montrer, à partir de la relation (W 5), que la limite Vo(T+) de


nVn(T+), lorsque n devient infini et sous l' hypothèse Ho, est donnée
par
193

V. PROBLEMES A UN ECHANTILLON

f +oo 1 + 1 2 1 2 V o(T ) = - J (F(x) ) f(x) dx = - f J (u) du. 4 -00 4 0

Avec les notations du théorème IV .2.1, on a

G(x) = F(x - en),

d'où

H(x) = ( F(x - en) - F( -x - en) ) 11 IR +(x).

La relation (IV.4) devient

Jl (r)= f - J +(F(X-6 )-F(-x-6 »f(x-6 )dx e n n n n 0 +00 = f J\ F(t) - F(-t


- 26n) ) f(t) dt, - en

après avoir posé t = x - en.


On doit chercher

lim

dJl (T+) en

soit

dJl (T+) en

n -++00

de n

de n

en=0

La dérivation sous le signe d'intégration étant justifiée par les


hypothèses du théorème IV.2.l, on obtient
dJl (T+) +00 en f = J+( F(-8 ) - F( -8 » f(-8 ) + 2 J+I( F(t) - F(-t - 2B »
f(-t - 2e ) f(t) dt, d8 n n n n n n -e n d'où (J+(O) = 0 )

dJl (T+) en

de n

= 2 f-J+'( F(t) - F(-t» f(-t) f(t) dt. e = 0 0 n

Puisque, toujours dans le cadre de la remarque IV.2.2, la loi F


appartient à <W s, la fonction f est paire et l'on a

1 J+ '( F(t) - F( -t) ) = J+ '(2F(t) - 1) = - 1'( F(t) ), 2

194

V. PROBLEMES A UN ECHANTILLON

d'où
Iim

'O (T+) = r oo J'( F(x) ) f 2(X) dx n-H-oo n 0 +00 =

f f( F(x) ) f2(X) dx,

-00

la dernière transformation s'appuyant sur le fait que

\;;j U E ]0, 1 [,

J'(1 - u) = J'(u).

La relation (IV .6) est donc établie.

Pour démontrer la relation (IV.7), nous devons chercher la limite (n

+oo) de n Vn(T+) donnée par la relation (IV.5), sous l'hypothèse Ho,


c'est-à-dire lorsque F = G. On a alors, si x > 0,

J+( H(x) ) = J( F(x) )

1 - H(x) = 2 ( 1 - F(x) ), 1 .r '( H(x) ) = - 1'( F(x) ), 2


H(x) = F(x) - F(-x) = 2 F(x) - 1,

et

et l'on peut écrire que 2 Vo(T

= Iim Vn(T') = roop( F(x» dF(x) - [ r-J( F(x» dF(X) ] + 1, n-.++oo 0 0

avec

1 = J f '1'( F(x), F(y) ) dF(x) dF(y) = J f '1' (u, v) du dv, O<x<y


1/2<u<v<1

où l'on a posé

'l'(u, v) = (2u - 1) (1 - v) J'(u) J'(v) - (2u - 1) J'(u) J(v) + 2 (1 - v) J(u)


J'(V) = (2u - 1) J'(U) ( (1 - v) J'(V) - J(v) ) + 2 (1 - v) J(u) J'(V).

195

V. PROBLEMES A UN ECHANTILLON
On en déduit

1 1 = f (2u - 1) J'(u)( [ (1 - v) J(v) ]

) du + 2 f f (1 - v) J(u) J'(v) du dv 1/2 112<u<v< 1

1 1 [ 1 ] = f (2u - 1) J'(u) (u - 1) J(u) du + 2 f J(u) f (1 - v) J'(v) dv du.


1/2 1/2 u

U ne intégration par parties permet d'écrire

1 1 f (1 - v) J'(v) dv = [(1 - v) J(v) ]

+ f J(v) dv u u 1 = (u - 1) J(u) + f J(v) dv, u

d'où

1 1 1 = f (2u - 1) (u - 1) J'(u) J(u) du + 2 f (u - 1) p(u) du + 2 f f J(u)


J(v) du dv. 1/2 1/2 1/2<u<v<1

Une dernière intégration par parties et une transformation de la


dernière intégrale double écrite conduisent à
[ 2 ] 1 1 J (u) 4u - 3 2 1= (2u-l)(u-l)2 + f (2(U-l)-Z )J(U)dU +ff
J(u)J(v)dudv 1/2 1/2 [1/2,1]2 1 [ 1 ] 2 = -

f p(u) du + f J(u) du 2 1/2 1/2 2 = -

r- J2 ( F(x) ) dF(x) + [ r-J( F(x) ) dF(X) ] . 200

On obtient donc

+ 1 f +oo 2 1 f +oo 2 1 f I 2 V o(T ) = - J (F(x) ) dF(x) = - J (F(x) ) f(x)


dx = - J (u) du . 20 4_00 4 0 La relation (IV. 7) est établie.

196

V. PROBLEMES A UN ECHANTILLON

Exercice IV.3. Montrer que le test de rang signé de Wilcoxon est


LMP et AMP pour la loi

(0, 1). On pourra d'abord chercher la loi d'une variable aléatoire Z


défirde par

IXI 1 e - Z= e IXI + 1 '


où X est elle-même une variable aléatoire de loi :.c (0, 1).

Soit X une variable aléatoire de loi

(0, 1). Posons

Y=IXI

et

ye-1Z=y.e+1

Désignant par Fx et Fy les fonctions de répartition respectives de X


et de Y,

on a

1 eX Fx(x)=-=- 1 + e -x eX + 1

et

\:1 Y
0,

e Y - 1 Fy(y) = Fx (y) - Fx (-y) = - . e Y + 1

On a donc Z = Fy(Y) et l'on sait (théorème 111.1.2 chap. II) que Z


suit la loi U [0, 1].

Déterminons alors un test de rang signé qui soit LMP pour la loi

(0, 1). On sait (p. 202 du tome 1) qu'il est défini par la statistique

1 n ( f' J

= - L lEo - - (1 XI +) ll]Q,+oo[(Xi), n i= 1 f (Ri)

où f désigne la densité de la loi

(0, 1). On a

x e f(x) = 2 ' (ex + 1)

d'où

- Log f(x) = 2 Log ( eX + 1 ) - x ,


f ' 2 eX eX - 1 - - (x)=- -1 =-. f eX + 1 eX + 1

197

v. PROBLEMES A UN ECHANTILLON

1Xi l e - 1 Si l'on pose Zi = IX.I (1

n), alors, sous l'hypothèse Ho, ZI, ... , Zn e 1 + 1 est un échantillon


de la loi U[O, 1]. De plus, puisque l'application

eX - 1 eX + 1

est strictement croissante, on a

\:lie {l,...,n},

Z(i) =
IXI(i) e - 1 IXI(i) . e + 1

D'autre part, on sait (exemple IV.2.1 chap. II) que l'on a

\:lie {l,...,n},

1 IE(Z(i» = -, n + 1

d'où, en remplaçant i par R7 dans cette dernière relation,

nR+1

= - £.J

]O,+oo[(Xi) n i=1 n + 1

n (n + 1)
Le test défini par T

étant équivalent à celui défini par W;, on peut en conclure que le test
de rang signé de Wilcoxon est LMP pour la loi

(0, 1).

Déterminons enfin un test de rang signé qui soit AMP pour la loi

(0, 1). On sait (p. 202 du tome 1) qu'il est défini par la statistique

1 n f 1 ( ( IR: J J

' = - - L - F- 1 _ + 1

]O,+oo[(Xi) n i=1 f 2 2 (n + 1)

où f et F désignent respectivement la densité et la fonction de


répartition de la loi

(0, 1). Puisque l'on a

\:1 x e fR,

X e F(x) = -, eX + 1

on en déduit
198

V. PROBLEMES A UN ECHANTILLON

\:1 u e ]0, 1 [,

-1 U F (u) = Log -, 1 - u

d'où

\:1 u e ]0, 1 [,

fI l-u - 1 - - ( F- 1 (u) ) = = 2u - 1. f u -+1 1 - u

On a donc

1 n R:
'=-L1

]O,+oo[(Xi) =

= n i= 1 n + 1

w+ n

n (n + 1)

On en conclut que le test de rang signé de Wilcoxon est également


AMP pour la loi

(0, 1).

Exercice IV.4. Déterminer la limite du taux de résistance du test de


rang signé défini par la statistique de van der Waerden donnée par
la relation (1V.3). On pourra utiliser la propriété suivante qui
généralise le théorème concernant la valeur moyenne d'unefonction.
Soit g une fonction strictement positive définie sur ]0, 1 [ et
intégrable sur [0, 1] et soit {Pn; n e IN*} une suite d'entiers tels que

\:1 n e IN* ,

Pn
n.

p Alors, pour que la suite {

} admette une limite À, il faut et il suffit que la suite n

de terme général

1 Pn . -Lg (

J n i=l n + 1

admette une limite L et l' on a

À L = f g(x) dx. o

D'après les relations (IV. 1) et (lV.3), le test considéré est défini par la
statistique

n ( R + J + 1 -IIi YDn = - L <1> - + 11 ]0 +oo[(X), n i=l 2 2 (n + 1) ·

199
V. PROBLEMES A UN ECHANTILLON

désigne la fonction de répartition de la loi

(0, 1), et sa région critique pour tester l'hypothèse Ho : "J.l = 0"


contre l'hypothèse Hl : "J.l > 0" est de la forme {VD

ca,n} .

En supposant le seuil a fixé et en raisonnant comme on l'a fait pour


le test de rang

signé de Wilcoxon (page 195 du tome 1), on montre aisément (on


laisse au lecteur le soin * m d'expliciter le raisonnement) que le taux
de résistance à l'acceptation 'ta,n est égal à -, n

où m* est l'entier défini par

1 n-m*-l 1 . 1 n-m* 1 .

-1 ( 1 J

-1 ( 1 J - £.J

-+ <c
-£.J<I> -+ . n i=1 2 2 (n + 1) a,n n i=l 2 2 (n + 1)

On se propose de chercher la limite À (n

+00) de 'ta,n (on remarquera que m* dépend de n, bien que cela


n'apparaisse pas explicitement). Si cette limite existe, elle réalise

*n-m-1

* n-m

= 1 - À.

lim

=lim

n-H.oo

n-Hoo
n

En appliquant la propriété donnée dans l'énoncé à la fonction g


définie par

-1 ( 1 x ) g(x) = <1> 2" + 2" '

c'est-à-dire, en fait, à la fonction J+ du test, on voit que la limite À


cherchée existe si et seulement si la suite {ca,n} admet une limite (n

+00) et que l'on a alors

f I-À. -1 1 x <1> ( - + - J dX = lim ca,n' o 2 2 n

+oo

Nous devons donc d'abord chercher cette dernière limite, si elle


existe. La valeur critique ca,n est définie par

Po(VD

c )=a a,n
et l'on peut montrer (voir corollaire 111.2.5 et théorème IV.2.I) que la
statistique

VD + IE( + n - 0 VD n ) J Vo(VD

200

V. PROBLEMES A UN ECHANTILLON

converge, quand n devient infini, vers la loi cH (0, 1). On a donc

[ c - lEo(VD

) ] + a,n Po (VD n

C ) == 1 - <1> , a,n

+ Vo(VDn)

d'où

+
+-1 C == lEo(VD n ) + Vo(VD n ) <1> (1 - a). a,n

D'après le théorème N.I.l, on a

+1

-1 ( 1 i ) lEo(VD n ) = - £.J <1> - + , 2n i=l 2 2 (n + 1)

1 n ( -1 ( 1 i )) 2 V o (VD

) = 2 L <1> - + . 4n i=l 2 2 (n + 1)

La propriété donnée dans l'énoncé nous conduit à

. + 1 f I -1 ( 1 x ) lim lEo(VDn) = - <1> - + - dx n-H-oo 2 0 2 2

et à

lim Vo(VD

) = 0 n-Hoo

pUIsque
1

[ -IIi ] 2 f I -1 1 x 2 lim - £.J <1> - + = <1> - + - dx. n-H

n i=l ( 2 2 (n + IJ J (2 2) ]

On a donc

1 f I -1 ( 1 x ) lim c =- <1> -+- dx n-H-oo a,n 2 0 2 2

et l'on remarque que cette limite ne dépend pas de a. On la calcule


en posant

-1 ( 1 x ) t=<I> 2+2 '

soit x = 2 <I>(t) - 1,

201

V. PROBLEMES A UN ECHANTILLON
d'où, en désignant par cp la densité de la loi eN (0, 1) et en se
souvenant que cp'(t) = - t cp(t), f +oo +00 lim c = t cp(t) dt = - f cp'(t)
dt = [ cp(t) t

=.

. a,n y £.1t n

+oo 0 0

Enfin, la limite À du taux de résistance à l'acceptation 'ta,n est


définie par

f 1-Â. -1 1 x 1 o cI> h.. + -;:-)dX = v2x .

En effectuant le même changement de variable, on obtient

-1 l-Â. f <l> (1-À/2) -11 x <1>-1 (1-Â./2) f cI> ( - + - ) dx = 2 t cp(t) dt =


- 2 [ cp(t) ] 0 o 2 2 0

2 -1 =

[ _ e- t /2]<1> (1-Â./2)

d'où
soit

1 - exp [-

[ cI> -1 ( 1 -

J r] =

, [ cI> ,1 (1 -

J r = Log 4,

-1 ( À J cI> 1 - 2' = y Log 4,

À = 2 ( 1 - <I> O' Log 4) = 2 ( 1 - <I>(O.1774)) = 2 (1 - 0.88(5),

À = 0.239.

En ce qui concerne le taux de résistance au rejet 'tr,n, nous aurons


des résultats m* analogues puisqu'on peut montrer qu'il est égal à -,
où m* est l'entier défini par n

202
V. PROBLEMES A UN ECHANTILLON

-1 ( 1 i J 1

-1 ( 1 1 J - £.J <I> -+ <c

- £.J <I> -+ . n i=n-m.+l 2 2 (n + 1) a. n i=n-m. 2 2 (n + 1)

La limite fl de 'tr,n (n

+00) est alors définie par

f I -1 ( 1 x J <I> - + - dx = lim ca.,n' 1 2 2 n

+oo -Jl

Un calcul analogue à celui que nous avons effectué conduit à À = fl.


On peut aussi remarquer que, puisque l'on a

J I-À 1 -1 1 x 1 -1 1 x

(2 + 2 ) dx = 2 f

(2 + 2 ) dx, o 0

on a également
J l-À 1

'l C + : JdX = J

-l C + : J dx, o l-À

d'où À = fl . Concluons en écrivant que

lim 'ta,n = lim 'tr,n = 0.239. n

+oo n

+oo

Exercice V.I. Montrer que la fonction t:(.) définie à la section V.1.a est
décroissante.

Etant donné une réalisation XI,... , X n de l'échantillon, on considère


la fonction t: définie à partir de la fonction score J+ par

+1

+ ( rT(fl) J 011 tn(fl) = - £.J J - 8 ]O,+oo[(Xi - fl), n i=1 n + 1


où r T (fl) désigne le rang de 1Xi - fll dans la suite lx 1 - fll, ... , IXn -
fll. Montrons que cette fonction est décroissante, en nous souvenant
du fait que la fonction J+ est croissante et positive sur [0, 1 [.

203

V. PROBLEMES A UN ECHANTILLON

On peut d'abord remarquer que, SI J.1 est inférieur à tous les Xi, soit
si J.1 < Inf xi' on a l

+1

+ ( r 7 (J.1) J 1

+ ( i J t n (J.1) = - £.J J - = - £.J J - n i=l n + 1 n i=l n + 1

et que, si J.1 > Sup xi' on a t

(J.1) = O. Ce sont là respectivement la plus grande et la plus 1

n
petite valeur que peut prendre t

(J.1). Considérons alors deux nombres réels J.1 et J.1' tels que J.1 <
J.1' et comparons

(J.1) et t

(J.1 '). Un premier cas à examiner est celui où

{i ; Xi> J.1} = {i ; Xi> J.1'},

c'est-à-dire le cas où aucun des Xi n'appartient à l'intervalle [J.1,


J.1'[. Désignant par 1 l'ensemble écrit ci -dessus, on a

+1

+ ( r 7 (J.1) J t n (J.1) = - £.J J n ieI n+l

et

1 ( r:t"(J.1 1 ) J

(J.1') = - L J+ 1 . n ieI n+l

D'autre part,
\:1 i e 1, 0 < Xi - J.1' < Xi - J.1, d'où IXi - J.1'1 < IXi - J.11

et

\:1 i E 1, Xi - J.1' < Xi - J.1

0, d'où IXi - J.1'1 > 1Xi - J.11.

On en déduit que _

\:1 i e 1,

r7(J.1')

r7(Jl),

d'où

\:1 i e 1,

J+ ( r7(JlI) J
J+ ( r7(Jl) J . n+l n+l

On a donc bien

(Jl')

(Jl).

Le second cas est celui où l'un, au moins, des Xi appartient à


l'intervalle [Jl, Jl'[. Supposons qu'il n'yen ait qu'un, soit xi ' et que, de
plus, Jl et Jl' soient suffisamment o proches de xi pour que l'on ait o

204

v. PROBLEMES A UN ECHANTILLON

(1)

(Jl) = r
(Jl') = 1. la la

On a alors, en posant 1 = {i ; Xi> Jl'},

(+J+1

+ ri (Jl) tn(Jl) = - £.J J nie 1 U { io } n + 1

et

+, 1

+ ( r7(JlI) J tn(Jl) = - £.J J n ieI n+l

et, en raisonnant comme dans le premier cas et en tenant compte de


(1), on peut montrer que

\:1 i e 1,

r7(Jl')

r7(Jl).

On en déduit
1

( r 7 (Jl) J t:(Jl')

- £.J J+

t:(Jl). n ieI n+l

La fonction t: est bien décroissante.

Exercice V.2. Démonstration du théorème V.1.1 Montrer que la


fonction

(.) est une fonction en escalier décroissante dont l'ensemble des


discontinuités est

{ x(i) + x(j) . 1 < . < . < } , _1_J_n 2

XC) + x(j) et dont l'amplitude du saut au point 1 est égale à 2

( J+ ( j - i ) _ J+ ( j - i + 1 )) . n n+l n+l

On utilisera les résultats de l'exercice précédent et on pourra


s'inspirer de la démonstration du théorème VII.2.1 chap./V.
D'après les résultats de l'exercice V.1, on sait que la fonction

est décroissante et que, pour Jl < Jl', on ne peut avoir t:(Jl) < t:(Jl')
que si . soit l'un des Xi appartient à l'intervalle [Jl, Jl'[, . soit aucun
des Xi n'appartient à l'intervalle [Jl, Jl'[, mais il existe 1 tel

que

Xi > Jl' et r7(Jl') < r7(Jl).

205

V. PROBLEMES A UN ECHANTILLON

Cette dernière condition exige que, de plus, il existe j (* i) tel que

x. < Jl , J

+ + r j (Jl) < ri (Jl)

et
rj(JlI) > r7(Jl').

On doit donc avoir

IXj - JlI < 1Xi - JlI et

1Xi - Jl'I < IXj - Jl'I,

soit

Jl - Xj < Xi - Jl

et

, 1 xi - Jl < Jl - Xj,

c'est -à-dire

x. + x. Jl< 1 J <Jl'. 2
On en conclut que la fonction t

est en escalier et que les seuls points en lesquels elle peut admettre
une discontinuité sont les points d'abscisse Xi et ceux d'abscisse x.
+ x. 1 J. . (1 * J). 2

En appelant X(I),'" , x(n) la réalisation de l'échantillon ordonné, on


peut dire que l'ensemble des points d'éventuelle discontinuité est

{ x(i) + x u ) . 1 < . < . < } , _I_J_n 2

On peut supposer que tous les éléments de cet ensemble sont


distincts puisque, la loi F de base étant continue, la probabilité pour
qu'il en soit ainsi est égale à 1. xC) + x u ) Déterminons l'amplitude
du saut au point d'abscisse 1 . 2

Si i = j, l'étude effectuée à l'exercice V.l montre que, pour Jl et Jl'


suffisamment proches de X(i), on a

+ 1 + 1 + ( 1 ) 1 ( + + ( 1 )) tn(Jl) - tn(Jl) = - - J - = - - J (0) - J , n n+l n


n+l

puisque J+ (0) = O.
X(i) + x u ) Si i < j, on a, pour J.1 et Jl' suffisamment proches de , 2

rj(Jl)=j-i+l et r7(Jl ' )=j-i,

206

V. PROBLEMES A UN ECHANTILLON

d'où

1 ( ( J . - i J (J ' - i + 1 JJ t:(Jl') - t:(Jl) = - J+ - J+ . n n+l n+l

Le résultat demandé est donc établi.

Remarques. 1) Si la fonction .r- n'est pas strictement croissante,


certaines des amplitudes de saut calculées ci-dessus peuvent être
nulles. Il n'y aura, en fait, pas de saut au point correspondant. C'est
pourquoi nous avons utilisé plus haut l'expression "éventuelle
discontinuité".

2) On peut vérifier que la somme des amplitudes de tous les sauts


est bien égale à la variation totale de la fonction telle qu'on l'a
calculée à l'exercice V.1. On a, en effet,
1 L ( + ( j - i J + ( j - i + 1 JJ 1 i i ( + ( j - i J + ( j - i + 1 JJ n l

n J n+l - J n+l =-;j=li=l J n+l - J n+1

1 n . =--LJ+ ( J J . n j= 1 n + 1

Exercice V.3. Avec les notations de la section V.l, on désigne par B


une partie non vide de l'ensemble {(i, j) ; 1

n} telle que

( (i, j) e B) => (n - j + 1, n - i + 1) e B ).

Pour tout entier m de rN*, on pose

Am = {(i, j) e B ; i

m}.
Montrer que le coefficient de tolérance de l'estimateur

X ( O ) + X U ) MED { I ; (i, j) e B} 2

* m est égal à -, où n

m* = Max {m e rN; Card B + 1

2 Card A m +1}.

On pourra d'inspirer de la démonstration du théorème V.l.9.


(Hettmansperger (1984))

207

v. PROBLEMES A UN ECHANTILLON

Remarquons tout d'abord que la suite {Am; m e lN.} est décroissante


relativement à la relation d'inclusion, ce qui implique que, si un entier
m vérifie la relation

(1)
Card B + 1

2 Card A m +1,

tous les entiers qui lui sont inférieurs la vérifient également. D'autre
part, puisque Al = B et B * 0, l'entier 0 vérifie la relation (1) et,
puisque A n +1 = 0, l'entier n ne la vérifie pas. On a donc 0

m. < n et

\:Im

m., \:Im>m.,

Card B+l

2 Card A m +1, Card B+l > 2 Card A m +1.

Désignons par Jln(B) l'estimateur considéré, c'est-à-dire la médiane


de l'ensemble

X ( ' ) + X (j) E = { l ; (i, j) e B}. 2

La propriété de symétrie imposée à B fait que les coefficients de


tolérance à gauche et à droite de Jln(B) sont égaux (voir définition
II.4.1 chap. II). Nous pouvons alors nous inspirer du début de la
démonstration du théorème V.1.9, c'est-à-dire chercher le plus petit
entier m tel que i) X(m+1)

iln(B), ii) si l'on fixe X(m+2),... , x(n) et si l'on fait tendre X(m+ 1) vers
- 00, alors Jln(B) tend vers - 00.

La loi de base étant continue, on peut supposer que les nombres


X(i) + x(j) sont distincts et, donc, que Card E = Card B. Distinguons
alors deux cas, suivant la parité de Card B.

Premier cas. Supposons Card B impair et posons Card B = 2k + 1 (k

0). Nous savons alors que fln(B) est le (k + l)ème plus petit élément
de E. Soit m un élément de {l, ... t n}. Lorsque X(m+1) tend vers - 00,
il en est de même de X(l), ... , X(m) et la médiane J1n(B) tend vers -
00 si le nombre des éléments de E pour lesquels i

m + 1 est supérieur ou égal à k + 1, c'est-à-dire si

Card {(i, j ) e B ; i

m + 1}

k + 1,

soit si

CardB+l Card B - Card A m +2


2

ou, encore, si

2 Card A m +2

Card B - 1.

208

V. PROBLEMES A UN ECHANTILLON

Si l'on pose

m* = Min {m; 2 Card A m +2

Card B - 1},

on a également, en tenant compte des remarques faites au début de


la solution,

m * - 1 = Max {m ; 2 Card A m +2 > Card B - 1},


soit

m * = Max {m ; 2 Card A m + 1 > Card B - 1}.

Puisque Card B est impair, donc Card B - 1 pair, on a

(2 Card A m +1 > Card B - 1) <=> (2 Card A m +1

Card B + 1),

d'où

m * = Max {m ; 2 Card A m + 1

Card B + 1}.

* m Pour pouvoir affirmer que le coefficient de tolérance cherché est


égal à -, il faut n

'" encore montrer que X(m.+1)

Jln(B).
Or, pour tout élément (i, j) de Am.+1, on a

X(i) + x(j) X(m.+1)

puisque m* + 1

j. De plus, puisque m* réalise

2 Card Am.+1

Card B + 1,

soit

Card Am.+1

k + 1,

X(i) + x(j) . . le plus petit des nombres , avec (l, J) e Am.+b est
inférieur ou égal à iln(B). 2

On a donc bien
X(m.+1)

n(B)

* m et - est le coefficient de tolérance cherché. n

209

V. PROBLEMES A UN ECHANTILLON

Deuxième cas. Supposons Card B pair et posons Card B = 2k (k >


0). On sait que f1n(B) est la demi-somme du kème et du (k + l)ème
plus petits éléments de E. En raisonnant comme dans le premier
cas, on doit réaliser

Card {(i, j) E B ; i

m + l}

k,

soit
CardB Card B - Card A m +2

ou, encore,

2 Card A m +2

Card B.

Si l'on pose

m* = Min {m; 2 Card A m +2

Card B},

on a également

m* = Max {m; 2 Card A m +l > Card B},

soit, en tenant compte du fait que Card B est impair,


m * = Max {m ; 2 Card A m + 1

Card B + 1 } .

La fin du raisonnement, consistant à montrer que x(m.+l)

Jln(B), est analogue à celle effectuée dans le premier cas et nous


laissons au lecteur le soin de l'expliciter.

Exercice V.4. Soit F une loi fortement unimodale. 1) Montrer que, si


F appartient à "s, on a

U[-l, 1] <s F <s

e(O, 1).

On pourra se reporter à fa question 4 de l'exercice N.5 chap. Ill. 2)


Montrer que la loi F* = F * F estfortement unimodale. On utilisera les
propriétés établies aux questions 1 et 2 de l'exercice IV.5 chap. Ill,
ainsi que les résultats du théorème R.lII.4.2 en montrant, de plus,
que, si F et G sont deux lois appartenant à ", on a (F>(

)G) => (F>iG).

1) La propriété demandée a été établie à la question 4 de l'exercice


IV.5 chap. III.
2) On sait que que la loi F* admet la densité r* définie par

'il x E IR, r* (x) = f f(x - t) f(t) dl. IR

210

V. PROBLEMES A UN ECHANTILLON

D'après les questions 1 et 2 de l'exercice cité en référence, on doit


montrer que, si u, Xl et x2 sont trois nombres réels tels que u > 0, Xl
< x2, on a

(1)

f*(XI) (X2 + u)

(X2) (Xl + u).

On remarque d'abord que, puisque le support de F est un intervalle,


borné ou non, comme on l'a établi à la question 2 de l'exercice cité
en référence, il en est de même de celui de F*. Il s'ensuit que la
nullité de (Xl + u) entraîne celle de (Xl) ou de (X2 + u) puisque
Xl < Xl + U

et

Xl + u < X2 + u.

L'inégalité (1) est alors vérifiée dans ce cas. Comme elle l'est
également, de façon évidente, lorsque f*(X2 + u) = 0, il reste à
l'établir dans le cas où (Xl + u) et (X2 + u) sont non nuls. Montrons
donc que

* * f (xl) f (X 2 ) *

* f (Xl + u) f (X 2 + u) soit que l f(x l - t) f(t) dt l f(x 2 - t) f(t) dt rR rR

l f(x l + U - t) f(t) dt l f(X2 + u - t) f(t) dt rR rR

En posant z = Xl - t dans les intégrales du premier membre et z = X2


- t dans celles du second, on se ramène à montrer que

l f(z) f(x l - z) dz rR

l f(z) f(x 2 - z) dz rR
f f(z + u) f(x l - z) dz rR

f f( z + u) f( X2 - z) dz Ut

que l'on peut écrire sous la forme

(2)

IE 01 (<p)

IE G2 (<p)

211

V. PROBLEMES A UN ECHANTll..LON

en posant

{ f(z) / f(z + u) <p( z) = o


si f(z + u) * 0,

si f(z+ u) = 0,

et en désignant par Gi (i e (l, 2}) la loi de probabilité dont la densité


gi est défmie par

f(z + u) f(x i - z) gi(z) = l f(z + u) f(x i - z) dz rR

On sait que la fonction <p est croissante lorsque f(z + u) * 0 (voir


question 1 de l'exercice IV.5 chap. III), donc en particulier sur les
supports des lois Gi. D'après le théorème R.llI.4.2, l'inégalité (2) est
vérifiée si l'on montre que G2 >i G1. n est, en fait, aisé de montrer
que G2 >(.l) G1, puisque, toujours d'après le théorème R.llI.4.2, il
suffit pour cela que la fonction g2 / gl soit croissante lorsqu'elle est
définie. Or

g2(Z) f(x 2 - z) f( (-z) - (-x 2 ) ) =K =K gl(z) f(x 1 - z) f( (-z) - (-xl) )

où K est une constante positive. En se servant du fait que f est à


rapport de vraisemblance monotone pour un paramètre de
localisation (question 2 de l'exercice cité en référence), on g2 (z) voit
que est une fonction décroissante de (-z), donc une fonction
croissante de z. gl (z)
n reste, enfin, à montrer que, si F et G sont deux lois appartenant à
", on a

( F >(

) G) => (F >i G ).

Cette propriété est une conséquence du théorème R.lII.4.3, mais on


peut l'établir directement de la façon suivante. Soit x tel que G(x) >
O. D'après la définition R.llI.4.1, on a

\:1 YI < x,

\:1 Y2

x,

F(Y2) - F(Y1)

G(Y2) - G(Y1)

F(x) - F(Y1) G(x) - G(Y1)

si, de plus, G(Y1) < G(x).


212

V. PROBLEMES A UN ECHANTILLON

En faisant tendre YI vers - 00 et Y2 vers +00, on obtient

F(x)

G(x).

Si la fonction G s'annule, on pose

a = Sup (x ; G(x) = O}

et l'on a alors, G étant continue, G(a) = O. D'autre part, puisque

\:1 x > a, 0

F(x) < G(x),

on a (x -+ a) F(a) = 0, d'où
( G(x) = 0) => (F(x) = 0 ).

On a bien établi que

\:1 x e IR,

F(x)

G(x),

soit

F >i G,

ce qui achève la démonstration.

Exercice V.S. Utilisation d'une méthode graphique On se place dans


le cadre du modèle de localisation (1.1.'" s) et l'on se propose de
trouver une méthode graphique pour estimer le paramètre Jl ou pour
tester l' hypothèse Ho : "Jl = 0" contre l' hypothèse Hl : "Jl :1= 0" à
partir de la réalisation x},..., X n de l'échantillon. Pour cela, on
considère, dans un repère cartesien, les n points Mi d'abscisse Xi (1
i

n) et d'ordonnée nulle et l'on désigne par Aij le point d'intersection de


la droite de coefficient directeur égal à 1 qui passe par Mi et de la
droite de coefficient directeur égal à -1 qui passe par M j . Calculer
l'abscisse aij de chacun des points Aij et, en s'inspirant de l'exercice
VIlA chap./V, proposer une méthode graphique pour déterminer la
valeur de l' es timate ur de Jl de Hodges-Lehmann associé à la
statistique de WiIcoxon W

, ainsi que l'intervalle de confiance pour Jl de niveau 1 - a (0 < a <


1). Déduire de cet intervalle la conclusion du test de niveau a de l'
hypothèse Ho contre l' hypothèse HI.

213

V. PROBLEMES A UN ECHANTILLON

x. + x. On a, évidemment, aij = aji = 1 J . Il suffit alors de considérer


les projections 2

A' ij des points Aij sur l'axe des abscisses en remarquant que A' ij =
A' ji et que A I M d . n (n + 1) . (1 . . ) l , f . , ii = i et e raIsonner sur
ces pOInts

n comme on a aH a 2
l'exercice VII.4 chap. IV sur les points Mij, l'axe des ordonnées étant
remplacé par l'axe des abscisses. C'est ainsi que la valeur de
l'estimateur de Jl de Hodges-Lehmann associé à la statistique de
Wilcoxon w;. est l'abscisse du "point médian" (voir exemple V.1.5) et
que l'intervalle de confiance pour Jl de niveau 1 - a est obtenu en
prenant les abscisses des (k+ l)èmes points A\j rencontrés lorsqu'on
parcourt l'axe des abscisses dans chacun des deux sens (voir V.2).
L'entier k est déterminé à partir de la loi de la statistique

pour Jl = 0, cette loi étant tabulée (table G) ou approchée par une loi
normale (corollaire IIL2.5). Enfin, dans le cas du test, on accepte ou
non l'hypothèse Ho selon que l'origine se trouve, ou non, entre les
deux points A ' ij déterminés ci-dessus.

Exercice V.6. On se place dans le modèle (1.1." s) et l'on considère


les neuf observations suivantes

2.235 1.341

3.669 2.685

1.476 2.405

1.886 1.406
2.227

Déterminer des estimations ponctuelles du paramètre de localisation


Jl, ainsi que des intervalles de confiance à 95% de ce même
paramètre, en utilisant successivement 1) la statistique de Wilcoxon,
2) le test de Student, 3) fa statistique de van de Waerden. Pour
obtenir le dernier des intervalles de confiance demandés, on sera
amené à dresser une table partielle de la statistique de van der
Waerden.

Désignons par Xi (1

9) les observations et par x(i) (1

9) les observations rangées. On a, avec les notations habituelles,

9 X9= à L X(i) = 2.148, i=l

X9 = x(5) = 2.227,

2]4

V. PROBLEMES A UN ECHANTILLON
9s

L X[ - X

= 0.4893, i=l

d'où

S9 = 0.6995.

1) On sait que la valeur prise par l'estimateur déduit de la statistique


de rang signé de Wilcoxon est la médiane de l'ensemble

A = { x(i) + x(j) . 1 < . < . < 9 } , _I_J- , 2

soit le 23 ème élément dans l'ordre croissant de cet ensemble qui en


comporte 45. Le lecteur est invité à dresser un tableau analogue à
celui de l'exemple V.1.8 du tome 1 (p. 206). En désignant par

k) (1

45) les éléments ordonnés de l'ensemble A, on obtient


'" (X(4) + X(6») Jl9 = a(23) = = 2.0605. 2

Pour obtenir l'intervalle de confiance à 95%, nous devons (voir V.2


du tome 1) déterminer l'entier k tel que P o(W9

k) soit le plus proche possible de a/2, a étant ici égal à 0.05 (= 1 -


0.95). La table G du tome 1 nous donne

P o (W9

5) = 0.0195

et

P o (W9

6) = 0.0273.

Cette seconde valeur étant la plus proche de 0.025, nous adoptons


l'intervalle de confiance [a(7), a(39)] pour lequel on a 1 - a = 0.945.
On lit, dans le tableau que l'on a dressé,

X(1) +X(4) a(7) = = 1.6135 2


et

a(39) = X(8) = 2.685.

D'où l'intervalle de confiance [1.613, 2.685].

2) La valeur de l'estimateur de Student est ici simplement x9' soit


2.148 et l'intervalle de confiance est [x9 - À, x9 + À] avec

À=

Stil (1-

).

2]5

V. PROBLEMES A UN ECHANTll..LON

Une table de la loi de Student nous donne

Stg 1 (0.975) = 2.306,


d'où À = 0.570 et l'intervalle de confiance [1.578, 2.718].

3) La statistique de van der Waerden est ici définie par

9+1

-1 1 i

VD 9 =- £.J 'V (-+-)Li' 9 i=l 2 9+ 1

où <1> désigne la fonction de répartition de la loi .N (0, 1) et, d'après


le théorème V .1.1, la fonction vd; associée à cette statistique est en
escalier et décroissante. Ses points de discontinuité sont les
éléments de l'ensemble A défini à la question 1 et l'amplitude du
saut x(i) + x(j) au point est égale à 2

1 [ -1 ( 1 j-i ) -1 ( 1 j-i+l )] - <1> -+- -<1> -+ . 9 2 10 2 10

-1 ( 1 i J La valeur de M: = lEo(VD;) est ici égale à - £.J <1> - + 2 x 9


i=l 2 2 x 10

et une
table de la loi <1>-1 nous donne

= 3.3835.

Pour obtenir la valeur de l'estimateur de Hodges-Lehmann (définition


V.1.2), nous devons chercher pour quelle valeur de la variable la
fonction vd; traverse la valeur M:. Le lecteur est alors invité à
complèter le tableau dressé à la question 1 en s'inspirant de la table
9 (page 168 du tome 1) c'est-à-dire en inscrivant, dans chacune des
45 cases du tableau, l'amplitude multipliée par 9 du saut de la
fonction vd; ainsi que la valeur prise par . x(i) + x(j) 9 Vd;Ol) pour Il
Juste plus grand que . 2

On découvre ainsi que · pour Jl juste après a(23)' on a 9 vd;(Jl) =


3.389, · pour J.l juste après a(24)' on a 9 vd;(J.l) = 3.223,

d'où

"" * ** X(3) + X(8) J.l9 = Jl9 = Jl9 =

24) = = 2.0805. 2

216
V. PROBLEMES A UN ECHANTILLON

On remarque que cette valeur de l' estimateur est proche de celle


obtenue à la première question qui était

23). Pour obtenir l'intervalle de confiance cherché, il nous faut


disposer d'une table de la fonction de répartition de la statistique
VO;, car une approximation normale est trop imprécise pour n = 9.
En l'absence d'une telle table, nous pouvons la dresser, au moins
partiellement, en remarquant que les valeurs prises par VO; sont les
nombres

-1 ( 1 i J £.JcI> -+- ie J 2 20 '

Je

( {l, ... , 9} ),

en convenant que cette somme est nulle si J est la partie vide. Pour
chacune de ces 2 9 = 512 valeurs, la fonction de répartition s'accroît
de 1/512 et, puisqu'ici a/2 = 0.025, il nous suffit de connaître les 13
plus petites valeurs prises par VO; car

12 13 - <0.025 <-. 512 512


En remarquant, de plus, que la fonction J + définie par

-1 ( 1 u J J\u)=c1I 2"+2"

est convexe sur [0, 1[ et nulle en 0, on a, pour tout couple (U1, U2)
de nombres positifs distincts de somme inférieure à 1,

j+(U1) + Y(U2) < j+(U1 + U2),

soit, si 1

i<j

9 et i + j

9,

-1 ( 1 i J -1 ( 1 j J -1 ( 1 i + j J cI> -+- +CI> -+- <cI> -+- . 2 20 2 20 2


20

Cette remarque aide à ranger par ordre croissant les 13 premières


valeurs de VO; et l'on s'aperçoit aisén1ent que la 12 ème et la 13
ème sont obtenues pour j = {2, 4} et j = { 1, 5} et respectivement
égales à 0.778 et 0.800. On a donc + 12 Po( 9 V0 9

0.778 ) = - = 0.0234 512


217

V. PROBLEMES A UN ECHANTILLON

et

+ 13 Po( 9 VD 9

0.800) = - = 0.0254. 512

a Cette dernière valeur étant la plus proche de -, on cherche, enfin,


dans le tableau 2 déjà dressé, pour quelle valeur de Jl la fonction vd;
traverse la valeur 0.800. On trouve ainsi que

· pour Jl juste après a(39), on a 9 v

(Jl) = 0.841, · pour Jl juste après a(40), on a 9 vd;(Jl) = 0.674.

L'intervalle de confiance cherché est donc [

6),

40)] et l'on a
a(6) = X(3) = 1.476

et

X(4) + X(9) a(40) = = 2.7775. 2

D'où l'intervalle de confiance [1.476, 2.778].

Exercice VI.I. On se propose de montrer, sur un exemple, que la


courbe d'influence d'un R -estimateur peut être rendue aussi grande
que l'on veut pour certaines lois asymétriques. 1) Montrer, à partir de
la relation (V.7), que, si la loi F appartient à " et admet pour support
un intervalle, la courbe d'influence de l' estimateur

n associé à w: est donnée par

\:1 x e Supp (F),

'" 1/2 - F( 2M(F) - x) Ic(x ; F, Jl) = r- f( 2M(F) - Y ) f(y) dy

-00

et déduire de la relation (V .5) que


1 2M (F) = (F* r 1 (2)'

où l'on a posé p* = F * F. 2) Etant donné deux nombres réels E et a


tels que

o < E < a,

2 a E = 1,

218

V. PROBLEMES A UN ECHANTILLON

on considère la loi F dont la densité f est définie par

f = a 11 [-£,0] + E 11 [D,a].

Montrer que l'on a

o
2 M(F)

a-E

et en déduire que la courbe d'influence de l'estimateur Iln associé à


W

peut être rendue aussi grande que l' on veut pour cette loi F.

Pour alléger la notation, posons, dans la relation (V. 7), À = 2 M(F).


Elle s'écrit alors, en supposant que x appartient au support de F,

r oo 2 f(À. - y) f(y) dy + r-( ô/À. - y) - F(À. - y) ) dF(y) £=0 -00 _00

dM(F ) £

dE

+00 + f F(À. - y) d( ô/y) - F(y) ) = O.

-00

On a
f +00 f À-x

x(À - y) dF(y) = dF(y) = F(À - x)

-00

-00

et

r OO F(À. - y) d( Ôx(y) ) = F(À. - x),

-00

d'où

+00 +00 2 Ic(x ; F,I!) f f(À. - y) f(y) dy + 2 F(À. - x) - 2 f F(À. - y) dF(y)


= O.

-00
_00

En tenant compte de la relation (V.5) appliquée à F, on obtient

_ 1/2 - F(À - x) Ic(x ; F, Jl) = r-f(À. - y) f(y) dy

-00

219

V. PROBLEMES A UN ECHANTILLON

De plus, d'après la relation (V.5), on a

* 1 F (À) = - 2

* et, puisque la loi F admet pour support un intervalle, il en est de


même de la loi F . La fonction F* est donc strictement croissante sur
ce support et l'on peut écrire

1 À = (F*r 1 ( - ). 2
2) Pour montrer que

a - £,

il suffit de montrer que l'on a

* 1 * F (0)

F (a - E). 2

Si X et Y désignent deux variables aléatoires indépendantes de loi F,


la loi F* est celle de X + Y. Puisque la loi F est uniforme sur chacun
des intervalles [-£, 0] et 1 [0, a] et attribue la probabilité - à chacun
d'eux, la loi du couple (X, Y), c'est-à-dire la 2 loi F

F, est uniforme sur chacun des quatre pavés [-E,0]2, [0, a]2, [-£, 0] X
[0, a] et 1 [0, a] x [-E, 0] et elle attribue la probabilité à chacun d'eux.
4

Le calcul de
F* (0) = P(X + Y

0)

et de

* F (a - £) = P(X + Y

a - E)

se ramène donc à des calculs d'aires (le lecteur est invité à faire une
figure) et l'on obtient

2 * 1 E F (0) = - + 4 4

* 1 (a - E) 2 £ (2a - E) F (a - £) = - + 2 + 4 8 a 2

2 1 * 1 Puisque 0 < E < a et 2a E = 1, on a £ < -, d'où F (0) <-. 2 2

220

V. PROBLEMES A UN ECHANTILLON
Un calcul simple conduit à

4 2 ... 4£ -8£ +7 F (a - £) =

1 1 et il est aisé de vérifier que cette expression est supérieure à - SI


£2 < - 2 2

Enfin, pour montrer que l'on peut rendre la courbe d'influence aussi
grande que l'on veut, on remarque d'abord que le numérateur de
Ic(x; F,

) n'est, en général, pas nul (il ne l'est, en fait, que pour une seule
valeur de x). Il suffit alors de montrer que le dénominateur, qui ne
dépend pas de x, peut être rendu aussi petit que l'on veut par un
choix judicieux de £. On a

f<>O £0.. - x) f(x) dx = {fO.. - x) f(x) dx -00 -E o a = a f f(À - x) dx + £


f f(À - x) dx -E 0 o 1

E =a f £dx+£ f £dx+ f adx -E 0 1

= 2a £2 + À £2
= £ + À £2 < £ + a £2 = 3 £ . 2

En choisissant £ assez proche de 0, on peut donc rendre la courbe


d'influence aussi grande que l'on veut.

Remarque. Il est possible de trouver un exemple pour lequel le


support de F est rR. Il suffit, pour cela, de remplacer les deux lois
uniformes dont F est une combinaison convexe par deux lois
exponentielles, c'est-à-dire de poser

f(x) = a e x/E 11 fi{ -(x) + £ e- x/a 11 fi{ +(x)

en imposant encore 0 < £ < a et 2 a £ = 1. Nous n'avons pas choisi


de développer cet exemple car les calculs y sont un peu plus longs,
mais ils n'offrent aucune difficulté et le lecteur est invité à les
effectuer. Signalons-lui simplement qu'il sera amené à montrer que 0
< 2 M(F) < a.

221

Chapitre VI

COMPARAISON DE k TRAITEMENTS
Exercice II.1 l) Avec les notations de la section Il.l.a, montrer que /'
on a

12 k R} K - L

- 3 (N + 1). N - N (N + 1) j= 1 n j

2) En déduire que l'on a KN

N - 1 et que l'égalité a lieu si et seulement si les entiers nj sont tous


égaux à 1.

1) Il suffit, pour établir la relation, de développer les carrés. En effet

k N 1 2 k k N 1 2k Ln. ( R.. -

) =L n.R?-(N+l)L n.R..+ (

) Ln. ' I J J 2 . 1 J J . 1 J J 2 ' l J J= J= J= J=

k R.J . k N ( N + 1 )2 =

- - (N + l)

R' j + . J=1 n. J=1 4 J


Or

k k n j N,. N (N + 1) L R. = L L R.. = L 1 = . . 1 J . 1 . 1 IJ . 1 2 J= J=
1= 1=

On a donc

K _ 12 [ i RoJ _ N(N+ })2 ] N - N (N + 1) J=1 n j 4

kR

'J £.J - - 3 (N + 1). N (N + 1) j= 1 n. J

12

223

VI. COMPARAISON DE k TRAITEMENTS


2) On sait que, si l'on désigne par x la moyenne arithmétique de n
nombres Xi (1

n), on a

nn

(_)2

2 -2 £.J Xi - X = £.J Xi - n X , i= 1 i= 1

d'où

n nx2

L xr, i=l l'égalité ayant lieu si et seulement si les Xi sont tous égaux.

En appliquant, pour chaque valeur de j, cette inégalité aux nj


variables Rij, on obtient

2 n' R..

= nj

j
R ij , n. 1=1 J

d'où

k nj KN< 12 LLR

.-3(N+l). - N (N + 1) j=l i=l IJ

Or

k nj N L L R

. = L i 2 = N (N + 1) (2N + 1) , . 1 . 1 IJ . 1 6 J= 1= 1=

d'où

KN

2 (2N + 1) - 3 (N + 1),

KN

N - 1.
De plus, l'égalité a lieu si et seulement si, pour chaque valeur de j,
on a

n' J n2

2 nj R.j = £.J R ij , i=l

ce qui exige l'égalité des nj variables Rij. Cette éventualité est à


rejeter si nj > 1. puisqu'on suppose que les N observations ne
comportent pas d'ex-aequo. On aura donc KN = N - 1 si et
seulement si les entiers nj sont tous égaux à 1, ce qui, sur le plan
statistique, est inintéressant!

Exercice II.2. Montrer que si, dans la statistique donnée en (11.5),


section II.1.c, or. remplace les observations par leurs rangs, on
obtient une fonction croissante de KN. On pou"a utiliser les résultats
de l'exercice II.1.

224

VI. COMPARAISON DE k TRAITEMENTS

Désignons par TN la statistique obtenue en remplaçant les Xij par


les Rij dans la statistique donnée en (11.5). Après avoir remarqué
que l'on doit remplacer X.. par la N + 1 moyenne des N variables Rij,
soit par -, on obtient 2

k _ N+1 2 L n. ( R..-- ) N - k j=l J J 2 TN=

k nj L L (R ï - R..)2 . 1 . 1 J J J= 1=

-1 N - k [ 12 k nj _ 2 ] = - KN L L (R ij - R 'j) . k - 1 N (N + 1) j=l i=l

Or, d'après la relation écrite au début de la solution de la question 2


de l'exercice ILl, on a

nj nj

-2

(Rij - R.j) =

R ij - nj R .j, 1= 1 1= 1

d'où

k nj k nj k LL (R.. - R .)2 = LLR


. - Ln. R2. . 1 . IJ .J . 1 . IJ. J .J J= 1=1 J= 1=1 J=l

Nk2_

.2

R' j -£.JI -£.J- . 1 . l n. 1= J= J

k 2 = N (N + 1) (2N + 1) _ L R. j . 6 j=l n. J

On en déduit [ k 2 ] -1 N - k 12 R' j T N = - KN 2 (2N + 1) -.

- , k - 1 N (N + 1) J=l n j

soit, d'après l'expression de KN obtenue à la question 1 de l'exercice


II.1,

225

VI. COMPARAISON DE k TRAITEMENTS

N - k -1 TN=- K N [4N+2-(K N +3(N+l»] k - 1

N - k KN
k - 1 N - 1 - KN

Cette fonction de KN est une fonction homographique croissante.

Exercice II.3. Avec les hypothèses et les notations du théorème


Il.1.5, on se propose de montrer que la loi du vecteur T = (TI, ... , T
k) converge vers la loi eN k(O, A) grâce à l(l méthode des
projections définie au théorème IV.2.3 chap. IV et utilisée dans le
théorème IV.2.6 chap. IV. 1) Question préliminaire. Soit X}, ... , X n
un échantillon de la loi U [0, 1] et soit (RI,..., Rn) le vecteur des rangs
associé à cet échantillon. Pour tout couple (i, j) tel que 1

n, 1

n, i * j, on pose Uij =

]O,+oo[(Xi - X j ). Exprimer Ri en fonction des U ij, déterminer lE (U ij


1 Xk = x) pour 1

n et x e ]0, 1 [ et en déduire que

{ n / 2 + 1 - X k E (Ri 1 X k ) = 1 + ( n - 1 ) X k
si i;t: k, si i = k.

2) On adopte les notations du théorème 11.1.5 et l'on pose

1 = {(i, j) ; 1

k, 1

nj}

et

\:1 (i, j) e 1,

y.. - F ( X' . ) IJ - IJ .

En utilisant les résultats de la question 1, calculer, pour (u, v) e 1 et 1

k, - . * * Eo(R.j 1 Xuv) et en déduire que la projection L = (LI' ... , L k )


de T sur

(voir théorème IV.2.3 chap. IV) est définie par


. L. = J

(N + 1) (N - n j )

12 n. J

[ N - n. ]

L y uv - L y uv ' n j (U,V)E 1 (U,V)E 1-1

avec

J = {( u, v) el; v = j} = {l, ... , nj} x {j}.

3) Déterminer les matrices des covariances des vecteurs T et L. et


montrer que la matrice des covariances du vecteur T - L. tend vers
O. On admettra que

A(T - L.) = A(T) - A(L*).

226
VI. COMPARAISON DE k TRAITEMENTS

4) Montrer que la loi de L* tend, dans les conditions du théorème


11.1.5, vers la loi eN k(O, A). On utilisera, pour cela, le corollaire
R.lII.3.7 et le théorème suivant (voir Serfling, 1980).

Théorème. Soit {Zn = (Zln, ... , Zkn) ; n e It...j} une suite de vecteurs
aléatoires de dimension k. Pour que la loi de Zn tende vers celle de
Z = (ZI, ... , Zk), il faut et il suffit k que, pour tout élément (a 1, ... , ak)
de rR k, la loi de L a, Z'n tende vers celle de . 1 J J J=

k L a. Z J ' . ' 1 J J= 5) Déduire des résultats des questions 3 et 4


que la loi de T tend, dans les conditions du théorème 11.1.5, vers la
loi eN k(O, A).

1) On peut écrire

Ri = 1 + L V ï . 1 <'< ,. J -J_n,J=ït1

1 Si k;1: i et k;1: j, on a lE (V ij 1 Xk = x) = lE (V ij) = -, puisque les


variables Xi, 2
X j et Xk sont indépendantes. Par ailleurs, on a, toujours avec i;1: j et
puisque Vij est une variable de Bernoulli,

lE (Vij 1 Xi = x) = P(Vij = 1 1 Xi = x) = P(X i > Xj 1 Xi = x) = P(Xj < x)


=x

et, de même,

lE (U ij 1 Xj = x) = P(Xi > x) = 1 - x.

On peut écrire ces résultats sous la forme

! 1/2 IE(U ij 1 X k ) = Xi 1 - X. J

si k;1: i et k * j, si k = i, si k = j.

On a

IE(Ri IX k)=I+ L IE(VijIXk), 1

n,j=ïti
d'où

lE (Ri 1 Xi) = 1 + (n - 1) Xi

227

VI. COMPARAISON DE k TRAITEMENTS

et, si k * i,

n-2 n IE(Ri 1 Xk) = 1 + - + (1 - Xk) = - + 1 - Xk. 2 2

2) On sait que les N variables Yij «i, j) el) constituent un échantillon


de la loi U [0, 1], sous 1 'hypothèse Ho. On a donc, d'après le
résultat de la question 1,

IE(Rij 1 Xuv) = IE(Rij 1 Y uv) { N / 2 + 1 - Y uv = 1 + (N - 1) Y uv

si (i, j) * (u, v), si (i, j) = (u, v).


D'autre part, on a

n. _ 1 J lEo(R.j 1 Xuv) = - L lEo(Rij 1 X uv ), n. i=l J

d'où

. si v * j,

- N lEo(R.j 1 Xuv) = - + 1 - Y uv , 2

. si v = j,

lE - 1 N o(R.j 1 Xuv) = - ( (nj - 1) ( - + 1 - Y uv) + 1 + (N - 1) Y uv ) n.


2J

N N N-nj = - + 1 - - + - Y uv . 2 2 n. n. J J

On sait, d'après le théorème IV.2.3 chap. IV, que la projection L* de


T sur

est définie par


L* = L lEo(T 1 Xuv)' (U,V)E 1

soit,

\:Ije {1,...,k},

L; = L lEo(T j 1 X uv )' (U,V)E 1

Or, en posant

a.= J

12 n. J

(1

k),

(N + 1) (N - n j )
on a

-- N+l Tj = aj (R.j - -), 2

228

VI. COMPARAISON DE k TRAITEMENTS

d'où

. si v * j,

1 lEo(Tj 1 Xuv) = aj (- - y uv) 2 ( lN N - n j J lEo(Tj 1 Xuv) = aj - - - + -


Y uv 2 2 n. n. J J

. si v = j,

N - n. 1 _---.2 aj(Y uv --). n. 2 J

Enfin, on a
L; = L Eo(Tj 1 Xuv) (u, V)E 1

[ N - n j 1 1 ] = a. -

(y--)+

( - - y ) J £.J uv £.J uv. n j (U,V)E J 2 (U,V)E I-J 2

... On remarque que l'on a bien lEo(L.) = 0 puisque toutes les


variables Y uv sont de J 1 loi U[O, 1]. D'autre part, il est facile de
vérifier que les termes "-" s'éliminent, ce qui 2

conduit au résultat demandé

3) D'après le théorème II.1.4, on a immédiatement a

V(T.)=a

V ( R . ) = --1... V ( R . ) = 1 o J J O.J 2 0 .J n. J

et, si i * j,

a. a. - - 1 J COVo(Ti, Tj) = ai aj COVo(R.i, R.j) = - Covo(R.i, R.j) n. n.


1J
n. n. 1 J

(N - n. ) (N - n.) 1 J

D'autre part, puisque les N variables Y uv sont indépendantes et de


variance égale à

, on a 12

Vo(L;) = :

[C

jnj Jn j + (N - n j )] =

N N+l

229

VI. COMPARAISON DE k TRAITEMENTS


. . * * Enfin, pour calculer Covo(Li' L j ), avec i * j, on écrit Li et Lj
sous la forme

= ai [ N - ni i y ui -

y uj - L y uv J ' ni u=l u=l (U,V)E I,v:;ti,v:;tj

* L. =a. J J

[ ni N nj J - n. - L y ui + ----.:! L y uj - L y uv . u=l n j u=l (U,V)E


I,v:;ti,v:;tj

On obtient, toujours grâce à l'indépendance des N variables Y uv,

* . ai a j ( N - ni N - n j J Cov (L., L.) = - - - n. - - n. + (N - n. - n.) o 1 J


12 1 J 1 J n. n. 1 J

a. a. N =-N

= 12 N + 1

n. n. 1 J
(N - n) (N - n j )

On peut aisément admettre la relation

A(T - L*) = A(T) - A(L.)

qui est une conséquence de la version vectorielle du théorème


IV.2.3 chap. IV que l'on a démontré à l'exercice IV.l de ce chapitre.
La matrice des covariances de T - L * tend bien vers 0 dans les
conditions du théorème II.1.5 puisque, d'une part, V o ( L.) tend vers
1 et, d'autre part, Covo(Ti, Tj) et * * Cov o(L i ' L j ) ont pour limite
commune

À. À. 1 J

(1 - À.) (1 - À.) 1 J

On remarque que les matrices des covariances de T et de L *


tendent vers la matrice A définie au théorème 11.1.5.

4) D'après le théorème donné dans l'énoncé, nous devons montrer


que, si k a = (al' ... , a k ) est un élément quelconque de fR k, la loi
de
a J L; tend, dans les J=1 k conditions du théorème II.1.5, vers la loi
de La. Z J " où Z = (ZI' ... ,

) désigne un . 1 J J=

230

VI. COMPARAISON DE k TRAITEMENTS

k vecteur aléatoire de loi eN k(O, A). On sait que la loi de La. z. est
alors la loi . 1 J J J= eN (0, Q(a», où Q désigne la fonne quadratique
associée à A.

Ecrivons que

k L a. L J

=L

y uv . . J uv J= 1 (U,V)E 1

On a

N-n
uv = a v a v v - L nv l

k,j:;tv N k =-

a -L a.a.. nv v j= 1 J J

a. a. J J

On remarque que

uv ne dépend pas de u. 1 En rétablissant le tenne "-" que l'on a


supprimé à la fin de la question 2, on écrit 2

k L * L I a L. = Y -- . j J

uv (uv ), J=1 (u,v)EI 2

1 ce qui pennet d'appliquer le corollaire R.lII.3.7 puisque les N


variables (Y - -) uv 2

2 1 sont indépendantes, centrées, de même loi et de variance a = - Il


reste à chercher la 12

limite b 2 de
k(kJ2L

2=Lnv

a v a - L a J ' a. uv v. J (u,v)EI v=1 nv J=l

k 222 ( k J 2 ( k J 2 = L N lIv a v _ 2N L a a + N L a a v= 1 nv j= 1 J J
j= 1 J J

kN222(kJ2

av = L - N L a j a. . v=l nv j=l J

231

VI. COMPARAISON DE k TRAITEMENTS

Puisque, dans les conditions du théorème ll.1.5, on a

2À' J a.

, J N (1 - À j )

on obtient
k 2 [ k JR ] 2

12 a.

12 À. b 2 = Hm £.J

= £.J ---1. - £.J ---2 a. (u.v)eI uv j=l 1 - Àj j=1 1 - Àj J

k = L 12 a

- 2 L 12 j= 1 J l

i<j

À.À. 1 J

a. a.. (I-À.)(I-À.) 1 J 1 J

k On en déduit que la loi limite de L a. L J

est la loi normale centrée de variance . 1 J J= égale à

ka2b2=La
- 2 L j=l J l

i<j

À. À. 1 J a. a. = Q(a). (1 - À.) (1 - À.) 1 J 1 J

La loi limite de L * est donc bien la loi eN k(O, A).

5) Ecrivons que

* * T = L + (T - L ).

Alors, puisque A (T - L *) tend vers 0, on peut dire que T - L * tend


vers 0 en probabilité. TI s'ensuit que la loi limite de T est la même
que celle de L *, soit eN k(O, A).

Exercice II.4. Avec les notations de la section II.1, on pose (comme


dans l'exercice II.3)

1 = {(i, j) ; 1

j
k, 1

nj}.

1) Montrer que, pour tout j (1

k), on a

n. n. ( n. + 1)

R' j = J J +

£.J 11 ]o.+oo[(X ij - Xuv)' 2 1=1 (u.v)e I-J

J={(u,v)e I;v=j)={l,...,nj} x {j}.

232

VI. COMPARAISON DE k TRAITEMENTS


En déduire que

( n. - N J E(T) = a j .2....- + <

ny P(Y y < Y j ) , 2 l_v_k,v*J

où Yj et Y v désignent deux variables aléatoires indépendantes de


lois respectives F

. et J F

et où l'on a posé

a.= J

12 n. J

(N + 1) (N - n j )

2) On se place dans le cas où la fonction f est continue sur IR et


tend vers 0 lorsque x

+ 00 ou x

- 00 . On suppose qu'il existe un élément (ô}, ... , ô0 de fRk tel que


1 (Jl}, ... , Jlk) =

(ô}, ... , Ôk)

et que N devient infini avec

\:Ije {1,...,k},

n. lim

= Àj e ]0, 1[. N-+-+oo N

Montrer que m 2À ' ( k JJ +OO lim IE(T j ) =

Ôj-

À i Ô i f(x) dx. N-+too 1 - À. 1=1 J -

On remarquera que les hypothèses faites sur la densité f impliquent


l'intégrabilité sur IR de la fonction f2 et l'uniforme continuité sur IR de
la fonction f.

1) Soit {Xij; (i, j) E I} une réalisation de l'échantillon. On remarque


que le rang rij d'une réalisation Xij est égal au rang r'ïj qu'occupe
cette réalisation dans le jèm e échantillon plus le nombre de
réalisations Xuv des autres échantillons (v * j) qui sont inférieures à
Xij, soit que l'on a

rij = r' ij + L 11 ]O.+oo[(Xij - x uv ). (u,v)e I-J

233

VI. COMPARAISON DE k TRAITEMENTS

On a donc

n. n. J n. (n. + 1) J r.j = L rij = J J + L L 11 ]O,+oo[(Xij - x uv ), i=l 2 i=l


(u,v)EI-J

d'où

n. n. (n. + 1) J R.j = J J + L L 11 ]O,+oo[(Xij - X uv ). 2 i= 1 (U,V)E I-J

On en déduit

n. n. (n. + 1) J lE (R.j) = J J + L L P(Xij > Xuv) 2 i= 1 (U,V)E I-J


n. (n. + 1) L J J = + nj nv P(Y v > Yj), 2 l

k,v:;tj

pUIsque, pour v donné (v '# j), les variables Xij et Xuv sont
indépendantes et de lois respectives FJlj et FJlv' Enfin, puisque

T.=a. ( Roj -

J J J n. 2 ' J

on obtient

( n. - N J IE(T.)=a.

n P ( Y <Y. ) J J k.J v v J . 2 l

k,v:;tj

2) On peut écrire
+co P(Y v < Y j ) = f F (y) f (y) dy Jl v Ilj

+co = f F (y - J.! ) f (y - J.!.) d Y v J

+co = f F( x + (J.!. - J.! ) ) f(x) dx J v

234

VI. COMPARAISON DE k TRAITEMENTS

f -t<>o Ô' - Ô v = F(x + J m ) f(x) dx.

Pour alléger la notation, posons a = Ôj - Ôv et effectuons un


développement limité suivant les puissances de vk- de la dernière
intégrale écrite. On a

F(x +

) = F(x) +

f(X +

9(x») ,
avec 0 < 8(x) < 1, d'où

-t<>o -t<>o -t<>o f F(x + #rI f(x) dx = f F(x) f(x) dx +#r f f(x +

9(x») f(x) dx

f(X + #i 9(x») f(x) dx.

Montrons que la dernière intégrale écrite a pour limite f-f2(X) dx. On


a

-t<>o -t<>o-t<>o 1 f f(x +

9(x») f(x) dx - f f2(x) dx 1

f 1 f(x + Jr 9(x») - f(x) 1 f(x) dx.

On peut montrer aisément (ce sont des résultats classiques


d'analyse) que les hypothèses faites sur f impliquent l'intégrabilité
sur rR de f2 et l'absolue continuité sur rR de f ( ce dernier résultat
est acquis dès qu'une fonction est continue sur rR et admet des
limites au voisinage de +00 et de -00). Soit, donc, € > O. Il existe 11
> 0 tel que
( lx - x'l < 11)

(If(x) - f(x')1 < E ).

Si

< 11, soit si N > (

r on a

-t<>o -t<>o-t<>o 1 f f(x +

9(x»)f(x) dx - f f2(x) dx 1

f E f(x) dx = E,

235

VI. COMPARAISON DE k TRAITEMENTS

ce qui montre que l'on a bien

+00 J +oo N::..J f(x + lN 9(x») f(x) dx = f2(X) dx. -00 -00
On peut alors écrire que J +oo 1 Ôj - Ôv 2 1 P(Y v - Y j ) = 2: + m f
(x) dx + o( m )'

-00

d'où

[ n. - N N - n. [ k nv (Ô. - Ô ) J J +00 ( 1 )] IE(T j ) = a j ..2....-- +

+ L. J v f(x) dx + (N - n j ) 0 - 2 2 v=l.v

J v'N v'N _00

k Ô. N - L Ô n J +oo J v v v-l = a j - f(x) dx + o(/"N) . v'N -00

Enfin, on remarque que

1 run; 1

a j = ..lN + 1 J

N:_ v'N J

'

d'où
m 2À ' [( k n )f +OO ] lE (T) 'V ----.:! Ô j - L Ô v

r(x) dx + o( 1) , N-H<>o 1 - À. v=l N J -00

soit

m 2 À. ( k JJ +oo lim lE(Tj) = ----.:! Ô j -

À i Ô i f2(x) dx. N

+oo 1 - À. 1=1 J _00

236

VI. COMPARAISON DE k 'TRAITEMENTS

Exercice II.5. Montrer que l'espérance mathématique et la variance,


sous l' hypothèse Ho, de la statistique T de Jonckheere définie par la
relation (11.6) sont données par les relatiom

lEo(T) =

( N 2 - f nf J , 4 J=1
Vo<T) =

( N 2 (2N + 3) -

(nf (2n j + 3) ) J . 72 J= 1

La statistique T est définie par

T= LU.." 1 <. "< k JJ -J<J -

où U jj' est la statistique de Mann-Whitney (voir section IV.2.a chap.


IV) calculée à partir des échantillons j et j'. On a donc

nj nj' U.., = L L 11]0 +oo[(Xi'" - X ï ). JJ . 1 ., 1 , J J 1= 1 =

D'après les résultats de la section IV.2.b chap. IV, on a

n. n., lE J J (U..,) =- o JJ 2

et

n. n., (n. + n., + 1) V (U..,) = J J J J . o JJ 12


On en tire immédiatement

Eo(T)=

L n.n..=

[( fn. J 2-fn

]=

( N2-fn

J.2l

j<j'

k J J 4 j=l J j=1 J 4 j=l J

Pour calculer la variance de T, écrivons que

V o(T) = L V o(U ..,) + L Cov o(U jj" Uj"j"')' l

j<j'

k JJ U,j',j",j"')e J

avec

J = {(j ., ." '''' ) . 1 <' 'f < k 1 <." .", < k (j .' ) (j " '''' )} ,J,J,J, -J<J-, -J <J -
"J * ,J .
L'indépendance des échantillons entraîne l'indépendance de Ujj' et
Uj"j'" lorsque les quatre entiers j, j', j" et j'" sont distincts. Dans ce
cas, la covariance est nulle. Il ne restera donc, dans la somme sur J
ci-dessus, que les termes suivants

237

VI. COMPARAISON DE k TRAITEMENTS

. Covo(Vjj', Vjj") avec j <j', j <j", j' * j", . Covo(Vjj", Vj'j") avec j<j", j'<j",
j;t:j', . Covo(Vjj" Vj'j") et Covo(Vj'j", Vii') avec j < j' < j".

En regroupant deux à deux les termes égaux, on obtient

V o(T) = L V o(V..,) 1 <' "< k JJ -J<J -

+ 2 L [Cov (V.." V..,,) + Cov (V.."' V",,,) + Cov (V.", V",,,) ]. 1 <' ., '''< k
0 JJ JJ 0 JJ JJ 0 JJ JJ -J<J <J -

Commençons par calculer Cov o(Vjj', Vii") en écrivant


nj nj' V..,=L L Y.., JJ . 1 . 1 1112 11 = 12= nj nj" V.." = L L z.. , JJ . 1 .
1 1314 13= 14=

y. . =11 ]0 [ (X." - X. ,), 1112 ,+00 IV lIJ Z. . = 11 ]0 [ (X.." - X. ,). 13 1


4 ,+00 14J 13J

On a

nj nj nj' nj" Cov (V.." V..,,) = L L L L COVo(Y i i ' Zi i ). o JJ JJ . 1 . 1 .


1 . 1 12 34 11= 13= 12= 14=

Or les variables aléatoires y.. et Z.. sont indépendantes si i 1 ;t: i3. Il


reste 11 1 2 13 1 4

donc

nj nj' nj" Cov o (V J ' J '" V J ' J ''') = L L L Cov o(Yii ' Zii ). . 1 ' 1 . 1 2
4 1= 12= 14=

De plus, y.. et Z.. suivent la loi de Bernoulli :B (1,


) et leur produit suit 112 114 2 également une loi de Bernoulli. On a
donc

1 Cov (y.. , Z.. ) = lE (y.. z.. ) - - o 112 114 0 112 114 4

1 = p (y.. Z.. = 1) - - o 112 114 4 1 = P (y.. = z.. = 1) - - o 112 114 4

238

VI. COMPARAISON DE k TRAITEMENTS

1 = P (X. ., > X.., X. '11 > X..) - _ 4 . o IV IJ 14J IJ

Les variables aléatoires Xi ] ', X. ., et X. '11 étant indépendantes et


de même loi F 12J 14J continue, les six permutations sont
équiprobables et il yen a deux qui réalisent l'événement ci-dessus.

On en déduit

111 Cov (y.. Zoo) = - - - = o 112' 114 3 4 12


d'où

n. J Cov (U "', U ",,) = o JJ JJ

n., n." J J

12

Le calcul est analogue et le résultat est le même en ce qUI concerne


Co v 0 (U jj" , U j'j" ) . Pour Covo(Ujj', Uj'j"), le calcul est encore
analogue, mais le résultat différent car on aboutit, avec des notations
voisines, à

1 1 1 1 Cov (y. . Z'.. ) = P (X. . < X.., < X. ,") - - = - - - = - - o 1 Ji' 114
0 lIJ IJ 14J 4 6 4 12

puisqu'il n'y a plus qu'une permutation qui réalise l'événement écrit.

On a alors

n. J Cov ( u '" U .,.,, ) = - o JJ' JJ


n., n." J J 12

d'où finalement

n. n., (n. + n., + 1)

V 0 (T) = £.J J J J J + 2 £.J l

j<j'$k 12 l

j<j'<j"

n. n., n." J J J

12

En utilisant la relation

( k J 3 k N 3 = Ln. =L n?+3 L (n

n.,+n.n

)+6 L n.n"n.", j=l J j=l J l

j<j'
kJJJJl

j<j'<j"

kJJJ

239

VI. COMPARAISON DE k TRAITEMENTS

on obtient

Vo(T) =

( N 3 - fn

+ 3 L n. n.. J 36 '= 1 J 1 <' "< k J J J -J<J - =

[ N3 - f n

+ 2. ( N 2 - f n 2 J ] 36 j=1 J 2 j=l J =

( N 2 (2N + 3) - f ( nf (2n j + 3) ) J . 72 J=l

Exercice II.6. Test de Page (1963) 1) On considère le modèle (1.2."


0) et l'on souhaite tester l' hypothèse H " " l ' h hè H " < < " l ' . d 0: III
= ... = Ilk contre ypot se 1: III - ... - Ilk, une au mozns es inégalités
étant stricte. Avec les notations de la section II.2, on définit la
statistique LN par
k LN = -L L ( j - k + 1 ) ( R .j _ N + 1 ) . YN j=l 2 2

a) Montrer que

N+l

1 ( k+l ) 2 lEo(LN) = 0 et V o(LN) = -

- j - - . 12 J=1 n j 2

b) Montrer que, sous l' hypothèse Ho, la loi de LN converge, sous


les mêmes conditions que celles du théorème II.1.5, vers une loi
normale dont on précisera la moyenne et la variance. On utilisera les
résultats de l'exercice II.3 en considérant que LN est une forme
linéaire du vecteur T. c) En déduire que l'on peut adopter la région

(LN

Y Vo(LN) q,-1(1 - a)}

comme région critique pour tester l' hypothèse Ho contre l'


hypothèse Hl au seuil a, approximativement du moins. 2) On
considère maintenant le modèle (1.3."0)' les hypothèses Ho et HI
restant les mêmes. Avec les notations de la section 111.2, on définit
la statistique L'N par
k1_

( . k + 1 ) ( ,n (k + 1» ) LN - £.J J - - R.. - . j=l 2 J 2

240

VI. COMPARAISON DE k TRAITEMENTS

a) Montrer que

k 2 (k 2 - 1) (k + 1) V o(Lt N ) = . 144 b) Montrer que, sous l'


hypothèse Ho, la loi de L'N converge, lorsque n devient infini, vers
une loi normale dont on précisera la moyenne et la variance. Pour
cela, on remarquera que l'on peut écrire L'N sous la/orme

lEo(L'N) = 0

et

n L' N =l

x' ffl £.J ., i=l


où les Xi sont des variables aléatoires indépendantes de même loi
(voir exercice 111.1 ). c) Proposer, en s'inspirant de la question 1.c,
une région critique pour tester l' hypothèse Ho contre l' hypothèse
HI, approximativement au niveau a.

1) a) D'après le théorème TI.l.4, on a

- N+ 1 lEo(R.j) = -, 2

_ (N - n j ) (N + 1) V o(R.j) = 12 n. J

et

- - N+l Covo(R.ï, R.j) = - -. 2

On en déduit immédiatement que lEo(LN) = 0 et que

_1[

( . k+l ) 2 (N-nj)(N+l) N+l

( . k+l )( . k+l )] Vo

)-- £.J J-- -2- £.J 1-- J-- N j=1 2 12 n. 12 l


i<j

k22J

=N+1i

( j _ k + 1 ) 2 _ N + 1 [ i ( j _ k + 1 ) \ 2 L ( i _ k + 1 ) ( j _ k + 1 12 j=1
n. 2 12 N j=l 2 l

i<j

k22J

( j_

) 2_

[ i ( j_

)] 2 12 j= 1 n. 2 12 N j= 1 2 J

= N+l i

( j_ k+l ) 2. 12 j=l n. 2 J

241
VI. COMPARAISON DE k TRAITEMENTS

b) Remarquons d'abord que, sous les conditions du théorème


11.1.5, on a

1 ( k + 1 J 2 lim Vo

)=-£.J- j-- . N

12 j=1 À. 2 J

Désignant par

cette limite, montrons que la loi limite de LN est eN (0,

). Avec les notations de l'exercice II.3, on peut écrire

--L

( . k + 1 J Tj LN = £.J J - - - VN j= 1 2 a. J k = L a' N T J ' , . 1 J J=

a jN =
(N - n j ) (N + 1) 12 N n j

Il apparaît donc que LN est une forme linéaire du vecteur T. Puisque


l'on a

lim _ {ÇF - Àj a jN - - N

+oo Àj

et que la loi limite de T est la loi eN k(O, A), on peut dire que la loi
limite de LN est la loi {ÇF -À' eN (0, a'Aa), où a désigne la matrice
unicolonne dont le jèrnc élément est ----1. . À. J On peut vérifier que
l'on a bien cJ2 = a'Aa, mais on peut également dire, plus
simplement, que, puisque la matrice A est la limite de la matrice des
covariances de T (voir exercice TI.3), la variance de la loi limite de
LN est également la limite de V o(L N ).

c) Il en résulte que, pour N suffisamment grand, la fonction de


répartition de la loi de LN est proche de celle de la loi eN (0, V o(LN)
). D'autre part, si l'hypothèse Hl est vraie, c'est-à-dire s'il existe jo(l

jo

k - 1) tel que Jl. < Jl. l' les statistiques I R . j - N + 1 ) ont une valeur
moyenne positive pour Jo Jo + \ 2 j > jo, négative sinon. Les
coefficients affectés à ces statistiques étant croissants avec j et k+l
positifs pour j > -, on est donc amené à adopter une région critique
de la forme 2 {LN
C}. On a alors

242

VI. COMPARAISON DE k TRAITEMENTS

a = P (L > c) = P ( LN > - c )

1 _ <1> ( c ) o N - 0 Y VJLN) - 1 / VJLN) - Y VJLN) ,

d'où

c == y V o(LN) <1)-1 (1 - a).

2) a) D'après le théorème 111.1.2 démontré à l'exercice lll.l, on a

lE ' n (k + 1) o(R .j) = , 2

2 n ( k - 1 ) V o(R' .j) = 12

et
n (k + 1) Covo(R'j, R'.j) = - . 12

On en déduit immédiatement que lEo(L'N) = 0 et que

,_1[

( . k + 1 ) 2 n (k 2 - 1) n (k + 1)

( . k + 1 ) ( . k + 1 )] Vo(L N )-- £.J J-- -2 £.J 1-- J-- n j=1 2 12 12 1

i<j

k22

k+1[

(k+1)2

( k + 1 )( k + 1 )] = - (k - 1) £.J j - - - 2 £.J i - - j - - 12 j=1 2 l

i<j

k22

[ kf ( j_

) 2 _ ( f ( j_
)J 2 ] 12 J= 1 2 J= 1 2

= k (k + 1) f ( j _ k + 1 ) 2 = k (k + 1) [ f / _ k ( k + 1 ) 2 ] 12 j=l 2 12 j=l
2

= k(k+1) ( k(k+l)(2k+l) _ k(k+l)2 J 12 6 4

k 2 (k + 1)2 (k - 1) k 2 (k 2 - 1) (k + 1) = 144 144

n b) En écrivant que R'.j = L R'ij, on obtient i= 1

n RI.. _ n (k + 1) = L ( R 1 ï _ k + 1 ) , J 2 i= 1 J 2

243

VI. COMPARAISON DE k TRAITEMENTS

d'où

L'N =

t(j-
J[

( R'ij -

J] J=l 2 1=1 2

=li [ f ( j-

J( R'ï-

J] -ID i=1 j=l 2 J 2

n =l

X' Vfï £.J 1, i=l

en posant

k Xi = L ( j -

J( R'ï -

J ' j= 1 2 J 2

D'après les résultats de l'exercice 111.1, les vecteurs aléatoires (Rtil,


... , Rtik) sont indépendants et de même loi. Il en est donc de même
des variables aléatoires Xi qui, de plus, sont centrées et admettent
une variance. On a d'ailleurs
V o(LtN) = V o(Xi),

ce qui explique pourquoi la variance de L'N ne dépend pas de n.


D'après le théorème de la limite centrale, la loi limite de L'N est donc
la loi eN (0, V o(L'N».

c) En raisonnant comme on l'a fait à la question l.c, on adopte une


région critique de la forme {LtN

c} et l'on obtient

Y V o(L'N) {J}-I(1 - a).

Exercice II.7 1) Soit X}, ... , X n , Y, Z (n

1) un échantillon d'une loi F continue. On désigne par R et S les


rangs de Y et de Z dans les échantillons respectifs X}, ... , X n , Y et
n

XI, ... , X n , Z. Montrer que la covariance de R et S est égale à

12
On écrira

n R = 1 + L n ]O,+oo[(Y - Xi). i=1

244

VI. COMPARAISON DE k TRAITEMENTS

2) Avec les notations de la section II.3 .a, montrer que

n. n. - 1 J Wl.=

+LS.., J 2 i=l D

où Sij désigne le rang de Xij dans l'échantillon Xu, X2}, ... , X n1 }, Xij
(j #: 1). En déduire que, si j et j' sont deux élément distincts de (2,...,
k), on a

nI Cov o(W Ij, W 1j') = - . 12

1) Posons, pour alléger la notation


Vi = 11 ]Üt+oo[(Y - Xi)

et

Vi = 11 ]Üt+oo[(Z - Xi).

On a

n R = 1 + L Vi i=l

et

n S = 1 + L Vi , i=l

d'où

n n Cov(R, S) = L L Cov(Vi, Vj) i= 1 j= 1 n = L Cov(Vi, Vi) i=l

puisque Vi et Vj sont indépendantes si i #: j. Les variables aléatoires


Vi, Vi et ViVi suivant des lois de Bernoulli, on peut écrire
COV(Vi, Vi) = E(ViVi) - E(Vi) E(Vi) = P(ViVi = 1) - P(Ui = 1) P(Vi = 1)
1 = P(V i = Vi = 1) - - 4 1 = P(Y > Xi, Z > Xi) - -. 4

Les variables aléatoires Xi, Y et Z étant indépendantes et de même


loi F continue, les six pennutations sont équiprobables et deux
d'entre elles réalisent "Y > Xi, Z > Xi",

245

VI. COMPARAISON DE k TRAITEMENTS

d'où

1 1 1 Cov(U., V.) = - - - = - 1 1 3 4 12

et

n Cov(R, S) =-. 12

2) Si l'on désigne par Tij le rang de Xij dans le jème échantillon, on a


R .. - S " + T.. - 1 IJ - IJ IJ '

d'où

nj nj nj

R.. -

S.. +

T.. - n. £.J IJ - £.J IJ £.J IJ J i=1 i=l i=l

n. J n. (n. + 1)

J J = £.J Sij + - nj. i=l 2

On a bien

n. n. 1 J n. -1 1 J W1j = - LRij =

+ - LSij. n. i-1 2 n. i-1 J - J -

On en déduit, avec des notations évidentes,


( n. n" J 1 J J COV o (Wlj, W1j') = - Cov o

Sij'

Si'j' n.n., 1=1 1=1 J J

nj nj' LL

Cov o(Sij, Si'j').

n. n., i=l i'=l J J

n D'après la question 1, toutes ces dernières covariances sont


égales à

, d'où 12

nI Covo(W Ij, Wlj') = -. 12

Exercice II.8. On considère le modèle (1.2.'" 0), l' hypothèse Ho: "J.!I
= ... = J.!k" et les (k - 1) hypothèses H' oj : "

j
1" (2

k). On suppose que

246

VI. COMPARAISON DE k TRAITEMENTS

n2 = ... = nk = n et que [' on utilise le premier test envisagé dans la


section II.3.a (page 231) avec a 2 = ... = a k = a. Montrer, en utilisant
le théorème 111.3.9 chap. IV, que la probabilité de rejeter à tort [' une
au moins des hypothèses H'oj est maximum lorsque Ho est vraie.

D'après la section II.3.a, l'hypothèse Hoj, donc l'hypothèse H'oj à


plus forte raison, est rejetée si W Ij

c, où c est défini par

P o (Wlj

c) = a.
Supposons que l'une, au moins, des hypothèses H'oj soit vraie et,
pour alléger la notation, supposons que les (r - 1) premières
hypothèses H'oj soient vraies et les (k - r) dernières fausses (2

k). On a donc

J.12

J.1}, ..., J.1r

J.11 et J.1r+ 1 > J.11, ... , J.1k > J.11.

On rejettera à tort au moins l'une des (r - 1) premières hypothèses


H'oj s'il existe J (2

r) tel que W 1j

c, autrement dit si Max W l'

c. La probabilité de cet 2

r J événement est une fonction de J.11, J.12, ... , J.1r et nous la


notons sous la forme

P (Max W 1 .

c). Jl1' ... ,Jl r 2 <' < J -J_r


D'après le théorème 111.3.9 chap. IV, cette probabilité est une
fonction croissante de chacun des J.1j (2

r) et elle est donc maximum lorsque J.12 = ... = J.1r = J.11, soit
lorsque 1 'hypothèse Ho est vraie. On remarquera aussi que cette
probabilité est égale à

[ r ] P U {W 1 .

c} Jl1 ' ... ,Jl r j=l J

et qu'elle est donc, lorsque tous les Jlj (1

k) sont fixés, une fonction croissante de r.

Exercice II.9. Justifier les approximations (11.11), (11.12), (11.14) et


(11.17). On utilisera l'inégalité de Bonferroni, à savoir

P (i

l Ai)

P (Ai)'
247

VI. COMPARAISON DE k TRAITEMENTS

sous forme d'approximation, c'est-à-dire en écrivant, pour les


événements Ai que l'on considèrera,

P (i

/i)

P (Ai)'

L'approximation (11.11) consiste à écrire que l'on a

-1 ( a J m(a 1 ,k-l,p) ={J) 1--, k-l

où m(a1, k - 1, p) est le (1 - al) - quantile de la loi du maximum des


composantes d'un vecteur normal (ZI,... ,Zk-1) dont les composantes
sont centrées réduites et admettent deux à deux p pour coefficient
de corrélation. Si nous posons x = m(a1, k - 1, p), nous devons
écrire
P ( max z.

x) = 1 - a , 1

k-1 J 1

( k-l J P n {Z.

x} = 1 - a , '=1 J 1

(k-l J P

l (Zj > x} = al'

(k - 1) P(Zj > x)

al'

al 1 - {J)(x)

-, k - 1

d'où
-1 ( al J x

{J) 1--. k - 1

On peut remarquer que, si l'on écrit l'inégalité de Bonferroni, on


aboutit à

1 ( al J x

<1> 1--, k - 1

ce qui montre que l'approximation obtenue est par excès.

248

VI. COMPARAISON DE k TRAITEMENTS

La relation (ll.12) propose une approximation du nombre c défini par

Po( max ( R .j - R .1

c) ) = a 2

j
k

ou, encore, par

k Po( U { R .j- R .1

C} )=a, j=2

d'où

k L Po( R .j - R .1

c)

a. j=2

Une seconde approximation consiste à remplacer la loi, sous


l'hypothèse Ho, de (R . j - R . 1 ) par la loi eN (0, V o( R .j - R . 1 »,
ce qui est justifié par le fait que l'on peut montrer (voir démonstration
du théorème 11.1.5 ou exercice ll.3) que la loi limite de

R. - R 1 .J .

V ( R . - R 1 ) o.J .
est la loi eN (0, 1).

D'après le théorème II.1.4, on a

-2 - - N + 1 ( N - n j + N - n I + 2 J OJ = Vo(R.j - R.1) =- 12 n j nI

N (N + 1) nI + n j = 12 nI n j

On a donc

P o( R .j - R .l

c) Of 1 - cI> ( ;J '

d'où

t [ 1 - <1> (

)] == a. J-2 cr. J

Une dernière approximation consiste à admettre que les (k - 1)


termes du premier membre sont voisins, ce qui revient à supposer
que les nj sont eux-mêmes proches les uns des autres. On a alors
1 _ <1> (

) == a , a. k - 1 J

249

VI. COMPARAISON DE k TRAITEMENTS

d'où

c == U j cI>'l ( 1 - a J ' k - 1

soit

c:::

N (N + 1) nI + n j -1 ( <1> 1- 12 nI n j

1 J.
C'est l'approximation (11.12).

Les approximations (11.14) et (11.17) consistent à écrire que l'on a

q l-a,k :Ë

,1:: -1 ( a J v2 <1> 1- , k (k - 1)

où q1-a,k désigne le (1 - a) - quantile de la loi de l'étendue d'un


échantillon de taille k de la loi .N (0, 1). D'après la section II.4.a (voir
aussi exercice 11.11), h ql-a,k est le (1 - a) - quantile de la loi du
maximum des valeurs absolues des composantes d'un vecteur 1 Z d
di . k (k - 1) d l ' " d ' " d norma e menSIon ont es composantes sont
centrees re ultes et posse ent 2

certaines corrélations qui n'interviennent pas dans le calcul ci-


dessous. On a alors, en désignant par Zjj' (1

j < j'

k) les composantes du vecteur Z et en posant 1 x = V2 ql-a,k'

P( max 1 Z... 1

x) = 1 - a, 1 <' "< k JJ - J<J -


soit, après un calcul analogue à celui effectué pour justifier
l'approximation (11.11),

a P(I Z.., 1 > x) ::: JJ k (k - 1) / 2 2a 2 P(Z.., > x) ::: , JJ k (k - 1) a

1 - <I>(x) :Ë

k (k - 1)

d'où

-1 ( a J x

cI> 1- k (k _ 1) .

250

VI. COMPARAISON DE k TRAITEMENTS

On a donc bien
q1-a,k :Ë

,,'-;:- -1 ( a J . ,2<1> 1- . k (k - 1)

Remarque. L'approximation proposée pour Cjj' à la remarque 11.4.3


est obtenue de la même façon que l'approximation (11.12).

Exercice II.10. Avec les hypothèses et les notations de la section


II.4.a, calculer la matrice de corrélation, sous l' hypothèse Ho, du
vecteur aléatoire

(W 12, W 13, ... , Wk-l,k).

On utilisera les résultats de l'exercice 115.

D'après la section IV.2.a chap. IV, on a, pour j * j'et puisque les nj


sont tous

égaux à n,

n (n + 1) Vjj' = n Wjj' - 2
d'où, si j * j'et j" * j'",

Corr ( W", W.".", ) = Co rr (V ." V .".,,' ) o JJ' JJ 0 ll' JJ .

On a vu à l'exercice 11.5 que l'on a

3 n . Covo(Vjj', Vjj") =- 12 3 n . Covo(Vjj'" Vj'j") = - 12 3 n . Cov o(Ujj',


Vj'f') = - - 12

si j<j', j <j" et j'*j",

si j < j", j' < j" et j * j',

si j <j' <j",

. Covo(U jj', Uj"j"') = 0

si j, j', j" et j'" sont distincts.

Comme, de plus, on a, pour j * j',


2 n (2n + 1) V o(Vjj') = , 12

251

VI. COMPARAISON DE k TRAITEMENTS

on en déduit

n . Corro(W jj', W jj") = 2n + 1

si j < j', j < j Il et j' * j",

n . Corro(W jj", Wj'j") = 2n + 1

si j < j", j' < j Il et j * j',

n . Corro(W jj', Wj'j") = - 2n + 1

si j < j' < j",


. Corro(W.ij', Wj"j"') = 0

si j, j', j" et j'" sont distincts.

k (k - 1) De plus, bien sûr, la matrice de corrélation, qui est d'ordre ,


a tous les 2

termes de sa diagonale principale égaux à 1.

Exercice II.11. Soit X un vecteur aléatoire de loi .N k(k-l)/2 (0, B) où


B désigne la limite de la matrice de corrélation obtenue à l'exercice
II.10. Montrer que la loi du maximwn des valeurs absolues des
composantes du vecteur X est la même que celle de l'étendue d'un
échantillon YI, ... , y k de la loi .N (0,

). 2

k (k - 1) On cherchera d'abord la loi du vecteur Z de dimension dont


les 2

composantes Zjj' (1

j < j'

k) sont définies par Zjj' = Yj - Yj'.


Le vecteur Z est l'image du vecteur aléatoire gaussien (YI,..., Y k)
par une application linéaire de IR k dans IR k (k-1)/2. Il est donc lui-
même gaussien. Il est centré et nous pouvons déterminer sa matrice
de covariance. On a

V(Zjj') = V(Yj - Yj') = V(Yj) + V(Yj') = 1,

Cov(Zjj', Zj"j"') = Cov(Yj - Yj', Yj" - Yj''')

= Cov(Yj, Yj") - Cov(Yj, Yjlll) - Cov(Yj" Yj") + Cov(Yj" Yj"')'

En tenant compte du fait que les Yj sont des variables aléatoires


indépendantes et de 1 variance égale à -, on obtient immédiatement
2

252

VI. COMPARAISON DE k TRAITEMENTS

1 . COV(Zjj" Zij") = - 2 1 . COV(Zjj", Zj'j") = - 2 1 . COV(Zjj" Zj'j") = - -


2

si j < j', j < j" et j' * j",


si j < j", j' < j" et j * j',

si j < j' < j" ,

. Cov(Zjj" Zj"j''') = 0

si j, j', j" et j'" sont distincts.

En comparant avec les résultats de l'exercice II.10, on voit que les


vecteurs X et Z ont la même loi. Comme, d'autre part, l'étendue de
l'échantillon YI,. .. , y k est égale à

Max IY. - Y.,I = Max 1 Z.., 1, l

j<j'

kJJ1

j<j'

k JJ

elle admet la même loi que le maximum des valeurs absolues des
composantes du vecteur aléatoire X.
Exercice II.12. Trouver un exemple de réalisation de trois
échantillons de taille 3 (k = n = 3) tels qu'il soit possible de conclure
que le deuxième traitement est meilleur que le premier, le troisième
meilleur que le deuxième, mais néanmoins le premier meilleur que le
troisième (voir remarque II.4.1 ).

Il s'agit de trouver les rangs des neuf réalisations lorsqu'elles sont


toutes ordonnées de telle façon qu'il existe un nombre réel c tel que

W12

c,

W23

et

W31 < c.

Nous devons donc, en fait, avoir


W31 < Min(w12, W23).

La solution n'est pas unique et chaque lecteur pourra en trouver une.


Proposons, par exemple, celle où les rangs des réalisations sont 1 ,
2 et 9 pour le premier échantillon, 3, 4 et 5 pour le second, 6 , 7 et 8
pour le troisième. On a alors

3+4+5 4+5+6 1+2+6 W12 = = 4, W23 = = 5 et W31 = = 3.

253

VI. COMPARAISON DE k TRAITEMENTS

Exercice II.13. En utilisant le résultat de l'exemple VII. 3 .2 chap. IV,


justifier l'intervalle de confiance au niveau (1 - a) pour Jlj' - Jlj donné
à la relation //.15.
On a déterminé à la section II.4.a la valeur critique c définie par

Po(max W jj'

c) = a, j*j'

ce qui peut encore s'écrire

Po(max Wjj' < c) = 1 - a, j*j'

soit

(1)

P o( n {W jj' < c} ) = 1 - a. j*j'

D'après le résultat de l'exemple VII.3.2 chap. IV, un intervalle de


confiance de niveau (1 - a) pour Jlj' - Jlj déterminé à partir de la
statistique de Wilcoxon est défini par

[ jj , jj' ]
(k+l)'

2 ' (n - k)

jj' où

(k) désigne la k ème plus petite des différences Xi'j' - Xij (1

n, 1

il

n) et où k est défini par

jj' \:1 Jl <

(k+1)'

t.., (Jl)

C, JJ

jj' \:1 Jl >

(k+ 1)'

t jj , (Jl) < c.
Ces deux conditions peuvent s'écrire

jj' jj' tjj'(

(k+l) + 0) < c

tjj'(

(k+l) - 0),

soit

h' h' tjj'(

(k+l) + 0) < c

tjj'(

(k) + 0).

n+l n+1 La fonction tjj' est décroissante, elle varie de n + - à et elle


fait un saut 2 2 d'amplitude -

en chacun des n 2 points L'1

r On a donc, pour tout h CI

h
n 2 ), n

jj' n + 1 h tjj'(

(h) + 0) = n + 2 -

'

d'où

n+1 k+1 n+l k n +--- <c

n +- --, 2 n 2 n

254

VI. COMPARAISON DE k TRAITEMENTS

soit

2 ( n+l ) 2 ( n+l ) n -n c- 2 -l<k

n -n c- 2 .
En supposant, pour alléger, que nc est un entier, on obtient donc

2 ( n+l ) k=n -n c- 2 '

d'où l'intervalle

[ jj' jj' ]

(n2-n(c- n;l )+ 1)' \n(c- n;l ))

et la relation (1) ci-dessus nous permet d'écrire la relation (11.15), à


savoir

p[.

,!

J ( \ ( n+l ) )

j' -

J ( "j' ( n+l )))] = 1 - a . J=ït J n - n c - - + 1 n c - - 2 2


Exercice 111.1. Démonstration du théorème 111.1.2 Avec les
hypothèses et les notations de la section III, montrer que

lE ' n (k + 1) o (R .j) = , 2

2 n ( k - 1 ) V o(R'.j) = 12

et

n (k + 1) Cov o(R ' .j, R' .j') = - . 2

Rappelon s que l'on a

n R"-

R'" .J - £.J IJ' i= 1

où R'ï J désigne le rang de la jème observation du i ème bloc. Les n


vecteurs aléatoires R'i = (R'il,..., R'ik) (1

n) sont indépendants puisque, dans le modèle (1.4), les n vecteurs


(Xi 1, ... , Xik) le sont. D'autre part, sous l'hypothèse Ho, chacun de
ces n derniers vecteurs étant formé de variables échangeables et
admettant une loi continue, chacun des vecteurs R'i ci-dessus suit la
loi uniforme sur l'ensemble Lk des k! permutations de {l,..., k}. On a
donc (voir exercice 2 chap. 1)

n (k + 1) lEo(R'.J) = £.J lEo(R'ij) = n lEo(R'ïj) = i=1 2

255

VI. COMPARAISON DE k TRAITEMENTS

et

n n n (k 2 _ 1) V o(R'.j) = V o(L R'ij) = L V o(R'ij) = n V o(R'i) = , i=l i=l


12

car, pour j donné, les R'ij (1

n) sont indépendants.

Enfin, si 1
j <j'

k, on a

n n C ov ( R'. R' ., ) = Cov (

R'..

R""' ) o .J,.J 0

IJ'

1 J 1= 1 1 = 1

nn=

? COVo(R'ij, R'i'j') 1= 11 = 1

n = L COVo(R'ij, R'ij'), i=l

car, si i * i', R'ij et R'i'j' sont indépendants. On en déduit, toujours


d'après les résultats de l'exercice 2 chap. 1,

n (k + 1) Cov o(R ' .j, R'.j') = n COVo(R'ij, R'ïj') = - . 2

Exercice 111.2. Démonstration du théorème 111.1.3 1) A l'aide du


théorème de la limite centrale vectoriel (théorème R./II.3.5),
déterminer la loi limite, lorsque n devient infini, k restant fixé, du
vecteur aléatoire U = (U b ... , U k) défini par

\:1 j e {1,...,k } ,

Uj = V k (

\n 1) ( R '.j - k; 1 ).

2) Vérifier que la loi limite obtenue est celle du vecteur aléatoire

z = (Y 1 - Y, ... , Y k - Y),

où YI,..., Y k désigne un échantillon de la loi

(0, 1) et où l'on a posé

_ 1 k Y=-LY.. k j= 1 J

256

VI. COMPARAISON DE k TRAITEMENTS


En déduire que, sous l' hypothèse Ho, la loi de FN converge, pour k
fixé et lorsque n augmente indéfiniment, vers la loi X 2 k _ 1 .

1) On peut écrire

/2!!i; ( n J D.= l2n 2-LR,.._ k+l J k (k + 1) n i=l IJ 2

(l2 f ( R'" -

) /0 J

i=l IJ 2 '

d'où

U=

iSi' /0 J

i=l

en posant Si = ( R' il - k: 1 , ... , R' ik _ k : 1 )-


D'après l'exercice 111.1, les vecteurs aléatoires Si soin
indépendants, de même loi centrée et possédant une matrice des
covariances A. Le théorème de la limite centrale vectoriel (théorème
R.III.3.5) nous permet alors d'affirmer que la loi limite de D, lorsque n
devient infini, est la loi .N k(O, A), où l'on a posé

12 A= A. k (k + 1)

On a, toujours d'après l'exercice 111.1,

12 k - 1 a.. = V (R'..) = - JJ k (k + 1) 0 IJ k

.. . 1 et, SI J ;f. J ,

a.., = JJ

12 k (k + 1)

1 Cov ( R'.. R'.., ) = - - o IJ' IJ . k

2) Le vecteur Z est gaussien car il est l'image par une application


linéaire du vecteur (Y 1, ... , Y k) lui-même gaussien. De plus, il est
centré. Déterminons sa matrice des covariances en remarquant
d'abord que

( k J - 111 Cov(Yj, Y) = Cov Y., - L Yi = - V(y.) = - . J k i=l k J k

257

VI. COMPARAISON DE k TRAITEMENTS

On a

- - V(Yj - Y) = V(Yj) + V(Y) - 2 Cov(Yj, Y) 1 2 k-l =1+---=- k k k

et

_ _ - - 1 Cov(Yj - Y, Yj' - Y) = - 2 Cov(Yj, Y) + V(Y) = - -. k

On vérifie que la matrice A obtenue à la première question est la


matrice des covariances de Z. k Enfin, puisque FN = L U

et que la loi limite du vecteur U est la loi de Z, la . 1 J J= k loi limite


de FN est la loi de L (Yj - y )2, c'est-à-dire la loi X 2 k _ 1 . j=l
Exercice 111.3. Avec les notations de la section III, on pose

T'=

T. £.J l' i=l

où Ti est la statistique de Jonckheere (voir exercice II.5) calculée


pour les observations du i ème bloc. Montrer les relations (111.3) et
(111.4), à savoir

lE n k (k - 1) o (T ') = 4

et

nk(k-l)(2k+5) Vo(T ') = . 72

Nous avons vu à l'exercice III.l que les n vecteurs aléatoires (R'il,...,


R'ïk) (1

i
n) sont indépendants et suivent la même loi. Il s'ensuit qu'il en est de
même pour les n variables aléatoires Ti. On a donc

lEo(T ') = n lEo(Ti)

et

V o(T ') = n V o(Ti).

D'autre part, l'exercice 11.5 nous fournit les valeurs de lEo(Ti) et de


V o(Ti) en faisant nI = ... = nk = 1, d'où N = k, dans les relations qui
donnent lEo(T) et V o(T). On obtient

1 2 k (k - 1) lE (T.) = - (k - k) = , o 1 4 4

258

VI. COMPARAISON DE k TRAITEMENTS

1 2 k (2k 2 + 3k - 5) V (T.) = - (k (2k + 3) - 5k) = o 1 72 72


k (k - 1) (2k + 5) = 72

d'où

lE n k (k - 1) (T ') = o 4

et

nk(k-l)(2k+5) V 0 (T ') = . 72

Exercice 111.4. Avec les notations de la section 111.2, on suppose


que k = 3 et qu'il existe une loi G appartenant à "s et des nombres
réels Si (1

n) tels que

\:lie {l,...,n}, \:1 (XI, X2,x3)e (R3,

3 F(X1, x2, X3) = II G(Xj - Si). j=l

On se propose de calculer lEo(W


2

3)' 1) En utilisant la relation (111.7) chap. V, montrer que l'on a

lEo(

3) = L P o (X h2 - X h1 + X i2 - XiI> 0, X' 3 - X' 1 + X k3 - X k1 > 0). l


< h <'< 1 <'< k < J J - _Ln, -J-_n

Montrer que, pour calculer ces probabilités, on peut supposer que


les variables aléatoires Xij (1

n, 1

3) sont indépendantes et de loi G. 2) En examinant les différentes


possibilités d'égalité des entiers h, i, j et k, montrer que l'on a

lE 0 (

3) =

n (n - 1) (n - 2) (n - 3) + n (n - 1) (n - 2) (

+ A (G) J 16 4 +n(n-l) (
+2B(G) J +

' 12 3

où l' on a posé

A(G) = P(Y 1

Y 2 + y 3 - Y 4, Y 1

Ys + Y 6 - Y 7),

B(G) = P(Y1

Y2, YI

Y3 + Y4 - Ys),

en désignant par YI, ... , y 7 des variables aléatoires indépendantes


de loi G. 3 ) Montrer que l' on a

lim Corro(

2'

3) = 12 A(G) - 3. n ---+-toc

Quel encadrement de A (G) en déduit-on?


259

VI. COMPARAISON DE k TRAITEMENTS

1) La relation (ID.7) chap. V relative à un échantillon de taille n s'écrit


w: =

11 Jo.+oo[(X i + X j ). l

Avec les notations de la section ill.2, on peut donc écrire

W;2 =

11 JO,+oo[( (X h2 - X h1 ) + (X i2 - Xii) ) 1

lSn

et l'on a donc
W;2 W;3 = . L. 11 JO,+oo[(X h2 - X h1 + X i2 - Xii) 11 Jo.+oo[(X j3 - X
j1 + X k3 - X k1 ). l

n. l

En remarquant que, si U et V sont des variables de Bernoulli, il en


est de même de UV et que l'on a alors

IE(UV) = P(UV = 1) = P(U = 1, V = 1),

on en déduit

lE o (W;2 W;3) = L P o(X h2 - X h1 + X i2 - XiI> 0, X j3 - X j1 + X k3 -


X k1 > 0). l

n. l
j

On sait que, dans le modèle (1.4), les n vecteurs aléatoires (XiI, X i


2, Xi3) sont indépendants. En outre, nous supposons ici que, pour
tout i (1

n), la fonction Fi se factorise, ce qui entraîne l'indépendance de Xi}'


Xi2 et Xi3. Nous en déduisons donc que les variables aléatoires Xij
(1

n, 1

3) sont indépendantes. Enfin, on remarque que, pour tout j (1

3), les n variables aléatoires Xij + Si sont de loi G. Puisque l'on a,


par exemple,

Xi2 - XiI = (Xi2 + Si) - (XiI + Si),

les probabilités que nous avons à calculer ne dépendent pas des


nombres Si. En d'autres termes, on peut supposer que tous les Si
sont nuls, ou encore que toutes les variables aléatoires Xij sont de
loi G.

2) Les probabilités que nous avons à calculer prennent des valeurs


différentes selon que les entiers h, i, j et k prennent une, deux, trois
ou quatre valeurs distinctes. Nous devons donc examiner les
différents cas rencontrés et, pour chacun de ces cas, calculer le
nombre de termes concernés et la valeur qu'ils prennent.

260

VI. COMPARAISON DE k TRAITEMENTS

Pour alléger l'écriture, posons

Àh,i,j,k = P o (X h 2 - Xh1 + Xi2 - XiI > 0, X j 3 - Xj1 + Xk3 - Xkl > 0).

1er cas. Les quatre entiers h, i, j et k sont égaux. TI y a n tels termes


et l'on a

À. . . . = P ( X . 2 - X . 1 > 0 X . 3 - X . 1 > 0 ) 1,1,1,1 0 1 1 , 1 1 = P


o( XiI < Xi2, XiI < X i 3).
1 Cette probabilité est égale à - puisque les six permutations
possibles sont 3 équiprobables et qu'il Y en a deux qui réalisent
l'événement considéré. n La somme des termes relatifs à ce premier
cas est donc égale à -. 3

2ème cas. Trois des quatre entiers h, i, j et k sont égaux et le


quatrième est distinct de ceux -ci.

n (n - 1) On peut, par exemple, avoir h < i = j = k. Il Y a tels termes et


l'on a 2

À h . . . = P ( X h 2 - X h1 + X' 2 - X' l > 0 X' 3 - X' l > 0 ) ,1,1,1 0 1 1 ,


1 1 = Po(XiI < Xi3, XiI < Xh2 + Xi2 - Xh1) = B(G).

n (n - 1) , On laisse au lecteur le soin de vérifier qu'il y a encore


termes egaux à 2

B(G) lorsque c'est i, j ou k qui est distinct des trois autres entiers (h =
j = k < i ou j < h = i = k ou h = i = j < k). La somme des termes relatifs
à ce deuxième cas est donc égale à 2n(n-l) B(G).

3ème cas. Deux des entiers h, i, j et k sont égaux, les deux autres
sont égaux entre eux, mais distincts des deux premiers. On peut, en
fait, avoir
h=i*j=k

ou

h = j < i = k.

Pour la première de ces deux hypothèses, il ya n (n - 1) termes et


l'on a

Ài,i,j,j = P o (Xi2 - XiI > 0, Xj3 - Xj1 > 0) 1 2 1 = P o (Xi2 - XiI > 0),P o
(Xj3 - Xj1 > 0) = (-) 2 4

261

VI. COMPARAISON DE k TRAITEMENTS

n (n - 1) Pour la seconde hypothèse, il y a termes et l'on a 2 Àh,i,h,i


= P o (Xh2 - XhI + Xi2 - XiI> 0, Xh3 - XhI + Xi3 - XiI> 0) = Po(XhI +
XiI < Xh2 + Xi2, XhI + XiI < Xh3 + Xi3) 1 = P(ZI < Z2, ZI < Z3) = -, 3

n désignant par ZI, Z2 et Z3 des variables aléatoires indépendantes


de loi G * G.
5 n (n - 1) La somme des termes relatifs à ce troisième cas est donc
égale à 12

4ème cas. Deux des entiers h, i, j et k sont égaux, les deux autres
sont distincts et distincts des deux premiers. Il y a, ici, six
hypothèses à examiner. Nous laissons au lecteur le soin d'entrer
dans les détails et nous nous contentons d'explications sommaires.

n (n - 1) (n - 2) . Si h = i (ou j = k), il y a termes et l'on a 2

Àh,h,j,k = P o (Xh2 - Xhl > 0, Xj3 - Xjl + X k 3 - XkI > 0) = P o (X h1 <


X h 2).P o (XjI + XkI < Xj3 + X k 3) 1 = P o (Xhl < Xh2).P(ZI < Z2) = -.
4

1 On a également Àh,i,j,j = -. 4

. n (n - 1) (n - 2) , . Si h = j (ou i = k), Il y a termes et 1 on a 3

Àh,i,h,k = P o (Xh2 - Xhl + Xi2 - XiI> 0, Xh3 - Xhl + Xk3 - Xkl > 0) = P
o (Xil < Xh2 + Xi2 - XhI, XiI < Xh3 + Xk3 - Xkl) = A(G).

On a également Àh,i,j,i = A(G).


. n(n-l)(n-2) . Si h = k (ou i = j), Il Y a tennes que l'on vérifie aisément
être 6

égaux à A(G).

262

VI. COMPARAISON DE k TRAITEMENTS

La somme des termes relatifs à ce quatrième cas est donc égale à 1


n(n-l)(n-2)(-+A(G». 4

Sème cas. Les quatre nombres h, i , j et k sont distincts. Le nombre


de termes est égal à

2 -2 n (n - 1) (n - 2) (n - 3) C x c:::. 2 = n n- 4

et l'on a

Àh.i,j,k = P o(X h2 - Xh1 + Xi2 - X il > O).P o(Xj3 - Xj1 + Xk3 - Xkl >
0) = ( P o (Xh2 - Xhl + Xi2 - XiI> 0) )2 = ( P o(Xil + Xhl < Xi2 + Xh2)
)2 2 1 = (P(ZI < Z2» =-. 4

La somme des termes relatifs à ce cinquième cas est donc égale à n


(n - 1) (n - 2) (n - 3) 16

On obtient donc bien

lEo(

3) =

n (n - 1) (n - 2) (n - 3) + n (n - 1) (n - 2) ( 2- + A (G) J 16 4 + n (n - 1)
(

+ 2 B (G) J +

. 12 3

Remarque. On peut s'assurer que l'on n'a pas oublié de termes en


vérifiant que le nombre total de termes qui interviennent dans les
différents cas est bien égal au nombre de termes du ( n (n + 1» ) 2 I"
soit à 2 !

3) On a montré, au corollaire 111.2.3 chap. V, que


lE + _ n (n + 1) o(W n ) - 4

et

nJ'f- _ n (n + 1) (2n + 1) V 0 ( vv n) - . 24

Ces résultats sont encore vrais si l'on y remplace w:. par

2 ou

3. En effet,

2' par exemple, n'est autre que la statistique w:. relative à


l'échantillon

(X12 - X ll , ... , Xn2 - X n 1)

263

VI. COMPARAISON DE k TRAITEMENTS

et, d'après le raisonnement effectué à la question 1, il s'agit là, en


fait, d'un échantillon de la loi G * G qui appartient, elle aussi, à "s, On
a donc n 2 (n + 1)2 Covo(
2'

3) = lEo(

3)- 16

2 2 n (n - 1) (n - 2) (n - 3) - n (n + 1) ( 1 J = + n (n - 1) (n - 2) - + A (G)
16 4 + n (n - 1) ( 2.. + 2 B(G» ) +

12 3

3 ( 1 ) 2 = n A(G) - 4" + À n + Jl n .

1 1 Cette covariance est donc équivalente (n

+00) à n 3 (A(G) - -) si A(G) * -. 4 4

Sinon, c'est un infiniment grand d'ordre inférieur à 3. Comme on a

3 j n (n + 1) (20 + 1) n V o(

2) V o(

3) = V o(

2) = f'J 24 n-H-oo 12
on en déduit que Cov o(W;2' W

3) COIT o (W;2' W;3) = j V o (W;2) V o (W;3)

12 ( A(G) - : ).

n-H-oo

soit que

lim COITo(

2'

3) = 12 A(G) - 3. n-H-oo

Comme cette limite doit être un élément de l'intervalle [-1, 1], on en


déduit que l'on a nécessairement

11-

A(G)

-63
pour toute loi G continue et appartenant à "s. En fait, Lehmann
(1964) (voir également Miller (1981), page 162) a montré que l'on a
même

17-

A(G)

- , 4 24

264

VI. COMPARAISON DE k TRAITEMENTS

ce qui fait que

1o

lim Corro(

2'

3)

-. n

+oo 2
On peut montrer assez facilement que, si G est une loi normale, on a

1 1 . fi A(G) = - - - Arcsm = 0.2902. 2 1t 1t

Enfin, si G est une loi de Cauchy, A(G) = 0.2879 et, si G est une loi
uniforme, 733 7 A(G) = - = 0.2909, valeur très proche de - = 0.2917.
2 520 24

Remarque. Ces valeurs numériques nous montrent que

lim Corro(

2'

3) n

+oo

dépend de la loi G, ce qui implique que la statistique proposée en


(111.6) (page 246 du tome 1) a une loi, sous 1 'hypothèse Ho, qui
dépend de la loi des observations.

Exercice 111.5. Avec les définitions et les notations de la section


111.4, on se propose de montrer que, si l'alignement est tel que,
pour tout i e {l,..., n}, il y ait, parmi les réalisations des observations
alignées, au moins une négative et une positive (ce qui est le _ 1 k
cas, en particulier, si l'on a choisi ai = - L X ij ), alors, sous l'
hypothèse Ho, la loi de k j=1

FN conditionnée par n Ai converge, pour k fzxé et lorsque n


augmente indéfiniment, Î=I vers la loi X 2 k-l' On admet, pour cela, le
théorème suivant (Lehmann (1975)) qui est une conséquence du
théorème R./II.3 .8.

Théorème. Pour tout entier n strictement positif, soit X 1n , ... , X nn


une famille de vecteurs aléatoires indépendants de dimension k
donnée et de matrices des covariances respectives AIn, ... , Ann. On
suppose la condition de Lindeberg (voir théorème R.III.3.6) vérifiée
pour chacune des k familles X

n (X

n désignant la jème composante de X in ) et, de plus, que

\:1 U, j') e {l,..., k} 2 ,

lim Corr ( i X{n. i X{

J = PH' . . I . I JJ n

-too 1= 1=
265

VI. COMPARAISON DE k TRAITEMENTS

Alors, la loi du vecteur Y n = (Y

, ... , Y

) défini par

\:Ije {l,...,k},

fx

- E ( fXj J ln ln J . i=l i=l Y n = j

X{n J

converge, lorsque n augmente indéfiniment, vers la loi eN k(O, p), où


p désigne la matrice carrée d'ordre k de terme général Pjj'.

1) Appliquer le théorème ci-dessus en y remplaçant les variables


aléatoires Xin par
n

les rangs Rij (( conditionnés par n At (on pourra préciser ce que l'on
entend par là). i=l

Pour montrer que la condition de Lindeberg est vérifiée, on montrera


que si, pour n donné, ro désigne le rang de la réalisation la plus
proche de 0 aprés alignement, on a

\:lie {l,...,n},

\:1 je {l, ..., k},

........ n 1 V ( R..I nA. ) > - Inf ( r.. - r ) 2 o IJ 1 - IJ 0 i= 1 k l

et l'on en déduira qu'il existe À> 0 tel que

* \:InetN,
\:Ije {l,...,k},

nn

........ 3 £.J V o(Rij 1 n Ai)

À n . i= 1 i= 1

2) En déduire la propriété cherchée en s'inspirant du raisonnement


effectué à la question 2 de l'exercice 111.2.

1) Dire que l'on "remplace" les variables xtn par les rangs

........ Rij "conditionnés par

n Ai ", c'est dire, en fait, que l'on considère, avec les notations du
théorème, que pour i=l tout n e tN *, la loi conjointe des n vecteurs
Xin est la loi conjointe des n

n vecteurs Ri = (Ri1, ... , Rik) conditionnée par n Ai' i=1


Sous 1 'hypothèse Ho, cette loi est, d'après la relation 111.7, celle de
n vecteurs aléatoires indépendants dont chacun suit la loi uniforme
sur l'ensemble des permutations de l'ensemble {ril,..., rik}
correspondant. On a donc

266

VI. COMPARAISON DE k TRAITEMENTS

n lEo(Î

ij 1 n Ai) = ri., i=l

n 1 k - L 2 V ( R.'lnA. ) =- ( r.'-r. ) o IJ 1 IJ 1. i=l k j=l

et, d'après les résultats de l'exercice 2 chap. 1,

n n - - 1- Cov o ( (Rij, Rij') 1 n Ai) = - - V o(Rij 1 n Aï>. i= 1 k - 1 i= 1

* On en déduit que l'on a, pour tout n e tN et pour tout couple (j, j')
d'éléments distincts de {l,..., k},

n n n 1 COIT o [ (L Rij, L Rij') 1 n Ai] = - -, i= 1 i= 1 i= 1 k - 1


1 soit, avec les notations du théorème, poo, = - - 1) k _ 1 . La
matrice p du théorème a donc ses termes diagonaux égaux à 1 et
ses autres 1 termes égaux à --. k - 1

Montrons maintenant que la condition de Lindeberg est vérifiée pour


tout J E {l,... , k}. On remarque que j n'intervient pas ici puisque, pour
i donné, la loi de

Rij conditionnée par n Ai ne dépend pas de j. Posons (voir théorème


R.III.3.6) i=l

nnlnk2

- 2 Bn = £.J V o(Rij 1 n Ai) = - £.J £.J (rij - ri) . i=l i=l k i=l j=l

Soit, pour n donné, ro le rang de la réalisation la plus proche de 0


après alignement. Puisque, pour tout i e {l, ... , n}, il Y a au moins
une réalisation négative et une réalisation positive après alignement,
on peut affrrmer que
\:lie {l,...,n},

3 jo e {l,... , k},

ro e [ri., rij).

On a donc

(rij - ri)2

(rij - ro)2

Inf (rij - ro)2. o 0 l

On en déduit

n - 1 2 V o(Rij 1 n Ai)

Inf (r ï - ro) , i=l k l

kJ
267

VI. COMPARAISON DE k TRAITEMENTS

d'où

2 1 2 Bn > - 1 f ( ) n rij - ro . k l

Or, puisque les entiers fij sont distincts, l'un étant d'ailleurs égal à ro,
le second membre de cette inégalité est minimum lorsque figurent
sous le signe de sommation une fois 0, deux fois }2, deux fois 2 2 ,
... ,enfin une fois (if si n est pair ou deux fois ( 0; 1 r si n est impair.
On laisse au lecteur le soin de vérifier que l'on en déduit l'existence
d'un nombre À strictement positif tel que

. \:1 ne lN,

B
Â. n 3 .

La condition de Lindeberg s'écrit ici

\:1 E > 0,

nn1

-2

- lim 2

lEo[ Rij a ]EBn,+oo[(Rij) 1 .n Ai] = O. n-Hoo B 1=1 1=1 n

On remarque que, pour tout € > 0, on peut déterminer n tel que

\:lie {1,...,n},

\:1 j e {l,..., k}, 11 ]EBn,+oo[(Rij) = O.

Il suffit, pour cela, que k n = Max R ij

E Bn

E V À n 3 , i,j
soit que

k 2 n >- - 2. ÀE

La limite écrite dans la condition de Lindeberg est bien nulle puisque


la suite considérée est nulle à partir d'un certain rang.

Enfin, avec les notations du théorème, on a

yj = n

t Rij - E ( t Rij 1 n Ai ) i=l

i=l 1=1 AÇft Rijl n Ai' 'V V

i=l 1=1}

268

VI. COMPARAISON DE k TRAITEMENTS

-nnR.-
f. .J £.J 1. i=l

,J t V

Rijl n Air i=l 1=1

n ( R . _ fi k + 1 ) .J 2

£ t t (rij - ri.f i=l j=l

La loi limite du vecteur (Y

, ... , y

) est la loi eN k(O, p).

2) On remarque que l'on a, en conditionnant par n Ai ' i=1


- n 2 (k - 1)

( A n k + 1 ) 2 FN = £.J R.j- n k j=l 2 L L (rij - fi.f i=l j=l

k-1

.2

(R - 1 . ) 2 = - £.J (Y

) = £.J - y

. k j=l j=l k

On peut alors achever la démonstration comme on l'a fait à la


question 2 de l'exercice III.2 puisque la loi limite du vecteur VY y n
est la loi du vecteur Z défini dans cet exerCIce.

Exercice 111.6. On se place dans le cadre du modèle (1.4.9) défini


par la relation (111.5) et, avec les notations de la section 111.4, on
suppose que k = 2 et que l'on a choisi, ' l ' . d { 1 } - O . - XiI + Xi 2
pour tout e ement 1 e , ... , n, 1 - . 2

1 ) Montrer que

\:lie {l,...,n},
- - Rit + Ri2 = 2 n + 1

et en déduire la valeur du dénominateur de FN en remarquant


qu'elle dépend de n et non des observations.

269

VI. COMPARAISON DE k TRAITEMENTS

Montrer que

( 2 ) 2 .- Sn n FN = À W - - - - , n n 2 4

où Ân, que l'on déterminera, s'exprime en fonction de n. 2) En


déduire que le test construit à partir de FN est asymptotiquement
équivalent au test bilatéral de rang signé de Wilcoxon.

.- 1) Désignons par X'ïj les observations après alignement (X'ij = X ij


- ai). On a

\:lie {l,...,n},
X'ïl + X'ï2 = 0,

d'où

Ril + Ri2 = 2 n + 1 et Ri. = 2 n + 1 . 2

On en déduit que l'on a, pour tout élément i de {l,..., n},

.-.- .-.- 1 Ri 1 - Ri. 1 = 1 Ri2 - Ri. 1

1 3 et que les n valeurs de cette expression sont -, 2 2

2n-1

Le dénominateur D de

, ... ,

2
.- FN peut donc s'écrire

.- A2 1 22 2 D = 2 £.J (R i1 - Ri) = - (1 + 2 +... + (2n - 1) ) i=1 2

2n n =

[ L i 2 - L (2i)2] 2 i=1 i=1

n (2n + 1) (2n - 1) = 6

On a donc

2 .- 6 n

l A 2 1 ) 2 FN = 2

R.j - n + . 4 n - 1 J=1 2

.- .- Mais, puisque, pour tout i, on a Ril + Ri2 = 2 n + 1, on en déduit

.- .- R. 1 + R.2 = 2 n + 1,
270

VI. COMPARAISON DE k TRAITEMENTS

d'où

I R .l - 2n; 1 1 = 1 R .2 - 2n ; 1 1 =

1 R .2 - R .l l,

soit

- 3n - - 2 FN = 2 (R.2 - R.l) . 4 n - 1

On remarque que l'on a

n n n Sn = L j1]O,+oo[(Xi2 - XiI) = L j1]O,+oo[( X' i2 - X'iI) = L


j1]O,+oo[(Ri2 - Ri}) i=1 i=l i=l

et

nn+
-+ oÇ'I

-+ oÇ'I -- W n = £.J Ri 8 ]O,+oo[(Xi2 - XiI) = £.J Ri 8 ]O,+oo[(Ri2 -


Ril), i= 1 i= 1

où R7 désigne le rang de 1 Xi2 - XiII dans la suite 1 X12 - Xll 1, ... , 1


X n 2 - X n l 1. Ce rang R7 est également celui de 1 X'i2 - X'ï1 1
dans la suite 1 X'12 - X'III, ... , 1 X ' n 2 - X'nl 1. Mais, puisque, pour
tout élément i de {l,..., nI, X'iI et X'ï2 sont opposées, R7 prend la
valeur 1 si et seulement si les réalisations de X'ïl et X'ï2 sont les plus
proches de 0, c'est-à-dire si {Ri1, Ri2} prend la valeur {n, n + l}. Plus
généralement, R7 prend la valeur k si et seulement si (Ril, Ri2}
prend la valeur {n - k + 1, n + k}, d'où

- - -+ 1 R' 2 - R' 1 1 + 1 R . - 1 1 1- 2

On en déduit

n__W+=

1 Ri2 - Ri 1 1 + 1 oÇ'I (R R n £.J 8 ]O,+oo[ - i2 - - il) i=1 2

n1

- - oÇ'I - - 1 = - £.J 1 R i2 - Ril 1 8]O,+oo[(Ri2 - Ril) + - Sn. 2 i= 1 2

271
VI. COMPARAISON DE k TRAITEMENTS

- Enfm, on achève le calcul de FN en écrivant que

nAA1

_ _ R.2 - R.l = - £.J (Ri2 - RH) n i=1

nn1[

- -.;'1 - -

- -.;'1 - - ] = - £.J 1 Ri2 - Ril l a]O,+oo[(Ri2 - Rn) -

1 Ri2 - Rit 1 a]O,+oo[(Ril - Ri2) n i=l i=1

nn1[

- -.;'1 - -

- - .;'1 - - ] = - £.J 1 Ri2 - Rn 1 a ]O,+oo[(Ri2 - Rn) - £.J 1 Ri2 - Rn 1 (


1 - a ]O,+oo[(Ri2 - RH) ) n i=1 i=1

nn2

- -.;'1 - - 1
- - = - £.J 1 Ri2 - Rn 1 a ]O,+oo[(Ri2 - Rn) - - £.J 1 Ri2 - Ri 1 1 n i=l n
i=l

4 ( Sn J 1

- - = - w: - - - - £.J 1 Ri2 - Rn 1 n 2 n i=l

4 ( Sn J I = - w: - - - - ( 1 + 3 + ... + (2n + 1) ), n 2 n

puisque les différentes valeurs prises par 1 Ri2 - Ri! 1, soit par 21 Ri!
- 2n ; 1 1 sont 1, 3, ... , 2n - 1, comme on l'a vu plus haut.

On a donc

A A 4 ( '1"1 r+ Sn J I 2 R.2 - R.l = - W n - - - - n n 2 n

_ Sn _ n2 J n n 2 4

et on en déduit
( 2 ) 2 - 48 Sn n FN = n (4 n 2 _ 1) w: - 2' - 4' .

2) Le test bilatéral de rang signé de Wilcoxon admet une région


critique de la forme (I w: -lEo(W:) 1

c} ou, encore, de la forme

272

VI. COMPARAISON DE k TRAITEMENTS

- Eo(

C ) . j V o(w+;.)

Les valeurs de lEo<w;.) et de V o<w;.) données par le corollaire


111.2.3 chap. V, à

savolT

lE nr+ n(n+l) o(w -) = n 4


et

ur+-. n (n + 1) (2n + 1) V o( YY n) = , 24

sont encore valables ici car nous nous plaçons dans le modèle
(1.4.9) (on peut se reporter au raisonnement effectué à la question 3
de l'exercice 111.4).

On écrit donc

2 FN = 48 (

_ n (n + 1) +

_ Sn ] n(4n 2 -1) 4 4 2

2 48 [

- lEo(w;J n - 2 Sn ] = Vo(

) + n (2n - 1) (2n + 1) . j V o<w;.) 4 j V o<w;.)

2 = 2 (n + 1) [ w+;. - E 0 <w:.> + n - 2 Sn J . 2n + 1 j vo(W:) 4 j


vo<w;.)
Or, puisque 0

Sn

n, on a

-n

n - 2 Sn

n,

d'où

n - 2 S lim n = O. n

4 j V o <w;.)

On a donc, pour n assez grand, 2 - [

- lEo(

) J FN

j V o<w;.)

- - et le test défini par FN et dont la région critique est de la forme


{FN
c'} est bien asymptotiquement équivalent au test bilatéral de rang
signé de Wilcoxon.

273

VI. COMPARAISON DE k TRAITEMENTS

Exercice 111.7. On se place dans le cadre de la section III.l.a dont


on adopte les notations. On suppose que les observations sont
dichotomiques, c'est-à-dire que chaque traitement n'a que deux
issues, le succès ou l'échec. L'observation Xij est supposée prendre
la valeur 1 en cas de succés, la valeur 0 sinon. * 1 ) Montrer que la
statistique de Friedmann FN s'écrit alors

= k (k - 1) ( f À

_ p2 ) , n j=1 J k Lm. p . 1 1 i=1

où mi et Pi désignent respectivement le nombre d'échecs et le


nombre de succés du bloc 1, Aj le nombre de succés du traitement j
et p le nombre total de succés. On a donc

TI k P = LPi = LA.. . 1 . 1 J 1= J=
2) Comparer les quatre traitements suivants pour chacun desquels
on dispose de dix réalisations des observations.

1 2 3 4 5 6 7 8 9 10 1 1 1 1 1 1 1 0 0 0 1 2 1 1 1 1 1 1 1 0 0 1 3 1 1 1
000001041100001000

* 3) On se place dans le cas où k = 2. Montrer que la statistique F 2n


s'exprime en fonction des nombres A et B de blocs respectivement
égaux à (l, 0) et à (0, 1). Préciser la loi de A, conditionnée par A + B,
sous l' hypothèse Ho. Application. Comparer deux à deux les quatre
traitements de l'exemple de la question 2.

1) Avec les notations de la section III.1.a, on a, pour tout (1

n), si = 1 ou Si = 2 et

274

VI. COMPARAISON DE k TRAITEMENTS

S. 1

333
(d ij - d ij ) = (mi - mi) + (Pi - Pi) 1=1 2 2 = (mi + Pi) (mi - mi Pi + Pi -
1)

= k ( (mi + Pi)2 - 3 mi Pi - 1)

= k ( k 2 - 3 mi Pi - 1).

Le dénominateur de F

est donc égal à

k 3 - k - 3 k mi Pi _ 3

1-

3-2

mi Pi' 1=1 n (k - k) n (k - 1) 1=1

* Les rangs moyens R' ij sont définis par

m. + 1 1

* R'..= IJ
2

SI X ij :;:: 0, SI X.. = 1, IJ

Pi + 1 m.+- 1 2

ou encore par

, * mi + 1 mi + Pi k - Pi + 1 k R .. = + x.. = + - x". IJ 2 2 IJ 2 2 IJ

On a donc R ·

j=

f. ( k - Pi + 1 +

xi' J = k + 1 _ E. +

Â.., n i=1 2 2 J 2 2n 2n J

d'où

k2k22[k2)L(R'

j-k+1t=-
L ( Â.. - E. ) =

L Â.

. j=1 2 4 n 2 j=1 J k 4 n 2 j=1 J k

275

VI. COMPARAISON DE k TRAITEMENTS

On en déduit

12 n

( f,).,2 _ p2 ) * k (k + 1) 4 n 2 j= 1 j k F N = , 3 n 2

mi Pi n (k - 1) 1=1

soit

= k (k - 1) ( f).,

_ p2 ) . n j=l J k Lm. p . 1 1 i=l


* 2) Dans le cas de l'exemple proposé, la valeur prise par FN est
égale à 7.846.

* On sait que la loi limite de F N , sous l'hypothèse Ho et lorsque n


devient infini, est la loi X 2 k-l' soit, ici, la loi X 2 3. En admettant
cette approximation justifiée pour n = 10, la table BI du tome 1 nous
donne

* P o(F N

7 .80)

0.0503.

Cette probabilité étant faible, nous reje!ons l'hypothèse Ho et en


concluons que les quatre traitements n'ont pas le même effet. La
question suivante va nous permettre de les comparer deux à deux.

3) Si k = 2, désignons par A, B et C les nombres de blocs


respectivement égaux à (1,0), (0,1) et (1,1). On a alors

n L mi Pi = A + B, AI = A + C, A2 = B + C, i=l

d'où
F* - 2 [ (A + C)2 + (B + C)2 - 2- (A + B + 2C)2], 2n - A + B 2

soit

2 * (A - B) F 2n = . A+B

276

VI. COMPARAISON DE k TRAITEMENTS

Cette statistique est connue sous le nom de "statistique de Mac


Nemar". Elle ne fait intervenir que les nombres de blocs pour
lesquels les deux traitements ont donné des résultats différents, ce
qui ne doit pas nous étonner. De plus, si l'on est amené à rejeter
l'hypothèse Ho, soit si (A - B)2 est relativement grand devant A + B,
on peut affirmer que le premier traitement est plus efficace que le
second si A> B. Enfin, sous 1 'hypothèse Ho, c'est-à-dire si les
traitements ont le même effet, on peut dire que, si A + B est connu,
la loi conditionnelle de A (et également celle de B) est la loi
binomiale :B (A + B, .:.) puisque, dans le cas où les deux traitements
ont eu des effets 2 1 différents, les probabilités d'avoir un bloc (1, 0)
ou (0, 1) sont égales à -. 2

Application. Comparons, par exemple, les deux premiers


traitements. Les valeurs * a et b prises par A et B sont
respectivement égales à 0 et 1 et F 2n prend la valeur 1. Si l'on
admet l'approximation de la loi de F;n' sous l'hypothèse Ho, par la loi
X? 1 qui n'est autre que la loi du carré d'une variable aléatoire X de
loi eN (0, 1), on obtient

Po(F;n

1) :f: P(X 2

1) = P(I X 1

1) = 2 P(X

1) = 2 (1 - 0.841) = 0.318.

D'autre part, si nous comparons les traitements 2 et 3, nous


obtenons a = 5 et b = 1, d'où la valeur 2.67 pour F;n. Nous avons
alors

. P o (F 2n

2.67) :f: 2 P(X

1.634) = 2 (1 - 0.949) = 0.102

et l'on en conclut que ces traitements sont d'efficacité différente, le


second étant meilleur que le troisième. On laisse au lecteur le soin
de vérifier que les traitements 3 et 4 semblent avoir la 1 même
efficacité car F;n prend la valeur -. 3
D'autres comparaisons montreraient que chacun des deux premiers
traitements est plus efficace que chacun des deux derniers, ce qui
est compatible avec les résultats obtenus ci-dessus et avec la
conclusion de la question 2.

277

Chapitre VIT

TESTS D'INDEPENDANCE

MESURES D'ASSOCIATION

Exercice II.1. Montrer que les vecteurs aléatoires (X, Y) définis ci-
dessous ont une loi H qui présente une dépendance positive par
quadrant. 1) Etant donné une variable aléatoire réelle X et une
fonction réelle s croissante sur rR, on pose (X, Y) = ( X, s(X) ). 2) On
pose (X, Y) = (X, X + U) où X et U désignent deux variables
aléatoires réelles indépendantes dont la loi commune est a) la loi 'E
(1), b) la loi U[O, 1]. 3) Etant donné trois variables aléatoires réelles
U, V et W indépendantes et de loi 1(1), on pose (X, Y) = (U + V, U +
W).

On adopte les notations de la section TI.l.b. 1) On a


H (x, y) = P(X

x, Y

y) = P(X

x, s(X)

y)

et l'on remarque que, si s(x)

y, on a

(X

x)

(s(X)

s(x»

(s(X)

y ).

On a donc, dans ce cas,

H (x, y) = P(X

x) = F(x)
F(x) G(y).

Au contraire, si s(x) > y, on a

( X > x)

(s(X)

s(x»

(s(X) > y ),

d'où

( s(X)

y)

(X

x)

279

VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION


et, donc,

H(x, y) = G(y)

F(x) G(y).

La dépendance positive par quadrant de la loi H est établie.

2) a) On suppose que X et U sont de loi '1 (1). On remarque d'abord


que l'on a, presque certainement,

o < X < Y.

Si (x, y) ne satisfait pas la relation 0 < x < y, on vérifie que l'on a

H(x, y) = F(x) = 0 ou H(x, y) = G(y),

d'où

H(x, y)

F(x) G(y).
Supposons que l'on ait 0 < x < y. On a alors

( -X F x) = 1 - e

et, puisque Y suit la loi 1(1) * 1(1), soit la loi r(2, 1),

G(y) = 1 - (y + 1) e- Y .

On a

H(x, y) = P(X

x, X + U

y) = fI e't e'U dt du, D(x,y)

où D(x, y) = { (t, u) ; t

x, t + u

y }. On a donc

X y4 X H(x, y) = f e- t dt f e'u du = f e't (1 - et,y) dt o 0 0


x f ( -t -y ) d 1 -x -y = e -e t= -e -xe. o

On en déduit

H(x, y) - F(x) G(y) = 1 - e- x - xe -Y- (1 - e- x ) (1 - (y + 1) e- Y )

= e -y ( (1 + y) (1 - e- x ) - x ).

280

VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION

Posons

-x q>(y) = (1 + y) (1 - e ) - x.

La fonction q> est une fonction croissante et, pour y = x, on a

q>( x) = (1 + x) (1 - e - x) - x = 1 - (x + 1) e - x = G( x)

O.
La fonction q> est donc positive ou nulle sur [x, +oo[ et cela établit la
dépendance positive par quadrant de la loi H.

b) On suppose maintenant que X et U sont de loi U [0, 1]. On a


alors, presque certainement,

0<X<Y<X+l<2

et, si l'on raisonne comme on l'a fait au a), on voit que l'on peut
limiter l'étude au cas où l'on a

o < x < y < x + 1 < 2.

On a alors F(x) = x et G(y) = P(X + U

y) = f f dx du, L\(y) où

(y) = { (x, u) e [0, 1]2 ; x + u

y }. Un simple calcul d'aire conduit à

{ 2 G(y) = y / 2 1 - (2 - y)2 / 2
si 0

1, . 1 < < 2 SI _ Y - .

De même, on détermine H(x, y) par

H(x, y) = ff dt du, D(x,y)

où D(x, y) = { (t, u) e [0, 1]2 ; t

x, t + u S y }. Là encore, il s'agit d'un simple calcul d'aire qu'on laisse


au lecteur le soin d'expliciter. On obtient

_ { (x / 2) (2 Y - x) H(x, y) - 2 x - (x - y + 1) /2

si y

1, si y

1.

281

VII. TESTS D'INDEPENDANCE. MESURES D' ASSOCIATION


On a donc, si y

1, soit si 0 < x < y

1,

2 x y H(x, y) - F(x) G(y) = - (2y - x) - x - 2 2 x 2 = - (2y - x - y ) 2

et la quantité entre parenthèses est positive car c'est une fonction


décroissante de x qui est

ositive ou nulle pour x = y.

De même, si y

1, soit si 1

Y < x + 1 < 2,

2 (x - y + 1) x 2 H(x, y) - F(x) G(y) = x - - x + - (2 - y) 2 2 1 22 = - ( (2


- y) - (x - y + 1) ) 2

et cette expression est positive car c'est une fonction décroissante


de x sur [y - 1, 1] qUI s'annule pour x = 1. La dépendance positive
par quadrant de la loi H est donc établie.
3) Les variables aléatoires X et Y sont de loi r(2, 1) et l'on peut, ici,
se borner à supposer que x et y sont positifs. Par ailleurs, par raison
de symétrie, on a

\:1 (x, y) e OR +)2,

H(x, y) = H(y, x)

et l'on peut limiter l'étude au cas où 0 < x

y. On a F = G et

F(x) = 1 - (x + 1) e- x .

D'autre part,

H(x, y) = P(U + W

x, V + W

y) ffS - (u+v+w) d d d = e u v w, D(x,y)

où D(x, y) = { (u, v, w) e ([R+)3 ; U + w

x, v + w
y ). On a donc

282

VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION

x H(x, y) = f e- W dw J f e-(u+v) du dv ° [O,x-w] x [O,y-w] x = f e' w (1


- e W - x ) (1 - e W - Y ) dw ° x f ( -w -y -x w-x-y ) d = e -e -e +e w ° 1
-x ( -y -x ) -(x+y) ( X 1) = -e -x e +e +e e - .

On en déduit, après un calcul simple,

H(x, y) - F(x) G(y) = e- Y [ y (1 - (x + 1) e- x ) + 2 - x - (x + 2) e- x ].

L'expression entre crochets est une fonction croissante de y qui,


lorsque y = x, est égale à

<p(x) = 2 - (x 2 + 2x + 2) e- x

et cette dernière expression est positive si x > 0 puisque c'est une


fonction croissante de x (<p'(x) = x 2 e- x ) nulle pour x = O.
L'expression entre crochets est donc positive lorsque o < x
y et la loi H présente bien une dépendance positive par quadrant.

Exercice II.2. Montrer que, si (X, Y) est un vecteur aléatoire réel de


loi continue, les quatre relations écrites à la remarque II.1.2 sont
équivalentes. Ecrire quatre relations équivalentes analogues dans le
cas de la dépendance négative par q undrant.

Désignons par (1), (2), (3) et (4) respectivement les quatre relations
écrites à la remarque II.1.2. Montrons, tout d'abord, que (1) => (2) en
remarquant que la continuité de la loi du vecteur (X, Y) fait que les
probabilités écrites ne sont pas modifiées lorsqu'on y remplace des
inégalités non strictes par des inégalités strictes (ou le contraire).
Supposons la relation (1) vraie. Nous appuyant sur la propriété très
générale

p(AnB') = P(A) - p(AnB),

où BI désigne l'événenlent contraire de B, nous pouvons écrire

283

VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION

P(X
x, Y

y) = P(X

x) - P(X

x, Y < y) = P(X

x) - P(X

x, Y

y)

P(X

x) - P(X

x) P(Y

y)

P(X

x) ( 1 - P(Y

y) )

P(X

x) P(Y > y)

P(X

x) P(Y

y).
Par un calcul très analogue, nous montrerions que (2)

(3), pUIS que (3) => (4) et que (4)

(1). L'équivalence des quatre relations est donc établie. Dans le cas
de la dépendance négative par quadrant, nous pouvons écrire
quatre relations analogues obtenues en changeant les sens des
inégalités entre probabilités. Ces relations sont, bien évidemment,
équivalentes.

Exercice II.3. Démonstration de la relation de Hoeffding Soit (X, Y)


un vecteur aléatoire de loi H dont on désigne par F et G les lois
marginales. On se propose de montrer que, si IE(X), IE(Y) et IE(XY)
existent, on a (relation de Hoeffding) Cov(X, Y) = E(XY) - E(X) E(Y)
= J f (H(x, y) - F(x) G(y) ) dx dy. 1R2

1) Vérifier que, si (Xl, X2) et (Y}, Y 2) sont deux vecteurs


indépendants de loi H,

on a

IE[ (Xl - X2) (YI - Y2)] = 2 ( lE (XY) - IE(X) IE(Y) ).

2) Soient a, b , c et d quatre nombres réels. Calculer J f cI>(a, b, c, d


; u, v) du dv, fR2

où l' on a posé
<I>(a, b, c, d ; u, v) = [

]u,+oo[(a) -

]u,+oo[(b) ] [

]v,+oo[(c) -

]v,+oo[(d) ].

Montrer que l'on a

284

VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION

E[ (Xl - X 2 ) (YI - Y 2 )] = E [f

2<1>(XI' X 2 , YI' Y 2 ; u, V) du dv ] = f f E[ <1>(XI' X 2 , YI' Y 2 ; u,


v)] du dv. (R2 3) En déduire la relation de Hoeffding.

1) On a IE[ (Xl - X2) (YI - Y2)] = IE(XI Y 1 - XI Y 2 - X2 Y 1 + X2Y2) =


IE(XI Y I) -1E(X1) IE(Y2) -1E(X2) IE(YI) + IE(X2 Y 2) = 2 ( IE(XY) -
IE(X) IE(Y) ).
2) L'intégrale double se factorise et l'on a

f (11 [u.+oo[(a) - 11 [u.+oo[(b) ) du = fi{

_ f b du

si a

b,

fdU b

si a

b,

= a - b,

d'où
f f <1>(a, b, c. d ; u, v) du dv = (a - b) (c - d). fi{2

En remplaçant dans cette relation a, b, c et d par Xl, X2, y 1 et Y 2


respectivement, on obtient

E[ (Xl - X 2 ) (YI - Y 2 )] = E [f

2<1>(XI' X 2 , YI' Y 2 ; u, v) du dV] .

D'après le théorème de Fubini, on peut échanger "lE " et le signe


d'intégration si

E [f f IR2 1 <1>( Xl' X 2 , YI' Y 2 ; u, v) 1 du dv ] < + 00.

285

VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION

Or

J f 1 $(a, b, c, d ; u, v) 1 du dv = 1 a - b Il c - d l, 1R2
d'où

E[J

2' $( Xl' X 2 , y l' Y 2 ; U, V) 1 du dv ] = E [ 1 Xl - X 2 Il YI - Y 2 1 ]

et cette espérance est finie car IE(I X 1), IE(I y 1) et IE(I XY 1) le


sont.

On a donc bien la relation demandée.

3) On en déduit 2 Cov (X, Y) = J f E[ $(XI' X 2 , YI' Y 2 ; u, v)] du dv


1R2

et l'on a

IE[ <1>(X}, X2, YI, Y2; u, v)] =IE[

[u,+oo[(X1)

[v,+oo[(YI) -

[u,+oo[(X 1 )

[v,+oo[(Y2) -

[u,+oo[(X2) 11 [v,+oo[(Y 1) + 11 [u,+oo[(X2) 11 [v,+oo[(Y 2) ]


= 2 lE [ 11 [u,+oo[(X) 11 [v,+oo[(Y) ] - 2 lE [ 11 [u,+oo[(X) ] lE [ 11 [v
,+oo[(Y)

Or, on vérifie aisément que

lE [

[u,+oo[(X) ] = 1 - F(u),

lE[l1[v,+oo[(Y)] = I-F(v)

et, de même,q ue

lE [ 11 [u,+oo[(X)

[v,+oo[(Y) ] = P(X

u, Y

v) = H(u, v) - F(u) - G(v) + 1.

On obtient donc
Cov(X, Y) = J f [H(u, v) - F(u) - G(v) + 1 - ( 1 - F (u) ) ( 1 - G (v) )] du
dv 1R2 = J f [H(u, v) - F(u) G(v) ] du dv. 1R2 C'est la relation
demandée.

286

VII. TESTS D'INDEPENDANCE. MESURES D' ASSOCIATION

Exercice II.4. Soit (X, Y) un vecteur aléatoire de loi H telle que H ( [0,
1]2 ) = 1. On suppose que les variables aléatoires X et Y suivent la
loi uniforme sur l'intervalle [0, 1], que la densité de H est constante
sur chacun des six rectangles

1 1 A = ]0, -[ x ]0, -[, 2 3

112 B = ]0, -[ x ]-, -[, 2 3 3

1 2 C = ]0, -[ x ]-, 1 [, 2 3

1 1 D = ]-, 1 [ x ]0, -[, 2 3

1 1 2 E = ]-, 1 [ x ]-, -[, 2 3 3


1 2 F = ]-, 1 [ x ]-, 1 [ 2 3

1 et que H(C) = -. On pose H(A) = a et H(B) = p. 6 Montrer que [' on


peut choisir a et p de telle façon que les trois propositions suivantes
soient vérifiées a) X et Y sont en dépendance positive par quadrant,
b) Y est en dépendance positive par régression sur X, c) X n'est en
dépendance ni positive ni négative par régression sur Y. Quelle
conclusion cette étude peut -elle inspirer?

Puisque la loi de X est uniforme sur [0, 1], on a

1 1 H(A) + H(B) + H(C) = P(O < X < -) =-, 2 2

d'où

1 a + p = -. 3

De même, puisque la loi de Y est unifolme sur [0, 1], on a

1 H(A) + H(D) = H(B) + H(E) = H(C) + H(F) = -, 3


d'où

H(D) = p,

1 H(E) = a et H(F) =-. 6

On en déduit que la loi H admet une densité égale à 6a sur A et E, à


6p sur B et D et à

sur C et F. Le calcul de H(x, y) sur le carré [0, 1]2 se ramène donc à


des 6

calculs d'aires de rectangles qu'on laisse au lecteur le soin


d'expliciter. On obtient, après 1 simplifications et en tenant compte
de a + p =-, 3

287

VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION

· H(x, y) = 6 a x y . H(x, y) = 2 (a -

)x+6

x y . H(x, y) = x y · H(x, y) = 3 (a -
)y+6

x y . H(x, y) = 2 (a -

)+2(

- a) x + 3 (

- a) y + 6 a x y

sur A, sur B, sur C et sur F, sur D, sur E.

a) Cherchons à quelle condition l'on a 2 \:1 (x, y) e [0, 1], H(x, y) - x y

O.

On obtient, en tenant compte de l'égalité

6a-1=1-6

= 3 (a -

),

. H(x, y) - x y = 3 (a -

) x y . H(x, y) - x y = (a -

) x (2 - 3y) . H(x, y) - x y = 0 . H(x, y) - x y = 3 (a -


) y (1 - x) · H(x, y) - x y = (a - (3) (1 - x) (2 - 3y)

sur A, sur B, sur C et sur F, sur D, sur E.

Pour que X et Y soient en dépendance positive par quadrant, il faut


et il suffit que l'on ait a

(3. Le cas a = (3 étant sans intérêt (X et Y sont alors


indépendantes), on 111 supposera désormais que l'on a a >

, soit - < a < - et, donc, 0 <

<-. 636

b) Etudions maintenant la dépendance par régression de Y sur X,


c'est-à- dire cherchons si l'application

P (Y

Y 1 X = x)

est, quel que soit y, une fonction monotone de x sur l'intervalle ]0, 1
[. La densité conditionnelle de Y sachant X = x (x e ]0, 1[) est égale à
h(x, y) puisque la densité de X est égale à 1. On a donc
2 \:I(x,y)e ]0, 1[,

P(Y

y 1 X = x) = rh (x, t) dt o

et l'on peut porter les différentes valeurs de cet

e probabilité dans le tableau 1 suivant. On vérifie aisément que, pour


y donné, cette probabilité est une fonction décroissante de x lorsque
a>

. On a bien une dépendance positive par régression de Y sur X.

288

VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION

c) Le calcul de P(X

x 1 Y = y) étant analogue au précédent puisque x p (X

x 1 Y = y) = f h(t, y) dt, o on porte les différentes valeurs de cette


probabilité dans le tableau II suivant. On constate que, pour x donné,
la probabilité obtenue n'est pas une fonction 1 monotone de y
puisque, par exemple pour 0 < x

-, on a 2
2 \:1 (x, y) e ]0, 1[ ,

6ax>6JJx

et

6 JJ x < x.

1 1 xe] 0, 2[ xe] 2' 1[ 1 Y e [0, 3] 6ay 6JJy 1 2 2 (JJ - a) + 6 a y


ye[3'3] 2 (a - JJ) + 6 JJ y 2 ye [3,1] Y Y

Tableau 1

1 1 xe] 0, 2[ xe] 2' l[ 1 3 (a - JJ) + 6 JJ x y e [0, 3] 6ax 1 2 6JJx 3 (JJ -


a) + 6 a x ye [3' 3] 2 ye [3,1] x x

Tableau II

289
VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION

On peut donc conclure de cette étude qu'une dépendance par


régression d'une variable Y sur une variable X n'implique pas
nécessairement que X soit en dépendance par régression sur Y.
Toutefois (théorème II.1.5 démontré à l'exercice II.5), il suffit que
l'une des deux variables soit en dépendance par régression sur
l'autre pour que les deux variables soient en dépendance de même
signe par quadrant.

Exercice II.5. Démonstration du théorème II.1.5 Soit (X, Y) un


vecteur aléatoire à valeurs dans rR 2 . On considère les trois
propriétés suivantes.

(1) \:1 (x, y) e rR 2 ,

P(X

x, Y

y)

P(X

x) P(Y

y).

(2) \if Y e rR , l'application


x

P(Y

y1X

x)

est décroissante sur (x; P(X

x) > O}. (3) \:1 Y e rR, /'application

P(Y

y 1 X = x)

est décroissante sur /'ensemble sur lequel elle est définie. Montrer
que (3) => (2) => (1) et en déduire la démonstration du théorème
II.1.5 selon lequel/' ensemble j 2 est inclus dans l'ensemble j 1 (voir
les notations de la section 1I.1.c). A-t-on une propriété analogue
concernant les ensembles dl et d2? Indication. Pour démontrer que
(3) => (2), on écrira que x P(X

x, Y

y) = f P(Y

y 1 X = t) dF(t),
où F désigne lafonction de répartition de X et on utilisera le
théorème R.lll.4.2.

On remarque d'abord qu'il est aisé de démontrer que (2) => (1). En
effet, soit x tel que P(X

x) > 0 et soit x' > x. D'après la propriété (2), on a

P(Y

y1X

x)

P(Y

y1X

x').

En faisant tendre x' vers +00, on obtient

P(Y

y) 1 X

x)

P(Y
y),

290

VII. TESTS D'INDEPENDANCE. MESURES D' ASSOCIATION

soit

P(Y

y, X

x)

P(Y

y) P(X

x).

Enfin, la relation (1) est triviale si P(X

x) = 0 car les deux membres de (1) sont alors nuls.

Montrons que (3) =:) (2). Supposons que la propriété (3) est vérifiée
et considérons trois nombres réels x}, X2 et y tels que X2 > Xl et P(X

Xl) > O. Désignant par F la fonction de répartition de X, on a


Xl +00 P(Y

y, X

Xl) f P(Y

y 1 X = t) f P(Y

y1X

Xl) = = dF(t) = <p (t) dF 1 (t), F(x 1 ) -00 F(x 1 ) -00 y

où l'on a posé

<p (t) = P(Y

y 1 X = t) Y

et

F(t) F 1 (t) = 11 ] -00 X [ (t) + 11 [ X +oo [ (t). F(x 1 ) · 1 l'

On remarque que FI est une fonction de répartition et que l'on peut


donc écrire

P(Y
y1X

X l ) = IE F (<p ). 1 Y

On a, de même,

P(Y

Y1X

X 2 ) = IE F2 (<Py)'

avec

F(t) F 2 (t) = 11 ] -00 X [ (t) + 11 [ X +oo [ (t). F(x 2 ) · 2 2.

On vérifie aisément que

\1tE IR,

F1(t)

F 2 (t) (c'est-à-dire F 2 >iFI)


et, puisque <Py est une fonction décroissante sur l'ensemble sur
lequel elle est définie, on a, d'après le théorème R.III.4.2,

IE F1 (<Py)

IE F2 (<Py)'

soit

P(Y

y) 1 X

XI)

P(Y

Y 1 X :5; X 2)'

La propriété (2) est bien vérifiée.

291

VII. TESTS D'INDEPENDANCE. MESURES D' ASSOCIATION


On en déduit que toute loi H sur 1R2 qui appartient à '3 2 , c'est-à-
dire qui vérifie la propriété (3), vérifie également la propriété (1),
c'est-à-dire appartient à :1 1. L'ensemble :1 2 est inclus dans
l'ensemble J'}, c'est l'énoncé du théorème II.1.5. On montrerait de
même, grâce à des inégalités de sens contraire, que l'ensemble 42
est inclus dans l'ensemble 41.

Exercice II.6. Montrer que les vecteurs aléatoires (X, Y) définis ci-
dessous sont tels que y est en dépendance par régression sur X. On
précisera le signe de cette dépendance. 1) On pose Y = a + bX + U,
où X et U sont deux variables aléatoires indépendantes et a et b
deux nombres réels tels que b * O. 2) Le vecteur aléatoire (X, Y) est
gaussien et son coefficient de corrélation r n'est pas nul. 3) Les
variables aléatoires X et Y sont deux composantes distinctes d'un
vecteur (X 1, ... , X r ) de loi multinomiale. 4) Les variables aléatoires
X et Y sont deux composantes distinctes d'un vecteur (Xl, ... , X n )
de loi de Dirichlet. 5) Les variables aléatoires X et Y sont
respectivement les rè me et sème statistiques d'ordre (r < s) d'un
échantillon de taille n d'une loi F qui possède une densité f
strictement positive sur l'intervalle 1 = (x ; 0 < F(x) < 1}. Etudier
également le cas où, toujours avec r < s, X et Y désignent
respectivement les sème et rèm e statistiques d'ordre. (Lehmann
(1966»

1) On remarque que X et Y sont indépendantes si b = O. Sinon, on a

P(Y

y IX = x) = P(a + b X + U

y 1 X = x) = P(a + b x + U
y 1 X = x) = P( a + b x + U

y),

cette dernière égalité étant justifiée par le fait que X et U sont


indépendantes. D'où

P(Y

y 1 X = x) = P(U

y - b x - a) = Fu(Y - b x - a),

où Fu désigne la fonction de répartition de U. Cette dernière


expression est, quel que soit y réel, une fonction décroissante ou
croissante de x selon que b est positif ou négatif. On peut dire que Y
est en dépendance par régression sur X, le signe de cette
dépendance étant celui de b.

292

VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION

2) Désignant par eN (mx,

) et eN (my,
) les lois respectives de X et Y, on sait que, quel que soit x réel, la loi
conditionnelle de Y sachant X = x est la loi eN (my + r (x - mx), (1 -

). On a donc

\:1 (x, y) E 1R2,

[ y - my - r (x - m x ) ] P(Y

y 1 X = x) = <1>

' cr v 1 - r- y

où <1> désigne la fonction de répartition de la loi eN (0, 1). On en


conclut, comme on l'a fait à la question 1, que Y est en dépendance
par régression sur X, le signe de cette dépendance étant celui de r.
On remarque d'ailleurs que la conclusion est la même si l'on
échange X et Y.

3) Supposons que X et Y sont deux composantes distinctes d'un


vecteur (XI, ... , X r ) de loi multinomiale cMr(n; PI, ... , Pr). Ses
différentes composantes Xj jouant des rôles analogues, on peut
supposer que X et Y sont les deux premières. On peut montrer
aisément, à partir de la définition de la loi multinomiale donnée à
l'exercice 5 chap. 1 que X suit la loi $ (n, Pl) et que le vecteur
aléatoire (X, Y, n - X - Y) suit la loi multinomiale cM 3(n ; Pl, P2, 1 -
Pl - P2). On a donc, en désignant par x et y deux éléments de lN tels
que x + y
n,

n! x y n-x-y P [ (X, Y) = (x, y) ] = PI P2 (1 - PI - P2) xl yI (n - x - y)!

et

P(Y = y 1 X = x) = P[ (X, Y) = (x, y) ] P(X = x)

(n - x)! = yI (n - x - y)!

( p J y ( 1 - P - P ) n-x-y

12=C

_x pY (1 _ p)n-x-y, 1 - Pl 1 - PI

P2 en posant p = -. 1 - PI Si 0

n - x, on a

y P(Y

y 1 X = x) = LC
_x

(1 _ p)n-x-j. j=o

On doit chercher si, pour y donné (0

n), cette fonction de l'entier x est monotone lorsque 0

n - y. Pour cela, posons m = n - x et étudions la monotonie de la


fonction <p définie par

293

VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION

\:ImerN,

y,

y <p(m) = LC

pÏ (1 _ p)m -j. j=O


Ona

y <p(m + 1) = L C

+1 J (1 _ p)m+l-j j=O y = L (C

+C

l) J (1 - p)m+1-j (en posant C

1 = 0 si j = 0) j=o y y = L C

pÎ (1 - p)m+1-j + L C

l pÎ (1 _ p)m+l-j j=o j=l y-1 (1 ) ( )

C i i+1 1 ) m-i = -p <pm +£.J m P (-p i=O = (1 - p) <p(m) + p (<p(m) -


C

pY (1 _ p)m-y)

= <p(m) - C

py+l (1 _ p)m-y < <p(m).

Il s'ensuit que la fonction <p est décroissante, donc que <p(n - x) est
une fonction croissante de x lorsque x varie par valeurs entières de 0
à n - y. On en conclut que Y est en dépendance négative par
régression sur X lorsque X et Y sont deux composantes distinctes
quelconques d'un vecteur aléatoire de loi multinomiale.
4) Supposons que X et Y sont deux composantes distinctes d'un
vecteur aléatoire (Xl, ... , X n ) de loi de Dirichlet. On sait (exercice 8
chap. 1) que (X, Y) est alors lui- même de loi de Dirichlet et l'on peut
en déduire aisément que, si 0 < x < 1, la loi y conditionnelle de -
sachant X = x est une loi

de première espèce. Soit

1 (a, b) 1 - x

cette loi. On a donc

P(Y

y 1 X = x) =

y i l - x 1 t a - 1 (1 _ t )b-l dt

(a, b) o

SI 0

1 - x,

1
SI Y

1 - x.

Pour une valeur donnée de y (0 < y < 1), cette probabilité est une
fonction croissante de x lorsque x varie de 0 à 1.

294

VII. TESTS D'INDEPENDANCE. MESURES D' ASSOCIATION

On en conclut que Y est en dépendance négative par régression sur


X lorsque X et Y sont deux composantes distinctes quelconques
d'un vecteur aléatoire de loi de Dirichlet.

5) Supposons que X et Y sont respectivement les rè me et sème


statIStIques d'ordre d'un échantillon de taille n d'une loi F qui
possède une densité strictement positive sur l'intervalle 1 = (x ; 0 <
F(x) < l} et que 1

r<s

n. Désignons par f(r) et f(r,s) respectivement les densités des lois de


X et de (X, Y). On a (exercice III. 1 chap. II)
n! f(r)(x) = (F(x»r-1 (1 - F(x»n-r f(x), (r - l)! (n - r)!

nt f(r s)(x, y) = . (F(x»r-1 (F(y)_F(x»s-r-l (l_F(y»n-s f(x) f(y) 11 iR? (x,


y). , (r-l)! (s-r-1)! (n-s)!

Pour tout élément x de 1, on a f(r)(x) * 0 et la densité conditionnelle


de Y sachant X = x, que nous notons f

1 x' est définie par

t _ f(r,s) (x, y) yi x(y) - = f(r)(x)

(n - r)! (s - r - 1)! (n - s)!

(F(y) - F(x»s-r-1 (1 _ F(y)n-s f(y) 11 00 (y). (1 _ F(x»n-r [X,+ [

(n - r)! 1 On a donc, en posant K = = (s - r - l)! (n - s)!

(s - r, n - s + 1)

y P(Y

y 1 X = x) = f f

1 x(t) dt
-00

SI Y

x,

y K f (F(t) - F(x))s-r-1 (1 - F(t»n-s f(t) dt (1 - F(x) )n-r x

si y > x.

F(t) - F(x) En posant u = dans l'intégrale, on obtient, si y > x, 1 - F(x)

295

VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION


F(y) - F(x) f I - F(x) P(Y

y 1 X = X) = K u s - r - 1 (1 - u)n-s du = G s - r , n-s+1 ( F(Y) - F(X» )


, o 1 - F(x)

où Ga,b désigne la fonction de répartition de la loi 131 (a, b). On doit


étudier, pour y donné, les variations de P(Y

y 1 X = x) losque x varie sur l'intervalle ouvert 1. Plusieurs cas se


présentent, suivant la position de y par rapport à 1.

. Si Y

Inf 1 (ce cas étant sans objet si Inf 1 = -00), on a

\:1 x e 1, x > y,

d'où

P(Y

y 1 X = x) = O.

. Si Y e 1, on a
J ( F(Y) - F(X» ) P(Y

y 1 X = x) = 1 :s.r.n-S+l 1 - F(x)

si Inf 1 < x < y,

si y

Sup I.

. Si Y

Sup 1 (ce cas étant sans objet si Sup 1 = +00), on a

\:1 x e 1, x < y,

d'où

( F(Y) - F(X» ) P (Y

Y 1 X = x) = G s - r ,n-s+1 = 1 1 - F(x)

car F(y) = 1.
Seul le second cas (ye 1) est intéressant et P(Y

y 1 X = x) est alors une fonction décroissante (au sens large) de x


car les fonctions F et G s - r ,n-s+l sont strictement F(y) - t
croissantes sur 1 et ]0, 1 [ respectivement et la fonction
homographique t 1-) 1 - t

est décroissante sur ]0, F(y)[.

Le cas où X et Y désignent respectivement les sème et xè me


statistiques d'ordre (r < s) s'étudie de façon analogue. Laissant au
lecteur le soin d'effectuer les calculs détaillés, contentons-nous de
donner les principaux résultats.

Avec les mêmes notations que ci-dessus, on obtient, si x e 1,

11

(y) = (F(y)l-l (F(x) - F(y»s-r-1 f(y) 11 (y), y 1 x J3(r, s _ r) (F(x»s-l ]-


oo,x]

296

VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION


d'où

P(Y

y 1 X = x) = !

( F(y) ) r,s-r F(x)

. > SI Y - X,

si y < x,

ce qui entraîne que P(Y

y 1 X = x) est une fonction décroissante (au sens large) de x sur I.

On en conclut que Y est en dépendance positive par rapport à X


lorsque X et Y désignent deux statistiques d'ordre distinctes d'un
échantillon d'une loi F dont la densité est strictement positive sur
l'intervalle (x; 0 < F(x)

l}.

Exercice II.7. Démonstration du théorème II.1.7 Etant donné trois


variables aléatoires indépendantes U , V et W de lois respectives F ,
G et K et un nombre réel 'Y, on pose X = U + 'Y W et Y = V + 'Y W.
1) Calculer, en supposant que U , V et W admettent des moments
d'ordre deux, l'espérance mathématique et la matrice des
covariances du vecteur aléatoire (X, Y). 2) Montrer que la loi H du
vecteur aléatoire (X, Y) est définie par H(x, y) = i F(x - 'Y t) G(y - 'Y t)
dK(t). IR 3) Montrer que, si la loi K est continue et si les lois F et G
sont continûment dérivables sur IR et y admettent des densités
bornées notées respectivement f et g, alors la loi H admet une
densité h définie par h(x, y) = i f(x - 'Y t) g(y - 'Y t) dK(t). IR

1) Si U, V et W admettent des espérances mathématiques, on a

lE (X) = lE (U) + 'Y lE (W)

et

lE (Y) = lE (V) + 'Y lE (W).

De même, si U, V et W adrriettent des variances notées


respectivement aD,

et cr w , on a

V(X) = aD + y- a

, V(Y) =
+ y-

Cov(X, Y) = Cov(U + yW, V + yW) = y-

297

VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION

d'où

AU =[

] + i[

].

2) Soit H la loi du vecteur aléatoire (X, Y). On a


H(x, y) = P(X

x, Y

y) = P(U + yW

x, V + y W

y) = f P[ (U +yW

x, V +yW

y) 1 W = t] dK(t). IR

L'indépendance des variables aléatoires U , V et W, donc du vecteur


(U, V) et de la variable W, pennet d'affirmer que la loi de (U, V)
conditionnée par W n'est autre que la loi de (U, V). D'où

H(x, y) = f P(U

x - Y t, V

Y - yt) dK(t) = f F(x - yt) G(y - yt) dK(t). IR IR

2 aH 3) La loi H admet une densité h si la dérivée existe presque


partout sur axay 1R2. De plus, cette dérivée est obtenue en dérivant
sous le signe d'intégration si l'application <p définie par

<p(x, y, t) = F(x - y t) G(y - Y t) 2 aH admet K-presque partout une


dérivée - et s'il existe une fonction 'lf K-intégrable sur ax ay fi{ telle
que, K-presque partout sur IR,
2 a <p - (x, y, t)

'lf(t). ax ay

Les hypothèses faites sur les lois F et Gnous pennettent d'écrire que
a 2 <p \:1 (x, y, t) E 1R3, - (x, y, t) = f(x - 'Y t) g(y - 'Y t) ax ay et,
puisque les fonctions f et g sont bornées, il existe une fonction 'JI
constante, donc K-intégrable qui répond à la question.

298

VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION

Les conditions de dérivation sous le signe d'intégration sont alors


remplies et l'on a

h(x, y) = i f(x - 'Y t) g(y - 'Y t) dK(t). rR

Remarque. Les conditions données ci-dessus sont suffisantes, maIS


non nécessaires. On peut donc en trouver d'autres différentes et,
même, moins restrictives, mais la démonstration relève alors de
techniques d'analyse plus sophistiquées.
Exercice II.8. Dépendance monotone par régression On désigne par
':10 l'ensemble des lois continues sur 1R2. Etant donné une loi H qui
appartient à ':1 0 , on note H(. 1 x) lafonction de répartition de la loi
de Y conditionnée par X = x lorsque cette loi est définie et H- 1 (. 1
x) safonction réciproque, c'est-à-dire la fonction définie pour tout
élément u de ]0, 1 [ par

H- 1 (u 1 x) = inf (y ; H(y 1 x)

u}.

Etant donné deux lois H et Hl qui appartiennent à ':1 0 , on dit que Hl


présente une dépendance par régression de Y sur X supérieure à
celle de H, et l'on note "H <d Hl" si, pour tout couple (u, v)
d'éléments de ]0, l[ et pour tout couple (x, x') de nombres réels
vérifiant x < x' et tels que les expressions écrites ci-dessous aient un
sens, on a

( H- 1 (u 1 x')

H- 1 (v 1 x) )

( Hï 1 (u 1 x')

Hï\v 1 x) ).

On remarque que la relation" <;t" est réflexive et transitive (relation


de préordre).
1) Soient H et Hl deux éléments de ':10' On suppose, de plus, que
les fonctions H(. 1 x) et HI (. 1 x) sont continues et strictement
croissantes pour tout nombre réel x pour lequel elles sont définies.
a) Montrer que l'on a H <d Hl si et seulement si, pour tout élément (y,
y') de IR 2 et pour tout couple (x, x') de nombres réels vérifiant x < x'
et tels que les expressions écrites ci-dessous aient un sens, on a

( H(y 1 x)

H 1 (y' 1 x» =:) (H(y 1 x')

H1(Y' 1 x') ).

b) Application. On suppose que H est la loi d'un couple de variables


aléatoires indépendantes. Montrer que l'on a H <d Hl si et seulement
si Hl présente une

299

VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION

dépendance positive par régression de Y sur X. Enoncer et


démontrer une condition nécessaire et suffisante pour qUi! l'on ait Hl
«i H. 2) Exemple 1. Avec les hypothèses et les notations de
l'exemple 1 de l'exercice II.6, on note Hb la loi de (X, Y). Montrer que

( b < b')
(Hb <d Hb')'

3) Exemple Z. Soient X et U deux variables aléatoires


indépendantes. On suppose que X suit la loi U [0, 1], que la loi de U
est continue et que P(U

0) = O. Pour tout nombre réel a tel que a > -1, on désigne par Ha la
loi du couple ( X, (1 + aX)U). Montrer que

( -1 < a < a')

(Ha «i Ha' ).

4) Exemple 3. Soient F et G deux lois de probabilité sur IR. On


suppose que chacune d'elles admet une densité strictement positive
sur son support. A tout nombre réel CI tel que a < 1, on associe la
fonction définie Ha définie sur IR 2 par

F (x) G (y) H (x, y) = . a 1 - a ( 1 - F (x) ) ( 1 - G (y) )

(Ali et alias (1978».

Vérifier que Ha est une loi continue sur IR 2 qui possède une densité
et montrer que
( -1 < a < a' < 1)

(Ha <d Ha' ).

Pour établir cette dernière propriété, on s'assurera d'abord que l'on


peut utiliser le résultat de la question 1 a. (D'après Yanagimoto et
Okamoto (1969».

1) a) Supposons que H «i Hl et soient x, y et y' trois nombres réels


tels que

H(y 1 x)

Hl(y' 1 x).

Soit x' > x tel que les lois H(. 1 x') et HI (. 1 x') existent. Montrons par
contradiction que

H(y 1 x')

HI (y' 1 x')

et, pour cela, supposons que l'on ait

H(y 1 x') < Hl (y' 1 x').


300

VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION

Si nous posons

u = H1(Y' 1 x')

et

v = H1(y' 1 x),

soit, puisque les fonctions HI(. 1 x) et HI(. 1 x') sont continues et


strictement croissantes,

y' = H

I(u 1 x') = H;l(v 1 x),

nous avons
H(y 1 x)

et

u > H(y 1 x').

Soit, alors, w tel que H(y 1 x') < w < u. Des inégalités précédentes,
nous déduisons, puisque H(. 1 x) et H (. 1 x') sont des fonctions
continues et strictement croissantes,

H- I (v 1 x)

et

y < H-I(w 1 x').

On a donc

H-I(w 1 x')
H- 1 (v 1 x),

d'où

Hï 1 (w 1 x')

Hï 1 (v 1 x),

puisque H <;t Hl, On en déduit

Hïl(v 1 x')

Hïl(w 1 x') < Hïl(u 1 x'),

soit

y'

H;I(w 1 x') < y',

ce qui établit la contradiction cherchée.

La réciproque s'établit de façon analogue et nous allons en donner


une démonstration moins détaillée. Soient donc u, v, x et x' (x < x')
tels que

H- 1 (u 1 x')

H- 1 (v 1 x).

Supposons que l'on ait

Hï 1 (u 1 x') < Hï 1 (v 1 x)

et posons

y = H- 1 (v 1 x)

et

y' = Hil(u 1 x').

On a alors

Y
H-l (u 1 x')

et

y' < Hi 1 (v 1 x),

301

VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION

d'où, en considérant z tel que y' < Z < H

l (v 1 x),

v = H(y 1 x) > Hl (z 1 x),

ce qui implique

H(y 1 x')

HI(Z 1 x')
et, enfin,

u = HI(Y' 1 x') < HI(z 1 x')

H (y 1 x')

u,

relation qui établit la contradiction cherchée.

b) Puisque la loi H est celle de deux variables aléatoires


indépendantes, la loi H(.I x) ne dépend pas de x et n'est autre que la
loi F de X. Si la loi Hl présente une dépendance positive par
régression de Y sur X, la fonction H(y 1.) est, quel que soit y,
décroissante sur son domaine de définition. Sous réserve que les
expressions écrites ci -dessous aient un sens, on a donc, si x < Xl et
si H(y 1 x)

Hl(Y' 1 x),

H(y 1 x') = H(y 1 x)

Hl(Y' 1 x)

Hl(Y' 1 Xl),

soit H «i HI. Réciproquement, supposons H «t Hl et soient x, x' et y


trois nombres réels tels que x < x' et que les lois Hl (. 1 x) et Hl (. 1
x') existent. Si nous supposons que l'on a
Hl(y 1 x) < Hl(y 1 x'),

il existe y' tel que

Hl (y 1 x) < F(y') < HI (y 1 x'),

soit tel que

HI(Y 1 x) < H(y' 1 x) = H(yl 1 Xl) < Hl(y 1 x').

Les deux inégalités strictes écrites ci-dessus sont en contradiction


avec le fait que H <d Hl. On a donc

HI(y 1 x)

HI(Y 1 x'),

ce qui signifie que HI présente une dépendance positive par


régression de Y sur X. On montrerait de même que l'on a Hl <d H si
et seulement si HI présente une dépendance négative par
régression de Y sur X. On remarque que l'on en déduit que l'on a HI
<d H2 si Hl et H2 vérifient les conditions données en tête de la
question 1 et présentent des régressions respectivement négative et
positive de Y sur X.

302

VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION

2) Exemple 1. Nous avons obtenu (exemple 1 de l'exercice II.6)

Hb(Y 1 x) = P(U

y - bx - a) = Fu(y - bx - a),

en désignant par Fu la fonction de répartition de U. Etant donné u (0


< u < 1), on a donc

Hb 1 (u 1 x) = inf {y ; Fu (y - bx - a)

u}, = a + bx + FJ (u).

On a alors

( Hb1(U 1 x')
Hb 1 (v 1 x) )

( b (x' - x) + Fü 1 (u)

Fü 1 (v) )

et, puisque x < x', cette inégalité implique, si b < b ' ,

b ' (x' - x) + FJ(u)

FJ(v)

soit

Hb

(U 1 x')

Hb

(V 1 x).

D'où le résultat demandé, à savoir

( b < b ' ) => (Hb <d Hb')'


3) Exemple 2. Posant Y = (1 + aX)U, on a P(Y > 0) = 1 pUIsque a >
-1 et puisque P(O < X < 1) = P(U > 0) = 1. On a alors, si 0 < x < 1 et
en tenant compte du fait que X et U sont indépendantes,

Ha(Y 1 x) = P( (1 + aX)U

y 1 X = x) = P ( (1 + ax) U

y) ( y J =Fu 1 + ax '

en désignant encore par Fu la fonction de répartition de U. On en tire


(0 < u < 1)

(u 1 x) = (1 + ax) FJ(u).

On a alors

(1) ( H

l(u 1 x')

l(v 1 x)) <=> (a( x'FJ(u) - xF

(v) )
FJ(v) - FJ(u) )

et, sous réserve d'avoir

x 'FJ(u) - xFJ(v) ;? 0,

303

VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION

on en déduit, lorsque a < a',

a '( x'FJ(u) - xFJ(v) )

FJ(v) - FJ(u),

soit

H-

(u 1 x')

H-
(v 1 x). a a

Montrons, pour achever la démonstration, qu'il n'est pas possible


d'avoir

x 'FJ(u) - xFJ(v) < o.

En se souvenant que

\:1 u e ]0, 1[,

(u) > 0,

on aurait alors, puisque x < x', F

(u) < F

(v), d'où a < 0, c'est-à-dire -1 < a < 0, dans la relation (1). Cette
relation peut alors s'écrire

lai ( xF

(v) - x'F
(u) )

FJ(v) - F

(u),

ce qui est impossible puisque la 1< 1 et

xFJ(v) - x'F

(u) = x ( F

(v) - FJ(u) ) + (x - x') FJ(u) < FJ(v) - FJ(u).

On a donc bien montré que

( -1 < a < a ' ) => (Ha <;t Ha' ).

Remarque. La loi Ha présente une dépendance par régression de Y


sur X qui est positive si a > 0 et négative si a < 0, la loi Ho étant celle
d'un couple de variables aléatoires indépendantes. Cette remarque
illustre l'application proposée à la question 1 et une remarque
analogue peut être faite à propos de l'exemple 1.

4) Exemple 3. On remarque d'abord que Ha est bien une loi de


probabilité continue sur IR 2 puisque la fonction Ha est continue,
croissante au sens large relativement à x et à y et qu'elle tend vers 0
lorsque x et y tendent vers -00 et vers 1 lorsque x et y tendent vers
+00. De plus, la loi Ha posséde une densité ha définie par

2 aH a h (x, y) = - (x, y) a ax ay

304

VII. TESTS D'INDEPENDANCE. MESURES D' ASSOCIATION

et, si l'on désigne par f et g les densités respectives des lois F et G


et par <1>a la fonction définie sur [0, 1]2 par

<1> (u, v) = a l-a(l-u)(I-v)

uv

on a

2 d<I» a h (x, y) = - (F(x), G(y) ) f(x) g(y). a dUdV


On suppose désormais que -1 < a < 1. Pour comparer les
dépendances par régression de Y sur X de deux lois Ha, nous
devons d'abord déterminer la loi Ha(. 1 x) dont on sait que la densité
ha(. 1 x) est celle définie, pour tout nombre x tel que f(x) * 0, c'est-à-
dire pour tout élément x du support de F, par

2 h (x, y) d <I» a a h (y 1 x) = = - ( F(x), G(y) ) g(y). a f(x) du av

On a donc

J y [ d<I» ] y H (y 1 x) = h (t 1 x) dt =

( F(x), G(t) ) . a a dU -00

Or

d<1> a V ( 1 - a (1 -v) ) -(u, v) = 2 dU [1 - a (1 - u) (1 - v)]

et l'on a donc

d<1> a H (y 1 x) = - ( F(x), G(y) ). a dU


Nous devons nous assurer que l'on peut appliquer le résultat de la
question la. La fonction Ha(. 1 x) est bien continue et elle est
strictement croissante si la fonction ha(. 1 x) est positive, soit si

2 \:1 (u, v) e ]0, 1 [ ,

2 d<I» a (u, v) > O. dUdV

305

VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION

Un calcul qu'on laisse au lecteur le soin d'effectuer conduit à

2 d <1> a 2 a u v + (1 - a) ( 1 - a (1 - u) (1 - v) ) (u, v) = dUdV

3 [1 - a (1 - u) (1 - v)]

et l'on doit vérifier que le numérateur <Pa (u, v) de cette expression


est positif sur ]0, le. Pour u fixé (u e ]0, ID, <Pa (u, v) est une
fonction affine de v et l'on a
<Pa (u, 0) = (1 - a) ( 1 - a (1 - u) ) > 0, <pa (u, 1) = 2 a u + (1 - a)

et cette dernière expression est positive sur [0, 1] puisque c'est une
fonction affine de u positive pour u = 0 et pour u = 1. D'où

\:I(u,v)e ]0,1[2,

<Pa (u, v) > O.

Enfin, nous devons montrer que, si x et x

sont deux éléments du support de F tels que x < x', y et y' deux
éléments du support de G et si -1 < a < a' < 1, on a

( Ha(Y 1 x)

Ha'(y' 1 x» => (Ha(Y 1 x')

Ha'(y' 1 x') ),

soit que

[ d<1> d<1> J a a' -(u, v)

-(u, v') dU dU
[ d<1> d<1> J a a' -(u ' , v)

- (u ' , v') dU dU

si U, u ' , v et v' sont quatre éléments de ]0, 1 [ tels que u < u ' . On
remarque que les lois F et G n'interviennent plus et que l'on s'est, en
fait, ramené à la loi du couple (U, V) défini par U = F (X) et V = G
(Y). Cette loi admet <1>a pour fonction de répartition et ses deux lois
marginales sont U[O, 1]. On laisse au lecteur le soin de vérifier que
l'on est ramené à montrer que

( 'If(u)

A)

( 'If(u ' )

A ),

où l'on a posé

1 - a' (1 - u) (1 - v') 'If (u) = 1 - a (1 - u) (1 - v)

et
A=

v' ( 1 - a' (1 -v') ) v ( 1 - a (1 - v) )

306

VII. TESTS D'INDEPENDANCE.

JESURES D' ASSOCIATION

La propriété est vérifiée si la fonction homographique '1' qui est


définie et continue sur [0, 1] est croissante. Or sa dérivée, on le
vérifie aisément, est du signe de

a' (1 - v') - a (1 - v).

Il nous faut donc examiner le cas où la fonction 'l'est strictement


décroissante sur [0, 1], c'est-à-dire le cas où

a' (1 - v') < a (1 - v).

Nous montrerons que l'on a alors . soit '1'(0) < A, donc l'inégalité
'''l'(u)
A" impossible, . soit '1'(1)

A, donc l'inégalité '''l'(u')

A" réalisée.

On remarque que '11(1) = 1 et que A = J -; '11(0) . ce qui fait que

v' ( 'Jf(0) < A) <=> ( '1'(0) < - ) v

et

v ( '1'(1)

A) <=> ( '1'(0)

- ). 1 V

Etudions séparément les cas "a' > 0" et "a' < 0" en remarquant que
l'on ne peut avoir a' = 0 puisque l'on aurait alors a (1 - v) > 0, ce qui
contredit l'hypothèse a < a'.

1er cas. a' > O. On a alors

a 1 - v' < - (1 - v), a'


. , SOit v > V o avec

a V o = 1 - - (1 - v). a'

Montrons que '1'(0) < A, soit que

1 - a'(1 - v') v <- , 1 - a (1 - v) v

ce qui revient à montrer que la fonction a définie par

a (v') = v' ( 1 - a (1 - v) ) - v ( 1 - a' (1 -v') )

est strictement positive sur l'intervalle ]v o , 1 [. C'est une fonction


affine et l'on a

307

VII. TESTS D'INDEPENDANCE. MESURES D' ASSOCIATION

a (1) = 1 - a (1 - v) - v = (1 - a) (1 - v) > 0
et

a (va) = Va ( 1 - a (1 - v) ) - v ( 1 - a' (1 - va) )

= (va - v) - a Va (1 - v) + a' v (1 - va) a = (va - v) - a Va (1 - v) + a' v -


(1 - v) a'

= (va - v) - a Va (1 - v) + a v (1 - v)

= (va - v) ( 1 - a (1 - v) ) a = ( 1 - v - - (1 - v) ) ( 1 - a (1 - v) ) a'

a = ( 1 - - ) (1 - v) ( 1 - a (1 - v) ) a'

a et cette expression est strictement positive car a < a' et a' > 0,
donc - <1. a'

On a donc bien 'V{O) < A.

2ème cas. a' < 0, donc -1 < a < a'. On a alors a 1 - v' > - (1 - v), a'
soit v' < Va. Montrons que, dans ce cas, on a 'Jf(I)

A, soit

1 - a' (1 - v') v

- 1 - a (1 - v) v'

ce qui revient à montrer que la fonction b définie par

b (v') = v'( 1 - a' (1 - v') ) - v ( 1 - a (1 - v) )

est négative ou nulle sur l'intervalle ]0, var. C'est une fonction
polynomiale du second degré et, si nous remarquons que

b(O) = - v ( 1 - a (1 - v) ) < 0

et

b(I)= I-v( l-a( I-v» = (1 - a) (1 - v) > 0,

308
VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION

il nous suffit de montrer que b(v o )

0 pour être assurés du résultat puisque l'équation b(v ' ) = 0 ne peut


admettre qu'une seule racine sur l'intervalle ]0, 1[. Un calcul
analogue à celui effectué dans le premier cas conduit à

a b(v o ) = ( 1 - -) (1 - v) ( 1 - a (1 - v) ) a'

a et cette expression est strictement négative car a < a' < 0, donc - >
1. a'

La propriété demandée est donc établie.

Remarque. On remarque, ici encore, que la loi Ho est celle d'un


couple de variables aléatoires indépendantes. Nous en déduisons,
grâce au résultat de la question 1 b, que la loi Ha présente une
dépendance par régression de Y sur X qui est positive si a > 0 et
négative si a < 0, propriété que nous pouvons vérifier directement à
partir de l'expression de lfa(y 1 x).

Exercice 111.1. Démonstration du théorème 111.2.3 En utilisant les


résultats du théorème 111.1.1, montrer que, sous l' hypothèse Ho, la
( n n n ) statistique n Qn suit la loi hypergéométrique symétrique 'ae
-; -, - lorsque n est 2 2 2 ( n - 1 n - 1 n + 1 ) pair et la loi
hypergéométrique 'ire -; -, - lorsque n est impair (voir exercice 222 4
chap. 1 pour la notation et les propriétés de cette loi). En déduire,
toujours sous l' hypothèse Ho, l'espérance mathématique et la
variance de la statistique n

D'après la relation (111.2), on a

( n+l ) ( n+l ) n Qn = 6 11. ]0._[ i - 2 11. ]0._[ R[i] - 2

et le théorème 111.1.1 nous apprend q

e, sous 1 'hypothèse Ho, la loi du vecteur (RU]' ... , R[n]) est la loi
uniforme sur l'ensemble Ln des permutations de {l,..., n}.

n Supposons, par exemple, que n est pair et posons m = -. La


statistique n Qn 2

peut prendre les valeurs {O,..., m} et, pour que l'on ait n Qn = k, il
faut et il suffit que, parmi les m rangs R[m+l], ... , R[n], il Y en ait k
qui soient strictement supérieurs à m et

309

VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION


m - k inférieurs ou égaux à m. Or la loi de l'ensemble {R[m+l],"', R[n]}
est la loi uniforme sur l' ensem ble des parties à m éléments de { 1,
... , n}. On reconnaît la génération de la loi hypergéométrique et l'on
peut donc en conclure que n Qn suit la loi -ae (m ; m, m), soit la loi -
ae (

J . On a 2 2 2

n \:1 k e {O,..., -}, 2

-k m m P(n Q = k) = = n Cm n

(m!)4 2 2 ' n! (k!) «m - k)! )

n lE (n Q ) = - o n 4

4m

2n
et

Vo(n Qn) = 2 n (n - 1)

16 (n - 1)

On remarque que cette loi est symétrique puisque

n P(n Qn = k) = P(n Qn = - - k). 2

En raisonnant de façon analogue, on montre que, si n est impair et si


l'on pose n - 1 ( n - 1 n - 1 n + 1 ) m = -, la loi de n Qn est la loi -
ae(m; m, m + 1), soit la loi -ae -; -, - 2 222

On a donc

{ n - 1 } \:1 k e 0,. .. , 2 '

-k P(n Q = k) = m m+ 1 = n
n

(m!)2 ( (m + l)! )2 n! k! (k + l)! ( (m - k)! ) 2 '

2 2 m (n - 1) lEo(n Qn) = - = n 4n

et

m 2 (m + 1)2 Vo(n Qn) = 2 n (n - 1)

2 (n - 1) (n + 1) 16 n 2

Exercice 111.2. Démonstration des formules (III.7a) et (III.7b) A vec


les notations de la section 111.3 .b, montrer que, si l'échantillon Xl,'" ,
X n présente h groupes d'observations égales d'effectifs respectifs
dl, ... , dh et si l'échantillon YI, ... , y n présente k groupes
d'observations égales d'effectifs respectifs f1,...,fk,ona

nn
S

= n + 1 £.J 1 £.J 1 ' n i=1 n i=l 2

i(s

_ n + 1 ) 2 = n i=l 2

et

i(R

_ n + 1 ) 2 = n i=l 2

2 n -1-v

2 n -1-u

12
12

310

VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION

où l'on a posé

1 h 3 u=-L(d. - d. ) 1 1 n i=l

et

1kv=-L(

- fi). n i=l

D'après les calculs effectués à l'exercice IV.3 chap. IV, on sait que
l'on a

nnn

L S; =

L
=

L j = n + 1 , n i=l n i=l n j=l 2

et, par exemple,

n2n2kd3d2

L ( S;_ n+l ) =

L ( j_ n+l ) _

L i- i = n-l-u , n i=l 2 n j=l 2 n i=l 12 12

n 2 - 1 puisque - est la variance de la loi unifonne sur {l,..., n}. 12

. On a, bien sûr, une relation analogue concernant Ri' On en déduit


aisément la relation qui définit le coefficient p

Exercice 111.3. Démonstration du théorème 111.4.13 Soit (Un)

2 une suite de variables aléatoires indépendantes. On suppose que


la loi de Un est la loi uniforme sur l'ensemble An = {-n + 1, -n + 3, ... ,
n - 3, n - 1}. Pour tout entier n supérieur ou égal à 2, on pose V n =
U2 + ... + Un. Déterminer le support Bn de la loi de V n et montrer
que, si l'on pose Pn(s) = P(V n = s), on a
1 P2(-I) = p2(1) =-, 2

\:1 n

2, \:1 s e Bn+h

n Pn+1(S) = 1 L Pn(s + n - 2 k). n + 1 k=O

Calculer l'espérance mathématique et la variance de V n'

On peut écrire An = {-n + 1 + 2k ; 0

n - 1} et l'on remarque que Card An = n. Ona

B2 = A2 = {-l, 1}, B3={s+t;se A2,te A3}={-3,-I,I,3}=A4.

311

VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION


En remarquant que les éléments de Bn sont des entiers de
l'intervalle n(n-l) n(n-l) [ - , ], on peut effectuer une récurrence en
supposant que 2 2

_ { n (n - 1) '. <. < n (n - 1) } Bn - - + 2 J , 0 - J - . 2 2

On a alors

B n +l = {s + t ; S e Bn, t e A n +1}

{ n (n - 1) n (n - 1) } = - -n+2j+2k;0

,O

n 2 2 { n ( n + 1 ) n ( n + 1 ) } = - + 2 (j + k) ; 0

j+k

.22

L'hypothèse de récurrence est vérifiée à l'ordre (n + 1), ce qui


achève la démonstration. On remarque que
Bn = Am,

n (n - 1) avec m = + 1. 2

Puisque V2 = U2, on a évidemment

1 \:1 s e {-l, 1}, P2 (s) = -. 2

Soit n

2. On a

\:1 s e B n + b Pn+1 (s) = P(V n+1 = s)

= P(V n + U n + 1 = s)

n = L P(Un+ 1 = -n + 2 k, V n = s + n - 2 k) k=O

n = L P(U n +1 = -n + 2 k) P(V n = s + n - 2 k) k=O

=
n 1 L Pn( s + n - 2 k), n + 1 k=O

en utilisant le fait que U n +1 et V n sont indépendantes et que la loi


de U n +l est uniforme sur A n + 1 dont le cardinal est égal à n + 1.

312

VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION

La loi de Un étant symétrique par rapport à l'origine, on a lE (U n) =


0, d'où lE (V n ) =0. Enfm

n Var(V n ) = L Var(Uk) k=2

Un + n - 1 et, en remarquant que suit la loi unifonne sur {l,..., n} dont


la variance est

2n-1
(voir exercice 2 chap. 1), on a

12

2 2 n - 1 n - 1 Var(U n ) = 4 - = -, 12 3

d'où

1 n 2 1 n 2 Var(Vn)=-L(k -1)=-L(k -1) 3 k=2 3 k=l

( i k2 _ n J = n (n - 1) (2 n + 5) . 3 k=l 18

Exercice 111.4 1) On se propose de montrer la relation liant pn, 't n


et 't2,n donnée à la section 111.6, à savoir

3 3 (n - 2) P n = 't + 't 2 . n + 1 n n + l ,n

On rappelle que
't = 2,n

C 2 - D 2 n (n - 1) (n - 2)

OÙ C 2 et D 2 désignent les nombres de triplets de couples (Xi, Yi)


distincts qui sont respectivement en concordance et en discordance
d'ordre 2. En déduire que /' on a

't = 2,n

- 1. n (n - 1) (n - 2)

2C2

Montrer que [' on peut écrire C2 sous [aforme

C 2 = L L 11 rR +(R[k] - R[i]) + L L 11 rR +(R[i] - R[k])' l

i<j

n kE J. . l

j<i

n kE J. . IJ IJ
313

VII. TESTS D'INDEPENDANCE. MESURES D' ASSOCIATION

où l'on a posé Iij = {l, ... , n} - {i, j } .

Montrer que l'on a

L 11 IR+(R[k] - R[i]) = 0 - 1 - R[i] -11 IR+(R[j] - R[i]) kEJ. . I,J

et exprimer, de même, L 11 IR+(R[i] - R[k]) en jonction de R[i] et de


11 IR+(R[j] - R[i]J. kE J. . 1,J En déduire, grâce aux relations (111.4)
et (111.8), que C 2 s'exprime en fonction de Pn et de 'en et établir la
relation cherchée. 2) Montrer les relations concernant 1E('t2,n) et
lE(pJ données à la fin de la section

111.6.

1) Soit A l'ensemble des triplets (i,j,k) d'éléments distincts de {1,...,n}.


On a
C 2 + D 2 = Card A = n (n - 1) (n - 2),

donc

C 2 - D 2 = 2 C 2 - (C 2 + D 2 ) = 2 C 2 - n (n - 1) (n - 2),

d'où l'on tire

2C2

't = 2,n

- 1. n (n - 1) (0 - 2)

On a

C 2 = L 11 IR+[(Xi - X j ) (Yi - Y 0] (i,j,k)E A

= L 11 IR +[(X(i) - X(j» (Y ri] - Y [k»] (i,j,k)E A


= L l1 IR +[(i - j) (R[i] - R[k»]. (i,j,k)E A

En séparant les tennes pour lesquels i < j et ceux pour lesquels i > j,
on obtient

C 2 = L L 11 IR +(R[k] - R[i]) + L L 11(R +(R[i] - R[k]). l

i<j

n kE J. . l

j<i

n kE J. . IJ IJ

Remarque. On peut montrer que les deux termes de cette somme


sont égaux, ce qui fait que les définitions de 't2,n diffèrent d'un
auteur à l'autre.

314

VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION

Reprenons le calcul. On a
{ n-l- R o £.J 8 rR +(R[k] - R[i]) = [1] kE Jo. n - R [ o ] I,J 1

si R[i] < R[j]' si R[i] > R[j]'

puisque cette expression est égale au nombre d'éléments de (l,..., n)


qui sont différents de R[j] et strictement supérieurs à R[i]. On peut
écrire

L 11 rR +(R[k] - R[i]) = n - 1 - R[i] + 11 rR +(R[i] - R[j]) kE Jo. I,J

et, de même, on montre aisément que l'on a

L 11 rR +(R[i] - R[k]) = R[i] - 2 + 11 rR +(R[j] - R[i]). kE J. . I,J

On en tire

C 2 = L [n - 1 - R[i] + 11 rR+(R[i] - R[j])] + L [R[i] - 2 + 11 rR+(R[j] -


R[i])]. l

i<j

nl

j<i
n

n (n + 1) En remarquant qu'il y a termes qans chaque somme et que


2

L 11 rR +(R[i] - R[j]) = L 11 rR +(R[j] - R[i]), l

i<j

nl

j<i

on obtient

n (n - 1)

C 2 = (n - 3) + 2 £.J 11 rR+(R[i] - Rm) - £.J R[i] + £.J R[i]. 2 l

i<j

nl

i<j

nl

j<i
n

Enfin, on a

n L R[i] = L (n - i) R[i] = L (n - i) R[i] l

i<j

nl

i<n i=l

et

n L R[i] = L (i - 1) R[i] = L (i - 1) R[i], l

j<i

n 1<i

n i=l

d'où

n n (n - 1) (n - 3)
C 2 = + 2 £.J 11 rR+(R[i] - R[j]) + £.J (2 i - (n + 1) ) R[i]' 2 1

i<j

n i= 1

315

VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION

D'après les relations (111.4) et (111.8), on a

nn

( . n + 1 ) n (n + 1) (n - 1)

( 2 1 - (n + 1) ) R[i] = 2

1 - - R[i] = P n 1= 1 1= 1 2 6

et

n(n-l) 2 £.J 11 IR +(R[i] - R[j]) = (1 - 't n ), l

i<j
n2

d'où

n (n - 1) (n - 3) n ( n - 1 ) n (n + 1) (n - 1) C 2 = + (1 - 't ) + P 2 2 n 6 n

n (n - 1) (n - 2) n (n - 1) - 't + 2 2 n

n (n + 1) (n - 1) Pn 6

et

2 C 2 't n n + 1 't = -1=--+ P 2 n n' , n (n - 1) (n - 2) n - 2 3 (n - 2)

d'où l'on tire la relation cherchée, soit

3 3 (n - 2) P = 't + 't 2 . n n + 1 n n + l ,n
2) En raisonnant comme on l'a fait au théorème 111.4.10 pour
trouver lE ('t n ), on obtient

2 lE ('t 2 ) = lE (C 2 ) - 1. ,n n (n - 1) (n - 2)

Or

C 2 = L 11 fR+[(Xi - X j ) (Yi - Yk)], (i,j,k)E A

d'où

IE(C 2 ) = L P[(Xi - Xj) (Yi - Yk) > 0] (i.j,k)E A

= (Card A) P[(X1 - X2) (YI - Y 3) > 0],

puisque tous les termes de la somme sont égaux. On en tire

1E('t2.n) = 2 P[(X 1 - X2) (YI - Y3) > 0] - 1,

316
VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION

pUIS

lE (Pn) =

[2 P[(X1 - X2) (YI - Y2) > 0] - 1 + (n - 2) [2 P[(XI - X2) (YI - Y3) > 0] -
1]].

n+l

On retrouve lEo(pJ = 0 puisque les deux probabilités écrites ci-


dessus sont égales à

sous 1 'hypothèse Ho. 2


Exercice 111.5. Monotonie d'une statistique de rang On désigne par
1:n /' ensemble des permutations de {l,..., n}. A tout élement a de
1:n, on associe l'ensemble A( a) défini par

A(a) = {( a(i), aU»; i <j, a(i) < aU)}.

1) Etant donné deux éléments a et a' de

n' on dit que a est mieux ordonnée que a' et l'on note "a' <0 a" si A(
a') c A( a). Montrer que la relation "<0" est une relation d'ordre. Pour
cela, on montrera que, si A(a) = A(a'), on a alors a- 1 (1) = a , - 1 (1),
puis a- 1 (2) = a , - 1 (2), et ainsi de suite. 2) Soient a et a' deux
élements distincts de Ln tels que a' <0 a. On pose

j = min (i; a(i) * a'(i)}.

Remarquant que

(aU), aU + 1), ..., a(n)} = (a'U), a'U + 1), ..., a'(n)},

on considère l'entier k (k > j) tel que a(k) = a'G). Montrer, en


considérant l'entier h (h > j) tel que a'(h) = aU), que aU) < a'U).
Montrer, de même, que a(k - 1) < a(k) et en déduire que, si t désigne
l'élément de Ln qui échange a(k - 1) et a(k) en laissant les autres
éléments de {l,..., n} invariants, on a, en posant al = t 0 a,
A(a1) = A(a) - {( a(k - 1), a(k»}

et

a' <0 al.

Déduire des résultats précédents qu'il existe des éléments a o , a},


... , a p de Ln tels que

1 a = a p <0 a p -1 <0 ... <0 al <0 a o = a

317

VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION

et que

\:lie {l,...,p},

ai = ti 0 ai-l,
où ti est une permutation qui échange deux éléments de la forme ai-l
(k - 1), ai-l (k) en laissant invariants les autres éléments de {l,..., n}.
3) Soit T une statistique de rang pour Un échantillon d'une loi
continue sur IR 2, c'est-à-dire, en reprenant les notations du
paragraphe III, une statistique définie par

T = <I>(R[1], ... , R[n])'

On dit que la statistique T est croissante si, étant donné deux


éléments a et a' de Ln, on a

( a' <0 a)

(<I>( 0',-1(1), ... , a,-I(n) )

<1>( 0'-1(1), ... , a- 1 (n) ) ).

Montrer que les statistiques de Kendall, de Spearmann et du


quadrant sont croissantes. Pour ces deux dernières, on utilisera le
résultat de la question 2. (D'après Yanagimoto et Okamoto (1969».

1) La relation "<0" est évidemment réflexive et transitive. Il reste à


montrer que, si a' <0 a et a <0 a', c'est-à-dire si A(a) = A(a ' ), on a a
= a'. On remarque que

( ( 1, aU) ) e A (a» <=> (0'-1(1) <j )


et, par conséquent, que le nombre d'éléments de {l,..., n} strictement
supérieurs à a- 1 (1) est égal au nombre p d'éléments de A(a) de la
forme (l, k). D'où a- 1 (1) = n - p et, donc, a- 1 (1) = a,-I(l) si A(a) =
A(a'). De même, le nombre d'éléments de {l,..., n} strictement
supérieurs à 0'-1(2) et différents de 0'-1(1) est égal au nombre q
d'éléments de A(a) de la fOIl11e (2, k), d'où

-1 n - q si a (1) < n - q,

-1 a (2) =

n-q-1

sInon,

et, donc, 0'-1(2) = 0',-1(2) si A(a) = A(a'). On peut ainsi, de proche en


proche, montrer que

V ie {l, ..., n},

-1 ( . ) '-1 ( . ) a 1 = a l,
318

VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION

soit que a = a'.

2) D'après la définition même de j, on a a'(j) * aU). Supposons que


a'U) < a U). On a alors

( a'U), aU) ) = ( a(k), aU) ) = ( a'U), a ' ( .e) )

et ce couple appartient à A(a ' ) puisque j <.e et n'appartient pas à


A(a) puisque k > j, ce qui contredit 1 'hypothèse a' <0 a. De même, si
l'on considère l'entier m (m

j) tel que a'(m) = a(k - 1), on a m

j car a'G) = a(k)

a(k - 1), donc m > k et, si l'on avait a(k) < a(k - 1), le couple ( a'U),
a'(m) ) = ( a(k), a(k - 1»

appartiendrait à A( a') et non à A( a).

La permutation al est définie par


al (k) = a(k - 1), al (i) = a(i) SI

al (k - 1) = a(k), i

k - 1 et i

k.

On remarque alors que le couple (a(k - 1), a(k) ) appartient à A(a) et


non à A(al) puisque a(k - 1) < a(k), que tout autre élément de A(a)
appartient à A(al) et que tout élément de A(al) appartient à A(a). On
a donc bien

A(aÜ = A( a) - {( a(k - 1), a(k) )}

et, pour établir que a' <0 al, il suffit de montrer que (a(k - 1), a(k) ) é
A (a'), c' est- à-dire que

( a' (m), a'(j) )

A( a'),

ce qui est exact puisque m > j. Enfin, si al


a', on peut recommencer en remplaçant a par al et, puisque l'on
retire à chaque fois un élément à l'ensemble A(.), on aboutit, de
proche en proche, à 1 a p = a, avec

p = Card A(a) - Card A(a').

3) Soient a et a' deux éléments de Ln. Posons

\:1 i E {l, ..., n},

-1 ( ' ) a 1 = ri,

,-1 ( ' ) , a 1 = ri.

319

VII. TESTS D'INDEPENDANCE. MESURES D' ASSOCIATION

On remarque que

A( a) = {(i, j) ; i < j, ri < rj}


et, donc, que la relation "a' <0 a" équivaut à la propriété

(i < j, r'i < r'j)

(ri < rj).

La statistique de Kendall est définie (remarque 111.4.5) par

't = 1 - 4 L 11 +(R[i] - Rm) n n (n - 1) l

i<j

nR

et, en considérant la fonction <1> correspondante, on a donc, si a'


<0 a,

c1>(rl'...,r n )-c1>(r'I'...,r'n)= 4 L [11 +(r'i-r'.)-lI +(ri-r j )] n (n - 1) l

i<j

nRJR
et cette quantité est évidemment positive ou nulle puisque tous les
tennes entre crochets sont égaux à 1 ou à O.

La statistique de Spearmann est définie (remarques 111.3.3 et


111.3.4) par

n 12

n + 1 Pn = £.J i R[i] - 3 -. n (n + 1) (n - 1) i=l n - 1

La fonction <1> correspondante est donc définie par

n <I>(r l' ... , r n ) = Â. L i ri + Jl, i=l

avec Â. > O. On peut alors utiliser le résultat de la question 2 et,


donc, se borner à montrer la propriété dans le cas où a' = t 0 cr. On
a alors cr 1-1 = cr -1 0 t, puisque t- 1 = t, et il existe donc un entier k
(2

n) et deux éléments io et jo de {l,..., n} tels que

io < jo, cr(i o ) = cr'Uo) = k - 1, crUo) = a'(io) = k


et l'on a a'(i) = a(i) si i * io et i * jo.

320

VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION

On en déduit

n <I>(r l' ... , r n ) - <I>(r ' l' ... , r ' n ) = À L (i ri - i r'i) i=l

= À ( (k - 1) cr- 1 (k - 1) - (k - 1) cr,-l(k - 1) + k cr- 1 (k) - k cr,-I(k) ) = À


( (k - 1) io - (k - 1) jo + k jo - k io ) = À Go - io) > O.

Enfin, procédons de la même façon et avec les mêmes notations


pour la statistique du quadrant qui est définie (remarque TII.2.2) par

( n+l ) ( n+l ) Q =-£.J 11 i-- 11 R. -- n n i= 1 ]O,+oo[ 2 ]O,+oo[ [1] 2 .

On obtien t donc
<I>(rl, ... , r n ) - <I>(r'l, ... , r'n)

1 [ ( n+l ) ( n+l ) ( n+l ) ( n+l ) =- 11 k-l-- 11 i -- -11 k-l-- 11 . -- n


]O,+oo[ 2 ]O,+oo[ 0 2 ]O,+oo[ 2 ]O,+oo[ Jo 2

(1 ( n+l ) ( n+l ) ( n+l ) ( n+l )] +8 k-- 11 . -- -11 k-- 11 i -- ]O,+oo[ 2


]O,+oo[ Jo 2 ]O,+oo[ 2 ]O,+oo[ 0 2

[ 11 ( k-

J -ll ( k-l-

J][ l1 ( j-

J -l1 ( i-

n ]O,+oo[ 2 ]O,+oo[ 2 ]O,+oo[ 0 2 ] 0, +00 [ 0 2

et cette expression est positive ou nulle puisque les deux termes


entre parenthèses ne peuvent prendre que les valeurs 1 ou O.

Les trois statistiques considérées sont donc bien croissantes au


sens où nous l'avons défini.
Complément. A titre de complément, nous tenons à signaler un
théorème établi par les auteurs de l'article cité en référence et qui
concerne les notions introduites dans le présent exercice et dans
l'exercice II.8. Théorème. Si T est une statistique de rang croissante,
alors, quel que soit c réel, la fonction puissance du test défini par la
région critique {T

c} est croissante relativement à la relation de pré ordre "<;t" (que l'on


a définie à l'exercice II.8).

321

VII. TESTS D'INDEPENDANCE. MESURES D' ASSOCIATION

Autrement dit, et avec des notations évidentes, si T est croissante et


si F «i G,

alors

\:Ic e IR,

Pp(T

c)

Pa(T
c).

La démonstration qu'en donnent les auteurs de l'article nous a paru


trop ardue et de caractère trop théorique pour pouvoir faire l'objet
d'un exercice, mais le lecteur intéressé pourra s'y reporter.

Exercice IV.I. On considère le coefficient de concordance de Kendall


défini en lV.l.l par

k 2 C = 12 L ( R . _ n (k + 1) J n n 2 k (k 2 _ 1) j=I'J 2 .

On a, évidemment, C n

O. 1 ) Montrer qu'il existe des valeurs de n et de k pour lesquelles on


ne peut réaliser C n = O. 2 ) Montrer que

k n 2 k n ( R ) 2 k 2 L L R.. - k + 1 = L L R.. _

+ 2- L R.. _ n (k + 1) . j=l i=l (IJ 2 ) j=l i=l IJ n n j=l (J 2 )

En déduire que en

1 et montrer que, quels que soient les entiers n et k, on peut réaliser


en = 1.
1) Pour que en prenne la valeur 0, il faut et il suffit que l'on ait

\:1 je {l,..., k},

n (k + 1) r.j = 2

Puisque r.j est un entier, il est impossible de réaliser cette condition


lorsque n (k + 1), 1 . A ." d . 1 .. k . n est pas ut-meme entIer, c est-a-
rre orsque n est Imparr et parr. 2 R M A d l ' n (k + 1) . . 1 ' " l ,
emarque. eme ans e cas ou est entIer, 1 n est pas sur que on 2
puisse réaliser en = o. Il s'agit là d'un problème combinatoire délicat
que nous pouvons soumettre à la sagacité de nos lecteurs ! Il Y a
tout de même un cas où l'on peut réaliser C n = 0, c'est celui où l'on
a n = k. Il suffit alors que, pour chaque valeur de j, on ait {rlj, ... , rnj}
= {l, ... , n}.

322

VII. TESTS D'INDEPENDANCE. MESURES D' ASSOCIATION

2) En remarquant que, pour chaque valeur de j,

R.. J
est la moyenne des

observations Rij, on a V a E IR, V jE {l, ... ,k}, t(Rij _ a)2 =

( Rij _ R' j J 2+ n ( R'j - a J 2, 1= 1 1= 1 n n

k+l d'où, en prenant a = - et en sommant de j = 1 à k, 2

k n k + 1 2 k n ( R.j J 2 1 k n (k + 1) 2 LL ( Ri.-- ) =LL Rï-- +-L ( R..- ) .


. 1 ' 1 J 2 . 1 ' 1 J . 1 J 2 J= 1= J= 1= n n J=

On a donc

k2kn2

( . _ n (k + 1» ) <

( .. _

) £.J R'J - n £.J £.J RIJ j=l 2 j=l i=l 2


et le second membre de cette inégalité ne dépend que de n et de k
puisqu'il est égal à

n k k+1 2 2 k . k+1 2 n L L ( Ri' - - ) = n L ( J - - ) . i=1 j=1 J 2 j=l 2

On sait (exercice 2 chap. 1) que la variance de la loi uniforme sur


{l,..., k} est k 2 - 1 égale à -, d'où 12

f ( j _ k + 1 ) 2= k (k 2 - 1) . j= 1 2 12

On en tire

c = 12 f ( R.. _ n (k + 1) ) 2

12 n 2 k (k 2 - 1) n n 2 k (k 2 _ 1) j=1 J. 2 n 2 k (k 2 - 1) 12

soit en

1.

323

VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION


Enfin, pour que en prenne la valeur 1, il faut et il suffit que

k n r" J 2 L L ( ri' - -2 = 0, . 1 . 1 J J= 1= n

c'est-à-dire que, pour chaque valeur de j, les n nombres rij soient


égaux. Pour cela, il suffit, par exemple, que pour chaque valeur de j,
les n nombres rij soient égaux à j. Plus généralement, il faut et il
suffit qu'il existe une permutation a de { 1, ... , k} telle que

\:1 je {l,..., k},

'Vie {1,...,n},

rij = aO).

Le coefficient C n peut donc prendre la valeur 1 quels que soient les


entiers n

et k.
Exercice IV.2. (Suite de l'exercice IV.l) 1) Montrer que le coefficient
de concordance de Kendall en est égal, à un facteur multiplicatif
près, à la statistique FN qui a servi à définir le test de Friedman
(définition //1.1.1 chap. VI). On tiendra compte dufait que les
notations utilisées dans les chapitres VI et VII sont différentes. En
déduire, grâce aux résultats du théorème 111.1.2 chap. VI,
l'espérance mathématique, sous l' hypothèse Ho, de la statistique C
n . 2 ) Toujours avec les notations de la section IV, on associe à
toute paire {i, i'} d'éléments de {l,..., n} le coefficient de corrélation
empirique Pii' des vecteurs n (n - 1) (Ril, ... , Rik) et (Ri'l, ... , Ri'k) et
l'on désigne par M r la moyenne de ces 2

coefficie nts . Montrer que l' on a 12

( k + 1 ) ( k + 1 ) (n - 1) M = £.J £.J 2 R.. - - R.t. -- r n k (k 2 _ 1) j=l l

i<i'

n IJ 2 IJ 2

et en déduire que

(n - 1) M r + 1 C = n n

3) Calculer l'espérance mathématique, sous l' hypothèse Ho, de la


statistique

1r et retrouver ainsi le résultat de la question 1.


324

VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION

Calculer la variance, sous l' hypothèse Ho, de la statistique M r et en


déduire celle de Cn. On montrera d'abord que les coefficients Pü'
sont deux à deux non corrélés.

1) Remarquons tout d'abord que les rangs notés R'ij au paragraphe


III du chapitre VI ne sont autres que les rangs notés Rij à la section
IV du chapitre VII. En adoptant les notations du chapitre VII, on peut
écrire

k 2 FN = 12 n L ( R.j _ k + 1 J k (k + 1) j= 1 n 2 k 2 = 12 L ( R. j _ n (k
+ 1» ) n k (k + 1) j= 1 2

= n (k - 1) Cn.

On a, en utilisant les résultats du théorème TI1.1.2 chap. VI,

k 2 lE _ 12

lE ( n (k + 1» ) o(F N ) - £.J 0 R..- n k (k + 1) j= 1 J 2


=

12 k L V o(R. j ) n k (k + 1) j= 1 12 V o(R. j ) n (k + 1)

2 n (k - 1) = k - 1, 12

12

n (k + 1)

d'où

1 lEo(C n ) = -. n

2) D'après le résultat de l'exercice IV.l, on peut écrire


Vie {l,...,n},

L R.. = k + 1 k j= 1 IJ 2

et

f ( Rï _ k + 1 ) 2 k j=1 J 2

k2-1

12

325

VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION

On a donc, pour toute paire {i, i'} d'éléments de {l,..., n},


k

L ( R.. -

) ( RoI' -

) k j= 1 IJ 2 IJ 2 P ii' = k 2 _ 1

12

2 f ( Ri j - k + 2 1 ) ( Ri'j - k + 2 1 ) . k (k - 1) J= 1

Or

M= r

2 L p.." ( 1) .., 11 n n - 1

1<1

donc
[ k ] (n - 1) M = 12 L 2 L R.. _ k + 1 R.t. _

+ 1 r n k (k 2 _ 1) l,;i<i'';n j=l (IJ 2) (IJ 2)

k = 12 L L 2 ( R.. _ k + 1 ) ( R.'. _ k + 1 ) . n k (k 2 - 1) j=1 1

Î<i'

n IJ 2 IJ 2

D'après la relation

2 2 L a. a" = ( i a ) - i a 2 , 1 1 1 1 l

i<i'

n i=1 i=1

on obtient

[ 2 12 k n k + 1 k n k + 1 2 (n - 1)

= L L Ri' - - - L L Ri' - - n k (k 2 - 1) j= 1 el (J 2) J j= 1 i= 1 (J 2)

On a
VjE {l,...,k},

( _ k + 1 ) _ _ n (k + 1) £.J R.. -R. i= 1 IJ 2 'J 2

et l'on a montré à l'exercice précédent que

k n 2 2 LL ( Ri'_ k+1 ) = nk(k -1) . j= 1 i= 1 J 2 12

326

VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION

On en tire

12

( n (k + 1) J 2 (n - 1)

= 2 £.J R' j - - 1 n k (k - 1) j=l 2

= n C n - 1,
soit

(n - 1)

+1Cn=.n

3) On a

lEo(M r ) = 2 L lEo(p..,) n (n - 1) l

i<i'

n 11

et

12

[( k + 1 J ( k + 1 J] lEo(p..,) = 2 £.J lEo R' J ' - - Ri' J ' - - . 11 k (k _ 1)


j= 1 1 2 2

Sous 1 'hypothèse Ho, les n vecteurs (Rn, ... , Rik) sont


indépendants et chacun suit la loi uniforme sur l'ensemble des
permutations de {l,..., k}. On a alors
lE [( R.. -

J ( R'" -

J] = lE ( RH -

J lE ( R'" -

J = 0 o IJ 2 IJ 2 0 IJ 2 0 IJ 2 '

k+l car chacune des variables aléatoires Rij admet - pour espérance
mathématique. 2

1 On a donc lEo(pii') = 0, d'où lEo(Mr) = 0 et lEo(C n ) = -, résultat


déjà obtenu à n

la question 1.

Montrons que les coefficients Pii' sont deux à deux non corrélés,
c'est-à-dire que, SI {i, i'} et {j, j'} sont deux paires distinctes
d'éléments de {l,..., n}, on a

Cov o(Pii', Pjj') = 0,

soit lEo(Pii' Pjj') = O.


En fait, le problème ne se pose que si les deux paires ont un
élément commun puisque, sinon, l'indépendance des vecteurs
(RH,..., Rik) entraîne celle des deux coefficients considérés. Pour
alléger la notation, montrons, sans rien perdre de la généralité, que
lE o (Pl2 P13) = o.

327

VII. TESTS D'INDEPENDANCE. MESURES D' ASSOCIATION

12 On a, en posant K = 2 ' k (k - 1)

P 12 P l3 = K 2 [t ( R lj - k: 1 ) ( R 2j _ k: 1 )] [t ( R lj _ k: 1 ) ( R3j _ k :
1 )]

k k = K 2 L L ( RI. -

J ( RI" -

J ( R2. -

J ( R3" -

J ' j=l 1'=1 J 2 J 2 J 2 J 2


Chaque terme de cette somme a une espérance .mathématique
nulle puisque l'indépendance des trois vecteurs (Ri 1, ... , Rik), i e {l,
2, 3}, permet d'écrire cette espérance sous forme d'un produit de
trois termes et que l'on a

( k+l ) ( k+l ) Eo R 2j - 2 = Eo R3j - 2 = o.

On a bien lE o (P12 P13) = 0 et l'on en déduit que

Vo(M r ) = 2 4 2 L Vo(Pii') = 2 V o (P 12 ), n (n - 1) l

i<i'

n n (n - 1)

par raison de symétrie. D'autre part, on a

v o(P12) = lEo(pi

et

( k+1 J( k+1 J P 12 = K

R 1j - - R 2j - - , J= 1 2 2
d'où

1 k [( k+ I J 2 ( k+ I J 2 ] 2: V o (P I2 ) =

lEo R 1j - - R 2j - - K J= 1 2 2

[( k+ I J( k+ I J( k+ I J( k+ I J] + 2

lEo R 1j - - R 2j - - RIf - - R 2f - - l

J<i

n2222

k [( k+1 J 2 ] [( k+1 J 2 ] =

Eo R lj - 2 Eo R 2j - 2

+ 2g

n Eo [( R lj - k: 1 J ( RIj' - k: 1 J] Eo [( R 2j - k: 1 J( R 2r k: 1 J]

328
VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION

= k [ V o(R1j) ]2 + k (k - 1) [ COV o (R1j, R1j') ]2,

en tenant compte du fait que les vecteurs (RH,".' RnJ, i e {l, 2}, sont
indépendants et de même loi uniforme sur l'ensemble des
permutations de {l,. .. , k}. On sait alors (exercice 2 chap. 1) que

k 2 - 1 V o (R 1 j) = - et 12

k+l COV o (R1j, R 1 j') = - -, 2

d'où

1 (k 2 - 1)2 (k + 1)2 k 2 (k + 1)2 (k - 1) "2 V 0 (p 12) = k + k (k - 1) =


K 144 144 144

2 k 2 (k + 1)2 (k - 1) 1 V o (PI2) = K -- 144 k - 1

et, enfin,
2

Vo(

) = n (n - 1) (k - 1)

et

2 ( n-l ) 2(n-l) Vo(C n ) = - Vo(

) = 3 . n (k - 1) n

Exercice V.l 1) Soit (X, Y) un vecteur aléatoire de loi H continue sur


rR 2. Exprimer m(X, Y) en fonction de H(

112(F),

112(G», où F et G désignent les lois respectives de X et de Y. En


déduire que, si H appartient à '3 1 , on a m(X, Y)

O. 2) On suppose que (X, Y) est un vecteur gaussien dont les lois


marginales sont réduites . Montrer que

Corr(X, Y) = sin ( : m(X, Y) J .

1) Pour alléger l'écriture, posons


a=

112(F)

et

b=

112(G).

Ona

m(X, Y) = 2

(X, Y) - 1

329

VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION

et
II4(X, Y) = P[(X - a) (Y - b) > 0] = P(X - a > 0, Y - b > 0) + P(X - a < 0,
Y - b < 0) = 1 - P( {X - a

O} U {Y - b

O} ) + H( a, b) = 1 - P(X - a

0) - P(Y - b

0) + P(X - a

0, Y - b

0) + H(a, b) = 1 - F(a) - G(b) + 2 H(a, b) = 2 H(a, b),

d'où

m(X, Y) = 4 H(a, b) - 1.

Si H appartient à j 1, on a

1 H(a, b)

F(a) G(b) = -, 4

d'où

m(X, Y)
O.

Remarque. On a, de même, m(X, Y)

0 lorsque H appartient à dl.

2) On peut supposer que le vecteur (X, Y) est centré, c'est-à-dire


que l'on a

1/2(F) =

If2(G) = 0, ce qui n'enlève rien à la généralité. On a alors, en


désignant par h la densité du vecteur (X, Y),

m(X, Y) = 4 H(O, 0) - 1

et

H(O, 0) = fI h(x, y) dx dy = fI h(x, y) dx dy. (fR-)2 (fR+)2

Soit A la matrice des covariances du vecteur (X, Y). On a, en posant


r = Corr(X, Y),

A=(
),

donc

A-l_

( 1 -r ) - 1 - r 2 -r 1

et

1 ( -1 2 2 J h(x, y) =

exp

(x + y - 2 r x y) . 2 1t V 1 - r- 2 v 1 - r-

330

VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION

D'où, en effectuant une intégration en coordonnées polaires,


H(O, 0) = 0 J f exp [ b (1- r sin 2e) ] p dp de. 21t l-r + [ 7t ] 2 l-r rRxO-
'2

En se souvenant que

f +oo 2 Àp 1 _ Àp2

1 e- pdp=-- [e ] =- o 2À 0 2À

( À > 0 ),

on obtient

7t

r-2 1 2 v 1 - r- H(O, 0) = 2 1t 0 1 - r sin 2e

de

soit, en posant t = tg e,

r-2 f
r-2 f

v 1 - r- dt v 1 - r- dt H(O, 0) = 2 = 2 2 2 1t 0 1 - 2 r t + t 2 1t 0 (t - r)
+ (1 - r )

[ ] 1 t-r 1 1t r =- [ AfCt g ] =- -+Arctg 21t J17 0 21t 2 J17

1 1 r = - + - Arctg . 4 21t

On a donc

2 r m(X, Y) = - Arctg J17 1t 1 2 - r

r et, en posant a = Arctg r-2' on vérifie aisément, puisque cos a> 0,


que v 1 - r- . tg a SIn a = tg a cos a = = r. j 1 + tg 2 a

331

VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION

On obtient finalement Corr(X, Y) = r = sin ( : m(X, Y) J.


Exercice V.2. Soit (X, Y) un vecteur aléatoire de loi H continue sur IR
2. 0 n désigne par F et G les lois respectives de X et Y et l'on pose U
= F(X) et V = G(Y). 1 ) Montrer que

t+(X, Y) = 21E( H(X, Y) ).

2) On suppose que H appartient à dl. Montrerqu'i/ en est de même


de la loi Hl de (U, V) et en déduire, grâce à la relation de Hoeffding
(voir exercice II.3) que t(X, Y)

o. 3) On suppose que (X, Y) est un vecteur gaussien dont les lois


marginales sont réduites. Montrer, en se ramenant à la question 2 de
l'exercice V.l, que l'on a

Corr(X, Y) = sin ( : t(X, Y) J .

1) On peut écrire (voir définition V.2.1) que

t+(X, Y) = f P[(X - x) (Y - y) > 0] dH(x, y). rR 2

D'après un calcul déjà effectué à la question 1 de l'exercice V.l, on


obtient

P( (X - x) (Y - y) > 0 ) = 2 H(x, y) - F(x) - G(y) + 1,


d'où

t+(X, Y) = f (2 H(x, y) - F(x) - G(y) + 1 ) dH(x, y) rR 2

= lE ( 2 H(X, Y) - F(X) - G(Y) + 1 ) = 2 IE( H(X, Y) ) - IE(U) - IE(V) + 1


= 21E( H(X, Y) ),

puisque la loi commune à U et V est la loi U [0, 1].

332

VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION

2) On a 2 \:1 (u, v) e ]0, 1[ ,

Hl (u, v) = P(U

u, V

v) = P(U < u, V < v) = P( F(X) < u, G(Y) < v ) = P( X < F- 1 (u), Y < G-
1 (v) ) -1 -1 ( » = H( F (u), G v ,
d'où, si H appartient à ':J 1,

-1 -1 ) H1(U, v)

F( F (u» G( G (v) = u v.

On vérifie ainsi que Hl appartient à ':J 1.

On a alors

t+(X, Y) = 2 IE( H(X, Y) )

2 IE( F(X) G(Y) )

2 lE (UV)

et, d'après la relation de Hoeffding,

E(uv) - E(U) E(V) = f (Hl(u, v) - uv) du dv

0, [0.1 ]2

d'où
1 IE(UV)

IECU) IE(V) =-, 4

ce qui implique

1 t+(X, Y)

-2

et

t(X, Y)

O.

Remarque. On a, de même, t(X, Y)

0 lorsque H appartient à 41.

3) Soient (XI, YI) et (X2, Y2) deux vecteurs aléatoires indépendants


dont la loi commune est une loi gaussienne dont les lois marginales
sont réduites.

333
VII. TESTS D'INDEPENDANCE. MESURES D' ASSOCIATION

Le vecteur aléatoire (X 1, YI, X2, y 2) est alors gaussien et il en est


de même du vecteur (XI - X2, YI - Y 2) qui est image du précédent
par une application linéaire de 1R4 dans IR 2. On a

V(XI - X2) = V(Y 1 - Y2) = 2

et

Cov(X 1 - X2, YI - Y2) = COV(Xl, YI) + Cov( X2, Y2) = 2 Cov(X, Y).

TI suffit alors de considérer le vecteur

(Z, T) = ( X'jt 2 , Ylj{2 )

pour obtenir un vecteur gaussien dont les composantes sont


centrées et réduites. De plus, Cov(Z, T) = Cov(X, Y), donc Corr(Z, T)
= Corr(X, Y).

On sait alors (voir exercice V.l) que


Corr(Z, T) = sin ( : m(Z, T) J .

En remarquant que

m+(Z, T) = P(Z T > 0) = P[(XI - X2) (YI - Y2) > 0] = 't+(X, Y),

on obtient

m(Z, T) = 't(X, Y),

d'où

Corr(X, Y) = sin ( : 't(X, Y) J .

Exercice V.3. Soit (X, Y) un vecteur aléatoire de loi H continue sur IR


2. On désig ne par F et G les lois respectives de X et de Y et l'on
pose U = F(X) et V = G(Y). Montrer que

p+(X, Y) = 2 lE (UV)
et en déduire que

11--

p+(X, Y) - p_(X, Y)

-. 3 3

334

VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION

On a, par définition,

p+(X, Y) = P[(X 1 - X2) (YI - Y 3) > 0]

où (X}, YI), X2 et Y3 désignent un vecteur aléatoire et deux variables


aléatoires indépendants et de lois respectives H, F et G. On peut
donc écrire p /X, Y) = f P[(x - X 2 ) (y - Y 3) > 0] dH(x, y). rR 2

On a
P[ (x - X2) (y - Y 3) > 0] = P(X2 - x > 0, Y 3 - Y > 0) + P(X2 - x < 0, Y
3 - Y < 0) = P(X2 > x) P(Y3 > y) + P(X2 < x) P(Y3 < y) = ( 1 - F(x) ) (
1 - G(y) ) + F(x) G(y) = 2 F(x) G(y) - F(x) - G(y) + 1,

d'où

p+(X, Y) = f [2 F(x) G(y) - F(x) - G(y) + 1] dH(x, y) rR 2

= lE (2 UV - U - V + 1) = 2 lE (UV),

puisque la loi commune à U et V est la loi U[O, 1].

En écrivant que

-1

Corr(U, V)

1, 1 on a, puisque Var(U) = Var(V) = - , 12

11--

IE(UV) - IE(U) IE(V)

- , 12 12
soit

1111---

IE(UV)

- + - , 4 12 4 12

335

VII. TESTS D'INDEPENDANCE. MESURES D' ASSOCIATION

11-

IE(UV)

-, 6 3

d'où

12-

p+(X, Y)

-33
et, enfin, puisque

p+(X, Y) - p_(X, Y) = 2 p+(X, Y) - 1, 1 1 - -

p+(X, Y) - p_(X, Y)

-. 3 3

Exercice V.4. Montrer, en considérant la table 3 (p. 280 du Tome 1),


que l'on a les relations données à la remarque V.3.2, à savoir

a) 1t+(X, Y) + 1t_(X, Y) = 1,

1 + 1t+(X, Y) b) p+(X, Y) = , 3 d'où p(X, Y) = 1t+(X, Y) - 1t_(X, Y),

c) 1t+(X, Y) est égale à la probabilité pour que la permutation (R[1],


R[2], R[3]) présente 0 ou 1 inversion.

Chacune des six dispositions correspondant à chacune des


colonnes de la table 3 a, pour une loi H continue sur 1R2 donnée,
une probabilité Pi. On a, bien sûr,

Pl + P2 + ... + P6 = 1.
Pour chacune de ces colonnes, les six numérotations possibles
correspondant aux six lignes de la table 3 sont équiprobables. On
peut alors écrire que

6 1t+(X, Y) = L ai Pi, i=l

6 1t_(X, Y) = L a'i Pi, i=1

et

6 p+(X, Y) = L

i Pi, i=l

où les coefficient <Xi, a'i et

i sont définis de la façon suivante.

. ai = 1 si, dans la colonne i, on trouve "c" dans chacune des deux


premières lignes, ou dans chacune des deux suivantes, ou dans
chacune des deux dernières. Sinon, ai = O.

336
VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION

· a'ï est défini de la même façon que ai en remplaçant "c" par "d". ·
Pi est la proportion de "c" que l'on trouve dans la colonne i, c'est-à-
dire le nombre de "c" divisé par 6.

Pour montrer les propriétés a) et b) de l'énoncé, il suffit de vérifier


que l'on a

\:lie {1,...,6},

ai + al i = 1,

1 + a. 1 Pi=

Pour montrer la propriété c), il suffit de vérifier que ai = 1 si et


seulement si la permutation de (R[I], R[2], R[3]) qui correspond à la
colonne i présente 0 ou 1 inversion. Ces vérifications sont
immédiates puisque les six couples (ah a 'ï) sont respectivement
égaux à (1,0), (1,0), (0, 1), (1,0), (0, 1) et (0, 1) et que les six 22121
1 valeurs de Pi sont respectivement -, -, -, -, - et -. 33333 3
D'autre part, les six permutations de (R[1], R[2], R[3]) sont
respectivement égales à (1,2,3), (1,3,2), (2,3, 1), (2, 1, 3), (3, 1,2) et
(3, 2, 1). Les nombres d'inversions qu'elles présentent sont
respectivement égaux à 0, 1, 2, 1,2 et 3.

Enfin, on a,

p(X, Y) = 3 ( 2 p+(X, Y) - 1 ) = 2 1t+(X, Y) - 1 = 1t+(X, Y) - 1t_(X, Y).

Remarque. On a la relation 1t+(X, Y) + 1t_(X, Y) = 1, bien que l'on


n'ait pas exactement défini 1t_(X, Y) comme la probabilité de
l'événement contraire de celui dont 1t+(X, Y) est la probabilité. En
fait, c'est bien de cela qu'il s'agit, puisque l'on constate que, pour
tout i appartenant à {l, ... ,6}, on a ai + a'i = 1.

Exercice V.S. Soit (X, Y) un vecteur aléatoire de loi H continue sur rR


2 . 1) Montrer que, si H appartient à d}, on a p(X, Y)

O. 2) On suppose que (X, Y) est un vt;cteur gaussien dont les lois


marginales sont réduites . Montrer, en se ramenant à la question 2
de l'exercice V.1, que l' on a

Corr(X, Y) = 2 sin ( : p(X, Y) J .

337
VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION

1) On a

p /X, Y) = f P[(X - x) (Y - y) > 0] dF(x) dG(y), rR 2

où F et G désignent les lois respectives de X et de Y. D'après un


calcul déjà effectué à la question 1 de l'exercice V.l, on a

P[(X - x) (Y - y) > 0] = 2 H(x, y) - F(x) - G(y) + 1,

d'où, si H appartient à ':1 1 ,

p+(X, Y)

f (2 F(x) G(y) - F(x) - G(y) + 1) dF(x) dG(y) rR 2

2 f F(x) dF(x) f G(y) dG(y) - f F(x) dF(x) f dG(y) rR rR rR rR - f dF(x) f


G(y) dG(y) + f dF(x) f dG(y) rR rR rR rR

2(

) 2_
_

+1 2 2 2

-. 2

On obtient bien

p(X, Y) = 3 (2 p+(X, Y) - 1)

O.

Remarque. On a, de même, p(X, Y)

0 lorsque H appartient à (J 1.

2) Puisque les vecteurs et variables aléatoires (XI, YI), X2 et Y 3


sont gaussiens et indépendants, le vecteur aléatoire (X 1, YI, X2, Y
3) est gaussien. Le vecteur aléatoire (X 1 - X2, YI - Y 3) est alors
gaussien comme image du précédent par une application linéaire de
rR 4 dans IR 2. On a

V(XI - X2) = V(Y1 - Y3) = 2


338

VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION

et

COV(XI - X2, YI - Y 3) = COV(X 1 , YI) = COV(X, Y).

Le vecteur (Z, T) défini par

(Z, T) = ( Xl i t 2 , Yl i {3 )

est un vecteur gaussien dont les composantes sont centrées et


réduites et l'on a

1 1 Cov(Z, T) = - Cov(X, Y), d'où Corr(Z, T) = - Corr(X, Y). 2 2

On sait alors (voir exercice V.l) que

Corr(Z, T) = sin ( : m(Z, T) ) .


En remarquant que

m+(Z, T) = P(ZT > 0) = P[(X 1 - X2) (YI - Y3) > 0] = p+(X, Y),

on obtient

1 m(Z, T) = 2 p+(X, Y) - 1 = - p(X, Y), 3

d'où

Corr(X, Y) = 2 sin ( : p(X. y»).

Exercice V .6. Soit (X, Y) un vecteur aléatoire de loi H continue sur


IR en utilisant un résultat établi à l'exercice V.3, que l' on a

p(X, Y) = y(X, Y) = Corr( F(X), G(Y) ),

où F et G désignent les lois respectives de X et de Y.

Posons U = F(X) et V = G(Y). On a vu, à l'exercice V.3, que l'on a


p+(X, Y) = 2 [[ (UV).

339

VII. TESTS D'INDEPENDANCE. MESURES D' ASSOCIATION

1 1 Comme on a IE(U) = IE(V) = - et Var(U) = Var(V) = -, on en


déduit 2 12

1 y(X, Y) = 12 [lE (UV) - -] = 12 lE (UV) - 3 = 6 p+(X, Y) - 3 = p(X, Y).


4

Exercice V. 7. Soit (X, Y) un vecteur aléatoire de loi H continue sur


IR 2 . On désigne par F et G les lois respectives de X et de Y.
Montrer, en utilisant des résultats établis aux exercices V.2 et V.5,
que l' on a

t(X, Y) = 4 [ f f H(x, y) dH(x, y) - f f F(x) G(y) dF(x) dG(Y) ]

2 ffi2 = 4 f f H(x, y) dH(x, y) - 1 ffi2

et
p(X, Y) = 12 f f [H(x, y) - F(x) G(y)] dF(x) dG(y)

2 = 12 f f H(x, y) dF(x) dG(y) - 3. ffi2

On a vu, à l'exercice V.2, que l'on a

t+(X, Y) = 2 IE( H(X, Y) ) = 2 J f H(x, y) dH(x, y),

d'où

't(X, Y) = 2 't+(X, Y) - 1 = 4 f f H(x, y) dH(x, y) - l. ffi2

340

VII. TESTS D'INDEPENDANCE. MESURES D'ASSOCIATION

En remarquant que

J I F(x) G(y) dF(x) dG(y) = f F(x) dF(x) f G(y) dG(y) =

2 fR fR 4 fR
on a également

't(X, Y) = 4 [ fI H(x, y) dH(x, y) - fI F(x) G(y) dF(x) dG(y) fR2 fR2

Par ailleurs, on a écrit, à l'exercice V.5,

p+(X, Y) = f f [2 H(x, y) - F(x) - G(y) + 1] dF(x) dG(y) fR2 = 2 f f H(x,


y) dF(x) dG(y) -

+ 1 2 2 2 fR = 2 JI H(x, y) dF(x) dG(y), fR2

d'où

p(X, Y) = 6 p+(X, Y) - 3 = 12 J f H(x, y) dF(x) dG(y) - 3 fR2 = 12 f f


[H(x, y) - F(x) G(y)] dF(x) dG(y). fR2

341

Chapitre VIII
TESTS D' ADEQUATION

Exercice II.1. Soit Xl, ... , X n un échantillon de la loi définie, pour


tout élément a de [-1, 1], par la densité suivante

l+ax 'V x E IR, f(x ; 6) = 2 11 I-l,lj(x).

On divise l'intervalle ]-1, 1] en k classes Ci = ]Ci-1, Ci] avec

-1 = Co < CI < ... < Ck-1 < Ck = 1

- et l'on se propose de trouver un estimateur an de a. 1) Vérifier que


la méthode du maximum de vraisemblance et celle du khi-deux -
minimum (voir section II.1) ne permettent pas, en général,
d'expliciter an- On pourra poser, pour tout élément i de {l,..., k},

Ci + c i _ 1 a.= 1

et

Ci - c i - 1 'l = . 1 2
2

2) Montrer que fa méthode du khi-deux minimum modifié de Neyman


(voir encore - section II.l) permet d'expliciter en. On écrira cette
solution.

Désignons par ni le nombre des réalisations qui appartiennent à la


classe Ci. On a, bien sûr,

k L ni = n. i=l

1) La méthode du maximum de vraisemblance revient à chercher


pour quelle valeur de a la fonction de vraisemblance n. k (pi(a)) 1
L(nl' ... , n k ; a) = n! II i= 1 n.f l'

343

VIII. TESTS D'ADEQUATION

est maximum, où pi(a) désigne la probabilité de la classe Ci. On a

c. c. pi(9) = f 1 f(x ; 9) dx = [ ; + 9 :2 r = ci-1 c


l

( c. + c. -1 J l+a 1 1 2

Ci - c i _ 1

= J3i (1 + a ai).

Pour chercher le maximum de la fonction L, on peut considérer son


logarithme népérien

. On a

(nI' ... , n k ; a) = K + L ni Log pi(a) i=l k = K + L ni (Log 13. + Log (1


+ a a.) ), i=l 1 1

où l'on a posé

k K = Log(n!) - L Log(n i !). i=l


En dérivant par rapport à a, on obtient

k- a

ai ni - (nI' ... , n k ; a) = L aa i= 1 1 + a a. 1

et

2 a2

k - ai ni -(n 1 ,...,n k ;a)=L 2 . as 2 i= 1 (1 + S a)

Cette dernière expression est négative et la fonction - est donc


décroissante sur aa

[-1, 1]. Trois cas se présentent alors, suivant que cette derivée
s'annule ou non.

. Soit - (nI, ... , nk ; -1)

0, ce qui se produit, par exemple, si tous les ni as


-

relatifs aux <Xi positifs sont nuls. La fonction

est alors décroissante sur [-1, 1] et an prend la valeur -1.

344

VIII. TESTS D'ADEQUATION

. Soit - (nI, ... , nk ; 1)

0, ce qui se produit, par exemple, si tous les ni ae

relatifs aux <Xi négatifs sont nuls. La fonction

est alors croissante sur [-1, 1] et en prend la valeur 1. a

. Soit - (nI, ... , nk ; -1) > 0 et - (nI, ... , nk ; 1) < O. La fonction


ae ae

passe alors par un maximum pour la valeur de e qui annule - et


que nous ne pouvons ae

en général expliciter puisqu'elle est solution d'une équation


algébrique de degré k - 1.

Considérons maintenant la méthode du khi-deux minimum. Elle


consiste à rendre minimum l'expression X 2 (e) définie par

ke22

(ni - n Pi( » X (e) = £.J i=l n pi(e)

et dont la dérivée par rapport à e est

2 k [ 2 J d( X (e) ) =

Ln2_

de n i=l Pi 2 (e)
dpi(8) de

=_

dpi(9) £.J 2 ' n i=l Pi (e) de

puisque

k dpi(e) d ( k ) d L =- Lpi(e) =-(1)=0. i=l de de i=l de

On a donc

d( X2(9) ) = _

f ai n/ . de n i=l (1+ e a.)2 1

On vérifie aisément que cette dérivée est croissante sur l'intervalle


[-1,1] et l'on a donc une discussion analogue à la précédente.

345

VU!. TESTS D'ADEQUATION


d( X2(9) ) . Soit reste positive sur l'intervalle ]-1, 1 [, ce qui se
produit, par de

- exemple, si tous les ni relatifs aux ai positifs sont nuls. L'estimateur


en prend alors la valeur -1. d( X 2 (e) ) . Soit reste négative sur
l'intervalle ]-1, 1 [, ce qui se produit, par de

- exemple, si tous les ni relatifs aux ai négatifs sunt nuls.


L'estimateur en prend alors la valeur 1. d( X 2 (e) ) . Soit s'annule sur
l'intervalle ]-1, 1 [, ce qui correspond à un de minimum de X 2 (e),
mais la valeur correspondante de e ne peut être explicitée.

2) La méthode du khi-deux modifié de Neyman consiste à remplacer,


dans X 2 (9), les dénominateurs n pi(9) par les ni correspondants, ce
qui suppose, en particulier, que ceux-ci ne sont pas nuls. On doit
alors rendre minimum la fonction Y définie par

k2

(ni - n pi(8) ) Y(e) = £.J i= 1 ni

dont la dérivée Y' est donnée par

n p.(9) - n. dp I .(e) Y'(e) = 2 n £.J 1 1 i=l ni de


= 2 n 2 f pi(9) dPi(9) , i=l n. de 1

puisque l'on sait que

L k dpi(e) - 0 - . i=l de

On obtient

k 2 a.

. Y'(9) = 2 n 2 L

(1+ 9 a.). i=l n. 1 1

346

VIII. TESTS D'ADEQUATION

On vérifie aisément que cette fonction est croissante et l'on a donc


une discussion analogue à la précédente. On laisse au lecteur le
soin de la détailler, mais on remarque tout de même que la fonction
Y' peut garder un signe constant sur [-1, 1]. Par exemple, en
supposant que k = 2 et que CI = 0, on vérifie que l'on a
Y' ( -1)

SI nI

3 n2

et

Y'(l)

SI n2

3 nI.

Dans le cas où la fonction Y' change de signe sur l'intervalle ]-1, 1 [,


la fonction - Y passe par un minimum et la valeur prise par l'
estimateur an de a peut être explicitée puisqu'elle est solution d'une
équation linéaire. Elle est égale à

k 2 a.
. L 1 1 i=l n. 1 k 2 2 . a.

. L 1 1 i=l n. 1

Exercice II.2. Soit Xl, ... , X n un échantillon d'une loi de Poisson de


paramètre 8 (8 > 0). On considère les k classes suivantes

CI = {O, ... , j}, C 2 = {j + l}, ..., Ck _ 1 = {j + k - 2}, Ck = {j + k - 1, ...},

où j est un élément donné de tN. On désigne par ni (1

k) le nombre de réalisations qui appartiennent à la classe Ci. - 1)


Montrer que la valeur a prise par l'estimateur du maximum de
vraisemblance vérifie la relation

J -m

(r:- 1)! n a = nI m-1. J -m L

, m=O .

-m k.l L (r:- 1)! + L (i + j -1) ni + nk m=J+k-1 i=2 X ?' . k l m! m=J+ -


+00

- 2) En déduire que l'on a approximativement a = "n.

347

VIII. TESTS D'ADEQUATION

1) La fonction de vraisemblance L s'écrit

k II ( pi(9) ) ni i=l L(n 1 ' ... , n k ; 9) = n!

n.' l'

où pi(9) désigne la probabilité de la classe Ci. On a

. m J 9 -9

p1(9) = e £.J - , m=O m!

\:1 i e {2,... , k - 1},


j+i-1 _ 9 9 pi(9) = e , U+i-l)!

+00 -9

pk(9) = e £.J m=j+k-1

m9

m!

On remarque que la fonction L passe en général par un maximum


car elle tend vers o lorsque 8 tend vers 0+ ou vers +00. En effet

lim p1(9)=1 9

O+

et

1im pk(9) = 1 9

+oo
et, dans chacun de ces deux cas, toutes les autres probabilités pi(9)
tendent vers O. La fonction L a donc bien ses deux limites nulles,
sauf dans les cas particuliers où l'on aurait nI = n ou k = n. Nous
écartons ces cas qui correspondent, en fait, à un choix contestable
des classes Ci. La valeur prise par l' estimateur du maximum de
vraisemblance doit donc annuler la dérivée de la fonction L ou,
encore, la dérivée de son logarithme népérien

. On a

(nI' ... , n k ; 9) = K + L ni Log pi(9), i=l

en posant

k K = Log(n!) - L Log(n i !), i=l

d'où

k ni dpi(9) - (nI' ... , n k ; 9) = L - . a9 i=l pï<8) d9

348
VIII. TESTS D'ADEQUATION

Un calcul simple conduit à

dP1 (8) = e- 9 [ t e m . 1 _ t d8 m=l (m - 1)! m=O

8 m J -9

=e £.J m! m=l

m - 1 8 - Pl (8), (m - 1)!

1 dPi(8) i+j-l \:lie {2,...,k-l}, = - 1, pi(8) d8 8 [_ m.l -toc :

] dpk(e) = e'o L e L d8 m=j+k-1 (m - 1)! m=j+k-1

-too -9

=e £.J

m - 1 8 - pk(8). (m - 1)!

m=j+k-1
a

En annulant -, on obtient la relation a8

m - 1 e' o t e m=l (m - 1)!

I ( i + j - 1 ) - 1 + £.J ni - 1 + n k Pl (8) i=2 8

-9 e

-toc L m=j+k-1 (m - 1)! - 1 pk(8)

m-18

nI

= 0,

k soit, en tenant compte de L ni = n et en remplaçant Pl (8) et pk(8)


par leurs i=l

expreSSIons,
J m - 1 L 8 nI m

l (m-l)! +

i+j-l J m Î=2 8 L

m=O m!

-toc L m=j+k-1

m - 1 8 (m - l)!

ni + n k

= n.

-toc L

me

m=j+k-1 m!
8 Enfin, en multipliant les deux membres de cette égalité par -, on
obtient le résultat n

proposé dans l'énoncé, à savoir le fait que la valeur 8 prise par l'
estimateur vérifie la relation

349

VIII. TESTS D'ADEQUATION

-m

e k-1

(m - 1)!

( . . 1) m=J+k-1 + £.J 1 + J - ni + nk i=2 r Ii'" . k l m! m=J+ -

+00

J -nt
(r:- 1)! n e = nI m-1. J -m L

m=O .

Remarquons bien que nous ne nous posons pas la question de


savoir si cette relation admet une solution unique. Il faudrait, pour
cela, comme dans l'exercice 11.1, étudier le signe de la dérivée
seconde de la fonction

...!

2) On a

1 n 1-+00 x n = - L Xi = - L m n'm, n i=l n m=O

sÏ, pour tout élément m de tN, on désigne par n ' m le nombre des
réalisations Xi égales à m.

On remarque donc que l'on a e = x n si nI = nk = 0, c'est-à-dire si


toutes les réalisations appartiennent à {j + 1, ... , j + k - 2}. Cela peut
correspondre à un choix des entiers j et k qui définissent les classes
Ci. Il suffit, en effet, que j soit strictement inférieur à la plus petite des
réalisations Xi et j + k - 1 strictement supérieur à la plus - grande,
soit j < X(l) et j + k - 1 > x(n), pour avoir nI = nk = 0 et, donc, e = xn.
Plus généralement, on est amené à choisir les entiers j et k, donc à
définir les - classes Ci, de telle sorte que les effectifs nI et nk soient
faibles. Ecrire que e :::: x n revient alors à admettre que les nI
réalisations de la classe CI et les nk réalisations de la classe Ck ont
pour moyennes respectives les nombres

J L m=l

m - 1 e (m - 1)!

et

-too m-1 L e

= m=j+k-1 (m - 1)! . -too m L e m=j+k-l m!

a=

. m J e L- m=O m!

Cette approximation peut être justifiée par le fait que, si X est une
variable aléatoire de loi de Poisson de paramètre e, on a (on laisse
au lecteur le soin de le vérifier)
a = lE (X 1 X

j)

et

=IE(XIX

j +k-l).

350

VIII. TESTS D'ADEQUATION

Exercice II.3. Soit X J, ... , X n un échantillon d'une loi normale eN


(J!,

) dont les paramètres sont inconnus. On partage IR en k classes Ci


en choisissant a e IR et b > 0 et en posant

CI = ]-00, a], C2 = ]a, a + b], ... ,

Ck-l = ]a + (k - 3) b, a + (k - 2) b], Ck = ]a + (k - 2) b, +00[.


Pour tout élément i de {l,..., k}, on désigne par ni le nombre de
réalisations qui appartiennent à la classe Ci et l'on note <p(.; J!,

) la densité de la loi eN (J!,

). Montrer que la méthode du maximum de vraisemblance conduit au


système d'équations

( x cp( x ; Il, U \ dx 1 k J c . J!=-L ni 1 n i=1

f cp(x; Il, U 2 ) dx C. 1

f 2 2 (x - J!) cp(x; J!, a ) dx 2 1 k ci a = - L ni n i=1

f cp(x; Il, U 2 ) dx C. 1

La fonction de vraisemblance L s'écrit

n' 1 2 k (Pi(Il,U 2 ») L(nl' ... , n k ; J!, a ) = n! II , i= 1 n. ! 1

2 r 2 Pi( Jl, a ) = J _ cp(x; J!, a ) dx. c. 1


Son logarithme népérien

s'écrit 2 k 2

(nl' ... , n k ; Jl, a ) = K + L ni Log( Pi(J!, a », i=l

351

VUI. TESTS D'ADEQUATION

en posant

k K = Log(n!) - L Log(n i !). i=l

L'estimateur du maximum de vraisemblance est, en général, obtenu


en annulant les dérivées partielles de la fonction :;c par rapport à Jl
et a, ce qui conduit au système d 'équations

k 2 L ni à( Pi(J.J., U ) ) = 0, i=l 2 dJl Pi(Jl, a )

n. 1
2 d( Pi(Jl, a ) ) = O. da

k L i=l 2 Pi(Jl, a )

On a, en admettant que l'on peut dériver sous le signe d'intégration,


ce qui est aisé à justifier,

2 2 d( Pi(Jl, a ) ) 1 dcp(X; Jl, a ) = dx dJl c. dJl 1

1 X-Jl 2 = 2 cp(x; Jl, a ) dx Ci a

2 [ Li x cp(x ; 1.1., u 2 ) dx - 1.1. Pi(l.I., u\ ]

et

2 2 d( Pi(Jl, a » 1 dcp(X ; Jl, a ) = dx da c. da 1

1 [ 2 ] 1 (x - Jl) 2 = -

+ 3 cp(x ; Jl, a ) dx Ci a
1 [1 2 2 2 2 ] = "3 (x - Jl) cp(x; Jl, a ) dx - a Pi{f.l, a) , a Ci

352

VIII. TESTS D'ADEQUATION

d'où le système d'équations

k L L n. 1 1 i=1

2 x cp( x ; J!, a ) dx

2 Pi(J!, a )

k - J! L ni = 0, i=l

f 2 2 k (x - J!) cp(x; J!, a ) dx L Ci _ i=l 2 Pi(J!, a )

2 k a L ni = O. i=l
k Enfin, en tenant compte de L ni = n et en remplaçant Pi(J!, ( 2 ) par
son

i=l

expression, on obtient

f x cp(x ; J!, ( 2 ) dx 1 k c. J!=-L ni 1 n i=1

f cp(x; Il. u\ dx c. 1

f 2 2 (x - J!) cp(x; J!, a ) dx 2 1 k Ci a = - L n. 1 n i=l

f cp(x; Il. U 2 ) dx C. 1

Exercice II.4. On se propose de montrer (voir remarque II.1.1) que,


si XI,..., X n est un échantillon d'une loi Fe donnée et si les k classes
Ci sont fixées, la loi de la o statistique X2(80) converge, lorsque n
devient infini, vers la loi X 2 k-1' 1) On adopte les notations de la
section II.1 en posant, pour alléger,

(pI, ... , Pk) = ( Pl (8 0 ), ... , Pk(8 0 ) ).


353

VITI. TESTS D'ADEQUATION

Quelle est la loi du vecteur aléatoire (NI,... , N0 ? Montrer, grâce au


théorème de la limite centrale (théorème R1II.35) que la loi du
vecteur aléatoire l ( N 1 - npl Nk - nPk ) {fi

,...,

tend, lorsque n devient infini, vers une loi normale eN k(O, A) dont
on précisera la matrices des covariances A. 2) Soit (Y 1, ... , Y k) un
vecteur aléatoire de loi eN k(O, A ). Montrer que yi +... + Y

suit la loi X 2 k _ 1 . Pour cela, on précisera les valeurs propres de la


matrice A en remarquant qu'elle peut s'écrire sous la forme Ik - AA',
où Ik désigne la matrice unité d'ordre k et A une matrice colonne
dont les coefficients ai (1

k) vérifient k L a

= 1, et qu'elle peut donc être interprétée comme la matrice de la


projection i=l orthogonale de (Rk sur le sous-espace orthogonal au
vecteur (ab... , ak). En déduire que la loi limite de la statistique
X2(8o) est la loi X 2 k-l .
1) Chacune des composantes Nj du vecteur aléatoire (NI,..., Nk) est
égale au nombre des observations Xi (1

n) qui appartiennent à la classe C} On en déduit que la loi de (NI,... ,


Nk) est la loi multinomiale cMk(n; Pl, ... , Pk). On sait (exercice 5
chap. 1) que l'on peut considérer ce vecteur comme la somme de n
vecteurs aléatoires indépendants Vi de loi cMk(l; PI, ..., Pk). En
considérant une suite (Ui)i

1 de vecteurs aléatoires indépendants de loi cMk(l; PI, ... , Pk), on


peut appliquer le théorème R.III.3.5 et en déduire que le vecteur
aléatoire

1/

[(N l, ... , N k) - n lE (V i) ]

admet pour loi limite, lorsque n devient infini, la loi eN k(O, Ao), où
Ao est la matrice des covariances de chacun des vecteurs Vi. On
sait (exercice 5 chap. 1) que

lE (Vi) = (PI, ... , Pk)

o et que le terme général À.. de la matrice Ao est défini par IJ

o { p. ( 1 - p. ) À.. = J J IJ - Pi Pj
SI 1 = J , si i '# j

354

VIII. TESTS D'ADEQUATION

On en déduit que la loi limite du vecteur aléatoire

.lI N1 - np1 Nk - nPk ) Vii \ ip1 ,...,

est la loi eN k(O, A), où le terme général Àïj de la matrice A est défini
par

o À.. À" - IJ IJ - "Pi Pj ,

soit par

{ 1 - Pj À.. - IJ - _ " Pi Pj

SI i = j,
si i * j.

2) On remarque que l'on a A = Ik - AA', où A désigne la matrice


colonne à k k lignes dont les coefficients ai sont respectivement
égaux à

. On a bien L a

= 1 et, i=l laissant au lecteur le soin de vérifier la propriété


géométrique donnée dans l'énoncé, on peut préciser que la matrice
A admet les valeurs propres 1 et 0 avec les ordres de multiplicité
respectifs k - 1 et 1. Il existe donc une matrice orthogonale C telle
que la matrice C'AC soit une matrice diagonale D dont les k - 1
premiers termes de la diagonale sont égaux à 1 et le dernier nul.
Soit Y = (YI, ... , Y k) un vecteur aléatoire de loi eN k(O, A). Le
vecteur aléatoire Z = (Zl, ... , Zk) défini par Z = CY est de loi eN k(O,
D). Il a donc ses composantes indépendantes, les k - 1 premières
étant de loi eN (0, 1) et la dernière presque sûrement nulle. Puisque
C est orthogonale, on a

k k ( k-l )

Yf =

Zf =

ZJ p.s. , J=l J=l J=l

ce qui montre que la loi de y; + ... + Y


est la loi X 2 k-r On en déduit, puisque la loi limite de .l l N 1 - n PIN
k - nPk ) Vii \ ip1 ,..., v'Pk

est celle de Y, que la loi limite de

k21

(N. - np.) _ £.J J J = X2(8 ) . 0 n J=l p. J

355

VIII. TESTS D'ADEQUATION

2 2 . 11 ' 2 est celle de YI + ... + Y k' SOIt a 01 X k-1'

Remarque. La propriété que nous venons d'établir est connue sous


le nom de "théorème de Karl Pearson".

Exercice II.5. On se propose de montrer (voir remarque II.1.1) que,


si (N 1, ... , Nk) est un échantillon d'une loi multinomiale cM, k(n ; Pb
... , Pk), le test classique du khi-deux est asymptotiquement
équivalent au test du rapport des vraisemblances maximales
lorsqu'on teste l' hypothèse Ho: "(PI, ... , Pk) = (Pl0, ... , Pko)" contre
l' hypothèse Hl: "(Pb ... , Pk) * (P10, ... , Pko)". On rappelle que,
lorsqu'on teste l' hypothèse Ho: "8 = 8 0 " contre l' hypothèse HI : "8
* 8 0 ", le test du rapport des vraisemblances maximales est défini
par la région critique

{ L(X ; 8 0 ) < \ L(X ; ê) - Car

- où L désigne la fonction de vraisemblance de la loi de l'échantillon


considéré et 8 l'estimateur de maximLUn de vraisemblance.

Question préliminaire. Soit a = (al, ... , ak) un élément de (IR +)k et


soit f l'application de (IR lk dans IR définie par

k a. f(x) = L xi Log

, i= 1 Xi

où Xl, ... , X n sont les composantes de x. On pose

k k A = { X ; X e (IR +)k - {a), L Xi = L ai }. i= 1 i= 1

Montrer que

\:1 X e A,
f(x) < O.

On pourra étudier les variations sur [0, 1] de la fonction cp définie


par

cp(t) = f(x + tu),

où u est un élément de rR k tel que a + u e A.

356

VIII. TESTS D'ADEQUATION

Soit (N 1, ... , N k) un échantillon de la loi multinomiale cM k(n ; Pl, ...


, Pk). On pose, pour alléger la notation,

P = (pl, ... , Pk)

et
Po = (P10' ... , Pko)

et l' on teste l' hypothèse Ho: "p = Po" contre l' hypothèse HI: "p *
Po".

1) Rappeler quelle est la région critique du test du khi-deux


classique de niveau a (O<a < 1). 2) Déterminer, à partir du résultat
de la question préliminaire, le test <l>a du rapport des
vraisemblances maximales de niveau a (0 < a < 1). Montrer que sa
région critique tend, lorsque n devient infini, vers celle du test du khi-
deux. On sera amené à effectuer un développement à l'ordre deux
de lafonction "Log" au N. 1 voisinage de - . n

Question préliminaire.

On remarque que f(a) = 0, donc que cp(O) = O. On doit donc


montrer que cp(l) < O. Or on a

k cp'(t) = LUi (Log i=1

a. 1

- 1)
ai + t U i

et

k 2 cp"(t) = L - u i < O. i= 1 a. + t u. 1 1

La fonction cp' est donc décroissante sur [0, 1] et

k cp'(O) = - L u i = 0 i=1

puisque a + u e A et, donc,

k k L (a. + u. ) = La. . 1 1 1 i= 1 i= 1

On en déduit que la fonction cp' est négative sur ]0, 1], donc la
fonction cp décroissante sur [0, 1]. On a bien cp(l) < 0, soit

\:1 x e A,

f(x) < O.
357

VIII. TESTS D'ADEQUATION

1) On sait que le test classique du khi-deux de niveau a est défini


par la région

critique

k 2 L (Ni - n Pio) i=l n P . 10

c,a

où Ca est choisi tel que

.[

(Ni - n Pio) 2 J lim Po £.J

c = a, . l a n ---+ +00 1= n Pio

soit, d'après le résultat de l'exercice II.4,


ca = <x 2 k -1 r 1 (1 - a).

2) La fonction de vraisemblance L de la loi multinomiale est définie


par

n!

k II N. Pi 1. i=l

L(N l' ... , N k ; p) = k II Ni! i=l

k k II N.

On doit chercher le maximum de Pi)' soit celui de £.J Ni Log Pi


lorsque P i= l i= 1

varte, avec Pl + ... + Pk = 1. D'après le résultat de la question


préliminaire, on a

L k N. L k N. N. 1 1 1 - Log Pi

- Log -, i=l n i=l n n


en posant a = p et (xl' ... , X k ) = ( :1 , ... , :k ).

( N N ) " ." ,., . 1 k De plus, 1 egalIte n est reahsee que SI P = -;;-,...,


-;;- .

On a donc

p=( :l ,..., :k l

358

vnI. TESTS D'ADEQUATION

Le test <l>a est alors défini par la région critique

k TI i=l

N. 1 Pio

c' a
TI ( Ni ) N i i=1 n

ou encore par

{ f Ni ( Log Ni - Log Pi J

À. } , i=1 n 0 a

où Àa est choisi tel que

1im P [ f N. ( Log Ni - Logp. J

À ] = a. o. 1 10 a n

+oo 1=1 n

N. En développant la fonction "Log" à l'ordre 2 au voisinage de

, on obtient n N. n ( N' J 1 ( N. J 2 Log p. - Log

= - Pi -

- - Pi -

, 10 n N. 0 n 2 p '

0n11
avec

N. , ] 1 [ Pie -, Pi · n 0

Si l'on tient compte de la relation

k ( N J k k L Ni

Pi -

=nLPi -LNi=O, . l N. 0 n . 1 0 . 1 1= 1 1= 1=

on obtient pour région critique

{ k N. ( N. 2 } L

Pi' -

2À. , . l ,2 0 n a 1= p i

soit

! k Ni (Ni - n pio)2 ) L -
2À . i= 1 n n pIf a

359

VIII. TESTS D'ADEQUATION

Lorsque n devient infini,

N. 1 et P'i admettent Pi pour limite et la région critique o

devient

! k (N. _ n p. )2 )

1 10 £.J ;::: 2 À . . l a 1= n p. 10

On reconnait la région critique du test du khi-deux classique, ce qui


nous permet d'affirmer que les deux tests sont asymptotiquement
équivalents.
Exercice II.6. Démonstration des relations (11.5), (11.7), et (11.8) On
adopte les notations de la section II.2. 1) Montrer que les statistiques
D: et D

peuvent s'écrire

+ { 1 . } Dn = max

- Z(i) ; 1

n.

et

{ i-l } D

= max Z(i) - --;- ; 1

n.

2) Montrer que la statistique en de Cramer-von Mises peut se mettre


sous [aforme

1 n 2i _ 1 2 C n = - + L ( Z(i) - - J . 12n i=l 2n


3) Enfin, montrer que la statistique An de Anderson-Darling peut
s'écrire

1 n An = - n - -

(2 i - 1) Log( Z(i)( 1 - Z(n+l-i» ). n 1=1

Pour simplifier l'écriture, posons X(o) = - 00 et X(n+1) = + 00, d'où


Z(o) = 0 et Z(n+l) = 1.

1) On a, par définition,

+ Dn = sup (Fn(x) - Fe (x) ). xerR 0

Sur chacun des intervalles Ci = [X(i), X(i+l)[ (0

, l'intervalle étant ouvert à 1 gauche pour i = 0), la fonction Fn garde


la valeur constante et l'on a donc n

360
VIII. TESTS D'ADEQUATION

. . 1 1 SUp (Fn(x) - Fe (x) ) = - - Fe (X(i» = - - Z(i)" x E C. 0 non 1

On en déduit

+ { i . } { i . } Dn = max

- Z(i) ; 0

n = max

- Z(i) ; 1

n,

la suppression du terme (nul) relatif à i = 0 étant justifiée par le fait


que le terme 1 - Z(n) relatif à n est positif ou nul.

De la même façon, on a

1 sup (Fe (x) - Fn(x) ) = Z(i+1) - -, x E Ci 0 n


d'où

= max { Z(i+ 1) - : ; 0

n } = max { Z(i+ 1) - : ; 0

n - l},

puisque le terme relatif à i = n est nul et que celui relatif à i = 0 est


positif ou nul. En changeant i en i - 1, on obtient

{ i-l } D

= max Z(i) -

;1

n.

2) La statistique en de Cramer-von Mises est définie par


+00 C n = n f (F n (x) - F 9 (x) ) 2 dF 9 (x). o 0

On a donc

n I X(i+l). 2 Cn=n

-Fe (X» ) dFe (x) 1=0 X n 0 0 (i)

n l Z(i+l). 2 = n

( 2- - U ) du 1=0 Z n (i)

=;

[( : - Z(i) j- (: - Z(i+ 1) J ]

361

Vlll. TESTS D'ADEQUATION

[t(
- Z(i» ) 3 -

- Z(i+l» ) 3 ] 3 1=1 n 1=0 n

n [ . 3. 1 3 ] =

- Z(i» ) - (

- Z(i» ) . 3 1=1 n n

a+b a-b Etant donné deux nombres a et b, si l'on pose m = - et À = -,


on a 2 2

b 3 - a 3 = (m + À)3 - (m - À)3 = 2 À 3 + 6 À m 2 .

On peut donc écrire

i 3 i _ 1 3 1 3 6 2i _ 1 2 ( -; - Z(i») - ( -;- - Z(i) ) = 2 ( 2n ) + 2n ( Z(i) -


2;"' ),

d'où
n n [ 1 3 2i-l 2 ] 1 n 2i-1 2 C =-L -+- z. -- =-+L Z.-- n 3 i= 1 4 n 3 n (
(1) 2 n) 12 n i= 1 (1) 2 n ).

3) Enfm, la statistique de Anderson-Darling est définie par

2 f +oo (Fn(x) - F9 (x) ) o An = n dF 9 (x) F (x) ( 1 - F (x» 0 -00 9 0 9


0

et l'on a donc, en utilisant la même méthode qu'à la question 2,

. 2 _ n 1 Z(i+ 1 ) (

- u ) An - n L du. i=O Z(i) u (1 - u)

Soit À un nombre réel. On a

2 2 2 (À - u) À (À - 1) =-1+-+ u (1 - u) u 1 - u

362

Vlll. TESTS D'ADEQUATION


d'où

f 2 (À - U) 2 2 du = - u + À Log 1 u 1 - (À - 1) Log 1 1 - u 1. u (1 - u)

En tenant compte des termes nuls, on a donc

[ n n . 2 Z n-1. 2 1 Z J 1 (i + 1) 1 - (i + 1)

=n

( Z(i) - Z(i + 1) ) +

( - ) Log -

( - - 1 ) Log 1=0 1= 1 n Z(i) 1=0 n 1 - Z(i)

1 n 1 n-1 = - n + -

i 2 ( Log Z(i + 1) - Log Z(i) ) - -

(n - i)2 ( Log (1 - Z(i + 1» - Log (1 - Z(i

). n 1=1 n 1=0

On peut écrire
nnn

i 2 ( Log Z(i + 1) - Log Z(i) ) =

i 2 Log Z(i + 1) -

i 2 Log Z(i) 1=1 1=1 1=1

n-1 n =

i 2 Log Z(i + 1) -

i 2 Log Z(i) 1=0 1= 1

nn=

(i - 1)2 Log Z(i) -

i 2 Log Z(i) 1= 1 1= 1

n=-

(2i - 1) Log Z(i)" 1=1

De même, on écrit

n-l

(n - i)2 ( Log(l - Z(i + 1» - Log(l - Z(i) ) ) 1=0


n-l n-l =

(n - i)2 Log(1 - Z(i + 1) -

(n - i)2 Log(1 - Z(i» 1=0 1=0

n=

«n - i + 1)2 - (n - i)2) Log(l - Z(i» 1=1

n=

(j2 _ Ci - 1)2) Log(1 - Z(n+l_j» J=1

363

Vlll. TESTS D'ADEQUATION

n=

(2 j - 1) Log(1 - Z(n+l_j»' J=l

après avoir posé j = n - i + 1.


On a donc

1[nn]

=-n--

(2 i - 1) Log Z(i) +

(2 j - 1) Log( 1 - Z (n+ I-j» , n 1=1 J=l

soit

1 n An=-n--

(2i-l)Log(Z(i)(I-Z(n+l_i»))' n 1=1

Exercice II.7. Soit Xl'''.' X n un échantillon empirique d'une loi F dont


le support est l'intervalle [0, 1]. Proposer un test de l' hypothèse Ho:
"F = U [0, 1]" contre l' hypothèse HI : "F est une loi exponentielle
tronquée", c'est-à-dire une loi Fk (k * 0) dont la densité f k est définie
par

fk(X) = K e kx 11 [O.1](x).

On pourra, par exemple, considérer le test du rapport des


vraisemblances.
On calcule

K= 1 f ekx dx o

-- k e - 1

et l'on remarque que, puisque Fk est définie sur [0, 1] par

eh - 1 Fk(x) = k ' e - 1

la loi U[O, 1] n'est autre que la limite de la loi Fk lorsque k tend vers
O. Le test du rapport des vraisemblances est défini par la région
critique

{ Lk(X) } Lo(X)

ca '
364

VIII. TESTS D'ADEQUATION

où Lo et Lk désignent les fonctions de vraisemblance relatives aux


deux hypothèses. D'où, puisque Lo(X) = l,

(ek\J

n k LXi i=l e

c,a

soit

nk1

e - k£.J Xi

Logc +nLog-. i= 1 a k

La forme de la région critique dépend du signe de k. Plus


précisément, si l'hypothèse HI est limitée aux lois Fk avec k > 0 ou k
< 0, on obtient un test unilatéral dont la région critique est de la
forme

Xn

aa SI k > 0,

Xn

aa si k < o.

Si l'hypothèse HI contient toutes les lois Fk pour k * 0, on peut


proposer un test bilatéral dont la région critique est de la forme

{ Xn

aa} U { X n

ba},

avec 0 < aa < b a < 1. La détermination de aa (et de b a dans le cas


du test bilatéral) nécessite la

n connaissance de la loi de X n , ou encore de L Xh sous


l'hypothèse Ho' Cette loi n'est i=1 pas simple, mais il en existe des
tables. Toutefois, pour des valeurs suffisamment grandes de n, on
peut utiliser une approximation normale puisque, d'après le
théorème de la limite centrale (théorème R. 111.3.5), la loi limite de

X n - lEo( X n ) =

V o(X n )

( Xn -

est la loi eN (0, 1). On obtient donc, dans le cas du test unilatéral,

l 1 -1 aa= - <1> (I-a) 2

si k < 0,

365

vnl. TESTS D'ADEQUATION

aa == l + 1 <1>-1(1_ a) 2 f12;;
si k > 0,

en désignant par <1> la fonction de répartition de la loi eN (0, 1).


Enfin, dans le cas du test bilatéral, on pose

1 aa = - - Âa et 2

1 ba. = - + Àa 2

et l'on obtient

Àa

1 <I>-l(I_

). f12;; 2

Exercice II.8. (suite de l'exercice II. 7) On reprend l'énoncé de


l'exercice II. 7 en supposant, maintenant, que la loi Fk est la loi
J31(k+ 1, 1) (k>-I,k*O). On étudiera, de plus, le test du rapport des
vraisemblances maximales (voir exercice 115) et on le comparera au
test du rapport des vraisemblances.

Le densité f k de la loi Fk est ici définie par


fk(X) = (k + 1) xk 11 ]O.l[(x)

et la loi U [0, 1] n'est autre que la loi F O' Le test du rapport des
vraisemblances est défini par la région critique

n (k+ 1)n (II Xi)k

ca' i=1

soit

n k L Log Xi

Log Ca - n Log(k + 1). i=1

Ici encore, on peut proposer un test unilatéral si 1 'hypothèse HI se


limite aux lois Fk telles que k > 0 ou -1 < k < 0 et un test .bilatéral
sinon. D'autre part, un calcul simple montre que, si une variable
aléatoire X est de loi 131 (k+ 1, 1), alors Y = - Log X suit la 1 loi
exponentielle de paramètre -. On adopte la statistique k+l

366
Vlll. TESTS D'ADEQUATION

n T = - 2 L Log Xi i=l

dont la loi, sous 1 'hypothèse Ho, est la loi r(n, 2), soit la loi X22n'
Les tests unilatéraux sont alors définis par

(X 2 2n r 1 (a) T

(X 2 2n r 1 (1 - a)

si

k > 0,

SI

- 1 < k < O.

Un test bilatéral est défini par une région critique de la fonne


{T

aa} U {T

b a },

avec 0 < aa. < ba.. On doit avoir

(1)

(X 2 2n )(éla) + 1 - (X 2 2n )(ba.) = a

et l'on peut, de plus, imposer au test d'être sans biais, c'est-à-dire tel
que sa fonction puissance P vérifie

(2)

dp 1 - =0 dk k=O .

La loi de T, sous l'hypothèse HI' est la loi r(n, k

1 ) et l'on a donc

P(k) = X 2 2n ( (k + 1) éla) + 1 - X 2 2n ( (k + 1) b a ).
Un calcul simple qu'on laisse au lecteur le soin d'expliciter montre
que la condition (2) devient

(3)

2 n Log aa - aa = 2 n Log b a - b a

et il est alors possible de montrer qu'il existe un couple (éla, ba.) et


un seul vérifiant (1) et (3) et tel que 0 < éla < b a .

Le test du rapport des vraisemblances maximales est défini (voir


exercice II. 5) par une région critique de la forme

1 Ii (X) > 1 Lo (X) - Ca ,

367

VIII. TESTS D'ADEQUATION

- où k désigne l' estimateur de maximum de vraisemblance. On


obtient aisément,
- 2n k = - - 1, T

d'où une région critique définie par

(2n)(T)2nT-1-2

Log ca - n Log T'

ou encore par

T T 1 - - Log -

1 + - Log c . 2n 2n n a

On vérifie alors que la fonction <p définie pour x > 0 par

<p(x) = x - Log x

passe par un minimum égal à 1 pour x = 1. Il s'ensuit que, si ca> 1,


la région critique est de la forme

{T
aa} U {T

b ex },

avec 0 < au. < b a et

<p ( aa J = <p ( b ex J = 1 +

Log c . 2n 2n n a

Les nombres

et b a sont donc liés par la relation

a a b b a ex a a - - Log - = - - Log -, 2n 2n 2n 2n

d'où

2 n Log a ex - aa = 2 n Log b a - b a .

On retrouve la relation (3), ce qui montre que ce dernier test a la


même régior critique que celui obtenu plus haut. Cette propriété est
d'ailleurs vérifiée par une largt famille de lois. On pourra, à ce sujet,
consulter Lehmann (1959).
368

VIII. TESTS D'ADEQUATION

Exercice 111.1. Supposons que le test du khi-deux soit adopté


comme test de normalité (voir section III.l.a). Etant donné un
échantillon X}, ... , X n , on considère les k classes Ci suivantes

] - -1 1 ] CI = -00, X n + <1> (-) Sn , k

\:lie {l, ... ,k-l},

] - -1 i - 1 - -1 i ] Ci = X n + <1> (-) Sn, X n + <1> (-) Sn k k

] - k-l ] Ck = X n + <I>-l( - ) Sn, + 00 , k

où <1> désigne lafonction de répartition de la loi eN (0, 1). Montrer


que, sous l' hypothèse Ho, c'est-à-dire si l'échantillon est celui d'une
loi normale eN 0.1, ( 2 ), la loi de la statistique X2( Xn , S

) ne dépend pas du paramètre 2 (Il, a ).


On a, par définition,

k - 2 2 X2 ( X S2 ) =

(Ni - n Pi(X n , Sn) ) n, n

- 2 i=1 n Pi(X n , Sn)

où, pour tout élément i de {l,..., k}, Ni désigne le nombre


d'observations qui appartiennent à la classe Ci et Pi( X n , S

) la probabilité de la classe Ci lorsque 2 _ - 2 (Il, a ) - (X n , Sn). Pour


alléger la notation, appelons ai(X) et bi(X) les bornes de la classe Ci
(1

k). On a donc, en posant <1>-1(0) = -00 et <1>-1(1) = +00 et en


désignant par <p(. ; Il, ( 2 ) la densité de la loi eN (Il, ( 2 ),

bi(X) Pi( X n . S

) = f q>(x ; Xn . S

) dx. ai(X)

. x - X soIt, en posant t = Sn n ,

_J
_l(

'l(

) Pi(X n , S

) = <p(t ; 0, 1) dt = [ <1>(t)] -1 i-l

-T

l)

(k)

369

Vlll. TESTS D'ADEQUATION

d'où

2- 2 k
( n ) 2 X (X n , Sn) = - £.J Ni - - . n i= 1 k

Posons

\;fje {1,...,n},

X ' .= J

X j - Il -, a

de telle sorte que X'I, ... , X ' n est un échantillon de la loi .N (0, 1).
On a alors

n - 1 X' X ' -

X '. - n - Il n--£.J - n . 1 J a J=

et

1/2 S' = [ 2. i (X' . _ X ' )2 ] n n. J n J=l

Sn
=

Pour l'échantillon X'I,..., X ' n , les bornes des 'classes deviennent

- -1 ( i ) X n + <1> - Sn - Il . k = X' + <1> -1 ( 1... ) S' 0' n k n

et elles ne dépendent pas du paramètre (Il, c?-). On peut donc en


conclure que, sous 1 'hypothèse Ho, la loi de la statistique X2( Xn ,
S

) ne dépend pas du paramètre (Il, c?-) puisque cette statistique n'est


autre que

k k 2 - L ( Ni - !: ) , n i= 1 k

où Ni (1

k) désigne le nombre d'éléments d'un échantillon X'},..., X'n de la loi


eN (0, 1) qui appartiennent à la classe
] - 1 i-l - 1 1 ] C'i = X ' n + <1>- ( - ) Sn, X ' n + <1>- ( - ) Sn , k k

la classe C'k étant ouverte à droite.

Remarque. Plus généralement, si la loi de l'échantillon est continue


et si l'on définit les classes Ci de façon analogue, la statistique X2(
Xn , S

) ne dépend pas du paramètre de

370

VIII. TESTS D'ADEQUATION

localisation-échelle de cette loi. Il n'est donc pas étonnant que nous


constations ici que cette statistique ne dépend pas du paramètre (Jl,

) lorsque la loi de l'échantillon est normale.

Exercice 111.2 Question préliminaire. Soit (X, Y) un vecteur aléatoire


gaussien dont les composantes sont centrées réduites et de
coefficient de corrélation égal à r. Montrer que

IE(X 4 y4) = 3 (3 + 24 r 2 + 8 r 4 ).
Pour éviter de longs calculs, on pourra procéder par
conditionnement en sachant que, si (X, Y) est un vecteur gaussien,
la loi de X sachant Y = Y est la loi

( -V V (X) 2 ) eN IE(X) + r V(Y) (y - IE(Y), (1 - r ) V(X) .

Etant donné un échantillon Xl, ... , X n d'une loi normale Jl 0.1,

), on considère la statistique B2,n définie par

_1

(Xi - Xn )4 B2.n - - £.J 4 ' n i=1 Sn

1) Montrer que la statistique B2,n est libre relativement au paramètre


0.1,

). En déduire que les statistiques B2,n et S

sont indépendantes grâce au théorème suivant dû à Basu (voir, par


exemple, Lehmann (1983)). Théorème. Soit T une statistique
complète et exhaustive pour une famille {Fe; e e e}. Alors toute
statistique libre (c'est-à-dire dont la loi ne dépend pas de e) est
indépendante de T.

2) En utilisant les résultats de la question 1, en particulier en


supposant que 2 (
, a ) = (0, 1), montrer que

n - 1 lE (B 2 ) = 3 - .n 1 n+

3) En utilisant, de plus, le résultat de la question préliminaire,


calculer lE (B 2 2 ) et en .n déduire que

24 n (n - 2) (n - 3) V (B 2 n) = . · (n + 1)2 (n + 3) (n + 5)

371

VIII. TESTS D'ADEQUATION

Question préliminaire. Ecrivons que

IE(X 4 y4) = IE( IE(X 4 y41 Y) ] = IE[ y 4 1E(X 4 1 Y) ].

La loi de X sachant Y = Y est, ici, la loi cH (r y, 1 - r 2 ) et l'on doit


chercher le moment d'ordre 4 de cette loi. Plus généralement, si Z
est une variable aléatoire de loi cH (m,

), on a, en posant U = Z - m,
lE(r) = IE( (m + U)4) = lE(m 4 + 4 m 3 U + 6 m 2 U 2 + 4 m U 3 + U 4
) = m 4 + 6 m 2 1E(U2) + IE(U 4 ) = m 4 + 6 m 2 a 2 + 3 a 4 ,

cette égalité étant encore vérifiée si a = 0, c'est-à-dire si Z suit la loi


de Dirac en m. On a donc, en toute généralité (-1

1),

IE(X 4 1 Y = y) = r 4 y4 + 6

y2 (1 -

) + 3 (1 _

)2,

soit

lE (X 4 1 Y) = r 4 y4 + 6

(1 -

) Y 2 + 3 (1 - r'l)2,

d'où
lE (X 4 y4) = lE ( r 4 y8 + 6

(1 _

) y6 + 3 (1 _ r'l)2 y4 ).

On sait que

\;f P E lN.,

lE(y2p) = 1.3.5... (2p - 1)

et l'on obtient donc

IE(X 4 y4) = 105 r 4 + 90

(1 -

) + 9 (1 _

)2 = 3 (3 + 24

+ 8 r 4 ).

1) Pour montrer que la statistique B2,n est libre relativement au


paramètre (
,

),

posons

\;fiE {1,...,n},

X. -

, 1 X.=- 1 a

372

VIII. TESTS D'ADEQUATION

de façon que X'I, ... , X'n soit un échantillon de la loi eN (0, 1). On a
alors, avec des notations évidentes,

X , - (X n - Jl) n- a

et
S'2 = S

n2'a

d'où

B'2.n = B2.n ,

ce qui montre que la loi de B2.n ne dépend pas du paramètre (Jl, ( 2


). On peut, d'ailleurs, faire à propos de la statistique B2.n la même
remarque que celle que nous avons faite à la fin de l'exercice
précédent concernant la statistique X2 (X n, S

).

D'autre part, on sait que la statistique (X n , S

) est complète et exhaustive pour la famille des lois normales. Le


théorème de Basu nous permet alors d'affirmer que les statistiques
B2.n et ( X n , S

), donc les statistiques B2,n et S

, sont indépendantes.

2) On peut supposer que (Jl,

) = (0, 1) pour le calcul de lE (B2,n). On a


lE (B2,n S

) = lE (B2.n) lE (S

),

d'où

lE ( i(X i - x i J 1 i=l lE (B 2 n) = - . , n IE(S

On sait que n S

suit la loi X? = r( n - 1 , 2), d'où n-l 2

2 4 4 n-l ( n-l J n-l IE(S )=- - -+ 1 =-. n n 2 2 2 n 2

De plus,

-4 -4 IE( £.J (Xi - X n ) ) = n IE( (XI - X n ) ) i=1


et

_ 1 1 1 X 1 -X n =(1--)X 1 --X2-". --X n . n n n

373

VIII. TESTS D'ADEQUATION

On en déduit que la loi de (X 1 - X n ) est la loi

( 2 J 1 n-l n-l oN 0, ( 1 -

) + 7 = N ( 0, --;; ).

d'où

lE - 4 ( n - 1 ) 2 ( (Xl - X n ) ) = 3 --;; ,

et, enfin,

( n - 1 ) 2 n2 n - 1 IE(B2.n)=3 -
=3 . n n-l n+l

3) On procède de la même façon pour calculer lE (B

.n)' On a

2 1 IE(B 2 ) =- ,n 2 n

E[(

(Xi - X n)4 J]

lE (S:)

En outre,

8 2 4 n - 1 ( n - 1 ) ( n - 1 ) ( n - 1 ) E(Sn) = n 4 2 2+ 1 2+ 2 2+ 3

(n - 1) (n + 1) (n + 3) (n + 5) = 4 n

et
n n IE[( L (Xi - Xn )4 )2] = IE[ L (Xi - Xn )8 + L (Xi - X n ) (X J - X n )]
i= 1 i= 1 i;tj

-8 -4 --4 = n IE(XI - X n ) ) + n (n - 1) IE(XI - X n ) (X2 - X n ) ).

Pour le premier terme de cette somme, nous avons

4 4 - 8 ( n - 1 ) (n - 1) E«XI - X n ) ) = 3.5.7 --;; = 105 n 4

et, pour calculer le second, nous utilisons le résultat de la question


préliminaire. En effet (XI - X n , X2 - X n ) est un vecteur gaussien
puisqu'il est l'image par une application linéaire du vecteur gaussien
(Xl, ... , X n ). On a

374

VIII. TESTS D'ADEQUATION

- - n-l V(X 1 - X n ) = V(X2 - X n ) = - n

et
Cov(X 1 - X n , X2 - X n ) = - 2 Cov(X}, X n ) + V( X n )

2 - = - - V(Xl) +V(X n ) n

211 = - - + - = - -, n n n

d'où

- - 1 r = Corr(X 1 - X n , X2 - X n ) = - - n - 1

et

4 E«XI - Xn )4 (X2 - Xn )4) = (n - 4 1 ) E(x 4 yi) n

4 . 3 (n - 1) ( 24 8 J = 3 + + 4 2 4 n (n - 1) (n - 1)

3 = 4 ( 3 (n - 1)4 + 24 (n - 1)2 + 8 ). n

De ces divers résultats, on déduit


[

] (n - 1)4 3 (n - 1) lE (£.J (Xi- X n )4)2 =105 3 + 3 (3(n-1)4+24(n-


1)2+8) i=l n n

3 (n - 1) = 3 (3(n-l)4+35(n-1)3+ 2 4(n-1)2+8) n

3 (n - 1) = 2 (3 n 3 + 23 n 2 - 63 n+ 45). n

On a donc

3 2 lE 2 _ 3 n + 23 n - 63 n + 45 (B 2 n) - 3 , , (n + 1) (n + 3) (n + 5)

d'où, enfin,

322 3 n + 23 n - 63 n + 45 (n - 1) V(B 2 ) = 3 - 9 ,n (n + 1) (n + 3) (n +
5) (n + 1) 2

375

VIII. TESTS D'ADEQUATION


24 n (n - 2) (n - 3) = (n + 1)2 (n + 3) (n + 5)'

Remarque. Cette variance est nulle pour n = 2 et n = 3, ce qui


signifie que, dans ces deux cas, B2.n ne dépend pas des Xi et est
égal à son espérance calculée à la question 2. Ce résultat est
évident si n = 2, puisque, si a et b sont deux nombres opposés, on a

a 4 + b 4 2 a 4 1 (a 2 + b 2 )2 = 4 a 4 = 2"

Il est moins évident pour n = 3. On pourra, toutefois, vérifier


aisément que, si a, b et c sont trois nombres de somme nulle, on a
bien

a4+b4+c41

(a 2 + b 2 + c 2 )2 2

Exercice 111.3. Etant donné un échantillon XI, ... , X n d'une loi F, on


considère la statistique SW n de Shapiro- Wilk (voir section III.l.d)
définie par

-2 an (a' B-l a)2 SW n = n S

(a' B-2 a)2


( t ai X(j) ) 2 1=1

2 n Sn

On rappelle (section VII.l.b chap. Ill) que

a' B- 1 X(.) an = a' B- 1 a et que, si Y(1), ... , Y(n) désigne un


échantillon ordonné de la loi eN (0,1), la matrice a est la matrice
colonne dont le terme de la ligne i est IE(Y(i» et la matrice B est la
matrice carrée d'ordre n dont le terme général est Cov(Y(i), y (j». l)
Montrer que la statistique SW n est invariante par translation et par
homothétie. 2) Montrer que SW n

1.

1) On a

2 _ (a'B- 1 X(.»2 _ 1 [ a'B-l X(.) J SW n - 2 2 -

n Sn ( a' B- a) n Sn j a' B- 2 a
1

( f ai X(i) J 2, 1= 1

--- S 2 n n

376

VIII. TESTS D'ADEQUATION

où la matrice colonne a constituée par les ai est définie par

a' B- 1 a'= =Àa'B- 1 , j a' B- 2 a

en posant À = (a' B- 2 ar 1 /2. Remarquons bien, en effet, que la


forme quadratique associée à B- 2 est définie positive puisque

a' B- 2 a = (a' B- 1 ) (B- 1 a) = (B- 1 a)' (B- 1 a).

Pour montrer l'invariance de SW n par translation, considérons un


nombre réel m et posons
\;f ie {l,..., n},

X'i = Xi - m.

On a alors, avec des notations évidentes,

X' n = X n - m,

S'

= S2n

et

1 SW' =- n S ,2 n n

( t ai X'(i J ) 2 1=1

2-n

.
(

ai (X(i) - m) ) .

Or

nn

a. = a' 1 = À a' B- 1 1 = À a' 1 = À

a. = 0 £.J 1 £.J 1 ' i= 1 i= 1

d'après les résultats de l'exercice VII.2 chap. III. D'où

SW'n = SW n .

De même, montrons l'invariance de SW n par homothétie. On


considère un nombre réel k non nul et l'on pose

\;f i e {l,..., n},

X'i = k Xi .

On a alors
X'n = k X n

et

S'

= k 2 S2n

377

VIII. TESTS D'ADEQUATION

d'où

2 SW n ' =

2 ( tai X'(i» ) . n k S 1=1 n

Si k > 0, on a

\;f i E {l, ..., n},


X' (i) = k X(i),

d'où SW'n = SW n .

Si k < 0, on a

\;f i E {l,..., n},

X' (i) = k X(n+ l-i)

et

2 SW'n = I S 2 ( t ai X(n+l.i J ) n n 1=1

2-

( t a,,+l.i X(iJ ) . n Sn 1=1

Montrons que l'on a


\;fie {1,...,n},

an+ 1- i = - ai,

ce qui entraîne SW'n = SW n.

Soit J la matrice carrée d'ordre n dont tous les termes sont nuls sauf
ceux de la diagonale non principale qui sont égaux à 1. On a,
d'après les résultats de la question 4 de l'exercice VII. 1 chap. III,

B = JBJ

et

a =-Ja.

On en déduit

B- 1 = (J B J rI = J B- 1 J

et
a = Â, B- 1 a = Â, (J B- 1 J a) = - Â, J B- 1 (- J a) = - Â, J B- 1 a = - J
a,

ce qui est la relation cherchée.

378

VIII. TESTS D'ADEQUATION

2) Puisque la somme des ai (1

n) est nulle, on peut écrire

ai (X(i) - Xn ) ) 2 SW = 1=1 n n . L (X(i) - xn f i=1

D'après l'inégalité de Cauchy-Schwarz, on a

n n n ( L ai (X(i) - X n ) )2

L a? L (X(i) - Xn )2. i=1 i=1 i=l


De plus

n L a? = a' a = 'A,2 a' B- 1 (a' B- 1 )' = 'A,2 a' B- 2 a = 1. i=1

On a donc bien

SW n

1.

Remarque. L'énoncé de cet exercice, tel qu'il figure dans le tome 1,


propose également l'inégalité

2 n al -

SWn n-l

que nous n'avons pas reprise ici. En effet, la démonstration de cette


inégalité, due à Mallows, est simplement résumée dans Shapiro-
Wilk (1965). Elle fait appel à des considérations de convexité et se
termine par des vérifications numériques. A notre connaissance,
aucune autre démonstration n'en a été publiée.
Exercice 111.4. Soit XI,..., X n un échantillon d'une loi F. On
considère n nombres réels ai (1

n) et l'on pose

n y = L ai Xi. i=1

1) On suppose que la loi F admet un moment d'ordre 3 . Montrer que


le coefficient d'asymétrie de la loi de Y est plus proche de 0 que celui
de la loi F. Appliquer ce résultat aux résidus ei (section 111.4).

379

VIII. TESTS D'ADEQUATION

2) En supposant maintenant que la loi F possède un moment d'ordre


4, montrer que le coefficient d'aplatissement de la loi de Y est plus
proche de 0 que celui de la loi F et appliquer ce résultat aux résidus

1) Le coefficient d'asymétrie de la loi d'une variable aléatoire X est


défini par
lE ( ( X - lE (X) )3 ) K(X) = 3 ' cr (X)

où cr(X) = Y V(X) . On peut supposer la loi F centrée, quitte à


remplacer Xi par Xi - lE (Xi). La loi de y est également centrée et l'on
a

n V(Y) = CL a?) a 2 (X 1 ) i=1

et

E(y3) = E[(

ai xjJ] = (

a/ J E(X 1 3 )

puisque les termes X? Xj (i * j) et Xi Xj Xk (i, j et k distincts) ont une


espérance mathématique nulle. On a donc

n La. 3 1 i=1 K(Y) = 3/2 K(X) ( t aj2 J 1=1

et il nous reste à montrer que


( t a/ J 2

( ta/ J 3. 1= 1 1= 1

Or

( i ai2 J 3- ( i a/ J 2=3 L (aj4a2+a/a.

+6 L a j 2 a 2 a; -2 L a j 3 a j 3 i=1 i=1 l

i.:::j

nJJ1

i<j<k

nJ1

i<j

22 2 2

222 = £.J a. a. (3 a. - 2 a. a. + 3 a. ) + 6 £.J a. a. a k 1 J 1 IJ J 1 J 1

i<j

n1

i<j<k

n
et cette quantité est positive puisque le trinôme 3 x 2 - 2 x + 3 est
positif.

380

VIII. TESTS D'ADEQUATION

On a bien

1 K(Y) 1

1 K(X) 1

et ce résultat peut être appliqué aux résidus ei qui sont des


combinaisons linéaires des €j eux-mêmes indépendants et de même
loi supposée posséder un moment d'ordre 3.

2) Le coefficient d'aplatissement de la loi d'une variable aléatoire X


est défini par

lE ( ( X - lE (X) ) 4 ) y(X) = 4 - 3. cr (X)


Ici encore, nous pouvons supposer la loi F centrée. On a alors lE (Y)
= 0 et

lE(y4) = lE [ ( t ai Xi ) 4 J = ( t aj4 ) IE(X:) + 6 (

a i 2 a j 2 ) cr 4 (X), 1=1 1=1 1

I<J

puisque tous les autres termes du développement ont une


espérance mathématique nulle.

On en déduit 2 ( t 3;4 ) IE(X:) + 6 (

a i 2 a/ ) cr 4(X) - 3 ( t aj2 ) cr 4(X) 1=1 1

I<J

n 1=1 y(Y) = 2 (

a i 2 ) U 4 (X)

3;4) E(X:)-3(

a;4)u 4 (X)

a j 4 = = y(X) 2 2 (
aj2) u 4 (X) (

aj2)

et l'on a bien

1 -y(Y) 1

1 y(X) 1

pUIsque

2 ( i a.2 ) -

a. 4 = 2

a. 2 a 2 > O. 1 £.JI £.J 1 J- i=1 i=1 1

i<j

Le résultat obtenu peut, bien sûr, être appliqué aux résidus ei.

381
Bibliographie

Ali M.M. (1976). Geometric proof of a bound in order statistics. La


revue canadienne de statistique, 4,315-318.

Ali M.M., Mikhaïl M.N., Haq M.S. (1978). A class of bivariate


distributions including the bivariate logistic. J. multivariate analysis,
8, 405-412.

Hoog R.V. (1974). Adaptative Robust Procedures: A partial review


and some suggestions for future applications and theory. J. Amer.
Statist. Assoc., 69, 909-923.

Kubat Peter (1979). Mean or median ? (A note on an old problem).


Statistica Neerlendica, 33, 191-196.

Lehmann E.L. (1964). Asymptotically nonparametric inference in


some linear models with one observation per cell. Ann. Math.
Statist., 35, 726-734.

Sarhan A.E., Greenberg B.G. (1956). Estimation of location and


scale parameters by order statistics from singly and doubly censored
samples. Ann. Math. Statist., 27, 427-451.
Yanagimoto Takemi, Okamoto Masashi (1969). Partial orderings of
permutations and monotonicity of a rank correlation statistic. Ann.
Inst. Statist. Math., 21, 489-506.

383

Vous aimerez peut-être aussi