0% ont trouvé ce document utile (0 vote)
31 vues62 pages

Notes de Cours - Stats Elementaires

Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
31 vues62 pages

Notes de Cours - Stats Elementaires

Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Notes de cours de

statistique mathématique élémentaire

Christian Léonard
Département de mathématiques et informatique. Université Paris Ouest Nanterre

Je n’ai pas inclus les illustrations, mais le cours reste lisible.

1
1

Variables aleatoires discretes

Alea jacta est. En lançant un dé, j’observe une quantité aléatoire susceptible de prendre les
valeurs 1, 2, 3, 4, 5 ou 6. Si mon dé est honnête, j’ai une chance sur six d’obtenir chacune de ces
valeurs. Nous dirons donc que la probabilité d’observer la valeur 4, par exemple, est 16 . Ce qui en
notant X le résultat aléatoire du lancer de dé, s’écrit symboliquement : P (X = 4) = 16 . On a de
même :
1
P (X = 1) = P (X = 2) = · · · = P (X = 6) = .
6
La probabilité d’observer 3 ou 5 est égale à

nombre d’événements favorables nombre d’éléments de {3, 5} 2 1


= = = .
nombre d’événements possibles nombre d’éléments de {1, 2, 3, 4, 5, 6} 6 3

En d’autres termes, on a une chance sur trois d’observer soit 3, soit 5. Cette probabilité s’écrit
symboliquement P (X ∈ {3, 5}) = 13 . Remarquons que

P (X ∈ {3, 5}) = P (X = 3) + P (X = 5)

puisque P (X = 3) + P (X = 5) = 16 + 16 = 13 . De même, la probabilité d’obtenir une valeur paire


est
1 1 1 1
P (X ∈ {2, 4, 6}) = P (X = 2) + P (X = 4) + P (X = 6) = + + = .
6 6 6 2
Maintenant, on me propose le jeu suivant : si le dé prend sa valeur dans {1, 2, 3}, je gagne 1 franc ;
s’il prend sa valeur dans {4, 5}, je gagne 5 francs et s’il prend la valeur 6, je gagne 35 francs. En
notant Y mon gain aléatoire (en francs), la probabilité de gagner 1 franc est

3 1
P (Y = 1) = P (X ∈ {1, 2, 3}) = = ,
6 2
2 1
de même P (Y = 5) = P (X ∈ {4, 5}) = 6 = 3 et P (Y = 35) = P (X = 6) = 16 .
Les comportements aléatoires de X et de Y sont entièrement décrits par les fonctions suivantes :

pX (x) = P (X = x), x = 1, 2, . . . , 6 et pY (y) = P (Y = y), y = 1, 5, 35,

1
1
c’est-à-dire : pX (1) = · · · = pX (6) = 6 et pY (1) = 21 , pY (5) = 1
3 et pY (35) = 16 . Noter que

pX (1) + · · · + pX (6) = 1 = 100% et pY (1) + pY (5) + pY (35) = 1 = 100%.

Or pX (1) + · · · + pX (6) = P (X ∈ {1, . . . , 6}) et pY (1) + pY (5) + pY (35) = P (Y ∈ {1, 5, 35}), de sorte
que les égalités précédentes signifient que j’ai 100% de chance d’obtenir (j’obtiens à coup sûr) une
valeur dans {1, . . . , 6} et de gagner soit 1 Fr, soit 5 Fr, soit 35 Fr.
Cet exemple motive les définitions suivantes.
On dit qu’une quantité aléatoire X susceptible de prendre un nombre fini : k, de valeurs numériques :
x1 , x2 , . . . , xk est une variable aléatoire discrète. Son comportement aléatoire est décrit par la
fonction
pX (x) = P (X = x), x = x1 , . . . , xk
qui satisfait les conditions

0 ≤ pX (x) ≤ 1, x = x1 , . . . , xk et pX (x1 ) + · · · + pX (xk ) = 1.

Cette fonction pX est appelée la loi de X.


Dans l’exemple du dé, pX et pY peuvent être représentés graphiquement à l’aide de barres :

Au lieu de considérer les événements de la form (X = x), il sera pratique de s’intéresser à ceux
de la forme (X ≤ x) où x parcourt l’ensemble des nombres réels. Avec notre dé, nous avons par
exemple :
1 4 6
P (X ≤ 1) = , P (X ≤ 4) = P (X ∈ {1, 2, 3, 4}) = , P (X ≤ 6) = = 1
6 6 6
ainsi que
1
P (X ≤ 1.2) = P (X = 1) = et P (X ≤ 0.5) = 0.
6
L’égalité P (X ≤ 0.5) = 0 signifie qu’il y a une probabilité 0 (aucune chance) d’obtenir une face
dont le numéro est inférieur à 0.5. de même :
1
P (Y ≤ 1) = ,
2
1 1 5
P (Y ≤ 21.95) = P (Y ≤ 5) = P (Y = 1) + P (Y = 5) = + = et
2 3 6
P (Y ≤ 100) = P (Y ≤ 35) = P (Y = 1) + P (Y = 5) + P (Y = 35) = 1.

2
En notant ces probabilités cumulées FX (x) = P (X ≤ x) et FY (y) = P (Y ≤ y), nous avons les
représentations graphiques suivantes :

Dans le graphique de FX , la hauteur des marches est 16 alors que dans celui de FY , la hauteur de
la marche située en y = 1 est pY (1), celle de la marche située en y = 5 est pY (5), celle de la marche
située en y = 35 est pY (35) et celle de la marche située en y = 5.2 est P (Y = 5.2) = 0 : il n’y a pas
de marche à cet endroit.

On pose la définition suivante : soit X une variable aléatoire discrète, la fonction

FX (x) = P (X ≤ x), x ∈ IR

est appelée la fonction de répartition de X.

Voici le mode de calcul de FX . On ordonne les valeurs possibles de X par ordre croissant :
x1 ≤ x2 ≤ · · · ≤ xk . Si x est situé entre les j ème et (j + 1)ème valeurs : xj ≤ x < xj+1 , alors
FX (x) = pX (x1 ) + · · · + pX (xj−1 ) + pX (xj ). Si x < x1 , alors FX (x) = 0 et si x ≥ xk , alors
FX (x) = pX (x1 ) + · · · + pX (xk ) = 1.
Remarquons qu’une fonction de répartition croı̂t toujours de 0 à 1.
Soit A un ensemble de valeurs que X peut prendre. De deux choses l’une : soit X appartient à A,
soit X n’appartient pas à A. Cette remarque se traduit symboliquement par :

P (X ∈ A) + P (X 6∈ A) = 100% = 1.

On l’utilise souvent sous la forme : P (X 6∈ A) = 1 − P (X ∈ A). En particulier, nous avons pour


tout x ∈ IR :
P (X > x) = 1 − P (X ≤ x) = 1 − FX (x).

Dans l’exemple du dé, nous avons P (X > 4) = 1 − FX (4) = 1 − 46 = 62 . Il convient de faire


attention et de distinguer P (X > x) et P (X ≥ x). En effet, P (X > 4) = P (X ∈ {5, 6}) et
P (X ≥ 4) = P (X ∈ {4, 5, 6}) = 63 . De même, il faut distinguer P (X < x) et P (X ≤ x).
La personne qui organise le jeu de dé (et qui se propose de me donner 1, 5 ou 35 francs), se demande
en retour combien elle doit me faire payer la partie pour être bénéficiaire. Cette personne raisonne
correctement de la manière suivante. La partie lui coûte 1 Fr avec la probabilité P (Y = 1) = 12 , 5 Fr

3
avec la probabilité P (Y = 5) = 13 et 35 Fr avec la probabilité P (Y = 35) = 16 . Si un grand nombre
de parties a lieu, à peu près 1 partie sur 2 (proportion 12 ) lui coûtera 1 Fr, 1 partie sur 3 (proportion
1 1
3 ) lui coûtera 2 Fr et 1 partie sur 6 (proportion 6 ) lui coûtera 35 Fr. Donc, approximativement, en
moyenne une partie lui coûtera

1 1 1
·(1 Fr) + ·(5 Fr) + ·(35 Fr) = 8 Fr.
2 3 6
C’est-à-dire qu’elle s’attend à payer en moyenne 8 Fr par partie. Une telle moyenne pondérée
s’appelle l’espérance mathématique de Y. Si cette personne décide de proposer la partie à 10 Fr,
elle s’attend à gagner en moyenne 2 Fr par partie. Mais comme je ne perdrai pas plus de 9 Fr par
partie, il se peut je me laisse tenter par la possibilité du gain de 25 Fr.
La formule ci-dessus est un cas particulier de la formule générale de l’espérance mathématique E(Y )
d’une variable aléatoire Y de loi pY :

E(Y ) = P (Y = y1 )·y1 + · · · + P (Y = yk )·yk = pY (y1 )·y1 + · · · + pY (yk )·yk

où y1 , . . . , yk sont les valeurs prises par Y.


D’autre part, mon gain Y est fonction du résultat X du lancer du dé. Plus précisément, Y = u(X)
avec 
 1 si x = 1, 2, 3
u(x) = 5 si x = 4, 5

35 si x = 6
Il s’ensuit que nous devons avoir E(Y ) = E[u(X)], et si l’on prend pour E[u(X)] la quantité

P (X = 1)·u(1) + P (X = 2)·u(2) + · · · + P (X = 6)·u(6)


1 1 1
= ·u(1) + ·u(2) + · · · + ·u(6)
6 6 6
1 1 1 1 1 1
= ·1 + ·1 + ·1 + ·5 + ·5 + ·35 = 8
6 6 6 6 6 6
cette égalité est satisfaite.

Ce qui nous suggère la définition générale de l’espérance mathématique d’une fonction de X :

E[u(X)] = P (X = x1 )·u(x1 ) + · · · + P (X = xk )·u(xk )


= pX (x1 )·u(x1 ) + · · · + pX (xk )·u(xk ).

Pour une variable aléatoire discrète générale X, E(X) s’appelle sa moyenne. Si E(X) = µ, on
définit la variance de X par

Var(X) = E[(X − µ)2 ] = pX (x1 )·(x1 − µ)2 + · · · + pX (xk )·(xk − µ)2

et l’écart type de X est défini par


p p
σ= Var(X) = E[(X − µ)2 ].

4
Par exemple, si X est la face du dé, nous avons

1 1 1
E(X) = ·1 + ·2 + · · · + ·6 = 7/2 = 3.5.
6 6 6
et
1 1 1
Var(X) = ·(1 − 3.5)2 + · (2 − 3.5)2 + · · · + ·(6 − 3.5)2
6 6 6
= 35/12 = 2.917
p
et l’écart type est σ = 35/12 ' 1.708.

On montre par le calcul que la variance de X est aussi égale à :


³ ´2
Var(X) = E(X 2 ) − E(X) .

dans l’exemple précédent, on vérifie bien que

1 2 1 2 1
E(X 2 ) = ·1 + ·2 + · · · + ·62 = 15.167,
6 6 6

de sorte que Var(X) = 15.167 − (3.5)2 = 2.917.

Un exemple important. Une des variables aléatoires les plus simples est X qui ne peut prendre
que deux valeurs. On choisit souvent pour ces deux valeurs : 0 et 1. La variable aléatoire prend la
valeur 1 avec la probabilité p où 0 ≤ p ≤ 1, elle prend donc l’autre valeur : 0, avec la probabilité
complémentaire : 1 − p. Sa loi est donc

pX (1) = p et pX (0) = 1 − p.

On dit que X suit une loi de Bernoulli de paramètre p. Ce que l’on note

X ∼ B(p).

Calculons les moyenne et variance de X. Nous avons, E(X) = p · 1 + (1 − p)·0 = p et E(X 2 ) =


³ ´2
p·12 + (1 − p)·02 = p · 1 + (1 − p)·0 = p, de sorte que Var(X) = E(X 2 ) − E(X) = p − p2 = p(1 − p).
On résume :
si X ∼ B(p), alors : E(X) = p et Var(X) = p(1 − p).

Exercices

1. Dans un hall de gare se tiennent 50 personnes : 11 ont des revenus très faibles (Classe 1), 19
ont des revenus assez faibles (Classe 2), 14 ont des revenus moyens (Classe 3) et 6 ont des revenus
élevés (Classe 4). Une de ces personnes est interrogée au hasard. Soit X la variable aléatoire, à
valeurs dans {1, 2, 3, 4}, qui est égale à la classe de revenu de la personne interrogée.
Trouver la loi pX et la fonction de répartition FX de X.
En donner des représentations graphiques.

5
2. Deux des huit barrettes de mémoire de mon ordinateur sont défectueuses. Pour le réparer, je
décide de retirer au hasard 2 barrettes et de les remplacer par des barrettes en bon état. Soit X le
nombre de barrettes défectueuses qui se trouvent parmi les 2 barrettes que je viens de retirer.
Trouver la loi pX et la fonction de répartition FX de X.
En donner des représentations graphiques.

3. La loi pX de X est donnée par pX (0) = 3/10, pX (1) = 3/10, pX (2) = 1/10 et pX (3) = 3/10.
Calculer les moyenne, variance et écart-type de X.

4. On prend deux boules au hasard (sans remplacement) dans une urne qui contient 3 boules
vertes et 5 boules rouges. Soit X le nombre de boules vertes qui viennent d’être tirées. Calculer les
moyenne et variance de X.

5. Trouver la moyenne et la variance de la variable aléatoire dont la fonction de répartition est


donnée par 
 0 si x < 10

1/4 si 10 ≤ x < 15
FX (x) =

 3/4 si 15 ≤ x < 20
1 si 20 ≤ x.

6
2

Variables aleatoires continues

Il existe des quantités aléatoires qui peuvent prendre une infinité de valeurs. Par exemple, si je joue
à Pile ou Face jusqu’à ce que j’obtienne Pile pour la première fois, le nombre de tirages X qu’il me
faut pour voir apparaı̂tre Pile une première fois peut prendre toutes les valeurs entières 1, 2, . . . .
Même si la probabilité que X dépasse 1000000000 est très faible, il est tout de même possible que
cet événement se produise.
Mais que penser de ma calculette qui possède un programme de tirage de nombres au hasard ?
Ces nombres sont tirés entre 0 et 1 et l’on m’a dit que tous ces nombres ont la même probabilité
d’être tirés. Soit X le nombre que me donne le programme de ma calculette. Je sais qu’à coup sûr
X ∈ [0, 1], ce qui s’écrit symboliquement :

P (X ∈ [0, 1]) = 100% = 1.

([0, 1] désigne l’ensemble de tous les réels compris entre 0 et 1). Quelle est la probabilité que X
prenne exactement la valeur 0.2 ? Puisque ce tirage ne favorise ni ne défavorise aucune valeur de
[0, 1], je dois avoir
nombre de réels qui valent 0.2 parmi les réels de [0,1]
P (X = 0.2) =
nombre de réels de [0,1]
1
=

= 0.

De sorte que pour tout x ∈ [0, 1], P (X = x) = 0. On ne s’est pas trompé en me disant que toutes
les valeurs sortent avec la même probabilité, mais ça ne m’avance pas pour calculer P (X ∈ [0, 12 ]).
Pourtant, il est clair que puisque 21 est le milieu de [0,1], il y a autant de chance pour que X soit
supérieur à 12 que pour que X lui soit inférieur. On a donc P (X ∈ [0, 21 ]) = P (X ∈ [ 12 , 1]) = 50% =
0.5.
Puisque 0.5 est la longueur des segments [0, 12 ] et [ 12 , 1], ceci nous suggére que le comportement
aléatoire de X est décrit, pour tous 0 ≤ a ≤ b ≤ 1, par

P (X ∈ [a, b]) = longueur de [a, b] = b − a.

7
En particulier, en considérant des intervalles qui enserrent de plus en plus la valeur x = 0.2, nous
avons
P (X ∈ [0.15, 0.25]) = 0.10 = 10%
P (X ∈ [0.19, 0.21]) = 0.02 = 2%
P (X ∈ [0.199, 0.201]) = 0.002 = 0.2%
P (X = 0.2) = P (X ∈ [0.2, 0.2]) = 0.
Si le tirage de X est uniforme sur l’intervalle [0, L], plutôt que sur [0, 1], on doit bien sûr avoir P (X ∈
nombre d’événements favorables
[0, L]) = 100% = 1, et il est naturel de généraliser la formule :
nombre d’événements possibles
(pour ne privilégier ni ne défavoriser aucunes des valeurs de [0, L]), par :

longueur de [a, b] b−a


P (X ∈ [a, b]) = = , pour tous 0 ≤ a ≤ b ≤ L.
longueur de [0, L] L

En considérant la fonction ½ 1
si x ∈ [0, L]
fX (x) = L
0 si x ∈
6 [0, L]
b−a
l’interprétation graphique de la formule P (X ∈ [a, b]) = L est la suivante :

La surface du rectangle hachuré est (b − a)· L1 = b−a


L = P (X ∈ [a, b]). En particulier, la surface du
rectangle pointillé est L· L1 = 1 = P (X ∈ [0, L]).
La fonction fX détermine le comportement du tirage aléatoire X uniforme sur [0, L]. Elle joue un
rôle analogue à la loi pX d’une variable aléatoire discrète.
Pour tout x ∈ IR, la quantité FX (x) = P (X ≤ x) est donnée par

0 si x ≤ 0
x
FX (x) = L si 0 ≤ x ≤ L

1 si x ≥ L

puisque l’événement X ≤ x est impossible si x ≤ 0, X ≤ x est toujours satisfait si x ≥ L et si


0 ≤ x ≤ L, P (X ≤ x) = P (X ∈ [0, x]) = x−0
L = L.
x

8
On appelle fX la densité de la loi de X et FX est sa fonction de répartition.
On peut généraliser cette façon de construire des quantités aléatoires, de la manière suivante. On
se donne une fonction f positive, dont le graphe est tel que

la surface comprise entre le graphe de f et l’axe horizontal est égale à 1. On décrit alors le
comportement d’une quantité aléatoire X par la formule
surface de
(1) P (X ∈ [a, b]) = surface de = , pour tous a ≤ b
surface de
la dernière égalité ayant lieu puisque surface de = 1. En particulier, pour tout x ∈ IR

P (X = xo ) = P (X ∈ [xo , xo ]) = surface de =0

et
P (X ∈ IR) = P (X ∈] − ∞, +∞[) = surface de = 1.
Nous donnons maintenant quelques définitions.
Une quantité aléatoire X dont le comportement est décrit par (1) est appelée une variable
aléatoire continue. La fonction f est sa densité. Sa fonction de répartition F est définie,
comme pour les variables aléatoires discrètes, par

F (x) = P (X ≤ x), x ∈ IR.

9
Nous avons donc F (xo ) = surface de . Mathématiquement, la surface de
Rb
est donnée par l’intégrale a f (x) dx, donc
Z b
P (X ∈ [a, b]) = f (x) dx.
a

Rx
En particulier F (x) = −∞
f (t) dt et sa dérivée est F 0 (x) = f (x).
Une formule très utile au sujet des fonctions de répartition des variables aléatoires continues, est
celle-ci :
P (a ≤ X ≤ b) = F (b) − F (a), a ≤ b,

où X est une variable aléatoire continue de fonction de répartiton F. En effet,

surface de = surface de − surface de soit

P (a ≤ X ≤ b) = P (X ≤ b) − P (X ≤ a)
= F (b) − F (a)

Si f est de la forme

alors pour tous α ≤ a ≤ b ≤ β, P (X ∈ [a, b]) = surface de = 0. En d’autres termes,


X ne peut pas prendre les valeurs x telles que f (x) = 0.

Il existe aussi des notions de moyenne de X : E(X), et de variance de X : Var(X), lorsque X


est une variable aléatoire continue.
Mathématiquement, les définitions de E(X) et Var(X) sont
Z +∞
E(X) = xf (x) dx,
−∞

et en notant E(X) = µ,
Z +∞
Var(X) = (x − µ)2 f (x) dx.
−∞

Dessinons le graphe de la densité f de X sur une plaque de bois régulière et découpons la partie
comprise entre l’axe horizontal et f. Si l’on cherche à maintenir cet objet découpé en équilibre sur

10
une pointe en contact avec l’axe horizontal Ox, le seul endroit où l’on peut placer la pointe se situe
en x = E(X) = µ.

Attention ! Si l’on découpe cet objet en suivant la droite verticale passant par E(X) = µ, les deux
morceaux ainsi obtenus n’ont pas nécessairement la même masse.
5
Exemples. Soit X un tirage aléatoire uniforme sur [0, 5], alors E(X) = 2 = 2.5 :

½
2y si y ∈ [0, 1]
On considère une variable aléatoire Y de densité : fY = . Alors, E(Y ) =
0 sinon
R R2
yfY (y) dy =10 2y 2 dy = 23 . Notons que P (Y ≤ 23 ) = 03 2y dy = 49 6= 12 .
p
La variance de X et son écart-type σ(X) = Var(X) sont des quantités qui mesurent la dispersion
des valeurs possibles de X autour de sa moyenne. Considérons les quatre fonctions de densité
suivantes

Nous avons : Var(X1 ) < Var(X0 ), Var(X2 ) > Var(X0 ) et Var(X3 ) > Var(X0 ).

11
Exercices

1. Soit X une variable aléatoire distribuée uniformément sur [−1, +1].


a) Donner la densité de X. Dessiner son graphe.
Rb 3 3
b) Calculer E(X), Var(X) et σ(X). Indication : a x2 dx = b −a 3 .
c) Mêmes questions lorsque X est une variable aléatoire distribuée uniformément sur [−2, +2].
d) Mêmes questions lorsque X est une variable aléatoire distribuée uniformément sur [−3, +3].
e) Comparer les résultats.

2. Soit X une variable aléatoire dont la densité est de la forme



c si x ∈ [0.5, 1.5]
f (x) = c si x ∈ [3, 5]

0 sinon

a) Calculer c pour que f soit une densité. Représenter f graphiquement.


b) Calculer E(X). Indication : On pourra dessiner le graphe de x 7→ xf (x) et calculer une surface.
c) Posons µ = E(X), calculer P (X ≥ µ) et P (X ≤ µ).

12
3

La loi normale

On dit qu’une variable aléatoire continue Z suit une loi normale centrée réduite, si sa densité
est définie par
1 z2
fZ (z) = √ e− 2 , z ∈ IR.

On note N (0, 1) la loi normale centrée réduite ainsi que X ∼ N (0, 1) pour signifier que la variable
aléatoire X suit la loi N (0, 1).
La loi normale est une des lois les plus importantes pour les applications statistiques. Elle apparaı̂t
naturellement lorsqu’on observe des grands échantillons. Ce point sera détaillé lors de la Leçon 4 à
l’occasion du Théorème de la Limite Centrale. La représentation de fZ est

C’est la fameuse “courbe en cloche”. On remarque qu’elle est symétrique par rapport à l’axe vertical
et on en déduit que si Z ∼ N (0, 1), alors P (Z ≤ 0) = P (Z ≥ 0) = 12 et E(Z) = 0.
On note Φ la fonction de répartition de N (0, 1) :
Z t
1 z2
Φ(t) = P (Z ≤ t) = √ e− 2 dz, z ∈ IR.
−∞ 2π

La surface hachurée dans la figure ci-dessus est Φ(zo ). Il n’est pas possible d’évaluer l’intégrale ci-
dessus à l’aide d’une fonction usuelle. Par contre, des approximations numériques sont accessibles ;
elles ont été tabulées dans la Table I (de valeurs numériques).

13
En raison de la symétrie de fZ , on a : Φ(−t) = 1 − Φ(t).

C’est pourquoi, seules les valeurs de Φ(t) pour t ≥ 0 ont été considérées dans la Table I.
Exemple 1. Si Z ∼ N (0, 1), alors

P (0 ≤ Z ≤ 2) = Φ(2) − Φ(0) = 0.9772 − 0.5000 = 0.4772,


P (1.25 ≤ Z ≤ 2.75) = Φ(2.75) − Φ(1.25) = 0.9970 − 0.8944 = 0.1026 et
P (−1.65 ≤ Z ≤ 0.70) = Φ(0.70) − Φ(−1.65) = Φ(0.70) − [1 − Φ(1.65)]
= 0.7580 − 1 + 0.9505 = 0.7085.

Exemple 2. Si Z ∼ N (0, 1), trouver des constantes a, b et c telles que

P (0 ≤ Z ≤ a) = 0.4147, P (Z > b) = 0.05 et P (|Z| ≤ c) = 0.95.

Ces trois équations sont équivalentes à

P (Z ≤ a) = 0.9147, P (Z ≤ b) = 0.95 et P (Z ≤ c) = 0.975,

respectivement. On voit dans la Table I que a = 1.37, b = 1.645 et c = 1.96.

On peut montrer que si Z ∼ N (0, 1), alors

E(Z) = 0 et Var(Z) = 1.

Le (0, 1) de N (0, 1) correspond à ces égalités. On généralise maintenant la définition de la loi


normale centrée réduite.
Soit X une variable aléatoire continue qui peut s’écrire sous la forme

X = µ + σZ

où µ ∈ IR et Z suit un loi N (0, 1). On dit alors que X suit une loi normale de moyenne µ et de
variance σ 2 . Ce que l’on note : X ∼ N (µ, σ 2 ).
On peut en effet montrer que dans ce cas : E(X) = µ et Var(X) = σ 2 .

14
15
Il est clair que
X −µ
si X ∼ N (µ, σ 2 ), alors : ∼ N (0, 1).
σ
On utilise cette remarque de la façon suivante. Soient X ∼ N (µ, σ 2 ) et a ≤ b. Alors
µ ¶ µ ¶ µ ¶
a−µ X −µ b−µ b−µ a−µ
P (a ≤ X ≤ b) = P ≤ ≤ =Φ −Φ .
σ σ σ σ σ
Exemple 3. Si X ∼ N (3, 16), alors
µ ¶
4−3 X −3 8−3
P (4 ≤ X ≤ 8) = P ≤ ≤
4 4 4
= Φ(1.25) − Φ(0.25) = 0.8944 − 0.5987 = 0.2957,
µ ¶
0−3 5−3
P (0 ≤ X ≤ 5) = P ≤Z≤
4 4
= Φ(0.5) − Φ(−0.75) = Φ(0.5) + Φ(0.75) − 1 = 0.4649 et
µ ¶
−2 − 3 1−3
P (−2 ≤ X ≤ 1) = P ≤Z≤
4 4
= Φ(−0.5) − Φ(−1.25) = 0.2029.
Exemple 4. Si X ∼ N (25, 36), on veut une constante c telle que
P (|X − 25| ≤ c) = 0.9544.
On veut donc µ ¶
c X − 25 c
P − ≤ ≤ = 0.9544.
6 6 6
C’est-à-dire ³c´
h ³ c ´i
Φ − 1−Φ = 0.9544,
6 6
soit ³c´
Φ = 0.9772.
6
La lecture de la Table I, nous permet de voir que Φ(2) = 0.9772. Par conséquent, c/6 = 2 et c = 12.
Exercices
1. Si Z ∼ N (0, 1), trouver
a) P (0.53 < Z ≤ 2.06) b) P (−0.79 ≤ Z < 1.52)
c) P (−2.63 ≤ Z ≤ −0.51) d) P (Z > −1.77)
e) P (Z > 2.89) f) P (|Z| < 1.96)
g) P (|Z| < 1) h) P (|Z| < 2)
2. Un producteur de saucissons indique le poids 204 grammes sur ses produits. On suppose que
la loi des poids de ces saucissons est N (213.7, 16). Soit X le poids d’un saucisson pris au hasard à
la sortie de l’usine. Trouver P (X < 204).
3. Si X ∼ N (0.15, 0.25), trouver
a) P (0.53 < X ≤ 2.06) b) P (−0.79 ≤ X < 1.52)
c) P (−2.63 ≤ X ≤ −0.51) d) P (X > −1.77)
e) P (X > 2.89) f) P (|X| < 1.96)
g) P (|X| < 1) h) P (|X| < 2)

16
4

Les grands echantillons

Notion d’echantillon aleatoire. On observe un échantillon aléatoire, c’est-à-dire qu’on


observe les valeurs x1 , . . . , xn relatives à n individus. Ces données proviennent de variables aléatoires
X1 , . . . , Xn ayant toutes la même loi et que l’on suppose indépendantes les unes des autres.
Dire que X1 , . . . , Xn ont la même loi, c’est dire que leurs fonctions de répartition sont égales :
FX1 (x) = · · · = FXn (x), ∀x. On rappelle que FX (x) = P (X ≤ x).
Dire que X1 , . . . , Xn sont indépendantes, signifie que la connaissance de X2 = 0.21 (par exemple)
n’apporte aucune information sur le comportement aléatoire des autres variables X1 , X3 , X4 , . . .
Plus généralement, la connaissance de X2 = 0.21 et X5 ≥ 0 (par exemple), n’apporte au-
cune information sur le comportement aléatoire des autres variables X1 , X3 , X4 , X6 , . . . , etc.
Expérimentalement, pour que X1 , . . . , Xn soient indépendantes, il faut que les individus 1, 2, . . . , n
n’aient pas d’influence mutuelle. Pour observer un échantillon, un enquêteur se gardera, après avoir
interrogé un individu i (dont la réponse est Xi = xi ) de lui demander de lui recommander un ami
(ou un ennemi, etc.) pour continuer son enquête. La procédure généralement requise pour fabriquer
un échantillon est le tirage au sort des individus interrogés au sein d’une population. Plus la taille
de l’échantillon tiré au hasard est grande, plus l’échantillon est représentatif de la population à
étudier.
Si les variables aléatoires sont discrètes, l’indépendance de X1 , . . . , Xn se traduit mathématiquement
par

P (X1 = a1 et X2 = a2 et . . . et Xn = an ) = P (X1 = a1 )P (X2 = a2 ) · · · P (Xn = an )

où les a1 , . . . , an parcourent toutes les valeurs possibles de X1 , . . . , Xn . Une propriété analogue
existe pour les variables aléatoires continues.
On appelle échantillon de taille n de la loi de X la donnée de n variables aléatoires réelles
X1 , . . . , Xn indépendantes, ayant toutes la même loi qu’une variable aléatoire X donnée.

Exemple 1. Par exemple, un échantillon de taille 25 de la loi N (−21, 15.2) est la donnée de variables
aléatoires X1 , . . . , X25 indépendantes qui suivent toutes la loi N (−21, 15.2).

17
Exemple 2. (Proportion d’une catégorie d’individus). Un exemple important est celui du tirage “au
hasard” (uniforme) dans une grande population d’individus dont une proportion p (0 ≤ p ≤ 1)
appartient à une catégorie particulière (par exemple : sensibilité politique, chômeur, homme,
femme, fumeur, salaire mensuel supérieur à 11000 francs, etc. . . ) On tire au hasard 100 individus
(i = 1, . . . , 100) dans cette population. La variable Xi prend la valeur xi = 1 si le ième individu
appartient à la catégorie étudiée ou la valeur xi = 0 sinon. Puisque le tirage est uniforme, Xi suit
une loi de Bernoulli de paramètre p, notée B(p) (voir la Leçon 1). Si les tirages sont indépendants,
X1 , . . . , X100 est un échantillon de taille 100 de la loi B(p).

A part l’exemple que nous venons de considérer, dans la pratique on ne connaı̂t pas, en général, avec
précision la forme de la loi des Xi que l’on observe. Toutefois, il est possible d’estimer la moyenne
µ := E(X1 ) = · · · = E(Xn ) à l’aide de la moyenne empirique observée

x1 + · · · + xn
x̄ = .
n
Une idée naturelle est de dire que µ ne doit pas être très éloignée de la moyenne empirique :
x1 + · · · + xn
µ ' x̄ = . Bien sûr, µ ne dépend pas de notre observation (c’est un paramètre
n
théorique que l’on cherche à estimer) et une autre expérience qui nous aurait amenés à observer
x0 + · · · + x0n
X1 = x01 , . . . , Xn = x0n , nous amènerait à la conclusion µ ' 1 de sorte qu’il est faux
n
d’affirmer que µ vaut x̄.
Heureusement, un résultat mathématique vient à notre secours.

Loi des Grands Nombres. Soit un grand nombre n de variables aléatoires indépendantes
X1 , . . . , Xn et de même loi (un échantillonde taille n). Alors, avec une probabilité proche de 100 %,
la variable aléatoire
X1 + · · · + Xn
X=
n
prend des valeurs proches de µ := E(X1 ) = · · · = E(Xn ).

La proximité de x̄ avec µ est d’autant plus grande que la taille n de l’échantillon est importante.
x1 + · · · + x25
Dans l’exemple 1, on peut s’attendre à ce que la moyenne empirique observée x̄ =
25
soit proche de la moyenne théorique µ = −21.
Dans l’exemple 2, la moyenne empirique observée

x1 + · · · + x100
x̄ =
100
nombre de d’individus dans l’échantillon appartenant à la catégorie étudiée
=
taille de l’échantillon
est la proportion observée d’individus dans l’échantillon appartenant à la catégorie étudiée. On peut
s’attendre à ce que cette proportion observée soit proche de la proportion p = E(X) d’individus
dans la population totale, appartenant à la de la catégorie étudiée.

Il existe un résultat mathématique plus précis que la loi des grands nombres ; il sera d’une
importance capitale dans la suite de ce cours. C’est le Théorème de la Limite Centrale.

18
Théorème de la Limite Centrale. Soit un grand nombre n de variables aléatoires indépendantes
X1 , . . . , Xn et de même loi (un échantillonde taille n). On note µ et σ 2 les moyenne et vari-
X1 + · · · + Xn
ance commune de X1 , . . . , Xn . Lorsque n est grand, la variable aléatoire X = suit
µ ¶ n
2
σ
approximativement la loi normale N µ, , même si les variables aléatoires ne sont pas normales.
n

Sous les mêmes conditions, ce théorème peut aussi s’énoncer des deux manières suivantes.
• X1 + · · · + Xn suit approximativement la loi normale N (nµ, nσ 2 ), ou
X −µ
• √ suit approximativement la loi normale N (0, 1).
σ/ n

Dans la pratique, on considère qu’à partir de n ≥ 30, n est suffisamment grand pour pouvoir
appliquer l’approximation du Théorème de la Limite Centrale.

Loi binômiale. Soient X1 , . . . , Xn des variables aléatoires indépendantes qui suivent une loi de
Bernoulli de paramètre p : B(p) (voir la Leçon 1). On considère leur somme

S = X1 + · · · + Xn .

C’est une variable aléatoire qui prend ses valeurs dans l’ensemble {0, 1, . . . , n}. Par définition, la
loi de S est la loi binômiale de paramètres n, p que l’on note B(n, p). Un calcul de dénombrement
nous donne, pour tout 0 ≤ k ≤ n,

IP (S = k) = Cnk pk (1 − p)n−k

n·(n−1)···(n−k+1)
où Cnk = k·(k−1)···2·1 est le nombre de parties à k éléments dans un ensemble à n éléments.
En fait, lorsque n devient grand, ces quantités et surtout des quantités comme IP (a ≤ S ≤ b)
deviennent difficiles à calculer, même avec des calculatrices puissantes. Heureusement, le Théorème
de la Limite Centrale va venir à notre secours, comme nous pourrons le constater dans l’exercice
suivant.

Approximation normale d’une loi binômiale. Soit S une variable aléatoire de loi binômiale
B(n, p). Par définition, ceci signifie que S peut s’écrire

S = X1 + · · · + Xn

où X1 , . . . , Xn sont des variables indépendantes de loi de Bernoulli de paramètre p (voir la Leçon
1). C’est-à-dire que Xi peut prendre les valeurs 0 ou 1 avec les probabilités P (Xi = 1) = p et
P (Xi = 0) = 1 − p, où 0 ≤ p ≤ 1. Lorsque n est grand (supérieur à 30 en pratique), on peut
appliquer le Théorème de la Limite Centrale avec µ = E(X) = p et σ 2 = Var(X) = p(1 − p). On
obtient que S = X1 +· · ·+Xn suit approximativement la loi normale N (np, np(1−p)). Pour calculer
la probabilité P (a ≤ S ≤ b) où a et b sont des entiers 0 ≤ a ≤ b ≤ n, on effectue l’approximation

19
suivante : µ ¶
1 1
P (a ≤ S ≤ b) = P a − ≤ S ≤ b +
2 2
à !
a − 12 − np S − np b + 12 − np
=P p ≤p ≤p
np(1 − p) np(1 − p) np(1 − p)
à !
a − 1 − np b + 1 − np
'P p 2 ≤Z≤ p 2
np(1 − p) np(1 − p)
à ! à !
b + 12 − np a − 21 − np
=Φ p −Φ p
np(1 − p) np(1 − p)

où Φ désigne la fonction de répartition de la loi normale.


La première égalité ci-dessus s’appelle la correction de continuité. Dans l’exemple suivant, nous
allons constater que dans certaines situations, cette approximation reste excellente même lorsque
n est plus petit que 30 (n = 10 dans ce qui suit).

Exemple. On joue 10 fois à Pile ou Face. Soit S le nombre de Face obtenu. La loi de S est
parfaitement calculable à l’aide de dénombrements. On obtient en particulier que

627
P (5 ≤ S ≤ 8) = pS (5) + · · · + pS (8) = ' 0.6123.
1024
½
1 si Face
On peut écrire S = X1 + · · · + X10 où les Xi = sort au ième lancer, de sorte que
0 si Pile
µ = E(Xi ) = 12 et que Var(Xi ) = 12 (1 − 12 ) = 14 . Grâce au Théorème de la Limite Centrale, on sait
que S suit approximativement une loi N (10µ, 10σ 2 ) = N (5, 5/2). Ce phénomène est illustré par la
figure suivante.

20
S−5
Donc p suit approximativement une loi N (0, 1) et en notant Z une variable aléatoire de loi
5/2
N (0, 1) :
à !
4.5 − 5 S−5 8.5 − 5
P (5 ≤ S ≤ 8) = P (4.5 ≤ S ≤ 8.5) = P p ≤p ≤ p
5/2 5/2 5/2
' P (−0.32 ≤ Z ≤ 2.21) = Φ(2.21) − Φ(−0.32) = Φ(2.21) − (1 − Φ(0.32))
' 0.9864 − (1 − 0.6255) = 0.6119
ce qui est très proche du résultat exact : 0.6123.
La première égalité P (5 ≤ S ≤ 8) = P (4.5 ≤ S ≤ 8.5) s’appelle la “correction pour la continuité” :
on déplace les bornes à mi-chemin entre l’événement étudié et son complément. Si on l’avait négligée,
on aurait obtenu
à !
5−5 S−5 8−5
P (5 ≤ S ≤ 8) = P p ≤p ≤p
5/2 5/2 5/2
' P (0 ≤ Z ≤ 1.90) = Φ(1.90) − Φ(0) = 0.4713
qui est une moins bonne approximation que la précédente.
Notons que si la variable aléatoire à approximer par une variable aléatoire normale est continue,
on n’a pas besoin de la correction pour la continuité.
Exercices
1. Supposons que les poids des adultes (en kg) sont d’écart-type 12 kg. On prélève un échantillon
de taille n pour estimer la moyenne inconnue µ de la population par la moyenne empirique X.
Quelle est la probabilité que l’écart entre X et µ soit supérieure à 5 kg si
a) n = 12 b) n = 25 c) n = 35 d) n = 50 ?
2. Sondage : On veut connaı̂tre la proportion p des gens qui, dans la population générale, sont
en faveur d’une certaine proposition. Dans un échantillon de n personnes, on obtiendra X réponses
favorables à la proposition en question. Notons p̂ = X/n la proportion expérimentale des réponses
favorables.
a) Si n = 100 et p = 0.5, déterminer P (p̂ > 0.6).
b) Si n = 100 et p = 0.4, déterminer P (p̂ > 0.5).
c) Si n = 100 et p = 0.4, déterminer approximativement c afin que P (p − c < p̂ < p + c) ' 90%.
d) Si n = 1000 et p = 0.4, déterminer approximativement c afin que P (p − c < p̂ < p + c) ' 90%.
3. Deux archers s’affrontent dans un concours de tir à l’arc. À chaque tir, Gaston a 50% de
chance d’atteindre la cible. Légèrement plus habile, René atteint la cible avec une probabilité de
60%. Chacun tire 20 flèches. Calculer :
a) la probabilité que Gaston ait plus de 13 coups au but.
b) la probabilité que Gaston gagne le tournoi.
c) la probabilité que René gagne le tournoi.
d) la probabilité d’un match nul.

21
5

Estimation de la moyenne d’un grand echantillon

Un cas d’école. Dans un premier temps, on suppose que l’on observe un échantillon aléatoire
X1 , . . . , Xn d’une loi (commune à X1 , . . . , Xn ) de la moyenne µ inconnue et de variance σo2 connue.
On cherche à estimer la moyenne µ à partir de l’observation x1 , . . . , xn de notre échantillon. Si
n est grand, la Loi des Grands Nombres nous permet d’affirmer qu’avec une grande probabilité µ
n’est pas très éloigné de la moyenne empirique observée :

x1 + · · · + xn
µ ' x̄ = .
n

Bien sûr, µ ne dépend pas de notre observation (c’est un paramètre théorique que l’on cherche à
estimer) et une autre expérience qui nous aurait amené à observer X1 = x01 , . . . , Xn = x0n , nous
x0 + · · · + x0n
amènerait à la conclusion µ ' 1 , de sorte qu’il est faux d’affirmer que µ vaut x̄.
n
De manière à prendre en compte les fluctuations du hasard, nous allons estimer µ à l’aide d’un
intervalle de confiance (une fourchette d’estimation). La technique mathématique repose sur
le Théorème de la Limite Centrale qui énonce que si X1 , . . . , Xn est un échantillon d’une loi de
moyenne µ et de variance σo2 , en posant

X1 + · · · + Xn
X= ,
n
nous avons approximativement
X −µ
Zn := √ ∼ N (0, 1).
σo / n
Ce résultat est faux si les X1 , . . . , Xn ne sont pas supposées indépendantes.
De ce fait, pour toute probabilité (1 − α) (0 ≤ α ≤ 1), on peut trouver dans la Table I le nombre
z α2 tel que
µ ¶
X −µ
P −z α2 ≤ √ ≤ z α2 = P (−z α2 ≤ Zn ≤ z α2 )
σo / n
' P (−z α2 ≤ Z ≤ z α2 ) = 1 − α,
où Z suit une loi normale N (0, 1).

22
Des valeurs souvent utilisées sont
α = 10% → 1 − α = 90% et z α2 = z0,05 ' 1, 645
α = 5% → 1 − α = 95% et z α2 = z0,025 ' 1, 960
α = 1% → 1 − α = 99% et z α2 = z0,005 ' 2, 576

Puisque α > 0, les inégalités suivantes sont équivalentes

X −µ
−z α2 ≤ √ ≤ z α2
σo / n
σo σo
−z α2 √ ≤ X − µ ≤ z α2 √
n n
σo σo
−X − z α2 √ ≤ −µ ≤ −X + z α2 √
n n
σo σo
X + z α2 √ ≥ µ ≥ X − z α2 √
n n

Par conséquent
σo σo
P (X − z α2 √ ≤ µ ≤ X + z α2 √ ) ' P (−z α2 ≤ Z ≤ z α2 ) = 1 − α
n n

ce qui s’écrit aussi


σo σo
P ([X − z α2 √ , X + z α2 √ ] 3 p) ' 1 − α
n n
et se traduit de la façon suivante. Avec une probabilité (1−α), la moyenne théorique µ se trouve dans
σo σo
l’intervalle aléatoire [X − z α2 √n
, X + z α2 √n
]. Une fois observé l’échantillon, la moyenne empirique
x̄ est connue.
Si la variance théorique σ 2 = σo2 est aussi connue, alors l’intervalle observé
· ¸
σo σo
x̄ − z α2 √ , x̄ + z α2 √
n n

est un intervalle connu. C’est l’intervalle de confiance pour µ avec coefficient de sécurité
(1 − α).

Exemple 1. On suppose que des notes d’examen (sur 100), ont une loi de moyenne µ inconnue et
d’écart-type σo = 15. Un échantillon de taille n = 25 est observé, on trouve x̄ = 69, 2. Alors
µ ¶ µ ¶
σo 15
x̄ ± 1, 645· √ ou 69, 2 ± 1, 645· √ ou [64.265, 74.135]
n 25

est un intervalle de confiance pour µ avec le coefficient de sécurité 90%.

Exemple 2. Soit x̄ la moyenne empirique observée sur un échantillon de taille 16 d’une distribution
(loi) normale N (µ, 23.04). Un intervalle de confiance pour µ avec coefficient de sécurité 90% est
" r r #
23.04 23.04
x̄ − 1.645· , x̄ + 1.645· .
16 16

23
Pour une observation particulière de x̄, cet intervalle contient ou ne contient pas la valeur inconnue
µ. Toutefois, si un grand nombre de tels intervalles est (observé et) calculé, il reste vrai qu’à peu
près 90% d’entre eux contiennent la moyenne µ.
Sur un ordinateur, 15 échantillons de taille16 d’une distribution (loi) normale N (5, 23.04) ont été
simulés. Pour chacun de ces 15 échantillons, nous avons calculé l’intervalle de confiance pour µ
avec coefficient de sécurité 90%, comme si la moyenne µ était inconnue. Sur la figure suivante sont
représentés ces 15 intervalles : 13 d’entre eux (soit 86.7%) contiennent la moyenne µ = 5.

Dans la pratique. Dans la pratique il n’y a aucune raison, si on ne connaı̂t pas la moyenne µ, de
connaı̂tre l’écart-type σ. Dans ce cas, l’intervalle de confiance obtenu plus haut, étant fonction de
σ = σo , n’est pas accessible au calcul. Une fois de plus, c’est la grande taille n de l’échantillon qui
va nous permettre de nous en sortir. En effet, la Loi des Grands Nombres nous permet d’estimer la
variance σ 2 inconnue à l’aide des observations X1 , . . . , Xn . Un estimateur naturel de la variance est
la variance empirique de l’échantillon, déjà rencontré en Statistique Descriptive. Il est donné
par
1 h i
S2 = (X1 − X)2 + · · · + (Xn − X)2 .
n−1
1
On note s2 = 2 2
n−1 [(x1 − x̄) +· · ·+(xn − x̄) ] sa valeur observée. De même, un estimateur naturel de

24
l’écart-type : l’écart-type empirique de l’échantillon, déjà rencontré en Statistique Descriptive
est donné par r

2
1 h i
S= S = (X1 − X)2 + · · · + (Xn − X)2 .
n−1
√ q
1
On note s = s2 = 2 2
n−1 [(x1 − x̄) + · · · + (xn − x̄) ] sa valeur observée. On peut montrer
mathématiquement, que lorsque n est grand, l’écart-type empirique observé : s, est proche de
l’écart-type théorique inconnu σ :
s ' σ.
Il est alors possible de remplacer dans la formule de l’intervalle de confiance trouvée plus haut, la
valeur σo par la valeur observée : s, ce qui nous donne le résultat suivant.
Si les observations sont indépendantes et de même loi, l’intervalle observé
· ¸
s s
x̄ − z α2 √ , x̄ + z α2 √
n n
est l’intervalle de confiance pour µ avec coefficient de sécurité (1 − α).
Important. En pratique, on considère que n est suffisamment grand, lorsque n ≥ 30.
Ceci signifie à peu près, qu’avec une probabilité 1−α, l’intervalle de confiance [x̄−z α2 √sn , x̄+z α2 √sn ]
contient la vraie valeur inconnue µ de la moyenne.
Nous terminons cette leçon en rappelant une formule bien pratique pour le calcul de la variance
empirique
1
s2 = [(x1 − x̄)2 + · · · + (xn − x̄)2 ]
n−1
(x1 )2 + · · · + (xn )2 n 2
= − (x̄) .
n−1 n−1
Par exemple, sur cinq observations x1 = 2.4, x2 = 3.4, x3 = 5.2, x4 = −0.8, x5 = 1.0, on obtient
x1 + · · · + x5 = 11.2 et (x1 )2 + · · · + (x5 )2 = 46. Ceci nous donne :
x̄ = 11.2
5 = 2.24,
(x1 )2 +···+(x5 )2
s2 = 4 − 54 (x̄)2 = 46 5 2
4 − 4 (2.24) = 5.228 ou bien
2 2 2 2
(2.4−2.24) +(3.4−2.24) +(5.2−2.24) +(−0.8−2.24) +(1.0−2.24)2
s2 = = 5.228, c’est-à-dire
√ 4
s= 5.228 = 2.2865.
Exercices
1. Un échantillon aléatoire de taille 28 nous donne x1 +· · ·+x28 = 122.70 ainsi que x21 +· · ·+x228 =
697.89. Trouver des intervalles de confiance pour la moyenne avec le coefficient de sécurité
a) 99% b) 95% c) 90% d) 80%.
2. Trouver un intervalle de confiance pour µ avec coefficient de sécurité : 75%, pour les
observations :
x1 = 624 x2 = 532 x3 = 565 x4 = 492
x5 = 407 x6 = 591 x7 = 611 x8 = 558
x9 = 631 x10 = 542 x11 = 587 x12 = 452
x13 = 406 x14 = 592 x15 = 641 x16 = 568
x17 = 625 x18 = 502 x19 = 687 x20 = 522

25
3. Une observation d’un échantillon de taille n nous donne x̄ = 7.21 et s = 3.10. On veut annoncer
un intervalle de confiance pour µ avec coefficient de sécurité 99%. A partir de quelles valeurs de n,
l’intervalle de confiance a-t’il une largeur inférieure à ±0.1 ? Même question avec ±0.01.
z α2 ·s √ z α ·s
Réponse. On cherche n tel que : √ ≤ 0.1. Soit n ≥ 2 . Donc, en élevant les deux membres
n 0.1
µ ¶
z α2 ·s 2
de cette inégalité au carré : n ≥ . Puisque 1 − α = 99%, α/2 vaut 0.5% et on lit dans
0.1
µ ¶2
2, 576·3, 10
la table I que z 2 = 2.576. Finalement, n ≥
α ' 6377. Il faut donc un échantillon de
0, 1
taille au moins 6377 pour pouvoir annoncer un intervalle de confiance pour µ avec le coefficient de
sécurité 99% et la précision ±0.1.
Lorsqu’on cherche la précision ±0.01, le même raisonnement nous amène à
µ ¶2
2, 576·3, 10
n≥ ' 637700. Il faut donc un échantillon de taille au moins 637700 pour pouvoir
0, 01
annoncer un intervalle de confiance pour µ avec le coefficient de sécurité 99% et la précision ±0.01.

26
6

Estimation d’une proportion

Nous cherchons à estimer la proportion d’une catégorie particulière d’individus (par exemple :
sensibilité politique, chômeur, homme, femme, fumeur, salaire mensuel supérieur à 11000 francs,
etc. . . ) au sein d’une population totale (voir l’Exemple 2 de la Leçon 4, où cette question a déjà
été abordée). Soit p (0 ≤ p ≤ 1) cette proportion qui nous est inconnue avec exactitude, à moins
d’interroger toute la population. Pour l’estimer, nous tirons au hasard n individus dans la population
totale, c’est-à-dire que nous effectuons n tirages indépendants et uniformes. On observe, dans cet
échantillon, une proportion

nombre d’individus dans l’échantillon appartenant à la catégorie étudiée


p̂ =
taille de l’échantillon
x1 + · · · + xn
= x̄ =
n

où xi est la réalisation d’une variable aléatoire Xi qui prend la valeur Xi = 1 si le ième individu
appartient à la catégorie étudiée ou la valeur Xi = 0 sinon. Puisque le tirage est uniforme, Xi suit
une loi de Bernoulli de paramètre p, notée B(p) (voir la Leçon 1), où p est la vraie proportion à
estimer. Puisque les tirages sont indépendants, X1 , . . . , Xn est un échantillon de taille n de la loi
B(p). Lorsque n est grand, nous sommes dans les conditions d’application de la Loi des Grands
Nombres qui affirme que l’observation p̂ = x̄ est proche avec une grande probabilité de la moyenne
théorique µ = E(X). Or, lorsque X suit une loi B(p), on a

E(X) = p et Var(X) = p(1 − p).

Nous avons donc, lorsque n est grand, avec une grande probabilité :

p̂ ' p.

C’est-à-dire : la proportion observée sur l’échantillon est proche de la proportion de la catégorie


considérée dans la population totale. Ce résultat est le principe de tous les sondages dont les médias
sont si friands.

27
En fait, les résultats de la Leçon h5 nous permettent deidonner un intervalle de confiance pour p.
σo σo
Nous savons que si Var(X) = σo , x̄ − z α2 √ n
, x̄ + z α2 √ n
est un intervalle de confiance pour µ avec
p
le coefficient
· de sécurité (1 − α). Dans¸ la situation présente, puisque σo = p(1 − p), ceci signifie
q q
p(1−p) p(1−p)
que p̂ − z α2 n , p̂ + z α2 n est un intervalle de confiance pour p avec le coefficient de
sécurité (1 − α).
Malheureusement, les bornes de cet intervalle s’expriment à l’aide de la proportion p inconnue. Cet
intervalle de confiance n’est donc pas calculable à l’aide de l’observationq
p̂. Toutefois, nous
q avons
p̂(1−p̂) p̂(1−p̂)
vu que p ' p̂, de sorte que p(1 − p) ' p̂(1 − p̂) et que l’intervalle [p̂ − z α2 n , p̂ + z α2 n ]
est proche du précédent. Par conséquent :
L’intervalle observé " r r #
p̂(1 − p̂) p̂(1 − p̂)
p̂ − z α2 , p̂ + z α2
n n
est l’intervalle de confiance pour la proportion p avec coefficient de sécurité (1 − α).
Important. Cet intervalle n’est valable que lorsque np̂ ≥ 6 et n(1 − p̂) ≥ 6.
Exemple 1. Lors d’un sondage auprès de 500 personnes et portant sur leurs opinions politiques, 180
personnes se sont déclarées favorables au parti A. Estimer la proportion p des gens favorables au
parti A au moyen d’un intervalle de confiance de coefficient de sécurité 90%.
Solution : On a p̂ = 180/500 = 0.360. Pour avoir 1 − α = 90%, il faut prendre z α2 = 1.645. Il ne
reste plus qu’à employer la formule
à r ! à r !
p̂(1 − p̂) 0.36 × 0.64
p̂ ± z α2 = 0.360 ± 1.645
n 500
= (0.360 ± 0.035) = [0.325, 0.395].
Remarque. Lorsqu’on estime un paramètre au moyen d’un intervalle de confiance, deux qualités
espérées : précision et sécurité, sont en opposition. On ne peut améliorer l’une sans diminuer
l’autre. Si l’on exige beaucoup de sécurité (risque α très petit), on obtiendra un intervalle de
confiance plus large que si l’on se contente d’une sécurité plus raisonnable. Si l’on veut beaucoup de
précision (intervalle étroit), il faudra “payer” cette précision par un risque d’erreur plus considérable.
La seule façon d’obtenir à la fois une bonne précision et une grande sécurité est de ne pas lésiner
sur la valeur de n, ce qui n’est pas toujours économique.
Exemple 2. Avec n = 100, on a obtenu p̂ = 0.21. Calculer les intervalles de confiance avec coefficient
de sécurité 50%, 10%, 5%, 1% et 0.1% pour p.
Solution : Les cinq valeurs de α donnent des z α2 qui valent respectivement : 0.674, 1.645, 1.960,
2.576 et 3.291. Les cinq intervalles de confiance sont présentés dans le tableau suivant.
1−α z α2 Intervalle de confiance Longueur

50% 0.674 [0.18, 0.24] 0.06


90% 1.645 [0.14, 0.28] 0.14
95% 1.960 [0.13, 0.29] 0.16
99% 2.576 [0.11, 0.31] 0.20
99.9% 3.291 [0.08, 0.34] 0.26

28
Lequel de ces cinq intervalles de confiance est le meilleur ? Assurément, un risque de α = 50%
est beaucoup trop fort et le premier intervalle n’est pas très satisfaisant. De même, un coefficient
de sécurité de 99.9% paraı̂t exagéré et rend l’intervalle de 30% plus large que celui obtenu avec
1 − α = 99%. En général, on choisit α entre 1% et 10%, selon le contexte et l’importance relative
de nos besoins en précision et en sécurité.

Exemple 3. Si l’on sait déjà que la valeur du paramètre p est voisine de 0.15, combien d’observations
doit-on effectuer pour que l’intervalle de confiance de coefficient de sécurité 95% pour p soit de
demi-longueur approximative 0.05 ? 0.02 ? 0.01 ?
Solution : Puisque 1 − α = 95%, on doit prendre z α2 = 1.960. La demi-longueur : r, de l’intervalle
q
de confiance sera donc 1.960 p̂(1− n
p̂)
. On ne sait pas à l’avance quelle sera la valeur de p̂, mais on
peut s’attendre à ce qu’il prenne une valeur voisine de p qu’on a supposé proche de 0.15. On a donc
approximativement r
0.15 × 0.85 0.700
r ' 1.960 = √ .
n n
En exprimant n en fonction de r, on obtient n ' 0.49/r2 et en donnant successivement à r les
valeurs 0.05, 0.02 et 0.01 on obtient pour n les valeurs 196, 1 225 et 4 900.

En fait, il n’y a pas de raison en général pour supposé a priori que p est proche d’une valeur donnée
à l’avance. C’est pourquoi, nous considérons le problème qui suit.

Exemple 4. Combien d’observations doit-on effectuer afin que, quelle que soit la valeur de p,
l’intervalle de confiance de coefficient de sécurité 95% pour p soit de demi-longueur au plus 0.05 ?
0.03 ? 0.02 ? 0.01 ?
Solution : La demi-longueur de l’intervalle de confiance de coefficient de sécurité 95% est
r
p̂(1 − p̂)
1.960 .
n

Or, la valeur maximale pour p̂(1 − p̂) est 1/4 (quand p̂ = 1/2). Quelle que soit la valeur de p̂, la
√ √
demi-longueur maximum de l’intervalle de confiance vaut `max = 1.960/ 4n = 0.98/ n. Pour avoir
` ≤ `max , il faut prendre n ≥ (0.98/`max )2 . En donnant successivement à `max les valeurs 0.05, 0.03,
0.02 et 0.01, on obtient n ≥ 385, n ≥ 1068, n ≥ 2401 et n ≥ 9604.

Exercices

1. Sur un échantillon tiré au hasard de 500 électeurs, 254 ont déclaré être favorables à une
proposition gouvernementale et prévoient de voter oui pour cette proposition. Donner un intervalle
de confiance, avec coefficient de sécurité 90%, pour la proportion p dans la population totale des
électeurs favorables à cette proposition.

2. Un étudiant a pipé un dé en perçant des trous en deux points et en les remplissant d’un métal
lourd. Pour estimer la probabilité p de sortir un quatre avec ce dé pipé, l’étudiant le lance 600 fois
et observe un quatre 87 fois.
a) Construire un intervalle de confiance pour p avec coefficient de sécurité 90%.

29
b) Est-ce que l’étudiant a réussi a faire décroı̂tre la fréquence de sortie du quatre ?
c) Que se passe-t’il avec un coefficient de sécurité de 80% ?

3. Un grossiste en café souhaite savoir si une nouvelle marque plus chère a la préférence des
consommateurs. Sur un échantillon de 90 consommateurs, 53 ont déclaré préférer la nouvelle
marque. Donner un intervalle de confiance avec coefficient de sécurité 95%, pour le pourcentage des
consommateurs qui préfèrent la nouvelle marque.

30
7

Du nouveau a Evry-la-Garenne ?

A la suite d’une enquête menée en 1980 à Évry-la-Garenne, il apparaissait que 50% des foyers
avaient un revenu mensuel inférieur à 7.4 KFr (en franc constant). Une seconde enquête est menée
en 1992 auprès de 10 foyers. Les revenus mensuels obtenus sont (en KFr) :

10.0 7.8 10.4 11.0 5.6 12.2 12.8 5.2 3.4 8.6

Peut-on affirmer que les revenus ont globalement augmenté depuis 1980 ?
Il ne s’agit plus d’estimer un paramètre inconnu (moyenne, proportion), mais de répondre par oui
ou non à la question : “Les revenus ont-ils augmenté dans l’ensemble ?” Quelle que soit la réponse,
elle sera susceptible d’être vraie ou fausse, dans la mesure où nous n’interrogeons pas tous les foyers
d’Évry-la-Garenne. On peut même se douter qu’avec un aussi petit échantillon d’enquête, notre
incertitude sera grande.
Notre but est, dans un premier temps, de préciser la question, et donc le type de réponse que nous
allons y apporter et, dans un deuxième temps, de quantifier la probabilité de donner une réponse
exacte.
Précision de la question. L’information que nous avons est que 50 % des foyers en 1980 avaient
un revenu inférieur à 7.4. Nous allons donc essayer de savoir si la proportion des foyers dont le revenu
est inférieur à 7.4 a diminué de 1980 à 1992. Pour cela, nous introduisons la notion mathématique
de médiane d’une loi de variable aléatoire.

31
Soit X une variable aléatoire de densité fX . Sa médiane m est un nombre réel tel que FX (m) :=
P (X ≤ m) = 50% (voir la figure ci-dessus).

Attention ! Il ne faut pas confondre médiane et moyenne. Par exemple,


1  0 si t ≤ 0
4 si 0 ≤ x ≤ 1 
t si 0 ≤ t ≤ 1
si fX (x) = 34 si 1 < x ≤ 2 , on a FX (t) = 14 3(t−1) et
 
 + 4 si 1 < t ≤ 2
0 sinon 4
1 si t ≥ 2
1 3(m − 1) 1 4
FX (m) = 0.5 ⇐⇒ + = ⇐⇒ m = = 1.333. Alors que,
Z 1 4 Z 24 2 3
x 3x 5
µ = E(X) = dx + dx = = 1.25.
0 4 1 4 4
Revenons à Évry-la-Garenne, sa piscine et son terrain de camping. On note m la médiane de la
répartition des revenus par foyer en 1992. Si rien n’a changé entre 1980 et 1992, alors m garde sa
valeur de 1980, c’est-à-dire : m = 7.4. Si le revenu a globalement augmenté, alors m > 7.4 et dans
la cas contraire m < 7.4. Le test statistique que nous allons construire va nous permettre de
choisir parmi les deux hypothèses

H0 : m = 7.4
H1 : m > 7.4

laquelle a le plus chance d’être vraie, compte tenu des résultats de notre enquête.
Notons que nous supposons a priori que m ≥ 7.4, c’est-à-dire que la médiane n’a pas pu décroı̂tre.

Une réponse statistique. Notons X le revenu d’un foyer tiré au hasard, ainsi que

p := P (X ≤ 7.4).

Si H0 est vraie, alors p = 12 . Si H1 est vraie, alors 0 ≤ p < 12 .


Soient X1 , . . . , X10 les revenus des 10 foyers. Ces variables aléatoires sont indépendantes et de même
loi inconnue. On considère les nouvelles variables aléatoires
½
1 si Xi ≤ 7.4
Yi = , i = 1, . . . , 10.
0 si Xi > 7.4

Ce sont des variables aléatoires indépendantes qui suivent une loi de Bernoulli de paramètre
p = P (X ≤ 7.4) : Yi ∼ B(p), i = 1, . . . , 10. On en déduit que la variable aléatoire

U := Y1 + · · · + Y10 ∼ B(10, p)

suit une loi binômiale : B(10, p), où p est un paramètre inconnu (voir la Leçon 4, pour la loi
binômiale).
En particulier,
Si H0 est vraie, alors : U ∼ B(10, 12 ).

Si H1 est vraie, alors : U ∼ B(10, p), 0 ≤ p < 12 .

32
En d’autres termes, sous H0 , le nombre de revenus inférieurs à 7.4 : U, a la même loi que le nombre
de Pile en jouant 10 fois à Pile ou Face.
Si H1 est vraie, on peut s’attendre à ce que la valeur observée : u, de U soit plus petite que les
valeurs typiques de U sous H0 . Nous prenons donc une règle de décision de la forme suivante

si on observe (u ≤ c), alors : on rejette H0 (on accepte H1 ),

si on observe (u ≥ c + 1), alors : on ne rejette pas H0 , (on accepte H0 )

où c est un seuil de décision que nous allons déterminer en fonction du risque d’erreur que nous
nous autorisons.
On cherche à “contrôler” la probabilité de se tromper en prenant notre décision.
Une première manière de se tromper est de prendre la décision de rejeter H0 , alors que H0 est
vraie. Avec notre règle de décision, cette erreur se produit lorsque, sous H0 , on observe l’évènement
(U ≤ c). La probabilité d’une telle erreur est donc PH0 (U ≤ c), c’est-à-dire la probabilité en jouant
10 fois à Pile ou Face d’observer Pile c fois ou moins.
Par exemple, si l’on choisit c = 0, 1, 2 ou 3, on lit dans la Table II de la loi binômiale, que

PH0 (U ≤ 0) = 0.0010, PH0 (U ≤ 1) = 0.0107, PH0 (U ≤ 2) = 0.0547, PH0 (U ≤ 3) = 0.1719.

Une autre manière de se tromper est de prendre la décision de ne pas rejeter H0 , alors que H1 est
vraie. La probabilité d’une telle erreur est PH1 (U ≥ c + 1). Supposons que le paramètre inconnu p
vaille effectivement p = PH1 (X ≤ 7.4) = 0.30. Dans ce cas, U ∼ B(10, 0.3) et avec c = 0, 1, 2 ou 3,
on lit dans la Table II que

PH1 (U ≤ 0) = 0.0282, PH1 (U ≤ 1) = 0.1493, PH1 (U ≤ 2) = 0.3828, PH1 (U ≤ 3) = 0.6496,

d’où il vient les probabilités d’erreur correspondantes sont

PH1 (U ≥ 1) = 1 − 0.0282 = 0.9718 PH1 (U ≥ 2) = 1 − 0.1493 = 0.8507


PH1 (U ≥ 3) = 1 − 0.3828 = 0.6172 PH1 (U ≥ 4) = 1 − 0.6496 = 0.3504.

On peut faire un calcul analogue pour toutes les valeurs de p. On rassemble ces calculs pour p = 0.1
et p = 0.3 dans le tableau ci-dessous.

PH0 (U ≤ c) PH1 (U ≥ c + 1) PH1 (U ≥ c + 1) PH1 (U ≥ c + 1)


(p = 0.3) (p = 0.2) (p = 0.1)

c=0 0.0010 0.9718 0.8926 0.6513


c=1 0.0107 0.8507 0.6242 0.2639
c=2 0.0547 0.6172 0.3222 0.0702
c=3 0.1719 0.3504 0.1209 0.0128

On se rend compte sur ce tableau, que si on cherche à rendre petit la probabilité d’erreur PH0 (U ≤ c)
en faisant décroı̂tre c, l’autre probabilité d’erreur PH1 (U ≥ c+1) grandit. D’autre part, la probabilité

33
d’erreur PH1 (U ≥ c + 1) diminue à mesure que le paramètre p inconnu s’éloigne de 12 . Il semble,
qu’un équilibre à peu près satisfaisant se trouve autour des valeurs de PH0 (U ≤ c) proches de 5%.
On se donne une probabilité d’erreur α de l’ordre de 5% (par exemple α = 1%, 5% ou 10%) et on
choisit une valeur entière cα de c telle que PH0 (U ≤ cα ) soit proche de α et

PH0 (U ≤ cα ) ≤ α.

Dans notre exemple, avec α = 6%, on choisit cα = c0.06 = 2. Notre règle de décision au niveau
α = 6% est donc :
si on observe (u ≤ 2), alors : on rejette H0 (on accepte H1 ),

si on observe (u ≥ 3), alors : on ne rejette pas H0 , (on accepte H0 )


Si on observe u ≤ 2, on rejettera H0 avec une probabilité inférieure à 6% de se tromper (par
définition du niveau α).
Si on observe u ≤ 3, on ne rejettera pas H0 avec une probabilité de se tromper : PH1 (U ≥ 3), qui
dépend de la valeur de p. Nous l’avons calculée pour quelques valeurs de p, 0 ≤ p < 21 .
p 0.45 0.40 0.35 0.30 0.25 0.20 0.15 0.10 0.05

PH1 (U ≥ 3) 0.9004 0.8327 0.7384 0.6172 0.4744 0.3222 0.1798 0.0702 0.0115
Ce qui nous donne la courbe

En prenant connaissance de cette courbe, les services sociaux d’Évry-la-Garenne ont décidé de
mener une enquête plus sérieuse. Cette fois-ci, 100 foyers ont été consultés : sur ces 100 foyers, 35
ont un revenu inférieur à 7.4. Que conclure au niveau α = 5%?
On reprend la même démarche, mais cette fois-ci

U := Y1 + Y2 + · · · + Y100 ∼ B(100, p) avec p = P (X ≤ 7.4).

En particulier, sous H0 , p = 12 et U ∼ B(100, 12 ). On cherche c = c0.05 tel que PH0 (U ≤ c) ' 0.05.
L’approximation normale (voir la Leçon 4), nous permet de dire que U suit approximativement une
loi N (100· 21 , 100· 12 (1 − 21 )) = N (50, 25), donc
U − 50 U − 50
sous H0 , √ = ∼ N (0, 1).
25 5

34
De ce fait, on prend c tel que
µ ¶ µ ¶
U − 50 c + 0.5 − 50 c + 0.5 − 50
PH0 (U ≤ c + 0.5) = PH0 ≤ =P Z≤ = 0.05
5 5 5
c−49.5
où Z ∼ N (0, 1) et +0.5 est la correction de continuité. C’est-à-dire : 5 = −1.645, donc
c = 49, 5 − 5·(1, 645) = 41, 275 qui n’est pas un entier, on lui préfère

c = 41

puisque U ≤ 41.275 ⇐⇒ U ≤ 41. La règle de décision au niveau 5% est

si on observe (u ≤ 41), alors : on rejette H0 (on accepte H1 ),

si on observe (u ≥ 42), alors : on ne rejette pas H0 .

Puisque nous avons observé u = 35, on rejette H0 au niveau α = 5%.


Calculons maintenant les probabilités d’erreur

PH1 ( on accepte H0 ) = PH1 (U ≥ 42)

en fonction de p = P (X ≤ 7.4), 0 ≤ p < 12 . Puisque U ∼ B(100, p), l’approximation normale nous


permet d’avoir approximativement U ∼ N (100·p, 100·p(1 − p)), d’où
à !
U − 100·p 41.5 − 100·p
PH1 (U ≥ 42) = PH1 p ≥p
100·p(1 − p) 100·p(1 − p)
à ! à !
41.5 − 100·p 41.5 − 100·p
'P Z≥ p =1−Φ p
10· p(1 − p) 10· p(1 − p)

où Z ∼ N (0, 1) et Φ est sa fonction de répartition. Grâce à la Table I, on obtient

p 0.45 0.40 0.35 0.30 0.25 0.20 0.15 0.10 0.05

PH1 (U ≥ 42) 0.7591 0.3797 0.0865 0.0060 8·10−5 10−5 '0 '0 '0

Ce qui nous donne la courbe

35
On constate avec soulagement que les probabilités d’accepter H0 à tort sont considérablement plus
faibles avec une enquête menée auprès de 100 personnes, plutôt qu’auprès de 10.
La conclusion de notre test est la suivante : puisque nous avons observé 35 foyers sur 100 dont les
revenus sont inférieurs à 7.4, compte tenu de notre règle de décision, nous acceptons H1 au niveau
α = 5%. Ceci signifie que la probabilité de nous tromper en rejetant H0 est inférieure à 5%.
Si l’on avait observé 44 foyers sur 100 dont les revenus étaient inférieurs à 7.4, compte tenu de
notre règle de décision, nous n’aurions pas rejeté H0 au niveau α = 5%. Rapidement parlé, nous
aurions accepté H0 . La probabilité de se tromper dans une telle situation dépend de la valeur du
paramètre inconnu p : pour p = 0.45, elle est de 0.7591 ; pour p = 0.40, elle est de 0.3797 et pour
p = 0.35, elle est de 0.0865. Par conséquent, la probabilité de cette erreur devient raisonnablement
petite si p est plus petit que 0.35. Le problème est que lorsque 0.35 < p < 0.50, on peut facilement
ne pas rejeter H0 . En conclusion : seul le rejet de H0 est significatif.

36
8

Le test du signe

Le test que nous avons mis en place à la Leçon 7 s’appelle un test du signe. Nous le reprenons ici
dans un cadre général. Ce test sert à décider si l’hypothèse H0 : m = mo est vérifiée, où m est
la médiane de la loi d’une variable aléatoire X continue et mo est une valeur que l’on se donne
(mo = 7.4 dans l’exemple de la leçon précédente).
L’hypothèse H0 est appelée l’hypothèse nulle. On peut considérer les trois hypothèses alter-
natives : H1 : m > mo , H1 : m < mo ou bien H1 : m 6= mo . Chacune correspond à des règles de
décision de forme différente. Considérons pour le moment, l’hypothèse alternative

H1 : m > mo ,

comme dans l’exemple d’Évry-la-Garenne.


On considère un échantillon statistique de taille n : X1 , . . . , Xn , de la loi inconnue d’une variable
aléatoire X. A chacun des Xi , i = 1, . . . , n, on associe le nombre
½
1 si Xi < mo
Yi =
0 si Xi ≥ mo

de sorte que
U = Y1 + · · · Yn

est le nombre (aléatoire) des Xi , i = 1, . . . , n qui sont plus petits que mo .


Les observations que l’on obtient sont x1 , . . . , xn , et on calcule le nombre u = y1 + · · · + yn des
xi , i = 1, . . . , n qui sont plus petits que mo . Notre règle de décision est

si on observe (u ≤ cα ), alors : on rejette H0 (on accepte H1 ),

si on observe (u ≥ cα + 1), alors : on ne rejette pas H0 ,

où α est le niveau du test que nous nous imposons (α = 1%, 5%, 10%, etc. . . ), c’est-à-dire la
probabilité de rejeter H0 à tort :
PH0 (rejeter H0 ) ' α.

37
En d’autres termes, on calcule le seuil cα de sorte que

PH0 (U ≤ cα ) ' α.

Ce calcule est basé sur la constatation qu’en notant

p = P (X < mo )

le paramètre inconnu du problème, la variable aléatoire U suit une loi binômiale :

U ∼ B(n, p).

1
En particulier, sous H0 , par définition de la médiane m = mo , nous avons p = 2 et

1
sous H0 , U ∼ B(n, ).
2

Si n est petit, on obtient cα dans la Table II de la loi B(n, 21 ).


Si n est grand (n plus grand que 15), l’approximation normale est très bonne. Par conséquent, nous
avons approximativement
n n
sous H0 , U ∼ N ( , );
2 4
ce qui nous permet de calculer
à ! µ ¶
1 U − n2 (c + 12 ) − n
2 2c + 1 − n
PH0 (U ≤ c) = P o(U ≤ c + ) = P pn ≤ pn 'Φ √
2 4 4
n

où Φ est la fonction de répartition de la loi N (0, 1). Comme d’habitude, on note zα le nombre qui
satisfait
Φ(zα ) = 1 − α.

On rappelle que pour α = 2.5% : zα = z0.025 = 1.960, pour α = 5% : zα = z0.05 = 1.645 et pour
α = 10% : zα = z0.10 = 1.282.
Il satisfait aussi Φ(−zα ) = α, puisque Φ ³est symétrique
´ par rapport à zéro. De ce fait, la définition
de cα : PH0 (U ≤ cα ) ' α s’écrit aussi Φ 2cα√ +1−n
n
' Φ(−z α ). Donc, cα est solution de l’équation

2cα√
+1−n
n
' −zα , soit

n zα n + 1
cα ' − .
2 2

n zα n+1
Plus exactement, cα est le plus grand entier inférieur à 2 − 2 .

Si l’on teste H0 : m = mo contre


H1 : m < mo ,
½
1 si Xi > mo
à chacun des Xi , i = 1, . . . , n, on associe le nombre Zi = de sorte que
0 si Xi ≤ mo
V = Z1 + · · · Zn est le nombre (aléatoire) des Xi , i = 1, . . . , n qui sont plus grands que mo .

38
Les observations que l’on obtient sont x1 , . . . , xn , et on calcule le nombre v = z1 + · · · + zn des
xi , i = 1, . . . , n qui sont plus grands que mo . Notre règle de décision est

si on observe (v ≤ cα ), alors : on rejette H0 (on accepte H1 ),

si on observe (v ≥ cα + 1), alors : on ne rejette pas H0 ,

où α est le niveau du test et cα est calculé comme précédemment.

Exemple 1. Soit X l’intervalle de temps en secondes entre deux appels téléphoniques à un standard.
On teste H0 : m = 6.2 contre H1 : m < 6.2. L’observation d’un échantillon de taille n = 8 nous
donne
6.8 5.7 6.9 5.3 4.1 3.8 1.7 6.0

On commence par “construire le test”, c’est-à-dire par calculer la règle de décision en fonction du
niveau désiré.
On s’impose le niveau α = 5%. Si V désigne le nombre aléatoire de valeurs de l’échantillon qui
dépassent 6.2, sous H0 , V suit la loi B(8, 12 ) et la lecture de la Table II de B(8, 12 ) nous donne

PH0 (V ≤ 0) = 0.0039, PH0 (V ≤ 1) = 0.0352, PH0 (V ≤ 2) = 0.1445.

Par conséquent c0.05 = 1. Notre règle de décision au niveau 5% est donc :

si on observe (v ≤ 1), alors : on rejette H0 (on accepte H1 ),

si on observe (v ≥ 2), alors : on ne rejette pas H0 .

Puisqu’on observe v = 2 valeurs supérieures à 6.2, on ne rejette pas H0 au niveau 5%.


C’est seulement pour des niveaux α ≥ 14.45% que l’on rejette H0 , à partir de nos observations.

Exemple 2. Pour tester les performances comparées de deux balles de golf de marque A et B, on
demande à 6 joueurs expérimentés de frapper ces balles (3 frappent A avant B et 3 frappent B
avant A). Pour chaque joueur, on note les longueurs LA et LB des trajectoires des deux balles.

Golfeur LA LB sgn(LA − LB )

1 265 252 +
2 272 276 −
3 246 243 +
4 260 246 +
5 274 275 −
6 263 246 +

Quelle est la meilleure balle ?


Avant tout, il convient de constater que les observations ne sont pas indépendantes. En effet,
les deux longueurs LA i et LB i provenant d’un même joueur i sont corrélées. Par contre, les
couples (LA , LB )i , i = 1, . . . , 6 sont indépendants les un des autres. En particulier, les différences

39
Di := (LA − LB )i , i = 1, . . . , 6 sont indépendantes les unes des autres. On dit que les observations
sont appariées.
Pour répondre à notre question, il faut se demander ce que sont les hypothèse nulle H0 et alternative
H1 . En notant m la médiane de la loi de D := LA − LB , on peut penser à H0 : m > 0 contre
H1 : m < 0. Mais cela présuppose qu’il y a nécessairement une balle effectivement meilleure que
l’autre, puisque la possibilité m = 0 n’est pas prise en compte. De plus, nous n’avons étudié que
des hypothèses nulles de la forme simple H0 : m = mo , alors que H0 : m > 0 est une hypothèse plus
complexe (dite multiple). En fait, il faudrait pouvoir faire un test des trois hypothéses H0 : m = 0,
H1 : m > 0 et H10 : m < 0. Ce qui est assez délicat. Nous n’aborderons pas cette question, mais
nous allons tester
H0 : m = 0 contre H1 : m 6= 0,

pour savoir s’il existe une différence significative entre les comportements des deux balles.
On est en présence d’un échantillon statistique de taille n (ici n = 6), de variables appariées
(Xi , Yi ), i = 1, . . . , n. On cherche à savoir si H0 : P (X < Y ) = 21 ou bien H1 : P (X < Y ) 6= 12 . Pour
cela on regarde les nouvelles variables aléatoires

Di = Xi − Yi , i = 1, . . . , n.

Elles forment un échantillon de la loi de D = X − Y, de médiane m et les hypothèses du test se


réécrivent
H0 : m = 0 et H1 : m 6= 0.

A chacun des Di , i = 1, . . . , n, on associe le nombre


½
1 si Di < 0
Yi =
0 si Di ≥ 0

de sorte que
U = Y1 + · · · Yn

est le nombre (aléatoire) des Di , i = 1, . . . , n qui sont plus petits que 0.


Les observations que l’on obtient sont d1 , . . . , dn , et on calcule le nombre u = y1 + · · · + yn des
di , i = 1, . . . , n qui sont plus petits que 0. Notre règle de décision est

si on observe (u ≤ c α2 ) ou (u ≥ n − c α2 ), alors : on rejette H0 ,

si on observe (c α2 + 1 ≤ u ≤ n − c α2 − 1), alors : on ne rejette pas H0 ,

où α est le niveau du test que nous nous imposons, c’est-à-dire la probabilité de rejeter H0 à tort :
PH0 (rejeter H0 ) ' α et c α2 se calcule comme cα (mais en remplaçant α par α2 ). En particulier,
lorsque n est grand, nous avons √
n z α2 n + 1
c α2 ' − .
2 2

zα n+1
n
Plus exactement, c α2 est le plus grand entier inférieur à 2 − 2
2 .

40
On rappelle que pour α = 5% : z α2 = z0.025 = 1.960, pour α = 10% : z α2 = z0.05 = 1.645 et pour
α = 20% : z α2 = z0.10 = 1.282.
La forme de cette règle de décision est basée sur la remarque de bon sens suivante : si m = 0, alors,
il y autant de chance pour que la variable aléatoire D soit positive ou négative. Donc les valeurs
typique de U (sous H0 ) se situent autour de n2 . On rejettera H0 si l’on observe une quantité u de
valeurs négatives, significativement éloignée de n2 . Notons que ce test est symétrique : on rejette
H0 si l’on observe une quantité v = n − u de valeurs positives, significativement éloignée de n2 . De
plus, puisque v + u = n, on a
(u ≤ c α2 ) ou (u ≥ n − c α2 ) ⇐⇒ (v ≤ c α2 ) ou (v ≥ n − c α2 ) et
(c α2 + 1 ≤ u ≤ n − c α2 − 1) ⇐⇒ (c α2 + 1 ≤ v ≤ n − c α2 − 1),
et la règle de décision est inchangée si l’on remplace u par v.
Appliquons ceci au test des balles de golf. La Table II de la loi B(6, 12 ) nous indique que

PH0 (U ≤ 0) = 0.0156, PH0 (U ≤ 1) = 0.1094 et PH0 (U ≤ 2) = 0.3438.

Avec α = 5%, nous avons c α2 = c0.025 = 0. D’ailleurs, même avec un niveau de 20%, nous prenons
encore c0.10 = 0. C’est-à-dire qu’avec ce niveau, on ne rejette H0 , que lorsque toutes les observations
de LA − LB sont positives ou bien toutes les observations de LA − LB sont négatives.
On a obtenu u = 2 observations de LA − LB négatives. Donc on ne rejette pas H0 aux niveaux 5%
et même 20% : il n’y a pas de différence significative de comportement entre les deux balles à ces
niveaux de test.
Puisque PH0 (U ≤ 2) = 0.3438, on ne rejette H0 avec nos observations qu’en prenant un niveau
α ≥ 2 × 0.3438 = 0.6876. Ce qui n’est pas raisonnable.
Exercices
1. Pour cet ensemble de données provenant d’un échantillon, tester H0 : m = 4.8 contre
H1 : m 6= 4.8. On faira usage d’un niveau de confiance approximativement égal à 10%.
1.0 10.3 16.7 38.4 2.4
2.6 8.9 36.3 27.1 3.8
1.9 0.9 0.4 9.2 3.0

2. Une enquête est menée auprès de 514 paires de frères (non jumeaux). Il apparaı̂t que pour 273
de ces paires, l’ainé a atteint un niveau d’étude plus élevé que le cadet. Y-a-t’il un effet de l’ordre
de naissance sur la réussite dans les études ? Faire des tests de niveaux 5 et 10%.
3. Dans une expérience pédagogique à l’école primaire, 14 paires d’enfants sont choisies de façon
à avoir, par paire, les mêmes capacités et le même milieu. On enseigne à lire à l’un d’eux par la
méthode globale et à l’autre par la méthode analytique. On obtient les notes suivantes

Globale 66 69 70 62 64 62 72 76 78 64 73 80 67 74

Analytique 64 68 69 60 66 61 70 75 72 65 70 78 68 72

41
Y-a-t-il une différence de résultats entre les deux méthodes ?

4. On effectue sur 10 personnes deux numérations globulaires à deux dates différentes. Les
résultats obtenus indiquent le nombre de globules rouges par mm3 , divisé par 100 000.

15 Janvier : 46 42 51 42 40 54 49 46 47 47
2 Septembre : 47 47 44 45 54 50 48 48 45 55

Y a-t-il évolution de la formule sanguine ?

5. Onze individus ont été traité avec le soporifique S et un produit inactif I. Pour chacun des 11
sujets, le temps de sommeil moyen après traitement a été enregistré. On a observé (en minutes)

Individu 1 2 3 4 5 6 7 8 9 10 11

S 560 470 580 570 550 480 460 540 620 550 620

I 590 530 430 360 430 570 490 480 380 400 350

Ces résultats permettent-ils d’affirmer que le soporifique S est efficace ?

6. 80 rats sont répartis en 40 paires d’individus de même poids. Dans chaque paire un rat est soumis
à un régime A, l’autre à un régime B. 28 des rats A pèsent plus lourd que leurs compagnons. Les
deux régimes sont-ils équivalents ?

7. On souhaite comparer deux médicaments sensés soulager la douleur post-opératoire. On a


observé sur 16 patients dont 8 ont pris un médicament A habituel et les 8 autres un médicament
B expérimental, les nombres suivants d’heures de soulagement

A 6,8 3,1 5,8 4,5 3,3 4,7 4,2 4,9

B 4,4 2,5 2,8 2,1 6,6 0,0 4,8 2,3

Que pensez-vous de la mise en place d’un test de l’existence d’une différence entre A et B ?

42
9

Le test du Khi-Deux d’ajustement

Le khi-2 (χ2 ) est un test simple basé sur les différences entre effectifs observés et effectifs théoriques.
Testons l’hypothèse nulle H0 suivante : les naissances en Suède se répartissent uniformément tout
au long de l’année. On dispose pour cela d’un échantillon observé de 88 naissances, groupées selon
des saisons de longueurs variables : Printemps (avril-juin ; 91 jours), Eté (juillet-août ; 62 jours),
Automne (septembre-octobre ; 61 jours), Hiver (novembre-mars ; 151 jours). Nous avons observé 26
naissances au printemps, ainsi que 21, 7 et 34 naissances en été, automne et hiver respectivement.
Sous H0 , on attend théoriquement un nombre de naissances proportionnel à la durée de la saison,
91 62 61
c’est-à dire 88 × 365 = 21.94 naissances au printemps, ainsi que 88 × 365 = 14.95, 88 × 365 = 14.71
151
et 88 × 365 = 36.40 naissances en été, automne et hiver respectivement. Soit le tableau :

Saison Effectif observé Effectif attendu sous Ho


Printemps : 1 26 21,94
Eté : 2 21 14,95
Automne : 3 7 14,71
Hiver : 4 34 36,40
Total 88 88

Faisons correspondre les indices 1, 2, 3 et 4 aux saisons : printemps, été, automne et hiver
respectivement. On note O1 = 26, O2 = 20, O3 = 8 et O4 = 34 les effectifs observés correspondants,
ainsi que T1 = 21, 94, T2 = 14, 95, T3 = 14, 71 et T4 = 36, 40 les effectifs attendus sous H0
correspondants.
Une mesure de la distance entre les effectifs observés et théoriques (attendus sous H0 ) devra
prendre en compte les écarts O1 − T1 , . . . , O4 − T4 . Pour avoir une idée de la taille globale de
la distance, il ne sert à rien de faire la somme des écarts puisque : (O1 − T1 ) + · · · + (O4 − T4 ) =
(O1 + · · · O4 ) − (T1 + · · · T4 ) = 88 − 88 = 0. On résoud le problème en élevant au carré chaque
(O − T )2
écart : (O − T )2 . Puis pour prendre en compte son importance relative en considèrant .
T
Finalement, pour la distance entre les effectifs observés et attendus sous H0 , on prend la somme

43
de la contribution de toutes les classes :

(O1 − T1 )2 (O2 − T2 )2 (O3 − T3 )2 (O4 − T4 )2


χ2 = + + +
T1 T2 T3 T4
2 2 2
(26 − 21, 94) (21 − 14, 95) (7 − 14, 71) (34 − 36, 40)2
= + + + = 7, 39
21, 94 14, 95 14, 71 36, 40

Un χ2 est positif et il ne vaut zéro que si les effectifs attendus sous H0 et observés coı̈ncident. Il
sera d’autant plus grand que les écarts entre effectifs attendus sous H0 et observés sont importants.
Par conséquent, on aura tendance à rejeter H0 lorsque la distance χ2 observée : χ2obs , sera grande.
La régle de décision sera de la forme

rejeter H0 si χ2obs > cα

où cα est une constante à déterminer selon le niveau α désiré.


Dans le cas présent, il y a 4 classes et on dira qu’il y a 4 − 1 = 3 degrés de liberté. Le seuil cα se lit
dans une table du khi-2 à 3 degrés de liberté. On lit dans la table que IP (χ23 > 7, 875) = 1 − IP (χ23 ≤
7, 815) = 1 − 0, 95 = 0, 05 et que IP (χ23 > 6, 251) = 1 − IP (χ23 ≤ 6, 251) = 1 − 0, 90 = 0, 10. Au
niveau α = 0, 05, on prend donc c0,05 = 7, 815 et au niveau α = 0, 10, on prend c0,10 = 6, 251. On
constate que notre distance observée χ2obs satisfait 6, 251 < χ2obs = 7, 39 < 7, 815, par conséquent on
rejette H0 au niveau 10% et on accepte H0 au niveau 5%.
De façon générale, soient r classes numérotées 1, 2, . . . , r. Elles sont représentées dans la population
selon certaines proportions inconnues p1 , . . . , pr respectivement (on a p1 + · · · + pr = 1). On cherche
à tester
H0 : p1 = π1 , p2 = π2 , . . . , pr = πr ,

où π1 , . . . , πr sont des proportions données telles que π1 +· · ·+πr = 1. Si on observe n individus, les
effectifs attendus sous H0 sont Ti = nπi pour les classes i = 1, . . . , r et le tableau des observations
prend la forme suivante :

Classe Effectif observé Effectif attendu sous Ho


1 O1 T1 = nπ1
2 O2 T2 = nπ2
.. .. ..
. . .
r Or Tr = nπr
Total n n

Dans l’exemple précédent, nous avions r = 4, n = 88, π1 = 91/365, π2 = 62/365, π3 = 61/365 = et


π4 = 151/365. La distance du χ2 est donnée par

(O1 − T1 )2 (Or − Tr )2
(9.1) χ2 = + ··· +
T1 Tr

44
que l’on note rapidement
X (O − T )2
(9.2) χ2 = ,
T
où la lettre grecque Σ (sigma) signifie “somme”. Le nombre de degrés de liberté est

(9.3) d.d.l. = r − 1,

ce qui signifie que l’on doit déterminer le seuil cα à l’aide de la table de la loi du khi-2 à (r − 1)
degrés de liberté :
IP (χ2r−1 > cα ) = α.
Exemple 1. Le Bureau de la statistique du gouvernement du Québec a dénombré 84 579 nouveau-
nés dans la province en 1986. De ce nombre, 43 220 étaient des garçons et 41 359 des filles. En
supposant que le sexe de nouveau-nés est déterminé au hasard (hypothèse H0 ), on se serait attendu
à avoir 84579 × 12 = 42289, 5 garçons et autant de filles. On trouve
(43220 − 42289, 5)2 (41359 − 42289, 5)2
χ2obs = +
42289, 5 42289, 5
= 40, 95.
On a r = 2, donc d.d.l. = 1, comme IP (χ21 > 6, 635) = 0, 01 et 40, 95 > 6, 635, on rejette l’hypothèse
H0 avec un niveau de 1%.
Avec le même niveau, on ne rejette pas l’hypothèse nulle de 51% de garçons et de 49% de filles
qui donnent des effectifs théoriques (attendus sous H0 ) de 84579 × 0, 51 = 43135, 29 garçons et
84579 × 0, 49 = 41443, 71 filles, car alors
(43220 − 43135, 29)2 (41359 − 41443, 71)2
χ2obs = +
43135, 29 41443, 71
= 0, 34 6> 6, 635.
Exemple 2. Voici les résultats obtenus par Mendel à la suite de croisements de pois hybrides quant
à la forme (lisse ou ridée) et à la couleur :

Graines Jaunes Vertes Total


Lisses 315 108 423
Ridées 101 32 133
Total 416 140 556

On veut tester l’hypothèse de la ségrégation mendélienne et de la recombinaison libre qui correspond


à H0 : π(LJ) = 9/16, π(LV ) = 3/16, π(RJ) = 3/16, π(RV ) = 1/16. Le tableau des effectifs
théoriques sous H0 est le suivant

Graines Jaunes Vertes Total


Lisses 312,75 104,25 423
Ridées 104,25 34,75 133
Total 416 140 556

45
9 3 1
En effet, 556 × 16 = 312, 75; 556 × 16 = 104, 25 et 556 × 16 = 34, 75.
2 2 2 2
On obtient χ2obs = (315−312,75)
312,75 + (108−104,25)
104,25 + (101−104,25)
104,25 + (32−34,75)
34,75 = 0, 47. Le nombre de
2 2
degrés deliberté est 4 − 1 = 3. Or, on a IP (χ3 > 0, 45) = 80% et IP (χ3 > 0, 71) = 70%, de sorte
qu’on accepte H0 au niveau 70% et donc à tous les niveaux inférieurs.

Exemple 3. Le tableau suivant donne les effectifs de pois selon la couleur des fleurs (Pourpre ou
Vermillon) et la forme du pollen (Allongé ou Rond) obtenus par Bateson en 1909 en croisant des
pois hybrides. On veut tester l’hypothèse de la ségrégation mendélienne et de la recombinaison libre
qui correspond à H0 : π(P A) = 9/16, π(P R) = 3/16, π(V A) = 3/16, π(V R) = 1/16.

Classe Effectif observé Effectif attendu sous Ho


PA 1528 2132 × 9/16 = 1199, 25
PR 106 2132 × 3/16 = 399, 75
VA 117 2132 × 9/16 = 399, 75
VR 381 2132 × 9/16 = 133, 25
Total 2 132 2 132

2 2 2
(381−133,25)2
On trouve alors χ2obs = (1528−1199,25)
1199,25 + (106−399,75)
399,75 + (117−399,75)
399,75 + 133,25 = 966, 61 et
IP (χ23 > 11, 3) = 0, 01. On rejette donc l’hypothèse au niveau 1%.

Une règle de validité des tests du khi-2 est que les effectifs théoriques par classe soient tous
supérieurs ou égaux à 5. Si ça n’est pas le cas, on regroupe certaines classes.

Exemple 4. D’après le document Current Housing Reports publié par le U.S. Bureau of the Census,
la distribution des modes de chauffage de maison est

Chauffage Gaz Fuel Electricité LPG Bois Autre


Pourcentage 56,7 14,3 16,0 4,5 6,7 1,8

On a sélectionné au hasard 200 maisons construites après 1974. Nos observations donnent

Chauffage Gaz Fuel Electricité LPG Bois Autre


Fréquence 91 16 110 14 17 2

Peut-on au vu de cet échantillon conclure que la distribution du mode de chauffage des maisons
construites après 1974 diffère de la distribution de l’ensemble des maisons américaines ? On prendra
α = 0, 05.
Il y a 6 classes dans cette expérience statistique. Mais, on constate que l’effectif théorique de la
classe“Autre” est 2OO ·1, 8% = 3, 6 < 5, on doit donc la regrouper avec une autre. On prend une
classe peu représentée, par exemple “Bois”, et on crée la classe “Bois et autre”. On a maintenant

46
r = 5 classes.

Classe Effectif observé Effectif attendu sous Ho


Gaz 91 200 × 0, 567 = 113, 4
Fuel 16 200 × 0, 143 = 28, 6
Electricité 110 200 × 0, 160 = 32
LPG 14 200 × 0, 045 = 9
Bois et autre 19 200 × 0, 085 = 17
Total 200 200

2 2 2 2 2 2
On obtient χ2obs = (91−113,4)
113,4 + (16−28,6)
28,6 + (110−32)
32 + (14−9)
9 + (19−17)
17 ≥ (110−32)
32 = 190, 125
qui est supérieur à 13, 28 : seuil de niveau 1% pour la loi du khi-2 à 5 − 1 = 4 degrés de liberté.
On rejette donc, au niveau 1%, l’hypothèse H0 de conservation du mode de chauffage domestique
avant et après 1974. On la rejette donc à plus forte raison au niveau α = 0, 05.

Exercices

1. La distribution de 300 accouchements selon les jours de la semaine est donnée par le tableau
de données suivant :

Jour L Ma Me J V S D Total

Effectif 50 42 47 42 44 40 35 300

Un administrateur d’hôpital vous demande de vérifier si les accouchements se répartissent uni-


formément. Répondez lui à l’aide d’un test de niveau 10%.

2. Dans une étude célèbre, des données ont été prélevées sur 6587 suicides en France. Voici la
distribution des suicides selon le jour de la semaine :

Jour L Ma Me J V S D Total

Effectif 1001 1035 982 1033 905 737 894 6587

Tester au niveau 10% l’hypothèse selon laquelle les suicides se répartissent uniformément sur les
jours de la semaine.

47
10

Le test du Khi-Deux d’independance

Contingence signifie dépendance, de sorte qu’un tableau de contingence est un tableau qui montre
comment une caractéristique dépend d’une autre. Le tableau suivant montre, par exemple, comment
le revenu Y (exprimé en milliers de $) dépend de la région X, dans un échantillon de 400 familles
américaines, en 1971.

Y : Revenu 0-5 5-10 10-15 15- Total

X : Région

Sud 28 42 30 24 124

Nord 44 78 78 76 276

Total 72 120 108 100 400

Dans le cas général, X peut prendre les r modalités i = 1, 2, . . . , r et Y les s modalités j = 1, 2, . . . , s.


Ici, r = 2, i ∈ {Nord, Sud} et s = 4, j ∈ {0-5, 5-10, 10-15, 15-}. Soient pX i = IP (X = i),
Y
pj = IP (Y = j) et pij = IP (X = i et Y = j). Avec cette notation, la proportion des individus de
la population appartenant à la classe i selon la variable X, est
pX
i = pi• := pi1 + pi2 + · · · + pis , pour tous les i = 1, . . . , r.

De même, la proportion des individus de la population appartenant à la classe j selon la variable


Y, est
pYj = p•j := p1j + p2j + · · · + prj , pour tous les j = 1, . . . , s.
Les variables X et Y sont indépendantes si
H0 : pij = pi• × p•j , pour tous les i = 1, . . . , r, j = 1, . . . , s.
Le problème qu’on se propose de résoudre est celui du test de cette hypothèse d’indépendance à
l’aide des résultats d’un échantillon de taille n extrait de la population.
Supposons qu’on observe nij individus appartenant à la cellule (i, j), il y a alors
ni• = ni1 + ni2 + · · · + nis
individus appartenant à la classe i pour X, et
n•j = n1j + n2j + · · · + nrj

48
Tableau 10.1. Tableau de contingence pour deux variables X et Y

Y: 1 2 ... j ... s Total

1 n11 n12 ··· n1j ··· n1s n1•

2 n21 n22 ··· n2j ··· n2s n2•


.. .. .. .. .. .. .. ..
. . . . . . . .

i ni1 ni2 ··· nij ··· nis ni•


.. .. .. .. .. .. .. ..
. . . . . . . .

r nr1 nr2 ··· nrj ··· nrs nr•

Total n•1 n•2 ··· n•j ··· n•s n

Tableau 10.2. Effectifs attendus sous l’hypothèse H0 d’indépendance

Y: 1 2 ... j ... s Total

n1• n•1 n1• n•2 n1• n•j n1• n•s


1 n n ··· n ··· n n1•

n2• n•1 n2• n•2 n2• n•j n2• n•s


2 n n ··· n ··· n n2•
.. .. .. .. .. .. .. ..
. . . . . . . .

ni• n•1 ni• n•2 ni• n•j ni• n•s


i n n ··· n ··· n ni•
.. .. .. .. .. .. .. ..
. . . . . . . .

nr• n•1 nr• n•2 nr• n•j nr• n•s


r n n ··· n ··· n nr•

Total n•1 n•2 ··· n•j ··· n•s n

49
individus appartenant à la classe j pour Y. Le nombre total d’individus de l’échantillon est n et on
a les égalités
XX
n= nij = n1• + · · · + nr• = n•1 + · · · + n•s .
i j

Présentées dans un tableau, ces informations forme le Tableau de contingence 10.1.


Les quantités ni• et n•j apparaissent aux extrêmes des rangées et des colonnes, ils sont appelés
effectifs marginaux des variables X etY. Pour un échantillon de taille n, on s’attend sous H0 à
observer pour la cellule (i, j) l’effectif
ni• n•j ni• n•j
npi• p•j = n = .
n n n
Cette situation est présentée dans le Tableau 10.2. Dans le tableau de contingence des revenus
américains, les effectifs attendus sous l’hypothèse H0 d’indépendance région/revenu sont :

0-5 5-10 10-15 15- Total

124×72 124×120 124×108 124×100


Sud 400 = 22, 32 400 = 37, 2 400 = 33, 48 400 = 31, 0 124

276×72 276×120 276×108 276×100


Nord 400 = 49, 68 400 = 82, 8 400 = 74, 52 400 = 69, 0 276

Total 72 120 108 100 400

Le Tableau 10.1 est celui des observations alors que le Tableau 10.2 est celui des effectifs théoriques
(attendus sous H0 ). On peut donc noter que l’observation de la cellule (i, j) est Oij = nij alors que
n n
sont analogue théorique est Tij = i•n •j . Par analogie avec (9.1) et (9.2), la distance du khi-2 est
donc
X X (Oij − Tij )2 X X (nij − ni• n•j )2
2 n
(10.1) χ = = ni• n•j
i j
Tij i j n

que l’on note rapidement

X X (O − T )2
(10.2) χ2 = .
T

Comme lors de la Leçon 9, χ2obs est positif et il ne vaut zéro que si les effectifs attendus sous H0 et
observés coı̈ncident. Il sera d’autant plus grand que les écarts entre effectifs attendus sous H0 et
observés sont importants. Par conséquent, on aura tendance à rejeter H0 lorsque la distance χ2obs
sera grande. La régle de décision sera de la forme

rejeter H0 si χ2obs > cα

où cα est une constante à déterminer selon le niveau α désiré.

50
Par contre contrairement à (9.3), pour le test d’indépendance le nombre de degrés de liberté n’est
pas rs − 1, mais il est égal à

(10.3) d.d.l. = (r − 1)(s − 1),

ce qui signifie que l’on doit déterminer le seuil cα à l’aide de la table de la loi du khi-2 à (r −1)(s−1)
degrés de liberté :
IP (χ2(r−1)(s−1) > cα ) = α.

Dans le cas qui nous intéresse, nous avons d.d.l. = (2 − 1)(4 − 1) = 3 et

(28 − 22, 32)2 (42 − 37, 2)2 (30 − 33, 48)2 (24 − 31, 0)2
χ2obs = + + +
22, 32 37, 2 33, 48 31, 0
2 2 2
(44 − 49, 68) (78 − 82, 8) (78 − 74, 52) (76 − 69, 0)2
+ + + + = 5, 81.
49, 68 82, 8 74, 52 69, 0

Puisque
IP (χ23 > 6, 251) = 0, 10

et que
χ2obs = 5, 81 < 6, 251,

on accepte H0 au niveau 10%, et à plus forte raison au niveau 5%.


Exemple 1. On reprend les données de l’exemple 2 de la Leçon 9, des pois de Mendel.

Graines Jaunes Vertes Total

Lisses 315 108 423

Ridées 101 32 133

Total 416 140 556

On veut tester l’indépendance des caractères “forme” et “couleur”. Le tableau des effectifs
théoriques est le suivant
Graines Jaunes Vertes Total

Lisses 316,49 106,51 423

Ridées 99,51 33,49 133

Total 416 140 556

2 2 2 2
On obtient χ2obs = (315−316,49)
316,49 + (108−106,51)
106,51 + (101−99,51)
99,51 + (32−33,49)
33,49 = 0, 116. Le nombre de
2
degrés deliberté est (2 − 1)(2 − 1) = 1. Or, on a IP (χ1 > 0, 116) = 66%, de sorte qu’on accepte

51
l’hypothèse H0 d’indépendance des caractères “forme” et “couleur” au niveau 66% et donc à tous
les niveaux inférieurs.
Exemple 2. Afin de savoir si les mathématiciens sont philosophes, on a relevé sur 100 bacheliers
les notes obtenues en Mathématiques et en Philosophie.

P: 0-3 4-7 8-11 12-15 16-20 Total

0-3 3 4 2 0 0 9

4-7 6 10 8 2 0 26

8-11 1 8 20 12 3 44

12-15 0 0 8 7 3 18

16-20 0 0 1 0 2 3

Total 10 22 39 21 8 100

Le tableau des effectifs attendus sous H0 est

P: 0-3 4-7 8-11 12-15 16-20 Total

0-3 0,9 1,98 3,51 1,89 0,72 9

4-7 2,6 5,72 10,14 5,46 2,08 26

8-11 4,4 9,68 17,16 9,24 3,52 44

12-15 1,8 3,96 7,02 3,78 1,44 18

16-20 0,3 0,66 1,17 0,63 0,24 3

Total 10 22 39 21 8 100

Un calcul un peu long nous permet de montrer que χ2obs = 51, 7346. Nous avons aussi d.d.l. =
(5−1)(5−1) = 16. La table χ2 (16) nous donne c0,05 = 26, 296, par conséquent on rejette l’hypothèse
d’indépendance au niveau 5%.
Exercices

52
1. La distribution suivante a été dressée par Haberman (1978) à partir de données fournies par le
National Opinion Research Center de l’Université de Chicago. Les variables sont le nombre d’années
de scolarité (X) et l’attitude face à l’avortement (Y ).

X : Scolarité Y : Pour Y : Indifférent Y : Contre

Moins de 8 ans 31 23 56

Entre 9 et 12 ans 171 89 177

Plus de 12 ans 116 39 74

Tester l’hypothèse selon laquelle X et Y sont indépendantes, au niveau 5%.

2. On a classé 217 enfants d’après leurs performances dans des tests de langage (L) et d’équilibre
physique (E). Tester au niveau 5% l’hypothèse de l’indépendance des performances de langage et
d’équilibre.
L1 L2 L3

E1 45 26 12

E2 32 50 21

E3 4 10 17

53
11

Le test du Khi-Deux d’homogeneite

Lors de trois sondages consécutifs, on a observé que respectivement 51%, 48% et 55% des répondants
étaient en faveur d’une politique donnée sur un total de 700, 900 et 800 répondants. Entre les
moments où ces sondages ont été réalisés, y a-t’il eu changement d’opinion au sujet de cette
politique ? Pour répondre à cette question, nous allons procéder à un test d’homogénéité.
Nous avons 3 populations correspondant aux 3 sondages (caractère X) réparties en 2 classes : “En
faveur” et “En défaveur” (caractère Y ).

Y En faveur En défaveur Total

1 357 343 700

2 432 468 900

3 440 360 800

Total 1229 1171 2400

Dans le cas général, la situation se présente sous la forme du Tableau 11.1.


Dans notre exemple, on pourra convenir de Y = 1 si l’individu est en faveur, et Y = 2 s’il est
en défaveur de la politique considérée. On a donc r = 3 et s = 2. Dire qu’il n’y a pas eu de
changement entre les différents sondages, c’est dire que les populations X = 1, X = 2 et X = 3 se
comportent de la même manière en ce qui concerne le caractère Y. On dit alors que ces populations
sont homogènes.
Dans le cas général, soit pij la proportion de la population X = i dans la classe Y = j, l’hypothèse
nulle d’homogénéité est

H0 : pij = pYj , pour tous les i = 1, . . . , r, j = 1, . . . , s

54
Tableau 11.1. Tableau de contingence pour un test d’homogénéité d’une variable Y

Y: 1 2 ... j ... s
Taille de
Population l’échantillon

1 n11 n12 ··· n1j ··· n1s n1•

2 n21 n22 ··· n2j ··· n2s n2•


.. .. .. .. .. .. .. ..
. . . . . . . .

i ni1 ni2 ··· nij ··· nis ni•


.. .. .. .. .. .. .. ..
. . . . . . . .

r nr1 nr2 ··· nrj ··· nrs nr•

Total n•1 n•2 ··· n•j ··· n•s n

Tableau 11.2. Effectifs attendus sous l’hypothèse H0 d’homogénéité

Y: 1 2 ... j ... s
Taille de
Population l’échantillon

n1• n•1 n1• n•2 n1• n•j n1• n•s


1 n n ··· n ··· n n1•

n2• n•1 n2• n•2 n2• n•j n2• n•s


2 n n ··· n ··· n n2•
.. .. .. .. .. .. .. ..
. . . . . . . .

ni• n•1 ni• n•2 ni• n•j ni• n•s


i n n ··· n ··· n ni•
.. .. .. .. .. .. .. ..
. . . . . . . .

nr• n•1 nr• n•2 nr• n•j nr• n•s


r n n ··· n ··· n nr•

Total n•1 n•2 ··· n•j ··· n•s n

55
où r est le nombre de populations et s le nombre de modalités du caractère Y. Puisqu’on a observé
ni• individus dans la population X = i et que sous H0 une bonne estimation de pYj est p•j , sous
H0 , l’effectif attendu de la cellule (i, j) est

ni• n•j
ni• × p•j = ,
n

ce qui nous donne le Tableau 11.2 d’effectifs attendus sous H0 .


Dans notre exemple, ce tableau des effectifs attendus sous H0 donne :

Y En faveur En défaveur Total

700×1229 700×1171
1 2400 = 358, 46 2400 = 341, 54 700

900×1229 900×1171
2 2400 = 460, 87 2400 = 439, 13 900

800×1229 800×1171
3 2400 = 409, 67 2400 = 390, 33 800

Total 1229 1171 2400

On constate que les formules sont les mêmes que celles du test du khi-2 d’indépendance traité à la
Leçon 10. En particulier, les Tableaux 11.1 et 11.2 sont identiques aux Tableaux 10.1 et 10.2.
Le Tableau 11.1 est celui des observations alors que le Tableau 11.2 est celui des effectifs théoriques
(attendus sous H0 ). On peut donc noter que l’observation de la cellule (i, j) est Oij = nij alors que
n n
sont analogue théorique est Tij = i•n •j . Par analogie avec (10.1) et (10.2), la distance du khi-2 est

X X (Oij − Tij )2 X X (nij − ni• n•j )2


2 n
(11.1) χ = = ni• n•j
i j
Tij i j n

que l’on note rapidement

X X (O − T )2
(11.2) χ2 = .
T

Comme lors de la Leçon 10, χ2obs est positif et il ne vaut zéro que si les effectifs attendus sous H0
et observés coı̈ncident. Il sera d’autant plus grand que les écarts entre effectifs attendus sous H0 et
observés sont importants. Par conséquent, on aura tendance à rejeter H0 lorsque la distance χ2obs
sera grande. La régle de décision sera de la forme

rejeter H0 si χ2obs > cα

où cα est une constante à déterminer selon le niveau α désiré.

56
Comme en (10.3), pour le test d’homogénéité le nombre de degrés de liberté est égal à

(11.3) d.d.l. = (r − 1)(s − 1),

ce qui signifie que l’on doit déterminer le seuil cα à l’aide de la table de la loi du khi-2 à (r −1)(s−1)
degrés de liberté :
IP (χ2(r−1)(s−1) > cα ) = α.

Remarque. La similarité des tests d’indépendance et d’homogénéité n’est pas fortuite. En fait,
un test d’homogénéité est un test d’indépendance. En effet, se poser la question : “Les
populations i = 1, . . . , r ont-elles un comportement homogène en regard de la variable Y ?”, c’est
se poser la question de l’indépendance de la variable population : X et de la variable Y.
Dans le cas qui nous intéresse, nous avons d.d.l. = (3 − 1)(2 − 1) = 2 et

(357 − 358, 46)2 (343 − 341, 54)2 (432 − 460, 87)2


χ2obs = + +
358, 46 341, 54 460, 87
2 2
(468 − 439, 13) (440 − 409, 67) (360 − 390, 33)2
+ + +
439, 13 409, 67 390, 33
= 8, 32.

puisque
IP (χ22 > 5, 99) = 0, 05

et que
χ2obs = 8, 32 > 5, 99,

on rejette l’hypothèse H0 d’homogénéité au niveau 5%.


Par contre, avec un niveau égal à 1%, on accepte l’hypothèse d’homogénéité car

IP (χ22 > 9, 21) = 0, 01

et
8, 32 6> 9, 21.

Exercices
1. A la sortie de deux salles de cinéma donnant le même film, on a interrogé des spectateurs
quant à leur opinion sur le film. Les résultats de ce sondage d’opinion sont les suivants

Mauvais film Bon film Total

Salle1 30 70 100

Salle 2 48 52 100

Total 78 122 200

57
Montrez que l’opinion est significativement liée à la salle, au niveau 5%.

2. Une enquête a été menée aux Etats-Unis pour obtenir des informations sur la consommation
d’alcool en fonction du statut familial. On a selectionné au hasard 1772 adultes de plus de 18 ans
et on a obtenu les résultats suivants (en nombre de verres par mois)

Aucun 1-60 Plus de 60 Total

Célibataire 67 213 74 354

Marié 411 633 129 1173

Veuf 85 51 7 143

Divorcé 27 60 15 102

Total 590 957 225 1772

Peut-on conclure au vu de ces résultats que le comportement des populations “Célibataire”,


“Marié”, “Veuf” et “Divorcé” vis-à-vis de la consommation d’alcool est globalement le même ?
On fera un test de niveau 1%.

58
12

Le test d’ajustement de Kolmogorov-Smirnov

Ce test statistique a la même fonction que le test d’ajustement du khi-deux. Il est basé sur une autre
méthode. D’une certaine manière, on peut dire que le test de Kolmogorov-Smirnov est plus général
que son analogue du khi-deux : il permet, contrairement au khi-deux qui n’est valide que pour des
échantillons de grande taille (supérieure à 30, en pratique), de travailler avec des petits échantillons,
mais aussi avec des grands. Dans ce dernier cas, les performances des deux tests d’ajustement sont
comparables.
Rappelons ce qu’est un test d’ajustement. A l’aide des données (x1 , . . . , xn ) provenant de
l’observation de n variables aléatoires indépendantes de même loi inconnue L à déterminer, on peut
donner une réponse statistique (c’est-à-dire entachée d’une erreur possible dont on peut évaluer la
probabilité, et d’autant plus fiable que le nombre n d’observations est grand) à la question : ”La loi
inconnue L de mes observations est-elle la loi Lo que je me donne ?” Par exemple, mes observations
proviennent-elles d’une loi uniforme sur [0, 365]?
Illustrons ce test à l’aide d’un exemple. Je cherche à tester la fiabilité du programme de tirage
uniforme aléatoire de ma calculette. Pour cela j’observe n = 10 résultats de tirages. Proviennent-ils
d’une loi uniforme sur [0, 1] : U(0, 1)? J’obtiens :

0.62, 0.36, 0.23, 0.76, 0.65, 0.09, 0.55, 0.26, 0.38 et 0.24.

Je les range par ordre croissant :

0.09, 0.23, 0.24, 0.26, 0.36, 0.38, 0.55, 0.62, 0.65 et 0.76.

Puis je dessine l’”escalier de répartition” correspondant, dont les marches sont de hauteur 1/n =
1/10 et se situent en chacune des valeurs observées. Si le tirage simule bien une loi U(0, 1), cet
escalier empirique, appelé Fn = F10 doit être proche de la fonction de répartition Fo de cette loi

0 si x ≤ 0
Fo (x) = x si 0 ≤ x ≤ 1

1 si x ≤ 1

59
qui est représentée sur la figure précédente à l’aide de la droite oblique. Justifions rapidement cette
proximité attendue de F10 et de Fo , si la loi de mes observations est bien de fonction de répartition
Fo . Dire : F10 (0.48) = 5/10 signifie que 5 de nos observations sont inférieures à 0.48. Dire que
Fo (0.48) = 0.48 signifie qu’une variable aléatoire de loi U (0, 1) prend une valeur inférieure à 0.48
avec une probabilité égale à 0.48 = 48%. Intuitivement, on s’attend bien à ce que ces quantités
soient proches si la loi de mes observations indépendantes est U (0, 1), et d’autant plus que le nombre
n des observations est grand. C’est une conséquence de la loi des grands nombres.
On rejettera donc l’hypothèse nulle

(H0 ) : la loi de mes observations indépendantes est U(0, 1)

si ces deux courbes sont ”trop éloignées”.


Le test est basé sur l’observation du plus grand écart : d10 , entre l’escalier de répartition F10 et la
fonction de répartition théorique de la loi sous (H0 ) : Fo . C’est-à-dire

d10 = sup |F10 (x) − Fo (x)|.


x∈IR

La lecture de la table de Kolmogorov-Smirnov nous indique que pour n = 10, au niveau α = 10%,
si d10 > 0.37 : on rejette H0 , et si d10 ≤ 0.37 : on ne rejette pas H0 . Dans le cas de notre expérience,
nous obtenons d10 = F10 (0.65) − Fo (0.65) = 0.25, qui est inférieur au seuil de rejet : 0.37. Donc, on
ne rejette pas H0 au niveau 10%.
On note que pour effectuer un test du khi-deux d’ajustement, outre que n = 10 est trop petit,
nous aurions été contraints de regrouper nos observations par classes. Par exemple en 4 classes
correspondant aux tirages qui tombent dans [0, 1/4[, [1/4, 1/2[, [1/2, 3/4[ et [3/4, 1]. Le test de
Kolmogorov-Smirnov est donc avatageux (par rapport au khi-deux) lorsqu’on teste l’ajustement
d’un échantillon à une loi de variable aléatoire continue.

60
Il arrive souvent, que lors d’une approche statistique, des expérimentateurs soient tentés par
l’hypothèse gaussienne. C’est-à-dire, que les tests statistiques mis en place soient construits sur des
variables aléatoires de loi normale. En pratique, cette hypothèse de travail peut ne pas correspondre
à la réalité, et sur des ”petits échantillons” cela provoque des erreurs parfois énormes. La littérature
des sciences humaines et médicales est malheureusement parsemée de tels abus. Il y a un moyen
d’y remédier. Commencer par un test de Kolmogorov-Smirnov du caractère gaussien des variables
aléatoires observées.

Exercice. On se propose de vérifier si les cinq observations suivantes proviennent d’une loi
normale N (3.1, 7.85). On a observé : 17.6, 4.5, -2.4, 2.5, 0.7. Si X suit une loi N (3.1, 7.85), alors
Z = X−3.1

7.85
' X−3.1
3.80 suit une loi normale centrée réduite : N (0, 1). Or, la fonction de répartition de
N (0, 1) est tabulée dans la Table I. On a donc accés à une Fo et à un escalier F5 pourvu que l’on
opère la même transformation : z = x−3.1
3.80 sur nos observations. Ceci nous donnent les 5 observations
modifiées, ordonnées de façon croissante : -1.45, -0.63, -0.16, 0.37, 3.82. Soit :

x −1.45 −0.63 −0.16 0.37 3.82


F5 (x) 0.2 0.4 0.6 0.8 1
Fo (x) 0.073 0.268 0.436 0.644 1

L’écart maximal entre Fo et F5 est obtenu tout juste à gauche de x = 3.82 et vaut d5 = 1 − 0.644 =
0.356.
On lit dans la table de Kolmogorov-Smirnov que pour n = 5, au niveau α = 20%, on rejette H0
lorsque d5 excède 0.45. Nous ne rejetons donc pas H0 au niveau 20% (et a fortiori à des niveaux
inférieurs).
Attention, ceci ne signifie pas que nos observations suivent effectivement la loi normale N (3.1, 7.85).
Mais seulement, que nous ne pouvons pas affirmer le contraire.

Exercices

1. Dix observations d’une variable aléatoire nous ont donné :

32.4, 6.2, 11.4, 27.3, 29.2, 17.0, 30.6, 21.6, 18.7, 8.0.

Tester l’hypothèse nulle que X suit la loi N (20, 100) avec α = 20%.

2. Les lois exponentielles servent souvent à modéliser des temps d’attente. Leur fonction de
répartition est de la forme
F (x) = 1 − exp(−x/θ), x ≥ 0

avec θ > 0, et F (x) = 0 si x ≤ 0. L’espérance de X est E(X) = θ. On observe huit temps d’attente
indépendants à un guichet, ce qui nous donne (en minutes) :

21, 19, 44, 2, 23, 15, 11, 34.

Tester l’hypothèse que le temps d’attente (exprimé en minute) suit une loi exponentielle de
paramètre θ = 15. On fera le test aux niveaux 20, 10, 5 et 1%.

61

Vous aimerez peut-être aussi