Notes de Cours - Stats Elementaires
Notes de Cours - Stats Elementaires
Christian Léonard
Département de mathématiques et informatique. Université Paris Ouest Nanterre
1
1
Alea jacta est. En lançant un dé, j’observe une quantité aléatoire susceptible de prendre les
valeurs 1, 2, 3, 4, 5 ou 6. Si mon dé est honnête, j’ai une chance sur six d’obtenir chacune de ces
valeurs. Nous dirons donc que la probabilité d’observer la valeur 4, par exemple, est 16 . Ce qui en
notant X le résultat aléatoire du lancer de dé, s’écrit symboliquement : P (X = 4) = 16 . On a de
même :
1
P (X = 1) = P (X = 2) = · · · = P (X = 6) = .
6
La probabilité d’observer 3 ou 5 est égale à
En d’autres termes, on a une chance sur trois d’observer soit 3, soit 5. Cette probabilité s’écrit
symboliquement P (X ∈ {3, 5}) = 13 . Remarquons que
P (X ∈ {3, 5}) = P (X = 3) + P (X = 5)
3 1
P (Y = 1) = P (X ∈ {1, 2, 3}) = = ,
6 2
2 1
de même P (Y = 5) = P (X ∈ {4, 5}) = 6 = 3 et P (Y = 35) = P (X = 6) = 16 .
Les comportements aléatoires de X et de Y sont entièrement décrits par les fonctions suivantes :
1
1
c’est-à-dire : pX (1) = · · · = pX (6) = 6 et pY (1) = 21 , pY (5) = 1
3 et pY (35) = 16 . Noter que
Or pX (1) + · · · + pX (6) = P (X ∈ {1, . . . , 6}) et pY (1) + pY (5) + pY (35) = P (Y ∈ {1, 5, 35}), de sorte
que les égalités précédentes signifient que j’ai 100% de chance d’obtenir (j’obtiens à coup sûr) une
valeur dans {1, . . . , 6} et de gagner soit 1 Fr, soit 5 Fr, soit 35 Fr.
Cet exemple motive les définitions suivantes.
On dit qu’une quantité aléatoire X susceptible de prendre un nombre fini : k, de valeurs numériques :
x1 , x2 , . . . , xk est une variable aléatoire discrète. Son comportement aléatoire est décrit par la
fonction
pX (x) = P (X = x), x = x1 , . . . , xk
qui satisfait les conditions
Au lieu de considérer les événements de la form (X = x), il sera pratique de s’intéresser à ceux
de la forme (X ≤ x) où x parcourt l’ensemble des nombres réels. Avec notre dé, nous avons par
exemple :
1 4 6
P (X ≤ 1) = , P (X ≤ 4) = P (X ∈ {1, 2, 3, 4}) = , P (X ≤ 6) = = 1
6 6 6
ainsi que
1
P (X ≤ 1.2) = P (X = 1) = et P (X ≤ 0.5) = 0.
6
L’égalité P (X ≤ 0.5) = 0 signifie qu’il y a une probabilité 0 (aucune chance) d’obtenir une face
dont le numéro est inférieur à 0.5. de même :
1
P (Y ≤ 1) = ,
2
1 1 5
P (Y ≤ 21.95) = P (Y ≤ 5) = P (Y = 1) + P (Y = 5) = + = et
2 3 6
P (Y ≤ 100) = P (Y ≤ 35) = P (Y = 1) + P (Y = 5) + P (Y = 35) = 1.
2
En notant ces probabilités cumulées FX (x) = P (X ≤ x) et FY (y) = P (Y ≤ y), nous avons les
représentations graphiques suivantes :
Dans le graphique de FX , la hauteur des marches est 16 alors que dans celui de FY , la hauteur de
la marche située en y = 1 est pY (1), celle de la marche située en y = 5 est pY (5), celle de la marche
située en y = 35 est pY (35) et celle de la marche située en y = 5.2 est P (Y = 5.2) = 0 : il n’y a pas
de marche à cet endroit.
FX (x) = P (X ≤ x), x ∈ IR
Voici le mode de calcul de FX . On ordonne les valeurs possibles de X par ordre croissant :
x1 ≤ x2 ≤ · · · ≤ xk . Si x est situé entre les j ème et (j + 1)ème valeurs : xj ≤ x < xj+1 , alors
FX (x) = pX (x1 ) + · · · + pX (xj−1 ) + pX (xj ). Si x < x1 , alors FX (x) = 0 et si x ≥ xk , alors
FX (x) = pX (x1 ) + · · · + pX (xk ) = 1.
Remarquons qu’une fonction de répartition croı̂t toujours de 0 à 1.
Soit A un ensemble de valeurs que X peut prendre. De deux choses l’une : soit X appartient à A,
soit X n’appartient pas à A. Cette remarque se traduit symboliquement par :
P (X ∈ A) + P (X 6∈ A) = 100% = 1.
3
avec la probabilité P (Y = 5) = 13 et 35 Fr avec la probabilité P (Y = 35) = 16 . Si un grand nombre
de parties a lieu, à peu près 1 partie sur 2 (proportion 12 ) lui coûtera 1 Fr, 1 partie sur 3 (proportion
1 1
3 ) lui coûtera 2 Fr et 1 partie sur 6 (proportion 6 ) lui coûtera 35 Fr. Donc, approximativement, en
moyenne une partie lui coûtera
1 1 1
·(1 Fr) + ·(5 Fr) + ·(35 Fr) = 8 Fr.
2 3 6
C’est-à-dire qu’elle s’attend à payer en moyenne 8 Fr par partie. Une telle moyenne pondérée
s’appelle l’espérance mathématique de Y. Si cette personne décide de proposer la partie à 10 Fr,
elle s’attend à gagner en moyenne 2 Fr par partie. Mais comme je ne perdrai pas plus de 9 Fr par
partie, il se peut je me laisse tenter par la possibilité du gain de 25 Fr.
La formule ci-dessus est un cas particulier de la formule générale de l’espérance mathématique E(Y )
d’une variable aléatoire Y de loi pY :
Pour une variable aléatoire discrète générale X, E(X) s’appelle sa moyenne. Si E(X) = µ, on
définit la variance de X par
4
Par exemple, si X est la face du dé, nous avons
1 1 1
E(X) = ·1 + ·2 + · · · + ·6 = 7/2 = 3.5.
6 6 6
et
1 1 1
Var(X) = ·(1 − 3.5)2 + · (2 − 3.5)2 + · · · + ·(6 − 3.5)2
6 6 6
= 35/12 = 2.917
p
et l’écart type est σ = 35/12 ' 1.708.
1 2 1 2 1
E(X 2 ) = ·1 + ·2 + · · · + ·62 = 15.167,
6 6 6
Un exemple important. Une des variables aléatoires les plus simples est X qui ne peut prendre
que deux valeurs. On choisit souvent pour ces deux valeurs : 0 et 1. La variable aléatoire prend la
valeur 1 avec la probabilité p où 0 ≤ p ≤ 1, elle prend donc l’autre valeur : 0, avec la probabilité
complémentaire : 1 − p. Sa loi est donc
pX (1) = p et pX (0) = 1 − p.
On dit que X suit une loi de Bernoulli de paramètre p. Ce que l’on note
X ∼ B(p).
Exercices
1. Dans un hall de gare se tiennent 50 personnes : 11 ont des revenus très faibles (Classe 1), 19
ont des revenus assez faibles (Classe 2), 14 ont des revenus moyens (Classe 3) et 6 ont des revenus
élevés (Classe 4). Une de ces personnes est interrogée au hasard. Soit X la variable aléatoire, à
valeurs dans {1, 2, 3, 4}, qui est égale à la classe de revenu de la personne interrogée.
Trouver la loi pX et la fonction de répartition FX de X.
En donner des représentations graphiques.
5
2. Deux des huit barrettes de mémoire de mon ordinateur sont défectueuses. Pour le réparer, je
décide de retirer au hasard 2 barrettes et de les remplacer par des barrettes en bon état. Soit X le
nombre de barrettes défectueuses qui se trouvent parmi les 2 barrettes que je viens de retirer.
Trouver la loi pX et la fonction de répartition FX de X.
En donner des représentations graphiques.
3. La loi pX de X est donnée par pX (0) = 3/10, pX (1) = 3/10, pX (2) = 1/10 et pX (3) = 3/10.
Calculer les moyenne, variance et écart-type de X.
4. On prend deux boules au hasard (sans remplacement) dans une urne qui contient 3 boules
vertes et 5 boules rouges. Soit X le nombre de boules vertes qui viennent d’être tirées. Calculer les
moyenne et variance de X.
6
2
Il existe des quantités aléatoires qui peuvent prendre une infinité de valeurs. Par exemple, si je joue
à Pile ou Face jusqu’à ce que j’obtienne Pile pour la première fois, le nombre de tirages X qu’il me
faut pour voir apparaı̂tre Pile une première fois peut prendre toutes les valeurs entières 1, 2, . . . .
Même si la probabilité que X dépasse 1000000000 est très faible, il est tout de même possible que
cet événement se produise.
Mais que penser de ma calculette qui possède un programme de tirage de nombres au hasard ?
Ces nombres sont tirés entre 0 et 1 et l’on m’a dit que tous ces nombres ont la même probabilité
d’être tirés. Soit X le nombre que me donne le programme de ma calculette. Je sais qu’à coup sûr
X ∈ [0, 1], ce qui s’écrit symboliquement :
([0, 1] désigne l’ensemble de tous les réels compris entre 0 et 1). Quelle est la probabilité que X
prenne exactement la valeur 0.2 ? Puisque ce tirage ne favorise ni ne défavorise aucune valeur de
[0, 1], je dois avoir
nombre de réels qui valent 0.2 parmi les réels de [0,1]
P (X = 0.2) =
nombre de réels de [0,1]
1
=
∞
= 0.
De sorte que pour tout x ∈ [0, 1], P (X = x) = 0. On ne s’est pas trompé en me disant que toutes
les valeurs sortent avec la même probabilité, mais ça ne m’avance pas pour calculer P (X ∈ [0, 12 ]).
Pourtant, il est clair que puisque 21 est le milieu de [0,1], il y a autant de chance pour que X soit
supérieur à 12 que pour que X lui soit inférieur. On a donc P (X ∈ [0, 21 ]) = P (X ∈ [ 12 , 1]) = 50% =
0.5.
Puisque 0.5 est la longueur des segments [0, 12 ] et [ 12 , 1], ceci nous suggére que le comportement
aléatoire de X est décrit, pour tous 0 ≤ a ≤ b ≤ 1, par
7
En particulier, en considérant des intervalles qui enserrent de plus en plus la valeur x = 0.2, nous
avons
P (X ∈ [0.15, 0.25]) = 0.10 = 10%
P (X ∈ [0.19, 0.21]) = 0.02 = 2%
P (X ∈ [0.199, 0.201]) = 0.002 = 0.2%
P (X = 0.2) = P (X ∈ [0.2, 0.2]) = 0.
Si le tirage de X est uniforme sur l’intervalle [0, L], plutôt que sur [0, 1], on doit bien sûr avoir P (X ∈
nombre d’événements favorables
[0, L]) = 100% = 1, et il est naturel de généraliser la formule :
nombre d’événements possibles
(pour ne privilégier ni ne défavoriser aucunes des valeurs de [0, L]), par :
En considérant la fonction ½ 1
si x ∈ [0, L]
fX (x) = L
0 si x ∈
6 [0, L]
b−a
l’interprétation graphique de la formule P (X ∈ [a, b]) = L est la suivante :
8
On appelle fX la densité de la loi de X et FX est sa fonction de répartition.
On peut généraliser cette façon de construire des quantités aléatoires, de la manière suivante. On
se donne une fonction f positive, dont le graphe est tel que
la surface comprise entre le graphe de f et l’axe horizontal est égale à 1. On décrit alors le
comportement d’une quantité aléatoire X par la formule
surface de
(1) P (X ∈ [a, b]) = surface de = , pour tous a ≤ b
surface de
la dernière égalité ayant lieu puisque surface de = 1. En particulier, pour tout x ∈ IR
P (X = xo ) = P (X ∈ [xo , xo ]) = surface de =0
et
P (X ∈ IR) = P (X ∈] − ∞, +∞[) = surface de = 1.
Nous donnons maintenant quelques définitions.
Une quantité aléatoire X dont le comportement est décrit par (1) est appelée une variable
aléatoire continue. La fonction f est sa densité. Sa fonction de répartition F est définie,
comme pour les variables aléatoires discrètes, par
9
Nous avons donc F (xo ) = surface de . Mathématiquement, la surface de
Rb
est donnée par l’intégrale a f (x) dx, donc
Z b
P (X ∈ [a, b]) = f (x) dx.
a
Rx
En particulier F (x) = −∞
f (t) dt et sa dérivée est F 0 (x) = f (x).
Une formule très utile au sujet des fonctions de répartition des variables aléatoires continues, est
celle-ci :
P (a ≤ X ≤ b) = F (b) − F (a), a ≤ b,
P (a ≤ X ≤ b) = P (X ≤ b) − P (X ≤ a)
= F (b) − F (a)
Si f est de la forme
et en notant E(X) = µ,
Z +∞
Var(X) = (x − µ)2 f (x) dx.
−∞
Dessinons le graphe de la densité f de X sur une plaque de bois régulière et découpons la partie
comprise entre l’axe horizontal et f. Si l’on cherche à maintenir cet objet découpé en équilibre sur
10
une pointe en contact avec l’axe horizontal Ox, le seul endroit où l’on peut placer la pointe se situe
en x = E(X) = µ.
Attention ! Si l’on découpe cet objet en suivant la droite verticale passant par E(X) = µ, les deux
morceaux ainsi obtenus n’ont pas nécessairement la même masse.
5
Exemples. Soit X un tirage aléatoire uniforme sur [0, 5], alors E(X) = 2 = 2.5 :
½
2y si y ∈ [0, 1]
On considère une variable aléatoire Y de densité : fY = . Alors, E(Y ) =
0 sinon
R R2
yfY (y) dy =10 2y 2 dy = 23 . Notons que P (Y ≤ 23 ) = 03 2y dy = 49 6= 12 .
p
La variance de X et son écart-type σ(X) = Var(X) sont des quantités qui mesurent la dispersion
des valeurs possibles de X autour de sa moyenne. Considérons les quatre fonctions de densité
suivantes
Nous avons : Var(X1 ) < Var(X0 ), Var(X2 ) > Var(X0 ) et Var(X3 ) > Var(X0 ).
11
Exercices
12
3
La loi normale
On dit qu’une variable aléatoire continue Z suit une loi normale centrée réduite, si sa densité
est définie par
1 z2
fZ (z) = √ e− 2 , z ∈ IR.
2π
On note N (0, 1) la loi normale centrée réduite ainsi que X ∼ N (0, 1) pour signifier que la variable
aléatoire X suit la loi N (0, 1).
La loi normale est une des lois les plus importantes pour les applications statistiques. Elle apparaı̂t
naturellement lorsqu’on observe des grands échantillons. Ce point sera détaillé lors de la Leçon 4 à
l’occasion du Théorème de la Limite Centrale. La représentation de fZ est
C’est la fameuse “courbe en cloche”. On remarque qu’elle est symétrique par rapport à l’axe vertical
et on en déduit que si Z ∼ N (0, 1), alors P (Z ≤ 0) = P (Z ≥ 0) = 12 et E(Z) = 0.
On note Φ la fonction de répartition de N (0, 1) :
Z t
1 z2
Φ(t) = P (Z ≤ t) = √ e− 2 dz, z ∈ IR.
−∞ 2π
La surface hachurée dans la figure ci-dessus est Φ(zo ). Il n’est pas possible d’évaluer l’intégrale ci-
dessus à l’aide d’une fonction usuelle. Par contre, des approximations numériques sont accessibles ;
elles ont été tabulées dans la Table I (de valeurs numériques).
13
En raison de la symétrie de fZ , on a : Φ(−t) = 1 − Φ(t).
C’est pourquoi, seules les valeurs de Φ(t) pour t ≥ 0 ont été considérées dans la Table I.
Exemple 1. Si Z ∼ N (0, 1), alors
E(Z) = 0 et Var(Z) = 1.
X = µ + σZ
où µ ∈ IR et Z suit un loi N (0, 1). On dit alors que X suit une loi normale de moyenne µ et de
variance σ 2 . Ce que l’on note : X ∼ N (µ, σ 2 ).
On peut en effet montrer que dans ce cas : E(X) = µ et Var(X) = σ 2 .
14
15
Il est clair que
X −µ
si X ∼ N (µ, σ 2 ), alors : ∼ N (0, 1).
σ
On utilise cette remarque de la façon suivante. Soient X ∼ N (µ, σ 2 ) et a ≤ b. Alors
µ ¶ µ ¶ µ ¶
a−µ X −µ b−µ b−µ a−µ
P (a ≤ X ≤ b) = P ≤ ≤ =Φ −Φ .
σ σ σ σ σ
Exemple 3. Si X ∼ N (3, 16), alors
µ ¶
4−3 X −3 8−3
P (4 ≤ X ≤ 8) = P ≤ ≤
4 4 4
= Φ(1.25) − Φ(0.25) = 0.8944 − 0.5987 = 0.2957,
µ ¶
0−3 5−3
P (0 ≤ X ≤ 5) = P ≤Z≤
4 4
= Φ(0.5) − Φ(−0.75) = Φ(0.5) + Φ(0.75) − 1 = 0.4649 et
µ ¶
−2 − 3 1−3
P (−2 ≤ X ≤ 1) = P ≤Z≤
4 4
= Φ(−0.5) − Φ(−1.25) = 0.2029.
Exemple 4. Si X ∼ N (25, 36), on veut une constante c telle que
P (|X − 25| ≤ c) = 0.9544.
On veut donc µ ¶
c X − 25 c
P − ≤ ≤ = 0.9544.
6 6 6
C’est-à-dire ³c´
h ³ c ´i
Φ − 1−Φ = 0.9544,
6 6
soit ³c´
Φ = 0.9772.
6
La lecture de la Table I, nous permet de voir que Φ(2) = 0.9772. Par conséquent, c/6 = 2 et c = 12.
Exercices
1. Si Z ∼ N (0, 1), trouver
a) P (0.53 < Z ≤ 2.06) b) P (−0.79 ≤ Z < 1.52)
c) P (−2.63 ≤ Z ≤ −0.51) d) P (Z > −1.77)
e) P (Z > 2.89) f) P (|Z| < 1.96)
g) P (|Z| < 1) h) P (|Z| < 2)
2. Un producteur de saucissons indique le poids 204 grammes sur ses produits. On suppose que
la loi des poids de ces saucissons est N (213.7, 16). Soit X le poids d’un saucisson pris au hasard à
la sortie de l’usine. Trouver P (X < 204).
3. Si X ∼ N (0.15, 0.25), trouver
a) P (0.53 < X ≤ 2.06) b) P (−0.79 ≤ X < 1.52)
c) P (−2.63 ≤ X ≤ −0.51) d) P (X > −1.77)
e) P (X > 2.89) f) P (|X| < 1.96)
g) P (|X| < 1) h) P (|X| < 2)
16
4
où les a1 , . . . , an parcourent toutes les valeurs possibles de X1 , . . . , Xn . Une propriété analogue
existe pour les variables aléatoires continues.
On appelle échantillon de taille n de la loi de X la donnée de n variables aléatoires réelles
X1 , . . . , Xn indépendantes, ayant toutes la même loi qu’une variable aléatoire X donnée.
Exemple 1. Par exemple, un échantillon de taille 25 de la loi N (−21, 15.2) est la donnée de variables
aléatoires X1 , . . . , X25 indépendantes qui suivent toutes la loi N (−21, 15.2).
17
Exemple 2. (Proportion d’une catégorie d’individus). Un exemple important est celui du tirage “au
hasard” (uniforme) dans une grande population d’individus dont une proportion p (0 ≤ p ≤ 1)
appartient à une catégorie particulière (par exemple : sensibilité politique, chômeur, homme,
femme, fumeur, salaire mensuel supérieur à 11000 francs, etc. . . ) On tire au hasard 100 individus
(i = 1, . . . , 100) dans cette population. La variable Xi prend la valeur xi = 1 si le ième individu
appartient à la catégorie étudiée ou la valeur xi = 0 sinon. Puisque le tirage est uniforme, Xi suit
une loi de Bernoulli de paramètre p, notée B(p) (voir la Leçon 1). Si les tirages sont indépendants,
X1 , . . . , X100 est un échantillon de taille 100 de la loi B(p).
A part l’exemple que nous venons de considérer, dans la pratique on ne connaı̂t pas, en général, avec
précision la forme de la loi des Xi que l’on observe. Toutefois, il est possible d’estimer la moyenne
µ := E(X1 ) = · · · = E(Xn ) à l’aide de la moyenne empirique observée
x1 + · · · + xn
x̄ = .
n
Une idée naturelle est de dire que µ ne doit pas être très éloignée de la moyenne empirique :
x1 + · · · + xn
µ ' x̄ = . Bien sûr, µ ne dépend pas de notre observation (c’est un paramètre
n
théorique que l’on cherche à estimer) et une autre expérience qui nous aurait amenés à observer
x0 + · · · + x0n
X1 = x01 , . . . , Xn = x0n , nous amènerait à la conclusion µ ' 1 de sorte qu’il est faux
n
d’affirmer que µ vaut x̄.
Heureusement, un résultat mathématique vient à notre secours.
Loi des Grands Nombres. Soit un grand nombre n de variables aléatoires indépendantes
X1 , . . . , Xn et de même loi (un échantillonde taille n). Alors, avec une probabilité proche de 100 %,
la variable aléatoire
X1 + · · · + Xn
X=
n
prend des valeurs proches de µ := E(X1 ) = · · · = E(Xn ).
La proximité de x̄ avec µ est d’autant plus grande que la taille n de l’échantillon est importante.
x1 + · · · + x25
Dans l’exemple 1, on peut s’attendre à ce que la moyenne empirique observée x̄ =
25
soit proche de la moyenne théorique µ = −21.
Dans l’exemple 2, la moyenne empirique observée
x1 + · · · + x100
x̄ =
100
nombre de d’individus dans l’échantillon appartenant à la catégorie étudiée
=
taille de l’échantillon
est la proportion observée d’individus dans l’échantillon appartenant à la catégorie étudiée. On peut
s’attendre à ce que cette proportion observée soit proche de la proportion p = E(X) d’individus
dans la population totale, appartenant à la de la catégorie étudiée.
Il existe un résultat mathématique plus précis que la loi des grands nombres ; il sera d’une
importance capitale dans la suite de ce cours. C’est le Théorème de la Limite Centrale.
18
Théorème de la Limite Centrale. Soit un grand nombre n de variables aléatoires indépendantes
X1 , . . . , Xn et de même loi (un échantillonde taille n). On note µ et σ 2 les moyenne et vari-
X1 + · · · + Xn
ance commune de X1 , . . . , Xn . Lorsque n est grand, la variable aléatoire X = suit
µ ¶ n
2
σ
approximativement la loi normale N µ, , même si les variables aléatoires ne sont pas normales.
n
Sous les mêmes conditions, ce théorème peut aussi s’énoncer des deux manières suivantes.
• X1 + · · · + Xn suit approximativement la loi normale N (nµ, nσ 2 ), ou
X −µ
• √ suit approximativement la loi normale N (0, 1).
σ/ n
Dans la pratique, on considère qu’à partir de n ≥ 30, n est suffisamment grand pour pouvoir
appliquer l’approximation du Théorème de la Limite Centrale.
Loi binômiale. Soient X1 , . . . , Xn des variables aléatoires indépendantes qui suivent une loi de
Bernoulli de paramètre p : B(p) (voir la Leçon 1). On considère leur somme
S = X1 + · · · + Xn .
C’est une variable aléatoire qui prend ses valeurs dans l’ensemble {0, 1, . . . , n}. Par définition, la
loi de S est la loi binômiale de paramètres n, p que l’on note B(n, p). Un calcul de dénombrement
nous donne, pour tout 0 ≤ k ≤ n,
IP (S = k) = Cnk pk (1 − p)n−k
n·(n−1)···(n−k+1)
où Cnk = k·(k−1)···2·1 est le nombre de parties à k éléments dans un ensemble à n éléments.
En fait, lorsque n devient grand, ces quantités et surtout des quantités comme IP (a ≤ S ≤ b)
deviennent difficiles à calculer, même avec des calculatrices puissantes. Heureusement, le Théorème
de la Limite Centrale va venir à notre secours, comme nous pourrons le constater dans l’exercice
suivant.
Approximation normale d’une loi binômiale. Soit S une variable aléatoire de loi binômiale
B(n, p). Par définition, ceci signifie que S peut s’écrire
S = X1 + · · · + Xn
où X1 , . . . , Xn sont des variables indépendantes de loi de Bernoulli de paramètre p (voir la Leçon
1). C’est-à-dire que Xi peut prendre les valeurs 0 ou 1 avec les probabilités P (Xi = 1) = p et
P (Xi = 0) = 1 − p, où 0 ≤ p ≤ 1. Lorsque n est grand (supérieur à 30 en pratique), on peut
appliquer le Théorème de la Limite Centrale avec µ = E(X) = p et σ 2 = Var(X) = p(1 − p). On
obtient que S = X1 +· · ·+Xn suit approximativement la loi normale N (np, np(1−p)). Pour calculer
la probabilité P (a ≤ S ≤ b) où a et b sont des entiers 0 ≤ a ≤ b ≤ n, on effectue l’approximation
19
suivante : µ ¶
1 1
P (a ≤ S ≤ b) = P a − ≤ S ≤ b +
2 2
à !
a − 12 − np S − np b + 12 − np
=P p ≤p ≤p
np(1 − p) np(1 − p) np(1 − p)
à !
a − 1 − np b + 1 − np
'P p 2 ≤Z≤ p 2
np(1 − p) np(1 − p)
à ! à !
b + 12 − np a − 21 − np
=Φ p −Φ p
np(1 − p) np(1 − p)
Exemple. On joue 10 fois à Pile ou Face. Soit S le nombre de Face obtenu. La loi de S est
parfaitement calculable à l’aide de dénombrements. On obtient en particulier que
627
P (5 ≤ S ≤ 8) = pS (5) + · · · + pS (8) = ' 0.6123.
1024
½
1 si Face
On peut écrire S = X1 + · · · + X10 où les Xi = sort au ième lancer, de sorte que
0 si Pile
µ = E(Xi ) = 12 et que Var(Xi ) = 12 (1 − 12 ) = 14 . Grâce au Théorème de la Limite Centrale, on sait
que S suit approximativement une loi N (10µ, 10σ 2 ) = N (5, 5/2). Ce phénomène est illustré par la
figure suivante.
20
S−5
Donc p suit approximativement une loi N (0, 1) et en notant Z une variable aléatoire de loi
5/2
N (0, 1) :
à !
4.5 − 5 S−5 8.5 − 5
P (5 ≤ S ≤ 8) = P (4.5 ≤ S ≤ 8.5) = P p ≤p ≤ p
5/2 5/2 5/2
' P (−0.32 ≤ Z ≤ 2.21) = Φ(2.21) − Φ(−0.32) = Φ(2.21) − (1 − Φ(0.32))
' 0.9864 − (1 − 0.6255) = 0.6119
ce qui est très proche du résultat exact : 0.6123.
La première égalité P (5 ≤ S ≤ 8) = P (4.5 ≤ S ≤ 8.5) s’appelle la “correction pour la continuité” :
on déplace les bornes à mi-chemin entre l’événement étudié et son complément. Si on l’avait négligée,
on aurait obtenu
à !
5−5 S−5 8−5
P (5 ≤ S ≤ 8) = P p ≤p ≤p
5/2 5/2 5/2
' P (0 ≤ Z ≤ 1.90) = Φ(1.90) − Φ(0) = 0.4713
qui est une moins bonne approximation que la précédente.
Notons que si la variable aléatoire à approximer par une variable aléatoire normale est continue,
on n’a pas besoin de la correction pour la continuité.
Exercices
1. Supposons que les poids des adultes (en kg) sont d’écart-type 12 kg. On prélève un échantillon
de taille n pour estimer la moyenne inconnue µ de la population par la moyenne empirique X.
Quelle est la probabilité que l’écart entre X et µ soit supérieure à 5 kg si
a) n = 12 b) n = 25 c) n = 35 d) n = 50 ?
2. Sondage : On veut connaı̂tre la proportion p des gens qui, dans la population générale, sont
en faveur d’une certaine proposition. Dans un échantillon de n personnes, on obtiendra X réponses
favorables à la proposition en question. Notons p̂ = X/n la proportion expérimentale des réponses
favorables.
a) Si n = 100 et p = 0.5, déterminer P (p̂ > 0.6).
b) Si n = 100 et p = 0.4, déterminer P (p̂ > 0.5).
c) Si n = 100 et p = 0.4, déterminer approximativement c afin que P (p − c < p̂ < p + c) ' 90%.
d) Si n = 1000 et p = 0.4, déterminer approximativement c afin que P (p − c < p̂ < p + c) ' 90%.
3. Deux archers s’affrontent dans un concours de tir à l’arc. À chaque tir, Gaston a 50% de
chance d’atteindre la cible. Légèrement plus habile, René atteint la cible avec une probabilité de
60%. Chacun tire 20 flèches. Calculer :
a) la probabilité que Gaston ait plus de 13 coups au but.
b) la probabilité que Gaston gagne le tournoi.
c) la probabilité que René gagne le tournoi.
d) la probabilité d’un match nul.
21
5
Un cas d’école. Dans un premier temps, on suppose que l’on observe un échantillon aléatoire
X1 , . . . , Xn d’une loi (commune à X1 , . . . , Xn ) de la moyenne µ inconnue et de variance σo2 connue.
On cherche à estimer la moyenne µ à partir de l’observation x1 , . . . , xn de notre échantillon. Si
n est grand, la Loi des Grands Nombres nous permet d’affirmer qu’avec une grande probabilité µ
n’est pas très éloigné de la moyenne empirique observée :
x1 + · · · + xn
µ ' x̄ = .
n
Bien sûr, µ ne dépend pas de notre observation (c’est un paramètre théorique que l’on cherche à
estimer) et une autre expérience qui nous aurait amené à observer X1 = x01 , . . . , Xn = x0n , nous
x0 + · · · + x0n
amènerait à la conclusion µ ' 1 , de sorte qu’il est faux d’affirmer que µ vaut x̄.
n
De manière à prendre en compte les fluctuations du hasard, nous allons estimer µ à l’aide d’un
intervalle de confiance (une fourchette d’estimation). La technique mathématique repose sur
le Théorème de la Limite Centrale qui énonce que si X1 , . . . , Xn est un échantillon d’une loi de
moyenne µ et de variance σo2 , en posant
X1 + · · · + Xn
X= ,
n
nous avons approximativement
X −µ
Zn := √ ∼ N (0, 1).
σo / n
Ce résultat est faux si les X1 , . . . , Xn ne sont pas supposées indépendantes.
De ce fait, pour toute probabilité (1 − α) (0 ≤ α ≤ 1), on peut trouver dans la Table I le nombre
z α2 tel que
µ ¶
X −µ
P −z α2 ≤ √ ≤ z α2 = P (−z α2 ≤ Zn ≤ z α2 )
σo / n
' P (−z α2 ≤ Z ≤ z α2 ) = 1 − α,
où Z suit une loi normale N (0, 1).
22
Des valeurs souvent utilisées sont
α = 10% → 1 − α = 90% et z α2 = z0,05 ' 1, 645
α = 5% → 1 − α = 95% et z α2 = z0,025 ' 1, 960
α = 1% → 1 − α = 99% et z α2 = z0,005 ' 2, 576
X −µ
−z α2 ≤ √ ≤ z α2
σo / n
σo σo
−z α2 √ ≤ X − µ ≤ z α2 √
n n
σo σo
−X − z α2 √ ≤ −µ ≤ −X + z α2 √
n n
σo σo
X + z α2 √ ≥ µ ≥ X − z α2 √
n n
Par conséquent
σo σo
P (X − z α2 √ ≤ µ ≤ X + z α2 √ ) ' P (−z α2 ≤ Z ≤ z α2 ) = 1 − α
n n
est un intervalle connu. C’est l’intervalle de confiance pour µ avec coefficient de sécurité
(1 − α).
Exemple 1. On suppose que des notes d’examen (sur 100), ont une loi de moyenne µ inconnue et
d’écart-type σo = 15. Un échantillon de taille n = 25 est observé, on trouve x̄ = 69, 2. Alors
µ ¶ µ ¶
σo 15
x̄ ± 1, 645· √ ou 69, 2 ± 1, 645· √ ou [64.265, 74.135]
n 25
Exemple 2. Soit x̄ la moyenne empirique observée sur un échantillon de taille 16 d’une distribution
(loi) normale N (µ, 23.04). Un intervalle de confiance pour µ avec coefficient de sécurité 90% est
" r r #
23.04 23.04
x̄ − 1.645· , x̄ + 1.645· .
16 16
23
Pour une observation particulière de x̄, cet intervalle contient ou ne contient pas la valeur inconnue
µ. Toutefois, si un grand nombre de tels intervalles est (observé et) calculé, il reste vrai qu’à peu
près 90% d’entre eux contiennent la moyenne µ.
Sur un ordinateur, 15 échantillons de taille16 d’une distribution (loi) normale N (5, 23.04) ont été
simulés. Pour chacun de ces 15 échantillons, nous avons calculé l’intervalle de confiance pour µ
avec coefficient de sécurité 90%, comme si la moyenne µ était inconnue. Sur la figure suivante sont
représentés ces 15 intervalles : 13 d’entre eux (soit 86.7%) contiennent la moyenne µ = 5.
Dans la pratique. Dans la pratique il n’y a aucune raison, si on ne connaı̂t pas la moyenne µ, de
connaı̂tre l’écart-type σ. Dans ce cas, l’intervalle de confiance obtenu plus haut, étant fonction de
σ = σo , n’est pas accessible au calcul. Une fois de plus, c’est la grande taille n de l’échantillon qui
va nous permettre de nous en sortir. En effet, la Loi des Grands Nombres nous permet d’estimer la
variance σ 2 inconnue à l’aide des observations X1 , . . . , Xn . Un estimateur naturel de la variance est
la variance empirique de l’échantillon, déjà rencontré en Statistique Descriptive. Il est donné
par
1 h i
S2 = (X1 − X)2 + · · · + (Xn − X)2 .
n−1
1
On note s2 = 2 2
n−1 [(x1 − x̄) +· · ·+(xn − x̄) ] sa valeur observée. De même, un estimateur naturel de
24
l’écart-type : l’écart-type empirique de l’échantillon, déjà rencontré en Statistique Descriptive
est donné par r
√
2
1 h i
S= S = (X1 − X)2 + · · · + (Xn − X)2 .
n−1
√ q
1
On note s = s2 = 2 2
n−1 [(x1 − x̄) + · · · + (xn − x̄) ] sa valeur observée. On peut montrer
mathématiquement, que lorsque n est grand, l’écart-type empirique observé : s, est proche de
l’écart-type théorique inconnu σ :
s ' σ.
Il est alors possible de remplacer dans la formule de l’intervalle de confiance trouvée plus haut, la
valeur σo par la valeur observée : s, ce qui nous donne le résultat suivant.
Si les observations sont indépendantes et de même loi, l’intervalle observé
· ¸
s s
x̄ − z α2 √ , x̄ + z α2 √
n n
est l’intervalle de confiance pour µ avec coefficient de sécurité (1 − α).
Important. En pratique, on considère que n est suffisamment grand, lorsque n ≥ 30.
Ceci signifie à peu près, qu’avec une probabilité 1−α, l’intervalle de confiance [x̄−z α2 √sn , x̄+z α2 √sn ]
contient la vraie valeur inconnue µ de la moyenne.
Nous terminons cette leçon en rappelant une formule bien pratique pour le calcul de la variance
empirique
1
s2 = [(x1 − x̄)2 + · · · + (xn − x̄)2 ]
n−1
(x1 )2 + · · · + (xn )2 n 2
= − (x̄) .
n−1 n−1
Par exemple, sur cinq observations x1 = 2.4, x2 = 3.4, x3 = 5.2, x4 = −0.8, x5 = 1.0, on obtient
x1 + · · · + x5 = 11.2 et (x1 )2 + · · · + (x5 )2 = 46. Ceci nous donne :
x̄ = 11.2
5 = 2.24,
(x1 )2 +···+(x5 )2
s2 = 4 − 54 (x̄)2 = 46 5 2
4 − 4 (2.24) = 5.228 ou bien
2 2 2 2
(2.4−2.24) +(3.4−2.24) +(5.2−2.24) +(−0.8−2.24) +(1.0−2.24)2
s2 = = 5.228, c’est-à-dire
√ 4
s= 5.228 = 2.2865.
Exercices
1. Un échantillon aléatoire de taille 28 nous donne x1 +· · ·+x28 = 122.70 ainsi que x21 +· · ·+x228 =
697.89. Trouver des intervalles de confiance pour la moyenne avec le coefficient de sécurité
a) 99% b) 95% c) 90% d) 80%.
2. Trouver un intervalle de confiance pour µ avec coefficient de sécurité : 75%, pour les
observations :
x1 = 624 x2 = 532 x3 = 565 x4 = 492
x5 = 407 x6 = 591 x7 = 611 x8 = 558
x9 = 631 x10 = 542 x11 = 587 x12 = 452
x13 = 406 x14 = 592 x15 = 641 x16 = 568
x17 = 625 x18 = 502 x19 = 687 x20 = 522
25
3. Une observation d’un échantillon de taille n nous donne x̄ = 7.21 et s = 3.10. On veut annoncer
un intervalle de confiance pour µ avec coefficient de sécurité 99%. A partir de quelles valeurs de n,
l’intervalle de confiance a-t’il une largeur inférieure à ±0.1 ? Même question avec ±0.01.
z α2 ·s √ z α ·s
Réponse. On cherche n tel que : √ ≤ 0.1. Soit n ≥ 2 . Donc, en élevant les deux membres
n 0.1
µ ¶
z α2 ·s 2
de cette inégalité au carré : n ≥ . Puisque 1 − α = 99%, α/2 vaut 0.5% et on lit dans
0.1
µ ¶2
2, 576·3, 10
la table I que z 2 = 2.576. Finalement, n ≥
α ' 6377. Il faut donc un échantillon de
0, 1
taille au moins 6377 pour pouvoir annoncer un intervalle de confiance pour µ avec le coefficient de
sécurité 99% et la précision ±0.1.
Lorsqu’on cherche la précision ±0.01, le même raisonnement nous amène à
µ ¶2
2, 576·3, 10
n≥ ' 637700. Il faut donc un échantillon de taille au moins 637700 pour pouvoir
0, 01
annoncer un intervalle de confiance pour µ avec le coefficient de sécurité 99% et la précision ±0.01.
26
6
Nous cherchons à estimer la proportion d’une catégorie particulière d’individus (par exemple :
sensibilité politique, chômeur, homme, femme, fumeur, salaire mensuel supérieur à 11000 francs,
etc. . . ) au sein d’une population totale (voir l’Exemple 2 de la Leçon 4, où cette question a déjà
été abordée). Soit p (0 ≤ p ≤ 1) cette proportion qui nous est inconnue avec exactitude, à moins
d’interroger toute la population. Pour l’estimer, nous tirons au hasard n individus dans la population
totale, c’est-à-dire que nous effectuons n tirages indépendants et uniformes. On observe, dans cet
échantillon, une proportion
où xi est la réalisation d’une variable aléatoire Xi qui prend la valeur Xi = 1 si le ième individu
appartient à la catégorie étudiée ou la valeur Xi = 0 sinon. Puisque le tirage est uniforme, Xi suit
une loi de Bernoulli de paramètre p, notée B(p) (voir la Leçon 1), où p est la vraie proportion à
estimer. Puisque les tirages sont indépendants, X1 , . . . , Xn est un échantillon de taille n de la loi
B(p). Lorsque n est grand, nous sommes dans les conditions d’application de la Loi des Grands
Nombres qui affirme que l’observation p̂ = x̄ est proche avec une grande probabilité de la moyenne
théorique µ = E(X). Or, lorsque X suit une loi B(p), on a
Nous avons donc, lorsque n est grand, avec une grande probabilité :
p̂ ' p.
27
En fait, les résultats de la Leçon h5 nous permettent deidonner un intervalle de confiance pour p.
σo σo
Nous savons que si Var(X) = σo , x̄ − z α2 √ n
, x̄ + z α2 √ n
est un intervalle de confiance pour µ avec
p
le coefficient
· de sécurité (1 − α). Dans¸ la situation présente, puisque σo = p(1 − p), ceci signifie
q q
p(1−p) p(1−p)
que p̂ − z α2 n , p̂ + z α2 n est un intervalle de confiance pour p avec le coefficient de
sécurité (1 − α).
Malheureusement, les bornes de cet intervalle s’expriment à l’aide de la proportion p inconnue. Cet
intervalle de confiance n’est donc pas calculable à l’aide de l’observationq
p̂. Toutefois, nous
q avons
p̂(1−p̂) p̂(1−p̂)
vu que p ' p̂, de sorte que p(1 − p) ' p̂(1 − p̂) et que l’intervalle [p̂ − z α2 n , p̂ + z α2 n ]
est proche du précédent. Par conséquent :
L’intervalle observé " r r #
p̂(1 − p̂) p̂(1 − p̂)
p̂ − z α2 , p̂ + z α2
n n
est l’intervalle de confiance pour la proportion p avec coefficient de sécurité (1 − α).
Important. Cet intervalle n’est valable que lorsque np̂ ≥ 6 et n(1 − p̂) ≥ 6.
Exemple 1. Lors d’un sondage auprès de 500 personnes et portant sur leurs opinions politiques, 180
personnes se sont déclarées favorables au parti A. Estimer la proportion p des gens favorables au
parti A au moyen d’un intervalle de confiance de coefficient de sécurité 90%.
Solution : On a p̂ = 180/500 = 0.360. Pour avoir 1 − α = 90%, il faut prendre z α2 = 1.645. Il ne
reste plus qu’à employer la formule
à r ! à r !
p̂(1 − p̂) 0.36 × 0.64
p̂ ± z α2 = 0.360 ± 1.645
n 500
= (0.360 ± 0.035) = [0.325, 0.395].
Remarque. Lorsqu’on estime un paramètre au moyen d’un intervalle de confiance, deux qualités
espérées : précision et sécurité, sont en opposition. On ne peut améliorer l’une sans diminuer
l’autre. Si l’on exige beaucoup de sécurité (risque α très petit), on obtiendra un intervalle de
confiance plus large que si l’on se contente d’une sécurité plus raisonnable. Si l’on veut beaucoup de
précision (intervalle étroit), il faudra “payer” cette précision par un risque d’erreur plus considérable.
La seule façon d’obtenir à la fois une bonne précision et une grande sécurité est de ne pas lésiner
sur la valeur de n, ce qui n’est pas toujours économique.
Exemple 2. Avec n = 100, on a obtenu p̂ = 0.21. Calculer les intervalles de confiance avec coefficient
de sécurité 50%, 10%, 5%, 1% et 0.1% pour p.
Solution : Les cinq valeurs de α donnent des z α2 qui valent respectivement : 0.674, 1.645, 1.960,
2.576 et 3.291. Les cinq intervalles de confiance sont présentés dans le tableau suivant.
1−α z α2 Intervalle de confiance Longueur
28
Lequel de ces cinq intervalles de confiance est le meilleur ? Assurément, un risque de α = 50%
est beaucoup trop fort et le premier intervalle n’est pas très satisfaisant. De même, un coefficient
de sécurité de 99.9% paraı̂t exagéré et rend l’intervalle de 30% plus large que celui obtenu avec
1 − α = 99%. En général, on choisit α entre 1% et 10%, selon le contexte et l’importance relative
de nos besoins en précision et en sécurité.
Exemple 3. Si l’on sait déjà que la valeur du paramètre p est voisine de 0.15, combien d’observations
doit-on effectuer pour que l’intervalle de confiance de coefficient de sécurité 95% pour p soit de
demi-longueur approximative 0.05 ? 0.02 ? 0.01 ?
Solution : Puisque 1 − α = 95%, on doit prendre z α2 = 1.960. La demi-longueur : r, de l’intervalle
q
de confiance sera donc 1.960 p̂(1− n
p̂)
. On ne sait pas à l’avance quelle sera la valeur de p̂, mais on
peut s’attendre à ce qu’il prenne une valeur voisine de p qu’on a supposé proche de 0.15. On a donc
approximativement r
0.15 × 0.85 0.700
r ' 1.960 = √ .
n n
En exprimant n en fonction de r, on obtient n ' 0.49/r2 et en donnant successivement à r les
valeurs 0.05, 0.02 et 0.01 on obtient pour n les valeurs 196, 1 225 et 4 900.
En fait, il n’y a pas de raison en général pour supposé a priori que p est proche d’une valeur donnée
à l’avance. C’est pourquoi, nous considérons le problème qui suit.
Exemple 4. Combien d’observations doit-on effectuer afin que, quelle que soit la valeur de p,
l’intervalle de confiance de coefficient de sécurité 95% pour p soit de demi-longueur au plus 0.05 ?
0.03 ? 0.02 ? 0.01 ?
Solution : La demi-longueur de l’intervalle de confiance de coefficient de sécurité 95% est
r
p̂(1 − p̂)
1.960 .
n
Or, la valeur maximale pour p̂(1 − p̂) est 1/4 (quand p̂ = 1/2). Quelle que soit la valeur de p̂, la
√ √
demi-longueur maximum de l’intervalle de confiance vaut `max = 1.960/ 4n = 0.98/ n. Pour avoir
` ≤ `max , il faut prendre n ≥ (0.98/`max )2 . En donnant successivement à `max les valeurs 0.05, 0.03,
0.02 et 0.01, on obtient n ≥ 385, n ≥ 1068, n ≥ 2401 et n ≥ 9604.
Exercices
1. Sur un échantillon tiré au hasard de 500 électeurs, 254 ont déclaré être favorables à une
proposition gouvernementale et prévoient de voter oui pour cette proposition. Donner un intervalle
de confiance, avec coefficient de sécurité 90%, pour la proportion p dans la population totale des
électeurs favorables à cette proposition.
2. Un étudiant a pipé un dé en perçant des trous en deux points et en les remplissant d’un métal
lourd. Pour estimer la probabilité p de sortir un quatre avec ce dé pipé, l’étudiant le lance 600 fois
et observe un quatre 87 fois.
a) Construire un intervalle de confiance pour p avec coefficient de sécurité 90%.
29
b) Est-ce que l’étudiant a réussi a faire décroı̂tre la fréquence de sortie du quatre ?
c) Que se passe-t’il avec un coefficient de sécurité de 80% ?
3. Un grossiste en café souhaite savoir si une nouvelle marque plus chère a la préférence des
consommateurs. Sur un échantillon de 90 consommateurs, 53 ont déclaré préférer la nouvelle
marque. Donner un intervalle de confiance avec coefficient de sécurité 95%, pour le pourcentage des
consommateurs qui préfèrent la nouvelle marque.
30
7
Du nouveau a Evry-la-Garenne ?
A la suite d’une enquête menée en 1980 à Évry-la-Garenne, il apparaissait que 50% des foyers
avaient un revenu mensuel inférieur à 7.4 KFr (en franc constant). Une seconde enquête est menée
en 1992 auprès de 10 foyers. Les revenus mensuels obtenus sont (en KFr) :
10.0 7.8 10.4 11.0 5.6 12.2 12.8 5.2 3.4 8.6
Peut-on affirmer que les revenus ont globalement augmenté depuis 1980 ?
Il ne s’agit plus d’estimer un paramètre inconnu (moyenne, proportion), mais de répondre par oui
ou non à la question : “Les revenus ont-ils augmenté dans l’ensemble ?” Quelle que soit la réponse,
elle sera susceptible d’être vraie ou fausse, dans la mesure où nous n’interrogeons pas tous les foyers
d’Évry-la-Garenne. On peut même se douter qu’avec un aussi petit échantillon d’enquête, notre
incertitude sera grande.
Notre but est, dans un premier temps, de préciser la question, et donc le type de réponse que nous
allons y apporter et, dans un deuxième temps, de quantifier la probabilité de donner une réponse
exacte.
Précision de la question. L’information que nous avons est que 50 % des foyers en 1980 avaient
un revenu inférieur à 7.4. Nous allons donc essayer de savoir si la proportion des foyers dont le revenu
est inférieur à 7.4 a diminué de 1980 à 1992. Pour cela, nous introduisons la notion mathématique
de médiane d’une loi de variable aléatoire.
31
Soit X une variable aléatoire de densité fX . Sa médiane m est un nombre réel tel que FX (m) :=
P (X ≤ m) = 50% (voir la figure ci-dessus).
H0 : m = 7.4
H1 : m > 7.4
laquelle a le plus chance d’être vraie, compte tenu des résultats de notre enquête.
Notons que nous supposons a priori que m ≥ 7.4, c’est-à-dire que la médiane n’a pas pu décroı̂tre.
Une réponse statistique. Notons X le revenu d’un foyer tiré au hasard, ainsi que
p := P (X ≤ 7.4).
Ce sont des variables aléatoires indépendantes qui suivent une loi de Bernoulli de paramètre
p = P (X ≤ 7.4) : Yi ∼ B(p), i = 1, . . . , 10. On en déduit que la variable aléatoire
U := Y1 + · · · + Y10 ∼ B(10, p)
suit une loi binômiale : B(10, p), où p est un paramètre inconnu (voir la Leçon 4, pour la loi
binômiale).
En particulier,
Si H0 est vraie, alors : U ∼ B(10, 12 ).
32
En d’autres termes, sous H0 , le nombre de revenus inférieurs à 7.4 : U, a la même loi que le nombre
de Pile en jouant 10 fois à Pile ou Face.
Si H1 est vraie, on peut s’attendre à ce que la valeur observée : u, de U soit plus petite que les
valeurs typiques de U sous H0 . Nous prenons donc une règle de décision de la forme suivante
où c est un seuil de décision que nous allons déterminer en fonction du risque d’erreur que nous
nous autorisons.
On cherche à “contrôler” la probabilité de se tromper en prenant notre décision.
Une première manière de se tromper est de prendre la décision de rejeter H0 , alors que H0 est
vraie. Avec notre règle de décision, cette erreur se produit lorsque, sous H0 , on observe l’évènement
(U ≤ c). La probabilité d’une telle erreur est donc PH0 (U ≤ c), c’est-à-dire la probabilité en jouant
10 fois à Pile ou Face d’observer Pile c fois ou moins.
Par exemple, si l’on choisit c = 0, 1, 2 ou 3, on lit dans la Table II de la loi binômiale, que
Une autre manière de se tromper est de prendre la décision de ne pas rejeter H0 , alors que H1 est
vraie. La probabilité d’une telle erreur est PH1 (U ≥ c + 1). Supposons que le paramètre inconnu p
vaille effectivement p = PH1 (X ≤ 7.4) = 0.30. Dans ce cas, U ∼ B(10, 0.3) et avec c = 0, 1, 2 ou 3,
on lit dans la Table II que
On peut faire un calcul analogue pour toutes les valeurs de p. On rassemble ces calculs pour p = 0.1
et p = 0.3 dans le tableau ci-dessous.
On se rend compte sur ce tableau, que si on cherche à rendre petit la probabilité d’erreur PH0 (U ≤ c)
en faisant décroı̂tre c, l’autre probabilité d’erreur PH1 (U ≥ c+1) grandit. D’autre part, la probabilité
33
d’erreur PH1 (U ≥ c + 1) diminue à mesure que le paramètre p inconnu s’éloigne de 12 . Il semble,
qu’un équilibre à peu près satisfaisant se trouve autour des valeurs de PH0 (U ≤ c) proches de 5%.
On se donne une probabilité d’erreur α de l’ordre de 5% (par exemple α = 1%, 5% ou 10%) et on
choisit une valeur entière cα de c telle que PH0 (U ≤ cα ) soit proche de α et
PH0 (U ≤ cα ) ≤ α.
Dans notre exemple, avec α = 6%, on choisit cα = c0.06 = 2. Notre règle de décision au niveau
α = 6% est donc :
si on observe (u ≤ 2), alors : on rejette H0 (on accepte H1 ),
PH1 (U ≥ 3) 0.9004 0.8327 0.7384 0.6172 0.4744 0.3222 0.1798 0.0702 0.0115
Ce qui nous donne la courbe
En prenant connaissance de cette courbe, les services sociaux d’Évry-la-Garenne ont décidé de
mener une enquête plus sérieuse. Cette fois-ci, 100 foyers ont été consultés : sur ces 100 foyers, 35
ont un revenu inférieur à 7.4. Que conclure au niveau α = 5%?
On reprend la même démarche, mais cette fois-ci
En particulier, sous H0 , p = 12 et U ∼ B(100, 12 ). On cherche c = c0.05 tel que PH0 (U ≤ c) ' 0.05.
L’approximation normale (voir la Leçon 4), nous permet de dire que U suit approximativement une
loi N (100· 21 , 100· 12 (1 − 21 )) = N (50, 25), donc
U − 50 U − 50
sous H0 , √ = ∼ N (0, 1).
25 5
34
De ce fait, on prend c tel que
µ ¶ µ ¶
U − 50 c + 0.5 − 50 c + 0.5 − 50
PH0 (U ≤ c + 0.5) = PH0 ≤ =P Z≤ = 0.05
5 5 5
c−49.5
où Z ∼ N (0, 1) et +0.5 est la correction de continuité. C’est-à-dire : 5 = −1.645, donc
c = 49, 5 − 5·(1, 645) = 41, 275 qui n’est pas un entier, on lui préfère
c = 41
PH1 (U ≥ 42) 0.7591 0.3797 0.0865 0.0060 8·10−5 10−5 '0 '0 '0
35
On constate avec soulagement que les probabilités d’accepter H0 à tort sont considérablement plus
faibles avec une enquête menée auprès de 100 personnes, plutôt qu’auprès de 10.
La conclusion de notre test est la suivante : puisque nous avons observé 35 foyers sur 100 dont les
revenus sont inférieurs à 7.4, compte tenu de notre règle de décision, nous acceptons H1 au niveau
α = 5%. Ceci signifie que la probabilité de nous tromper en rejetant H0 est inférieure à 5%.
Si l’on avait observé 44 foyers sur 100 dont les revenus étaient inférieurs à 7.4, compte tenu de
notre règle de décision, nous n’aurions pas rejeté H0 au niveau α = 5%. Rapidement parlé, nous
aurions accepté H0 . La probabilité de se tromper dans une telle situation dépend de la valeur du
paramètre inconnu p : pour p = 0.45, elle est de 0.7591 ; pour p = 0.40, elle est de 0.3797 et pour
p = 0.35, elle est de 0.0865. Par conséquent, la probabilité de cette erreur devient raisonnablement
petite si p est plus petit que 0.35. Le problème est que lorsque 0.35 < p < 0.50, on peut facilement
ne pas rejeter H0 . En conclusion : seul le rejet de H0 est significatif.
36
8
Le test du signe
Le test que nous avons mis en place à la Leçon 7 s’appelle un test du signe. Nous le reprenons ici
dans un cadre général. Ce test sert à décider si l’hypothèse H0 : m = mo est vérifiée, où m est
la médiane de la loi d’une variable aléatoire X continue et mo est une valeur que l’on se donne
(mo = 7.4 dans l’exemple de la leçon précédente).
L’hypothèse H0 est appelée l’hypothèse nulle. On peut considérer les trois hypothèses alter-
natives : H1 : m > mo , H1 : m < mo ou bien H1 : m 6= mo . Chacune correspond à des règles de
décision de forme différente. Considérons pour le moment, l’hypothèse alternative
H1 : m > mo ,
de sorte que
U = Y1 + · · · Yn
où α est le niveau du test que nous nous imposons (α = 1%, 5%, 10%, etc. . . ), c’est-à-dire la
probabilité de rejeter H0 à tort :
PH0 (rejeter H0 ) ' α.
37
En d’autres termes, on calcule le seuil cα de sorte que
PH0 (U ≤ cα ) ' α.
p = P (X < mo )
U ∼ B(n, p).
1
En particulier, sous H0 , par définition de la médiane m = mo , nous avons p = 2 et
1
sous H0 , U ∼ B(n, ).
2
où Φ est la fonction de répartition de la loi N (0, 1). Comme d’habitude, on note zα le nombre qui
satisfait
Φ(zα ) = 1 − α.
On rappelle que pour α = 2.5% : zα = z0.025 = 1.960, pour α = 5% : zα = z0.05 = 1.645 et pour
α = 10% : zα = z0.10 = 1.282.
Il satisfait aussi Φ(−zα ) = α, puisque Φ ³est symétrique
´ par rapport à zéro. De ce fait, la définition
de cα : PH0 (U ≤ cα ) ' α s’écrit aussi Φ 2cα√ +1−n
n
' Φ(−z α ). Donc, cα est solution de l’équation
2cα√
+1−n
n
' −zα , soit
√
n zα n + 1
cα ' − .
2 2
√
n zα n+1
Plus exactement, cα est le plus grand entier inférieur à 2 − 2 .
38
Les observations que l’on obtient sont x1 , . . . , xn , et on calcule le nombre v = z1 + · · · + zn des
xi , i = 1, . . . , n qui sont plus grands que mo . Notre règle de décision est
Exemple 1. Soit X l’intervalle de temps en secondes entre deux appels téléphoniques à un standard.
On teste H0 : m = 6.2 contre H1 : m < 6.2. L’observation d’un échantillon de taille n = 8 nous
donne
6.8 5.7 6.9 5.3 4.1 3.8 1.7 6.0
On commence par “construire le test”, c’est-à-dire par calculer la règle de décision en fonction du
niveau désiré.
On s’impose le niveau α = 5%. Si V désigne le nombre aléatoire de valeurs de l’échantillon qui
dépassent 6.2, sous H0 , V suit la loi B(8, 12 ) et la lecture de la Table II de B(8, 12 ) nous donne
Exemple 2. Pour tester les performances comparées de deux balles de golf de marque A et B, on
demande à 6 joueurs expérimentés de frapper ces balles (3 frappent A avant B et 3 frappent B
avant A). Pour chaque joueur, on note les longueurs LA et LB des trajectoires des deux balles.
Golfeur LA LB sgn(LA − LB )
1 265 252 +
2 272 276 −
3 246 243 +
4 260 246 +
5 274 275 −
6 263 246 +
39
Di := (LA − LB )i , i = 1, . . . , 6 sont indépendantes les unes des autres. On dit que les observations
sont appariées.
Pour répondre à notre question, il faut se demander ce que sont les hypothèse nulle H0 et alternative
H1 . En notant m la médiane de la loi de D := LA − LB , on peut penser à H0 : m > 0 contre
H1 : m < 0. Mais cela présuppose qu’il y a nécessairement une balle effectivement meilleure que
l’autre, puisque la possibilité m = 0 n’est pas prise en compte. De plus, nous n’avons étudié que
des hypothèses nulles de la forme simple H0 : m = mo , alors que H0 : m > 0 est une hypothèse plus
complexe (dite multiple). En fait, il faudrait pouvoir faire un test des trois hypothéses H0 : m = 0,
H1 : m > 0 et H10 : m < 0. Ce qui est assez délicat. Nous n’aborderons pas cette question, mais
nous allons tester
H0 : m = 0 contre H1 : m 6= 0,
pour savoir s’il existe une différence significative entre les comportements des deux balles.
On est en présence d’un échantillon statistique de taille n (ici n = 6), de variables appariées
(Xi , Yi ), i = 1, . . . , n. On cherche à savoir si H0 : P (X < Y ) = 21 ou bien H1 : P (X < Y ) 6= 12 . Pour
cela on regarde les nouvelles variables aléatoires
Di = Xi − Yi , i = 1, . . . , n.
de sorte que
U = Y1 + · · · Yn
où α est le niveau du test que nous nous imposons, c’est-à-dire la probabilité de rejeter H0 à tort :
PH0 (rejeter H0 ) ' α et c α2 se calcule comme cα (mais en remplaçant α par α2 ). En particulier,
lorsque n est grand, nous avons √
n z α2 n + 1
c α2 ' − .
2 2
√
zα n+1
n
Plus exactement, c α2 est le plus grand entier inférieur à 2 − 2
2 .
40
On rappelle que pour α = 5% : z α2 = z0.025 = 1.960, pour α = 10% : z α2 = z0.05 = 1.645 et pour
α = 20% : z α2 = z0.10 = 1.282.
La forme de cette règle de décision est basée sur la remarque de bon sens suivante : si m = 0, alors,
il y autant de chance pour que la variable aléatoire D soit positive ou négative. Donc les valeurs
typique de U (sous H0 ) se situent autour de n2 . On rejettera H0 si l’on observe une quantité u de
valeurs négatives, significativement éloignée de n2 . Notons que ce test est symétrique : on rejette
H0 si l’on observe une quantité v = n − u de valeurs positives, significativement éloignée de n2 . De
plus, puisque v + u = n, on a
(u ≤ c α2 ) ou (u ≥ n − c α2 ) ⇐⇒ (v ≤ c α2 ) ou (v ≥ n − c α2 ) et
(c α2 + 1 ≤ u ≤ n − c α2 − 1) ⇐⇒ (c α2 + 1 ≤ v ≤ n − c α2 − 1),
et la règle de décision est inchangée si l’on remplace u par v.
Appliquons ceci au test des balles de golf. La Table II de la loi B(6, 12 ) nous indique que
Avec α = 5%, nous avons c α2 = c0.025 = 0. D’ailleurs, même avec un niveau de 20%, nous prenons
encore c0.10 = 0. C’est-à-dire qu’avec ce niveau, on ne rejette H0 , que lorsque toutes les observations
de LA − LB sont positives ou bien toutes les observations de LA − LB sont négatives.
On a obtenu u = 2 observations de LA − LB négatives. Donc on ne rejette pas H0 aux niveaux 5%
et même 20% : il n’y a pas de différence significative de comportement entre les deux balles à ces
niveaux de test.
Puisque PH0 (U ≤ 2) = 0.3438, on ne rejette H0 avec nos observations qu’en prenant un niveau
α ≥ 2 × 0.3438 = 0.6876. Ce qui n’est pas raisonnable.
Exercices
1. Pour cet ensemble de données provenant d’un échantillon, tester H0 : m = 4.8 contre
H1 : m 6= 4.8. On faira usage d’un niveau de confiance approximativement égal à 10%.
1.0 10.3 16.7 38.4 2.4
2.6 8.9 36.3 27.1 3.8
1.9 0.9 0.4 9.2 3.0
2. Une enquête est menée auprès de 514 paires de frères (non jumeaux). Il apparaı̂t que pour 273
de ces paires, l’ainé a atteint un niveau d’étude plus élevé que le cadet. Y-a-t’il un effet de l’ordre
de naissance sur la réussite dans les études ? Faire des tests de niveaux 5 et 10%.
3. Dans une expérience pédagogique à l’école primaire, 14 paires d’enfants sont choisies de façon
à avoir, par paire, les mêmes capacités et le même milieu. On enseigne à lire à l’un d’eux par la
méthode globale et à l’autre par la méthode analytique. On obtient les notes suivantes
Globale 66 69 70 62 64 62 72 76 78 64 73 80 67 74
Analytique 64 68 69 60 66 61 70 75 72 65 70 78 68 72
41
Y-a-t-il une différence de résultats entre les deux méthodes ?
4. On effectue sur 10 personnes deux numérations globulaires à deux dates différentes. Les
résultats obtenus indiquent le nombre de globules rouges par mm3 , divisé par 100 000.
15 Janvier : 46 42 51 42 40 54 49 46 47 47
2 Septembre : 47 47 44 45 54 50 48 48 45 55
5. Onze individus ont été traité avec le soporifique S et un produit inactif I. Pour chacun des 11
sujets, le temps de sommeil moyen après traitement a été enregistré. On a observé (en minutes)
Individu 1 2 3 4 5 6 7 8 9 10 11
S 560 470 580 570 550 480 460 540 620 550 620
I 590 530 430 360 430 570 490 480 380 400 350
6. 80 rats sont répartis en 40 paires d’individus de même poids. Dans chaque paire un rat est soumis
à un régime A, l’autre à un régime B. 28 des rats A pèsent plus lourd que leurs compagnons. Les
deux régimes sont-ils équivalents ?
Que pensez-vous de la mise en place d’un test de l’existence d’une différence entre A et B ?
42
9
Le khi-2 (χ2 ) est un test simple basé sur les différences entre effectifs observés et effectifs théoriques.
Testons l’hypothèse nulle H0 suivante : les naissances en Suède se répartissent uniformément tout
au long de l’année. On dispose pour cela d’un échantillon observé de 88 naissances, groupées selon
des saisons de longueurs variables : Printemps (avril-juin ; 91 jours), Eté (juillet-août ; 62 jours),
Automne (septembre-octobre ; 61 jours), Hiver (novembre-mars ; 151 jours). Nous avons observé 26
naissances au printemps, ainsi que 21, 7 et 34 naissances en été, automne et hiver respectivement.
Sous H0 , on attend théoriquement un nombre de naissances proportionnel à la durée de la saison,
91 62 61
c’est-à dire 88 × 365 = 21.94 naissances au printemps, ainsi que 88 × 365 = 14.95, 88 × 365 = 14.71
151
et 88 × 365 = 36.40 naissances en été, automne et hiver respectivement. Soit le tableau :
Faisons correspondre les indices 1, 2, 3 et 4 aux saisons : printemps, été, automne et hiver
respectivement. On note O1 = 26, O2 = 20, O3 = 8 et O4 = 34 les effectifs observés correspondants,
ainsi que T1 = 21, 94, T2 = 14, 95, T3 = 14, 71 et T4 = 36, 40 les effectifs attendus sous H0
correspondants.
Une mesure de la distance entre les effectifs observés et théoriques (attendus sous H0 ) devra
prendre en compte les écarts O1 − T1 , . . . , O4 − T4 . Pour avoir une idée de la taille globale de
la distance, il ne sert à rien de faire la somme des écarts puisque : (O1 − T1 ) + · · · + (O4 − T4 ) =
(O1 + · · · O4 ) − (T1 + · · · T4 ) = 88 − 88 = 0. On résoud le problème en élevant au carré chaque
(O − T )2
écart : (O − T )2 . Puis pour prendre en compte son importance relative en considèrant .
T
Finalement, pour la distance entre les effectifs observés et attendus sous H0 , on prend la somme
43
de la contribution de toutes les classes :
Un χ2 est positif et il ne vaut zéro que si les effectifs attendus sous H0 et observés coı̈ncident. Il
sera d’autant plus grand que les écarts entre effectifs attendus sous H0 et observés sont importants.
Par conséquent, on aura tendance à rejeter H0 lorsque la distance χ2 observée : χ2obs , sera grande.
La régle de décision sera de la forme
où π1 , . . . , πr sont des proportions données telles que π1 +· · ·+πr = 1. Si on observe n individus, les
effectifs attendus sous H0 sont Ti = nπi pour les classes i = 1, . . . , r et le tableau des observations
prend la forme suivante :
(O1 − T1 )2 (Or − Tr )2
(9.1) χ2 = + ··· +
T1 Tr
44
que l’on note rapidement
X (O − T )2
(9.2) χ2 = ,
T
où la lettre grecque Σ (sigma) signifie “somme”. Le nombre de degrés de liberté est
(9.3) d.d.l. = r − 1,
ce qui signifie que l’on doit déterminer le seuil cα à l’aide de la table de la loi du khi-2 à (r − 1)
degrés de liberté :
IP (χ2r−1 > cα ) = α.
Exemple 1. Le Bureau de la statistique du gouvernement du Québec a dénombré 84 579 nouveau-
nés dans la province en 1986. De ce nombre, 43 220 étaient des garçons et 41 359 des filles. En
supposant que le sexe de nouveau-nés est déterminé au hasard (hypothèse H0 ), on se serait attendu
à avoir 84579 × 12 = 42289, 5 garçons et autant de filles. On trouve
(43220 − 42289, 5)2 (41359 − 42289, 5)2
χ2obs = +
42289, 5 42289, 5
= 40, 95.
On a r = 2, donc d.d.l. = 1, comme IP (χ21 > 6, 635) = 0, 01 et 40, 95 > 6, 635, on rejette l’hypothèse
H0 avec un niveau de 1%.
Avec le même niveau, on ne rejette pas l’hypothèse nulle de 51% de garçons et de 49% de filles
qui donnent des effectifs théoriques (attendus sous H0 ) de 84579 × 0, 51 = 43135, 29 garçons et
84579 × 0, 49 = 41443, 71 filles, car alors
(43220 − 43135, 29)2 (41359 − 41443, 71)2
χ2obs = +
43135, 29 41443, 71
= 0, 34 6> 6, 635.
Exemple 2. Voici les résultats obtenus par Mendel à la suite de croisements de pois hybrides quant
à la forme (lisse ou ridée) et à la couleur :
45
9 3 1
En effet, 556 × 16 = 312, 75; 556 × 16 = 104, 25 et 556 × 16 = 34, 75.
2 2 2 2
On obtient χ2obs = (315−312,75)
312,75 + (108−104,25)
104,25 + (101−104,25)
104,25 + (32−34,75)
34,75 = 0, 47. Le nombre de
2 2
degrés deliberté est 4 − 1 = 3. Or, on a IP (χ3 > 0, 45) = 80% et IP (χ3 > 0, 71) = 70%, de sorte
qu’on accepte H0 au niveau 70% et donc à tous les niveaux inférieurs.
Exemple 3. Le tableau suivant donne les effectifs de pois selon la couleur des fleurs (Pourpre ou
Vermillon) et la forme du pollen (Allongé ou Rond) obtenus par Bateson en 1909 en croisant des
pois hybrides. On veut tester l’hypothèse de la ségrégation mendélienne et de la recombinaison libre
qui correspond à H0 : π(P A) = 9/16, π(P R) = 3/16, π(V A) = 3/16, π(V R) = 1/16.
2 2 2
(381−133,25)2
On trouve alors χ2obs = (1528−1199,25)
1199,25 + (106−399,75)
399,75 + (117−399,75)
399,75 + 133,25 = 966, 61 et
IP (χ23 > 11, 3) = 0, 01. On rejette donc l’hypothèse au niveau 1%.
Une règle de validité des tests du khi-2 est que les effectifs théoriques par classe soient tous
supérieurs ou égaux à 5. Si ça n’est pas le cas, on regroupe certaines classes.
Exemple 4. D’après le document Current Housing Reports publié par le U.S. Bureau of the Census,
la distribution des modes de chauffage de maison est
On a sélectionné au hasard 200 maisons construites après 1974. Nos observations donnent
Peut-on au vu de cet échantillon conclure que la distribution du mode de chauffage des maisons
construites après 1974 diffère de la distribution de l’ensemble des maisons américaines ? On prendra
α = 0, 05.
Il y a 6 classes dans cette expérience statistique. Mais, on constate que l’effectif théorique de la
classe“Autre” est 2OO ·1, 8% = 3, 6 < 5, on doit donc la regrouper avec une autre. On prend une
classe peu représentée, par exemple “Bois”, et on crée la classe “Bois et autre”. On a maintenant
46
r = 5 classes.
2 2 2 2 2 2
On obtient χ2obs = (91−113,4)
113,4 + (16−28,6)
28,6 + (110−32)
32 + (14−9)
9 + (19−17)
17 ≥ (110−32)
32 = 190, 125
qui est supérieur à 13, 28 : seuil de niveau 1% pour la loi du khi-2 à 5 − 1 = 4 degrés de liberté.
On rejette donc, au niveau 1%, l’hypothèse H0 de conservation du mode de chauffage domestique
avant et après 1974. On la rejette donc à plus forte raison au niveau α = 0, 05.
Exercices
1. La distribution de 300 accouchements selon les jours de la semaine est donnée par le tableau
de données suivant :
Jour L Ma Me J V S D Total
Effectif 50 42 47 42 44 40 35 300
2. Dans une étude célèbre, des données ont été prélevées sur 6587 suicides en France. Voici la
distribution des suicides selon le jour de la semaine :
Jour L Ma Me J V S D Total
Tester au niveau 10% l’hypothèse selon laquelle les suicides se répartissent uniformément sur les
jours de la semaine.
47
10
Contingence signifie dépendance, de sorte qu’un tableau de contingence est un tableau qui montre
comment une caractéristique dépend d’une autre. Le tableau suivant montre, par exemple, comment
le revenu Y (exprimé en milliers de $) dépend de la région X, dans un échantillon de 400 familles
américaines, en 1971.
X : Région
Sud 28 42 30 24 124
Nord 44 78 78 76 276
48
Tableau 10.1. Tableau de contingence pour deux variables X et Y
49
individus appartenant à la classe j pour Y. Le nombre total d’individus de l’échantillon est n et on
a les égalités
XX
n= nij = n1• + · · · + nr• = n•1 + · · · + n•s .
i j
Le Tableau 10.1 est celui des observations alors que le Tableau 10.2 est celui des effectifs théoriques
(attendus sous H0 ). On peut donc noter que l’observation de la cellule (i, j) est Oij = nij alors que
n n
sont analogue théorique est Tij = i•n •j . Par analogie avec (9.1) et (9.2), la distance du khi-2 est
donc
X X (Oij − Tij )2 X X (nij − ni• n•j )2
2 n
(10.1) χ = = ni• n•j
i j
Tij i j n
X X (O − T )2
(10.2) χ2 = .
T
Comme lors de la Leçon 9, χ2obs est positif et il ne vaut zéro que si les effectifs attendus sous H0 et
observés coı̈ncident. Il sera d’autant plus grand que les écarts entre effectifs attendus sous H0 et
observés sont importants. Par conséquent, on aura tendance à rejeter H0 lorsque la distance χ2obs
sera grande. La régle de décision sera de la forme
50
Par contre contrairement à (9.3), pour le test d’indépendance le nombre de degrés de liberté n’est
pas rs − 1, mais il est égal à
ce qui signifie que l’on doit déterminer le seuil cα à l’aide de la table de la loi du khi-2 à (r −1)(s−1)
degrés de liberté :
IP (χ2(r−1)(s−1) > cα ) = α.
(28 − 22, 32)2 (42 − 37, 2)2 (30 − 33, 48)2 (24 − 31, 0)2
χ2obs = + + +
22, 32 37, 2 33, 48 31, 0
2 2 2
(44 − 49, 68) (78 − 82, 8) (78 − 74, 52) (76 − 69, 0)2
+ + + + = 5, 81.
49, 68 82, 8 74, 52 69, 0
Puisque
IP (χ23 > 6, 251) = 0, 10
et que
χ2obs = 5, 81 < 6, 251,
On veut tester l’indépendance des caractères “forme” et “couleur”. Le tableau des effectifs
théoriques est le suivant
Graines Jaunes Vertes Total
2 2 2 2
On obtient χ2obs = (315−316,49)
316,49 + (108−106,51)
106,51 + (101−99,51)
99,51 + (32−33,49)
33,49 = 0, 116. Le nombre de
2
degrés deliberté est (2 − 1)(2 − 1) = 1. Or, on a IP (χ1 > 0, 116) = 66%, de sorte qu’on accepte
51
l’hypothèse H0 d’indépendance des caractères “forme” et “couleur” au niveau 66% et donc à tous
les niveaux inférieurs.
Exemple 2. Afin de savoir si les mathématiciens sont philosophes, on a relevé sur 100 bacheliers
les notes obtenues en Mathématiques et en Philosophie.
0-3 3 4 2 0 0 9
4-7 6 10 8 2 0 26
8-11 1 8 20 12 3 44
12-15 0 0 8 7 3 18
16-20 0 0 1 0 2 3
Total 10 22 39 21 8 100
Total 10 22 39 21 8 100
Un calcul un peu long nous permet de montrer que χ2obs = 51, 7346. Nous avons aussi d.d.l. =
(5−1)(5−1) = 16. La table χ2 (16) nous donne c0,05 = 26, 296, par conséquent on rejette l’hypothèse
d’indépendance au niveau 5%.
Exercices
52
1. La distribution suivante a été dressée par Haberman (1978) à partir de données fournies par le
National Opinion Research Center de l’Université de Chicago. Les variables sont le nombre d’années
de scolarité (X) et l’attitude face à l’avortement (Y ).
Moins de 8 ans 31 23 56
2. On a classé 217 enfants d’après leurs performances dans des tests de langage (L) et d’équilibre
physique (E). Tester au niveau 5% l’hypothèse de l’indépendance des performances de langage et
d’équilibre.
L1 L2 L3
E1 45 26 12
E2 32 50 21
E3 4 10 17
53
11
Lors de trois sondages consécutifs, on a observé que respectivement 51%, 48% et 55% des répondants
étaient en faveur d’une politique donnée sur un total de 700, 900 et 800 répondants. Entre les
moments où ces sondages ont été réalisés, y a-t’il eu changement d’opinion au sujet de cette
politique ? Pour répondre à cette question, nous allons procéder à un test d’homogénéité.
Nous avons 3 populations correspondant aux 3 sondages (caractère X) réparties en 2 classes : “En
faveur” et “En défaveur” (caractère Y ).
54
Tableau 11.1. Tableau de contingence pour un test d’homogénéité d’une variable Y
Y: 1 2 ... j ... s
Taille de
Population l’échantillon
Y: 1 2 ... j ... s
Taille de
Population l’échantillon
55
où r est le nombre de populations et s le nombre de modalités du caractère Y. Puisqu’on a observé
ni• individus dans la population X = i et que sous H0 une bonne estimation de pYj est p•j , sous
H0 , l’effectif attendu de la cellule (i, j) est
ni• n•j
ni• × p•j = ,
n
700×1229 700×1171
1 2400 = 358, 46 2400 = 341, 54 700
900×1229 900×1171
2 2400 = 460, 87 2400 = 439, 13 900
800×1229 800×1171
3 2400 = 409, 67 2400 = 390, 33 800
On constate que les formules sont les mêmes que celles du test du khi-2 d’indépendance traité à la
Leçon 10. En particulier, les Tableaux 11.1 et 11.2 sont identiques aux Tableaux 10.1 et 10.2.
Le Tableau 11.1 est celui des observations alors que le Tableau 11.2 est celui des effectifs théoriques
(attendus sous H0 ). On peut donc noter que l’observation de la cellule (i, j) est Oij = nij alors que
n n
sont analogue théorique est Tij = i•n •j . Par analogie avec (10.1) et (10.2), la distance du khi-2 est
X X (O − T )2
(11.2) χ2 = .
T
Comme lors de la Leçon 10, χ2obs est positif et il ne vaut zéro que si les effectifs attendus sous H0
et observés coı̈ncident. Il sera d’autant plus grand que les écarts entre effectifs attendus sous H0 et
observés sont importants. Par conséquent, on aura tendance à rejeter H0 lorsque la distance χ2obs
sera grande. La régle de décision sera de la forme
56
Comme en (10.3), pour le test d’homogénéité le nombre de degrés de liberté est égal à
ce qui signifie que l’on doit déterminer le seuil cα à l’aide de la table de la loi du khi-2 à (r −1)(s−1)
degrés de liberté :
IP (χ2(r−1)(s−1) > cα ) = α.
Remarque. La similarité des tests d’indépendance et d’homogénéité n’est pas fortuite. En fait,
un test d’homogénéité est un test d’indépendance. En effet, se poser la question : “Les
populations i = 1, . . . , r ont-elles un comportement homogène en regard de la variable Y ?”, c’est
se poser la question de l’indépendance de la variable population : X et de la variable Y.
Dans le cas qui nous intéresse, nous avons d.d.l. = (3 − 1)(2 − 1) = 2 et
puisque
IP (χ22 > 5, 99) = 0, 05
et que
χ2obs = 8, 32 > 5, 99,
et
8, 32 6> 9, 21.
Exercices
1. A la sortie de deux salles de cinéma donnant le même film, on a interrogé des spectateurs
quant à leur opinion sur le film. Les résultats de ce sondage d’opinion sont les suivants
Salle1 30 70 100
Salle 2 48 52 100
57
Montrez que l’opinion est significativement liée à la salle, au niveau 5%.
2. Une enquête a été menée aux Etats-Unis pour obtenir des informations sur la consommation
d’alcool en fonction du statut familial. On a selectionné au hasard 1772 adultes de plus de 18 ans
et on a obtenu les résultats suivants (en nombre de verres par mois)
Veuf 85 51 7 143
Divorcé 27 60 15 102
58
12
Ce test statistique a la même fonction que le test d’ajustement du khi-deux. Il est basé sur une autre
méthode. D’une certaine manière, on peut dire que le test de Kolmogorov-Smirnov est plus général
que son analogue du khi-deux : il permet, contrairement au khi-deux qui n’est valide que pour des
échantillons de grande taille (supérieure à 30, en pratique), de travailler avec des petits échantillons,
mais aussi avec des grands. Dans ce dernier cas, les performances des deux tests d’ajustement sont
comparables.
Rappelons ce qu’est un test d’ajustement. A l’aide des données (x1 , . . . , xn ) provenant de
l’observation de n variables aléatoires indépendantes de même loi inconnue L à déterminer, on peut
donner une réponse statistique (c’est-à-dire entachée d’une erreur possible dont on peut évaluer la
probabilité, et d’autant plus fiable que le nombre n d’observations est grand) à la question : ”La loi
inconnue L de mes observations est-elle la loi Lo que je me donne ?” Par exemple, mes observations
proviennent-elles d’une loi uniforme sur [0, 365]?
Illustrons ce test à l’aide d’un exemple. Je cherche à tester la fiabilité du programme de tirage
uniforme aléatoire de ma calculette. Pour cela j’observe n = 10 résultats de tirages. Proviennent-ils
d’une loi uniforme sur [0, 1] : U(0, 1)? J’obtiens :
0.62, 0.36, 0.23, 0.76, 0.65, 0.09, 0.55, 0.26, 0.38 et 0.24.
0.09, 0.23, 0.24, 0.26, 0.36, 0.38, 0.55, 0.62, 0.65 et 0.76.
Puis je dessine l’”escalier de répartition” correspondant, dont les marches sont de hauteur 1/n =
1/10 et se situent en chacune des valeurs observées. Si le tirage simule bien une loi U(0, 1), cet
escalier empirique, appelé Fn = F10 doit être proche de la fonction de répartition Fo de cette loi
0 si x ≤ 0
Fo (x) = x si 0 ≤ x ≤ 1
1 si x ≤ 1
59
qui est représentée sur la figure précédente à l’aide de la droite oblique. Justifions rapidement cette
proximité attendue de F10 et de Fo , si la loi de mes observations est bien de fonction de répartition
Fo . Dire : F10 (0.48) = 5/10 signifie que 5 de nos observations sont inférieures à 0.48. Dire que
Fo (0.48) = 0.48 signifie qu’une variable aléatoire de loi U (0, 1) prend une valeur inférieure à 0.48
avec une probabilité égale à 0.48 = 48%. Intuitivement, on s’attend bien à ce que ces quantités
soient proches si la loi de mes observations indépendantes est U (0, 1), et d’autant plus que le nombre
n des observations est grand. C’est une conséquence de la loi des grands nombres.
On rejettera donc l’hypothèse nulle
La lecture de la table de Kolmogorov-Smirnov nous indique que pour n = 10, au niveau α = 10%,
si d10 > 0.37 : on rejette H0 , et si d10 ≤ 0.37 : on ne rejette pas H0 . Dans le cas de notre expérience,
nous obtenons d10 = F10 (0.65) − Fo (0.65) = 0.25, qui est inférieur au seuil de rejet : 0.37. Donc, on
ne rejette pas H0 au niveau 10%.
On note que pour effectuer un test du khi-deux d’ajustement, outre que n = 10 est trop petit,
nous aurions été contraints de regrouper nos observations par classes. Par exemple en 4 classes
correspondant aux tirages qui tombent dans [0, 1/4[, [1/4, 1/2[, [1/2, 3/4[ et [3/4, 1]. Le test de
Kolmogorov-Smirnov est donc avatageux (par rapport au khi-deux) lorsqu’on teste l’ajustement
d’un échantillon à une loi de variable aléatoire continue.
60
Il arrive souvent, que lors d’une approche statistique, des expérimentateurs soient tentés par
l’hypothèse gaussienne. C’est-à-dire, que les tests statistiques mis en place soient construits sur des
variables aléatoires de loi normale. En pratique, cette hypothèse de travail peut ne pas correspondre
à la réalité, et sur des ”petits échantillons” cela provoque des erreurs parfois énormes. La littérature
des sciences humaines et médicales est malheureusement parsemée de tels abus. Il y a un moyen
d’y remédier. Commencer par un test de Kolmogorov-Smirnov du caractère gaussien des variables
aléatoires observées.
Exercice. On se propose de vérifier si les cinq observations suivantes proviennent d’une loi
normale N (3.1, 7.85). On a observé : 17.6, 4.5, -2.4, 2.5, 0.7. Si X suit une loi N (3.1, 7.85), alors
Z = X−3.1
√
7.85
' X−3.1
3.80 suit une loi normale centrée réduite : N (0, 1). Or, la fonction de répartition de
N (0, 1) est tabulée dans la Table I. On a donc accés à une Fo et à un escalier F5 pourvu que l’on
opère la même transformation : z = x−3.1
3.80 sur nos observations. Ceci nous donnent les 5 observations
modifiées, ordonnées de façon croissante : -1.45, -0.63, -0.16, 0.37, 3.82. Soit :
L’écart maximal entre Fo et F5 est obtenu tout juste à gauche de x = 3.82 et vaut d5 = 1 − 0.644 =
0.356.
On lit dans la table de Kolmogorov-Smirnov que pour n = 5, au niveau α = 20%, on rejette H0
lorsque d5 excède 0.45. Nous ne rejetons donc pas H0 au niveau 20% (et a fortiori à des niveaux
inférieurs).
Attention, ceci ne signifie pas que nos observations suivent effectivement la loi normale N (3.1, 7.85).
Mais seulement, que nous ne pouvons pas affirmer le contraire.
Exercices
32.4, 6.2, 11.4, 27.3, 29.2, 17.0, 30.6, 21.6, 18.7, 8.0.
Tester l’hypothèse nulle que X suit la loi N (20, 100) avec α = 20%.
2. Les lois exponentielles servent souvent à modéliser des temps d’attente. Leur fonction de
répartition est de la forme
F (x) = 1 − exp(−x/θ), x ≥ 0
avec θ > 0, et F (x) = 0 si x ≤ 0. L’espérance de X est E(X) = θ. On observe huit temps d’attente
indépendants à un guichet, ce qui nous donne (en minutes) :
Tester l’hypothèse que le temps d’attente (exprimé en minute) suit une loi exponentielle de
paramètre θ = 15. On fera le test aux niveaux 20, 10, 5 et 1%.
61