Proba&Stat
Proba&Stat
Support de cours
FISE 1A
promo 2022
Février 2020
UE 2.1
probabilités et statistiques
C. Osswald
[email protected]
1. Probabilités 7
2. Variable aléatoire 17
3. Lois de probabilité 31
4. Vecteurs aléatoires 47
5. Convergences et limites 69
6. Statistique descriptive 79
7. Estimation paramétrique 89
8. Tests statistiques 97
Index 113
A. Petites histoires 117
B. Tables des lois 121
2
Table des matières
I Probabilités 5
1 Probabilités 7
1.1 Petite histoire des probabilités . . . . . . . . . . . . . . . . . . 7
1.2 Organisation du document . . . . . . . . . . . . . . . . . . . . . 8
1.3 Évènement et expérience aléatoire . . . . . . . . . . . . . . . . 10
1.4 Définitions de la probabilité d’un évènement . . . . . . . . . . . 10
1.5 Approche ensembliste et tribus . . . . . . . . . . . . . . . . . . 12
1.6 Probabilité conditionnelle . . . . . . . . . . . . . . . . . . . . . 15
1.7 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2 Variable aléatoire 17
2.1 Discrète ou continue ? . . . . . . . . . . . . . . . . . . . . . . . 18
2.2 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . 18
2.3 Intégration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.4 Espérance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.5 Variance et moment d’ordre 2 . . . . . . . . . . . . . . . . . . . 23
2.6 Moments d’ordre supérieurs . . . . . . . . . . . . . . . . . . . . 25
2.7 Fonctions caractéristiques . . . . . . . . . . . . . . . . . . . . . 26
2.8 Cumulants d’une variable aléatoire . . . . . . . . . . . . . . . . 26
2.9 Fonctions génératrices . . . . . . . . . . . . . . . . . . . . . . . 27
2.10 Changement de variable mono-dimensionnel . . . . . . . . . . . 28
3 Lois de probabilité 31
3.1 Compter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.2 Lois discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.3 Lois continues . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.4 Tirage aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4 Vecteurs aléatoires 47
4.1 Couples de variables aléatoires . . . . . . . . . . . . . . . . . . 48
4.2 Vecteurs aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.3 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.4 Vecteurs aléatoires gaussiens . . . . . . . . . . . . . . . . . . . 62
3
4
5 Convergences et limites 69
5.1 Convergences d’une suite . . . . . . . . . . . . . . . . . . . . . 69
5.2 Convergence en loi . . . . . . . . . . . . . . . . . . . . . . . . . 71
5.3 Lois des grands nombres . . . . . . . . . . . . . . . . . . . . . . 72
5.4 Théorème de la limite centrale . . . . . . . . . . . . . . . . . . 73
II Statistiques 77
6 Statistique descriptive 79
6.1 Objectifs de la statistique descriptive . . . . . . . . . . . . . . . 79
6.2 Population et autres termes . . . . . . . . . . . . . . . . . . . . 79
6.3 Présentation des données . . . . . . . . . . . . . . . . . . . . . 80
6.4 Statistiques extraites . . . . . . . . . . . . . . . . . . . . . . . . 82
6.5 Régression linéaire . . . . . . . . . . . . . . . . . . . . . . . . . 87
7 Estimation paramétrique 89
7.1 Statistique prédictive . . . . . . . . . . . . . . . . . . . . . . . . 89
7.2 Paramètres empiriques . . . . . . . . . . . . . . . . . . . . . . . 90
7.3 Estimation de l’espérance . . . . . . . . . . . . . . . . . . . . . 92
8 Tests statistiques 97
8.1 Tests paramétriques . . . . . . . . . . . . . . . . . . . . . . . . 98
8.2 Tests non paramétriques . . . . . . . . . . . . . . . . . . . . . . 104
8.3 Statistiques prédictives résumées . . . . . . . . . . . . . . . . . 110
Index 113
Probabilités
5
Probabilités
1
Sommaire
1.1 Petite histoire des probabilités 7
1.2 Organisation du document 8
1.3 Évènement et expérience aléatoire 10
1.4 Définitions de la probabilité d’un évènement 10
1.4.1 Définition classique 10
1.4.2 Définition fréquentiste 11
1.4.3 Définition axiomatique 11
1.5 Approche ensembliste et tribus 12
1.5.1 Tribus 12
1.5.2 Mesure 13
1.5.3 Espace de probabilité 14
1.6 Probabilité conditionnelle 15
1.6.1 Théorème de Bayes 16
1.7 Indépendance 16
7
8 CHAPITRE 1. PROBABILITÉS
La partie probabilités n’est pas prévue pour une lecture linéaire. Le cha-
pitre 3 est une bibliothèque de lois, qu’il est utile de survoler avant d’attaquer
le chapitre 2, mais inutile de lire intégralement avant le chapitre 8.
Le premier chapitre définit les évènements et expériences aléatoires, et
donne la définition d’une mesure de probabilité. Les propriétés d’indépendance
et de probabilité conditionnelle, qui ne sont pas liées au caractère numérique
d’une expérience aléatoire, y sont aussi définies.
1. double-six
1.2. ORGANISATION DU DOCUMENT 9
NA |{1, 2, 4, 8}| 4 1
= = =
N 12 12 3
♦
Exemple. Recevoir un carré d’as au poker (évènement A) lors de la première
donne a un nombre de cas favorables de 44 48
1 = 48 pour un nombre de
52 1
cas total de 5 = 2598960. Ainsi p (A) = 54145 . ♦
Limitation
La définition classique n’est applicable que si Ω est fini, sans quoi elle
aboutit à une probabilité nulle ou une forme indéfinie ∞
∞.
Elle ne s’applique qu’à des évènements élémentaires équiprobables, et ne
peut donc pas modéliser une pièce de monnaie pipée qui ferait face dans 60%
des cas.
NA
p (A) = lim (1.3)
N →∞ N
où N est le nombre de tirages de l’expérience aléatoire, et NA le nombre de
fois de l’évènement A est réalisé parmi ceux-ci.
Cette définition est robuste face à un espace des réalisations infini comme
à des évènements aléatoires qui ne seraient pas équiprobables. Toutefois, sa
manipulation ne se faisant qu’à travers un passage à la limite, elle conduit à
des calculs lourds dans les cas simples où la définition classique est valide.
Définition 1.6. Une fonction p d’un ensemble d’évènements d’un espace des
réalisations Ω est une probabilité si :
1. pour tout évènement A, p (A) > 0.
2. p (Ω) = 1.
3. Si A ∩ B = ∅, p (A ∪ B) = p (A) + p (B).
Cette fonction est une loi de probabilité. Pour une expérience aléatoire X,
on notera la probabilité de l’évènement ω par p (X = ω) ou pX (ω).
Le troisième axiome s’étend naturellement par récurrence. La convergence
P
de la série p (An ) est assurée car elle est croissante et majorée par 1 :
3. Si (An )n∈N est une suite d’évènements deux à deux disjoints, alors
P∞
p (∪∞
n=1 ) = n=1 p (An )
12 CHAPITRE 1. PROBABILITÉS
Les points ii) et iii) entraînent aussi la stabilité par intersection dénom-
brable 2 .
Définition 1.9. La tribu des boréliens B(R) est la tribu engendrée par les
demi-droites ] − ∞, x] pour tout x dans R.
Proposition 1.1. La tribu des boréliens contient toutes les demi-droites (ou-
vertes ou fermées, vers −∞ et +∞), tous les intervalles, les points isolés, et
les ensembles dénombrables de points isolés.
Preuve :
Les demi-droites ouvertes de type ]x, +∞[ sont les complémentaires des demi-
droites ] − ∞, x].
Les demi-droites ouvertes de type ] − ∞, x[ sont les unions dénombrables des
demi-droites fermées ] − ∞, x − n1 ]. On obtient [x, +∞[ par passage au complé-
mentaire.
L’intervalle [x, y] est l’intersection de ] − ∞, y] et de [x, +∞[ ; le point isolé
{x} est l’intersection de ] − ∞, x] et de [x, +∞[.
Un ensemble dénombrable tel que N ou Q est simplement l’union – dénombrable
– des singletons qui le composent.
1.5.2 Mesure
Définition 1.10. Une mesure µ sur une tribu F de X est une fonction véri-
fiant :
i) µ(A) > 0,
ii) (additivité) Si ∀n, p ∈ N, n 6= p, An ∩ Ap = ∅,
!
[ X
µ An = µ(An ) (1.5)
n∈N n∈N
L’espace des réalisations d’une expérience aléatoire étant une tribu, une
probabilité vérifiant les axiomes de Kolmogorov (définition 1.6) peut être vue
comme une mesure particulière.
Le point i) est le premier axiome. Le second axiome est une version plus
forte du point iii) avec B = Ω et µ(Ω) = 1 < +∞ ; de façon générale une
mesure est dite finie si µ(X) < +∞. Le point ii) entraîne le troisième axiome
en prenant A1 = A et An = B sinon. On demandera en général que ce troisième
axiome s’étende aux unions dénombrables.
On appellera probabilité sur Ω toute mesure p sur une tribu de Ω telle que
p(Ω) = 1.
p (A) = p (A ∩ Ω)
n
!!
[
=p A∩ Bk
k=1
n
X
= p (A ∩ Bk ) 3e axiome de Kolmogorov
k=1
Xn
= p (A|Bk ) p (Bk )
k=1
16 CHAPITRE 1. PROBABILITÉS
p (A|B) p (B)
p (B|A) = (1.14)
p (A)
Ce résultat s’étend à plus de deux évènements. Si les (Ak )k∈[1..n] forment une
partition de Ω (ils sont deux à deux disjoints et Ω = nk=1 Ak ) :
S
Preuve :
Par la définition d’une probabilité conditionnelle, on a p (A ∩ B) = p (A) p (B|A)
et p (A ∩ B) = p (B) p (A|B) Ainsi p (A) p (B|A) = p (B) p (A|B), ce qui donne
la relation entre p (B|A) et p (A|B).
p (B|Ak ) p (Ak )
p (Ak |B) =
p (B)
Il suffit d’écrire
p (B) = p (B ∩ Ω)
n
!!
[
= p B∩ Ai
i=1
n
! n
[ X
= p B ∩ Ai = p (B ∩ Ai )
i=1 i=1
n
X
= p (B|Ai ) p (Ai )
i=1
pour conclure.
1.7 Indépendance
Définition 1.16. Deux évènements sont indépendants si la connaissance de
l’un n’apporte pas d’information sur l’autre :
Définition 2.1. Une variable aléatoire est une expérience aléatoire qui produit
un nombre.
17
18 CHAPITRE 2. VARIABLE ALÉATOIRE
Ainsi FX est une application de R dans [0, 1], croissante, mais non stricte-
ment croissante. Elle est continue à droite, et on a :
2. C’est-à-dire qu’on peut la définir comme une transformation continue d’une mesure de
Lebesgue.
2.3. INTÉGRATION 19
2.2.1 Médiane
Définition 2.3. Le nombre m est une médiane de la variable aléatoire X si
P (X 6 m) > 12 et P (X > m) > 21 .
La médiane n’est en général pas unique. Pour un dé à six faces équilibré,
3.5 est une médiane, mais 3, 3.42, 4 et π aussi.
S’il existe m tel que FX(m) = 21 alors m est une médiane de X, mais ce
n’est pas une condition nécessaire.
Une médiane peut être vue comme un quantile de proportion 21 , q étant un
quantile de proportion λ si P (X 6 q) > λ et P (X > q) > 1 − λ.
X
f (x) = ak 1Ak (x) (2.10)
ak ∈f (R)
Z X
f (x)dµ(x) = ak µ(Ak ∩ A) (2.11)
A
yk ∈f (A)
Exemple. Dans les exemples qui suivent, f est une fonction quelconque, h la
fonction de Heavyside, e la partie entière, et 1A la fonction indicatrice de
l’ensemble A.
Z
h(x)dλ(x) = +∞ (2.12a)
Z R
h(x)dλ(x) = 42 (2.12b)
[−1,42]
Z
1Q (x)dλ(x) = 0 (2.12c)
Z R
1Q (x)dδ42 (x) = 1 (2.12d)
Z R
3. La propostion suivante étend ces résultats aux autres fonctions mesurables, rendant
cette condition inutile.
2.3. INTÉGRATION 21
L’équation (2.13e) traduit le fait que f est nulle presque partout pour la
mesure µ. C’est le cas de la fonction 1Q pour la mesure de Lebesgue.
Proposition 2.2. Si f est une fonction mesurable positive, il existe une suite
croissante de fonctions en escaliers positives mesurables (fn )n∈N telle que
∀x ∈ A, lim fn (x) = f (x) (2.14)
n→∞
On a alors que :
Z Z
f (x)dµ(x) = lim fn (x)dµ(x) (2.15)
A n→∞ A
Cette intégrale n’est définie que pour les fonctions positives. On l’étend en
définissant à partir d’une fonction f de R dans R les fonctions f + et f −
( (
f (x) si f (x) > 0 0 si f (x) > 0
f + (x) = f − (x) = (2.16)
0 sinon −f (x) sinon
2.4 Espérance
Définition 2.9. L’espérance mathématique, ou simplement espérance d’une
variable aléatoire X est :
Z
E {X} = xdµ(x) (2.19)
R
Si une variable aléatoire a une espérance de zéro, elle est dite centrée.
L’espérance d’une variable aléatoire est aussi son moment d’ordre 1 ; elle
peut être notée m1 (X).
n o
2 2
σX = E (X − E {X})
n o
2
= E X 2 − XE {X} − E {X} X + E {X}
n o
2
= E X 2 − 2E {X} X + E {X}
n o
2
E X 2 + E {−2E {X} X} + E E {X}
=
2
E X 2 − 2E {X} E {X} + E {X}
=
2 2
= E X − E {X}
Cet encadrement est assez grossier, et n’est en général pas utilisé pour
majorer des probabilités dans des cas concrets ; une meilleure connaissance
de la loi mise en œuvre que ses deux premiers moments permet en général
d’arriver à des résultats plus fins. Toutefois cette inégalité suffit à démontrer la
loi faible des grands nombres, sur laquelle s’appuient fortement les statistiques.
∂ k ΦX (u)
mk (X) = (−i)k (2.54a)
∂uk u=0
(k)
= (−i)k ΦX (0) (2.54b)
Une série formelle, contrairement à une série entière, ne doit pas nécessai-
rement être convergente pour avoir un sens. Toutefois un rayon de convergence
non nul permet de nombreuses opérations sur ces fonctions.
Définition 2.18. Soit (pn )n∈N une suite de valeurs de [0, 1] telles que ∞
P
P∞ n=0 pn =
n
1. La série formelle de variable t définie par n=0 pn t est la fonction généra-
trice de la variable alétoire discrète X définie par p (X = n) = pn .
♦
Ce dernier exemple illustre le fait que la fonction génératrice de la somme
de variables aléatoires indépendantes (cf. section 4.1.13) est le produit de leurs
fonctions génératrices.
Le second exemple montre aussi que :
GPλ1 +λ2 (t) = e(t−1)(λ1 +λ2 ) = e(t−1)λ1 e(t−1)λ2 = GPλ1 (t)GPλ2 (t) (2.60)
P∞
La dérivée de la fonction génératrice est G0X (t) = n=1 npn t
n−1 . On re-
trouve ainsi l’espérance de X :
∞ ∞
npn = G0X (1)
X X
E {X} = np (X = n) = (2.61)
n=0 n=1
Exemple. Soit X une variable aléatoire suivant une loi normale N (0, 1) et
Y la variable aléatoire définie par Y = X 2 = g(X). On a ΩY = R+ , et
√
g 0 (x) = 2x et g −1 (y) = y. Pour tout y ∈ R+∗ on a :
√ √ √
fX − y fX y fX y 1 y
fY (y) = √ + √ = √ = √ √ e− 2
2 y 2 y y π y
FY (y) = p (Y 6 y) = p (g(X) 6 y)
Z
−1
= p X∈g (]∞, y]) = fX(x) dx (2.67)
g −1 (]∞,y]
2.10. CHANGEMENT DE VARIABLE MONO-DIMENSIONNEL 29
3.1 Compter
3.1.1 Ordonnancements
Une permutation de n éléments est le choix d’un ordre sur ces n éléments.
Il y a n! permutations possibles.
31
32 CHAPITRE 3. LOIS DE PROBABILITÉ
3.1.2 Arrangements
n!
Akn = (3.2)
(n − k)!
3.1.3 Combinaisons
!
n n!
= Cnk = (3.3)
k k!(n − k)!
selon les usages internationaux comme selon les préconisations françaises ré-
centes. Toutefois, nul n’est à l’abri de croiser la notation précédente, Cnk .
Pour construire une catégorie de tirages avec plusieurs contraintes, on mul-
tiplie les combinaisons.
Exemple. Il y a 22 4 52
10 2 3 façons de construire une main de tarot (à 4)
comportant 10 atouts et deux rois 1 , en prenant 10 atouts parmi 22, 2
rois parmi 4, et 3 autrescartes parmi 78 − 22 − 4 = 52 soit 85745259600
4 22 52 22 52 22 52
possibilités. Et il y a 2 10 3 + 11 2 + 12 1 façons d’avoir une
poignée simple et deux rois. ♦
!
n+k−1 (n + k − 1)!
= (3.4)
k k!(n − 1)!
On parle de loi discrète lorsque son espace des réalisations est fini ou dé-
nombrable. Le plus souvent, ce sera N ou une partie de N.
3.2.1 Équiprobable
On ne peut pas avoir N comme espace des réalisations, car toutes les
probabilités des évènements élémentaires seraient nulles. Les cardinaux de A
et Ω sont donc finis, et il suffit de compter leurs éléments pour obtenir la valeur
de la probabilité.
Pour une variable aléatoire Dn équiprobable sur n éléments, par exemple
un dé à n faces, on a :
n n
X 1X 1 n(n + 1 n+1
E {Dn } = kp (Dn = k) = k= =
n n 2 2
k=1 k=1
34 CHAPITRE 3. LOIS DE PROBABILITÉ
n
X
2 2 2
E Dn2 − E {Dn } = k 2 p (Dn = k) − E {Dn }
σD n
=
k=1
n
1X 2 2 1 n(n + 1)(2n + 1) 2
= k − E {Dn } = − E {Dn }
n n 6
k=1
(n + 1)(2n + 1) (n + 1)2
2n + 1 n + 1
= − = (n + 1) −
6 4 6 4
2
(n + 1)(n − 1) n −1
= =
12 12
3.2.2 Bernoulli
La loi de Bernoulli, aussi appelée la loi de pile ou face, a deux résultats
possibles, et est régie par un paramètre p ∈ ]0, 1[ (si p vaut 0 ou 1, il n’y a plus
de phénomène aléatoire). On note souvent q = 1 − p.
Ω Bp = {0, 1} (3.8a)
p (Bp = 1) = p (3.8b)
p (Bp = 0) = 1 − p = q (3.8c)
E {Bp } = p (3.8d)
σB2 p = p(1 − p) = pq (3.8e)
3.2.3 Binomiale
La loi binomiale est la somme de n variables aléatoires de Bernoulli indé-
pendantes : on jette n pièces de monnaies identiques, et on compte le nombre
de pièces tombées sur Pile.
3.2.4 Multinomiale
Soit X une variable aléatoire d’espace des réalisations {x1 , . . . , xm } et de
loi p (X = xk ) = pk .
La loi multinomiale M s’intéresse au résultat de n lancers indépendants de
la variable aléatoire X. Un évènement est constitué par un m-uplet (N1 , . . . , Nm ),
qui correspond à N1 résultats x1 , N2 résultats x2 , etc. On a donc Nk > 0 et
P
k Nk = n. On a :
3.2. LOIS DISCRÈTES 35
m
n! Y nk
p ((N1 , . . . , Nm ) = (n1 , . . . , nm )) = Qm pk (3.10)
k=1 nk ! k=1
Notons que l’espace des réalisations pour la loi multinomiale est une partie
de Nm : il ne s’agit pas d’une variable aléatoire, mais d’un vecteur aléatoire
(chapitre 4). Son espérance est
3.2.5 Poisson
La loi de Poisson, appelée aussi loi des évènements rares, a N pour espace
des réalisations et est définie par :
λk −λ
p (Pλ = k) = e (3.12)
k!
E {Pλ } = λ (3.13a)
σP2 λ = λ (3.13b)
Preuve :
36 CHAPITRE 3. LOIS DE PROBABILITÉ
3.2.6 Géométrique
La loi géométrique est issue d’une loi de Bernoulli que l’on retire jusqu’à
obtenir un résultat “1”. La variable mesurée est le nombre de tirages effectués.
ΩG(p) = N∗ (3.14a)
k−1 k−1
p (G(p) = k) = p(1 − p) = pq (3.14b)
1
E {G(p)} = (3.14c)
p
2 1−p q
σG(p) = = 2 (3.14d)
p2 p
Une variable aléatoire X est dite continue si son espace des réalisations est
non-dénombrable.
C’est une variable aléatoire à densité si sa fonction de répartition FX est
dérivable 2 , sa fonction de densité étant fX = FX0 . C’est ce cas qui concerne
toutes les lois de cette section, et on choisira le plus souvent de définir la loi
3.3.1 Uniforme
Pour la loi uniforme sur l’intervalle [a, b], la densité est constante sur l’in-
tervalle, et nulle à l’extérieur.
1
fX (x)
0.5 a = 0, b = 1
a = −1, b = 1
1
√
2 3 centrée réduite
0
√ √
− 3 −1 0 1 3
x
C’est une loi uniforme sur [0, 1] qui est simulée lorsque l’on demande un
nombre aléatoire – et donc, juste pseudo-aléatoire – à la plupart des logiciels
et langages informatiques.
(
1
b−a si x ∈ [a, b]
fX(x) = (3.16a)
0 sinon
0
si x 6 a
x−a
FX(x) = b−a si x ∈ [a, b] (3.16b)
1 si x > b
a+b
E {X} = (3.16c)
2
2 (b − a)2
σX = (3.16d)
12
38 CHAPITRE 3. LOIS DE PROBABILITÉ
0.5
centrée
0.4
réduite
fX(x)
0.3 m = 0,
σ2 = 2
0.2
m = 0,
0.1 σ 2 = 0.5
m = 1,
0 σ2 = 1
−4 −3 −2 −1 0 1 2 3 4
x
On peut contruire l’ensemble des variables aléatoires suivant une loi nor-
male par transformation affine 4 de la loi normale centrée réduite :
x−µ
FN (µ,σ)(x) = erf (3.25)
σ
3.3.3 Exponentielle
1.5 1
a=1
1.25 a = 1.5 0.8
a = 0.5
1
0.6
FX (x)
fX (x)
0.75
0.4
0.5
a=1
0.25 0.2 a = 1.5
a = 0.5
0 0
0 1 2 3 4 0 1 2 3 4
x x
5. D’autres définitions de cette fonction existent, au moins aussi nombreusesR que celles
x 2
d’une transformée de Fourier. Citons notamment matlab pour qui erf(x) = √2π 0 e−u du,
et pour lequel la fonction définie en (3.23) s’appelle normcdf.
6. S’il est raisonnablement seul. Quand ses voisins le bombardent de neutrons au sein
d’un réacteur nucléaire, c’est très différent, et très probablement plus court.
7. Comme il n’y a jamais consensus sur grand-chose, certains – dont matlab – utilisent
l’inverse de ce paramètre : E 1 .
a
40 CHAPITRE 3. LOIS DE PROBABILITÉ
Preuve :
Si y > x, on a x − y 6 0 et on a bien p (Ea > x − y) = 1 et Ea > y =⇒ Ea > x,
donc p (Ea > x|Ea > y) = 1.
Si y < x :
1
α = 1, β =1
0.8 α = 2, β =1
α = 4, β = 21
fX (x) 0.6 α = 8, β = 41
0.4
0.2
0
0 1 2 3 4 5 6
x
Dans le cas où α est entier, Γ(α) = (α−1)!, et la loi Gamma est la somme de
α variables aléatoires indépendantes suivant une loi exponentielle de paramètre
β. Dans ce cas, on parlera de loi d’Erlang, courante en dimensionnement de
problèmes de télécommunication :
(
1 α α−1 e−xβ
fE(α,β)(x) = (α−1)! β x si x > 0
(3.32)
0 sinon
1 1
0.8
0.75
0.6
FX (x)
fX (x) 0.5
0.4
0.25
0.2
0 0
−4 −2 0 2 4 −4 −2 0 2 4
x x
0.75
0.2
FX (x)
fX (x)
0.5
0.1
0.25
0 0
−4 −2 0 2 4 −4 −2 0 2 4
x x
2
R
Ni E {Ca,b }, ni σC a,b
n’existent : l’intégrale R xfCa,b(x) dx est indéfinie.
La médiane de Ca,b est a, et c’est aussi l’axe de symétrie de la fonction de
densité.
La loi de Cauchy est une loi à queue épaisse, pour laquelle il est plus
fréquent qu’avec une loi normale d’avoir des valeurs éloignée de la médiane.
1
0.8
0.8
0.6
0.6
FX (x)
fX (x)
0.4
0.4 a = 0, α = 1
a = 0, α2 = 2
0.2 0.2 a = 0, α2 = 12
a = 1, α = 1
0 0
0 1 2 3 4 0 1 2 3 4 5
x x
n x
n
1
x 2 −1 e− 2 si x > 0
fχ2n(x) = 22Γ n
2 ( ) (3.37)
0 sinon
n
X
Z= Xk2 (3.39)
k=1
0.5
n=1
n=2
0.4
n=4
0.3 n=6
fX (x)
0.2
0.1
0
0 2 4 6 8
x
E {tn } = 0 (3.41a)
n
σt2n = (3.41b)
n−2
Si X suit une loi N (0, 1) et Zn une loi du χ2 à n degrés de liberté, que X
et Zn sont indépendants, alors la variable
√
nX
tn = √ (3.42)
Zn
suit une loi de Student à n degrés de liberté. La loi de Student permet de modé-
liser le comportement de la moyenne de plusieurs variables aléatoires normales
indépendantes et de variance inconnue (cf. section 7.3.3). Vous trouverez page
124 une table contenant des valeurs utiles de la fonction de répartition de la
loi de Student.
Pour n = 1, la loi de Student est une loi de Cauchy ; c’est aussi le rapport
de deux variables normales centrées réduites. Elle n’a ni espérance, ni variance.
Les équations (3.41a) et (3.41b) ne sont valables que pour n > 2.
√
Quand n tend vers +∞, tn converge en loi vers N (0, 1) (la variable aléatoire
Zn
√
n
converge presque sûrement vers 1).
0.2
-3 -2 -1 1 2 3
FY (y) = x (3.45)
et on garde y.
• [a, y[ : on garde y. Ce cas n’a qu’une chance sur 2n de se produire pour
chaque “saut” de la fonction de répartition.
Vecteurs aléatoires
4
Sommaire
4.1 Couples de variables aléatoires 48
4.1.1 Fonction de répartition conjointe 48
4.1.2 Loi conjointe et densité conjointe 49
4.1.3 Lois marginales 50
4.1.4 Lois conditionnelles 50
4.1.5 Indépendance 51
4.1.6 Fonction d’un couple 51
4.1.7 Fonction de R2 dans R2 52
4.1.8 Espérance 53
4.1.9 Couple mixte 53
4.1.10 Moments 54
4.1.11 Variance, covariance et corrélation 54
4.1.12 Fonctions caractéristiques 55
4.1.13 Somme de deux variables aléatoires 56
4.1.14 Produit scalaire et norme 57
4.1.15 Variable aléatoire complexe 57
4.2 Vecteurs aléatoires 57
4.2.1 Fonctions de densité et de répartition 57
4.2.2 Fonctions caractéristiques 58
4.2.3 Moments 58
4.2.4 Matrice de covariance et de corrélation 59
4.2.5 Changement de variable 60
4.3 Estimation 60
4.3.1 Estimateur 61
4.3.2 Maximum de vraisemblance 61
4.4 Vecteurs aléatoires gaussiens 62
4.4.1 Fonction caractéristique 62
4.4.2 Transformations linéaires 63
4.4.3 Composantes gaussiennes 65
4.4.4 Vecteur gaussien dans R2 66
47
48 CHAPITRE 4. VECTEURS ALÉATOIRES
selon une même loi. Le chapitre 5 traitera du comportement limite de ces vec-
teurs quand n tend vers l’infini. Lorsque les tirages ne sont pas indépendants,
ces vecteurs peuvent être issus d’une chaîne de Markov ou plus généralement
constituer une série temporelle, qui ne sont pas traitées dans ce document.
Ces vecteurs vivant dans un espace vectoriel, l’espérance se calcule de façon
naturelle dans le même espace. Ne disposant plus d’une multiplication interne
à cet espace, la variance devient une matrice carrée positive, dite matrice de
variance-covariance.
La dernière section traite du cas où le vecteur est gaussien, ce qui ne se
limite pas à dire que chaque composante est gaussienne, mais qu’elles sont
conjointement gaussiennes.
Par mesure de commodité, on note souvent le couple de variables aléatoires
comme un vecteur-ligne à deux éléments. Les vecteurs aléatoires de plus grande
taille mènent souvent à des considérations d’algèbre linéaire ; il convient de les
manipuler sous la forme d’un vecteur-colonne.
p (X ∈ A) = p (X ∈ A et Y ∈ ΩY ) (4.9)
Si X et Y sont discrètes, cela se traduit par :
X
p (X = x) = p (X = x et Y = y) (4.10a)
y∈ΩY
X
p (Y = y) = p (X = x et Y = y) (4.10b)
x∈ΩX
p (X = x et Y = y) = p (X = x) p (Y = y|X = x) (4.14a)
= p (Y = y) p (X = x|Y = y) (4.14b)
4.1. COUPLES DE VARIABLES ALÉATOIRES 51
p (X = x et Y = y)
p (X = x|Y = y) = (4.15a)
p (Y = y)
p (Y = y|X = x) p (X = x)
= (4.15b)
p (Y = y)
4.1.5 Indépendance
La définition 1.16 est évidemment valide pour le couple (X, Y ), et deux
variables X et Y sont indépendantes si leurs lois marginales sont égales à leurs
lois conditionnelles.
Pour les évènements A et B, on a donc :
p (X ∈ A et Y ∈ B) = p (X ∈ A) p (Y ∈ B) (4.17a)
p (X = x et Y = y) = p (X = x) p (Y = y) (4.17b)
ΩZ ⊂ {g(x, y) | x ∈ ΩX , y ∈ ΩY } (4.18a)
X
p (Z = z) = p (X = x, Y = y) (4.18b)
x,y∈g −1 (z)
52 CHAPITRE 4. VECTEURS ALÉATOIRES
Si g n’est pas bijective, et que g −1 (y) n’est pas toujours un ensemble discret,
il faut calculer
FY1 ,Y2(y1 , y2 ) = p (g1 (X1 , X2 ) 6 y1 et g2 (X1 , X2 ) 6 y2 ) (4.26)
et la dériver selon y1 et y2 pour obtenir une fonction de densité :
∂FY1 ,Y2(y1 , y2 )
fY1 ,Y2(y1 , y2 ) = (4.27)
∂y1 ∂y2
4.1. COUPLES DE VARIABLES ALÉATOIRES 53
4.1.8 Espérance
Définition 4.4. Si g est une fonction de R2 dans R, l’espérance de g(X, Y )
se définit dans le cas où X et Y sont discrets par :
X X
E {g(X, Y )} = g(x, y)p (X = x, Y = y) (4.28)
x∈ΩX y∈ΩY
XX
= g(xi , yj )p (X = xi , Y = yj ) (4.29)
i j
Pour tout x, on est donc en mesure de calculer E {g(X, Y )|X = x}. Comme
cette valeur x est elle-même générée par la variable aléatoire X, on peut consi-
dérer E {Y |X} comme une variable aléatoire issue de X.
On a E {E {Y |X}} = E {Y }, ainsi E {E {Y |X}} est certaine, et n’est donc
pas aléatoire.
On a alors :
∞
X
fY (y) = pX (xk ) fYk(y) (4.36)
k=1
X∞
E {Y } = pX (xk ) E {Yk } (4.37)
k=1
∞ ∞
!
pX (xk ) (E {Yk } − E {Y })2
X X
σY2 = pX (xk ) σY2k + (4.38)
k=1 k=1
4.1.10 Moments
Définition 4.6. Le moment d’ordre m, n du couple (X, Y ) est E {X m Y n }. Le
moment centré d’ordre m, n du couple (X, Y ) est E {(X − E {X})m (Y − E {Y }n }.
On pourra noter Xc = X −E {X} et Yc = Y −E {Y } les variables aléatoires
centrée obtenues par translation des variables X et Y . Dans ce cas, le moment
centré d’ordre m, n est E {Xcm Ycn }.
Les moments d’ordre k sont tous les moments d’ordre m, n tels que m+n =
k.
Définition 4.7. L’espérance du couple de variables aléatoires (X, Y ) est cons-
tituée de ses moments d’ordre 1 :
E {(X, Y )} = (E {X} , E {Y }) (4.39)
On pourra 1 se rapprocher de la notation usuelle d’une fonction de R2 , en
transposant cette expression :
( !) !
X E {X}
E = (4.40)
Y E {Y }
Preuve :
Cov (X, Y )
ρ= (4.42)
σX σY
On a −1 6 0 6 1.
Si ρ = 0, X et Y sont décorrélées. Si X et Y sont indépendantes, alors elles
sont décorrélées. Attention, l’inverse n’est pas vrai.
Plus |ρ| est grand, plus les deux variables sont liées ; on parlera de corré-
lation positive si ρ > 0 et négative sinon. Si |ρ| = 1, alors il existe λ 6= 0 tel
que Y = λX presque sûrement (cf. définition 5.3).
De façon générale, on peut étendre (2.34) en :
2
σaX+bY = a2 σX
2
+ b2 σY2 + 2abCov (X, Y ) (4.43a)
= a2 σX
2
+ b2 σY2 + 2abρσX σY (4.43b)
Elle est dite de carré intégrable si E {|Z|} < +∞ et E |Z|2 < +∞, où
n o Z Z
E |Z|2 = (x2 + y 2 )fX,Y (x, y) dxdy (4.55)
R R
Ainsi :
Z
p (X ∈ A) = fX(x) dx (4.57)
ZA Z
= ... fX1 ,...,Xn(x1 , . . . , xn ) dx1 . . . dxn (4.58)
A
58 CHAPITRE 4. VECTEURS ALÉATOIRES
En dérivant n fois cette dernière expression, une fois selon chaque direction,
on a :
∂ n FX1 ,...,Xn(x1 , . . . , xn )
fX(x) = fX1 ,...,Xn(x1 , . . . , xn ) = (4.60)
∂x1 . . . ∂xn
Les densités de probabilité marginales s’obtiennent en intégrant la densité
conjointe selon toutes les dimensions sauf une :
Z Z
fXk(xk ) = ... fX1 ,...,Xn(x1 , . . . , xn ) dx1 . . . dxk−1 dxk+1 . . . dxn (4.61)
R R
fX1 ,...,Xn(x1 , . . . , xn )
fX1 ,...,Xn−1 |Xn =xn(x1 , . . . , xn−1 ) = (4.62)
fXn(xn )
Si on connaît les valeurs des k dernières composantes :
fX1 ,...,Xn(x1 , . . . , xn )
fX1 ,...,Xn−k |Xn−k+1 =xn−k+1 ,...,Xn =xn(x1 , . . . , xn−k ) =
fXn−k+1 ,...,Xn(xn−k+1 , . . . , xn )
(4.63)
Définition 4.15. Les composantes du vecteur aléatoire X sont indépendantes
si :
fX(x) = fX1 ,...,Xn(x1 , . . . , xn ) = fX1(x1 ) . . . fXn(xn ) (4.64)
où les fXk(xk ) sont les densités de probabilité marginales issues de fX(x).
4.2.3 Moments
Si g est une fonction de Rn dans R, l’espérance de g(X) se définit par :
Z Z
E {g(X)} = ... g(x)fX(x) dx
n
Z ZR
= ... g (x1 , ..., xn )T fX1 ,...,Xn(x1 , ..., xn ) dx1 ...dx(4.66)
n
R R
4.2. VECTEURS ALÉATOIRES 59
g1 ((X1 , . . . , Xn )T )
g1 (X)
g(X) = ... = ..
(4.67)
.
T
gk (X) gk ((X1 , . . . , Xn ) )
E {(X1 − E {X1 })m1 . . . (Xn − E {Xn })mn } = E {(X1c )m1 . . . (Xnc )mn } (4.70)
T
où |J(y)| est le jacobien de g −1 = g1−1 , . . . , gn−1 :
4.3 Estimation
Les vecteurs aléatoires sont souvent un ensemble de tirages indépendants
selon une même loi inconnue. L’objectif est alors d’estimer le comportement
de cette loi – on baptisera cet objectif statistique prédictive, dont font partie
les chapitres 7 et 8.
Définition 4.19. Une statistique Un est une variable aléatoire définie à partir
d’un échantillon (X1 , . . . , Xn )
4.3.1 Estimateur
Soit fX,θ la fonction de densité d’une variable aléatoire X dépendant 2 d’un
paramètre θ.
Définition 4.20. La statistique Un est un estimateur de θ si la valeur que
l’on peut observer de Un constitue une valeur que l’on peut considérer comme
approchée de θ.
Un est cohérent si
Un −−−−−−−−→ θ (4.77)
en probabilité
∂v((x1 , . . . xn ), θ̂)
= 0 (4.79a)
∂θ
∂ 2 v((x1 , . . . xn ), θ̂)
6 0 (4.79b)
∂θ2
Si Xθ n’est ni discrète, ni continue à densité, on pourra construire la vrai-
semblance en considérant des voisinages autour des points xk , dont on fera
tendre la taille vers 0.
n
Y
v((x1 , . . . xn ), θ, ε) = p (|X − xk | 6 ε) (4.80)
k=1
2. Une loi exponentielle ou une loi de Rayleigh sont définies par un unique paramètre,
une loi uniforme, normale, Gamma ou de Cauchy en ont deux.
62 CHAPITRE 4. VECTEURS ALÉATOIRES
1 1
fX(x) = p exp − (x − m)T Γ−1 (x − m) (4.82)
(2π)n det(Γ)) 2
Comme Γ est symétrique et définie positive, son inverse l’est aussi et Γ−1 =
P D2 P où P est orthogonale (P T = P −1 ), et D est diagonale et définie positive.
T
p −1
On note A la quantité (2π)n det(Γ) .
Z
T 1 T T 2
ΦX (u) = A exp iu x− (x−m) P D P (x−m) dx
Rn 2
Z
1 T T 2 T T 2 T T T 2
= A exp − x P D P x−2m P D P x−2iu x+m P D P m dx
Rn 2
Z
1 T T 2 T T 2 T T −1 T T 2
= A exp − x P D P x−2m P D P x−2iu P D DP x+m P D P m dx
Rn 2
Z
1 −1
T −1
= A exp − DP x−DP m−iD P u DP x−DP m−iD P u dx
Rn 2
1 T
− DP m+iD−1 P u DP m+iD−1 P u +mT P T D2 P m
exp −
2
4.4. VECTEURS ALÉATOIRES GAUSSIENS 63
1
ΨX (u) = iuT m − uT Γu (4.84)
2
Preuve :
Soit X le vecteur aléatoire gaussien considéré. La combinaison linéaire définit une
variable aléatoire Y :
Xn
Y = ak Xk = aT X
k=1
Preuve :
Extraire la k ième composante du vecteur gaussien X revient à le multiplier par le
vecteur ak = (0, . . . , 0, 1, 0, . . . , 0), qui a un unique 1 en position k : on réalise
donc une combinaison linéaire des composantes de X. D’après la proposition 4.4
on obtient donc une variable aléatoire gaussienne d’espérance ak E {X} = E {Xk }
et de variance akT Γak = σX 2
k
.
La réciproque est fausse, il ne suffit pas que chaque composante d’un vec-
teur soit gaussienne pour que le vecteur soit gaussien, il faut qu’elles soient
conjointement gaussiennes, c’est-à-dire que le vecteur respecte la définition
4.22.
Preuve :
Les Xk sont indépendantes, donc la fonction de densité de X est le produit des
fonctions de densité des Xk :
n
!
Y 1 1
fX(x) = √ exp − 2 (Xk − mk )2
2πσXk 2σXk
k=1
n
!
1 1X 1 2
= p Qn exp − 2 (Xk − mk )
(2π)n k=1 σXk 2 σX
k=1
k
2
En considérant la matrice diagonale Γ dont les éléments diagonaux sont les σX k
,
et le vecteur m composé des E {Ek }, on a bien :
1 1 T
fX(x) = p exp − (X − m) Γ−1 (X − m)
(2π)n det(Γ) 2
Proposition 4.10. Les composantes d’un vecteur aléatoire gaussien sont indé-
pendantes si et seulement si elles sont décorrélées.
Preuve :
L’indépendance implique la décorrélation. L’inverse n’est pas vrai en général.
T
Soit X = (X1 , . . . Xn ) un vecteur aléatoire gaussien dont les composantes
sont décorrélées. Sa matrice de variance-covariance est donc une matrice diagonale,
2
dont les termes diagonaux sont les σX k
.
66 CHAPITRE 4. VECTEURS ALÉATOIRES
T
Soit u = (u1 , . . . un ) un vecteur de Rn . La seconde fonction caractéristique
de X est :
1
ΨX (u) = iuT E {X} − uT Γu
2
n n
X 1X 2
= iuk E {Xk } uk σX u
k k
2
k=1 k=1
Xn
= ΨXk (uk )
k=1
Supposons que
E {Xi } = mi
n o
E (Xi − mi )2 = σX
2
i
= σi2
E {(X1 − m1 )(X2 − m2 )} = ρσ1 σ2
soient les moments d’ordre un et d’ordre deux des deux variables gaussiennes,
dont 0 6 |ρ| < 1 est le coefficient de corrélation. Dans ce cas, la matrice de
variance-covariance Γ du vecteur X est donnée par :
!
σ12 ρσ1 σ2
Γ= (4.86)
ρσ1 σ2 σ22
0.14 0.200
0.12 0.175
0.10 0.150
0.08 z
0.125z
0.100
0.06 0.075
0.04 0.050
0.02 0.025
1.6 1.6
0.8 0.8
1.6
0.8
y 1.6
0.8
y
x 0.8 1.6 1.6
0.8 x 0.8 1.6 1.6
0.8
1.5 1.5
0.06
0.0
2
1.0 1.0 6
0.0
0.0
2
3
0.0
0.1
0.04
0.5 0.5 5
4 0.1 0.21
9
0.0
0.10
0.0 0.0
8
y
0.1
0.5 0.5 2
0.12 0.1
0.04
3
1.0 1.0 6 0.0
0.08 0.0
0.0
2
0.0
2
1.5 1.5
2.0 1.5 1.0 0.5 0.0 0.5 1.0 1.5 2.0 2.0 1.5 1.0 0.5 0.0 0.5 1.0 1.5 2.0
x x
ρ = 0, donc indépendance ρ = 0.7
0.5
0.200
0.175 0.4
0.150
0.125z 0.3 z
0.100 0.2
0.075
0.050 0.1
0.025
1.6 1.6
0.8 0.8
1.6
0.8
y 1.6
0.8
y
x 0.8 1.6 1.6
0.8 x 0.8 1.6 1.6
0.8
1.5 1.5
1.0 1.0
0.5 0.5
0.21 0.18
0.0
0.0
0.1
0.0 0.0
3
y
y
5
3
0.0
0.06
0.5 0.5
9
0.12
1.0 1.0
0.06
1.5 1.5
2.0 1.5 1.0 0.5 0.0 0.5 1.0 1.5 2.0 2.0 1.5 1.0 0.5 0.0 0.5 1.0 1.5 2.0
x x
ρ = −0.7 ρ = −0.95, forte dépendance
Cette définition n’impose pas de savoir vers quoi tend la suite (xn ) pour
savoir si elle converge.
Définition 5.2. La suite (xn )n∈N converge sûrement vers x si :
69
70 CHAPITRE 5. CONVERGENCES ET LIMITES
Exemple. Soit Y une variable aléatoire gaussienne de loi N (0, 1). On définit
la suite Xn par : si Y = 42, Xn = 42 pour tout n, sinon Xn = Y /n (on
ne fait qu’un tirage de Y ).
Ainsi, si Y = 42, lim Xn = 42, sinon lim Xn = 0.
Comme p (Y = 42) = 0, p (lim Xn = 42) = 0 et Xn converge presque
sûrement vers 0. ♦
Définition 5.5. La suite (xn )n∈N converge en probabilité vers x si pour tout
ε > 0, on a :
lim p (d(xn , x) > ε) = 0 (5.6)
n→∞
Preuve :
D’après l’inégalité de Tchebychev, on a :
σ2
p |Xn − X| > λ 6 X2n
λ
Donc :
∀λ > 0, lim p |Xn − X| > λ = 0
n→∞
Exemple. Soit Y est une variable aléatoire uniforme sur [0, 1]. On définit Xn
par vaut Y /n, sauf sur un intervalle de longueur 1/n où Xn vaut 1 :
( h i
1
Xn = 1 si Y ∈ αn , αn + n (5.7)
Xn = Yn sinon
5.2. CONVERGENCE EN LOI 71
car ∀y ∈ [0, 1], ∀N ∈ N, ∃n > N tel que Xn = 1 et donc Xn n’est pas une
suite convergente. ♦
Proposition 5.2. Si (xn ) converge sûrement vers x, alors xn converge presque
sûrement vers x.
Si xn converge presque sûrement vers x, alors xn converge en probabilité
vers x.
Si xn converge en moyenne quadratique vers x, alors xn converge en pro-
babilité vers x.
Exemple. Soit Xn une variable aléatoire suivant une loi de Bernoulli de para-
mètre 12 + n+1
1
. Soit X une variable aléatoire suivant une loi de Bernoulli
1
de paramètre 2 . Leurs fonctions de répartition sont :
0 si x < 0
0 si x < 0
1
1 1
FXn(x) = + si 0 6 x < 1 FX(x) = si 0 6 x < 1
2 n+1
2
1 si x > 1 1 si x > 1
Preuve :
σ2
1
Pn
Soit Y = n k=1 Xk . Il est clair que E {Y } = m. On a σ 2 Xk = n2 . Comme
n
2
σ
les Xk sont indépendants, σY2 = n . L’inégalité de Tchebychev (proposition 2.4)
donne :
σY2
p (|Y − m| > ε) 6
! ε2
n
1X σ2
p Xk − m > ε 6
n nε2
k=1
2
σ
Comme limn→∞ nε2 = 0, on a bien :
Pn
k=1 Xk
lim p −m >ε =0
n→∞ n
5.4. THÉORÈME DE LA LIMITE CENTRALE 73
Preuve :
Le développement limité en 0 de la seconde fonction caractéristique de X est :
1
ΨX (u) = imu − σ 2 u2 + o(u2 )
2
et :
1
ΨX−m (u) = − σ 2 u2 + o(u2 )
2
Les Xk étant indépendants, la seconde fonction caractéristique de leur somme
est :
1
ΨP (Xk −m) (u) = − nσ 2 u2 + o(u2 )
k 2
On a :
ΨYn (u) = Ψ 1
√
P
(Xk −m) (u)
σ n k
u
= ΨP (Xk −m)
√
k σ n
22
2
nσ u u
= − √ +o
2 σ n nσ 2
u2
2
u
= − +o
2 nσ 2
u2
lim ΨYn (u) = −
n→∞ 2
2
Comme g : u 7→ − u2 est continue en 0, le théorème de Lévy-Cramér s’applique.
Cette fonction est la seconde fonction caractéristique de N (0, 1), donc Yn converge
en loi vers la loi gaussienne centrée réduite.
Pn
Dans ce cadre, m est l’espérance de 1 √σ
n k=1 Xn et n
son écart-type.
Remarque. Considérant n tirages indépendants selon la loi de X, il convient de
1 P
dire que σ√ n k (Xk − m) tend vers N (0, 1), puis de choisir N (0, 1) comme loi
1
k (Xk − m) sur la base de cette convergence, et enfin d’ap-
P
approchée de σ√ n
pliquer les propriétés de linéarité de la loi normale pour choisir N mn, nσ 2
P
comme loi approchée de k Xk .
Pn
Dire que k=1 Xk “tend” vers N mn, nσ 2 est un raccourci abusif : la
variable qui sert à définir la limite ne peut pas se retrouver dans sa valeur. On
ne fait qu’approcher nk=1 Xk par N mn, nσ 2 .
P
2000 − 1920
p (N (64 × 30, 64 × 25) > 2000) = p N (0, 1) > =2
40
= 1 − erf(2) = 0.0228 = 2.28%
Statistiques
77
Statistique descriptive
6
Sommaire
6.1 Objectifs de la statistique descriptive 79
6.2 Population et autres termes 79
6.2.1 Structures statistiques 80
6.3 Présentation des données 80
6.3.1 Tableau statistique 81
6.3.2 Représentation graphique 81
6.3.3 Courbe cumulative 82
6.4 Statistiques extraites 82
6.4.1 Moyennes 83
6.4.2 Variances 84
6.4.3 Variance d’un histogramme 85
6.4.4 Autres moments 85
6.4.5 Médianes et autres quantiles 86
6.4.6 Extraire les quantiles d’un histogramme 87
6.5 Régression linéaire 87
79
80 CHAPITRE 6. STATISTIQUE DESCRIPTIVE
ENSIETA
Filière ENSI Civils ENSI Mili FIPA
MP 38 17 0
PC 14 8 0
PSI 38 15 0
PT 16 0 0
TSI 4 2 0
Autre 4 0 35
Table 6.2 – Entrer à l’ENSIETA en 2009
Autre TSI
MP PT
PC PSI
Autre PC
TSI
PT MP
PSI MP PC PSI PT TSI Autre
Pour représenter une donnée continue sous une forme résumée, on crée
des classes à partir d’un découpage de l’intervalle des valeurs de la variable
mesurée. On se ramène ainsi au cas précédent.
Les stratégies les plus classiques sont de fabriquer des intervalles de lar-
geur constante, ou des classes d’effectifs constants (figure 6.2). Cette seconde
stratégie sera particulièrement utile si l’on souhaite prolonger l’étude par un
test du χ2 .
82 CHAPITRE 6. STATISTIQUE DESCRIPTIVE
1.0
0.75
0.5
0.25
10 20
6.4.1 Moyennes
Les moyennes, ainsi que les médianes et autres quantiles, sont toujours
comprises entre la plus petite et la plus grande observation.
Définition 6.8. La moyenne arithmétique – aussi appelée simplement la
moyenne – d’un échantillon est :
n K K
1X 1X X
x= xk = nk x̃k = fk x̃k (6.3)
n k=1 n k=1 k=1
K
1X
E= nk |x̃k − x| (6.7)
n k=1
6.4.2 Variances
Définition 6.12. La variance naturelle Sn2 d’un échantillon est définie par :
K K n
1X X 1X
Sn2 = nk (x̃k − x)2 = fk (x̃k − x)2 = (xk − x)2 (6.8)
n k=1 k=1
n k=1
Définition 6.14. La variance sans biais Sn2 d’un échantillon est définie par :
K
2 1 X n
Sn−1 = nk (x̃k − x)2 = S2 (6.9)
n − 1 k=1 n−1 n
Exemple. On constate une corrélation positive entre “le ficus perd ses feuilles”
et “le chat a fait pipi dans le pot du ficus”. L’intuition est donc que le pipi
de chat tue abîme le ficus.
Après analyse du phénomène, le chat aime faire ses besoins dans de la terre
bien sèche. Le lien de causalité se fait donc à partir de l’évènement “le ficus
manque d’eau”, dont les deux évènements observés sont des conséquences.
♦
Définition 6.17. Une médiane M est une valeur telle que l’ensemble des
individus qui lui sont inférieurs ou égaux soit plus grand que la moitié de la
population, et que l’ensemble des individus qui lui sont supérieurs ou égaux
soit plus grand que la moitié de la population :
(
n
|{xk 6 M | k ∈ [1 . . . n]}| > 2
n (6.15)
|{xk > M | k ∈ [1 . . . n]}| > 2
F (x) = λ (6.16)
Cov (X, Y )
a = (6.18a)
µ2 (X)
b = y (6.18b)
Preuve :
On cherche à approcher Y par une fonction aX + b. La fonction que l’on veut
minimiser est ainsi
n
1X
(yk − a(xk − x) − b)2
n
k=1
1
Sans modifier le lieu du minimum, on peut abandonner n et définir
n
X
Q(a, b) = (yk − a(xk − x) − b)2
k=1
Xn
yk2 + a2 (xk − x)2 + b2 − 2ayk (xk − x) − 2byk + 2ab(xk − x)
=
k=1
Xn n
X n
X n
X
= yk2 + a2 (xk − x)2 + nb2 − 2a yk (xk − x) − 2bny + 2ab (xk − x)
k=1 k=1 k=1 k=1
n
X
2 2
= nm2 (Y ) + na µ2 (X) + nb − 2bny − 2a yk (xk − x)
k=1
4. qui porte donc mal son nom. . . il s’agit bien d’une régression affine.
88 CHAPITRE 6. STATISTIQUE DESCRIPTIVE
On a donc b = y et :
n
X
anµ2 (X) = yk (xk − x)
k=1
Xn
yk (xk − x)
k=1
⇐⇒ a= n
X
(xk − x)2
k=1
n n
1
X 1X
n yk xk − x yk
n
k=1 k=1
⇐⇒ a= n
X
1
n (xk − x)2
k=1
E {XY } − E {X} E {Y }
⇐⇒ a=
E {(X − E {X})2 }
Cov (X, Y )
⇐⇒ a=
µ2 (X)
89
90 CHAPITRE 7. ESTIMATION PARAMÉTRIQUE
Les autres moyennes (section 6.4.1) ne servent pas pour l’estimation. Les
autres définitions de la variance (section 6.4.2) permettent de gérer les données
présentées sous forme d’un tableau statistique.
2
On a bien limn→+∞ σX = 0. D’après la proposition 5.1, basée sur l’inégalité
n
de Tchebychev, la moyenne empirique est un estimateur cohérent de E {X}.
2
σX
Proposition 7.2. La loi N (E {X} , n ) est une approximation raisonnable –
en loi – de la moyenne empirique.
7.2. PARAMÈTRES EMPIRIQUES 91
Preuve :
Le théorème de la limite centrale appliqué à X dit que :
Pn
( k=1 Xn ) − nE {X}
Yn = √
σX n
Preuve :
La loi des grands nombres (théorème 5.3) – Sn est une moyenne de tirages indé-
pendants selon une même loi – garantit la convergence presque sûre de Sn , donc
sa convergence en probabilité : l’estimateur est cohérent.
( n
!)
2 1 X 2 n 2o
E Sn = E Xk − E Xn
n
k=1
n
1X 2 n 2o
= E Xk − E Xn
n
k=1
2
Pour une variable aléatoire quelconque, E Y 2 = E {Y } + σY2 . Ainsi :
n
1 X 2
2
E Sn2 2 2
= E {Xk } + σX − E Xn + σX
n k n
k=1
22 2 1 2 n−1 2
= E {X} + σX − E {X} − σ = σX
n X n
Toutefois nous n’avons pas E Sn2 = σX
2
: l’estimateur n’est pas sans biais.
Preuve :
n
La quantité n−1 tendant vers 1, la convergence presque sûre de la variance empirique
2
naturelle vers σX entraîne celle de la variance empirique sans biais.
Dans la démonstration précédente, nous concluions par E Sn2 = n−1
2
n σX . Il
vient donc immédiatemment que :
2 n n
Sn2 = E Sn2 = σX 2
E Sn−1 =E
n−1 n−1
92 CHAPITRE 7. ESTIMATION PARAMÉTRIQUE
Xn − θ
T =
√σ
n
α = p (T ∈ [−aT , aT ])
= erf(aT ) − erf(−aT )
= 2erf(aT ) − 1
Toutefois il n’est pas possible d’utiliser ce modèle, car σ 2 est inconnu. Il faut donc
faire apparaître son estimateur :
n 2
nSn2
X Xk − Xn
2
=
σ σ
k=1
T
Le calcul de Xn est une projection de l’échantillon sur R (1, 1, . . . , 1) . Le
vecteur des (Xk − Xn ) est une projection dans son orthogonal. Le théorème de
nS 2
Cochran 2 permet de conclure que σ2n suit une loi du χ2 à n − 1 degrés de liberté.
Ainsi la variable t : √
n − 1T
t= q
nSn2
σ2
est le rapport entre une loi normale centrée réduite et une loi du χ2 à n − 1 degrés
de liberté. Elle suit donc une loi de Student de paramètre n − 1.
L’inverse de la fonction de répartition de cette loi – symétrique – donne at en
fonction de α (page 124). Il n’y a plus qu’à remonter les transformations affines
pour obtenir les bornes de l’intervalle à partir de [−at , at ].
94 CHAPITRE 7. ESTIMATION PARAMÉTRIQUE
Xn − θ
T =
√σ
n
Exemple. Dans un jeu de rôle célèbre 3 une épée fait 1d8 points de dom-
mages. Une épée magique fait 1d8 + M points de dommages, où M est
2. Non démontré dans ce document.
3. Runequest, bien sûr, mais de nombreuses versions de Donjons et Dragons suivent le
même modèle.
7.3. ESTIMATION DE L’ESPÉRANCE 95
un entier. Les dégâts de l’épée magique suivent donc une loi équiprobable
sur {M +1, M +2, . . . , M +8}. Son espérance est M + 4.5 et sa variance est
63
12 = 5.25, soit un écart-type de 2.3.
Après avoir observé le porteur de l’épée se battre pendant un quart
d’heure et donner 163 coups d’épée – on notera bien que 163 > 30 :
c’est un grand échantillon, et chaque coup suit une loi équiprobable : ce
n’est pas une loi normale – on constate que la moyenne des coups donnés
est Xn = 9.39, et leur écart-type mesuré est Sn = 2.33. On en déduit que
l’espérance des dommages de l’épée a 95% de chances de se trouver dans
l’intervalle
Sn Sn
I = Xn − aT √ , Xn + aT √ = [9.03, 9.75]
n n
7.3.5 Proportion
La caractère mesuré sur l’échantillon n’a que deux modes (vrai/faux, oui/non,
0/1, . . . ). Il est donc issu d’une loi de Bernoulli sous-jacente, dont le paramètre
est p, qui est aussi son espérance.
Proposition 7.8. Si l’échantillon est de grande taille et a été généré par une
loi de Bernoulli de paramètre inconnu p, l’intervalle de confiance au niveau α
pour θ est : s s
p(1 − p) p(1 − p)
I = p − aT , p + aT (7.9)
n n
où :
1+α
aT = erf −1 (7.10)
2
et p est la proportion d’observations vrai dans l’échantillon.
Preuve :
La loi sous-jacente est de Bernouilli ; sa variance est donc p(1 − p). La variance de
Xn est donc de p(1−p)n .
L’échantillon est de grande taille ; le théorème de la limite centrale nous permet
d’approcher Xn une loi normale, d’espérance p et de variance p(1−p) n . La loi des
grands nombres – comme pour le cas des grands échantillons – permet d’utiliser
p(1−p)
n comme approximation de p(1−p) n .
On obtient donc l’intervalle de confiance en interrogeant la fonction erf.
96 CHAPITRE 7. ESTIMATION PARAMÉTRIQUE
97
98 CHAPITRE 8. TESTS STATISTIQUES
Dans ce qui suit σ 2 est la variance de la loi si elle est connue, et Sn2 la
variance empirique naturelle mesurée sur l’échantillon si la variance de la loi
sous-jacente est inconnue.
Petit échantillon gaussien de variance connue : rejet de H0 si
σ
|Xn − θ| > aT √ (8.1)
n
où aT = erf −1 1+α
2
Petit échantillon gaussien de variance inconnue : rejet de H0 si
Sn
|Xn − θ| > at √ (8.2)
n−1
où at est tel qu’une variable suivant une loi de Student à n − 1 degrés
de liberté ait une probabilité α d’appartenir à [−at , at ].
Grand échantillon : rejet de H0 si
Sn
|Xn − θ| > aT √ (8.3)
n
où aT = erf −1 1+α
2
Proportion : rejet de H0 – représentée par E {X} = p0 – si
s
p0 (1 − p0 )
|p − p0 | > aT (8.4)
n
où aT = erf −1 1+α
2 . Sous les conditions d’application du test de pro-
portion, p est une bonne approximation de p0 , et on peut aussi utiliser
le test s
p(1 − p)
|p − p0 | > aT (8.5)
n
Preuve :
On teste l’hypothèse H0 selon laquelle les espérances des lois sous-jacentes à X1
et X2 sont égales : on a donc E {X1 } = E {X2 } = θ.
On peut réduire les estimateurs X1 et X2 en deux variables aléatoires normales
centrées, réduites et indépendantes T1 et T2 :
X1 − E {X1 } X2 − E {X2 }
T1 = T2 =
√σ1 √σ2
n1 n2
∆X = X1 − X2
σ1 T1 σ2 T2
= E {X1 } − E {X2 } + √ − √
n1 n2
X1 − X2
T =q 2
σ1 σ12
n1 + n1
n S2 n2 S22
S12 et S22 étant indépendants, σ1 2 1 + σ2 suit une loi du χ2 à n1 + n2 − 2
degrés de liberté, et est indépendant de T .
Ainsi, la variable t définie par
r s
T n1 n2 n1 + n2 − 2
t= p = (X1 − X2 )
χ2n
1 +n2 −2
n1 + n2 n1 S12 + n2 S22
√
n1 +n2 −1
Grands échantillons
Proposition 8.3. Soit un échantillon X1 de taille n1 > 30 et de variance
inconnue et un échantillon X2 de taille n2 > 30 et de variance inconnue.
L’hypothèse que X1 et X2 ont été engendrés par des lois de même espérance
est rejetée au seuil α si :
s
S12 S22
|X1 − X2 | > aT + (8.8a)
n1 n2
où :
1+α
−1
aT = erf (8.8b)
2
Preuve :
Pour des grands échantillons on considère que l’approximation faite par le théorème
de la limite centrale est de suffisamment bonne qualité, et donc que X1 et X2 suivent
les lois N (E {X} , S12 ) et N (E {X} , S22 ) sous l’hypothèse H0 , ce qui permet de se
ramener au cas des échantillons gaussiens de variance connue.
où :
1+α
aT = erf −1 (8.9b)
2
n1 p1 + n2 p2
p = (8.9c)
n1 + n2
102 CHAPITRE 8. TESTS STATISTIQUES
Preuve :
On utilise la fréquence moyenne p = n1np11 +n
+n2
2 p2
pour estimer la variance de la loi
de Bernoulli sous-jacente : p(1 − p).
On se ramène alors au cas des grands échantillons, p(1−p) estimant la variance
commune des deux échantillons.
Il est courant que l’on utilise ce test pour mesurer l’influence d’un carac-
tère qualitatif – appelé facteur sur un caractère quantitatif. On crée alors un
échantillon pour chaque modalité du facteur – et on baptise classe associée à
cette modalité du facteur cet échantillon.
On note N le nombre de modalités du facteur, et X1 , . . . , XN les classes
obtenues, d’effectifs respectifs n1 , . . . , nN . On a donc un ensemble de données :
x1,1 , x2,1 , . . . , xn1 ,1
x1,2 , x2,2 , . . . , xn2 ,2
..
.
x1,N , x2,N , . . . , xnN ,N
Leurs valeurs moyennes sont notées x·,1 , . . . , x·,K , où
ni
1 X
x·,i = xk,i (8.10)
ni k=1
La notation “·” au niveau de l’indice signifie “faire la moyenne selon cet indice”.
La moyenne globale de l’effectif est ainsi :
N X n
i
1X
x·,· = xk,i (8.11)
n i=1 k=1
moyennes des classes ne sont dûs qu’à la dispersion de la loi de X et, étant
moyennés sur de nombreux tirages, sont petits devant la dispersion interne
aux classes. Une “trop grande” valeur de la dispersion inter-classes conduira
donc à rejeter H0 .
N
X
2
SR = nk Sk2 (8.13)
k=1
D’après le théorème de Cochran, on perd alors un degré de liberté : σ1 Si2 suit une
loi du χ2 à ni − 1 degrés de liberté. En passant à la dispersion interne totale, on
trouve donc que σ1 SR
2
suit une loi du χ2 à n − N degrés de liberté.
n+ 21 m
1 n Y
≈ √ m−1 Qm 1
nk + 2
pnk k
2π k=1 k n k=1
m n + 1
1 1−m Y npk k 2
≈ √ m−1 n 2
2π nk
k=1
m n + 1
Y npk k 2
≈ A(n, m)
nk
k=1
log p (N1 = n1 , . . . , Nm = nm )
m
X √ 1 Xk
≈ B− Xk npk + npk + √
2 npk
k=1
m 2
X1 √ 1 Xk
+ Xk npk + npk + √
2 2 npk
k=1
m m m m
X X √ X Xk 1X 2
≈ B− Xk2 − Xk npk − √ + Xk
2 npk 2
k=1 k=1 k=1 k=1
m m m
1 X X √ X Xk
≈ B− Xk2 − Xk npk − √
2 2 npk
k=1 k=1 k=1
Ainsi :
m
1X 2
log p (N1 = n1 , . . . , Nm = nm ) ≈ B − Xk
2
k=1
qui
Pmest une loi normale centrée réduite de dimension m. Comme l’équation affine
k=1 Xk = 0 est toujours vérifiée, on projette le vecteur aléatoire P
(X1 , . . . , Xm )
m
dans un espace de dimension 1, et, d’après le théorème de Cochran, k=1 Xk2 suit
une loi du χ2 à m − 1 degrés de liberté.
et pour k ∈ [1, . . . , m], npY (Ck ) > 5. Soit K le nombre de paramètres extraits
de l’échantillon servant à déterminer la loi de Y . Si l’hypothèse H0 “l’échan-
tillon (X1 , . . . , Xn ) a été engendré par l’évènement aléatoire Y ” est vraie, le
χ2O mesuré sur l’échantillon suit une loi du χ2 à m − K − 1 degrés de liberté.
m
X (Nk − npY (Ck ))2
χ2O = (8.17)
k=1
npY (Ck )
où Nk est le nombre d’observations de la classe Ck .
Preuve :
Le résultat pour K = 0 n’est autre que la proposition 8.6. Les m variables aléatoires
issues de la répartition des échantillons entre les m classes du partitionnement
mènent
Pm à une loi du χ2 à m − 1 degrés de liberté plutôt qu’à m car la contrainte
2
k=1 Nk = n est une opération de projection des m variables aléatoires du χ1 sur
un espace de dimension 1 : on perd un degré de liberté.
Extraire un paramètre par une application linéaire – c’est le cas pour le calcul
de la moyenne qui estime l’espérance – augmente d’autant la taille du sous-espace
dans lequel on se projette.
On admettra 6 que si on ajoute une contrainte non-linéaire, comme l’estimation
de la variance ou de la médiane, l’effet sur le nombre de degrés de liberté de loi du
χ2 obtenue est le même.
np1 = 63.841
np2 = 36.670
np3 = 21.063
np4 = 28.426
4
X (nk − npk )2
χ2O = (8.20)
k=1
npk
(65 − 63.841)2 (30 − 36.67)2 (30 − 21.063)2 (25 − 28.426)2
= + + +
63.841 36.67 21.063 28.426
= 0.021023 + 1.213197 + 3.792126 + 0.412856
= 5.4392
np1 = 59.020
np2 = 35.798
np3 = 21.712
np4 = 33.470
Il n’y a pas de paramètre extrait (le paramètre 2 est fourni par le construc-
teur, pas par l’échantillon). On s’attend donc à ce que χ2O suive une loi du
χ2 à 4−1−0 = 3 degrés de liberté. On trouve par (8.20) que χ2O = 6.8512.
Pour α = 0.95, le χ2 maximal est de 7.81 : on accepte donc H00 à ce seuil 8 .
♦
Preuve :
On additionne le χ2 pour rs catégories. On calcule r + s paramètres, le pi et qj ,
toutefois pr et qs peuvent être calculés sans se référer à l’échantillon.
Le nombre de degrés de liberté de χ2O sous l’hypothèse H0 est donc :
rs − 1 − (r + s − 2) = rs − r − s + 1 = (r − 1)(s − 1)
Preuve 9 :
La preuve s’appuie sur le comportement du mouvement brownien, mouvement aléa-
toire selon lequel, à chaque itération, on ajoute 1 à l’accumulateur avec une proba-
bilité 21 , et on lui retranche 1 avec la même probabilité.
Si le cours de probabilité contenait
√ un chapitre sur les processus stochastiques, il
serait possible de prouver que n (Fn (x) − F (x)) converge vers un pont brownien,
dont l’équation est donnée par α(c).
110 CHAPITRE 8. TESTS STATISTIQUES
pour construire le seuil du test pour |X1 − X2 | dans le cas des grands échan-
tillons. On utilisera s
1 1
aT σ + (8.33)
n1 n2
pour les petits échantillons gaussiens à variance connue,
s
q 1 1
aT p(1 − p) + (8.34)
n1 n2
par une loi de Student à n1 + n2 degrés de liberté pour les petits échantillons
gaussiens de variance inconnue.
Pour comparer plus de deux espérances, il faut passer par un test de Fisher
(section 8.1.4), comparant le ratio de la variance intra-classes et de la variance
interclasses :
N
X
nk (x·,k − x·,· )2
n−N
F = × k=1 ni
(8.36)
N −1 N X
(xk,i − x·,i )2
X
k=1 k=1
113
114 INDEX
R
réduite . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
random . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
Rayleigh . . . . . . . . . . . . . . . . . . . . . . . . . . 42
région de rejet . . . . . . . . . . . . . . . . . . . . 98
régression . . . . . . . . . . . . . . . . . . . . . . . . . 87
répartition . . . . . . . . . . voir fonction de
répartition
rotation . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
S
sans biais . . . . . . . . . . . . . . . . . . . . . . . . . 61
série
entière . . . . . . . . . . . . . . . . . . . . . . . . 27
formelle. . . . . . . . . . . . . . . . . . . . . . .27
Smirnov . . . . . . . . . . . . . . . . 109, 112, 119
Snedecor . . . . . . . . . . . . . . . . 44, 118, 125
somme . . . . . . . . . . . . . . . . . . . . 27, 56, 64
statistique . . . . . . . . . . . . . . . . . . . . . 60, 82
structure statistique. . . . . . . . . . . . . . .80
Student . . . . . . . . . 44, 99, 100, 118, 124
T
t . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
Tchebychev . . . . . . . . . . . 24, 70, 72, 118
test de conformité. . . . . . . . . . . . . . . . .98
test de signification . . . . . . . . . . . . . . . 98
test paramétrique . . . . . . . . . . . . . . . . . 98
test statistique . . . . . . . . . . . . . . . . . . . . 97
tirage aléatoire . . . . . . . . . . . . . . . . . . . . 45
tribu . . . . . . . . . . . . . . . . . . . . . . . . . . 12–14
U
uniforme . . . . . . . . . . . . . . . . . . . . . . 37, 85
V
variable . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
aléatoire . . . . . . . . . . . . . . . . . . . . . . 17
complexe . . . . . . . . . . . . . . . . . . . . . 57
continue . . . . . . . . . . . . . . . . . . 18, 36
discrète. . . . . . . . . . . . . . . .18, 27, 33
variance . . . . . . . . 23, 54, 59, 84, 85, 90
inter-classe . . . . . . . . . . . . . . . . 54, 85
116 INDEX
Petites histoires de probabilistes
A
I ci apparaissent quelques-uns des auteurs originaux des notions développées
dans ce polycopié. L’ordre est essentiellement temporel 1 .
Cardan, 1501-1576. Girolamo Cardano est un médecin, mathématicien et
astrologue italien. Il a contribué à l’étude des équations algébriques, mais
le fait que ses analyses des jeux des hasard aient été justes n’a pas été
perçu de son temps.
Galilée, 1564-1642. Galileo Galilei est un physicien et astronome italien,
dont les contributions aux probabilités, quoique justes, sont modestes. Il
est célèbre pour ses démèlées avec l’Église en astronomie, laquelle n’a pas
considéré les probabilités comme polémiques, même avec la mécanique
quantique.
Fermat, début XVIIe -1665. Pierre de Fermat est un mathématicien et ju-
riste français. Il a notamment travaillé en arithmétique.
Pascal, 1623-1662. Blaise Pascal est un scientifique et philosophe français.
Il promeut la méthode scientifique, contribue à la thermodynamique et
à l’arithmétique, qu’il applique aux probabilités.
Bernoulli, 1654-1705. Jacques Bernoulli est un mathématicien suisse. Il
contribue au calcul infinitésimal, et pose les principes du calcul de pro-
babilités dans Ars conjectandi, publié de façon posthume.
de Moivre, 1667-1754. Abraham de Moivre est un mathématicien français.
Huguenot, il est contraint à l’exil en Angleterre où, français, il ne peut
trouver un poste de professeur. Il contribue à la théorie des fluxions de
Newton, ainsi qu’aux probabilités par une version du théorème de la
limite centrale.
Bayes, 1702-1761. Thomas Bayes est un pasteur et mathématicien anglais.
Son théorème n’a été publié qu’après sa mort, et popularisé par la théorie
de l’utilité et la classification supervisée.
Laplace, 1749-1827. Pierre-Simon Laplace est un scientifique français, mem-
bre de presque toutes les académies scientiques européennes, et président
de plusieurs d’entre elles. Il contribue de façon majeure à l’analyse de la
mécanique céleste, aux équations différentielles, et aux probabilités.
1. La vie d’un mathématicien est un segment, et il n’existe pas d’ordre total sur l’ensemble
des segments qui survive à un passage à la limite. La mise en page d’une description en
LATEX impose cependant d’en choisir un.
117
118 ANNEXE A. PETITES HISTOIRES DE PROBABILISTES
121
122 ANNEXE B. TABLES DES LOIS
Attention, la fonction erf n’est pas définie de la même manière dans tous
les logiciels scientifiques.
x 0.0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.5000 0.5039 0.5079 0.5119 0.5159 0.5199 0.5239 0.5279 0.5318 0.5358
0.1 0.5398 0.5437 0.5477 0.5517 0.5556 0.5596 0.5635 0.5674 0.5714 0.5753
0.2 0.5792 0.5831 0.5870 0.5909 0.5948 0.5987 0.6025 0.6064 0.6102 0.6140
0.3 0.6179 0.6217 0.6255 0.6293 0.6330 0.6368 0.6405 0.6443 0.6480 0.6517
0.4 0.6554 0.6590 0.6627 0.6664 0.6700 0.6736 0.6772 0.6808 0.6843 0.6879
0.5 0.6914 0.6949 0.6984 0.7019 0.7054 0.7088 0.7122 0.7156 0.7190 0.7224
0.6 0.7257 0.7290 0.7323 0.7356 0.7389 0.7421 0.7453 0.7485 0.7517 0.7549
0.7 0.7580 0.7611 0.7642 0.7673 0.7703 0.7733 0.7763 0.7793 0.7823 0.7852
0.8 0.7881 0.7910 0.7938 0.7967 0.7995 0.8023 0.8051 0.8078 0.8105 0.8132
0.9 0.8159 0.8185 0.8212 0.8238 0.8263 0.8289 0.8314 0.8339 0.8364 0.8389
1.0 0.8413 0.8437 0.8461 0.8484 0.8508 0.8531 0.8554 0.8576 0.8599 0.8621
1.1 0.8643 0.8665 0.8686 0.8707 0.8728 0.8749 0.8769 0.8789 0.8809 0.8829
1.2 0.8849 0.8868 0.8887 0.8906 0.8925 0.8943 0.8961 0.8979 0.8997 0.9014
1.3 0.9031 0.9049 0.9065 0.9082 0.9098 0.9114 0.9130 0.9146 0.9162 0.9177
1.4 0.9192 0.9207 0.9221 0.9236 0.9250 0.9264 0.9278 0.9292 0.9305 0.9318
1.5 0.9331 0.9344 0.9357 0.9369 0.9382 0.9394 0.9406 0.9417 0.9429 0.9440
1.6 0.9452 0.9463 0.9473 0.9484 0.9494 0.9505 0.9515 0.9525 0.9535 0.9544
1.7 0.9554 0.9563 0.9572 0.9581 0.9590 0.9599 0.9607 0.9616 0.9624 0.9632
1.8 0.9640 0.9648 0.9656 0.9663 0.9671 0.9678 0.9685 0.9692 0.9699 0.9706
1.9 0.9712 0.9719 0.9725 0.9731 0.9738 0.9744 0.9750 0.9755 0.9761 0.9767
2.0 0.9772 0.9777 0.9783 0.9788 0.9793 0.9798 0.9803 0.9807 0.9812 0.9816
2.1 0.9821 0.9825 0.9829 0.9834 0.9838 0.9842 0.9846 0.9849 0.9853 0.9857
2.2 0.9860 0.9864 0.9867 0.9871 0.9874 0.9877 0.9880 0.9883 0.9886 0.9889
2.3 0.9892 0.9895 0.9898 0.9900 0.9903 0.9906 0.9908 0.9911 0.9913 0.9915
2.4 0.9918 0.9920 0.9922 0.9924 0.9926 0.9928 0.9930 0.9932 0.9934 0.9936
2.5 0.9937 0.9939 0.9941 0.9942 0.9944 0.9946 0.9947 0.9949 0.9950 0.9952
2.6 0.9953 0.9954 0.9956 0.9957 0.9958 0.9959 0.9960 0.9962 0.9963 0.9964
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9971 0.9972 0.9973
2.8 0.9974 0.9975 0.9975 0.9976 0.9977 0.9978 0.9978 0.9979 0.9980 0.9980
2.9 0.9981 0.9981 0.9982 0.9983 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986
Les plus grandes valeurs de α permettent de rejeter les données trop éloi-
gnées de la distribution attendue. Les petites valeurs de α permettent de dé-
tecter les données anormalement proches de la distribution attendue.
n\x χ20.01 χ20.05 χ20.1 χ20.25 χ20.5 χ20.75 χ20.9 χ20.95 χ20.99 χ20.999
1 0.00 0.00 0.02 0.10 0.45 1.32 2.71 3.84 6.63 10.83
2 0.02 0.10 0.21 0.58 1.39 2.77 4.61 5.99 9.21 13.82
3 0.11 0.35 0.58 1.21 2.37 4.11 6.25 7.81 11.34 16.27
4 0.30 0.71 1.06 1.92 3.36 5.39 7.78 9.49 13.28 18.47
5 0.55 1.15 1.61 2.67 4.35 6.63 9.24 11.07 15.09 20.52
6 0.87 1.64 2.20 3.45 5.35 7.84 10.64 12.59 16.81 22.46
7 1.24 2.17 2.83 4.25 6.35 9.04 12.02 14.07 18.48 24.32
8 1.65 2.73 3.49 5.07 7.34 10.22 13.36 15.51 20.09 26.12
9 2.09 3.33 4.17 5.90 8.34 11.39 14.68 16.92 21.67 27.88
10 2.56 3.94 4.87 6.74 9.34 12.55 15.99 18.31 23.21 29.59
11 3.05 4.57 5.58 7.58 10.34 13.70 17.28 19.68 24.72 31.26
12 3.57 5.23 6.30 8.44 11.34 14.85 18.55 21.03 26.22 32.91
13 4.11 5.89 7.04 9.30 12.34 15.98 19.81 22.36 27.69 34.53
14 4.66 6.57 7.79 10.17 13.34 17.12 21.06 23.68 29.14 36.12
15 5.23 7.26 8.55 11.04 14.34 18.25 22.31 25.00 30.58 37.70
16 5.81 7.96 9.31 11.91 15.34 19.37 23.54 26.30 32.00 39.25
17 6.41 8.67 10.09 12.79 16.34 20.49 24.77 27.59 33.41 40.79
18 7.01 9.39 10.86 13.68 17.34 21.60 25.99 28.87 34.81 42.31
19 7.63 10.12 11.65 14.56 18.34 22.72 27.20 30.14 36.19 43.82
20 8.26 10.85 12.44 15.45 19.34 23.83 28.41 31.41 37.57 45.31
21 8.90 11.59 13.24 16.34 20.34 24.93 29.62 32.67 38.93 46.80
22 9.54 12.34 14.04 17.24 21.34 26.04 30.81 33.92 40.29 48.27
23 10.20 13.09 14.85 18.14 22.34 27.14 32.01 35.17 41.64 49.73
24 10.86 13.85 15.66 19.04 23.34 28.24 33.20 36.42 42.98 51.18
25 11.52 14.61 16.47 19.94 24.34 29.34 34.38 37.65 44.31 52.62
26 12.20 15.38 17.29 20.84 25.34 30.43 35.56 38.89 45.64 54.05
27 12.88 16.15 18.11 21.75 26.34 31.53 36.74 40.11 46.96 55.48
28 13.56 16.93 18.94 22.66 27.34 32.62 37.92 41.34 48.28 56.89
29 14.26 17.71 19.77 23.57 28.34 33.71 39.09 42.56 49.59 58.30
30 14.95 18.49 20.60 24.48 29.34 34.80 40.26 43.77 50.89 59.70
40 22.16 26.51 29.05 33.66 39.34 45.62 51.81 55.76 63.69 73.40
50 29.71 34.76 37.69 42.94 49.33 56.33 63.17 67.50 76.15 86.66
60 37.48 43.19 46.46 52.29 59.33 66.98 74.40 79.08 88.38 99.61
70 45.44 51.74 55.33 61.70 69.33 77.58 85.53 90.53 100.43 112.32
80 53.54 60.39 64.28 71.14 79.33 88.13 96.58 101.88 112.33 124.84
90 61.75 69.13 73.29 80.62 89.33 98.65 107.57 113.15 124.12 137.21
100 70.06 77.93 82.36 90.13 99.33 109.14 118.50 124.34 135.81 149.45
124 ANNEXE B. TABLES DES LOIS
m\n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 30 40 50 60
1 161 200 216 225 230 234 237 239 241 242 243 244 245 245 246 246 247 247 248 248 248 249 249 249 249 250 251 252 252
2 18.5 19.0 19.2 19.2 19.3 19.3 19.4 19.4 19.4 19.4 19.4 19.4 19.4 19.4 19.4 19.4 19.4 19.4 19.4 19.4 19.4 19.5 19.5 19.5 19.5 19.5 19.5 19.5 19.5
3 10.1 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.81 8.79 8.76 8.74 8.73 8.71 8.70 8.69 8.68 8.67 8.67 8.66 8.65 8.65 8.64 8.64 8.63 8.62 8.59 8.58 8.57
4 7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 6.00 5.96 5.94 5.91 5.89 5.87 5.86 5.84 5.83 5.82 5.81 5.80 5.79 5.79 5.78 5.77 5.77 5.75 5.72 5.70 5.69
5 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77 4.74 4.70 4.68 4.66 4.64 4.62 4.60 4.59 4.58 4.57 4.56 4.55 4.54 4.53 4.53 4.52 4.50 4.46 4.44 4.43
6 5.99 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.10 4.06 4.03 4.00 3.98 3.96 3.94 3.92 3.91 3.90 3.88 3.87 3.86 3.86 3.85 3.84 3.83 3.81 3.77 3.75 3.74
7 5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.68 3.64 3.60 3.57 3.55 3.53 3.51 3.49 3.48 3.47 3.46 3.44 3.43 3.43 3.42 3.41 3.40 3.38 3.34 3.32 3.30
8 5.32 4.46 4.07 3.84 3.69 3.58 3.50 3.44 3.39 3.35 3.31 3.28 3.26 3.24 3.22 3.20 3.19 3.17 3.16 3.15 3.14 3.13 3.12 3.12 3.11 3.08 3.04 3.02 3.01
9 5.12 4.26 3.86 3.63 3.48 3.37 3.29 3.23 3.18 3.14 3.10 3.07 3.05 3.03 3.01 2.99 2.97 2.96 2.95 2.94 2.93 2.92 2.91 2.90 2.89 2.86 2.83 2.80 2.79
10 4.96 4.10 3.71 3.48 3.33 3.22 3.14 3.07 3.02 2.98 2.94 2.91 2.89 2.86 2.85 2.83 2.81 2.80 2.79 2.77 2.76 2.75 2.75 2.74 2.73 2.70 2.66 2.64 2.62
11 4.84 3.98 3.59 3.36 3.20 3.09 3.01 2.95 2.90 2.85 2.82 2.79 2.76 2.74 2.72 2.70 2.69 2.67 2.66 2.65 2.64 2.63 2.62 2.61 2.60 2.57 2.53 2.51 2.49
12 4.75 3.89 3.49 3.26 3.11 3.00 2.91 2.85 2.80 2.75 2.72 2.69 2.66 2.64 2.62 2.60 2.58 2.57 2.56 2.54 2.53 2.52 2.51 2.51 2.50 2.47 2.43 2.40 2.38
13 4.67 3.81 3.41 3.18 3.03 2.92 2.83 2.77 2.71 2.67 2.63 2.60 2.58 2.55 2.53 2.51 2.50 2.48 2.47 2.46 2.45 2.44 2.43 2.42 2.41 2.38 2.34 2.31 2.30
14 4.60 3.74 3.34 3.11 2.96 2.85 2.76 2.70 2.65 2.60 2.57 2.53 2.51 2.48 2.46 2.44 2.43 2.41 2.40 2.39 2.38 2.37 2.36 2.35 2.34 2.31 2.27 2.24 2.22
15 4.54 3.68 3.29 3.06 2.90 2.79 2.71 2.64 2.59 2.54 2.51 2.48 2.45 2.42 2.40 2.38 2.37 2.35 2.34 2.33 2.32 2.31 2.30 2.29 2.28 2.25 2.20 2.18 2.16
16 4.49 3.63 3.24 3.01 2.85 2.74 2.66 2.59 2.54 2.49 2.46 2.42 2.40 2.37 2.35 2.33 2.32 2.30 2.29 2.28 2.26 2.25 2.24 2.24 2.23 2.19 2.15 2.12 2.11
17 4.45 3.59 3.20 2.96 2.81 2.70 2.61 2.55 2.49 2.45 2.41 2.38 2.35 2.33 2.31 2.29 2.27 2.26 2.24 2.23 2.22 2.21 2.20 2.19 2.18 2.15 2.10 2.08 2.06
18 4.41 3.55 3.16 2.93 2.77 2.66 2.58 2.51 2.46 2.41 2.37 2.34 2.31 2.29 2.27 2.25 2.23 2.22 2.20 2.19 2.18 2.17 2.16 2.15 2.14 2.11 2.06 2.04 2.02
19 4.38 3.52 3.13 2.90 2.74 2.63 2.54 2.48 2.42 2.38 2.34 2.31 2.28 2.26 2.23 2.21 2.20 2.18 2.17 2.16 2.14 2.13 2.12 2.11 2.11 2.07 2.03 2.00 1.98
20 4.35 3.49 3.10 2.87 2.71 2.60 2.51 2.45 2.39 2.35 2.31 2.28 2.25 2.22 2.20 2.18 2.17 2.15 2.14 2.12 2.11 2.10 2.09 2.08 2.07 2.04 1.99 1.97 1.95
21 4.32 3.47 3.07 2.84 2.68 2.57 2.49 2.42 2.37 2.32 2.28 2.25 2.22 2.20 2.18 2.16 2.14 2.12 2.11 2.10 2.08 2.07 2.06 2.05 2.05 2.01 1.96 1.94 1.92
22 4.30 3.44 3.05 2.82 2.66 2.55 2.46 2.40 2.34 2.30 2.26 2.23 2.20 2.17 2.15 2.13 2.11 2.10 2.08 2.07 2.06 2.05 2.04 2.03 2.02 1.98 1.94 1.91 1.89
23 4.28 3.42 3.03 2.80 2.64 2.53 2.44 2.37 2.32 2.27 2.24 2.20 2.18 2.15 2.13 2.11 2.09 2.08 2.06 2.05 2.04 2.02 2.01 2.01 2.00 1.96 1.91 1.88 1.86
24 4.26 3.40 3.01 2.78 2.62 2.51 2.42 2.36 2.30 2.25 2.22 2.18 2.15 2.13 2.11 2.09 2.07 2.05 2.04 2.03 2.01 2.00 1.99 1.98 1.97 1.94 1.89 1.86 1.84
25 4.24 3.39 2.99 2.76 2.60 2.49 2.40 2.34 2.28 2.24 2.20 2.16 2.14 2.11 2.09 2.07 2.05 2.04 2.02 2.01 2.00 1.98 1.97 1.96 1.96 1.92 1.87 1.84 1.82
30 4.17 3.32 2.92 2.69 2.53 2.42 2.33 2.27 2.21 2.16 2.13 2.09 2.06 2.04 2.01 1.99 1.98 1.96 1.95 1.93 1.92 1.91 1.90 1.89 1.88 1.84 1.79 1.76 1.74
40 4.08 3.23 2.84 2.61 2.45 2.34 2.25 2.18 2.12 2.08 2.04 2.00 1.97 1.95 1.92 1.90 1.89 1.87 1.85 1.84 1.83 1.81 1.80 1.79 1.78 1.74 1.69 1.66 1.64
50 4.03 3.18 2.79 2.56 2.40 2.29 2.20 2.13 2.07 2.03 1.99 1.95 1.92 1.89 1.87 1.85 1.83 1.81 1.80 1.78 1.77 1.76 1.75 1.74 1.73 1.69 1.63 1.60 1.58
60 4.00 3.15 2.76 2.53 2.37 2.25 2.17 2.10 2.04 1.99 1.95 1.92 1.89 1.86 1.84 1.82 1.80 1.78 1.76 1.75 1.73 1.72 1.71 1.70 1.69 1.65 1.59 1.56 1.53