0% ont trouvé ce document utile (0 vote)
63 vues125 pages

Proba&Stat

Le document est un support de cours sur les probabilités et statistiques destiné aux étudiants de FISE 1A à ENSTA Bretagne. Il couvre divers sujets tels que les probabilités, les variables aléatoires, les lois de probabilité, les vecteurs aléatoires, ainsi que des concepts statistiques comme l'estimation et les tests statistiques. Le contenu est structuré en sections avec des sous-thèmes détaillés et inclut également des tables de lois et des histoires de probabilistes.
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
63 vues125 pages

Proba&Stat

Le document est un support de cours sur les probabilités et statistiques destiné aux étudiants de FISE 1A à ENSTA Bretagne. Il couvre divers sujets tels que les probabilités, les variables aléatoires, les lois de probabilité, les vecteurs aléatoires, ainsi que des concepts statistiques comme l'estimation et les tests statistiques. Le contenu est structuré en sections avec des sous-thèmes détaillés et inclut également des tables de lois et des histoires de probabilistes.
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

ENSTA Bretagne

2, rue François Verny


29806 BREST cedex
FRANCE
Tel +33 (0)2 98 34 88 00
www.ensta-bretagne.fr

Support de cours
FISE 1A
promo 2022
Février 2020

UE 2.1
probabilités et statistiques
C. Osswald
[email protected]

1. Probabilités 7
2. Variable aléatoire 17
3. Lois de probabilité 31
4. Vecteurs aléatoires 47
5. Convergences et limites 69
6. Statistique descriptive 79
7. Estimation paramétrique 89
8. Tests statistiques 97
Index 113
A. Petites histoires 117
B. Tables des lois 121
2
Table des matières

I Probabilités 5

1 Probabilités 7
1.1 Petite histoire des probabilités . . . . . . . . . . . . . . . . . . 7
1.2 Organisation du document . . . . . . . . . . . . . . . . . . . . . 8
1.3 Évènement et expérience aléatoire . . . . . . . . . . . . . . . . 10
1.4 Définitions de la probabilité d’un évènement . . . . . . . . . . . 10
1.5 Approche ensembliste et tribus . . . . . . . . . . . . . . . . . . 12
1.6 Probabilité conditionnelle . . . . . . . . . . . . . . . . . . . . . 15
1.7 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2 Variable aléatoire 17
2.1 Discrète ou continue ? . . . . . . . . . . . . . . . . . . . . . . . 18
2.2 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . 18
2.3 Intégration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.4 Espérance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.5 Variance et moment d’ordre 2 . . . . . . . . . . . . . . . . . . . 23
2.6 Moments d’ordre supérieurs . . . . . . . . . . . . . . . . . . . . 25
2.7 Fonctions caractéristiques . . . . . . . . . . . . . . . . . . . . . 26
2.8 Cumulants d’une variable aléatoire . . . . . . . . . . . . . . . . 26
2.9 Fonctions génératrices . . . . . . . . . . . . . . . . . . . . . . . 27
2.10 Changement de variable mono-dimensionnel . . . . . . . . . . . 28

3 Lois de probabilité 31
3.1 Compter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.2 Lois discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.3 Lois continues . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.4 Tirage aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

4 Vecteurs aléatoires 47
4.1 Couples de variables aléatoires . . . . . . . . . . . . . . . . . . 48
4.2 Vecteurs aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.3 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.4 Vecteurs aléatoires gaussiens . . . . . . . . . . . . . . . . . . . 62

3
4

5 Convergences et limites 69
5.1 Convergences d’une suite . . . . . . . . . . . . . . . . . . . . . 69
5.2 Convergence en loi . . . . . . . . . . . . . . . . . . . . . . . . . 71
5.3 Lois des grands nombres . . . . . . . . . . . . . . . . . . . . . . 72
5.4 Théorème de la limite centrale . . . . . . . . . . . . . . . . . . 73

II Statistiques 77

6 Statistique descriptive 79
6.1 Objectifs de la statistique descriptive . . . . . . . . . . . . . . . 79
6.2 Population et autres termes . . . . . . . . . . . . . . . . . . . . 79
6.3 Présentation des données . . . . . . . . . . . . . . . . . . . . . 80
6.4 Statistiques extraites . . . . . . . . . . . . . . . . . . . . . . . . 82
6.5 Régression linéaire . . . . . . . . . . . . . . . . . . . . . . . . . 87

7 Estimation paramétrique 89
7.1 Statistique prédictive . . . . . . . . . . . . . . . . . . . . . . . . 89
7.2 Paramètres empiriques . . . . . . . . . . . . . . . . . . . . . . . 90
7.3 Estimation de l’espérance . . . . . . . . . . . . . . . . . . . . . 92

8 Tests statistiques 97
8.1 Tests paramétriques . . . . . . . . . . . . . . . . . . . . . . . . 98
8.2 Tests non paramétriques . . . . . . . . . . . . . . . . . . . . . . 104
8.3 Statistiques prédictives résumées . . . . . . . . . . . . . . . . . 110

Index 113

A Petites histoires de probabilistes 117

B Tables des lois 121


B.1 Table de loi normale . . . . . . . . . . . . . . . . . . . . . . . . 122
B.2 Table de la loi du χ2 . . . . . . . . . . . . . . . . . . . . . . . . 123
B.3 Table de la loi de Student . . . . . . . . . . . . . . . . . . . . . 124
B.4 Loi de Fisher-Snedecor . . . . . . . . . . . . . . . . . . . . . . . 125
Première partie

Probabilités

5
Probabilités
1
Sommaire
1.1 Petite histoire des probabilités 7
1.2 Organisation du document 8
1.3 Évènement et expérience aléatoire 10
1.4 Définitions de la probabilité d’un évènement 10
1.4.1 Définition classique 10
1.4.2 Définition fréquentiste 11
1.4.3 Définition axiomatique 11
1.5 Approche ensembliste et tribus 12
1.5.1 Tribus 12
1.5.2 Mesure 13
1.5.3 Espace de probabilité 14
1.6 Probabilité conditionnelle 15
1.6.1 Théorème de Bayes 16
1.7 Indépendance 16

1.1 Petite histoire des probabilités

L e premier ouvrage traitant – de façon juste – des jeux de hasard est le


Liber De Ludo Alae de Jérôme Cardan en 1564, mais, paraissant à une
époque où fleurissent les traités emplis de calculs faux, il n’a pas eu un
grand impact sur les joueurs, principaux utilisateurs d’expériences aléatoires
de ce siècle.
En 1620, Galilée fournit au duc de Toscane ses Considerazione sopre il
Giuco dei Dadi, où il étudie les probabilités des évènements issus de la somme
de trois dés à six faces. Les joueurs de l’époque estimaient que 11 et 12 pouvant
être obtenus par le même nombre de combinaisons (11 est issu de 641, 632,
551, 542, 533, 443 ; 12 est issu de 651, 642, 633, 552, 543, 444), ils devraient
27
être équiprobables. Galilée établit que la probabilité de 11 est 216 , alors que
25 6
celle de 12 est 216 , la probabilité de abc étant de 216 si a, b et c sont deux à
1 3
deux distincts, de 216 s’ils sont tous égaux, et 216 sinon.
Toutefois, les écrits de Cardan et Galilée ne seront pas diffusés avant ceux
de Pascal et Fermat.

En 1654, le chevalier de Méré, joueur réputé, soumet à Pascal deux pro-


blèmes. Pascal les soumet à Pierre de Fermat, et tous deux les résolvent par

7
8 CHAPITRE 1. PROBABILITÉS

des méthodes différentes, arrivant aux mêmes résultats.


Un ou deux dés ? de Méré avait trouvé fausseté dans les nombres pour cette
raison : si l’on entreprend de faire 6 avec un dé, il y a avantage de l’entre-
prendre en 4 coups ; si l’on entreprend “sonnez” 1 , il y a désavantage de
l’entreprendre en 24 coups. Néanmoins 24 est à 36 pour les faces des deux
dés ce que 4 est à 6 pour un seul dé. Effectivement, la chance d’obtenir
 4
5
au moins un 6 sur 4 lancers est de 1 − 6 ≈ 0.5177 alors qu’obtenir au
 24
35
moins un double-six sur 24 lancers a une probabilité 1− 36 ≈ 0.4914.
Problème des points. Deux joueurs jouent à pile ou face ; le premier qui
arrive à trois victoires emporte la mise. Toutefois, il peut arriver que la
partie doive s’interrompre avant son terme : comment répartir les mises
de manière équitable ? Pascal établit la relation de récurrence pour la
probabilité de victoire du premier joueur :
1
p (m, n) = (p (m − 1, n) + p (m, n − 1)) (1.1)
2
où m et n sont le nombre de points qu’il reste à obtenir pour chacun
des joueurs. On prend comme conditions aux limites p (n, n) = 12 et
p (0, n) = 1 ; la relation de récurrence définit une variante du triangle de
Pascal.
À la fin du XVIIe siècle, Jacques Bernoulli – Ars Conjectandi – obtient
une première forme de la loi des grands nombres. Au début du siècle suivant,
Abraham de Moivre – Doctrine des Chances – améliore ce résultat pour obtenir
un avatar du théorème de la limite centrale.
Au début du XIXe siècle, Pierre-Simon Laplace – Traité analytique des
probabilités – définit les fonctions caractéristiques d’une probabilité, et fait
sortir les probabilités du cadre combinatoire issu des jeux de hasard. Il donne
à la théorie des probabilités des fondements théoriques qui subsisteront près
d’un siècle.

1.2 Organisation du document


La première partie (chapitres 1 à 5) concerne les probabilités – “quelles sont
les chances que tel évènement survienne, en connaissant la loi sous-jacente à
l’univers ?” et la seconde partie concerne les statistiques (chapitres 6 à 8) –
“quel crédit donner à telle assertion, connaissant l’état de l’univers lors des n
précédentes observations, mais sans connaître sa loi sous-jacente ?”. Dans le
cas des statistiques, la plupart des assertions faites concerneront évidemment
la dite loi sous-jacente.

La partie probabilités n’est pas prévue pour une lecture linéaire. Le cha-
pitre 3 est une bibliothèque de lois, qu’il est utile de survoler avant d’attaquer
le chapitre 2, mais inutile de lire intégralement avant le chapitre 8.
Le premier chapitre définit les évènements et expériences aléatoires, et
donne la définition d’une mesure de probabilité. Les propriétés d’indépendance
et de probabilité conditionnelle, qui ne sont pas liées au caractère numérique
d’une expérience aléatoire, y sont aussi définies.
1. double-six
1.2. ORGANISATION DU DOCUMENT 9

Le second chapitre se concentre sur les variables aléatoires, expériences


dont le résultat est un nombre. On y trouve les moments d’une variable aléa-
toire, dont l’espérance et la variance, ainsi que les fonctions caractéristiques.
La dernière section présente le changement de variable mono-dimensionnel,
qui permet de définir une nouvelle variable à partir d’une variable aléatoire
déjà définie.
Les sections 1.5 et 2.3 regroupent les résultats de la théorie de l’intégration
(tribus, mesures, intégrale de Lebesgue) permettant notamment de faire la
jonction entre probabilités discrètes (avec la mesure de Dirac) et probabilités
continues (avec la mesure de Lebesgue).
Le troisième chapitre est une bibliothèque de lois de variables aléatoires
discrètes ou continues. Les premières servent à modéliser les expériences alé-
atoires ; les dernières (sections 3.3.8 à 3.3.10) modélisent le comportement
de statistiques extraites d’un échantillon, et servent à construire des tests
statistiques.
Le quatrième chapitre fait passer des variables aléatoires aux couples aléa-
toires, en introduisant les notions de corrélation et de covariance, et étendant
les notions de probabilité conditionnelle et d’espérance. L’extraction des va-
riables aléatoires se fait par les lois marginales. Le chapitre se prolonge par
le passage aux vecteurs aléatoires, et définit les vecteurs aléatoires gaussiens.
Une fonction d’un vecteur aléatoire vers R sera appelée une statistique ; c’est
d’abord une variable aléatoire.
Le cinquième chapitre s’appuie sur le comportement de ces vecteurs aléa-
toires pour un grand nombre de variables aléatoires indépendantes pour en
analyser le comportement limite. On y définit donc les convergences presque
sûre, en probabilité et en loi. Les lois des grands nombres nous garantiront la
convergence des estimateurs, et le théorème de la limite centrale justifie le rôle
de la loi normale dans la modélisation d’un grand nombre d’expériences.

La partie statistiques concerne l’extraction d’information, et particu-


lièrement de réponses, d’un ou plusieurs échantillons issus d’une expérience
aléatoires inconnue.
Elle commence par le sixième chapitre, consacré à la statistique descriptive.
Elle concerne le calcul de paramètres extraits, et la représentation synthétique
de données d’un échantillon. Elle se conclut par la régression linéaire. En aucun
cas elle ne peut répondre à une question sur la loi sous-jacente.
Le septième chapitre est consacré à l’estimation paramétrique, c’est-à-dire
la détermination d’un intervalle de confiance pour l’espérance de la loi sous-
jacente à l’échantillon.
Le huitième chapitre est consacré aux tests statistiques. Les tests paramé-
triques permettent d’interroger les paramètres de la loi sous-jacente – le plus
souvent l’espérance – et se comportent comme l’estimation paramétrique. Les
tests de comparaisons des espérances de deux ou plusieurs échantillons per-
mettent de répondre à la question “est-il crédible que ces échantillons soient is-
sus de la même loi ?”. Les tests non paramétriques portent sur la loi elle-même
et pas uniquement sur ses paramètres ; ils permettent donc d’interroger le type
de la loi, ou des propriétés, comme l’indépendance, qui lient des caractères.
Cette dernière section regroupe les tests du χ2 et de Kolmogorov-Smirnov.

Le document se conclut par un index (page 113), quelques bribes de bio-


10 CHAPITRE 1. PROBABILITÉS

graphies en annexe A, et les tables permettant de construire intervalles de


confiance et tests statistiques en annexe B.

1.3 Évènement et expérience aléatoire


Définition 1.1. Une expérience aléatoire est une expérience qui peut être
répétée dans les mêmes conditions sans donner le même résultat.
Définition 1.2. L’espace des réalisations d’une expérience aléatoire est l’en-
semble des résultats qu’elle peut fournir.
L’espace des réalisations est couramment noté Ω.
Cet espace peut être fini ({1, 2, 3, 4, 5, 6} est l’espace des réalisations d’un
dé à six faces), dénombrable (N est l’espace des réalisations d’une variable
aléatoire de Poisson) ou non dénombrable (R est celui d’une variable gaus-
sienne). Il peut ne pas être numérique, comme {Pile, Face}, ou l’ensemble des
mots utilisant uniquement les caractères A, C, G et T, qui contient l’espace
de réalisations des codes génétiques.
Définition 1.3. Chaque élément ω de l’espace des réalisations Ω est un évène-
ment élémentaire. Un sous-ensemble de Ω est un évènement composé ou tout
simplement un évènement.
Un évènement A ⊂ Ω est réalisé si le résultat ω de l’expérience aléatoire
appartient à A.
Définition 1.4. Un évènement A est
— élémentaire si |A| = 1.
— impossible A ∩ Ω = ∅ quand Ω est fini ou dénombrable.
— certain si A = Ω, ce qui est une conséquence de |A| = |Ω| quand l’espace
des réalisations est fini, et par |Ω\A| = 0 si Ω est dénombrable.
Définition 1.5. Deux évènements A et B sont incompatibles si A ∩ B = ∅.
Un évènement peut être défini par extension, en donnant l’ensemble de ses
valeurs : A = {1, 2, 4, 8}, ou par compréhension, en décrivant les propriétés
que respectent ses éléments : par exemple, en disant que “A est une puissance
de 2 inférieure à 10” pour avoir A = {1, 2, 4, 8}.

1.4 Définitions de la probabilité d’un évènement


Un probabilité est une fonction qui à un évènement associe un nombre
compris entre 0 et 1. Plus cette probabilité est élevée, plus il est vraisemblable
que l’évènement se réalise.

1.4.1 Définition classique


La définition classique, dite aussi définition de Laplace, est donnée par :
NA
p (A) = (1.2)
N
où NA est le nombre d’évènements élémentaires qui constituent A – c’est le
nombre de cas favorables – et N le cardinal de Ω, l’espace des réalisations de
l’expérience aléatoire. N est le nombre de cas total.
1.4. DÉFINITIONS DE LA PROBABILITÉ D’UN ÉVÈNEMENT 11

Exemple. Quand on jette un un dé à 12 faces, la probabilité d’obtenir une


puissance de 2 (évènement A) est de

NA |{1, 2, 4, 8}| 4 1
= = =
N 12 12 3

Exemple. Recevoir un carré d’as au poker (évènement A) lors de la première
donne a un nombre de cas favorables de 44 48
 
1 = 48 pour un nombre de
52 1
cas total de 5 = 2598960. Ainsi p (A) = 54145 . ♦

Limitation
La définition classique n’est applicable que si Ω est fini, sans quoi elle
aboutit à une probabilité nulle ou une forme indéfinie ∞
∞.
Elle ne s’applique qu’à des évènements élémentaires équiprobables, et ne
peut donc pas modéliser une pièce de monnaie pipée qui ferait face dans 60%
des cas.

1.4.2 Définition fréquentiste


La définition fréquentiste s’appuie sur la formulation de la loi des grands
nombres pour définir une probabilité :

NA
p (A) = lim (1.3)
N →∞ N
où N est le nombre de tirages de l’expérience aléatoire, et NA le nombre de
fois de l’évènement A est réalisé parmi ceux-ci.

Cette définition est robuste face à un espace des réalisations infini comme
à des évènements aléatoires qui ne seraient pas équiprobables. Toutefois, sa
manipulation ne se faisant qu’à travers un passage à la limite, elle conduit à
des calculs lourds dans les cas simples où la définition classique est valide.

1.4.3 Définition axiomatique


En 1933, Andrei Kolmogorov propose une définition en trois axiomes.

Définition 1.6. Une fonction p d’un ensemble d’évènements d’un espace des
réalisations Ω est une probabilité si :
1. pour tout évènement A, p (A) > 0.
2. p (Ω) = 1.
3. Si A ∩ B = ∅, p (A ∪ B) = p (A) + p (B).

Cette fonction est une loi de probabilité. Pour une expérience aléatoire X,
on notera la probabilité de l’évènement ω par p (X = ω) ou pX (ω).
Le troisième axiome s’étend naturellement par récurrence. La convergence
P
de la série p (An ) est assurée car elle est croissante et majorée par 1 :
3. Si (An )n∈N est une suite d’évènements deux à deux disjoints, alors
P∞
p (∪∞
n=1 ) = n=1 p (An )
12 CHAPITRE 1. PROBABILITÉS

1.5 Approche ensembliste et tribus


1.5.1 Tribus
Définition 1.7. Un ensemble F de parties d’un ensemble X est une tribu si :
i) X ∈ F.
ii) (stabilité par passage au complémentaire) Si A ∈ F, X\A ∈ F
iii) (stabilité par union dénombrable) Si pour tout n ∈ N, An ∈ F, alors
[
An ∈ F (1.4)
n∈N

On dira alors que F est une tribu sur X

Les points ii) et iii) entraînent aussi la stabilité par intersection dénom-
brable 2 .

Définition 1.8. Soit A ⊂ P(X). On appelle tribu engendrée par A la plus


petite tribu sur X incluant les éléments de A.

Exemple. La plus petite tribu sur R est {∅, R}.


La plus grande tribu sur R est l’ensemble des parties de R : P(R).
La tribu de Dirac au point a est {∅, {a}, ] − ∞, a[∪]a, +∞[, R}. ♦

Définition 1.9. La tribu des boréliens B(R) est la tribu engendrée par les
demi-droites ] − ∞, x] pour tout x dans R.

Proposition 1.1. La tribu des boréliens contient toutes les demi-droites (ou-
vertes ou fermées, vers −∞ et +∞), tous les intervalles, les points isolés, et
les ensembles dénombrables de points isolés.
Preuve :
Les demi-droites ouvertes de type ]x, +∞[ sont les complémentaires des demi-
droites ] − ∞, x].
Les demi-droites ouvertes de type ] − ∞, x[ sont les unions dénombrables des
demi-droites fermées ] − ∞, x − n1 ]. On obtient [x, +∞[ par passage au complé-
mentaire.
L’intervalle [x, y] est l’intersection de ] − ∞, y] et de [x, +∞[ ; le point isolé
{x} est l’intersection de ] − ∞, x] et de [x, +∞[.
Un ensemble dénombrable tel que N ou Q est simplement l’union – dénombrable
– des singletons qui le composent.

Exemple. Soit Ω = {a, b, c}. Les tribus de Ω sont :


• {∅, {a, b, c}},
• {∅, {a}, {b, c}, {a, b, c}}, engendrée par exemple par {{a}},
• {∅, {b}, {a, c}, {a, b, c}},
• {∅, {c}, {a, b}, {a, b, c}},
• {∅, {a}, {b}, {c}, {a, b}, {a, c}, {b, c}, {a, b, c}}, qui est engendrée par
exemple par {{a}, {b}}.

2. La définition d’une topologie – ensemble des ouverts – ne passe pas par le complémen-
taire, et donc seule l’union dénombrable d’ouverts donne un ouvert. On ne peut alors rien
dire de l’intersection dénombrable d’ouverts.
1.5. APPROCHE ENSEMBLISTE ET TRIBUS 13

Un évènement A est un sous-ensemble de l’espace des réalisations Ω. On


notera A son complémentaire 3 : A = Ω\A. Cet ensemble A définit – par
compréhension – un évènement : l’espace des réalisations est stable par passage
au complémentaire. De la même manière, on peut définir par compréhension
un évènement comme étant l’union – l’un au moins des évènements d’une suité
d’évènements est vrai – d’une quantité dénombrable d’évènements, ce qui fait
que l’espace des réalisations est stable par union dénombrable. Ainsi l’espace
des réalisations d’une expérience aléatoire est une tribu.

1.5.2 Mesure
Définition 1.10. Une mesure µ sur une tribu F de X est une fonction véri-
fiant :
i) µ(A) > 0,
ii) (additivité) Si ∀n, p ∈ N, n 6= p, An ∩ Ap = ∅,
!
[ X
µ An = µ(An ) (1.5)
n∈N n∈N

iii) (finitude) Il existe B ∈ F tel que µ(B) < +∞

L’espace des réalisations d’une expérience aléatoire étant une tribu, une
probabilité vérifiant les axiomes de Kolmogorov (définition 1.6) peut être vue
comme une mesure particulière.
Le point i) est le premier axiome. Le second axiome est une version plus
forte du point iii) avec B = Ω et µ(Ω) = 1 < +∞ ; de façon générale une
mesure est dite finie si µ(X) < +∞. Le point ii) entraîne le troisième axiome
en prenant A1 = A et An = B sinon. On demandera en général que ce troisième
axiome s’étende aux unions dénombrables.
On appellera probabilité sur Ω toute mesure p sur une tribu de Ω telle que
p(Ω) = 1.

Définition 1.11. Un sous-ensemble de X est dit mesurable pour la mesure µ


s’il est dans dans la tribu F associée.

Définition 1.12. On appellera mesure de Lebesgue la mesure λ sur les boré-


liens de R telle que λ([a, b]) = b − a.

Exemple. La mesure de Lebesgue est cohérente avec la longueur d’un inter-


valle.
• λ([0, 42]) = 42
• λ(]0, 42[) = 42
• λ([42, 42]) = 0
Ce dernier résultat s’étend à tout ensemble dénombrable :
• λ(N) = 0
• λ(Q) = 0
• λ(sin−1 ({0})) = λ({kπ | k ∈ Z}) = 0
3. Dans le cadre de ce polycopié, on évitera donc de parler de l’adhérence d’un ensemble,
ainsi que du conjugué d’un nombre complexe. On pourra toutefois rencontrer un conflit de
notation avec la moyenne d’un échantillon.
14 CHAPITRE 1. PROBABILITÉS

La mesure de Lebesgue n’est pas une probabilité : λ(R) = +∞. ♦


Définition 1.13. On appellera mesure de Dirac au point a la mesure δa sur
les parties de R telle que δa (A) = 1 si a ∈ A et δa (A) = 0 si a 6∈ A.
Exemple. La mesure de Dirac teste l’appartenance d’un point à un ensemble :
• δ2 ([0, 1]) = 0
• δ0 ([0, 1]) = 1
• δ0 (]0, 1]) = 0
• δ0.3 (Q) = 1
• δ√2 (Q) = 0
La mesure de Dirac est une probabilité :
δa (R) = δa (R\{a}) + δa ({a}) = 0 + 1 = 1 (1.6)

La section 2.1 montre le lien entre les mesures de probabilité dans le cas des
variables aléatoires. La section 2.3 explique comment utiliser ces mesures de
probabilité pour calculer des moments ou des fonctions de variables aléatoires,
à l’aide de l’intégrale de Lesbesgue.

1.5.3 Espace de probabilité


Définition 1.14. Un espace de probabilité est un triplet (Ω, F, p) où F est
une tribu sur Ω et p une probabilité définie sur F : elle respecte les axiomes
de Kolmogorov.
En vertu des axiomes de la définition 1.6, Ω et ∅ sont des évènements.
La tribu F contient tous les évènements probabilisés possibles ; elle est stable
par passage au complémentaire, et par union et intersection dénombrables. La
probabilité p est une mesure finie sur cette tribu. Ainsi :
1. A ∈ F =⇒ A ∈ F.
2. A, B ∈ F =⇒ A ∩ B ∈ F (s’étend aux intersections dénombrables).
3. A, B ∈ F =⇒ A ∪ B ∈ F (s’étend aux unions dénombrables).
4. p (A) ∈ [0, 1].
5. p (Ω) = 1
6. Si les An forment un ensemble dénombrable d’évènements deux à deux
disjoints: !
[ X
p An = p (An ) (1.7)
n∈N n∈N
Quelques conséquences sur les mesures de probabilités :
p (∅) = 1 − p (Ω) = 0 (1.8a)
 
p A = 1 − p (A) (1.8b)
 
A ⊂ B =⇒ p B ∩ A = p (B) − p (A) (1.8c)
p (A ∪ B) = p (A) + p (B) − p (A ∩ B) (1.8d)
n
X X
p (A1∪ . . . ∪An )= p (Ak ) − p (Ai∩Aj ) + . . .
k=1 16i<j6n
n+1
. . . + (−1) p (A1∩ . . . ∩An ) (1.8e)
1.6. PROBABILITÉ CONDITIONNELLE 15

Quelques éléments d’algèbre de Boole qui servent souvent en calcul des


probabilités :
A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C) (1.9a)
A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C) (1.9b)
A = (A ∩ B) ∪ (A ∩ B) (1.9c)
Dans le cadre de cette algèbre, on identifiera souvant la conjonction ∩
avec la multiplication : p (AB) est synonyme de p (A ∩ B). De façon plus
occasionnelle, on pourra identifier + et ∪.

1.6 Probabilité conditionnelle


Définition 1.15. La probabilité conditionnelle d’un évènement A sachant un
évènement B est notée p (A|B) et vaut :
p (A ∩ B)
p (A|B) = (1.10)
p (B)
Notez que A ∩ B ⊂ B, et donc que p (A ∩ B) 6 p (B), donc cette formule
donne bien p (A|B) ∈ [0, 1].
Si A ⊂ B, on a :
p (A ∩ B) p (A)
p (A|B) = = 61 (1.11)
p (B) p (B)
p (A ∩ B) p (A)
p (B|A) = = =1 (1.12)
p (A) p (A)
Exemple. La probabilité qu’un dé à huit faces donne un nombre premier
est 12 (ce sont 2, 3, 5 et 7). La probabilité qu’un dé à huit faces donne
un nombre impair est 12 . La probabilité qu’un dé à huit faces donne un
nombre impair et premier est 83 . La probabilité qu’un dé à huit faces donne
un nombre premier sachant qu’il est impair est donc 34 . ♦
La définition de la probabilité conditionnelle permet de construire le théo-
rème des probabilités totales :
Théorème 1.1. Soit B1 . . . Bn un partitionnement de l’espace des réalisations
Ω et A un évènement. Alors
n
X
p (A) = p (A|Bk ) p (Bk ) (1.13)
k=1
Preuve :
Il suffit d’écrire que A = A ∩ Ω et d’utiliser le partitionnement :

p (A) = p (A ∩ Ω)
n
!!
[
=p A∩ Bk
k=1
n
X
= p (A ∩ Bk ) 3e axiome de Kolmogorov
k=1
Xn
= p (A|Bk ) p (Bk )
k=1
16 CHAPITRE 1. PROBABILITÉS

1.6.1 Théorème de Bayes


Le théorème de Bayes permet de retourner le sens d’une probabilité condi-
tionnelle :

Théorème 1.2. Soient A et B deux évènements, A n’étant pas impossible :

p (A|B) p (B)
p (B|A) = (1.14)
p (A)

Ce résultat s’étend à plus de deux évènements. Si les (Ak )k∈[1..n] forment une
partition de Ω (ils sont deux à deux disjoints et Ω = nk=1 Ak ) :
S

p (B|Ak ) p (Ak ) p (B|Ak ) p (Ak )


p (Ak |B) = = Pn (1.15)
p (B) i=1 p (B|Ai ) p (Ai )

Preuve :
Par la définition d’une probabilité conditionnelle, on a p (A ∩ B) = p (A) p (B|A)
et p (A ∩ B) = p (B) p (A|B) Ainsi p (A) p (B|A) = p (B) p (A|B), ce qui donne
la relation entre p (B|A) et p (A|B).

En appliquant ce résultat à Ak et B, on obtient

p (B|Ak ) p (Ak )
p (Ak |B) =
p (B)

Il suffit d’écrire

p (B) = p (B ∩ Ω)
n
!!
[
= p B∩ Ai
i=1
n
! n
[ X
= p B ∩ Ai = p (B ∩ Ai )
i=1 i=1
n
X
= p (B|Ai ) p (Ai )
i=1

pour conclure.

1.7 Indépendance
Définition 1.16. Deux évènements sont indépendants si la connaissance de
l’un n’apporte pas d’information sur l’autre :

p (A|B) = p (A) (1.16)

Ceci est équivalent à dire que p (A ∩ B) = p (A) p (B).

Exemple. Sur un dé à quatre faces, l’évènement “le résultat est impair” et


“le résultat est premier” sont indépendants. Ce n’est pas le cas sur un dé
à huit faces. ♦
Variable aléatoire
2
Sommaire
2.1 Discrète ou continue ? 18
2.2 Fonction de répartition 18
2.2.1 Médiane 19
2.3 Intégration 19
2.3.1 Intégrale d’une fonction mesurable 19
2.3.2 Dans la pratique 21
2.4 Espérance 22
2.4.1 Espérance d’une fonction d’une variable aléatoire 23
2.4.2 Espérance et fonction de répartition 23
2.5 Variance et moment d’ordre 2 23
2.5.1 Inégalité de Tchebychev 24
2.5.2 Normes d’une variable aléatoire 25
2.6 Moments d’ordre supérieurs 25
2.7 Fonctions caractéristiques 26
2.8 Cumulants d’une variable aléatoire 26
2.9 Fonctions génératrices 27
2.10 Changement de variable mono-dimensionnel 28

U ne expérience aléatoire produisant un nombre est appelée une variable


aléatoire. Son espace des réalisations est donc un sous-ensemble de
R ou de C. La structure de corps de cet espace rend beaucoup plus
riches les opérations que l’on peut faire subir à une telle expérience aléatoire.
Le chapitre 4 sur les vecteurs présente des expériences aléatoires dont l’espace
des réalisations est un espace vectoriel.

Définition 2.1. Une variable aléatoire est une expérience aléatoire qui produit
un nombre.

Sa fonction de répartition, ainsi que sa fonction caractéristique, permettent


de connaître sa loi, et suffisent à définir la variable aléatoire.
Les moments d’une variable aléatoire forment une classe de quantités cal-
culées à partir de la loi d’une variable aléatoire. Ils permettent d’avoir une
certaine idée de son comportement (en encadrant les probabilités de certains
évènements, par exemple), sans définir parfaitement la loi. Certains estima-
teurs 1 donnent des valeurs approchées de ces moments à partir d’un nombre li-
mité de tirages aléatoires d’une variable aléatoire inconnue, et fournissent ainsi
1. Qui seront développés dans la partie Statistiques de ce cours.

17
18 CHAPITRE 2. VARIABLE ALÉATOIRE

des outils d’extrapolation de son comportement. Lorsque la loi est connue, le


calcul de ces moments se traduit le plus souvent par un simple calcul d’inté-
grale. Pour une variable aléatoire discrète cette intégrale est une somme. Les
moments les plus courants sont l’espérance et la variance.
La médiane est une autre valeur numérique qui informe sur le comporte-
ment d’une variable aléatoire, sans permettre de la connaître complètement.

2.1 Discrète ou continue ?


On parlera de variable aléatoire discrète lorsque son espace des réalisations
est fini ou dénombrable, et de variable aléatoire continue sinon.
Pour une variable aléatoire discrète X, l’espace des réalisations est Ω =
{ω1 , ω2 , . . .}. Sa loi est définie par les probabilités des évènements élémentaires
ωi : p (X = ωi ) = pX (ωi ) = pi .
Si la variable aléatoire X est continue et que sa mesure de probabilité est
une mesure à densité 2 , on appellera fX sa fonction de densité. Lorsque cette
mesure n’est pas une mesure à densité, elle sera notée µX . Dans le cas général,
la probabilité d’un évènement A est donc
Z
pX (A) = p (X ∈ A) = µX (A) = dµX (x) (2.1)
A

Lorsque µX admet fX comme fonction de densité, elle peut aussi s’écrire


Z
fX(x) dx (2.2)
A

2.2 Fonction de répartition


Définition 2.2. Si X est une variable aléatoire réelle (les nombres complexes
en sont exclus), sa fonction de répartion FX est définie sur R par :

FX (x) = p (X 6 x) = p (X ∈] − ∞, x]) (2.3)

Ainsi FX est une application de R dans [0, 1], croissante, mais non stricte-
ment croissante. Elle est continue à droite, et on a :

lim FX (x) = 0 (2.4)


x→−∞
lim FX (x) = 1 (2.5)
x→+∞
p (a 6 X 6 b) = FX (b) − FX (a) + p (X = a) (2.6)
fX(x) = FX0 (x) si X est continue à densité (2.7)

L’équation (2.7) n’est valable que là où FX est dérivable. Si les points où


FX n’est pas dérivable forment un ensemble discret, la valeur de fX retenue
sur ces points n’a pas d’importance, et on considèrera aussi X comme continue
à densité.
Connaître FX suffit pour déterminer la loi de la variable aléatoire X.

2. C’est-à-dire qu’on peut la définir comme une transformation continue d’une mesure de
Lebesgue.
2.3. INTÉGRATION 19

2.2.1 Médiane
Définition 2.3. Le nombre m est une médiane de la variable aléatoire X si
P (X 6 m) > 12 et P (X > m) > 21 .
La médiane n’est en général pas unique. Pour un dé à six faces équilibré,
3.5 est une médiane, mais 3, 3.42, 4 et π aussi.
S’il existe m tel que FX(m) = 21 alors m est une médiane de X, mais ce
n’est pas une condition nécessaire.
Une médiane peut être vue comme un quantile de proportion 21 , q étant un
quantile de proportion λ si P (X 6 q) > λ et P (X > q) > 1 − λ.

2.3 Intégration d’une fonction selon une mesure de


probabilité
Cette section utilise la notion de mesure (cf. section 1.5) pour définir l’in-
tégrale de Lebesgue.
Définition 2.4. Si A est un ensemble mesurable pour la mesure µ, l’intégrale
de la fonction constante 1 sur A est définie par :
Z
1(x)dµ(x) = µ(A) (2.8)
A

La mesure définit l’intégrale, et non l’inverse.


Définition 2.5. Une fonction f est une fonction en escaliers si l’ensemble de
ses images, f (R), est fini ou dénombrable.
Exemple. La fonction de Heavyside (h(x) = 0 si x < 0, et h(x) = 1 sinon)
est une fonction en escaliers. La fonction indicatrice de Q (1Q (x) = 1 si
x est un rationnel, et 1Q (x) = 0 sinon) l’est aussi. La fonction e qui à x
associe sa partie entière est encore une fonction en escaliers, et son image
est Z. ♦

2.3.1 Intégrale d’une fonction mesurable


Définition 2.6. Une fonction f de X dans R est mesurable pour une mesure
µ si quel que soit V un ouvert de R, l’ensemble f −1 (V ) est mesurable.
Exemple. Les fonctions h, 1Q et e précitées sont mesurables pour la mesure
de Lebesgue. Elle ne sont mesurables pour aucune mesure de Dirac. ♦
Exemple. La fonction indicatrice de {a} (1{a} (x) = 1 si x = a, et 1{a} (x) = 0
sinon) est mesurable pour la mesure de Dirac au point a, δa , mais pas pour
des mesures de Dirac en d’autres points. Elle est aussi mesurable pour la
mesure de Lebesgue. ♦
Définition 2.7. L’intégrale de Lebesgue d’une fonction en escaliers, mesurable
et positive, f selon une mesure µ sur un ensemble mesurable A est :
Z  
yk µ f −1 (yk ) ∩ A
X
f (x)dµ(x) = (2.9)
A
yk ∈f (A)
R
Si A est de mesure nulle (µ(A) = 0), A f (x)dµ(x) = 0 que f soit ou non
mesurable.
20 CHAPITRE 2. VARIABLE ALÉATOIRE

Si on écrit la fonction en escaliers sous une forme canonique :

X
f (x) = ak 1Ak (x) (2.10)
ak ∈f (R)

où Ak = f −1 (ak ), son intégrale s’écrit :

Z X
f (x)dµ(x) = ak µ(Ak ∩ A) (2.11)
A
yk ∈f (A)

Si f n’est pas positive, la convergence de cette somme peut n’être pas


déterminée.

Exemple. Dans les exemples qui suivent, f est une fonction quelconque, h la
fonction de Heavyside, e la partie entière, et 1A la fonction indicatrice de
l’ensemble A.

Z
h(x)dλ(x) = +∞ (2.12a)
Z R

h(x)dλ(x) = 42 (2.12b)
[−1,42]
Z
1Q (x)dλ(x) = 0 (2.12c)
Z R
1Q (x)dδ42 (x) = 1 (2.12d)
Z R

1Q (x)dδ√2 (x) = 0 (2.12e)


R
Z
f (x)dδa (x) = f (a) (2.12f)
Z R

1Q (x)dδ42 (x) = 0 (2.12g)


[−1,1]
Z
e(x)dλ(x) = 5.8 (2.12h)
[−1,4.2]
Z
e(x)dλ(x) = +∞ (2.12i)
R +
Z
e(x)dλ(x) : n’est pas intégrable (2.12j)
R

L’équation (2.12f) généralise les deux cas qui la précèdent. ♦

Proposition 2.1. Pour des mesures µ et ν, des fonctions f et g en escaliers 3 ,


mesurables et positives pour µ et ν, des ensembles mesurables A et B sur X,

3. La propostion suivante étend ces résultats aux autres fonctions mesurables, rendant
cette condition inutile.
2.3. INTÉGRATION 21

et des réels positifs a et b, nous avons :


Z Z
f (x)dµ(x) = 1A (x)f (x)dµ(x) (2.13a)
A ZX Z
A⊂B =⇒ f (x)dµ(x) 6 f (x)dµ(x) (2.13b)
ZA ZB
∀x, f (x) 6 g(x) =⇒ f (x)dµ(x) 6 g(x)dµ(x) (2.13c)
Z A
Z AZ

(af (x) + bg(x))dµ(x) = a f (x)dµ(x) + b g(x)dµ(x)(2.13d)


A Z A A

f (x)dµ(x) = 0 ⇐⇒ µ ({x | f (x) 6= 0}) = 0 (2.13e)


Z X Z Z
f (x)d(µ + ν)(x) = f (x)dµ(x) + f (x)dν(x) (2.13f)
A A A

L’équation (2.13e) traduit le fait que f est nulle presque partout pour la
mesure µ. C’est le cas de la fonction 1Q pour la mesure de Lebesgue.
Proposition 2.2. Si f est une fonction mesurable positive, il existe une suite
croissante de fonctions en escaliers positives mesurables (fn )n∈N telle que
∀x ∈ A, lim fn (x) = f (x) (2.14)
n→∞

On a alors que :
Z Z
f (x)dµ(x) = lim fn (x)dµ(x) (2.15)
A n→∞ A

Cette intégrale n’est définie que pour les fonctions positives. On l’étend en
définissant à partir d’une fonction f de R dans R les fonctions f + et f −
( (
f (x) si f (x) > 0 0 si f (x) > 0
f + (x) = f − (x) = (2.16)
0 sinon −f (x) sinon

On a alors f (x) = f + (x)−f − (x), où f +R et f − sont deux fonctions positives, qui


sont mesurables si f est mesurable. Si A f + (x)dµ(x) < ∞ et A f − (x)dµ(x) <
R

∞, f est intégrable sur A pour la mesure µ, et


Z Z Z
f (x)dµ(x) = +
f (x)dµ(x) − f − (x)dµ(x) (2.17)
A A A

2.3.2 Dans la pratique


L’intégrale de Lebesgue pour la mesure de Lebesgue et l’intégrale de Rie-
mann se rejoignent notamment pour les fonctions continues à support com-
pact. L’intégrale de Lebesgue avec la mesure de Lebesgue, λ, permet de gérer
efficacement de nombreuses ruptures de continuité. L’intégrale de Riemann gé-
néralisée permet d’intégrer certaines branches infinies de fonctions changeant
de signe (x 7→ sinx x n’est pas intégrable sur R pour l’intégrale de Lebesgue).
L’intégrale de Lebesgue avec la mesure de Dirac permet de gérer des phéno-
mènes isolés. Une combinaison linéaire de plusieurs mesures de Dirac permet –
équation (2.13f) – de construire une mesure attachée à plusieurs phénomènes
ponctels. Une combinaison d’une mesure à densité et d’une ou plusieurs me-
sures de Dirac permet de représenter des points isolés dans un phénomène
continu (par exemple la dérivée d’une fonction continue par morceaux), et
construit un pont entre variables aléatoires continues à densité et variables
aléatoires discrètes.
22 CHAPITRE 2. VARIABLE ALÉATOIRE

Définition 2.8. S’il existe une fonction f bornée telle que


Z
µ(A) = f (x)dλ(x) (2.18)
A
la mesure µ est une mesure à densité. Si µ est une mesure de probabilité, on
dira que la variable aléatoire associée est continue à densité.
Si µ est une mesure à densité sur Ω, et que µ(Ω) = 1 (il s’agit d’une mesure
de probabilité), elle définit une variable aléatoire continue X sur Ω dont f est
la fonction de densité.
On se ramènera donc souvent aux techniques d’intégration connues pour
l’intégrale de Riemann en faisant apparaître l’intégrale d’une fonction pour
une mesure de Lebesgue, lorsque l’intervalle d’intégration est compact ou que
la fonction est positive.
On isolera et traitera aisément les mesures de Dirac à l’aide des équations
(2.13f) et (2.12f).

2.4 Espérance
Définition 2.9. L’espérance mathématique, ou simplement espérance d’une
variable aléatoire X est :
Z
E {X} = xdµ(x) (2.19)
R
Si une variable aléatoire a une espérance de zéro, elle est dite centrée.
L’espérance d’une variable aléatoire est aussi son moment d’ordre 1 ; elle
peut être notée m1 (X).

Pour une variable aléatoire discrète, l’espérance est :


X X
E {X} = ωk pX (ωk ) = ωk pk (2.20)
k k
Pour une variable aléatoire à densité, l’espérance est :
Z
E {X} = xfX(x) dx (2.21)
R
Ces définitions s’étendent de manière naturelle de R à C.

Soient X et Y sont deux variables aléatoires (réelles ou complexes) ; soient


a et b deux nombres (réels ou complexes) :
E {a} = a (2.22)
E {aX + bY } = aE {X} + bE {Y } (2.23)
|E {X} | 6 E {|X|} (2.24)
L’équation (2.23) traduit le fait que l’espérance est une application linéaire.
De plus, si E {X} existe et est fini, alors E {|X|} est fini.

L’espérance mathématique d’une variable aléatoire s’interprète comme le


centre de gravité de son espace des réalisations ; elle ne dit rien sur la forme
de cet espace.
Toute les variables aléatoires n’ont pas une espérance mathématique. Pour
1
une variable aléatoire qui suit une loi de Cauchy, définie par fX(x) = π(1+x 2) ,
R
l’intégrale R xfX(x) dx n’est pas définie.
2.5. VARIANCE ET MOMENT D’ORDRE 2 23

2.4.1 Espérance d’une fonction d’une variable aléatoire


Si on définit Y à partir d’une variable aléatoire X de mesure µX par
Y = g(X), son espérance est :
Z
E {Y } = E {g(X)} = g(x)dµX (x) (2.25)
ΩX

Dans le cas discret, cela se traduit par :


X
E {Y } = E {g(X)} = g(x)p (X = x) (2.26)
x∈ΩX

Dans le cas où X est continue à densité, on obtient :


Z
E {Y } = E {g(X)} = g(x)fX(x) dx (2.27)
ΩX

2.4.2 Espérance et fonction de répartition


Soit X une variable aléatoire positive. En encadrant xµ(x) par des fonc-
tions en escalier pour des seuils entiers, on obtient :

X ∞
X
p (X > n) 6 E {X} 6 1 + p (X > n) (2.28)
n=1 n=1

Ceci peut s’exprimer par les fonctions de répartition :



X ∞
X
(1 − FX (n)) 6 E {X} 6 1 + (1 − FX (n)) (2.29)
n=1 n=1

2.5 Variance et moment d’ordre 2


La variance d’une variable aléatoire caractérise sa dispersion. Elle corres-
pond au moment d’inertie d’un solide.
Définition 2.10. La variance d’une variable aléatoire réelle est définie par :
Z n o
2
σX = (x − E {X})2 dµX (x) = E (X − E {X})2 (2.30)
R
Si une variable aléatoire a une variance de 1, elle est dite réduite.
Pour une variable aléatoire à densité, la variance est :
Z
2
σX = (x − E {X})2 fX(x) dx (2.31)
R
Pour une variable aléatoire discrète, la variance est :
(ωk − E {X})2 pX (ωk ) = pk (ωk − E {X})2
X X
2
σX = (2.32)
k k

Soient X et Y sont deux variables aléatoires réelles ; soient a et b deux


nombres réels :
σa2 = 0 (2.33a)
2 2
σX+a = σX (2.33b)
2
σaX = a2 σX
2
(2.33c)
Si X et Y sont indépendantes :
2
σaX+bY = a2 σX
2
+ b2 σY2 (2.34)
24 CHAPITRE 2. VARIABLE ALÉATOIRE

Définition 2.11. L’écart-type


q d’une variable aléatoire réelle est la racine de
2
p
sa variance : σX = σX = E {(X − E {X})2 }.
Si X est une mesure physique, X et son écart-type ont la même unité.

Définition 2.12. Le moment d’ordre 2 d’une variable aléatoire est :


n o
m2 (X) = E X 2 (2.35)
Pour une variable aléatoire à densité, le moment d’ordre 2 est :
Z
m2 (X) = x2 fX(x) dx (2.36)
R
Pour une variable aléatoire discrète, le moment d’ordre 2 est :
X X
m2 (X) = ωk2 pX (ωk ) = ωk2 pk (2.37)
k k
La proposition suivante est souvent utile pour le calcul explicite de la
variance, le calcul du moment d’ordre 2 étant en général plus aisé, et celui de
l’espérance déjà effectué (et de toute manière nécessaire).
Proposition 2.3. n o
2
σX = E X 2 − E {X}2 (2.38)
Preuve :

n o
2 2
σX = E (X − E {X})
n o
2
= E X 2 − XE {X} − E {X} X + E {X}
n o
2
= E X 2 − 2E {X} X + E {X}
n o
2
E X 2 + E {−2E {X} X} + E E {X}

=
2
E X 2 − 2E {X} E {X} + E {X}

=
 2 2
= E X − E {X}

2.5.1 Inégalité de Tchebychev


Proposition 2.4. Soit X une variable aléatoire. Pour tout λ > 0 on a :
2
σX
p (|X − E {X} | > λ) 6 (2.39)
λ2
Preuve :
Z
2
σX = (x − E {X})2 dµX (x)
R
Z
> (x − E {X})2 dµX (x)
]−∞,E{X}−λ[∪]E{X}+λ,+∞[
Z
> λ2 dµX (x)
]−∞,E{X}−λ[∪]E{X}+λ,+∞[
Z
2
= λ dµX (x)
]−∞,E{X}−λ[∪]E{X}+λ,+∞[

= λ2 p (|X − E {X} | > λ)


2.6. MOMENTS D’ORDRE SUPÉRIEURS 25

Cet encadrement est assez grossier, et n’est en général pas utilisé pour
majorer des probabilités dans des cas concrets ; une meilleure connaissance
de la loi mise en œuvre que ses deux premiers moments permet en général
d’arriver à des résultats plus fins. Toutefois cette inégalité suffit à démontrer la
loi faible des grands nombres, sur laquelle s’appuient fortement les statistiques.

2.5.2 Normes d’une variable aléatoire


Définition 2.13. La norme euclidienne pour une variable aléatoire X est :
q
||X|| = E {|X|2 } (2.40)
Il s’agit de la racine du moment d’ordre 2 pour les variables aléatoires
réelles.
Cette définition peut s’étendre pour construire une norme p :
1
||X||p = (E {|X|p }) p (2.41)

2.6 Moments d’ordre supérieurs


Définition 2.14. Soit X une variable aléatoire de mesure de probabilité µX .
Son moment d’ordre k est donné par :
Z
mk (X) = xk dµX x (2.42)
R
Pour une variable aléatoire à densité, le moment d’ordre k est :
Z
mk (X) = xk fX(x) dx (2.43)
R
Pour une variable aléatoire discrète, le moment d’ordre k est :
X X
mk (X) = ωnk pX (ωn ) = ωnk pn (2.44)
n n

Définition 2.15. Soit X une variable aléatoire de mesure de probabilité µX .


Son moment centré d’ordre k est donné par 4 :
Z
µk (X) = (x − E {X})k dµX x (2.45)
R
Pour une variable aléatoire à densité, le moment centré d’ordre k est :
Z
µk (X) = (x − E {X})k fX(x) dx (2.46)
R
Pour une variable aléatoire discrète, le moment centré d’ordre k est :
(ωn − E {X})k pX (ωn ) = pn (ωn − E {X})k
X X
µk (X) = (2.47)
n n

Si laRvariable aléatoire X a une distribution de probabilité paire, et que l’in-


tégrale 0+∞ x2k+1 dµX (x) converge 5 , alors m2k+1 (X) = 0. Comme E {X} = 0,
on a aussi mk (X) = µk (X). Pour une loi normale, les moments centrés d’ordre
supérieur à 2 sont nuls.
4. Attention à la collision de notations : le µk du moment centré n’a rien à voir avec le
µX de la mesure de probabilité, mais ces deux notations sont malheureusement usuelles.
5. Attention à la loi de Cauchy, section 3.3.6.
26 CHAPITRE 2. VARIABLE ALÉATOIRE

2.7 Fonctions caractéristiques


Définition 2.16. Soit X une variable aléatoire. Sa première fonction caracté-
ristique est : n o
ΦX (u) = E eiuX (2.48)
Sa seconde fonction caractéristique est :
 n o
ΨX (u) = log E eiuX = log ΦX (u) (2.49)

Pour une variable aléatoire à densité, la première fonction caractéristique


est : Z
ΦX (u) = eiux fX(x) dx (2.50)
R
Pour une variable aléatoire discrète, la première fonction caractéristique
est : X
ΦX (u) = pn eiuωn (2.51)
n
Connaître l’une des fonctions caractéristiques d’une variable aléatoire suffit
pour connaître sa loi. La première fonction caractéristique n’est autre qu’une
transformée de Fourier de sa mesure de probabilité, et il est possible de re-
trouver la densité d’icelle par la transformée de Fourier inverse :
1
Z
fX(x) = ΦX (u)e−iux du (2.52)
2π R

Soient a et b deux nombres réels ou complexes. Il est aisé de retrouver la


fonction caractéristique d’une transformation affine d’une variable aléatoire :

ΦaX+b (u) = eibu ΦX (au) (2.53)

Les moments d’ordre k peuvent se déduire du développement en série en-


tière de la première fonction caractéristique :

∂ k ΦX (u)
mk (X) = (−i)k (2.54a)
∂uk u=0
(k)
= (−i)k ΦX (0) (2.54b)

2.8 Cumulants d’une variable aléatoire


Les cumulants sont issus du développement en série entière de la seconde
fonction caractéristique :
 n o u2 u3 u4
ΨX (u) = log E eiuX = iκ1 (X)u − κ2 (X)− iκ3 (X) + κ4 (X) + . . .
2 6 24
(2.55)
6
Pour la loi normale, les cumulants supérieurs à 2 sont nuls .
Les cumulants sont définis par récurrence :
n−1
!
X n−1
κn (X) = mn (X) − κk (X)mn−k (X) (2.56)
k=1
k−1
6. Il n’existe pas de distribution de probabilité admettant comme seconde fonction ca-
ractéristique un polynôme de degré fini et supérieur à deux.
2.9. FONCTIONS GÉNÉRATRICES 27

κ1 (X) est l’espérance de X.


κ2 (X) est la variance de X.
κ3 (X) est l’asymétrie 7 de X. Une valeur positive de κ3 (X) indique un étale-
ment vers les valeurs positives de X. On a κ3 (X) = µ3 (X).
κ4 (X) est la kurtosis 8 , ou applatissement. On a κ4 (X) = µ4 (X) − 3κ2 . Une
valeur positive indique des branches infinies plus épaisses que pour la loi
normale.

2.9 Fonctions génératrices


Définition 2.17. Soit (un )n∈N une suite de R ou de C. La série formelle
P∞ n
n=0 un X est la fonction génératrice de la suite (un ).

Une série formelle, contrairement à une série entière, ne doit pas nécessai-
rement être convergente pour avoir un sens. Toutefois un rayon de convergence
non nul permet de nombreuses opérations sur ces fonctions.

Définition 2.18. Soit (pn )n∈N une suite de valeurs de [0, 1] telles que ∞
P
P∞ n=0 pn =
n
1. La série formelle de variable t définie par n=0 pn t est la fonction généra-
trice de la variable alétoire discrète X définie par p (X = n) = pn .

On notera que pour t = 1 la série converge : c’est le second axiome de


Kolmogorov. Pour |t| < 1, on a | ∞ n P∞ n P∞
n=0 un t | 6 n=0 un |t| 6
P
n=0 un = 1.
Le rayon de convergence de la fonction génératrice d’une variable aléatoire
discrète est au moins de 1.
Les fonctions génératrices des variables aléatoires à support fini (et entier)
sont des polynômes.
Exemple. La fonction génératrice d’une loi de Bernoulli de paramètre p est :

GBp (t) = (1 − p) + pt (2.57)

La fonction génératrice d’une loi de Poisson de paramètre λ est :


∞ ∞
λn n (λt)n
e−λ t = e−λ e−λ
X X
GPλ (t) = = e(t−1)λ (2.58)
n=0
n! n=0
n!

La fonction génératrice d’une loi binomiale de paramètres n et p est :


n
!
k k
p (1 − p)n−k tk = ((1 − p) + pt)n
X
GBn,p (t) = (2.59)
n
k=0


Ce dernier exemple illustre le fait que la fonction génératrice de la somme
de variables aléatoires indépendantes (cf. section 4.1.13) est le produit de leurs
fonctions génératrices.
Le second exemple montre aussi que :

GPλ1 +λ2 (t) = e(t−1)(λ1 +λ2 ) = e(t−1)λ1 e(t−1)λ2 = GPλ1 (t)GPλ2 (t) (2.60)

7. Certaines définitions de l’asymétrie utilisent le coefficient adimensionnel m3 /σ.


8. D’autres définitions de la kurtosis existent, notamment µ4 (4)/σ 4 , ce qui donnerait à
la loi normale une kurtosis de 3, ou encore µ4 (4)/σ 4 − 3, qui la normalise à 0.
28 CHAPITRE 2. VARIABLE ALÉATOIRE

P∞
La dérivée de la fonction génératrice est G0X (t) = n=1 npn t
n−1 . On re-
trouve ainsi l’espérance de X :
∞ ∞
npn = G0X (1)
X X
E {X} = np (X = n) = (2.61)
n=0 n=1

2.10 Changement de variable mono-dimensionnel


On procède à un changement de variable aléatoire lorsqu’on définit une
variable aléatoire Y à partir d’une variable aléatoire X : Y = g(X), où g est
une fonction de l’ensemble des réalisations de X dans R. Ainsi :
 
p (Y ∈ A) = p X ∈ g −1 (A) (2.62)

Si la variable aléatoire X est discrète, Y l’est aussi, et :


X
p (Y = y) = p (X = xj ) (2.63)
j tel que g(xj )=y

Si X une variable aléatoire continue à densité, et que g est bijective et


dérivable, alors :
fX g −1 (y)

fY (y) = 0 −1 (2.64)
|g (g (y))|
Si g est une fonction croissante, la médiane et les autres quantiles sont
conservés. Si m est une médiane de X, g(m) est une médiane de g(X).
Si on considère A = [x, x + dx], et que l’on réinjecte l’équation (3.15e)
dans (2.62) en faisant tendre dx vers 0, on trouve une formulation équivalente
à (2.64), avec y = g(x) :

fX(x) |dx| = fY (y) |dy| (2.65)

Si la fonction g n’est pas bijective, mais que g −1 (y) est dénombrable, on


peut étendre la formule (2.64) :
X fX(x)
fY (y) = (2.66)
|g 0 (x))|
x∈g −1 (y)

Exemple. Soit X une variable aléatoire suivant une loi normale N (0, 1) et
Y la variable aléatoire définie par Y = X 2 = g(X). On a ΩY = R+ , et

g 0 (x) = 2x et g −1 (y) = y. Pour tout y ∈ R+∗ on a :
√  √  √ 
fX − y fX y fX y 1 y
fY (y) = √ + √ = √ = √ √ e− 2
2 y 2 y y π y

La valeur de fY (0) n’a aucune importance : 0 est un point isolé. On


retrouve – comem attendu – la densité d’une loi du χ2 à un degré de
liberté. ♦
Si g −1 (y) n’est pas (toujours) dénombrable, il est préférable de passer par
la fonction de répartition :

FY (y) = p (Y 6 y) = p (g(X) 6 y)
  Z
−1
= p X∈g (]∞, y]) = fX(x) dx (2.67)
g −1 (]∞,y]
2.10. CHANGEMENT DE VARIABLE MONO-DIMENSIONNEL 29

Si la fonction FY obtenue est dérivable, Y est une variable continue à


densité et fY = FY0 .
On pourra ainsi gérer des changements de variable d’une variable continue
à densité vers une variable discrète.
Exemple. La variable aléatoire Y est définie comme la partie entière de X.
Si X est une variable aléatoire uniforme sur [1, 7], alors Y correspond au
lancer d’un dé à six faces équilibré 9 . ♦

9. p (Y = 7) = p (X = 7) = 0 : 7 n’est pas dans l’espace des réalisations de Y .


30 CHAPITRE 2. VARIABLE ALÉATOIRE
Lois de probabilité
3
Sommaire
3.1 Compter 31
3.1.1 Ordonnancements 31
3.1.2 Arrangements 32
3.1.3 Combinaisons 32
3.2 Lois discrètes 33
3.2.1 Équiprobable 33
3.2.2 Bernoulli 34
3.2.3 Binomiale 34
3.2.4 Multinomiale 34
3.2.5 Poisson 35
3.2.6 Géométrique 36
3.3 Lois continues 36
3.3.1 Uniforme 37
3.3.2 Loi normale ou loi gaussienne 38
3.3.3 Exponentielle 39
3.3.4 Loi Gamma, loi d’Erlang 40
3.3.5 Exponentielle bilatérale 41
3.3.6 Loi de Cauchy 41
3.3.7 Loi de Rayleigh 42
3.3.8 Loi du χ2 , ou de Pearson 43
3.3.9 Loi de Student, ou loi de Student-Fisher, ou loi de t 44
3.3.10 Loi de Fisher-Snedecor, ou loi de Fisher 44
3.4 Tirage aléatoire 45

3.1 Compter

L orsque la définition classique (section 1.4.1) s’applique, le calcul d’une


probabilité passe par le calcul du nombre d’éléments de l’espace des
réalisations, et le nombre de cas favorables à un événement.
Pour cela, il suffit de savoir compter, c’est-à-dire de conserver quelques
réflexes d’analyse combinatoire.

3.1.1 Ordonnancements
Une permutation de n éléments est le choix d’un ordre sur ces n éléments.
Il y a n! permutations possibles.

31
32 CHAPITRE 3. LOIS DE PROBABILITÉ

S’il n’y a que m éléments distincts, avec n1 + . . . + nm = n, le nombre de


permutations distinctes est :
n!
(3.1)
n 1 ! . . . nm !

3.1.2 Arrangements

Si on procède à un tirage sans remise de k éléments parmi n, et que l’on


conserve leur ordre, le nombre de tirages possibles est :

n!
Akn = (3.2)
(n − k)!

Si on procède à un tirage avec remise, il y a np possibilités.

3.1.3 Combinaisons

Si on procède à un tirage sans remise de k éléments parmi n, et que l’ordre


est indifférent (par exemple si on tire tous les éléments en une fois, ou qu’on
range les éléments après les avoir reçus, comme à la belote ou au poker), le
nombre de tirages possibles est :

!
n n!
= Cnk = (3.3)
k k!(n − k)!

tirages possibles. Dans ce poylcopié, ce nombre de combinaisons est noté nk




selon les usages internationaux comme selon les préconisations françaises ré-
centes. Toutefois, nul n’est à l’abri de croiser la notation précédente, Cnk .
Pour construire une catégorie de tirages avec plusieurs contraintes, on mul-
tiplie les combinaisons.

Exemple. Il y a 22 4 52
  
10 2 3 façons de construire une main de tarot (à 4)
comportant 10 atouts et deux rois 1 , en prenant 10 atouts parmi 22, 2
rois parmi 4, et 3 autrescartes parmi 78 − 22 − 4 = 52 soit 85745259600
4 22 52 22 52 22 52
possibilités. Et il y a 2 10 3 + 11 2 + 12 1 façons d’avoir une
poignée simple et deux rois. ♦

Si on procède à un tirage avec remise (mais toujours sans considérer d’ordre),


le nombre de combinaisons possibles est :

!
n+k−1 (n + k − 1)!
= (3.4)
k k!(n − 1)!

1. Une main de tarot à 4 comporte 15 cartes, il y a 22 atouts, excuse comprise, quatre


couleurs et 14 cartes par couleur, dont quatre rois.
3.2. LOIS DISCRÈTES 33

Quelques propriétés utiles des combinaisons :


! !
n n
= =1 (3.5a)
n 0
! !
n n
= (3.5b)
k n−k
! ! !
n n−1 n−1
= + (3.5c)
k k k−1
! ! !
n n n−1 n−p+1 n
= = (3.5d)
k n−p k p k−1
n
!
n
X n k n−k
(a + b) = a b (binôme de Newton) (3.5e)
k=0
k

3.2 Lois discrètes

On parle de loi discrète lorsque son espace des réalisations est fini ou dé-
nombrable. Le plus souvent, ce sera N ou une partie de N.

3.2.1 Équiprobable

Pour la loi équiprobable, tous les évènements élémentaires ont la même


probabilité :
|A|
p (X ∈ A) = (3.6)
|Ω|

On ne peut pas avoir N comme espace des réalisations, car toutes les
probabilités des évènements élémentaires seraient nulles. Les cardinaux de A
et Ω sont donc finis, et il suffit de compter leurs éléments pour obtenir la valeur
de la probabilité.
Pour une variable aléatoire Dn équiprobable sur n éléments, par exemple
un dé à n faces, on a :

ΩDn = {1, 2, . . . , n} (3.7a)


1
p (Dn = k) = pour k ∈ ΩDn (3.7b)
n
n+1
E {Dn } = (3.7c)
2
n 2−1
2
σD n
= (3.7d)
12
2 ):
Preuve (Calcul de E {Dn } et σDn

n n
X 1X 1 n(n + 1 n+1
E {Dn } = kp (Dn = k) = k= =
n n 2 2
k=1 k=1
34 CHAPITRE 3. LOIS DE PROBABILITÉ

n
X
2 2 2
E Dn2 − E {Dn } = k 2 p (Dn = k) − E {Dn }

σD n
=
k=1
n
1X 2 2 1 n(n + 1)(2n + 1) 2
= k − E {Dn } = − E {Dn }
n n 6
k=1
(n + 1)(2n + 1) (n + 1)2
 
2n + 1 n + 1
= − = (n + 1) −
6 4 6 4
2
(n + 1)(n − 1) n −1
= =
12 12

3.2.2 Bernoulli
La loi de Bernoulli, aussi appelée la loi de pile ou face, a deux résultats
possibles, et est régie par un paramètre p ∈ ]0, 1[ (si p vaut 0 ou 1, il n’y a plus
de phénomène aléatoire). On note souvent q = 1 − p.

Ω Bp = {0, 1} (3.8a)
p (Bp = 1) = p (3.8b)
p (Bp = 0) = 1 − p = q (3.8c)
E {Bp } = p (3.8d)
σB2 p = p(1 − p) = pq (3.8e)

3.2.3 Binomiale
La loi binomiale est la somme de n variables aléatoires de Bernoulli indé-
pendantes : on jette n pièces de monnaies identiques, et on compte le nombre
de pièces tombées sur Pile.

ΩB(n,p) = {0, 1, . . . , n} (3.9a)


(
n k n−k
p (B(n, p) = k) = k p q si 0 6 k 6 n
(3.9b)
0 sinon
E {B(n, p)} = np (3.9c)
2
σB(n,p) = np(1 − p) = npq (3.9d)

Comme B(n, p) est la somme de n variables aléatoires de Bernoulli, on


a : E {B(n, p)} = nE {Bp }. Ces n variables étant indépendantes, on a aussi
2
σB(n,p) = nσB2 p .
La loi binomiale se retrouve dans le développement de (pX + q)n , le coef-
ficient de degré k correspondant à la probabilité d’obtenir k résultats “1” sur
les n tirages selon la loi de Bernoulli.

3.2.4 Multinomiale
Soit X une variable aléatoire d’espace des réalisations {x1 , . . . , xm } et de
loi p (X = xk ) = pk .
La loi multinomiale M s’intéresse au résultat de n lancers indépendants de
la variable aléatoire X. Un évènement est constitué par un m-uplet (N1 , . . . , Nm ),
qui correspond à N1 résultats x1 , N2 résultats x2 , etc. On a donc Nk > 0 et
P
k Nk = n. On a :
3.2. LOIS DISCRÈTES 35

m
n! Y nk
p ((N1 , . . . , Nm ) = (n1 , . . . , nm )) = Qm pk (3.10)
k=1 nk ! k=1

Notons que l’espace des réalisations pour la loi multinomiale est une partie
de Nm : il ne s’agit pas d’une variable aléatoire, mais d’un vecteur aléatoire
(chapitre 4). Son espérance est

E {M } = (np1 , . . . , npm ) (3.11)

Notons que la loi multinomiale est une loi à m − 1 paramètres ; pm =


1 − m−1
P
k=1 pk .
La loi marginale de Nk est une loi binomiale B(n, pk ). Son espérance est
donc de npk , et sa variance de npk (1 − pk ).
La covariance de deux éléments de M est : Cov (Ni , Nj ) = −npi pj . Elle est
évidemment négative car un élément qui appartient à la classe xi ne peut pas
appartenir à la classe xj .
La section 8.2.1 fait le lien entre loi multinomiale et loi du χ2 .

3.2.5 Poisson

La loi de Poisson, appelée aussi loi des évènements rares, a N pour espace
des réalisations et est définie par :

λk −λ
p (Pλ = k) = e (3.12)
k!

On peut voir (cf. chapitre 5) la loi de Poisson de paramètre λ comme une


limite de loi binomiales quand n → ∞, p → 0 et np → λ. Que la loi de Poisson
soit atteinte par cette limite en faisant tendre p vers 0 fait qu’elle est utilisée
pour modéliser des évènements rares. On a :

E {Pλ } = λ (3.13a)
σP2 λ = λ (3.13b)

Proposition 3.1. Si Pλ et Pµ sont indépendantes, alors Pλ + Pµ = Pλ+µ .

Preuve :
36 CHAPITRE 3. LOIS DE PROBABILITÉ

On vérifie l’égalité des probabilités pour tout k ∈ N :


k
X
p (Pλ + Pµ = k) = p (Pλ = i et Pµ = k − i)
i=0
k
X
= p (Pλ = i) p (Pµ = k − i) (Indépendance)
i=0
k
X λi µk−i −µ
= e−λ e
i=0
i! (k − i)!
k
X 1
= e−(λ+µ) λi µk−i
i=0
i!(k − i)!
−(λ+µ) k
e X k!
= λi µk−i
k! i=0
i!(k − i)!
k  
e−(λ+µ) X k i k−i
= λµ
k! i=0
i
e−(λ+µ)
= (λ + µ)k (Binôme de Newton)
k!
= p (Pλ+µ = k)

3.2.6 Géométrique

La loi géométrique est issue d’une loi de Bernoulli que l’on retire jusqu’à
obtenir un résultat “1”. La variable mesurée est le nombre de tirages effectués.

ΩG(p) = N∗ (3.14a)
k−1 k−1
p (G(p) = k) = p(1 − p) = pq (3.14b)
1
E {G(p)} = (3.14c)
p
2 1−p q
σG(p) = = 2 (3.14d)
p2 p

3.3 Lois continues

Une variable aléatoire X est dite continue si son espace des réalisations est
non-dénombrable.
C’est une variable aléatoire à densité si sa fonction de répartition FX est
dérivable 2 , sa fonction de densité étant fX = FX0 . C’est ce cas qui concerne
toutes les lois de cette section, et on choisira le plus souvent de définir la loi

2. Ou du moins F est continue et pour tout intervalle borné de R, il n’existe qu’un


nombre fini de points sur lesquels elle n’est pas dérivable. Il y en a deux pour la loi uniforme,
par exemple.
3.3. LOIS CONTINUES 37

de la variable aléatoire par sa fonction de densité :

fX(x) > 0 (3.15a)


Z
fX(x) dx = 1 (3.15b)
R
Z x Z
FX(x) = fX(x) dx = fX(x) dx (3.15c)
−∞ ]−∞,x]
p (X = x) = 0 pour tout x ∈ R (3.15d)
p (X ∈ [x, x + h])
fX(x) = lim (3.15e)
h→0 h
Connaître FX ou fX suffit à définir la loi de probabilité de X.
La valeur de fX sur les points isolés n’influe pas sur la loi de probabilité
obtenue, ce qui fait qu’une quantité “raisonnable” de discontinuités dans fX
ne pose pas de problème, et que la valeur de la fonction de densité sur les
points de discontinuité n’a pas d’importance.
C’est de l’équation (3.15e) que provient le terme fonction de densité.

3.3.1 Uniforme
Pour la loi uniforme sur l’intervalle [a, b], la densité est constante sur l’in-
tervalle, et nulle à l’extérieur.
1
fX (x)

0.5 a = 0, b = 1
a = −1, b = 1
1

2 3 centrée réduite

0
√ √
− 3 −1 0 1 3
x

Figure 3.1 – Densités de probabilité de variables aléatoires uniformes

C’est une loi uniforme sur [0, 1] qui est simulée lorsque l’on demande un
nombre aléatoire – et donc, juste pseudo-aléatoire – à la plupart des logiciels
et langages informatiques.

(
1
b−a si x ∈ [a, b]
fX(x) = (3.16a)
0 sinon

 0
 si x 6 a
x−a
FX(x) = b−a si x ∈ [a, b] (3.16b)

 1 si x > b
a+b
E {X} = (3.16c)
2
2 (b − a)2
σX = (3.16d)
12
38 CHAPITRE 3. LOIS DE PROBABILITÉ

3.3.2 Loi normale ou loi gaussienne


Une variable aléatoire N (µ, σ 2 ) suivant la loi normale 3 (ou Gaussienne)
d’espérance µ et d’écart-type σ a pour densité :
1 (x−µ)2
fN (µ,σ2 )(x) = √ e− 2σ2 (3.17)
σ 2π
La loi normale centrée et réduite, N (0, 1) a donc pour densité :
1 x2
fN (0,1)(x) = √ e− 2 (3.18)

0.5
centrée
0.4
réduite
fX(x)

0.3 m = 0,
σ2 = 2
0.2
m = 0,
0.1 σ 2 = 0.5
m = 1,
0 σ2 = 1
−4 −3 −2 −1 0 1 2 3 4
x

Figure 3.2 – Densités de probabilité de variables gaussiennes

Au-delà du second, tous les moments centrés et les cumulants de la loi


normale sont nuls ; il s’agit de la seule loi pour laquelle ces développements
sont finis. Sa seconde fonction caractéristique est donc un polynôme de degré
2:
σ 2 u2
ΨN (µ,σ2 ) (u) = iµx − (3.19)
2
La loi normale a un rôle important comme limite d’un grand nombre de
tirages selon une loi quelconque. C’est le théorème de la limite centrale, déve-
loppé en section 5.4.

On peut contruire l’ensemble des variables aléatoires suivant une loi nor-
male par transformation affine 4 de la loi normale centrée réduite :

N (µ, σ 2 ) = µ + σN (0, 1) (3.20)

Si N (µ1 , σ12 ) et N (µ2 , σ22 ) sont indépendantes, alors

N (µ1 , σ12 ) + N (µ2 , σ22 ) = N (µ1 + µ2 , σ12 + σ22 ) (3.21)

La fonction de répartition est définie par :


Z x x−µ
1 (t−µ)2 1 x−µ
 
u2
Z
σ
FN (µ,σ)(x) = √ e− 2σ2 dt = √ e− 2 du = FN (0,1)
−∞ σ 2π 2π −∞ σ
(3.22)
3. Certaines sources notent cette variable N (µ, σ).
4. Qu’il faut bien comprendre comme “Faire un tirage selon N (0, 1), multiplier le résultat
obtenu par σ, et lui ajouter µ” et aucunement
R une transformation affine de sa fonction de
densité, qui ne conserverait en rien R fX (x)dx = 1.
3.3. LOIS CONTINUES 39

Mais il n’est pas possible d’intégrer de façon analytique la fonction u →


2
− u2
e . Cette intégrale définit donc une nouvelle fonction, appelée fonction d’er-
reur 5 , et notée erf. Une table des valeurs de cette fonction est donnée en partie
B.1, page 122.
Z x
1 u2
erf(x) = √ e− 2 du (3.23)
2π −∞
La densité de N (0, 1) est paire, donc le graphe de erf est symétrique autour
du point (0, 21 ), et :
erf(−x) = 1 − erf(x) (3.24)

La fonction de répartition de N (µ, σ) est :

x−µ
 
FN (µ,σ)(x) = erf (3.25)
σ

Si on s’intéresse à la probabilité de s’éloigner de l’espérance :


!
  N (µ, σ 2 ) − µ
p |N (µ, σ 2 ) − µ| > kσ = 1 − p −k 6 6k
σ
= 1 − p (−k 6 N (0, 1) 6 k) (d’après (3.20))
= 1 − erf(k) + erf(−k)
= 2 − 2erf(k) (3.26)

3.3.3 Exponentielle

1.5 1
a=1
1.25 a = 1.5 0.8
a = 0.5
1
0.6
FX (x)
fX (x)

0.75
0.4
0.5
a=1
0.25 0.2 a = 1.5
a = 0.5
0 0
0 1 2 3 4 0 1 2 3 4
x x

Figure 3.3 – Distributions exponentielles

La loi exponentielle, ou loi exponentielle monolatérale, est couramment


utilisée pour modéliser des risques de panne. Elle représente particulièrement
bien la loi de la durée de vie d’un atome radioactif 6 . On notera 7 Ea la variable

5. D’autres définitions de cette fonction existent, au moins aussi nombreusesR que celles
x 2
d’une transformée de Fourier. Citons notamment matlab pour qui erf(x) = √2π 0 e−u du,
et pour lequel la fonction définie en (3.23) s’appelle normcdf.
6. S’il est raisonnablement seul. Quand ses voisins le bombardent de neutrons au sein
d’un réacteur nucléaire, c’est très différent, et très probablement plus court.
7. Comme il n’y a jamais consensus sur grand-chose, certains – dont matlab – utilisent
l’inverse de ce paramètre : E 1 .
a
40 CHAPITRE 3. LOIS DE PROBABILITÉ

aléatoire qui suit une loi exponentielle de paramètre a.


(
ae−ax si x > 0
fEa(x) = (3.27a)
0 sinon
(
0 si x 6 0
FEa(x) = (3.27b)
1 − e−ax sinon
1
E {Ea } = (3.27c)
a
2 1
σE = (3.27d)
a
a2
Proposition 3.2. Une propriété intéressante de la loi exponentielle est son
absence de mémoire :

p (Ea > x|Ea > y) = p (Ea > x − y) (3.28)

Preuve :
Si y > x, on a x − y 6 0 et on a bien p (Ea > x − y) = 1 et Ea > y =⇒ Ea > x,
donc p (Ea > x|Ea > y) = 1.
Si y < x :

p (Ea > x et Ea > y)


p (Ea > x|Ea > y) =
p (Ea > y)
p (Ea > x) 1 − p (Ea 6 x)
= =
p (Ea > y) 1 − p (Ea 6 y)
1 − FEa(x) e−ax
= = −ay = e−a(x−y)
1 − FEa(y) e
 
−a(x−y)
= 1− 1−e = 1 − FEa(x − y)
= 1 − p (Ea 6 x − y) = p (Ea > x − y)

Cette propriété caractérise la loi exponentielle.

3.3.4 Loi Gamma, loi d’Erlang


La loi Gamma de paramètres α et β positifs est définie par :
(
1 α α−1 e−xβ
fG(α,β)(x) = Γ(α) β x si x > 0
(3.29a)
0 sinon
α
E {G(α, β)} = (3.29b)
β
2 α
σG(α,β) = (3.29c)
β2
où Γ est la fonction d’Euler de la première espèce :
Z +∞
Γ(x) = e−t tx−1 dt = (x − 1)Γ(x − 1) (3.30)
0

En particulier, pour n entier positif :

Γ(n) = (n − 1)! (3.31a)


2n + 1 (2n)! √
 
Γ = π (3.31b)
2 22n n!
3.3. LOIS CONTINUES 41

1
α = 1, β =1
0.8 α = 2, β =1
α = 4, β = 21
fX (x) 0.6 α = 8, β = 41

0.4

0.2

0
0 1 2 3 4 5 6
x

Figure 3.4 – Densité de la loi gamma de paramètres α = 3 et β = 2

Dans le cas où α est entier, Γ(α) = (α−1)!, et la loi Gamma est la somme de
α variables aléatoires indépendantes suivant une loi exponentielle de paramètre
β. Dans ce cas, on parlera de loi d’Erlang, courante en dimensionnement de
problèmes de télécommunication :
(
1 α α−1 e−xβ
fE(α,β)(x) = (α−1)! β x si x > 0
(3.32)
0 sinon

Si α = 1, on obtient une loi exponentielle de paramètre β.

3.3.5 Exponentielle bilatérale


La loi exponentielle bilatérale, aussi appelée loi de Laplace, est construite
sur le modèle de la loi exponentielle pour obtenir une loi symétrique. Elle
utilise un paramètre a > 0.
a −a|x|
fEab(x) = e (3.33a)
2
(
1 ax
FEab(x) = 2e si x 6 0
(3.33b)
1 −ax
1 − 2e si x > 0
n o
E Eab = 0 (3.33c)
2 2
σE b = (3.33d)
a a2
On peut décaler l’axe de symétrie de la distribution en µ :
a −a|x−µ|
fE b (a,µ)(x) = e (3.34)
2
n o
Dans ce cas, E E b (a, µ) = µ.

3.3.6 Loi de Cauchy


La loi de Cauchy de paramètres a et b est définie par :
b
fCa,b(x) = (3.35a)
π (b2
+ (x − a)2 )
1 1 x−a
 
FCa,b(x) = + arctan (3.35b)
2 π b
42 CHAPITRE 3. LOIS DE PROBABILITÉ

1 1

0.8
0.75
0.6

FX (x)
fX (x) 0.5
0.4
0.25
0.2

0 0
−4 −2 0 2 4 −4 −2 0 2 4
x x

Figure 3.5 – distribution de Laplace réduite


1
0.3

0.75
0.2

FX (x)
fX (x)

0.5

0.1
0.25

0 0
−4 −2 0 2 4 −4 −2 0 2 4
x x

Figure 3.6 – distribution de Cauchy pour a = 0 et b = 1

2
R
Ni E {Ca,b }, ni σC a,b
n’existent : l’intégrale R xfCa,b(x) dx est indéfinie.
La médiane de Ca,b est a, et c’est aussi l’axe de symétrie de la fonction de
densité.
La loi de Cauchy est une loi à queue épaisse, pour laquelle il est plus
fréquent qu’avec une loi normale d’avoir des valeurs éloignée de la médiane.

3.3.7 Loi de Rayleigh


La loi de Rayleigh de paramètre s est définie par :
( x 2
x − 2s2
fRs(x) = s2
e si x > 0 (3.36a)
0 sinon
(
0 si x 6 0
FRs(x) = 2
− x2
(3.36b)
1−e 2s si x > 0
r
π
E {Rs } = s (3.36c)
2
π
 
2
σR s
= s2 2 − ≈ 0.4292s2 (3.36d)
2
Si on tire deux variables aléatoires indépendantes X1 et X  2 selon une loi
2
normale centrée de variance s , la norme du vecteur X1 , X2 suit une loi de
Rayleigh de paramètre s.
Cette loi sert à modéliser le bruit de chatoiement (ou tavelure) en imagerie
radar ou sonar, ou à caractériser la sortie d’un filtre fréquentiel passe-bas.
3.3. LOIS CONTINUES 43

1
0.8
0.8
0.6
0.6

FX (x)
fX (x)

0.4
0.4 a = 0, α = 1
a = 0, α2 = 2
0.2 0.2 a = 0, α2 = 12
a = 1, α = 1
0 0
0 1 2 3 4 0 1 2 3 4 5
x x

Figure 3.7 – Distributions de Rayleigh

3.3.8 Loi du χ2 , ou de Pearson


La loi du χ2 de paramètre n est définie par :

n x

 n
1
x 2 −1 e− 2 si x > 0
fχ2n(x) = 22Γ n
2 ( ) (3.37)
 0 sinon

où Γ est la fonction d’Euler. Notamment, si n est entier, Γ(n) = (n − 1)!. Le


paramètre n est appelé nombre de degrés de liberté de la loi. Vous trouverez
page 123 une table contenant des valeurs utiles de la fonction de répartition
de la loi du χ2 .
n o
E χ2n = n (3.38a)
σχ2 2n = 2n (3.38b)

Si X1 , . . . , Xn sont des variables aléatoires indépendantes suivant toutes


une loi normale centrée réduite, la variable

n
X
Z= Xk2 (3.39)
k=1

suit une loi du χ2 à n degrés de liberté. La loi du χ2 permet de modéliser le


comportement de la moyenne de plusieurs variables aléatoires indépendantes
de même variance connue (cf. section 7.3.2).
Ainsi, si Z1 suit une loi du χ2 à n1 degrés de liberté, que Z2 suit une loi
du χ2 à n2 degrés de liberté et que Z1 et Z2 sont indépendantes, alors Z1 + Z2
suit une loi du χ2 à n1 + n2 degrés de liberté.
Une des conséquences 8 du théorème de Cochran 9 est que si on projette un
vecteur aléatoire gaussien composé de n variables aléatoires normales centrées
réduites et indépendantes sur un espace vectoriel de dimension k, le carré de
sa norme euclidienne suit une loi du χ2 à n − k degrés de liberté.
La section 8.2.1 fait le lien entre loi multinomiale et loi du χ2 .

8. utilisée dans ce polycopié


9. ni cité complètement, ni démontré dans ce polycopié
44 CHAPITRE 3. LOIS DE PROBABILITÉ

0.5
n=1
n=2
0.4
n=4
0.3 n=6

fX (x)
0.2

0.1

0
0 2 4 6 8
x

Figure 3.8 – Densité de la loi du χ2

3.3.9 Loi de Student, ou loi de Student-Fisher, ou loi de t


La loi de Student de paramètre n – aussi appelé degré de liberté – est
définie par sa fonction de densité :
  !− n+1
Γ n+12 x2 2
ftn(x) = √ n
 1+ (3.40)
nπΓ 2 n

où Γ est la fonction d’Euler. On a :

E {tn } = 0 (3.41a)
n
σt2n = (3.41b)
n−2
Si X suit une loi N (0, 1) et Zn une loi du χ2 à n degrés de liberté, que X
et Zn sont indépendants, alors la variable

nX
tn = √ (3.42)
Zn
suit une loi de Student à n degrés de liberté. La loi de Student permet de modé-
liser le comportement de la moyenne de plusieurs variables aléatoires normales
indépendantes et de variance inconnue (cf. section 7.3.3). Vous trouverez page
124 une table contenant des valeurs utiles de la fonction de répartition de la
loi de Student.
Pour n = 1, la loi de Student est une loi de Cauchy ; c’est aussi le rapport
de deux variables normales centrées réduites. Elle n’a ni espérance, ni variance.
Les équations (3.41a) et (3.41b) ne sont valables que pour n > 2.

Quand n tend vers +∞, tn converge en loi vers N (0, 1) (la variable aléatoire
Zn

n
converge presque sûrement vers 1).

3.3.10 Loi de Fisher-Snedecor, ou loi de Fisher


La loi de Fisher-Snedecor de paramètres n et m – aussi appelée loi de
Fisher Snedecor à n et m degrés de liberté – est définie par sa fonction de
densité :
 √ √
 nn mm Γ( n+m2 ) p xn

n m si x > 0
fF (n,m)(x) = Γ( 2 )Γ( 2 ) x (m + nx)m+n (3.43)


0 sinon
3.4. TIRAGE ALÉATOIRE 45

0.2

-3 -2 -1 1 2 3

Figure 3.9 – Densité de la loi de Student à 3 degrés de liberté

Si Xn suit une loi du χ2 à n degrés de liberté, que Ym suit une loi du


χ2 à m degrés de liberté et que Xn et Ym sont indépendantes, alors Fn,m =
Xn /n
Ym /m suit une loi de Fisher-Snedecor à n et m degrés de liberté. Cette loi
nous permettra d’analyser le rapport entre variance interne et externe afin de
comparer plusieurs espérances (section 8.1.4).
Vous trouverez page 125 une table contenant des valeurs utiles de la fonc-
tion de répartition de la loi de Fisher-Snedecor.
On a :
m
E {Fn,m } = m−2 si m > 2 (3.44a)
2m2 (n+m−2)
σF2 n,m = n(m−4)(m−2)2
si m > 4 (3.44b)

3.4 Tirage aléatoire


Lancer un dé, tirer à pile ou face ou faire circuler une bille sur une roulette
n’est pas une expérience aléatoire 10 : il ne s’agit que d’un phénomène méca-
nique déterministe pour lequel l’humain est incapable 11 de prédire le résultat.
Si on automatise l’un de ces procédés, par exemple avec un robot lanceur de
dé, on aboutira à un processus parfaitement déterministe. . .
Et pourtant, Dieu joue aux dés, mais avec de tous petits dés. Pour aller
chercher du hasard véritable, il faut aller écouter le crépitement de la désinté-
gration radioactive, ou observer des projections successives du spin d’une par-
ticule élémentaire. Ces tirages aléatoires réels sont donc compliqués à mettre
en œuvre, et on se limite en général à un tirage pseudo-aléatoire.

Définition 3.1. Un tirage pseudo-aléatoire est un processus qui à partir d’une


graine 12 va générer un nombre, que l’on considèrera comme aléatoire, et une
nouvelle graine.
10. Et pourtant, ça ressemble fort aux exemples donnés dans les 45 pages précédentes,
n’est-ce pas ?
11. Concernant la roulette, Eudaemons, un groupe de jeunes physiciens spécialisés dans la
théorie du chaos, étaient parvenus à prédire avec une assez bonne précision la case d’arrivée
de la bille en fournissant quelques paramètres mesurés entre le lâcher de la bille et le “rien
ne va plus”. Il est depuis interdit de faire entrer un ordinateur dans un casino américain. Il
semblerait qu’en 2004 les règlements des casinos anglais n’aient pas intégré que les téléphones
portables étaient aussi des ordinateurs. . .
L’adresse d’un croupier professionnel peut aussi jouer. S’il ne peut pas cibler une case
précise, il peut fortement diminuer les chances d’une case donnée, et éviter de servir 36 fois
la mise la plus importante du plateau.
12. seed dans les documentations informatiques
46 CHAPITRE 3. LOIS DE PROBABILITÉ

En général, le nombre produit est un entier (entre 0 et 231 − 1 pour la fonc-


tion random() de la libc). Au maximum, on aura une période correspondant
à la taille de la graine, celle-ci déterminant seule le nombre pseudo-aléatoire
suivant ; cette période sera au maximum de 231 pour la fonction random() de
la libc, de 248 pour les objects de classe Random en Java, et de 219937 − 1 pour
la classe random de Python ainsi que les fonctions rand() de Matlab, octave
et scilab, utilisant un Mersenne twister.
Il est courant d’utiliser l’horloge interne du système pour choisir une graine
de départ. Ceci ne doit pas être utilisé dans un but de cryptographie : il n’y a
que 86 millions de milliscondes dans une journée, donc autant d’états possibles
de la graine. Il est rapide de les tester tous. . .

Il suffit de considérer n chiffres binaires a1 , . . . , an d’un entier pseudo-


aléatoire équiprobable pour toutes les valeurs de 0 à 2n − 1 pour constituer un
nombre “flottant” x = nk=1 ak 2−k selon une loi uniforme sur [0, 1[, arrondie
P

à 2−n près par valeur inférieure.

Proposition 3.3. Pour engendrer un nombre pseudo-aléatoire selon une loi


continue à densité strictement positive Y , il suffit de tirer un nombre pseudo-
aléatoire x selon une loi uniforme sur [0, 1[, puis de résoudre

FY (y) = x (3.45)

où FY est la fonction de répartition de Y pour que y soit un tirage selon Y .

Il est nécessaire que Y soit continue à densité strictement positive pour


garantir l’existence d’une solution à (3.45), FY étant alors continue et stric-
tement croissante. Si Y est une variable aléatoire plus générale, on utilisera
le fait que FY est continue à droite, et donc que FY−1 (x) peut prendre trois
formes :
• {y}: tout se passe bien, on garde y.
• ∅ : on détermine y tel que :

lim F (y + h) < x (3.46a)


h→0
h<0

lim F (y + h) > x (3.46b)


h→0
h>0

et on garde y.
• [a, y[ : on garde y. Ce cas n’a qu’une chance sur 2n de se produire pour
chaque “saut” de la fonction de répartition.
Vecteurs aléatoires
4
Sommaire
4.1 Couples de variables aléatoires 48
4.1.1 Fonction de répartition conjointe 48
4.1.2 Loi conjointe et densité conjointe 49
4.1.3 Lois marginales 50
4.1.4 Lois conditionnelles 50
4.1.5 Indépendance 51
4.1.6 Fonction d’un couple 51
4.1.7 Fonction de R2 dans R2 52
4.1.8 Espérance 53
4.1.9 Couple mixte 53
4.1.10 Moments 54
4.1.11 Variance, covariance et corrélation 54
4.1.12 Fonctions caractéristiques 55
4.1.13 Somme de deux variables aléatoires 56
4.1.14 Produit scalaire et norme 57
4.1.15 Variable aléatoire complexe 57
4.2 Vecteurs aléatoires 57
4.2.1 Fonctions de densité et de répartition 57
4.2.2 Fonctions caractéristiques 58
4.2.3 Moments 58
4.2.4 Matrice de covariance et de corrélation 59
4.2.5 Changement de variable 60
4.3 Estimation 60
4.3.1 Estimateur 61
4.3.2 Maximum de vraisemblance 61
4.4 Vecteurs aléatoires gaussiens 62
4.4.1 Fonction caractéristique 62
4.4.2 Transformations linéaires 63
4.4.3 Composantes gaussiennes 65
4.4.4 Vecteur gaussien dans R2 66

e chapitre étend la notion de variable aléatoire de R vers Rn . Dans le

C cas où n vaut 2, nous parlerons de couple de variables aléatoires, et de


vecteur aléatoire pour de plus grandes valeurs de n.
L’étude des couples de variable aléatoires permet d’analyser le comporte-
ment d’une variable Y en fonction des valeurs que prend une autre variable
X.
Les grands vecteurs aléatoires sont souvent issus de tirages indépendants

47
48 CHAPITRE 4. VECTEURS ALÉATOIRES

selon une même loi. Le chapitre 5 traitera du comportement limite de ces vec-
teurs quand n tend vers l’infini. Lorsque les tirages ne sont pas indépendants,
ces vecteurs peuvent être issus d’une chaîne de Markov ou plus généralement
constituer une série temporelle, qui ne sont pas traitées dans ce document.
Ces vecteurs vivant dans un espace vectoriel, l’espérance se calcule de façon
naturelle dans le même espace. Ne disposant plus d’une multiplication interne
à cet espace, la variance devient une matrice carrée positive, dite matrice de
variance-covariance.
La dernière section traite du cas où le vecteur est gaussien, ce qui ne se
limite pas à dire que chaque composante est gaussienne, mais qu’elles sont
conjointement gaussiennes.
Par mesure de commodité, on note souvent le couple de variables aléatoires
comme un vecteur-ligne à deux éléments. Les vecteurs aléatoires de plus grande
taille mènent souvent à des considérations d’algèbre linéaire ; il convient de les
manipuler sous la forme d’un vecteur-colonne.

4.1 Couples de variables aléatoires


Dans cette section, nous considérons un couple de variables aléatoires
(X, Y ), composé de deux variables aléatoires réelles. Les valeurs prises par
ces deux variables ne sont pas tenues d’être indépendantes.

Exemple. Si X est le nombre de véhicules qui sont passés devant un détec-


teur, et Y le nombre de véhicules détectés, les deux composantes du couple
sont liées (ou il faut clairement se débarasser du détecteur). On peut avoir
Y 6 X s’il y passe des véhicules furtifs, ou Y > X si certains phénomènes
(piéton, sanglier, grain, . . . ) sont perçus comme des véhicules, menant à
de faux positifs. ♦

4.1.1 Fonction de répartition conjointe


Définition 4.1. La fonction de répartition conjointe d’un couple de variables
aléatoires (X, Y ) est la fonction de R2 dans [0, 1] définie par :

FX,Y (x, y) = p (X 6 x et Y 6 y) (4.1)

Sans formaliser le couple, on peut parler directement de fonction de répar-


tition conjointe de X et de Y .

1. FX,Y (x, y) est non-décroissante selon chacune de ses variables.


2. FX,Y (∞, y) = FX,Y (x, −∞) = FX,Y (−∞, −∞) = 0
3. FX,Y (+∞, +∞) = 1
4. FX,Y (x, +∞) = FX(x) ; FX,Y (+∞, y) = FY (y) : ce sont les fonctions de
répartition marginales.
5. p (X∈]x1 , x2 ] et Y ∈]y1 , y2 ]) = FX,Y (x2 , y2 )−FX,Y (x1 , y2 )−FX,Y (x2 , y1 )+
FX,Y (x1 , y1 )
6. FX,Y (x, y) = FX(x) FY (y) si et seulement si X et Y sont indépendantes.
4.1. COUPLES DE VARIABLES ALÉATOIRES 49

4.1.2 Loi conjointe et densité conjointe


Définition 4.2. Lorsque les variables X et Y sont discrètes, la loi conjointe
du couple (X, Y ) est :
pX,Y (x, y) = p (X = x et Y = y) (4.2)
L’espace des réalisations de (X, Y ) est donc un sous-ensemble du produit
cartésien des espaces des réalisations de X et Y .
Définition 4.3. On dira que le couple (X, Y ) est continu à densité si FX,Y
est dérivable par rapport à chacune de ses variables. La densité conjointe est
alors :
∂ 2 FX,Y
fX,Y (x0 , y0 ) = (x0 , y0 ) (4.3)
∂x∂y
Ce qui se traduit, en étendant (3.15e) à R2 , par :
1
fX,Y (x, y) = lim p ((X, Y ) ∈ [x, x + δx ] × [y, y + δy ]) (4.4)
δx →0,δy →0 δx δy

Intégrer deux fois (4.3) permet de retrouver la fonction de répartition.


Une mesure de probabilité étant une mesure finie et positive, l’intégration
sur le pavé semi-infini ] − ∞, x]×] − ∞, y] par l’intégrale de Lebesgue selon la
mesure produit des mesures de Lebesgue sur R (notée λR2 dans (4.5a)) peut
se décomposer en deux intégrations successives selon chacune des variables,
par une intégrale de Lebesgue ou de Riemann (nous intégrons une fonction
positive avec une mesure de probabilité, donc bornée : le théorème de Fubini
s’applique).
Z
FX,Y (x, y) = fX,Y (u, v) dλR2 (u, v) (4.5a)
]−∞,x]×]−∞,y]
Z x Z y 
= fX,Y (u, v) du dv (4.5b)
−∞ −∞
Z y Z x 
= fX,Y (u, v) dv du (4.5c)
−∞ −∞

Par la non-décroissance de FX,Y , on retrouve bien sûr que :


fX,Y (x, y) > 0 (4.6)
En intégrant (4.3) sur un évènement A plutôt qu’un pavé semi-infini, on
obtient : ZZ
p ((X, Y ) ∈ A) = fX,Y (x, y) dxdy (4.7)
A
On peut toujours définir la mesure µX,Y ; elle sera particulièrement utile
si le couple (X, Y ) n’est ni discret, ni continu à densité.
µX,Y (A) = p ((X, Y ) ∈ A) (4.8a)
On obtient alors la définition de l’intégrale selon la mesure µX,Y :
ZZ ZZ
dµX,Y (x, y) = 1dµX,Y (x, y) = µX,Y (A) = p ((X, Y ) ∈ A) (4.8b)
A A

Quand le couple (X, Y ) est continu à densité, on peut se ramener à la


mesure produit de Lebesgue :
ZZ ZZ
dµX,Y (x, y) = fX,Y (x, y) dλR2 (x, y) (4.8c)
A A
50 CHAPITRE 4. VECTEURS ALÉATOIRES

4.1.3 Lois marginales


À partir de la loi conjointe du couple (X, Y ), il est possible de retrouver
la loi de chacune des variables. L’inverse n’est pas vrai : connaître la loi de X
et celle de Y ne permet pas de construire leur loi conjointe (la propriété 6 de
la section 4.1.1 n’est valable que si X et Y sont indépendantes).

p (X ∈ A) = p (X ∈ A et Y ∈ ΩY ) (4.9)
Si X et Y sont discrètes, cela se traduit par :
X
p (X = x) = p (X = x et Y = y) (4.10a)
y∈ΩY
X
p (Y = y) = p (X = x et Y = y) (4.10b)
x∈ΩX

Si le couple (X, Y ) est continu à densité, les variables aléatoires X et Y


sont elles aussi continues à densité.
L’inverse n’est pas vrai, si X est une variable aléatoire uniforme sur [0, 1]
et Y = X, le couple (X, Y ) a pour fonction de répartion :

FX,Y (x, y) = FX,Y (min(x, y), min(x, y)) (4.11a)


= max(min(x, y, 1), 0) (4.11b)

Ainsi, en (0.5, 0.5), la dérivée selon x à gauche vaut 1, et à droite 0, et


∂FX,Y
∂x n’est pas une fonction continue. On ne peut pas calculer sa dérivée se-
lon y pour obtenir une densité qui n’aurait qu’une quantité raisonnable (au
sens défini en section 3.3) de discontinuité.

Les fonctions de densités marginales sont :


Z
fX(x) = fX,Y (x, y) dy (4.12a)
R
Z
fY (y) = fX,Y (x, y) dx (4.12b)
R

Les fonctions de répartition marginales de X et de Y sont :

FX(x) = FX,Y (x, +∞) (4.13a)


FY (y) = FX,Y (+∞, y) (4.13b)

4.1.4 Lois conditionnelles


Lorsqu’on cherche à obtenir des informations sur l’un des membres du
couple, mais que seul l’autre peut être mesuré physiquement, on utilise les
informations disponibles pour affiner la connaissance sur ce premier membre.
On cherche alors, à partir de la loi du couple, à trouver la loi de l’un sachant
l’autre. C’est la loi conditionnelle de cette variable ; elle s’appuie sur la notion
de probabilité conditionnelle définie en 1.6.
Si X et Y sont discrètes, la définition s’applique immédiatement (la défi-
nition 1.15 ne dit aucunement que A et B doivent être des évènements liés à
la même variable aléatoire) :

p (X = x et Y = y) = p (X = x) p (Y = y|X = x) (4.14a)
= p (Y = y) p (X = x|Y = y) (4.14b)
4.1. COUPLES DE VARIABLES ALÉATOIRES 51

En isolant une probabilité conditionnelle, puis en appliquant le théorème


de Bayes :

p (X = x et Y = y)
p (X = x|Y = y) = (4.15a)
p (Y = y)
p (Y = y|X = x) p (X = x)
= (4.15b)
p (Y = y)

Si le couple (X, Y ) est continu à densité, on obtient pour la densité de X


sachant Y :
fX,Y (x, y)
fX|Y (x|y) = (4.16a)
fY (y)
fY |X(y|x) fX(x)
= (4.16b)
fY (y)

4.1.5 Indépendance
La définition 1.16 est évidemment valide pour le couple (X, Y ), et deux
variables X et Y sont indépendantes si leurs lois marginales sont égales à leurs
lois conditionnelles.
Pour les évènements A et B, on a donc :

p (X ∈ A et Y ∈ B) = p (X ∈ A) p (Y ∈ B) (4.17a)

Dans le cas discret, cela entraîne :

p (X = x et Y = y) = p (X = x) p (Y = y) (4.17b)

et dans le cas continu :

fX,Y (x, y) = fX(x) fY (y) (4.17c)

Dans tous les cas, pour les fonctions de répartition, on a :

FX,Y (x, y) = FX(x) FY (y) (4.17d)

Ces quatre équations caractérisent les couples de variables aléatoires indé-


pendantes.
Si X et Y sont deux variables aléatoires indépendantes, alors toute trans-
formation de X et de Y conduit à deux variables aléatoires indépendantes :
g1 (X) et g2 (Y ) sont indépendantes.

4.1.6 Fonction d’un couple


À partir du couple de variables aléatoire (X, Y ), on peut définir une va-
riable aléatoire Z par une fonction g de R2 dans R : Z = g(X, Y ). Ainsi
p (Z ∈ A) = p (X, Y ) ∈ g −1 (A) .


Dans le cas discret on obtient donc :

ΩZ ⊂ {g(x, y) | x ∈ ΩX , y ∈ ΩY } (4.18a)
X
p (Z = z) = p (X = x, Y = y) (4.18b)
x,y∈g −1 (z)
52 CHAPITRE 4. VECTEURS ALÉATOIRES

L’équation (4.18a) ne garantit qu’une inclusion : si X et Y ne sont pas


indépendantes, on peut très bien avoir p (X = x et Y = y) = 0 alors que
p (X = x) > 0 et p (Y = y) > 0.
Dans le cas où (X, Y ) est continu à densité, on a :
ZZ
FZ(z) = p (g(X, Y ) 6 z) = fX,Y (x, y) dxdy (4.19a)
g −1 (]−∞,z])
dFZ(z)
fZ(z) = (4.19b)
dz

4.1.7 Fonction de R2 dans R2


!
X1
Si g est une fonction de R2 dans R2 appliquée au couple :
X2
 !
X1
! g1 !
X2 

X1  Y1
Y =g = ! = (4.20)
X2  X1  Y2

g2 
X2

Si g est bijective, on note h = g −1 et :


 !
Y1
! ! h1
Y2 

X1 Y
=h 1

X= = ! (4.21)
X2 Y2  Y1 

h2 
Y2

Le passage à R2 de (2.64) si le couple (X, Y ) est continu à densité donne :


! !!
y1 y
fY1 ,Y2(y1 , y2 ) = fX1 ,X2 h1 , h2 1 |J(y1 , y2 )| (4.22)
y2 y2
!!
y1
= fX1 ,X2 g −1 |J(y1 , y2 )| (4.23)
y2
où J(y1 , y2 ) est le jacobien de h :
 
∂h1 (y1 ,y2 ) ∂h1 (y1 ,y2 )
J(y1 , y2 ) = det  ∂h2∂y 1
(y1 ,y2 )
∂y2
∂h2 (y1 ,y2 )
 (4.24)
∂y1 ∂y2

Si g n’est pas bijective, mais à antécédents discrets, on peut définir un


ouvert autour de chaque élément (a, b) de g −1 (y1 , y2 ) sur lequel g est bijective :
on appelle ha,b la restriction de h correspondante, et Ja,b son jacobien. Cela
revient à découper g en plusieurs fonctions bijectives, et se ramener au cas
précédent.
X
fY1 ,Y2(y1 , y2 ) = |Jai ,bi (y1 , y2 )|fX1 ,X2(ai , bi ) (4.25)
(ai ,bi )∈g −1 (y 1 ,y2 )

Si g n’est pas bijective, et que g −1 (y) n’est pas toujours un ensemble discret,
il faut calculer
FY1 ,Y2(y1 , y2 ) = p (g1 (X1 , X2 ) 6 y1 et g2 (X1 , X2 ) 6 y2 ) (4.26)
et la dériver selon y1 et y2 pour obtenir une fonction de densité :
∂FY1 ,Y2(y1 , y2 )
fY1 ,Y2(y1 , y2 ) = (4.27)
∂y1 ∂y2
4.1. COUPLES DE VARIABLES ALÉATOIRES 53

4.1.8 Espérance
Définition 4.4. Si g est une fonction de R2 dans R, l’espérance de g(X, Y )
se définit dans le cas où X et Y sont discrets par :
X X
E {g(X, Y )} = g(x, y)p (X = x, Y = y) (4.28)
x∈ΩX y∈ΩY
XX
= g(xi , yj )p (X = xi , Y = yj ) (4.29)
i j

Si le couple (X, Y ) est continu à densité :


ZZ
E {g(X, Y )} = g(x, y)fX,Y (x, y) dxdy (4.30)
R2

Dans le cas général, on considère la mesure de probabilité µ telle que


µ(A) = p ((X, Y ) ∈ A) :
ZZ
E {g(X, Y )} = g(x, y)dµ(x, y) (4.31)
R2

Pour obtenir E {X}, il suffit de considérer la fonction gX : (x, y) 7→ x :


ZZ
E {X} = E {gX (X, Y )} = xfX,Y (x, y) dxdy (4.32)
R2

Définition 4.5. L’espérance conditionnelle de Y sachant X est définie par :

E {g(X, Y )|X = x} = E {g(x, Y |X = x)} (4.33)

La loi de Y |X = x est donnée par la loi conditionnelle de Y . Lorsque


g(x, y) = y, on notera simplement E {Y |X = x} = E {g(X, Y )|X = x}.
Dans le cas discret, on a :
X
E {g(X, Y )|X = x} = g(x, yk )p (Y = yk |X = x) (4.34)
k

Dans le cas continu, on a :


Z
E {g(X, Y )|X = x} = g(x, y)fY |X(y|x) dy (4.35)
ΩY

Pour tout x, on est donc en mesure de calculer E {g(X, Y )|X = x}. Comme
cette valeur x est elle-même générée par la variable aléatoire X, on peut consi-
dérer E {Y |X} comme une variable aléatoire issue de X.
On a E {E {Y |X}} = E {Y }, ainsi E {E {Y |X}} est certaine, et n’est donc
pas aléatoire.

4.1.9 Couple mixte


Dans le cas où un couple de variables aléatoires est composé d’une variable
discrète X et d’une variable aléatoire continue à densité Y , le couple est dit
mixte.
Soit ΩX = {x1 , x2 , . . .} l’espace des réalisations de X. Quel que soit k, la
variable Y |X = xk est une variable aléatoire continue à densité.
En considérant que les tirages ne sont pas simultanés, et qu’on suit un
processus de type “Si le résultat obtenu pour X est xk , alors Y suit une loi
Yk ”, la variable Y |X = xk suit la même loi que Yk .
54 CHAPITRE 4. VECTEURS ALÉATOIRES

On a alors :

X
fY (y) = pX (xk ) fYk(y) (4.36)
k=1
X∞
E {Y } = pX (xk ) E {Yk } (4.37)
k=1
∞ ∞
!
pX (xk ) (E {Yk } − E {Y })2
X X
σY2 = pX (xk ) σY2k + (4.38)
k=1 k=1

Le premier terme de l’équation (4.38) correspond à la variance intra-classe


de Y : la dispersion à l’intérieur de la variable Yk qui caractérise cette k e classe.
Le second terme correspond à la variance inter-classe induite par les écarts
entre l’espérance (centre de gravité de la distribution) de Y et les espérances
(idem) des Yk .

4.1.10 Moments
Définition 4.6. Le moment d’ordre m, n du couple (X, Y ) est E {X m Y n }. Le
moment centré d’ordre m, n du couple (X, Y ) est E {(X − E {X})m (Y − E {Y }n }.
On pourra noter Xc = X −E {X} et Yc = Y −E {Y } les variables aléatoires
centrée obtenues par translation des variables X et Y . Dans ce cas, le moment
centré d’ordre m, n est E {Xcm Ycn }.
Les moments d’ordre k sont tous les moments d’ordre m, n tels que m+n =
k.
Définition 4.7. L’espérance du couple de variables aléatoires (X, Y ) est cons-
tituée de ses moments d’ordre 1 :
E {(X, Y )} = (E {X} , E {Y }) (4.39)
On pourra 1 se rapprocher de la notation usuelle d’une fonction de R2 , en
transposant cette expression :
( !) !
X E {X}
E = (4.40)
Y E {Y }

4.1.11 Variance, covariance et corrélation


Définition 4.8. Il y a trois moments d’ordre 2 : E X 2 , E Y 2 , qui sont
 

les moments d’ordre deux de X et de Y , et E {XY } qui est le moment croisé


d’ordre 2, ou la corrélation de X et de Y . Si E {XY } = 0, on dit que X et
Y sont orthogonales : la norme définie en 2.13 s’appuie sur le produit scalaire
hX, Y i = E {XY }.
Définition 4.9. Il y a trois moments centrés d’ordre 2 : E Xc2 , E Yc2 , les
 

variances de X et de Y , et E {Xc Yc } qui est la covariance de X et Y , notée


Cov (X, Y ).
Proposition 4.1. La covariance, à la manière de la variance (proposition
2.3) peut se calculer à partir des moments non-centrés :
Cov (X, Y ) = E {XY } − E {X} E {Y } (4.41)

1. il ne sera plus possible d’y échapper en section 4.2.


4.1. COUPLES DE VARIABLES ALÉATOIRES 55

Preuve :

Cov (X, Y ) = E {(X − E {X})(Y − E {Y })}


= E {XY − XE {Y } − Y E {X} + E {X} E {Y }}
= E {XY } − E {X} E {Y } − E {X} E {Y } + E {X} E {Y }
= E {XY } − E {X} E {Y }

Définition 4.10. Le coefficient de corrélation du couple (X, Y ) est :

Cov (X, Y )
ρ= (4.42)
σX σY

On a −1 6 0 6 1.
Si ρ = 0, X et Y sont décorrélées. Si X et Y sont indépendantes, alors elles
sont décorrélées. Attention, l’inverse n’est pas vrai.

Exemple. Si X = N (0, 1) et Y = X 2 , il est clair que X et Y ne sont pas


indépendantes. Toutefois
n o n o
Cov (X, Y ) = E {XY } − E {X} E {Y } = E X 3 − E {X} E X 2
n o
= 0 − 0E X 2 = 0

car N (0, 1) a une fonction de densité paire. ♦

Plus |ρ| est grand, plus les deux variables sont liées ; on parlera de corré-
lation positive si ρ > 0 et négative sinon. Si |ρ| = 1, alors il existe λ 6= 0 tel
que Y = λX presque sûrement (cf. définition 5.3).
De façon générale, on peut étendre (2.34) en :

2
σaX+bY = a2 σX
2
+ b2 σY2 + 2abCov (X, Y ) (4.43a)
= a2 σX
2
+ b2 σY2 + 2abρσX σY (4.43b)

4.1.12 Fonctions caractéristiques


Les fonctions caractéristiques d’une variable aléatoire s’étendent à un couple
de variables aléatoires de la même manière que la transformée de Fourier
s’étend aux fonctions de R2 :
n o
ΦX,Y (u, v) = E ei(uX+vY ) (4.44)
 n o
ΨX,Y (u, v) = log E ei(uX+vY ) (4.45)

L’équation (2.54a) s’étend en :

∂ m+n ΦX,Y (u, v)


E {X m Y n } = (−i)m+n (4.46)
∂um ∂v n (u,v)=(0,0)
56 CHAPITRE 4. VECTEURS ALÉATOIRES

4.1.13 Somme de deux variables aléatoires


Le cas le plus simple, et le plus courant, de fonction de deux variables
aléatoires est la somme de ces deux variables.
Dans le cas discret, on a :
X
p (X + Y = z) = p (X = x, Y = z − x) (4.47)
x∈ΩX
X
= p (X = z − y, Y = y) (4.48)
y∈ΩY

Dans le cas où (X, Y ) est continu à densité, on a :


Z Z z−x
FX+Y (z) = fX,Y (x, y) dydx (4.49)
R −∞
dFX+Y (z)
Z
fX+Y (z) = = fX,Y (x, z − x) dx (4.50)
dz R
Dans le cas où X et Y sont indépendantes, (4.50) devient un produit de
convolution : Z
fX+Y (z) = fX(x) fY (z − x) dx (4.51)
R
Ce produit devient simple pour les fonctions caractéristiques :
ΦX+Y (u) = ΦX (u)ΦY (u) (4.52)
ΨX+Y (u) = ΨX (u) + ΨY (u) (4.53)
Pour les variables discrètes à valeurs dans N, il est souvent encore plus
simple de passer par les fonctions génératrices.
Proposition 4.2. Soient X et Y deux variables aléatoires à valeurs dans N,
indépendantes. La fonction génératrice de X + Y est définie par GX+Y (t) =
GX (t)GY (t).
Preuve :
P∞
On écrit les
P∞ fonctions génératrices de X et Y sous la forme Gx (t) = n=0 an tn et
GY (t) = n=0 bn tn . Soit cn = p (Z = n) le ne terme de la série formelle de la loi
de Z. On a :
X∞
cn = p (Z = n) = p (X + Y = n et Y = j)
j=0
n
X
= p (X = n − j et Y = j)
j=0
Xn
= p (X = n − j) p (Y = j) (indépendance)
j=0
Xn
= an−j bj
j=0

Par ailleurs, les séries entières définissant GX et GY étant à rayon de convergence


non nuls :
X∞ ∞
X ∞ X
X ∞
GX (t)GY (t) = ai ti bj t j = ai bj ti+j
i=0 j=0 i=0 j=0
∞ X
X n X∞
= an−j bj tn = cn tn
n=0 j=0 n=0

La fonction génératrice de Z est bien GZ (t) = GX (t)GY (t)


4.2. VECTEURS ALÉATOIRES 57

4.1.14 Produit scalaire et norme


Définition 4.11. La corrélation croisée du couple (X, Y ), E {XY } est un
produit scalaire. Elle définit donc une norme et une distance euclidennes :
q
d(X, Y ) = ||X − Y || = E {(X − Y )2 } (4.54)

4.1.15 Variable aléatoire complexe


Définition 4.12. Une variable aléatoire complexe Z est définie par Z = X+iY
où X et Y sont des variables aléatoires réelles.

Elle est dite de carré intégrable si E {|Z|} < +∞ et E |Z|2 < +∞, où


n o Z Z
E |Z|2 = (x2 + y 2 )fX,Y (x, y) dxdy (4.55)
R R

Toutefois, il n’est pas possible de parler de fonction de répartition pour les


variables aléatoires complexes, l’ensemble C n’étant pas ordonné.

4.2 Vecteurs aléatoires


Cette section n’est (presque) rien d’autre que la précédente où “2” est rem-
placé par “n”. Incidemment, (X, Y ) est remplacé par (X1 , . . . , Xn ), la longueur
de l’alphabet pouvant être inférieure à n. On tâchera de modéliser X] sous la
forme d’un vecteur à une colonne et n lignes, ce qui se traduira par l’utilisation
de l’opérateur de transposition pour coller à la mise en page, plutôt en ligne
qu’en colonne.
Toutefois, là où X et Y suivent généralement des lois différentes et ne sont
pas indépendantes, les composantes d’un vecteur aléatoire seront souvent de
même loi, et souvent indépendantes.
On se limitera au cas où les vecteurs sont continus à densité. Le lecteur
pourra généraliser aux variables discrètes à partir des exemples de la section
4.1, et aux autres variables aléatoires à l’aide des mesures de probabilité en
faisant apparaître des mesures de Dirac pour mixer probabilités continues et
discrètes.

Définition 4.13. Un vecteur aléatoire réel X est un vecteur de Rn dont les


composantes sont des variables aléatoires réelles : X = (X1 , . . . , Xn )T .

4.2.1 Fonctions de densité et de répartition


Définition 4.14. La fonction de densité d’un vecteur aléatoire n’est autre
que la fonction de densité conjointe de ses composantes :

fX(x) = fX1 ,...,Xn(x1 , . . . , xn ) (4.56)

Ainsi :
Z
p (X ∈ A) = fX(x) dx (4.57)
ZA Z
= ... fX1 ,...,Xn(x1 , . . . , xn ) dx1 . . . dxn (4.58)
A
58 CHAPITRE 4. VECTEURS ALÉATOIRES

La fonction de répartition s’obtient en considérant un semi-pavé infini :

FX(x) = FX1 ,...,Xn(x1 , . . . , xn ) = p (X1 6 x1 , . . . , Xn 6 xn )


Z x1 Z xn
= ... fX1 ,...,Xn(t1 , . . . , tn ) dtn . . . dt1 (4.59)
−∞ −∞

En dérivant n fois cette dernière expression, une fois selon chaque direction,
on a :
∂ n FX1 ,...,Xn(x1 , . . . , xn )
fX(x) = fX1 ,...,Xn(x1 , . . . , xn ) = (4.60)
∂x1 . . . ∂xn
Les densités de probabilité marginales s’obtiennent en intégrant la densité
conjointe selon toutes les dimensions sauf une :
Z Z
fXk(xk ) = ... fX1 ,...,Xn(x1 , . . . , xn ) dx1 . . . dxk−1 dxk+1 . . . dxn (4.61)
R R

La densité de probabilité d’un sous-ensemble du vecteur aléatoire de taille


p s’obtient donc en intégrant fX(x) sur les n − p autres dimensions.

La densité de probabilité condititionnelle sachant l’une de ses composantes


(ici, Xn ) est :

fX1 ,...,Xn(x1 , . . . , xn )
fX1 ,...,Xn−1 |Xn =xn(x1 , . . . , xn−1 ) = (4.62)
fXn(xn )
Si on connaît les valeurs des k dernières composantes :
fX1 ,...,Xn(x1 , . . . , xn )
fX1 ,...,Xn−k |Xn−k+1 =xn−k+1 ,...,Xn =xn(x1 , . . . , xn−k ) =
fXn−k+1 ,...,Xn(xn−k+1 , . . . , xn )
(4.63)
Définition 4.15. Les composantes du vecteur aléatoire X sont indépendantes
si :
fX(x) = fX1 ,...,Xn(x1 , . . . , xn ) = fX1(x1 ) . . . fXn(xn ) (4.64)
où les fXk(xk ) sont les densités de probabilité marginales issues de fX(x).

4.2.2 Fonctions caractéristiques


Les fonctions caractéristiques, comme la transformée de Fourier, passent
à Rn : elles deviennent des fonctions de Rn dans R. On considère le vecteur
u = (u1 , . . . , un )T .
n o Z
TX Tx
ΦX (u) = E eiu = eiu fX(x) dx (4.65a)
R n
 n TX
o
ΨX (u) = log E eiu (4.65b)

4.2.3 Moments
Si g est une fonction de Rn dans R, l’espérance de g(X) se définit par :
Z Z
E {g(X)} = ... g(x)fX(x) dx
n
Z ZR  
= ... g (x1 , ..., xn )T fX1 ,...,Xn(x1 , ..., xn ) dx1 ...dx(4.66)
n
R R
4.2. VECTEURS ALÉATOIRES 59

Si g est une fonction de Rn dans Rk , on peut l’écrire sous la forme :

g1 ((X1 , . . . , Xn )T )
 
g1 (X)
 

g(X) =  ...  =  ..
 
(4.67)
 
.

 
T
gk (X) gk ((X1 , . . . , Xn ) )

où les gj sont des fonctions de Rn dans R, et l’espérance de g(X) est :


 n o
E {g1 (X)}
  E g1 ((X1 , . . . , Xn )T )
.. ..
 
E {g(X)} =  = (4.68)
   
.  
 n . 
o
E {gk (X)} T
E gk ((X1 , . . . , Xn ) )

Définition 4.16. Le moment d’ordre m1 , . . . , mn de X est :

E {X1m1 . . . Xnmn } (4.69)

Le moment centré d’ordre m1 , . . . , mn de X est :

E {(X1 − E {X1 })m1 . . . (Xn − E {Xn })mn } = E {(X1c )m1 . . . (Xnc )mn } (4.70)

L’ensemble des moments d’ordre m est constitué des moments d’ordre m1 ,


P
. . . , mn tels que m = k mk .

Quand on ne spécifie pas g dans (4.67), ce qui revient à faire de g la


fonction identité : g(x) = x, on obtient l’espérance du vecteur aléatoire. Ce
vecteur regroupe l’ensemble des moments d’ordre 1 de X.

E {X} = (E {X1 } , . . . , E {Xn })T (4.71)

4.2.4 Matrice de covariance et de corrélation


Définition 4.17. La matrice de corrélation du vecteur X est constituée de
ses moments d’ordre 2 :
 
E X12

E {X1 X2 } . . . E {X1 Xn }
 .. 
E X22
o  E {X X } 
n
T 1 2 . 
RX = E XX = (4.72)
 
.. .. .. 

 . . .


 2
E {X1 Xn } E {X2 Xn } . . . E Xn
La matrice de covariance, aussi appelée matrice de variance-covariance
est :
  
E (X1c )2
E {X1c X2c } . . . E {X1c Xnc }

o  E {X c X c } E (X c )2 .. 
n . 
ΓX = E Xc XT = 1 2 2
 
c .. .. .. 

 . . .


E {X1c Xnc } E {X2c Xnc } . . . E (Xnc )2

 
2
σX Cov (X1 , X2 ) . . . Cov (X1 , Xn )
1

 Cov (X , X ) 2
.. 
1 2 σX . 
=  2
 
.. .. .. 

 . . .


Cov (X1 , Xn ) Cov (X2 , Xn ) . . . 2
σXn
= Rx − E {X} E {X}T (4.73)
60 CHAPITRE 4. VECTEURS ALÉATOIRES

Les matrices RX et ΓX sont positives et symétriques, donc diagonalisables,


avec des valeurs propres positives ou nulles.
La matrice RX est diagonale si les composantes de X sont deux à deux
orthogonales. La matrice ΓX est diagonale si les composantes de X sont deux
à deux décorrélées.

4.2.5 Changement de variable


Si g est une fonction bijective de Rn dans Rn appliquée au vecteur X, on
définit un vecteur aléatoire réel Y = g(X).
Le passage à Rn de (4.22) donne :
 
fY(y) = fX g −1 (y) |J(y)| (4.74)

 T
où |J(y)| est le jacobien de g −1 = g1−1 , . . . , gn−1 :

∂g1−1 (y) ∂g1−1 (y)


∂y1 ... ∂yn
J(y) = det .. .. .. (4.75)
. . .
−1 −1
∂gn (y) ∂gn (y)
∂y1 ... ∂yn

Si g n’est pas bijective, et à plus forte raison si la dimension de X n’est


pas celle de Y, il faut passer par les fonctions de répartition. On considère une
fonction g = (g1 , . . . , gk )T de Rn dans Rk :

FY1 ,...Yk(y1 , . . . yk ) = p (g1 (X) 6 y1 et g2 (X) 6 y2 et . . . et gk (X) 6 yk )


(4.76)
qu’il suffit de dériver selon chacun des yj pour obtenir une fonction de densité.

4.3 Estimation
Les vecteurs aléatoires sont souvent un ensemble de tirages indépendants
selon une même loi inconnue. L’objectif est alors d’estimer le comportement
de cette loi – on baptisera cet objectif statistique prédictive, dont font partie
les chapitres 7 et 8.

Définition 4.18. Un échantillon (X1 , . . . , Xn ) d’une variable aléatoire X est


un vecteur aléatoire réel à n composantes indépendantes, chacune suivant la
loi de X.

Un échantillon est donc une forme particulièrement simple de vecteur aléa-


toire.

Définition 4.19. Une statistique Un est une variable aléatoire définie à partir
d’un échantillon (X1 , . . . , Xn )

Si le vecteur X est un échantillon, la variable E {g(X)} définie en (4.66)


est une statistique.
4.3. ESTIMATION 61

4.3.1 Estimateur
Soit fX,θ la fonction de densité d’une variable aléatoire X dépendant 2 d’un
paramètre θ.
Définition 4.20. La statistique Un est un estimateur de θ si la valeur que
l’on peut observer de Un constitue une valeur que l’on peut considérer comme
approchée de θ.
Un est cohérent si
Un −−−−−−−−→ θ (4.77)
en probabilité

Un est sans biais si E {Un } = θ.


Cette définition n’affirme en rien que la valeur fournie par un estimateur est
une “bonne” valeur approchée de θ. Le plus souvent, si l’espace des réalisations
de X est R ou non-borné, l’espace des réalisations de Un sera lui aussi infini.
La convergence en probabilité est définie en 5.5.

4.3.2 Maximum de vraisemblance


L’estimation du maximum de vraisemblance est une méthode statistique
dûe à Fisher, qui peut être utilisée pour inférer les paramètres de la distribution
de probabilité d’un échantillon.
L’estimateur du maximum de vraisemblance peut exister et être unique,
ne pas être unique, ou ne pas exister.
Définition 4.21. La vraisemblance de θ au vu d’un échantillon (x1 , . . . xn ) issu
de n tirages indépendants d’une variable aléatoire Xθ définie par un paramètre
θ est le produit des probabilités de chacun des tirages, ou de leurs densités.
Pour une loi Xθ discrète :
n
Y
v((x1 , . . . xn ), θ) = p (Xθ = xk ) (4.78a)
k=1

Pour une loi Xθ continue à densité :


n
Y
v((x1 , . . . xn ), θ) = fXθ(xk ) (4.78b)
k=1

Déterminer le θ̂ = maxθ v(θ) donne l’estimateur du maximum de vraisem-


blance. En pratique, on cherchera θ̂ tel que :

∂v((x1 , . . . xn ), θ̂)
= 0 (4.79a)
∂θ
∂ 2 v((x1 , . . . xn ), θ̂)
6 0 (4.79b)
∂θ2
Si Xθ n’est ni discrète, ni continue à densité, on pourra construire la vrai-
semblance en considérant des voisinages autour des points xk , dont on fera
tendre la taille vers 0.
n
Y
v((x1 , . . . xn ), θ, ε) = p (|X − xk | 6 ε) (4.80)
k=1

2. Une loi exponentielle ou une loi de Rayleigh sont définies par un unique paramètre,
une loi uniforme, normale, Gamma ou de Cauchy en ont deux.
62 CHAPITRE 4. VECTEURS ALÉATOIRES

En cherchant le maximum de v((x1 , . . . xn ), θ, ε) pour θ, on obtient θ̂(ε). Il ne


reste plus qu’à faire tendre ε vers 0 :

θ̂ = lim θ̂(ε) (4.81)


ε→0

4.4 Vecteurs aléatoires gaussiens


Dans de nombreux cas, on considère le bruit comme étant un vecteur gaus-
sien. Ce modèle est particulièrement adapté lorsque ce bruit est l’addition de
nombreuses incertitudes de même nature – qui suivent une même loi – et qui
sont indépendantes. Le théorème de la limite centrale (section 5.4) justifie
d’approcher cette somme d’incertitudes par une loi normale.

Définition 4.22. Le vecteur X = (X1 , . . . , Xn )T est gaussien ou normale-


ment distribué, ce qui équivaut à dire que ses composantes sont conjointement
gaussiennes s’il existe un vecteur m ∈ Rn et une matrice symétrique définie
positive Γ de Mn (R) telles que :

1 1
 
fX(x) = p exp − (x − m)T Γ−1 (x − m) (4.82)
(2π)n det(Γ)) 2

Si X est gaussien, m est son espérance, et Γ sa matrice de variance-


covariance.

4.4.1 Fonction caractéristique


Proposition 4.3. La première fonction caractéristique d’un vecteur gaussien
est :
1
n T o  
ΦX (u) = E eiu X = exp iuT m − uT Γu (4.83)
2
Preuve :
On écrit la fonction de densité de X :
Z  
T 1 1 T
ΦX (u) = eiu x p exp − (x−m) Γ−1 (x−m) dx
Rn (2π)n det(Γ)) 2

Comme Γ est symétrique et définie positive, son inverse l’est aussi et Γ−1 =
P D2 P où P est orthogonale (P T = P −1 ), et D est diagonale et définie positive.
T
p −1
On note A la quantité (2π)n det(Γ) .
Z  
T 1 T T 2
ΦX (u) = A exp iu x− (x−m) P D P (x−m) dx
Rn 2
Z  
1 T T 2 T T 2 T T T 2

= A exp − x P D P x−2m P D P x−2iu x+m P D P m dx
Rn 2
Z  
1 T T 2 T T 2 T T −1 T T 2

= A exp − x P D P x−2m P D P x−2iu P D DP x+m P D P m dx
Rn 2
Z    
1 −1
T −1

= A exp − DP x−DP m−iD P u DP x−DP m−iD P u dx
Rn 2
  
1 T 
− DP m+iD−1 P u DP m+iD−1 P u +mT P T D2 P m

exp −
2
4.4. VECTEURS ALÉATOIRES GAUSSIENS 63

On a iD−1 P u = iDP P −1 D−1 D−1 P u, et on peut mettre DP en facteur dans


le terme dépendant de x.
Z   
1 −1
T −1

A exp − DP x−DP m−iD P u DP x−DP m−iD P u dx
Rn 2
Z   
1 −1 −2
T T T −1 −2

= A exp − x−m−iP D P u P D DP x−m−iP D P u dx
Rn 2
Z   
1 T

= A exp − (x−m−iΓu) Γ−1 (x−m−iΓu) dx
Rn 2

Cette exponentielle correspond à la translation de x par iΓu : c’est la fonction


de densité d’un vecteur gaussien de variance-covariance Γ et d’espérance m + iΓu.
Bien qu’un peu d’analyse de Fourier supplémentaire puisse aider à se persuader que
cette translation dans Cn ne pose pas plus de problème qu’une translation dans
Rn , on a bien que l’intégrale sur R de cette densité de probabilité vaut 1 :
Z   
1 T 
A exp − DP x−DP m−iD−1 P u DP x−DP m−iD−1 P u dx = 1
Rn 2
et :
  
1 T
− DP m+iD−1 P u DP m+iD−1 P u +mT P T D2 P m

ΦX (u) = exp −
2
 
1
= exp − −mT P T D2 P m− i2 uT P T D−2 P u−2iuT P T D−1 DP m+mT P T D2 P m
 
2
 
1
= exp − uT P T D−2 P u − 2i uT m

2
 
1
= exp iuT m − uT Γu
2

En passant au logarithme, on a immédiatement que :

1
ΨX (u) = iuT m − uT Γu (4.84)
2

La seconde fonction caractéristique est donc, pour les vecteurs gaussiens


comme pour les variables aléatoires gaussiennes, un polynôme de degré 2, et
tous les cumulants d’ordre supérieur sont nuls.

4.4.2 Transformations linéaires


Proposition 4.4. Toute combinaison linéaire des composantes d’un vecteur
gaussien est gaussienne.

Preuve :
Soit X le vecteur aléatoire gaussien considéré. La combinaison linéaire définit une
variable aléatoire Y :
Xn
Y = ak Xk = aT X
k=1

Sa première fonction caractéristique est :


n T
o n T
o
ΦY (u) = E eiuY = E eiua X = E ei(ua )X = ΦX (ua)

64 CHAPITRE 4. VECTEURS ALÉATOIRES

En appliquant la proposition 4.3 pour la seconde fonction caractéristique, on


obtient :
1
ΨY (u) = iuaT E {X} − uaT ΓX ua
2
u2
= iuE aT X − aT ΓX a

2
La seconde fonction caractéristique de Y est donc un polynôme de degré deux :
elle est gaussienne. Par identification des coefficients des deux monômes, on a
E {Y } = aT E {X} et σY2 = aT ΓX a.

Notamment, la somme de deux variables aléatoires gaussiennes indépen-


dantes est gaussienne, la somme étant une combinaison linéaire particulière-
ment simple.
Proposition 4.5. Soient X et Y deux variables aléatoires indépendantes, X
2 ), Y suivant une loi N (µ , σ 2 ), et a et b deux réels.
suivant la loi N (µX , σX Y Y
Alors aX + bY suit la loi :
 
N aµX + bµY , a2 σX
2
+ b2 σY2 (4.85)

La proposition 4.4 s’étend de façon naturelle : les composantes de l’image


d’un vecteur gaussien par une application linéaire sont gaussiennes. Cela ne
suffit pas à faire de cette image un vecteur gaussien ; la proposition suivante
l’explicite.
Proposition 4.6. La multiplication d’un vecteur gaussien d’espérance m et
de matrice de variance-covariance Γ par une matrice inversible A donne un
vecteur gaussien d’espérance Am et de matrice de variance-covariance AΓ AT .
Preuve :
Soit X le vecteur aléatoire gaussien considéré. On définit la variable aléatoire Y =
AX ; le jacobien de la fonction Y = g(X) est donc | det(A)|. En appliquant (4.74),
on obtient :
1
fX A−1 y

fY(y) =
| det(A)|
 
1 1 T
exp − A−1 y − m Γ−1 A−1 y − m

= p
| det(A)| (2π)n det(Γ)) 2
 
1 1 T −1 T −1 −1

=p exp − (y − Am) A Γ A (y − Am)
(2π)n det(A)2 det(Γ)) 2
 
1 1 T −1
=p exp − (y − Am) AΓ AT (y − Am)
(2π)n det(AΓAT )) 2

D’après la définition 4.22, Y est donc un vecteur gaussien d’espérance Am et de


matrice de variance-covariance AΓ AT .
Proposition 4.7. Il existe une rotation qui transforme un vecteur gaussien
en un vecteur gaussien à composantes indépendantes.
Preuve :
Le vecteur gaussien X a pour matrice de variance-covariance Γ qui est réelle, sy-
métrique et définie positive. Il existe donc P une matrice orthogonale (P −1 = P T
et det(P ) = 1) et une matrice diagonale définie positive telles que Γ = P T DP .
Soit Y = P X. Les matrices orthogonales étant les matrices de rotation, Y est
l’image de X par une rotation. Comme P est inversible, Y est un vecteur gaussien,
et sa matrice de variance-covariance est P ΓP T = D.
4.4. VECTEURS ALÉATOIRES GAUSSIENS 65

En se plaçant dans cette nouvelle base, on transforme le vecteur de Rn


en n variables gaussiennes indépendantes, que l’on peut analyser ou traiter
séparément.
Cette rotation est aussi le moteur des méthodes d’approximation par les
moindres carrés ou l’analyse en composantes principales.

4.4.3 Composantes gaussiennes


Proposition 4.8. Si X est gaussien, chacune de ses composantes est gaus-
sienne.

Preuve :
Extraire la k ième composante du vecteur gaussien X revient à le multiplier par le
vecteur ak = (0, . . . , 0, 1, 0, . . . , 0), qui a un unique 1 en position k : on réalise
donc une combinaison linéaire des composantes de X. D’après la proposition 4.4
on obtient donc une variable aléatoire gaussienne d’espérance ak E {X} = E {Xk }
et de variance akT Γak = σX 2
k
.

La réciproque est fausse, il ne suffit pas que chaque composante d’un vec-
teur soit gaussienne pour que le vecteur soit gaussien, il faut qu’elles soient
conjointement gaussiennes, c’est-à-dire que le vecteur respecte la définition
4.22.

Proposition 4.9. Si les variables Xk sont gaussiennes et deux à deux indé-


pendantes, alors X = (X1 , . . . Xn )T est gaussien.

Preuve :
Les Xk sont indépendantes, donc la fonction de densité de X est le produit des
fonctions de densité des Xk :
n
!
Y 1 1
fX(x) = √ exp − 2 (Xk − mk )2
2πσXk 2σXk
k=1
n
!
1 1X 1 2
= p Qn exp − 2 (Xk − mk )
(2π)n k=1 σXk 2 σX
k=1
k

2
En considérant la matrice diagonale Γ dont les éléments diagonaux sont les σX k
,
et le vecteur m composé des E {Ek }, on a bien :
 
1 1 T
fX(x) = p exp − (X − m) Γ−1 (X − m)
(2π)n det(Γ) 2

Proposition 4.10. Les composantes d’un vecteur aléatoire gaussien sont indé-
pendantes si et seulement si elles sont décorrélées.

Preuve :
L’indépendance implique la décorrélation. L’inverse n’est pas vrai en général.
T
Soit X = (X1 , . . . Xn ) un vecteur aléatoire gaussien dont les composantes
sont décorrélées. Sa matrice de variance-covariance est donc une matrice diagonale,
2
dont les termes diagonaux sont les σX k
.
66 CHAPITRE 4. VECTEURS ALÉATOIRES

T
Soit u = (u1 , . . . un ) un vecteur de Rn . La seconde fonction caractéristique
de X est :
1
ΨX (u) = iuT E {X} − uT Γu
2
n n
X 1X 2
= iuk E {Xk } uk σX u
k k
2
k=1 k=1
Xn
= ΨXk (uk )
k=1

4.4.4 Vecteur gaussien dans R2


Pour illustrer certaines propriétés et définitions abordées dans cette sec-
tion, considèrons le cas simple d’un vecteur gaussien à deux dimensions, au-
trement dit un couple gaussien ou deux variables aléatoires conjointement
gaussiennes X = (X1 , X2 )T .

Supposons que

E {Xi } = mi
n o
E (Xi − mi )2 = σX
2
i
= σi2
E {(X1 − m1 )(X2 − m2 )} = ρσ1 σ2

soient les moments d’ordre un et d’ordre deux des deux variables gaussiennes,
dont 0 6 |ρ| < 1 est le coefficient de corrélation. Dans ce cas, la matrice de
variance-covariance Γ du vecteur X est donnée par :
!
σ12 ρσ1 σ2
Γ= (4.86)
ρσ1 σ2 σ22

Son déterminant est :

det(Γ) = σ12 σ22 (1 − ρ2 )

L’inverse de Γ est donnée par :


!
−1 1 σ2 −ρσ1 σ2
Γ = 2 2
σ1 σ2 (1 − ρ2 ) −ρσ1 σ2 σ12

Finalement, la densité de probabilité de deux variables aléatoires conjoin-


tement gaussiennes est une conséquence immédiate de la définition générale
4.22, voir figure 4.1 :
(x1 −m1 )2 (x2 −m2 )2
  
exp −1
2(1−ρ2 ) σ12
− 2ρ (x1 −mσ11)(x
σ2
2 −m2 )
+ σ22
fX1 ,X2(x1 , x2 ) = p
2πσ1 σ2 1 − ρ2
4.4. VECTEURS ALÉATOIRES GAUSSIENS 67

0.14 0.200
0.12 0.175
0.10 0.150
0.08 z
0.125z
0.100
0.06 0.075
0.04 0.050
0.02 0.025

1.6 1.6
0.8 0.8
1.6
0.8
y 1.6
0.8
y
x 0.8 1.6 1.6
0.8 x 0.8 1.6 1.6
0.8

1.5 1.5
0.06
0.0
2

1.0 1.0 6
0.0

0.0
2

3
0.0
0.1
0.04

0.5 0.5 5
4 0.1 0.21

9
0.0
0.10

0.0 0.0

8
y

0.1
0.5 0.5 2
0.12 0.1
0.04

3
1.0 1.0 6 0.0
0.08 0.0
0.0

2
0.0
2

1.5 1.5
2.0 1.5 1.0 0.5 0.0 0.5 1.0 1.5 2.0 2.0 1.5 1.0 0.5 0.0 0.5 1.0 1.5 2.0
x x
ρ = 0, donc indépendance ρ = 0.7

0.5
0.200
0.175 0.4
0.150
0.125z 0.3 z
0.100 0.2
0.075
0.050 0.1
0.025

1.6 1.6
0.8 0.8
1.6
0.8
y 1.6
0.8
y
x 0.8 1.6 1.6
0.8 x 0.8 1.6 1.6
0.8

1.5 1.5

1.0 1.0

0.5 0.5
0.21 0.18
0.0

0.0
0.1

0.0 0.0
3
y

y
5

3
0.0

0.06

0.5 0.5
9

0.12
1.0 1.0
0.06
1.5 1.5
2.0 1.5 1.0 0.5 0.0 0.5 1.0 1.5 2.0 2.0 1.5 1.0 0.5 0.0 0.5 1.0 1.5 2.0
x x
ρ = −0.7 ρ = −0.95, forte dépendance

Figure 4.1 – Densités de probabilité conjointes fX,Y (x, y) de variables aléa-


toires gaussiennes centrées réduites pour divers coefficients de corrélation ρ
68 CHAPITRE 4. VECTEURS ALÉATOIRES
Convergences et limites
5
Sommaire
5.1 Convergences d’une suite 69
5.2 Convergence en loi 71
5.2.1 Théorème de Lévy-Cramér 72
5.3 Lois des grands nombres 72
5.3.1 Loi faible des grands nombres 72
5.3.2 Loi forte des grands nombres 73
5.4 Théorème de la limite centrale 73

L orsqu’on tire un échantillon de grande taille pour estimer un paramètre


de la loi sous-jacente, ou plus généralement qu’on en extrait une sta-
tistique, il est raisonnable de vouloir que plus l’échantillon est grand,
meilleure soit la valeur obtenue. La qualité “numérique” de cette valeur fera
l’objet de l’estimation paramétrique en statistiques (chapitre 7).
Le type de convergence des valeurs obtenues vers la vraie valeur fait l’objet
de ce chapitre.

5.1 Convergences d’une suite


Dans cette section, on s’intéresse à la convergence d’une suite (xn )n∈N , les
xk appartenant à un espace métrique muni d’une distance d.
Les termes “sûrement” ou “presque sûre” font écho dans notre situation
d’une mesure de probabilité aux termes généraux de “partout” ou “presque
partout” d’une mesure positive. La proposition 5.2 ne fait qu’en adapter des
résultats plus généraux.
Le plus souvent, cette suite (xn ) est composée d’estimateurs d’une même
valeur x, vers laquelle on espère tendre.
Définition 5.1. La suite (xn )n∈N converge au sens de Cauchy si :

∀ε > 0 ∃N ∈ N tel que n > N, p > N =⇒ d(xn , xp ) 6 ε (5.1)

Cette définition n’impose pas de savoir vers quoi tend la suite (xn ) pour
savoir si elle converge.
Définition 5.2. La suite (xn )n∈N converge sûrement vers x si :

∀ε > 0 ∃N ∈ N tel que n > N, =⇒ d(xn , x) 6 ε (5.2)

69
70 CHAPITRE 5. CONVERGENCES ET LIMITES

On dit alors que :


lim xn = x (5.3)
n→∞

La convergence sûre est la convergence usuelle. La convergence au sens de


Cauchy est équivalente à la convergence sûre : si (xn ) converge au sens de
Cauchy, alors il existe x tel que (xn ) converge sûrement vers x. Toutefois, si
les xn ne prennent pas leurs valeurs dans un espace complet, il est possible
que x n’appartienne pas à cet espace, mais à son adhérence.

Définition 5.3. La suite (xn )n∈N converge presque sûrement vers x si la


probabilité que xn tende vers x est 1 :
 
p lim xn = x = 1 (5.4)
n→∞

Exemple. Soit Y une variable aléatoire gaussienne de loi N (0, 1). On définit
la suite Xn par : si Y = 42, Xn = 42 pour tout n, sinon Xn = Y /n (on
ne fait qu’un tirage de Y ).
Ainsi, si Y = 42, lim Xn = 42, sinon lim Xn = 0.
Comme p (Y = 42) = 0, p (lim Xn = 42) = 0 et Xn converge presque
sûrement vers 0. ♦

Définition 5.4. La suite (xn )n∈N converge en moyenne quadratique vers x


si : n o
lim E d(xn , x)2 = 0 (5.5)
n→∞

D’autres formes de moyennes, notamment E {|d(xn , x)|} ont des propriétés


similaires.

Définition 5.5. La suite (xn )n∈N converge en probabilité vers x si pour tout
ε > 0, on a :
lim p (d(xn , x) > ε) = 0 (5.6)
n→∞

La convergence en probabilité est la plus faible des formes de convergence


que l’on peut attendre d’un estimateur.

Proposition 5.1. Si limn→∞ σXn = 0 et ∀E {Xn } = X, la suite (Xn )n∈N


converge en probabilité vers X.

Preuve :
D’après l’inégalité de Tchebychev, on a :

 σ2
p |Xn − X| > λ 6 X2n
λ
Donc : 
∀λ > 0, lim p |Xn − X| > λ = 0
n→∞

Exemple. Soit Y est une variable aléatoire uniforme sur [0, 1]. On définit Xn
par vaut Y /n, sauf sur un intervalle de longueur 1/n où Xn vaut 1 :
( h i
1
Xn = 1 si Y ∈ αn , αn + n (5.7)
Xn = Yn sinon
5.2. CONVERGENCE EN LOI 71

On choisit les αn de telle manière que ∀y ∈ [0, 1], ∀N ∈ N, ∃n > N tel


que Xn = 1. On pourra pour cela utiliser pour αn la partie décimale de
Pn 1
k=1 k ≡ log n.
Ainsi Xn converge en probabilité vers 0 car pour n1 6 ε, on a :

p (|Xn − 0| > ε) 6 1/n

Mais Xn ne converge pas presque sûrement vers 0 :


 
p lim Xn = 0 = 0
n→∞

car ∀y ∈ [0, 1], ∀N ∈ N, ∃n > N tel que Xn = 1 et donc Xn n’est pas une
suite convergente. ♦
Proposition 5.2. Si (xn ) converge sûrement vers x, alors xn converge presque
sûrement vers x.
Si xn converge presque sûrement vers x, alors xn converge en probabilité
vers x.
Si xn converge en moyenne quadratique vers x, alors xn converge en pro-
babilité vers x.

5.2 Convergence en loi


Définition 5.6. Soit (Xn ) une suite de variables aléatoires. Elle converge en
loi vers une variable aléatoire X si en tout point x où FX est continue :

lim FXn(x) = FX(x) (5.8)


N →∞

Exemple. Soit Xn une variable aléatoire suivant une loi de Bernoulli de para-
mètre 12 + n+1
1
. Soit X une variable aléatoire suivant une loi de Bernoulli
1
de paramètre 2 . Leurs fonctions de répartition sont :
 

 0 si x < 0 
 0 si x < 0

1 
1 1
FXn(x) = + si 0 6 x < 1 FX(x) = si 0 6 x < 1


 2 n+1 

 2
1 si x > 1 1 si x > 1
 

Pour x 6= 12 , lim FXn(x) = FX(x) ; FX n’est pas continue en 12 . Ainsi Xn


converge en loi vers X (les autres convergences n’ont pas de sens). ♦
Proposition 5.3. La convergence en probabilité implique la convergence en
loi.
Preuve :
Si limn→∞ p (d(xn , x) > ε) = 0, alors limn→∞ p (Xn 6 x − ε) = 0 et
limn→∞ p (Xn 6 x + ε) = 1 pour tout ε. La fonction caractéristique de la variable
certaine x est Fx(t) = 0 si t < x et Fx(t) = 1 si t > x.

La convergence en loi n’utilise pas comme limite une variable certaine


(un réel), mais une variable aléatoire. On ne recherchera donc pas une telle
convergence pour un estimateur. Elle sert en général à approximer une loi
compliquée, comme une loi binomiale ou une loi Gamma, par une loi plus
simple à manipuler, le plus souvent une gaussienne, parfois une loi de Poisson.
72 CHAPITRE 5. CONVERGENCES ET LIMITES

5.2.1 Théorème de Lévy-Cramér


Théorème 5.1. La suite (Xn ) converge en loi vers X si et seulement si
les fonctions caractéristiques des Xn convergent simplement vers la fonction
caractéristique de X. C’est-à-dire que pour tout u :

lim ΦXn (u) = ΦX (u) (5.9)


n→∞

Réciproquement, si les fonctions caractéristiques des Xn convergent simple-


ment vers une fonction Φ et que cette fonction Φ est continue en 0, alors il
existe une variable aléatoire X dont Φ est la fonction caractéristique et (Xn )
converge en loi vers X.

5.3 Lois des grands nombres


Les lois des grands nombres ainsi que le théorème de la limite centrale
s’intéressent à la moyenne d’un échantillon, qui constitue la statistique la plus
courante.
La loi faible et la loi forte ont les mêmes hypothèses, et le résultat de la loi
forte (convergence presque sûre) implique celui de la loi faible (convergence en
probabilité). On évitera d’écrire la démonstration de la loi forte (Kolmogorov,
1929), et on se limitera à celle, nettement plus simple, de la loi faible (Bernoulli,
environ 1690).
Ces lois entraînent que la moyenne de l’échantillon est un estimateur co-
hérent de l’espérance de la loi qui a engendré l’échantillon.

5.3.1 Loi faible des grands nombres


Théorème 5.2. Soit (Xn )n∈N une suite de variables aléatoires indépendantes
qui suivent une même loi d’espérance m et de variance σ 2 . Alors :
 Pn
k=1 Xk

lim p −m >ε =0 (5.10)
n→∞ n

Preuve :
σ2
1
Pn
Soit Y = n k=1 Xk . Il est clair que E {Y } = m. On a σ 2 Xk  = n2 . Comme
n
2
σ
les Xk sont indépendants, σY2 = n . L’inégalité de Tchebychev (proposition 2.4)
donne :
σY2
p (|Y − m| > ε) 6
! ε2
n
1X σ2
p Xk − m > ε 6
n nε2
k=1

2
σ
Comme limn→∞ nε2 = 0, on a bien :
 Pn 
k=1 Xk
lim p −m >ε =0
n→∞ n
5.4. THÉORÈME DE LA LIMITE CENTRALE 73

5.3.2 Loi forte des grands nombres


Théorème 5.3. Soit (Xn )n∈N une suite de variables aléatoires indépendantes
qui suivent une même loi d’espérance m et de variance σ 2 . Alors :
Pn
k=1 Xk
 
p lim =m =1 (5.11)
n→∞ n

5.4 Théorème de la limite centrale


Théorème 5.4. Soit (Xn )n∈N une suite de variables aléatoires indépendantes
qui suivent une même loi d’espérance m et de variance σ 2 . Alors
Pn
( k=1 Xn ) − nm
Yn = √ (5.12)
σ n

converge en loi vers N (0, 1) lorsque n tend vers l’infini.

Preuve :
Le développement limité en 0 de la seconde fonction caractéristique de X est :
1
ΨX (u) = imu − σ 2 u2 + o(u2 )
2
et :
1
ΨX−m (u) = − σ 2 u2 + o(u2 )
2
Les Xk étant indépendants, la seconde fonction caractéristique de leur somme
est :
1
ΨP (Xk −m) (u) = − nσ 2 u2 + o(u2 )
k 2
On a :

ΨYn (u) = Ψ 1

P
(Xk −m) (u)
σ n k
 
u
= ΨP (Xk −m)

k σ n
22
 2 

nσ u u
= − √ +o
2 σ n nσ 2
u2
 2 
u
= − +o
2 nσ 2

Quand n tend vers l’infini, on a donc :

u2
lim ΨYn (u) = −
n→∞ 2
2
Comme g : u 7→ − u2 est continue en 0, le théorème de Lévy-Cramér s’applique.
Cette fonction est la seconde fonction caractéristique de N (0, 1), donc Yn converge
en loi vers la loi gaussienne centrée réduite.

On utilise le théorème de la limite centrale pour approcher le comporte-


ment d’une loi. En pratique, on se contentera de valeurs de n assez modestes.
Souvent, à partir de n = 30, on travaillera avec la loi normale.
1 Pn
Lorsque la loi X n’est pas symétrique, la loi de σ√ n
(( k=1 Xn ) − nE {X})
ne l’est pas non plus, bien que convergeant vers une loi symétrique, N (0, 1). En
74 CHAPITRE 5. CONVERGENCES ET LIMITES

pratique, on impose dans ce cas 1 deux conditions supplémentaires pour que


l’approximation obtenue soit de qualité satisfaisante : np (X < E {X}) > 5 et
np (X > E {X}) > 5. Si X suit une loi de Bernoulli de paramètre p, cela se
traduit par np > 5 et n(1−p) > 5. On pourra donc appliquer le théorème de la
limite centrale à la loi binomiale B(n, p) quand n > 30, np > 5 et n(1 − p) > 5.
Remarque. L’équation (5.12) peut s’écrire sous la forme :
 P 
1 n
n k=1 Xn −m
Yn = (5.13)
√σ
n

Pn
Dans ce cadre, m est l’espérance de 1 √σ
n k=1 Xn et n
son écart-type.
Remarque. Considérant n tirages indépendants selon la loi de X, il convient de
1 P
dire que σ√ n k (Xk − m) tend vers N (0, 1), puis de choisir N (0, 1) comme loi
1
k (Xk − m) sur la base de cette convergence, et enfin d’ap-
P
approchée de σ√ n
pliquer les propriétés de linéarité de la loi normale pour choisir N mn, nσ 2

P
comme loi approchée de k Xk .
Pn
Dire que k=1 Xk “tend” vers N mn, nσ 2 est un raccourci abusif : la


variable qui sert à définir la limite ne peut pas se retrouver dans sa valeur. On
ne fait qu’approcher nk=1 Xk par N mn, nσ 2 .
P

Exemple. Une variable aléatoire binomiale B(n, p) est la somme de n va-


riables aléatoires de Bernoulli de paramètre p. Pour n grand, on pourra
l’approcher par N (np, np(1 − p)). ♦
Exemple. 64 personnes font la queue au bar pour se faire servir une bière.
L’espérance du volume 2 d’une bière est de 30cl, et son écart-type de 5cl.
Il reste 20 litres dans le fût : quelle est la probabilité de finir la soirée sans
avoir à changer le fût ?
La variance du volume de bière est de 25cl2 . Le théorème de la limite
centrale permet d’approcher le volume V64 des 64 verres – supposés indé-
pendants – par N (64 × 30, 64 × 25) = 1920 + 40N (0, 1). La probabilité
que V64 soit supérieure à 20l est donc approchée par :

2000 − 1920
 
p (N (64 × 30, 64 × 25) > 2000) = p N (0, 1) > =2
40
= 1 − erf(2) = 0.0228 = 2.28%

Il y a donc une probabilité de 97.72% de finir la soirée sans avoir à changer


le fût. ♦
Exemple. Une variable aléatoire de Poisson Pn de paramètre n est la somme
de n variables de Poisson de paramètre 1 indépendantes. Pour n grand,
on pourra donc approcher Pn par N (n, n). Ainsi, la loi de Poisson, dite
loi des évènements rares, perd de son intérêt lorsque son paramètre est
grand, c’est-à-dire que les évènements qu’elle compte ne sont pas rares.

1. Si la loi est symétrique et que p (X = E {X}) = 0, n > 30, ces deux conditions sont
toujours vérifiées : np (X < E {X}) = n2 > 15 > 5, idem pour np (X > E {X})
2. Il y a des demis et des pintes, ainsi que des panachés et une quantité aléatoire de
mousse perdue. On ne connaît pas la loi exacte de ce volume, juste son espérance et son
écart-type. . .
5.4. THÉORÈME DE LA LIMITE CENTRALE 75

Exemple. Une variable aléatoire d’Erlang de paramètres α et β est la somme


de α variables aléatoires exponentielles
  de paramètre β. Pour α grand, on
α α
pourra l’approcher par N β , β 2 . ♦
76 CHAPITRE 5. CONVERGENCES ET LIMITES
Deuxième partie

Statistiques

77
Statistique descriptive
6
Sommaire
6.1 Objectifs de la statistique descriptive 79
6.2 Population et autres termes 79
6.2.1 Structures statistiques 80
6.3 Présentation des données 80
6.3.1 Tableau statistique 81
6.3.2 Représentation graphique 81
6.3.3 Courbe cumulative 82
6.4 Statistiques extraites 82
6.4.1 Moyennes 83
6.4.2 Variances 84
6.4.3 Variance d’un histogramme 85
6.4.4 Autres moments 85
6.4.5 Médianes et autres quantiles 86
6.4.6 Extraire les quantiles d’un histogramme 87
6.5 Régression linéaire 87

6.1 Objectifs de la statistique descriptive


La statistique s’intéresse à l’origine à la démographie, les États cherchant
à caractériser leur population. De nombreux termes utilisés de façon générale
en statistique proviennent de ce contexte.
Cette caractérisation se fait par l’extraction de paramètres signifiants d’un
échantillon ou d’une population, ainsi que par le choix judicieux de leur repré-
sentation graphique.
Cette étude se fait le plus souvent par :
1. la collecte des données, constituant un échantillon à partir d’une popu-
lation,
2. la présentation des données, mettant en lumière les caractéristiques étu-
diées et les effectifs de leurs diverses modalités,
3. le résumé des données, par l’extraction de statistiques.

6.2 Population et autres termes


Définition 6.1. La population est l’ensemble étudié.

79
80 CHAPITRE 6. STATISTIQUE DESCRIPTIVE

Un individu est un élément de la population. Un individu est en général


considéré comme un tirage selon la loi sous-jacente (et inconnue) à la popula-
tion.
L’effectif total est le nombre d’éléments de la population.
Définition 6.2. L’échantillon est un sous-ensemble de la population, étudié
pour déduire des connaissances générales sur la population. Si on suppose – et
ce sera généralement le cas – que les individus qui composent la population sont
des tirages indépendants d’une même loi, l’échantillon respecte les hypothèses
de la définition 4.18.
L’effectif est le nombre d’éléments de l’échantillon.
Au sein d’un échantillon, un individu est une observation.
Définition 6.3. Un caractère est un terme permettant de décrire un indi-
vidu. Il pourra s’agir d’un caractère qualitatif (couleur, sexe, marque, etc.) ou
quantitatif s’il est numérique.
Un caractère quantitatif est donc l’une des variables aléatoires qui com-
posent le vecteur aléatoire de l’individu. On distinguera alors les variables dis-
crètes, qui peuvent prendre un nombre fini ou dénombrable de valeurs (nombre
d’enfants, valeur d’un dé, etc.) et les variables continues, qui peuvent prendre
toutes les valeurs d’un intervalle (pas nécessairemement borné) (salaire, loca-
lisation géographique par latitude et longitude, taille, etc.)
Définition 6.4. Une modalité est une des situations possibles pour un carac-
tère qualitatif ou une variable discrète.
Ces modalités sont en général déterminées avant le recueil des informa-
tions sur l’échantillon, et seront d’autant plus nombreuses que le caractère est
finement étudié (localisation géographique : {Paris, petite couronne, grande
banlieue, province}, ou {Alsace, Bretagne, . . . , région parisienne, . . . }).

6.2.1 Structures statistiques


Définition 6.5. Une structure statistique (ou modèle statistique) est composé
d’une population Ω, de la tribu des parties de Ω, 2Ω , et d’une famille P de lois
de probabilité sur Ω muni de la tribu 2Ω .
Si un élément de P est une loi déterminée par k paramètres, l’ensemble
des valeurs que peuvent prendre ces paramètres est l’espace paramétrique Θ
de P. On a Θ ⊂ Rk .
Si P est l’ensemble des gaussiennes réelles, les paramètres en seront l’es-
pérance µ et l’écart-type σ. L’espace paramétrique sera donc Θ = R × R+∗ .
Si P est l’ensemble lois binomiales, les paramètres en seront la probabi-
lité p de la loi de Bernoulli sous-jacente, et le nombre de tirages n. L’espace
paramétrique sera donc Θ = [0, 1] × N.

6.3 Présentation des données


Le choix de la présentation des données vise à rendre explicite pour un
lecteur humain le caractère étudié. Elle s’appuie le plus souvent sur un résumé
de ce caractère par les effectifs des différentes modalités.
On note n l’effectif total de la population étudiée, nk l’effectif de la modalité
Ck , et fk = nnk sa fréquence.
6.3. PRÉSENTATION DES DONNÉES 81

6.3.1 Tableau statistique


Un tableau statistique revient à associer modalités et effectifs, voire mo-
dalités et fréquences (table 6.1). Il est possible de croiser les modalités pour
obtenir un tableau statistique croisé (table 6.2).

Cycle ENSI Cycle ENSI


MP 55 MP 35.36%
PC 22 PC 14.1%
PSI 53 PSI 33.97%
PT 16 PT 10.26%
TSI 6 TSI 3.85%
Autre 4 Autre 2.56%
Table 6.1 – Entrer en cycle ENSI en 2009

ENSIETA
Filière ENSI Civils ENSI Mili FIPA
MP 38 17 0
PC 14 8 0
PSI 38 15 0
PT 16 0 0
TSI 4 2 0
Autre 4 0 35
Table 6.2 – Entrer à l’ENSIETA en 2009

6.3.2 Représentation graphique


Le tableau statistique sera souvent traduit par une représentation gra-
phique où la “taille” (surface, longueur, secteur angulaire, etc.) de chaque
modalité sera proportionnelle à son effectif (figure 6.1).

Autre TSI
MP PT

PC PSI

Autre PC
TSI

PT MP
PSI MP PC PSI PT TSI Autre

Figure 6.1 – Camembert, histogramme, tuyau d’orgue.

Pour représenter une donnée continue sous une forme résumée, on crée
des classes à partir d’un découpage de l’intervalle des valeurs de la variable
mesurée. On se ramène ainsi au cas précédent.
Les stratégies les plus classiques sont de fabriquer des intervalles de lar-
geur constante, ou des classes d’effectifs constants (figure 6.2). Cette seconde
stratégie sera particulièrement utile si l’on souhaite prolonger l’étude par un
test du χ2 .
82 CHAPITRE 6. STATISTIQUE DESCRIPTIVE

2.65 7.85 12.85 19.9


0 2 4 6 8 10 12 14 16 18 20 10.35 14.85

Figure 6.2 – UV1.1, ENSI2013, histogrammes à largeur constante et à effec-


tifs constants

6.3.3 Courbe cumulative


Définition 6.6. La courbe cumulative est le pendant statistique de la fonction
de répartition. Connaissant l’échantillon E = {x1 . . . xn }, il s’agit du graphe
de la fonction :
|{xk 6 x | k ∈ [1 . . . n]}|
F : x 7→ (6.1)
n
L’équation (6.1) peut aussi s’écrire à l’aide d’indicatrices :
n
1X
F : x 7→ 1 (xk ) (6.2)
n k=1 ]−∞,x]

1.0

0.75

0.5

0.25

10 20

Figure 6.3 – UV1.1, ENSI2013, courbe cumulative


L’intérêt de cette représentation est qu’elle ne détruit pas d’information
par rapport aux données brutes ; elle est toutefois moins parlante pour un œil
humain.
C’est une fonction en escaliers ; elle est constante sur les intervalles de type
[xk , xk+1 [ quand on range les observations par ordre croissant. Son image est
un sous-ensemble de { nk , k ∈ [0 . . . n]}, l’égalité étant atteinte si toutes les
observations sont deux à deux distinctes. Pour x inférieur à la plus petite
observation, on a F (x) = 0, et F (x) = 1 pour x supérieur ou égal à la plus
grande observation.
Le test de Kolmogorov-Smirnov compare la courbe cumulative d’un échan-
tillon avec la fonction de répartition d’une loi de probabilité.

6.4 Statistiques extraites


Pour résumer un échantillon ou une population, une statistique extraite
peut être calculée à partir de ses caractères.
6.4. STATISTIQUES EXTRAITES 83

Si l’échantillon est issu de tirages indépendants selon une même loi, la


statistique extraite – au sens de la statistique descriptive – rejoint la statistique
au sens de la définition 4.19. Si la statistique en question est un estimateur
d’un paramètre définissant cette loi, cette estimation gagnera en qualité avec
l’augmentation de la taille de l’échantillon – c’est l’objet du chapitre suivant.
De façon générale, on n’extraira de statistique que des caractères quanti-
tatifs, que l’on mettra en relation avec une variable aléatoire sous-jacente. Les
caractères qualitatifs se prêtent mal à l’extraction de paramètre.
Dans tous les cas – indépendance ou pas, loi aléatoire sous-jacente ou pas,
estimateur ou pas – il est possible d’utiliser ces statistiques pour résumer un
ensemble de données afin de le présenter de manière synthétique à un être
humain 1 .
Si on travaille sur des données brutes, on notera (x1 , . . . , xn ) les caractères
quantitatifs mesurés. Si ces données ont été réparties en K classes, on notera
x˜1 , . . . , x˜K les centres de ces classes, n1 , . . . , nK leurs effectifs, et f1 = nn1 , . . . ,
fK = nnK leurs fréquences. Notons que si K = n et ∀k, fk = n1 la répartition
en classes englobe le cas où on travaille avec des données brutes.
Définition 6.7. Le mode d’un échantillon – ou d’une population – est la
valeur de caractère ayant le plus grand effectif 2 .

6.4.1 Moyennes
Les moyennes, ainsi que les médianes et autres quantiles, sont toujours
comprises entre la plus petite et la plus grande observation.
Définition 6.8. La moyenne arithmétique – aussi appelée simplement la
moyenne – d’un échantillon est :
n K K
1X 1X X
x= xk = nk x̃k = fk x̃k (6.3)
n k=1 n k=1 k=1

Définition 6.9. Soit ϕ une fonction continue monotone réelle. La ϕ-moyenne


xϕ est définie par :
K
X
ϕ(xϕ ) = fk ϕ(x̃k ) (6.4)
k=1
Ces conditions sur ϕ font qu’elle est inversible. Ainsi :
K
!
xϕ = ϕ−1
X
fk ϕ(x̃k ) (6.5)
k=1

En prenant ϕ = log et en se limitant à des caractères observés positifs, on


obtient la moyenne géométrique.

En choisissant ϕ : x 7→ xr et en se limitant à des caractères observés


positifs, on obtient :
1. Présenter les résultats d’un sondage sous la forme “55% des français pensent que . . . ”
est une statistique descriptive, alors que “Il y a 95% de chances pour que la proportion des
français qui pensent que . . . soit entre 51% et 59%.” est une estimation paramétrique.
2. Chaque règle se devant d’avoir son exception, les diverses moyennes présentées de-
mandent à ce que les caractères soient dans un espace vectoriel voire un corps, les médianes
demandent à ce que les caractères soient totalement ordonnés, mais le mode s’applique par-
ticulièrement bien sur les caractères qualitatifs, et n’a souvent pas de sens pour un caractère
quantitatif.
84 CHAPITRE 6. STATISTIQUE DESCRIPTIVE

Définition 6.10. La moyenne d’ordre r est définie par :


v
uK
u X
r
xr = t fk x̃rk (6.6)
k=1

En particulier, pour r = 1 on retrouve la moyenne arithmétique ; pour


r = 2 la moyenne quadratique ; pour r = −1 la moyenne harmonique.

Définition 6.11. L’écart moyen est donné par :

K
1X
E= nk |x̃k − x| (6.7)
n k=1

Il ne faut surtout pas confondre écart moyen et écart-type ; l’écart moyen


est la moyenne arithmétique des écarts à la moyenne, alors que l’écart-type est
la moyenne quadratique de ces écarts.

6.4.2 Variances
Définition 6.12. La variance naturelle Sn2 d’un échantillon est définie par :

K K n
1X X 1X
Sn2 = nk (x̃k − x)2 = fk (x̃k − x)2 = (xk − x)2 (6.8)
n k=1 k=1
n k=1

p L’écart-type Sn d’un échantillon est la racine carrée de sa


Définition 6.13.
variance : Sn = Sn2 .

L’écart-type mesure la dispersion de l’échantillon. Dans le cadre de l’esti-


mation paramétrique, la longueur des intervalles de confiance lui est directe-
ment liée.

Définition 6.14. La variance sans biais Sn2 d’un échantillon est définie par :

K
2 1 X n
Sn−1 = nk (x̃k − x)2 = S2 (6.9)
n − 1 k=1 n−1 n

La proposition 7.4 montre le caractère non-biaisé de cette statistique. Tou-


tefois, lorsque n est grand, il est courant de négliger la différence entre n1 et
1
n−1 et de profiter de l’écriture plus simple de la variance naturelle, qui peut
s’exprimer à partir des fréquences plutôt que des effectifs.

De nombreux logiciels qui ne sont pas spécialisés en statistique – Microsoft


Excel, OpenOffice Calc, SQL, . . . – proposent des fonctions intégrées de calcul
de la variance. Certains calculent la variance naturelle, d’autre la variance
sans biais. La documentation disponible n’est pas toujours explicite sur quelle
variance est calculée. Si pour un échantillon d’un élément le logiciel donne une
variance de 0, c’est qu’il calcule la variance naturelle, s’il donne une division
par 0, c’est qu’il calcule la variance sans biais.
6.4. STATISTIQUES EXTRAITES 85

6.4.3 Variance d’un histogramme


Un histogramme définit la répartition d’une population n en K classes
disjointes 3 Ck = [xk−1 , xk [ d’effectifs respectifs nk . La formule (6.8) est vraie
lorsque tous les éléments d’une classe Ck ont pour valeur x̃k . Ce n’est pas le
cas pour un histogramme : on considère que tous les éléments d’une classe
Ck suivent une loi uniforme sur [xk−1 , xk ]. La variance obtenue sera donc la
(x −x )2
somme de la variance intra-classe de ces lois uniformes : k 12k−1 et de la
variance inter-classe induite par l’écart entre les centres de ces classes et la
moyenne de l’échantillon, qui correspond à la formule (6.8).
L’histogramme se modélise par un couple mixte (cf. section 4.1.9) (C, X),
où C est le numéro de la classe, suivant une loi p (C = k) = nnk = fk et X la
valeur d’un élément : X|C = k suit une loi uniforme sur [xk−1 , xk ]. Ainsi la
variance naturelle d’un histogramme en K classes est :
K 2 K
1X xk−1 + xk 1X (xk − xk−1 )2

Sn2 = nk −x + nk (6.10)
n k=1 2 n k=1 12
2 n 2
Comme précédemment, sa variance sans biais est Sn−1 = n−1 Sn .

6.4.4 Autres moments


Définition 6.15. Le moment d’ordre r est donné par :
K
1X
mr = nk x̃rk (6.11)
n k=1
Le moment centré d’ordre r est donné par :
K
1X
µr = nk (x̃k − x)r (6.12)
n k=1
Ainsi, la moyenne arithmétique n’est autre que m1 , et la variance naturelle
est µ2 = m2 − m21 .
Définition 6.16. La corrélation empirique de deux caractères numériques
d’une population est donnée par :
n n
!
1X 1X
Cov (X, Y ) = (xk − x)(yk − y) = x k yk − xy (6.13)
n k=1 n k=1
Si les données sont exprimées sous la forme d’un tableau statistique croisé, où
ni,j est le nombre d’individus pour lequel le caractère X vaut x̃i et le caractère
Y vaut y˜j , on a :
 
K
X X YK X X Y K K
1X 1X
Cov (X, Y ) = ni,j (x̃i −x)(ỹj −y) =  ni,j x̃i ỹj  −x y (6.14)
n i=1 j=1 n i=1 j=1

La corrélation empirique est un estimateur de la covariance de deux va-


riables aléatoires.

Il ne faut pas confondre corrélation et causalité. La corrélation entre deux


évènements peut également traduire deux conséquences d’une même cause.
3. Comme la loi considérée – uniforme – est continue à densité, les recouvrements ou
trous éventuels sur les xk sont sans conséquence.
86 CHAPITRE 6. STATISTIQUE DESCRIPTIVE

Exemple. On constate une corrélation positive entre “le ficus perd ses feuilles”
et “le chat a fait pipi dans le pot du ficus”. L’intuition est donc que le pipi
de chat tue abîme le ficus.
Après analyse du phénomène, le chat aime faire ses besoins dans de la terre
bien sèche. Le lien de causalité se fait donc à partir de l’évènement “le ficus
manque d’eau”, dont les deux évènements observés sont des conséquences.

6.4.5 Médianes et autres quantiles


Quand toutes les observations sont distinctes deux à deux, la médiane
est la valeur qui sépare l’échantillon en deux ensembles de même taille, l’un
contenant les individus dont le caractère est inférieur à la médiane, l’autre
ceux dont le caractère est supérieur à la médiane.
Les situations d’égalité ne permettent en général pas de garantir l’égalité
des deux ensembles, que la relation d’ordre soit stricte ou non : imaginez un
échantillon composé de 1, 2, 2, 2, 2, 3 et 4.
Par ailleurs, elle n’est pas forcément unique. Pour un échantillon composé
de 6, 7, 9 et 42, tout réel de l’intervalle [7, 9] convient.

Définition 6.17. Une médiane M est une valeur telle que l’ensemble des
individus qui lui sont inférieurs ou égaux soit plus grand que la moitié de la
population, et que l’ensemble des individus qui lui sont supérieurs ou égaux
soit plus grand que la moitié de la population :
(
n
|{xk 6 M | k ∈ [1 . . . n]}| > 2
n (6.15)
|{xk > M | k ∈ [1 . . . n]}| > 2

Si les individus sont classés par ordre croissant selon ce caractère, x1 6


x2 6 . . . 6 xn , on a :
• si n est impair, la médiane est x n+1 .
2

• si n est pair, tous les éléments de [x n2 , x n2 +1 ] sont des médianes. On


l’appelle alors intervalle médian ; il peut être réduit à un point.
On peut utiliser la courbe cumulative, et définir M comme solution de
F (M ) = 21 . On considèrera alors que lors d’un saut de la courbe, l’image de x
est constituée du segment vertical, afin de garantir l’intersection avec la droite
y = 12 .

Définition 6.18. Un quantile d’ordre λ est une solution de l’équation

F (x) = λ (6.16)

où F est la courbe cumulative de l’échantillon.


Un q-quantile Qk , où k ∈ {1, . . . q − 1}, est un quantile d’ordre kq .

Entre deux q-quantiles successifs, il y a une proportion de 1q de l’effectif


total.
Notamment, pour q = 2, il n’y a qu’un seul quantile, le quantile d’ordre
1
2 , qui est la médiane. Pour q = 4, les quantiles Q1 , Q2 et Q3 s’appellent les
quartiles ; Q2 est la médiane. Pour q = 10, les quantiles s’appellent les déciles,
et pour q = 100, les centiles.
6.5. RÉGRESSION LINÉAIRE 87

6.4.6 Extraire les quantiles d’un histogramme


Lorsque les données sont représentées en histogramme, on présente les
données comme équiréparties dans la classe [xk , xk+1 ]. Interpréter cette repré-
sentation graphique en terme de densité d’une variable aléatoire montre bien
que l’on suppose que les données suivent localement une loi uniforme.
Pour calculer le quantile d’ordre λ d’un histogramme, défini par N classes
[xk , xk+1 [ d’effectifs nk , pour un effectif global n = K
P
k=1 nk :
1. Calculer λn pour obtenir le rang de l’individu correspondant au quantile
d’ordre λ.
2. Calculer les ck = ki=1 ni , qui sont les effectifs cumulés des k premières
P

classes. On considère que c0 = 0.


3. Déterminer k tel que ck−1 < λn 6 ck : la classe [xk , xk+1 [ contient λn.
4. Déterminer l’emplacement de λn dans cet intervalle :
λn − ck−1
Qλ = (xk+1 − xk ) + xk (6.17)
nk

6.5 Régression linéaire


Lorsque deux caractères quantitatifs sont corrélés – i.e. Cov (X, Y ) 6= 0 –
il est raisonnable de vouloir approcher la relation qui les lie par une fonction
“simple”. La régression linéaire 4 extrait la fonction affine qui minimise l’écart
quadratique moyen entre les images d’un caractère et les valeurs de l’autre
caractère.

Définition 6.19. La droite de régression linéaire de Y par rapport à X est la


droite d’équation y = a(x − x) + b où

Cov (X, Y )
a = (6.18a)
µ2 (X)
b = y (6.18b)

Preuve :
On cherche à approcher Y par une fonction aX + b. La fonction que l’on veut
minimiser est ainsi
n
1X
(yk − a(xk − x) − b)2
n
k=1
1
Sans modifier le lieu du minimum, on peut abandonner n et définir
n
X
Q(a, b) = (yk − a(xk − x) − b)2
k=1
Xn
yk2 + a2 (xk − x)2 + b2 − 2ayk (xk − x) − 2byk + 2ab(xk − x)

=
k=1
Xn n
X n
X n
X
= yk2 + a2 (xk − x)2 + nb2 − 2a yk (xk − x) − 2bny + 2ab (xk − x)
k=1 k=1 k=1 k=1
n
X
2 2
= nm2 (Y ) + na µ2 (X) + nb − 2bny − 2a yk (xk − x)
k=1

4. qui porte donc mal son nom. . . il s’agit bien d’une régression affine.
88 CHAPITRE 6. STATISTIQUE DESCRIPTIVE

Ce problème se résoud aisément par la méthode des moindres carrés. Le minimum


de Q est atteint lorsque sa dérivée s’annule.
 
0 ∂Q ∂Q
0 = Q (a, b) = (a, b), (a, b)
∂a ∂b

 0 = ∂Q (a, b)


⇐⇒ ∂a
 ∂Q
 0 =
 (a, b)
∂b
n

 0 = 2anµ (X) − 2 X y (x − x)

2 k k
⇐⇒
 k=1
0 = 2nb − 2ny

On a donc b = y et :
n
X
anµ2 (X) = yk (xk − x)
k=1
Xn
yk (xk − x)
k=1
⇐⇒ a= n
X
(xk − x)2
k=1
n n
1
X 1X
n yk xk − x yk
n
k=1 k=1
⇐⇒ a= n
X
1
n (xk − x)2
k=1
E {XY } − E {X} E {Y }
⇐⇒ a=
E {(X − E {X})2 }
Cov (X, Y )
⇐⇒ a=
µ2 (X)

Remarque. L’image de x est bien y : le centre de gravité du nuage des données


est sur la droite de régression linéaire.
Estimation paramétrique
7
Sommaire
7.1 Statistique prédictive 89
7.2 Paramètres empiriques 90
7.3 Estimation de l’espérance 92
7.3.1 Intervalle de confiance 92
7.3.2 Petit échantillon gaussien de variance connue 92
7.3.3 Petit échantillon gaussien de variance inconnue 93
7.3.4 Grand échantillon 94
7.3.5 Proportion 95

7.1 Statistique prédictive

L a statistique descriptive ne permet pas la prévision. Extraire des statis-


tiques d’un échantillon perçu ne permet pas de connaître la loi sous-
jacente à cet échantillon.
L’objet de la statistique descriptive est de fournir de l’information sur cette
loi sous-jacente. Toutefois, une loi aléatoire ne fournit d’information presque
sûre qu’après une infinité de tirages indépendants.
Dans la pratique, nos échantillons sont finis, et parfois même de petite
taille. Nous resterons donc éloignés de la connaissance parfaite de la loi, et les
résultats proposés par la statistique descriptive seront toujours accompagnés
d’un niveau de confiance à leur accorder, grâce à l’estimation paramétrique et
les tests non-paramétriques.

L’objet de l’estimation paramétrique est de donner un intervalle de valeurs


dans lequel se trouve le (pour une loi de Bernoulli, de Poisson, exponentielle,
. . . ) ou les paramètres (pour une loi normale, uniforme, binomiale, . . . ) de la
loi sous-jacente.
Souvent, le modèle physique nous donnera le type de la loi sous-jacente
(la date de la désintégration d’un atome instable suit une loi expodentielle) et
nous utiliserons l’estimation paramétrique pour connaître l’instance de la loi
qui s’applique dans un cas concret (ici, estimer la demi-vie de l’atome).

Le passage de la loi sous-jacente à l’échantillon se fait par n tirages indé-


pendants. Le chemin inverse se fait par l’extraction d’une statistique. Pour

89
90 CHAPITRE 7. ESTIMATION PARAMÉTRIQUE

évaluer la confiance à donner à cette statistique pour en faire un estimateur


d’un paramètre de la loi sous-jacente, nous aurons souvent besoin de supposer
que la loi est gaussienne (cas des petits échantillons) ou que l’estimateur se
comporte comme une gaussienne même si la loi ne l’est pas, par le théorème
de la limite centrale (cas des grands échantillons). Nous traduirons ce dernier
cas par n > 30.

7.2 Paramètres empiriques


Les paramètres estimés à partir des observations sont qualifiés d’empiriques.
Les estimateurs les plus utilisés sont :
Moyenne empirique :
n
1X
Xn = Xk (7.1)
n k=1

Variance empirique naturelle :


n n
!
1X 1 X 2
Sn2 = (Xk − Xn )2 = Xk2 − Xn (7.2)
n k=1 n k=1

Variance empirique sans biais :


n
2 n 1 X
Sn−1 = Sn2 = (Xk − Xn )2 (7.3)
n−1 n − 1 k=1

Les autres moyennes (section 6.4.1) ne servent pas pour l’estimation. Les
autres définitions de la variance (section 6.4.2) permettent de gérer les données
présentées sous forme d’un tableau statistique.

Nous appellerons X la variable aléatoire qui suit la loi sous-jacente (et


inconnue) qui a fourni l’échantillon.

Proposition 7.1. La moyenne empirique est un estimateur cohérent et sans


biais de l’espérance E {X}.
Preuve :
La moyenne empirique est un estimateur sans biais de E {X} :
( n ) n n
 1X 1X 1X
E Xn = E Xk = E {Xk } = E {X} = E {X}
n n n
k=1 k=1 k=1

Exprimer la variance de Xn en fonction de la variance de X utilise le fait que


les Xk sont indépendants les uns des autres (cf. section 2.5) :
n n
2
X X 1 2 1 2
σX = σ 21 Pn Xk
2
= σP n Xk = σ 2Xk = 2
σX = σX
n n k=1 k=1 n n n n
k=1 k=1

2
On a bien limn→+∞ σX = 0. D’après la proposition 5.1, basée sur l’inégalité
n
de Tchebychev, la moyenne empirique est un estimateur cohérent de E {X}.
2
σX
Proposition 7.2. La loi N (E {X} , n ) est une approximation raisonnable –
en loi – de la moyenne empirique.
7.2. PARAMÈTRES EMPIRIQUES 91

Preuve :
Le théorème de la limite centrale appliqué à X dit que :
Pn
( k=1 Xn ) − nE {X}
Yn = √
σX n

converge en loi vers N (0, 1) lorsque n tend vers l’infini.


Cette variable Yn n’est autre que :

n
Yn = (Xn − E {X})
σX
Il n’y a plus qu’à appliquer cette transformation à N (0, 1) pour obtenir l’approxi-
mation de Xn :
 2 !
σX
N E {X} , √
n

Proposition 7.3. La variance empirique naturelle est un estimateur cohérent


et biaisé de la variance de X.

Preuve :
La loi des grands nombres (théorème 5.3) – Sn est une moyenne de tirages indé-
pendants selon une même loi – garantit la convergence presque sûre de Sn , donc
sa convergence en probabilité : l’estimateur est cohérent.
( n
!)
 2 1 X 2 n 2o
E Sn = E Xk − E Xn
n
k=1
n
1X  2 n 2o
= E Xk − E Xn
n
k=1
 2
Pour une variable aléatoire quelconque, E Y 2 = E {Y } + σY2 . Ainsi :
n
1 X 2
   2

E Sn2 2 2

= E {Xk } + σX − E Xn + σX
n k n
k=1
22 2 1 2 n−1 2
= E {X} + σX − E {X} − σ = σX
n X n

Toutefois nous n’avons pas E Sn2 = σX
2
: l’estimateur n’est pas sans biais.

Proposition 7.4. La variance empirique sans biais est un estimateur cohérent


et non biaisé de la variance de X.

Preuve :
n
La quantité n−1 tendant vers 1, la convergence presque sûre de la variance empirique
2
naturelle vers σX entraîne celle de la variance empirique sans biais.
Dans la démonstration précédente, nous concluions par E Sn2 = n−1
 2
n σX . Il
vient donc immédiatemment que :
 
 2 n n
Sn2 = E Sn2 = σX 2

E Sn−1 =E
n−1 n−1
92 CHAPITRE 7. ESTIMATION PARAMÉTRIQUE

7.3 Estimation de l’espérance


Dans presque tous les cas où la loi sous-jacente est déterminée par un
unique paramètre, connaître l’espérance de cette loi donne le paramètre en
question (loi de Bernouilli, de Poisson, exponentielle, de Rayleigh).
Pour la loi exponentielle bilatérale, l’espérance est toujours de 0 ; le para-
mètre découle donc donc d’une estimation de la variance. Pour la loi de Cauchy,
l’espérance n’existe pas, et ne peut donc pas être bien estimée ; le paramètre a
pourra être estimé par la médiane de l’échantillon, et le paramètre b à partir
d’autres quantiles.
Cette espérance sera estimée par la moyenne empirique, estimateur cohé-
rent et sans biais de l’espérance.

7.3.1 Intervalle de confiance


Donner la valeur d’un paramètre à partir d’un estimation ponctuelle –
effectuée sur un seul échantillon 1 – peut être source d’erreurs d’interprétation.
Il est préférable de donner le résultat de l’estimation paramétrique sous la
forme d’une fouchette de valeurs pour le paramètre estimé, appelée intervalle
de confiance.

Définition 7.1. L’intervalle de confiance au niveau α pour le paramètre θ est


un couple [a, b] tel p (θ ∈ [a, b]) = α.

Cette définition ne donne pas de façon unique l’intervalle de confiance.


On ajoute en général un critère d’optimalité : parmi tous les couples [a, b]
convenables, on en choisit un pour lequel b − a est minimal. Lorsque la loi
sous-jacente est symétrique et sa densité monotone de part et d’autre de son
axe de symétrie (cas notamment de la loi normale et de la loi de Student),
l’intervalle [a, b] obtenu garantit aussi que p (θ < a) = p (θ > b) = 1−α 2 .
Selon la situation – taille de l’échantillon et type de loi sous-jacente – les
mécanismes de calcul pour obtenir un intervalle de confiance varient.
De façon générale, plus l’échantillon est grand, et plus l’intervalle de confiance
est court pour un seuil donné. Cette longueur varie en √1n .

7.3.2 Petit échantillon gaussien de variance connue


Proposition 7.5. Si l’échantillon a été généré par une loi normale de variance
connue σ 2 et d’espérance inconnue θ, l’intervalle de confiance au niveau α pour
θ est :
σ σ
 
I = Xn − aT √ , Xn + aT √ (7.4)
n n
où :
1+α
 
aT = erf −1 (7.5)
2
Preuve :
2
La moyenne empirique Xn suit la loi N (θ, σn ). Après une transformation affine, on
obtient la variable aléatoire T qui suit la loi N (0, 1).

Xn − θ
T =
√σ
n

1. Se référer à la note de bas de page 1, page 83.


7.3. ESTIMATION DE L’ESPÉRANCE 93

On cherche un intervalle symétrique [−aT , aT ] tel que p (T ∈ [−aT , aT ]) = α :

α = p (T ∈ [−aT , aT ])
= erf(aT ) − erf(−aT )
= 2erf(aT ) − 1

D’où aT = erf −1 1+α



2 .
Il suffit de faire passer l’intervalle [−aT , aT ] par la transformation affine qui
convertit T en Xn pour obtenir l’intervalle de confiance pour θ.

En utilisant la table de la loi normale (page 122), on trouve que aT =


1.96
h pour α = 0.95. Ainsi l’intervalle
i de confiance à 95% est donné par I =
σ σ
Xn − 1.96 n , Xn + 1.96 n .
√ √

Exemple. Un instrument de mesure de température est soumis à un bruit


gaussien d’écart-type σ = 0.3o . On procède à 12 mesures de température,
et on obtient une valeur moyenne x = 12.32. On trouve erf −1 (0.995) =
2.58. On peut donc en déduire que la valeur réelle de la température a
une probabilité 0.99 de se trouver dans l’intervalle [12.10, 12.54]. ♦

7.3.3 Petit échantillon gaussien de variance inconnue


Proposition 7.6. Si l’échantillon a été généré par une loi normale de variance
inconnue σ 2 et d’espérance inconnue θ, l’intervalle de confiance au niveau α
pour θ est :
Sn Sn
 
I = Xn − at √ , Xn + at √ (7.6)
n−1 n−1
où at est tel qu’une variable suivant une loi de Student à n − 1 degrés de liberté
ait une probabilité α d’appartenir à [−at , at ].
Preuve :
La variable T suit une loi normale centrée réduite :
Xn − θ
T =
√σ
n

Toutefois il n’est pas possible d’utiliser ce modèle, car σ 2 est inconnu. Il faut donc
faire apparaître son estimateur :
n 2
nSn2

X Xk − Xn
2
=
σ σ
k=1

T
Le calcul de Xn est une projection de l’échantillon sur R (1, 1, . . . , 1) . Le
vecteur des (Xk − Xn ) est une projection dans son orthogonal. Le théorème de
nS 2
Cochran 2 permet de conclure que σ2n suit une loi du χ2 à n − 1 degrés de liberté.
Ainsi la variable t : √
n − 1T
t= q
nSn2

σ2

est le rapport entre une loi normale centrée réduite et une loi du χ2 à n − 1 degrés
de liberté. Elle suit donc une loi de Student de paramètre n − 1.
L’inverse de la fonction de répartition de cette loi – symétrique – donne at en
fonction de α (page 124). Il n’y a plus qu’à remonter les transformations affines
pour obtenir les bornes de l’intervalle à partir de [−at , at ].
94 CHAPITRE 7. ESTIMATION PARAMÉTRIQUE

Exemple. On procède à 10 mesures avec un télémètre dont on ne connaît


pas la précision, mais pour lequel on sait que le bruit subi est de nature
gaussienne. On obtient une moyenne mesurée de 12.725m et un écart-type
mesuré de v
u
u1 X 10
Sn = t (xk − 12.725)2 = 0.009m
10 k=1
On veut obtenir un intervalle de confiance à 95%, et on consulte donc la
table de Student pour 9 degrés de liberté à la colonne 0.975 : at = 2.262.
On obtient donc un intervalle de confiance pour la distance mesurée de :
Sn Sn
 
I = Xn − at √ , Xn + at √
n−1 n−1
0.009 0.009
 
≈ 12.725 − 2.262 √ , 12.725 + 2.262 √
9 9
≈ [12.718, 12.732]

On pourra résumer cet intervalle par 12.725m ± 7mm. ♦


La limite de la loi de Student lorsque n tend vers l’infini est N (0, 1). On
pourra donc utiliser le cas général des grands échantillons pour les grands
échantillons gaussiens à variance inconnue, et donc profiter de la simplicité de
la loi normale plutôt que de passer par la loi de Student.

7.3.4 Grand échantillon


Proposition 7.7. Si l’échantillon est de grande taille et a été généré par une
loi de variance inconnue σ 2 et d’espérance inconnue θ, l’intervalle de confiance
au niveau α pour θ est :
" p p #
S2 S2
I = Xn − aT √ n , Xn + aT √ n (7.7)
n n
où :
1+α
 
−1
aT = erf (7.8)
2
Preuve :
Le théorème de la limite centrale nous dit que

Xn − θ
T =
√σ
n

tend – en loi – vers N (0, 1).


Sn
Ainsi, pour n grand – on considèrera que 30 est suffisamment grand – N (θ, √ n
)
est une bonne approximation de la loi de Xn .
On se ramène ainsi au cas de l’échantillon gaussien à variance connue : le
caractère gaussien provient du théorème de la limite centrale, et la variance est
connue par la loi des grands nombres (elle est en fait suffisamment bien estimée).

Exemple. Dans un jeu de rôle célèbre 3 une épée fait 1d8 points de dom-
mages. Une épée magique fait 1d8 + M points de dommages, où M est
2. Non démontré dans ce document.
3. Runequest, bien sûr, mais de nombreuses versions de Donjons et Dragons suivent le
même modèle.
7.3. ESTIMATION DE L’ESPÉRANCE 95

un entier. Les dégâts de l’épée magique suivent donc une loi équiprobable
sur {M +1, M +2, . . . , M +8}. Son espérance est M + 4.5 et sa variance est
63
12 = 5.25, soit un écart-type de 2.3.
Après avoir observé le porteur de l’épée se battre pendant un quart
d’heure et donner 163 coups d’épée – on notera bien que 163 > 30 :
c’est un grand échantillon, et chaque coup suit une loi équiprobable : ce
n’est pas une loi normale – on constate que la moyenne des coups donnés
est Xn = 9.39, et leur écart-type mesuré est Sn = 2.33. On en déduit que
l’espérance des dommages de l’épée a 95% de chances de se trouver dans
l’intervalle
Sn Sn
 
I = Xn − aT √ , Xn + aT √ = [9.03, 9.75]
n n

Ainsi M a 95% de chances de se trouver dans l’intervalle [4.53, 5.25], qui


ne contient qu’un entier. Ainsi, au vu de l’échantillon, il y a au moins 95%
de chances que le guerrier observé utilise une épée +5.
Dans cet exemple, la variance n’est pas inconnue (on sait qu’il s’agit de
82 −1 2
12 ) : on peut très bien utiliser cette valeur connue à la place de Sn et
obtenir l’intervalle [4.537, 5.243] au lieu de [4.532, 5.248] : la différence est
négligeable devant les erreurs déjà acceptées pour l’utilisation du théorème
de la limite centrale.
L’intervalle de confiance a une longueur de 2aT √σn : pour n > 4a2T σ 2 ,
soit n au moins égal à 81, on a une intervalle de longueur inférieure à 1,
et qui donc ne contient au maximum qu’un entier. C’est la valeur de M
recherchée, à un seuil α. ♦

7.3.5 Proportion
La caractère mesuré sur l’échantillon n’a que deux modes (vrai/faux, oui/non,
0/1, . . . ). Il est donc issu d’une loi de Bernoulli sous-jacente, dont le paramètre
est p, qui est aussi son espérance.

Proposition 7.8. Si l’échantillon est de grande taille et a été généré par une
loi de Bernoulli de paramètre inconnu p, l’intervalle de confiance au niveau α
pour θ est :  s s 
p(1 − p) p(1 − p)
I = p − aT , p + aT  (7.9)
n n

où :
1+α
 
aT = erf −1 (7.10)
2
et p est la proportion d’observations vrai dans l’échantillon.

Preuve :
La loi sous-jacente est de Bernouilli ; sa variance est donc p(1 − p). La variance de
Xn est donc de p(1−p)n .
L’échantillon est de grande taille ; le théorème de la limite centrale nous permet
d’approcher Xn une loi normale, d’espérance p et de variance p(1−p) n . La loi des
grands nombres – comme pour le cas des grands échantillons – permet d’utiliser
p(1−p)
n comme approximation de p(1−p) n .
On obtient donc l’intervalle de confiance en interrogeant la fonction erf.
96 CHAPITRE 7. ESTIMATION PARAMÉTRIQUE

Remarque. L’approximation n’est valable que pour les grands échantillons :


n > 30. De plus, il faut que la distribution ne soit pas trop déséquilibrée ; il
convient que np > 5 et n(1 − p) > 5.
Si on a n > 30 et np < 5, il est préférable d’approcher la loi binomiale de
la somme des échantillons par une loi de Poisson de paramètre np plutôt que
par une loi normale.
Exemple. On interroge 1200 personnes sur leur futur vote à la prochaine
élection. 725 disent vouloir voter pour Zaphod Beeblebrox, les 475 restant
pour Marvin, soit une proportion mesurée de p = 0.604. En extrapolant
ces résultats à l’ensemble de la population galactique, on en déduit que le
score de Zaphod lors de la véritable élection – ce qui mesure la proportion
réelle – a 95% de chances d’appartenir à l’intervalle [57.6%, 63.2%]. ♦
Tests statistiques
8
Sommaire
8.1 Tests paramétriques 98
8.1.1 Types de tests 98
8.1.2 Test d’un échantillon 98
8.1.3 Comparaison de deux espérances 99
8.1.4 Comparaison de plusieurs espérances 102
8.2 Tests non paramétriques 104
8.2.1 Loi multinomiale et loi du χ2 104
8.2.2 Test d’ajustement du χ2 105
8.2.3 Test d’homogénéité du χ2 108
8.2.4 Test d’indépendance du χ2 108
8.2.5 Test de Kolmogorov-Smirnov 109
8.3 Statistiques prédictives résumées 110
8.3.1 Analyse de la moyenne 110
8.3.2 Tests non paramétriques 111

L ’objet d’un test statistique est de poser une question à un échantillon.


L’échantillon étant un tirage aléatoire, il n’est pas possible d’obtenir
simplement une réponse “oui” ou “non”, mais juste “À un seuil α,
l’hypothèse proposée est acceptable” ou “À un seuil α, l’hypothèse proposée est
rejetée”.
L’hypothèse formulée dans la question est généralement notée H0 . Le test
est construit de telle manière que si H0 est vraie, il y a une probabilité de α
pour que le test soit positif. Il y a donc un risque de 1 − α de rejeter H0 alors
qu’elle est vraie.
Il n’y a pas de définition de “H0 fausse” ; on ne teste pas la véracité de H0
– définie – contre la véracité d’une hypothèse H1 alternative, mais non définie.
Un test négatif est bien le rejet de l’hypothèse proposée, mais nullement la
proposition d’une alternative de meilleure qualité.
Le seuil α doit être fixé lors de la mise en œuvre du test, selon les consé-
quences qu’il y a à accepter H0 alors qu’elle est fausse (il faut diminuer α)
ou les conséquences qu’il y a à rejeter H0 alors qu’elle est vraie (il faut alors
augmenter α).
Il est courant de fixer ce seuil à 0.95. On a alors 5% de risque de faux
négatif : rejeter H0 alors qu’elle est vraie.

97
98 CHAPITRE 8. TESTS STATISTIQUES

8.1 Tests paramétriques


Les tests paramétriques sont des tests statistiques qui font une hypothèse
sur le paramètre ou l’un des paramètres de la loi sous-jacente. Il s’agit d’une
hypothèse paramétrique.

8.1.1 Types de tests


Définition 8.1. Un test de signification vise à tester si une hypothèse sur la
valeur du paramètre est acceptable.

Exemple. La plaquette de publicité de l’ENSTA Bretagne affirme qu’il pleut


en moyenne 20mm par jour. Lors des deux premiers mois 1 , il a plu en
moyenne 27mm par jour. Le test de signification répond à la question
“peut-on accepter l’hypothèse que la plaquette ait dit la vérité ?” ♦

Définition 8.2. Un test de conformité vise à tester si un échantillon généré


par une loi connue est représentatif de cette loi.

Exemple. Un pièce de monnaie est équilibrée ; c’est une loi de Bernoulli de


paramètre 21 . On effectue 42 lancers, et on obtient 19 pile et 23 face. Peut-
on conserver cet échantillon comme représentatif de la loi pour tester
le comportement d’un dispositif de lecture automatique 2 de pièces de
monnaie ? ♦

Définition 8.3. La région de rejet au seuil α est un domaine dans lequel le


test statistique a une probabilité 1 − α de prendre ses valeurs si l’hypothèse
H0 est vérifiée.

On essayera le plus souvent de choisir la région de rejet de manière à la


rendre la plus grande possible. C’est en général le complémentaire de l’inter-
valle de confiance au même seuil α.
Les techniques de calcul de la région de rejet sont donc semblables aux
techniques de calcul des intervalles de confiance de l’estimation paramétrique
(section 7.3).

8.1.2 Test d’un échantillon


L’hypothèse H0 est “E {X} = θ”, où X est la variable aléatoire sous-jacente
à l’échantillon, et θ une valeur réelle quelconque.
Le calcul de l’intervalle de confiance pour E {X} donne un intervalle de
type [Xn − A(n, α), Xn + A(n, α)] pour θ au seuil α. On rejette donc H0 pour
un test de signification si |Xn − θ| > A(n, α).
De la même manière, si X suit une loi d’espérance θ, il existe un réel
B(n, α) tel que la moyenne de n tirages selon X ait une probabilité α de se
trouver dans [θ − B(n, α), θ − B(n, α)]. On rejette donc H0 pour un test de
conformité si |Xn − θ| > B(n, α).
Le plus souvent, ces réels A(n, α) et B(n, α) sont identiques.

1. On supposera la météo du jour n indépendante de la météo du jour n − 1.


2. Un système d’apprentissage automatique nourri avec des données non-aléatoires risque
d’apprendre l’ordre des données d’apprentissage plutôt que leur contenu si les données sont
mal choisies ou construites. . .
8.1. TESTS PARAMÉTRIQUES 99

Dans ce qui suit σ 2 est la variance de la loi si elle est connue, et Sn2 la
variance empirique naturelle mesurée sur l’échantillon si la variance de la loi
sous-jacente est inconnue.
Petit échantillon gaussien de variance connue : rejet de H0 si
σ
|Xn − θ| > aT √ (8.1)
n
 
où aT = erf −1 1+α
2
Petit échantillon gaussien de variance inconnue : rejet de H0 si
Sn
|Xn − θ| > at √ (8.2)
n−1
où at est tel qu’une variable suivant une loi de Student à n − 1 degrés
de liberté ait une probabilité α d’appartenir à [−at , at ].
Grand échantillon : rejet de H0 si
Sn
|Xn − θ| > aT √ (8.3)
n
 
où aT = erf −1 1+α
2
Proportion : rejet de H0 – représentée par E {X} = p0 – si
s
p0 (1 − p0 )
|p − p0 | > aT (8.4)
n
 
où aT = erf −1 1+α
2 . Sous les conditions d’application du test de pro-
portion, p est une bonne approximation de p0 , et on peut aussi utiliser
le test s
p(1 − p)
|p − p0 | > aT (8.5)
n

8.1.3 Comparaison de deux espérances


Dans la pratique, on se trouve souvent confronté à de multiples échan-
tillons, et on cherche à savoir s’ils peuvent être considérés comme semblables.
Pour cela, on testera si les valeurs de certains de leurs paramètres sont com-
patibles, et cette hypothèse sera rejetée si ces valeurs sont trop éloignées.

Échantillons gaussiens de variances connues


Proposition 8.1. Soit un échantillon X1 de taille n1 et de variance connue
σ12 et un échantillon X2 de taille n2 et de variance connue σ22 . L’hypothèse
que X1 et X2 ont été engendrés par des lois de même espérance est rejetée au
seuil α si : s
σ12 σ22
|X1 − X2 | > aT + (8.6a)
n1 n2
où :
1+α
 
−1
aT = erf (8.6b)
2
100 CHAPITRE 8. TESTS STATISTIQUES

Preuve :
On teste l’hypothèse H0 selon laquelle les espérances des lois sous-jacentes à X1
et X2 sont égales : on a donc E {X1 } = E {X2 } = θ.
On peut réduire les estimateurs X1 et X2 en deux variables aléatoires normales
centrées, réduites et indépendantes T1 et T2 :

X1 − E {X1 } X2 − E {X2 }
T1 = T2 =
√σ1 √σ2
n1 n2

Ainsi, la différence entre les estimateurs est :

∆X = X1 − X2
σ1 T1 σ2 T2
= E {X1 } − E {X2 } + √ − √
n1 n2

Sous l’hypothèse H0 , on a donc :


σ1 T1 σ2 T2
∆X = √ − √
n1 n2

Comme T1 et T2 sont normales et indépendantes, leur combinaison linéaire est


σ12 σ22
 
normale (proposition 4.4) et ∆X suit la loi N 0, n1 + n2 . Ainsi

X1 − X2
T =q 2
σ1 σ12
n1 + n1

suit une loi normale centrée réduite.


On rejette donc H0 si |T | > aT , c’est à dire si
s
σ12 σ2
X1 − X2 > aT + 2
n1 n2

Échantillons gaussiens de variance inconnue


Proposition 8.2. Soit un échantillon X1 de taille n1 et de variance incon-
nue σ 2 et un échantillon X2 de taille n2 et de même 3 variance inconnue σ 2 .
L’hypothèse que X1 et X2 ont été engendrés par des lois de même espérance
est rejetée au seuil α si :
s s
1 1 n1 S12 + n2 S22
|X1 − X2 | > at + (8.7a)
n1 n2 n1 + n2 − 2
où at est tel qu’une variable suivant une loi de Student à n1 + n2 − 2 degrés
de liberté ait une probabilité α d’appartenir à [−at , at ].
Preuve :
Par transformation affine, T suit une loi normale centrée réduite :

X1 − X2 (X1 − X2 ) n1 n2
T = q = √
σ n11 + n12 σ n1 + n2

De même manière qu’en section 7.3.3, le théorème de Cochran nous permet de


n S2
dire que σ1 2 1 suit une loi du χ2 à n1 − 1 degrés de liberté.
3. Cette hypothèse d’égalité des variances est l’hypothèse d’homoscédacité.
8.1. TESTS PARAMÉTRIQUES 101

n S2 n2 S22
S12 et S22 étant indépendants, σ1 2 1 + σ2 suit une loi du χ2 à n1 + n2 − 2
degrés de liberté, et est indépendant de T .
Ainsi, la variable t définie par
r s
T n1 n2 n1 + n2 − 2
t= p = (X1 − X2 )
χ2n
1 +n2 −2
n1 + n2 n1 S12 + n2 S22

n1 +n2 −1

suit une loi de Student à n1 + n2 − 2 degrés de liberté.


Il ne reste plus qu’à extraire at en inversant la fonction de répartition de la loi
de Student, et revenir à X1 − X2 en inversant la construction de t. On rejette donc
H0 si : s
r
1 1 n1 S12 + n2 S22
|X1 − X2 | > at +
n1 n2 n1 + n2 − 2

Grands échantillons
Proposition 8.3. Soit un échantillon X1 de taille n1 > 30 et de variance
inconnue et un échantillon X2 de taille n2 > 30 et de variance inconnue.
L’hypothèse que X1 et X2 ont été engendrés par des lois de même espérance
est rejetée au seuil α si :
s
S12 S22
|X1 − X2 | > aT + (8.8a)
n1 n2

où :
1+α
 
−1
aT = erf (8.8b)
2
Preuve :
Pour des grands échantillons on considère que l’approximation faite par le théorème
de la limite centrale est de suffisamment bonne qualité, et donc que X1 et X2 suivent
les lois N (E {X} , S12 ) et N (E {X} , S22 ) sous l’hypothèse H0 , ce qui permet de se
ramener au cas des échantillons gaussiens de variance connue.

Comparaison de deux proportions


Proposition 8.4. Soit un échantillon X1 de taille n1 > 30 et de variance
inconnue et un échantillon X2 de taille n2 > 30 et de variance inconnue.
L’hypothèse que X1 et X2 ont été engendrés par des lois de Bernoulli de même
paramètre est rejetée au seuil α si :
s
q 1 1
|X1 − X2 | > aT p(1 − p) + (8.9a)
n1 n2

où :
1+α
 
aT = erf −1 (8.9b)
2
n1 p1 + n2 p2
p = (8.9c)
n1 + n2
102 CHAPITRE 8. TESTS STATISTIQUES

Preuve :
On utilise la fréquence moyenne p = n1np11 +n
+n2
2 p2
pour estimer la variance de la loi
de Bernoulli sous-jacente : p(1 − p).
On se ramène alors au cas des grands échantillons, p(1−p) estimant la variance
commune des deux échantillons.

8.1.4 Comparaison de plusieurs espérances


Lorsque l’on a plus de deux échantillons à comparer, il convient de ne pas
les comparer deux à deux, mais de les considérer dans leur globalité. En effet,
plus on extraira d’échantillons d’une même population, et plus on a de risques
que deux d’entre eux soient considérés comme différents : H0 étant vrai, il y
a une probabilité de 1 − α pour que le test de comparaison des espérances
rejette H0 . Si on prend N échantillons, soit N (N2−1) paires d’échantillons, le
risque d’avoir au moins un couple pour lequel H0 est rejetée sera de l’ordre 4
N (N −1)
de 1 − α 2 , qui tend vite vers 1 quand N grandit.
Pour comparer les espérances liées à de multiples échantillons, il convient
de comparer la variance induite par les écarts entre les centres des différents
échantillons avec la variance globales de l’union des échantillons à l’aide d’un
test de Fisher.

Il est courant que l’on utilise ce test pour mesurer l’influence d’un carac-
tère qualitatif – appelé facteur sur un caractère quantitatif. On crée alors un
échantillon pour chaque modalité du facteur – et on baptise classe associée à
cette modalité du facteur cet échantillon.
On note N le nombre de modalités du facteur, et X1 , . . . , XN les classes
obtenues, d’effectifs respectifs n1 , . . . , nN . On a donc un ensemble de données :
x1,1 , x2,1 , . . . , xn1 ,1
x1,2 , x2,2 , . . . , xn2 ,2
..
.
x1,N , x2,N , . . . , xnN ,N
Leurs valeurs moyennes sont notées x·,1 , . . . , x·,K , où
ni
1 X
x·,i = xk,i (8.10)
ni k=1

La notation “·” au niveau de l’indice signifie “faire la moyenne selon cet indice”.
La moyenne globale de l’effectif est ainsi :
N X n
i
1X
x·,· = xk,i (8.11)
n i=1 k=1

L’effectif global est n = N


P
k=1 nk .
L’hypothèse H0 est que le facteur n’influe pas sur le caractère quantita-
tif, et donc que E {X1 } = . . . = E {XN } = E {X}. Ainsi les écarts entre les
4. Ce calcul serait exact si les couples étaient indépendants, ce qui n’est pas le cas. Les
distances entre échantillons sont . . . des distances :

|X1 − X3 | 6 |X1 − X2 | + |X2 − X3 |


8.1. TESTS PARAMÉTRIQUES 103

moyennes des classes ne sont dûs qu’à la dispersion de la loi de X et, étant
moyennés sur de nombreux tirages, sont petits devant la dispersion interne
aux classes. Une “trop grande” valeur de la dispersion inter-classes conduira
donc à rejeter H0 .

Pour tester cette hypothèse :


1. Calculer les moyennes de chaque classe : x·,1 , . . . , x·,N .
2. Calculer la moyenne globale : x·,· .
3. Calculer la dispersion interne de chaque classe i (i ∈ [1 . . . N ]) :
ni
1 X
Si2 = (xk,i − x·,i )2 (8.12)
ni k=1

4. Calculer la dispersion interne totale 5 SR


2 :

N
X
2
SR = nk Sk2 (8.13)
k=1

5. Calculer la dispersion inter-classes, dûe aux écarts entre les moyennes


des classes et la moyenne de toutes les sonnées :
N
X
SF2 = nk (x·,k − x·,· )2 (8.14)
k=1

Proposition 8.5. Si H0 est vraie,


2
SF
N −1
F = 2
SR
(8.15)
n−N
suit une loi de Fisher de paramètres N − 1 et n − N .
Preuve :
2
Sous
Pj l’hypothèse 2 H0 , X suit une 2 loi d’espérance µ et de variance σ . Ainsi
1
σ k=1 (Xj − µ) suit une loi du χ à j degrés de liberté.
Dans la pratique, on ne dispose pas de µ, mais on calcule Si2 , la dispersion
interne à la classe i, en utilisant sa valeur moyenne :
ni
1 X 2
Si2 = (xk,i − x·,i )
ni
k=1

D’après le théorème de Cochran, on perd alors un degré de liberté : σ1 Si2 suit une
loi du χ2 à ni − 1 degrés de liberté. En passant à la dispersion interne totale, on
trouve donc que σ1 SR
2
suit une loi du χ2 à n − N degrés de liberté.

Sous l’hypothèse H0 , la moyenne de moyenne de la classe i, x·,i suit une loi


2
normale N (µ, σni ). Ainsi σ1 nk (x·,k − µ)2 suit une loi du χ2 à un degré de liberté,
et, par le même raisonnement que précédemment, σ1 SF2 suit une loi du χ2 à N − 1
degrés de liberté.
Les dispersions internes et inter-classes sont indépendantes, et on obtient que
2 2
SF SF
σ(N −1) N −1
F = 2
SR
= 2
SR
σ(n−N ) n−N

suit une loi de Fisher de paramètres n − N et N − 1.


5. On obtient le même résultat en faisant disparaître n1i de (8.12) et nk de (8.13), mais
pour mieux faire le lien avec (8.14) il est préférable de les garder.
104 CHAPITRE 8. TESTS STATISTIQUES

Pour un seuil α = 0.95, il suffit donc de consulter la table de la fonction de


répartition de la loi de Fisher pour les paramètres n − N et N − 1, page 125.
Pour les autres valeurs de α, il convient d’utiliser un logiciel pour les calculer
(fonction finv sous Matlab ou Octave, ftest sous Scilab).

8.2 Tests non paramétriques


Un test statistique sera qualifé de non paramétrique si l’hypothèse qu’il
teste ne porte pas sur un paramètre de la loi sous-jacente à l’échantillon, mais
sur la loi elle-même.

8.2.1 Loi multinomiale et loi du χ2


La loi multinomiale (section 3.2.4) permet de modéliser la répartition des
différentes valeurs que peut prendre une loi discrète sur un espace de réalisation
fini.
On note m la cardinalité de l’espace des réalisations, et pk , pour k ∈
[1 . . . m] la probabilité de chacun de ces évènements élémentaires. Un tirage
selon la loi multinomiale M (p1 , . . . , pm , n) est noté (N1 , . . . , Nm ) où le nombre
de tirages n = m
P
k=1 Nk .
Proposition 8.6. Soit X le vecteur aléatoire composé des :
Nk − npk
Xk = √ (8.16)
npk
où les Nk forment un variable aléatoire suivant une loi multinomiale de para-
mètres (p1 , . . . , pm , n). La statistique m 2
P
k=1 Xk converge en loi vers une loi du
2
χ à m − 1 degrés de liberté lorsque n tend vers l’infini.
Preuve :
La loi de M est : Qm nk
n! p
pM (n1 , . . . , nm ) = Qmk=1 k
k=1 nk !
1 √
Pour n grand, on peut appliquer la formule de Stirling (n! ≈ nn+ 2 e−n 2π) :
1 √ m
nn+ 2 e−n 2π Y
p (N1 = n1 , . . . , Nm = nm ) ≈ Q nk + 21 −n √
pnk k
m
k=1 nk e 2π k=1
k

n+ 21 m
1 n Y
≈ √ m−1 Qm 1
nk + 2
pnk k
2π k=1 k n k=1
m  n + 1
1 1−m Y npk k 2
≈ √ m−1 n 2

2π nk
k=1
m  n + 1
Y npk k 2
≈ A(n, m)
nk
k=1

Les valeurs de n et m étant fixées, A(n, m) est une constante.


k −npk
On pose Xk = N√ . Pour n grand, la loi de Xk tend donc vers N (0, 1).
√ npk
On a Nk = Xk npk + npk . Ainsi :
m
!Xk √npk +npk + 12
Y 1
p (N1 = n1 , . . . , Nm = nm ) ≈ A(n, m)
√Xk + 1
k=1 npk
m  −Xk √npk −npk − 12
Y Xk
≈ A(n, m) 1+ √
npk
k=1
8.2. TESTS NON PARAMÉTRIQUES 105

On passe au logarithme, et on profite du fait que lim √Xnpk k = 0 pour faire


un développement limité de p (N1 = n1 , . . . , Nm = nm ) au second ordre. On note
B = log A(n, m) on trouve :

log p (N1 = n1 , . . . , Nm = nm )
m  
X √ 1 Xk
≈ B− Xk npk + npk + √
2 npk
k=1
m    2
X1 √ 1 Xk
+ Xk npk + npk + √
2 2 npk
k=1
m m m m
X X √ X Xk 1X 2
≈ B− Xk2 − Xk npk − √ + Xk
2 npk 2
k=1 k=1 k=1 k=1
m m m
1 X X √ X Xk
≈ B− Xk2 − Xk npk − √
2 2 npk
k=1 k=1 k=1

Quand n tend vers l’infini, 2√Xnp


k
tend vers 0.
√ k
On a Xk npk = Nk − npk , donc :
m m m m
X √ X X X
Xk npk = Nk − npk = Nk − n pk = n − n = 0
k=1 k=1 k=1 k=1

Ainsi :
m
1X 2
log p (N1 = n1 , . . . , Nm = nm ) ≈ B − Xk
2
k=1

Et la loi limite de la loi multinomiale est :


m
Y 1 2
p (N1 = n1 , . . . , Nm = nm ) ≈ A(n, m) e − 2 Xk
k=1

qui
Pmest une loi normale centrée réduite de dimension m. Comme l’équation affine
k=1 Xk = 0 est toujours vérifiée, on projette le vecteur aléatoire P
(X1 , . . . , Xm )
m
dans un espace de dimension 1, et, d’après le théorème de Cochran, k=1 Xk2 suit
une loi du χ2 à m − 1 degrés de liberté.

Si la loi sous-jacente à un échantillon est une loi discrète – celle-ci pouvant


être issue de la discrétisation par regroupement en classes d’une loi continue
(Nk −npk )2
– la variable aléatoire χ2O = m suit une loi du χ2 à m − 1 degrés
P
k=1 npk
de liberté.
Dans la pratique, on impose – afin de valider le passage par le théorème
de la limite centrale – que l’effectif théorique npk soit supérieur à 5 pout tout
k. Si ce n’est pas le cas, on fusionne des classes trop petites pour former une
classe de taille suffisante.
Il ne reste donc plus qu’à comparer cette valeur observée aux valeurs at-
tendues pour une loi du χ2 à m − 1 degrés de liberté pour accepter ou refuser
les hypothèses concernant la loi sous-jacente.

8.2.2 Test d’ajustement du χ2


Pour le test d’ajustement, on considère l’hypothèse H0 : “La loi sous-jacente
à l’échantillon est la loi L0 ”
Proposition 8.7. Soit (X1 , . . . , Xn ) un échantillon, Y un évènement aléa-
toire, P = (C1 , . . . , Cm ) un partitionnement de l’espace des réalisations de Y
106 CHAPITRE 8. TESTS STATISTIQUES

et pour k ∈ [1, . . . , m], npY (Ck ) > 5. Soit K le nombre de paramètres extraits
de l’échantillon servant à déterminer la loi de Y . Si l’hypothèse H0 “l’échan-
tillon (X1 , . . . , Xn ) a été engendré par l’évènement aléatoire Y ” est vraie, le
χ2O mesuré sur l’échantillon suit une loi du χ2 à m − K − 1 degrés de liberté.
m
X (Nk − npY (Ck ))2
χ2O = (8.17)
k=1
npY (Ck )
où Nk est le nombre d’observations de la classe Ck .
Preuve :
Le résultat pour K = 0 n’est autre que la proposition 8.6. Les m variables aléatoires
issues de la répartition des échantillons entre les m classes du partitionnement
mènent
Pm à une loi du χ2 à m − 1 degrés de liberté plutôt qu’à m car la contrainte
2
k=1 Nk = n est une opération de projection des m variables aléatoires du χ1 sur
un espace de dimension 1 : on perd un degré de liberté.
Extraire un paramètre par une application linéaire – c’est le cas pour le calcul
de la moyenne qui estime l’espérance – augmente d’autant la taille du sous-espace
dans lequel on se projette.
On admettra 6 que si on ajoute une contrainte non-linéaire, comme l’estimation
de la variance ou de la médiane, l’effet sur le nombre de degrés de liberté de loi du
χ2 obtenue est le même.

Il ne reste plus qu’à se donner un seuil α ∈ [0, 1], et comparer la fonction


de répartition du χ2 à m − K − 1 degrés de liberté à ce seuil. La table de
la page 123 fournit les antécédents pour une dizaine de valeurs de α et pour
m − K − 1 6 30. Elle donne aussi quelques valeurs pour 30 < m − K − 1 6 100,
mais on peut également approcher χ2m−K−1 par N (m − K − 1, 2(m − K − 1))
pour les valeurs de m − K − 1 dépassant 30, et se ramener à la table de la loi
normale.

On utilisera naturellement les valeurs de α supérieures à 0.9 pour rejetter


les échantillons trop éloignés de la loi théorique.
Les valeurs de α proches de 0 (donc les trois premières valeurs de la table)
peuvent alerter sur une répartition de l’échantillon trop proche des effectifs
théoriques, ce qui peut laisser indiquer que l’échantillon n’a pas réellement été
engendré de façon aléatoire, mais forgé pour ressembler au résultat attendu.
Exemple. La théorie affirme que la durée de vie d’un disque dur suit une
loi exponentielle. Après avoir attendu la mort de 150 disques à l’ENSTA
Bretagne 7 , on dispose de 150 observations :
(1.15174, 4.88334, 2.59585, 1.66259, . . . , 0.58223, 4.19614, 0.22704)
Le calcul de la moyenne de l’échantillon donne 1.8036 année. C’est l’es-
timation de l’espérance de la loi exponentielle sous-jacente, et donc son
paramètre. L’hypothèse H0 est ainsi : “l’échantillon a été engendré par
une loi exponentielle de paramètre 1.8036”, E1.8036 . On a :
x
(
1 − 1.8036
fE1.8036(x) = 1.8036 e si x > 0
(8.18)
0 sinon
x
(
1 − e− 1.8036 si x > 0
FE1.8036(x) = (8.19)
0 sinon
7. En réalité, on a simplement fait 150 tirages pseudo-aléatoires selon la loi E2 , cf. section
3.4.
8.2. TESTS NON PARAMÉTRIQUES 107

On découpe R+ en 4 classes : C1 = [0, 1[, C2 = [1, 2[, C3 = [2, 3[, et


C4 = [3, +∞[. On a donc :

p1 = p (E1.8036 ∈ C1 ) = FE1.8036(1) = 0.42561


p2 = p (E1.8036 ∈ C2 ) = FE1.8036(2) − FE1.8036(1) = 0.24447
p3 = p (E1.8036 ∈ C3 ) = FE1.8036(3) − FE1.8036(2) = 0.14042
p4 = p (E1.8036 ∈ C4 ) = 1 − FE1.8036(3) = 0.18950

Les effectifs théoriques sont donc :

np1 = 63.841
np2 = 36.670
np3 = 21.063
np4 = 28.426

Ils sont donc tous supérieurs à 5. On peut donc appliquer le test du χ2 .


On compte les effectifs de chaque classe dans l’échantillon. On trouve :
n1 = 65, n2 = 30, n3 = 30, n4 = 25.

4
X (nk − npk )2
χ2O = (8.20)
k=1
npk
(65 − 63.841)2 (30 − 36.67)2 (30 − 21.063)2 (25 − 28.426)2
= + + +
63.841 36.67 21.063 28.426
= 0.021023 + 1.213197 + 3.792126 + 0.412856
= 5.4392

Il y a quatre classes, et un seul paramètre extrait. On s’attend donc à ce


que la χ02 suive une loi du χ2 à 4 − 1 − 1 = 2 degrés de liberté si H0 est
vérifiée.
Pour un seuil α de 0.99 (soit un risque de 1% de rejeter H0 si H0 est
vérifiée), on trouve par la table de la page 123 un χ2 maximal de 9.21, et
on ne rejette donc pas H0 . Pour un seuil α de 0.95 (soit un risque de 5%
de rejeter H0 si H0 est vérifiée), on trouve un χ2 maximal de 5.99, et on
ne rejette donc pas H0 .
Pour un seuil α de 0.9 (soit un risque de 10% de rejeter H0 si H0 est
vérifiée), on trouve un χ2 maximal de 5.41, et on rejette donc H0 . Dans
ce cas, on se trompe effectivement : H0 est vraie.

Le fournisseur de disques durs apporte une précision supplémentaire : la


durée de vie de disques, selon lui, est 2. On calcule les probabilités de
chaque classe selon cette nouvelle hypothèse H00 :

p1 = p (E2 ∈ C1 ) = FE2(1) = 0.39347


p2 = p (E2 ∈ C2 ) = FE2(2) − FE2(1) = 0.23865
p3 = p (E2 ∈ C3 ) = FE2(3) − FE2(2) = 0.14475
p4 = p (E2 ∈ C4 ) = 1 − FE2(3) = 0.22313
108 CHAPITRE 8. TESTS STATISTIQUES

Les effectifs théoriques sont donc :

np1 = 59.020
np2 = 35.798
np3 = 21.712
np4 = 33.470

Il n’y a pas de paramètre extrait (le paramètre 2 est fourni par le construc-
teur, pas par l’échantillon). On s’attend donc à ce que χ2O suive une loi du
χ2 à 4−1−0 = 3 degrés de liberté. On trouve par (8.20) que χ2O = 6.8512.
Pour α = 0.95, le χ2 maximal est de 7.81 : on accepte donc H00 à ce seuil 8 .

8.2.3 Test d’homogénéité du χ2


On pratiquera un test d’homogénéité lorsqu’on dispose de plusieurs échan-
tillons, et que l’on veut savoir s’il est crédible qu’ils aient été engendrés par la
même loi.
Proposition 8.8. Soient K échantillons Y1 , . . . , YK échantillons de tailles
respectives n1 , . . . , nK , et m classes C1 , . . . , Cm formant un partitionnement
des valeurs prises par les observations. Si l’hypothèse H0 “les échantillons
{Y1 , . . . , YK } ont été engendrés par un même évènement aléatoire” est vraie,
le χ2O mesuré sur l’échantillon suit une loi du χ2 à (m − 1)(K − 1) degrés de
liberté.
K K X m
X X (nkj − nk pj )2
χ2O = χ2k = (8.21)
k=1 k=1 j=1
nk pj
où nkj est le nombre d’observations de l’échantillon Yk dans la classe Cj , et
pj est la proportion des observations dans la classe Cj :
PK K
nkj 1X
pj = Pk=1
K
= nkj (8.22)
k=1 nk n k=1
Preuve :
Sous l’hypothèse H0 chaque échantillon Yk suit une loi multinomiale de paramètres
(p1 , . . . , pm ) et nk . En vertu des propositions 8.6 et 8.7, elle suit donc une loi du
χ2 à m − 1 − λk degrés de liberté où λk est le nombre de paramètres extraits.
Toujours sous H0 , les échantillons sont supposés indépendants. La somme PK de
K lois du χ2 à m−1−λk degrés de liberté est une loi du χ2 à K(m−1)− k=1 λk
degrés de liberté.
Au total, m paramètres sont utilisés, Pm−1p1 , . . . , pm . Toutefois, seuls m − 1 sont
extraits des échantillons, pm = 1 − k=1 pk se déduisant des autres paramètres
PK
extraits. On a donc k=1 λk = m − 1, et χ2O suit une loi du χ2 à (K − 1)(m − 1)
degrés de liberté sous l’hypothèse H0 .

8.2.4 Test d’indépendance du χ2


On pratiquera un test d’indépendance entre deux caractères X et Y d’un
même échantillon en comparant les résultats de l’estimation de la probabilité
conjointe – p (Xi ∩ Yj ) – avec la probabilité conjointe sous hypothèse d’indé-
pendance – p (Xi ) p (Yj ).
8. Et on a bien raison : c’est cette loi qui a fourni l’échantillon !
8.2. TESTS NON PARAMÉTRIQUES 109

Proposition 8.9. Soit un échantillon de n obervations, chacune étant défi-


nie par deux caractères ((X1 , Y1 ), . . . , (Xn , Yn )). Soient r classes C1 , . . . , Cr
formant un partitionnement des valeurs des caractères Xk des observations, et
s classes D1 , . . . , Ds formant un partitionnement des valeurs des caractères Yk
des observations. Si l’hypothèse H0 “les caractères X et Y sont indépendants”
est vraie, le χ2O mesuré sur l’échantillon suit une loi du χ2 à (r − 1)(s − 1)
degrés de liberté.
r X s
X (nij − npi qj )2
χ2O = (8.23)
i=1 j=1
npi qj

où nij est le nombre d’observations pour lesquelles l’échantillon (Xk , Yk ) ap-


partient aux classes Ci et Dj , et pi (resp. qj ) est la proportion des observations
dans la classe Ci :
s r
1X 1X
pi = nij qj = nij (8.24)
n j=1 n i=1

Preuve :
On additionne le χ2 pour rs catégories. On calcule r + s paramètres, le pi et qj ,
toutefois pr et qs peuvent être calculés sans se référer à l’échantillon.
Le nombre de degrés de liberté de χ2O sous l’hypothèse H0 est donc :

rs − 1 − (r + s − 2) = rs − r − s + 1 = (r − 1)(s − 1)

Il ne reste plus qu’à comparer la valeur de χ2O avec la valeur du χ2 maximale


pour un seuil α choisi et (r − 1)(s − 1) degrés de liberté.

8.2.5 Test de Kolmogorov-Smirnov


Le principe du test de Kolmogorov-Smirnov est de comparer la fonction
de répartition d’une loi de probabilité avec la courbe cumulative d’un échan-
tillon (section 6.3.3). Contrairement aux tests du χ2 , il ne s’applique qu’à des
caractères quantitatifs, mais il permet de tester des échantillons de plus petite
taille.

Proposition 8.10. Soient (Fn )n∈N les fonctions de répartition empiriques


d’échantillons de taille n, engendrés par une loi de fonction de répartition F .
Alors
c
 
lim p max |Fn (x) − F (x)| 6 √ = α(c) (8.25)
n→∞ x∈R n


2 c2
(−1)m−1 e−2m
X
α(c) = 2 (8.26)
m=1

Preuve 9 :
La preuve s’appuie sur le comportement du mouvement brownien, mouvement aléa-
toire selon lequel, à chaque itération, on ajoute 1 à l’accumulateur avec une proba-
bilité 21 , et on lui retranche 1 avec la même probabilité.
Si le cours de probabilité contenait
√ un chapitre sur les processus stochastiques, il
serait possible de prouver que n (Fn (x) − F (x)) converge vers un pont brownien,
dont l’équation est donnée par α(c).
110 CHAPITRE 8. TESTS STATISTIQUES

α 0.8 0.9 0.95 0.98 0.99


c 1.073 1.223 1.358 1.518 1.629

Table 8.1 – Seuils pour les test de Kolomogorov-Smirnov

Ainsi, α(c) ne dépend ni de n, ni de F . La table 8.1 donne les valeurs de


c pour les valeurs de α les plus courantes.
Dans la pratique, on utilisera ce test pour n > 30.
Pour de plus petites valeurs de n, pouvant descendre jusqu’à 5, on fera
apparaître n dans le calcul de la borne maximale :
 
p max |Fn (x) − F (x)| 6 C(c, n) = α(c) (8.27)
x∈R

où C(c, n) > √cn . On se munira alors d’une table du test de Kolmogorov-


Smirnov ou d’un logiciel de calcul adapté : fonction ks.test() sous R, kstest()
sous Matlab/octave, pas (encore ?) implémenté sous scilab.

8.3 Statistiques prédictives résumées


Cette section regroupe les grands résultats des chapitres 7 et 8.

8.3.1 Analyse de la moyenne


Les estimations et tests paramétriques s’appuient tous sur le calcul de la
moyenne de l’échantillon, qui peut aussi être le calcul d’une autre statistique
extraite de l’échantillon.
L’échantillon est produit par une variable aléatoire d’espérance µ et de
variance σ 2 , et par une loi de Bernoulli de paramètre p0 pour le cas des pro-
portions. À l’exception des cas de “petits échantillons”, il faut que n > 30.
On choisit un seuil α ∈]0, 1[, et pour la loi normale, aT = erf −1 ( 1+α
2 ).
Les intervalles de confiance pour les différentes situations sont donnés par :
Petit échantillon gaussien de variance connue : Xn suit une loi normale
2
d’espérance µ et de variance σn .
σ σ
 
µ ∈ Xn − aT √ , Xn + aT √ (8.28)
n n

Petit échantillon gaussien de variance inconnue : Xn suit une loi de


2
Student à n degrés de liberté d’espérance µ et de variance σn .
Sn Sn
 
µ ∈ Xn − at √ , Xn + at √ (8.29)
n−1 n−1
Grand échantillon : Xn suit une loi normale d’espérance µ et de variance
σ2
n .
Sn Sn
 
µ ∈ Xn − aT √ , Xn + aT √ (8.30)
n n
Proportion : p suit une loi normale
 s s 
p(1 − p) p(1 − p) 
p0 ∈ p − aT , p + aT (8.31)
n n
8.3. STATISTIQUES PRÉDICTIVES RÉSUMÉES 111

Pour les tests d’ajustement et de conformité, on compare |µ − Xn | au rayon


de l’intervalle de confiance.

Pour comparer deux espérances, on utilise


s
S12 S22
aT + (8.32)
n1 n2

pour construire le seuil du test pour |X1 − X2 | dans le cas des grands échan-
tillons. On utilisera s
1 1
aT σ + (8.33)
n1 n2
pour les petits échantillons gaussiens à variance connue,
s
q 1 1
aT p(1 − p) + (8.34)
n1 n2

pour les proportions, et


s s
1 1 n1 S12 + n2 S22
at + (8.35)
n1 n2 n1 + n2 − 2

par une loi de Student à n1 + n2 degrés de liberté pour les petits échantillons
gaussiens de variance inconnue.

Pour comparer plus de deux espérances, il faut passer par un test de Fisher
(section 8.1.4), comparant le ratio de la variance intra-classes et de la variance
interclasses :
N
X
nk (x·,k − x·,· )2
n−N
F = × k=1 ni
(8.36)
N −1 N X
(xk,i − x·,i )2
X

k=1 k=1

8.3.2 Tests non paramétriques


Les tests non paramétriques interrogent la loi sous-jacente à l’échantillon
dans sa globalité, et pas uniquement l’un de ses paramètres.
Les tests du χ2 s’appuient sur une séparation de l’espace de réalisations
en classes, et comparent les effectifs observés – nk – aux effectifs attendus –
npk . Il faut que pour chaque classe les effectifs théoriques atteignent 5. Pour
m classes et K paramètres estimés, on a alors :
m
X (nk − npk )2
χ2O = (8.37)
k=1
npk

suit une loi du χ2 à m − K − 1 degrés de liberté.


Pour le test d’ajustement (section 8.2.2), K est le nombre de paramètres
estimés pour définir la loi, le plus souvent 1 ou 2.
Pour le test d’homogénéité (section 8.2.3) entre N échantillons avec m
classes, on a N m quantités observées, m estimations (les proportions moyennes
112 CHAPITRE 8. TESTS STATISTIQUES

par classe) et N contraintes (on connaît les effectifs de chaque échantillon).


On a donc (N − 1)(m − 1) degrés de liberté.
Pour le test d’indépendance (section 8.2.4) entre un caractère à m1 classes
et un paramètre à m2 classes, il y a m1 m2 quantités observées – les effectifs
conjoints des deux caractères, et m1 + m2 −2 probabilités marginales estimées.

Pour le test de Kolomogorov-Smirnov, on calcule l’écart maximal entre


la fonction de répartition empirique Fn et la fonction de répartition F . On
rejette l’hypothèse selon laquelle l’échantillon a été engendré par la variable
aléatoire définie par F si cet écart maximal dépasse √cn , en prenant c = 1.36
pour α = 0.95.
Index

Symbols conformité . . . . . . . . . . . . . . . . . . . . . . . 111


· . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 convergence . . . . . . . . . . . . . . . . . . . . . . . 69
convergence en loi . . . . . . . . . . . . . 71, 73
Numbers convergence en moyenne . . . . . . . . . . 70
5 . . . . . . . . . . . . . . . . . . . . 74, 96, 105, 111 convergence en probabilité. . . . .70, 72
30 . . . . . . . . . . . . . . . . . . . . 73, 90, 96, 110 convergence presque sûre . . . . . . 70, 73
convergence sûre . . . . . . . . . . . . . . . . . . 69
A
corrélation . . . . . . . . . . . . . 54, 57, 59, 85
ajustement. . . . . . . . . . . . . . . . . . . . . . .111
couple . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
approximation . . . . . . . . . . . . . . . . . . . . 90
mixte . . . . . . . . . . . . . . . . . . . . . 53, 85
arrangement . . . . . . . . . . . . . . . . . . . . . . 32
courbe cumulative . . . . . . . . . . . . 82, 109
asymétrie . . . . . . . . . . . . . . . . . . . . . . . . . 27
covariance . . . . . . . . . . . . . 35, 54, 59, 85
B Cramér . . . . . . . . . . . . . . . . . . . . . . 72, 119
Bayes . . . . . . . . . . . . . . . . . . . . 16, 51, 117 cumulant . . . . . . . . . . . . . . . . . . . . . . . . . 26
Bernoulli . . . . . . . 8, 34, 72, 74, 95, 117
biais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 D
binomiale . . . . . . . . . . . . . . 34, 35, 74, 80 dé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33, 94
boréliens . . . . . . . . . . . . . . . . . . . . . . . . . . 12 de Méré . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
Borel . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 de Moivre . . . . . . . . . . . . . . . . . . . . . 8, 117
décorrélation . . . . . . . . . . . . . . 55, 60, 65
C densité . . . . . . . . . . . . . 18, 22, 49, 57, 60
caractéristique. . . . . . . . . .voir fonction conjointe . . . . . . . . . . . . . . . . . . 49, 58
caractéristique densité de probabilité
caractère . . . . . . . . . . . . . . . . . . . . . . . . . . 80 condititionnelle . . . . . . . . . . . . . . . 58
Cardan. . . . . . . . . . . . . . . . . . . . . . . . 7, 117 marginale . . . . . . . . . . . . . . . . . . . . . 58
Cauchy . . . . . . . . 22, 25, 41, 44, 69, 118 Dirac . . . . . . . . . . . . . . . . . . . . . 12, 14, 119
causalité . . . . . . . . . . . . . . . . . . . . . . . . . . 85
centrée. . . . . . . . . . . . . . . . . . . . . . . . . . . .22 E
changement de variable 28, 52, 60, 64 écart moyen. . . . . . . . . . . . . . . . . . . . . . .84
Chi2 . . . . . . . . 28, 43, 44, 104, 111, 123 écart-type. . . . . . . . . . . . . . . . . . . . . . . . .84
Cochran . . . . . . . . . . . . . . . . . . . . . 43, 119 échantillon. . . . . . . . . . . . . . . . .60, 69, 80
coefficient de corrélation . . . . . . . . . . 55 effectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
cohérent . . . . . . . . . . . . . . . . . . . . . . . . . . 61 effectif théorique . . . . . . . . . . . . . . . . . 105
combinaison . . . . . . . . . . . . . . . . . . . . . . 32 ensemble mesurable . . . . . . . . . . . . . . . 13
comparaison d’espérances . . . . 99, 101, équiprobable . . . . . . . . . . . . . . . . . . . . . . 33
102, 111 erf. . . . . . . . . . . . . . . . . . . . . . . .39, 93, 122

113
114 INDEX

Erlang. . . . . . . . . . . . . . . . . . . .41, 75, 118 intervalle de confiance . . . . 92, 98, 110


espérance . . . . . . . . . . . . . . . . . . . . . 28, 92
espace de probabilité . . . . . . . . . . . . . . 14 J
espace des réalisations . . . . . . . . . 10, 49 jacobien . . . . . . . . . . . . . . . . . . . . . . . 52, 60
espace paramétrique . . . . . . . . . . . . . . 80 K
espérance . . . 22, 23, 53, 54, 58, 92, 99 Kolmogorov. . . . .11, 73, 109, 112, 119
espérance conditionnelle. . . . . . . . . . .53 kurtosis . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
estimateur . . . . . . . . . . . . . . . . . 61, 83, 90
évènement . . . . . . . . . . . . . . . . . . . . . . . . 10 L
certain . . . . . . . . . . . . . . . . . . . . . . . . 10 Lévy . . . . . . . . . . . . . . . . . . . . . . . . . 72, 119
élémentaire . . . . . . . . . . . . . . . . . . . 10 Lévy-Cramér. . . . . . . . . . . . . . . . . . . . . .72
impossible . . . . . . . . . . . . . . . . . . . . 10 Laplace . . . . . . . . . . . . . . . . 8, 10, 41, 117
expérience aléatoire . . . . . . . . . . . . . . . 10 Lebesgue . . . . . . . . . . . . . . . . . . . . . 13, 118
exponentielle. . . . . . . . . .39, 41, 75, 106 limite centrale . . . . . . 73, 74, 91, 94, 95
loi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
F loi conditionnelle . . . . . . . . . . . . . . 50, 58
facteur. . . . . . . . . . . . . . . . . . . . . . . . . . .102 loi conjointe . . . . . . . . . . . . . . . . . . . . . . 49
Fermat . . . . . . . . . . . . . . . . . . . . . . . . 7, 117 loi des grands nombres . . . . . . . . 72, 73
Fisher . . . . . . . . . . . . . . 44, 104, 119, 125 loi marginale . . . . . . . . . . . . . . 35, 50, 58
fonction. . . . . . . . . . . . . . . . . . . . . . . . . . .51
fonction caractéristique26, 55, 56, 58, M
62 médiane . . . . . . . . . . . . . . . . . . . 19, 86, 92
fonction de répartition.18, 23, 28, 48, mesurable. . . . . . . . . . . . . . . . . . . . . . . . .19
52, 58, 60, 82, 109, 112 mesure . . . . . . . . . . . . . . . . . 13, 14, 19, 49
conjointe . . . . . . . . . . . . . . . . . . . . . 48 Lebesgue . . . . . . . . . . . . . . . . . . . . . 49
marginale . . . . . . . . . . . . . . . . . . . . . 48 produit . . . . . . . . . . . . . . . . . . . . . . . 49
fonction en escaliers . . . . . . . . . . . . . . . 19 mesure de Dirac . . . . . . . . . . . . . . . . . . 19
fonction génératrice . . . . . . . . . . . 27, 56 mesure de Lebesgue . . . . . . . . . . . . . . . 19
Fourier . . . . . . . . . . . . . . . . . . . . . . . 26, 118 modalité . . . . . . . . . . . . . . . . . . . . . . . . . . 80
fréquentiste . . . . . . . . . . . . . . . . . . . . . . . 11 mode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
Fubini . . . . . . . . . . . . . . . . . . . . . . . 49, 118 moment . . . . . . . . . . . . 24, 25, 54, 59, 85
moment centré . . . . . . . . . . . . . . . . . . . . 25
G moment croisé . . . . . . . . . . . . . . . . . . . . 54
Galilée . . . . . . . . . . . . . . . . . . . . . . . . 7, 117 moyenne . . . . . . . . . . . . . . . 83, 84, 90, 92
Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 multinomiale . . . . . . . . . . . . . . . . . 34, 104
Gauss . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
gaussienne. . . . . . . . . . . . . .voir normale N
génératrice . voir fonction génératrice normale 26, 38, 43, 44, 62, 73, 74, 80,
géométrique. . . . . . . . . . . . . . . . . . . . . . .36 92, 93, 99, 100, 122
Gosset . . . . . . . . . . . . . . . . . . voir Student norme . . . . . . . . . . . . . . . . . . . . . . . . . 25, 57
grand échantillon . . . . 94, 99, 101, 110
O
H observation . . . . . . . . . . . . . . . . . . . . . . . 80
histogramme . . . . . . . . . . . . . . . . . . 85, 87
homogénéité . . . . . . . . . . . . . . . . 108, 111 P
Pascal . . . . . . . . . . . . . . . . . . . . . . . . . 7, 117
I Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . 118
indépendance.16, 51, 58, 65, 108, 112 permutation . . . . . . . . . . . . . . . . . . . . . . 31
individu . . . . . . . . . . . . . . . . . . . . . . . . . . 80 petit échantillon . 92, 93, 99, 100, 110
intégrale de Lebesgue . . . . . . . . . . . . . 19 Poisson . . . . . . . . . . . . . . . 35, 74, 96, 118
intégrale . . . . . . . . . . . . . . . . . . . . . . . . . . 19 population . . . . . . . . . . . . . . . . . . . . . . . . 79
intervalle . . . . . . . . . . . . . . . . . . . . . . . . . 13 probabilité. . . . . . . . . . . . . . . . .11, 13, 14
INDEX 115

probabilité conditionnelle . . . . . . . . . 15 intra-classe . . . . . . . . . . . . . . . . 54, 85


processus stochatisque . . . . . . . . . . . 109 variance naturelle . . . . . . . . . . . . . . . . . 84
produit de convolution . . . . . . . . . . . . 56 variance sans biais . . . . . . . . . . . . . . . . 84
proportion . . . . . . . . . . . 95, 99, 101, 110 vecteur
pseudo-aléatoire . . . . . . . . . . . . . . . 37, 45 aléatoire . . . . . . . . . . . . . . . . . . . . . . 57
gaussien . . . . . . . . . . . . . . . . . . . . . . 62
Q
quantile . . . . . . . . . . . . . . . . . . . 19, 86, 87

R
réduite . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
random . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
Rayleigh . . . . . . . . . . . . . . . . . . . . . . . . . . 42
région de rejet . . . . . . . . . . . . . . . . . . . . 98
régression . . . . . . . . . . . . . . . . . . . . . . . . . 87
répartition . . . . . . . . . . voir fonction de
répartition
rotation . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

S
sans biais . . . . . . . . . . . . . . . . . . . . . . . . . 61
série
entière . . . . . . . . . . . . . . . . . . . . . . . . 27
formelle. . . . . . . . . . . . . . . . . . . . . . .27
Smirnov . . . . . . . . . . . . . . . . 109, 112, 119
Snedecor . . . . . . . . . . . . . . . . 44, 118, 125
somme . . . . . . . . . . . . . . . . . . . . 27, 56, 64
statistique . . . . . . . . . . . . . . . . . . . . . 60, 82
structure statistique. . . . . . . . . . . . . . .80
Student . . . . . . . . . 44, 99, 100, 118, 124

T
t . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
Tchebychev . . . . . . . . . . . 24, 70, 72, 118
test de conformité. . . . . . . . . . . . . . . . .98
test de signification . . . . . . . . . . . . . . . 98
test paramétrique . . . . . . . . . . . . . . . . . 98
test statistique . . . . . . . . . . . . . . . . . . . . 97
tirage aléatoire . . . . . . . . . . . . . . . . . . . . 45
tribu . . . . . . . . . . . . . . . . . . . . . . . . . . 12–14

U
uniforme . . . . . . . . . . . . . . . . . . . . . . 37, 85

V
variable . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
aléatoire . . . . . . . . . . . . . . . . . . . . . . 17
complexe . . . . . . . . . . . . . . . . . . . . . 57
continue . . . . . . . . . . . . . . . . . . 18, 36
discrète. . . . . . . . . . . . . . . .18, 27, 33
variance . . . . . . . . 23, 54, 59, 84, 85, 90
inter-classe . . . . . . . . . . . . . . . . 54, 85
116 INDEX
Petites histoires de probabilistes
A
I ci apparaissent quelques-uns des auteurs originaux des notions développées
dans ce polycopié. L’ordre est essentiellement temporel 1 .
Cardan, 1501-1576. Girolamo Cardano est un médecin, mathématicien et
astrologue italien. Il a contribué à l’étude des équations algébriques, mais
le fait que ses analyses des jeux des hasard aient été justes n’a pas été
perçu de son temps.
Galilée, 1564-1642. Galileo Galilei est un physicien et astronome italien,
dont les contributions aux probabilités, quoique justes, sont modestes. Il
est célèbre pour ses démèlées avec l’Église en astronomie, laquelle n’a pas
considéré les probabilités comme polémiques, même avec la mécanique
quantique.
Fermat, début XVIIe -1665. Pierre de Fermat est un mathématicien et ju-
riste français. Il a notamment travaillé en arithmétique.
Pascal, 1623-1662. Blaise Pascal est un scientifique et philosophe français.
Il promeut la méthode scientifique, contribue à la thermodynamique et
à l’arithmétique, qu’il applique aux probabilités.
Bernoulli, 1654-1705. Jacques Bernoulli est un mathématicien suisse. Il
contribue au calcul infinitésimal, et pose les principes du calcul de pro-
babilités dans Ars conjectandi, publié de façon posthume.
de Moivre, 1667-1754. Abraham de Moivre est un mathématicien français.
Huguenot, il est contraint à l’exil en Angleterre où, français, il ne peut
trouver un poste de professeur. Il contribue à la théorie des fluxions de
Newton, ainsi qu’aux probabilités par une version du théorème de la
limite centrale.
Bayes, 1702-1761. Thomas Bayes est un pasteur et mathématicien anglais.
Son théorème n’a été publié qu’après sa mort, et popularisé par la théorie
de l’utilité et la classification supervisée.
Laplace, 1749-1827. Pierre-Simon Laplace est un scientifique français, mem-
bre de presque toutes les académies scientiques européennes, et président
de plusieurs d’entre elles. Il contribue de façon majeure à l’analyse de la
mécanique céleste, aux équations différentielles, et aux probabilités.
1. La vie d’un mathématicien est un segment, et il n’existe pas d’ordre total sur l’ensemble
des segments qui survive à un passage à la limite. La mise en page d’une description en
LATEX impose cependant d’en choisir un.

117
118 ANNEXE A. PETITES HISTOIRES DE PROBABILISTES

Fourier, 1768-1830. Joseph Fourier est un mathématicien français, élève de


l’ENS, enseignant à l’École Polytechnique, membre de l’Académie des
Sciences et de l’Académie Française. Il a travaillé sur la décomposition
des fonctions périodiques et sur la diffusion de la chaleur.
Gauss, 1777-1855. Carl Friedrich Gauss est un scientifique allemand. Il a
contribué de façon majeure aux mathématiques, à l’astronomie et à la
physique ; il collabora fort peu avec les autres scientifiques de son temps,
et nombre de ses travaux ne furent découverts qu’un demi-siècle après
sa mort.
Poisson, 1781-1840. Siméon Denis Poisson est un mathématicien et physi-
cien français, ancien élève de l’École Polytechnique. Ses travaux portent
sur l’astronomie, l’électromagnétisme, les équations aux dérivées par-
tielles, l’analyse et les probabilités.
Cauchy, 1789-1857. Augustin Louis Cauchy est un scientifique français, an-
cien élève puis enseignant à l’École Polytechnique. Il a eu une produc-
tion abondante et a touché à tous les domaines des mathématiques, de
l’analyse à la théorie des nombres en passant par les probabilités et la
géométrie, ainsi qu’à l’optique.
Tchebychev, 1821-1894. Pafnouti Lvovitch Tchebychev est un mathéma-
ticien russe, enseignant à Saint-Petersbourg. Il travaille aux théorèmes
limites en probabilités, cherchant à généraliser les résultats connus, ainsi
qu’à l’arithmétique des nombres premiers.
Pearson, 1857-1936. Karl (Carl) Pearson est un scientifique anglais. Il crée
le test du χ2 , et utilise les statistiques pour etayer ses convictions eugé-
nistes. Il inaugure la chaire d’eugénisme de l’Université de Londres, et y
fonde la première chaire mondiale de statistiques appliquées.
Borel, 1871-1956. Émile Borel est un mathématicien français, ancien élève
de l’ENS. Il développe l’analyse et les probabilités ; on lui doit notam-
ment la justification des loteries et des assurances en distinguant espé-
rance et utilité.
Lebesgue, 1875-1941. Henri-Léon Lebesgue est un mathématicien français,
ancien élève de l’ENS. Il fonde la théorie de l’intégration, et invente la
transformée de Fourier.
Student, 1876-1937. William Sealy Gosset est un statisticien anglais, di-
plomé d’Oxford. Employé chez Guiness, il développe un test statistique
pour améliorer la stabilisation des procédés de fabrication de la bière. Le
test étant jugé comme un secret industriel par la brasserie, il le publie
sous le pseudonyme de Student, nom sous lequel il devient célèbre.
Erlang, 1878-1929. Agner Krarup Erlang est un mathématicien danois, qui
a travaillé sur les problèmes de file d’attente et de trafic sur les réseaux
téléphoniques.
Fubini, 1879-1943. Guido Fubini est un mathématicien italien, professeur
à l’Université de Turin. Il contribue à diverses branches de l’analyse, et
est célèbre pour ses résultats sur l’intégration selon une mesure produit.
Snedecor, 1881-1974. George Waddel Snedecor est un mathématicien amé-
ricain. Il fonde l’analyse de la variance, et crée le premier laboratoire
américain spécialisé en statistiques à l’université de l’Iowa.
119

Lévy, 1886-1971. Paul Lévy est un mathématicien français, ancien élève


puis enseignant à l’École Polytechnique. Il contribue à l’analyse de pro-
cessus stochastiques.
Smirnov, 1887-1974. Vladimir Ivanovitch Smirnov est un mathématicien
russe. Il enseigne à l’université de Leningrad et écrit les cinq volumes
du cours de mathématiques supérieures aux éditions Mir, couvrant un
large éventail des mathématiques pures et appliquées. Il a déterminé les
valeurs numériques des seuils du test de Kolmogorov-Smirnov.
Fisher, 1890-1962. Ronald Aylmer Fisher est un statisticien et biologiste
anglais. Il contribue à l’analyse de la variance, de l’information et de
la vraisemblance. Il enseigne au University College de Londres puis à
Cambridge, et milite pour l’eugénisme.
Cramér, 1893-1985. Harald Cramér est un mathématicien et actuaire su-
édois. Après une dizaine d’années de travail comme assureur, il rejoint
l’université de Stockholm et la préside pendant plus de dix ans.
Dirac, 1902-1984. Paul Dirac est un physicen et mathématicien anglais, en-
seignant à Cambridge. Il contribue à la physique quantique, et travaille à
la construction d’un formalisme réunissant de nombreuses théories phy-
siques.
Kolmogorov, 1903-1987. Andreï Nikolaïevitch Kolmogorov est un mathé-
maticien russe, qui a contribué aux probabilités en les axiomatisant sous
leur forme actuelle, et en y adaptant l’analyse de Fourier, ainsi qu’à la
topologie et à l’analyse des systèmes dynamiques, desquels est issu le
test de Kolmogorov-Smirnov.
Cochran, 1909-1980. William Gemmell Cochran est un staticien écossais ;
il enseigne essentiellement aux États-Unis, particulièrement à Harvard.
Il travaille sur les propriétés statistiques de la loi du χ2 .
120 ANNEXE A. PETITES HISTOIRES DE PROBABILISTES
B
Tables des lois

121
122 ANNEXE B. TABLES DES LOIS

B.1 Table de loi normale


Le tableau donne les valeurs de la fonction erf(x) pour x de 0 à 3. Le
deuxième chiffre après la virgule de x est en abscisse, la partie entière et le
premier chiffre après la virgule en ordonnée.
Z x
1 t2
P (X 6 x) = erf(x) = √ e− 2 dt = 1 − erf(−x) (B.1)
2π −∞

Attention, la fonction erf n’est pas définie de la même manière dans tous
les logiciels scientifiques.

x 0.0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.5000 0.5039 0.5079 0.5119 0.5159 0.5199 0.5239 0.5279 0.5318 0.5358
0.1 0.5398 0.5437 0.5477 0.5517 0.5556 0.5596 0.5635 0.5674 0.5714 0.5753
0.2 0.5792 0.5831 0.5870 0.5909 0.5948 0.5987 0.6025 0.6064 0.6102 0.6140
0.3 0.6179 0.6217 0.6255 0.6293 0.6330 0.6368 0.6405 0.6443 0.6480 0.6517
0.4 0.6554 0.6590 0.6627 0.6664 0.6700 0.6736 0.6772 0.6808 0.6843 0.6879
0.5 0.6914 0.6949 0.6984 0.7019 0.7054 0.7088 0.7122 0.7156 0.7190 0.7224
0.6 0.7257 0.7290 0.7323 0.7356 0.7389 0.7421 0.7453 0.7485 0.7517 0.7549
0.7 0.7580 0.7611 0.7642 0.7673 0.7703 0.7733 0.7763 0.7793 0.7823 0.7852
0.8 0.7881 0.7910 0.7938 0.7967 0.7995 0.8023 0.8051 0.8078 0.8105 0.8132
0.9 0.8159 0.8185 0.8212 0.8238 0.8263 0.8289 0.8314 0.8339 0.8364 0.8389
1.0 0.8413 0.8437 0.8461 0.8484 0.8508 0.8531 0.8554 0.8576 0.8599 0.8621
1.1 0.8643 0.8665 0.8686 0.8707 0.8728 0.8749 0.8769 0.8789 0.8809 0.8829
1.2 0.8849 0.8868 0.8887 0.8906 0.8925 0.8943 0.8961 0.8979 0.8997 0.9014
1.3 0.9031 0.9049 0.9065 0.9082 0.9098 0.9114 0.9130 0.9146 0.9162 0.9177
1.4 0.9192 0.9207 0.9221 0.9236 0.9250 0.9264 0.9278 0.9292 0.9305 0.9318
1.5 0.9331 0.9344 0.9357 0.9369 0.9382 0.9394 0.9406 0.9417 0.9429 0.9440
1.6 0.9452 0.9463 0.9473 0.9484 0.9494 0.9505 0.9515 0.9525 0.9535 0.9544
1.7 0.9554 0.9563 0.9572 0.9581 0.9590 0.9599 0.9607 0.9616 0.9624 0.9632
1.8 0.9640 0.9648 0.9656 0.9663 0.9671 0.9678 0.9685 0.9692 0.9699 0.9706
1.9 0.9712 0.9719 0.9725 0.9731 0.9738 0.9744 0.9750 0.9755 0.9761 0.9767
2.0 0.9772 0.9777 0.9783 0.9788 0.9793 0.9798 0.9803 0.9807 0.9812 0.9816
2.1 0.9821 0.9825 0.9829 0.9834 0.9838 0.9842 0.9846 0.9849 0.9853 0.9857
2.2 0.9860 0.9864 0.9867 0.9871 0.9874 0.9877 0.9880 0.9883 0.9886 0.9889
2.3 0.9892 0.9895 0.9898 0.9900 0.9903 0.9906 0.9908 0.9911 0.9913 0.9915
2.4 0.9918 0.9920 0.9922 0.9924 0.9926 0.9928 0.9930 0.9932 0.9934 0.9936
2.5 0.9937 0.9939 0.9941 0.9942 0.9944 0.9946 0.9947 0.9949 0.9950 0.9952
2.6 0.9953 0.9954 0.9956 0.9957 0.9958 0.9959 0.9960 0.9962 0.9963 0.9964
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9971 0.9972 0.9973
2.8 0.9974 0.9975 0.9975 0.9976 0.9977 0.9978 0.9978 0.9979 0.9980 0.9980
2.9 0.9981 0.9981 0.9982 0.9983 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986

Pour les plus grandes valeurs de x :


x 3.0 3.1 3.2 3.3 3.4
erf(x) 0.99865 0.99904 0.99931 0.99952 0.99966
x 3.5 3.6 3.7 3.8 4
erf(x) 0.99976 0.99984 0.99989 0.999928 0.999968
x 4.5 5 5.5 6 6.5
erf(x) 0.999997 0.9999997 0.999999981 0.99999999901 0.99999999996
B.2. TABLE DE LA LOI DU χ2 123

B.2 Table de la loi du χ2


La table contient les valeurs des centiles (χ2α ) de la distribution χ2 pour n
degrés de liberté :
Z x
1 n t
P (χ2n 6 x) = n
√ t 2 −1 e− 2 dt (B.2)
Γ( 2 ) 2n 0

Les plus grandes valeurs de α permettent de rejeter les données trop éloi-
gnées de la distribution attendue. Les petites valeurs de α permettent de dé-
tecter les données anormalement proches de la distribution attendue.

n\x χ20.01 χ20.05 χ20.1 χ20.25 χ20.5 χ20.75 χ20.9 χ20.95 χ20.99 χ20.999
1 0.00 0.00 0.02 0.10 0.45 1.32 2.71 3.84 6.63 10.83
2 0.02 0.10 0.21 0.58 1.39 2.77 4.61 5.99 9.21 13.82
3 0.11 0.35 0.58 1.21 2.37 4.11 6.25 7.81 11.34 16.27
4 0.30 0.71 1.06 1.92 3.36 5.39 7.78 9.49 13.28 18.47
5 0.55 1.15 1.61 2.67 4.35 6.63 9.24 11.07 15.09 20.52
6 0.87 1.64 2.20 3.45 5.35 7.84 10.64 12.59 16.81 22.46
7 1.24 2.17 2.83 4.25 6.35 9.04 12.02 14.07 18.48 24.32
8 1.65 2.73 3.49 5.07 7.34 10.22 13.36 15.51 20.09 26.12
9 2.09 3.33 4.17 5.90 8.34 11.39 14.68 16.92 21.67 27.88
10 2.56 3.94 4.87 6.74 9.34 12.55 15.99 18.31 23.21 29.59
11 3.05 4.57 5.58 7.58 10.34 13.70 17.28 19.68 24.72 31.26
12 3.57 5.23 6.30 8.44 11.34 14.85 18.55 21.03 26.22 32.91
13 4.11 5.89 7.04 9.30 12.34 15.98 19.81 22.36 27.69 34.53
14 4.66 6.57 7.79 10.17 13.34 17.12 21.06 23.68 29.14 36.12
15 5.23 7.26 8.55 11.04 14.34 18.25 22.31 25.00 30.58 37.70
16 5.81 7.96 9.31 11.91 15.34 19.37 23.54 26.30 32.00 39.25
17 6.41 8.67 10.09 12.79 16.34 20.49 24.77 27.59 33.41 40.79
18 7.01 9.39 10.86 13.68 17.34 21.60 25.99 28.87 34.81 42.31
19 7.63 10.12 11.65 14.56 18.34 22.72 27.20 30.14 36.19 43.82
20 8.26 10.85 12.44 15.45 19.34 23.83 28.41 31.41 37.57 45.31
21 8.90 11.59 13.24 16.34 20.34 24.93 29.62 32.67 38.93 46.80
22 9.54 12.34 14.04 17.24 21.34 26.04 30.81 33.92 40.29 48.27
23 10.20 13.09 14.85 18.14 22.34 27.14 32.01 35.17 41.64 49.73
24 10.86 13.85 15.66 19.04 23.34 28.24 33.20 36.42 42.98 51.18
25 11.52 14.61 16.47 19.94 24.34 29.34 34.38 37.65 44.31 52.62
26 12.20 15.38 17.29 20.84 25.34 30.43 35.56 38.89 45.64 54.05
27 12.88 16.15 18.11 21.75 26.34 31.53 36.74 40.11 46.96 55.48
28 13.56 16.93 18.94 22.66 27.34 32.62 37.92 41.34 48.28 56.89
29 14.26 17.71 19.77 23.57 28.34 33.71 39.09 42.56 49.59 58.30
30 14.95 18.49 20.60 24.48 29.34 34.80 40.26 43.77 50.89 59.70
40 22.16 26.51 29.05 33.66 39.34 45.62 51.81 55.76 63.69 73.40
50 29.71 34.76 37.69 42.94 49.33 56.33 63.17 67.50 76.15 86.66
60 37.48 43.19 46.46 52.29 59.33 66.98 74.40 79.08 88.38 99.61
70 45.44 51.74 55.33 61.70 69.33 77.58 85.53 90.53 100.43 112.32
80 53.54 60.39 64.28 71.14 79.33 88.13 96.58 101.88 112.33 124.84
90 61.75 69.13 73.29 80.62 89.33 98.65 107.57 113.15 124.12 137.21
100 70.06 77.93 82.36 90.13 99.33 109.14 118.50 124.34 135.81 149.45
124 ANNEXE B. TABLES DES LOIS

B.3 Table de la loi de Student


La table contient les valeurs des centiles (tp ) de la distribution de Student
(ou distribution t) :
!− n+1
Γ( n+1 t2
Z x 2
2 )
P (Tn 6 x) = St(x, n) = 1 − St(−x, n) = n √ 1+ dt
−∞ Γ( 2 ) nπ n
(B.3)

n\t t0.55 t0.75 t0.9 t0.95 t0.975 t0.99 t0.995 t0.999


1 0.158 1.000 3.078 6.314 12.706 31.821 63.657 318.309
2 0.142 0.816 1.886 2.920 4.303 6.965 9.925 22.327
3 0.137 0.765 1.638 2.353 3.182 4.541 5.841 10.215
4 0.134 0.741 1.533 2.132 2.776 3.747 4.604 7.173
5 0.132 0.727 1.476 2.015 2.571 3.365 4.032 5.893
6 0.131 0.718 1.440 1.943 2.447 3.143 3.707 5.208
7 0.130 0.711 1.415 1.895 2.365 2.998 3.499 4.785
8 0.130 0.706 1.397 1.860 2.306 2.896 3.355 4.501
9 0.129 0.703 1.383 1.833 2.262 2.821 3.250 4.297
10 0.129 0.700 1.372 1.812 2.228 2.764 3.169 4.144
11 0.129 0.697 1.363 1.796 2.201 2.718 3.106 4.025
12 0.128 0.695 1.356 1.782 2.179 2.681 3.055 3.930
13 0.128 0.694 1.350 1.771 2.160 2.650 3.012 3.852
14 0.128 0.692 1.345 1.761 2.145 2.624 2.977 3.787
15 0.128 0.691 1.341 1.753 2.131 2.602 2.947 3.733
16 0.128 0.690 1.337 1.746 2.120 2.583 2.921 3.686
17 0.128 0.689 1.333 1.740 2.110 2.567 2.898 3.646
18 0.127 0.688 1.330 1.734 2.101 2.552 2.878 3.610
19 0.127 0.688 1.328 1.729 2.093 2.539 2.861 3.579
20 0.127 0.687 1.325 1.725 2.086 2.528 2.845 3.552
21 0.127 0.686 1.323 1.721 2.080 2.518 2.831 3.527
22 0.127 0.686 1.321 1.717 2.074 2.508 2.819 3.505
23 0.127 0.685 1.319 1.714 2.069 2.500 2.807 3.485
24 0.127 0.685 1.318 1.711 2.064 2.492 2.797 3.467
25 0.127 0.684 1.316 1.708 2.060 2.485 2.787 3.450
26 0.127 0.684 1.315 1.706 2.056 2.479 2.779 3.435
27 0.127 0.684 1.314 1.703 2.052 2.473 2.771 3.421
28 0.127 0.683 1.313 1.701 2.048 2.467 2.763 3.408
29 0.127 0.683 1.311 1.699 2.045 2.462 2.756 3.396
30 0.127 0.683 1.310 1.697 2.042 2.457 2.750 3.385
40 0.126 0.681 1.303 1.684 2.021 2.423 2.704 3.307
50 0.126 0.679 1.299 1.676 2.009 2.403 2.678 3.261
60 0.126 0.679 1.296 1.671 2.000 2.390 2.660 3.232
70 0.126 0.678 1.294 1.667 1.994 2.381 2.648 3.211
80 0.126 0.678 1.292 1.664 1.990 2.374 2.639 3.195
90 0.126 0.677 1.291 1.662 1.987 2.368 2.632 3.183
100 0.126 0.677 1.290 1.660 1.984 2.364 2.626 3.174
B.4. LOI DE FISHER-SNEDECOR 125

B.4 Loi de Fisher-Snedecor


La table donne le fractile à 0.95 de la loi de Fisher F (n, m) :
√ √
nn mm x tn
Z
P (Fn,m 6 x) = n m p dt (B.4)
B( 2 , 2 ) 0 t (m + nt)m+n

où B est la fonction beta d’Euler :


Z 1
B(x, y) = tx−1 (1 − t)y−1 (B.5)
0

On peut l’exprimer à partir de la fonction Γ :

B(x, y) = Γ(x)Γ(y)/Γ(x + y) (B.6)

Dans le tableau, n est le nombre de degrés de liberté au numérateur et m


le nombre de degrés de liberté au dénominateur.

m\n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 30 40 50 60
1 161 200 216 225 230 234 237 239 241 242 243 244 245 245 246 246 247 247 248 248 248 249 249 249 249 250 251 252 252
2 18.5 19.0 19.2 19.2 19.3 19.3 19.4 19.4 19.4 19.4 19.4 19.4 19.4 19.4 19.4 19.4 19.4 19.4 19.4 19.4 19.4 19.5 19.5 19.5 19.5 19.5 19.5 19.5 19.5
3 10.1 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.81 8.79 8.76 8.74 8.73 8.71 8.70 8.69 8.68 8.67 8.67 8.66 8.65 8.65 8.64 8.64 8.63 8.62 8.59 8.58 8.57
4 7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 6.00 5.96 5.94 5.91 5.89 5.87 5.86 5.84 5.83 5.82 5.81 5.80 5.79 5.79 5.78 5.77 5.77 5.75 5.72 5.70 5.69
5 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77 4.74 4.70 4.68 4.66 4.64 4.62 4.60 4.59 4.58 4.57 4.56 4.55 4.54 4.53 4.53 4.52 4.50 4.46 4.44 4.43
6 5.99 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.10 4.06 4.03 4.00 3.98 3.96 3.94 3.92 3.91 3.90 3.88 3.87 3.86 3.86 3.85 3.84 3.83 3.81 3.77 3.75 3.74
7 5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.68 3.64 3.60 3.57 3.55 3.53 3.51 3.49 3.48 3.47 3.46 3.44 3.43 3.43 3.42 3.41 3.40 3.38 3.34 3.32 3.30
8 5.32 4.46 4.07 3.84 3.69 3.58 3.50 3.44 3.39 3.35 3.31 3.28 3.26 3.24 3.22 3.20 3.19 3.17 3.16 3.15 3.14 3.13 3.12 3.12 3.11 3.08 3.04 3.02 3.01
9 5.12 4.26 3.86 3.63 3.48 3.37 3.29 3.23 3.18 3.14 3.10 3.07 3.05 3.03 3.01 2.99 2.97 2.96 2.95 2.94 2.93 2.92 2.91 2.90 2.89 2.86 2.83 2.80 2.79
10 4.96 4.10 3.71 3.48 3.33 3.22 3.14 3.07 3.02 2.98 2.94 2.91 2.89 2.86 2.85 2.83 2.81 2.80 2.79 2.77 2.76 2.75 2.75 2.74 2.73 2.70 2.66 2.64 2.62
11 4.84 3.98 3.59 3.36 3.20 3.09 3.01 2.95 2.90 2.85 2.82 2.79 2.76 2.74 2.72 2.70 2.69 2.67 2.66 2.65 2.64 2.63 2.62 2.61 2.60 2.57 2.53 2.51 2.49
12 4.75 3.89 3.49 3.26 3.11 3.00 2.91 2.85 2.80 2.75 2.72 2.69 2.66 2.64 2.62 2.60 2.58 2.57 2.56 2.54 2.53 2.52 2.51 2.51 2.50 2.47 2.43 2.40 2.38
13 4.67 3.81 3.41 3.18 3.03 2.92 2.83 2.77 2.71 2.67 2.63 2.60 2.58 2.55 2.53 2.51 2.50 2.48 2.47 2.46 2.45 2.44 2.43 2.42 2.41 2.38 2.34 2.31 2.30
14 4.60 3.74 3.34 3.11 2.96 2.85 2.76 2.70 2.65 2.60 2.57 2.53 2.51 2.48 2.46 2.44 2.43 2.41 2.40 2.39 2.38 2.37 2.36 2.35 2.34 2.31 2.27 2.24 2.22
15 4.54 3.68 3.29 3.06 2.90 2.79 2.71 2.64 2.59 2.54 2.51 2.48 2.45 2.42 2.40 2.38 2.37 2.35 2.34 2.33 2.32 2.31 2.30 2.29 2.28 2.25 2.20 2.18 2.16
16 4.49 3.63 3.24 3.01 2.85 2.74 2.66 2.59 2.54 2.49 2.46 2.42 2.40 2.37 2.35 2.33 2.32 2.30 2.29 2.28 2.26 2.25 2.24 2.24 2.23 2.19 2.15 2.12 2.11
17 4.45 3.59 3.20 2.96 2.81 2.70 2.61 2.55 2.49 2.45 2.41 2.38 2.35 2.33 2.31 2.29 2.27 2.26 2.24 2.23 2.22 2.21 2.20 2.19 2.18 2.15 2.10 2.08 2.06
18 4.41 3.55 3.16 2.93 2.77 2.66 2.58 2.51 2.46 2.41 2.37 2.34 2.31 2.29 2.27 2.25 2.23 2.22 2.20 2.19 2.18 2.17 2.16 2.15 2.14 2.11 2.06 2.04 2.02
19 4.38 3.52 3.13 2.90 2.74 2.63 2.54 2.48 2.42 2.38 2.34 2.31 2.28 2.26 2.23 2.21 2.20 2.18 2.17 2.16 2.14 2.13 2.12 2.11 2.11 2.07 2.03 2.00 1.98
20 4.35 3.49 3.10 2.87 2.71 2.60 2.51 2.45 2.39 2.35 2.31 2.28 2.25 2.22 2.20 2.18 2.17 2.15 2.14 2.12 2.11 2.10 2.09 2.08 2.07 2.04 1.99 1.97 1.95
21 4.32 3.47 3.07 2.84 2.68 2.57 2.49 2.42 2.37 2.32 2.28 2.25 2.22 2.20 2.18 2.16 2.14 2.12 2.11 2.10 2.08 2.07 2.06 2.05 2.05 2.01 1.96 1.94 1.92
22 4.30 3.44 3.05 2.82 2.66 2.55 2.46 2.40 2.34 2.30 2.26 2.23 2.20 2.17 2.15 2.13 2.11 2.10 2.08 2.07 2.06 2.05 2.04 2.03 2.02 1.98 1.94 1.91 1.89
23 4.28 3.42 3.03 2.80 2.64 2.53 2.44 2.37 2.32 2.27 2.24 2.20 2.18 2.15 2.13 2.11 2.09 2.08 2.06 2.05 2.04 2.02 2.01 2.01 2.00 1.96 1.91 1.88 1.86
24 4.26 3.40 3.01 2.78 2.62 2.51 2.42 2.36 2.30 2.25 2.22 2.18 2.15 2.13 2.11 2.09 2.07 2.05 2.04 2.03 2.01 2.00 1.99 1.98 1.97 1.94 1.89 1.86 1.84
25 4.24 3.39 2.99 2.76 2.60 2.49 2.40 2.34 2.28 2.24 2.20 2.16 2.14 2.11 2.09 2.07 2.05 2.04 2.02 2.01 2.00 1.98 1.97 1.96 1.96 1.92 1.87 1.84 1.82
30 4.17 3.32 2.92 2.69 2.53 2.42 2.33 2.27 2.21 2.16 2.13 2.09 2.06 2.04 2.01 1.99 1.98 1.96 1.95 1.93 1.92 1.91 1.90 1.89 1.88 1.84 1.79 1.76 1.74
40 4.08 3.23 2.84 2.61 2.45 2.34 2.25 2.18 2.12 2.08 2.04 2.00 1.97 1.95 1.92 1.90 1.89 1.87 1.85 1.84 1.83 1.81 1.80 1.79 1.78 1.74 1.69 1.66 1.64
50 4.03 3.18 2.79 2.56 2.40 2.29 2.20 2.13 2.07 2.03 1.99 1.95 1.92 1.89 1.87 1.85 1.83 1.81 1.80 1.78 1.77 1.76 1.75 1.74 1.73 1.69 1.63 1.60 1.58
60 4.00 3.15 2.76 2.53 2.37 2.25 2.17 2.10 2.04 1.99 1.95 1.92 1.89 1.86 1.84 1.82 1.80 1.78 1.76 1.75 1.73 1.72 1.71 1.70 1.69 1.65 1.59 1.56 1.53

Vous aimerez peut-être aussi