0% ont trouvé ce document utile (0 vote)

35 vues84 pages

Notes 2016

Ce document présente des notes de cours sur la théorie des probabilités et la statistique, destinées aux étudiants de première année de Licence en biologie. Il couvre des concepts fondamentaux tels que les espaces de probabilité, l'indépendance, les variables aléatoires, ainsi que des éléments de statistique comme l'estimation et les tests statistiques. L'objectif est de fournir une compréhension des tests statistiques utilisés en biologie et médecine, illustrée par des exemples pratiques.

Transféré par

lucianolucien35

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

35 vues84 pages

Notes 2016

Transféré par

lucianolucien35

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Première année de

Licence de biologie
2015–2016

Éléments de théorie des probabilités

et de statistique

Jürgen Angst

Notes de cours
[Link]
2
Table des matières

I Élements de théorie des probabilités 1

1 Le formalisme de la théorie des probabilités 3
1.1 Espace de probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Exemples d’espaces de probabilités . . . . . . . . . . . . . . . . . . . 15

2 Indépendance et conditionnement 19
2.1 Probabilité conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2 La notion d’indépendance . . . . . . . . . . . . . . . . . . . . . . . . 23

3 Variables aléatoires 25
3.1 Variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.2 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.3 Moments d’une variable aléatoire . . . . . . . . . . . . . . . . . . . . 33

4 Théorèmes limite fondamentaux 39

4.1 Indépendance de variables aléatoires . . . . . . . . . . . . . . . . . . 39
4.2 Convergence de variables aléatoires . . . . . . . . . . . . . . . . . . . 41
4.3 Les théorèmes limites . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

II Éléments de statistiques 53
5 Estimation et intervalle de confiance 55
5.1 Estimation paramétrique . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.2 Intervalles de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . 60

6 Tests statistiques 63
6.1 Tests d’hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
6.2 Test du χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

7 Régression linéaire 73
7.1 Régression linéaire simple . . . . . . . . . . . . . . . . . . . . . . . . 74
7.2 Statisitique de la régression . . . . . . . . . . . . . . . . . . . . . . . 75
7.3 Au dela du cas linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . 76
4 TABLE DES MATIÈRES
TABLE DES MATIÈRES i

Introduction au cours
L’objectif de ce cours est de comprendre le fonctionnement / justifier la perti-
nence de tests statistiques couramment utilisés dans la vie de tous les jours et en
particulier en biologie et en médecine. Afin d’illustrer notre propos, considérons les
deux exemples suivants.
Les données représentées dans le tableau ci-dessous proviennent du “National Vital
Statistics Report” et concernent les naissances aux USA en 1997. Elles donnent le
nombre de naissances suivant le type de jour dans la semaine (jours ouvrables ou
week-end) et suivant le mode d’accouchement (naturel ou par césarienne).
Naissances Naturelles César. Total Naissances Naturelles César. Total
J.O. 2331536 663540 2995076 J.O. 60.6% 17.3% 77.9%
W.E. 715085 135493 850578 W.E. 18.6% 3.5% 22.1%
Total 3046621 799033 3845654 Total 79.2% 20.8% 100.0%

On souhaite savoir si le type du jour de naissance (jour ouvrable ou week-end) et le

mode d’accouchement (naturel ou césarienne) sont indépendants ou non. La réponse
du statisticien est sans appel : avec une certitude de 99.999%, on peut affirmer que
les deux caractères ne sont pas indépendants (il y a en fait plus de chances de donner
naissance par césarienne les jours ouvrables que les week-end).
Comment peut-on arriver à une telle conclusion ? En particulier, à quoi correspond
le chiffre 99.999% ? Nous répondrons à ces questions au chapitre 6 sur les tests
statistiques.
F
Autre exemple, nous sommes au second tour d’une élection présidentielle, i.e. il reste
deux candidats en lice, A et B. Le vote a lieu le dimanche, les bureaux de votes
ferment à 18h, 20h dans les grandes villes. Pourtant, les résultats sont annoncés dès
20h sur les chaînes de télévision : A a obtenu 50.9% des voix contre 49.1% pour B,
la fourchette d’erreur est de 0.7%, donc A est gagnant.
Comment peut-on arriver à une telle conclusion alors que tous les bulletins n’ont pas
été dépouillés ? Combien de bulletins doit-on effectivement dépouiller pour pouvoir
affirmer que la marge d’erreur est de 0.7% ? Si le résultat était de 50.1% contre 49.9%,
à quel moment de la soirée pourrait-on avoir une estimation fiable du vainqueur ?
Là encore, des réponses à ces questions peuvent être données grâce à la théorie des
probabilités aux tests statisques. Il est important de comprendre le fonctionnement
de ces tests lorsqu’on les utilise. D’une part, cela évite d’appliquer des tests à des
situations qui ne s’y prêtent pas, d’autre part cela permet d’avoir un regard critique
sur des conclusions parfois hatives / erronées basées sur des données expérimentales.
ii TABLE DES MATIÈRES

Contenu du cours
Le langage dans lequel est exprimée la théorie statistique des tests est celui de la
théorie des probabilités. Ainsi, le début du cours (chapitres 1 à 3) sera consacré à des
rappels de probabilités de base (notion d’espace de probabilité, lois usuelles, notion
d’indépendance, variables aléatoires). Au chapitre 4, nous donnerons ensuite les deux
théorèmes principaux du cours (loi des grands nombres (LGN) et théorème limite
central (TLC)). Viendront ensuite quelques rappels de statistique de base (chapitre
5), et nous verrons enfin comment la LGN et le TLC permettent effectivement de
comprendre comment fonctionnent les tests usuels (test du chi2 d’adéquation, test
d’indépendance etc.).
Première partie

Élements de théorie des probabilités

Chapitre 1

Le formalisme de la théorie des

probabilités

L’objet de la théorie des probabilités est de modéliser des phénomènes complexes

dont il n’est pas en général possible de prédire avec certitude leur évolution ou
les conséquences qu’ils peuvent engendrer. L’archétype d’un tel phénomème est le
lancer d’une pièce à pile ou face : les mécanismes physiques à prendre en compte pour
décrire l’expérience du lancer sont d’une telle complexité qu’il n’est pas envisageable
de répondre de façon déterministe à la question la pièce va-t-elle tomber coté pile,
face, sur la tranche ? On dit alors que le résultat de l’expérience est aléatoire ou
encore stochastique. Voici d’autres exemples d’expériences usuelles dont le résultat
est de nature aléatoire :

Expérience Résultat observable

Lancer d’un dé Un entier k ∈ {1, . . . , 6}
Lancer d’une fléchette sur une cible Point d’impact
Sondage à la sortie des urnes Nombre de Oui et de Non
au cours d’un référendum dans l’échantillon
Saut en longueur dans Saut éventuellement mordu, sinon
une compétition d’athlétisme un nombre ` > 0
Mouvement d’un grain de pollen Une trajectoire continue dans
dans un liquide l’espace à trois dimensions

Pour modéliser ce type d’expériences, la démarche du probabiliste consiste tout

d’abord à en préciser tous les résultats possibles. Ensuite, chaque résultat possible se
voit attribuer un certain poids, une probabilité. Dans l’exemple du lancer à pile ou
face, l’ensemble des résultat possibles est {pile, face, tranche} ou plus simplement, si
l’on néglige la possibilité que la pièce tombe sur la tranche, {pile, face}. Si la pièce
est équilibrée, il est alors naturel de choisir les probabilités que la pièce tombe sur
pile ou face égales à un demi. À la question de quel coté va tomber la pièce, la
réponse du probabiliste n’est alors pas déterministe mais statistique : la pièce a une
chance sur deux de tomber sur pile ou sur face.
4 CHAPITRE 1. LE FORMALISME DE LA THÉORIE DES PROBABILITÉS

Dans les prochains paragraphes, nous précisons le formalisme général de la théo-

rie des probabilités, c’est-à-dire le cadre mathématique rigoureux dans lequel se
formule cette théorie. Ce formalisme a été introduit au début du vingtième siècle
par le mathématicien russe A. Kolmogorov.

1.1 Espace de probabilité

Avant toute chose, nous commençons par énoncer quelques rappels élémentaires
de théorie des ensembles ainsi que de combinatoire (appelée aussi dénombrement)
qui nous seront indispensables dans la suite.

1.1.1 Quelques rappels

Rappels de théorie des ensembles
Étant donnés deux ensembles A et B, on appelle l’union de A et B et on note
A∪B l’ensemble formé des éléments qui appartiennent à l’ensemble A ou à l’ensemble
B. On appelle intersection de A et B et on note A∩B l’ensemble formé des éléments
qui appartiennent à l’ensemble A et l’ensemble B. Si l’intersection de A et B est
vide, i.e. A ∩ B = ∅, on dit que les ensembles A et B sont disjoints. Dans ce cas,
l’union de A et B est dite union disjointe, et l’on note A t B.

A B A∪B A∩B

Figure 1.1 – Union et intersection de deux ensembles

Plus généralement, étant donnés des ensembles (Ai )i∈I indexés par un ensemble
d’indice I, on note ∪i∈I Ai l’ensemble des éléments qui appartiennent à l’un des Ai
et ∩i∈I Ai l’ensemble des éléments qui appartiennent à tous les Ai , de sorte que
S
— x ∈ i∈I Ai signifie que x appartient à l’un des ensembles Ai ;
T
— x ∈ i∈I Ai signifie que x appartient à tous les ensembles Ai .
Soient trois ensembles A, B et Ω tels que A ⊂ Ω et B ⊂ Ω . On appelle complémen-
taire de A (dans Ω) et on note Ac l’ensemble des éléments de Ω qui ne sont pas dans
A. On désigne par B privé de A et on note B\A, l’ensemble des éléments de B qui
ne sont pas dans A, c’est-à-dire B ∩ Ac .
Si (Ai )i∈I est une famille d’ensembles inclus dans Ω, on a alors les relations :
!c !c
[ \ \ [
Ai = Aci , Ai = Aci .
i∈I i∈I i∈I i∈I
1.1. ESPACE DE PROBABILITÉ 5

Figure 1.2 – Soutraction de deux ensembles.

Par exemple, si l’on considère les ensembles G et A des germanophones et des an-
glophones dans la population francaise, le complémentaire de G ∩ A est Gc ∪ Ac ,
i.e. le contraire de “parler allemand et anglais” et “ne pas parler allemand ou ne pas
parler anglais.
On appelle cardinal de A et on note Card(A) ou encore #A le nombre d’éléments
qu’il contient. Si A et B sont des ensembles finis, on a la relation

Card(A) + Card(B) = Card(A ∪ B) + Card(A ∩ B).

Étant donné un ensemble Ω, on désigne par P(Ω) l’ensemble de ses parties. Par
exemple, si Ω = {0, 1}, alors P(Ω) = {∅, {0}, {1}, {0, 1}}. Si l’ensemble Ω est fini de
cardinal n, alors on a Card(P(Ω)) = 2n .
On rappelle les notations usuelles concernant les sommes et les produits, si a1 , a2 , . . . , an
sont des nombres réels :
n
X n
Y
ai = a1 + a2 + . . . + an , ai = a1 × a2 × . . . × an .
i=1 i=1

Rappels de combinatoire
Soit A un ensemble à n éléments. Le nombre de permutations des éléments de
A est appelé factorielle n, que l’on note n!. Ce nombre est égal à

n! := n × (n − 1) × (n − 2) × · · · × 2 × 1.

Par exemple, il y a 6 = 3! permutations possibles de 3 symboles a, b, c : (a, b, c),

(a, c, b), (b, a, c), (b, c, a), (c, a, b), (c, b, a).
6 CHAPITRE 1. LE FORMALISME DE LA THÉORIE DES PROBABILITÉS

Remarque 1.1.1. Tous les élements sont ici supposés distinguables et on tient
compte de l’ordre des éléments.
R∞
On peut aussi définir la factorielle grâce à la fonction Γ : Γ(x) = 0 ux−1 e−u du qui a
les propriétés suivantes : Γ(n+1) = n! pour n entier et Γ(x+1) = xΓ(x). La formule
de Stirling permet de construire une estimation asymptotique de la factorielle
√ 1 1
n! ≈ nn e−n 2πn(1 + + + . . .).
12n 288n2
Le nombre de façons de choisir p éléments de A parmi les n est appelé arrangement
de p objets parmi n. Il est souvent noté Apn et vaut :

n!
Apn := = n × (n − 1) × (n − 2) × · · · × (n − p + 1).
(n − p)!

Remarque 1.1.2. Ici encore, on tient compte de l’ordre des éléments.

Le nombre de façons de choisir p éléments de A parmi les n éléments sans tenir

compte de l’ordre est appelé combinaison de p objets parmi n. Il est noté Cnp ou
encore (np ) et vaut :
n! Ap
Cnp := = n.
p!(n − p)! p!
On a les propriétés suivantes :
n
X
p−1 p
Cn0 = Cnn = 1, Cnp = Cnn−p , Cnp = Cn−1 + Cn−1 , Cnp = 2n .
p=1

Quelques exercices d’entrainement

Exercice 1 :
Combien existe-t-il de plaques minéralogiques à 7 caractères (les 2 premiers étant des
lettres et les 5 autres des chiffres) ? Même question si l’on impose que les répétitions
de lettres ou de chiffres sont exclues.
Correction : Si on autorise les répétitions, on a 26 × 26 choix pour les lettres, et
10 × 10 × ... × 10 = 105 pour les chiffres, soit au total : N = 262 × 105 possibilités. Si
les répétitions sont proscrites, alors on a 26 × 25 choix pour les lettres et 10 × 9 ×
8 × 7 × 6 choix pour les chiffres, soit au total : N = 26 × 25 × 10 × 9 × 8 × 7 × 6 =
19656000 possibilités.
Exercice 2 :
On doit asseoir sur un même rang 4 allemands, 3 français, et 3 anglais ; les gens de
même nationalité devant rester groupés. Combien de dispositions sont possibles ?
Correction : Les personnes de même nationalité devant rester groupées, on peut
tout d’abord choisir l’ordre des 3 nationalités sur le rang : pour cela on N = 3! = 6
configurations possibles :
D F GB D GB F F D GB F GB D GB D F GB F D
1.1. ESPACE DE PROBABILITÉ 7

Ensuite, on peut permuter les personnes au sein d’une même nationalité, au total il
y a donc N = 6 × 4! × 3! × 3! configurations.

Exercice 3 :
Combien existe-t-il d’arrangements différents avec les lettres des mots suivants : a)
pinte ; b) proposition ; c) Mississipi ; d) arrangement ?
Correction : Dans le mot "pinte" chaque lettre apparaît une seule fois, le nombre
d’arrangements de lettres distincts que l’on peut former est donc 5! = 120. Dans le
mot "proposition", il y a 11 lettres dont 2 "p", 3 "o", 2 "i". Pour ne pas compter
plusieurs fois le même arrangement (par exemple, si on ne regarde que les "p",
"pproosition" apparaît deux fois, si on ne regarde que les "o", "oooprpsitin" apparaît
3! = 6 fois...) on est amené à diviser le nombre des permutations possibles des lettres
par 2! × 3! × 2! = 24. Le nombre d’arrangements distincts est donc
11!
N= = 1663200.
2! × 3! × 2!
De même pour "Mississipi", il y a 10 lettres dont 4 "i" et 4 "s", le nombre de
10!
possibilités est alors N = 4!×4! = 6300. Pour "arrangement", on trouve

11!
N= = 2494800.
2! × 2! × 2! × 2!

Exercice 4 :
On veut former un comité de 7 personnes, constitué de 2 démocrates, 2 républi-
cains, et 3 indépendants. On a le choix parmi 6 démocrates, 5 républicains, et 4
indépendants. Combien de choix sont possibles ?
Correction : On détermine le nombre de possibilités dans chacune des 3 obédiences,
le nombre total de choix possibles est alors le produit de ces trois nombres. Pour les
démocrates, on a C62 choix, pour les républicains C52 , et pour les indépendants C43 .
Le nombre comités distincts que l’ont peut ainsi former est :

N = C62 × C52 × C43 = 600.

8 CHAPITRE 1. LE FORMALISME DE LA THÉORIE DES PROBABILITÉS

Nous pouvons maintenant introduire la notion fondamentale d’espace de probabilité.

Il s’agit d’un triplet (Ω, F, P), où Ω est un ensemble, F une tribu, et P une mesure
de probabilité. Nous donnons la définition et le rôle de ces trois objets dans les
prochains paragraphes.

1.1.2 Univers des possibles

Comme indiqué ci-dessus, le premier élément Ω d’un espace de probabilité (Ω, F, P)
est un ensemble. Plus précisément, on a la définition suivante :

Définition 1.1.3. Étant donnée une expérience aléatoire, on appelle univers des
possibles, et l’on note souvent Ω, l’ensemble des résultats possibles de l’expérience.

La description explicite de l’ensemble Ω est la première étape fondamentale dans la

modélisation d’un phénomène aléatoire. Comme nous le verrons plus loin, le choix
de Ω n’est pas toujours unique. Les pseudo-paradoxes qui apparaissent parfois entre
deux protagonistes concernant une expérience où intervient le hasard relèvent le plus
souvent de deux choix distincts d’ensembles des possibles. Aussi est-t-il important
de bien choisir l’ensemble Ω avec lequel on travaille, et de se tenir à ce choix.

Exemple 1.1.4. Voici quelques expériences aléatoires et les ensembles des possibles
correspondants :
1. On jette un dé. L’ensemble Ω est alors l’ensemble {1, 2, 3, 4, 5, 6} à 6 éléments.
Ici, l’élément ω = 2 ∈ Ω signifie que la face visible du dé après le lancer est
2.
2. On jette deux dés. L’ensemble Ω est alors l’ensemble {1, 2, 3, 4, 5, 6}2 c’est-à-
dire Ω = {(i, j), i, j ∈ {1, 2, 3, 4, 5, 6}} = {(1, 1), (2, 1), (3, 6), . . .}. L’élément
ω = (3, 5) ∈ Ω correspond à un lancer où le premier dé donne 3 et le second
dé donne 5 ;
3. On joue dix fois à pile ou face. On a alors Ω = {pile, face}10 . On peut aussi
choisir pour ensemble des possibles Ω0 = {pile, face, tranche}10 si l’on veut
tenir compte du fait que la pièce peut tomber sur la tranche ;
4. On fait un sondage auprès de 1000 personnes à la sortie d’un référendum. On
a alors Ω = {oui, non, blanc}1000 ;
5. On distribue une main au poker. L’ensemble des possibles correspondant
à cette expérience est alors Ω = {choix de 5 cartes parmi 52} qui a pour
cardinal le coefficient binomial 52
5
.

Remarque 1.1.5. Il n’est pas toujours possible de décrire de façon rigoureuse l’uni-
vers des possibles. On peut penser par exemple à l’expérience aléatoire de la météo
du lendemain ! Néanmoins, dans les cas simples que nous envisagerons dans la suite,
on peut la plupart du temps décrire explicitement l’ensemble Ω.
1.1. ESPACE DE PROBABILITÉ 9

1.1.3 Tribu et évènements

Dans la suite, on va vouloir calculer la probabilité de certaines parties de l’en-
semble des possibles Ω. Par exemple, lorsque l’on jette deux dés, l’ensemble des
possibles Ω est {1, 2, 3, 4, 5, 6}2 , et l’on voudrait calculer la probabilité que le pre-
mier dé donne 2 et le second est impair, c’est-à-dire la probabilité de l’ensemble :
{(2, j), j = 1, 3, 5}.
Définition 1.1.6. On appelle tribu et on note F l’ensemble des parties de Ω dont
on pourra calculer la probabilité. Lorsque l’ensemble Ω est fini ou dénombrable, on
choisira pour F l’ensemble de toutes les parties de Ω c’est-à-dire :
F = P(Ω).
Définition 1.1.7. Les éléments de F = P(Ω) sont appelés des évènements. On dit
encore que ce sont des ensembles mesurables par rapport à la tribu F.
Le texte qui suit, en miniature, pourra être ommis par le lecteur, il concerne la “vraie” définition de la notion de
tribu. En effet, sauf lorsque Ω est fini ou dénombrable, on ne peut pas s’intéresser à l’ensemble P(Ω) de toutes les
parties de Ω, celui-ci étant en quelque sorte “trop gros”. On se restreindra donc à un sous-ensemble F de P(Ω), qui
constituera l’ensemble des parties dont on peut calculer la probabilité. Afin d’obtenir un modèle aussi cohérent que
possible, il importe néanmoins d’imposer certaines conditions de stabilité à l’ensemble F : par union, intersection,
passage au complémentaire, etc. Aussi, voici la “vraie” notion de tribu.

Définition 1.1.8. Soit Ω un ensemble et F un sous-ensemble de parties de Ω, i.e. F ⊂ P(Ω). On dit que F est une
tribu si elle vérifie les 3 conditions suivantes :
1. Ω ∈ F ;
2. si A appartient à F , alors son complémentaire Ac appartient aussi à F ;
3. si (An )n∈N est une suite d’éléments de F , alors ∞
S
n=0 An appartient à F .

On vérifie sans problème à partir des trois axiomes ci-dessus que toute tribu F contient l’ensemble vide ∅, est stable
par union finie, intersection finie ou dénombrable. Ainsi, on retiendra qu’une tribu est stable par combinaisons au
plus dénombrables d’opérations usuelles sur les ensembles, bref par toutes les manipulations classiques.

Exemple 1.1.9. Voici trois exemples classiques de tribus :

— La tribu triviale : F = {∅, Ω} ;
— La tribu engendreée par une partie A de Ω : F = {∅, A, Ac , Ω} ;
— La tribu pleine : F = P(Ω).

Exemple 1.1.10. On jette deux dés discernables. L’ensemble des résultats possibles est alors

Ω = {(i, j), i, j ∈ {1, 2, 3, 4, 5, 6}}.

La tribu engendrée par le singleton {(1, 1)} est composée des quatre évènements {∅, (1, 1), Ω\(1, 1), Ω}. Si on choisit
la tribu pleine F = P(Ω), l’évènement “la somme des deux dés est supérieure ou égale à dix” correspond à l’ensemble
{(5, 5), (5, 6), (6, 5)} ; si on introduit les deux ensembles

A = {les deux dés sont pairs}, et B = {les deux sont distincts},

alors A ∩ B correspond à l’évènement {(2, 4), (4, 2), (2, 6), (6, 2), (4, 6), (6, 4)}.

En pratique, lorsque Ω est fini ou dénombrable, on considère donc en général la tribu pleine P(Ω). En revanche, si
Ω n’est pas dénombrable, comme c’est le cas dans l’exemple d’une suite infinie de lancers (Ω = {pile, face}N ), on
ne considérera pas la tribu F = P(Ω), mais une tribu plus petite.

Le couple (Ω, F) est appelée espace mesurable ou encore espace probabilisable. Pour
compléter la description de la notion d’espace de probabilité, il nous reste à intro-
duire la notion de mesure de probabilité. C’est l’objet du prochain paragraphe.
10 CHAPITRE 1. LE FORMALISME DE LA THÉORIE DES PROBABILITÉS

1.1.4 Probabilité
Une fois fixés un univers Ω et une tribu F, on peut définir proprement ce qu’est
une probabilité P sur (Ω, F) et par suite un espace de probabilité (Ω, F, P) : à chaque
évènement, on associe un nombre positif compris entre 0 et 1, sa probabilité.

Définition 1.1.11. On appelle probabilité sur (Ω, F) une application P de F dans

l’intervalle [0, 1] telle que :
1. P(Ω) = 1 ;
2. pour toute famille
S au plus dénombrable
P d’évènements deux à deux disjoints
(An )n>0 on a P( n>0 An ) = n>0 P(An ).
Le triplé (Ω, F, P ) est alors appelé espace de probabilité ou encore espace probabilisé.

De l’axiomatique de Kolmogorov, on déduit aisément les propriétés suivantes :

Proposition 1.1.12. Soit (Ω, F, P) un espace de probabilité. Alors on a

1. P(∅) = 0 ;
2. pour tout A ∈ F, P(Ac ) = 1 − P(A) ;
3. pour tout A, B ∈ F tels que A ⊂ B, P(A) 6 P(B) ;
4. pour tout A, B ∈ F, P(A ∪ B) = P(A) + P(B) − P(A ∩ B) ;
S P
5. Si (An )n>0 est une suite d’évènements, alors P( n>0 An ) 6 n>0 P(An ).
Il n’y a égalité que si les évènements An sont deux à deux disjoints.

Proposition 1.1.13 (Continuité monotone séquentielle). Soient (Ω, F, P) un espace

de probabilité et (An )n>0 une suite d’évènements.
1. Si la suite An est croissante, c’est-à-dire si A0 ⊂ A1 ⊂ . . . ⊂ An ⊂ . . ., alors
!
[
P An = lim P(An ) ;
n→∞
n>0

2. Si la suite An est décroissante, c’est-à-dire si A0 ⊃ A1 ⊃ . . . ⊃ An ⊃ . . .,

alors !
\
P An = lim P(An ).
n→∞
n>0
1.1. ESPACE DE PROBABILITÉ 11

Figure 1.3 – Une famille croissante d’ensembles.

Figure 1.4 – Suite décroissante d’ensembles.

12 CHAPITRE 1. LE FORMALISME DE LA THÉORIE DES PROBABILITÉS

Quelques exemples de calculs de probabilités

Exercice 1 :
Dix athlètes participent à une course que chacun a la même chance d’emporter (pas
d’ex aequo). Ils portent des dossards numérotés de 1 à 10. Quelle est la probabilité
que l’un des coureurs portant les numéros 1, 2 ou 3 l’emporte ?
Correction : On note Ai l’évènement “le coureur au dossard i l’emporte” et A
l’évènement “un des coureurs portant les numéros 1, 2 ou 3 l’emporte”. L’évènement
A s’écrit simplement comme l’union A = A1 ∪ A2 ∪ A3 et les trois évènements sont
disjoints donc
1 1 1 3
P(A) = P(A1 ∪ A2 ∪ A3 ) = P(A1 ) + P(A2 ) + P(A3 ) = + + = .
10 10 10 10

Exercice 2 :
Un sac contient des billes noires et rouges, portant une marque ou non. La probabilité
d’observer une bille rouge et marquée est de 2/10, une bille marquée de 3/10 et une
bille noire de 7/10. Quelle est la probabilité d’observer une bille rouge ou marquée ?
Correction : On note R pour rouge, N pour noire, M pour marquée et M c pour
non marquée. On cherche la probabilité de l’évènement R ∪ M . On a
3 3 2 4
P(R ∪ M ) = P(R) + P(M ) − P(R ∩ M ) = + − = .
10 10 10 10

Exercice 3 :
Lors d’une loterie de Noël, 300 billets sont vendus aux parents d’élèves d’une école ;
4 billets sont gagnants. J’achète 10 billets, quelle est la probabilité pour que je gagne
au moins un lot ?
Correction : L’univers des possibles est ici l’ensemble des combinaisons de 10 billets
parmi les 300 ; il y en a 300
10
. Je ne 10 gagne rien si les 10 billets achetés se trouvent
parmi les 296 billets perdants, ceci arrive avec la probabilité :
296

10
q= 300 .

10

La probabilité p cherchée est celle de l’évèment complémentaire :

296

10
p=1−q =1− 300
≈ 0.127.
10
1.1. ESPACE DE PROBABILITÉ 13

Proposition 1.1.14. Soit (An )n∈N une Fsuite d’évènements qui constituent une par-
tition de l’ensemble Ω c’est-à-dire Ω = n∈N An . Alors pour tout B ∈ F, on a
X
P(B) = P(B ∩ An ).
n

Figure 1.5 – Probabilité et partition.

Exemple 1.1.15. Un étudiant a les probabilités suivantes d’avoir la note i à un

module, le module étant noté sur 10 i.e. i = 1 . . . 10. Quelle est la probabilté qu’il
valide son module, c’est-à-dire qu’il obtienne une note supérieure ou égale à 5 ?

Note 0 1 2 3 4 5 6 7 8 9 10
Proba 1/11 0 0 1/11 1/11 2/11 2/11 2/11 1/11 1/11 0

On note B l’évèment “il valide son module” et Ai l’évèment “il obtient la note i. Les
Ai forment une partition de l’ensemble des notes possibles et l’on a donc :
10
X 10
X
P(B) = P(B ∩ Ai ) = 0 + P(Ai ) = 8/11.
i=0 i=5

Remarque 1.1.16. Étant donné un espace probabilisable (Ω, F), le choix de la pro-
babilité P n’est bien sûr pas unique. Ce choix doit se faire en accord avec l’expérience
aléatoire que l’on souhaite modéliser. Par exemple, si on joue à pile ou face et que
l’on précise que la pièce est équilibrée, on choisira naturellement P de sorte que

P(pile) = P(face) = 1/2.

En revanche, si l’on précise que la pièce est truquée, on préférera choisir P de sorte
que P(pile) 6= P(face).
14 CHAPITRE 1. LE FORMALISME DE LA THÉORIE DES PROBABILITÉS

Remarque 1.1.17. Au risque de se répéter, insistons sur le fait que dans la modé-
lisation d’une expérience aléatoire, l’espace de probabilité (Ω, F, P) avec lequel on
travaille n’est a priori pas unique. Il résulte d’un choix, et que ce choix doit pouvoir
être justifié :
— le choix de l’ensemble des possibles Ω n’est pas unique, pensez au jeu de
pile ou face avec Ω1 = {pile, face} et Ω2 = {pile, face, tranche} ;
— le choix de la tribu n’est pas unique, on peut choisir la tribu pleine, la tribu
engendrée par un évènement, etc. ;
— le choix de la probabilité P n’est pas unique comme indiqué dans la re-
marque précédente.
L’exemple suivant est caractéristique. L’énoncé est n’est pas assez précis, de sorte
que plusieurs choix de modélisations sont possibles et donc plusieurs réponses à la
question posée sont envisageables. Il n’y a pas une réponse meilleure que l’autre :
elles répondent à des questions différentes !
Exemple 1.1.18. On tire une corde au hasard dans un disque de rayon R. Quelle
est la probabilité que la longueur ` de la corde soit supérieure à R ?

Figure 1.6 – Dans les trois exemples, on tire uniformément selon la longueur, la
distance au centre, le milieu de la corde.

1. Dans ce premier cas, on choisit ici de modéliser le hasard en supposant que

longueur de la corde est choisie uniformément parmi toutes les longueurs
possibles. La longueur ` varie ici continûment dans [0, 2R], de sorte que la
probabilité cherchée vaut 1/2 ;
2. On décide maintenant de modéliser le hasard en supposant que c’est la dis-
tance au centre de la corde qui est choisie uniformément au hasard. La lon-
gueur ` est donc déterminée par la distance √
d de la corde au centre√
du disque.
2 2
` = R − d > R ⇔ d 6 3/2R, de
Ici, d varie continûment dans [0, R], et√
sorte que la probabilité cherchée vaut 3/2 ;
3. Enfin, on décide de modéliser l’expérience en supposant que c’est la milieu
M de la corde qui est choisi uniformément dans le disque.
√ Dans ce cas, ` > R
a lieu ssi M est dans le disque concentrique de rayon 3/2 de sorte que la
probabilité cherchée vaut 3/4.
1.2. EXEMPLES D’ESPACES DE PROBABILITÉS 15

1.2 Exemples d’espaces de probabilités

Afin de se familiariser avec les notions introduites ci-dessus, on donne maintenant
des exemples d’expériences aléatoires et les espaces de probabilités correspondants.

1.2.1 Probabilité uniforme sur un ensemble fini

Loi uniforme pour un dé
Reprenons l’exemple du lancer de dé. On a vu que l’univers des possibles est est
Ω = {1, 2, 3, 4, 5, 6} de cardinal 6. On munit Ω de la tribu des parties F = P(Ω).
On vérifie alors que l’application
Card(A)
P : F → [0, 1], A 7→ P(A) := ,
6
est bien une mesure de probabilité. Ainsi, dans cette modélisation, la probabilité
d’obtenir un chiffre plus grand que 5 avec un lancer est
2 1
P({5} ∪ {6}) = P({5, 6}) = = .
6 3

Loi uniforme sur un ensemble fini

Plus généralement, dès qu’on considère une expérience aléatoire où Card(Ω),
le nombre de résultats possibles, est fini, et que parmi ces résultats aucun n’est
privilégié, on choisira naturellement la tribu des parties F = P(Ω) et la probabilité
dite uniforme définie de la façon suivante :
Card(A)
P(A) = , pour tout A ∈ F.
Card(Ω)
Par exemple, si on joue trois fois de suite à pile ou face (on note p, f pour simplifier)
avec une pièce équilibrée, l’ensemble des possibles est Ω = {p, f}3 qui a pour cardinal
23 = 8. Notons A l’évènement le premier et le troisième lancer donnent pile, c’est-à-
dire A = {(p, p, p), (p, f, p)}. Alors
Card(A) 2 1
P(A) = = 3 = .
Card(Ω) 2 4
Remarque 1.2.1. La probabilité uniforme sur un ensemble fini est encore appe-
lée équiprobabilité. On dit alors que tous les évènements élémentaires ω ∈ Ω sont
équiprobables.

1.2.2 Probabilité sur un ensemble au plus dénombrable

Loi générale sur un ensemble fini
On a vu que lorsqu’on a équiprobabilité sur un univers fini, la mesure de pro-
babilité P est celle qui à tout évènement A associe le rapport de son cardinal au
16 CHAPITRE 1. LE FORMALISME DE LA THÉORIE DES PROBABILITÉS

cardinal de Ω. En d’autres termes Ω = {ω1 , . . . , ωn } et pour tout i = 1, . . . , n :

pi = P({ωi }) = 1/n. Supposer que l’on n’a pas équiprobabilité des évènements
élémentaires ωi revient à considérer une suite (p1 , . . . , pn ) de nombres positifs et
sommant à 1, mais dont tous les coefficients pi ne sont pas égaux. On définit alors
encore une mesure de probabilité sur P(Ω) en considérant pour tout évènement
A ∈ P(Ω) : X
P(A) = pi
i,ωi ∈A

où la notation “i, ωi ∈ A” signifie que la somme est effectuée sur l’ensemble des
indices i pour lesquels ωi appartient à A.

Exemple 1.2.2. On lance 3 fois de suite une pièce équilibrée et on compte le nombre
de fois où pile est apparu. On a donc Ω = {0, 1, 2, 3}, mais il n’y a pas équiprobabilité
puisque les probabilités élémentaires sont (1/8, 3/8, 3/8, 1/8).

Exemple 1.2.3. On lance deux dés équilibrés et on note S la somme des deux
lancers. L’ensemble des valeurs possibles pour S est Ω = {2, 3, . . . , 11, 12}. Les
probabilités pour les valeurs possibles de S sont alors :
k 2 3 4 5 6 7 8 9 10 11 12
P(S = k) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36

Loi sur un ensemble dénombrable

Si on veut construire une probabilité P sur un ensemble infini dénombrable,
typiquement sur (N, P(N)), on ne peut plus avoir équiprobabilité des évènements
élémentaires {n}. Supposons en effet que pour tout n ∈ N on ait P({n}) = p > 0,
alors l’additivité de P imposerait que :
X X
P(N) = P({n}) = p = +∞
n>0 n>0

ce qui est en contradiction avec la condition P(N) = 1. Une façon de construire une
probabilité sur (N, P(N)) est de généraliser le procédé que l’on vient de voir pour les
ensembles
P finis : considérer une suite (pn )n>0 de nombres positifs telle que la série
n>0 pn soit convergente et de somme 1. Comme précédemment, on définit alors
pour tout événement A ∈ P(N) :
X
P(A) = pn .
n,n∈A

Exemple 1.2.4. On lance une pièce équilibrée jusqu’ à ce que pile apparaisse (tou-
jours en excluant le cas improbable où pile n’apparaît jamais). On a donc Ω =
{1, 2, . . .} = N∗ . On a clairement p1 = P({1}) = 1/2, p2 = P({2}) = 1/4 et de
façon générale pn = P({n}) = 1/2n . On reconnaît dans les pn les termes d’une suite
géométrique dont la somme vaut bien 1 :
X
2−n = 1.
n>1
1.2. EXEMPLES D’ESPACES DE PROBABILITÉS 17

1.2.3 Espace de probabilité continu

Donnons à présent quelques exemples de probabilités sur des espaces continus.
Considérons ainsi un intervalle Ω =]a, b[⊂ R.
On est ici dans un cas où l’ensemble Ω n’est pas dénombrable et où la tribu P(Ω) est “trop grosse”. Aussi, on
considère une tribu F plus “petite”, celle formée des intersections / unions dénombrables d’intervalles du type [c, d[
(on parle de tribu borelienne).

Supposons que l’on dispose d’une fonction positive f définie sur l’intervalle [a, b] et
telle que Z b
f (x)dx = 1.
a
On peut alors définir une probabilité P sur F de la façon suivante : pour tout
intervalle A = [c, d[ dans [a, b]
Z Z d
P(A) = f (x)dx = f (x)dx.
A c

f(x)

a c d b x

Figure 1.7 – Probabilité sur un intervalle via une densité.

Exemple 1.2.5 (Probabilité uniforme continue). Un bus est censé passer toutes les
dix minutes à République pour se rendre à Beaulieu. Un passager arrive à l’arrêt
de bus. On cherche à modéliser son temps d’attente T . A priori, on peut supposer
que ce temps d’attente est dans l’intervalle Ω = [0, 10]. On munit cet ensemble de
la tribu borélienne. N’ayant pas d’information sur l’heure théorique de passage du
bus et l’heure d’arrivée du passager, on peut supposer que le temps d’attente est
uniforme, i.e. pour tout 0 < c < d < 10 :
Z d
1
P(T ∈ [c, d[) = |d − c| = f (x)dx
10 c

R 10 la fonction f est constante égale à 1/10 sur l’intervalle [0, 10] de sorte que
où
0
f (x)dx = 1.
18 CHAPITRE 1. LE FORMALISME DE LA THÉORIE DES PROBABILITÉS

Exemple 1.2.6. On cherche à modéliser le temps de demi-vie d’un atome radioactif.

Ce temps T est aléatoire et l’expérience montre qu’il peut être très grand. On sup-
posera que T est à valeurs dans Ω = R+ = [0, +∞[. Là encore, on suppose Ω muni
de sa tribu borélienne. Des considérations physiques montrent que la probabilité
ci-dessous décrit bien le temps de demi-vie T :
Z d
P(T ∈ [c, d[) = e−x dx, pour 0 < c < d < +∞.
c
Chapitre 2

Indépendance et conditionnement

Nous introduisons à présent deux notions fondamentales en théorie des probabili-

tés. La première, le conditionnement, permet de prendre en compte une information
supplémentaire dans le calcul d’une probabilité. La seconde, l’indépendance, rend
compte du fait que deux évènements n’ont aucune incidence l’un sur l’autre, et
donc que l’on peut évaluer la probabilité du premier indépendamment du fait que
le second ait lieu ou non.

2.1 Probabilité conditionnelle

La notion de conditionnement nous sera très utile dans la suite puisqu’elle permet
par exemple de tenir compte de l’information dont on dispose déjà pour évaluer la
probabilité d’un nouvel évènement. Même en l’absence de toute chronologie sur les
évènements, un détour par un conditionnement astucieux nous permettra souvent
d’arriver à nos fins.

2.1.1 Définition
Dans tout ce qui suit, (Ω, F, P) est un espace de probabilité arbitraire et tous
les ensembles considérés sont des évènements de la tribu F. Nous commençons par
définir la probabilité conditionnelle sachant un évènement.

Définition 2.1.1 (Probabilité conditionnelle). Soit A un évènement tel que P(A) > 0.
Pour tout évènement B, on définit la probabilité de B sachant A par :

P(B ∩ A)
P(B|A) := .
P(A)

On définit ainsi une nouvelle probabilité sur (Ω, F), notée P(.|A) ou encore PA (.),
et appelée probabilité conditionnelle sachant A.

La vérification que P(.|A) est bien une probabilité, i.e. vérifie bien les critères de la
définition 1.1.11 est laissée en exercice.
20 CHAPITRE 2. INDÉPENDANCE ET CONDITIONNEMENT

Concrètement, l’expression “probabilité de B sachant A” signifie “probabilité que B

se réalise sachant que A s’est réalisé”. La probabilité de B peut être faible alors que
la probabilité de B sachant A est grande (et réciproquement).

Exemple 2.1.2. Une urne contient 90 boules noires, 9 boules blanches et 1 boule
rouge. On tire une boule au hasard : quelle est la probabilité qu’elle soit blanche ? La
réponse est bien sûr P(B) = 9/100, donc une probabilité faible. On tire une boule
au hasard : quelle est la probabilité qu’elle soit blanche, sachant que la boule tirée
n’est pas noire ? Si on note A l’évènement “La boule tirée n’est pas noire”, on a donc
P(A) = 1/10 et la réponse à la question est :

P(B ∩ A)
P(B|A) = = 9/10,
P(A)

donc une grande probabilité.

On donne maintenant quelques propriétés relatives au conditionnement.

Proposition 2.1.3 (Inversement du conditionnement). Soient A et B deux évène-
ments tels que P(A) > 0 et P(B) > 0. Alors on a la relation suivante :

P(B)
P(B|A) = P(A|B) × .
P(A)

Démonstration. Il suffit d’appliquer deux fois la définition de la probabilité condi-

tionnelle :
P(A ∩ B) P(A|B)P(B)
P(B|A) = = .
P(A) P(A)

Proposition 2.1.4 (Formule des probabilités composées). Soit A0 , T A1 , ..., An une

suite d’évènements ayant une intersection commune non nulle, i.e. nk=0 Ak 6= ∅, on
a alors
n
!
\
P Ak = P(A0 )P(A1 |A0 )P(A2 |A0 ∩ A1 ) . . . P(An |A0 ∩ A1 . . . ∩ An−1 )
k=0

Démonstration. On commence par noter que tous les conditionnements sont justifiés
puisque par monotonie :

0 < P(A0 ∩ . . . ∩ An−1 ) 6 P(A0 ∩ . . . ∩ An−2 ) 6 . . . 6 (A0 ∩ A1 ) 6 P(A0 ).

Il reste à remarquer qu’en développant les termes du produit via la définition de

la probabilité conditionnelle P(B|A) = P(B ∩ A)/P(A), tous se télescopent sauf le
dernier.
2.1. PROBABILITÉ CONDITIONNELLE 21

Remarque 2.1.5. On peut se servir de ce résultat comme d’une poupée russe : soit à
calculer P(An ), on introduit une suite croissante d’évènements A0 ⊂ A1 ⊂ . . . ⊂ An
et la formule devient tout simplement :

P(An ) = P(A0 )P(A1 |A0 )P(A2 |A1 ) . . . P(An |An−1 ).

Sous les mêmes hypothèses que celles de la proposition 1.1.14, on a la proposition

suivante :
Proposition 2.1.6 (Formule des probabilités totales). Soit (An )n∈N une suite
F d’évè-
nements qui constituent une partition de l’ensemble Ω c’est-à-dire Ω = n∈N An .
Alors pour tout B ∈ F, on a
X
P(B) = P(B|An )P(An ).
n

Figure 2.1 – Probabilité conditionnelle et partition.

Remarque 2.1.7. En pratique, on utilise souvent cette formule des probabilités

totales en conditionnant successivement par un évènement et son contraire, c’est-
à-dire en prenant tout simplement une partition de Ω du type Ω = A t Ac , ce qui
donne
P(B) = P(B|A)P(A) + P(B|Ac )P(Ac ).
Considérons l’exemple d’une urne qui contient des boules blanches et noires, mar-
quées ou non. On suppose que parmi les boules marquées il y a 30% de boules
blanche et parmi les non marquées 60%. Par ailleurs, on sait que 80% des boules
sont marquées. Quelle est la probabilité de tirer une boule blanche ? On note B pour
blanche et A pour marquée, alors
30 80 60 20 36
P(B) = P(B|A)P(A) + P(B|Ac )P(Ac ) = × + × = .
100 100 100 100 100
22 CHAPITRE 2. INDÉPENDANCE ET CONDITIONNEMENT

2.1.2 Formule Bayes

De la fomule d’inversement du conditionnement et de la formule des probabilités
totales, on déduit la formule de Bayes :
Proposition 2.1.8 (Formule de Bayes). Soit (An )n∈N uneFsuite d’évènements qui
constituent une partition de l’ensemble Ω c’est-à-dire Ω = n∈N An . Alors pour tout
B ∈ F, on a
P(B|Ai )P(Ai )
P(Ai |B) = P .
n P(B|An )P(An )

Remarque 2.1.9. Lorsque la partition de Ω est du type Ω = A t Ac , la formule de

Bayes s’écrit simplement
P(B|A)P(A)
P(A|B) = .
P(B|A)P(A) + P(B|Ac )P(Ac )

Exemple 2.1.10. Deux machines M1 et M2 produisent respectivement 100 et 200

objets. M1 produit 5% de pièces défectueuses et M2 en produit 6%. Quelle est
la probabilité pour qu’un objet défectueux ait été fabriqué par la machine M1 ?
L’évènement constaté, que l’on note A, est la présence d’une pièce défectueuse et les
causes sont les machines M1 et M2 . Compte tenu des productions de ces machines, on
a P(M1 ) = 31 et P(M2 ) = 23 . De plus, les probabilités conditionnelles de l’évènement
5 6
A selon les machines sont P(A|M1 ) = 100 et P(A|M2 ) = 100 . En reportant ces valeurs
dans la formule générale, on obtient
1 5
3
× 100 5
P(M1 |A) = 1 5 2 6
= ≈ 0.29
3
× 100
+ 3
× 100
17

Exemple 2.1.11. Le quart d’une population est vacciné contre le choléra. Au cours
d’une épidémie, on constate qu’il y a parmi les malades un vacciné pour 4 non-
vaccinés, et qu’il y a un malade sur 12 parmi les vaccinés. Quelle est la probabilité
qu’un non-vacciné tombe malade ?
On note V pour vacciné, N V pour non vacciné, M pour malade, S pour sain. D’après
les hypothèses,
1 1 4 1
P(V ) = , P(V | M ) = , P(N V | M ) = , P(M | V ) = .
4 5 5 12
Par définition, on a
P(N V ∩ M ) P(N V | M )P(M ) 16
P(M | N V ) = = = P(M ).
P(N V ) 1 − P(V ) 15
Or
P(V ∩ M ) P(V ∩ M ) 1
P(M | V ) = = = donc P(V ∩ M ) = 1/48.
P(V ) 1/4 12
2.2. LA NOTION D’INDÉPENDANCE 23

P(V ∩ M ) 5
P(V | M ) = = 1/5 donc P(M ) =
P(M ) 48
Finalement
16 5 1
P(M | N V ) = × = .
15 48 9

2.2 La notion d’indépendance

La notion d’indépendance intervient de façon constante en probabilités. Intui-
tivement, deux évènements sont indépendants si la réalisation de l’un “n’a aucune
influence” sur la réalisation ou non de l’autre. Le but de cette section est de préci-
ser ceci mathématiquement et de l’étendre cette notion à plus de deux évènements.
Dans toute la suite, (Ω, F, P) est un espace probabilisé fixé.

2.2.1 Indépendance de deux évènements

Définition 2.2.1 (Indépendance de deux évènements). On dit que deux évènements
A et B sont indépendants, et on note A ⊥ B, si

P(A ∩ B) = P(A)P(B).

Si A est tel que P(A) > 0, l’indépendance de A et B s’écrit encore P(B|A) = P(B)
et on retrouve la notion intuitive d’indépendance : le fait que A se soit réalisé ne
change rien quant à la probabilité que B se réalise.
Exemple 2.2.2. Voici quelques exemples d’évènements indépendants ou non :
1. On lance un dé deux fois de suite. Soit A l’évènement : “Le premier lancer
donne un nombre pair” et B l’évènement : “Le second lancer donne un nombre
pair”. L’univers naturel est Ω = {(i, j), 1 6 i, j 6 6}, ensemble à 36 éléments
muni de la probabilité uniforme. Il est clair que P(A) = P(B) = 18/36 = 1/2
et que :
P(A ∩ B) = 9/36 = 1/4 = P(A)P(B),
donc A et B sont indépendants.
2. On tire une carte au hasard d’un jeu de 32 cartes. Soit A l’évènement : “La
carte tirée est un 7” et B l’évènement : “La carte tirée est un pique”. On a
P(A) = 1/8 et P(B) = 1/4. L’évènement A ∩ B correspond au tirage du sept
de pique P(A ∩ B) = 1/32. Ainsi on a

P(A ∩ B) = P(A)P(B),

et les évènements A et B sont indépendants.

3. On joue deux fois de suite à pile ou face, Ω = {pile, face}. On désigne par A
et B les évènements “on obtient deux fois pile” et “on obtient au moins une
fois pile”. Alors P(A) = 1/4, P(B) = 3/4, et P(A ∩ B) = 1/4. On a donc
P(A ∩ B) 6= P(A)P(B) et les deux évènements ne sont pas indépendants.
24 CHAPITRE 2. INDÉPENDANCE ET CONDITIONNEMENT

Proposition 2.2.3. Si A et B sont indépendants, alors il en va de même pour :

— les évènements Ac et B ;
— les évènements A et B c ;
— les évènements Ac et B c ;

2.2.2 Indépendance de n évènements

Définition 2.2.4 (Indépendance 2 à 2, indépendance mutuelle). Soit (An )n>1 une suite
d’évènements. On dit qu’ils sont :
— 2 à 2 indépendants si pour tout couple (i, j) d’indices distincts, Ai et Aj
sont indépendants ;
— mutuellement indépendants si pour tout ensemble fini d’indices (i1 , . . . , ik )
distincts, on a
P(Ai1 ∩ . . . ∩ Aik ) = P(Ai1 ) . . . P(Aik ).

Exemple 2.2.5. Pour que 3 évènements (A, B, C) soient :

— 2 à 2 indépendants, il faut que A ⊥ B, A ⊥ C et B ⊥ C, c’est-à-dire

P(A ∩ B) = P(A)P(B), P(A ∩ C) = P(A)P(C), P(B ∩ C) = P(B)P(C);

— mutuellement indépendants, il faut que les 3 relations précédents soient

vérifiées et de plus que

P(A ∩ B ∩ C) = P(A)P(B)P(C).

Exemple 2.2.6. On reprend l’exemple des deux lancers successifs d’un dé et on note
C l’évènement : “La somme des deux lancers est paire”. On a donc P(C) = 1/2. On
vérifie que les évènements (A, B, C) sont 2 à 2 indépendants, mais que :

P(A ∩ B ∩ C) = P(A ∩ B) = 1/4 6= P(A)P(B)P(C) = 1/8.

Remarque 2.2.7. En pratique, ce sera l’indépendance mutuelle qui nous intéressera

et c’est aussi celle que l’on rencontrera le plus souvent. Ainsi, quand on parlera d’une
famille d’évènements indépendants (sans plus de précisions), il faudra désormais
comprendre mutuellement indépendants.
Chapitre 3

Les variables aléatoires et leurs

caractéristiques

Dans ce chapitre, nous introduisons la notion fondamentale de variable aléatoire

(réelle) qui jouera un rôle important dans la suite, aussi bien en théorie des pro-
babilités qu’en statistique. Nous donnons en particulier des exemples classiques de
variables discrètes et continues et nous introduisons certaines de leurs caractéris-
tiques : fonction de répartition, densité, moyenne, variance, et autres moments.

3.1 Variables aléatoires

Nous commençons par donner ici les définitions d’une variable aléatoire et de
la loi d’une variable aléatoire. Dans les prochains paragraphes, nous donnerons de
nombreux exemples de telles variables dans les cas dicret et continu.

Définition 3.1.1. Une variable aléatoire X (réelle) est une application “mesurable”
d’un espace de probabilité (Ω,F,P) dans l’ensemble R des nombres réels.

Remarque 3.1.2. Le terme “mesurable” indique que la fonction considérée doit

“bien” se comporter vis à vis de la tribu F. Précisément, l’image réciproque par
X de tout intervalle doit être un élément de la tribu F.

Exemple 3.1.3. Considérons un jeu de pile ou face avec une pièce équilibrée, que
l’on modélise par un triplet (Ω,F,P) où Ω = {pile, face}, F = P(Ω), et P uniforme.
Si on tombe sur pile, on gagne 10 euros, si on tombe sur face on perd 10 euros. Le
gain G est une variable aléatoire. En effet, c’est une fonction définie sur l’ensemble
Ω et à valeurs dans l’ensemble {−10, 10} ⊂ R, avec

G(pile) = 10, G(face) = −10.

Exemple 3.1.4. Considérons le jet de deux dés, que l’on modélise par un triplet
(Ω,F,P) où Ω = {1, 2, 3, 4, 5, 6}2 = {ω = (ω1 , ω2 ), ω1 , ω2 ∈ {1, 2, 3, 4, 5, 6}}, F est
la tribu des parties F = P(Ω), et P uniforme. On note S la somme des deux dés.
26 CHAPITRE 3. VARIABLES ALÉATOIRES

Alors S est une variable aléatoire. C’est une fonction définie sur l’ensemble Ω et à
valeurs dans l’ensemble {2, 3, . . . , 12} ⊂ R, avec

S(ω) = S(ω1 , ω2 ) := ω1 + ω2 .

Si l’on dispose d’un espace de probabilité (Ω,F,P) et d’une variable aléatoire X :

Ω → X(Ω) ⊂ R, on peut construire de façon naturelle une probabilité sur X(Ω),
l’ensemble des valeurs prises par la fonction X.
Proposition 3.1.5. Pour tout sous-ensemble “mesurable” B de X(Ω), on définit :

PX (B) = P({ω|X(ω) ∈ B}) = P({X −1 (B)}).

Ce faisant, on définit une probabilité sur X(Ω), appelée la loi de X.

Exemple 3.1.6. Considérons le jeu de pile ou face précédent où l’on gagne ou perd
10 euros selon que la pièce tombe sur pile ou face. Comme ci-dessus, on note G
le gain après le lancer. La variable G définit une probabilité sur les gains possibles
G(Ω) = {−10, 10} ⊂ R :

PG ({−10}) := P(G = −10) = P({ω, G(ω) = −10}) = P(face) = 1/2,

PG ({10}) := P(G = −10) = P({ω, G(ω) = 10}) = P(pile) = 1/2.

Exemple 3.1.7. Considérons maintenant l’exemple précédent de la somme S de

deux dés. On obtient alors une probabilité PS sur l’ensemble S(Ω) = {2, 3, . . . , 12},
avec
PS ({2}) := P({ω, S(ω) = 2}) = P({(1, 1)}) = 1/36,
PS ({3}) := P({ω, S(ω) = 3}) = P({(1, 2), (2, 1)}) = 2/36,
PS ({4}) := P({ω, S(ω) = 4}) = P({(1, 3), (3, 1), (2, 2)}) = 3/36,
PS ({5}) := P({ω, S(ω) = 5}) = P({(1, 4), (4, 1), (2, 3), (3, 2)}) = 4/36,
PS ({6}) := P({ω, S(ω) = 6}) = P({(1, 5), (5, 1), (2, 4), (4, 2), (3, 3)}) = 5/36,
PS ({7}) := P({ω, S(ω) = 7}) = P({(1, 6), (6, 1), (2, 5), (5, 2), (3, 4), (4, 3)}) = 6/36,
PS ({8}) := P({ω, S(ω) = 8}) = P({(2, 6), (6, 2), (3, 5), (5, 3), (4, 4)}) = 5/36,
PS ({9}) := P({ω, S(ω) = 9}) = P({(3, 6), (6, 3), (4, 5), (5, 4)}) = 4/36,
PS ({10}) := P({ω, S(ω) = 10}) = P({(4, 6), (6, 4), (5, 5)}) = 3/36,
PS ({11}) := P({ω, S(ω) = 11}) = P({(5, 6), (6, 5)}) = 2/36,
PS ({12}) := P({ω, S(ω) = 12}) = P({(6, 6)}) = 1/36.

3.1.1 Variables aléatoires discrètes

On s’intéresse ici de plus près au cas de variables aléatoires discrètes qui consti-
tuent l’essentiel des variables que nous considérerons dans la suite.

Définition 3.1.8. On appelle variable aléatoire discrète une variable aléatoire X :

Ω → X(Ω) dont l’ensemble d’arrivée X(Ω) est fini ou dénombrable.
3.1. VARIABLES ALÉATOIRES 27

Cela signifie de la fonction X ne peut prendre qu’un nombre fini ou dénombrable de

valeurs x1 , x2 , . . . , xn , . . .. Dans ce cas, la loi PX de la variable X est caractérisée par
la donnée des probabilités des singletons PX ({xi }) = P(X = xi ) := pi , pour tout
i = 1, 2, . . . . Les nombres P pi verifient les propriétés du paragraphe 1.2.2 , à savoir :
pi > 0 pour tout i et i pi = 1. La probabilité d’une partie mesurable A de X(Ω)
est alors donnée par X
P(A) = pi .
i,xi ∈A

Exemples de variables discrètes

Voici quelques exemples classiques de loi discrètes.
Loi de Bernoulli : on dit qu’une variable aléatoire X suit une loi de Bernoulli de
paramètre p ∈ [0, 1] et on note X ∼ B(p), si X est à valeurs dans l’ensemble {0, 1}
et
PX ({0}) = P(X = 0) = 1 − p, PX ({1}) = P(X = 1) = p.
C’est la loi d’un jet de pile ou face ou de n’importe quelle expérience aléatoire qui
n’a que deux issues possibles.
Loi uniforme : on dit qu’une variable aléatoire X suit une loi uniforme sur un
ensemble fini E = {x1 , . . . , xn } et on note X ∼ UE , si X est à valeurs dans l’ensemble
E et
1
P(X = xi ) = , i = 1, . . . , n.
n
La loi uniforme est utilisée lorsque qu’aucun point de l’ensemble d’arrivée n’est
privilégie : chacun a le même poids, ici 1/n.
Loi binomiale : on dit qu’une variable aléatoire X suit une loi binomiale de para-
mètres (n, p) et on note X ∼ B(n, p), si X est à valeurs dans l’ensemble {0, 1, . . . , n}
et
PX ({k}) = P(X = k) = Cnk pk (1 − p)n−k , k ∈ {0, 1, . . . , n}.
Si on joue a pile ou face n fois de suite, la loi binomiale est la loi du nombre de pile
au cours des n lancers.
Loi géométrique : on dit qu’une variable aléatoire X suit une loi géométrique de
paramètres p et on note X ∼ G(p), si X est à valeurs dans l’ensemble {1, 2, . . .} et

PX ({k}) = P(X = k) = p(1 − p)k−1 , k ∈ {1, 2, . . .}.

Si l’on répète un jeu de pile ou face, la loi géométrique est la loi du temps d’apparition
du premier pile.
Loi géométrique bis : on dit qu’une variable aléatoire X suit une loi géométrique
de paramètres p et on note X ∼ G(p), si X est à valeurs dans l’ensemble {0, 1, 2, . . .}
et
PX ({k}) = P(X = k) = p(1 − p)k , k ∈ {0, 1, 2, . . .}.
28 CHAPITRE 3. VARIABLES ALÉATOIRES

Loi de Poisson : on dit qu’une variable aléatoire X suit une loi de Poisson de
paramètres λ et on note X ∼ P(λ), si X est à valeurs dans l’ensemble {0, 1, 2, . . .}
et
e−λ λk
PX ({k}) = P(X = k) = , k ∈ {0, 1, 2, . . .}.
k!
La loi de Poisson peut être vue comme un cas limite de loi binomiale. En effet, on
montre qu’une loi de Poisson est la limite d’une B(n, p) pour laquelle on a n → ∞
et p → 0 et np → λ 6= ∞.

3.1.2 Variables aléatoires continues

Nous introduisons à présent les variables aléatoires continues : ce sont des va-
riables aléatoires qui peuvent prendre un nombre infini (non dénombrable) de va-
leurs, typiquement ce sont les variables à valeurs dans un intervalle de la droite
réelle.

Définition 3.1.9. On dit qu’une variable aléatoire X : Ω → X(Ω) est continue

si l’ensemble de ses valeurs X(Ω) est un intervalle de R. On dit qu’une variable
continue admet une densité f (x) si pour tout intervalle [a, b] ⊂ X(Ω) :
Z b
PX ([a, b]) = P(X ∈ [a, b]) = f (x)dx,
a
R
où f est une fonction continue, positive sur X(Ω) telle que X(Ω)
f (x)dx = 1.

Remarque 3.1.10. Si X est une variable continue et admet une densité f , alors
pour tout x0 ∈ X(Ω), on a PX ({x0 }) = P(X = x0 ) = 0. Autrement, la variable
X a une probabilité nulle de tomber sur un point donné de l’intervalle X(Ω). En
revanche, on a une chance non nulle de tomber dans un petit intervalle autour de
x0 : Z x0 +h
P([x0 − h, x0 + h]) = P(X = [x0 − h, x0 + h]) = f (x)dx > 0.
x0 −h

f (x)

x0 + h
x0 − h
a x0 b

Figure 3.1 – Probabilité sur un intervalle via une densité.

3.1. VARIABLES ALÉATOIRES 29

Exemples de variables continues

Nous donnons à présent des exemples usuels de loi de probabilité sur des intervalles
de R. La loi gaussienne, appelée encore loi normale jouera en particulier un rôle
fondamental dans la suite du cours.
Loi uniforme : on dit qu’une variable aléatoire X suit une loi uniforme sur un
intervalle [a, b] si X est à valeurs dans l’ensemble [a, b] et pour tout[c, d[⊂ [a, b] :
d
d−c
Z
1
PX ([c, d[) = P(X ∈ [c, d[) = = 1dx,
b−a b−a c

autrement dit, X a la densité f (x) ≡ 1/(b − a) sur l’intervalle [a, b].

Loi normale ou gaussienne : on dit qu’une variable aléatoire X suit une loi
normale de paramètres (µ, σ 2 ) et on note X ∼ N (µ, σ 2 ) si X est à valeurs dans R
et pour tout intervalle [a, b] ⊂ R :
Z b
1 (x−µ)2
PX ([a, b]) = P(X ∈ [a, b]) = √ e− 2σ 2 dx,
2π a

(x−µ)2
autrement dit, X a pour densité f (x) = √ 1 e− 2σ 2 sur R.
2πσ

Loi exponentielle : on dit qu’une variable aléatoire X suit une loi exponentielle
de paramètre λ et on note X ∼ E(λ) si X est à valeurs dans [0, +∞[ et pour tout
intervalle [a, b] ⊂ R :
Z b
−λa −λb
PX ([a, b]) = P(X ∈ [a, b]) = e −e = λe−λx dx,
a

autrement dit, X a pour densité la fonction f (x) = λe−λx sur R+ .

30 CHAPITRE 3. VARIABLES ALÉATOIRES

Loi gamma : on dit qu’une variable aléatoire X suit une loi gamma de paramètres
(a, b) et on note X ∼ Γ(a, b) si X est à valeurs dans [0, +∞[ et pour tout intervalle
[c, d] ⊂ R :
Z d
ba
PX ([c, d]) = P(X ∈ [c, d]) = xa−1 e−bx dx,
Γ(a) c
ba
autrement dit, X a pour densité f (x) = Γ(a)
xa−1 e−bx sur R+ .

3.2 Fonction de répartition

Nous introduisons dans ce paragraphe la notion de fonction de répartition d’une
variable aléatoire (discrète ou continue). Cette fonction caractérise la loi d’une va-
riable aléatoire, et nous sera utile dans la suite pour dire qu’une suite de variables
aléatoires converge vers une variable limite.

Définition 3.2.1. Soit X : Ω → X(Ω) une variable aléatoire. On appelle fonction

de répartition de répartition de X, et on note FX , la fonction de R dans l’intervalle
[0, 1] définie par
FX (x) = P(X 6 x).

Proposition 3.2.2. Soit X : Ω → X(Ω) une variable aléatoire. Alors sa fonction de

répartition FX vérifie les propriétés suivantes :
1. FX est croissante.
2. FX est continue à droite.
3. FX (−∞) = 0 et FX (+∞) = 1

Être continu à droite signifie que si la fonction “saute”, sa valeur au point de saut
est la valeur à droite de celui-ci, i.e. les points gris sur la figure ci-après.

FX (x)

Figure 3.2 – Fonction de répartition générique.

Remarque 3.2.3. D’après la définiton de la fonction de répartition, pour tous réels

a et b, avec a < b on a : P(a < X 6 b) = FX (b) − FX (a). En particulier, pour tout
x ∈ R : P(X > x) = 1 − FX (x).
3.2. FONCTION DE RÉPARTITION 31

3.2.1 Fonction de répartition d’une variable discrète

Soit X une variable aléatoire discrète pouvant prendre les valeurs x1 , x2 , . . . , xn , . . .
de probabilités respectivement p1 , p2 , . . . , pn , . . . avec x1 < x2 < . . . < xn < . . ..
Alors la fonction de répartition de X est donnée par la formule :

i=k
X
FX (x) = pi ,
i=1

où k est l’indice tel que xk 6 x < xk+1 . La fonction x 7→ FX (x) est alors une fonction
constante par morceaux, dont le graphe a l’allure ci-dessous.

FX (x)

Figure 3.3 – Fonction de répartition d’une variable discrète.

Exemple 3.2.4. Ci-dessous, la fonction FX lorsque X ∼ B(p). La fonction fait un

“saut” d’une hauteur p en zéro, et d’une hauteur de (1 − p) en un.

0 1

Figure 3.4 – Fonction de répartition d’une variable de Bernoulli B(p).

Exemple 3.2.5. Ci-après, la fonction de répartition d’une variable S de l’exemple

3.1.7, la somme de deux dés. La fonction FS fait un “saut” d’une hauteur 1/36 en
zéro, d’une hauteur de 2/36 en un, d’une hauteur 3/36 en deux etc.
32 CHAPITRE 3. VARIABLES ALÉATOIRES

FS (x)

1/36
0

Figure 3.5 – Fonction de répartition de la variable S (somme de deux dés).

Exemple 3.2.6. Soit X une variable de loi géométrique sur {1, 2, . . .}, i.e. telle que
P(X = k) = p(1 − p)k−1 . Alors, pour tout entier m > 1, on a
+∞
X
P(X 6 m) = 1 − P(X > m) = 1 − p(1 − p)k−1 = 1 − (1 − p)m .
k=m+1

3.2.2 Fonction de répartition d’une variable continue

Soit X une variable aléatoire continue de Rdensité f (x). Alors, la fonction de
x
répartition de X est la primitive de f : FX (x) = −∞ f (u)du. Dans ce cas, la fonction
FX est une fonction continue à gauche et à droite : on peut la tracer sans lever le
stylo.

FX (x)

0
].

Figure 3.6 – Fonction de répartition d’une variable continue.

Exemple 3.2.7. Considérons le cas d’une variable X de loi uniforme sur l’intervalle
[0, 1]. Sa densité fX est constante sur l’intervalle [0, 1] et vaut zéro ailleurs. On en
déduit que FX vaut zéro sur ] − ∞, 0], vaut 1 sur [1, +∞[ et :
Z x Z x
FX (x) = f (u)du = 1 × du = x, pour x ∈ [0, 1].
−∞ 0
3.3. MOMENTS D’UNE VARIABLE ALÉATOIRE 33

FX (x)

0 1

Figure 3.7 – Fonction de répartition d’une variable uniforme.

Exemple 3.2.8. Considérons le cas d’une variable X exponentielle de paramètre λ.

Sa densité fX est nulle sur ] − ∞, 0] et est donnée par fX (x) = λ exp (−λx) sur
[0, +∞[. On en déduit que FX vaut zéro sur ] − ∞, 0], et vaut, pour x > 0 :
Rx Rx
FX (x) = −∞ f (u)du = 0 λ exp (−λu) du

= [− exp (−λu)]x0 = 1 − exp(−λx).

FX (x)

Figure 3.8 – Fonction de répartition d’une variable exponentielle.

3.3 Moments d’une variable aléatoire

Dans cette section, nous nous intéressons aux notions de moyenne et de variance
d’une variable aléatoire. Ces deux notions seront fondamentales dans la partie “statis-
tique” du cours. Nous définissons tout d’abord la notion d’espérance mathématique.

3.3.1 Espérance d’une variable aléatoire

La notion d’espérance généralise la notion bien connue de moyenne. Il s’agit
précisément d’une moyenne pondérée. Dans les deux prochaines sections, nous don-
nons la définition de l’espérance mathématique d’une variable aléatoire discrète puis
d’une variable continue.
34 CHAPITRE 3. VARIABLES ALÉATOIRES

Espérance d’une variable discrète

La notion de moyenne pondérée nous est tous familère, il suffit de penser au calcul de
la moyenne au baccalauréat ou les différentes matières ont des coefficients distincts :
pour un bac S option SVT, un 18 en bio est “plus intéressant” qu’un 18 en sport...
L’espérance d’une variable aléatoire discrète est précisément un moyenne pondérée :

Définition 3.3.1. Soit X une variable aléatoire discrète à valeurs dans un ensemble
au plus dénombrable {x1 , . . . , xn , . . .}. On note pi := P(X = xi ). Alors l’espérance
de X, que l’on note E[X], est donnée par la formule :
∞
X ∞
X ∞
X
E[X] := xi p i = xi PX ({xi }) = xi P(X = xi ).
i=1 i=1 i=1

Plus généralement, si h est une fonction de R dans R, alors l’espérance de la variable

h(X) est donnée par la formule
∞
X ∞
X ∞
X
E[h(X)] := h(xi )pi = h(xi )PX ({xi }) = h(xi )P(X = xi ).
i=1 i=1 i=1

Exemple 3.3.2. Par exemple, si X suit une loi de Bernoulli B(p) sur {0, 1}, alors
l’espérance de X vaut

E[X] = 0 × P(X = 0) + 1 × P(X = 1) = 0 × (1 − p) + 1 × p = p.

Exemple 3.3.3. Par exemple, si X suit une loi uniforme sur {1, 2, . . . , n}, alors
l’espérance de X vaut
E[X] = 1 × P(X = 1) + 2 × P(X = 2) + . . . + n × P(X = n)

1 + 2 + ... + n 1 n(n + 1) n+1

= = × = .
n n 2 2

Espérance d’une variable continue

On peut généraliser la définition précédente au cadre continu, en remplaçant la
somme discrète par une intégrale.
Définition 3.3.4. Soit X une variable aléatoire continue à valeur dans un intervalle
X(Ω) ⊂ R et admettant de densité f (x). Alors l’espérance de X, que l’on note E[X],
est donnée par la formule :
Z
E[X] := xf (x)dx.
X(Ω)

Plus généralement, si h est une fonction de R dans R, alors l’espérance de la variable

h(X) est donnée par la formule
Z
E[h(X)] := h(x)f (x)dx.
X(Ω)
3.3. MOMENTS D’UNE VARIABLE ALÉATOIRE 35

Exemple 3.3.5. Par exemple, si X suit une loi uniforme sur l’intervalle [0, 1], i.e.
X admet la densité f ≡ 1 sur l’intervalle [0, 1], alors l’espérance de X vaut

1 1 1
x2
Z Z
E[X] = xf (x)dx = xdx = = 1/2.
0 0 2 0

De même, l’espérance de la variable X 2 vaut :

1 1 1
x3
Z Z
2 2 2
E[X ] = x f (x)dx = x dx = = 1/3.
0 0 3 0

Exemple 3.3.6. Si X suit une loi exponentielle de paramètre λ, i.e. si X admet

la densité f (x) = λe−λx sur l’intervalle [0, +∞[, alors en intégrant par partie, on
obtient que l’espérance de X vaut
Z +∞ Z +∞ +∞
Z +∞
−λx
−xe−λx 0 e−λx dx

E[X] = xf (x)dx = xλe dx = +
0 0 0

+∞
−e−λx

1
= = .
λ 0 λ

Remarque 3.3.7. L’espérance mathématique n’est pas toujours définie. C’est en

particulier le cas de la loi de Cauchy dont la densité sur R est donnée par f (x) =
1
π(1+x2 )
. Alors on a

+∞ +∞
|x|
Z Z
x
E[|X|] = dx = 2 dx = +∞.
−∞ π(1 + x2 ) 0 π(1 + x2 )

Propriétés de l’espérance

Nous donnons maintenant quelques propriétés de l’espérance, qui sont vérifiées que
l’on se place dans le cas discret ou continu.

Proposition 3.3.8 (Linéarité de l’espérance). Soient X et Y deux variables aléatoires

et c ∈ R une constante. Alors on a :
1. E[c] = c ;
2. E [cX + Y ] = c × E [X] + E [Y ].

Proposition 3.3.9 (Positivité de l’espérance). Soient X et Y deux variables aléatoires

telles que X 6 Y avec probabilité un, alors E[X] 6 E[Y ].
36 CHAPITRE 3. VARIABLES ALÉATOIRES

3.3.2 Variance et autres moments

Définition 3.3.10. Soient X une variable aléatoire et m un entier strictement positif.
On dit que X admet un moment d’ordre m si E[|X|m ] < +∞. Si c’est le cas, on
appelle moment d’ordre m la quantité E[X m ], c’est-à-dire selon que l’on est dans le
cas discret ou continu : Z
m
E[X ] := xm f (x)dx,
X(Ω)

X ∞
X ∞
X
m
E[X ] := xm
i pi = xm
i PX ({xi }) = xm
i P(X = xi ).
i i=1 i=1

Exemple 3.3.11. Dans les exemples ci-dessus, on a vu que la loi uniforme sur [0, 1]
admet un moment d’ordre deux puisque E[X 2 ] = 1/3 < +∞. En revanche, la loi
1
de Cauchy de densité f (x) = π(1+x 2 ) n’admet pas de moment d’ordre un puisque

E[|X|] = +∞.

Définition 3.3.12. Soient X une variable aléatoire qui admet des moments d’ordre
un et deux, i.e. E[|X|] < +∞, E[|X|2 ] < +∞. On appelle variance de X et on note
var(X) la quantité

var(X) := E[X 2 ] − E[X]2 = E (X − E[X])2 .

La variance traduit la dispersion de la distribution de la variance autour de sa

valeur moyenne. Étant un carré, la dimension de la variance n’est pas celle de la
moyenne. C’est pourquoi on utilise plus souvent l’écart type, noté souvent σ, qui est
la racine de la variance. On dit aussi que la variance traduit la notion d’incertitude.
Plus la variance est faible, moins le résultat de l’expérience aléatoire est incertain.
Le cas extrème est celui d’une variable aléatoire de variance nulle, qui est en fait
déterministe.

Définition 3.3.13. On dit qu’une variable aléatoire Y est centrée réduite si sa

moyenne E[Y ] est nulle et si sa variance var(Y ) est égale à un. Si X est une variable
aléatoire qui admet des moments d’ordre un et deux, alors la variable Y := √X−E[X]
var(X)
est centrée réduite.

Exemple 3.3.14. Par exemple, si X suit une loi de Bernoulli B(p) sur {0, 1}, on a
vu que l’espérance de X vaut

E[X] = 0 × P(X = 0) + 1 × P(X = 1) = 0 × (1 − p) + 1 × p = p.

Le moment d’ordre deux vaut lui aussi p :

E[X 2 ] = 02 × P(X = 0) + 12 × P(X = 1) = 0 × (1 − p) + 1 × p = p,

de sorte que la variance de X vaut var(X) = p − p2 = p(1 − p).

3.3. MOMENTS D’UNE VARIABLE ALÉATOIRE 37

Exemple 3.3.15. Dans l’exemple de la loi uniforme sur l’intervalle [0, 1], on a vu
que E[X] = 1/2 et E[X 2 ] = 1/3, on a donc var(X) = 1/3 − 1/4 = 1/12.

Proposition 3.3.16. Soient X et Y deux variables aléatoires, et a et b deux constantes

réelles. Alors on a var(aX + b) = a2 var(X) et

var(X + Y ) = var(X) + var(Y ) + 2cov(X, Y )

où cov(X, Y ) est la covariance de X et Y définie par :

cov(X, Y ) = E[XY ] − E[X]E[Y ] = E[(X − E[X])(Y − E[Y ])].

3.3.3 Moments des variables usuelles

On explicite ici les premiers moments des variables usuelles. On traite dans un
premier temps le cas des variables discrètes, puis celui des variables continues ad-
mettant un densité.

Moments des variables discrètes usuelles

Le cas de la variable de Bernoulli a déja été traité dans l’exemple 3.3.14.
Loi de Bernoulli : on a vu que si X suit une loi de Bernoulli de paramètre p ∈ [0, 1],
alors E[X] = p et var(X) = p(1 − p).
Loi uniforme : si X suit une loi uniforme sur un ensemble fini E = {1, . . . , n} alors
on a vu dans l’exemple 3.3.3 que E[X] = n(n + 1)/2. Le calcul du moment d’ordre
deux montre que var(X) = (n2 − 1)/12, en effet, on a

E[X 2 ] = 12 × P(X = 1) + 22 × P(X = 2) + . . . + n2 × P(X = n)

12 + 22 + . . . + n2 1 n(n + 1)(2n + 1) (n + 1)(2n + 1)

= = × = .
n n 6 6

Loi binomiale : si X1 , . . . , Xn sont des variables “indépendantes” de loi de Bernoulli

de paramètre p, alors la somme Sn = X1 + . . . + Xn suit une loi binomiale B(n, p).
Par linéarité de l’espérance, on en déduit que E[Sn ] = np et var(Sn ) = np(1 − p).
Loi géométrique : si X suit une loi géométrique de paramètre p sur {1, 2, . . .}
alors E[X] = 1/p et var(X) = 1 − p. En effet, on a

E[X] = +∞
P k−1
P+∞ k−1

k=1 k × p(1 − p) = p × k=0 k × (1 − p)

+∞
!0 0
X
k −1
=p× ×(1 − p) =p× = 1/p.
k=0
p

Par ailleurs, on montre que E[X 2 ] = (1 − p) + 1/p2 , d’où le résultat.

38 CHAPITRE 3. VARIABLES ALÉATOIRES

Loi de Poisson : si X suit une loi de Poisson de paramètres λ, alors E[X] = λ et

var(X) = λ. En effet, on a
P+∞ λk−1
−λ λk
P+∞ −λ
E[X] = k=0 k × e k! = λ × e k=1 (k−1)!

λ`
−λ
P+∞
=λ× e `=0 `! = λ.

P+∞ k P+∞ k
E[X 2 ] = k=0 k 2 × e−λ λk! = k=0 (k(k − 1) + k) × e−λ λk!
P P
+∞ −λ λk−2 +∞ −λ λk−1
= λ2 k=2 e (k−2)!
+ λ k=1 e (k−1)!
= λ2 + λ.

Moments des variables usuelles continues

On donne maintenant les moyennes et variances des variables continues les plus
usuelles. Le cas d’une variable uniforme sur l’intervalle [0, 1] a déjà été traité dans
l’exemple 3.3.5.
Loi uniforme : si X suit une loi uniforme sur un intervalle [a, b] alors l’espérance
de X est E[X] = (b − a)/2 et sa variance var(X) = (b − a)2 /12.
Loi normale ou gaussienne : si X suit une loi normale de paramètres (µ, σ 2 ) alors
la moyenne de X est E[X] = µ, et sa variance var(X) = σ 2 .
Loi exponentielle : si X suit une loi exponentielle de paramètre λ, on a vu dans
l’exemple 5.1.10 que E[X] = 1/λ. De même, on montre que E[X 2 ] = 1/λ2 + 1/λ. On
a donc var(X) = 1/λ2 .
Chapitre 4

Théorèmes limite fondamentaux

L’objet de ce chapitre est d’énoncer les deux théorèmes limite qui sont à la
base de la théorie des probabilités et des statistiques à savoir, la loi des grands
nombres et le théorème limite central. Pour se faire, nous généralisons tout d’abord la
notion d’indépendance des évènements aux variables aléatoires, puis nous définissons
différents modes de convergence qui vont nous permettre de traduire le fait qu’une
suite de variables aléatoires converge vers une variable aléatoire limite.

4.1 Indépendance de variables aléatoires

Au chapitre précédent, nous avons introduit la notion d’indépendance de deux
(ou plus d’) évènements. Cette notion se généralise aux variables aléatoires.

4.1.1 Définitions équivalentes

Il existe plusieurs définitions équivalentes pour l’indépendance de variables aléa-
toires. La plus simple consiste à repasser par la notion d’indépendance pour les
évènements.
Définition 4.1.1. Soient deux variables aléatoires X et Y définies sur un même
espace de probabilité (Ω, F, P). On dit que X et Y sont indépendantes, et on note
parfois X ⊥ Y , si pour tous ensembles “mesurables” A et B dans R, on a
P(X ∈ A et Y ∈ B) = P(X ∈ A) × P(Y ∈ B).
Plus généralement, on dit que des variables aléatoires (Xi )i∈I sont indépendantes, si
pour toute famille d’évènements (Ai )i∈I :
!
\ Y
P {Xi ∈ Ai } = P(Xi ∈ Ai ).
i∈I i∈I

On peut se limiter à une famille d’évènements bien choisis et ainsi utiliser les fonc-
tions de répartition. En outre, on peut envisager une définition utilisant l’espérance
mathématique définie au chapitre précédent.
40 CHAPITRE 4. THÉORÈMES LIMITE FONDAMENTAUX

Définition 4.1.2 (équivalentes). Les variables X et Y sont indépendantes si pour

tous s, t ∈ R :
P(X 6 s et Y 6 t) = P(X 6 s) × P(Y 6 t) = FX (s) × FY (t).
Les variables X et Y sont indépendantes si pour toutes fonctions continues bornées
g et h :
E[g(X)h(Y )] = E[g(X)] × E[h(Y )].

Exemple 4.1.3. On considère le jet de deux dés modélisé par Ω = {1, . . . , 6}2 ,
F = P(Ω), et P uniforme. On note X le résultat du premier dé et Y le résultat
du second. Alors X et Y sont des variables aléatoires indépendantes, pour tout
(k, `) ∈ Ω :
P(X = k et Y = `) = P(X = k)P(Y = `).

Exemple 4.1.4. Soient p ∈]0, 1[ et X, Y deux variables aléatoires à valeurs dans

l’ensemble {0, 1} et telles que P(Y = 1) = p, P(X = 0 et Y = 1) = (1 − p)2 ,
P(X = 0 et Y = 0) = p(1 − p). Alors X et Y sont indépendantes. En effet, on a
P(X = 0) = 1 − p et P(X = 1) = p puisque
P(X = 0) = P(X = 0 et Y = 1) + P(X = 0 et Y = 0)
.
= (1 − p)2 + p(1 − p) = (1 − p).
On a donc bien
P(X = 0 et Y = 1) = P(X = 0)P(Y = 1) = (1 − p)2 ,

P(X = 0 et Y = 0) = P(X = 0)P(Y = 0) = p(1 − p),

P(X = 1 et Y = 1) = P(X = 1)P(Y = 1) = p(1 − p),

P(X = 1 et Y = 0) = P(X = 1)P(Y = 0) = p2 .

Dans le cas de variables à densité, on peut encore donner la définition suivante.

Définition 4.1.5 (indépendance et densité). Soient X1 , X2 , . . . , Xn des variables aléa-

toires continues admettant des densités fX1 , fX2 , . . . , fXn . Les variables X1 , X2 , . . . , Xn
sont indépendantes si et seulement si le vecteur (X1 , X2 , . . . , Xn ) admet la densité
fX1 × fX2 × . . . × fXn , c’est-à-dire, pour tout [ai , bi [⊂ R :
! Z
\
P {Xi ∈ [ai , bi [} = Q fX1 (x1 )fX2 (x2 ) . . . fXn (xn )dx1 . . . dxn .
n
i∈I i=1 [ai ,bi [

Exemple 4.1.6. Soient X et Y deux variables aléatoires de loi exponentielle de

paramètres λ et µ respectivement. On suppose que X et Y sont indépendantes.
Alors le couple (X, Y ) admet la densité f(X,Y ) suivante :
f(X,Y ) (x, y) = fX (x) × fY (y) = λe−λx × µe−µy = λµe−λx−µy .
4.2. CONVERGENCE DE VARIABLES ALÉATOIRES 41

Coefficient de corrélation
La dépendance / relation entre deux variables aléatoires peut être quantifiée par la
covariance comme vue précédemment. Cependant, à l’image de la moyenne et de la
variance, la covariance est un moment donc possède une dimension ce qui la rend
plus difficile à interpréter. C’est pourquoi on utilise plus généralement le coefficient
de corrélation, indicateur sans dimension, défini par

cov(X, Y )
ρ(X, Y ) = p .
var(X)var(Y )

Le coefficient de corrélation mesure la qualité de la relation linéaire entre deux

variables aléatoires X et Y (i.e. de la forme Y = aX + b).

Proposition 4.1.7. Pour toutes variables X et Y possédant un moment d’ordre

deux, on a les propriétés suivantes :
1. ρ(X, Y ) ∈ [−1, 1] ;
2. si X ⊥ Y , alors ρ(X, Y ) = 0. La réciproque n’est pas vraie en général ;
3. si il existe une relation linéaire entre X et Y alors ρ(X, Y ) = ±1.

Exemple 4.1.8. On place au hasard deux billes dans deux boîtes A et B. On note
X la variable aléatoire “nombre de billes dans la boîte A” et Y la variable aléatoire
“nombre de boîtes vides”. Les lois, espérances et variances de X, Y et XY sont :

P(X = 0) = 1/4, P(X = 1) = 1/2, P(X = 2) = 1/4, E[X] = 1, var(X) = 1/2,

P(Y = 0) = 1/2, P(Y = 1) = 1/2, E[Y ] = 1/2, var(Y ) = 1/4,

P(XY = 0) = 3/4, P(XY = 1) = 0, P(XY = 2) = 1/4, E[XY ] = 1/2.
Le coefficient de corrélation ρ(X, Y ) est nul car

E[XY ] − E[X]E[Y ] = 1/2 − 1 × 1/2 = 0.

Cependant les variables X et Y ne sont pas indépendantes. En effet, X et Y ne

peuvent s’annuler simultanément car il est impossible d’avoir à la fois aucune bille
dans la boite A et aucune boite vide. On a donc

0 = P(X = 0 et Y = 0) 6= P(X = 0)P(Y = 0) = 1/4 × 1/2 = 1/8.

4.2 Convergence de variables aléatoires

Les théorèmes limite qui font l’objet de ce chapitre concernent le comportement
asymptotique de suites de variables aléatoires. Ils traduisent la convergence de ces
suites vers des limites, qui peuvent être déterministes mais aussi aléatoires. Nous
précisons ici en quel sens une suite de variables aléatoires peut admettre une limite.
42 CHAPITRE 4. THÉORÈMES LIMITE FONDAMENTAUX

4.2.1 Les différents types de convergence

Nous commençons par donner la définition de la converge en probabilité d’une
suite de variables aléatoires.

Convergence en probabilités

Définition 4.2.1 (convergence en probabilités). Soit (Xn )n∈N une suite de variables
aléatoires définie sur un espace de probabilité (Ω, F, P). On dit que la suite (Xn )
P
converge en probabilité vers une variable aléatoire X, et on note Xn → X si pour
tout ε > 0 :
lim P [|Xn − X| > ε] = 0,
n→+∞
ou de manière équivalente :
lim P [|Xn − X| 6 ε] = 1.
n→+∞

Exemple 4.2.2. Soit (Xn ) une suite de variables indépendantes à valeurs dans l’en-
semble {0, 1} et telles que P(Xn = 0) = 1/n, et donc P(Xn = 1) = 1 − 1/n. Alors la
suite (Xn ) converge en probabilité vers la variable “aléatoire” constante égale à un.
En effet, fixons 0 < ε < 1. Lorsque n tend vers l’infini, on a
P(|Xn − 1| > ε) = P(Xn = 0) = 1/n −→ 0.

Exemple 4.2.3. Soit (Xn ) une suite de variables aléatoires indépendantes telles que
P(Xn = 2 − 1/n) = 1/3 et P(Xn = 2 + 1/n) = 2/3. Alors la suite (Xn ) converge en
probabilité vers la variable “aléatoire” constante égale à 2. En effet, fixons 0 < ε < 1.
On a toujours |Xn − 2| = 1/n de sorte que pour n > 1/ε :
P(|Xn − 2| > ε) = 0.

Exemple 4.2.4. Considérons une variable aléatoire X à valeurs dans {0, 1} et telle
que P(X = 0) = P(X = 1) = 1/2. Pour tout entier n > 1, on définit la variable Xn
de la façon suivante : si X vaut 1, alors X vaut 1 ; si X vaut zéro, alors Xn vaut
1/n. Alors, n tend vers l’infini, la suite Xn converge en probabilité vers X. En effet,
on a toujours |Xn − X| = 1/n. Pour ε > 0 fixé, dès que n > 1/ε, on a alors :
P(|Xn − X| > ε) = 0.

Exemple 4.2.5. Soit (Xn )n∈N une suite de variables aléatoires indépendantes de loi
uniforme sur l’intervalle [0, 1]. Alors, losque n tend vers l’infini, la suite de variables
aléatoires Yn := max(X1 , . . . , Xn ) converge en probabilité vers la constante 1. En
effet, soit 0 < ε < 1, on a
P(|Yn − 1| > ε) = P(max(X1 , . . . , Xn ) < 1 − ε)

= P(X1 < 1 − ε) . . . P(Xn < 1 − ε) = (1 − ε)n −→ 0.

4.2. CONVERGENCE DE VARIABLES ALÉATOIRES 43

Il existe une notion de convergence qui est plus forte que la convergence en proba-
bilité, c’est la convergence presque sûre : toute suite qui converge presque sûrement
converge en probabilité.

Convergence presque sûre

Définition 4.2.6 (convergence presque sûre). Soit (Xn )n∈N une suite de variables
aléatoires définie sur un espace de probabilité (Ω, F, P). On dit que la suite (Xn )
p.s.
converge presque sûrement vers une variable aléatoire X, et on note Xn −→ X, si
il existe un sous ensemble A de Ω avec P(A) = 1 et pour tout ω ∈ A :

Xn (ω) → X(ω).

Exemple 4.2.7. Considérons l’espace de probabilté (Ω, F, P) où Ω = [0, 1], F est

la tribu borélienne, et P est la probabilité uniforme sur [0, 1]. Pour tout n > 1, on
considère la variable aléatoire Xn définit comme suit :

Xn : [0, 1] → R, Xn (ω) = min(n × ω, 1).

Soit A :=]0, 1], on a P(A) = 1. Par ailleurs, pour tout ω ∈ A, on a n × ω → +∞,

donc pour n assez grand Xn (ω) = 1. La suite de variables aléatoires Xn converge
donc presque sûrement vers 1 lorsque n tend vers l’infini.

Exemple 4.2.8. On reprend l’exemple 4.1.8. À la variable XY qui est à valeurs dans
Ω = {0, 1, 2}, on associe la suite Zn définie par la formule :
n
(XY − 1)2

Zn = 1 − .
2
Lorsque XY vaut 0 ou 2, on a Zn = 1/2n qui converge vers zéro lorsque n tend
vers l’infini. Lorsque XY vaut 1, ce qui arrive avec probabilité P(XY = 1) = 0, Zn
vaut 1. On peut donc affirmer que presque sûrement la suite de variables aléatoires
converge presque sûrement vers zéro.

Nous définissons enfin un dernier mode de convergence, plus faible que les deux
précédents, dont l’importance sera mise en évidence dans l’énoncé du théorème limite
central.

Convergence en loi

Définition 4.2.9 (convergence en loi). Soit (Xn )n∈N une suite de variables aléatoires
définie sur un espace de probabilité (Ω, F, P). On dit que la suite (Xn ) converge en
L
loi vers une variable aléatoire X, et on note Xn −→ X, si la suite des fonctions de
répartition FXn converge vers FX en tout point de continuité de FX , i.e. lorsque n
tend vers l’infini, pour tout x où FX ne “saute” pas :

FXn (x) = P(Xn 6 x) −→ FX (x) = P(X 6 x).

44 CHAPITRE 4. THÉORÈMES LIMITE FONDAMENTAUX

Exemple 4.2.10. Soit (Xn ) une suite de variables indépendantes et uniformes à

valeurs dans l’ensemble {0, 1/2n , 2/2n , . . . , 1}, i.e. telles que

P(Xn = k/n) = 1/(2n + 1), k ∈ {0, 1, . . . , 2n }.

Alors la suite (Xn ) converge en loi vers la variable aléatoire X de loi uniforme
sur l’intervalle [0, 1]. En effet, soit x ∈ [0, 1] alors pour tout n il existe kn tel que
kn /2n 6 x < (kn + 1)/2n et donc kn /2n → x. Dès lors,

kn
P(Xn 6 x) = → x = FX (x).
2n

FX (x)

FXn (x)

0 1

Figure 4.1 – Fonction de répartition des lois uniformes continue et discrètes.

Exemple 4.2.11. Les variables exponentielles sont caractérisées par leur fonction de
−λx
répartititon : si X ∼ E(λ)
P+∞alors P(X > x) = e . Soient (an ) une suite de nombres
réels positifs tels que 1 an = 2, et (Xn ) des variables indépendantes de loi E(an ).
Alors la suite Yn = min(X1 , . . . , Xn ) converge en loi vers une variable de loi E(2).
En effet, on a

P(Yn > x) = P(X1 > x, X2 > x, . . . , Xn > x) = P(X1 > x) . . . P(Xn > x)

= e−a1 x × . . . × e−an x = exp [− ( n1 ak ) x] −→ e−2x .

P
4.3. LES THÉORÈMES LIMITES 45

4.3 Les théorèmes limites

Nous pouvons à présent énoncer les deux théorèmes limite fondamentaux qui
seront nos principaux outils dans la suite du cours, en particulier dans la partie du
cours consacrée aux statistiques. Nous énonçons ainsi tout d’abord la loi des grands
nombres puis le théorème limite central, en donnant à chaque fois des exemples
d’applications de ces résultats.

4.3.1 Loi des grands nombres

La loi des grands nombres est le premier résultat fondamental de la théorie des
probabilités. Elle concerne la moyenne arithmétique de variables aléatoires indépen-
dantes et identiquement distribuées. Voici l’énoncé précis du théorème :

Théorème 4.3.1. Soit (Xn ) une suite de variables aléatoires indépendantes et de

même loi, telle que E[|X1 |] < +∞. Alors lorsque n tend vers l’infini, on a
Sn X1 + . . . + Xn p.s. et P
:= −−−−−→ E[X1 ],
n n
autrement dit, pour tout ε > 0 :

Sn
lim P − E[X1 ] > ε = 0,
n→+∞ n
et même, il existe A ⊂ Ω tel que P(A) = 1 et pour tout ω ∈ A :
Sn (ω) X1 (ω) + . . . + Xn (ω)
= −→ E[X1 ].
n n

Remarque 4.3.2. La loi des grands nombres justifie la démarche intuitive suivante :
pour connaître le résultat moyen d’une expérience aléatoire, on refait un grand
nombre de fois l’expérience et on considère la moyenne arithmétique des résultats
obtenus. En y réfléchissant bien, il n’est pas du tout clair a priori que la moyenne
arithmétique des résultats soit une bonne approximation du résultat moyen. La loi
des grands nombres justifie rigoureusement ce résultat intuitif.

Exemple : mutation d’un gène

Parmi de nombreuses causes, une certaine maladie est déclenchée par la mutation
d’un gène sur un chromosome. Pour avoir une idée du nombre de personnes dans
la population susceptibles d’être atteintes par cette maladie, on souhaite connaître
la proportion de la population chez qui il y a eu mutation. On demande ainsi à
n personnes de se soumettre à un test, on note {Xi = 0} (resp. {Xi = 1} les
évènements il n’y a pas (resp. il y a) mutation chez la i−ème personne testée.
On fait l’hypothèse que les résultats des tests sont des réalisations de variables
aléatoires indépendantes, autrement dit que les variables Xi sont indépendantes et
46 CHAPITRE 4. THÉORÈMES LIMITE FONDAMENTAUX

de loi de Bernoulli de paramètre p, la proportion théorique de mutation au sein de

la population. D’après la loi des grands nombres, lorsque n tend vers l’infini, on a :
Sn X1 + . . . + X n P
:= →
− E[X1 ] = p.
n n
Autrement dit, avec une grande probabilité, si n est assez grand, la moyenne arith-
métique Sn /n est proche de p. Une bonne valeur approchée de la proportion de
personne chez qui la mutation est apparue est donc Sn /n. Dans la pratique, une
valeur de n de l’ordre de 1000 ou 10000 fournit déjà une bonne approximation de p.

Exemple : nombre d’accidents

Afin de fixer ses primes pour l’année à venir, une compagnie d’assurance souhaite
connaître le nombre moyen de sinistres auquels seront confrontés ses clients dans
l’année. Les sinistres sont des évènements rares et l’expérience montrent que pour
chaque client, leur nombre peut être modélisé par une variable de Poisson de para-
mètre λ. On suppose aussi que les nombres de sinistres pour deux clients distincts
sont indépendants. La difficulté ici est choisir le paramètre λ > 0.
Pour se faire, la compagnie ouvre ses archives et observe le nombre de sinistres
pour 100 de ses clients sur les 20 dernières années. On note ainsi Xi les nombres de
sinistres individuels annuels, où i = 1 . . . 2000. D’après la loi des grands nombres, si
Xi est une suite de variables indépendantes de loi de Poisson P(λ), lorsque n tend
vers l’infini, on a :
Sn X 1 + . . . + Xn P
:= →
− E[X1 ] = λ.
n n
Autrement dit, avec une grande probabilité, si n est assez grand, la moyenne arith-
métique Sn /n est proche de λ. Une bonne valeur approchée du nombre moyen de
sinistres par client chaque année est S2000 /2000.

Exemple : pile ou face

Vous jouez un grand nombre de fois de suite à pile ou face. Vous gagnez un euro à
chaque pile et perdez un euro à chaquePface. On note Sn le gain après n lancers. Ce
gain peut sécrire sous la forme Sn = n1 Xi où les Xi sont des variables aléatoires
indépendantes de loi de Bernoulli B(±1, p), p ∈ [0, 1]. Le cas d’une pièce équilibrée
correspond bien sûr à p = 1/2. On s’intéresse aux questions du type : après n lancers,
êtes-vous bénéficiaire ? quel est votre gain moyen ? etc.
La réponse à ces questions est donnée par la loi des grands nombres. En effet, d’après
le théorème, lorsque n tend vers l’infini, on a :
Sn X1 + . . . + Xn P
:= →
− E[X1 ] = 2p − 1.
n n
Ainsi, si p > 1/2 et n est assez grand, avec une grande probabilité on a Sn ∼
n(2p − 1) > 0 et vous êtes bénéficiaire. En revanche, lorsque p < 1/2, il vaut mieux
arrêter de jouer rapidement sous peine d’être ruiné ! Le cas où p = 1/2 est plus
4.3. LES THÉORÈMES LIMITES 47

difficile à trancher. Pour ce faire, on a besoin d’un résultat plus fin que la loi des
grands nombres.

4.3.2 Théorème limite central

La loi des grands nombres exprime le fait que la moyenne arithmétique d’une suite
de variables indépendantes (Xn ) de même loi converge vers la moyenne stochastique
de la loi en question, c’est-à-dire E[X1 ]. Le théorème limite central est un raffinement
de la loi des grands nombres : il précise à quelle vitesse a lieu cette convergence, et
comment la moyenne arithmétique fluctue autour de sa limite.

Théorème 4.3.3. Soit Xn une suite de variables aléatoires indépendantes et de

même loi, telle que E[|X1 |] < +∞ et E[|X1 |2 < +∞. On note m = E[X1 ] et
σ 2 = var(X1 ). Alors, lorsque n tend vers l’infini, on a

√

Sn (X1 − m) + . . . + (Xn − m) loi
n× − m := √ −→ N (0, σ 2 ),
n n

ou de manière équivalente :
√
n Sn (X1 − m) + . . . + (Xn − m) loi
× − m := √ −→ N (0, 1).
σ n σ× n

Autrement dit, pour tout x dans R, lorsque n tend vers l’infini, on a

√
n Sn
P × − m 6 x −→ P(N (0, 1) 6 x),
σ n

ou encore pour tout intervalle [a, b] ⊂ R :

√
n Sn
P × − m ∈ [a, b] −→ P(N (0, 1) ∈ [a, b]).
σ n

Remarque 4.3.4. Le théorème limite central exprime le fait que dans la loi des
grands
√ nombres, les fluctuations autour de la moyenne limite sont de l’ordre de
1/ n et que la loi de ces fluctuations est universelle : elle est gaussienne et ne
dépend pas la loi initiale des variables Xi :
√ √
Sn = n × m + σ × n N (0, 1) + o( n),

Sn σ
i.e. = m + √ N (0, 1).
n n
L’universalité des fluctuations explique pourquoi la loi normale est omniprésente
dans la modélisation de phénomènes aléatoires.
48 CHAPITRE 4. THÉORÈMES LIMITE FONDAMENTAUX

Exemple : mutation d’un gène

On reprend l’exemple de l’estimation de la proportion de mutation dans la popula-
tion. On souhaite préciser l’erreur commise lorsque l’on approche la valeur théorique
p = E[X1 ] par la moyenne empirique Sn /n. On rappelle que la variance d’une va-
riable de Bernoulli de paramètre p est σ 2 = p(1 − p). D’après le théorème limite
central, lorsque n tend vers l’infini, on a
√
n Sn (X1 − p) + . . . + (Xn − p) loi
p × − p := p −→ N (0, 1).
p(1 − p) n np(1 − p)

En prenant les valeurs absolues, on obtient :

√
n Sn loi
p × − p −→ |N (0, 1)|.
p(1 − p) n

Soit x0 = 1.961 de sorte que P(|N (0, 1)| > x0 ) 6 5%. Lorsque n tend vers l’infini,
on a alors,
" √ #
n Sn
P p × − p > x0 −→ P(|N (0, 1)| > x0 ) 6 5%.
p(1 − p) n

Autrement dit,
" r r #!
Sn p(1 − p) Sn p(1 − p)
P p∈/ − x0 , + x0 −→ P(|N (0, 1)| > x0 ) 6 5/%.
n n n n

Comme on a toujours p(1 − p) < 1/4, on conclut que lorsque n tend vers l’infini :

Sn x0 Sn x0
P p∈ / − √ , + √ 6 5%.
n 2 n n 2 n

Pour n assez grand, on peut donc affirmer qu’avec une probabilité supérieure à 95%,
le taux de mutation moyen p appartient à l’intervalle

Sn x0 S n x0
In := − √ , + √ .
n 2 n n 2 n

Exemple : nombre d’accidents

On reprend l’exemple précédent du nombre de sinistres. Là encore, on souhaite
contrôler l’erreur commise en disant que le nombre moyen de sinistre λ est proche
de Sn /n. On rappelle que la variance d’une loi de Poisson de paramètre λ est σ 2 = λ.
D’après le théorème limite central, lorsque n tend vers l’infini, on a
r
n Sn (X1 − λ) + . . . + (Xn − λ) loi
× − λ := √ −→ N (0, 1).
λ n nλ
4.3. LES THÉORÈMES LIMITES 49

En prenant les valeurs absolues, on obtient alors :

r
n Sn loi
× − λ −→ |N (0, 1)|.
λ n

Soit x0 = 2.5759 de sorte que P(|N (0, 1)| > x0 ) < 1%. Lorsque n tend vers l’infini,
on a alors,
r
n Sn
P × − λ > x0 −→ P(|N (0, 1)| > x0 ) < 1%.
λ n

Autrement dit,
" r r #!
Sn λ Sn λ
P λ∈ / − × x0 , + × x0 −→ P(|N (0, 1)| > x0 ) < 1/%.
n n n n

On peut montrer que la convergence a encore lieu lorsque l’on remplace la variance
λ par Sn /n, i.e.
" r r #!
Sn Sn Sn Sn
P λ∈
/ − × x0 , + × x0 6 1%.
n n2 n n2

Pour n assez grand, on peut donc affirmer qu’avec une probabilité supérieure à 99%,
le nombre moyen d’accidents λ appartient à l’intervalle
" r r #
Sn Sn Sn Sn
In = − × x0 , + × x0 .
n n2 n n2

Exemple : pile ou face

On précise maintenant l’évolution du gain dans un jeu de pile ou face symétrique,
i.e. lorsque p = 1/2. La loi des grands nombres donne :

Sn X1 + . . . + Xn P
:= →
− E[X1 ] = 2p − 1 = 0.
n n
Le théorème limite central précise :
√ Sn loi
2 n× −→ N (0, 1).
n
Pour tout intervalle [a, b] ∈ R, on a donc

2Sn
P √ ∈ [a, b] −→ P(N (0, 1) ∈ [a, b]) > 0.
n
√
Autrement dit, la gain normalisé Sn / n visite n’importe quel intervalle avec une
probabilité strictement positive.
50 CHAPITRE 4. THÉORÈMES LIMITE FONDAMENTAUX

Exemple : prix d’une action

Le prix Sn d’une action au jour n est modélisé ainsi : S0 = s > 0 est fixé, et
Sn+1 = (1 + r + σεn+1 )Sn , où r > 0 est un taux fixe, σ ∈]0, 1 + r[ est une volatilité
fixe, et (εn , n ∈ N) est une suite de variables aléatoires indépendantes et identique-
ment distribuées de loi de Bernoulli B(±1, 1/2). On souhaite répondre aux questions
suivantes :
1. Étudier le comportement des suites (log Sn )/n et Sn .
√
2. Étudier le comportement de la suite (log Sn )/ n lorsque (1 + r)2 = 1 + σ 2 .
3. Étudier le comportement de la suite suivante :
(−1/(2√n)) √
(1 + r)2 − σ 2 × Sn1/ n .

On montre tout d’abord aisément par récurrence que pour n > 0, on a

n
Y
Sn = (1 + r + σεi )s.
i=1

En prenant le logarithme, on obtient :

n
X
log(Sn ) = log s + Yi , où l’on a posé Yi := log(1 + r + σεi ).
i=1

Comme les variables εi , les variables Yi sont indépendantes et identiquement distri-

m = 21 log(1 + r + σ) + 12 log(1 + r − σ)

= 12 log ((1 + r − σ) × (1 + r − σ))

p
1 2 2 2 2
= log ((1 + r) − σ ) = log
2
(1 + r) − σ ,

σ 2 = 41 log(1 + r + σ 2 ) + 14 log(1 + r − σ)2 − 21 log(1 + r + σ) log(1 + r − σ)

2
= 14 (log(1 + r + σ) − log(1 + r − σ))2 = 1
4
log 1+r+σ
1+r−σ
.

Il s’agit ici naturellement d’utiliser la loi des grands nombres et le théorème limite
central.
4.3. LES THÉORÈMES LIMITES 51

1. Les variables Yi satisfont aux hypothèses de la loi des grands nombres, d’après
le théorème 4.3.1 on peut affirmer que lorsque n tend vers l’infini :
n
log(Sn ) log s 1 X P
= + Yi −→ m = E[Y1 ].
n n n i=1

On a donc, lorsque n tend vers l’infini :

Sn = exp (n × m + oP (n)) .

Il y a donc une dichotomie selon que m > 0 ou m < 0. Si m > 0, c’est-

à-dire si (1 + r)2 > 1 + σ 2 le prix de l’action croît exponentiellement vite
vers l’infini. m < 0, c’est-à-dire si (1 + r)2 < 1 + σ 2 la prix de l’action tend
exponentiellement vite vers zéro. Le cas m = 0 est plus subtil.
2. Le cas où (1 + r)2 = 1 + σ 2 correspond au cas m = 0. Comme Yi admet un
moment d’ordre deux, on peut appliquer le théorème limite central, lorsque
n tend vers l’infini :
log(Sn ) loi
√ −→ N (0, σ 2 ).
n
Pour tout intervalle [a, b] ∈ R, on a donc

log(Sn )
P √ ∈ [a, b] −→ P(N (0, σ 2 ) ∈ [a, b]) > 0.
n
√
Autrement dit, le prix normalisé log(Sn )/ n visite n’importe quel intervalle
avec une probabilité strictement positive.
3. Plus généralement, le théorème 4.3.3 donne :
√

log(Sn ) loi
n − m −→ N (0, σ 2 ),
n

c’est-à-dire :
√

log(Sn ) loi
√ −m× n −→ N (0, σ 2 ),
n
et en prenant l’exponentielle :
√ loi

log(Sn )
exp −m × n −→ exp N (0, σ 2 ) ,

exp √
n
ou encore
√ √ √ √
2 (−1/(2 n)) loi
Sn1/ n e−m n Sn1/ n 2
−→ exp N (0, σ 2 ) .

= × (1 + r) − σ
52 CHAPITRE 4. THÉORÈMES LIMITE FONDAMENTAUX
Deuxième partie

Éléments de statistiques
Chapitre 5

Estimation et intervalle de confiance

Nous abordons à présent la partie statistique du cours. L’objectif général de la

statistique est de décrire / expliquer un phénomène aléatoire à partir d’un certain
nombre d’observations de celui-ci. Le langage utilisé pour modéliser le phénomène
aléatoire est naturellement celui de la théorie des probabilités. Le cas typique est
celui-ci : on observe n fois un phénomène aléatoire de loi inconnue et on recueille
ainsi des données (x1 , . . . , xn ). On fait alors l’hypothèse que les données xi sont les
réalisations de variables aléatoires indépendantes Xi de même loi que la loi inconnue
PX , c’est-à-dire xi = Xi (ω) où PXi = PX . L’objet de la statistique (inférentielle) est
précisément d’estimer la loi PX , ou plus modestement d’estimer certaines de ses
caractéristiques (moyenne, variance etc.).

5.1 Estimation paramétrique

Le plus souvent, on fait l’hypothèse que la loi inconnue PX appartient à une
famille de lois connue, famille indexée par un ou plusieurs paramètres. Par exemple,
la loi inconnue peut être une loi de Bernoulli B(p), pour un certain réel p ∈ [0, 1],
elle peut être un loi de Poisson P(λ) ou exponentielle E(λ) de paramètre λ > 0, ou
encore une loi gaussienne N (µ, σ 2 ) avec µ ∈ R et σ 2 > 0. Dans ce cas, estimer la loi
inconnue PX revient alors à estimer (i.e. deviner) la valeur du/des paramètre(s).

Exemple 5.1.1. Dans l’exemple de la mutation d’un gène du chapitre précédent, on

sait a priori que les variables Xi sont à valeurs dans l’ensemble {0, 1} de sorte que
Xi suit une loi de Bernoulli de paramètre p inconnu. Déterminer la loi des variables
Xi revient donc à déterminer la valeur du paramètre p ∈ [0, 1].

On introduit alors la notion d’estimateur du/des paramètre(s) inconnu(s), il s’agit

d’une fonction des données (x1 , . . . , xn ) dont on espère qu’elle est un bonne approxi-
mation, en un sens à préciser, du/des paramètres inconnu(s).

Définition 5.1.2 (estimateur). On appelle estimateur de θ toute quantité θbn qui est
une fonction des données (x1 , . . . , xn ) = (X1 (ω), . . . , Xn (ω)).
56 CHAPITRE 5. ESTIMATION ET INTERVALLE DE CONFIANCE

Remarque 5.1.3. Attention, un estimateur est une fonction des seules données
connues (x1 , . . . , xn ), mais il ne doit pas, par définition, dépendre du paramètre
inconnu que l’on souhaite estimer.

Il faut maintenant préciser ce que l’on entend par “être une bonne approximation
du paramètre inconnu θ”. La notion de biais prend en compte le fait qu’en moyenne,
l’estimateur θbn est proche de la valeur théorique inconnue :

Définition 5.1.4 (estimateur sans biais). Le biais est d’un estimateur θbn de θ est la
différence : θ − E[θbn ]. Si E[θbn ] = θ, on dira que l’estimateur θbn est sans biais. Si
limn→∞ E[θbn ] = θ, on dira que l’estimateur θbn est asymptotiquement sans biais.

Par ailleurs, on veut que lorsque la taille de l’échantillon de données (x1 , . . . , xn )

devient grande, l’estimateur θbn soit arbitrairement proche de la valeur théorique θ.

Définition 5.1.5 (estimateur consistant). On dit que l’estimateur θbn de la quantité

θ est consistant si lorsque n tend vers l’infini, θbn converge en probabilité vers θ.

Exemple 5.1.6. On reprend l’exemple du taux de mutation du chapitre précédent.

On souhaite estimer le paramètre p de la loi de Bernoulli B(p). La quantité ci-dessous
est un estimateur de p :

Sn X1 + . . . + Xn
pbn := = .
n n
En effet, pbn (ω) = (x1 + . . . + xn )/n est bien une fonction des seules variables
(x1 , . . . , xn ). Par ailleurs, c’est un estimateur sans biais puisque :

E[Sn ] E[X1 ] + . . . + E[Xn ] p + ... + p

pn ] :=
E[b = = = p.
n n n
Enfin, c’est un estimateur consistant puisque d’après la loi des grands nombres :

X 1 + . . . + Xn P
pbn := →
− E[X1 ] = p.
n
On peut considérer de nombreux autres estimateurs de la quantité p, l’important
est de garder à l’esprit que ce que l’on souhaite est approcher au mieux le paramètre
p. Par exemple, pen = X1 est bien une fonction des seules données. C’est donc un
estimateur de p, et on peut ajouter qu’il est sans biais puisque si X1 ∼ B(p), on
a E[X1 ] = p et donc E[e pn ] = p. En revanche, pen n’est pas consistant puisqu’il ne
dépend pas du nombre n de données. Au contraire, l’estimateur

X1 + . . . + X n
ṗn :=
n+1
possède un biais de p − E[ṗn ] = p/(n + 1). Il est donc asymptotiquement sans biais,
et d’après la loi des grands nombres, il est consistant.
5.1. ESTIMATION PARAMÉTRIQUE 57

5.1.1 Estimateurs empiriques

Nous introduisons maintenant une classe importante et naturelle d’estimateurs :
les estimateurs empiriques. Ce sont les estimateurs construits à partir de somme
de variables aléatoires et dont le comportement asymptotique peut être facilement
décrit grâce à la loi des grands nombres et au théorème limite central.

Définition 5.1.7 (estimateurs empiriques). On appelle moyenne empirique de l’échan-

tillon (x1 , . . . , xn ) = (X1 (ω), . . . , Xn (ω)) la moyenne arithmétique
x1 + . . . + xn X1 (ω) + . . . + Xn (ω)
m
bn = = .
n n
On appelle variance empirique de l’échantillon (x1 , . . . , xn ) la quantité :
n n
1X 1X 2
bn2
σ := b n )2 =
(xi − m b 2n .
x −m
n i=1 n i=1 i

Si les variables Xi de loi inconnue admettent des moments d’ordre un et deux, alors
la loi des grands nombres assure que la moyenne et la variance empirique sont des
estimateurs consistants de la moyenne m et de la variance σ 2 théoriques. En effet,
d’après la loi des grands nombres, on a
X1 + . . . + Xn P
m
bn = →
− E[X1 ] = m,
n
et
X12 + . . . + Xn2 P
− E[X12 ],
→
n
d’où
bn2 →
− E[X12 ] − E[X1 ]2 = σ 2 .
P
σ

Exemple 5.1.8. On reprend l’exemple du nombre d’accidents envisagé au chapitre

précédent. On fait l’hypothèse que les données sont des réalisations indépendantes
de variables Xi de loi de Poisson P(λ) où λ est à déterminer. On a vu en cours et
en TD que l’espérance et la variance d’une loi de Poisson sont m = E[Xi ] = λ et
σ 2 = var(Xi ) = λ. Pour estimer le paramètre λ, on peut donc naturellement choisir
les estimateurs empiriques m bn2 .
b n et σ

Si le paramètre θ à déterminer s’écrit comme une fonction de la moyenne des va-

riables de l’échantillon, c’est-à-dire si θ = g(E[X]) pour une certaine fonction conti-
nue g, alors un estimateur naturel de θ est donnée par :
θbn = g(m
b n ).
En effet, d’après la loi des grands nombres, lorsque n tend vers l’infini, on a alors
P
b n) →
θbn = g(m − g(E[X]) = g(θ),
autrement dit, l’estimateur θbn est consistant.
58 CHAPITRE 5. ESTIMATION ET INTERVALLE DE CONFIANCE

Exemple 5.1.9. On recueille des données (x1 , . . . , xn ) dont on fait l’hypothèse qu’elles
sont des réalisations indépendantes de variables Xi de loi uniforme sur un intervalle
[0, θ] où θ est à déterminer. On a vu en cours et en TD que l’espérance d’une telle
loi est m = E[Xi ] = θ/2, autrement dit θ = 2E[X]. Alors un estimateur naturel de
θ est donné par
2(x1 + . . . + xn )
θbn = = 2mb n.
n
En effet, d’après la loi des grands nombres, lorsque n tend vers l’infini, on a alors
P
θbn →
− 2E[X] = θ.

Exemple 5.1.10. On recueille des données (x1 , . . . , xn ) dont on fait l’hypothèse

qu’elles sont des réalisations indépendantes de variables Xi de loi de exponentielle
E(λ) où λ est à déterminer. On a vu en cours et en TD que l’espérance d’une loi
exponentielle est m = E[Xi ] = 1/λ, autrement dit λ = 1/E[X]. Alors un estimateur
naturel de λ est donné par
n 1
λ
bn = = .
x1 + . . . + xn m
bn
En effet, d’après la loi des grands nombres, lorsque n tend vers l’infini, on a alors

P
bn → 1
λ − = λ.
E[X]

5.1.2 Maximum de vraissemblance

Nous venons de voir que la loi des grands nombres permet souvent de mettre en
évidence des estimateurs naturels. Une autre façon de trouver de tels estimateurs
est d’utiliser la méthode du maximum de vraissemblance décrite ci-dessous.
Considérons ainsi des réalisations xi de variables aléatoires Xi indépendantes et de
même loi, admettant une densité commune fθ qui dépend du paramètre à estimer
θ. Par exemple, les variables en question peuvent être des variables exponentielles
de paramètre θ, de sorte que fθ (x) = θ exp(−θx) pour x > 0.

Définition 5.1.11 (estimateur du maximum de vraissemblance). Étant données des

variables aléatoires de loi à densité fθ , on appelle estimateur du maximum de vrais-
semblance la quantité
Yn
arg max fθ (xi ),
θ
i=1

ou de manière équivalente
n
X
arg max log (fθ (xi )) .
θ
i=1
5.1. ESTIMATION PARAMÉTRIQUE 59

Dans le cas des variables exponentielles, on a

n n
!
Y X
fθ (xi ) = θn exp −θ xi = θn exp (−nθm
b n)
i=1 i=1

où m
b n est la moyenne empirique. En prenant le logarithme, on obtient :
n
X
log (fθ (xi )) = n log(θ) − nθm
b n.
i=1

On cherche à trouver le maximum de cette fonction. Pour cela, on regarde quand sa

dérivée par rapport à θ s’annulle. Le calcul donne :
∂ n
n log(θ) − nθm
b n = − nm
b n.
∂θ θ
Cette expression s’annule si et seulement si θ = 1/m
b n , autrement dit :
n
X
arg max log (fθ (xi )) = 1/m
b n.
θ
i=1

L’estimateur du maximum de vraissemblance n’est autre que 1/m

b n , i.e. on retrouve
l’estimateur de l’exemple 5.1.10.

Exemple 5.1.12. On reprend l’exemple des variables uniforme sur l’intervalle [0, θ]
où θ est à déterminer. La densité d’une telle variable est la fonction fθ (x) = 1/θ si
x ∈ [0, θ] et zéro ailleurs. Dès lors,
V (θ) := ni=1 fθ (xi ) = θ−n si pour tout i 0 6 xi 6 θ, et zéro ailleurs
Q

= θ−n si 0 6 max xi 6 θ, et zéro ailleurs.

Le maximum de la fonction V est atteint en θ = max xi , autrement dit, l’estimateur
du maximum de vraissemblance du paramètre θ est ici donné par θbn = maxi=1...n xi .
Si l’on fixe un ε > 0, on a alors
n
θ−ε n→+∞
P(|θ − θn | > ε) = P(max Xi < θ − ε) =
b −−−−→ 0.
θ

Autrement dit, θbn est un estimateur consistant de θ.

Remarque 5.1.13. Dans certains cas simples comme celui de l’estimation du para-
mètre d’une loi exponentielle envisagé ci-dessus, l’estimateur obtenu via la méthode
du maximum de vraisemblance coïncide avec l’estimateur empirique. Ce n’est pas
le cas en général comme en atteste le dernier exemple concernant la loi uniforme.
Dans les cas où la maximisation de la vraisemblance est explicitement possible, et
lorsqu’il diffère de l’estimateur empirique, on préfèrera l’estimateur du maximum de
vraisemblance dont on peut montrer qu’il possède en général de meilleures propriétés
asymptotiques.
60 CHAPITRE 5. ESTIMATION ET INTERVALLE DE CONFIANCE

5.2 Intervalles de confiance

Dans la section précédente, nous avons vu différentes méthodes pour estimer
les paramètres d’une loi de probabilité inconnue. Nous avons par ailleurs introduit
les notions de biais et de consistance qui permettent d’évaluer qualitativement un
estimateur. Il arrive souvent dans la pratique que l’on veuille de plus évaluer quan-
titativement la qualité d’un estimateur : on peut par exemple chercher à savoir à
quel vitesse (en fonction de la taille de l’échantillon) il converge vers la quantité à
estimer, ou encore quelle est la probabilité de se tromper en disant que l’estimateur
est proche de sa cible etc. La notion d’intervalle de confiance, on parle aussi de zone
de confiance, permet précisément de quantifier la qualité d’un estimateur.

Définition 5.2.1. Soit α ∈]0, 1[. On dit qu’un intervalle I = I(X1 , . . . , Xn ) qui
s’exprime en fonction de l’echantillon est un intervalle de confiance pour θ de niveau
1 − α si
P(θ ∈ I(X1 , . . . , Xn )) = 1 − α.
Lorsque P(θ ∈ I(X1 , . . . , Xn )) > 1 − α, on parle d’intervalle de confiance de niveau
1 − α par excès.

Remarque 5.2.2. Les niveaux usuels sont 90%, 95% et 99% et correspondent respec-
tivement à α = 10%, α = 5% et α = 1%. Pour obtenir le maximum d’information,
il faut s’efforcer de construire l’intervalle de confiance le moins large possible qui
satisfait la condition de minoration donnée dans la définition.

Exemple 5.2.3. Considérons un n−échantillon (X1 , . . . , Xn ) de variables aléatoires

gaussiennes N (µ, 1) où la moyenne µ est inconnue. Si X bn désigne la moyenne em-
√
pirique de l’échantillon, il facile de voir que la variable Z = n × (X bn − µ) a la
même loi qu’une gaussienne N (0, 1). Soit alors α = 5%, et β = 1, 960 de sorte que
P(|N (0, 1)| > β) = α. Alors, on a

P(|Z| 6 β) = 1 − α,

c’est-à-dire
β
bn − √ , Xbn + √β
P µ∈ X = 1 − α,
n n
bn − β/√n, X
autrement dit, I = [X bn + β/√n] est un intervalle de confiance de niveau
α pour le paramètre θ.

Définition 5.2.4. Soit α ∈]0, 1[. On appelle intervalle de confiance asymptotique

pour θ de niveau 1 − α une suite In = I(X1 , . . . , Xn ) d’intervalles de confiance tels
que
lim P(θ ∈ In (X1 , . . . , Xn )) = 1 − α.
n→+∞
5.2. INTERVALLES DE CONFIANCE 61

Exemple 5.2.5. On reprend les exemples du chapitre précédent sur les théorèmes
limites fondamentaux. Dans le cas du taux de mutation d’un gène, d’après la loi des
grands nombres, la moyenne empirique pbn = Sn /n est un estimateur consistant du
paramètre inconnu p. Soit x0 = 1.96 de sorte que P(|N (0, 1)| > x0 ) = 5%. D’après
le théorème limite central, lorsque n tend vers l’infini, un intervalle de confiance
asymptotique pour p de niveau 95% est donné par :

x0 x0
In := pbn − √ , pbn + √ .
2 n 2 n

De la même façon, dans le cas de l’estimation de la moyenne λ d’une loi de Poisson

(nombre de sinistres), on a vu que si x0 = 2.5758 l’intervalle suivant est un intervalle
de confiance asymptotique pour λ de niveau 99% :
" r r #
Sn Sn Sn Sn
In = − × x0 , + × x0 .
n n2 n n2

Exemple 5.2.6. Un sondage auprès d’un échantillon de n personnes sur leur in-
tention de vote au second tour d’une élection indique que 46% des sondés veulent
voter pour A et 54% pour B. On veut donner un intervalle de confiance asympto-
tique de niveau 95% de la proportion p des français qui souhaitent voter pour A.
On peut modéliser les réponses des sondés (pris au hasard dans la population) par
des variables aléatoires Xi de loi de Bernoulli B(p) : Xi = 1 si la i−ème personne
interrogée vote pour A, Xi = 0 si la i−ème personne interrogée vote pour B. D’après
l’énoncé, la proportion de personne ayant l’intention de voter pour A, c’est-à-dire
la moyenne empirique X bn vaut 46%. Comme dans le cas du taux de mutation, si
x0 = 1.96 de sorte que P(|N (0, 1)| > x0 ) = 5%, on montre qu’un intervalle de
confiance asymptotique pour la proportion p est donné par :

x 0
bn − √ , X x
bn + √ . 0
In := X
2 n 2 n

Si n = 100 on obtient ainsi l’intervalle

1.96 1.96
In = 0.46 − , 0.46 + ≈ [0.36, 0.55],
2 × 10 2 × 10

et l’issue de l’élection est très incertaine. Lorsque n = 1000, on trouve

1.96 1.96
In = 0.46 − √ , 0.46 + √ ≈ [0.43, 0.49],
2 × 1000 2 × 1000
et avec 95 chances sur 100, on peut affirmer que le candidat A perdra l’élection.
62 CHAPITRE 5. ESTIMATION ET INTERVALLE DE CONFIANCE

Tables de la loi normale centrée réduite

Figure 5.1 – Quantiles de la loi normale centrée réduite.

Chapitre 6

Tests statistiques

L’objectif d’un test d’hypothèses est de répondre à une question que l’on forma-
lise de la manière suivante : au vu de l’observation d’un échantillon (X1 , . . . , Xn ),
le paramètre θ du modèle est-il ou non dans un sous-ensemble de Θ appelé hypo-
thèse nulle et noté H0 ? Par exemple, si on s’intéresse au changement climatique, on
peut par exemple travailler sur les données de température moyenne au mois d’août
à Paris. Sur l’ensemble du vingtième siècle, ces températures moyennes en degrés
Celsius sont bien décrites par une loi gaussienne N (20, 1). Sur les dix dernières
années, on a observé les températures moyennes suivantes : x = (x1 , . . . , x10 ) =
(22, 19, 21, 23, 20, 22, 24, 18, 20, 25), de sorte que x
b10 = 21.4 et σ
b10 = 2.22.

À partir de ces éléments, souhaite construire un test d’hypothèses pour savoir si la

température moyenne a augmenté ces dix dernières années par rapport à l’ensemble
du vingtième siècle. Bien sûr le fait que la moyenne empirique sur les dix dernières
années dépasse 20 va plutôt dans le sens d’un réchauffement mais il faut procéder
de manière plus fine pour pouvoir contrôler la probabilité d’affirmer à tort qu’il y a
eu réchauffement.

6.1 Tests d’hypothèses

Comme précédemment dans le cas de l’estimation paramétrique, on supposera ici
que les observations recueillies x = (x1 , . . . , xn ) sont les réalisations d’un échantillon
X = (X1 , . . . , Xn ) de variables aléatoires i.i.d de loi inconnue PX . On supposera de
plus que la loi inconnue PX appartient à une famille paramétrée de loi que l’on on
notera P = {Pθ , θ ∈ Θ}. Par exemple, la loi PX pourra être une loi de Bernoulli i.e.
P = {B(θ), θ ∈ Θ = [0, 1]}, une loi exponentielle i.e. P = {E(θ), θ ∈ Θ = R∗+ }, une
loi gaussienne i.e. P = {Pθ = Nθ , avec θ = (µ, σ 2 ) ∈ Θ = R × R∗+ } etc.

Dans la suite, (H0 , H1 ) désignera une partition de l’ensemble Θ des paramètres,

i.e. on aura toujours : Θ = H0 ∪ H1 et ∅ = H0 ∩ H1 . Par exemple dans le cas de
variables de Bernoulli, on a Θ = [0, 1] et H0 := [0, 1/2[, H1 := [1/2, 1] constituent
une partition de Θ ; de même pour les ensembles H0 := {1/4} et H1 := [0, 1]\{1/4}.
64 CHAPITRE 6. TESTS STATISTIQUES

6.1.1 Définitions
Ayant introduit la partition (H0 , H1 ) de l’ensemble Θ des paramètres, nous pou-
vons à présent introduire la notion de test d’hypothèses qui consiste à construire à
partir des données une règle de décision pour savoir si le paramètre inconnu θ de la
loi est dans H0 ou dans H1 .

Définition 6.1.1. On appelle test d’hypothèses une règle de décision qui au vu de

l’observation X permet de décider si θ est dans l’ensemble H0 appelé hypothèse nulle
ou si θ est dans l’ensemble H1 appelé hypotèse alternative. Un test est déterminé
par sa région critique W qui constitue un sous-ensemble des valeurs possibles de
X = (X1 , . . . , Xn ). Lorsque l’on observe x = (x1 , . . . , xn ),
— si x ∈ W , alors on rejette H0 et on accepte H1 i.e. on décide que θ ∈ H1 ,
— si x ∈ / W , alors on accepte H0 et on rejette H1 i.e. on décide que θ ∈ H0 .

Définition 6.1.2. On appelle erreur de première espèce le rejet de H0 à tort. Cette

erreur est mesurée par le risque de première espèce : θ ∈ H0 7→ Pθ (X ∈ W ). On
appelle erreur de seconde espèce le rejet de H1 à tort. Cette erreur est mesurée par
le risque de seconde espèce : θ ∈ H1 7→ Pθ (X ∈ W c ). Par convention, on minimise
en priorité le risque de première espèce.

Définition 6.1.3. On appelle niveau du test le nombre α(W ) = supθ∈H0 Pθ (W ).

Parmi les tests de niveau inférieur à un seuil α fixé, on souhaite minimiser le risque
de seconde espèce. En général, on choisit α = 10%, α = 5% ou α = 1%.

Remarque 6.1.4. Lors d’un test, on minimise en priorité le risque de première

espèce, aussi les rôles de l’hypothèse nulle H0 et de l’hypothèse alternative H1 ne sont
pas symétriques. Le choix de H0 parmi deux ensembles constituant une partition de
Θ dépend donc du problème considéré : on choisit comme hypothèse nulle l’ensemble
que l’on ne souhaite surtout pas voir rejeté à tort : hypothèse à laquelle on tient,
hypothèse de prudence, hypothèse solidement établie etc. Par exemple, dans le test
de dépistage d’une maladie, on souhaite surtout éviter de dire à une personne qu’elle
est en bonne santé alors qu’elle est en fait malade. On choisit comme hypothèse nulle
le fait d’être malade. Dans le cas du réchauffement climatique, un homme politique
qui veut éviter de prendre des mesures si le réchauffement n’est pas avéré choisira
comme hypothèse nulle “il n’y a pas réchauffement”. Un écologiste choisira plutôt “il
y a réchauffement”.

Exemple 6.1.5. Commençons par un exemple très simple. On suppose que l’on
observe une seule donnée x1 = 2, 165, réalisation d’une variable aléatoire X1 de loi
N (µ, 1) où la moyenne µ appartient à l’ensemble à deux éléments {0, 5}. Au vu de
cette observation, on souhaite construire un test pour décider, avec un niveau de
sécurité de α, si µ = 0 ou si µ = 5. On privilégie la première hypothèse, et on pose
donc H0 = {µ = 0} et H1 = {µ = 5}.
— Considérons tout d’abord le cas où α = 5%. Soit β5% = 1.64 de sorte que
6.1. TESTS D’HYPOTHÈSES 65

P(N (0, 1) > β5% ) = 0.05. On définit la région de rejet W5% = {X1 > β5% } de
sorte que P0 (W5% ) = 0.05. Cette zone de rejet W5% fournit un test de niveau
5% de H0 contre H1 . Dans notre exemple, on a x1 = 2, 165 > 1.64, on rejette
donc l’hypothèse H0 = {µ = 0} au niveau 5%.

— Considérons maintenant le cas où α = 1%. Soit β1% = 2.33 de sorte que

P(N (0, 1) > β1% ) = 0.01. On définit la région de rejet W1% = {X1 > β1% } de
sorte que P0 (W1% ) = 0.01. Cette zone de rejet W1% fournit un test de niveau
1% de H0 contre H1 . Dans notre exemple, on a x1 = 2, 165 < 2.33, on accepte
donc l’hypothèse H0 = {µ = 0} au niveau 1%.

Exemple 6.1.6. On suppose maintenant que l’on dispose de n données x1 , . . . , xn

et qu’elles sont des réalisations de variables aléatoires gaussiennes, c’est-à-dire de loi
du type P = {N (µ, σ 2 ), µ ∈ {µ0 , µ1 }} avec σ 2 > 0 connu et µ0 > µ1 . On souhaite
tester l’hypothèse H0 = {µ = µ0 } contre H1 = {µ = µ1 }. On va bien sûr accepter
H0 (resp. H1 ) si la moyenne empirique X bn est grande (resp. petite), c’est-à-dire
choisir la région critique de la forme W = {X bn < a}. Le choix a = (µ0 + µ1 )/2, qui
peut sembler naturel, ne permet pas de contrôler le risque de première espèce. Pour
obtenir ce contrôle de la probabilité de rejeter H0 à tort, on utilise le fait que sous
H0 , la statistique de test Xbn suit la loi N (µ0 , σ 2 /n). Autrement dit, si Z ∼ N (0, 1),
√
σZ n(a − µ0 )
P(µ0 ,σ2 ) (Xn < a) = P(µ0 ,σ2 ) µ0 + √ < a = P(µ0 ,σ2 ) Z <
b .
n σ
En choisissant a de sorte que la dernière probabilité soit inférieure à α, on obtient
donc un test de niveau α.

Exemple 6.1.7. On construit maintenant un test pour l’augmentation des tempéra-

tures moyennes à Paris au mois d’août. On suppose que les températures recueillies
sur la dernière décennie

x = (x1 , . . . , x10 ) = (22, 19, 21, 23, 20, 22, 24, 18, 20, 25)

sont des réalisations de variables gaussiennes N (µ, 1) où la moyenne µ est inconnue

et on souhaite tester l’hypothèse nulle H0 := {µ 6 µ0 = 20} contre l’hypothèse
alternative H1 := {µ > µ0 = 20}. Pour cela, on introduit la statistique ξn =
√ bn − µ0 ). On remarque que ξn ∼ N (√n × (µ − µ0 ), 1), autrement dit ξn
n × (X
a tendance à croître avec µ ce qui incite à choisir une région de rejet de la forme
W = {ξn > a} pour un seuil a à déterminer. Si Z ∼ N (0, 1), on a
√
sup P(µ,1) (ξn > a) = sup P(µ,1) (Z > a + n × (µ − µ0 )) = P(Z > a).
µ6µ0 µ6µ0

Soit a = 2.33 de sorte que P(Z > a) 6 0.01. La zone de rejet W = {ξn > 2.33}
fournit alors un test de H0 contre H1 de niveau 99%.
√
Si on applique ce test aux données recueillies, on trouve ξ10 = 10 × (b
√ x10 − µ0 ) =
10 × (21, 4 − 20) ≈ 4.33. On a donc ξ10 > a = 2.33 et on rejette l’hypothèse H0 .
66 CHAPITRE 6. TESTS STATISTIQUES

En fait on a P(Z > 4.33) ≈ 4.7 × 10−6 , et on rejette l’hypothèse H0 pour tous les
niveaux α > 4.7 × 10−6 , c’est-à-dire à tous les niveaux usuels. Ainsi on peut conclure
à l’augmentation des températures sur les dix dernières années.

6.2 Test du χ2
Nous introduisons maintenant une classe de tests très utilisés en pratique : les
tests du χ2 (on lit khi − deux). Ces tests sont basés sur la loi du χ2 qui comme la
loi gaussienne centrée réduite est tabulée. On donne la table des quantiles de la loi
χ2 pour différents degrés de liberté en fin de chapitre.

Définition 6.2.1. On dit qu’une variable aléatoire X suit une loi du χ2 à n degrés
de liberté et on note X ∼ χ2 (n) si X est à valeurs dans R+ et X admet la densité
fX suivante :
xn/2−1 e−x/2
fX (x) = n/2 .
2 Γ(n/2)
Si X1 , X2 , . . . Xn sont des variables aléatoires indépendantes de loi N (0, 1), alors la
variable Z = X12 + X22 + . . . + Xn2 suit une loi χ2 (n). En particulier, si Z ∼ χ2 (n),
on a :
E[Z] = n, et var(Z) = n.
Ci-dessous, on donne l’allure de la densité fX pour différents degrés de liberté, c’est-
à-dire pour différentes valeurs du paramètre n.

Figure 6.1 – Allure des densités des lois χ2 (k) pour différentes valeurs de k.

Les tests du χ2 permettent de répondre à de nombreuses questions comme :

— un dé à six faces est-il pipé ? Pour cela on observe les fréquences d’apparition
des faces lors de n lancers de ce dé et on les compare au vecteur (1/6, . . . , 1/6).
6.2. TEST DU χ2 67

— la répartition entre accouchements avec et sans césarienne dépend-elle du jour

de la semaine ? Pour cela, on introduit qbj les proportions d’accouchements qui
ont lieu le j−ème jour de la semaine, rbA et rbS les proportions globales d’ac-
couchements avec et sans césarienne et enfin pbj,l , (j, l) ∈ {1, . . . , 7} × {A, S}
la proportions d’accouchements qui ont lieu le j−ème jour de la semaine avec
césarienne si l = A et sans si l = S. Bien sûr, on va comparer la matrice (b pj,l )
à la matrice (bqj rbl ).
Dans les deux prochaines sections, nous expliquons et illustrons la procédure de
décision du χ2 dans le cas de tests d’indépendance et d’adéquation à une loi donnée.

6.2.1 Test d’adéquation à une loi

Nous décrivons ici le test du χ2 d’adéquation à une loi, qui comme son nom
l’indique permet de décider si des observations sont des réalisations d’une loi donnée.
On observe ainsi un échantillon (x1 , . . . , xn ) de variables aléatoires (X1 , . . . , Xn ) i.i.d.
à valeurs dans un ensemble fini A = {a1 , . . . , ak } et de loi inconnue p = (p1 , . . . , pk )
où Pp (X1 = aj ) = pj pour j ∈ {1, . . . , k}. La loi p appartient à l’ensemble de
paramètres Θ = {(p1 , . . . , pk ) ∈ Rk+ , p1 + . . . + pk = 1}.
On suppose par ailleurs donnée une loi a priori p0 = (p01 , . . . , p0k ). On souhaite tester
l’hypothèse nulle H0 = {p = p0 } contre l’hypothèse alternative H1 = {p 6= p0 },
autrement dit on souhaite tester si les observations (x1 , . . . , xn ) sont des réalisations
de variables aléatoires (X1 , . . . , Xn ) de loi p0 .

Exemple 6.2.2. Dans le cas du dé à six faces évoqué plus haut, A = {1, . . . , 6} et
p0 = (1/6, . . . , 1/6). Tester H0 = {p = p0 } contre H1 = {p 6= p0 } revient à tester si
le dé est pipé ou non.

Voici comment
1
Pnon met en oeuvre le test d’adéquation. Pour j ∈ {1, . . . , k}, on
note pbj := n i=1 1Xi =aj la fréquence empirique de aj . Le vecteur des fréquences
empiriques est alors pb = (b
p1 , . . . , pbk ). L’idée qui est à la base du test est bien sûr que
le vecteur pb est plus proche de p0 sous l’hypothèse nulle H0 que sous l’hypothèse
alternative H1 . Afin de quantifier la “proximite”, on utilise la pseudo-distance du χ2 :
k
X pj − p0j )2
(b
ξn := n × 0
.
j=1
p j

On peut montrer le comportement asymptotique suivant :

Proposition 6.2.3. Sous H0 , ξn converge en loi vers Z ∼ χ2 (k − 1). Sous H1 , ξn

tend presque sûrement vers plus l’infini.

Étant donné un niveau α (par exemple α = 5%) et un réel a tel que P(Z > a) = α,
la zone de rejet Wn = {ξn > a} fournit alors un test de niveau asymptotique α de
H0 = {p = p0 } contre H1 = {p 6= p0 }.
68 CHAPITRE 6. TESTS STATISTIQUES

Remarque 6.2.4. En pratique, on considère que l’approximation en loi par χ2 (k −1)

est valide sous H0 si n × min16j6k p0j > 5. Si cette condition n’est pas satisfaite, on
peut regrouper les valeurs de aj pour lesquelles p0j est trop faible et augmenter ainsi
le minimum.

Exemple 6.2.5. Lors de cent lancers d’un dé à six faces, on observe les résultats
suivants :
x 1 2 3 4 5 6
N (x) 20 13 17 12 23 15

On veut tester au niveau de confiance 95% l’hypothèse H0 := {le dé n’est pas pipé}
contre l’hypothèse H1 := {le dé est pipé}. D’après les tables, si Z ∼ χ2 (5), on a
P(Z > 11, 07) = 5%, autrement dit la zone de rejet est ici de la forme {ξn > 11.07}.
Dans notre exemple, les fréquences observées sont :
x 1 2 3 4 5 6
pbx 0.2 0.13 0.17 0.12 0.23 0.15
On applique le test d’adéquation à la loi uniforme p0 = (1/6, . . . , 1/6). La statistique
de test vaut
6 6
X pj − 1/6)2
(b X
ξ100 = 100 × = 600 × pj − 1/6)2 ≈ 5.36.
(b
j=1
1/6 j=1

Comme 5.36 < 11.07, on ne rejette pas au niveau de confiance 95% l’hypothèse H0 .

6.2.2 Test d’indépendance

Nous décrivons à présent la procédure du test d’indépendance du χ2 . La pro-
blématique est la suivante : on dispose d’un échantillon d’une loi à deux compo-
santes Z = (X, Y ) et l’on souhaite déterminer si les variables X et Y sont indépen-
dantes. Soient donc n données (z1 , . . . , zn ) = ((x1 , y1 ), . . . , (xn , yn )) dont on suppose
qu’elles sont les réalisations indépendantes de variables aléatoires (Z1 , . . . , Zn ) =
((X1 , Y1 ), . . . , (Xn , Yn )) à valeurs dans des ensembles finis :
Xi ∈ {A1 , . . . , Ak }, Yi ∈ {B1 , . . . , B` }.
On note p = (pjl , 1 6 j 6 k, 1 6 l 6 `) la loi du couple Z = (X, Y ), c’est-à-dire :
pjl = P(Z = (Aj , Bl )) = P(X = Aj , Y = Bl ).
On introduit les fréquences empiriques
n n n
1X 1X 1X
pbjl = 1Xi =Aj ,Yi =Bl , qbj = 1Xi =Aj , rbl = 1Y =B .
n i=1 n i=1 n i=1 i l

La statistique de test
pjl − qbj rbl )2
X (b
ξn = n
j,l
qbj rbl
6.2. TEST DU χ2 69

mesure la distance entre la matrice pb des fréquences des couples (Aj , Bl ) et la matrice
qbrb∗ produit des fréquences marginales.

Proposition 6.2.6. Sous H0 et sous des hypothèses de régularité, ξn converge en loi

vers Z ∼ χ2 ((k − 1)(` − 1)). Sous H1 , ξn tend presque sûrement vers plus l’infini.

Étant donné un niveau α (par exemple α = 5%) et un réel a tel que P(Z > a) = α,
la zone de rejet Wn = {ξn > a} fournit alors un test de niveau asymptotique α de
H0 = {X et Y indépendantes} contre H1 = {X et Y non indépendantes}.

Exemple 6.2.7. On désire étudier la répartition des naissances suivant le type du

jour dans la semaine (jours ouvrables ou week-end) et suivant le mode d’accou-
chement (naturel ou par césarienne). Les données proviennent du “National Vital
Statistics Report” et concernent les naissances aux USA en 1997.
Naissances Naturelles César. Total Naissances Naturelles César. Total
J.O. 2331536 663540 2995076 J.O. 60.6% 17.3% 77.9%
W.E. 715085 135493 850578 W.E. 18.6% 3.5% 22.1%
Total 3046621 799033 3845654 Total 79.2% 20.8% 100.0%

On souhaite tester au niveau 0.1% = 0.001 l’hypothèse d’indépendance entre le

type du jour de naissance (jour ouvrable ou week-end) et le mode d’accouchement
(naturel ou césarienne).
Les fréquences observées sont pbJ = 0.779, pbW = 0.221, pbN = 0.792, pbC = 0.208,
pbJN = 0.606, pbJC = 0.173, pbW N = 0.186 et pbW C = 0.035 où les indices J, W, N, C
signifient respectivement jour ouvrable, week-end, naissance naturelle, naissance par
césarienne. On en déduit que pbJ pbN = 0.617, pbJ pbC = 0.162, pbW pbN = 0.175 et pbW pbC =
0.046. Sur ces observations, la statistique de test ξn pour le test d’indépendance est
obs
ξ3845654 = 16401.3.

Dans cet exemple, on a k = 2 et ` = 2 et l’on a donc ξ3845654 ≈ χ2 (1). D’après la table

de la fin du chapitre, si Z ∼ χ2 (1), on a P(Z > 10.83) = 0.001. Autrement dit, la
obs
zone de rejet du test d’indépendance est W = {ξ3845654 > 10.83}. Comme ξ3845654 =
16401.3 > 10.83, on rejette donc, au niveau 0.001, l’hypothèse d’indépendance entre
le type du jour de naissance et le mode d’accouchement. Il y a plus de naissance par
césarienne les jours ouvrables que les week-end.
Exemple 6.2.8. Un traitement est administré à trois doses différentes 1, 2 et 3, à
un groupe de sujets atteints d’une même maladie. L’expérimentation est faite en
double aveugle. On compte le nombre de guérisons pour chaque dose. Les résultats
sont les suivants :

Sujets guéris Sujets non guéris Total

Dose 1 30 30 60
Dose 2 42 35 77
Dose 3 58 31 89
Total 130 96 226
70 CHAPITRE 6. TESTS STATISTIQUES

On souhaite déterminer avec un niveau de sécurité de 95% si l’efficacité du traitement

est liée à la dose utilisée ? Cela revient à réaliser un test au niveau α = 5% de
l’hypothèse H0 contre H1 avec

H0 := {dose et guérison sont indépendantes}

H1 := {dose et guérison ne sont pas indépendantes}.

Si on note G pour guéri et M pour non guéri, les fréquences marginales observées
sont ici : pbG = 130/226, pbM = 96/226, et pb1 = 60/226, pb2 = 77/226, pb3 = 89/226.
D’autre part, on a pbG1 = 30/226, pbG2 = 42/226 et pbG3 = 58/226, pbM 1 = 30/226,
pbM 2 = 35/226 et pbM 3 = 31/226. La statistique du χ2 est donnée par :
3 3
!
X pGj − pbG pbj )2 X (b
(b pM j − pbM pbj )2
ξ226 = 226 + .
j=1
p
b G p
b j j=1
p
b M p
b j

obs
Avec nos données, on trouve ξ226 = 3.80. Le nombre de degrés de liberté est ici
k = (3 − 1) × (2 − 1) = 2 et l’on a P(χ2 (2) > 5.99) = 5%. Autrement dit, l’ensemble
W := {ξ226 > 5.99} est une zone de rejet pour le test de H0 contre H1 au niveau
obs
5%. On a ici ξ226 ∈
/ W de sorte que l’on accepte l’hypothèse d’indépendance de la
dose et de la guérison au niveau 5%.
6.2. TEST DU χ2 71

Quantiles de la loi du χ2
Soit Xn ∼ χ2 (n). On pose :
+∞
y n/2−1 e−y/2
Z
α = P(Xn > x) = dy.
x 2n/2 Γ(n/2)

La table ci-dessous donne les valeurs de x en fonction de n et de α. Par exemple

P(X8 > 20.09) ≈ 0.01.

Figure 6.2 – Quantiles d’ordre α de la loi du χ2 à n degrés de liberté.

72 CHAPITRE 6. TESTS STATISTIQUES
Chapitre 7

Régression linéaire

Dans ce dernier chapitre, nous nous intéressons à la régression linéaire simple.

Étant donnée une statistique double ou statistique bivariée Z = (X, Y ) où X =
(X1 , . . . , Xn ) et Y = (Y1 , . . . , Yn ), on cherche une relation du type Y = f (X) où f
est une fonction à déterminer. Le cas de la régression linéaire correspond au cas où
la fonction f est linéaire, c’est-à-dire au cas où f (x) = ax + b où a et b sont des
constante. Graphiquement, étant donné le nuage de points (Xi , Yi ), cela revient à
déterminer la droite qui “colle” le mieux au données.

Figure 7.1 – Nuage de points et droite de régression.

L’objectif est double ici : il s’agit dans un premier temps d’expliquer les données
Yi en fonction des données Xi , et d’autre part d’essayer de prédire la valeur d’une
nouvelle réalisation de la variable Y à partir d’une nouvelle réalisation de la variable
X. Bien entendu, sauf cas exceptionnel, la relation Y = f (X) ne peut être exacte.
Aussi cherche-t-on la fonction f de sorte que la relation Y = f (X) soit le plus près
possible d’être vérifiée.
74 CHAPITRE 7. RÉGRESSION LINÉAIRE

7.1 Régression linéaire simple

On se concentre ici sur le cas où f (x) = ax + b avec des constantes a et b à
déterminer. D’autres cas seront envisagés dans la section 7.3.

7.1.1 La problématique
La notion de proximité qu’on retient est celle qui conduit au calcul le plus simple :
on cherche à minimiser la somme des carrés des distances à la droite, autrement dit
on cherche le couple (b
an , bbn ), fonction des données (Xi , Yi ), qui minimise la fonction
2 2
σ = σ (a, b) :
Xn
2 2
σ = σ (a, b) := (Yi − aXi − b)2 .
i=1

La droite DY /X d’équation Y = b an X + bbn correspondante est appelée la droite de

régression au sens des moindres carrés (ou droite de régression) de Y = (Y1 , . . . , Yn )
par rapport à X = (X1 , . . . , Xn ).

7.1.2 La solution
Pour résoudre le problème de minimisation, on rappelle quelques notations in-
troduites dans les chapitres précédents. On considère ainsi les moyennes et variances
empiriques suivantes :
n n
bn := 1 1X
X
X Xi , Ybn := Yi ,
n i=1 n i=1
n n
1X 2 1X 2 b
bnX :=
σ b 2,
X −X bnY :=
σ Y − Yn .
n i=1 i n
n i=1 i
La covariance empirique κXY
n et la coefficient de corrélation linéaire ρXY
n sont alors
donnés par les formules :
n
1X κXY
n
κXY
n := Xi Yi − X
bn Ybn , ρXY
n := p .
n i=1 bnX σ
σ bnY

On réécrit tout d’abord l’erreur quadratique σ 2 en faisant intervenir les moyennes

et variances empiriques. On a ainsi :
n
X n
X 2
2
(Yi − aXi − b) = (Yi − Ybn ) − a(Xi − X
bn ) + (Ybn − aX
bn − b)
i=1 i=1

bn − b)2 + a2 σ
= (Ybn − aX bnX − 2aκXY bnX ,
+σ
n

de sorte que, dès lors que la statistique X n’est pas constante i.e. σnX 6= 0, il existe
un unique couple (ban , bbn ) qui minimise la la fonction (a, b) 7→ σ 2 (a, b). Ce couple est
7.2. STATISITIQUE DE LA RÉGRESSION 75

donné par :
κXY
n bbn := Ybn − b
an := , an X
bn .
bnX
b
σ
En fonction de (b
an , bbn ), l’erreur quadratique s’écrit encore :
n
X
σ2 = bnY − κXY
(Yi − aXi − b)2 = σ σnX = (1 − |ρXY
n /b
2
σnY .
n | )b
i=1

Elle est nulle lorsque qu’existe une relation linéaire entre les statistiques X et Y , et
faible en cas de relation quasi-linéaire. Notons que la droite de régression passe par
le centre de gravité du nuage formé par les n points (Xi , Yi ).

7.2 Statisitique de la régression

On suppose dans cette section que les variables aléatoires (Yi )i=1...n sont reliées
à des données déterministes (Xi )i=1...n par une relation du type :

Yi = aXi + b + εi ,

où les (εi )i=1...n sont indépendantes avec E[Xi ] = 0, var(Xi ) = 1. Les coefficients de
régression (b an , bbn ) fournissent alors des estimateurs des quantités a et b.

7.2.1 Propriétés des estimateurs de la régression

Les coefficients de régression (b
an , bbn ) sont de “bons” estimateurs des quantités a
et b au sens suivant :

Proposition 7.2.1. Les coefficients de régression b

an et bbn sont des estimateurs sans
biais et consistants de a et b.
an s’écrit encore
Démonstration. Le coefficient b
n
1 X
an = a + X
b (Xi − X
bn )εi .
nb
σn i=1

Comme les εi sont centrées, on a bien E[b an ] = a. De la même façon, on vérifie que
E[bn ] = E[Yn ] − E[b
b b an ]Xn = E[Y ] − aXn = b, autrement dit, b
b b an et bbn sont sans
biais. Par ailleurs, d’après la loi des grands nombres, lorsque n tend vers l’infini,
on a les convergence en probabilité Ybn → E[Y ], X bn → E[X], κXY → cov(X, Y ) et
n
X
bn → var(X). On en déduit les dernières convergences
σ
n
κXY
n cov(X, Y ) bn = b + 1
X
an = → = a, bbn = Ybn − b bn ≈ Ybn − aX
an X εi → b,
bnX
b
σ var(X) n i=1

an et bbn sont consistants.

i.e. les estimateurs b
76 CHAPITRE 7. RÉGRESSION LINÉAIRE

7.2.2 Intervalle de confiance pour la prédiction

Il est naturel d’utiliser la droite DY /X pour prédire une valeur supplémentaire
Yn+1 de la statistique Y , connaissant une valeur supplémentaire Xn+1 de la sta-
tistique X : Yn+1 = aXn+1 + b. La qualité d’une telle prédiction (qui a priori n’a
vraiment de sens que pour Xn+1 proche de l’intervalle [min X, max X]) dépend de
la valeur de l’erreur quadratique σ 2 qui est la variance empirique de la statistique
Y − aX − b. On peut déterminer un intervalle de confiance par sa largeur autour
de la droite de régression, de la façon suivante : pour p ∈]0, 1[ fixé, soit r un réel
strictement positif tel que
n
1X
p≈ 1{|Yi −aXi −b|6r} .
n i=1
Pensant au théorème central limite, il est naturel d’approcher la loi empirique des
Yi − aXi − b par une gaussienne, nécessairement centrée et de variance σ 2 . De sorte
qu’on doit avoir
p ≈ P(|N (0, 1)| 6 r/σ).
On peut ainsi estimer que pour Xn+1 proche de l’intervalle [min X, max X], on doit
avoir par exemple 95% de chance de trouver Yn+1 dans l’intervalle :
an Xn+1 + bbn − 1.96σ, b
In := [b an Xn+1 + b
an + 1.96σ]

Figure 7.2 – Exemple d’intervalle de confiance pour la prédiction.

7.3 Au dela du cas linéaire

Bien entendu, on ne cherche pas toujours une relation linéaire entre les statis-
tiques X et Y . Mais on peut bien souvent s’y ramener, par un changement de variable
7.3. AU DELA DU CAS LINÉAIRE 77

élémentaire. Par exemple dans la cas suivant, on peut intuiter que la relation est
de la forme Y = beaX . On se ramène au cas linéaire en considérant les données
(Xi , log Yi ).

Figure 7.3 – Modèle exponentiel Y = beaX et regression linéaire.

78 CHAPITRE 7. RÉGRESSION LINÉAIRE

De façcon analogue, si l’on espère que Y = aX b , il suffit de considérer le nuage

formé par les points (log Xj , log Yj ) ; si l’on espère que Y = log(aeX + b), il suffit
de considérer le nuage formé par les points (eXj , eYj ) ; si l’on soupçonne que Y =
aX/(X 2 + b), il suffit de considérer le nuage formé par les points (Xj2 , Xj /Yj ) etc.
√
On peut aussi envisager des relations plus complexes du types Y = aX + b X + c
qui comme le montre l’exemple ci-dessous peuvent être mieux adaptées à certains
type de données.

Figure 7.4 – En rouge la régression linéaire du√type Y = aX + b du nuage de

points. En vert, la régression de type Y = aX + b X + c qui semble mieux adaptée
aux données.

Vous aimerez peut-être aussi

Cours Agreg Interne
Pas encore d'évaluation
Cours Agreg Interne
53 pages
Introduction aux Probabilités et Statistiques
Pas encore d'évaluation
Introduction aux Probabilités et Statistiques
129 pages
00 S7 Cours Proba Ok
Pas encore d'évaluation
00 S7 Cours Proba Ok
51 pages
Cours de Probabilités MIP M147
Pas encore d'évaluation
Cours de Probabilités MIP M147
59 pages
CoursdeProbabilites Daoui Elhafidi
Pas encore d'évaluation
CoursdeProbabilites Daoui Elhafidi
68 pages
Proba&Stat
Pas encore d'évaluation
Proba&Stat
125 pages
Probabilités Et Statistique-3
Pas encore d'évaluation
Probabilités Et Statistique-3
99 pages
CoursdeProbabilites Daoui Elhafidi
Pas encore d'évaluation
CoursdeProbabilites Daoui Elhafidi
69 pages
Cours de Probabilites 2024-2025: 25 Novembre 2024
100% (1)
Cours de Probabilites 2024-2025: 25 Novembre 2024
67 pages
Introduction aux probabilités 2021-2022
Pas encore d'évaluation
Introduction aux probabilités 2021-2022
90 pages
CoursMP2I Proba
Pas encore d'évaluation
CoursMP2I Proba
55 pages
2MA241 Poly
Pas encore d'évaluation
2MA241 Poly
104 pages
Chapitre 1: Espaces Probabilisés. N-E.Fahssi
Pas encore d'évaluation
Chapitre 1: Espaces Probabilisés. N-E.Fahssi
6 pages
Cours de Probabilit 2 Me Anne L
100% (1)
Cours de Probabilit 2 Me Anne L
89 pages
Polycopié
Pas encore d'évaluation
Polycopié
61 pages
T1 Poly Probabilites Session Mai2018
Pas encore d'évaluation
T1 Poly Probabilites Session Mai2018
27 pages
332 Proba2222888
Pas encore d'évaluation
332 Proba2222888
62 pages
Chapitre01 2021 Version Complete
Pas encore d'évaluation
Chapitre01 2021 Version Complete
16 pages
Isae Proba Stat
Pas encore d'évaluation
Isae Proba Stat
192 pages
Cours de Probabilité et Statistique II
Pas encore d'évaluation
Cours de Probabilité et Statistique II
49 pages
Cours de Probabilités et Statistiques
Pas encore d'évaluation
Cours de Probabilités et Statistiques
57 pages
Notions Élémentaires Du Calcul Des Probabilités
Pas encore d'évaluation
Notions Élémentaires Du Calcul Des Probabilités
19 pages
Cours de Probabiite Et Statistique ANZOLA
Pas encore d'évaluation
Cours de Probabiite Et Statistique ANZOLA
136 pages
CoursProbasStats 240723 145634
Pas encore d'évaluation
CoursProbasStats 240723 145634
73 pages
Cours Proba Stat L2
Pas encore d'évaluation
Cours Proba Stat L2
61 pages
MTH 2201
Pas encore d'évaluation
MTH 2201
63 pages
Probabilités-IUA
Pas encore d'évaluation
Probabilités-IUA
34 pages
Mathématiques: Probabilités Et Échantillonnage Troisième Semestre, IAE Lyon
Pas encore d'évaluation
Mathématiques: Probabilités Et Échantillonnage Troisième Semestre, IAE Lyon
46 pages
Probabilité Statistiques
Pas encore d'évaluation
Probabilité Statistiques
54 pages
Aléatoire Introduction À La Théorie Et Au Calcul Des Probabilités by Josselin Garnier, Sylvie Méléard
Pas encore d'évaluation
Aléatoire Introduction À La Théorie Et Au Calcul Des Probabilités by Josselin Garnier, Sylvie Méléard
327 pages
Cours Michel Pain
Pas encore d'évaluation
Cours Michel Pain
74 pages
Statistique Pour Ingénieur (Proba)
Pas encore d'évaluation
Statistique Pour Ingénieur (Proba)
22 pages
Probabilités Compressed
Pas encore d'évaluation
Probabilités Compressed
66 pages
Cours Proba ENSA PDF
Pas encore d'évaluation
Cours Proba ENSA PDF
52 pages
CoursMPSI Proba
Pas encore d'évaluation
CoursMPSI Proba
56 pages
Ilovepdf Merged Organized
Pas encore d'évaluation
Ilovepdf Merged Organized
72 pages
Cours de Probabilité et Simulation
Pas encore d'évaluation
Cours de Probabilité et Simulation
113 pages
Cours Prob As
Pas encore d'évaluation
Cours Prob As
38 pages
Intro Prob A
Pas encore d'évaluation
Intro Prob A
223 pages
Proba Et Statistiques
Pas encore d'évaluation
Proba Et Statistiques
82 pages
Poly Et TD
Pas encore d'évaluation
Poly Et TD
47 pages
Nouveau Document 2020-03-13 10.00.11
Pas encore d'évaluation
Nouveau Document 2020-03-13 10.00.11
119 pages
Cours de Probabilités et Statistiques S3
Pas encore d'évaluation
Cours de Probabilités et Statistiques S3
53 pages
Cours WWW
Pas encore d'évaluation
Cours WWW
442 pages
FPR L3
100% (1)
FPR L3
58 pages
Cours de Probabilités et Statistiques
Pas encore d'évaluation
Cours de Probabilités et Statistiques
57 pages
Probastat PDF
Pas encore d'évaluation
Probastat PDF
203 pages
Introduction au calcul des probabilités
Pas encore d'évaluation
Introduction au calcul des probabilités
118 pages
Introduction Au Calcul Des Probabilités
100% (1)
Introduction Au Calcul Des Probabilités
219 pages
coursMPSI Proba
Pas encore d'évaluation
coursMPSI Proba
63 pages
Introduction à la Statistique et Probabilités
Pas encore d'évaluation
Introduction à la Statistique et Probabilités
18 pages
Cours D'inférence Statistique
Pas encore d'évaluation
Cours D'inférence Statistique
38 pages
Proba l3
Pas encore d'évaluation
Proba l3
67 pages
Probabilité
100% (1)
Probabilité
132 pages
Cours PDF
Pas encore d'évaluation
Cours PDF
55 pages
Biostatistique et Probabilités
Pas encore d'évaluation
Biostatistique et Probabilités
42 pages
Introduction à la Probabilité
Pas encore d'évaluation
Introduction à la Probabilité
57 pages
Introduction aux Probabilités et Statistiques
Pas encore d'évaluation
Introduction aux Probabilités et Statistiques
47 pages
Comment Investir
Pas encore d'évaluation
Comment Investir
5 pages
Corrige Exo08 Probabilites Conditionnements
Pas encore d'évaluation
Corrige Exo08 Probabilites Conditionnements
2 pages
TD3 - Tests Statistiques Pour Une Moyenne: Exercice 3.1
Pas encore d'évaluation
TD3 - Tests Statistiques Pour Une Moyenne: Exercice 3.1
2 pages
Espaces Probabilise - S
Pas encore d'évaluation
Espaces Probabilise - S
3 pages
Outils de Probabilité et Statistique
Pas encore d'évaluation
Outils de Probabilité et Statistique
18 pages
Rise Règle v2 FR Print Friendly
Pas encore d'évaluation
Rise Règle v2 FR Print Friendly
60 pages
Théorie Des Jeux Et Stratégies Concurrentielles
100% (1)
Théorie Des Jeux Et Stratégies Concurrentielles
29 pages
Statistique Inférentielle CAMPUS
Pas encore d'évaluation
Statistique Inférentielle CAMPUS
19 pages
Le Pendule - Sig Lonegren - Radiesthesie - Experiences - Applications - Outils - Chartes
88% (8)
Le Pendule - Sig Lonegren - Radiesthesie - Experiences - Applications - Outils - Chartes
75 pages
Probabilités : Exercices Variés
100% (1)
Probabilités : Exercices Variés
11 pages
TD1-Probabilité Et Statistique
Pas encore d'évaluation
TD1-Probabilité Et Statistique
2 pages
Algorithmes classiques et paradoxe de Penney
Pas encore d'évaluation
Algorithmes classiques et paradoxe de Penney
2 pages
19 Proba 3 e
Pas encore d'évaluation
19 Proba 3 e
4 pages
Exercices Supplémentaires Sur Les Probabilités (Première Partie)
Pas encore d'évaluation
Exercices Supplémentaires Sur Les Probabilités (Première Partie)
4 pages
Livre Math
Pas encore d'évaluation
Livre Math
1 page
Tours de Magie Mathematiques
100% (1)
Tours de Magie Mathematiques
32 pages
C Est Quoi Avoir de La Chance ?: Fiche D@accompagnement Pédagogique Dun 696 D@
Pas encore d'évaluation
C Est Quoi Avoir de La Chance ?: Fiche D@accompagnement Pédagogique Dun 696 D@
8 pages
Graph90e Physium Simulations
Pas encore d'évaluation
Graph90e Physium Simulations
31 pages
La Probabilité, Le Hasard Et La Certitude (Paul Deheuvels)
Pas encore d'évaluation
La Probabilité, Le Hasard Et La Certitude (Paul Deheuvels)
167 pages
Chapitre 7 Statistiques Probabilistes MMAT221
Pas encore d'évaluation
Chapitre 7 Statistiques Probabilistes MMAT221
8 pages
Cours de Proba Partie 1
Pas encore d'évaluation
Cours de Proba Partie 1
23 pages
1b-Probabilites (Cours Exercices)
Pas encore d'évaluation
1b-Probabilites (Cours Exercices)
26 pages
Séquence Complète - Déterminer Des Probabilités Et Des Issues
Pas encore d'évaluation
Séquence Complète - Déterminer Des Probabilités Et Des Issues
5 pages
Blitz Bowl VF
Pas encore d'évaluation
Blitz Bowl VF
16 pages
Les Lois Des Probabilités Et La Bourse
Pas encore d'évaluation
Les Lois Des Probabilités Et La Bourse
1 page
Règlement Championnats Pokémon UNITE 2024
Pas encore d'évaluation
Règlement Championnats Pokémon UNITE 2024
34 pages
Introduction à la Probabilité et Expériences Aléatoires
Pas encore d'évaluation
Introduction à la Probabilité et Expériences Aléatoires
5 pages
Sujet 0 de Voie Générale - Enseignement Spécifique - Sujet 2
Pas encore d'évaluation
Sujet 0 de Voie Générale - Enseignement Spécifique - Sujet 2
4 pages
Exercices de Probabilité et Dénombrement BCPST 2
Pas encore d'évaluation
Exercices de Probabilité et Dénombrement BCPST 2
5 pages
Probabilités et Exercices Corrigés
Pas encore d'évaluation
Probabilités et Exercices Corrigés
4 pages