0% ont trouvé ce document utile (0 vote)

46 vues46 pages

Prob

Ce document introduit les concepts fondamentaux de la théorie des probabilités, notamment les notions d'expérience aléatoire, d'espace de probabilité, de probabilité conditionnelle et d'indépendance. Il présente également les notions de variables aléatoires réelles et de vecteurs aléatoires ainsi que différentes formes de convergence.

Transféré par

florencebaibou

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

46 vues46 pages

Prob

Transféré par

florencebaibou

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Introduction aux probabilités

Maurice Charbit

16 septembre 2002
Table des matières

1 Probabilité événementielle 2
1.1 Notion d’expérience aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Espace de probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Probabilité conditionnelle et indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4 Probabilité et statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2 Vecteurs aléatoires 8
2.1 Variable aléatoire réelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.1.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.1.2 Espérance mathématique d’une variable aléatoire . . . . . . . . . . . . . . . . . . . . . 9
2.1.3 Variables aléatoires usuelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1.4 Changement de variable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2 Vecteurs aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2.1 Mesurabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2.2 Espérance mathématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2.3 Indépendance et loi conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2.4 Principaux moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2.5 Vecteurs Gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2.6 Changement de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

3 Convergences 30
3.1 Différentes formes de convergence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.1.1 Rappels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.1.2 Convergence p.s. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.1.3 Convergence en probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.1.4 Convergence en moyenne d’ordre q . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.1.5 Convergence en loi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.2 Hiérarchie des convergences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.3 Comportement asymptotique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.4 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

4 Régression linéaire et espérance conditionnelle 42

4.1 Régression affine et espérance conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.2 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

1
Chapitre 1

Probabilité événementielle

1.1 Notion d’expérience aléatoire

Il existe en physique des expériences qui, conduites de façon apparemment identique un grand nombre
de fois, donnent à chaque observation un résultat qui semble imprévisible. On dit que de telles expériences
sont aléatoires. Citons par exemple le bruit de fond que l’on entend dans un récepteur radio. Pour étudier
l’évolution de tels phénomènes, on a recours à des modèles probabilistes.
En théorie des probabilités, on considère, tout d’abord, un ensemble, que nous noterons Ω, dont les
éléments ω symbolisent les différentes épreuves d’une expérience aléatoire. Par épreuve il faut entendre une
réalisation possible de l’expérience. Ainsi dans une expérience ”aléatoire” de lancer d’un dé, l’ensemble
Ω = {1, 2, 3, 4, 5, 6} correspond à l’apparition de chacune des 6 faces du dé. Dans cette expérience, le hasard
intervient sous la forme de probabilités de chaque face. Dans le cas où le dé n’est pas truqué, on prendra 1/6
pour chacune d’elles.
Pour ne pas être ambigüe et conduire à de faux paradoxes, l’expression “tirer au hasard” doit être
accompagnée d’un protocole précis. Ainsi, tirer une corde au hasard sur un cercle de rayon R peut être vu
comme
– on fixe une direction ∆ puis on tire un nombre uniformément entre −R et +R, ce nombre représentant
la distance de la corde au centre du cercle dans la direction ∆.
– on fixe un point A sur le cercle. Puis on tire un nombre uniformément entre 0 et π, ce nombre
représentant l’angle que fait la corde avec la tangente en A.
– on tire un point uniformément dans le disque de rayon R, ce nombre représentant le milieu de la corde.
D’un point de vue probabiliste, ces trois expériences sont totalement différentes. Dans la première l’espace
Ω est constitué de l’intervalle (−R, +R), dans le second de l’intervalle (0, π) et dans le troisième du disque
de rayon R.
Dans tous les cas, la pertinence du modèle choisi ne peut pas se déduire a priori. Comme dans tout
problème de modélisation, elle ne peut s’affirmer que a posteriori par l’observation
Prenons une expérience où l’on place au hasard deux balles dans trois cases. Si l’on est amené à distinguer
les cases et les balles, l’ensemble des épreuves comporte 32 = 9 éléments, alors que si l’on ne distingue ni les
cases ni les balles, l’ensemble n’en comportera que deux : la configuration où les deux balles sont dans une
même case et celle où les deux balles occupent deux cases différentes.
C’est pourquoi si le calcul des probabilités est une technique mathématique de description des phénomènes
aléatoires, la validité de ses applications à un problème précis ne peut être vérifiée qu’après coup au moyen
de méthodes statistiques.

1.2 Espace de probabilité

Dans l’expérience précédente de lancers d’un dé, l’événement décrit par “le numéro obtenu est pair” est
constitué par les trois épreuves correspondant à l’apparition des faces 2, 4 et 6. Un événement apparaı̂t
donc comme une partie de Ω. La théorie des probabilités associe à l’ensemble des épreuves Ω, un ensemble
d’événements A possédant les propriétés de tribu.

Définition 1.1 On appelle tribu un ensemble A de parties de Ω, qui vérifie :

2
1. Ω et ∅ sont dans A.
2. Si A ∈ A, alors son complémentaire Ā ∈ A.
S
3. Si la suite {An }n∈N ∈ A, alors n∈N An ∈ A.
Les éléments de A sont appelés des événements (ou encore ensembles mesurables) et le couple (Ω, A) est dit
espace probabilisable (ou encore mesurable).
On pourrait prendre, pour ensemble des événements, l’ensemble de toutes les parties de Ω (qui est une tribu).
Toutefois, dans le cas général, cet ensemble contient des éléments trop “compliqués” dont la manipulation
mathématique est difficile.
Ainsi, dans le cas où Ω est l’ensemble des réels R, on s’intéresse le plus souvent à la plus petite tribu
engendrée par les intervalles ouverts de la forme (−∞, x] ou de la forme (a, b]. Cette tribu est appelée la
tribu de Borel et ses éléments s’appellent les boréliens. Nous la notons B(R). Cette définition se généralise
au cas où Ω = Rn .
A chaque événement, on associe un nombre qui indique sa probabilité d’apparition.

Définition 1.2 On appelle probabilité une application P de la tribu A des événements dans (0, 1) qui vérifie :
1. P (Ω) = 1 et P (∅) = 0.
2. ∀A ∈ A alors P (A) ≥ 0.
S
P {An }n∈N une suite d’événements disjoints de A, (Ai ∩ Aj = ∅ pour ∀i 6= j). Alors P (
3. Soit n∈N An ) =
n∈N P (An ).
Le triplet (Ω, A, P ) est dit espace de probabilité.

Propriétés 1.1 On a les propriétés suivantes :

– P (Ā) = 1 − P (A)
– Monotonie : A ⊂ B ⇒ P (A) ≤ P (B),
– P (A1 ∪ A2 ) = P (A1 ) + P (A2 ) − P (A1 ∩ A2 ),
– P (A1 ∪ A2 ∪ A3 ) = P (A1 ) + P (A2 ) + P (A3 ) − P (A1 ∩ A2 ) − P (A1 ∩ A3 ) − P (A2 ∩ A3 ) + P (A1 ∩ A2 ∩ A3 ),
qui se généralise sans difficulté.
– Borne de l’union : soit {An }n∈N une suite d’événements de A, alors
[ X
P( An ) ≤ P (An )
n∈N n∈N

– P (A1 ∩ A2 ∩ A3 ) = P (A1 ) + P (A2 ) + P (A3 ) − P (A1 ∪ A2 ) − P (A1 ∪ A3 ) − P (A2 ∪ A3 ) + P (A1 ∪ A2 ∪ A3 ),

qui se généralise sans difficulté.
– Continuité monotone :
– soit {An }n∈N une suite croissante d’événements de A (An ⊃ Ap si n > p). On note A = ∪n An .
Alors P (An ) → P (A).
– soit {An }n∈N une suite décroissante d’événements de A (An ⊂ Ap si n > p). On note A = ∩n An .
Alors P (An ) → P (A).
(Exercices 1.8, 1.9)

Exemple 1.1 (Aiguille de Buffon) On jette au hasard une aiguille de longueur 2` sur une feuille
comportant des lignes parallèles espacées de 2a. On suppose ` < a. Calculer la probabilité pour que l’aiguille
coupe l’un des parallèles.

Solution : On modélise l’espace des épreuves par Ω = (0, a) × (0, π/2). On note ω = (d, θ) ∈ Ω où d
représente la distance du centre de l’aiguille à la droite parallèle la plus proche et θ l’angle que fait l’aiguille
avec la direction des parallèles. On suppose que la loi de probabilité sur l’ensemble Ω, muni de la plus petite
tribu contenant les pavés de R2 , est uniforme. Ce qui signifie que la probabilité de A est donnée par :
aire(A)
P (A) =
aire(Ω)
L’événement qui nous intéresse est :
E = {ω : d < ` cos(θ)}

3
Par conséquent la probabilité cherchée est :

aire(E) 2`
P (E) = =
aire(Ω) πa

Considérons un ensemble Ω = {ω1 , . . . , ωn } fini constitué de n éléments et la tribu A de l’ensemble de ses

parties. Il est facile de voir que d’après la définition 1.2, toute mesure de probabilité sur (Ω, A) est définie de
manière unique par la donnée de la mesure de ses singletons (ensemble {ω i } constitué d’seul élément). Tout
élément de A est, en effet, l’union de singletons et donc sa mesure de probabilité est la somme de la mesure
de probabilité de ces singletons. Notons que l’ensemble formé par tous les singletons ne constitue pas une
tribu. De façon plus générale on montre que, pour un ensemble Ω infini dénombrable ou non dénombrable,
une mesure peut être définie sur un ensemble plus restreint qu’une tribu. Ainsi, sur R muni de sa tribu de
Borel, on peut définir, de façon unique, une mesure, à partir de la mesure des intervalles semi-ouverts de la
forme (a, b]. Un cas particulier important est celui de la mesure de Lebesgue dans R qui Nnassocie à l’intervalle
(a, b] leQnombre positif (b − a) ou plus généralement dans Rn qui associe au pavé i=1 (ai , bi ] le nombre
n
positif i=1 (bi − ai ).

1.3 Probabilité conditionnelle et indépendance

Soit un espace de probabilité (Ω, A, P ) et deux événements A et B appartenant à la tribu A. Pour décrire
le lien entre ces deux événements, il faut pouvoir répondre à la question : quelle est la probabilité de réaliser
A, sachant que B s’est réalisé ?
Il est bien évident que cette probabilité peut être soit supérieure, soit inférieure, soit égale à la valeur
a priori P (A). Dans le cas où elle lui est juste égale, on a envie de dire que la réalisation de B n’apporte
aucune information sur A ou encore que A et B sont indépendants. On aboutit ainsi à la définition suivante.

Définition 1.3 On appelle probabilité conditionnelle de A par rapport à B, B supposé de mesure non nulle,
la mesure de probabilité notée P (A|B) et définie pour tout A ∈ A par :

P (A ∩ B)
P (A|B) =
P (B)

On dit que deux événements A et B sont indépendants, si et seulement si P (A ∩ B) = P (A)P (B).

Par récurrence, on montre facilement que, pour toute suite d’événements (A1 , A2 , · · · , An ), on a :

P (A1 ∩ A2 ∩ · · · ∩ An ) = P (A1 | A2 ∩ · · · ∩ An )P (A2 | A3 ∩ · · · ∩ An ) · · · P (An−1 | An )P (An ) (1.1)

Notons que, si P (A ∩ B) = P (A)P (B), on a P (A|B) = P (A), et que, si A et B sont indépendants, A et

B̄ sont indépendants,

Définition 1.4 On dit que les événements de la suite A = {A1 , A2 , · · · , An } sont indépendants dans leur
ensemble (ou conjointement indépendants) si et seulement si, pour tout k et pour toute suite n 1 , . . . , nk ∈
{1, . . . , n}, on a P (An1 ∩ An2 ∩ · · · ∩ Ank ) = P (An1 )P (An2 ) · · · P (Ank ).

Cette définition est équivalente à :

Définition 1.5 On dit que les événements de la suite A = {A1 , A2 , · · · , An } sont indépendants dans leur
ensemble (ou conjointement indépendants) si et seulement si, pour toute suite B 1 , B2 , . . . , Bn , P (B1 ∩ B2 ∩
· · · ∩ Bn ) = P (B1 )P (B2 ) · · · P (Bn ) où Bk désigne soit Ak soit son complémentaire Āk .

Par définition, si les événements de la suite {A1 , A2 , · · · , An } sont indépendants dans leur ensemble, alors
ils sont indépendants 2 à 2. La réciproque est fausse.
On peut écrire pour tout événement B ∈ A et toute partition finie ou dénombrable d’événements A k de
Ω :
X X
P (B) = P (B ∩ Ω) = P (B ∩ Ak ) = P (B|Ak )P (Ak ) (1.2)
k k

4
Cette expression porte dans la littérature le nom de formule des probabilités totales. On en déduit la formule
de Bayes :

P (B ∩ Ak ) P (B|Ak )P (Ak )
P (Ak |B) = =P (1.3)
P (B) j P (B|Aj )P (Aj )

Cette formule permet le calcul des probabilités P (Ak |B) en fonction des probabilités P (B|Ak ).

1.4 Probabilité et statistique

Deux résultats établissent un lien entre la probabilité d’un événement et la fréquence d’apparition. Le
premier est la loi dite à tort loi des grands nombres (alors que c’est un théorème) et le second est le théorème
de la limite centrale.
On considère l’expérience aléatoire du jeu de pile ou face auquel on associe l’espace d’épreuves Ω =
{pile, face}∞ . On note Ak la suite des événements défini par {le k-ième tirage est pile}. On suppose que ces
événements sont indépendants et que P (Ak ) = p (0 ≤ p ≤ 1). Le choix de la valeur du paramètre p provient
d’une connaissance a priori que l’on a sur la pièce (ainsi si la pièce est non truquée p = 1/2).
On note Sn le nombre de fois où pile apparaı̂t dans les n premiers tirages et Sn /n la fréquence relative
d’apparition de pile. La loi des grands nombres dit que la probabilité pour que S n /n soit aussi proche que
l’on veut de p tend vers 1 quand n tend vers l’infini. Ce résultat permet d’interpréter le paramètre p, du
modèle de probabilité choisi, comme la fréquence relative d’apparition de pile pour un nombre infini de
lancers (Exercice 2.3).
Le théorème de la limite centrale est un moyen de juger de l’écart entre le modèle choisi (ici la valeur de
p) et le résultat recueilli sur un nombre fini d’essais. Son énoncé, que nous verrons précisément chapitre 3
(théorème 3.21), dit que :
R +∞ 2
∀δ > 0 limn→∞ P ({∆n ≥ δ}) = 2 √1 exp(− u2 )du
δ 2π

où
|Sn − np|
∆n = √
npq

Pour illustrer ce résultat, supposons que l’on vous assure, au cours d’un jeu de pile ou face, que le jeu est
équitable, c’est-à-dire que p = 1/2. Si, au bout de n = 10000 tirages, vous constatez que le côté pile est sorti
5250 fois, l’hypothèse p = 1/2 est très certainement fausse. En effet ∆n prend la valeur 5. Si l’on identifie,
puisque n est grand, la probabilité P ({∆n ≥ 5}) avec sa limite, on obtient P ({∆n ≥ 5}) = 6 × 10−7 . Cette
valeur étant quasi-nulle, un tel événement est, d’un point de vue pratique, impossible. On peut donc rejeter
avec une très grande confiance l’hypothèse p = 1/2.

1.5 Exercices
Exercice 1.1 Soit Ω = {ω1 , ω2 , ω3 , ω4 } muni de la tribu F de ses parties et soit P définie par P ({ωi }) = 1/4.
Soit A1 = {ω2 , ω3 }, A2 = {ω1 , ω3 } et A3 = {ω1 , ω2 }. Montrer que les Ai sont indépendants 2 à 2 mais ne
sont pas indépendants dans leur ensemble.

Exercice 1.2 Soit {Ai }1≤i≤k une suite d’événements indépendants sur un espace de probabilité, de même
probabilité p < 1. Déterminer l’expression de P (∪ki=1 Ai ) en fonction de p.

Exercice 1.3 Soit A, B, C trois événements d’un espace de probabilité. On dit que A et B sont indépendants
conditionnellement à C ssi :

P (A ∩ B|C) = P (A|C)P (B|C)

1. Montrer que P (A ∩ B̄|C) = P (A|C)P (B̄|C).

2. Montrer que A et B ne sont pas nécessairement indépendants. La réciproque est-elle vraie ?

5
Exercice 1.4 Soit Ω = {ω1 , · · · , ωn } muni de la tribu de ses parties. Et soit 2 mesures de probabilité sur Ω
caractérisées respectivement par les suites P = {pi } et Q = {qi }. On sait que :
n
X n
X
H(P) = − pi log(pi ) ≤ − pi log(qi )
i=1 i=1
Pn
l’égalité ayant lieu ssi P = Q. Déterminer la loi qui maximise
PnH(P) sous la contrainte que i=1 (i − 1)pi =
m1 (pour m1 fixé). Généraliser à k contraintes de la forme i=1 (i − 1)j pi = mj pour j = 1, · · · , k.
Indication : prendre qi = αe−βi .

Exercice 1.5 (Les 3 prisonniers) Parmi trois prisonniers que nous appellerons A, B et C, deux ont été
tirés au sort, de façon équitable, pour être exécutés.
La nuit avant l’exécution, A appelle le gardien et lui dit ”Vous pouvez me dire lequel de B ou de C doit
être exécuté, cela ne me donne aucune information sur mon propre cas”. Le gardien réfléchit, acquiest et
lui répond B. A sourit et dit : ”Maintenant je vais pouvoir dormir plus tranquille, car avant j’avais deux
(mal)chances sur trois d’être exécuté, à présent cela se passe entre C et moi et je n’en ai plus que 1 sur 2”.
Qui a raison et qui a tort ?

Exercice 1.6 Soit {Ai } une suite d’évéments d’un espace de probabilité.
1. Montrer que ∩i Ai est un événement.
2. Montrer que {Ai } est une suite d’événementsQindépendants si et seulement si, pour toute suite crois-
n
sante d’indices k1 < · · · < kn , P (∩nj=1 Akj ) = j=1 P (Akj ).

Exercice 1.7 Soit A = {Ai }1≤i≤k une partition finie d’un espace mesurable. Décrire explicitement la plus
petite tribu contenant A.

Exercice 1.8 (Borne de l’union) Soit (Ω, A, P ) un espace de probabilité.

1. Soit A et B deux événements. Montrer que P (A ∩ B) ≤ P (A).
2. Soit {An } une suite quelconque d’événements. En utilisant S suite définie par B 1 = A1 , B2 = A2 ∩
la P
Ā1 , · · · , Bn = An ∩ Ān−1 ∩ · · · ∩ Ā1 , montrer que P ( n An ) ≤ n P (An ).

Exercice 1.9 (Probabilité de l’union) Soit (Ω, A, P ) une espace de probabilité.

1. Montrer que pour tout couple d’événements (A, B), on a P (A ∪ B) = P (A) + P (B) − P (A ∩ B).
2. En déduire par récurrence l’expression de P (A1 ∪A2 ∪· · ·∪An ) pour une suite quelconque d’événements
(A1 , A2 , · · · , An ).
3. Dans un hôtel dont toutes les chambres ont des serrures différentes, un mauvais plaisant s’est amusé
à permuter au ”hasard” les numéros de porte attachés aux clefs. Les n clefs sont distribués à un
groupe de n personnes. En introduisant l’événement Ak =”la k-ième porte est ouverte”, déterminer
la probabilité p pour que l’un au moins des occupants puisse ouvrir sa porte ? Quelle en est la limite
quand n → +∞ ?

Exercice 1.10 Un commerçant distribue un même produit provenant de deux chaı̂nes de fabrication A et B
différentes. On note pA et pB leurs taux respectifs d’éléments défectueux. Le premier client ramène le produit
car il ne marche pas. Quelle est la probabilité pour que le second client soit dans la même situation ?

Exercice 1.11 Dans une boı̂te qui contient 100 montres on en tire 3 au hasard. Les trois sont défectueuses.
En supposant que dans la boı̂te une montre sur 10 est bonne, quelle est la probabilité de l’événement qui s’est
réalisé ? Quelle conclusion vous semble raisonnable ?

Exercice 1.12 Un commerçant a deux sacs de montres. Le sac A contient N = 1000 montres dont n = 100
sont défectueuses et le sac B contient M = 1500 montres dont m = 50 sont défectueuses. On considère les
deux expériences suivantes :
– on mélange les deux sacs et on tire au hasard, sans remise, deux montres,
– on tire au hasard, sans remise, deux montres après avoir choisi au hasard le sac. On suppose que la
probabilité de choisir le sac S1 est α.

6
Déterminer, dans les deux cas, les espaces de probabilité associés.

Exercice 1.13 On tire deux points au hasard sur le segment [0, 1]. Le plus petit nombre est supérieur à 1/3.
Quelle est la probabilité pour que le plus grand soit supérieur à 3/4 ?

Exercice 1.14 (Statistique des particules) On place au ”hasard” n particules dans m cellules, avec
m ≥ n. On suppose que toutes les configurations élémentaires sont équiprobables. Calculer leur probabilité
dans les trois cas suivants.
1. Statistique de Boltzman : les particules sont distinguables et une cellule peut contenir un nombre
quelconque de particules.
2. Statistique de Bose-Einstein : les particules ne sont pas distinguables et une cellule peut contenir un
nombre quelconque de particules.
3. Statistique de Fermi-Dirac : les particules ne sont pas distinguables et une cellule contient au plus une
particule.

7
Chapitre 2

Vecteurs aléatoires

2.1 Variable aléatoire réelle

Dans beaucoup d’applications de la théorie des probabilités, on associe aux épreuves de l’espace Ω un
nombre. Considérons par exemple l’expérience d’une séquence infinie de tirages d’un jeu de pile (notée 0) ou
face (notée 1). Dans ce cas Ω = {0, 1}N et une épreuve ω est une suite infinie à valeurs dans {0, 1}. A chaque
épreuve, on peut alors faire correspondre le nombre Sn de côtés “pile” apparus dans les n premiers tirages.
Cela définit une application de Ω dans l’ensemble {0, 1, · · · , n} que l’on désigne sous le nom de variable
aléatoire. Le paragraphe qui suit donne les définitions conduisant à la notion de variable aléatoire.

2.1.1 Définitions
Définition 2.1 (tribu de Borel) On appelle tribu de Borel construite sur R d la plus petite tribu contenant
les pavés de Rd . On la note B(Rd ).

Définition 2.2 (variable aléatoire) On appelle variable aléatoire réelle (v.a.) une application mesurable
de (Ω, A) dans l’ensemble R muni de sa tribu de Borel B(R). Le terme mesurable signifie que :

∀B ∈ B(R) X −1 (B) = {ω ∈ Ω : X(ω) ∈ B}

X −1 (B) s’appelle l’image réciproque de B.

Il est important de ne pas confondre la variable aléatoire X, qui est une application, avec la réalisation
x = X(ω) qui est la valeur prise pour l’épreuve ω. Pour marquer cette différence nous utiliserons, autant
que possible dans la suite, une lettre en majuscule pour désigner la variable aléatoire et la même lettre en
minuscule pour désigner une de ses réalisations.
Remarque : il faut un véritable cataclysme pour qu’une fonction ne soit pas mesurable. En particulier
on montre que toute fonction continue d’une application mesurable est mesurable. Ce résultat assure que, si
X est une variable aléatoire, sin(X), log(X), exp(X), ... sont encore des variables aléatoires, mais aussi la
somme et le produit de variables aléatoires sont des variables aléatoires.

Définition 2.3 (égalité presque sûre) Soit X et Y deux variables aléatoires définies sur le même espace
de probabilité {Ω, A, P }. On dit que X et Y sont presque sûrement égales si :

P ({ω ∈ Ω : X(ω) 6= Y (ω)}) = 0

Définition 2.4 (loi de probabilité) Soit X une variable aléatoire définie de l’espace de probabilité
{Ω, A, P } dans R muni de sa tribu de Borel B. On appelle loi de probabilité de X la mesure définie sur
{R, B(R)} par :
B ∈ B(R) 7→ PX (B) = P ({ω ∈ Ω t.q. X(ω) ∈ B})
En calcul des probabilités, on décrit souvent une variable aléatoire directement par sa loi de probabilité.
Ainsi on énoncera : “Soit la variable aléatoire dont la loi est uniforme sur (0,1)”. Cette façon de procéder
fait que l’espace de probabilité (Ω, A, P ) et l’application X ne sont pas donnés explicitement et les calculs
se font directement à partir de la loi induite PX sur l’espace image {R, B(R)}.

8
Définition 2.5 (fonction de répartition) On appelle fonction de répartition la fonction F X (x) définie
par FX (x) = P ({ω ∈ Ω : X(ω) ≤ x}), que l’on note plus simplement P (X ≤ x).
Cette fonction est caractéristique d’une mesure dans le sens où elle permet de définir, de manière unique,
la mesure de tout élément de la tribu de Borel B(R). On rencontre aussi dans la littérature la définition
FX (x) = P (X < x).
Toute fonction de répartition FX (x) vérifie les propriétés suivantes :
– FX (x) est non négative, non décroissante.
– FX (x) est continue à droite.
– FX (x) → 0 quand x → −∞.
– FX (x) → 1 quand x → +∞.
S’il existe une valeur réelle x0 , telle que P (X = x0 ) 6= 0, on dit que la variable aléatoire X charge le point
x0 . Dans ce cas FX (x) possède une discontinuité au point x0 et on a P (X = x0 ) = FX (x+ −
0 ) − FX (x0 ). On
montre que ces points sont en nombre fini ou au plus dénombrable.

V.a. discrète et v.a. continue

En pratique on peut souvent se limiter aux deux cas suivants :
Variable aléatoire dite discrète On convient d’appeler ainsi le cas où X ne prend ses valeurs que dans un
ensemble de valeurs au plus dénombrable X = {a1 , · · · , ak , · · · }. Dans ce cas, la loi PX est complètement
caractérisée par la probabilité des singletons,
P c’est-à-dire les quantités pX (x) = PX (X = x) où x ∈ X .
On rappelle que pX (x) ≥ 0 et que x∈X pX (x) = 1. On en déduit que la fonction de répartition a
pour expression : X
FX (x) = 11(−∞,x] (u)pX (u)
u∈X

où 11A (x) est la fonction indicatrice de A, qui vaut 1 si x ∈ A et 0 sinon. La fonction de répartition
est alors une fonction en “marches d’escalier”, qui présente un nombre fini ou au plus dénombrable
de sauts. Ces sauts, situés aux points d’abscisse ak , ont une hauteur égale à l’amplitude pX (ak ) des
probabilités.
Variable aléatoire dite “continue” On convient d’appeler ainsi le cas la loi de x est absolument continue
par rapport à la mesure de Lebesgue dans R (les ensembles de mesure nulle de la mesure de Lebesgue
sont aussi de mesure nulle pour la loi de X.). Il existe alors une fonction p X (x) ≥ 0 telle que, pour
tout borélien B de R, on ait :
Z
P (X ∈ B) = pX (x)dx (2.1)
B
R
Typiquement B peut être un segment de la forme A =] − ∞, x]. De plus R
pX (x)dx = 1.
Pour une variable aléatoire continue, par définition, on a, pour tout x, P (X = x) = 0. Ce qui n’im-
plique pas que pX (x) = 0. La quantité pX (x)|δx| s’interprète en fait comme la probabilité infinitésimale
P ({x < X ≤ x + δx}), d’appartenir à l’intervalle (x, x + δx].

2.1.2 Espérance mathématique d’une variable aléatoire

Pour étudier le comportement d’une variable aléatoire, on lui associe des valeurs numériques (non
aléatoires) appelés moments. Afin de simplifier la présentation, nous explicitons séparément l’espérance
mathématique d’une variable aléatoire discrète et celle d’une variable aléatoire continue.

Définition 2.6 Soit f une fonction mesurable de R dans R. On appelle espérance mathématique de la
variable aléatoire f (X) la quantité notée E {f (X)} et définie par :
Z Z
E {f (X)} = f (X(ω))P (dω) = f (x)PX (dx)
Ω R

Dans la définition 2.6, l’intégrale intervenant dans l’espérance est prise au sens de Lebesgue. Cependant dans
tous les cas d’intérêt pratique, elle est identique à l’intégrale prise au sens de Riemann. Dans la suite la
distinction est sans conséquence et les règles habituelles du calcul intégral s’appliquent.
En nous limitant aux cas pratiques des variables aléatoires dites discrète et continue, on a :

9
– Soit X une variable aléatoire discrète à valeurs dans l’ensemble {a1 , a2 , · · · , ak , · · · } avec P (X = ak ) =
pX (k). L’espérance de f (X) est donnée par :
X
E {f (X)} = f (ak )pX (k)
k

– Soit X une variable aléatoire continue à valeurs dans R dont la loi de probabilité a pour densité de
probabilité pX (x). L’espérance de f (X) est donnée par :
Z
E {f (X)} = f (x)pX (x)dx
R

Théorème 2.1 (inégalité de Jensen) Si f est une fonction, de R dans R, convexe (forme en ∪) alors
E {f (X)} ≥ f (E {X}). Dans le cas d’une fonction concave (forme en ∩), il faut inverser le sens de l’inégalité.
De plus si la fonction f est strictement convexe ou strictement concave, alors E {f (X)} = f (E {X}) implique
que X = E(X) en probabilité.

Propriétés 2.1 On a :
– Linéarité : soit a et b deux constantes réelles et soit deux fonctions f et g. Alors

E {af (X) + bg(X)} = aE {f (X)} + bE {g(X)}

– Monotonie : f ≤ g ⇒ E {f (X)} ≤ E {g(X)}, en particulier E {X} ≤ E {|X|},

– Soit deux entiers p et q avec p > q. Alors
1/p 1/q
E {|X|p } ≤ E {|X|q }

Notons que la probabilité d’un borélien quelconque B de R peut s’écrire comme l’espérance mathématique
d’une certaine indicatrice sous la forme :

PX (B) = E {11B (X)}

En effet 11B (X) est une variable aléatoire à valeurs dans {0, 1} et telle que P (11B (X) = 1) = PX (B).

Définition 2.7 On appelle moment d’ordre n l’espérance mathématique de la variable aléatoire X n .

Le moment d’ordre 1 s’appelle la moyenne. Quand la moyenne est nulle, on dit que la variable aléatoire
est centrée.
2
La variance est définie par var(X) = E [X − E {X}] . La racine carrée de la variance s’appelle l’écart-type.
En développant et en utilisant la linéarité de l’espérance, on en déduit que :
2
var(X) = E [(X − E {X})(X − E {X})] = E X 2 − E {X}
© ª
(2.2)

Si Y = λX + µ où λ et µ sont deux constantes, alors :

E {Y } = λE {X} + µ et var(Y ) = λ2 var(X)

2
Soit X une variable aléatoire de moyenne mX et de variance σX . On appelle variable aléatoire centrée
la variable aléatoire définie par Xc = X − mX . Sa moyenne est donc nulle et son moment du second ordre
2
est égal à σX . On définit aussi la variable aléatoire centrée réduite par Xc /σX . Sa moyenne est nulle et sa
variance vaut 1.
La variance s’interprète comme une mesure de la dispersion des réalisations de la variable aléatoire X
autour de sa moyenne. Ce lien est précisé par l’inégalité de Tchebyschev, qui dit que :
2
∀δ > 0 P (|X − mX | ≥ δ) ≤ σX /δ 2 (2.3)

Par conséquent la probabilité pour une variable aléatoire de s’écarter de sa moyenne est d’autant plus faible
que sa variance est petite (Exercice 2.3). A la limite (voir Exercice 2.6) on a le résultat suivant :

Théorème 2.2 Si X est une variable aléatoire de moyenne m et telle que var(X) = 0, alors X est presque
sûrement égale à m.

10
Définition 2.8 On appelle fonction caractéristique, la fonction définie par φ X (u) = E ejuX . La fonction
© ª

ψX (u) = log(φX (u)) s’appelle la seconde fonction caractéristique.

Le fait que ejux soit complexe est sans importance ici. La seule chose à connaı̂tre est que e jux = cos(ux) +
j sin(ux). Dans le cas où la loi de X possède une densité de probabilité, la fonction caractéristique apparaı̂t,
à une constante multiplicative près, comme la transformée de Fourier de cette densité de probabilité.
En détaillant le cas discret et le cas continu il vient :
– (cas discret) X
φX (u) = pX (x)ejux
x∈X

– (cas continu) Z
φX (u) = pX (x)ejux dx
R
Enonçons sans démonstration les propriétés suivantes :

Propriétés 2.2 On a :
– Le terme ”caractéristique” s’explique par un résultat fondamental, qui dit que deux mesures distinctes
ne peuvent avoir
¯ ¯la même fonction caractéristique.
– Du fait que ¯ejuX ¯ = 1, la fonction caractéristique existe même si les moments n’existent pas. Exemple :
la loi de Cauchy, dont la densité de probabilité est pX (x) = 1/π(1 + x2 ), ne possède aucun moment et
a pour fonction caractéristique e−|u| .
– Une fonction caractéristique est uniformément continue.
– |φX (u)| ≤ φX (0) = 1.
– Lorsque le moment d’ordre n existe (E {X n } < +∞), la fonction caractéristique est n fois continûment
dérivable et on a :
1 dn φX (u) ¯¯
¯
E {X n } = n (2.4)
j dun ¯ u=0

Théorème 2.3 (inégalité de Markov) Soit T une variable aléatoire positive. Alors
E {T }
∀δ > 0, P (T ≥ δ) ≤
δ
En effet pour tout δ > 0, 11[δ,+∞[ (t) ≤ t/δ. Par conséquent par monotonie on a le résultat annoncé. Un cas
√
particulier est l’inégalité de Tchebyschev. On pose T = (X − E {X})2 et ² = δ. Il vient :
varX
∀² > 0, P (|X − E {X} | ≥ ²) ≤
²2

2.1.3 Variables aléatoires usuelles

Variable aléatoire de Bernoulli
Une variable aléatoire de Bernoulli (on dit aussi de pile ou face) est une variable aléatoire discrète à
valeurs dans {0, 1}. On note p0 = P (X = 0) et p1 = P (X = 1), où 0 ≤ p0 ≤ 1 et p0 + p1 = 1. Sa moyenne est
ju
égale à p1 et sa variance à p0 p1 . Sa fonction caractéristique a pour
© expression
ª φX (u) = p1 e +p0 . Sa fonction
de répartition a pour expression FX (x) = PX ((−∞, x]) = E 11(−∞,x] (X) = p0 11(−∞,x] (0) + p1 11(−∞,x] (1).

Variable aléatoire binomiale

Une variable aléatoire binomiale est une variable aléatoire discrète à valeurs dans {0, 1, · · · , n} et telle
que pour tout x ∈ {0, 1, · · · , n}, on a :
n!
pX (x) = P (X = x) = px (1 − p)n−x
x!(n − x)!
où 0 ≤ p ≤ 1. Sa moyenne est égale à np et sa variance à np(1 − p). Sa fonction caractéristique a pour
expression φX (u) = (peju + (1 − p))n . Sa fonction de répartition a pour expression FX (x) = PX ((−∞, x]) =
© ª PN
E 11(−∞,x] (X) = k=0 pX (k)11(−∞,x] (k). Elle peut être vue comme la somme de n variables aléatoires de
Bernoulli indépendantes et de même loi. (Exercice 2.13).

11
Variable aléatoire de Poisson
Une variable aléatoire de Poisson est une variable aléatoire discrète à valeurs dans l’ensemble N des
entiers naturels et telle que pour tout x ∈ N, on a :
λx −λ
pX (x) = P (X = x) = e
x!
où λ ∈ R+ . Sa moyenne et sa variance sont égales à λ. Sa fonction caractéristique a pour expression φ X (u)
ª=
exp(λ(eju − 1)). Sa fonction de répartition a pour expression FX (x) = PX ((−∞, x]) = E 11(−∞,x] (X) =
©
P+∞
k=0 pX (k)11(−∞,x] (k).
Dans la modélisation d’un phénomène ponctuel, λ représente le nombre moyen de points observés. Quand
le phénomène
R est temporel, λ est parfois défini au moyen d’une fonction I(t) par l’intermédiaire de l’expression
λ = T I(t)dt. Dans ce cas I(t) est appelée l’intensité de la loi de Poisson. Si I(t) = I 0 , la loi de Poisson
est dite homogène. De façon analogue, on peut introduire la notion d’intensité pour un phénomène ponctuel
spatial. (Exercices 2.5, 2.12).

Variable aléatoire uniforme

– Une variable aléatoire discrète est dite uniforme ou équirépartie si elle est à valeurs dans l’ensemble
fini X = {a1 , a2 , · · · , an } et que pX (x) = P (X = x) = 1/n, ∀x ∈ X .
– Une variable aléatoire continue est dite uniforme ou équirépartie sur le segment (a, b), si sa loi a pour
1
densité de probabilité pX (x) = b−a 11(a,b) (x). Sa moyenne est égale à (a+b)/2 et sa variance à (b−a)2 /12.

Variable aléatoire gaussienne

Une variable aléatoire est dite gaussienne ou normale si sa fonction caractéristique a pour expression :

σ2 2
µ ¶
φX (u) = exp jum − u (2.5)
2

où σ ∈ R+ . Dans le cas où σ 6= 0, la loi possède une densité de probabilité qui a pour expression :

(x − m)2
µ ¶
1
pX (x) = √ exp − (2.6)
σ 2π 2σ 2

Nous utiliserons aussi la notation abrégée pX (x) = N (m, σ 2 ). Sa moyenne est égale à m et sa variance à σ 2 .

2.1.4 Changement de variable

Cas discret
Soit g(x) une fonction réelle et X une variable aléatoire discrète, à valeurs dans l’ensemble X =
{a1 , · · · , ak , · · · }. La variable
P aléatoire Y = g(X) prend pour valeurs Y = {b1 = g(a1 ), · · · , bn = g(an )}
et l’on a P (Y = y) = x∈A(y) P (X = x) où A(y) = {x ∈ X : g(x) = y}. Dans le cas où g est bijective, il n’y
a qu’une valeur de x associée à y.

Cas continu
Soit g(x) une fonction réelle et X une variable aléatoire continue de densité de probabilité p X (x). Si g(x)
est strictement monotone et dérivable, Y = g(X) est une variable aléatoire continue et sa loi a pour densité
de probabilité :
1
pY (y) = pX g −1 (y)
¡ ¢
(2.7)
|g 0 (g −1 (y))|

où g −1 (y) désigne l’application inverse de g(x) (qui existe puisque g(x) est supposée strictement monotone)
et g 0 (x) la dérivée de g(x). Dans le cas où la fonction g(x) n’est pas monotone, il faut sommer sur toutes les
solutions en x de l’équation y = g(x).
De façon mnémonique, on retiendra que les événements {x < X ≤ x + dx} et {y < Y ≤ y + dy} ont la
même probabilité et donc que pY (y)|dy| = pX (x)|dx|.

12
Pour montrer 2.7, on peut partir de la fonction de répartition P (Y ≤ y) de Y puis dériver par rapport
à y. Faisons le sur un exemple. Soit X une variable aléatoire de densité de probabilité p X (x) et soit la
transformation y = x3 . La fonction de répartition de Y a pour expression FY (y) = P (Y ≤ y) = P (X 3 ≤
y) = P (X ≤ y 1/3 ), que l’on peut calculer à partir de la densité de probabilité de X par :
Z y 1/3
FY (y) = pX (x)dx
−∞

Faisons le changement de variable u = x3 . On a du/dx = 3x2 = 3|u|2/3 et il vient :

Z y
FY (y) = pX (u1/3 )du/3|u|2/3
−∞

La densité de probabilité de la variable aléatoire Y s’obtient en dérivant par rapport à y :

pY (y) = pX (u1/3 )du/3|u|2/3

Dans le cas où la fonction g(x) n’est pas monotone, l’exemple suivant montre comment interviennent les
solutions de l’équation y = g(x). Soit X une variable aléatoire de densité de probabilité p X (x) et soit la
transformation y = x2 . La fonction de répartition de Y a pour expression FY (y) = P (Y ≤ y) = P (X 2 ≤ y).
√ √
Par conséquent si y < 0, FY (y) = 0. Si y ≥ 0, il vient FY (y) = P (X 2 ≤ y) = P (− y ≤ X ≤ y), que l’on
peut calculer à partir de la densité de probabilité de X :
√
Z y
FY (y) = √
pX (x)dx
− y

En dérivant par rapport à y, la densité de probabilité de la variable aléatoire Y prend pour expression :
1 √ √
pY (y) = √ (pX ( y) + pX (− y)) 11(0,+∞) (y)
2 y

(Exercices 2.10, 2.9, 2.35).

2.2 Vecteurs aléatoires

Les résultats présentés dans cette section sont, le plus souvent, illustrés pour des vecteurs de dimension
d = 2. Ils se généralisent sans difficulté au cas d fini.

2.2.1 Mesurabilité
Définition 2.9 (Vecteur aléatoire de dimension d) (X1 , · · · , Xd ) est un vecteur aléatoire de dimension
d, si et seulement si l’application, définie par (X1 , · · · , Xd ), de {Ω, A} dans Rd muni de sa tribu de Borel
B(Rd ) est mesurable, c’est-à-dire

∀B ∈ B(Rd ) {ω : (X1 (ω), · · · , Xd (ω)) ∈ B} ∈ A

On admettra que :
– si X1 et X2 sont deux variables aléatoires de Ω, F dans R, B(R) alors X = (X1 , X2 ) de Ω, F dans
R2 , B(R2 )) est une variable aléatoire.
– une fonction continue d’une fonction mesurable est mesurable (la mesurabilité se faisant par rapport
aux tribus engendrées par les topologies).

Définition 2.10 (loi conjointe) Soit (X1 , · · · , Xd ) un vecteur aléatoire de dimension d défini sur l’espace
de probabilité (Ω, A, P ) à valeurs dans Rd . On appelle loi de probabilité de la variable aléatoire conjointe
(X1 , · · · , Xd ) la mesure de probabilité définie pour tout borélien B ∈ B(Rd ) par :

PX1 ,··· ,Xd (B) = P ({ω : (X1 (ω), · · · , Xd (ω)) ∈ B})

13
On en déduit que la loi de probabilité de X1 s’obtient pour tout borélien A ∈ B(R) par PX1 (A) =
PX1 ,··· ,Xd (A × R × · · · × R). Dans ce contexte PX1 (A) porte le nom de loi de probabilité marginale.
La loi conjointe permet de déterminer les lois marginales. Evidemment la réciproque est fausse : les lois
marginales de (X1 , · · · , Xd ) ne permettent pas de déduire la loi conjointe sauf, comme on le verra, quand
(X1 , · · · , Xd ) sont indépendantes.

Définition 2.11 Soit (X1 , · · · , Xd ) un vecteur aléatoire de dimension d défini sur l’espace de probabilité
(Ω, A, P ), à valeurs dans Rd . On appelle fonction de répartition la fonction de (x1 , · · · , xd ) définie par
FX1 ,··· ,Xd (x1 , · · · , xd ) = P ({ω : X1 ω) ≤ x1 ∩ {ω : Xd (ω) ≤ xd }).
Comme l’événement {X1 ≤ x1 , X2 ≤ +∞, · · · , Xd ≤ +∞} est identique à l’événement {X1 ≤ x1 }, la
fonction de répartition de la variable aléatoire X1 s’écrit :

FX1 (x1 ) = FX1 ,··· ,Xd (x1 , +∞, · · · , +∞) (2.8)

Variable aléatoire discrète

S’il existe un couple (x0 , y0 ) de R2 tel que P (X = x0 , Y = y0 ) 6= 0, on dit que la loi charge le point
(x0 , y0 ). On montre qu’une loi charge au plus un ensemble dénombrable de valeurs. Lorsque la loi conjointe
comporte uniquement des points ”chargés”, on dit que les variables aléatoires X et Y sont discrètes. Une
telle loi est caractérisée par la donnée de X = {a1 , · · · , ak , · · · }, de Y =
P {b1 , · · · , bn , · · · } et de la suite de
valeurs pXY (x, y) = P (X = x, Y = y) qui vérifient pXY (x, y) ≥ 0 et x,y pXY (x, y) = 1. Sa fonction de
répartition s’écrit :
XX
FXY (x, y) = pXY (u, v)11(−∞,x] (u)11(−∞,y] (v)
u∈X v∈Y

Les lois de probabilité marginales

P de X et de Y ont pour expressions respectives :
– pX (x) = P (X = x) =P y pXY (x, y)
– pY (y) = P (Y = y) = x pXY (x, y)

Variable aléatoire continue

On dit que les variables aléatoires X et Y sont continues si leur loi de probabilité est absolument continue
par rapport à la mesure de Lebesgue. Il existe alors une fonction pXY (x, y) non-négative (pXY (x, y) ≥ 0),
appelée densité de probabilité conjointe du couple (X, Y ), telle que pour tout boréliens de R 2 on ait :
Z
PXY (B) = pXY (u, v)dudv
B
2
On a R2 pXY (u, v)dudv = 1. En pratique pXY (x, y) apparaı̂t comme la dérivée seconde ∂ F∂x∂y XY (x,y)
R

de la fonction de répartition. pXY (x, y)|δx||δy| s’interprète alors comme la probabilité ”infinitésimale”
P ({x < X ≤ x + δx, y < Y ≤ y + δy}).
Enfin les lois
R de probabilité marginales de X et de Y ont pour densités respectives :
– pX (x) = R R pXY (x, v)dv
– pY (y) = R pXY (u, y)du

Cas mixte
On peut aussi avoir le cas mixte où l’une des deux variables est continue et l’autre est discrète. Ainsi si
X est continue et Y discrète, la loi de probabilité est décrite par la donnée de Y = {b 1 , · · · , bn , · · · } et de la
suite de densités de probabilité pXY (x, y) où y ∈ Y. La fonction de répartition s’écrit :
Z X
FXY (x, y) = pXY (u, v)11(−∞,x] (u)11(−∞,y] (v)du
R v∈Y

La loi de probabilité marginale de X a pour densité de probabilité :

X
pX (x) = pXY (x, y)
y∈Y

14
et la loi de probabilité marginale de Y est donnée par :
Z
pY (y) = P (Y = y) = pXY (u, y)du
R

De façon mnémonique, une probabilité marginale se calcule en intégrant ou en sommant la probabilité

conjointe par rapport à la variable que l’on veut “éliminer”.

2.2.2 Espérance mathématique

Définition 2.12 Soit une fonction f mesurable de R2 dans R. On appelle espérance mathématique de la
variable aléatoire f (X, Y ) la quantité définie pour deux variables discrètes par :
XX
E {f (X, Y )} = f (x, y)pXY (x, y)
x∈X y∈Y

et pour deux variables continues par :

Z Z
E {f (X, Y )} = f (x, y)pXY (x, y)dxdy
R R

Pour tout élément B de la tribu de Borel B(R2 ), PXY (B) peut s’écrire comme l’espérance mathématique
de la fonction indicatrice de B sous la forme PXY (B) R R = E {11B (X, Y )}. Pour s’en convaincre il suffit de
remarquer que, si (X, Y ) sont continues, PXY (B) = R R 11B (x, y)pXY (x, y)dxdy.

2.2.3 Indépendance et loi conditionnelle

La notion d’indépendance, introduite au paragraphe 1.3, pour des événements, conduit à la notion
d’indépendance pour des variables aléatoires. Considérons deux variables aléatoires X et Y et les événements
de la forme A1 = {ω : X(ω) ∈ B1 } et A2 = {ω : Y (ω) ∈ B2 }, où B1 et B2 désignent des boréliens de R.
On remarque alors que P (A1 ∩ A2 ) = E {11A1 ∩A2 (ω)} = E {11A1 (ω)11A2 (ω)} = E {11B1 (X)11B2 (Y )} tandis que
P (A1 )P (A2 ) = E {11B1 (X)} E {11B2 (Y )}. La notion d’indépendance pour les variables aléatoires X et Y doit
conduire à l’égalité de ces deux quantités, soit E {11B1 (X)11B2 (Y )} = E {11B1 (X)} E {11B2 (Y )}. En prenant
B1 = (−∞, x] et B2 = (−∞, y], on aboutit à FXY (x, y) = FX (x)FY (y). On admettra que la définition
suivante est équivalente.

Définition 2.13 (indépendance) (X1 , · · · , Xd ) sont indépendantes si et seulement si la loi de probabilité

conjointe est le produit des lois de probabilité marginales.

Remarques
– La définition d’une variable aléatoire nécessite la construction d’un espace mesurable (Ω, A) mais ne
nécessite pas celle d’une probabilité P . Par contre l’indépendance de deux variables aléatoires dépend
du choix de P . C’est pourquoi certains auteurs préfèrent parler de P -indépendance.
– Des variables aléatoires peuvent être indépendantes et être reliées par une relation fonctionnelle forte.
Ainsi si X et Y sont deux variables aléatoires, à valeurs dans {−1, +1}, supposées indépendantes, on
a X 2 + Y 2 = 2. Aussi ne faut-il pas dire que, si h(X, Y ) = 0, X et Y sont dépendantes. Pour montrer
que deux variables ne sont pas indépendantes, une solution consiste à montrer, par exemple, que, pour
un certain couple (x, y), FXY (x, y) 6= FX (x)FY (y). Rappelons que d’après (2.8) FX (x) = FXY (x, +∞)
et FY (y) = FXY (+∞, y).
– (X1 , · · · , Xd ) sont indépendantes si et seulement si, pour toutes fonctions continues bornées f 1 , . . ., fd ,
( d ) d
Y Y
E fk (Xk ) = E {fk (Xk )}
k=1 k=1

Par conséquent, une façon de montrer que X et Y ne sont pas indépendantes est de trouver deux
fonctions f et g continues, bornées telles que E {f (X)g(Y )} 6= E {f (X)} E {g(Y )}.
– Avec les notations précédentes, (X1 , · · · , Xd ) sont indépendantes si et seulement si :

pX1 ,··· ,Xd (x1 , · · · , xd ) = pX1 (x1 ) · · · pXd (xd )

15
– Fonction caractéristique : voir théorème 2.4.
Nous définissons à présent la notion de loi conditionnelle de X sachant Y . Comme dans le cas des pro-
babilités événementielles, cette notion est liée à celle d’indépendance. En particulier, les variables aléatoires
X et Y sont indépendantes si la loi conditionnelle est identique à la loi marginale.
Nous détaillons ci-dessous les expressions dans les cas où les deux variables aléatoires sont discrètes, puis
continues et enfin dans le cas mixte.

X et Y sont discrètes
La probabilité conditionnelle de l’événement {X = ak }, sachant que l’événement {Y = bn } (de probabilité
non nulle) s’est réalisé, est donnée par :

pXY (x, y) pXY (x, y)

P (X = x | Y = y) = =P
pY (y) u∈X pXY (u, y)

On en déduit que, si les variables aléatoires X et Y sont indépendantes, comme p XY (x, y) = pX (x)pY (y),
alors P (X = x | Y = y) = pX (x) : la loi conditionnelle est identique à la loi marginale.

X et Y sont continues
On définit la densité de probabilité conditionnelle de X par rapport à Y par :

pXY (x, y) pXY (x, y)

pX|Y (x, y) = =R
pY (y) p (u, y)du
R XY

Pour comprendre sa signification, montrons que pX|Y (x; y) s’interprète comme une densité de probabilité.
Pour cela considérons la probabilité conditionnelle de l’événement (x < X ≤ x + δx) sachant l’événement
(y < Y ≤ y + δy). Elle s’écrit en considérant δx et δy comme des quantités infinitésimales :

P ({x < X ≤ x + δx} | {y < Y ≤ y + δy})

P (x < X ≤ x + δx, y < Y ≤ y + δy)
=
P (y < Y ≤ y + δy)
pXY (x, y)|δx||δy|
∼ = pX|Y (x; y)|δx|
pY (y)|δy|

qui confère à pX|Y (x; y) la signification d’une densité de probabilité.

Si les variables aléatoires X et Y sont indépendantes, on en déduit que la loi conditionnelle p X|Y (x, y)
est identique à la loi marginale pX (x) puisque pXY (x, y) = pX (x)pY (y).
On utilise parfois pour désigner la densité de probabilité conditionnelle de X par rapport à Y , la notation
pX|Y =y (x, y). Toutefois cette notation nécessite une mise en garde : pour obtenir la densité de probabilité
conditionnelle de X sachant Y lorsque X = f (Y, V ), il ne faut pas se borner à fixer la valeur de Y en faisant
Y = y et à calculer la densité de probabilité de la variable aléatoire Z = f (y, V ). Ceci n’est juste que si Y
et V sont indépendantes (Exercice 4.2).

Cas mixte
On définit une densité de probabilité conditionnelle de X (continue) par rapport à Y = y (discrète) par :

pXY (x, y) pXY (x, y)

pX|Y (x, y) = =R
pY (y) p (u, y)du
R XY

et une densité de probabilité conditionnelle de X = x (discrète) par rapport à Y (continue) par :

pXY (x, y) pXY (x, y)

pX|Y (x, y) = =P
pY (y) u∈X pXY (u, y)

16
Espérance conditionnelle

© Soit ªX et Y deux © variables aléatoires définies sur le même espace de probabilité.©On suppose que
E |X|2 < +∞ et E |Y |2 < +∞. On considère une fonction f de R dans R telle que E |f (X)|2 < +∞.
ª ª

On appelle espérance conditionnelle de f (X) par rapport à Y la fonction de Y , notée E {f (X)|Y }, telle que :

∀g(Y ) t.q. E |g(Y )|2 < +∞ E |f (X) − E {f (X)|Y } |2 ≤ E |f (X) − g(Y )|2
© ª © ª © ª

On montre que : Z
E {f (X)|Y } = f (x)dPX|Y (x, y)

où PX|Y (x, y) représente la loi conditionnelle de X par rapport à Y .

Explicitons l’expression de E {f (X)|Y } dans les deux cas suivants :
– Cas discret : P
x∈X f (x)pXY (x, y)
E {f (X)|Y } = P
x∈X pXY (x, y)

– Cas continu : R
f (x)pXY (x, y)dx
RR
E {f (X)|Y } =
p (x, y)dx
R XY

2.2.4 Principaux moments

Définition 2.14 On appelle fonction caractéristique du vecteur aléatoire (X 1 , · · · , Xd ), la fonction des va-
riables (u1 , · · · , ud ) définie par

φX1 ···Xd (u1 , · · · , ud ) = E {exp(ju1 X1 + · · · + jud Xd )}

On en déduit que la fonction caractéristique de la loi marginale de X1 est φX1 (u1 ) = E ejuX =
© ª

φX1 ···Xd (u1 , 0, · · · , 0).

Théorème 2.4 (fondamental) (X1 , · · · , Xd ) sont indépendantes si et seulement si :

d
Y
φX1 ···Xd (u1 , · · · , ud ) = φXk (uk )
k=1

Les moments sont définis à partir des fonctions polynomiales de la forme X p Y q . Parmi eux le moment du
second ordre joue un rôle majeur en traitement du signal.

Définition 2.15 (covariance) On appelle covariance des variables aléatoires X et Y la quantité

E(X − E {X}) (Y − E {Y }) = E {XY } − E {X} E {Y }. On dit que les deux variables aléatoires X et Y
sont non corrélées si et seulement si leur covariance est nulle et donc si E {XY } = E {X} E {Y }.

Théorème 2.5 Deux variables aléatoires indépendantes sont non corrélées, mais la réciproque est fausse.

Théorème 2.6 Deux variables

© ª aléatoires, dont les moments du second ordre sont finis, vérifient l’inégalité
2
de Schwarz E {XY } ≤ E X 2 E Y 2 .
© ª

On définit enfin le coefficient de corrélation par :

E(X − E {X}) (Y − E {Y }) E {XY } − E {X} E {Y }

ρ= = (2.9)
σX σY σX σY
2
= E (X − E(X))2 et σY2 = E (Y − E(Y ))2 sont les variances respectives de X et Y .
© ª © ª
où σX
L’inégalité de Schwarz montre que :
|ρ| ≤ 1
Le coefficient de corrélation mesure le degré de “ressemblance” affine entre deux variables aléatoires. Plus
|ρ| est voisin de 1, plus X est proche en moyenne quadratique d’une fonction affine de la forme a 1 Y + a0
(Exercice 4.3).

17
2.2.5 Vecteurs Gaussiens
Définition 2.16 (variable aléatoire gaussienne) X est une variable aléatoire gaussienne, si la fonction
caractéristique de sa loi a pour expression :
σ2 2
φX (u) = exp(jmu − u )
2
où m ∈ R est la moyenne et σ 2 la variance.

Définition 2.17 (vecteur gaussien) (X1 , · · · , Xd ) est un vecteur gaussien, si et seulement si toute com-
binaison linéaire de (X1 , · · · , Xd ) est une variable gaussienne.
Par conséquent si (X1 , · · · , Xd ) est un vecteur gaussien, les composantes sont séparément gaussiennes. La
réciproque est fausse.

Théorème 2.7 Soit X = (X1 , · · · , Xd )T un vecteur gaussien de vecteur moyenne M et de matrice de

covariance R.
1. Sa fonction caractéristique a pour expression :
µ ¶
1
φX1 ···Xd (u) = exp juT M − uT Ru (2.10)
2

où u = (u1 , · · · , ud )T .
2. Si det(R) = 0, alors X est presque sûrement contenu dans un sous-espace de dimension égale au rang
de la matrice R.
3. Si det(R) 6= 0, sa loi possède une densité de probabilité qui a pour expression :
µ ¶
1 1
pX (x) = p exp − (x − M )T R−1 (x − M ) (2.11)
(2π)d/2 det(R) 2

où x = (x1 , · · · , xd )T .
La forme de la loi de Gauss présente un maximum au point de coordonnées (m1 , m2 , · · · , md ) et est
d’autant plus pointue que les éléments diagonaux de R sont petits. En égalant à une constante l’argument
de l’exponentielle, on obtient les courbes d’équidensité. Ce sont des ellipsoı̈des qui se réduisent à des sphères
lorsque la matrice R = σ 2 Id .

Théorème 2.8 Si X1 et X2 sont deux variables aléatoires conjointement gaussiennes, alors leur non-
corrélation entraı̂ne leur indépendance.
Pour un vecteur gaussien, les moments de tout ordre s’expriment à partir de M et de R. En particulier, si
(X1 , X2 , X3 , X4 ) désignent quatre variables aléatoires gaussiennes, centrées, alors on a ∀i, j, k ∈ {1, 2, 3, 4},
E(Xi Xj Xk ) = 0 et

E(X1 X2 X3 X4 ) = (2.12)
E(X1 X2 )E(X3 X4 ) + E(X1 X3 )E(X2 X4 ) + E(X1 X4 )E(X2 X3 )

2.2.6 Changement de variables

Soit deux variables aléatoires X1 et X2 continues de densité de probabilité conjointe pX1 X2 (x1 , x2 ) et
deux fonctions mesurables g1 (x1 , x2 ) et g2 (x1 , x2 ). Considérons les deux variables aléatoires :
½
Y1 = g1 (X1 , X2 )
Y2 = g2 (X1 , X2 )

et supposons que la transformation ainsi définie soit bijective. Pour tout couple (y 1 , y2 ), il existe une solution
unique (x1 , x2 ). Nous pouvons alors écrire :
½
X1 = h1 (Y1 , Y2 )
X2 = h2 (Y1 , Y2 )

18
Dans ce cas, la loi de probabilité des variables aléatoires (Y1 , Y2 ) a pour densité :

pY1 Y2 (y1 , y2 ) = pX1 X2 (h1 (y1 , y2 ), h2 (y1 , y2 )) |detJh (y1 , y2 )| (2.13)

où Jh (y1 , y2 ) désigne le Jacobien de la transformation qui a pour expression :

" ∂h (y ,y ) ∂h (y ,y ) #
1 1 2 2 1 2
∂y1 ∂y1
Jh (y1 , y2 ) = ∂h1 (y1 ,y2 ) ∂h2 (y1 ,y2 )
∂y2 ∂y2

dont on peut retenir la propriété utile Jh (y1 , y2 )Jg (x1 , x2 ) = I, où Jg (x1 , x2 ) est le Jacobien de la transfor-
mation inverse g, c’est-à-dire :
" #
∂g1 (x1 ,x2 ) ∂g2 (x1 ,x2 )
∂x1 ∂x1
Jg (x1 , x2 ) = ∂g1 (x1 ,x2 ) ∂g2 (x1 ,x2 )
∂x2 ∂x2

Dans le cas où la transformation n’est pas bijective, il faut prendre en compte toutes les solutions donnant
le couple (x1 , x2 ) en fonction de (y1 , y2 ).
Pour déterminer l’expression de la densité de probabilité de (Y1 , Y2 ), une façon de procéder est de partir
de l’expression de la fonction de répartition de (Y1 , Y2 ), ce qui donne :
(1) on détermine, pour y1 et y2 fixés, le domaine du plan ∆(y1 , y2 ) = {(x1 , x2 ) : g1 (x1 , x2 ) ≤
y1 et g2 (x1 , x2 ) ≤ y2 },
(2) puis on intégre pX1 X2 (x1 , x2 ) sur ∆(y1 , y2 ),
(3) enfin, pour obtenir la densité de probabilité, on dérive le résultat obtenu successivement par rapport
à y1 et y2 (Exercice 2.33).

Loi de la somme de deux variables aléatoires

Soit deux variables aléatoires X1 et X2 de densité de probabilité conjointe pX1 X2 (x1 , x2 ) et soit à calculer
la densité de probabilité de la variable aléatoire Y2 = X1 + X2 . Pour cela considérons la transformation
bijective définie par :
½ ½
y1 = x 1 x1 = y 1
⇔
y2 = x 1 + x 2 x2 = y 2 − y 1

dont le déterminant du Jacobien vaut 1. En appliquant (2.13), on obtient comme densité de probabilité du
couple (Y1 , Y2 ), pY1 Y2 (y1 , y2 ) = pX1 X2 (y1 , y2 − y1 ).
La densité de probabilité de Y2 s’en déduit comme la loi marginale de pY1 Y2 (y1 , y2 ). Il vient :
Z
pY2 (y2 ) = pX1 X2 (y1 , y2 − y1 )dy1
R

Dans le cas où X1 et X2 sont indépendantes pX1 X2 (x1 , x2 ) = pX1 (x1 )pX2 (x2 ) et donc :
Z
pY2 (y2 ) = pX1 (y1 )pX2 (y2 − y1 )dy1
R

qui est l’expression du produit de convolution.

Passage des coordonnées cartésiennes aux coordonnées polaires

Considérons une variable aléatoire complexe Z = X + jY . On suppose que la loi de probabilité conjointe
des variables aléatoires réelles X et Y possède une densité de probabilité notée p XY (x, y). On se propose de
déterminer la loi de probabilité du couple (R, Φ), représentant respectivement le module et la phase de Z.
Le passage du couple (r, φ) au couple (x, y) se fait par la transformation bijective :
½
x = r cos(φ)
avec r ≥ 0 et 0 ≤ φ < 2π
y = r sin(φ)

dont le déterminant du Jacobien vaut r, qui est positif.

19
Par conséquent, en appliquant (2.13) il vient pour la densité de probabilité du couple (R, Φ) :

pRΦ (r, φ) = rpXY (r cos φ, r sin φ)11[0,+∞) (r)11[0,2π) (φ) (2.14)

Les lois du module et de la phase s’obtiennent comme lois marginales en intégrant (2.14). Ce qui donne :
Z 2π
pR (r) = pRΦ (r, φ)dφ11[0,+∞) (r)
0
Z ∞
et pΦ (φ) = pRΦ (r, φ)dr11[0,2π) (φ)
0

Supposons à présent que X et Y soient deux variables aléatoires gaussiennes, indépendantes, centrées, de
même variance σ 2 . Leur densité de probabilité conjointe a pour expression :
µ 2
x + y2
¶
1
pXY (x, y) = exp −
2πσ 2 2σ 2
Cette situation se rencontre en communication où l’on utilise pour la représentation du bruit une va-
riable aléatoire complexe dont les parties réelle et imaginaire sont deux variables aléatoires gaussiennes,
indépendantes, centrées, de même variance. En portant pXY (x, y) dans (2.14), on trouve que Φ est une
variable aléatoire uniforme sur (0, 2π) et que R suit la loi dite de Rayleigh de densité de probabilité :
r2
µ ¶
r
pR (r) = 2 exp − 2 11[0,+∞) (r) (2.15)
σ 2σ
On vérifie que pRΦ (r, φ) = pR (r)pΦ (φ), et donc que les variables aléatoires Φ et R sont indépendantes.
Toutefois ce résultat n’est absolument pas général. Ainsi si X et Y sont deux variables aléatoires gaussiennes,
indépendantes, de même variance, mais dont l’une au moins est non centrée, on pourra vérifier que Φ et R
ne sont pas indépendantes.

2.3 Exercices
Exercice 2.1 (Loi géométrique) La variable aléatoire X est dite de loi géométrique, si X est à valeurs
entières et si P (X = k) = (1 − γ)γ k .
1. Déterminer sa moyenne et sa variance.
2. Déterminer sa fonction carctéristique.
3. Montrer que P (X ≥ k + k0 |X > k0 ) = P (X ≥ k).
P∞
Exercice 2.2 Soit X une variable aléatoire prenant ses valeurs dans N. Montrer que E(X) = n=1 P (X ≥
n).

Exercice 2.3 (Inégalités) 1. Inégalité de Markov

Montrer que pour toute variable aléatoire T non négative et pour tout δ > 0, on a :
E {T }
P (T ≥ δ) ≤
δ
2. Inégalité de Chernoff
En posant T = esX , montrer que pour toute variable aléatoire X et pour tout ² > 0, on a :

P (X ≥ ²) ≤ min e−s² E esX

¡ © ª¢
s>0

P (X ≤ −²) ≤ min es² E esX

¡ © ª¢
s<0

3. Inégalité de Tchebyshev
En posant T = |Y − m|, montrer que pour toute variable aléatoire Y de moyenne m et de variance σ 2
et pour tout ² > 0, on a :
σ2
P (|Y − m| ≥ ²) ≤
²2

20
Exercice 2.4 On suppose que E(|X|p ) < +∞ où p ∈ N. Montrer que, pour tout entier q < p, E(|X|q ) <
+∞.
Indication : utiliser l’inégalité de Jensen à la fonction convexe (|x| q )p/q .

Exercice 2.5 (File d’attente d’accès à un canal) Plusieurs stations de communication sont reliées à
un unique canal de transmission. Lorsque qu’une station désire émettre, elle le fait quel que soit l’état d’oc-
cupation du canal. On suppose que le signal émis par chacune des stations a un débit D (en bits par seconde)
constant et que toutes les trames transmises sont de même durée T . A cause de la durée T de transmission
d’une trame, il arrive que plus d’une station émettent pendant le temps T . Dans ce cas une collision se pro-
duit : le signal devient incompréhensible et les destinataires respectifs demandent une réémission ultérieure.
On suppose que le nombre d’appels NU dans un intervalle de temps U quelconque suit une loi de Poisson de
moyenne IU où I, supposé constant, désigne le nombre moyen d’appels par unité de temps.
La charge d’utilisation η est définie par le rapport entre le nombre de bits moyen transmis par seconde et le
débit nominal D.
1. Rappeler l’expression de la loi de Poisson.
Réponse : P (NU = k) = (IU )k e−IU /k!.
2. Calculer η en fonction de I et de DT .
Réponse : η = IT .
3. Déterminer la probabilité de collision p en fonction de η. Quelle est la valeur de p quand η est égal à
1.
Réponse : p = P (NT ≥ 2) = 1 − P (NT = 0) − P (NT = 1) = 1 − e−η − ηe−η . Pour η = 1, p = 1 − 2/e '
0.26.

Exercice 2.6 (Variable aléatoire de variance nulle) Soit X une variable aléatoire de moyenne m et
telle que var(X) = 0.
1. En utilisant l’inégalité de Tchebyschev, montrer que pour tout ² > 0, P (|X − m| ≥ ²) = 0.
2. On note V le complémentaire de {ω ∈ Ω : X(ω) = m}. Montrer que P (V) = 0. Cela démontre que X
est presque sûrement égale à m.

Exercice 2.7 (Marche aléatoire) On considère une particule animée d’un mouvement rectiligne et effec-
tuant des bonds équiprobables et indépendants d’amplitude P ±s. On suppose que X(0) = 0. On peut donc
n
écrire que la position X(n) au temps n est égale à X(n) = u=1 ∆(u), où ∆(u) est une suite de variables
aléatoires, indépendantes, à valeurs dans {−s, s}, telles que P (∆(u) = s) = 1/2.
1. Déterminer l’expression de la moyenne E(X(n))
2. Déterminer l’expression de la fonction d’autocovariance E(X(n + k)X(n)).
3. Déterminer la probabilité pour que X(n) = ms, pour tout m ∈ N.

Exercice 2.8 (Loi de l’amplitude d’une sinusoı̈de à phase uniforme) On considère la variable
aléatoire Φ de loi uniforme sur (0, 2π). Déterminer la densité de probabilité de la variable aléatoire
X = A cos(Φ) où A ∈ R+ .
Réponse : pX (x) = π√A12 −x2 11(−A,A) (x).

Exercice 2.9 (Transformation sinusoı̈dale d’une variable gaussienne) Soit X une variable aléatoire
gaussienne, centrée, de variance σ 2 .
1. Donner l’expression de sa fonction caractéristique.
2. Pour u fixé, on note Y = cos(uX), Z = sin(uX). Déterminer les expressions de E(Y ) et de E(Z). En
déduire celle de E(Y k ).
Réponse : il suffit de noter que cos(uX) = (eiuX + eiuX )/2.

Exercice 2.10 (Distribution de l’erreur de quantification) On considère une amplitude scalaire

modélisée par une variable aléatoire X à valeurs dans R et dont la loi a pour densité p X (x).
De façon générale la quantification est caractérisée par :
– la partition de l’intervalle (−∞, +∞) en n sous intervalles consécutifs, définis par :

I1 = (a0 = −∞, a1 ), · · · , Ik = (ak−1 , ak ), · · · , In = (an−1 , an = +∞)

21
– et par le choix de n valeurs µ1 , · · · , µk , · · · , µn dites valeurs de reconstruction.
L’opération de quantification consiste à effectuer successivement les deux transformations (codage/dècodage)
représentées ci-dessous :
codage décodage
x −→ c −→ x̂

Codage : si x ∈ Ik , on lui associe le mot-code c = k.

Décodage : au mot code k on associe la valeur de reconstruction x̂ = µ k .
(en pratique n = 2N est une puissance de 2 et les mot-codes sont alors écrits avec N bits)
On note ² l’erreur de quantification. Et donc si X ∈ Ik , ² = X − µk .
1. Déterminer, à partir de pX (x), l’expression de P (² ≤ e, X ∈ Ik ).
2. En déduire la densité de probabilité p² (e) de l’erreur de quantification.
3. Déterminer l’expression
Pn de R al’erreur quadratique moyenne.
Réponse : E(²2 ) = k=1 ak−1 k
(x − µ − k)2 pX (x)dx.
4. En déduire des conditions nécessaires sur les intervalles Ik = (ak−1 , ak ) et sur les valeurs de recons-
truction µk , qui rendent minimale l’erreur quadratique moyenne.

Exercice 2.11 (Facteur de crête) Dans certains dispositifs physiques il est important d’éviter le
phénomène d’écrêtage (ex. : systèmes d’enregistrement ou dispositifs de quantification d’un signal).
Lorsque l’observation est modélisée par une variable aléatoire X centrée, dont la puissance (moment du
second ordre) E(X 2 ) = PX est connue, le problème consiste à déterminer le rapport entre la puissance P X
et la valeur maximale Ac , appelée valeur crête du signal.
Lorsque la variable aléatoire X est d’amplitude non bornée, on prend pour valeur crête, A c telle que
Pr(|X| > Ac ) < α. Typiquement α est égal à 1% ou 5%. Dans le cas gaussien, on considère souvent
que les amplitudes supérieures à 3σ sont de probabilité négligeable.
On appelle facteur de crête la quantité F = A2c /PX .
Déterminer le facteur de crête dans les trois cas suivants :
– X est une variable aléatoire uniformément répartie sur (−A, A).
– X est la variable aléatoire X = A sin(Φ) où Φ est une variable aléatoire uniformément répartie sur
(0, 2π).
– X une variable gaussienne, centrée, de variance σ 2 .

Exercice 2.12 (Loi de Poisson) Soit X et Y 2 variables aléatoires indépendantes de loi de Poisson de
paramètres respectifs λ1 et λ2 .
1. Déterminer la fonction caractéristique de X.
Réponse : µ̂X (ξ) = exp(λ1 (eiξ − 1)).
2. Déterminer la loi de X + Y .
Réponse : écrire la fonction caractéristique. On trouve la loi de Poisson de paramètre λ = λ 1 + λ2 .
3. Déterminer l’expression de P (X = k|X + Y = n).
Réponse : P (X = k|X + Y = n) =P(X=k,X+Y=n)/P(X+Y=n)etP(X=k,X+Y=n)=P (X = k)P (Y =
n − k) si n ≥ k et donc P (X = k|X + Y = n) = Cnk pk (1 − p)n−k pour k ∈ {0, · · · , n} et 0 sinon avec
p = λ1 /(λ1 + λ2 ).
4. En déduire l’expression de E(f (X)|XPn + Y = n).
Réponse : E(f (X)|X + Y = n) = k=0 f (k)Cnk pk (1 − p)n−k .

Exercice 2.13 (Loi binomiale) On considère n variables aléatoires (B 1 , B2 , · · · , Bn ) de Bernoulli,

indépendantes, et telles que P (Bk = 1) = p. Déterminer la loi de probabilité de leur somme S.
Réponse : P (S = k) = Cnk pk (1 − p)n−k pour k ∈ {0, · · · , n}.

Exercice 2.14 (Lissage par moyennage) On considère n variables aléatoires (X 1 , X2 , · · · , Xn ),

indépendantes, et identiquement distribuées (i.i.d.). On note m leur moyenne et v leur variance.
1. Déterminer la moyenne et la variance de S = (X1 + · · · + Xn )/n.
Réponse : E(S) = m, var(S) = σ 2 /N .
2. En s’inspirant de l’inégalité de Tchebischev, conclure.
Réponse : en moyennant on réduit la dispersion des valeurs.

22
Exercice 2.15 (Formule de Wald) Soit T , X1 , X2, . . .Xn , . . ., une suite de variables aléatoires
indépendantes à valeurs dans N. Les Xn sont identiquement distribués. On pose :
X
gX (z) = E(z X ) = pX (k)z k avec |z| < 1
k≥1

et
X
gT (z) = E(z T ) = pZ (k)z k avec |z| < 1
k≥1

Ces fonctions sont dites génératrices des probabilités, car on a p(n) = dg n (z)/dz|z=0 .
On pose S = (X1 + · · · + XT ) si T 6= 0 et 0 sinon.
Déterminer l’expression de P gS (z).
Indication : f (X1 , · · · , XT ) = i≥1 f (X1 , · · · , Xi )11(T = i).
Réponse : z S = X1 +···+Xi X1
· · · z Xi )11(T = i) + 11(T = 0) et donc
P P
i≥1 z 11(T = i) + 11(T = 0) = i≥1 (z
gS (z) = gT (g(X (z)).

Exercice 2.16 Soient (X1 , · · · , Xn ), n variables aléatoires indépendantes, de fonctions caractéristiques res-
pectives µ̂k (ξ) et N une autre variable aléatoire indépendante des Xk et à valeurs dans {1, · · · , n}. On donne
P (N = k) = pk . On pose Y = NT .
1. Déterminer, en fonction de pk et de µ̂k (ξ), la moyenne et la variance de Y .
2. Déterminer, en fonction de pk et de µ̂k (ξ), l’expression de la fonction caractéristique de Y .
Pn
Indication : f (XN ) P
= k=1 f (Xk )11(N = k).
n Pn Pn
Réponse : µ̂Y (ξ) = k=1 µ̂k (ξ)pk . De même E {Y } = k=1 E {Xk } pk , var(Y ) = k=1 var(Xk )pk .

Exercice 2.17 (Loi de Gauss : contre-exemple) On considère une variable aléatoire X gaussienne,
centrée, de variance 1 et on définit pour a > 0, Y par :
½
X si |X| ≤ a
Y =
−X si |X| > a

1. Montrer que Y est gaussienne.

2. Montrer qu’il existe Ra tel que les variables
R +∞ aléatoires X et Y ne soient pas corrélées.
a
Réponse : a tel que 0 x2 p( x)dx = a x2 p( x)dx.
3. Montrer que X et Y ne sont pas conjointement gaussiennes ?
Indication : trouver une combinaison linéaire de X et Y qui ne soit pas gaussienne.
4. Montrer que X et Y ne sont pas indépendantes.
Indication : trouver deux fonctions f et g, continues bornées, telles que E(f (X)g(Y )) 6=
E(f (X))E(g(Y )).

Exercice 2.18 (Loi des succès) Soit {Xn } une suite de variables aléatoires indépendantes de Bernoulli
avec P (Xk = 1) = p et 0 < p < 1 (symboliquement 1 désigne le succès). On pose q = 1 − p.
On note Tk la date du k-ème succès, c’est-à-dire :

T1 = inf{k ≥ 1 : Xk = 1}
Tn = inf{k ≥ Tn−1 : Xk = 1}

On pose Wn = Tn − Tn−1 pour n ∈ N avec T0 = 0.

1. Déterminer la loi de T1 .
Réponse : P (T1 = t) = (1 − p)t−1 p pour t ∈ N+ .
2. Déterminer la loi de (W1 , W2 , · · · , Wn ). Sont-elles sont indépendantes ? Déterminer Q
la loi de Wk .
n
Réponse : soit w1 ∈ N+ on a P (W1 = w1 , W2 = w2 , · · · , Wn = wn ) = q w1 −1 p · · · = k=1 pq wk −1 qui
est le produit de n lois. Par conséquent les Wk sont indépendantes. et P (Wk = wk ) = pq wk −1 (loi
géométrique).

23
3. Déterminer la loi de (T1 , T2 , · · · , Tn ).
Réponse : Soit t1 < t2 <∈ N+ P (T1 = t1 , T2 = t2 , · · · , Tn = tn ) = P (W1 = t1 , W2 = t2 − t1 , · · · , Wn =
tn − tn−1 ).
4. Calculer la fonction génératrice des probabilités gTn (z) = E(z Tn )).
Réponse : soit gTn (z) = (gW1 (z))n avec gW1 (z) = p/(1 − qz)

Exercice 2.19 (Marche aléatoire) On considère une particule animée d’un mouvement rectiligne et ef-
fectuant des bonds équiprobables et indépendants d’amplitudeP±s. On suppose que X(0) = 0. On peut donc
n
écrire que la position X(n) au temps n est égale à X(n) = u=1 ∆(u), où ∆(u) est une suite de variables
aléatoires, indépendantes, à valeurs dans {−s, s}, telles que P (∆(u) = s) = 1/2.
1. Déterminer l’expression de la moyenne E(X(n))
Réponse : E(X(n)) = 0.
2. Déterminer l’expression de la fonction d’autocovariance E(X(n + k)X(n)).
Réponse : E(X(n + k)X(n)) = ns2 .
3. Déterminer la probabilité pour que X(n) = ms, pour tout m ∈ N.
(n+m)/2
Réponse : P (X(n) = ms) = Cn (1/2)n , pour m ∈ {−n, · · · , n} et 0 sinon.

Exercice 2.20 (Statistique exhaustive) On considère N variables aléatoires (X 1 , · · · , XN )

k
indépendantes qui suivent une loi de Poisson de paramètre λ. On a P (X n = k) = λk! e−λ . On pose
Z = X1 + · · · + X N .
1. Déterminer la loi conjointe de (X1 , · · · , XN ).
QN
Réponse : P (X1 = x1 , · · · , XN = xN ) = k=1 λxk e−λ /xk ! où xk ∈ N.
2. Déterminer la loi conditionnelle P (X1 = x1 , · · · , XN = xN |Z = z), où x1 , · · · , xN , z appartiennent à
N. Que remarque-t-on ? (on dit que Z est une statistique exhaustive de λ).
(x1 +···+xN )!
Réponse : Si z = x1 + · · · + xN , P (X1 = x1 , · · · , XN = xN |Z = z) = N x1 +···+x QN . La loi
k=1 xk !
N

conditionnelle est indépendante de λ.

Exercice 2.21 (Processus de branchement) Soit la suite de variables aléatoires Z ij à valeurs dans N
où (i, j) ∈ N+ × N+ . On pose :

N0 =1
N1 = Z11
N2 = Z21 + · · · + Z2N1
..
.
Nk = Zk1 + · · · + ZkNk−1
..
.

On peut voir Nk comme le nombre de membres de la k-ème génération. On note que si N k = 0 alors Nk+j = 0
pour tout j ≥ 1.
On note p(n) = P (Zij = n), g(z) = E(z Zij ) = n p(n)z n et Φk (z) = E(z Nk )
P

1. Montrer que la variable aléatoire Nk est indépendante de {Zij , i > k}.

Réponse : Nk est une fonction de Zij pour i ≤ k.
2. Déterminer l’expression de Φ1 (z) = E(z N1 ).
3. Déterminer, en fonction de g(z) et de Φk−1 (z), l’expression de Φk (z).
Indication : zkN = i≥1 z Zk1 +···+Zki 11(Nk−1 = i).
P
Réponse : Φk (z) = Φk−1 (g(z)).
4. Montrer que P (Nk = 0) est une suite positive, croissante et bornée.
Réponse : P (Nk = 0) est positive et bornée par 1. P (Nk = 0) = Φk (0) = Φk−1 (g(0)) > Φk−1 (0) =
P (Nk−1 = 0). Par conséquent P (Nk = 0) a une limite quand k tend vers l’infini.

24
5. On note Ak = {ω : Nk (ω) = 0}. Déterminer l’expression de π = P (∪∞
k=0 Ak ). Quelle est la signification
de π ? Discuter sa valeur en fonction de E(Z11 ).
Réponse : Ak ⊂ Ak+1 . Par continuité de la probabilité π = limk→+∞ P (Ak ). π est la probabilité
d’extinction.

Exercice 2.22 (Loi multinomiale) Soit (X1 , · · · , XN ) N variables aléatoires indépendantes et identi-
P de R en g intervalles disjoints {∆ 1 , · · · , ∆g }. On note
quement distribuées. On considère une partition
pk = P (Xj ∈ ∆k ) avec k ∈ {1, · · · , g}. On a k pk = 1. On pose, pour k ∈ {1, · · · , g} :
N
X Nk
Nk = 11{k} (Xm ) et πk =
m=1
N

Nk est donc le nombre de valeurs de l’échantillon qui tombent dans ∆ k et πk la fréquence empirique. On
remarque que N1 + · · · + Ng = N et que π1 + · · · + πg = 1.
1. Déterminer, en fonction de πk , les expressions de E(Nk ) et de E(Nk Ns ). En déduire la matrice de
covariance du vecteur aléatoire (N1 , · · · , Ng ).
Même question pour le vecteur aléatoire (π1 , · · · , πg ).
Réponse : E(Nk ) = N pk , E(Nk Ns ) = N pk δ(k − s) + N (N − 1)pk ps , cov(Π) = N1 diag(P ) − N1 P P T .
2. Déterminer, en fonction de πk , l’expression de la fonction caractéristique du vecteur aléatoire
(N1 , · · · , Ng ). (N1 , · · · , Ng ) sont-elles indépendantes.
Réponse : µ̂N (ξ1 , · · · , ξg ) = (p1 ejξ1 + · · · + pg ejξg )N .
3. Déterminer l’expression de P (N1 = n1 , · · · , Ng = ng ).
n1 ng
Réponse : P (N1 = n1 , · · · , Ng = ng ) = n1N !
!·ng ! p1 · · · pg .
4. On pose :
√ πk − p k
Yk = N √
pk

Déterminer l’expression de la fonction caractéristique du vecteur aléatoire (Y 1 , · · · , Yg ).

Indication : utiliser le fait que Y = AΠ + B.
Pg
Rq : la variable χ2 = k=1 Yk2 permet de tester la conformité d’un échantillon avec une loi a priori donnée.
Ce test est appelé test du chi2 à k − 1 degré de liberté. Si la valeur de χ 2 observée est supérieure à un seuil,
on rejette l’hypothèse de conformité. Les valeurs du seuil, pour différents niveaux de confiance et différents
degré de liberté sont tabulées. Un autre exemple de test de conformité est celui de Kolmogorov-Smirnov qui
compare supk |πk − pk | à un seuil.

Exercice 2.23 (Loi de Cauchy) On dit que la variable aléatoire X suit une loi de Cauchy de paramètre
α
α > 0 si la loi de X a pour densité pX (x) = π1 x2 +α 2.

1. Vérifier que la fonction caractéristique de X a pour expression µ̂ X (ξ) = e−α|ξ| .

2. Montrer que si X1 , · · · , XN désignent N variables aléatoires indépendantes, de Cauchy de paramètres
respectifs α1 , · · · , αN , alors Z = (X1 + · · · + XN )/N suit une loi de Cauchy. Quel est son paramètre
α? P
Réponse : déterminer la fonction caractéristique de Z. α = k αk /N .

Exercice 2.24 (Critère de gaussianité) On considère N variables aléatoires (X 1 , · · · , XN )

indépendantes et de même loi (identiquement√distribuées). On note m leur moyenne et σ 2 leur va-
PN
riance. On pose Yn = (Xn − m)/σ et T = X̄−m
σ N où X̄ = n=1 Xn /N .
1. Déterminer la moyenne et la variance de Yn .
Réponse : E(Yn ) = 0, var(Yn ) = 1.
2. Exprimer T en fonction des Yn . En déduire la moyenne et la variance de T .
Réponse : E(T ) = 0, var(T ) = 1.
3. Montrer que les variables Xn sont gaussiennes si et seulement si T et Yn ont même loi.
Indication : exprimer la fonction caractéristique de T en fonction de celles des Y n .

25
Exercice 2.25 (Chaı̂ne de Markov) Soit Xn , n ≥ 0, une suite de variables aléatoires à valeurs dans
{1, 2, · · · , S}. On suppose que :

P (Xn = j | Xn−1 = i, Xn−2 = xn−2 , · · · , X1 = x1 ) = P (Xn = j | Xn−1 = i) = pij (n) (2.16)

où (i, j, xn−2 , · · · , x1 ) ∈ {0, 1}n . On dit que Xn est une chaı̂ne de Markov à S états. pij représente la
probabilité de passer de l’état i à l’état j d’un instant n à l’instant suivant.
Si pij (n) est indépendant de n, on dit qu’elle est homogène. C’est ce que nous supposerons dans la suite.
On note A la matrice de transition d’éléments pij . On note πn = (P (Xn = 1, · · · , P (Xn = S)) le vecteur
des probabilités de la variable Xn et πn (i) sa i–ème composante.
1. Déterminer, en fonction de A et de π0 , l’expression de πn .
Réponse : πn = π0 An .
2. Déterminer la loi de X0 pour que la loi de Xn soit indépendante de n (on dit que Xn est stationnaire).
Réponse : Une solution est de prendre pour π0 le vecteur propre gauche, si il existe, qui a pour valeur
propre 1. Une autre solution est qu’il existe n0 tel An0 soit une matrice dont toutes les lignes sont
identiques.
3. Déterminer, en fonction de A, la probabilité conditionnelle P (X n = k | Xn−2 = i).
(2) (2)
Réponse : P (Xn = k | Xn−2 = i) = pij où pij est le terme générateur de la matrice A2 . En effet, en
utilisant 1.1, on a :

P (Xn = k | Xn−2 = i)P (Xn−2 )

X
= P (Xn = k, Xn−2 = i) = P (Xn = k, Xn−1 = j, Xn−2 = i)
j
X
= P (Xn = k | Xn−1 = j, Xn−2 = i)P (Xn−1 = j | Xn−2 = i)P (Xn−2 = i)
j
X
= pjk pij P (Xn−2 = i)
j

4. Déterminer Ploi conjointe de (Xn , · · · , X0 ). Il est pratique d’utiliser la notation P (Xn = xn |Xn−1 =
P la
xn−1 ) = i j pij 11(xn = j, xn−1 = i).
Qn Qn P P
Réponse : PP(X = x) = k=1 P (Xk = xk |Xk−1 = xk−1 )P (X0 = x0 ) = k=1 i j pij 11(xk =
j, xk−1 = i) i π0 (i)11(x0 = i) Parfois on a besoin du logarithme qui a donc pour expression :
n XX
X X
log(P (X = x)) = log(pij )11(xk = j, xk−1 = i) + log(π0 (i))11(x0 = i)
k=1 i j i

5. Montrer que, pour tout n > s > u > v, on a P (Xn = xn , · · · , Xs = xs |Xu = xu , · · · , Xv = xv ) =

P (Xn = xn , · · · , Xs = xs |Xu = xu ).
Réponse : Ecrire P (Xn = xn , · · · , Xs = xs , Xu = xu , · · · , Xv = xv ) en introduisant les variables de s
à u puis utiliser la formule 1.1 et la propriété de Markov.
6. En déduire que E(f (Xn , · · · , Xs )|Xu = xu , · · · , X1 = x1 ) = E(f (Xn , · · · , Xs )|X = xs ).
Réponse : il suffit de rappeler que, pour un vecteur aléatoire discret U , à valeurs dans (u 1 , · · · , uN ), et
un vecteur aléatoire discret V , à valeurs dans (v1 , · · · , vM ), et si f désigne une fonction de RN dans
PN
R, on a : E(f (U )|V = v) = i f (U = ui )P (U = ui |V = v).

Exercice 2.26 (AMI) Soit Xn , n ≥ 1, une suite de variables aléatoires à valeurs dans {0, 1},
indépendantes et identiquement distribuées. On note p = P (Xn = 1). On fabrique la suite An de la façon
suivante : si Xn = 0 alors An = 0 et si Xn = 1 alors An vaut alternativement +1 ou −1. On pose A0 = −1.
Ce codage est désigné, dans la littérature, sous le terme de AMI pour Alternate Mark Inversion.
1. Vérifier que :
½
An = Sn−1 Xn avec S0 = 1
(2.17)
Sn = Sn−1 (1 − 2Xn )

2. Déterminer, en fonction de la suite Xn , l’expression de An .

Réponse : An = Xn (1 − 2Xn−1 ) · · · (1 − 2X1 ).

26
3. Déterminer E(An ), E(An+k An ).
Réponse : Il suffit de vérifier que E(Xn ) = p, E(1 − 2Xn ) = 1 − 2p, E(Xn2 ) = p, E((1 − 2Xn )2 ) = 1,
et E(Xn (1 − 2Xn )) = −p et d’utiliser l’indépendance des Xi . E(An ) = p(1 − 2p)n−1 , E(A2n ) = p,
E(An+1 An ) = −p2 etc

Exercice 2.27 (Canal numérique à mémoire) On considère une suite X(n), n ≥ 1, de variables
aléatoires, à valeurs dans {0, 1}, indépendantes et identiquement distribuées. On note p = P (X n = 1) = 1/2.
On pose Sn = (X(n) X(n − 1))T avec X(0) = 1.
1. On note S = {∞, ∈, 3, 4} l’ensemble des valeurs de Sn . Déterminer la loi de Sn .
2. Montrer que la suite Sn est une chaı̂ne de Markov, c’est-à-dire :

P (Sn = sn |Sn−1 = sn−1 , Sn−2 = sn−2 , · · · , S1 = s1 ) = P (Sn = sn |Sn−1 = sn−1 )

Donner la matrice de transition de la chaı̂ne.

3. Déterminer l’expression de la loi conjointe de (Sn , · · · , S1 ).
On transmet la suite X(n) à travers un canal qui donne en sortie Y (n) = h 0 X(n) + h1 X(n − 1) + W (n),
où h0 et h1 sont des constantes propres au canal (appelés réponse impulsionnelle du canal) et W (n) une
suite de variables aléatoires gaussiennes, centrées de variance σ 2 , indépendantes de la suite X(n). Avec les
notations précédentes on a Y (n) = hT S(n) + W (n).
4. Déterminer l’expression de la densité de probabilité de Y (k) conditionnellement à S(k).
5. Montrer que :
n
Y
PYn ,··· ,Y1 |Sn ,··· ,S1 (yn , · · · , y1 ) = PYk |Sk (yk )
k=1

6. En déduire l’expression du logarithme de la loi conjointe de l’observation (Y n , · · · , Y1 ).

Exercice 2.28 (canal numérique bruité) On considère la sortie d’un canal de communication :

X(n) = θA(n) + B(n) (2.18)

où A(n) est une suite de variables aléatoires, à valeurs dans {−1, +1}, indépendantes et identiquement dis-
tribuées. On note p = P (A(n) = 1). θ ∈ R+ représente un terme d’atténuation dû au canal de transmission et
B(n) est une suite de variables aléatoires gaussiennes, indépendantes, centrées de variance σ 2 , qui représente
le bruit. On suppose que les suites A(n) et B(n) sont indépendantes. On donne E(B n4 ) = 3σ 4 .
1. Déterminer la loi de (X1 , · · · , Xn ) conditionnellement à (A1 , · · · , An ).
Réponse :
n
Ã !
1 1 X 2
pX|A=a (x, a) = √ exp − 2 (x(k) − θa(k))
σ 2π 2σ
k=1

1 , · · · , Xn ).
2. En déduire la loi de (XQ
n
Réponse : P (A = a) = k=1 (p11(a(k) = 1) + (1 − p)11(Ak = −1)) puis
n
1 Y
(1 − p) exp(−(xk + θ)2 /2σ 2 ) + p exp(−(xk − θ)2 /2σ 2 )
¡ ¢
pX (x) = 2 n/2
(2πσ ) k=1

3. On suppose que p = 1/2. Déterminer l’expression de E(Xn2 ) et de E(Xn4 ). En utilisant la loi des grands
nombres, en déduire un moyen d’estimer θ et σ 2 . Déterminer un intervalle de confiance de la valeur
de θ estimée.
Réponse : E(Xn2 ) = θ 2 + σ 2 et E(Xn4 ) = θ 4 + 3σ 4 . Il suffit de remplacer E(Xnm ) par k Xkm /N .
P

Exercice 2.29 (blanchiment) Soit X = (X1 , · · · , Xd )T un vecteur aléatoire gaussien de moyenne M et de

matrice de covariance R. On suppose que R est de rang plein. Montrer qu’il existe une transformation de la
forme Y = AX + B t.q. Y soit un vecteur aléatoire gaussien centré dont les composantes sont indépendantes.

27
Exercice 2.30 (Transformation linéaire de variables gaussiennes) Soit deux variables aléatoires X 1
2 2
et X2 conjointement gaussiennes, centrées, de variances respectives σ X1 et σX2 et telles que E(X1 X2 ) =
ρσX1 σX2 avec −1 < ρ < 1 (|ρ| 6= 1). On considère la transformation définie par :
µ ¶ µ ¶
Y1 X1
=A
Y2 X2

où A désigne une matrice (2, 2) et que l’on note Y = AX. On rappelle que E(X) = 0 et on note cov(X) =
E(XX T ) la matrice de covariance de X.
1. Déterminer la densité de probabilité du couple (Y1 , Y2 ).
Indication : par linéarité (Y1 , Y2 ) sont gaussiennes. Il suffit de déterminer leur moyenne et leur matrice
de covariance. E(Y ) = AE(X) = 0 et cov(Y ) = Acov(X)AT .
2. Montrer que l’on peut trouver A telle que (Y1 , Y2 ) soient deux variables aléatoires gaussiennes,
indépendantes et variance 1.
Indication : A = (cov(X))−1/2 (on rappelle que cov(X) > 0).

Exercice 2.31 (Transformation de deux variables aléatoires gaussiennes) On considère deux va-
riables aléatoires conjointement gaussiennes X et Y , centrées, de même variance σ 2 et indépendantes. On
pose Z = |X − Y |. calculer E(Z) et E(Z 2 ).
Réponse : U = X − Y est une variable gaussienne de moyenne
√ 0 et de variance 2σ 2 . Et donc E(Z 2 ) =
2 2 2 2
R
E(U ) = 2σ et E(Z) = E(|U |) = R |u| exp(−u /4σ )du/ 4πσ . 2

Exercice 2.32 (Espérance

P∞ du min) 1. Soit X une variable aléatoire prenant ses valeurs dans N. Mon-
trer que E(X) = n=1 P (X ≥ n).
Indication : P (X = k) = P (X ≥ n) − P (X ≥ n + 1).
2. Soit (Y1 , Y2 , · · · , Yk ), k variables aléatoires i.i.d. à valeurs dans N. On note p(u) = P (Y1 = u). On
note X = min(Y1 , Y2 , · · · , Yk ). Déterminer l’expression de E(X). P
+∞
Réponse : P (X ≥ n) = P (Y1 ≥ n, · · · , Yk ≥ n) = (P (Y1 ≥ n))k = ( u=n p(u))k .

Exercice 2.33 (Lois du Min et du Max) Soit (X1 , X2 , · · · , Xn ), n variables aléatoires indépendantes et
uniformément réparties sur (0,1). On considère les deux variables aléatoires définies par Y = min k {Xk } et
Z = maxk {Xk }.
1. Calculer la densité de probabilité de Y .
Indication : calculer Fy (y) = P (Y ≤ y).
Réponse : pY (y) = n(1 − y)n−1 11(0,1) (y).
2. Calculer la densité de probabilité de Z.
Réponse : pZ (z) = nz n−1 11(0,1) (z).
3. Calculer la densité de probabilité du couple (Y, Z). En déduire queY et Z ne sont pas indépendantes.

Exercice 2.34 (Estimation linéaire en moyenne quadratique) On veut évaluer, à partir d’une obser-
vation vectorielle Y de dimension finie n, une grandeur scalaire X. De façon pratique, Y représente une
quantité observable, tandis que X ne l’est pas.
L’idée est de prendre comme approximation de X une quantité, que nous notons X̂, qui soit une fonction
affine des observations, ce qui s’écrit :

X̂ = AT Y + b

où A et b sont des matrices de constantes, de dimensions adéquates, à déterminer.

Dans ce type de problème on suppose connus les moments du premier et du second ordre de X et de Y , à
savoir E(X), E(Y ), E(Xc2 ), RY Y = E(Yc YcT ) et rY X = E(Xc Yc ) (l’indice c indique que les variables sont
centrées).
1. Déterminer A et b qui minimise l’erreur quadratique définie par ² 2 = E(X − X̂)2 .
Réponse : A = RY−1Y rY X et b = E(X) − AT E(Y ).
2. Déterminer l’expression de l’erreur quadratique ²2 minimale. En se limitant au cas où E(Y Y T ) est une
matrice diagonale, comment varie cette erreur en fonction de l’amplitude des coefficients de corrélation
entre X et de Y .

28
Exercice 2.35 (Générateur de variables aléatoires) On considère une variable aléatoire U de loi uni-
forme sur (0, 1) et on se donne une fonction F (x) vérifiant les propriétés d’une fonction de répartition.
1. On suppose que F (x) est strictement croissante. On note F [−1] sa fonction inverse. Déterminer la loi
de probabilité de la variable aléatoire X = F [−1] (U ).
Réponse : FX (x) = F (x).
P+∞
2. On suppose que F (x) = k=0 p(k)11(−∞,x] (ak ) est la fonction de répartition d’une variable aléatoire
discrète à valeurs dans {a1 , · · · , ak , · · · . On pose cn = F (an ) pour n ≥ 0 et c−1 = 0. Déterminer la loi
de probabilité de la variable aléatoire discrète X, définie par X = a n si U ∈ (cn−1 , cn ] pour n ≥ 0.
3. Appliquer ces résultats pour écrire un algorithme qui engendre :
(a) à partir d’une variable aléatoire uniforme, une variable aléatoire de Raylegh de densité de proba-
bilité pX (x) = x exp(−x2 /2)11[0,+∞[ (x).
2
p
Réponse
p : F X (x) = 1 − exp(−x /2) donc X = −2 log(1 − U ) ou ce qui revient au même
X = −2 log(U ).
(b) A partir de deux variables aléatoires uniformes et indépendantes U et V , deux variables
aléatoires X et Y gaussiennes, indépendantes, centrées de même variance σ 2 . On déterminera,
préalablement, la loi du couple (R, Φ) tel que X = R cos(Φ) et Y = R sin(Φ) où (X, Y ) sont deux
variables gaussiennes,
p centrées, indépendantes depvariance 1.
Réponse : X = σ −2 log(U ) cos(2πV ) et Y = σ −2 log(U ) sin(2πV ).
(c) A partir d’une variable aléatoire uniforme, une variable aléatoire de Poisson.

Exercice 2.36 (Calcul d’intégrale)

R Soit f une fonction de C2 = (0, 1) × (0, 1) dans (0, 1) supposée
intégrable. On pose I = C f (x, y)dxdy. On se propose d’évaluer cette intégrale par une méthode dite de
Monte-Carlo, c’est-à-dire en utilisant la loi des grands nombres.
1. Soit (V1 , · · · , Vn ) une suite de vecteurs aléatoires de dimension 2, indépendants et identiquement dis-
tribués de loi uniforme sur le carré C2 . On note (Xi , Yi ) les composantes de Vi . On pose :
n
1X
J1 = f (Xi , Yi )
n i=1

Déterminer la moyenne et la variance de J1 .

Indication : Poser Ui = f (Xi , Yi ).
R1R1
Réponse : E(J1 ) = I, E(J12 ) = n1 0 0 f 2 (x, y)dxdy.
2. Soit (W1 , · · · , Wn ) une suite de vecteurs aléatoires de dimension 3, indépendants et identiquement
distribués de loi uniforme sur le cube C3 = (0, 1)3 . On note (Xi , Yi , Zi ) les composantes de Wi . On
pose :
n
1X
J2 = 11(Zi ≤ f (Xi , Yi ))
n i=1

Déterminer la moyenne et la variance de J2 .

Indication : Poser Vi = 11(Zi ≤ f (Xi , Yi )).
R1R1
Réponse : E(J2 ) = I, E(J22 ) = n1 0 0 f (x, y)dxdy.
3. En utilisant l’inégalité de Tchebyschev, évaluer, dans les deux cas (m=1,2), le nombre nécessaire de
tirages pour obtenir I, de façon telle que :

P (|Jm − I| ≤ 1/100) ≥ 0,99

Réponse : n > 10 000var(m).

Expérience informatique : réaliser un programme qui compare ces deux méthodes sur la fonction f (x, y) =
xy sin(1/xy).

29
Chapitre 3

Convergences

Dans ce chapitre on considère des suites de variables aléatoires. Sauf indication contraire, elles sont toutes
définies sur le même espace de probabilité.

3.1 Différentes formes de convergence

Rappelons tout d’abord que, pour une suite déterministe xn , on dit que xn tend vers x quand n tend
vers l’infini, si pour tout ² > 0, il existe n0 t.q. pour tout n ≥ n0 , |xn − x| < ². Ce qui est équivalent à dire
que, pour tout ² > 0, il existe un nombre fini d’indices n tel que |xn − x| ≥ ².

3.1.1 Rappels
Théorème 3.1 (continuité monotone de la probabilité) Soit Bn une suite d’événements, définis sur
l’espace de probabilité (Ω, F, P ), monotone décroissante, c’est-à-dire que ∀n ≤ p, B n ⊇ Bp . On note
limn Bn = ∩+∞
n=1 Bn . Alors
P (lim Bn ) = lim P (Bn )
n n

Preuve : on sait que ∩+∞ +∞ +∞ +∞

k=1 Bk = ∪k=1 B̄k et donc P (∩k=1 Bk ) = 1 − P (∪k=1 B̄k ).
Soit Ck la suite d’événements définis par C1 = B̄1 , C2 = B̄2 − B̄1 , . . ., Ck = B̄k − B̄k−1P,. . .Comme les
n
Ck forment une suite croissante d’événements disjoints et que, ∀n, ∪nk=1 B̄k = ∪nk=1 Ck , on a k=1 P (Ck ) =
+∞ n
P (Cn ) = P (B̄n ). Par conséquent P (∪+∞
P P
k=1 B̄k ) = k=1 P (Ck ) = limn→+∞ k=1 P (Ck ) = limn→+∞ P (Cn ) =
1 − limn→+∞ P (Bn ), dont on déduit P (∩+∞ n=1 Bn ) = limn→+∞ P (Bn ).

Définition 3.1 (limite supérieure) Soit An une suite d’événements définis sur (Ω, F). On appelle limite
supérieure de An , l’ensemble noté lim sup An et défini par :

lim sup An = ∩+∞ +∞

n=1 ∪k=n Ak

Signification de la limite supérieure : quel que soit n, il existe un rang k ≥ n, tel que ω ∈ A k . Une autre façon
est de dire que la limite supérieure représente l’ensemble des épreuves ω qui appartiennent à une infinité de
Ak .
Comme Bn = ∪+∞ k=n Ak est une suite monotone décroissante, d’après le théorème 3.1, P (lim sup A n ) =
limn P (∪+∞
k=n A k ).
Rappelons enfin que, si X est une variable aléatoire est de moyenne m et de variance 0, alors X est
presque sûrement égale à la valeur m. Dans ce cas nous utiliserons aussi l’expression : X est “déterministe”.

3.1.2 Convergence p.s.

Définition 3.2 (convergence p.s.) Soit Xn une suite de variables aléatoires et X une variable aléatoire,
toutes définies sur le même espace de probabilité (Ω, F, P ). On dit que X n tend presque sûrement vers X si
et seulement si l’ensemble des épreuves ω ∈ Ω telles que Xn (ω) ne tend pas vers X(w) est de mesure nulle
pour P . On note cette convergence :
Xn →p.s. X

30
Théorème 3.2 (CNS de convergence p.s.) Soit Xn une suite de variables aléatoires et X une variable
aléatoire, toutes définies sur le même espace de probabilité (Ω, F, P ). On note A n (²) la suite d’événements
définis par :
An (²) = {ω ∈ Ω : |Xn (ω) − X(ω)| ≥ ²}
Xn →p.s. X si et seulement si, pour tout ² > 0, P (lim sup An (²)) = 0.

CN Xn →p.s. X. Notons N l’ensemble des épreuves ω t.q. Xn (ω) ne converge pas vers X(ω). Cela signifie
que ∀ω 6∈ N et ∀² > 0 il existe un nombre fini d’indices n t.q. |Xn (ω) − X(ω)| ≥ ² et donc ω appartient
à un nombre fini de An (²) et donc ω 6∈ lim sup An (²). Par conséquent si ω ∈ lim sup An (²) ⇒ ω ∈ N et
donc ∀², lim sup An (²) ⊂ N . Comme P (N ) = 0 ⇒ P (lim sup An (²)) = 0.
CS ∀² on a P (lim sup An (²)) = 0. On note alors An,k = {ω t.q. |Xn (ω) − X(ω)| ≥ 1/k}, avec k ∈ N, et
Bk = lim supn An,k . Par hypothèse P (Bk ) = 0. Posons N = ∪k Bk et donc P (N ) = 0. Il reste à
montrer que, ∀ω 6∈ N , la suite Xn (ω) converge vers X(ω). En effet, considérons ω 6∈ N et choisissons
un ² > 0 et un entier k > 1/², alors il n’existe qu’un nombre fini d’indices n t.q. |X n (ω) − X(ω)| ≥ 1/k
et donc a fortiori t.q. |Xn (ω) − X(ω)| ≥ ². Ce qui signifie que, pour tout ² et à partir d’un certain rang,
|Xn (ω) − X(ω)| < ² et donc Xn (ω) converge vers X(ω).
Les deux lemmes suivants peuvent être utilisés pour démontrer la convergence presque sûre ou l’absence de
convergence presque sûre.
P+∞
Lemme 3.1 (Borel-Cantelli) Soit An une suite d’événements telle que k=1 P (An ) < +∞, alors
P (lim sup An ) = 0.
+∞
P∞ P (lim sup An ) = limn P (∪k=n Ak ). En utilisant la borne de l’union, il vient P (lim sup An ) ≤
En effet
limn k=n P (Ak ). Mais, par hypothèse, cette limite vaut zéro.
P+∞
Lemme 3.2 (Borel-Cantelli) Soit An une suite d’événements indépendants telle que k=1 P (An ) = +∞,
alors P (lim sup An ) = 1.

En effet

P (lim sup An ) = lim P (∪+∞ +∞

k=n Ak ) = 1 − lim P (∩k=n Āk )
n n
+∞
Y
= 1 − lim P (Āk ) (indépendance des Ak )
n
k=n
+∞
Y
= 1 − lim (1 − P (Ak )) = 1
n
k=n
P∞
La dernière égalité vient du résultat suivant : pour une suite uk ∈ (0, 1), si k=n uk → +∞ quand n → ∞,
Q+∞ Q+∞ Q+∞ P∞
alors k=n (1 − uk ) → 0. En effet k=n (1 − uk ) ≤ k=n exp(−un ) = exp(− k=n uk ) → 0.

Théorème 3.3 (CS de convergence p.s.) Soit Xn une suite de variables aléatoires et X une variable
aléatoire, toutes définies sur le même espace de probabilité (Ω, F, P ). On note A n (²) la suite d’événements
définis par :
An (²) = {ω ∈ Ω : |Xn (ω) − X(ω)| ≥ ²}
P+∞
Si, pour tout ² > 0, k=1 P (An (²)) < +∞, alors Xn →p.s. X.

D’après le premier lemme de Borel-Cantelli et le théorème 3.2, Xn →p.s. X.

Théorème 3.4 (autre CS de convergence p.s.) Soit Xn une suite de variables P+∞ aléatoires et Xª une va-
riable aléatoire, toutes définies sur le même espace de probabilité (Ω, F, P ). Si n=1 E |Xn − X|2 < +∞,
©

alors Xn →p.s. X.
2
Posons Tn = |Xn − X|√ . D’après l’inégalité de Markov, pour tout δ > 0, P (Tn ≥ δ)© ≤ E {Tn } /δ.ª On en
2 2
déduit, en posant ² = ©δ, que, pour tout ² > 0, P (A n (²)) = P (|X n − X| ≥ ²) ≤ E |X n − X| /² . Par
conséquent, si la série E |Xn − X|2 converge, alors la série P (An (²)) converge aussi.
ª

31
3.1.3 Convergence en probabilité
Définition 3.3 Soit Xn une suite de variables aléatoires et X une variable aléatoire, toutes définies sur le
même espace de probabilité (Ω, F, P ). On note An (²) la suite d’événements définis par :

An (²) = {ω ∈ Ω : |Xn (ω) − X(ω)| ≥ ²}

Si, pour tout ² > 0, P (An (²)) → 0 quand n → +∞, on dit que Xn converge en probabilité vers X que l’on
note
X n →P X

Pour établir la convergence en probabilité, une façon de faire est d’utiliser l’inégalité de Tchebyschev. Voyons
un exemple.

Exemple 3.1 Soit Xn une suite de variables aléatoires indépendantes, de même moyenne m et de même
variance σ 2 . On pose Tn = (X1 + · · · + Xn )/n. Un calcul élémentaire montre que E {Tn } = m et que
var(Tn ) = σ 2 /n. D’après l’inégalité de Tchebyschev, ∀² > 0, P (|Tn − E {Tn } | ≥ ²) ≤ var(Tn )/²2 . En
remplaçant on a :
σ2
P (|Tn − m| ≥ ²) ≤ 2
n²
qui montre la convergence en probabilité de Tn vers m.

Le théorème 3.3 illustre d’une certaine façon la différence entre la convergence p.s. et la convergence en
probabilité. Soit Xn une suite de variables aléatoires indépendantes à valeurs dans {0, 1} avec P (X n = 1) =
1/n. On a alors, ∀² > 0, P (|Xn − 0| ≥ ²) = P (Xn = 1) = 1/n qui tend vers 0 quand n tend vers l’infini.
Et donc Xn →P 0. Mais, puisque les Xn sont indépendants, la suite An (²) = {ω t.q. |Xn (ω) − 0| ≥ ²}
est indépendante. Et d’après le théorème 3.3 P (lim sup An (²)) = 1 et donc d’après le théorème 3.2 Xn ne
converge pas presque sûrement vers 0.

Vecteur aléatoire de dimension finie

Nous avons jusqu’ici considéré que des suites de variables aléatoires. Dans le cas des vecteurs aléatoires
de dimension finie d, les définitions sont identiques, sauf qu’il faut envisager unePnorme 1 . Comme elles sont
d
toutes équivalentes (en dimension finie), on peut prendre kXn (ω) − X(ω)k = j=1 |Xnj (ω) − X j (ω)|2 où
2

X j désigne la j-ème composante de X.

On a alors la définition suivante :

Définition 3.4 Soit Xn une suite de vecteurs aléatoires de dimension finie d et X un vecteur aléatoire
de dimension finie d, tous définis sur le même espace de probabilité (Ω, F, P ). On note A n (²) la suite
d’événements définis par :
An (²) = {ω ∈ Ω : kXn (ω) − X(ω)k ≥ ²}
Si, pour tout ² > 0, P (An (²)) → 0 quand n → +∞, on dit que Xn converge en probabilité vers X que l’on
note
X n →P X

Lemme 3.3 (CNS composante par composante) Xn →P X si et seulement si Xnj →P X j pour tout
j = 1, · · · , d.

CN Si |Xnj (ω)−X j (ω)|2 ≥ ² alors kXn (ω)−X(ω)k2 ≥ ². Par conséquent An (²) = {ω t.q. kXn (ω)−X(ω)k2 ≥
²} ⊇ Ajn (²) = {ω t.q. kXnj (ω) − X j (ω)k2 ≥ ²}. Et donc P (Ajn (²)) ≤ P (An (²)).
CS Si kXn (ω) − X(ω)k2 ≥ ² alors il existe j tel que |Xnj (ω) − X j (ω)|2 ≥ ²/d. Par conséquent An (²) =
{ω t.q. kXn (ω)−X(ω)k2 ≥ ²} ⊆ ∪dj=1 {ω t.q. kXnj (ω)−X j (ω)k2 ≥ ²/d}. Avec une notation évidente et
Pd
en utilisant la borne de l’union, P (An (²)) ≤ j=1 P (Ajn (²/d)). Si ∀j, Xnj →P X j , alors P (Ajn (²/d)) → 0
et donc P (An (²)) → 0.
1 il s’agit dans ce paragraphe de norme portant sur des valeurs déterministes, contrairement à la notation introduite au

pragraphe suivant qui porte sur des espérances mathématiques de variables aléatoire.

32
3.1.4 Convergence en moyenne d’ordre q
On admettra le théorème suivant.

Théorème 3.5 Soit (Ω, F, P ) un espace de probabilité et soit Lr (Ω, F, P ) l’ensemble des variables aléatoires
telles que kXkr = (E {|Xn |r })1/r < +∞. Alors Lr (Ω, F, P ) est un espace de Banach (complet) pour la norme
définie par kXkr .
En particulier pour r = 2,

Théorème 3.6 Soit©(Ω, F,ªP ) un espace de probabilité et soit L2 (Ω, F, P ) l’ensemble des variables aléatoires
telles que kXk22 = E |Xn |2 < +∞. Alors L2 (Ω, F, P ) est un espace de Hilbert pour pour la norme définie
par kXk2 qui dérive du produit scalaire E {XY }.

Théorème 3.7 ∀r < s, Lr (Ω, F, P ) ⊃ Ls (Ω, F, P ).

Il suffit d’appliquer l’inégalité de Jensen à la fonction g : u 7→ us/r qui est convexe pour s/r > 1.

Théorème 3.8 (Inégalité de Jensen) Soit (Ω, F, P ) un espace de probabilité et X une variable aléatoire
définie sur Ω. Si g est une fonction convexe de Rd dans R, alors g(E {X}) ≤ E {g(X}).

Théorème 3.9 (Inégalité triangulaire) Pour tout r on a :

|kXkr − kY kr | ≤ kX − Y kr ≤ kXkr + kY kr

Théorème 3.10 (Inégalité de Hölder) Pour tout couple (r, s) tel que 1/r + 1/s = 1 on a :

|E {XY } | ≤ kXkr kY ks

Définition 3.5 Soit Xn une suite de variables aléatoires et X une variable aléatoire, toutes appartenant à
Lr (Ω, F, P ). On dit que Xn converge en moyenne d’ordre r vers X si et seulement si :

E {|Xn − X|r } −→n→+∞ 0

Lorsque r = 2, on parle alors de convergence en moyenne quadratique que nous notons X → m.q. X.

Théorème 3.11 Soit Xn une suite de variables aléatoires et X une variable aléatoire, toutes appartenant
à Lr (Ω, F, P ). Si Xn converge en moyenne d’ordre r c’est-à-dire :

E {|Xn − X|r } −→n→+∞ 0

alors
E {|Xn |r } −→n→+∞ E {|X|r }
Il suffit d’appliquer l’inégalité triangulaire.

Exemple 3.2 Soit Xn une suite de variables aléatoires indépendantes, de même moyenne m et de même
variance σ 2 . On pose Tn = (X1 + · · · + Xn )/n. Un calcul élémentaire montre que E {Tn } = m et que
var(Tn ) = σ 2 /n, qui montre que E|Tn − m|2 tend vers 0 et donc que Tn converge en m.q. vers m.

Vecteur aléatoire de dimension finie

On peut généraliser les résultats précédents à des vecteurs aléatoires de dimension finie d, en considérant
la norme :
Ã d !1/r
X £
j r
¤
kXkr = E |X |
k=1
j
où X désigne la j–ème composante de X. En particulier pour r = 2, on a :

où X H désigne le vecteur transposé–conjugué de X. Dans ce cas E X H Y est un produit scalaire.

33
Définition 3.6 Soit Xn une suite de vecteurs aléatoires de dimension d et X un vecteur aléatoire de di-
mension d, toutes appartenant à Lr (Ω, F, P ). On dit que Xn converge en moyenne d’ordre r vers X si et
seulement si :
E {kXn − Xkr } −→n→+∞ 0
Ce qui est équivalent à :

3.1.5 Convergence en loi

Définition 3.7 (convergence de mesures) Soit {Xn }n∈N et X des vecteurs aléatoires, de dimension d,
définis sur des espaces mesurables quelconques. On note Pn et P leurs lois de probabilités respectives. On dit
que Xn tend en loi vers X si et seulement si, pour toute fonction continue bornée f de R d dans R, on a :

E {f (Xn )} −→n→+∞ E {f (X)} (3.1)

On note Xn →L X.
Il est à noter que 3.1 s’écrit :
Z Z
f (x)Pn (dx) −→n→+∞ f (x)P (dx)
Rd Rd

Il s’agit donc à proprement parler de convergence d’une suite de mesures. Il n’y a donc pas besoin de
considérer des variables aléatoires ni même que les mesures soient définies sur les mêmes espaces mesurables.
Que se passe-t-il si les fonctions ne sont pas continues tout en restant bornées ? Comme c’est le cas des
fonctions indicatrices. Le théorème suivant donne une réponse.

Théorème 3.12 Soit Xn une suite de vecteurs aléatoires qui converge en loi vers X. Alors pour toute
fonction f bornée qui vérifie :

PX {x ∈ Rd t.q. f n’est pas continue en x} = 0

¡ ¢

on a :
E {f (Xn )} −→n→+∞ E {f (X)}
Ce résultat peut être appliqué aux fonctions indicatrices. En particulier on a :

Théorème 3.13 (convergence des fonctions de répartition) Soit Xn une suite de variables aléatoires
qui converge en loi vers X. On note FXn (x) et FX (x) les fonctions de répartition respectives. Alors on a :

FXn (x) −→n→+∞ FX (x)

en tout point de continuité de la FX (x).

Il suffit de considérer la fonction bornée f (x) = 11]−∞,a] (x).

Exemple 3.3 On considère une suite de variables aléatoires Xn de loi uniforme sur {0, · · · , n−1
n }. On en
déduit que :

 0 si x<0
FXn (x) = P (Xn ≤ x) = (1 + bnxc)/n si 0≤x<1
1 si x≥1


où buc désigne la partie entière de u. On vérifie aisément FXn (x) tend, pour tout x, vers FX (x) = x11[0,1[ (x)
qui est la fonction de répartition de la loi uniforme sur (0, 1). par conséquent X n tend en loi vers la loi
uniforme.

Théorème 3.14 (fondamental) Soit Xn une suite de vecteurs aléatoires de dimension d et X un autre
vecteur aléatoire de dimension d. On note µ̂Xn (ξ) et µ̂X (ξ) leurs suites de fonctions caractéristiques respec-
tives. Alors Xn converge en loi vers X si et seulement si, pour tout ξ ∈ Rd , µ̂Xn (ξ) converge simplement
vers µ̂X (ξ).

34
Exemple 3.4 Soit une suite Xn de variables aléatoires, gaussiennes de moyenne mn et de variance σn2 et
X une autre variable aléatoire gaussienne de moyenne m et de variance σ 2 . On suppose que mn → m et que
σn2 → σ 2 . Alors Xn →L X. En effet
1
µ̂Xn (ξ) = exp(jmn ξ − σn2 ξ 2 )
2
qui, d’après la continuité de la loi exponentielle, converge point par point vers la fonction caractéristique de
X.

Lemme 3.4 Soit Xn une suite de vecteurs aléatoires de dimension d et X un autre vecteur aléatoire de
dimension d. On note Xnj et X j leurs composantes respectives. On a alors :

Xn →L X ⇒ Xnj →L X j

En effet il suffit d’écrire la convergence simple de la fonction caractéristique de X n au point ξ =

(0, · · · , 0, ξ j , 0, · · · , 0).
La réciproque n’a pas de sens. Considérons, par exemple, deux variables aléatoires X n →L X et Yn →L Y .
Que peut-on dire de la loi conjointe de (Xn , Yn ) ? Rien, sauf si on suppose en plus que Xn et Yn sont
indépendantes. Dans ce cas, le théorème fondamental montre que (Xn , Yn ) →L (X, Y ).

Théorème 3.15 (CNS de Cramer–Wold) Soit Xn une suite de vecteurs aléatoires de dimension d et X
un autre vecteur aléatoire de dimension d.

X n →L X ⇔ ∀λ ∈ Rd λ T X n →L λ T X

Il suffit de vérifier que, pour tout λ la variable aléatoire Yn = λT Xn converge en loi vers Y = λT X.

3.2 Hiérarchie des convergences

Théorème 3.16 (hiérarchie) On a les implications suivantes :
– la convergence presque sûre entraı̂ne la convergence en probabilité,
– la convergence en moyenne quadratique entraı̂ne la convergence en probabilité,
– la convergence en probabilité entraı̂ne la convergence en loi.
p.s.
&
P → L
%
moyenne d’ordre r

– (propriété 1) Xn →p.s. X ⇔ ∀² > 0 on a P (lim sup An (²)) = 0, où An (²) = {ω : |Xn − X| ≥ ²}. Mais
P (lim sup An (²)) = limn P (∪k≥n Ak (²)) ≥ P (An (²)) et donc P (An (²)) tend vers 0.
– (propriété 2) Posons Tn = |Xn − X|r . D’après l’inégalité de Markov, pour tout δ > 0, P (Tn ≥ δ) ≤
E {Tn } /δ. On en déduit que, pour tout ² > 0, P (|Xn − X| ≥ ²) ≤ E {kXn − Xkr } /²r . Par conséquent,
si E {kXn − Xkr } tend vers 0, P (kXn − Xk ≥ ²) tend aussi vers 0.
– (propriété 3) à admettre.

Théorème 3.17 Soit une suite Xn de variables aléatoires et a une constante (variable aléatoire de variance
nulle). Si Xn converge en loi vers a, alors Xn converge en probabilité vers a.

Xn →L a(constante) ⇒ X n →P a

La convergence en loi dit que la suite des fonctions de répartition FXn (x) converge vers la fonction FX (x) =
11[a,+∞[ (x) sauf éventuellement en a (point de discontinuité). En particulier, pour tout ² > 0, P (X n <
a + ²) → 1 et P (Xn ≤ a − ²) → 0. Par conséquent P (|Xn − a| < ²) = P (a − ² < Xn < a + ²) = P (Xn <
a + ²) − P (Xn ≤ a − ²) qui tend vers 1. En définitif P (|Xn − a| ≥ ²) tend vers 0.

35
Exemple 3.5 (Convergence en probabilité 6⇒ convergence p.s.) Soit Xn une suite de variables
aléatoires indépendantes, à valeurs dans {0, 1}) et telles que P (X n = 0) = 1 − 1/n et P (Xn = 1) = 1/n.
Pour tout ² > 0, P (|Xn − 0| ≥ ²) = P (Xn = 1) = 1/n. Par conséquent Xn →P 0. Par, contre d’après le
lemme 3.2, Xn ne converge pas presque sûrement vers 0, puisque la série 1/n diverge.

Attention : les convergences pour des variables aléatoires n’entraı̂nent pas a priori la convergence des
moments ni de tout autre espérance portant sur des fonctions non continues ou des fonctions non bornées.
Plus précisément, on retiendra que :

Exemple 3.6 Soit Xn une suite de variables aléatoires à valeurs dans {0, n3 }) et telles que P (Xn = 0) =
1 − 1/n2 et P (Xn = n3 ) = 1/n2 . Pour tout ² > 0, P (|Xn − 0| ≥ ²) = P (Xn = n3 ) = 1/n2 . D’après le
théorème 3.3, Xn →p.s. 0. Par contre E {Xn } = n qui tend vers l’infini.

Théorème 3.18 (continuité) Pour toute fonction continue f de Rd dans Rk , on a :

Xn →p.s. X ⇒ f (Xn ) →p.s. f (X)

X n →P X ⇒ f (Xn ) →P f (X)
X n →L X ⇒ f (Xn ) →L f (X)

Pour la convergence en moyenne d’ordre r, ce résultat est a priori faux.

Théorème 3.19 (composition des convergences)

½ µ ¶ µ ¶
X n →L X Xn X
Si ⇒ →L
Yn →P a (constante) Yn a

3.3 Comportement asymptotique

Théorème 3.20 (loi faible des grands nombres) Soit Xn = (Xn1 , · · · , Xnd ) une suite de vecteurs
j
aléatoires
n o de dimension d indépendants et identiquement distribués. On suppose que, pour tout j, µ =
j
E X1 < +∞. On note µ le vecteur–moyenne µ = (µ1 , · · · , µd ). On suppose de plus que, pour tout j,
E[|X1j |2 ] < +∞. Alors :
n
1X
X k →P µ
n
k=1

Théorème 3.21 (théorème de la limite centrale) Soit Xn = (Xn1 , · · · , Xnd ) une suite de vecteurs
j
aléatoires
n o de dimension d indépendants et identiquement distribués. On suppose que, pour tout j, µ =
j 1 d
E X1 < +∞. On note µ le vecteur–moyenne µ = (µ , · · · , µ ). On suppose de plus que, pour tout j,
E[|X1j |2 ] < +∞. On note C = cov(X1 ) la matrice de covariance du vecteur aléatoire X1 . Alors :
Ã n !
√ 1X
n Xk − µ →L N (0, C)
n
k=1

où N (0, C) désigne la loi d’un vecteur gaussien de dimension d, centré, de matrice de covariance C.

On rappelle que µ est un vecteur de dimension d et C est une matrice de dimension d × d non négative. En
utilisant l’inégalité de Schwarz, on vérifie que si pour tout j E[|X1j |2 ] < +∞, alors pour tout couple (j, k)
on a E[X1j X2k ] < +∞
En particulier le cas d = 1 s’écrit :

36
Théorème 3.22 (théorème de la limite centrale) Soit Xn une suite de variables aléatoires
indépendantes et identiquement distribuées. On suppose que, µ = E {X 1 } < +∞ et que E[|X12 ] < +∞. On
note σ 2 = E[|X12 ] − |µ|2 . Alors :
Ã n !
√ 1X
n Xk − µ →L N (0, σ 2 )
n
k=1

où N (0, σ 2 ) désigne la loi d’une variable aléatoire gaussienne, centrée, de variance σ 2 .

En utilisant le théorème 3.18 on obtient le résultat suivant.

Théorème 3.23 (limite centrale par continuité) Soit Sn une suite de vecteurs aléatoires de dimension
d qui vérifie :
√
n (Sn − m) →L N (0, C)

et soit f (s) = [f (s1 , · · · , sd ) · · · fk (s1 , · · · , sd )]T une transformation vectorielle de Rd dans Rk , supposée deux
fois différentiable au point m. Alors
√
n (f (Sn ) − f (m)) →L N (0, Γ)

La matrice Γ, de dimension k × k, a pour expression Γ = J T CJ où

∂f1 ∂fk
···
 
∂s1 ∂s1
J =
 .. .. 
. . 
∂f1 ∂fk
∂sd ··· ∂sd

est le Jacobien de la transformation f .

3.4 Exercices
Exercice 3.1 (loi faible des grands nombres) Soit (Z1 , Z2 , · · · , Zn ) une suite
Pnde n variables aléatoires
indépendantes, de même loi, de moyenne m et de variance σ 2 . On pose Tn = n1 i=1 Zi . Montrer que :

σ2
P (|Tn − m| ≥ ²) ≤
n²2
qui signifie que la moyenne “empirique” Tn tend en probabilité vers m.
Indication : appliquer l’inégalité de Tchebychev à la variable aléatoire T .

Exercice 3.2 (lemmes de Borel-Cantelli) Soit {An }n≥1 une suite d’événements sur (Ω, F). On rappelle
que la limite supérieure de cette suite est définie par lim sup A n = ∩n≥1 ∪+∞
k=n Ak .
P
1. Montrer que n≥1 P (An ) < +∞ ⇒ P (lim sup An ) = 0.
Indication : utiliser P (lim sup An ) = limn ∪+∞ +∞
k=n Ak et P (∪k=n Ak ) ≤ P (An ).

P suppose de plus que les éléments de la suite {An }n≥1 sont indépendants. Montrer que
2. On
n≥1 P (An ) = +∞ ⇒ P (lim sup An ) = 1.
Q+∞
Indication : montrer que P (∪+∞
k=n Ak ) = 1 − k=n (1 − P (Ak )).

Exercice 3.3 (en probabilité et p.s.) On considère une suite de variables aléatoires de Bernoulli (à va-
leurs dans {0, 1}) indépendantes. On suppose que P (Xn = 1) = 1/n. On pose, pour ² > 0, An (²) = {ω ∈ Ω :
|Xn (ω)| ≥ ²).
1. Déterminer l’expression de P (An (²)).
Réponse : P (An (²)) = 1/n.
2. En déduire que Xn converge en probabilité vers 0.
Indication : P (An (²)) = P (|Xn − 0| > ²).

37
3. Montrer que Xn ne converge pas presque sûrement vers 0.
Indication : second lemme de Borel-Cantelli.

Exercice 3.4 (loi forte des grands nombres) Soit {Sn }n≥1 et S des variables aléatoires définies sur le
même espace de probabilité (Ω, F, P ). On dit que Sn converge presque sûrement (p.s.) vers S, ssi il existe
un événement N ∈ F tel que P (N ) = 0 et tel que ∀ω ∈ N , limn→+∞ Sn (ω) 6= S(ω).
On rappelle un critère de convergence presque sûre : Soit A n (²) = {ω ∈ Ω : |Sn (ω) − S(ω)| ≥ ²}. Sn
converge p.s.vers S si et seulement si ∀² > 0 P (lim sup An (²)) = 0.
Soit Xn une suite de variables aléatoires indépendantes, centrées, telles que c = sup i E Xi4 < +∞. On
© ª

2. Déterminer un majorant de E Sn4 en fonction de c et de n.

© ª
© ª √ 4
Indication : montrer
© 4 ª que E Xi2 ≤ c puis développer E {(X1 + · · · + Xn } ) et utiliser que E {Xi } = 0.
Réponse : E Sn < n2 c.
3. En utilisant le premier lemme de Borel-Cantelli, montrer que S n /n tend p.s. vers 0.

Exercice 3.5 (continuité) On considère une suite de vecteurs aléatoires X n et un vecteur aléatoire X
de (Ω, F, P ) dans Rd tels que Xn →P X et soit f une fonction continue de Rd dans Rk . Montrer que
f (Xn ) →P f (X).
Indication : introduire un nombre A > 0 et montrer que P (kf (X n ) − f (x)k ≥ ²) ≤ P (kf (Xn ) − f (X)k ≥
², kXk ≤ A, kXn k ≤ A) + P ({kXk > A} ∪ {kXn k > A}). En utilisant la continuité uniforme de f sur
{x : kxk ≤ A}, déduire le résultat.

Exercice 3.6 (processus MA-1) On considère une suite de variables aléatoires W n , n ≥ 1, indépendantes
2
de même loi gaussienne, centrée, de variance σw . On pose :
½
X1 = W 1
Xn = aWn + Wn−1 pour n ≥ 2

1. Déterminer la loi de probabilité de (X1 , · · · , Xn ).

Indication : on passe de (W1 , · · · , Wn ) à (X1 , · · · , Xn ) par une transformation linéaire.
2. Déterminer la loi de probabilité de Xn .© ª
Réponse : pour n ≥ 2, E {Xn } = 0 et E Xn2 = E[(aWn +Wn−1 )(aWn +Wn−1 )] = σw 2
(1+a2 ). Comme
Xn est linéaire par rapport√à la suite gaussienne Wn , Xn est gaussienne. On en déduit que sa loi a
pour densité pXn (x) = (σn 2π)−1 exp(−x2 /2σn2 ) avec σn2 = σw
2
(1 + a2 ), indépendante de n.

Exercice 3.7 (AR-1 stationnaire) On considère une suite de variables aléatoires W n , n ∈ Z,

2
PN
indépendantes de même loi gaussienne, centrée, de variance σ w . On considère XN (n) = k=0 ak W (n − k).
On suppose que |a| < 1.
1. Montrer que XN (n) est de carré sommable, c’est-à-dire E |XN (n)|2 < +∞.
© ª

2. Montrer que, quand N tend vers l’infini, XN (n) converge en moyenne quadratique vers une variable
aléatoire X(n).
3. Déterminer la loi de X(n).
Réponse : X(n) est gaussienne, centrée de variance σ 2 /(1−a2 ). On remarque que la loi est indépendante
de n. On dit que X(n) est stationnaire.
4. Montrer X(n) est solution de l’équation récurrente :

Xn = aXn−1 + Wn (3.2)

Exercice 3.8 (processus AR-1) On considère une suite de variables aléatoires W n , n ≥ 1, indépendantes
2
de même loi gaussienne, centrée, de variance σw . On pose :
½
X1 = W 1
Xn = aXn−1 + Wn pour n ≥ 2

On suppose que |a| < 1.

38
1. Déterminer l’expression de Xn en fonction de Wn , Wn − 1, · · · .
Réponse : Xn = Wn + aWn−1 + · · · + an−1 W1 .
2. Déterminer la loi de probabilité de (X1 , · · · , Xn ).
Indication : on passe de (W1 , · · · , Wn ) à (X1 , · · · , Xn ) par une transformation linéaire.
3. Déterminer la loi de probabilité
√ de Xn .
Réponse : pXn (x) = (σn 2π)−1 exp(−x2 /2σn2 ) avec σn2 = σw
2
(1 − a2n )/(1 − a2 ).
4. Montrer que Xn converge en moyenne quadratique vers une variable aléatoire dont on déterminera la
loi.
Indication : il suffit de montrer que E Xn2 < +∞ et que la suite Xn est une suite de Cauchy.
© ª
2
Réponse : Xn →m.q. X, où X est une variable aléatoire gaussienne, centrée, de variance σ w /(1 − a2 ).

Exercice 3.9 (loi des événements rares) On considère un système comportant n particules. On note
pn la probabilité pour que l’une de ces n particules soit détruite. On suppose que ces événements sont
indépendants les uns des autres. On note X la variable aléatoire représentant le nombre de particules
détruites.
1. Déterminer la probabilité pour que X = k. En déduire la fonction caractéristique de la loi de probabilité
de X.
2. On suppose que pn = λ/n, où λ désigne une constante. Par conséquent limn→+∞ pn = 0 (événement
rare). En faisant tendre n vers l’infini, montrer que le nombre X de particules détruites tend en loi
vers une loi de Poisson de paramètre λ.

Exercice 3.10 On veut mettre à profit la loi des grands nombres pour estimer l’intégrale p = Q(γ) avec
R +∞ 2 √
Q(x) = x e−t /2 dt/ 2π.
Pour cela on considère, tout d’abord, une suite de variables aléatoires X i , i ∈ {1, · · · , n} indépendantes,
gaussiennes, centrées de variance 1 et on note Bi = 11(Xi > γ).
On considère une autre suite de variables aléatoires Yi , i ∈ {1, · · · , n} indépendantes, gaussiennes, de
moyenne γ et de variance 1 et on note Wi = exp(−γYi + γ 2 /2)11(Yi > γ) (noter que pour Yi > γ, Wi < 1.
1. Déterminer E {Bi }, var(Bi ), E {Wi } et var(Wi ).
2. Pour estimer la valeur de p, on considère p̂1 = n1 i Bi . En utilisant le théorème de la limite centrale,
P
déterminer n qui donne, avec un niveau de confiance de α = 95%, p avec une précision de ² r = 10%.
3. Pour estimer la valeur de p, on considère p̂2 = n1 i Wi . En utilisant le théorème de la limite centrale,
P
déterminer n qui donne, avec un niveau de confiance de 95%, p avec une précision de 10%.
4. Conclure.
2
Réponse : E {B1 } = p et var(B1 ) = p(1 − p) et E {W1 } = p et E W12 = Q(2γ)eγ .
© ª
√ p
Le théorème de la limite centrale dit que, pour un estimateur p̂, sans biais, n vérifie 2Q(² r np var(p̂)) =
1 − α.
Pour comparer p̂1 et p̂2 , on peut faire le rapport des 2 variances :

Q(2γ) exp(γ 2 ) − p2
G(p) =
p(1 − p)

avec p = Q(γ). Une application numérique montre que, pour γ = 5, G(p) ' 7 × 10 10 .

Exercice 3.11 (erreur d’arrondi) On suppose que dans un programme de calcul on arrondit chaque
opération après le J-ème chiffre décimal. On effectue n opérations et on suppose que les erreurs sont
additives, indépendantes et de loi uniforme sur (−10−J /2, 10−J /2). Si on note X l’erreur finale, on a
X = Y1 + · · · + Yn avec Yi sont n variables aléatoires indépendantes de densité de probabilité p Yi (y) =
1 −J
q 11(y ∈ (−q/2, q/2) où q = 10 .
1. Déterminer E {Yi } et var(Yi ).
Réponse : E {Yi } = 0 et var(Yi ) = q 2 /12.
2. En utilisant le théorème de la limite centrale (pour n grand), donner un intervalle de confiance à 95%
R +∞ 2 √
pour l’erreur sur le résultat final. On donne 2Q(1.96) = 0.05 où Q(x) = x e−t /2 dt/ 2π.
Réponse : il y a 95% de chance pour que − 21.96√ q ≤ X ≤ 1.96
3
√ q.
2 3

39
Exercice 3.12 (échec à un examen) 100 élèves se présentent à un examen avec la même probabilité de
réussite de 0, 9. On admet que les élèves réussissent indépendamment les uns des autres. Calculer la proba-
bilité que le nombre d’échecs soit inférieur ou égal à 15.

Exercice 3.13 (calcul de π) On note :

ZZ
I= dudv = π/4
{(x,y)∈R+2 :x2 +y 2 =1}

Soit (Uk , Vk ) deux suites aléatoires indépendantes de loi uniforme sur (0, 1). On note Y k = 11{(0,1)} (Uk2 + Vk2 )
et Jn = (Y1 + · · · + Yn )/n.
1. Déterminer la loi de Yk . En déduire E {Yk } et var(Yk ).
2. Déterminer la loi de (Y1 + · · · + Yn ).
3. Déterminer la loi de Jn . En déduire E {Jn } et var(Jn )
4. En appliquant le théorème de la limite centrale, déterminer un intervalle de confiance à 99% de π. En
déduire n qui assure avec 99% de chances d’obtenir π à moins de 1%.

Exercice 3.14 (intervalle de confiance de la moyenne) Soient {X1 , X2 , · · · , Xn } n variables

aléatoires indépendantes, de même loi, de moyenne m et de variance σ 2 . On note :
n n
1X 1X
Vn = (Xj − Tn )2 Tn = Xj
n j=1 n j=1

Tn s’appelle la moyenne empirique et Vn la variance empirique.

1. Vérifier que :
n
1X 2
Vn = X − Tn2
n j=1 j

2. Montrer que pour Un tend en probabilité vers σ 2 .

√
3. Montrer que n(Tn − m)/σ tend en loi vers N (0, 1).
4. On suppose que σ est connu. En déduire, pour n suffisamment grand, un intervalle de confiance pour
m.
5. On suppose à présent que σ est inconnu. Déterminer la loi limite de :
√
n(Tn − m)
√
Vn
En déduire, pour n suffisamment grand, un intervalle de confiance pour m.

Exercice 3.15 (loi de Cauchy) On considère Xk une suite de variables aléatoires indépendantes, identi-
quement distribuées suivant une loi de Cauchy. On rappelle que cette loi a pour densité :
1 1
pX (x) =
π 1 + x2
et pour fonction caractéristique :

µ̂X (ξ) = exp(−|ξ|)

On pose Sn = X1 + · · · + Xn . Etudier les convergences des suites :

Sn Sn Sn
Tn = , Vn = et Wn = √
n n2 n

Exercice 3.16 On considère deux suites de variables aléatoires Xn et Yn telles Xn →L X et Yn →L Y . On

suppose que, pour tout n, Xn et Yn sont indépendantes. Montrer que (Xn + Yn ) →L (X + Y ) où X et Y
sont indépendantes.

40
Exercice 3.17 (Compression de source) Soit Xn une suite de variables aléatoires, indépendantes,
discrètes à valeurs dans l’ensemble (alphabet) fini A = {a1 , a2 , · · · , aL }, de même loi. On note pi = P (Xn =
PL
ai ) ≥ 0 avec i=1 pi = 1.
On note PX la loi de probabilité de X1 , · · · , XN sur AN , définie par la mesure des singletons PX (x) =
P (X1 = x1 , · · · , XN = xN ), où x = (x1 , x2 , · · · , xN ) est un point de AN .
PL PN
1. Déterminer l’expression de log 2 (PX (x)). (réponse : log2 (PX (x)) = j=1 n=1 11(xn = aj ) log2 (pj ))
2. entropie PL
A la variable aléatoire Xn on associe la variable aléatoire Yn = j=1 log2 (pj )11(Xn = aj ) (c’est-à-dire
Yn prend la valeur log2 (pj ) si Xn = aj ). On pose SN = Y1 + · · · + YN .
On appelle entropie de la suite la quantité H = − limN N1 E {SN }.
P
(a) Montrer que H = − i pi log2 (pi ) avec par convention 0 × log2 (0) = 0. (réponse : H = −E {Y1 }
car les Yn sont de même loi).
P P
(b) On considère la suite {qi ≥ 0} où i ∈ {1, · · · , L} avec i qi = 1. Montrer que H ≤ − i pi log(qi )
(utiliser la convexité de la fonction log).
(c) En déduire que H ≤ log2 (L), l’égalité ayant lieu si et seulement si pi = 1/L pour tout i.
(d) Montrer que la variable aléatoire −SN /N tend en probabilité vers H. (appliquer le loi des grands
nombres).
3. ensemble typique
On appelle ensemble typique, l’ensemble défini pour tout ² > 0 par :
n o
AN (²) = x ∈ AN t.q. 2−N (H+²) ≤ PX (x) ≤ 2−N (H−²)

(a) Montrer que pour tout ² > 0, il existe K tel que pour tout N ≥ K, PX (AN (²)) > 1 − ².
(b) card(AN (²)) ≤ 2N (H+²) .
(c) Montrer que pour tout ² > 0, il existe K tel que pour tout N ≥ K, card(A N (²)) ≥ (1 − ²)2N (H−²) .
4. Compression
On note bac la partie entière de a.
On code les suites de N lettres construit à partir de l’alphabet A (texte de longueur N ) de la façon
suivante :
– les éléments de AN (²) sont codés avec bN (H +²)c+1 bits précédés du bit 0, soit au total bN (H +²)c+2
bits.
– les éléments du complémentaire de AN (²) sont codés avec bN log2 (L)c + 1 bits, précédés du bit 1,
soit au total bN log2 (L)c + 2 bits.
On note λ(X) la longueur (en bits) du mot-code associé au texte X = (X 1 , · · · , XN ) comportant N
lettres et L̄ = E {λ(X)} /N le nombre moyen de bits utilisés pour coder une lettre de l’alphabet A.
Montrer que pour tout ² > 0, il existe K tel que, pour tout N > K, L̄ ≤ H + ².
Le résultat obtenu signifie que le nombre moyen de bits, utilisés pour coder une lettre de l’alphabet A,
peut être rendu aussi proche que l’on veut de H, alors qu’a priori on aurait pris blog 2 (L)c + 1 bits pour coder
chaque lettre de A. H représente donc la limite ultime de compression. Si H < log 2 (L) il y a un gain. Ce
gain est nul si la loi de X est uniforme puisque dans ce cas H = log 2 (L). Ce résultat montre de plus que,
pour s’approcher de l’entropie, il faut coder de longue suites de lettres.

41
Chapitre 4

Régression linéaire et espérance

conditionnelle

4.1 Régression affine et espérance conditionnelle

Toutes les variables considérées dans ce paragraphe sont supposées définies sur un même espace probabilisé
(Ω, A, P ) et à valeurs complexes. Une variable aléatoire complexe X se définit simplement au moyen de deux
variables aléatoires réelles U et V par X = U + jV . En prenant l’espérance des deux membres, on obtient
2
E[X] = E[U ]+jE[V ]. De même au second ordre on peut écrire E |X| = E[U +jV ][U −jV ] = E[U 2 ]+E[V 2 ].

2
Définition 4.1 On dit que la variable aléatoire X à valeurs complexes est de carré intégrable si E |X| <
+∞.

Théorème 4.1 Soit L2P l’espace vectoriel des variables aléatoires de carré intégrable, définies sur l’espace
de probabilité (Ω, A, P ). Muni du produit scalaire E[XY ∗ ], L2P a une structure d’espace de Hilbert.

Cette structure permet de déduire un certain nombre de propriétés importantes à partir de considérations
purement géométriques.
∗
Deux variables aléatoires
q X et Y sont dites orthogonales si et seulement si E[XY ] = 0. La norme de
2
X est définie par kXk = E |X| et la distance euclidienne entre deux éléments par d(X, Y ) = kX − Y k.
L’inégalité de Schwarz a pour expression :
2 2 2
|E[XY ∗ ]| ≤ E |X| E |Y |

où l’égalité a lieu si et seulement si X = λY .

Théorème de projection
Dans un espace de Hilbert, le théorème de projection permet d’associer à un élément quelconque de
l’espace sa meilleure approximation quadratique contenue dans un sous-espace vectoriel fermé. Nous en
donnons l’énoncé suivant.

Théorème 4.2 Soit L2P l’espace de Hilbert des variables aléatoires de carré intégrable et C un sous espace
vectoriel fermé de L2P . Alors, à toute variable aléatoire X de L2P , on peut associer un élément unique X0 de
C tel que ∀Y ∈ C on ait d(X, X0 ) ≤ d(X, Y ). Le vecteur X0 vérifie pour tout Y ∈ C la relation X − X0 ⊥ Y .

Cette relation constitue ce que l’on appelle le principe d’orthogonalité. Elle dit que l’élément de C à la
distance la plus proche de X est donné par la projection orthogonale de X sur C. En pratique c’est cette
relation qui permet de déterminer la solution X0 .
Complétons ce résultat par la valeur de l’erreur minimale. Il vient ²2min = kX − X0 k2 = E[(X − X0 )X ∗ ] −
E[(X − X0 )X0∗ ]. En vertu de l’orthogonalité, le second terme est nul et par conséquent ²2min = E[(X −
X0 )X ∗ ] = E|X|2 − E[X0 X ∗ ].

42
Partant de Y = [Y1 Y2 · · · YN ]T , ce théorème permet de déterminer la meilleure approximation de X.
En pratique Y représente l’observation et X un état inconnu, lié statistiquement à Y et que l’on souhaite
estimer à partir de Y. Suivant que l’espace sur lequel on effectue la projection est l’ensemble des combinaisons
linéaires affines de Y ou l’ensemble des fonctions g(Y) de carré intégrable, on obtient la régression affine ou
l’espérance conditionnelle.

Régression linéaire affine

X scalaire
Soit X une variable aléatoire et Y = [Y1 Y2 · · · YN ]T un vecteur aléatoire dont toutes les composantes
sont de carré intégrable. Soit C l’espace vectoriel de toutes les combinaisons linéaires affines des N variables
aléatoires (Y1 , Y2 , · · · , YN ). On note :
– mX = E[X]
– mY = [E[Y1 ] · · · E[YN ]]T ,
2
– σX = E[XX ∗ ] − |mX |2
– RY Y = E[YY H ] − mY mH Y (matrice hermitienne de dimension N × N ),
– rY X = E[YX ∗ ] − mY m∗X (vecteur de dimension N × 1).
Soit X0 = a0 + AH Y la variable aléatoire de C la plus proche de X en moyenne quadratique où AH =
[a1 a2 · · · aN ]. Le principe d’orthogonalité implique que X − X0 est orthogonal à tous les éléments de C, en
particulier aux (N + 1) variables aléatoires 1, Y1 , Y2 , · · · , YN (dans ce contexte 1 doit être considéré comme
une variable aléatoire de moyenne 1 et de variance 0). En supposant RY Y inversible, on en déduit que :

A = R−1
½
Y Y rY X (4.1)
a0 = m X − A H mY

Par conséquent :
−1
X0 = m X + r H
Y X RY Y (Y − mY )

et
−1
²2min = σX
2
− rH
Y X R Y Y rY X (4.2)

Ces résultats sont démontrés dans l’exercice 4.3. On note que (a0 , A) est solution d’un système linéaire où
n’interviennent que les moments du premier et du second ordres de la variable aléatoire à (N + 1) dimensions
(X, Y1 , · · · , YN ).

X vectoriel
Les résultats précédents s’étendent sans difficulté au cas où X est un vecteur. Il suffit d’optimiser X 0 ,
composante par composante. Soit X = [X1 X2 · · · XM ]T et Y = [Y1 Y2 · · · YN ]T deux vecteurs aléatoires
dont toutes les composantes sont de carré intégrable et soit C l’espace de toutes les combinaisons linéaires
affines des N variables aléatoires (Y1 , Y2 , · · · , YN ). On note :
– mX = E[X] et mY = E[Y],
– RXX = E[XXH ] − mX mH X (matrice de dimension M × M ),
– RY Y = E[YY H ] − mY mH Y (matrice de dimension N × N ),
– RY X = E[YXH ] − mY mH X (matrice de dimension N × M ).
En supposant que RY Y inversible, on établit que :
−1
X0 = m X + R H
Y X RY Y (Y − mY ) (4.3)

est le vecteur aléatoire de C le plus proche de X en moyenne quadratique, dans le sens où, pour tout
m ∈ {1, · · · , M }, le scalaire E[|Xm − X0m |2 ] est minimum. Le vecteur des erreurs e = X − X0 de dimension
M est centré et a pour matrice de covariance :
−1
Ree = E[eeH ] = RXX − RH
Y X RY Y RY X (4.4)

On en déduit que ²2min = E[eH e] = trace(Ree ).

43
Espérance conditionnelle
Dans les ouvrages de référence, l’espérance conditionnelle est définie pour des variables aléatoires
intégrables. Ici nous adoptons une approche différente en nous limitant aux variables aléatoires de carré
intégrable. C’est en effet cette approche qui est la plus utile dans les applications pratiques de traitement
du signal.
Soit X, Y1 , Y2 , · · · , YN , (N + 1) variables aléatoires de carré intégrable. L’espérance conditionnelle de X
sachant Y1 , · · · , YN est la meilleure approximation en moyenne quadratique de X, parmi toutes les fonctions
g(Y1 , · · · , YN ) de carré intégrable.
Pour simplifier nous supposons que la loi de probabilité conjointe de (X, Y 1 , · · · , YN ) possède une densité
que nous notons pXY (x, y1 , · · · , yN ). En appliquant le principe d’orthogonalité, on montre (voir exercice 4.1)
que la meilleure approximation est donnée par la variable aléatoire g0 (Y1 , Y2 , · · · , YN ) définie par :
Z
g0 (y1 , · · · , yN ) = xpX|Y (x; y1 , · · · , yN )dx (4.5)
R

où
pXY (x, y1 , · · · , yN )
pX|Y (x; y1 , · · · , yN ) = R
p (x, y1 , · · · , yN )dx
R XY

g0 (Y1 , Y2 , · · · , YN ) s’appelle l’espérance conditionnelle. Elle est notée habituellement E(X|Y 1 , Y2 , · · · , YN ) ou

E(X|Y).

Théorème 4.3 L’espérance conditionnelle vérifie les propriétés suivantes :

Toutes ces propriétés s’étendent sans difficulté au cas où X est un vecteur. Il suffit de considérer X, compo-
sante par composante.
Remarquons que l’espérance conditionnelle suppose la connaissance complète de la loi de probabilité
conjointe des N + 1 variables aléatoires (X, Y1 , · · · , YN ), alors que la régression linéaire ne suppose que la
connaissance de leurs moments du premier et du second ordres.
Un résultat fondamental établit que dans le cas gaussien la régression linéaire coı̈ncide avec l’espérance
conditionnelle. En voici l’expression.

Théorème 4.4 Soit X et Y deux variables aléatoires conjointement gaussiennes, de moyennes respectives
mX et mY , de covariances respectives RXX et RY Y , et de covariance mutuelle RY X . L’espérance condi-
tionnelle :
−1
E(X|Y) = mX + RH
Y X RY Y (Y − mY )

est un vecteur aléatoire gaussien dont la densité de probabilité est :

−1
N mX , R H
¡ ¢
Y X RY Y RY X

44
Attention : ne pas confondre la loi de la variable aléatoire E(X|Y ) avec la loi conditionnelle de X par
rapport à Y . En se limitant au cas scalaire, la loi conditionnelle de X par rapport à Y a pour densité de
2
probabilité pX|Y (x; y) = N (mX + ρσX (y − mY )/σY , σX (1 − ρ2 )), tandis que la loi de E(X|Y ) a pour densité
2 2
de probabilité N (mX , ρ σX ).

Terminons par un théorème utile pour des variables aléatoires gaussiennes.

Théorème 4.5 Soit X, Y1 et Y2 , 3 variables aléatoires conjointement gaussiennes. Si Y1 et Y2 sont

indépendantes et centrées, alors E(X|Y1 , Y2 ) = E(X|Y1 ) + E(X|Y2 ).

L’hypothèse gaussienne implique en effet que E(X|Y1 , Y2 ) = a1 Y1 + a2 Y2 . En prenant l’espérance condition-

4.2 Exercices
Exercice 4.1 (Espérance conditionnelle) Pour simplifier nous ne considérons que des variables
aléatoires continues. Cependant les résultats de cet exercice s’étendent à des vecteurs aléatoires quelconques.
On considère les variables aléatoires X et Y dont la loi de probabilité conjointe possède une densité de
probabilité, que l’on note pXY (x, y). On suppose que X et Y sont de carré intégrable et on pose p X|Y (x; y) =
pXY (x, y)/pY (y).
On rappelle que l’espérance conditionnelle E(X|Y ) de X sachant Y est la fonction de Y la plus proche
2
de X en moyenne quadratique. On peut donc écrire que, pour toute fonction h(Y ), on a E [X − E(X|Y )] ≤
2
E [X − h(Y )] .
1. Montrer que, pour tout h(Y ), on a E [(X − E(X|Y ))h(Y )] = 0.
2. En déduire les expressions de E(X|Y ) et de E(f (X, Y )|Y ), sous forme d’espérance de la loi condition-
nelle pX|Y (x; y) = pXY (x, y)/pY (y). En déduire que E(f1 (X)f2 (Y )|Y ) = f2 (Y )E(f1 (X)|Y ).
3. Montrer que E[E(f (X, Y )|Y )] = E[f (X, Y )].
4. Montrer que, si X et Y sont indépendantes, E(X|Y ) = E[X].
5. Montrer que E(X|Y ) = X si et seulement si X est une fonction de Y .

Exercice 4.2 (Loi conditionnelle de f (U, V ) par rapport à U ) On considère deux variables aléatoires
continues U et V . On note pU V (u, v) leur densité de probabilité conjointe.
1. On considère tout d’abord la variable aléatoire X = U + V . Déterminer l’expression de la densité de
probabilité conditionnelle de X par rapport à U . Que se passe-t-il quand U et V sont indépendantes ?
2. Déterminer l’expression de la densité de probabilité de la variable aléatoire X 0 = u + V , où u désigne
une valeur non aléatoire. Comparer au résultat précédent.
3. Montrer que, si U et V sont indépendantes, E[f (U, V )|U ] = EV [f (U, V )], où EV [f (U, V )] désigne
l’espérance lorsque l’on considère U comme non aléatoire. Ce résultat généralise le résultat précédent.

Exercice 4.3 (Estimation linéaire en moyenne quadratique) On veut démontrer les relations (4.1)
énoncées au paragraphe 4.1. On rappelle que l’on cherche à minimiser l’erreur quadratique moyenne définie
par ²2 = E|X − X0 |2 , où X0 = a0 + AH Y avec AH = [a1 a2 · · · aN ].
1. En appliquant le théorème de projection retrouver les relations (4.1).
2. En déduire (4.2).
3. On rappelle (2.9) que le coefficient de corrélation ρ entre Y et X est défini par ρ = E[(Y − E[Y ])(X −
E[X])∗ ]/σX σY . Dans le cas où N = 1, comment varie ²2min en fonction de ρ ?

Vous aimerez peut-être aussi

Lois Usuelles
Pas encore d'évaluation
Lois Usuelles
28 pages
Cours de Probabilités - Exercices Corrigés
Pas encore d'évaluation
Cours de Probabilités - Exercices Corrigés
108 pages
PolyTunis A Perrut
Pas encore d'évaluation
PolyTunis A Perrut
71 pages
PolyTunis A Perrut PDF
Pas encore d'évaluation
PolyTunis A Perrut PDF
71 pages
PolyTunis A Perrut PDF
Pas encore d'évaluation
PolyTunis A Perrut PDF
71 pages
Polycopie Cours Probas Stats 2023 24
Pas encore d'évaluation
Polycopie Cours Probas Stats 2023 24
38 pages
Cours de Probabilité Et Statistique
Pas encore d'évaluation
Cours de Probabilité Et Statistique
66 pages
Poly Proba
Pas encore d'évaluation
Poly Proba
73 pages
Cours 2021
Pas encore d'évaluation
Cours 2021
57 pages
Poly Proba Stat V2
Pas encore d'évaluation
Poly Proba Stat V2
32 pages
Probabilités et Statistiques UPMC 2004/2005
100% (1)
Probabilités et Statistiques UPMC 2004/2005
120 pages
Proba l3
Pas encore d'évaluation
Proba l3
67 pages
Polycope Proba Stat VF2021
Pas encore d'évaluation
Polycope Proba Stat VF2021
35 pages
Probabilites MI2 2021-2022-1
Pas encore d'évaluation
Probabilites MI2 2021-2022-1
39 pages
Cours Probabilite Part1 2
Pas encore d'évaluation
Cours Probabilite Part1 2
23 pages
Cours Probabilités 231201 164123
Pas encore d'évaluation
Cours Probabilités 231201 164123
83 pages
Poly Probabilités
Pas encore d'évaluation
Poly Probabilités
41 pages
Statinf 2
Pas encore d'évaluation
Statinf 2
33 pages
Introduction aux Processus Stochastiques
Pas encore d'évaluation
Introduction aux Processus Stochastiques
39 pages
Cours Proba Stat 2011 Debut
Pas encore d'évaluation
Cours Proba Stat 2011 Debut
40 pages
Intro Prob A
Pas encore d'évaluation
Intro Prob A
223 pages
Cours de Probabilites 2024-2025: 25 Novembre 2024
100% (1)
Cours de Probabilites 2024-2025: 25 Novembre 2024
67 pages
Poly Probabilité
Pas encore d'évaluation
Poly Probabilité
41 pages
Proba Lice PDF
Pas encore d'évaluation
Proba Lice PDF
135 pages
CoursMP2I Proba
Pas encore d'évaluation
CoursMP2I Proba
55 pages
332 Proba2222888
Pas encore d'évaluation
332 Proba2222888
62 pages
MM010 Poly
Pas encore d'évaluation
MM010 Poly
134 pages
1 2039 Te Pa 01 17
Pas encore d'évaluation
1 2039 Te Pa 01 17
137 pages
Poly Stat Inf PDF
Pas encore d'évaluation
Poly Stat Inf PDF
62 pages
Introduction à la Probabilité
Pas encore d'évaluation
Introduction à la Probabilité
57 pages
Cours Probabilité
Pas encore d'évaluation
Cours Probabilité
58 pages
Best Cours Proba PDF
100% (4)
Best Cours Proba PDF
312 pages
Suquet Cours Deug Proba
100% (1)
Suquet Cours Deug Proba
225 pages
Cours Prob As
Pas encore d'évaluation
Cours Prob As
38 pages
coursCM13 PDF
Pas encore d'évaluation
coursCM13 PDF
58 pages
Cours de Probabilités Appliquées
Pas encore d'évaluation
Cours de Probabilités Appliquées
103 pages
Introduction aux probabilités L2 SEG
Pas encore d'évaluation
Introduction aux probabilités L2 SEG
53 pages
Introduction au Calcul des Probabilités
Pas encore d'évaluation
Introduction au Calcul des Probabilités
237 pages
Cours L1 SV
Pas encore d'évaluation
Cours L1 SV
16 pages
Probabilités et Variables Aléatoires
Pas encore d'évaluation
Probabilités et Variables Aléatoires
107 pages
CMD 060902
Pas encore d'évaluation
CMD 060902
343 pages
Probabilite1 Prepa
Pas encore d'évaluation
Probabilite1 Prepa
39 pages
FPR L3
100% (1)
FPR L3
58 pages
Introduction au calcul des probabilités
Pas encore d'évaluation
Introduction au calcul des probabilités
118 pages
Prob l3 Tic Imsp 2020
Pas encore d'évaluation
Prob l3 Tic Imsp 2020
42 pages
00 S7 Cours Proba Ok
Pas encore d'évaluation
00 S7 Cours Proba Ok
51 pages
Cours Agreg Interne
Pas encore d'évaluation
Cours Agreg Interne
53 pages
Probabilités pour Étudiants Avancés
Pas encore d'évaluation
Probabilités pour Étudiants Avancés
101 pages
Probabilités et Statistiques Élémentaires
Pas encore d'évaluation
Probabilités et Statistiques Élémentaires
89 pages
E de Cours: Statistique Pour L'economie
Pas encore d'évaluation
E de Cours: Statistique Pour L'economie
27 pages
Introduction aux probabilités 2021-2022
Pas encore d'évaluation
Introduction aux probabilités 2021-2022
90 pages
Introduction à la Probabilité et Statistique
Pas encore d'évaluation
Introduction à la Probabilité et Statistique
24 pages
Cours Probabilités
Pas encore d'évaluation
Cours Probabilités
84 pages
Introduction aux Probabilités et Combinatoire
Pas encore d'évaluation
Introduction aux Probabilités et Combinatoire
53 pages
Probabilit Es Avanc Ees: Florin Avram 24 Janvier 2014
Pas encore d'évaluation
Probabilit Es Avanc Ees: Florin Avram 24 Janvier 2014
98 pages
Tssi0 Dvi
Pas encore d'évaluation
Tssi0 Dvi
125 pages
TD11 Ti
Pas encore d'évaluation
TD11 Ti
2 pages
Entropie et Information Continue
Pas encore d'évaluation
Entropie et Information Continue
3 pages
Réseaux de Stockage - Cours Athens
Pas encore d'évaluation
Réseaux de Stockage - Cours Athens
57 pages
Cours5 TI
Pas encore d'évaluation
Cours5 TI
12 pages
Théorie du Traitement des Signaux
Pas encore d'évaluation
Théorie du Traitement des Signaux
18 pages
Performances de démodulation en bruit
Pas encore d'évaluation
Performances de démodulation en bruit
8 pages
Entropie et Information Mutuelle
Pas encore d'évaluation
Entropie et Information Mutuelle
11 pages
Confirmation de réservation Disneyland
Pas encore d'évaluation
Confirmation de réservation Disneyland
7 pages
Ciscomag 18 Dossier 11 Introduction Aux Nouvelles Technologies Fcoe
Pas encore d'évaluation
Ciscomag 18 Dossier 11 Introduction Aux Nouvelles Technologies Fcoe
7 pages
Codes Correcteurs d'Erreurs
Pas encore d'évaluation
Codes Correcteurs d'Erreurs
29 pages
Virtualisation et Consolidation des Infrastructures
Pas encore d'évaluation
Virtualisation et Consolidation des Infrastructures
16 pages
Sta Compact Max V3 Vaison Tca2
100% (1)
Sta Compact Max V3 Vaison Tca2
15 pages
Accompagnement ISO 15189
100% (1)
Accompagnement ISO 15189
6 pages
Sta Compact Max V3 Vaison Fib
Pas encore d'évaluation
Sta Compact Max V3 Vaison Fib
21 pages
Athéna
Pas encore d'évaluation
Athéna
1 page
912 DE-RH-MU1-001-v01 Intégration Nouveau Salarié
Pas encore d'évaluation
912 DE-RH-MU1-001-v01 Intégration Nouveau Salarié
2 pages
Analyse des Équipements de Laboratoire
Pas encore d'évaluation
Analyse des Équipements de Laboratoire
1 page
Mode Opératoire STA COMPACT MAX
Pas encore d'évaluation
Mode Opératoire STA COMPACT MAX
16 pages
Cours Stochastique
Pas encore d'évaluation
Cours Stochastique
125 pages
Correction A9
Pas encore d'évaluation
Correction A9
1 page
BIO 152 Elements de Statistique BC 1
100% (2)
BIO 152 Elements de Statistique BC 1
121 pages
Fokker-Planck : Finance et Risque
Pas encore d'évaluation
Fokker-Planck : Finance et Risque
33 pages
0 00 Examen PS - GIP14 - 26-11-2018
Pas encore d'évaluation
0 00 Examen PS - GIP14 - 26-11-2018
1 page
TD5 Probabilités
Pas encore d'évaluation
TD5 Probabilités
2 pages
Varicance Covariance
Pas encore d'évaluation
Varicance Covariance
19 pages
Série 1
Pas encore d'évaluation
Série 1
4 pages
Cours Simulation
Pas encore d'évaluation
Cours Simulation
19 pages
Partie 7 Assurannonvie
Pas encore d'évaluation
Partie 7 Assurannonvie
41 pages
M1 Stat
Pas encore d'évaluation
M1 Stat
100 pages
Courbe Idf
Pas encore d'évaluation
Courbe Idf
6 pages
Probabilités : Exercices et Corrigés
Pas encore d'évaluation
Probabilités : Exercices et Corrigés
3 pages
Mémoire 3
Pas encore d'évaluation
Mémoire 3
43 pages
CC 2012
Pas encore d'évaluation
CC 2012
2 pages
Définition des ensembles et probabilités
Pas encore d'évaluation
Définition des ensembles et probabilités
20 pages
TD Proba
Pas encore d'évaluation
TD Proba
20 pages
Marches Aléatoires et Ruine du Joueur
Pas encore d'évaluation
Marches Aléatoires et Ruine du Joueur
17 pages
Dénombrement et Probabilités en Mathématiques
Pas encore d'évaluation
Dénombrement et Probabilités en Mathématiques
31 pages
Solutions Des Exercices Chapitre Tests Statistiques
Pas encore d'évaluation
Solutions Des Exercices Chapitre Tests Statistiques
17 pages
Processus Stochastiques Avancés
Pas encore d'évaluation
Processus Stochastiques Avancés
186 pages
Offre - de - Formattion BTS Banque Et Finance & Comptabilité Et Gestion Des Entreprises
Pas encore d'évaluation
Offre - de - Formattion BTS Banque Et Finance & Comptabilité Et Gestion Des Entreprises
47 pages
1ère Maths Spé - Rappels Sur Les Probabilités
Pas encore d'évaluation
1ère Maths Spé - Rappels Sur Les Probabilités
3 pages
Variables Aléatoires
Pas encore d'évaluation
Variables Aléatoires
6 pages
20 Corrige Exer 8
Pas encore d'évaluation
20 Corrige Exer 8
1 page
Variance graphique et représentation 2D
Pas encore d'évaluation
Variance graphique et représentation 2D
11 pages
Organisation des enseignements TCT
Pas encore d'évaluation
Organisation des enseignements TCT
68 pages
CNAEM 2014 Avec Corrigé
Pas encore d'évaluation
CNAEM 2014 Avec Corrigé
15 pages
Correction 5
Pas encore d'évaluation
Correction 5
9 pages
Probabilités et Statistiques Avancées
Pas encore d'évaluation
Probabilités et Statistiques Avancées
16 pages