Prob
Prob
Maurice Charbit
16 septembre 2002
Table des matières
1 Probabilité événementielle 2
1.1 Notion d’expérience aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Espace de probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Probabilité conditionnelle et indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4 Probabilité et statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2 Vecteurs aléatoires 8
2.1 Variable aléatoire réelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.1.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.1.2 Espérance mathématique d’une variable aléatoire . . . . . . . . . . . . . . . . . . . . . 9
2.1.3 Variables aléatoires usuelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1.4 Changement de variable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2 Vecteurs aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2.1 Mesurabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2.2 Espérance mathématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2.3 Indépendance et loi conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2.4 Principaux moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2.5 Vecteurs Gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2.6 Changement de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3 Convergences 30
3.1 Différentes formes de convergence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.1.1 Rappels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.1.2 Convergence p.s. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.1.3 Convergence en probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.1.4 Convergence en moyenne d’ordre q . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.1.5 Convergence en loi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.2 Hiérarchie des convergences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.3 Comportement asymptotique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.4 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
1
Chapitre 1
Probabilité événementielle
2
1. Ω et ∅ sont dans A.
2. Si A ∈ A, alors son complémentaire Ā ∈ A.
S
3. Si la suite {An }n∈N ∈ A, alors n∈N An ∈ A.
Les éléments de A sont appelés des événements (ou encore ensembles mesurables) et le couple (Ω, A) est dit
espace probabilisable (ou encore mesurable).
On pourrait prendre, pour ensemble des événements, l’ensemble de toutes les parties de Ω (qui est une tribu).
Toutefois, dans le cas général, cet ensemble contient des éléments trop “compliqués” dont la manipulation
mathématique est difficile.
Ainsi, dans le cas où Ω est l’ensemble des réels R, on s’intéresse le plus souvent à la plus petite tribu
engendrée par les intervalles ouverts de la forme (−∞, x] ou de la forme (a, b]. Cette tribu est appelée la
tribu de Borel et ses éléments s’appellent les boréliens. Nous la notons B(R). Cette définition se généralise
au cas où Ω = Rn .
A chaque événement, on associe un nombre qui indique sa probabilité d’apparition.
Définition 1.2 On appelle probabilité une application P de la tribu A des événements dans (0, 1) qui vérifie :
1. P (Ω) = 1 et P (∅) = 0.
2. ∀A ∈ A alors P (A) ≥ 0.
S
P {An }n∈N une suite d’événements disjoints de A, (Ai ∩ Aj = ∅ pour ∀i 6= j). Alors P (
3. Soit n∈N An ) =
n∈N P (An ).
Le triplet (Ω, A, P ) est dit espace de probabilité.
Exemple 1.1 (Aiguille de Buffon) On jette au hasard une aiguille de longueur 2` sur une feuille
comportant des lignes parallèles espacées de 2a. On suppose ` < a. Calculer la probabilité pour que l’aiguille
coupe l’un des parallèles.
Solution : On modélise l’espace des épreuves par Ω = (0, a) × (0, π/2). On note ω = (d, θ) ∈ Ω où d
représente la distance du centre de l’aiguille à la droite parallèle la plus proche et θ l’angle que fait l’aiguille
avec la direction des parallèles. On suppose que la loi de probabilité sur l’ensemble Ω, muni de la plus petite
tribu contenant les pavés de R2 , est uniforme. Ce qui signifie que la probabilité de A est donnée par :
aire(A)
P (A) =
aire(Ω)
L’événement qui nous intéresse est :
E = {ω : d < ` cos(θ)}
3
Par conséquent la probabilité cherchée est :
aire(E) 2`
P (E) = =
aire(Ω) πa
Définition 1.3 On appelle probabilité conditionnelle de A par rapport à B, B supposé de mesure non nulle,
la mesure de probabilité notée P (A|B) et définie pour tout A ∈ A par :
P (A ∩ B)
P (A|B) =
P (B)
Par récurrence, on montre facilement que, pour toute suite d’événements (A1 , A2 , · · · , An ), on a :
Définition 1.4 On dit que les événements de la suite A = {A1 , A2 , · · · , An } sont indépendants dans leur
ensemble (ou conjointement indépendants) si et seulement si, pour tout k et pour toute suite n 1 , . . . , nk ∈
{1, . . . , n}, on a P (An1 ∩ An2 ∩ · · · ∩ Ank ) = P (An1 )P (An2 ) · · · P (Ank ).
Définition 1.5 On dit que les événements de la suite A = {A1 , A2 , · · · , An } sont indépendants dans leur
ensemble (ou conjointement indépendants) si et seulement si, pour toute suite B 1 , B2 , . . . , Bn , P (B1 ∩ B2 ∩
· · · ∩ Bn ) = P (B1 )P (B2 ) · · · P (Bn ) où Bk désigne soit Ak soit son complémentaire Āk .
Par définition, si les événements de la suite {A1 , A2 , · · · , An } sont indépendants dans leur ensemble, alors
ils sont indépendants 2 à 2. La réciproque est fausse.
On peut écrire pour tout événement B ∈ A et toute partition finie ou dénombrable d’événements A k de
Ω :
X X
P (B) = P (B ∩ Ω) = P (B ∩ Ak ) = P (B|Ak )P (Ak ) (1.2)
k k
4
Cette expression porte dans la littérature le nom de formule des probabilités totales. On en déduit la formule
de Bayes :
P (B ∩ Ak ) P (B|Ak )P (Ak )
P (Ak |B) = =P (1.3)
P (B) j P (B|Aj )P (Aj )
Cette formule permet le calcul des probabilités P (Ak |B) en fonction des probabilités P (B|Ak ).
où
|Sn − np|
∆n = √
npq
Pour illustrer ce résultat, supposons que l’on vous assure, au cours d’un jeu de pile ou face, que le jeu est
équitable, c’est-à-dire que p = 1/2. Si, au bout de n = 10000 tirages, vous constatez que le côté pile est sorti
5250 fois, l’hypothèse p = 1/2 est très certainement fausse. En effet ∆n prend la valeur 5. Si l’on identifie,
puisque n est grand, la probabilité P ({∆n ≥ 5}) avec sa limite, on obtient P ({∆n ≥ 5}) = 6 × 10−7 . Cette
valeur étant quasi-nulle, un tel événement est, d’un point de vue pratique, impossible. On peut donc rejeter
avec une très grande confiance l’hypothèse p = 1/2.
1.5 Exercices
Exercice 1.1 Soit Ω = {ω1 , ω2 , ω3 , ω4 } muni de la tribu F de ses parties et soit P définie par P ({ωi }) = 1/4.
Soit A1 = {ω2 , ω3 }, A2 = {ω1 , ω3 } et A3 = {ω1 , ω2 }. Montrer que les Ai sont indépendants 2 à 2 mais ne
sont pas indépendants dans leur ensemble.
Exercice 1.2 Soit {Ai }1≤i≤k une suite d’événements indépendants sur un espace de probabilité, de même
probabilité p < 1. Déterminer l’expression de P (∪ki=1 Ai ) en fonction de p.
Exercice 1.3 Soit A, B, C trois événements d’un espace de probabilité. On dit que A et B sont indépendants
conditionnellement à C ssi :
5
Exercice 1.4 Soit Ω = {ω1 , · · · , ωn } muni de la tribu de ses parties. Et soit 2 mesures de probabilité sur Ω
caractérisées respectivement par les suites P = {pi } et Q = {qi }. On sait que :
n
X n
X
H(P) = − pi log(pi ) ≤ − pi log(qi )
i=1 i=1
Pn
l’égalité ayant lieu ssi P = Q. Déterminer la loi qui maximise
PnH(P) sous la contrainte que i=1 (i − 1)pi =
m1 (pour m1 fixé). Généraliser à k contraintes de la forme i=1 (i − 1)j pi = mj pour j = 1, · · · , k.
Indication : prendre qi = αe−βi .
Exercice 1.5 (Les 3 prisonniers) Parmi trois prisonniers que nous appellerons A, B et C, deux ont été
tirés au sort, de façon équitable, pour être exécutés.
La nuit avant l’exécution, A appelle le gardien et lui dit ”Vous pouvez me dire lequel de B ou de C doit
être exécuté, cela ne me donne aucune information sur mon propre cas”. Le gardien réfléchit, acquiest et
lui répond B. A sourit et dit : ”Maintenant je vais pouvoir dormir plus tranquille, car avant j’avais deux
(mal)chances sur trois d’être exécuté, à présent cela se passe entre C et moi et je n’en ai plus que 1 sur 2”.
Qui a raison et qui a tort ?
Exercice 1.6 Soit {Ai } une suite d’évéments d’un espace de probabilité.
1. Montrer que ∩i Ai est un événement.
2. Montrer que {Ai } est une suite d’événementsQindépendants si et seulement si, pour toute suite crois-
n
sante d’indices k1 < · · · < kn , P (∩nj=1 Akj ) = j=1 P (Akj ).
Exercice 1.7 Soit A = {Ai }1≤i≤k une partition finie d’un espace mesurable. Décrire explicitement la plus
petite tribu contenant A.
Exercice 1.10 Un commerçant distribue un même produit provenant de deux chaı̂nes de fabrication A et B
différentes. On note pA et pB leurs taux respectifs d’éléments défectueux. Le premier client ramène le produit
car il ne marche pas. Quelle est la probabilité pour que le second client soit dans la même situation ?
Exercice 1.11 Dans une boı̂te qui contient 100 montres on en tire 3 au hasard. Les trois sont défectueuses.
En supposant que dans la boı̂te une montre sur 10 est bonne, quelle est la probabilité de l’événement qui s’est
réalisé ? Quelle conclusion vous semble raisonnable ?
Exercice 1.12 Un commerçant a deux sacs de montres. Le sac A contient N = 1000 montres dont n = 100
sont défectueuses et le sac B contient M = 1500 montres dont m = 50 sont défectueuses. On considère les
deux expériences suivantes :
– on mélange les deux sacs et on tire au hasard, sans remise, deux montres,
– on tire au hasard, sans remise, deux montres après avoir choisi au hasard le sac. On suppose que la
probabilité de choisir le sac S1 est α.
6
Déterminer, dans les deux cas, les espaces de probabilité associés.
Exercice 1.13 On tire deux points au hasard sur le segment [0, 1]. Le plus petit nombre est supérieur à 1/3.
Quelle est la probabilité pour que le plus grand soit supérieur à 3/4 ?
Exercice 1.14 (Statistique des particules) On place au ”hasard” n particules dans m cellules, avec
m ≥ n. On suppose que toutes les configurations élémentaires sont équiprobables. Calculer leur probabilité
dans les trois cas suivants.
1. Statistique de Boltzman : les particules sont distinguables et une cellule peut contenir un nombre
quelconque de particules.
2. Statistique de Bose-Einstein : les particules ne sont pas distinguables et une cellule peut contenir un
nombre quelconque de particules.
3. Statistique de Fermi-Dirac : les particules ne sont pas distinguables et une cellule contient au plus une
particule.
7
Chapitre 2
Vecteurs aléatoires
2.1.1 Définitions
Définition 2.1 (tribu de Borel) On appelle tribu de Borel construite sur R d la plus petite tribu contenant
les pavés de Rd . On la note B(Rd ).
Définition 2.2 (variable aléatoire) On appelle variable aléatoire réelle (v.a.) une application mesurable
de (Ω, A) dans l’ensemble R muni de sa tribu de Borel B(R). Le terme mesurable signifie que :
Définition 2.3 (égalité presque sûre) Soit X et Y deux variables aléatoires définies sur le même espace
de probabilité {Ω, A, P }. On dit que X et Y sont presque sûrement égales si :
Définition 2.4 (loi de probabilité) Soit X une variable aléatoire définie de l’espace de probabilité
{Ω, A, P } dans R muni de sa tribu de Borel B. On appelle loi de probabilité de X la mesure définie sur
{R, B(R)} par :
B ∈ B(R) 7→ PX (B) = P ({ω ∈ Ω t.q. X(ω) ∈ B})
En calcul des probabilités, on décrit souvent une variable aléatoire directement par sa loi de probabilité.
Ainsi on énoncera : “Soit la variable aléatoire dont la loi est uniforme sur (0,1)”. Cette façon de procéder
fait que l’espace de probabilité (Ω, A, P ) et l’application X ne sont pas donnés explicitement et les calculs
se font directement à partir de la loi induite PX sur l’espace image {R, B(R)}.
8
Définition 2.5 (fonction de répartition) On appelle fonction de répartition la fonction F X (x) définie
par FX (x) = P ({ω ∈ Ω : X(ω) ≤ x}), que l’on note plus simplement P (X ≤ x).
Cette fonction est caractéristique d’une mesure dans le sens où elle permet de définir, de manière unique,
la mesure de tout élément de la tribu de Borel B(R). On rencontre aussi dans la littérature la définition
FX (x) = P (X < x).
Toute fonction de répartition FX (x) vérifie les propriétés suivantes :
– FX (x) est non négative, non décroissante.
– FX (x) est continue à droite.
– FX (x) → 0 quand x → −∞.
– FX (x) → 1 quand x → +∞.
S’il existe une valeur réelle x0 , telle que P (X = x0 ) 6= 0, on dit que la variable aléatoire X charge le point
x0 . Dans ce cas FX (x) possède une discontinuité au point x0 et on a P (X = x0 ) = FX (x+ −
0 ) − FX (x0 ). On
montre que ces points sont en nombre fini ou au plus dénombrable.
où 11A (x) est la fonction indicatrice de A, qui vaut 1 si x ∈ A et 0 sinon. La fonction de répartition
est alors une fonction en “marches d’escalier”, qui présente un nombre fini ou au plus dénombrable
de sauts. Ces sauts, situés aux points d’abscisse ak , ont une hauteur égale à l’amplitude pX (ak ) des
probabilités.
Variable aléatoire dite “continue” On convient d’appeler ainsi le cas la loi de x est absolument continue
par rapport à la mesure de Lebesgue dans R (les ensembles de mesure nulle de la mesure de Lebesgue
sont aussi de mesure nulle pour la loi de X.). Il existe alors une fonction p X (x) ≥ 0 telle que, pour
tout borélien B de R, on ait :
Z
P (X ∈ B) = pX (x)dx (2.1)
B
R
Typiquement B peut être un segment de la forme A =] − ∞, x]. De plus R
pX (x)dx = 1.
Pour une variable aléatoire continue, par définition, on a, pour tout x, P (X = x) = 0. Ce qui n’im-
plique pas que pX (x) = 0. La quantité pX (x)|δx| s’interprète en fait comme la probabilité infinitésimale
P ({x < X ≤ x + δx}), d’appartenir à l’intervalle (x, x + δx].
Définition 2.6 Soit f une fonction mesurable de R dans R. On appelle espérance mathématique de la
variable aléatoire f (X) la quantité notée E {f (X)} et définie par :
Z Z
E {f (X)} = f (X(ω))P (dω) = f (x)PX (dx)
Ω R
Dans la définition 2.6, l’intégrale intervenant dans l’espérance est prise au sens de Lebesgue. Cependant dans
tous les cas d’intérêt pratique, elle est identique à l’intégrale prise au sens de Riemann. Dans la suite la
distinction est sans conséquence et les règles habituelles du calcul intégral s’appliquent.
En nous limitant aux cas pratiques des variables aléatoires dites discrète et continue, on a :
9
– Soit X une variable aléatoire discrète à valeurs dans l’ensemble {a1 , a2 , · · · , ak , · · · } avec P (X = ak ) =
pX (k). L’espérance de f (X) est donnée par :
X
E {f (X)} = f (ak )pX (k)
k
– Soit X une variable aléatoire continue à valeurs dans R dont la loi de probabilité a pour densité de
probabilité pX (x). L’espérance de f (X) est donnée par :
Z
E {f (X)} = f (x)pX (x)dx
R
Théorème 2.1 (inégalité de Jensen) Si f est une fonction, de R dans R, convexe (forme en ∪) alors
E {f (X)} ≥ f (E {X}). Dans le cas d’une fonction concave (forme en ∩), il faut inverser le sens de l’inégalité.
De plus si la fonction f est strictement convexe ou strictement concave, alors E {f (X)} = f (E {X}) implique
que X = E(X) en probabilité.
Propriétés 2.1 On a :
– Linéarité : soit a et b deux constantes réelles et soit deux fonctions f et g. Alors
Notons que la probabilité d’un borélien quelconque B de R peut s’écrire comme l’espérance mathématique
d’une certaine indicatrice sous la forme :
En effet 11B (X) est une variable aléatoire à valeurs dans {0, 1} et telle que P (11B (X) = 1) = PX (B).
Par conséquent la probabilité pour une variable aléatoire de s’écarter de sa moyenne est d’autant plus faible
que sa variance est petite (Exercice 2.3). A la limite (voir Exercice 2.6) on a le résultat suivant :
Théorème 2.2 Si X est une variable aléatoire de moyenne m et telle que var(X) = 0, alors X est presque
sûrement égale à m.
10
Définition 2.8 On appelle fonction caractéristique, la fonction définie par φ X (u) = E ejuX . La fonction
© ª
– (cas continu) Z
φX (u) = pX (x)ejux dx
R
Enonçons sans démonstration les propriétés suivantes :
Propriétés 2.2 On a :
– Le terme ”caractéristique” s’explique par un résultat fondamental, qui dit que deux mesures distinctes
ne peuvent avoir
¯ ¯la même fonction caractéristique.
– Du fait que ¯ejuX ¯ = 1, la fonction caractéristique existe même si les moments n’existent pas. Exemple :
la loi de Cauchy, dont la densité de probabilité est pX (x) = 1/π(1 + x2 ), ne possède aucun moment et
a pour fonction caractéristique e−|u| .
– Une fonction caractéristique est uniformément continue.
– |φX (u)| ≤ φX (0) = 1.
– Lorsque le moment d’ordre n existe (E {X n } < +∞), la fonction caractéristique est n fois continûment
dérivable et on a :
1 dn φX (u) ¯¯
¯
E {X n } = n (2.4)
j dun ¯ u=0
Théorème 2.3 (inégalité de Markov) Soit T une variable aléatoire positive. Alors
E {T }
∀δ > 0, P (T ≥ δ) ≤
δ
En effet pour tout δ > 0, 11[δ,+∞[ (t) ≤ t/δ. Par conséquent par monotonie on a le résultat annoncé. Un cas
√
particulier est l’inégalité de Tchebyschev. On pose T = (X − E {X})2 et ² = δ. Il vient :
varX
∀² > 0, P (|X − E {X} | ≥ ²) ≤
²2
11
Variable aléatoire de Poisson
Une variable aléatoire de Poisson est une variable aléatoire discrète à valeurs dans l’ensemble N des
entiers naturels et telle que pour tout x ∈ N, on a :
λx −λ
pX (x) = P (X = x) = e
x!
où λ ∈ R+ . Sa moyenne et sa variance sont égales à λ. Sa fonction caractéristique a pour expression φ X (u)
ª=
exp(λ(eju − 1)). Sa fonction de répartition a pour expression FX (x) = PX ((−∞, x]) = E 11(−∞,x] (X) =
©
P+∞
k=0 pX (k)11(−∞,x] (k).
Dans la modélisation d’un phénomène ponctuel, λ représente le nombre moyen de points observés. Quand
le phénomène
R est temporel, λ est parfois défini au moyen d’une fonction I(t) par l’intermédiaire de l’expression
λ = T I(t)dt. Dans ce cas I(t) est appelée l’intensité de la loi de Poisson. Si I(t) = I 0 , la loi de Poisson
est dite homogène. De façon analogue, on peut introduire la notion d’intensité pour un phénomène ponctuel
spatial. (Exercices 2.5, 2.12).
σ2 2
µ ¶
φX (u) = exp jum − u (2.5)
2
où σ ∈ R+ . Dans le cas où σ 6= 0, la loi possède une densité de probabilité qui a pour expression :
(x − m)2
µ ¶
1
pX (x) = √ exp − (2.6)
σ 2π 2σ 2
Nous utiliserons aussi la notation abrégée pX (x) = N (m, σ 2 ). Sa moyenne est égale à m et sa variance à σ 2 .
Cas continu
Soit g(x) une fonction réelle et X une variable aléatoire continue de densité de probabilité p X (x). Si g(x)
est strictement monotone et dérivable, Y = g(X) est une variable aléatoire continue et sa loi a pour densité
de probabilité :
1
pY (y) = pX g −1 (y)
¡ ¢
(2.7)
|g 0 (g −1 (y))|
où g −1 (y) désigne l’application inverse de g(x) (qui existe puisque g(x) est supposée strictement monotone)
et g 0 (x) la dérivée de g(x). Dans le cas où la fonction g(x) n’est pas monotone, il faut sommer sur toutes les
solutions en x de l’équation y = g(x).
De façon mnémonique, on retiendra que les événements {x < X ≤ x + dx} et {y < Y ≤ y + dy} ont la
même probabilité et donc que pY (y)|dy| = pX (x)|dx|.
12
Pour montrer 2.7, on peut partir de la fonction de répartition P (Y ≤ y) de Y puis dériver par rapport
à y. Faisons le sur un exemple. Soit X une variable aléatoire de densité de probabilité p X (x) et soit la
transformation y = x3 . La fonction de répartition de Y a pour expression FY (y) = P (Y ≤ y) = P (X 3 ≤
y) = P (X ≤ y 1/3 ), que l’on peut calculer à partir de la densité de probabilité de X par :
Z y 1/3
FY (y) = pX (x)dx
−∞
Dans le cas où la fonction g(x) n’est pas monotone, l’exemple suivant montre comment interviennent les
solutions de l’équation y = g(x). Soit X une variable aléatoire de densité de probabilité p X (x) et soit la
transformation y = x2 . La fonction de répartition de Y a pour expression FY (y) = P (Y ≤ y) = P (X 2 ≤ y).
√ √
Par conséquent si y < 0, FY (y) = 0. Si y ≥ 0, il vient FY (y) = P (X 2 ≤ y) = P (− y ≤ X ≤ y), que l’on
peut calculer à partir de la densité de probabilité de X :
√
Z y
FY (y) = √
pX (x)dx
− y
En dérivant par rapport à y, la densité de probabilité de la variable aléatoire Y prend pour expression :
1 √ √
pY (y) = √ (pX ( y) + pX (− y)) 11(0,+∞) (y)
2 y
2.2.1 Mesurabilité
Définition 2.9 (Vecteur aléatoire de dimension d) (X1 , · · · , Xd ) est un vecteur aléatoire de dimension
d, si et seulement si l’application, définie par (X1 , · · · , Xd ), de {Ω, A} dans Rd muni de sa tribu de Borel
B(Rd ) est mesurable, c’est-à-dire
On admettra que :
– si X1 et X2 sont deux variables aléatoires de Ω, F dans R, B(R) alors X = (X1 , X2 ) de Ω, F dans
R2 , B(R2 )) est une variable aléatoire.
– une fonction continue d’une fonction mesurable est mesurable (la mesurabilité se faisant par rapport
aux tribus engendrées par les topologies).
Définition 2.10 (loi conjointe) Soit (X1 , · · · , Xd ) un vecteur aléatoire de dimension d défini sur l’espace
de probabilité (Ω, A, P ) à valeurs dans Rd . On appelle loi de probabilité de la variable aléatoire conjointe
(X1 , · · · , Xd ) la mesure de probabilité définie pour tout borélien B ∈ B(Rd ) par :
13
On en déduit que la loi de probabilité de X1 s’obtient pour tout borélien A ∈ B(R) par PX1 (A) =
PX1 ,··· ,Xd (A × R × · · · × R). Dans ce contexte PX1 (A) porte le nom de loi de probabilité marginale.
La loi conjointe permet de déterminer les lois marginales. Evidemment la réciproque est fausse : les lois
marginales de (X1 , · · · , Xd ) ne permettent pas de déduire la loi conjointe sauf, comme on le verra, quand
(X1 , · · · , Xd ) sont indépendantes.
Définition 2.11 Soit (X1 , · · · , Xd ) un vecteur aléatoire de dimension d défini sur l’espace de probabilité
(Ω, A, P ), à valeurs dans Rd . On appelle fonction de répartition la fonction de (x1 , · · · , xd ) définie par
FX1 ,··· ,Xd (x1 , · · · , xd ) = P ({ω : X1 ω) ≤ x1 ∩ {ω : Xd (ω) ≤ xd }).
Comme l’événement {X1 ≤ x1 , X2 ≤ +∞, · · · , Xd ≤ +∞} est identique à l’événement {X1 ≤ x1 }, la
fonction de répartition de la variable aléatoire X1 s’écrit :
de la fonction de répartition. pXY (x, y)|δx||δy| s’interprète alors comme la probabilité ”infinitésimale”
P ({x < X ≤ x + δx, y < Y ≤ y + δy}).
Enfin les lois
R de probabilité marginales de X et de Y ont pour densités respectives :
– pX (x) = R R pXY (x, v)dv
– pY (y) = R pXY (u, y)du
Cas mixte
On peut aussi avoir le cas mixte où l’une des deux variables est continue et l’autre est discrète. Ainsi si
X est continue et Y discrète, la loi de probabilité est décrite par la donnée de Y = {b 1 , · · · , bn , · · · } et de la
suite de densités de probabilité pXY (x, y) où y ∈ Y. La fonction de répartition s’écrit :
Z X
FXY (x, y) = pXY (u, v)11(−∞,x] (u)11(−∞,y] (v)du
R v∈Y
14
et la loi de probabilité marginale de Y est donnée par :
Z
pY (y) = P (Y = y) = pXY (u, y)du
R
Pour tout élément B de la tribu de Borel B(R2 ), PXY (B) peut s’écrire comme l’espérance mathématique
de la fonction indicatrice de B sous la forme PXY (B) R R = E {11B (X, Y )}. Pour s’en convaincre il suffit de
remarquer que, si (X, Y ) sont continues, PXY (B) = R R 11B (x, y)pXY (x, y)dxdy.
Remarques
– La définition d’une variable aléatoire nécessite la construction d’un espace mesurable (Ω, A) mais ne
nécessite pas celle d’une probabilité P . Par contre l’indépendance de deux variables aléatoires dépend
du choix de P . C’est pourquoi certains auteurs préfèrent parler de P -indépendance.
– Des variables aléatoires peuvent être indépendantes et être reliées par une relation fonctionnelle forte.
Ainsi si X et Y sont deux variables aléatoires, à valeurs dans {−1, +1}, supposées indépendantes, on
a X 2 + Y 2 = 2. Aussi ne faut-il pas dire que, si h(X, Y ) = 0, X et Y sont dépendantes. Pour montrer
que deux variables ne sont pas indépendantes, une solution consiste à montrer, par exemple, que, pour
un certain couple (x, y), FXY (x, y) 6= FX (x)FY (y). Rappelons que d’après (2.8) FX (x) = FXY (x, +∞)
et FY (y) = FXY (+∞, y).
– (X1 , · · · , Xd ) sont indépendantes si et seulement si, pour toutes fonctions continues bornées f 1 , . . ., fd ,
( d ) d
Y Y
E fk (Xk ) = E {fk (Xk )}
k=1 k=1
Par conséquent, une façon de montrer que X et Y ne sont pas indépendantes est de trouver deux
fonctions f et g continues, bornées telles que E {f (X)g(Y )} 6= E {f (X)} E {g(Y )}.
– Avec les notations précédentes, (X1 , · · · , Xd ) sont indépendantes si et seulement si :
15
– Fonction caractéristique : voir théorème 2.4.
Nous définissons à présent la notion de loi conditionnelle de X sachant Y . Comme dans le cas des pro-
babilités événementielles, cette notion est liée à celle d’indépendance. En particulier, les variables aléatoires
X et Y sont indépendantes si la loi conditionnelle est identique à la loi marginale.
Nous détaillons ci-dessous les expressions dans les cas où les deux variables aléatoires sont discrètes, puis
continues et enfin dans le cas mixte.
X et Y sont discrètes
La probabilité conditionnelle de l’événement {X = ak }, sachant que l’événement {Y = bn } (de probabilité
non nulle) s’est réalisé, est donnée par :
On en déduit que, si les variables aléatoires X et Y sont indépendantes, comme p XY (x, y) = pX (x)pY (y),
alors P (X = x | Y = y) = pX (x) : la loi conditionnelle est identique à la loi marginale.
X et Y sont continues
On définit la densité de probabilité conditionnelle de X par rapport à Y par :
Pour comprendre sa signification, montrons que pX|Y (x; y) s’interprète comme une densité de probabilité.
Pour cela considérons la probabilité conditionnelle de l’événement (x < X ≤ x + δx) sachant l’événement
(y < Y ≤ y + δy). Elle s’écrit en considérant δx et δy comme des quantités infinitésimales :
Cas mixte
On définit une densité de probabilité conditionnelle de X (continue) par rapport à Y = y (discrète) par :
16
Espérance conditionnelle
© Soit ªX et Y deux © variables aléatoires définies sur le même espace de probabilité.©On suppose que
E |X|2 < +∞ et E |Y |2 < +∞. On considère une fonction f de R dans R telle que E |f (X)|2 < +∞.
ª ª
On appelle espérance conditionnelle de f (X) par rapport à Y la fonction de Y , notée E {f (X)|Y }, telle que :
∀g(Y ) t.q. E |g(Y )|2 < +∞ E |f (X) − E {f (X)|Y } |2 ≤ E |f (X) − g(Y )|2
© ª © ª © ª
On montre que : Z
E {f (X)|Y } = f (x)dPX|Y (x, y)
– Cas continu : R
f (x)pXY (x, y)dx
RR
E {f (X)|Y } =
p (x, y)dx
R XY
On en déduit que la fonction caractéristique de la loi marginale de X1 est φX1 (u1 ) = E ejuX =
© ª
Les moments sont définis à partir des fonctions polynomiales de la forme X p Y q . Parmi eux le moment du
second ordre joue un rôle majeur en traitement du signal.
Théorème 2.5 Deux variables aléatoires indépendantes sont non corrélées, mais la réciproque est fausse.
17
2.2.5 Vecteurs Gaussiens
Définition 2.16 (variable aléatoire gaussienne) X est une variable aléatoire gaussienne, si la fonction
caractéristique de sa loi a pour expression :
σ2 2
φX (u) = exp(jmu − u )
2
où m ∈ R est la moyenne et σ 2 la variance.
Définition 2.17 (vecteur gaussien) (X1 , · · · , Xd ) est un vecteur gaussien, si et seulement si toute com-
binaison linéaire de (X1 , · · · , Xd ) est une variable gaussienne.
Par conséquent si (X1 , · · · , Xd ) est un vecteur gaussien, les composantes sont séparément gaussiennes. La
réciproque est fausse.
où u = (u1 , · · · , ud )T .
2. Si det(R) = 0, alors X est presque sûrement contenu dans un sous-espace de dimension égale au rang
de la matrice R.
3. Si det(R) 6= 0, sa loi possède une densité de probabilité qui a pour expression :
µ ¶
1 1
pX (x) = p exp − (x − M )T R−1 (x − M ) (2.11)
(2π)d/2 det(R) 2
où x = (x1 , · · · , xd )T .
La forme de la loi de Gauss présente un maximum au point de coordonnées (m1 , m2 , · · · , md ) et est
d’autant plus pointue que les éléments diagonaux de R sont petits. En égalant à une constante l’argument
de l’exponentielle, on obtient les courbes d’équidensité. Ce sont des ellipsoı̈des qui se réduisent à des sphères
lorsque la matrice R = σ 2 Id .
Théorème 2.8 Si X1 et X2 sont deux variables aléatoires conjointement gaussiennes, alors leur non-
corrélation entraı̂ne leur indépendance.
Pour un vecteur gaussien, les moments de tout ordre s’expriment à partir de M et de R. En particulier, si
(X1 , X2 , X3 , X4 ) désignent quatre variables aléatoires gaussiennes, centrées, alors on a ∀i, j, k ∈ {1, 2, 3, 4},
E(Xi Xj Xk ) = 0 et
E(X1 X2 X3 X4 ) = (2.12)
E(X1 X2 )E(X3 X4 ) + E(X1 X3 )E(X2 X4 ) + E(X1 X4 )E(X2 X3 )
et supposons que la transformation ainsi définie soit bijective. Pour tout couple (y 1 , y2 ), il existe une solution
unique (x1 , x2 ). Nous pouvons alors écrire :
½
X1 = h1 (Y1 , Y2 )
X2 = h2 (Y1 , Y2 )
18
Dans ce cas, la loi de probabilité des variables aléatoires (Y1 , Y2 ) a pour densité :
dont on peut retenir la propriété utile Jh (y1 , y2 )Jg (x1 , x2 ) = I, où Jg (x1 , x2 ) est le Jacobien de la transfor-
mation inverse g, c’est-à-dire :
" #
∂g1 (x1 ,x2 ) ∂g2 (x1 ,x2 )
∂x1 ∂x1
Jg (x1 , x2 ) = ∂g1 (x1 ,x2 ) ∂g2 (x1 ,x2 )
∂x2 ∂x2
Dans le cas où la transformation n’est pas bijective, il faut prendre en compte toutes les solutions donnant
le couple (x1 , x2 ) en fonction de (y1 , y2 ).
Pour déterminer l’expression de la densité de probabilité de (Y1 , Y2 ), une façon de procéder est de partir
de l’expression de la fonction de répartition de (Y1 , Y2 ), ce qui donne :
(1) on détermine, pour y1 et y2 fixés, le domaine du plan ∆(y1 , y2 ) = {(x1 , x2 ) : g1 (x1 , x2 ) ≤
y1 et g2 (x1 , x2 ) ≤ y2 },
(2) puis on intégre pX1 X2 (x1 , x2 ) sur ∆(y1 , y2 ),
(3) enfin, pour obtenir la densité de probabilité, on dérive le résultat obtenu successivement par rapport
à y1 et y2 (Exercice 2.33).
dont le déterminant du Jacobien vaut 1. En appliquant (2.13), on obtient comme densité de probabilité du
couple (Y1 , Y2 ), pY1 Y2 (y1 , y2 ) = pX1 X2 (y1 , y2 − y1 ).
La densité de probabilité de Y2 s’en déduit comme la loi marginale de pY1 Y2 (y1 , y2 ). Il vient :
Z
pY2 (y2 ) = pX1 X2 (y1 , y2 − y1 )dy1
R
Dans le cas où X1 et X2 sont indépendantes pX1 X2 (x1 , x2 ) = pX1 (x1 )pX2 (x2 ) et donc :
Z
pY2 (y2 ) = pX1 (y1 )pX2 (y2 − y1 )dy1
R
19
Par conséquent, en appliquant (2.13) il vient pour la densité de probabilité du couple (R, Φ) :
Les lois du module et de la phase s’obtiennent comme lois marginales en intégrant (2.14). Ce qui donne :
Z 2π
pR (r) = pRΦ (r, φ)dφ11[0,+∞) (r)
0
Z ∞
et pΦ (φ) = pRΦ (r, φ)dr11[0,2π) (φ)
0
Supposons à présent que X et Y soient deux variables aléatoires gaussiennes, indépendantes, centrées, de
même variance σ 2 . Leur densité de probabilité conjointe a pour expression :
µ 2
x + y2
¶
1
pXY (x, y) = exp −
2πσ 2 2σ 2
Cette situation se rencontre en communication où l’on utilise pour la représentation du bruit une va-
riable aléatoire complexe dont les parties réelle et imaginaire sont deux variables aléatoires gaussiennes,
indépendantes, centrées, de même variance. En portant pXY (x, y) dans (2.14), on trouve que Φ est une
variable aléatoire uniforme sur (0, 2π) et que R suit la loi dite de Rayleigh de densité de probabilité :
r2
µ ¶
r
pR (r) = 2 exp − 2 11[0,+∞) (r) (2.15)
σ 2σ
On vérifie que pRΦ (r, φ) = pR (r)pΦ (φ), et donc que les variables aléatoires Φ et R sont indépendantes.
Toutefois ce résultat n’est absolument pas général. Ainsi si X et Y sont deux variables aléatoires gaussiennes,
indépendantes, de même variance, mais dont l’une au moins est non centrée, on pourra vérifier que Φ et R
ne sont pas indépendantes.
2.3 Exercices
Exercice 2.1 (Loi géométrique) La variable aléatoire X est dite de loi géométrique, si X est à valeurs
entières et si P (X = k) = (1 − γ)γ k .
1. Déterminer sa moyenne et sa variance.
2. Déterminer sa fonction carctéristique.
3. Montrer que P (X ≥ k + k0 |X > k0 ) = P (X ≥ k).
P∞
Exercice 2.2 Soit X une variable aléatoire prenant ses valeurs dans N. Montrer que E(X) = n=1 P (X ≥
n).
3. Inégalité de Tchebyshev
En posant T = |Y − m|, montrer que pour toute variable aléatoire Y de moyenne m et de variance σ 2
et pour tout ² > 0, on a :
σ2
P (|Y − m| ≥ ²) ≤
²2
20
Exercice 2.4 On suppose que E(|X|p ) < +∞ où p ∈ N. Montrer que, pour tout entier q < p, E(|X|q ) <
+∞.
Indication : utiliser l’inégalité de Jensen à la fonction convexe (|x| q )p/q .
Exercice 2.5 (File d’attente d’accès à un canal) Plusieurs stations de communication sont reliées à
un unique canal de transmission. Lorsque qu’une station désire émettre, elle le fait quel que soit l’état d’oc-
cupation du canal. On suppose que le signal émis par chacune des stations a un débit D (en bits par seconde)
constant et que toutes les trames transmises sont de même durée T . A cause de la durée T de transmission
d’une trame, il arrive que plus d’une station émettent pendant le temps T . Dans ce cas une collision se pro-
duit : le signal devient incompréhensible et les destinataires respectifs demandent une réémission ultérieure.
On suppose que le nombre d’appels NU dans un intervalle de temps U quelconque suit une loi de Poisson de
moyenne IU où I, supposé constant, désigne le nombre moyen d’appels par unité de temps.
La charge d’utilisation η est définie par le rapport entre le nombre de bits moyen transmis par seconde et le
débit nominal D.
1. Rappeler l’expression de la loi de Poisson.
Réponse : P (NU = k) = (IU )k e−IU /k!.
2. Calculer η en fonction de I et de DT .
Réponse : η = IT .
3. Déterminer la probabilité de collision p en fonction de η. Quelle est la valeur de p quand η est égal à
1.
Réponse : p = P (NT ≥ 2) = 1 − P (NT = 0) − P (NT = 1) = 1 − e−η − ηe−η . Pour η = 1, p = 1 − 2/e '
0.26.
Exercice 2.6 (Variable aléatoire de variance nulle) Soit X une variable aléatoire de moyenne m et
telle que var(X) = 0.
1. En utilisant l’inégalité de Tchebyschev, montrer que pour tout ² > 0, P (|X − m| ≥ ²) = 0.
2. On note V le complémentaire de {ω ∈ Ω : X(ω) = m}. Montrer que P (V) = 0. Cela démontre que X
est presque sûrement égale à m.
Exercice 2.7 (Marche aléatoire) On considère une particule animée d’un mouvement rectiligne et effec-
tuant des bonds équiprobables et indépendants d’amplitude P ±s. On suppose que X(0) = 0. On peut donc
n
écrire que la position X(n) au temps n est égale à X(n) = u=1 ∆(u), où ∆(u) est une suite de variables
aléatoires, indépendantes, à valeurs dans {−s, s}, telles que P (∆(u) = s) = 1/2.
1. Déterminer l’expression de la moyenne E(X(n))
2. Déterminer l’expression de la fonction d’autocovariance E(X(n + k)X(n)).
3. Déterminer la probabilité pour que X(n) = ms, pour tout m ∈ N.
Exercice 2.8 (Loi de l’amplitude d’une sinusoı̈de à phase uniforme) On considère la variable
aléatoire Φ de loi uniforme sur (0, 2π). Déterminer la densité de probabilité de la variable aléatoire
X = A cos(Φ) où A ∈ R+ .
Réponse : pX (x) = π√A12 −x2 11(−A,A) (x).
Exercice 2.9 (Transformation sinusoı̈dale d’une variable gaussienne) Soit X une variable aléatoire
gaussienne, centrée, de variance σ 2 .
1. Donner l’expression de sa fonction caractéristique.
2. Pour u fixé, on note Y = cos(uX), Z = sin(uX). Déterminer les expressions de E(Y ) et de E(Z). En
déduire celle de E(Y k ).
Réponse : il suffit de noter que cos(uX) = (eiuX + eiuX )/2.
21
– et par le choix de n valeurs µ1 , · · · , µk , · · · , µn dites valeurs de reconstruction.
L’opération de quantification consiste à effectuer successivement les deux transformations (codage/dècodage)
représentées ci-dessous :
codage décodage
x −→ c −→ x̂
Exercice 2.11 (Facteur de crête) Dans certains dispositifs physiques il est important d’éviter le
phénomène d’écrêtage (ex. : systèmes d’enregistrement ou dispositifs de quantification d’un signal).
Lorsque l’observation est modélisée par une variable aléatoire X centrée, dont la puissance (moment du
second ordre) E(X 2 ) = PX est connue, le problème consiste à déterminer le rapport entre la puissance P X
et la valeur maximale Ac , appelée valeur crête du signal.
Lorsque la variable aléatoire X est d’amplitude non bornée, on prend pour valeur crête, A c telle que
Pr(|X| > Ac ) < α. Typiquement α est égal à 1% ou 5%. Dans le cas gaussien, on considère souvent
que les amplitudes supérieures à 3σ sont de probabilité négligeable.
On appelle facteur de crête la quantité F = A2c /PX .
Déterminer le facteur de crête dans les trois cas suivants :
– X est une variable aléatoire uniformément répartie sur (−A, A).
– X est la variable aléatoire X = A sin(Φ) où Φ est une variable aléatoire uniformément répartie sur
(0, 2π).
– X une variable gaussienne, centrée, de variance σ 2 .
Exercice 2.12 (Loi de Poisson) Soit X et Y 2 variables aléatoires indépendantes de loi de Poisson de
paramètres respectifs λ1 et λ2 .
1. Déterminer la fonction caractéristique de X.
Réponse : µ̂X (ξ) = exp(λ1 (eiξ − 1)).
2. Déterminer la loi de X + Y .
Réponse : écrire la fonction caractéristique. On trouve la loi de Poisson de paramètre λ = λ 1 + λ2 .
3. Déterminer l’expression de P (X = k|X + Y = n).
Réponse : P (X = k|X + Y = n) =P(X=k,X+Y=n)/P(X+Y=n)etP(X=k,X+Y=n)=P (X = k)P (Y =
n − k) si n ≥ k et donc P (X = k|X + Y = n) = Cnk pk (1 − p)n−k pour k ∈ {0, · · · , n} et 0 sinon avec
p = λ1 /(λ1 + λ2 ).
4. En déduire l’expression de E(f (X)|XPn + Y = n).
Réponse : E(f (X)|X + Y = n) = k=0 f (k)Cnk pk (1 − p)n−k .
22
Exercice 2.15 (Formule de Wald) Soit T , X1 , X2, . . .Xn , . . ., une suite de variables aléatoires
indépendantes à valeurs dans N. Les Xn sont identiquement distribués. On pose :
X
gX (z) = E(z X ) = pX (k)z k avec |z| < 1
k≥1
et
X
gT (z) = E(z T ) = pZ (k)z k avec |z| < 1
k≥1
Ces fonctions sont dites génératrices des probabilités, car on a p(n) = dg n (z)/dz|z=0 .
On pose S = (X1 + · · · + XT ) si T 6= 0 et 0 sinon.
Déterminer l’expression de P gS (z).
Indication : f (X1 , · · · , XT ) = i≥1 f (X1 , · · · , Xi )11(T = i).
Réponse : z S = X1 +···+Xi X1
· · · z Xi )11(T = i) + 11(T = 0) et donc
P P
i≥1 z 11(T = i) + 11(T = 0) = i≥1 (z
gS (z) = gT (g(X (z)).
Exercice 2.16 Soient (X1 , · · · , Xn ), n variables aléatoires indépendantes, de fonctions caractéristiques res-
pectives µ̂k (ξ) et N une autre variable aléatoire indépendante des Xk et à valeurs dans {1, · · · , n}. On donne
P (N = k) = pk . On pose Y = NT .
1. Déterminer, en fonction de pk et de µ̂k (ξ), la moyenne et la variance de Y .
2. Déterminer, en fonction de pk et de µ̂k (ξ), l’expression de la fonction caractéristique de Y .
Pn
Indication : f (XN ) P
= k=1 f (Xk )11(N = k).
n Pn Pn
Réponse : µ̂Y (ξ) = k=1 µ̂k (ξ)pk . De même E {Y } = k=1 E {Xk } pk , var(Y ) = k=1 var(Xk )pk .
Exercice 2.17 (Loi de Gauss : contre-exemple) On considère une variable aléatoire X gaussienne,
centrée, de variance 1 et on définit pour a > 0, Y par :
½
X si |X| ≤ a
Y =
−X si |X| > a
Exercice 2.18 (Loi des succès) Soit {Xn } une suite de variables aléatoires indépendantes de Bernoulli
avec P (Xk = 1) = p et 0 < p < 1 (symboliquement 1 désigne le succès). On pose q = 1 − p.
On note Tk la date du k-ème succès, c’est-à-dire :
T1 = inf{k ≥ 1 : Xk = 1}
Tn = inf{k ≥ Tn−1 : Xk = 1}
23
3. Déterminer la loi de (T1 , T2 , · · · , Tn ).
Réponse : Soit t1 < t2 <∈ N+ P (T1 = t1 , T2 = t2 , · · · , Tn = tn ) = P (W1 = t1 , W2 = t2 − t1 , · · · , Wn =
tn − tn−1 ).
4. Calculer la fonction génératrice des probabilités gTn (z) = E(z Tn )).
Réponse : soit gTn (z) = (gW1 (z))n avec gW1 (z) = p/(1 − qz)
Exercice 2.19 (Marche aléatoire) On considère une particule animée d’un mouvement rectiligne et ef-
fectuant des bonds équiprobables et indépendants d’amplitudeP±s. On suppose que X(0) = 0. On peut donc
n
écrire que la position X(n) au temps n est égale à X(n) = u=1 ∆(u), où ∆(u) est une suite de variables
aléatoires, indépendantes, à valeurs dans {−s, s}, telles que P (∆(u) = s) = 1/2.
1. Déterminer l’expression de la moyenne E(X(n))
Réponse : E(X(n)) = 0.
2. Déterminer l’expression de la fonction d’autocovariance E(X(n + k)X(n)).
Réponse : E(X(n + k)X(n)) = ns2 .
3. Déterminer la probabilité pour que X(n) = ms, pour tout m ∈ N.
(n+m)/2
Réponse : P (X(n) = ms) = Cn (1/2)n , pour m ∈ {−n, · · · , n} et 0 sinon.
Exercice 2.21 (Processus de branchement) Soit la suite de variables aléatoires Z ij à valeurs dans N
où (i, j) ∈ N+ × N+ . On pose :
N0 =1
N1 = Z11
N2 = Z21 + · · · + Z2N1
..
.
Nk = Zk1 + · · · + ZkNk−1
..
.
On peut voir Nk comme le nombre de membres de la k-ème génération. On note que si N k = 0 alors Nk+j = 0
pour tout j ≥ 1.
On note p(n) = P (Zij = n), g(z) = E(z Zij ) = n p(n)z n et Φk (z) = E(z Nk )
P
24
5. On note Ak = {ω : Nk (ω) = 0}. Déterminer l’expression de π = P (∪∞
k=0 Ak ). Quelle est la signification
de π ? Discuter sa valeur en fonction de E(Z11 ).
Réponse : Ak ⊂ Ak+1 . Par continuité de la probabilité π = limk→+∞ P (Ak ). π est la probabilité
d’extinction.
Exercice 2.22 (Loi multinomiale) Soit (X1 , · · · , XN ) N variables aléatoires indépendantes et identi-
P de R en g intervalles disjoints {∆ 1 , · · · , ∆g }. On note
quement distribuées. On considère une partition
pk = P (Xj ∈ ∆k ) avec k ∈ {1, · · · , g}. On a k pk = 1. On pose, pour k ∈ {1, · · · , g} :
N
X Nk
Nk = 11{k} (Xm ) et πk =
m=1
N
Nk est donc le nombre de valeurs de l’échantillon qui tombent dans ∆ k et πk la fréquence empirique. On
remarque que N1 + · · · + Ng = N et que π1 + · · · + πg = 1.
1. Déterminer, en fonction de πk , les expressions de E(Nk ) et de E(Nk Ns ). En déduire la matrice de
covariance du vecteur aléatoire (N1 , · · · , Ng ).
Même question pour le vecteur aléatoire (π1 , · · · , πg ).
Réponse : E(Nk ) = N pk , E(Nk Ns ) = N pk δ(k − s) + N (N − 1)pk ps , cov(Π) = N1 diag(P ) − N1 P P T .
2. Déterminer, en fonction de πk , l’expression de la fonction caractéristique du vecteur aléatoire
(N1 , · · · , Ng ). (N1 , · · · , Ng ) sont-elles indépendantes.
Réponse : µ̂N (ξ1 , · · · , ξg ) = (p1 ejξ1 + · · · + pg ejξg )N .
3. Déterminer l’expression de P (N1 = n1 , · · · , Ng = ng ).
n1 ng
Réponse : P (N1 = n1 , · · · , Ng = ng ) = n1N !
!·ng ! p1 · · · pg .
4. On pose :
√ πk − p k
Yk = N √
pk
Exercice 2.23 (Loi de Cauchy) On dit que la variable aléatoire X suit une loi de Cauchy de paramètre
α
α > 0 si la loi de X a pour densité pX (x) = π1 x2 +α 2.
25
Exercice 2.25 (Chaı̂ne de Markov) Soit Xn , n ≥ 0, une suite de variables aléatoires à valeurs dans
{1, 2, · · · , S}. On suppose que :
où (i, j, xn−2 , · · · , x1 ) ∈ {0, 1}n . On dit que Xn est une chaı̂ne de Markov à S états. pij représente la
probabilité de passer de l’état i à l’état j d’un instant n à l’instant suivant.
Si pij (n) est indépendant de n, on dit qu’elle est homogène. C’est ce que nous supposerons dans la suite.
On note A la matrice de transition d’éléments pij . On note πn = (P (Xn = 1, · · · , P (Xn = S)) le vecteur
des probabilités de la variable Xn et πn (i) sa i–ème composante.
1. Déterminer, en fonction de A et de π0 , l’expression de πn .
Réponse : πn = π0 An .
2. Déterminer la loi de X0 pour que la loi de Xn soit indépendante de n (on dit que Xn est stationnaire).
Réponse : Une solution est de prendre pour π0 le vecteur propre gauche, si il existe, qui a pour valeur
propre 1. Une autre solution est qu’il existe n0 tel An0 soit une matrice dont toutes les lignes sont
identiques.
3. Déterminer, en fonction de A, la probabilité conditionnelle P (X n = k | Xn−2 = i).
(2) (2)
Réponse : P (Xn = k | Xn−2 = i) = pij où pij est le terme générateur de la matrice A2 . En effet, en
utilisant 1.1, on a :
4. Déterminer Ploi conjointe de (Xn , · · · , X0 ). Il est pratique d’utiliser la notation P (Xn = xn |Xn−1 =
P la
xn−1 ) = i j pij 11(xn = j, xn−1 = i).
Qn Qn P P
Réponse : PP(X = x) = k=1 P (Xk = xk |Xk−1 = xk−1 )P (X0 = x0 ) = k=1 i j pij 11(xk =
j, xk−1 = i) i π0 (i)11(x0 = i) Parfois on a besoin du logarithme qui a donc pour expression :
n XX
X X
log(P (X = x)) = log(pij )11(xk = j, xk−1 = i) + log(π0 (i))11(x0 = i)
k=1 i j i
Exercice 2.26 (AMI) Soit Xn , n ≥ 1, une suite de variables aléatoires à valeurs dans {0, 1},
indépendantes et identiquement distribuées. On note p = P (Xn = 1). On fabrique la suite An de la façon
suivante : si Xn = 0 alors An = 0 et si Xn = 1 alors An vaut alternativement +1 ou −1. On pose A0 = −1.
Ce codage est désigné, dans la littérature, sous le terme de AMI pour Alternate Mark Inversion.
1. Vérifier que :
½
An = Sn−1 Xn avec S0 = 1
(2.17)
Sn = Sn−1 (1 − 2Xn )
26
3. Déterminer E(An ), E(An+k An ).
Réponse : Il suffit de vérifier que E(Xn ) = p, E(1 − 2Xn ) = 1 − 2p, E(Xn2 ) = p, E((1 − 2Xn )2 ) = 1,
et E(Xn (1 − 2Xn )) = −p et d’utiliser l’indépendance des Xi . E(An ) = p(1 − 2p)n−1 , E(A2n ) = p,
E(An+1 An ) = −p2 etc
Exercice 2.27 (Canal numérique à mémoire) On considère une suite X(n), n ≥ 1, de variables
aléatoires, à valeurs dans {0, 1}, indépendantes et identiquement distribuées. On note p = P (X n = 1) = 1/2.
On pose Sn = (X(n) X(n − 1))T avec X(0) = 1.
1. On note S = {∞, ∈, 3, 4} l’ensemble des valeurs de Sn . Déterminer la loi de Sn .
2. Montrer que la suite Sn est une chaı̂ne de Markov, c’est-à-dire :
Exercice 2.28 (canal numérique bruité) On considère la sortie d’un canal de communication :
où A(n) est une suite de variables aléatoires, à valeurs dans {−1, +1}, indépendantes et identiquement dis-
tribuées. On note p = P (A(n) = 1). θ ∈ R+ représente un terme d’atténuation dû au canal de transmission et
B(n) est une suite de variables aléatoires gaussiennes, indépendantes, centrées de variance σ 2 , qui représente
le bruit. On suppose que les suites A(n) et B(n) sont indépendantes. On donne E(B n4 ) = 3σ 4 .
1. Déterminer la loi de (X1 , · · · , Xn ) conditionnellement à (A1 , · · · , An ).
Réponse :
n
à !
1 1 X 2
pX|A=a (x, a) = √ exp − 2 (x(k) − θa(k))
σ 2π 2σ
k=1
1 , · · · , Xn ).
2. En déduire la loi de (XQ
n
Réponse : P (A = a) = k=1 (p11(a(k) = 1) + (1 − p)11(Ak = −1)) puis
n
1 Y
(1 − p) exp(−(xk + θ)2 /2σ 2 ) + p exp(−(xk − θ)2 /2σ 2 )
¡ ¢
pX (x) = 2 n/2
(2πσ ) k=1
3. On suppose que p = 1/2. Déterminer l’expression de E(Xn2 ) et de E(Xn4 ). En utilisant la loi des grands
nombres, en déduire un moyen d’estimer θ et σ 2 . Déterminer un intervalle de confiance de la valeur
de θ estimée.
Réponse : E(Xn2 ) = θ 2 + σ 2 et E(Xn4 ) = θ 4 + 3σ 4 . Il suffit de remplacer E(Xnm ) par k Xkm /N .
P
27
Exercice 2.30 (Transformation linéaire de variables gaussiennes) Soit deux variables aléatoires X 1
2 2
et X2 conjointement gaussiennes, centrées, de variances respectives σ X1 et σX2 et telles que E(X1 X2 ) =
ρσX1 σX2 avec −1 < ρ < 1 (|ρ| 6= 1). On considère la transformation définie par :
µ ¶ µ ¶
Y1 X1
=A
Y2 X2
où A désigne une matrice (2, 2) et que l’on note Y = AX. On rappelle que E(X) = 0 et on note cov(X) =
E(XX T ) la matrice de covariance de X.
1. Déterminer la densité de probabilité du couple (Y1 , Y2 ).
Indication : par linéarité (Y1 , Y2 ) sont gaussiennes. Il suffit de déterminer leur moyenne et leur matrice
de covariance. E(Y ) = AE(X) = 0 et cov(Y ) = Acov(X)AT .
2. Montrer que l’on peut trouver A telle que (Y1 , Y2 ) soient deux variables aléatoires gaussiennes,
indépendantes et variance 1.
Indication : A = (cov(X))−1/2 (on rappelle que cov(X) > 0).
Exercice 2.31 (Transformation de deux variables aléatoires gaussiennes) On considère deux va-
riables aléatoires conjointement gaussiennes X et Y , centrées, de même variance σ 2 et indépendantes. On
pose Z = |X − Y |. calculer E(Z) et E(Z 2 ).
Réponse : U = X − Y est une variable gaussienne de moyenne
√ 0 et de variance 2σ 2 . Et donc E(Z 2 ) =
2 2 2 2
R
E(U ) = 2σ et E(Z) = E(|U |) = R |u| exp(−u /4σ )du/ 4πσ . 2
Exercice 2.33 (Lois du Min et du Max) Soit (X1 , X2 , · · · , Xn ), n variables aléatoires indépendantes et
uniformément réparties sur (0,1). On considère les deux variables aléatoires définies par Y = min k {Xk } et
Z = maxk {Xk }.
1. Calculer la densité de probabilité de Y .
Indication : calculer Fy (y) = P (Y ≤ y).
Réponse : pY (y) = n(1 − y)n−1 11(0,1) (y).
2. Calculer la densité de probabilité de Z.
Réponse : pZ (z) = nz n−1 11(0,1) (z).
3. Calculer la densité de probabilité du couple (Y, Z). En déduire queY et Z ne sont pas indépendantes.
Exercice 2.34 (Estimation linéaire en moyenne quadratique) On veut évaluer, à partir d’une obser-
vation vectorielle Y de dimension finie n, une grandeur scalaire X. De façon pratique, Y représente une
quantité observable, tandis que X ne l’est pas.
L’idée est de prendre comme approximation de X une quantité, que nous notons X̂, qui soit une fonction
affine des observations, ce qui s’écrit :
X̂ = AT Y + b
28
Exercice 2.35 (Générateur de variables aléatoires) On considère une variable aléatoire U de loi uni-
forme sur (0, 1) et on se donne une fonction F (x) vérifiant les propriétés d’une fonction de répartition.
1. On suppose que F (x) est strictement croissante. On note F [−1] sa fonction inverse. Déterminer la loi
de probabilité de la variable aléatoire X = F [−1] (U ).
Réponse : FX (x) = F (x).
P+∞
2. On suppose que F (x) = k=0 p(k)11(−∞,x] (ak ) est la fonction de répartition d’une variable aléatoire
discrète à valeurs dans {a1 , · · · , ak , · · · . On pose cn = F (an ) pour n ≥ 0 et c−1 = 0. Déterminer la loi
de probabilité de la variable aléatoire discrète X, définie par X = a n si U ∈ (cn−1 , cn ] pour n ≥ 0.
3. Appliquer ces résultats pour écrire un algorithme qui engendre :
(a) à partir d’une variable aléatoire uniforme, une variable aléatoire de Raylegh de densité de proba-
bilité pX (x) = x exp(−x2 /2)11[0,+∞[ (x).
2
p
Réponse
p : F X (x) = 1 − exp(−x /2) donc X = −2 log(1 − U ) ou ce qui revient au même
X = −2 log(U ).
(b) A partir de deux variables aléatoires uniformes et indépendantes U et V , deux variables
aléatoires X et Y gaussiennes, indépendantes, centrées de même variance σ 2 . On déterminera,
préalablement, la loi du couple (R, Φ) tel que X = R cos(Φ) et Y = R sin(Φ) où (X, Y ) sont deux
variables gaussiennes,
p centrées, indépendantes depvariance 1.
Réponse : X = σ −2 log(U ) cos(2πV ) et Y = σ −2 log(U ) sin(2πV ).
(c) A partir d’une variable aléatoire uniforme, une variable aléatoire de Poisson.
29
Chapitre 3
Convergences
Dans ce chapitre on considère des suites de variables aléatoires. Sauf indication contraire, elles sont toutes
définies sur le même espace de probabilité.
3.1.1 Rappels
Théorème 3.1 (continuité monotone de la probabilité) Soit Bn une suite d’événements, définis sur
l’espace de probabilité (Ω, F, P ), monotone décroissante, c’est-à-dire que ∀n ≤ p, B n ⊇ Bp . On note
limn Bn = ∩+∞
n=1 Bn . Alors
P (lim Bn ) = lim P (Bn )
n n
Définition 3.1 (limite supérieure) Soit An une suite d’événements définis sur (Ω, F). On appelle limite
supérieure de An , l’ensemble noté lim sup An et défini par :
Signification de la limite supérieure : quel que soit n, il existe un rang k ≥ n, tel que ω ∈ A k . Une autre façon
est de dire que la limite supérieure représente l’ensemble des épreuves ω qui appartiennent à une infinité de
Ak .
Comme Bn = ∪+∞ k=n Ak est une suite monotone décroissante, d’après le théorème 3.1, P (lim sup A n ) =
limn P (∪+∞
k=n A k ).
Rappelons enfin que, si X est une variable aléatoire est de moyenne m et de variance 0, alors X est
presque sûrement égale à la valeur m. Dans ce cas nous utiliserons aussi l’expression : X est “déterministe”.
30
Théorème 3.2 (CNS de convergence p.s.) Soit Xn une suite de variables aléatoires et X une variable
aléatoire, toutes définies sur le même espace de probabilité (Ω, F, P ). On note A n (²) la suite d’événements
définis par :
An (²) = {ω ∈ Ω : |Xn (ω) − X(ω)| ≥ ²}
Xn →p.s. X si et seulement si, pour tout ² > 0, P (lim sup An (²)) = 0.
CN Xn →p.s. X. Notons N l’ensemble des épreuves ω t.q. Xn (ω) ne converge pas vers X(ω). Cela signifie
que ∀ω 6∈ N et ∀² > 0 il existe un nombre fini d’indices n t.q. |Xn (ω) − X(ω)| ≥ ² et donc ω appartient
à un nombre fini de An (²) et donc ω 6∈ lim sup An (²). Par conséquent si ω ∈ lim sup An (²) ⇒ ω ∈ N et
donc ∀², lim sup An (²) ⊂ N . Comme P (N ) = 0 ⇒ P (lim sup An (²)) = 0.
CS ∀² on a P (lim sup An (²)) = 0. On note alors An,k = {ω t.q. |Xn (ω) − X(ω)| ≥ 1/k}, avec k ∈ N, et
Bk = lim supn An,k . Par hypothèse P (Bk ) = 0. Posons N = ∪k Bk et donc P (N ) = 0. Il reste à
montrer que, ∀ω 6∈ N , la suite Xn (ω) converge vers X(ω). En effet, considérons ω 6∈ N et choisissons
un ² > 0 et un entier k > 1/², alors il n’existe qu’un nombre fini d’indices n t.q. |X n (ω) − X(ω)| ≥ 1/k
et donc a fortiori t.q. |Xn (ω) − X(ω)| ≥ ². Ce qui signifie que, pour tout ² et à partir d’un certain rang,
|Xn (ω) − X(ω)| < ² et donc Xn (ω) converge vers X(ω).
Les deux lemmes suivants peuvent être utilisés pour démontrer la convergence presque sûre ou l’absence de
convergence presque sûre.
P+∞
Lemme 3.1 (Borel-Cantelli) Soit An une suite d’événements telle que k=1 P (An ) < +∞, alors
P (lim sup An ) = 0.
+∞
P∞ P (lim sup An ) = limn P (∪k=n Ak ). En utilisant la borne de l’union, il vient P (lim sup An ) ≤
En effet
limn k=n P (Ak ). Mais, par hypothèse, cette limite vaut zéro.
P+∞
Lemme 3.2 (Borel-Cantelli) Soit An une suite d’événements indépendants telle que k=1 P (An ) = +∞,
alors P (lim sup An ) = 1.
En effet
Théorème 3.3 (CS de convergence p.s.) Soit Xn une suite de variables aléatoires et X une variable
aléatoire, toutes définies sur le même espace de probabilité (Ω, F, P ). On note A n (²) la suite d’événements
définis par :
An (²) = {ω ∈ Ω : |Xn (ω) − X(ω)| ≥ ²}
P+∞
Si, pour tout ² > 0, k=1 P (An (²)) < +∞, alors Xn →p.s. X.
Théorème 3.4 (autre CS de convergence p.s.) Soit Xn une suite de variables P+∞ aléatoires et Xª une va-
riable aléatoire, toutes définies sur le même espace de probabilité (Ω, F, P ). Si n=1 E |Xn − X|2 < +∞,
©
alors Xn →p.s. X.
2
Posons Tn = |Xn − X|√ . D’après l’inégalité de Markov, pour tout δ > 0, P (Tn ≥ δ)© ≤ E {Tn } /δ.ª On en
2 2
déduit, en posant ² = ©δ, que, pour tout ² > 0, P (A n (²)) = P (|X n − X| ≥ ²) ≤ E |X n − X| /² . Par
conséquent, si la série E |Xn − X|2 converge, alors la série P (An (²)) converge aussi.
ª
31
3.1.3 Convergence en probabilité
Définition 3.3 Soit Xn une suite de variables aléatoires et X une variable aléatoire, toutes définies sur le
même espace de probabilité (Ω, F, P ). On note An (²) la suite d’événements définis par :
Si, pour tout ² > 0, P (An (²)) → 0 quand n → +∞, on dit que Xn converge en probabilité vers X que l’on
note
X n →P X
Pour établir la convergence en probabilité, une façon de faire est d’utiliser l’inégalité de Tchebyschev. Voyons
un exemple.
Exemple 3.1 Soit Xn une suite de variables aléatoires indépendantes, de même moyenne m et de même
variance σ 2 . On pose Tn = (X1 + · · · + Xn )/n. Un calcul élémentaire montre que E {Tn } = m et que
var(Tn ) = σ 2 /n. D’après l’inégalité de Tchebyschev, ∀² > 0, P (|Tn − E {Tn } | ≥ ²) ≤ var(Tn )/²2 . En
remplaçant on a :
σ2
P (|Tn − m| ≥ ²) ≤ 2
n²
qui montre la convergence en probabilité de Tn vers m.
Le théorème 3.3 illustre d’une certaine façon la différence entre la convergence p.s. et la convergence en
probabilité. Soit Xn une suite de variables aléatoires indépendantes à valeurs dans {0, 1} avec P (X n = 1) =
1/n. On a alors, ∀² > 0, P (|Xn − 0| ≥ ²) = P (Xn = 1) = 1/n qui tend vers 0 quand n tend vers l’infini.
Et donc Xn →P 0. Mais, puisque les Xn sont indépendants, la suite An (²) = {ω t.q. |Xn (ω) − 0| ≥ ²}
est indépendante. Et d’après le théorème 3.3 P (lim sup An (²)) = 1 et donc d’après le théorème 3.2 Xn ne
converge pas presque sûrement vers 0.
Définition 3.4 Soit Xn une suite de vecteurs aléatoires de dimension finie d et X un vecteur aléatoire
de dimension finie d, tous définis sur le même espace de probabilité (Ω, F, P ). On note A n (²) la suite
d’événements définis par :
An (²) = {ω ∈ Ω : kXn (ω) − X(ω)k ≥ ²}
Si, pour tout ² > 0, P (An (²)) → 0 quand n → +∞, on dit que Xn converge en probabilité vers X que l’on
note
X n →P X
Lemme 3.3 (CNS composante par composante) Xn →P X si et seulement si Xnj →P X j pour tout
j = 1, · · · , d.
CN Si |Xnj (ω)−X j (ω)|2 ≥ ² alors kXn (ω)−X(ω)k2 ≥ ². Par conséquent An (²) = {ω t.q. kXn (ω)−X(ω)k2 ≥
²} ⊇ Ajn (²) = {ω t.q. kXnj (ω) − X j (ω)k2 ≥ ²}. Et donc P (Ajn (²)) ≤ P (An (²)).
CS Si kXn (ω) − X(ω)k2 ≥ ² alors il existe j tel que |Xnj (ω) − X j (ω)|2 ≥ ²/d. Par conséquent An (²) =
{ω t.q. kXn (ω)−X(ω)k2 ≥ ²} ⊆ ∪dj=1 {ω t.q. kXnj (ω)−X j (ω)k2 ≥ ²/d}. Avec une notation évidente et
Pd
en utilisant la borne de l’union, P (An (²)) ≤ j=1 P (Ajn (²/d)). Si ∀j, Xnj →P X j , alors P (Ajn (²/d)) → 0
et donc P (An (²)) → 0.
1 il s’agit dans ce paragraphe de norme portant sur des valeurs déterministes, contrairement à la notation introduite au
pragraphe suivant qui porte sur des espérances mathématiques de variables aléatoire.
32
3.1.4 Convergence en moyenne d’ordre q
On admettra le théorème suivant.
Théorème 3.5 Soit (Ω, F, P ) un espace de probabilité et soit Lr (Ω, F, P ) l’ensemble des variables aléatoires
telles que kXkr = (E {|Xn |r })1/r < +∞. Alors Lr (Ω, F, P ) est un espace de Banach (complet) pour la norme
définie par kXkr .
En particulier pour r = 2,
Théorème 3.6 Soit©(Ω, F,ªP ) un espace de probabilité et soit L2 (Ω, F, P ) l’ensemble des variables aléatoires
telles que kXk22 = E |Xn |2 < +∞. Alors L2 (Ω, F, P ) est un espace de Hilbert pour pour la norme définie
par kXk2 qui dérive du produit scalaire E {XY }.
Théorème 3.8 (Inégalité de Jensen) Soit (Ω, F, P ) un espace de probabilité et X une variable aléatoire
définie sur Ω. Si g est une fonction convexe de Rd dans R, alors g(E {X}) ≤ E {g(X}).
|kXkr − kY kr | ≤ kX − Y kr ≤ kXkr + kY kr
Théorème 3.10 (Inégalité de Hölder) Pour tout couple (r, s) tel que 1/r + 1/s = 1 on a :
|E {XY } | ≤ kXkr kY ks
Définition 3.5 Soit Xn une suite de variables aléatoires et X une variable aléatoire, toutes appartenant à
Lr (Ω, F, P ). On dit que Xn converge en moyenne d’ordre r vers X si et seulement si :
Lorsque r = 2, on parle alors de convergence en moyenne quadratique que nous notons X → m.q. X.
Théorème 3.11 Soit Xn une suite de variables aléatoires et X une variable aléatoire, toutes appartenant
à Lr (Ω, F, P ). Si Xn converge en moyenne d’ordre r c’est-à-dire :
alors
E {|Xn |r } −→n→+∞ E {|X|r }
Il suffit d’appliquer l’inégalité triangulaire.
Exemple 3.2 Soit Xn une suite de variables aléatoires indépendantes, de même moyenne m et de même
variance σ 2 . On pose Tn = (X1 + · · · + Xn )/n. Un calcul élémentaire montre que E {Tn } = m et que
var(Tn ) = σ 2 /n, qui montre que E|Tn − m|2 tend vers 0 et donc que Tn converge en m.q. vers m.
kXk22 = E X H X
© ª
33
Définition 3.6 Soit Xn une suite de vecteurs aléatoires de dimension d et X un vecteur aléatoire de di-
mension d, toutes appartenant à Lr (Ω, F, P ). On dit que Xn converge en moyenne d’ordre r vers X si et
seulement si :
E {kXn − Xkr } −→n→+∞ 0
Ce qui est équivalent à :
E |Xnj − X j |r −→n→+∞ 0
© ª
∀j ∈ {1, · · · , d}
On note Xn →L X.
Il est à noter que 3.1 s’écrit :
Z Z
f (x)Pn (dx) −→n→+∞ f (x)P (dx)
Rd Rd
Il s’agit donc à proprement parler de convergence d’une suite de mesures. Il n’y a donc pas besoin de
considérer des variables aléatoires ni même que les mesures soient définies sur les mêmes espaces mesurables.
Que se passe-t-il si les fonctions ne sont pas continues tout en restant bornées ? Comme c’est le cas des
fonctions indicatrices. Le théorème suivant donne une réponse.
Théorème 3.12 Soit Xn une suite de vecteurs aléatoires qui converge en loi vers X. Alors pour toute
fonction f bornée qui vérifie :
on a :
E {f (Xn )} −→n→+∞ E {f (X)}
Ce résultat peut être appliqué aux fonctions indicatrices. En particulier on a :
Théorème 3.13 (convergence des fonctions de répartition) Soit Xn une suite de variables aléatoires
qui converge en loi vers X. On note FXn (x) et FX (x) les fonctions de répartition respectives. Alors on a :
Exemple 3.3 On considère une suite de variables aléatoires Xn de loi uniforme sur {0, · · · , n−1
n }. On en
déduit que :
0 si x<0
FXn (x) = P (Xn ≤ x) = (1 + bnxc)/n si 0≤x<1
1 si x≥1
où buc désigne la partie entière de u. On vérifie aisément FXn (x) tend, pour tout x, vers FX (x) = x11[0,1[ (x)
qui est la fonction de répartition de la loi uniforme sur (0, 1). par conséquent X n tend en loi vers la loi
uniforme.
Théorème 3.14 (fondamental) Soit Xn une suite de vecteurs aléatoires de dimension d et X un autre
vecteur aléatoire de dimension d. On note µ̂Xn (ξ) et µ̂X (ξ) leurs suites de fonctions caractéristiques respec-
tives. Alors Xn converge en loi vers X si et seulement si, pour tout ξ ∈ Rd , µ̂Xn (ξ) converge simplement
vers µ̂X (ξ).
34
Exemple 3.4 Soit une suite Xn de variables aléatoires, gaussiennes de moyenne mn et de variance σn2 et
X une autre variable aléatoire gaussienne de moyenne m et de variance σ 2 . On suppose que mn → m et que
σn2 → σ 2 . Alors Xn →L X. En effet
1
µ̂Xn (ξ) = exp(jmn ξ − σn2 ξ 2 )
2
qui, d’après la continuité de la loi exponentielle, converge point par point vers la fonction caractéristique de
X.
Lemme 3.4 Soit Xn une suite de vecteurs aléatoires de dimension d et X un autre vecteur aléatoire de
dimension d. On note Xnj et X j leurs composantes respectives. On a alors :
Xn →L X ⇒ Xnj →L X j
Théorème 3.15 (CNS de Cramer–Wold) Soit Xn une suite de vecteurs aléatoires de dimension d et X
un autre vecteur aléatoire de dimension d.
X n →L X ⇔ ∀λ ∈ Rd λ T X n →L λ T X
Il suffit de vérifier que, pour tout λ la variable aléatoire Yn = λT Xn converge en loi vers Y = λT X.
– (propriété 1) Xn →p.s. X ⇔ ∀² > 0 on a P (lim sup An (²)) = 0, où An (²) = {ω : |Xn − X| ≥ ²}. Mais
P (lim sup An (²)) = limn P (∪k≥n Ak (²)) ≥ P (An (²)) et donc P (An (²)) tend vers 0.
– (propriété 2) Posons Tn = |Xn − X|r . D’après l’inégalité de Markov, pour tout δ > 0, P (Tn ≥ δ) ≤
E {Tn } /δ. On en déduit que, pour tout ² > 0, P (|Xn − X| ≥ ²) ≤ E {kXn − Xkr } /²r . Par conséquent,
si E {kXn − Xkr } tend vers 0, P (kXn − Xk ≥ ²) tend aussi vers 0.
– (propriété 3) à admettre.
Théorème 3.17 Soit une suite Xn de variables aléatoires et a une constante (variable aléatoire de variance
nulle). Si Xn converge en loi vers a, alors Xn converge en probabilité vers a.
Xn →L a(constante) ⇒ X n →P a
La convergence en loi dit que la suite des fonctions de répartition FXn (x) converge vers la fonction FX (x) =
11[a,+∞[ (x) sauf éventuellement en a (point de discontinuité). En particulier, pour tout ² > 0, P (X n <
a + ²) → 1 et P (Xn ≤ a − ²) → 0. Par conséquent P (|Xn − a| < ²) = P (a − ² < Xn < a + ²) = P (Xn <
a + ²) − P (Xn ≤ a − ²) qui tend vers 1. En définitif P (|Xn − a| ≥ ²) tend vers 0.
35
Exemple 3.5 (Convergence en probabilité 6⇒ convergence p.s.) Soit Xn une suite de variables
aléatoires indépendantes, à valeurs dans {0, 1}) et telles que P (X n = 0) = 1 − 1/n et P (Xn = 1) = 1/n.
Pour tout ² > 0, P (|Xn − 0| ≥ ²) = P (Xn = 1) = 1/n. Par conséquent Xn →P 0. Par, contre d’après le
lemme 3.2, Xn ne converge pas presque sûrement vers 0, puisque la série 1/n diverge.
Attention : les convergences pour des variables aléatoires n’entraı̂nent pas a priori la convergence des
moments ni de tout autre espérance portant sur des fonctions non continues ou des fonctions non bornées.
Plus précisément, on retiendra que :
Xn →p.s. X
E Xnk → E X k
© ª © ª
X n →P X 6⇒
X n →L X
Exemple 3.6 Soit Xn une suite de variables aléatoires à valeurs dans {0, n3 }) et telles que P (Xn = 0) =
1 − 1/n2 et P (Xn = n3 ) = 1/n2 . Pour tout ² > 0, P (|Xn − 0| ≥ ²) = P (Xn = n3 ) = 1/n2 . D’après le
théorème 3.3, Xn →p.s. 0. Par contre E {Xn } = n qui tend vers l’infini.
Théorème 3.21 (théorème de la limite centrale) Soit Xn = (Xn1 , · · · , Xnd ) une suite de vecteurs
j
aléatoires
n o de dimension d indépendants et identiquement distribués. On suppose que, pour tout j, µ =
j 1 d
E X1 < +∞. On note µ le vecteur–moyenne µ = (µ , · · · , µ ). On suppose de plus que, pour tout j,
E[|X1j |2 ] < +∞. On note C = cov(X1 ) la matrice de covariance du vecteur aléatoire X1 . Alors :
à n !
√ 1X
n Xk − µ →L N (0, C)
n
k=1
où N (0, C) désigne la loi d’un vecteur gaussien de dimension d, centré, de matrice de covariance C.
On rappelle que µ est un vecteur de dimension d et C est une matrice de dimension d × d non négative. En
utilisant l’inégalité de Schwarz, on vérifie que si pour tout j E[|X1j |2 ] < +∞, alors pour tout couple (j, k)
on a E[X1j X2k ] < +∞
En particulier le cas d = 1 s’écrit :
36
Théorème 3.22 (théorème de la limite centrale) Soit Xn une suite de variables aléatoires
indépendantes et identiquement distribuées. On suppose que, µ = E {X 1 } < +∞ et que E[|X12 ] < +∞. On
note σ 2 = E[|X12 ] − |µ|2 . Alors :
à n !
√ 1X
n Xk − µ →L N (0, σ 2 )
n
k=1
où N (0, σ 2 ) désigne la loi d’une variable aléatoire gaussienne, centrée, de variance σ 2 .
Théorème 3.23 (limite centrale par continuité) Soit Sn une suite de vecteurs aléatoires de dimension
d qui vérifie :
√
n (Sn − m) →L N (0, C)
et soit f (s) = [f (s1 , · · · , sd ) · · · fk (s1 , · · · , sd )]T une transformation vectorielle de Rd dans Rk , supposée deux
fois différentiable au point m. Alors
√
n (f (Sn ) − f (m)) →L N (0, Γ)
3.4 Exercices
Exercice 3.1 (loi faible des grands nombres) Soit (Z1 , Z2 , · · · , Zn ) une suite
Pnde n variables aléatoires
indépendantes, de même loi, de moyenne m et de variance σ 2 . On pose Tn = n1 i=1 Zi . Montrer que :
σ2
P (|Tn − m| ≥ ²) ≤
n²2
qui signifie que la moyenne “empirique” Tn tend en probabilité vers m.
Indication : appliquer l’inégalité de Tchebychev à la variable aléatoire T .
Exercice 3.2 (lemmes de Borel-Cantelli) Soit {An }n≥1 une suite d’événements sur (Ω, F). On rappelle
que la limite supérieure de cette suite est définie par lim sup A n = ∩n≥1 ∪+∞
k=n Ak .
P
1. Montrer que n≥1 P (An ) < +∞ ⇒ P (lim sup An ) = 0.
Indication : utiliser P (lim sup An ) = limn ∪+∞ +∞
k=n Ak et P (∪k=n Ak ) ≤ P (An ).
P suppose de plus que les éléments de la suite {An }n≥1 sont indépendants. Montrer que
2. On
n≥1 P (An ) = +∞ ⇒ P (lim sup An ) = 1.
Q+∞
Indication : montrer que P (∪+∞
k=n Ak ) = 1 − k=n (1 − P (Ak )).
Exercice 3.3 (en probabilité et p.s.) On considère une suite de variables aléatoires de Bernoulli (à va-
leurs dans {0, 1}) indépendantes. On suppose que P (Xn = 1) = 1/n. On pose, pour ² > 0, An (²) = {ω ∈ Ω :
|Xn (ω)| ≥ ²).
1. Déterminer l’expression de P (An (²)).
Réponse : P (An (²)) = 1/n.
2. En déduire que Xn converge en probabilité vers 0.
Indication : P (An (²)) = P (|Xn − 0| > ²).
37
3. Montrer que Xn ne converge pas presque sûrement vers 0.
Indication : second lemme de Borel-Cantelli.
Exercice 3.4 (loi forte des grands nombres) Soit {Sn }n≥1 et S des variables aléatoires définies sur le
même espace de probabilité (Ω, F, P ). On dit que Sn converge presque sûrement (p.s.) vers S, ssi il existe
un événement N ∈ F tel que P (N ) = 0 et tel que ∀ω ∈ N , limn→+∞ Sn (ω) 6= S(ω).
On rappelle un critère de convergence presque sûre : Soit A n (²) = {ω ∈ Ω : |Sn (ω) − S(ω)| ≥ ²}. Sn
converge p.s.vers S si et seulement si ∀² > 0 P (lim sup An (²)) = 0.
Soit Xn une suite de variables aléatoires indépendantes, centrées, telles que c = sup i E Xi4 < +∞. On
© ª
pose Sn = X1 + · · · + Xn .
1. Montrer que P (|Sn |/n| ≥ ²) ≤ E Sn4 /²4 n4 .
© ª
Exercice 3.5 (continuité) On considère une suite de vecteurs aléatoires X n et un vecteur aléatoire X
de (Ω, F, P ) dans Rd tels que Xn →P X et soit f une fonction continue de Rd dans Rk . Montrer que
f (Xn ) →P f (X).
Indication : introduire un nombre A > 0 et montrer que P (kf (X n ) − f (x)k ≥ ²) ≤ P (kf (Xn ) − f (X)k ≥
², kXk ≤ A, kXn k ≤ A) + P ({kXk > A} ∪ {kXn k > A}). En utilisant la continuité uniforme de f sur
{x : kxk ≤ A}, déduire le résultat.
Exercice 3.6 (processus MA-1) On considère une suite de variables aléatoires W n , n ≥ 1, indépendantes
2
de même loi gaussienne, centrée, de variance σw . On pose :
½
X1 = W 1
Xn = aWn + Wn−1 pour n ≥ 2
2. Montrer que, quand N tend vers l’infini, XN (n) converge en moyenne quadratique vers une variable
aléatoire X(n).
3. Déterminer la loi de X(n).
Réponse : X(n) est gaussienne, centrée de variance σ 2 /(1−a2 ). On remarque que la loi est indépendante
de n. On dit que X(n) est stationnaire.
4. Montrer X(n) est solution de l’équation récurrente :
Xn = aXn−1 + Wn (3.2)
Exercice 3.8 (processus AR-1) On considère une suite de variables aléatoires W n , n ≥ 1, indépendantes
2
de même loi gaussienne, centrée, de variance σw . On pose :
½
X1 = W 1
Xn = aXn−1 + Wn pour n ≥ 2
38
1. Déterminer l’expression de Xn en fonction de Wn , Wn − 1, · · · .
Réponse : Xn = Wn + aWn−1 + · · · + an−1 W1 .
2. Déterminer la loi de probabilité de (X1 , · · · , Xn ).
Indication : on passe de (W1 , · · · , Wn ) à (X1 , · · · , Xn ) par une transformation linéaire.
3. Déterminer la loi de probabilité
√ de Xn .
Réponse : pXn (x) = (σn 2π)−1 exp(−x2 /2σn2 ) avec σn2 = σw
2
(1 − a2n )/(1 − a2 ).
4. Montrer que Xn converge en moyenne quadratique vers une variable aléatoire dont on déterminera la
loi.
Indication : il suffit de montrer que E Xn2 < +∞ et que la suite Xn est une suite de Cauchy.
© ª
2
Réponse : Xn →m.q. X, où X est une variable aléatoire gaussienne, centrée, de variance σ w /(1 − a2 ).
Exercice 3.9 (loi des événements rares) On considère un système comportant n particules. On note
pn la probabilité pour que l’une de ces n particules soit détruite. On suppose que ces événements sont
indépendants les uns des autres. On note X la variable aléatoire représentant le nombre de particules
détruites.
1. Déterminer la probabilité pour que X = k. En déduire la fonction caractéristique de la loi de probabilité
de X.
2. On suppose que pn = λ/n, où λ désigne une constante. Par conséquent limn→+∞ pn = 0 (événement
rare). En faisant tendre n vers l’infini, montrer que le nombre X de particules détruites tend en loi
vers une loi de Poisson de paramètre λ.
Exercice 3.10 On veut mettre à profit la loi des grands nombres pour estimer l’intégrale p = Q(γ) avec
R +∞ 2 √
Q(x) = x e−t /2 dt/ 2π.
Pour cela on considère, tout d’abord, une suite de variables aléatoires X i , i ∈ {1, · · · , n} indépendantes,
gaussiennes, centrées de variance 1 et on note Bi = 11(Xi > γ).
On considère une autre suite de variables aléatoires Yi , i ∈ {1, · · · , n} indépendantes, gaussiennes, de
moyenne γ et de variance 1 et on note Wi = exp(−γYi + γ 2 /2)11(Yi > γ) (noter que pour Yi > γ, Wi < 1.
1. Déterminer E {Bi }, var(Bi ), E {Wi } et var(Wi ).
2. Pour estimer la valeur de p, on considère p̂1 = n1 i Bi . En utilisant le théorème de la limite centrale,
P
déterminer n qui donne, avec un niveau de confiance de α = 95%, p avec une précision de ² r = 10%.
3. Pour estimer la valeur de p, on considère p̂2 = n1 i Wi . En utilisant le théorème de la limite centrale,
P
déterminer n qui donne, avec un niveau de confiance de 95%, p avec une précision de 10%.
4. Conclure.
2
Réponse : E {B1 } = p et var(B1 ) = p(1 − p) et E {W1 } = p et E W12 = Q(2γ)eγ .
© ª
√ p
Le théorème de la limite centrale dit que, pour un estimateur p̂, sans biais, n vérifie 2Q(² r np var(p̂)) =
1 − α.
Pour comparer p̂1 et p̂2 , on peut faire le rapport des 2 variances :
Q(2γ) exp(γ 2 ) − p2
G(p) =
p(1 − p)
avec p = Q(γ). Une application numérique montre que, pour γ = 5, G(p) ' 7 × 10 10 .
Exercice 3.11 (erreur d’arrondi) On suppose que dans un programme de calcul on arrondit chaque
opération après le J-ème chiffre décimal. On effectue n opérations et on suppose que les erreurs sont
additives, indépendantes et de loi uniforme sur (−10−J /2, 10−J /2). Si on note X l’erreur finale, on a
X = Y1 + · · · + Yn avec Yi sont n variables aléatoires indépendantes de densité de probabilité p Yi (y) =
1 −J
q 11(y ∈ (−q/2, q/2) où q = 10 .
1. Déterminer E {Yi } et var(Yi ).
Réponse : E {Yi } = 0 et var(Yi ) = q 2 /12.
2. En utilisant le théorème de la limite centrale (pour n grand), donner un intervalle de confiance à 95%
R +∞ 2 √
pour l’erreur sur le résultat final. On donne 2Q(1.96) = 0.05 où Q(x) = x e−t /2 dt/ 2π.
Réponse : il y a 95% de chance pour que − 21.96√ q ≤ X ≤ 1.96
3
√ q.
2 3
39
Exercice 3.12 (échec à un examen) 100 élèves se présentent à un examen avec la même probabilité de
réussite de 0, 9. On admet que les élèves réussissent indépendamment les uns des autres. Calculer la proba-
bilité que le nombre d’échecs soit inférieur ou égal à 15.
Soit (Uk , Vk ) deux suites aléatoires indépendantes de loi uniforme sur (0, 1). On note Y k = 11{(0,1)} (Uk2 + Vk2 )
et Jn = (Y1 + · · · + Yn )/n.
1. Déterminer la loi de Yk . En déduire E {Yk } et var(Yk ).
2. Déterminer la loi de (Y1 + · · · + Yn ).
3. Déterminer la loi de Jn . En déduire E {Jn } et var(Jn )
4. En appliquant le théorème de la limite centrale, déterminer un intervalle de confiance à 99% de π. En
déduire n qui assure avec 99% de chances d’obtenir π à moins de 1%.
Exercice 3.15 (loi de Cauchy) On considère Xk une suite de variables aléatoires indépendantes, identi-
quement distribuées suivant une loi de Cauchy. On rappelle que cette loi a pour densité :
1 1
pX (x) =
π 1 + x2
et pour fonction caractéristique :
40
Exercice 3.17 (Compression de source) Soit Xn une suite de variables aléatoires, indépendantes,
discrètes à valeurs dans l’ensemble (alphabet) fini A = {a1 , a2 , · · · , aL }, de même loi. On note pi = P (Xn =
PL
ai ) ≥ 0 avec i=1 pi = 1.
On note PX la loi de probabilité de X1 , · · · , XN sur AN , définie par la mesure des singletons PX (x) =
P (X1 = x1 , · · · , XN = xN ), où x = (x1 , x2 , · · · , xN ) est un point de AN .
PL PN
1. Déterminer l’expression de log 2 (PX (x)). (réponse : log2 (PX (x)) = j=1 n=1 11(xn = aj ) log2 (pj ))
2. entropie PL
A la variable aléatoire Xn on associe la variable aléatoire Yn = j=1 log2 (pj )11(Xn = aj ) (c’est-à-dire
Yn prend la valeur log2 (pj ) si Xn = aj ). On pose SN = Y1 + · · · + YN .
On appelle entropie de la suite la quantité H = − limN N1 E {SN }.
P
(a) Montrer que H = − i pi log2 (pi ) avec par convention 0 × log2 (0) = 0. (réponse : H = −E {Y1 }
car les Yn sont de même loi).
P P
(b) On considère la suite {qi ≥ 0} où i ∈ {1, · · · , L} avec i qi = 1. Montrer que H ≤ − i pi log(qi )
(utiliser la convexité de la fonction log).
(c) En déduire que H ≤ log2 (L), l’égalité ayant lieu si et seulement si pi = 1/L pour tout i.
(d) Montrer que la variable aléatoire −SN /N tend en probabilité vers H. (appliquer le loi des grands
nombres).
3. ensemble typique
On appelle ensemble typique, l’ensemble défini pour tout ² > 0 par :
n o
AN (²) = x ∈ AN t.q. 2−N (H+²) ≤ PX (x) ≤ 2−N (H−²)
(a) Montrer que pour tout ² > 0, il existe K tel que pour tout N ≥ K, PX (AN (²)) > 1 − ².
(b) card(AN (²)) ≤ 2N (H+²) .
(c) Montrer que pour tout ² > 0, il existe K tel que pour tout N ≥ K, card(A N (²)) ≥ (1 − ²)2N (H−²) .
4. Compression
On note bac la partie entière de a.
On code les suites de N lettres construit à partir de l’alphabet A (texte de longueur N ) de la façon
suivante :
– les éléments de AN (²) sont codés avec bN (H +²)c+1 bits précédés du bit 0, soit au total bN (H +²)c+2
bits.
– les éléments du complémentaire de AN (²) sont codés avec bN log2 (L)c + 1 bits, précédés du bit 1,
soit au total bN log2 (L)c + 2 bits.
On note λ(X) la longueur (en bits) du mot-code associé au texte X = (X 1 , · · · , XN ) comportant N
lettres et L̄ = E {λ(X)} /N le nombre moyen de bits utilisés pour coder une lettre de l’alphabet A.
Montrer que pour tout ² > 0, il existe K tel que, pour tout N > K, L̄ ≤ H + ².
Le résultat obtenu signifie que le nombre moyen de bits, utilisés pour coder une lettre de l’alphabet A,
peut être rendu aussi proche que l’on veut de H, alors qu’a priori on aurait pris blog 2 (L)c + 1 bits pour coder
chaque lettre de A. H représente donc la limite ultime de compression. Si H < log 2 (L) il y a un gain. Ce
gain est nul si la loi de X est uniforme puisque dans ce cas H = log 2 (L). Ce résultat montre de plus que,
pour s’approcher de l’entropie, il faut coder de longue suites de lettres.
41
Chapitre 4
2
Définition 4.1 On dit que la variable aléatoire X à valeurs complexes est de carré intégrable si E |X| <
+∞.
Théorème 4.1 Soit L2P l’espace vectoriel des variables aléatoires de carré intégrable, définies sur l’espace
de probabilité (Ω, A, P ). Muni du produit scalaire E[XY ∗ ], L2P a une structure d’espace de Hilbert.
Cette structure permet de déduire un certain nombre de propriétés importantes à partir de considérations
purement géométriques.
∗
Deux variables aléatoires
q X et Y sont dites orthogonales si et seulement si E[XY ] = 0. La norme de
2
X est définie par kXk = E |X| et la distance euclidienne entre deux éléments par d(X, Y ) = kX − Y k.
L’inégalité de Schwarz a pour expression :
2 2 2
|E[XY ∗ ]| ≤ E |X| E |Y |
Théorème de projection
Dans un espace de Hilbert, le théorème de projection permet d’associer à un élément quelconque de
l’espace sa meilleure approximation quadratique contenue dans un sous-espace vectoriel fermé. Nous en
donnons l’énoncé suivant.
Théorème 4.2 Soit L2P l’espace de Hilbert des variables aléatoires de carré intégrable et C un sous espace
vectoriel fermé de L2P . Alors, à toute variable aléatoire X de L2P , on peut associer un élément unique X0 de
C tel que ∀Y ∈ C on ait d(X, X0 ) ≤ d(X, Y ). Le vecteur X0 vérifie pour tout Y ∈ C la relation X − X0 ⊥ Y .
Cette relation constitue ce que l’on appelle le principe d’orthogonalité. Elle dit que l’élément de C à la
distance la plus proche de X est donné par la projection orthogonale de X sur C. En pratique c’est cette
relation qui permet de déterminer la solution X0 .
Complétons ce résultat par la valeur de l’erreur minimale. Il vient ²2min = kX − X0 k2 = E[(X − X0 )X ∗ ] −
E[(X − X0 )X0∗ ]. En vertu de l’orthogonalité, le second terme est nul et par conséquent ²2min = E[(X −
X0 )X ∗ ] = E|X|2 − E[X0 X ∗ ].
42
Partant de Y = [Y1 Y2 · · · YN ]T , ce théorème permet de déterminer la meilleure approximation de X.
En pratique Y représente l’observation et X un état inconnu, lié statistiquement à Y et que l’on souhaite
estimer à partir de Y. Suivant que l’espace sur lequel on effectue la projection est l’ensemble des combinaisons
linéaires affines de Y ou l’ensemble des fonctions g(Y) de carré intégrable, on obtient la régression affine ou
l’espérance conditionnelle.
A = R−1
½
Y Y rY X (4.1)
a0 = m X − A H mY
Par conséquent :
−1
X0 = m X + r H
Y X RY Y (Y − mY )
et
−1
²2min = σX
2
− rH
Y X R Y Y rY X (4.2)
Ces résultats sont démontrés dans l’exercice 4.3. On note que (a0 , A) est solution d’un système linéaire où
n’interviennent que les moments du premier et du second ordres de la variable aléatoire à (N + 1) dimensions
(X, Y1 , · · · , YN ).
X vectoriel
Les résultats précédents s’étendent sans difficulté au cas où X est un vecteur. Il suffit d’optimiser X 0 ,
composante par composante. Soit X = [X1 X2 · · · XM ]T et Y = [Y1 Y2 · · · YN ]T deux vecteurs aléatoires
dont toutes les composantes sont de carré intégrable et soit C l’espace de toutes les combinaisons linéaires
affines des N variables aléatoires (Y1 , Y2 , · · · , YN ). On note :
– mX = E[X] et mY = E[Y],
– RXX = E[XXH ] − mX mH X (matrice de dimension M × M ),
– RY Y = E[YY H ] − mY mH Y (matrice de dimension N × N ),
– RY X = E[YXH ] − mY mH X (matrice de dimension N × M ).
En supposant que RY Y inversible, on établit que :
−1
X0 = m X + R H
Y X RY Y (Y − mY ) (4.3)
est le vecteur aléatoire de C le plus proche de X en moyenne quadratique, dans le sens où, pour tout
m ∈ {1, · · · , M }, le scalaire E[|Xm − X0m |2 ] est minimum. Le vecteur des erreurs e = X − X0 de dimension
M est centré et a pour matrice de covariance :
−1
Ree = E[eeH ] = RXX − RH
Y X RY Y RY X (4.4)
43
Espérance conditionnelle
Dans les ouvrages de référence, l’espérance conditionnelle est définie pour des variables aléatoires
intégrables. Ici nous adoptons une approche différente en nous limitant aux variables aléatoires de carré
intégrable. C’est en effet cette approche qui est la plus utile dans les applications pratiques de traitement
du signal.
Soit X, Y1 , Y2 , · · · , YN , (N + 1) variables aléatoires de carré intégrable. L’espérance conditionnelle de X
sachant Y1 , · · · , YN est la meilleure approximation en moyenne quadratique de X, parmi toutes les fonctions
g(Y1 , · · · , YN ) de carré intégrable.
Pour simplifier nous supposons que la loi de probabilité conjointe de (X, Y 1 , · · · , YN ) possède une densité
que nous notons pXY (x, y1 , · · · , yN ). En appliquant le principe d’orthogonalité, on montre (voir exercice 4.1)
que la meilleure approximation est donnée par la variable aléatoire g0 (Y1 , Y2 , · · · , YN ) définie par :
Z
g0 (y1 , · · · , yN ) = xpX|Y (x; y1 , · · · , yN )dx (4.5)
R
où
pXY (x, y1 , · · · , yN )
pX|Y (x; y1 , · · · , yN ) = R
p (x, y1 , · · · , yN )dx
R XY
Toutes ces propriétés s’étendent sans difficulté au cas où X est un vecteur. Il suffit de considérer X, compo-
sante par composante.
Remarquons que l’espérance conditionnelle suppose la connaissance complète de la loi de probabilité
conjointe des N + 1 variables aléatoires (X, Y1 , · · · , YN ), alors que la régression linéaire ne suppose que la
connaissance de leurs moments du premier et du second ordres.
Un résultat fondamental établit que dans le cas gaussien la régression linéaire coı̈ncide avec l’espérance
conditionnelle. En voici l’expression.
Théorème 4.4 Soit X et Y deux variables aléatoires conjointement gaussiennes, de moyennes respectives
mX et mY , de covariances respectives RXX et RY Y , et de covariance mutuelle RY X . L’espérance condi-
tionnelle :
−1
E(X|Y) = mX + RH
Y X RY Y (Y − mY )
44
Attention : ne pas confondre la loi de la variable aléatoire E(X|Y ) avec la loi conditionnelle de X par
rapport à Y . En se limitant au cas scalaire, la loi conditionnelle de X par rapport à Y a pour densité de
2
probabilité pX|Y (x; y) = N (mX + ρσX (y − mY )/σY , σX (1 − ρ2 )), tandis que la loi de E(X|Y ) a pour densité
2 2
de probabilité N (mX , ρ σX ).
4.2 Exercices
Exercice 4.1 (Espérance conditionnelle) Pour simplifier nous ne considérons que des variables
aléatoires continues. Cependant les résultats de cet exercice s’étendent à des vecteurs aléatoires quelconques.
On considère les variables aléatoires X et Y dont la loi de probabilité conjointe possède une densité de
probabilité, que l’on note pXY (x, y). On suppose que X et Y sont de carré intégrable et on pose p X|Y (x; y) =
pXY (x, y)/pY (y).
On rappelle que l’espérance conditionnelle E(X|Y ) de X sachant Y est la fonction de Y la plus proche
2
de X en moyenne quadratique. On peut donc écrire que, pour toute fonction h(Y ), on a E [X − E(X|Y )] ≤
2
E [X − h(Y )] .
1. Montrer que, pour tout h(Y ), on a E [(X − E(X|Y ))h(Y )] = 0.
2. En déduire les expressions de E(X|Y ) et de E(f (X, Y )|Y ), sous forme d’espérance de la loi condition-
nelle pX|Y (x; y) = pXY (x, y)/pY (y). En déduire que E(f1 (X)f2 (Y )|Y ) = f2 (Y )E(f1 (X)|Y ).
3. Montrer que E[E(f (X, Y )|Y )] = E[f (X, Y )].
4. Montrer que, si X et Y sont indépendantes, E(X|Y ) = E[X].
5. Montrer que E(X|Y ) = X si et seulement si X est une fonction de Y .
Exercice 4.2 (Loi conditionnelle de f (U, V ) par rapport à U ) On considère deux variables aléatoires
continues U et V . On note pU V (u, v) leur densité de probabilité conjointe.
1. On considère tout d’abord la variable aléatoire X = U + V . Déterminer l’expression de la densité de
probabilité conditionnelle de X par rapport à U . Que se passe-t-il quand U et V sont indépendantes ?
2. Déterminer l’expression de la densité de probabilité de la variable aléatoire X 0 = u + V , où u désigne
une valeur non aléatoire. Comparer au résultat précédent.
3. Montrer que, si U et V sont indépendantes, E[f (U, V )|U ] = EV [f (U, V )], où EV [f (U, V )] désigne
l’espérance lorsque l’on considère U comme non aléatoire. Ce résultat généralise le résultat précédent.
Exercice 4.3 (Estimation linéaire en moyenne quadratique) On veut démontrer les relations (4.1)
énoncées au paragraphe 4.1. On rappelle que l’on cherche à minimiser l’erreur quadratique moyenne définie
par ²2 = E|X − X0 |2 , où X0 = a0 + AH Y avec AH = [a1 a2 · · · aN ].
1. En appliquant le théorème de projection retrouver les relations (4.1).
2. En déduire (4.2).
3. On rappelle (2.9) que le coefficient de corrélation ρ entre Y et X est défini par ρ = E[(Y − E[Y ])(X −
E[X])∗ ]/σX σY . Dans le cas où N = 1, comment varie ²2min en fonction de ρ ?
45