Cours Proba AS1 2022
Cours Proba AS1 2022
PROBABILITES
AS 1
Institut Sous-régional de Statistique et d’Economie
Appliquée (ISSEA)
Siméon FOTSO
Département de Mathématiques
Ecole Normale Supérieure
Université de Yaoundé 1
é-mail : [email protected]
3 Vecteurs aléatoires 19
3.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.2 Fonction génératrice des moments d’un vecteur aléatoire . . . . . . . . . . 20
3.3 Fonction caractéristique d’un vecteur aléatoire . . . . . . . . . . . . . . . . 20
3.4 Couple de v.a.r discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.4.1 Loi conjointe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.4.2 Lois marginales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.4.3 Lois conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.4.4 Moments, covariance, corrélation . . . . . . . . . . . . . . . . . . . 21
3.4.5 Retour à la notion d’indépendance . . . . . . . . . . . . . . . . . . 22
3.5 Couple de v.a.r continues . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.5.1 Loi conjointe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.5.2 Lois marginales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.5.3 Lois conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.5.4 Retour à la notion d’indépendance . . . . . . . . . . . . . . . . . . 23
3.6 Vecteurs gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.6.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.6.2 Propriétés des vecteurs gaussiens . . . . . . . . . . . . . . . . . . . 24
1
3.7 Changements de variables : cas d’une v.a.r . . . . . . . . . . . . . . . . . . 26
3.7.1 Fonction d’une v.a discrète . . . . . . . . . . . . . . . . . . . . . . . 26
3.7.2 Fonction d’une v.a absolument continue . . . . . . . . . . . . . . . 26
2
Chapitre 1
1.1 Généralités
Soit ( ; A; P ) un espace probabilisé et X une v.a.r dé…nie sur ( ; A; P ):
Dé…nition 1.1 X est une variable aléatoire réelle (en abrégé v.a.r) continue, s’il existe
une fonction f dé…nie sur R; positive et continue sauf en un nombre (au plus) dénombrable
de points, et telle que :
Z b
2
8(a; b) 2 R ; a b =) P (a X b) = f (x)dx:
a
Remarque 1.1 L’ensemble des valeurs d’une v.a.r continue est donc in…ni et non dé-
nombrable.
Exemple 1.1 Soit le choix d’un point au hasard sur un segment AB et X l’abscisse du
point choisi. Si aucun point n’est "exclu", l’ensemble des valeurs de X est [0,d(A,B)] et X
est une v.a.r pouvant prendre une in…nité de valeurs sur un espace non dénombrable (i.e
dont on ne peut pas numeroter les éléments).
(i) f (x) 0 8x 2 R
R +1 :
(ii) 1 f (x)dx = 1
Remarque 1.2 Une v.a.r continue est dé…nie par la donnée de sa densité de probabilité,
comme on le fait dans le cas discret par la donnée de la loi de probabilité discrète.
3
Remarque 1.3 Le fait que F s’exprime comme une intégrale implique qu’elle est continue
en tout point.
On peut encore écrire F (x) = P (X x) = PX (] 1; x]) où PX est la loi de probabilité
de la v.a.r X:
Proposition 1.2 Soit F la fonction de répartition de la v.a.r continue X. Alors
(i) F est croissante.
(ii) F est continue.
(iii) lim F (x) = 0 et lim F (x) = 1
x! 1 x!+1
(iv) F’=f
Proposition 1.3 Si X est une v.a.r continue, on a
(i) 8a 2 R; P (X = a) = 0
(ii)P (a X b) = P (a X < b) = P (a < X b) = P (a < X < b)
Preuve 1.1 (i) 8" > 0; 0 P (X = a) P (a " < X a) = F (a) F (a "): Or
lim+ (F (a) F (a ")) = 0; donc P (X = a) = 0:
"!0
(ii) Découle de (i).
La proposition précédente implique que chaque point de la droite réelle R est immaté-
riel en tant qu’intervalle de longueur nulle et a une probabilité nulle en tant qu’évènement,
mais peut être caractérisé par une densité de probabilité en ce point. Les évènements d’in-
terêt seront souvent des intervalles et il sera indi¤érent pour ceux-ci d’y inclure ou non
les bornes.
1.4 Moments
Soit X une v.a.r continue, dé…nie sur ( ; A; P ); de densité de probabilité f:
Espérance mathématique de X
Dé…nition 1.4 On appelle espérance mathématique de X, et on note E(X), le nombre
réel s’il existe Z
E(X) = xf (x)dx:
R
Si ce nombre n’existe pas (exemple : loi de Cauchy), on dit que X n’a pas d’espérance
mathématique.
E(X) s’interprête comme la valeur moyenne que prend la v.a.r X:
Propriétés
(i) E(X + Y ) = E(X) + E(Y ): L’espérance mathématique de la somme de deux v.a.r
continues est la somme de leurs espérances mathématiques.
(ii) E( X) = E(X) pour tout réel :
4
Moments de X
De façon analogue, et sous reserve d’existence, on dé…nit les moments suivants :
Z
E(h(X)) = h(x)f (x)dx
R
pour toute fonction h dé…nie sur R: En particulier, pour les fonction puissances entières,
on a :
Théorème 1.1 Si E(X k ) existe pour k 2 N ; alors E(X n ) existe pour tout n tel que
1 n k:
Variance et écart-type de X
Dé…nition 1.6 (i) Si X admet un moment d’ordre 2, on appelle variance de X et on note
V(X), le moment centré d’ordre 2. C’est donc
Z
2
V (X) = E (X E(X)) = (x E(X))2 f (x)dx:
R
Propriétés
1. Si X et Y sont 2 v.a.r, V (X + Y ) = V (X) + V (Y ) + 2cov(X; Y ):
2. Si X et Y sont 2 v.a.r réelles indépendantes (voir plus tard), alors V (X + Y ) =
V (X) + V (Y ):
2
3. 8 ; 2 R; V ( X + ) = V (X); donc X+ =j j X:
MX (t) = E(etX ):
5
Remarque 1.4 La fonction génératrice des moments de la v.a.r X détermine la loi de
probabilité de cette v.a.r. En d’autres termes, si 2 v.a.r admettent la même fonction gé-
nératrice des moments, alors elles ont même loi.
Remarque 1.5 Il n’est pas nécessaire que MX (t) existe quel que soit t. Pour que X
admette une f.g.m, il su¢ t que MX (t) existe dans un voisinage de 0.
Proposition 1.4 Soit MX (t) la fonction génératrice des moments de la v.a.r X: Alors
(k)
E(X k ) = MX (0):
Preuve 1.2 Dans le cas continu, soit f la densité de X. En supposant remplies les condi-
tions pour écrire les égalités suivantes, on a :
MX (t) = E(etX )
Z +1 X +1
!
(tx)k
= f (x)dx
1 k=0
k!
+1 k Z +1
X t
= xk f (x)dx
k=0
k! 1
X
+1 k
t
= E(X k )
k=0
k!
Somme de 2 v.a.r
Théorème 1.3 Soient X et Y 2 v.a.r indépendantes, alors MX+Y (t) = MX (t)MY (t):
Preuve 1.3 MX+Y (t) = E(et(X+Y ) ) = E(etX etY ) = E(etX )E(etY ) = MX (t)MY (t) car X
et Y sont indépendantes.
Remarque 1.6 La fonction caractéristique 'X (t) de la v.a.r X existe 8t 2 R: Elle dépend
uniquement de la distribution de probabilité de X, c’est-à-dire sa loi de probabilité.
6
Propriétés d’une fonction caractéristique
Proposition 1.5 Soit ' la fonction caractéristique de la v.a.r X, alors :
(i) j'(t)j 1 8t 2 R.
(ii) '( t) = '(t)
(iii) '(0) = 1
(iv)' est continue:
Proposition 1.6 Soit X1 ; X2 ; :::; Xn n v.a.r indépendantes. On note 'X1 ; 'X2 ; :::; 'Xn
leurs fonctions caractéristiques respectives et 'X1 +X2 +:::+Xn la fonction caractéristique de
leur somme X1 + X2 + ::: + Xn : Alors on a :
Exemple 1.2 Fonction caractéristique d’une loi binomiale et fonction caratéristique d’une
loi de Poisson.
7
Chapitre 2
8
2.2.1 Loi normale centrée reduite N (0; 1):
Pour = 0 et = 1; on a la loi normale centrée reduite.
Dé…nition 2.3 Une v.a.r T suit la loi normale centrée reduite si sa densité de probabilité
est
1 t2
f (t) = p exp ; t 2 R:
2 2
La variable est centrée car sa moyenne est nulle et reduite car sa variance est 1.
En dérivant FX et FT on obtient
" #
2
1 1 + t 1 t2
fT (t) = fX ( + t) = p exp = p exp :
2 2 2 2
Z +1 Z +1 u2 Z +1
uT 1 t2 1 1
u)2 u2 e2 1 2
MT (u) = E(e ) = eut p e 2 dt = p e 2
(t
e dt = p
2 e 2
z
dz
1 2 2 1 2 1
d’où
u2
MT (u) = e 2 :
Calculons E(T ) et V (T ):
u2
MT0 (u) = ue 2 et E(T ) = G0T (0) = 0:
u2
MT00 (u) = (1 + u2 )e 2 et V (T ) = E(T 2 ) = G00T (0) = 1
Fonction caractéristique
Elle est dé…nie par : 8t 2 R
u2
'T (u) = e 2 :
Représentation graphique de f
Ce graphique est appelé courbe de gauss ou courbe en cloche.
Graphiquef
Donc pour une loi N (0; 1); la quasi-totalité des observations sont dans un intervalle de
longueur 6 autour de l’origine. Il s’ensuit que pour une loi N ( ; ) la quasi-totalité des
observations sont dans un intervalle de longueur 6 autour de :
Fonction de répartition
9
Elle est souvent notée et est dé…nie par
Z t
1 x2
8t 2 R; (t) = P (T t) = p e 2 dx:
2 1
(1:645) = 0.95
(1:96) = 0.975
(2:326) = 0.99
(2:57) = 0.995
2.2.2 Cas de N ( ; )
X
Soit X une v.a.r qui suit la loi N ( ; ): Posons T = ; T suit la loi N (0; 1).
Fonction génératrice des moments
( u)2
MX (u) = E(euX ) = E(eu( + T)
) = e u E(e uT
) = e ue 2
d’où
u+ 12 2 u2
MX (u) = e :
En dérivant cette fonction une première fois et ensuite une deuxième fois, on trouve
successivement E(X) = et V (X) = 2 : Ces 2 moments peuvent être obtenus à partir
de la relation X = + T et en utlisant les valeurs E(T ) = 0 et V (T ) = 1:
Fonction caratéristique
Elle est dé…nie par : 8u 2 R
2 2
'X (u) = ei u 2
u :
Fonction de répartition
Notons FX la fonction de répartition de X: On a
x x
FX (x) = P (X x) = P (T )= :
10
Exemple 2.1 X # N (15; 2); calculer
Nous donnons maintenant une propriété importante pour les développements statis-
tiques.
Proposition 2.2 Toute combinaison linéaire de v.a.r gaussiennes indépendantes est une
v.a.r gaussienne.
Preuve 2.2 Il su¢ t de démontrer cela avec 2 v.a.r, la généralisation à plusieurs va-
riables se fait de proche en proche. De plus, si X est gaussienne alors Y = aX est
aussi gaussienne. Il su¢ t de montrer que : si X1 # N ( 1 ; 1 ); X2 # N ( 2 ; 2 ); X1 et
X2 indépendantes, alors X1 + X2 suit une loi gaussienne. On a
Remarque 2.3 La proposition précedente n’est pas vraie si les v.a.r sont dépendantes.
Ainsi X1 et X2 peuvent avoir des lois marginales gaussiennes, sans pour au tant que toute
combinaison linéaire de celle-ci soit gaussienne, car cela depend de la nature de leur loi
conjointe.
Conditions d’application
- Si une variable X est la résultante d’un très grand nombre de causes indépendantes
se composant de manière additive, chacune de ces causes ayant un e¤et négligeable devant
l’e¤et global, alors X est distribué suivant une loi normale.
- La loi normale peut être obtenue comme limite de autres lois de probabilité. On peut
citer la loi binomiale, la loi de Poisson, la loi de Student, la loi du Chi-deux etc....
- la loi normale est également obtenue comme loi limite de la moyenne d’un gros
échantillon : c’est le théorème central limite.
11
Fonction de répartition et densité de X:
Posons Y = ln X: On a
ln x
F (x) = P (X x) = P (eY x) = P (Y ln x) =
Moments
k+ 12 2 k2
E(X k ) = E(ek ln X ) = E(ekY ) = GY (k) = e :
Pour k = 1 puis k = 2; on obtient :
2
E(X) = e + 2
2
E(X 2 ) = e2 +2
d’où
2 2
V (X) = e2 +
(e 1):
Conditions d’application
1) Par analogie à la loi normale, si X est la resultante d’un très grand nombre de
causes indépendantes, à e¤ets positifs, se composant de manière multiplicative, chacune
de ces causes ayant un e¤et négligeable devant l’e¤et global, alors X est distribuée suivant
la loi lognormale.
2) La loi lognormale est souvent un bon modèle pour les v.a.r strictement positives
ayant une distribution asymétrique avec allongement vers les valeurs elevées. En particu-
lier on rencontre ce type de variable dans les domaines biologique (poids des personnes par
exemple), économique (distribution de salaires, de revenus, de chi¤res d’a¤aire), physique
(les caractéristiques d’un matériel : résistance, conductiblité, dureté,...) et télécommuni-
cation (durée d’un appel téléphonique).
e x si x 0
f (x) =
0 si x < 0:
x
ou encore f (x) = e :1R+ (x):
Fonction de répartition
Elle est dé…nie par
x
1 e si x 0
F (x) =
0 si x < 0:
Fonction génératrice des moments
Z +1 Z +1
tX
MX (t) = E(e ) = etx e x
dx = e(t )x
dx
0 0
12
Posons u = (t )x et supposons t < pour la convergence de l’intégrale, on obtient
Z 0
MX (t) = eu du = :
t 1 t
Moments
On a
2
MX0 (t) = et MX00 (t) = :
( t)2 ( t)3
On en deduit
1 2
E(X) = MX0 (0) = ; E(X 2 ) = MX00 (0) = 2
donc
2 1 1
V (X) = E(X 2 ) (E(X))2 = 2 2 = 2:
Condition d’application
I Un processus de Poisson compte le nombre d’occurrences d’un évènement dans
l’intervalle ]0; t]; la loi de Poisson est le nombre d’occurrences dans une unité de temps.
La loi exponentielle est celle du temps X s’écoulant entre 2 occurences successives lors
d’un tel precssus.
Le paramètre de E( ) est le nombre moyen d’occurrences par unité de temps, 1 est
donc la durée moyenne entre 2 occurrences successives. On reparamétrise souvent E( ) en
posant = 1 ; d’où
1 x
f (x) = e ; x 0
13
Dé…nition 2.7 Soient r et 2 paramètres strictement positifs. On dit qu’une v.a.r X
suit la loi (r; ); si sa densité de probabilité est dé…nie par :
( r
R +1
x r 1 e x dx
xr 1 e x si x 0
f (x) = 0
0 si x < 0:
Propriétés
1 p de (r)
- 2
=p
3
- 2
= 2
- 8r > 0; (r + 1) = r (r)
- Si r 2 N ; (r) = (r 1)!
- (r) ' 1r si r ! 0:
Conditions d’application de (r; ); r 2 N
(r; ) modélise en particulier le temps séparant une occurrence de la rieme suivante
dans un processus de Poisson. Elle joue un rôle similaire à celui de la loi binomiale négative
dans le processus de Bernouilli.
Remarque 2.4 Pour = = 1; Béta( ; ) est la loi uniforme sur ]0; 1[:
B( + k; )
E(X) = ; E(X k ) = et V (X) = :
+ B( ; ) ( + )2 ( + + 1)
R1 ( ) ( )
Dé…nition 2.9 La fonction B( ; ) = 0 x 1 (1 x) 1 dx = ( + )
est appelée intégrale
eulérienne de 1ère espèce (ou fonction béta) de type I.
On a
B( ; ) = B( ; )
B( 12 ; 12 ) = :
B( 32 ; 12 ) = 2
14
R1 1 1
Remarque 2.5 Nous savons que B( ; ) = 0
x (1 x) dx. En faisant le change-
u
ment de variable x = u+1 , il vient :
Z +1
u 1
B( ; ) = du:
0 (1 + u) +
Dé…nition 2.10 Une v.a.r U suit une loi béta du type II, de paramètres et ; si sa
densité de probabilité est donnée par
(
1 x 1
B( ; ) (1+x) + si x > 0
f (x) =
0 si x 0:
Ou encore
X
Dé…nition 2.11 Si X suit la loi Beta( ; ) du type I, alors U = 1 X
suit la loi Beta( ; ) du
type II.
Remarque 2.6 Si X # U] ; [
2 2
alors Y = tan X suit la loi de Cauchy.
Fonction de répartition
Elle est dé…nie par
1 1
8x 2 R; F (x) = + arctan x:
2
15
2.8 Loi du Chi-deux
Dé…nition 2.13 Si X suit une loi N (0; 1), alors Y = X 2 suit une loi appelée loi du Chi
deux à 1 dégré de liberté. Elle est notée X 2 (1) et sa densité est
1 y 1
f (y) = p e 2 :y 2 :1R+ (y):
2
P
n
Dé…nition 2.14 Soient X1 ; X2 ; :::; Xn n v.a.r i.i.d de loi N (0; 1): Alors Y = Xi2 suit
i=1
une loi du Chi deux à n dégrés de liberté. Elle est notée X 2 (n) et sa densité a pour
expression ( n y
1
n
2 (n)
y 2 1 e 2 si y > 0
f (y) = 2 2
0 si y 0:
n n 1 1
MY (t) = MXi2 (t) = p = n (2.1)
i=1 i=1 1 2t (1 2t) 2
Remarque 2.7 La formule (2.1) est également la f.g.m d’une loi ( n2 ; 21 ) qui est encore
égale à la loi 2 ( n2 ; 1): Donc une v.a.r chi-deux à n dégrés de liberté est le double d’une
v.a gamma de paramètres r = n2 et = 1: Donc
n n 1
X 2 (n) = 2 ( ; 1) = ( ; ):
2 2 2
Moments
Si X # X 2 (n) alors E(X) = n et V (X) = 2n:
16
2.9 Loi de Student à n dégrés de liberté T (n)
Dé…nition 2.15 Si X # N (0; 1) et Y # X 2 (n); X et Y indépendantes, alors pXY #
n
T (n):
1 x2 1
(n+1)
f (x) = p (1 + ) 2 :1R (x):
nB( n2 ; 21 ) n
c’est donc une loi symétrique comme la loi normale. L’allure de cette loi est similaire à
celle d’une loi N (0; 1) avec une queue plus épaisse. Cette di¤érence s’estompe lorsque
n augmente.
Remarque 2.8 Lorsque n ! +1; T (n) se comporte comme une loi N (0; 1): En pra-
tique si n 30; on approxime T (n) par N (0; 1):
17
2.10 Loi de Fisher-Snedecor à p et q dégrés de liberté
F(p; q)
X
Dé…nition 2.16 Si X # X 2 (p) et Y # X 2 (q); X et Y indépendantes, alors p
Y #
q
F(p; q):
q
Si q 3; la moyenne de F (p; q) existe et est égale à q 2
: Si q 5; la variance existe
2q 2 (p+q 2)
et est égale à p(q 2)2 (q 4)
:
Une conséquence de ce résultat est que le quantile d’ordre de F(p; q) est l’inverse
du quantile d’ordre 1 de F(q; p) f (p; q) = f1 1(q;p) :
18
Chapitre 3
Vecteurs aléatoires
3.1 Généralités
Dé…nition 3.1 Une v.a vectorielle ou un vecteur aléatoire réel de dimension n est une
application de ( ; A; P ) dans Rn telle que chaque composante soit une v.a.r.
Remarque 3.1 Si X1 ; X2 ; :::; Xn sont des variables aléatoires réelles dé…nies sur ( ; A; P ),
alors l’application X = (X1 ; X2 ; :::; Xn ) : ( ; A; P ) ! Rn est un vecteur aléatoire à va-
leurs dans Rn : Une v.a à valeurs dans Rn est alors dé…nie par la donnée de n v.a .r. Si
X = (X1 ; X2 ; :::; Xn ), X est une v.a vectorielle ssi Xi est une v.a.r 8 i = 1; :::; n.
Loi de probabilité, probabilité conjointe
Dé…nition 3.2 La loi de probabilité de la variable vectorielle X à valeurs dans Rn est
PX , la probabilité image de P par X. Si X1 ; X2 ; :::; Xn sont n v.a.r, la probabilité conjointe
de (X1 ; X2 ; :::; Xn ) est la loi de probabilité de la variable X = (X1 ; X2 ; :::; Xn ) à valeurs
dans Rn :
Espérance mathématique, matrice des variances covariances
Soit X = (X1 ; X2 ; :::; Xn ) : ( ; A; P ) ! Rn un vecteur aléatoire à valeurs dans Rn :
Dé…nition 3.3 On appelle espérance mathématique de X, le vecteur
E(X) = (E(X1 ); E(X2 ); :::; E(Xn )):
Dé…nition 3.4 La matrice des variances et covariances de X est la matrice carrée d’ordre
n, notée C; d’éléments
cij = E [(Xi E(Xi ))(Xj E(Xj ))]
= cov(Xi ; Xj ):
Remarque 3.2 C est une matrice symétrique et positive, dont les éléments diagonaux
sont
cii = E (Xi E(Xi ))2 = V ar(Xi ):
Pour étudier un vecteur aléatoire, nous pouvons commencer par décrire le vecteur
composante par composante, en les considerant comme autant de v.a.r di¤érentes. Ce-
pendant se limiter à l’étude des composantes fait perdre les éventuels liens entre celles-ci.
Il faudra donc étudier les composantes du vecteur aléatoire simultanément.
Dans la suite, nous allons nous intéresser au cas n = 2 ; on parle alors de couple de
v.a.r. Nous distinguerons 2 cas : le cas où les deux variables sont discrètes puis celui où
les deux variables sont continues. Mais avant nous allons dé…nir les notions de f.g.m et
fonction caractéristique d’un vecteur aléatoire.
19
3.2 Fonction génératrice des moments d’un vecteur
aléatoire
Pour t x = (x1 ; x2 ; :::; xn ) et t y = (y1 ; y2 ; :::; yn ) deux vecteurs de Rn ; nous notons
Pn
hx; yi = xi yi leur produit scalaire euclidien.
i=1
Dé…nition 3.5 Si t X = (X1; X2;:::; Xn ) est une v.a à valeurs dans Rn , la fonction fonction
génératrice des moments de X est la fonction notée MX de…nie de Rn vers R par
MX (t) = E(eht;Xi )
pour t t = (t1 ; t2 ; :::; tn ):
Donc MX (t1;:::; tn ) = E(et1 X1+ ::+:tn Xn ): Si MX (t) existe dans un voisinage de 0 dans Rn ,
alors MX (t) est appelée f.g.m de la v.a vectorielle X. Sinon X n’admet pas de f.g.m.
MX (t) caractérise la loi de probabilité de X.
Remarque 3.3 Si MX (t) existe, alors
@ h1 +h2 +:::hn MX
E(X1h1 X2h2 :::Xnhn ) = (0; 0; :::; 0):
@th1 1 @th2 2 :::@thnn
@MX
Par exemple dans le cas particulier n = 2; on a E(X1 ) = @t1
(0; 0); E(X2 ) =
@MX @ 2 MX
@t2
(0; 0); E(X1 X2 ) = @t1 @t2
(0; 0):
20
3.4.2 Lois marginales
Connaissant la loi conjointe de (X; Y ); on déduit celle de X (resp. Y ) isolément.
- Loi marginale de X
X( ) ! [0; 1] X
x 7 ! px = P (X = x) = pxy
y2Y ( )
- Loi marginale de Y
Y( ) ! [0; 1] X
y 7 ! p y = P (Y = y) = pxy :
x2X( )
P (X = x; Y = y)
px=y = P (X = x=Y = y) = :
P (Y = y)
De façon analogue, on a :
21
Dé…nition 3.12 La covariance de 2 v.a.r X et Y à variances …nies, est le moment
cov(X; Y ) = E [(X E(X)) (Y E(Y ))]
X
= pxy (x E(X)) (y E(Y )) :
x2X( )
y2Y ( )
22
3.5.2 Lois marginales
Soit f (resp: F ) la densité (resp. la fonction de répartition) conjointe de (X; Y ): On
déduit :
- Loi marginale de X:
f (x; y)
f (y x) = :
f1 (x)
f (x; y)
f (x y) = :
f2 (y)
P
Toutes les autres notions
R sont dé…nies comme dans le cas discret, le signe étant
remplacé par le signe :
Ceci signi…e que X et Y sont indépendantes ssi la densité conjointe est le produit des
densités marginales.
23
3.6 Vecteurs gaussiens
3.6.1 Généralités
Soit 2 Rn et une matrice symétrique dé…nie positive.
Dé…nition 3.21 Un vecteur aléatoire X = t (X1 ; X2 ; :::; Xn ) suit une loi normale de
dimension n de paramètres et ; N n ( ; ); si sa densité de probabilité est donnée par :
p
j 1j 1t
f (x1 ; x2 ; :::; xn ) = n exp (x ) 1 (x ) (3.1)
(2 ) 2 2
avec x = t (x1 ; x2 ; :::; xn ) 2 Rn :
On note alors X # N n ( ; ).
Remarque 3.5 Si X # N n ( ; ) avec = (ckl )1 k;l n et = t( 1; 2 ; :::; n) alors :
(i ) = E(X) = t (E(X1 ); E(X2 ); :::; E(Xn ))
(ii) est la matrice des variances et covariances de X.
(iii) La fgm de X est
!
1 XX
n n
t 1t
MX (t1; :::tn ) = exp t + t t = exp ht; i + ckl tk tl
2 2 k=1 l=1
2 2
où t = t (t1 ; :::; tn ); de sorte que pour n = 1, on retrouve MX (t) = et + 2
t
:
(iv) La fonction caractéristique de X est
!
1 XX
n n
t 1t
'X (t) = exp i t t t = exp i ht; i ckl tk tl
2 2 k=1 l=1
2 2
de sorte que pour n = 1; on retrouve 'X (t) = eit 2
t
:
24
Proposition 3.2 Soient X1 ; X2 ; :::; Xn n v.a.r gaussiennes indépendantes. Alors X =
t
(X1 ; X2 ; :::; Xn ) est un vecteur gaussien de dimension n.
Preuve
2
Posons k = V (Xk ). En utilisant l’expression (3.1) la densité conjointe f de X s’écrit :
" # " #
1X Y
n 2 n 2
1 xk k 1 1 xk k
f (x1 ; :::; xn ) = n exp = p
exp
(2 ) 2
1 ::: n 2 k=1 k
k=1 k 2 2 k
X1
Corollaire 3.1 Si est un vecteur gaussien de dimension 2 tel que cov(X1 ; X2 ) =
X2
0; alors X1 et X2 sont indépendantes.
Preuve
On détermine la fonction génératrice des moments ou la fonction caractéristique de Y .
Caractérisation d’un vecteur gaussien
Preuve
Exemple 3.1 Soit X = t (X1; X2 ) un vecteur aléatoire à valeurs dans R2 : On suppose que
3 2
X suit une loi normale de densité f (x1; x2 ) = k exp( 16 x1 + 14 x1 x2 14 x22 ).
1)Déterminer = E(X) et la matrice des variances covariances de X. En déduire k.
2) Calculer le coe¢ cient de corrélation linéaire des v.a.r X1 et X2 .
3) Déterminer les lois de X1 et X2 :
4) Quelle est la loi de X1 2X2 :
Exemple 3.2 On suppose que U = t (X; Y ) est une v.a normale de dimension 2, de
densité
f (x; y) = k exp 2x2 6y 2 4xy + 8x 4y + 12 :
1) Déterminer la constante k:
2) Calculer E(U ) et U respectivement l’espérance mathématique et la matrice des va-
riances covariances de U:
3) Déterminer les lois marginales et calculer le coé¢ cient de corrélation linéaire des deux
variables.
4) Déterminer la loi de 2X1 + 3X2 :
25
Remarque 3.6 On dé…nit parfois un vecteur gaussien par la proposition (3.5). Dans ces
conditions si = E(X) et la matrice des variances covariances de X; on distingue deux
cas.
(i) Si est inversible alors X est un vecteur gaussien dont la densité de probabilité est
donnée par (3.1).
(ii) Si n’est pas inversible ( est symétrique et positive), alors X n’admet pas de densité
de probabilité par rapport à la mesure de Lebesgue de Rn : On dit dans ce cas que le vecteur
gaussien X est dégénéré. Les formules donnant la fgm et la fonction caractéristique restent
vraies dans ce cas.
Remarque 3.7 Y est e¤ectivement une v.a.r si Y ne prend pas les valeurs +1 ou
1 avec une probabilité non nulle. Cette condition est véri…ée si '(x) ne devient jamais
in…ni. Dans le cas contraire Y n’est pas une v.a.
26
– Si Xy = ' 1 (y) est une partie …nie ou dénombrable de X; alors P (Y = y) =
PX (Xy ) = 0; car X est absolument continue. R
– Si Xy est une réunion …nie d’intervalles, alors P (Y = y) = Xy f (x)dx:
Exemple 3.4 X suit la loi uniforme sur [0; 1]: On pose Y = '(X) = [kX]; k 2 R+ ; où
[h] désigne la partie entière de h. Déterminons la loi de probabilité de Y et sa fonction de
répartition.
Rappel : La densité d’une loi uniforme sur [a; b] est donnée par
1
b a
8x 2 [a; b]
f (x) =
0 sinon.
2ième cas : ' est dérivable, à inverse unique (' est bijective).
Dans ces conditions, y = '(x) , x = ' 1 (y): On a dy = '0 (x)dx , dx = '01(x) dy
donc jdxj = j'01(x)j jdyj : La probabilité d’un intervalle de longueur jdxj autour de x est :
f (x)
f (x) jdxj = jdyj :
j'0 (x)j
La probabilité d’un intervalle de longueur jdyj autour de y est : g(y) jdyj où g(y) est la
densité de probabilité de Y . On pose :
On en déduit alors
f (x)
g(y) = avec y = '(x) , x = ' 1 (y);
j'0 (x)j
27
ou encore
f (' 1 (y))
g(y) = = f (' 1 (y)) (' 1 )0 (y) :
j'0 (' 1 (y)j
La densité de Y est donc
f (' 1 (y)) j(' 1 )0 (y)j si y 2 Y
g(y) =
0 sinon.
Exemple 3.5 Soit X une v.a.r absolument continue, de densité f et de fonction de ré-
partition F. On dé…nit Y = '(X) = aX + b:
1
- Si a 6= 0, Y est absolument continue de densité g(y) = jaj f ya b :
y b
- a > 0 ) G(y) = F a
:
y b
- a < 0 ) G(y) = 1 F a
:
1 y b
- Si a = 0; Y est une v.a.r certaine.) = jaj
f a
:
f (x) f (x)
g(y) = 0
= 0 = 1:
j' (x)j F (x)
D’où
1 1
G(y) = (arctgy + ) et g(y) = G0 (y) = avec Y = R:
2 (1 + y 2 )
Y suit la loi de Cauchy.
28
Cas d’une fonction ' dérivable à inverse multiple
Supposons que l’équation y = '(x) admet k racines x1 ; x2 ; :::; xk : Un élément appar-
tient à un intervalle de longueur jdyj autour de y ssi pour chacun de ses k antécédents,
9 i = 1; :::; k tel que cet antécédent soit dans un intervalle de longueur jdxi j autour de xi :
Illustrons cela par une …gure dans le cas n = 3:
X
k Xk
f (xi )
g(y) jdyj = f (xi ) jdxi j = 0 (x )j
jdyj
i=1 i=1
j' i
d’où
Xk
f (xi )
g(y) =
i=1
j'0 (xi )j
Xk
f ('i 1 (y)) Xk
g(y) = 0 1 = f ('i 1 (y)) J'i 1 (y) pour y 2 Y:
i=1
' i (' i (y)) i=1
29
Chapitre 4
P
On note alors Xn ! X:
Notons qu’il y a équivalence entre
lim P (jXn Xj < ") = 1
n!+1
et
lim P (jXn Xj ") = 0:
n!+1
Le résultat suivant donne une condition su¢ sante pour avoir la convergence en pro-
babilité vers une constante.
Proposition 4.1 Soit (Xn )n2N une suite de v.a.r ayant un moment d’ordre 2. Si on a
lim E(Xn ) = a et lim V (Xn ) = 0
n!+1 n!+1
P
alors Xn ! a:
Proposition 4.2 (Loi faible des grands nombres) Soit (Xn )n2N une suite de v.a.r i.i.d
(indépendantes et identiquement distribuées) de moyenne : Alors
1X
n
P
Xn = Xi ! :
n i=1
30
P
Proposition 4.3 (Théorème de Slutsky) Si Xn ! X et g : R ! R une application
P
continue, alors g(Xn ) ! g(X):
P P
Proposition 4.4 Si Xn ! X , Yn ! Y et g une fonction continue de R2 vers R,
P
alors g(Xn ; Yn ) ! g(X; Y ):
P P P
Corollaire 4.1 Si Xn ! X, alors : (i) jXn j ! jXj (ii) Xn2 ! X 2 :
P P
Corollaire 4.2 Si Xn ! X et Yn ! Y alors :
P
(i) 8 2 R; Xn + Yn ! X + Y:
P
(ii) Xn :Yn ! X:Y:
P
(iii) XYnn ! XY
si P (Y = 0) = 0:
p:s
On note alors Xn ! X:
Le résultat suivant donne un critère de convergence presque sûre.
Proposition 4.5 La suite de v.a.r (Xn )n2N converge presque sûrement vers X si la suite
de v.a.r (Ym )m2N dé…nie par Ym = sup jXn Xj converge en probabilité vers 0.
n m
Proposition 4.8 (Loi forte des grands nombres) Soit (Xn )n2N une suite de v.a.r i.i.d de
moyenne : Alors
1X
n
p:s
Xn = Xi ! :
n i=1
On peut obténir le même résultat sans qu’il soit nécessaire que les Xn aient même loi
pour tout n:
Proposition 4.9 Soit (Xn )n2N une suite de v.a.r indépendantes ayant une moyenne et
une variance. Si lim E(Xn ) = et
n!+1
P V arXn 1
P
n
p:s
n2
< +1; alors X n = n
Xi ! :
n2N i=1
31
4.1.3 Convergence en loi
Dé…nition 4.3 On dit que la suite de v.a.r (Xn )n2N ; de fonction de répartition FXn tend
en loi vers la v.a X de fonction de répartition FX lorsque n tend vers +1; si en tout
point de continuité de FX ; on a : lim FXn (x) = FX (x):
n!+1
L
L’on note alors Xn ! X:
On dira aussi que la loi de X est la loi limite ou asymptotique de la suite (Xn )n2N : En
pratique la loi limite est utile pour donner une approximation pour le calcul de la proba-
bilité d’un évènement sur Xn quand n est assez grand :
P (Xn 2 A) ' P (X 2 A):
Remarque 4.1 Dans la convergence en loi, l’égalité lim FXn (x) = FX (x) n’a lieu
n!+1
qu’aux points de continuité de FX : Si x0 est un point de discontonuité, FXn (x0 ) peut
ne pas admettre de limite quand n tend vers +1 ou tendre vers une limite di¤érente de
FX (x0 ):
Exemple 4.1 Soit (Xn )n2N une suite de v.a.r de loi N (0; n1 ): Posons FXn (x) = P (Xn
x) et
0 si x < 0
FX (x) =
1 si x 0:
1
On a lim FXn (x) = FX (x) 8x 6= 0: Mais 8n 2 N ; FXn (0) = 2
6= FX (0) = 1: Donc
n!+1
L
Xn ! 0:
Dans le cas où les v.a.r Xn et X admettent des fgm, on a le résultat suivant que nous
admettons.
Proposition 4.10 La suite de v.a.r (Xn )n2N converge en loi vers X ssi, pour tout t dans
un voisinage de 0, lim MXn (t) = MX (t); où MXn est la fgm de Xn et MX la fgm de X.
n!+1
32
L P
Proposition 4.13 Si Xn ! X et Yn ! a (a 2 R) alors :
L
(i) Xn + Yn ! X + a
L
(ii) Xn Yn ! aX:
P
(iii) Si a = 0; Xn :Yn ! 0:
Proposition 4.14 Si f est une application continue de R vers R telle que f (a) 6=
L
0; f X n
(Yn )
! fX
(a)
:
Proposition 4.15 (Théorème central limite ou de la limite centrale) Soit (Xn )n2N une
P
n
suite de v.a.r i.i.d de moyenne et de variance 2 : Posons X n = n1 Xi : Alors
i=1
Xn L
Yn = ! N (0; 1):
p
n
Preuve
Supposons que la loi mère admet une fgm MX : Posons k = E(X k ) le moment d’ordre
k de cette loi. On a
X+1
tk
MX (t) = k ;
k=0
k!
à l’ordre 2 on a
t2
MX (t) = 1 + 2 + t2 "(t)
1t + avec lim"(t) = 0
2 t!0
2
t
= 1 + t + ( 2 + 2 ) + t2 "(t):
2
De plus
P
n
Xi n Xn
Xn i=1 Xi
= p = Ti avec Ti = p :
p
n
n i=1
n
2
Comme E(Xi ) = 0 et V (Xi )= ; on obtient
2
2t
MXi (t) = 1 + + t2 "(t)
2
et
t
(Xi ) p
MTi (t) = E e n
t
= MXi p
n
2 2
t t t
= 1+ + 2 " p :
2n n n
Il en découle
n
t2 t2 t
MP
n (t) = 1+ + 2 " p
Ti 2n n n
i=1
n
t2 t2
= 1+ +o :
2n n
33
a n
Sachant que lim 1+ n
= ea ; on a
n!+1
t2
lim M P
n (t) = e n
n!+1 Ti
i=1
m:q
L’on note alors Xn ! X:
La convergence en moyenne quadratique est particulièrement facile à manipuler car
elle repose sur la convergence usuelle de la suite de nombres réels E (Xn X)2 n2N : On
y recourt très souvent d’autant qu’elle implique la convergence en probabilité.
Le résultat suivant donne une condition nécessaire et su¢ sante simple de convergence
en moyenne quadratique.
Preuve
En appliquant la relation V (X) = E(X 2 ) (E(X))2 à la la v.a.r Xn X; on obtient
Remarque 4.3 Les modes de convergence que nous venons de voir satisfont donc aux
implications suivantes :
p:s m:q
& .
P
#
L
Remarque 4.4 Le théorème central limite, la loi faible des grands nombres et la loi forte
des grands nombres sont les résultats les plus utilisés.
34
4.2 Inégalité de Bienaymé-Tchebyche¤
4.2.1 Inégalité de Markov
Théorème 4.1 (Inégalité de Markov) Soit X une v.a.r positive, d’espérance mathéma-
tique E(X) …nie.
1
8 > 0; on a : P (X > E(X))
Preuve 4.1 Nous allons montrer cette inégalité dans le cas où X est une v.a.r continue.
Soit f la densité de X.
- Pour 0 < 1; l’inégalité Rest triviale. R +1 R +1
+1
- Soit > 1: E(X) = = 0 xf (x)dx xf (x)dx f (x)dx = (1
1
F ( )). Donc P (X > ) = 1 F ( ) :
V (X)
P (jX(!) E(X)j > ") :
"2
Preuve 4.2 On applique l’inégalité de Markov à la v.a.r positive Y = (X E(X))2 :
P (jX(!) E(X)j > ") est la probabilité que la v.a X prenne une valeur qui s’écarte de
E(X) d’une quantité supérieure à ": L’inégalité exprime que cette probabilité est majorée
par V "(X)
2 ; c’
est à dire par un nombre proportionnel à la variance. Il est donc évident que la
variance est une mesure des ‡uctuations aléatoires d’une v.a.r X autour de son espérance
mathématique E(X); V (X) mesure la dispersion de la v.a.
Exemple 4.2 1) Supposons V (X) = 5: La probabilité que X prenne une valeur qui di¤ère
de plus de 10 unités de son espérance mathématique E(X) est inférieure à 1052 = 0:05:
2) Si la variance est V (X) = 1; cette probabilté est inférieure 1012 = 0:01
Donc plus la variance est petite, et moins la v.a s’écarte de son espérance mathématique.
1X
n
Xn = Xi
n i=1
2
(c’est la moyenne des n variables précédentes). On a E(X n ) = et V (X) = n
: Appliquons
l’inégalité de Bienaymé-Tchebyche¤ à X n ; On obtient
2
P ( X n (!) > ") :
n"2
Pour " …xé, lorsque n tend vers +1; la probabilité que X n prenne une valeur s’écartant
de d’une quantité supérieure à "; tend vers 0.
35
Remarque 4.5 Le fait que P X n (!) > " tende vers 0 quand n ! +1 est tra-
duit par X n converge en probabilité vers : Cette convergence en probabilité obtenue avec
la moyenne d’un échantillon est ce que l’on appelle la loi faible des grands nombres (par
opposition à la loi forte des grands nombres qui traduit la convergence presque sûre de
X n vers ): Elle s’énonce ainsi :
Interprêtation
Supposons que nous voulons estimer la moyenne inconnue d’une population.
1. Si l’on e¤ectue une série de n tirages indépendants dans cette population, la moyenne
des individus observés converge en probabilité vers :
2. Plus le nombre de tirages est grand, plus la probabilité que l’écart entre la moyenne
observée sur l’échantillon et la moyenne de la population soit supérieure à une valeur
donnée est petite. Cette probabilité tend vers 0 lorsque la taille n de l’échantillon
augmente indé…niment.
Exemple 4.3 On repète n fois l’expérience "tirer une carte d’un jeu de 32 cartes". Après
chaque expérience, on remet la carte tirée dans le jeu et on mélange à nouveau. Déterminer
n tel que la fréquence d’apparition d’un roi ou d’une dame soit comprise entre 20% et 30%
avec une probabilité supérieure à 0.8.
Soit Y la v.a égale au nombre de roi ou de dame tirés après les n répétitions de l’expérience.
Y # B(n; 14 ); Yn est la fréquence d’apparitions d’un roi ou d’une dame. E( Yn ) = 41 et
V ar( Yn ) = 16n
3
: Il faut déterminer n tel que :
Y
P 20% 30% 0:8 (4.1)
n
On a
Y Y 1 5
P 20% 30% =P
n n 4 100
Or d’après l’inégalité de Bienaymé-Tchebyche¤,
3
Y 1 5 16n
P >
n 4 100 5 2
100
Exemple 4.4 On écrit au hazard une suite de n chi¤res. On suppose que les chi¤res
successifs sont indépendants et que les 10 chi¤res possibles sont équiprobables. Déterminer
n tel que la fréquence d’apparition du chi¤re 9 soit comprise entre 8% et 12% avec une
36
probabilité supérieure à 0.95. Interprêter le résultat obtenu.
Par un raisonnement similaire au précedent, on trouve n 4500:
Interprêtation : Si on écrit au hazard une suite d’au moins 4500 chi¤res, la fréquence
d’apparition du chi¤re 9 (donc de chaque chi¤re) est comprise entre 8% et 12% avec une
probabilité supérieure à 0.95.
Remarque 4.6 Le nombre obtenu ici paraît très grand. En fait dans les deux cas, le
nombre de tirages à e¤ectuer peut être amélioré. Pour cela, on utilise une inégalité ana-
logue à celle de Bienaymé-Tchebyche¤ : l’inégalité de BERNSTEIN. Celle ci donne une
meilleure majoration (évaluation) de la probabilité de commettre une erreur strictement
supérieure à ": On peut également utiliser la loi de probabilité de la v.a. Par exemple dans
l’exemple 4.4, on peut utiliser l’approximation d’une loi binômiale par une loi normale.
Remarque 4.8 L’approximation de la loi binomiale par la loi normale a d’abord été
obtenue par de Moivre pour p = 12 ; puis généralisée par Laplace pour p quelconque. Ces
resultats ont permis de mettre en évidence la loi normale.
p
Remarque 4.9 Soit X # B(n; p): Si on approxime B(n; p) par N (np; npq); on a :
b + 0:5 np a 0:5 np
P (a X b) = p p (4.2)
npq npq
Dans les formules de calcul (4.2) et (4.3), l’on a ajouté 0.5 à la borne supérieure
b et l’on a retranché 0.5 à la borne inférieure a: Ceci est dû au fait que dans les 2 cas,
l’on passe du discret au continu et pour cela il faut corriger les données pour calculer les
probabilités : c’est la correction de continuité.
37
4.3.3 Approximation de la loi du chi-deux par la loi normale
p p
Théorème 4.6 On considère la loi X 2 (n): Lorsque n tend vers +1; 2X 2 (n) 2n 1
N (0; 1):
Ce resultat peut être utilisé pour trouver les quantiles de la loi du chi-deux quand le
nombre de dégrés de liberté n est grand. On montre facilement que le quantile d’ordre
de X 2 (n) est
p 2
2 t + 2n 1
xn; =
2
où t est le quantile d’ordre de N (0; 1):
38