0% ont trouvé ce document utile (0 vote)
47 vues50 pages

Cours Proba

Transféré par

Ahmed Azouz
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
47 vues50 pages

Cours Proba

Transféré par

Ahmed Azouz
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Cours de Probabilités. PSI

January 28, 2022

Part I

Prélude à la sommabilité ( hors programme PSI


, PC )
1 Un exemple

Exercice :
P (−1)n
la série est évidemment convergente ( évidemment est nullement un nouveau mode de convergence
n
)
1/ Montrer de deux façons diérentes que sa somme vaut :

+∞
X (−1)n
= − ln(2)
n=1
n

2/ On permute l'ordre des termes : par exmple deux termes d'indices impairs puis un d'indice pair etc..
1 1 1 1 1
la suite est donc −1, − , , − , − , , ...
3 2 5 7 4
Montrer que la série est encore convergente mais sa somme n'est plus la même.

1/ Une première façon de faire : associer une série entière à cette série numérique :

X (−1)n
.xn
n≥1
n

qui est de rayon de convergence égal à 1 et qui est en fait un développement usuel :

X (−1)n+1
∀x ∈ ]−1, 1[ , ln (1 + x) = .xn
n=1
n
Attention: le développement est valable sur l'inervalle ouvert ( c'est un résultat du cours ). L'est-il également
au point x=1 ? La réponse est : Oui, mais ce n'est pas un résultat du cours.
Nous allons donc prouver la continuité de la somme de la série entière sur le segment [0, 1], en appliquant
le théorème de continuité de la somme d'une série de fonctions.
(−1)n n
Chacune des fonctions : fn : x 7−→ .x est continue sur [0, 1] et la convergence y est uniforme :
n
xn

La suite étant décroissante et de limie nulle, on a la majoration usuelle dûe au critère des séries
n n
alternées :
xn+1 1
∀n ∈ N∗ , |Rn (x)| ≤ ≤
n+1 n+1
ce qui prouve bien la convergence uniforme sur [0, 1] .
La continuité ainsi prouvée montre alors que

+∞
X (−1)n
= − ln(2)
n=1
n

Une seconde façon de faire consiste à regrouper les termes d'indices pairs et ceux d'indices impairs dans
les somme partielles :

2n n n
X (−1)p X 1 X 1
S2n = = −
p=1
p k=1
2k k=1 2k − 1
Pn 1
En notant Hn = k=1 k , on a :

2n n n
X 1 X 1 X 1
H2n = = +
p=1
p k=1
2k k=1 2k − 1

En sommant les deux égalités, on obtient :

S2n = Hn − H2n

( Au passage on récupère l'égalité suivante :

n
X 1 1
= H2n − Hn
k=1
2k − 1 2

identité qui sera utilisée par la suite )


On utilise alors le développement asymptotique classique :

Hn = ln(n) + γ + o(1)

Il vient alors :
S2n = ln(n) + γ + o(1) − ln(2n) − γ + o(1) = − ln(2) + o(1)
et la la limite en découle.
2/ Considérons
n 2n
X 1 X 1
S3n = −
k=1
2k k=1 2k − 1
où on a pris conformément à l'énonce 2n termes d'indices impairs et n termes d'indices pairs.
On a donc  
1 1 1 1
S3n = Hn − H4n − H2n = −H4n + H2n + Hn
2 2 2 2
1 1
= − (ln(4n) + γ) + (ln(2n) + γ) + (ln(n) + γ) + o(1)
2 2
3
= − . ln(2) + o(1)
2
qui a donc pour limite − 32 . ln(2).
1 1 1
Comme S3n+1 = S3n − 4n+1 et que S3n+2 = S3n −
4n+1
− 4n+3 , et sont donc convergentes de même limite
3
que S3n , il s'en suit que la série en question est bien convergente de somme valant − . ln(2) .
2
On voit donc, qu'en regroupant les termes de manière diérente ( en changeant l'ordre ) la série, bien
qu'elle reste convergente, a une somme diérente.
La famille n'est pas sommable !!!
2 Un théorème (MP)

Dans le programme ociel gure cinq théorèmes : dont deux sont admis et pour trois la démonstration n'est
pas exigible.
En voici un :
P
Théorème : Si une série un est absolument convergente , alors la famille (un /n ∈ N) est sommable.
et par conséquent la valeur de sa somme est invariante par permutation de l'ensemble des indices.
On voit alors le défaut de l'exemple étudié précédemment!
Preuve :
P
Soit σ une bijection de N dans N. Il s'agit de montrer que la série uσ(n) est convergente et que

+∞
X +∞
X
uσ(n) = un
n=0 n=0
P
On montre, en fait, que la série uσ(n) est absolument convergente.
On sait qu'une série à termes positifs est onvergente si et seulement si la suite de ses sommes partielles
est majorée.
n, Sn = nk=0 |uk | et Tn = nk=0 uσ(k)
P P
Notons, pour tout
Il existe c > 0 telle que ∀n ∈ N , Sn ≤ c
Notons, pour tout n, N (n) = max {σ(k)/k ∈ {0, 1, ..n}}
Pn PN (n)
On a alors Tn =
Pk=0 u σ(k) ≤ k=0 |uk | = TN (n) ≤ c
Par suite la série uσ(n) est absolument convergente.
Reste à prouver l'invariance de la somme.

3 Préambule du sujet Mines PSI 2008

Le Sujet des Mines PSI 2008 ( épreuve 2 ) comporte la dénition et résultat admis suivants ( et ce n'est ni
plus ni moins que le théorème de Fubini ( Programme MP )) :

Dénition :
Soit (a
Pm,n )(m,n)∈N
P 2 N2P
une suite double ( indexée par

2
( énoncé original Z ) de nombres complexes telle que la
P 
série n∈N m∈N |a |
( respectivement
m,n P P m∈N n∈N |am,n | ) converge. P P 
On admet alors que la série m∈N n∈N |a m,n | converge ( respectivement n∈N m∈N |am,n | ) converge
également. On dira que la série double
X
am,n
(m;n)∈N2

est sommable. En outre on a : ! !


+∞
X +∞
X +∞
X +∞
X
am,n = am,n
n=0 m=0 m=0 n=0

La valeur commune de ces deux nombres complexes sera notée

X
am,n
(m;n)∈N2

et appelée somme de la série double.


A bon entendeur...
4 Une application classique du théorème de Fubini

Voici la première question du sujet des Mines MP 2001, question qui a fait des ravages !

Montrer que la fonction x 7−→ exp (exp(x)) est développable en série entière sur R
Pour ceux qui ont pour réexe le résultat suivant ( qui n'est pas faux, et qui en toute logique ne gure (
et ne gurait pas à l'époque ) dans aucun programme ociel ) : une fonction est DSE(0) si et seulement si

elle est C sur un voisinage de 0 et que le reste de sa série de Taylor est de limite nulle , il a été souhaité :

”Bon courage”

pour calculer la dérivée n-ième d'une telle fonction !


Du reste, son emploi en cours, pour trouver le développement de la fonction x 7−→ ex relève, du moins
d'un esprit tordu, sinon d'une attitude machiavélique !!
Car une bonne dérivation de la série de Taylor conduit à une équation diérentielle on ne peut plus facile
:
y0 = y
Un bon coup de Cauchy-Lipschitz résoud le problème en moins de 90 84 ( à la Bolt )
Outre la méthode des équations diérentielles, pour prouver ou trouver des DSE(0), la méthode qui
consiste à s'appuyer sur des développements connus est également trés utilisée.
C'est celle que nous utilisons dans ce cas de gure :
On sait ( développement usuel en série entière ) que :

+∞
X 1 n
t
∀t ∈ R, e = t
n=0
n!

On a donc : pour tout réel x ,

+∞ +∞ +∞ +∞
!
X 1 x n X 1 nx X 1 X 1 p p
exp (exp(x)) = (e ) = .e = nx
n=0
n! n=0
n! n=0
n! p=0
p!

où le développement usuel a été doublement employé !


Une hypothétique interversion des deux sommations donnerait : pour tout réel x ,

+∞ +∞
!
X 1 X 1 p
exp (exp(x)) == n xp
p=0
p! n=0
n!

ce qui résoud illico-presto la question posée.


Reste alors à justier la permutation, par le théorème de Fubini :
Notons, pour tout réel x et tous entiers n et p :

1 1 p p
an,p = . n .x
n! p!
P
Pour tout n∈ N , la série p |an,p |est convergente :
en eet, on a, pour x non nul ,
|an,p+1 | 1
= .n. |x|
|an,p | p+1
qui a pour limite 0 < 1, quand p tend vers l'inni , la règele de d'Alembert permet donc de conclure.
De plus
+∞ +∞
X 1 X 1 1
σn = |an,p | = . (n. |x|)p = en.|x|
p=0
n! p=0 p! n!
P
La série σn est elle même convergente ( encore une fois par la règle de d'Alembert )
Les hypothèses du théorème de Fubini sont donc bien vériées et la permutation des deux sommations est
licite.

Part II

Espaces probabilisés
5 Ensembles dénombrables

Dénition : Un ensemble est dit dénombrable s'il est en bijection avec N .


Si E est un tel ensemble et ϕune telle bijection :


N −→ E
ϕ:
n 7−→ ϕ(n) = xn

Ceci veut dire que cet ensemble peut être décrit en extension :

E = {xn ; n ∈ N}

les éléments deE pouvant donc être énumérés : le premier , le second ....
Exemple : Z est dénombrable.
On peut écrire en extension Z = {0, −1, 1, −2, 2, ....} , en commençant par exemple par le zéro , puis un
terme négatif , puis un terme positif , etc ...
Cela donne, par exemple la bijection suivante :

 N −→ E
n

ϕ: si n est pair
 n 7−→ ϕ(n) = 2
− n+1
2
si n est impair

Proposition : un produit cartésien de deux ensembles dénombrables est dénombrable


Preuve:
Comprenons d'abord l'exemple de base : N×N
On pourrait l'écrire en extension : {(0, 0), (0, 1), (1, 0), (0, 2)(1, 1)(2, 0), ....}
C'est à dire, en épuisant, au fur et à mesure les diagonales Dn = {(p, q)/p + q = n}en l'énumérant dans
l'ordre

Dn = {(n, 0), (n − 1, 1), (n − 2, 2), ....(1, n − 1), (0, n)}


et qui comporte donc n + 1éléments.
n(n+1)
Les diagonales précédentes
nD0 , D1 , ..Dn−1 ayant un cardinal valant
o 1 + 2 + ...n = 2
, il sut alors de
n(n+1)
dénir la restriction de ϕ sur
2
+ k; 1 ≤ k ≤ n + 1 par :

 
n(n + 1)
ϕ +k = (k − 1, n − k + 1)
2

De façon générale , si E = {xn ; n ∈ N} et F = {yn ; n ∈ N} , il sut de dénir ϕ sur

 
n(n + 1)
+ k; 1 ≤ k ≤ n + 1
2
par :  
n(n + 1)
ϕ +k = (xk−1 , yn−k+1 )
2
Extrait du programme ociel (PSI) :  toute autre connaissance sur la dénombrabilité est hors programme
Et pour cause : aucune question n'a été repérée dans les sujets des 7 dernières années en PSI .
Une question ( la 48 ième ) dans un sujet de Centrale MP )

6 Espaces probabilisés :

6.1 Notion de Tribu


Dénition : Notion de tribu
Si Ω est un ensemble ( qui sera l'univers ) , on appelle tribu sur Ω une partie A de l'ensemble P (Ω)des
parties de Ω telle que :
i/ Ω∈A
ii/ pour tout A appartenant à A , le complémentaire A ( ou Ω\A ) appartient à A
iii/ Pour toute suite (An )n∈N d'éléments de A , la réunion

∪n∈N An

appartient à A .
Les éléments de la tribu sont les évènements.
 Les étudiants doivent savoir expliciter un évènement à partir d'autres évènements en utilisant la réunion,
l'intersection et le complémentaire
Autrement dit, une tribu doit contenir l'évènement certain ( qu'est l'univers Ω lui même ) ( et c'est
logique ) , être stable par passage au complémentaire ( pour envisager l'évènement contraire d'un évènement
) et stable par réunion dénombrable.
En combinant les axiomes ii/et iii/ , on voit alors qu'une tribu est également stable par intersection
dénombrable.
Il va sans dire que, naturellement ( quitte à rajouter des parties vides ) qu'une tribu est stable par réunion
et intersection nies.
La plus simple des tribus, quand l'univers est dénombrable , est l'ensemble P (Ω)lui même.
Exemple ( illustrant l'extrait du programme ociel ) :
On lance une pièce jusqu'à l'obtention d'un Pile.

Un univers possible pour cette expérience est N ∪ {∞} : où l'enteir naturel non nul k désigne l'évènement
consistant l'obtention du Pile pour la première fois au k -ième lancer . L'évenement {∞}étant celui de ne
jamais obtenir de Pile , évènement tout à fait envisageable.
On note alors , pour tout entier naturel n , An , l'évènement Pile apparaît au delà du n -ième lancer
On a alors l'égalité suivante :
{∞} = ∩n∈N An
Extrait du programme ociel :
Cette partie chapitre : espaces probabilisés a pour objectif la mise en place du cadre général de la
théorie des probabilités permettant d'aborder l'étude de processus stochastiques à temps discret. Cette mise
en place se veut minimale. En particulier :
- la notion de tribu ne doit donner lieu à aucun développement théorique autre que sa dénition.
- la construction d'espaces probabilisés n'est pas un objectif du programme
En eet tous les sujets, sans exception, commencent par :
Soit (Ω, A, P ) un espace probabilisé ....
6.2 Probabilité :
Dénition :
Si Ω est un ensemble ( dit univers ) et A une tribu sur Ω , on appelle probabilité sur (Ω, A) toute application
P : A −→ [0, 1] telle que :
i/ P (Ω) = 1
ii/ Pour toute suite (An )n∈N d'évènements incompatibles,

+∞
X
P (∪n∈N An ) = P (An )
n=0

Le triplet (Ω, A, P ) est alors appelé espace probabilisé.

Rappelons que deux évènements sont dits incompatibles si leur intersection est vide.
Remarquer que cette dénition a pour conséquence la convergence de la série

X
P (An )

On a alors les propriétés suivantes :


Proposition : Continuité monotone des probabilités
si (Ω, A, P ) est un espace probabilisé, alors :
Continuité croissante :
Si (An )n∈N est une suite croissante d'évènements ( i.e. ∀n , An ⊂ An+1 ) , alors :

P (∪n∈N An ) = lim P (An )


n−→+∞

Continuité décroissante :
Si (An )n∈N est une suite décroissante d'évènements ( i.e. ∀n , An+1 ⊂ An ) , alors :

P (∩n∈N An ) = lim P (An )


n−→+∞
Preuve : Continuité croissante
Notons B0 = A0 et pour tout n ≥ 1 , Bn = An \ An−1
On a alors : pour tout n ,
∪0≤k≤n Bk = ∪0≤k≤n Ak = An
et
∪n∈N An = ∪n∈N Bn
Les évènements (Bn )n∈N sont incompatibles et par conséquent :

+∞
X n
X
P (∪n∈N An ) = P (∪n∈N Bn ) = P (Bn ) = lim P (Bk )
n−→+∞
n=0 k=0

Or ,
n
X
P (Bk ) = P (∪0≤k≤n Bk ) = P (An )
k=0

D'où le résultat.
Pour la continuité décroissante il sut de passer aux complémentaires et d'appliquer la continuité crois-
sante.
Un exemple d'utilisation :
Nous reprenons l'exemple ci-dessus ( lancer jusqu'à obtention de Pile ) et en particulier l'évènement noté
{∞} ( ne jamais obtenir Pile )
On a vu que
{∞} = ∩n∈N An
où An l'évènement Pile apparaît au delà du n -ième lancer
La suite (An )n∈N est décroissante.
Par conséquent, d'aprés la continuité décroissante des probabilités on a :

P ({∞}) = P (∩n∈N An ) = lim P (An )


n−→+∞

Si on note p la probabilité d'obtenir Pile ( avec 0<p<1 ) , on a :

P (An ) = (1 − p)n
et dont la limite est nulle.
Conclusion : l'évènement {∞}, est de probabilité nulle.
Cet évènement est tout à fait envisageable ( il n'est pas impossible ) mais presque sûrement impossible.
( c'est du bla bla bla )

Proposition :
si (Ω, A, P ) est un espace probabilisé, alors :
i/ P (Ø) = 0
ii/ Si (Ak )0≤k≤n est une suite nie d'évènements incompatibles, alors

n
X
P (∪0≤k≤n Ak ) = P (Ak )
k=0

iii/ Pour tous évènements A et B , on a :

P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
En particulier
P (A ∪ B) ≤ P (A) + P (B)
et si (Ak )0≤k≤n est une suite nie d'évènements, alors

n
X
P (∪0≤k≤n Ak ) ≤ P (Ak )
k=0

iv/ Pour tout évènement A ,



P A = 1 − P (A)
v/ Pour tous évènements A et B , on a :


 P (A) ≤ P (B)
(A ⊂ B) =⇒ et
P (B \ A) = P (B) − P (A)

Preuve :
i/ On prend , pour tout entier n , An = Ø
On applique le second axiome des probabilités. Il a pour conséquence la convergence de la série de terme
général P (Ø ) , ce terme étant constant et de limite nulle , est donc nul.
ii/ (Ak )0≤k≤n , on dénit la suite pour les indices supérieurs à n , par

∀k > n, Ak = Ø

et on applique encore le second axiome des probabilités.


iii/ On a
A ∪ B = (A \ B) ∪ B
et
A = (A \ B) ∪ (A ∩ B)
Les évènements A\B et B étant incompatibles, on a

P (A ∪ B) = P (A \ B) + P (B)

et de même
P (A) = P (A \ B) + P (A ∩ B)
En combinant les deux égalités, on obtient le résultat.
Par conséquent
P (A ∪ B) ≤ P (A) + P (B)
Ce résultat se généralise, par récurrence, à une réunion nie ( pour l'instant )
iv/ et v/ en découlent.

Proposition : Sous-additivité des probabilités


Si (An )n∈N est une suite d'évènements, alors :

+∞
X
P (∪n∈N An ) ≤ P (An )
n=0

( La série faisant gure de majorant pouvant trés bien diverger auquel cas sa somme est considérée comme
valant +∞ )

Preuve:
Posons , pour tout n , Bn = ∪0≤k≤n Ak .
La suite (Bn ) est croissante et on a :
∪n∈N An = ∪n∈N Bn
On a donc
P (∪n∈N An ) = P (∪n∈N Bn ) = lim P (Bn )
n−→+∞

Or
n
X
P (Bn ) = P (∪0≤k≤n Ak ) ≤ P (Ak )
k=0

On prend alors la limite sur les deux termes, et on obtient la majoration.

En pratique
( Programme MP )
Si Ω = {an , n ∈ N} ( cas dénombrable ), on prend pour tribu P (Ω) et on dénit une probabilité en
dénissant les probabilités des singletons {an }( dit évènements élémentaires ) :

∀n ∈ N, P ({an }) =: pn

où (pn ) est une suite de réels positifs telle que la série associée soit convergente et de somme égale à 1 :

+∞
X
pn = 1
n=0
On assure ainsi le premier axiome :

+∞
X
P (Ω) = P (∪n∈N {an }) = pn = 1
n=0

Et pour un évènement quelconque A appartenant à la tribu P (Ω) :


si
A = ∪k∈∆ {ak }
où ∆ est une partie de N , alors , en vertu du second axiome,
X X
P (A) = P ({ak }) = pk
k∈∆ k∈∆

On admet alors que le second axiome est valide. ( réunion dénombrable de réunions dénombrables et on
somme par paquets : c'est la notion de sommabilité, qui gure au programme MP , mais pas en PSI , encore
moins en PC ) ( raison pour laquelle le programme précise que  la construction d'espaces probabilisés n'est
pas un objectif du programme , et pourtant .......)

7 Conditionnement et indépendance

Dénition :
Soit (Ω, A, P ) est un espace probabilisé.
Si B est un évènement de probabilité non nulle : P (B) > 0 , on dénit la probabilité sachant B ( dite
conditionnelle ) par : pour tout évènement A ,

P (A ∩ B)
PB (A) =
P (B)

On note également
PB (A) = P (A |B)
On montre :
Proposition : Avec les notations et hypothèses ci-dessus, l'application :


A −→ [0, 1]
PB :
A 7−→ PB (A)

est une probabilité sur (Ω, A)


En eet , PB P (B) étant non nul ) sur la tribu A ,
est bien dénie ( arrive bien dans [0, 1] ( positive et
inférieure à 1 car P (A ∩ B) ≤ P (B) ( du fait de l'inclusion A ∩ B ⊂ B ).
Reste à vérier les deux axiomes :
P (Ω∩B)
i/ PB (Ω) =
P (B)
= PP (B)
(B)
=1
ii/ Pour toute suite (An )n∈N d'évènements incompatibles,

1 1
PB (∪n∈N An ) = × P ((∪n∈N An ) ∩ B) = × P (∪n∈N (An ∩ B))
P (B) P (B)
Les évènements (An ∩ B)n∈N sont incompatibles :
pour tous n 6= m ,
(An ∩ B) ∩ (Am ∩ B) ⊂ An ∩ Am = Ø
Il s'en suit alors, en utilisant le second axiome des probabilités, que :

+∞
X
P (∪n∈N (An ∩ B)) = P (An ∩ B)
n=0
Par suite :
+∞ +∞
X P (An ∩ B) X
PB (∪n∈N An ) = = PB (An )
n=0
P (B) n=0

Proposition : Formule des probabilités composées


Avec les notations et hypothèses ci-dessus, on a pour tout évènement A :

P (A ∩ B) = P (B) × PB (A)
( Ceci est une évidence )
et pour n évènements A1 , A2 , ...An on a :

P (A1 ∩ A2 ∩ ... ∩ An ) = P (A1 ) × PA1 (A2 ) × PA1 ∩A2 (A3 ) × .....PA1 ∩A2 ..∩An−1 (An )
Preuve :
Par récurrence sur n≥2
La formule étant vraie à l'ordre 2.
Soit n≥3 et supposons la formule établie à l'ordre n−1
On a :
A1 ∩ A2 ∩ ... ∩ An = B ∩ An
où B = A1 ∩ A2 ∩ ... ∩ An−1 .
On a donc ( par la formule à l'ordre 2 )

P (A1 ∩ A2 ∩ ... ∩ An ) = P (B ∩ An ) = P (B) × PB (An ) = P (B) × PA1 ∩A2 ∩...∩An−1 (An )

On applique alors ensuite l'hypothése de récurrence :

P (B) = P (A1 ∩ A2 ∩ ... ∩ An−1 ) = P (A1 ) × PA1 (A2 ) × .....PA1 ∩A2 ..∩An−2 (An−1 )

et la formule nale en découle.


Un exemple:
Une urne contient a boules blanches et b boules rouges. On eectue des tirages successifs avec remise avec
le protocole suivant :
Lorsqu'on tire une boule blanche on la remet aussitôt.
Au tirage d'une boule rouge on la remplace par une boule blanche.
Quelle est la probabbilité de tirer n boules rouges d'alée ?

D'abord, sin > b , cette probabilité est nulle ( à chaque tirage une boule rouge est retirée et donc on peut
en tirer bau maximum )
Pour n ≤ b ,
b
La première de tirer une boule rouge au premier tirage vaut :
a+b
( le total des boules étant a+b )
b−1
Celle de tirer une boule rouge au second tirage est ( il y a une boule rouge en moins : celle remplacée
a+b
par une boule blanche suite au premier tirage )
( remarquer que le nombre total de boules présentes dans l'urne reste constant égal à a + b)
Ainsi de suite ...
De manière intuitive , la probabilité demandée vaut :

b b−1 b − (n − 1)
× × ... ×
a+b a+b a+b
( avant le nième tirage , il ne reste plus que b − (n − 1) boules rouges )
C'est exact , mais ......
Mais le jury attend une réponse plus mathématique ( digne d'un élève de Prépas, qui connaît bien son cours
et y pioche des résultats qu'il applique scrupuleusement et sans atermoiement ( le but étant de convaincre le
jury qu'il a le potentiel d'un futur ingénieur rigoureux, méthodique, cultivé et bien élevé ( yesma3 elklem
) ....
Voici une réponse possible et politiquement correcte :
On note , pour tout entier non nul , k , Ak l'évènement  obtenir une boule rouge au k ième tirage
L'évènement étudié étant B = ∩1≤k≤n Ak
b b−1
On a alors P (A1 ) = , PA1 (A2 ) = et plus généralement
a+b a+b

b − (k − 1)
PA1 ∩A2 ..∩Ak−1 (Ak ) =
a+b
La formule des probabilités composées permet alors de conclure.
Dénition : système complet d'évènements
(Ω, A, P ) est un
Soit espace probabilisé.
Une famille (Ai )i∈I ( I un ensemble d'indices ni ou dénombrable ) constitue un système complet
d'évènements si :
i/ Pour tout i∈I , Ai 6= Ø
ii/ Les évènements sont deux à deux incompatibles
iii/ ∪i∈I Ai = Ω
En langage ensembliste, un système complet est une partition de Ω
Exemple concret :
Si l'univers Ωest l'ensemble des élèves
 de Spé de l'Ipest et que 
A1 =  élève de P SI , A2 = élève de P cSI , A3 = élève de P C ∗



A4 = élève de XM P , A5 = élève de M P ∗
alors vous convenez que {A1 , A2 , A3 , A4 , A5 } constitue un système complet d'évènements ?
Exemple sur un univers inni dénombrable :
On prend pour Ω , l'ensmble des entiers naturels supérieurs ou égaux à 2
On note {pn , n ∈ N} l'ensemble des nombres premiers , énuméré ainsi : p0 = 2, p1 = 3, p2 = 5, p3 = 7, .....
Pour tout entier naturel n , on note An l'évènement, pour un entier supérieur ou égal à 2 ,  avoir pn pour
plus petit facteur premier dans sa factorisation en produit de nombres premiers
La suite (An )n∈N constitue bien un système complet d'évènements.
Ci-dessous, on généralise la formule de même nom établie dans le cas d'un univers ni ( et donc pour un
système complet ni )

Théorème : Formule des Probabilités totales


Soit (Ω, A, P ) est un espace probabilisé.
Si (An )n∈N est un système complet d'évènements alors, pour tout évènement B, la série

X
P (B ∩ An )

converge et on a :
+∞
X
P (B) = PAn (B) × P (An )
n=0
Preuve:
On a : B = B ∩ Ω = B ∩ (∪n∈N An ) = ∪n∈N (B ∩ An )
Les évènements B ∩ An étant deux à deux incompatibles ( pour tous i 6= j ,

(B ∩ Ai ) ∩ (B ∩ Aj ) ⊆ Ai ∩ Aj = Ø

)
On a donc, d'aprés le second axiome des probabilités, la série en question converge et

+∞
X +∞
X
P (B) = P (B ∩ An ) = PAn (B) × P (An )
n=0 n=0
Remarque : un évènement diérent du vide ( pas impossible ) An peut trés bien avoir une probabilité
nulle , de sorte que PAn (B) ne soit pas déni ( division par un terme nul )
On convient dans ce cas que le produit correspondant

PAn (B) × P (An )

qui gure dans la somme de la formule ci-dessus est nul :

PAn (B) × P (An ) = 0

et c'est on ne peut plus logique, vu que ce produit est censé remplacer la quantité

P (B ∩ An )

qui, elle, est bien réellement nulle ( P (B ∩ An ) ≤ P (An ) = 0 )

Remarque : La formule reste également valable dans le cas d'une suite d'évènements (An )n∈N , deux à deux
incompatibles tels que :
+∞
X
P (An ) = 1
n=0
Cette condition étant censée remplacer la condition iii/ dans la dénition d'un sytème complet d'évènements.
Pour cela il sut d'adjoindre l'évènement B = ∪n∈N An , ( complémentaire de la réunion des An ), pour
obtenir un système complet d'évènements. Le terme rajouté étant nul ( par la convention précédente ) et
donc superu , la formule restant alors valide.
Remarque 1 :
Cette formule ( des probabiltés totales ) est, en général, la clé de l'une des questions les plus ardues d'un
problème de concours comportant des probabilités, et pour cause , le système complet en question est souvent
non explicite et c'est au candidat de le trouver tout seul.
Pour de plus amples détails, Rendez-vous pris pour la préparation....
Remarque 2 : l'abréviation FPT n'est pas courante, ne l'utlisez pas !
Remarque 3 : Pour un système complet d'évènements le résultat suivant est une évidence :

+∞
X
P (An ) = 1
n=0

et pourrait servir ( pour ne pas dire , a déjà servi ) pour répondre à une question.

Théorème : Formule de Bayes


Soit (Ω, A, P ) est un espace probabilisé.
Si (An )n∈N est un système complet d'évènements alors, pour tout évènement B, on a :

PA (B) × P (Ai )
PB (Ai ) = P+∞ i
n=0 PAn (B) × P (An )
En réalité, il n' ya strictement rien à prouver, puisque la somme présente au dénominateur n'est autre que
P (B) et que l'égalité n'est autre que

PAi (B) × P (Ai ) = PB (Ai ) × P (B)

Cette quantité n'étant ni plus ni moins que P (Ai ∩ B) écrite de deux manières diérentes selon le condition-
nement.
De fait ceci n'est donc pas une nouveauté ( ça l'était peut être à l'époque où Mr Bayes a trouvé sa formule
)
Mais il a un intérêt majeur : celui d'inverser les causes et les eets !
Autrement dit, connaissant les probabilités de B conditionnées par un système complet d'évenements , on
souhaite obtenir la probabilité sachant que B est réalisé qu'il soit causé par Ai .
Et des exemples d'application foisonnent, notamment aux oraux.
Voici un exemple :
...........
Dénition :
Soit (Ω, A, P ) est un espace probabilisé.
Deux évènements A et B sont dits indépendants si

P (A ∩ B) = P (A) × P (B)

Si, P (B) > 0 , ceci équivaut à


PB (A) = P (A)
Une famille nie ou dénombrable d'évènements (Ai )i∈I sont mutuellement indépendants si pour toute sous
famille nie de p évènements (Aik )1≤k≤p ( i1 , i2 , ..ip étant des indindices appartenant à I et distincts ) on a :
p
Y
P (∩1≤k≤p Aik ) = P (Aik )
k=1
Attention :  l'indépendance deux à deux n'entraîne pas l'indépendance mutuelle nous prévient le pro-
gramme ociel.
Ceci rappelle ( exactement) la notion d'indépendance linéaire d'une famille de vecteurs : elle est liée au
caractère libre de toute sous-famille nie et la non colinéarité deux à deux n'implique pas l'indépendance
linéaire de la famille de vecteurs.

Part III

Variables aléatoires discrètes


Nous commençons par le préambule du programme ociel
Les objectifs de cette partie sont les suivants :
- étendre la notion de variable aléatoire nie à des variables dont l'image est un ensemble dénombrable.
- fournir des outils permettant, sur des exemples simples, l'étude de processus stochastiques à temps
discret.
- exposer deux résultats asymptotiques : l'approximation de la loi binomiale par la loi de Poisson et la loi
faible des grands nombres.
- introduire les fonctions génératrices et utiliser les propriétés des séries entières.
La construction d'espaces probabilisés modélisant une suite d'expériences aléatoires est hors programme,
on admet l'existence de tels espaces.
Les diérents types de convergence probabiliste ( presque sûre, en probabilité, en loi, en moyenne ) sont
hors programme.
Toutes les variables aléatoires mentionnées dans le programme sont implicitement supposées discrètes.

8 Généralités

Dénition : Soit Ω un univers et A une tribu sur cet univers.


Une variable aléatoire discrète X sur (Ω, A)est une application dénie sur Ω dont l'image est nie ou
dénombrable et telle que l'image réciproque de tout élément de X (Ω) appartient à la tribu A ( donc un
évènement )
On raisonne sur le cas dénombrable : Si X (Ω) = {xn /n ∈ N}
La dénition impose donc que, pour tout n appartenant à N ,

X −1 ({xn }) = {ω ∈ Ω/X(ω) = xn } =: {X = xn }

soit un élément de la tribu , c'est à dire un évènement


et ce dans le but, une fois mis en place un espace probabilisé (Ω, A, P ) , de pouvoir dénir la probabilité :

P X −1 ({xn })


ou encore, par la notation prédente

P ({X = xn }) =: P (X = xn )

Conséquence ( de cette dénition ) :


Soit (Ω, A, P ) est un espace probabilisé.
Soit X une variable aléatoire discrète sur (Ω, A). En notant X (Ω) = {xn /n ∈ N}
L'application déni par : 
X (Ω) −→ [0, 1]
PX :
xn 7−→ P (X = xn )
permet de dénir une probabilité sur l'univers X (Ω)muni de la tribu P (X (Ω))
PX est applée loi de probabilité de la variable aléatoire X
Comme mentionné dans le chapitre précédent, on peut construire une probailité au moyen des probabilités
des évènements élémentaires. C'est exactement le cas ici, puisque , en notant pn = P (X = xn ) pour tout
entier , on a :
∀n ∈ N, pn ≥ 0
et
+∞
X +∞
X +∞
X
P X −1 ({xn }) = P ∪n∈N X −1 ({xn })
 
pn = P ({X = xn }) =
n=0 n=0 n=0

et ce parle second axiome des probabilités ( suite d'évènements deux à deux incompatibles )
Or
∪n∈N X −1 ({xn }) = Ω
Par conséquent, on a bien
+∞
X
pn = 1
n=0

On rappelle que,
Conséquence :
Pour toute partie U incluse dans X (Ω) ,
X −1 (U )
est un évènement ( i.e. appartient à la tribu A )
Cet évènement est noté indiéremment :

X −1 (U ) =: (X ∈ U ) =: {X ∈ U }
( dit X prend ses valeurs dans U )
En eet, en notant encore X (Ω) = {xn /n ∈ N},
si U = {xi /i ∈ I} où I est une partie de N alors

X −1 (U ) = ∪i∈I X −1 ({xi })

cette réunion étant nie ou dénombrable.


Comme, pour tout i , X −1 ({xi }) est un élément de la tribu ( comme l'exige la dénition d'une variable
aléatoire ) , la réunion est un élément de la tribu ( une tribu étant stable par réunion nie ou dénombrable )
Une sorte de réciproque :
Proposition :
Soit Ω un univers et A une tribu sur cet univers.
Soit X est une variable aléatoire discrète sur (Ω, A). On note X (Ω) = {xn /n ∈ N} ( les xn étant distincts )
Si (pn )n∈N est une suite de nombres réels positifs telle que :

+∞
X
pn = 1
n=0

alors il existe une probabilité P sur (Ω, A) telle que :

∀n ∈ N, P (X = xn ) = pn
Preuve hors programme
Dénition : fonction de répartition
Soit (Ω, A, P ) est un espace probabilisé.
Soit X une variable aléatoire discrète sur (Ω, A) ( à valeurs réelles )
On appelle fonction de répartition de X la fonction :


R −→ [0, 1]
FX :
t 7−→ P (X ≤ t)
Cette fonction est parfaitement déni, puisque,

{ω ∈ Ω/X(w) ≤ t} = ∪k∈4 X −1 ({xk })

où 4 = {k ∈ N/xk ≤ t}
Comme, pour tout k , X −1 ({xk }) est un élément de la tribu , la réunion ci-dessus ( qui est nie ou
dénombrable ) est donc un élément de la tribu.

Proposition :
i/ la fonction de répartition FX est croissante sur R
ii/
lim FX (t) = 0
t−→−∞

iii/
lim FX (t) = 1
t−→+∞
Preuve :
i/ Si t ≤ t0 , alors
{ω ∈ Ω/X(w) ≤ t} ⊂ {ω ∈ Ω/X(w) ≤ t0 }
et par suite FX (t) ≤ FX (t0 )
ii/ Nous appliquons le théorème de caractérisation séquentielle d'une limite ( avec une variante monotone
) :
Soit (tn )n∈N une suite réelle décroissante de limite −∞
On souhaite montrer que
lim FX (tn ) = 0
n−→+∞

Notons alors, pour tout n , An = {ω ∈ Ω/X(w) ≤ tn }


La suite (An ) est décroissante et on a, pour tout n , P (An ) = FX (tn ).
Par la continuité décroissante des probabilités on a :

lim FX (tn ) = lim P (An ) = P (∩n∈N An )


n−→+∞ n−→+∞
Or ∩n∈N An est vide , donc de probabilité nulle.
La conclusion s'en suit.
iii/ Méthode analogue pour la limite en +∞
Extrait du programme :  L'étude des propriétés de continuité des fonctions de répartition n'est pas au
programme

9 Couple de variables aléatoires

9.1 Loi conjointe, lois marginales


Dénition :
Soit (Ω, A, P ) est un espace probabilisé.
Soient X et Y deux variables aléatoires discrètes sur cet espace.
La loi conjointe du couple (X, Y ) est dénie par la donnée de

P (X = x, Y = y)

et ce pour tous x ∈ X (Ω) et y ∈ Y (Ω)


Les lois de X et de Y sont dites lois marginales.

Remarque : La notation (X = x, Y = y) désignant justement l'évènement :


 X et Y prennent conjointement ( ou simultanément ) les valeurs x et y (repectivement )) et de ce fait
ce n'est ni plus ni moins que l'intersection :

(X = x, Y = y) = (X = x) ∩ (Y = y)

Disposant de la loi conjointe on détermine les lois marginales comme suit :


Prposition :
∀x ∈ X (Ω) ,
X
P (X = x) = P (X = x, Y = y)
y∈Y (Ω)

et de même ,
∀y ∈ Y (Ω) ,
X
P (Y = y) = P (X = x, Y = y)
x∈X(Ω)
Preuve :
Notons Y (Ω) = {yn /n ∈ N} ( cas dénombrable ) ( les yn étant distincts ) ( le ca ni a été traité de façon
similaire en Sup , les problèmes de convegence en moins )
L'ensemble des évènements {Y = yn }n∈N est un système complet d'évènements.
D'prés la formule des probabilités totales :

+∞
X +∞
X
P (X = x) = P{Y =yn } (X = x) × P (Y = yn ) = P ({X = x} ∩ {Y = yn })
n=0 n=0

Ce qui, d'aprés la remarque ci-dessus concernant les notations, permet de conclure.

9.2 couple de variables aléatoires indépendantes


Dénition : Deux variables aléatoires discrètes X et Y dénies sur un espace probabilisé (Ω, A, P ) sont dites
indépendantes si :

∀x ∈ X (Ω) , ∀y ∈ Y (Ω) , P (X = x, Y = y) = P (X = x) × P (Y = y)
On démontre alors que :
Théorème : Si X et Y sont deux variables aléatoires discrètes indépendantes sur un espace probabilisé
(Ω, A, P ) alors pour tous évènements A ⊂ X (Ω) et B ⊂ Y (Ω) , on a :

P (X ∈ A, Y ∈ B) = P (X ∈ A) × P (Y ∈ B)
Preuve ( hors programme en section PSI )
L'évènement
{X ∈ A, Y ∈ B} = ∪x∈A {X = x, Y ∈ B}
cette réunion étant disjointe ( évènements incompatibles) , nie ou dénombrable . Donc

X
P (X ∈ A, Y ∈ B) = P (X = x, Y ∈ B)
x∈A

Pour tout x∈A , on a également {X = x, Y ∈ B} = ∪y∈B {X = x, Y = y} , réunion disjointe nie ou


dénombrable et donc X
P (X = x, Y ∈ B) = P (X = x, y = b)
y∈B

Du fait que X et Y sont indépendantes , on a :

P (X = x, Y = y) = P (X = x) × P (Y = y)

Par suite : Pour toutx∈A,


X X
P (X = x, Y ∈ B) = P (X = x) × P (Y = y) = P (X = x) × P (Y = y) = P (X = x) × P (Y ∈ B)
y∈B y∈B

Et donc
!
X X
P (X ∈ A, Y ∈ B) = P (X = x) × P (Y ∈ B) = P (X = x) × P (Y ∈ B) = P (X ∈ A) × P (Y ∈ B)
x∈A x∈A

La preuve est hors programme ? ( oui , il y a un petit chouia de sommabilité déguisée )

9.3 Extension de la notion d'indépendance à n variables


Dénition : Soit n≥2
n variables aléatoires discrètes X1 , ..Xn dénies sur un espace probabilisé (Ω, A, P ) sont dites mutuellement
indépendantes si :

n
Y
∀ (x1 , x2 , ..xn ) ∈ X1 (Ω) × X2 (Ω) × ... × Xn (Ω) , P (X1 = x1 , X2 = x2 , ..., Xn = xn ) = P (Xk = xk )
k=1
On démontre alors que :

Théorème : Si X1 , ..Xn sont des variables mutuellement indépendantes sur un espace probabilisé (Ω, A, P )
alors pour tous évènements A1 ⊂ X1 (Ω) , A2 ⊂ X2 (Ω),...An ⊂ Xn (Ω) , on a :

n
Y
P (X1 ∈ A1 , X2 ∈ A2 , ..Xn ∈ An ) = P (Xk ∈ Ak )
k=1
Preuve, évidemment ...
9.4 Un exmple d'oral
Enoncé ( (Mines PC 2016 ) :
Soit (X, Y ) un couple de variables aléatoires à valeurs dans N∗ tel que :

1
∀(i, j) ∈ (N∗ )2 , P (X = i, Y = j) =
2i+j
1/ Déterminer les lois de X et de Y
2/ Les variables X et Y sont - elles indépendantes ?

La loi marginale de la variable X est obtenu par :

+∞ +∞

X 1 X 1 1 1 1 1
∀i ∈ N , P (X = i) = P (X = i, Y = j) = i j
= i. 1 =
j=1
2 j=1 2 2 21− 2
2i

Par symétrie, la loi mariginale de Y est donnée par

1
∀j ∈ N∗ , P (Y = j) =
2j
2/ On a bien ,
1
∀(i, j) ∈ (N∗ )2 , P (X = i, Y = j) = = P (X = i) × P (Y = j)
2i+j
Donc X et Y sont indépendantes.
N'allez pas croire que tous les exercices d'oraux sont aussi faciles
et ne comprenez pas non plus qu'ils sont beaucoup plus ardus !!
Extrait du rapport du jury ( oral PC 2018 ) :
 Concernant les probabilités :
Trés contrasté : les exercices ont été ou trés rapidement ou trés lentement traités

9.5 Application : Pile ou face


Programme ociel :
application à la modélisation d'un jeu de pile ou face inni par une suite de variables aléatoires de Bernoulli
mutuellement indépendantes
Les sujets de concours foisonnent ...

10 Espérance d'une variable aléatoire

10.1 Dénition :
Dénition : Soit (Ω, A, P ) est un espace probabilisé.
Soit X une variable aléatoire discrète sur cet espace. X (Ω) ⊂ {xn n ∈ N}
X est dite d'espérance nie, si la série
X
xn P (X = xn )
est absolument convergente.
Si tel est le cas , on appelle espérance de X , notée E(X) le réel :

+∞
X
E(X) = xn P (X = xn )
n=0

On admet que cette somme ne dépend pas de l'ordre d'énumération ( c'est la notion de sommabilité pour la
section MP )
En fait, le cas ni a été traité en cours de Sup : les sommes en présence étant nies, l'espérance est dans
ce cas, de nature, nie.
Dénition : une variable aléatoire est dite centrée si elle est d'espérance nulle

10.2 Cas particulier d'une variable à valeurs dans N :


Proposition :
Si X est à valeurs entières ( i.e. X(Ω) ⊂ N ) et si X est d'espérance nie alors

+∞
X
E(X) = P (X ≥ n)
n=1
Preuve ( demandée à plusieurs reprises aussi bien à l'écrit qu'à l'oral ) :
Dans ca cas, X est d'espérance nie si la série
X
nP (X = n)
n≥1

converge ( et ce du fait que la série est à termes positifs )


P
Nous montrons alors que ceci équivaut à la convergence de la série n≥1 P (X ≥ n) , puis on montre que
les deux sommes correspondantes sont égales.
Considérons, pour n≥1 , les sommes partielles associées

Pn Pn
Sn = k=1 kP (X = k) et Tn = k=1 P (X ≥ k)
Remarquons que, pour tout k≥1 , on a :

P (X = k) = P (X ≥ k) − P (X ≥ k + 1)

On a alors

n
X n
X n
X
Sn = k (P (X ≥ k) − P (X ≥ k + 1)) = k.P (X ≥ k) − k.P (X ≥ k + 1)
k=1 k=1 k=1

n
X n+1
X n
X n+1
X
= k.P (X ≥ k) − (k − 1).P (X ≥ k) = k.P (X ≥ k) − (k − 1).P (X ≥ k)
k=1 k=2 k=1 k=1
n
X
= (k − (k − 1)).P (X ≥ k) − (nP (X ≥ n + 1))
k=1
n
X
= P (X ≥ k) − (nP (X ≥ n + 1))
k=1

Ona donc , pour tout n≥1 ,


Sn = Tn − (nP (X ≥ n + 1))
P
Si la série n≥1 P (X ≥ n) , alorsP la suite (Tn ) est majorée. L'égalité ci-dessus montre alors que la suite
(Sn ) est majorée et par suite la série
P n≥1 nP (X = n) est convergente ( étant à termes positifs )
Réciproquement : si n≥1 nP (X = n) est convergente, on a, pour tout n≥1 :

+∞
X +∞
X +∞
X
0 ≤ nP (X ≥ n + 1) = n P (X = k) = nP (X = k) ≤ k.P (X = k)
k=n+1 k=n+1 k=n+1

Ce majorant n'est autre que le reste d'une série convergente : il est donc de limite nulle.
Ceci prouve que la suite (Tn ) est convergente et de même limite que la suite (Sn ) .
10.3 Thèorème du transfert
Assurément, l'un des résultats les plus utilisés
Théorème :
Soit (Ω, A, P ) est un espace probabilisé.
Soit X une variable aléatoire discrète sur cet espace. X (Ω) = {xn n ∈ N}
Soit f une application à valeurs réelles dénies sur X (Ω).
La variable aléatoiref (X) est d'espérance nie si et seulement si la série

X
f (xn ).P (X = xn )

est absolument convergente.


Dans ce cas
+∞
X
E(f (X)) = f (xn ).P (X = xn )
n=0
Preuve : hors programme ( section PSI et PC ) (non exigible en MP )

10.4 linéarité de l'Espérance


Proposition : L'Espérance est linéaire :
Soit (Ω, A, P ) est un espace probabilisé.
Si X et Y sont des variables aléatoires discrètes sur cet espace.
Si X et Y ont des Espérances nies alors il en est de même pour la combinaison λX + y ( pour tout réel λ
) et on a :
E(λX + Y ) = λE(X) + E(Y )
Preuve : non exigible.
Pour la multiplication par un scalaire, elle est immédiate :
On applique le théorème de transfert à la variable
P f (X) = λX :
Si X (Ω) = {xn n ∈ N}, la série xn P (X = xn ) étant absolument convergente, il en est de même de la
série X
λ.xn P (X = xn )
et on a :
+∞
X +∞
X
λ.xn P (X = xn ) = λ. .xn P (X = xn ) = λ.E(X)
n=0 n=0

Pour ce qui est de la somme X+Y , il y a encore un soupçon de sommabilté ( apanage des grosses
légumes )
Si X (Ω) = {xn n ∈ N} , Y (Ω) = {yk k ∈ N} alors,
X
(xn + yk ) P (X = xn , Y = yk )
(n,k)∈N×N

est sommable : En fait N×N est dénombrable , la série ainsi construite à partir de cette série doublement
indexée est absolument convergente et dans ce cas l'ordre dans le quel on somme ses termes n'altère aucuné-
ment le résultat nal , on a donc ( et là également c'est encore une application insoupçonnée du théorème du
transfert , la variable étant le couple (X, Y ) ( d'où l'usage de la loi conjointe ) et la fonction étant la somme :

X
E (X + Y ) = (xn + yk ) P (X = xn , Y = yk )
(n,k)∈N×N
X X
= xn .P (X = xn , Y = yk ) + yk .P (X = xn , Y = yk )
(n,k)∈N×N (n,k)∈N×N
+∞ +∞
! +∞ +∞
!
X X X X
= xn P (X = xn , Y = yk ) + yk P (X = xn , Y = yk )
n=0 k=0 k=0 n=0

et ce par un usage intempestif du théorème de Fubini ( encore de la sommabilité )


Puis, les lois marginales iadant ,

+∞
X +∞
X
= xn (P (X = xn )) + yk (P (Y = yk )) = E(X) + E(Y )
n=0 k=0

10.5 Positivité et croissance


Proposition : Postivité de l'Espérance
Si X est un variable aléatoire positive ( i.e. à valeurs dans R+ ) d'Espérance nie alors

E(X) ≥ 0
Preuve : !!
Proposition : croissance de l'Espérance
Si X et Y sont deux variables aléatoires d'Espérances nies sur un même espace probabilisé (Ω, A, P ) et
telles que
X≤Y
alors
E(X) ≤ E(Y )
Preuve : conséquence de la positivité et de la linéarité.

10.6 Espérance d'un produit


Proposition :
Si X et Y sont deux variables aléatoires d'Espérances nies sur un même espace probabilisé (Ω, A, P ) et si
X et Y sont indépendantes , alors :
E (XY ) = E(X) × E(Y )
Preuve : hors programme en section PSI
( encore un zeste de sommabilité )
Notons X (Ω) = {xn n ∈ N} etY (Ω) = {yk k ∈ N}
Le théorème du transfert appliqué au couple (X, Y ) f (X, Y ) = XY exige que la
et à la fonction produit :
série double suivante ( mais en réalité c'est une série , pour cause de dénombrabilité de N × N ) soit sommable
( série absolument convergente ) :

X
(xn × yk ) P (X = xn , Y = yk )
(n,k)∈N×N

Ce qu'on admet.
Par indépendance des deux variables, on a, pour tous n et k :

P (X = xn , Y = yk ) = P (X = xn ) × P (Y = yk )

Par le théorème de Fubini on a alors =

+∞ +∞
! +∞
X X X
E (XY ) = xn .P (X = xn ) yk .P (Y = yk ) = xn .P (X = xn ) × E(Y ) = E(Y ) × E(X)
n=0 k=0 n=0
11 Variance d'une variable aléatoire

11.1 Dénition et premières propriétés


Proposition :
Soit (Ω, A, P ) est un espace probabilisé.
Soit X est un variable aléatoire discrète sur cet espace.
2
Si X est d'espérance nie alors X est elle même d'espérance nie

Preuve : Notons X (Ω) = {xn n ∈ N}


P 2
Par hypothèse la série xn P (X = xn ) est absolument
P convergente ( thorème du transfert )
Nous vérions alors qu'il en est de même de la série xn P (X = xn )
Or , pour tout n , on a :

p p  p  1 2 
|xn P (X = xn )| = |xn | .P (X = xn ) = x2n . P (X = xn × P (X = xn ≤ xn P (X = xn ) + P (X = xn )
2
et ce en vertu de l'inégalité du collégien :

1 2
a + b2

ab ≤
2
Les deux termes apparaissant dans la majoration correspondant à ceux d'une série convergente, le résultat
en découle.
Dénition : Avec les notations ci-dessus.
2
Si X est d'espérance nie alors on peut dénir la quantité ci-dessous, dite variance de X :

V (X) = E X 2 − (E(X))2


On a alors :
Proposition-dénition :
2
Si X est d'espérance nie alors
V (X) = E (X − E(X))2 ≥ 0


Sa racine carrée est dite écart-type de la variable X . Notation


p
σ(X) = V (X)
m = E(X) pour y voir plus clair
Preuve :Notons
(X − E(X)) = (X − m)2 = X 2 − 2m.X + m2
2

Par linéarité de l'espérance , cette variable admet une espérance nie qui vaut :

E (X − E(X))2 = E X 2 − 2m.X + m2 = E(X 2 ) − 2mE(X) + m2 = E(X 2 ) − m2 = V (X)


 

Propriétés de la variance :
Si X est une variable aléatoire admettant une variance, alors pour toute constante b , X+b admet une
variance

V (X + b) = V (X)
et pour tout réel λ , il en est de même de la variable λX et on a

V (λX) = λ2 V (X)
Preuve : Le fait que les variances soit nies est immédiat.

V (X + b) = E ((X + b) − E(X + b))2 = E (X + b − E(X) − b)2 = E (X − E(X))2 = V (X)


  
et
V (λX) = E (λX − E(λX))2 = E (λ (X − E(X)))2 = E λ2 (X − E(X))2 = λ2 V (X)
  

11.2 Variance d'une somme de variables aléatoires. Covariance


Dénition : Covariance
Pour deux variables alaéatoires X et Y ayant des variances nies, on dénit la covariance des deux variables
et on note Cov(X, Y ) la quantité suivante :

Cov(X, Y ) = E(XY ) − E(X)E(Y ) = E ((X − E(X)) . (Y − E(Y )))


Pour ce qui est de l'existence, essentiellement la quantité E(XY ) , on utilise encore l'identité du collégien
:
Si X (Ω) = {xn n ∈ N} et que Y (Ω) = {yk k ∈ N} , on a : pour tous n et k ,

1 2
xn + yk2 .P (X = xn , Y = yn )

|xn .yk | .P (X = xn , Y = yn ) ≤
2
La famille X
x2n .P (X = xn , Y = yn )
n,k

est sommable :
∀n , la série
X
x2n .P (X = xn , Y = yn )
k

est absolument convergente de somme

+∞
X
σn = x2n . P (X = xn , Y = yn ) = x2n .P (X = xn )
k=0

dont la série converge ( X2 étant d'espérance nie )


Il en est de même pour la famille

X
yn2 .P (X = xn , Y = yn )
n,k

Pour l'égalité, on a :
(X − E(X)) . (Y − E(Y )) = XY − mY − µX + mµ
et ce en notant m = E(X) et µ = E(Y ).
La linéarité de l'espérance paermet alors de conclure.
Proposition :
Pour deux variables alaéatoires X et Y ayant des variances nies, X +Y admet une variance nie et on a :

V (X + Y ) = V (X) + V (Y ) + 2cov(X, Y )
Preuve:

(X + Y )2 = X 2 + Y 2 + 2XY
admet bien une espérance nie ( d'aprés ce qui précède )
On a ( mêmes notations que ci-dessus ) et par linéarité de l'espérance :

V (X + Y ) = E (X + Y − m − µ)2 = E ((X − m) + (Y − µ))2 = E (X − m)2 + (Y − µ)2 + 2 (X − m) (Y − µ


 
= E (X − m)2 + E (Y − µ)2 + 2E ((X − m) (Y − µ)) = V (X) + V (Y ) + 2cov(X, Y )
 

Proposition :
Soit Soit (Ω, A, P ) est un espace probabilisé.
Notons E l'espace vectoriel des variables aléatoires réelles dénies sur cet espace et admettant une variance
nie
L'application :


E × E −→ R
(X, Y ) 7−→ Cov(X, Y )
est bilnéaire symétrique positive
Preuve :
La symétrie est évidente
La linéarité par rapport à l'une des variables découle de la linéarité de l'espérance.
D'où la bilinéarité.
Pour la positivité, remarquons que

cov (X, X) = E ((X − m)(X − m)) = E (X − m)2 = V (X) ≥ 0




Corollaire : Inégalité de Cauchy-Schwarz


Si X et Y sont deux variables aléatoires réelles dénies sur un espace probabilisé (Ω, A, P ) et admettant une
variance nie alors : p p
|cov(X, Y )| ≤ V (X) × V (Y )
On peut alors dénir la quantité suivante :
Dénition :
Si X et Y sont deux variables aléatoires réelles dénies sur un espace probabilisé (Ω, A, P ) et admettant une
variance nie non nulle, on note
cov(X, Y )
ρ(X, Y ) = p p
V (X) × V (Y )
dit coécient de corrélation de X et de Y
Ce coécient est donc ( d'aprés l'inégalité ci-dessus ) compris entre −1 et 1 :

−1 ≤ ρ(X, Y ) ≤ 1
Généralisation à n variables
Proposition :
Si X1 , X2 , ..Xn sont des variables aléatoires réelles dénies sur un espace probabilisé (Ω, A, P ) et admettant
chacune une variance nie , alors leur somme X1 + X2 + .. + Xn admet une variance nie et on a :

n
X X
V (X1 + X2 + .. + Xn ) = V (Xk ) + 2 cov(Xi , Xj )
k=1 1≤i<j≤n
Formule qui est à rapprocher de l'identité remarquable du collégien en herbe :

n
X X
2
(a1 + a2 + .. + an ) = a2k + 2 ai .aj
k=1 1≤i<j≤n

Preuve : par récurrence sur n .


11.3 Cas d'une somme de variables aléatoires indépendantes.
Théorème :
Soit (Ω, A, P ) un espace probabilisé.
Soient X et Y deux variables aléatoires réelles dénies sur cet espace et admettant une variance nie.
Si X et Y sont indépendantes, alors

V (X + Y ) = V (X) + V (Y )

Plus généralement, si X1 , X2 , ..Xn sont des variables aléatoires réelles dénies admettant chacune une vari-
ance nie , et si ces variables sont deux à deux indépendantes alors

n
X
V (X1 + X2 + .. + Xn ) = V (Xk )
k=1
Preuve :
Utiliser les expressions précédentes ( incluant la covariance ) et observer que si deux variables sont in-
dépendantes alors leur covariance est nulle ( et ce du fait que, dans ce cas , E(XY ) = E(X)E(Y ) )

12 Deux inégalités majeures !

12.1 Inégalité de Markov


Théorème :
Soit (Ω, A, P ) un espace probabilisé.
Soit X une variable aléatoire dénie sur cet espace.
( Deux hypothèses ) :
Si X est positive ( X (Ω) ⊂ R+ )
et si X admet une espérance nie
Alors ∀a > 0 ,
E(X)
P (X ≥ a) ≤
a
Preuve :
Notons Y la variable aléatoire dénie à partir de la variable X comme suit :


a si X(ω) ≥ a
Y (ω) =
0 si X(ω) < a
( D'aucuns notent Y = 1[a,+∞[ .X )
Remarquons alors que, d'une part, Y est d'espérance nie ( ne prenant que deux valeurs ) et d'autre part

Y ≤X
ce qui, par croissance de l'espérance donne :

E(Y ) ≤ E(X)
Or

E(Y ) = 0 × P (Y = 0) + aP (Y = a) = aP (Y = a)
Remarquons alors que l'évènement {Y = a} n'est autre que l'évènement {X ≥ a}.
On a donc :
a.P (X ≥ a) ≤ E(X)
l'inégalité s'en déduit.
12.2 Inégalité de Bienaymé-Tchebychev
Attention, il s'agit de deux personnes distinctes! ce n'est donc pas Bienaymé Tchebychev ( cousin lointain de
Benyamin Tchevchenko ?)

Théorème :
Soit (Ω, A, P ) un espace probabilisé.
Soit X une variable aléatoire dénie sur cet espace.
( Une hypothèse ) :
Si X admet une variance nie
Alors ∀ε > 0 ,
V (X)
P (|X − E(X)| ≥ ε) ≤
ε2
Preuve :
C'est une conséquence directe de l'inégalité de Markov.
Nous apprenons ici une façon ecace quand à l'emploi de cette inégalité ( ce qui est trés fréquent aux
concours ).
L'évènement dont on estime la probabilité est souvent trompeur :
Pour savoir, à quelle variable on applique l'inégalité de Markov. il sut , en général , de bien regarder en
priorité le majorant et y déceler l'espérance d'une variable ( positive )
2
Ici V (X) qui n'est autre que E (X − E(X)) : on tient notre variable

Y = (X − E(X))2
qui est bien positive et qui admet bien une espérance nie.
Il sut alors de ré-écrire l'évènement étudié gràce à cette variable :
 2 2
Ici, l'évènement {|X − E(X)| ≥ ε}n'est autre que (X − E(X)) ≥ ε c'est à dire {Y ≥ ε2 }
On a donc
 E(Y ) V (X)
P (|X − E(X)| ≥ ε) = P Y ≥ ε2 ≤ 2
=
ε ε2
Une application :
Exemple :
Une variable aléatoire de variance nulle est presque sûrement constante
Preuve : Encore une belle application, surtout, de la continuité monotone des probabilités !
1

Notons, pour tout entier naturel non nul An = |X − E(X)| ≥
n
La suite (An )n∈N∗ est croissante et a pour réunion l'évènement

A = ∪An = {|X − E(X)| > 0}

On a donc, par la continuité croissante des probabilités :

P (A) = lim P (An )


n−→+∞

Or, pour tout n , par l'inéaglité de Bienaymé-Tchebychev ,

 
1
0 ≤ P (An ) = P |X − E(X)| ≥ ≤ .n2 .V (X) = 0
n

Il s'en suit que A est de probabilité nulle et donc son évènement contraire {|X − E(X)| = 0} ou encore
{X = E(X)} est de probabilité égale à 1 :
X est donc presque sûrement constante ( égale à son espérance )
13 Lois usuelles

13.1 variable certaine :


Dénition :
Une variable est dite certaine si elle est constante : X((Ω) = {c}
On a donc P (X = c) = 1
E(X) = c etV (X) = 0

13.2 Loi de Bernoulli


Dénition : Loi de Bernoulli de paramètre p ∈ [0, 1]
Une variable aléatoire X suit une loi de Bernoulli de paramètre p ∈ [0, 1], notation X y B(p) si

X (Ω) = {0, 1}

avec
P (X = 1) = p
et donc forcément P (X = 0) = 1 − p =: q
Interprétation : Cette loi modélise une expérience à deux issues possibles : succés ou échec
La valeur 1 étant conventionnellement attribué au succés ( et 0 à l'échec : tout à fait logique )
Le succés peut être interprété comme étant la réalisation d'un évènement A et l'échec sa non réalisation ,
auquel cas la variable X n'est autre que la fonction indicatrice de A :

 Ω −→  [0, 1]
X = 1A : 1 si ω ∈ A
 ω 7−→
0 si ω ∈ /A
Proposition :
Si Une variable aléatoire X suit une loi de Bernoulli de paramètre p ∈ [0, 1], alors elle est naturellemnt
d'espérance et de vraiance nies et on a :

E(X) = p et V (X) = p(1 − p)

13.3 Loi binomiale


Dénition :
Loi de Binomiale de paramètres n ∈ N∗ et p ∈ [0, 1]
Une variable aléatoire X suit une loi de Bernoulli de paramètres n ∈ N∗ et p ∈ [0, 1] , notation

X y B(n, p)

si
X (Ω) = {0, 1, ..n}
avec pour tout entier k appartenant à {0, 1, ..n}
 
n
P (X = k) = pk (1 − p)n−k
k
Interprétation :
Une telle variable compte le nombre de succés lors de la répitition de n variables de Bernoulli indépendantes.
Lors d'un tirage d'une boule dans une urne comportant deux types de boules ( couleurs diérentes ) , ce
tirage étant répété n fois de manière indépendante et avec remise de la boule tirée. La variable comptant le
nombre de boules tirées d'une
couleur
 choisie suit alors une loi binomiale.
n
Le coécient du binôme , qui est le nombre de combinaisons de k éléments parmi n indique les
k
tirages couronnés de succés.
La loi binomiale est donc caractéristique des tirages avec remise.
Remarque: la binomiale B(1, p) n'est autre qu'une Bernoulli de paramètre p
Proposition :
Soit X une variable aléatoire suivant une loi binomiale B(n, p)
X admet une espérance et une variance nie ( l'univers étant ni ) et on a :

E(X) = np et V (X) = np(1 − p)


Preuve:

n n n  
X X X n
E(X) = k.P (X = k) = k.P (X = k) = k. pk (1 − p)n−k
k
k=0 k=1 k=1
n n−1
X n! X n!
= pk (1 − p)n−k = pk+1 (1 − p)n−1−k
k=1
(k − 1)!(n − k) k=0
k!(n − 1 − k)
n−1 n−1  
X (n − 1)! k n−1−k
X n−1
= np p (1 − p) = np. pk (1 − p)n−1−k
k!(n − 1 − k) k
k=0 k=0

= np (p + (1 − p))n−1 = np
Pour la variance, on calcule E(X(X − 1)) de préférence ( c'est souvent le cas et il y a une raison dans l'âme
de Jacob, à découvrir !) ( on applique au passage le théorème du transfert , ici bien valide , toutes les sommes
étant nies donc absolument convergentes)

n n n  
X X X n
E(X(X − 1)) = k(k − 1).P (X = k) = k(k − 1).P (X = k) = k(k − 1). pk (1 − p)n−k
k
k=0 k=2 k=2

n n−2
X n! X n!
= pk (1 − p)n−k = pk+2 (1 − p)n−2−k
k=2
(k − 2)!(n − k) k=0
k!(n − 2 − k)
n−2 n−2  
2
X (n − 2)! k n−2−k 2
X n−2
= n(n − 1)p p (1 − p) = n(n − 1)p . pk (1 − p)n−2−k
k!(n − 2 − k) k
k=0 k=0

= n(n − 1)p2 (p + (1 − p))n−2 = n(n − 1)p2


On a alors

V (X) = E(X(X − 1)) + E(X) − (E(X))2 = n(n − 1)p2 + np − n2 p2 = np (1 − np + (n − 1)p) = np(1 − p)


Rassurez-vous il ya bien plus simple comme moyen de trouver ces deux valeurs !! Patience !!
Proposition : Soit n un entier naturel , n ≥ 1
Soient X1 , X2 , ..Xn n variables de Bernoulli de même paramètre p ∈ [0, 1] et mutuellement indépendantes.
Leur somme
n
X
X= Xi
i=1

suit une loi binomiale B(n, p).


Ce qui est somme toute logique, puisque en sommant des 1 et des 0 , on est en train de comptabiliser le
nombre de succés.
Preuve ( mathématique ) : par récurrence sur n.
Pour n = 1 , c'est une évidence ..
Soit n ≥ 2 et supposons le résultat établi à l'ordre n − 1 .
Pn
On se place dans le cas de n variables. et on s'intéresse à la variable X= i=1 Xi
Pn−1
Notons alors Y = i=1 Xi de sorte que
X = Y + Xn
Par l'hypothèse de récurrence, la variable Y suit une binomiale B(n − 1, p) .
Comme Y (Ω) = {0, 1, ..n − 1} et que Y (Ω) = {0, 1} on a

XΩ = {0, 1, ..n}

Remarquons alors que {Xn = 0} et {Xn = 1} forment un système complet d'évènements.


Pour k compris entre 1 et n − 1 , on a donc , par la formule des probabilités totales :

P (X = k) = P{Xn =0} (X = k) × P (Xn = 0) + P{Xn =1} (X = k) × P (Xn = 1)


= P ({X = k} ∩ {Xn = 0}) + P ({X = k} ∩ {Xn = 1})

= P ({Y = k} ∩ {Xn = 0}) + P ({Y = k − 1} ∩ {Xn = 1})


Pn−1
Les variables X1 , X2 , ..Xn étant mutuellement indépendantes , il en est donc de même de Y = i=1 Xi et de
Xn
Par suite,

P ({Y = k} ∩ {Xn = 0}) = P ({Y = k}) × P ({Xn = 0}) = (1 − p) × P ({Y = k})

et de même,

P ({Y = k − 1} ∩ {Xn = 1}) = P ({Y = k − 1}) × P ({Xn = 1}) = p × P ({Y = k − 1})

On a donc, en utilisant l'hypothèse de récurrence :

P (X = k) = p × P ({Y = k − 1}) + (1 − p) × P ({Y = k})

   
n−1 k−1 n−1−(k−1) n−1
=p× p (1 − p) + (1 − p) × pk (1 − p)n−1−k
k−1 k
     
k n−k n−1 n−1 k n−k n
= p (1 − p) × + = p (1 − p) ×
k−1 k k
et ce gràce à la formule de Pascal.
Les deux cas particuliers k=0 et k=n occasionnement un terme nul dans la somme :
pour k=0 ,
P ({X = 0} ∩ {Xn = 1}) = 0
et donc
P (X = 0) = P ({X = 0} ∩ {Xn = 0}) = P ({Y = 0} ∩ {Xn = 0})

= P ({Y = 0}) × P ({Xn = 0}) = (1 − p)n−1 × (1 − p) = (1 − p)n


et de même , pour k=n ,
P ({X = n} ∩ {Xn = 0}) = 0
et donc
P (X = n) = P ({X = n} ∩ {Xn = 1}) = P ({Y = n − 1} ∩ {Xn = 1})

= P ({Y = n − 1}) × P ({Xn = 1}) = pn−1 × p = pn


Corollaire : on retrouve ainsi de manière élémentaire l'espérance et la variance d'une variable suivant une
loi binomiale B(n, p).
X1 , X2 , ..Xn n variables de Bernoulli de même paramètre p ∈ [0, 1], indépendantes et mutuellement indépen-
dantes.

n
X
X= Xi
i=1

Donc, par linéarité de l'espérance ( condition non assujettie à l'indépendance mutuelle des variables )

n
X
E(X) = E(Xi ) = n.p
i=1

Et , cette fois par indépendance des variables :

n
X
V (X) = V (Xi ) = n.p(1 − p)
i=1

13.4 Loi géométrique


Dénition : pour p ∈ ]0, 1[ , une variable aléatoire X suit la loi géométrique de paramètre p ( notation :
X y G(p) ) si X (Ω) = N∗ et
∀k ∈ N∗ , P (X = k) = p. (1 − p)k−1
La loi géométrique peut être interprétée comme étant le rang du premier succés dans une suite illimitée
d'épreuves de Bernoulli indépendantes et de même paramètre p

( retenez bien que X (Ω) = N et non pas N : il faut faire au moins une fois l'épreuve ! )

Proposition : si X suit la loi géométrique de paramètre p alors , elle admet une espérance et une variance
nies et on a :
1
E(X) =
p
et
(1 − p)
V (X) =
p2
Preuve :
Pour montrer que X est d'espérance nie il faut et il sut de montre que la série de terme général

uk = k.P (X = k)

est absolument convergente.


|uk+1 | k+1 p(1−p)k
Ce qui est le cas, puisque :
|uk |
= .
k p(1−p)k−1
= k+1
k
.(1 − p) a pour limite (1 − p) < 1
La règle de d'Alembert permettant alors de conclure.
2
Pour la variance, il faut démontrer que X est d'espérance nie, ce qui, d'aprés le théorème du transfert ,
nécessite de prouver que la série de terme général

vk = k 2 .P (X = k)

est absolument convergente. Ce qui se fait de manière analogue.


Pour le calcul, on a :
+∞
X +∞
X
E(X) = k.P (X = k) = p. k.(1 − p)k−1
k=1 k=1
k−1
P
k≥1 k.x
Considérons alors la série entière : , dont le rayon de convergence vaut 1.
En primitivant terme à terme ( opération licite pour la somme d'une série entière sur son intervalle ouvert
k
P
de convergence ) , on obtient la série 1 + k≥1 x ( on a choisi la primitive valant 1 en x = 0) et dont la
1
somme pour tout x dans ]−1, 1[ , vaut .
1−x
On a donc
X 1
∀x ∈ ]−1, 1[ , k.xk−1 =
k≥1
(1 − x)2
et donc
1 p 1
E(X) = p. 2
= 2 =
(1 − (1 − p)) p p
1
( si p= 10
, une chance sur dix de réussite dans l'épreuve, en moyenne, le premier succés est réalisé la dixième
fois !! )
Pour la variance, nous calculons, comme déjà souligné, l'espérance de X(X − 1):
Par le théorème du transfert :

+∞
X +∞
X +∞
X
k−1
E (X(X − 1)) = k(k − 1).P (X = k) = p. k(k − 1).(1 − p) = p(1 − p) k(k − 1).(1 − p)k−2
k=1 k=2 k=2
P+∞
Remarquons alors que, la fonction dénie sur ]−1, 1[ par : x 7−→
P+∞ k k=2 k(k − 1).xk−2 n'est que la dérivée
2
seconde de la série géométrique : x 7−→ k=0 x et vaut donc (1−x)3
Par suite,
2 2(1 − p)
E(X(X − 1)) = p(1 − p). 3
=
(1 − (1 − p)) p2
Il s'en suit que

2(1 − p) 1 1 2 − 2p + p − 1 1−p
V (X) = E(X(X − 1)) + E(X) − (E(X))2 = 2
+ − 2 = 2
=
p p p p p2

Théorème : Caractérisation comme loi sans mémoire



Une variable aléatoire X telle que X (Ω) = N suit une loi géométrique si et seulement si :

∀n, k ∈ N, PX>n (X > n + k) = P (X > k)


Preuve:
Condition nécessaire
Si X suit une loi géométrique, on a :
pour tout entier naturel k ,

+∞ +∞
X X pq k
P (X > k) = P (∪n=k+1 {X = n}) = P (X = n) = p. q n−1 = = qk
n=k+1 n=k+1
1−q

On a alors :

P ({X > n + k} ∩ {X > n}) P ({X > n + k})


∀n, k ∈ N, PX>n (X > n + k) = =
P (X > n) P (X > n)

q n+k
= = qk
qn
D'où l'égalité annoncée.
Condition susante :
Soit X une variable aléatoire telle que X (Ω) = N∗ et :

∀n, k ∈ N, PX>n (X > n + k) = P (X > k)


Posons, pour tout entier naturel n , un = P (X > n) ( l'autre fonction de répartition )
Nous allons déterminer cette suite, en trouvant une relation de récurrence ( liant un et un+1 , ce qui nous
incite à utiliser l'hypothèse pour un choix évident : n quelconque et k = 1)
On a donc
∀n ∈ N, PX>n (X > n + 1) = P (X > 1)
P ({X>n+1}∩{X>n}) P ({X>n+1}) un+1
Or, comme ci-dessus, PX>n (X > n + 1) = P (X>n)
= P (X>n)
= un
Notons q = P (X > 1)
Nous avons donc prouvé que :
∀n ∈ N, un+1 = q.un
La suite (un ) est donc géométrique ( est-ce vraiment une surprise ? ) de raison q
Remarquons d'abord que q 6= 0 ( sinon X ne prendrait que la valeur 6 1sinon X
X = 1 ) et q = ne prendrait
pas la valeur 1 )
On a donc :
∀n ∈ N, un+1 = q n .u0 = q n
Car u0 = P (X > 0) = 1
Pour déterminer la loi de X , on a :

∀n ∈ N∗ , P (X = n) = P (X > n − 1) − P (X > n) = q n−1 − q n = q n−1 (1 − q) = q n−1 p


avec p=1−q ( qui est bien dans ]0, 1[ )
La variable X suit bien une loi géométrique.
Interprétation :
Si la variable X donne le rang du premier succés ( ou première fois qu'on gagne le gros lot dans un jeu ) ,
le résultat prouvé ci-dessus dit la chose suivante :
Sachant qu'on n' pas gagné au bout de n tentatives, la probabilité d'attendre encore k fois est la même que
celle de perdre pendant les k premirs essais : le jeu ignore ce qui s'est passé avant les n tentatives précédentes,
que vous ayez perdu ou gagné avant , vous avez toujours autant de chance que de perdre ( loi sans mémoire
et sans usure )
Ce n'est pas parce que vous avez joué et perdu pendant des semaines que cela va être à votre de gagner !

13.5 Loi de Poisson


avec un P majuscule s'il vous plaît ! (de son vrai nom : Siméon-Denis Poisson )

Dénition : pour λ > 0 , une variable aléatoire X suit la loi de Poisson de paramètre λ ( notation : X y P(λ)
) si X (Ω) = N et
λn −λ
∀n ∈ N, P (X = n) = .e
n!
Le facteur e−λ étant nécessaire pou s'assurer que la somme des probabilités soit égale à 1 .
La croissance rapide de la factorielle ( (1000)! est un nombre qui se termine par 249 zéros !! ) fait que
cette probabilité décroit rapidement.
Cette loi est censée modéliser les phénomènes de plus en plus rares , typiquement le nombre de clients
dans une le d'attente d'un Grand magasin : voir une le de 1000 clients est plutôt improbable.
Sachant que zéro clients à une caisse est possible ( caissière de mauvaise humeur ) , l'image de l'univers
comporte donc une probabilité non nulle pour n=0 ( contrairement à la géométrique )
Proposition : si X suit la loi de Poisson de paramètre λ alors , elle admet une espérance et une variance
nies et on a :
E(X) = λ
et
V (X) = λ
( λ est en même temps le paramètre, l'espérance et la variance !!! Que demande le peuple ? )

Preuve :
En notant, pour tout entier naturel n ,

λn −λ
un = n.P (X = n) = n. .e
n!
|un+1 | λ
on montre que cette série est absolument convergente ( règle de d'Alembert, le quotient
|un |
= n
étant de

limite 0<1 )
X est donc d'espérance nie et on a :

+∞ +∞ +∞ +∞ n
X Xλn −λ −λ
X λn−1 −λ
X λ
E(X) = n.P (X = n) = n. .e = λe = λe =λ
n=0 n=1
n! n=1
(n − 1)! n=0
n!

Pour la variance, on montre de même que la série de terme général

λn −λ
n2 .P (X = n) = n2 . .e
n!
est absolument convergente ( et donc, par le théorème du transfert X2 est d'espérance nie )
On calcule alors, comme d'habitude, l'espérance de X(X − 1) :

+∞ +∞
X
−λ
X λn
E (X(X − 1)) = n(n − 1).P (X = n) = e n(n − 1).
n=0 n=2
n!
+∞ +∞ n
−λ
X λn 2 −λ
X λ
=e = λ .e = λ2
n=2
(n − 2)! n=0
n!
D'où
V (X) = E (X(X − 1)) + E(X) − (E(X))2 = λ2 + λ − λ2 = λ

14 Fonctions génératrices

14.1 Dénition et généralités


Ce paragraphe ne concerne que les variables entières à valeurs dans N ( et elles sont nombreuses, pour ne pas
dire majoritaires dans le programme de Prépas )

Dénition :
Soit (Ω, A, P ) un espace probabilisé.
Soit X une variable aléatoire dénie sur cet espace.
On suppose que X (Ω) ⊂ N
On appelle fonction génératrice de la variable X , la fonction dénie par :

+∞
X
GX (t) = P (X = n).tn
n=0
an tn
P
C'est donc la somme de la série entière où an est la suite dénie par :

an = P (X = n)

Proposition : Avec les notations et hypothèses ci-dessus,


P (X = n).tn a un rayon de convergence
P
La série entière R≥1
( et par conséquent , la fonction génératrice GX est dénie, continue et même C∞ sur un intervalle ]−R, R[
contenant l'intervalle ]−1, 1[ )
P
Preuve : La série entière converge au point t=1 ( car la série P (X = n) est convergente )
Donc R≥1 .
Proposition ( importante ) :
La fonction génératrice peut être dénie comme suit :
pour tout t ∈ ]−R, R[ ,
GX (t) = E tX


Preuve:
Pour t ∈ ]−R, R[ , la série entière
X
P (X = n).tn
est absolument convergente ( propriété des séries entières sur son intervalle ouvert de convergence )
X
Il s'en suit, d'aprés le théorème du transfert, que la variable aléatoire t admet une espérance nie et que

+∞
 X
E tX = P (X = n).tn = GX (t)
n=0

Théorème :
La loi d'une variable aléatoire X à valeurs dans N est caractérisée par sa fonction génératrice GX
Ce qui veut dire que la loi de la variable X est entièrement connue du moment qu'on connaît sa fonction
génératrice :
an t n
P
Cours sur les série entières : si est une série entière de rayon de convergence R > 0 , alors en notant
f sa somme sur ]−R, R[ , f est de classe C ∞ sur ]−R, R[ , ses dérivées successives s'obtenant par dérivation
terme à terme et ona
f (n) (0)
∀n ∈ N, an =
n!
Dans le cas présent ,
(n)
G (0)
∀n ∈ N, P (X = n) = X
n!

14.2 Lien avec l'espérance et la variance


Théorème :
Avec les hypothèses ci-dessus,
X est d'espérance nie si et seulement si GX est dérivable en 1 et, si tel est le cas on a :

E(X) = G0X (1)


Puis,
Théorème :
Avec les hypothèses ci-dessus,
X admet une variance nie si et seulement si GX est deux fois dérivable en 1 et, si tel est le cas on a :

2
V (X) = (GX ”(1)) + G0X (1) − (G0X (1))
Preuves : les deux preuves sont non exigibles ( en sections PSI et PC ) ( elles sont exigibles en MP )
Preuve :
Le cas facile : si le rayon de convergence R de la série entière dénissant la fonction génératrice est tel que
:
R>1
alors le point t = 1 appartient à l'intervalle ouvert de convergence ]−R, R[ et sur lequel la somme est
indénément dérivable et converge absolument ( ainsi que toutes ses dérivées ) et les deux résultats sont
acquis.
Le cas limite est quand
R=1
Les résultats à prouver sont alors conséquences de l'exercice classique suivant sur les séries entières :
Exercice :
an tn
P
Soit une série entière de rayon de convergence R = 1, et telle que :

∀n ∈ N, an ≥ 0

Si
P
an converge
P+∞ n
Alors la fonction f : t 7−→ n=0 an t est dénie et continue sur [0, 1]
En particulier f admet une limite nie en 1 :

+∞
X
lim f (t) = f (1) = an
t−→1−
n=0

Si
P
an diverge
alors
lim f (t) = +∞
t−→1−
Preuve :
P
Cas où la série an converge.
En notant, pour tout n∈N t ∈ [0, 1] , fn (t) = an tn
, pour tout
La série converge simplement sur [0, 1] , chacune des fonctions fn est continue et la convergence est uniforme
sur [0, 1] ( ell est même normale , vu que kfn k = an , dont la série converge )
P
Cas où la série an diverge.
La fonction f étant croissante sur [0, 1[, l'alternative classique se présente : ou bien elle est majorée et
dans ce cas elle admet une limite nie ou bien elle n'est pas majorée et dans ce cas elle est de limite innie.
On suppose alors qu'elle est majorée :
il existe C>0 telle que ∀t ∈ [0, 1[ , f (t) ≤ C
On a alors pour tout entier n ,

n
X +∞
X
k
∀t ∈ [0, 1[ , Sn (t) = ak t ≤ ak tk = f (t) ≤ C
k=0 k=0

La majoration pour tout entier n ,


∀t ∈ [0, 1[ , Sn (t) ≤ C
permet, en prenant la limite pour t qui tend vers 1 , d'écrire :

n
X
ak ≤ C
k=0
et ce pour tout n .
La série à termes positifs seriat donc convergente ( somme partielle majorée )
Ce qui est absurde.
Revenons à la preuve des deux résultats ci-dessus :
On a pour tout t ∈ [0, 1[ ,
+∞
X
GX (t) = P (X = n)tn
n=0
+∞
X
G0X (t) = nP (X = n)tn−1
n=1
et
+∞
X
GX ”(t) = n(n − 1)P (X = n)tn−2
n=2

On note pour tout n, 


nP (X = n) si n ≥ 1
an =
0 si n = 0
P
Si X admet une espérance nie, alors an converge. P+∞
0
D'aprés l'exercice ci-dessus, GX admet une limite nie en 1 ( qui vaut n=1 an = E(X) )
D'aprés le théorème de prolongement de la dérivée, GX est dérivable en 1 et

G0X (1) = lim G0X (t) = E(X)


t−→1
P
Réciproquement, si X
n'admet pas une espérance nie : alors la série an diverge.
0
D'aprés l'exercice ci-dessus, GX admet une limite innie en 1 ( comme en Terminale, le bon vieux temps)
, la courbe de la fonction GX admet une demi-tangente verticale en 1 : elle n'est pas dérivable en 1 .
Preuve identique pour le théorème sur la variance.

14.3 Fonctions génératrices des lois usuelles


Où l'on recalcule les espérances et variances de chacune des lois usuelles ( et c'est innément plus simple )

Proposition :
Si X y B(p) ( Bernoulli de paramètre p ∈ ]0, 1[ ) alors
elle a pour fonction génératrice
GX (t) = q + pt
pour tout t∈R . ( avec q =1−p )

Loi binomiale
Proposition :
Si X y B(n, p) ( Binomiale de paramètres p ∈ ]0, 1[ , et n ∈ N∗ , n ≥ 2) alors
elle a pour fonction génératrice
GX (t) = (q + pt)n
pour tout t∈R.
Pour tout t ∈ R ,

n   n  
X n X n
GX (t) = k n−k k
.p q t = .(pt)k q n−k = (q + pt)n
k k
k=0 k=0

GX est dérivable deux fois en 1 et on a : pour tout t∈R

G0X (t) = np (q + pt)n−1


et
GX ”(t) = n(n − 1)p2 (q + pt)n−2
On a donc E(X) = G0X (1) = np ( car p + q = 1)
et V (X) = (GX ”(1)) + G0X (1) − (G0X (1))2 = n(n − 1)p2 + np − (np)2 = npq
Loi géométrique
Proposition :
Si X y G(p) ( géométrique de paramètre p ∈ ]0, 1[ ) alors
elle a pour fonction génératrice
1
GX (t) = pt
1 − qt
i h
pour tout t ∈ − 1q , 1q . ( Cet intervalle contient [−1, 1] si q<1 )
i h
1 1
Pour tout t ∈ − , ( la série étant géométrique )
q q

+∞ +∞
X
n−1 n
X 1
GX (t) = pq t = pt × (qt)n = pt
n=1 n=0
1 − qt

GX est dérivable deux fois en 1 et on a : pour tout t∈R


1
G0X (t) = p.
(1 − qt)2
et
1
GX ”(t) = 2pq.
(1 − qt)3
On a donc E(X) = G0X (1) = p. (1−q)
1
2 =
1
p
et V (X) = (GX ”(1)) + G0X (1) − (G0X (1))2 = 2pq
p3
+ 1
p
− 1
p2
= 2q+p−1
p2
= q
p2
Loi de Poisson
Proposition :
Si X y P(λ) ( Loi de Poisson de paramètre λ>0 ) alors
elle a pour fonction génératrice
GX (t) = e−λ .eλt
pour tout t∈R.
Pour tout t ∈ R ,
+∞ n
−λ
X λ
GX (t) = e tn = e−λ .eλt
n=0
n!
GX est dérivable deux fois en 1 et on a : pour tout t∈R

G0X (t) = e−λ .λ.eλt


et
GX ”(t) = e−λ .λ2 .eλt
On a donc E(X) = G0X (1) = λ
et V (X) = (GX ”(1)) + G0X (1) − (G0X (1))2 = λ2 + λ − λ2 = λ
14.4 Fonction génératrice d'une somme de variables aléatoires indépendantes
Théorème :
série génératrice d'une somme de deux variables aléatoires indépendantes.
Soit (Ω, A, P ) un espace probabilisé.
Soient X et Y deux variables aléatoires dénies sur cet espace et etlles X (Ω) ⊂ N et Y (Ω) ⊂ N
Si X et Y sont indépendantes alors :
GX+Y (t) = GX (t).GY (t)
Preuve :
En notant RX et RY les rayons de convergence respectifs des deux séries entières dénissant GX et GY ,
on a pour tout t telle que |t| < min (RX , RY )

GX+Y (t) = E et(X+Y ) = E etX .etY


 

Les variables X et Y étant indépendantes, il en est de même des variables etX et etY
Il s'en suit que l'espérance de leur produit est le produit des espérances :

E etX .etY = E etX × E etY = GX (t).GY (t)


  

On peut également donner une démonstration directe faisant intervenir le produit de Cauchy des deux séries
génératrices ( l'occasion pour montrer vos capacités en la matière, n'est ce pas les talibans ? )
Si X (Ω) ⊂ N et Y (Ω) ⊂ N alors X + Y (Ω) ⊂ N et on a, pour tout entier n :

{X + Y = n} = ∪nk=0 {X = k, Y = n − k}
Cette réunion étant disjointe on a donc :

n
X
P (X + Y = n) = P (X = k, Y = n − k)
k=0

n
X
= P (X = k) × P (Y = n − k)
k=0

et ce par indépendance des deux variables.


En notant, pour tout entier n , an = P (X = n) et bn = P (Y = n) , on reconnait alors dans la somme
ci-dessus
n
X
P (X + Y = n) = ak bn−k = cn
k=0

cn t n
P
qui n'est autre que le terme générique d'indice n auquel est associé la série entière , produit de Cauchy
an tn et
P P n
des deux séries entières bn t
On sait alors que pour t telle que |t| < min (RX , RY ) ,

+∞ +∞
! +∞
!
X X X
cn tn = an t n × bn t n
n=0 n=0 n=0

D'où le résultat annoncé.


Remarque : Ce résultat s'étend aisément, par récurrence, à une somme nie de variables aléatoires
mutuellement indépendantes.
Exemple d'application :
Proposition :
Soient X Y deux variables aléatoires indépendantes suivant chacune
et une loi de Posisson de paramètres
respectifsλ et µ .
La variable X + Y suit alors une loi de Poisson de paramètre λ + µ
On sait que :

GX (t) = e−λ eλt


et que
GY (t) = e−µ eµt
Comme X et Y sont indépendantes, on a :

GX+Y (t) = GX (t) × Gy (t) = e−λ eλt × e−µ eµt = e−(λ+µ) e(λ+µ)t

Où l'on reconnaît une variable de loi de Poisson de paramètre λ+µ : La fonction génératrice caractérisant
la loi de la variable , c'est donc eectivement le cas :
X +Y suit donc une loi de Poisson de paramètre λ+µ
Résultat on ne peut plus attendu : nous mélangeons deux les d'attente ayant respectivement λ et µ
comme nombre moyen de clients. Si les deux les sont indépendantes ( pas de bousculade en en faisant une
seule le !! ce qui est loin d'être évident , surtout le premier jour de soldes ) on obtient une seule le où le
nombre de moyen de clients est la somme λ+µ .

15 Deux résultats asymptotiques

15.1 Approximation de la loi binomiale par la loi de Poisson


Théorème :
Si, pour tout n ∈ N ∗ , Xn suit une loi binomiale B(n, pn ) telle que :

lim n.pn = λ
n−→+∞

alors, pour tout k ∈ N, on a :


λk
lim P (Xn = k) = e−λ .
n−→+∞ k!
Preuve:
On a pour tout entier k xé,

  k−1
n n! 1 Y
P (Xn = k) = pkn (1 n−k
− pn ) = .pkn (1 − pn )n−k = (n − j) .pkn (1 − pn )n (1 − pn )−k
k k!(n − k)! k! j=0

k−1
1 −k n
Y
= × (1 − pn ) × (1 − pn ) × (npn − jpn )
k! j=0

Examinons alors chacun de ces termes et remarquons tout de suite que l'hypothèse faite sur pn ( à savoir :
limn−→+∞ n.pn = λ a pour conséquence : pn ∼ nλ et donc en particulier de limite nulle
1
est une constante
k!
(1 − pn )−k a pour limite 1 ( la puissance est constante )
Q k−1 k
j=0 (npn − jpn ) a pour limite λ
n
Reste alors à examiner le terme (1 − pn ) ( puissance qui varie )

(1 − pn )n = exp (n ln (1 − pn ))
λ λ
Comme pn ∼n
, on a :ln (1 − pn ) ∼ − et donc n ln (1 − pn ) a pour limite
n
−λ
−λ
Par continuité de l'exponentielle, ce terme a pour limite e
D'où le résultat.
Remarque : une bonne raison qui explique le choix de l'hypothèse

lim n.pn = λ
n−→+∞

est le fait que la quantité n.pn représente l'espérance de la variable Xn et λ est l'espérance de la variable vers
la quelle on espère que la suite converge ...

15.2 Loi faible des grands nombres


Théorème :
Si (Xn )n≥1 est une suite de variables aléatoires deux à deux indépendantes et de même loi admettant un
moment d'ordre 2, alors, en notant
(X² d'éspérance finie) n
X
Sn = Xk
k=1

m = E(X1 ) et σ = σ(X1 ), on a :

  
1
∀ε > 0, lim P Sn − m ≥ ε =0
n−→+∞ n
Preuve:
1
Pour tout n, la variable S admet un moment d'ordre 2 et on a :
n n
  n
1 1X 1
E Sn = E(Xk ) = n.m = m
n n k=1 n
Et !
  n n
1 1 X 1 X
V Sn = 2V Xk = . V (Xk )
n n k=1
n2 k=1
et ce du fait de l'indépendance mutuelle des variables.
On a donc  
1 1 1
V 2
.n.V (X1 ) = σ 2
Sn =
n n n
D'aprés l'inégalité de Bienaymé-Tchebychev , on a alors :∀ε > 0,

V n1 Sn

σ2
   
1 1
P Sn − E Sn ≥ ε ≤ =
n n ε2 n.ε2
qui est de limite nulle.
Ce résultat est le dada des instituts de sondages !

16 Compléments Classiques

16.1 Théorème de Weierstrass


C'est un théorème qui gure au programme ociel de la section MP, mais pas en PSI , ni en PC.

Théorème : Toute fonction continue sur un segment à valeurs dans K ( = R ou C ) est limite uniforme sur
ce segment d'une suite de fonctions polynomiales.
Ce qui revient à prouver que :

Théorème : Pour toute fonction continue f : [0, 1] −→ K,


pour tout ε>0 ,
il existe P polynomiale telle que :
kf − P k∞ ≤ ε
Le segment [0, 1] permet d'envisager un segment quelconque [a, b] par changement de variable.
Ce théorème est hors programme en PSI , PC, essentiellement pour la simple raison que la notion continuité
uniforme est hors programme en classe de PCSI !
Rappelons ici cette notion :
Dénition : une fonction dénie sur un intervalle I de R est dite uniformément continue sur I si :

∀ε > 0, ∃θ > 0/∀x, y ∈ I, (|x − y| ≤ θ) =⇒ (|f (x) − f (y)| ≤ ε)


A comparer avec la continuité habituelle en tout point de I :
f est continue sur I si :

∀x ∈ I, ∀ε > 0, ∃θ > 0/∀y ∈ I, (|x − y| ≤ θ) =⇒ (|f (x) − f (y)| ≤ ε)


et la diérence réside dans le fait que : dans la seconde dénition , le réel θ dépend à priori de ε et de x ,
alors que dans la continuité uniforme, il ne dépend que de ε , il ne dépend pas de x , il est valable pour tous
les x de I : c'est en ce sens que c'est uniforme.
La section MP dispose alors du théorème suivant:
Théorème de Heine :
toute fonction continue sur un segment y est uniformément continue.
et dont la démonstration n'est pas exigible.
Un moyen déguisé d'obtenir ce résultat à moindre frais, est de considérer uniquement le cas des fonctions
lipschitziennes ( ce qui a été fait dans un sujet PC , 2016 , CCP en prenant même des fonctions qui sont de
1
classe C sur [0, 1])
1
En eet , si f est de classe C sur [0, 1], alors sa dérivée est bornée ( continue sur un segment ) et en notant
c = kf 0 k∞ , on a ( par l'inégalité des accroissements nis ) :

∀x, y ∈ [0, 1] , |f (x) − f (y)| ≤ c. |x − y|


ε
Donc pour tout ε > 0, pour θ= c
c = 0 est trivial , la fonction étant
, ( le cas constante )

 ε 
(|x − y| ≤ θ) =⇒ |f (x) − f (y)| ≤ c. = ε
c
Nous reproduisons alors ici une partie du sujet des Mines MP 2015 :
Enoncé :
Soit n en entier strictement positif, x ∈ [0, 1] et f : [0, 1] −→ Rune fonction continue. On note X1 , X2 , ..Xn
des variables aléatoires mutuellement indépendantes et distribuées selon la loi de Bernoulli de paramètre
x.On note également Sn = X1 , +X + .. + Xn , Zn = Snn et Bn (f )(x) = E(f (Zn ).
1/ Rappeler, sans démonstration, la loi de Sn . En déduire, avec démonstration, les valeurs de l'espérance et
de la variance de Sn en fonction de n et de x .
2/ En utilisant l'inégalité de Bienaymé-Tchebychev, montrer que pour tout α > 0:
 
X n 1
xk (1 − x)n−k ≤
k 4nα2
0≤k≤n/| n
k
−x|≥α

3/ Montrer que :
n      
X n k n−k k
Bn (f )(x) − f (x) = x (1 − x) f − f (x)
k n
k=0

et en déduire que la suite (Bn (f ))n∈N converge uniformément vers f sur [0, 1]
On pourra utiliser le résultat de la question précédente ainsi que le théorème de Heine.
Réponse:
1/ On sait que, la somme de n variables aléatoires indépendantes suivant chacune une loi de Bernoulli de
même paramètre x ∈ [0, 1] , suit une loi binomiale de paramètres (n, x):
Sn y B (n, x)
On a donc Sn (Ω) = {0, 1, ..n} et pour tout k ∈ {0, 1, ..n},
 
n
P (Sn = k) = xk (1 − x)n−k
k

Rappelons que, pour une variable suivant une loi de Bernoulli de paramètre x , on a
X (Ω) = {0, 1} avec P (X = 0) = 1 − x et P (X = 1) = x
et donc E(X) = 0 × (1 − x) + 1 × x = x
2 2 2
Et E(X ) = 0 × (1 − x) + 1 × x = x
2 2 2
et par suite V (X) = E(X ) − (E(X)) = x − x = x(1 − x)

E(X) = x et V (X) = x(1 − x)


Par linéarité de l'espérance, on a donc:

n
X
E (Sn ) = E(Xk ) = nE(X1 ) = n.x
k=1

Par indépendance des variables,

n
! n
X X
V (Sn ) = V Xk = V (Xk ) = nV (X1 ) = nx(1 − x)
k=1 k=1

2/ La variable Zn = n1 Sn est de variance nie et on a :

x(1−x)
E(Zn ) = n1 .nx = x et V (X) = 1
n2
.nx(1 − x) = n
On peut dés lors appliquer l'inégalité de Bienaymé Tchebychev :
Pour tout α>0

V (Zn ) x(1 − x)
P (|Zn − E(Zn )| ≥ α) ≤ 2

α n.α2
1
Une simple étude de variations montre que la fonction x 7−→ x(1 − x) atteint
son maximum en x0 =
2
, ca
1
maximum valant donc . ( D'où le majorant nal )
4
Reste alors à exprimer la probabilité dans le membre de gauche.
 Sn
L'évèement {|Zn − E(Zn )| ≥ α} = − x ≥ α est la réunion disjointe des évènements ∪ {Sn = k} /k ∈ {0, 1
n
Il a donc por probabilité :

X
P (|Zn − E(Zn )| ≥ α) = P (Sn = k)
{k∈{0,1,..n}/| |≥α}
k
n
−x
 
X n
= xk (1 − x)n−k
k
{k∈{0,1,..n}/| nk −x|≥α}
3/ On a, par le théorème du transfert ( valide dans ce cas car l'univers est ni ) :

n   n    
Sn X k X k n
Bn (f )(x) = E(f (Zn )) = E(f ( )) = f P (Sn = k) = f . xk (1 − x)n−k
n n n k
k=0 k=0
 
Pn n
Et d'autre part, f (x) = f (x).1 = f (x). k=0 xk (1 − x)n−k
k
( la somme des probabilités valant 1 )
D'où :

n      
X k n
Bn (f )(x) − f (x) = f − f (x) . xk (1 − x)n−k
n k
k=0

La fonction f étant continue sur le segment [0, 1] , elle y est uniformément continue ( théorème de Heine )
Soit ε>0
La continuité uniforme de f sur [0, 1] entraîne l'existence de α>0 tel que :

 ε
∀y, t ∈ [0, 1] , (|y − t| ≤ α) =⇒ |f (y) − f (t)| ≤
2
En particulier , ∀x ∈ [0, 1], ∀n ∈ N∗ , ∀k ∈ {0, 1, ..n} / nk − x < α, on a :

k ε
f ( ) − f (x) ≤
n 2

Ceci permet alors la domination suivante :

     
X k n
f − f (x) . xk (1 − x)n−k
n k
{k∈{0,1,..n}/| nk −x|<α}
   
X k n
≤ f − f (x) . xk (1 − x)n−k
n k
{k∈{0,1,..n}/| nk −x|<α}
  n  
ε X n n−k ε X n ε
≤ × k
x (1 − x) ≤ × xk (1 − x)n−k =
2 k 2 k=0 k 2
{k∈{0,1,..n}/| nk −x|<α}
Reste alors à contrôler la somme portant sur les indices restants et c'est là qu'on utilise l'inégalité de
Bienaymé-Tchebychev :

     
X k n
f − f (x) . xk (1 − x)n−k
n k
{k∈{0,1,..n}/| nk −x|≥α}
   
X k n
≤ f − f (x) . xk (1 − x)n−k
n k
{k∈{0,1,..n}/| nk −x|≥α}
 
X n 1
≤ 2 kf k∞ × xk (1 − x)n−k ≤ 2 kf k∞ ×
k 4nα2
{k∈{0,1,..n}/| nk −x|≥α}
Ce terme étant de limite nulle quand n tend vers l'inni , il existe un rang n0 tel que

1 ε
∀n ≥ n0 , 2 kf k∞ × 2

4nα 2
En dénitive,
ε ε
∀n ≥ n0 , ∀x ∈ [0, 1] , |Bn (f )(x) − f (x)| ≤ + =ε
2 2
Ce qui prouve bien la convergence uniforme sur le segment [0, 1] de la suite de fonctions polynomiales (Bn (f ))
vers la la fonction f
16.2 Matrices stochastiques
On dénit dans ce paragraphe les matrices stochastiques ( qui comme leur nom l'indique interviennent dans
les problèmes de probabilités ) et on en donne quelques propriétés élémentaires ( loin de nous l'idée d'être
exhaustif )( un bon sujet sur ce thème : Centrale MP 2016 , coriace !)

Dénition : Une matrice A de Mn (R) est dite stochastique si

∀(i, j) ∈ N2

Pnai,j ≥ 0 (1)
∀i ∈ {1, ..n} j=1 ai,j = 1 (2)

Autrement dit, tous ses coécients sont positifs et la somme sur chacune des lignes vaut 1
Remarque : Une matrice est dit bi-stochastique, si elle est stochastique et de plus la somme sur chacune
des colonnes vaut 1 ( ou encore si elle est stochastique ainsi que sa transposée )
Quel rapport avec les probas ? : des réels de somme égale à 1 , ça vous dit ?
Sinon, partientez avant de lire le paragraphe suivant.
Exercice :
Montrer que la condition (2) de la dénition ci-desssus équivaut à :

AU = U
 
1
 1 
 . 
où U est le vecteur de Rn dont toutes les coordonnées valent 1 . ( U =  ..  )
 
 . 
 .. 
1
Il sut de calculer, la i-ème coordonnée du vacteur AU :
pour tout i appartenant à {1, ..n} ,
n
X
(AU )i = ai,j
j=1

et l'équivalence s'en déduit.


Cett équivalence simplie un peu les manipulations de ces matrices.

Exercice : Montrer que l'ensemble des matrices stochastiques de Mn (R) est :


- stable pour le produit matriciel
- convexe
- fermé
Réponse :
Si A et B sont deux matrices stochastiques de Mn (R) alors, le poduit AB est à coécients positifs

n
X
(AB)i,j = ai,k bk,j ≥ 0
k=1

et par associativité du produit matriciel ( tant que compatible ) , on a :

(AB)U = A (BU ) = AU = U
Donc AB est bien stochastique.
Pour tout λ ∈ [0, 1] , λA + (1 − λ)B est à coécients positifs :

(λA + (1 − λ)B)i,j = λai,j + (1 − λ)bi,j ≥ 0


et par distributivité du produit matriciel par rapport à l'addition

(λA + (1 − λ)B) U = λAU + (1 − λ)BU = λU + (1 − λ)U = U


Donc λA + (1 − λ)B est stochastique. Ce qui prouve que l'ensemble en question est convexe.
Pour le caractère fermé :
Soit(Ak )k∈N une suite de matrices stochastiques de Mn (R) qui converge vers une matrice M .
La convergence étant équivalente à la convergence des suites de coordonnées, on a :

∀i, j ∈ {1, ..n} , (M )i,j = lim (Ak )i,j


k−→+∞

Tous ces termes étant positifs, la limite est positive.


Pour tout k∈N ,
Ak U = U
L'application : 
Mn (R) −→ Rn
ϕ
A 7−→ AU
est linéaire sur un espace vectoriel de dimension nie, elle est donc continue.
La suite (Ak ) qui converge vers M , on a donc

lim ϕ(Ak ) = ϕ(M ) = M U


k

Donc MU = U
Par suite la limite M est bien stochastique
Ceci prouve que l'ensemble est fermé.

Une matrice stochastique A de Mn (R) admet 1 pour valeur propre et toutes ses valeurs propres complexes
sont de module majoré par 1
Avec les notations précédentes, AU = U et comme U n'est pas le vecteur nul, ceci montre que 1 est une
valeur propre de A.  
x1
 x2 
 
Soit λ une valeur propre complexe de A et X =   ∈ Cn \ {0}un vecteur propre associé à λ
 
 
xn
L'équation AX = λX donne, pour tout i ∈ {1, ..n} ,

n
X
λxi = ai,j xj
j=1

En prenant le module, on a , par l'inégalité triangulaire :

n
X
|λ| . |xi | ≤ ai,j . |xj |
j=1

( les ai,j étant positifs)

n
!
X
≤ ai,j . kXk∞ = kXk∞
j=1

et ce en tenant compte du fait que la somme vaut 1.


En choisissant i tel que |xi | = kXk∞ , cette quantité étant strictement positive ( X non nul ) on obtient
par simplication :
|λ| ≤ 1
16.3 Chaines de Markov
thème classique ( sujet Mines PC 2017 , Mines MP ? )
Un système donné peut se trouver dans divers étant possibles ( en nombre ni ). Notons ces états par un
indice entier variant entre 1 et n .
Ce système change d'état à intervalles de temps réguliers.
On note, pour tous i, j ∈ {1, ..n} , pi,j la probabilité qu'il passe de l'état i à l'état j .
C'est à dire c'est la probabilité que le système soit dans l'état j à l'instant k+1 sachant qu'à l'instant k
il est dans l'état i
On suppose que cette probabilité est indépendante du temps.
Un état est dit état nal si, une fois atteint, le système reste dénitivement dans cet état.
Si par exemple l'état noté n est un état nal, cela se traduit par le fait que :

1 si i = n
pn,j
0 si i 6= n

La matrice de Mn (R) de terme générique pi,j pour est appelée matrice de transition du système.
La ligne d'indice i , comporte donc la loi conditionnelle sachant qu'à un 'instant donné il est dans l'état i
.
De ce fait, les termes de cette ligne sont positifs et de somme égale à 1
La matrice M est donc stochastique.
A tout instant k , on dénit une variable aléatoire notée Xk donnant l'état où se trouve le système à
l'instant k . ( c'est cette suite de variables (Xk )k∈N qui est appelée chaine de Markov ).
Pour tout entier k , l'ensemble des évènements {Xk = 1} , {Xk = 2} , .. {Xk = n} est un système complet
d'évènements.
D'aprés la formule des probabilités totales , pour tout i compris entre 1 et n
n
X n
X
P (Xk+1 = i) = PXk =j (Xk+1 = i) × P (Xk = j) = pj,i × P (Xk = j)
j=1 j=1
 
P (Xk = 1)
 P (Xk = 2) 
.
 
.
En notant Uk =  .  la colonne donnant la loi de la variable Xk , on a donc, d'aprés l'égalité
 
 . 
.
.
 
P (Xk = n)
ci-dessus ,
Uk+1 =t (M ) .Uk
t
où (M ) est la transposée de la matrice de transition.
( Certains sujets dénissent la ligne Lk transposée de la colonne Uk , de sorte que pour tout k ,

Lk+1 = Lk .M

)
En tout état de cause, pour déterminer la loi de Xk , nous vaons besoin de calculer les puissances de la
matrice M ( ou de sa transposée ) et vous voyez donc venir...la réduction des endomorphismes.
Un exemple ( d'aprés Mr Lavau )

Exercice :
On lance une pièce équilibrée jusqu'à obtenir deux faces.
On peut envisager trois états possibles :
1 état initial ( ou état suivant un tirage de pile )
2 état suivant l'état 1 aprés tirage de face
3 état nal , aprés tirage successif de deux faces
La matrice de transition de ce système est la matrice suivante :

1 1
 
2 2
0
1
M = 2
0 21 
0 0 1
A l'instant initial, le système est certainement à l'état 1
 
1
Donc U0 =  0 .
0
Le polynôme caractéristique de M est :

1 −1
X− 0  
−1
2 2
−1 2 1 1
χM (X) = 2
X 2
= (X − 1) X − X −
2 4
0 0 X −1
√ √
1+ 5 1− 5 1
qui a pour racines 1, λ =
4
et β =
4
. ( relations λ+β = 2
et λβ = − 14 )
n
Pour calculer M , on diagonalise M
 1
− λ 12 0 β 12 0
  
2
M − λI =  12 −λ 12  =  12 −λ 12 
0 0 1 0 0 1

 βx + 12 y = 0
1 1
x − λy + z = 0
 2 2
z = 0
 

0
z=0,y=1 et x = 2λ : e1 =  1  est un vecteur propre associé à λ
  0

De même e01 =  1  est un vecteur propre associé à β
  0
1
e03 =  1  est évidemment un vecteur propre associé à 1
1  
2λ 2β 1
Matrice de passage : P = 1 1 1  dont le déterminant vaut 2 (λ − β)
0 0 1
On a alors  
1 −2β −2λ
1
P −1 =  −1 2λ 2β 
2 (λ − β)
0 0 2 (λ − β)
   n 
λ 0 0 λ 0 0
M = P DP −1 avec D =  0 β 0  et donc M n = P Dn P −1 avec Dn =  0 β n 0 
0 0 1 0 0 1
Examinons la situation quand n tend vers l'inni.
n n
Comme |λ| < 1 et |β| < 1 , les suites (λ ) et (β ) sont de limite nulle.
t −1
Par continuité de l'application A 7−→ U0 .P AP ( linéaire sur un evn de dimension nie ) on a :

     
0 0 0 2λ 2β 1 0 0 0
1
lim M n = P  0 0 0  P −1 =  1 1 1  ×  0 0 0 
n−→+∞ 2 (λ − β)
0 0 1 0 0 1 0 0 2 (λ − β)
     
2λ 2β 1 0 0 0 0 0 1
= 1 1 1 × 0 0 0 = 0 0 1 
0 0 1 0 0 1 0 0 1
t
En multipliant par U0 ( et par continuité également ) on obtient comme limite de Un
 
0 0 1
lim Un = (1, 0, 0) ×  0 0 1  = (0, 0, 1)
n−→+∞
0 0 1
Ce qui veut dire, à la limite on atteint presque sûrement l'état nal.

Vous aimerez peut-être aussi