0% ont trouvé ce document utile (0 vote)
36 vues107 pages

Probabilités et Variables Aléatoires

Ce document est un cours sur les probabilités, axé sur les variables aléatoires discrètes et à densité, destiné aux étudiants de Licence en Mathématiques. Il couvre des sujets tels que les langages ensemblistes, les mesures de probabilité, l'indépendance, le conditionnement, et les lois de probabilité. L'introduction présente l'importance de la théorie des probabilités dans la modélisation d'expériences incertaines et la prévision des résultats.

Transféré par

recherche801
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
36 vues107 pages

Probabilités et Variables Aléatoires

Ce document est un cours sur les probabilités, axé sur les variables aléatoires discrètes et à densité, destiné aux étudiants de Licence en Mathématiques. Il couvre des sujets tels que les langages ensemblistes, les mesures de probabilité, l'indépendance, le conditionnement, et les lois de probabilité. L'introduction présente l'importance de la théorie des probabilités dans la modélisation d'expériences incertaines et la prévision des résultats.

Transféré par

recherche801
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Probabilités

variables aléatoires discrètes et à densité

Licence de Mathématiques 2ème année

Jean-Christophe Breton
Université de La Rochelle
Janvier–Mai 2010

version du 12 mai 2010


2
Table des matières

1 Langages ensembliste et probabiliste 3


1.1 Opérations entre ensembles . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Vocabulaire probabiliste . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 Dénombrement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.4 Rappel sur les séries . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2 Mesures de probabilité 13
2.1 Espace de cardinal fini . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2 Espaces infinis dénombrables (par exemple N, Z) . . . . . . . . . . . . . . . 14
2.3 Espace Ω général . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

3 Indépendance et conditionnement 21
3.1 Conditionnement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

4 Variables aléatoires discrètes 31


4.1 Variables aléatoires discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.1.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.1.2 Loi d’une variable aléatoire discrète . . . . . . . . . . . . . . . . . . 32
4.1.3 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.2 Lois discrètes classiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.2.1 Lois de v.a. finies déjà connues . . . . . . . . . . . . . . . . . . . . 34
4.2.2 Lois Géométriques . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.2.3 Loi de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

5 Moment des variables aléatoires discrètes 41


5.1 Espérance d’une v.a. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
5.1.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
5.1.2 Espérances classiques . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5.1.3 Propriétés de l’espérance . . . . . . . . . . . . . . . . . . . . . . . . 42
5.2 Variance d’une va . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

i
ii Table des matières

6 Variables aléatoires à valeurs réelles réelles 53


6.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
6.2 Intégrales impropres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
6.3 Variables aléatoires réelles à densité . . . . . . . . . . . . . . . . . . . . . . 56
6.4 Lois à densité classiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
6.4.1 Lois uniformes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
6.4.2 Lois exponentielles . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
6.4.3 Lois de Cauchy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
6.4.4 Lois normales ou gaussiennes . . . . . . . . . . . . . . . . . . . . . 62
6.4.5 Lois log-normales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
6.5 Espérance et variance des lois à densité . . . . . . . . . . . . . . . . . . . . 64
6.6 Tableau comparatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

7 Vecteurs aléatoires 71
7.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
7.2 Vecteurs aléatoires discrets . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
7.3 Intégrales multiples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
7.4 Vecteurs aléatoires réels à densité . . . . . . . . . . . . . . . . . . . . . . . 75
7.5 Variables aléatoires indépendantes . . . . . . . . . . . . . . . . . . . . . . . 77
7.6 Lois conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
7.6.1 Cas discret . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
7.6.2 Cas continu : densité conditionnelle . . . . . . . . . . . . . . . . . . 83

8 Somme de v.a. indépendantes 85


8.1 Somme de deux v.a. indépendantes . . . . . . . . . . . . . . . . . . . . . . 85
8.2 Convergences probabilistes . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
8.3 Loi des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
8.3.1 Loi faible des grands nombres . . . . . . . . . . . . . . . . . . . . . 93
8.3.2 Lemme de Borel-Cantelli . . . . . . . . . . . . . . . . . . . . . . . . 96
8.3.3 Loi forte des grands nombres . . . . . . . . . . . . . . . . . . . . . . 97
8.4 Théorème central limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
Table des matières 1

Introduction
Dans la vie courante, il existe de nombreuses expériences dont le résultat n’est pas
connu avec certitude. C’est l’objet de la théorie des probabilités que de fournir des modèles
mathématiques permettant l’étude d’expériences dont le résultat n’est pas connu ou ne
peut pas être prévu avec une totale certitude. Par exemple :

Expérience Résultat observable


Lancer d’un dé Un entier k ∈ {1, . . . , 6}
Prélèvement de n objets en sortie Nombre d’objets défectueux
d’une chaı̂ne de production dans l’échantillon∈ N∗
Questionnaire à 100 questions Suite ω de 100 réponses
binaires ω ∈ {oui, non}100
Lancer d’une pièce jusqu’à Un entier k ∈ N : le temps
l’obtention d’un pile d’attente du premier succès
Mise en service d’une ampoule Durée de vie T ∈ R+
Lancer d’une flèche sur une cible Point d’impact M ∈ R2
Mouvement (Brownien) d’un grain Une fonction continue :
de pollen dans un liquide la trajectoire x ∈ C(R)
Mélange de deux gaz Répartition spatiale de deux
types de molécules
Le résultat précis de ces expériences n’est en général pas prévisible. Toutefois, l’observation
et/ou l’intuition amènent souvent à penser que certaines règles semblent vérifier.
Par exemple si on jette 6000 fois un dé à 6 faces, on s’attend à ce que le nombre d’ap-
paritions de faces « 4 » soit voisin de 1000. De même, si on met en service 100 téléviseurs
du même modèle, leurs durées de vie observées seront concentrées autour d’une valeur
moyenne.
Lorsqu’un phénomène se répète à l’infinité avec des réalisations indépendantes et iden-
tiques, ses effets cummulés ont une distribution qui s’approche toujours de la même loi :
une loi normale.
La théorie des probabilités permet de donner un sens précis à ces règles.
De façon générale, la théorie des probabilités modélise des situations concrètes et permet
de calculer les probabilités d’évènement.
En aval des probabilités, il y a les statistiques. Ils se chargent de confronter les modèles
probabilistes à la réalité observée pour les valider ou les invalider.
Les statistiques s’occupent par exemple de questions du genre :
– si à un examen sous forme de 100 questions avec réponses binaires, un étudiant a
60 bonnes réponses, est-il légitime de considérer qu’il a fait mieux que répondre au
hasard ?
2 Table des matières

– Si sur un échantillon de 1000 personnes, un sondage donne un candidat à une élection


crédité de 54% des voies, peut-on en déduire raisonnablement son élection ?

Dans ce cours, nous verrons les outils probabilistes de base pour calculer des probabilités
d’évènements.
Nous définirons les lois classiques et nous étudierons leurs utilisations. Les cas des
variables aléatoires discrètes et des variables aléatoires à densité sont traités.
Dans une deuxième partie, nous considérerons les vecteurs aléatoires et les sommes de
variables aléatoires (indépendantes).
Nous terminerons avec la loi des grands nombres et le théorème central limite qui sont
les premiers résultats fondamentaux des Probabilités.
Chapitre 1

Langages ensembliste et probabiliste

La théorie moderne des probabilités utilise le langage des ensembles pour modéliser
une expérience aléatoire. Nous commencons donc par quelques rappels sur les opérations
usuelles entre les ensembles.

1.1 Opérations entre ensembles


Soit Ω un ensemble de base. Considérons A et B deux sous ensembles de Ω.
Un élément ω appartient à A s’écrit ω ∈ A.
L’ensemble A est inclus dans l’ensemble B s’écrit A ⊂ B.
L’ensemble des points de B qui ne sont pas dans A se note B \ A.
L’ensemble de tous les points qui ne sont pas dans A est le complémentaire de A, il est
noté Ac = Ω \ A.
L’ensemble vide ∅ est l’ensemble qui ne contient aucun point, il s’agit du complémentaire
de tout l’espace ∅ = Ωc = Ω \ Ω.
La réunion A ∪ B de A et de B est l’ensemble des points qui sont dans A ou dans B.
L’intersection A ∩ B de A et de B est l’ensemble des points qui sont dans A et dans B.
Deux ensembles A et B sont dits disjoints si leur intersection est vide A ∩ B = ∅.

Proposition 1.1.1 • Le complémentaire d’une réunion ou d’une intersection est donné


par
(A ∩ B)c = Ac ∪ B c et (A ∪ B)c = Ac ∩ B c .
• Le complémentaire du complémentaire d’un ensemble est cet ensemble : (Ac )c = A.

Démonstration : Exercice
Rappelons enfin que de façon générale, pour montrer l’égalité A = B de deux ensembles
A et B, il faut (et il suffit de) voir la double inclusion

A⊂B et B ⊂ A.

3
4 Chapitre 1. c JCB – L2 IMAE – Université de La Rochelle

C’est à dire, montrer que pour tout ω ∈ A, on a ω ∈ B et de la même façon pour tout
ω 0 ∈ B, on a ω 0 ∈ A. On peut éventuellement le faire en une seule étape si on raisonne par
équivalence : il faut alors montrer que ω ∈ A est équivalent à ω ∈ B.

1.2 Vocabulaire probabiliste


Dans la suite, l’ensemble de base Ω va nous permettre de décrire une expérience aléa-
toire. Cet ensemble va représenter l’ensemble des résultats possibles de l’expérience (aléa-
toire) que l’on étudie. Nous l’appellerons l’univers des possibles ou espace probabilisé. Les
parties de Ω seront appelés des évènements (ou évènements composés), les élément ω ∈ Ω
seront les évènements élémentaires, c’est à dire les évènements les plus simples qui ne
peuvent pas être exprimés par des évènements encore plus simples.
Exemple : On lance un dé à six face. Le résultat a priori est aléatoire et les résultats
possibles sont 1, 2, 3, 4, 5, 6. L’espace Ω = {1, 2, 3, 4, 5, 6} décrit bien l’ensemble des résul-
tats. La partie A = {1, 4} est un évènement composé : il s’agit de « le résultat est un 1 ou
un 4 ». Par contre {3} est un évènement élémentaire, « observer un 3 » ne peut pas être
décrit par des évènements plus simples.
Avec ce mode de représentation, les opérations logiques sur les évènements que sont
« ou », « et », « négation » se traduisent par des opérations ensemblistes : réunion ∪, inter-
section ∩, complémentaire c . Voici le tableau des correspondances entre ces deux langages :

Notations Vocabulaire ensembliste Vocabulaire probabiliste


∅ ensemble vide évènement impossible
Ω ensemble plein évènement certain
ω élément de Ω évènement élémentaire
A sous-ensemble de Ω évènement
ω∈A ω appartient à A le résultat ω est une des
réalisations possibles de A
A⊂B A inclus dans B A implique B
A∪B réunion de A et B A ou B
A∩B intersection de A et B A et B
Ac complémentaire de A dans Ω évènement contraire de A
A∩B =∅ A et B sont disjoints A et B sont incompatibles

Remarque 1.2.1 Il faut retenir que


• une réunion ∪ s’interprète comme un « ou »,
• une intersection ∩ s’interprète comme un « et »,
• un complémentaire c s’interprète comme « le contraire de ».
1.2. Vocabulaire probabiliste 5

Notez enfin que en mathématiques le « ou » est un ou inclusif alors que dans le langage
usuel il s’agit d’un ou exclusif (dessert ou fromage ? c’est l’un ou l’autre mais pas les deux
alors qu’avec le « ou » mathématiques, ça pourrait être les deux).

Les opérations sur les ensembles (ou sur les évènements) peuvent faire intervenir plus
de deux évènements. Ainsi si A1 , . . . , An sont des évènements,
n
[
Ai = A1 ∪ A2 ∪ · · · ∪ An
i=1

est l’ensemble des ω qui sont dans au moins un des Ai . De même


n
\
Ai = A1 ∩ A2 ∩ · · · ∩ An
i=1

est l’ensemble des ω qui sont dans tous les Ai . On étend encore ces définitions aux réunions
et intersections dénombrables (i.e. en nombre infini mais qu’on peut énumérer) :

[ +∞
[
Ai = Ai = {réalisation d’au moins un Ai },
i∈N i=1

\ +∞
\
Ai = Ai = {réalisation de tous les Ai }.
i∈N i=1

Rappel (dénombrabilité) : une partie infinie est dénombrable si elle peut être mise en
bijection avec N, c’est à dire si on peut énumérer tous ses éléments. L’ensemble N, bien
sûr, est dénombrable mais Z, Q le sont aussi. Par contre [0, 1] ou R ne le sont pas.
Comme on peut énumérer aussi les éléments d’une partie finie, il est usage d’inclure
le cas fini dans le cas dénombrable, même si d’ordinaire, le terme dénombrable est utilisé
pour les parties infinies dénombrables.

Ces opérations logiques sur des suites d’évènements sont très utiles pour analyser les
évènements complexes : il s’agit de les réexprimer comme réunion, intersection, complémen-
taire d’évènements plus simples. Il importe donc de bien traduire en langage ensembliste
un énoncé et ses enchaı̂nements logiques.

Voilà maintenant un exemple, utile dans de nombreuses situations, de « traduction » en


langage ensembliste d’une assertion en français.

Proposition 1.2.1 Soit Ai , i ≥ 0, une collection infinie d’ensembles. Alors


– À partir d’un certain rang, ω est dans tous les Ai s’écrit
[\ 
ω∈ Aj = limi Ai .
i≥0 j>i
6 Chapitre 1. c JCB – L2 IMAE – Université de La Rochelle

– ω est dans une infinité de Ai s’écrit


\[ 
ω∈ Aj = limi Ai .
i≥0 j>i

Démonstration :
• Pour le premier point : Soit ω qui, à partir d’un certain rang, est dans tous les Ai .
On traduit cela de la façon suivante : il existe un rang i tel que pour tout rang j > i, ω est
dans Aj . D’après la signification des symboles ∀, ∃, ∩, ∪, cela revient à écrire
[ \
ω∈ Aj
|{z}
i≥0 j>i
|{z} ω est
il existe pour tout dans Aj .
|{z}
i≥0 j>i

• Pour le second point, dire que ω est dans une infinité de Ai est équivalent à dire que

« pour tout p, il existe q > p avec ω dans Aq . »

En effet, si tel est le cas, ω est bien dans une infinité de Ai car, d’après cette propriété,
– avec p = 0, il existe p1 > p tel que ω est dans Ap1
– avec p = p1 , il existe p2 > p1 tel que ω est dans Ap2
– avec p = p2 , il existe p3 > p2 tel que ω est dans Ap3
– ...
– avec p = pn , il existe pn+1 > pn tel que ω est dans Apn+1
– ...
et finalement, ω est dans chaque Apn , n ∈ N∗ , c’est à dire dans une infinité de Ai . Récipro-
quement, s’il est dans une infinité de Ai , alors pour tout p, on trouve q > p tel que ω ∈ Aq ;
sinon, ce serait qu’il existe p tel que pour q > p, ω n’est pas dans Aq . Ou encore : ω ne
peut appartenir qu’aux Ai d’indice i ≤ p, c’est à dire seulement à un nombre fini d’entre
eux, ce qui est faux.
Donc, pour ce deuxième point, pour tout p, on trouve q > p, tel que ω ∈ Aq , en langage
∀, ∃, cela s’écrit \ [
ω∈ Aq
|{z}
p≥0 q>p
|{z} ω est
pour tout il existe dans Aq .
|{z}
p≥0 q>p

1.3 Dénombrement
Considérons un ensemble Ω = {ω1 , . . . , ωn } de cardinal n.
• Permutation
1.3. Dénombrement 7

Le nombre de permutations d’un ensemble est le nombre de manières d’ordonner ses


éléments. Le nombre de permutations de Ω est n! = 1 × 2 × 3 × · · · × n.
En effet, il s’agit de trouver tous les reordonnements de {ω1 , . . . , ωn }. On a d’abord n
choix pour le premier terme, puis n − 1 pour le deuxième puis n − 2 puis . . . puis 2 choix
pour l’avant dernier et enfin plus qu’un seul pour le dernier. Il y a donc n × (n − 1) × (n −
2) × · · · × 2 × 1 = n!.
Exercice. Faire la preuve pour n = 3 et trouver les 3! = 6 permutations de {A, B, C}.
Exemple. Un professeur doit faire passer dans la journée 5 étudiants pour un oral de
rattrapage. Il a 5! = 120 manières de choisir l’ordre de passage.

• Tirage de p objets (avec remise) dans un ensemble de cardinal n.


Pour chaque tirage, il y a n objets possibles à tirer, il y a donc en tout n × · · · × n = np
tirages possibles (avec remise) dans un ensemble de cardinal n.
Exemple. Un professeur note chaque étudiant d’une classe de 30 étudiants par une
note entière de 0 à 20. Le nombre de résultats possibles est le nombre de manières de
choisir de façon indépendante 30 éléments de l’ensemble {0, 1, . . . , 20} de cardinal 21. Il y
a donc 2130 résultats possibles pour l’ensemble de la classe.

• Arrangement (nombre de tirages ordonnés sans remise).


On appelle tirage sans remise de p éléments dans un ensemble Ω de cardinal n, tout
tirage successif de p éléments de Ω, chaque élément ne pouvant être tiré plus d’une fois.
Bien évidemment, pour qu’un tel tirage puisse exister, il faut avoir p ≤ n.
Le nombre de tirages sans remise est

n!
n(n − 1) . . . (n − p + 1) =
(n − p)!

Remarque 1.3.1 Le nombre n!/(n − p)! s’appelle le nombre d’arrangements, on le note


Apn . Lorsque n = p, on retrouve le nombre de permutations, puisqu’on tire tous les éléments
de Ω et qu’en fait, on les a reordonnés.

Exemple. 3500 personnes se présentent au concours de l’agrégation de Mathématiques.


300 places sont mises au concours. Combien y-a-t-il de palmarès possibles (en supposant
qu’il n’y ait pas d’ex-aequo) ?
3500!
Réponse : 3500 × 3499 × · · · × 3202 × 3201 = .
3200!
• Combinaison (nombre de tirages désordonnés sans remise)
Il s’agit du nombre de parties d’un ensemble Ω possédant p éléments.
C’est exactement le nombre de manières de choisir p objets dans un ensemble de n
objets, l’ordre n’ayant pas d’importance.
On sait qu’il y a n!/(n − p)! tirages de p objets lorsque l’on tient compte de l’ordre.
Or un tirage (désordonné) donné (où l’ordre n’est pas pris en compte) représente p! tirages
où l’ordre est pris en compte (car il y a p! permutations de l’ensemble des p objets du
8 Chapitre 1. c JCB – L2 IMAE – Université de La Rochelle

tirage). Il y a donc p! fois plus de tirages de p objets lorsque l’on tient compte de l’ordre.
Finalement, le nombre de tirages (sans tenir compte de l’ordre) est

n!
.
p!(n − p)!

Exemple. Dénombrer le nombre de tirages sans remise de 2 éléments parmi 4 avec ordre
puis sans ordre.
Exemple. 3500 personnes se présentent au concours de l’agrégation de Mathématiques.
300 places sont mises au concours. Combien y-a-t-il de promotions possibles ?
300
Réponse : C3500 . Ici, Ω est l’ensemble des candidats et il s’agit de choisir 300 d’entre
eux. On s’intéresse aux différentes promotions possibles, prises dans leur ensemble, sans
tenir compte du classement de la promotion.
• Rappelons d’abord la définition des coefficients binomiaux et la formule du binome
de Newton :
  n
n n! X
Cnk = = 0 ≤ k ≤ n, (a + b)n = Cnk ak bn−k .
k k!(n − k)! k=0

Cnk s’interprète comme le nombre d’échantillons de taille k dans une population de taille
n. Par exemple, si dans une urne de n boules distinctes, on en tire k, il y a Cnk tirages
différents possibles.
Rappelons les propriétés immédiates suivantes pour tout n ∈ N∗ et k ≤ n :

Cnk = Cnn−k , Cnn = Cn0 = 1, Cnn−1 = Cn1 = n


Cnk−1 + Cnk = Cn+1
k
(triangle de Pascal).

Exercice. Prouver deux fois la formule du binome de Newton :


• d’abord en utilisant l’interprétation en dénombrement des coefficients binomiaux,
• puis par récurrence sur n avec la relation du triangle de Pascal.

1.4 Rappel sur les séries


Dans le cadre qu’on se fixe dans ce cours (espaces discrets ou réels), les calculs de pro-
babilités font intervenir plus d’outils que ceux de dénombrement (réservé au cadre fini, cf.
Terminale ou première année de Licence). On a alors recours à des outils d’analyse qu’il
faut connaı̂tre : séries numériques, intégrales impropres, quelques notions de développe-
ment en séries entières. Ces outils seront développés ultérieurement dans d’autres cours
de Mathématiques. On se contente ici de les définir succinctement. Cette approche suffira
pour l’utilisation dont on a besoin. Pour plus de précision, on renvoie aux cours concernés.
1.4. Rappel sur les séries 9

Séries numériques
Les séries numériques sont des sommes infinies de réels (ou de complexes). Généra-
lement, il s’agit de la somme de tous les termes d’une suite réelle (ai )i∈N . On la définit
(lorsqu’elle existe) comme la limite quand n tend vers +∞ de la somme des n premiers
termes :
+∞
X Xn
S= ai = lim ai . (1.1)
n→+∞
i=0 i=0

Bien sûr, la somme infinie n’a pas toujours un sens (exemple, +∞ i


P
i=0 (−1) n’existe pas car
les sommes partielles valent 1 ou 0 selon la parité de n) ou si elle en a un, sa valeur peut
être infinie.
Si la limite est bien définie et est finie, on parle alors de série convergente. Sinon on
parle de série divergente.
Lorsque ai ≥ 0, la limite qui définit la série dans (1.1) existe toujours, seulement, elle
peut être égale à +∞.
Pour une suite (ai )i de signe quelconque –ou complexe–, la série S est dite absolument
+∞
X
convergente si la série |ai | des |ai | est finie. Lorsque tel est le cas, la série S est a fortiori
i=1
convergente : la convergence absolue entraı̂ne la convergence simple (la réciproque étant
fausse).
On renvoie au cours d’Analyse 2 pour les différents critères de convergence des séries.
On se contente de :
Séries de Riemann : La série de terme général an = 1/nα converge ssi α > 1.
Critère de Riemann : Soit (an )n une suite réelle (ou même complexe).
+∞
X
α
• S’il existe α > 1 tel que lim n |an | = 0 alors la série an converge (absolument).
n→+∞
n=0
+∞
X
• S’il existe α < 1 tel que limn→+∞ nα |an | = +∞ alors la série an diverge (absolu-
n=0
ment).
Lorsque l’on considère une suite géométrique (du type ai+1 = ρ ai ), la somme Sn de ses
n + 1 premiers termes est connue :
n
X 1 − ρn+1
Sn = ai = a0
i=0
1−ρ

si ρ 6= 1, sinon, Sn = n + 1 (valeur qu’on retrouve en faisant un d.l. à l’ordre 1 en 1 de la


formule précédente). La série converge si |ρ| < 1 et alors la série vaut

1
S = lim Sn = a0 .
n→+∞ 1−ρ
10 Chapitre 1. c JCB – L2 IMAE – Université de La Rochelle

Ce type de série est le cas particulier d’autres séries qui définissent des fonctions : les
séries entières.

Séries entières
Définition 1.4.1 Étant donnée une suite (an )n∈N , la série entière associée est la série de
terme général un = an xn , c’est donc une fonction de x :
+∞
X
f (x) = an x n .
n=0

Cette fonction n’est pas définie pour tout les x. Cependant, on a :


Proprosition–définition Il existe R ∈ [0, +∞] appelé rayon de convergence (nul dans
le plus mauvais cas, infini dans le meilleur) de la série entière tel que
– la série qui définit f (x) converge si |x| < R,
– la série diverge si |x| > R,
– pour |x| = R, le comportement (convergence ou divergence) dépend de la série étudiée.
Exemples.
• Avec an = 1 pour tout n ≥ 0, on obtient la série géométrique (de raison x) de rayon
de convergence R1 = 1 :
+∞
X 1
f1 (x) = xn = .
n=0
1−x

• Avec an = (−1)n+1 /n pour tout n ≥ 1, on obtient le développement en série entière de


la fonction logarithme (en 1) de rayon de convergence R2 = +1 :
+∞
X (−1)n+1
f2 (x) = xn = ln(1 + x).
n=0
n

• Avec an = 1/n! pour tout n ≥ 0, on obtient le développement en série entière de la


fonction exponentielle de rayon de convergence R3 = +∞ :
+∞ n
X x
f3 (x) = = ex .
n=0
n!

• Un cas pathologique : avec an = n! pour tout n ≥ 0, on obtient


+∞
X
f4 (x) = n!xn
n=0

qui est de rayon nul. Donc en pratique, cette série n’existe pas (ou si peu : seulement pour
x = 0).
1.4. Rappel sur les séries 11

Un résultat important concernant les séries entières est qu’on les dérive termes à termes
sur leur domaine de convergence (i.e. pour |x| < R) :
+∞ +∞ +∞ +∞
X 0 X X X
f 0 (x) = an x n = an (xn )0 = nan xn−1 = (n + 1)an+1 xn pour |x| < R.
n=0 n=0 n=1 n=0

On intègre aussi les séries entières termes à termes sur le disque (ouvert) de convergence :
Z t Z t X +∞
! +∞ Z t +∞ +∞
n
X
n
X an n+1 X an−1 n
f (x)dx = an x dx = an x dx = x = x pour |x| < R.
0 0 n=0 n=0 0 n=0
n+1 n=1
n

Ces résultats sont très utiles dans le calcul de séries entières.


Exemples. Retrouver les développements en séries entières en 0 de
1 1
, ln(1 + x), , arctan x.
1+x 1 + x2
12 Chapitre 1. c JCB – L2 IMAE – Université de La Rochelle
Chapitre 2

Mesures de probabilité

2.1 Espace de cardinal fini


Dans le cas où l’espace Ω est fini {ω1 , . . . , ωn }, la probabilité P(A) peut se définir pour
tout sous ensemble A ⊂ Ω et la probabilité P est donnée par une suite finie (pi )1≤i≤n qui
est la suite des probabilités des évènements élémentaires ωi : pi = P({ωi }).
Définition 2.1.1 Soit Ω = {ω1 , . . . , ωn } un ensemble fini à n éléments. On définit une
probabilité P sur (Ω, P(Ω)) par la donnée d’une suite finie de réels positifs pi de somme
Xn
pi = 1 données par P{ωi } = pi . Pour tout A ⊂ Ω, P(A) est alors donnée par
i=1
X
P(A) = pi .
i;ωi ∈A

On rappelle que P(Ω) désigne l’ensemble des parties de Ω, et que card P(Ω) = 2card Ω .
Ainsi, si Ω = {a, b, c} alors

P(Ω) = ∅, {1}, {2}, {3}, {1, 2}, {1, 3}, {2, 3}, {1, 2, 3} .

Une mesure de probabilités P est une fonction définie sur l’ensemble des parties de Ω.
Formellement, on a 
P(Ω) → [0, 1]
P:
A 7→ P(A)
Remarque 2.1.1 On constate facilement que P satisfait les propriétés suivantes :
– P(Ac ) = 1 − P(A),
– si A ∩ B = ∅, alors
P(A ∪ B) = P(A) + P(B)
et plus généralement si A1 , A2 , . . . , Ap sont 2 à 2 disjoints, alors

P(A1 ∪ A2 ∪ · · · ∪ Ap ) = P(A1 ) + P(A2 ) + · · · + P(Ap ) (propriété de fini-additivité).

13
14 Chapitre 2. c JCB – L2 IMAE – Université de La Rochelle

Exemple : On effectue une partie de pile ou face en trois coups. Quelle est la probabilité
d’obtenir face au premier lancer et pile au dernier ?
On modélise la situation en prenant Ω = {p, f }3 où p désigne pile et f face. P est définie
sur l’ensemble de toutes les parties de Ω, P(Ω). Il y a 8 = 23 triplets de résultats possibles :

(p, p, p), (p, p, f ), (p, f, p), (f, p, p), (f, f, p), (f, p, f ), (p, f, f ), (f, f, f ).

Si on suppose la pièce bien équilibrée, a priori chacun de ces triplets est équiprobable (i.e. a
la même probabilité de survenir). Comme la somme de leur probabilité doit faire 1, chacun
a pour probabilité 1/8. L’évènement A cherché se décompose en :

(f, f, p), (f, p, p).

D’où P(A) = P{(f, f, p), (f, p, p)} = P{(f, f, p)} + P{(f, p, p)} = 1/8 + 1/8 = 1/4.

Lorsque l’espace est fini, la probabilité la plus simple est l’équiprobabilité qui donne la
même probabilité à chaque évènement élémentaire ωi . C’est la probabilité qui est utilisée
en général sur les espaces Ω finis lorsque rien n’est précisé.

Exemple. • Lorsqu’on lance un dé équilibré à 6 faces, il est naturel de choisir l’équi-
probabilité qui associe la probabilité 1/6 à chaque face 1, 2, 3, 4, 5, 6.
• Au loto, la probabilité de chaque boule est 1/49.
Exercice. On jette deux fois deux dés. Quelle est la probabilité d’avoir au moins une
fois au moins un six ?

2.2 Espaces infinis dénombrables (par exemple N, Z)


Lorsque l’espace Ω est infini dénombrable, la probabilité se définit encore sur tout P(Ω) :
à chaque sous-ensemble A de Ω, une probabilité est associée. Elle est donnée à nouveau
par la suite infinie des probabilités des évènements élémentaires ωi :

Définition 2.2.1 Soit Ω = {ω1 , . . . , ωn , . . .} un ensemble infini dénombrable. Une proba-


bilité P sur (Ω, P(Ω)) est définie par la donnée d’une suite infinie de réels positifs pi de
+∞
X
somme pi = 1, donnés par P{ωi } = pi . Pour tout A ⊂ Ω, P(A) est alors donnée par
i=1
X
P(A) = pi .
i;ωi ∈A

Remarque 2.2.1 Il revient au même dans le cas discret fini ou infini d’indexer à partir de
0 ou de 1. Dans le cas fini, se méfier cependant si l’indexation va de 0 à n que le cardinal
de l’ensemble Ω est n + 1.
On constate encore que P satisfait les propriétés suivantes :
2.2. Espaces infinis dénombrables (par exemple N, Z) 15

– P(Ac ) = 1 − P(A),
– si A ∩ B = ∅, alors
P(A ∪ B) = P(A) + P(B)

et plus généralement si A1 , A2 , . . . , An , . . . est une suite infinie d’évènements 2 à 2


disjoints, alors

+∞
[ +∞
X

P Ai = P(A1 ∪ · · · ∪ An ∪ . . . ) = P(Ai ) (propriété de σ-additivité).
i=1 i=1

Noter que l’équiprobabilité n’existe plus lorsque l’espace est dénombrable non fini : si
on accorde la même probabilité p à chaque ωi , par σ-additivité, on doit avoir

+∞
! +∞ +∞
[ X X
1 = P(Ω) = P {ωi } = P{ωi } = p;
i=1 i=1 i=1

la somme est alors infinie si p > 0 et elle est nulle si p = 0, ce qui dans les deux cas est
absurde.
Exemple de probabilité définie sur (N, P(N)). Soit a ∈ R∗+ , posons

e−a ak
∀k ∈ N, pk = P({k}) = .
k!

(pk )k≥0 est une suite de terme positifs de somme

+∞ +∞ −a k +∞ k
X X e a −a
X a
pk = =e = e−a ea = 1.
k=0 k=0
k! k=0
k!

La probabilité d’une partie A de N est alors donnée par

X e−a ak
P(A) = .
k∈A
k!

Par exemple la probabilité de l’ensemble des nombres pairs 2N = {2n, n ∈ N} est

+∞ −a 2k
X e a ea + e−a 1 + e−2a
P(2N) = = e−a cosh(a) = e−a =
k=0
2k! 2 2

−2a
et celle des nombres impairs est P(2N + 1) = 1 − P(2N) = 1−e2 .
On verra au chapitre prochain qu’il s’agit de la loi de Poisson de paramètre a.
16 Chapitre 2. c JCB – L2 IMAE – Université de La Rochelle

2.3 Espace Ω général


On l’a vu dans les cas précédents : la probabilité P est une fonction qui à un ensemble
A associe un nombre compris entre 0 et 1, sa probabilité P(A). C’est donc une fonc-
tion d’ensembles – c’est à dire sur les ensembles. Cette fonction P doit vérifier un certain
nombre de propriétés (poids total égale à 1, σ-additivité). Pour à la fois les satisfaire et être
définie avec cohérence, on ne peut pas définir, en général, la probabilité de tous les sous-
ensembles A ⊂ Ω. P n’est donc pas en général définie sur tout P(Ω), l’ensemble de tous les
sous-ensembles de Ω. On doit se restreindre à une famille d’évènements F ⊂ P(Ω) qu’on
appellera famille des évènements observables (en L3, on parlera de tribu ou de σ-algèbre).
On définit alors la probabilité P sur l’ensemble des évènements observables F :

Définition 2.3.1 Soient Ω un ensemble, F une famille d’observables sur Ω. On appelle


probabilité sur (Ω, F) toute application P de F dans [0, 1] qui vérifie :
(i) P(Ω) = 1,
(ii) (Propriété de σ-additivité) Pour toute suite (Ai )i∈N∗ d’observables, deux à deux dis-
joints, on a ! +∞
[ X
P Ai = P(Ai ).
i∈N∗ i=1

On appelle (Ω, F, P) un espace probabilisé ou espace de probabilité.

Remarque 2.3.1 – En pratique, pour vérifier que P est une probabilité, on se conten-
tera de vérifier que P(A) ≥ 0 pour tout observable A, que P(Ω) = 1 et que P est
additive : P(A ∪ B) = P(A) + P(B) quand A et B sont disjoints.
– Lorsque l’espace Ω est discret (c’est à dire fini ou dénombrable, par exemple N ou
une partie de N), tous les ensembles sont observables et on peut choisir F = P(Ω).
C’est la raison pour laquelle cette restriction aux familles d’observables n’est jamais
apparue lors de cours de Probabilités en espaces finis ou discrets.
– Lorsque l’espace est R, pour le choix de la famille d’observables, on peut se restreindre
aux ensembles qui sont des intervalles.
Exemples. Soit f (x) = 21 e−|x| , montrer que
Z b
P([a, b]) = f (x)dx
a

définit une mesure de probabilité sur les intervalles de R.


Finalement, par observables, on pourra se contenter de comprendre dans ce cours :
n’importe quel ensemble si l’espace Ω est discret et les intervalles si l’espace est R.

Propriétés des probabilités


Une probabilité satisfait un certain nombre de propriétés de base qu’il faut connaı̂tre.
2.3. Espace Ω général 17

Toute probabilité P sur (Ω, F) vérifie les propriétés suivantes :


• ∀A ∈ F, P(Ac ) = 1 − P(A).
En effet Ω = A ∪ Ac avec une réunion disjointe. Par additivité, on a donc

1 = P(Ω) = P(A) + P(Ac ).

• P(∅) = 0.
En effet ∅ = Ωc donc P(∅) = 1 − P(Ω) = 1 − 1 = 0.
• Additivité (cas particulier du point (ii) de la définition d’une probabilité) :
– Si A ∩ B = ∅, P(A ∪ B) = P(A) + P(B),
– Si les Ai (1 ≤ i ≤ n) sont deux à deux disjoints,
n
! n
[ X
P Ai = P(Ai ).
i=1 i=1

• ∀A, B ∈ F, A ⊂ B ⇒ P(A) ≤ P(B).


En effet B = (B \ A) ∪ A où la réunion est disjointe. On a donc

P(B) = P(A) + P(B \ A) ≥ P(A).

• ∀A, B ∈ F, P(A ∪ B) = P(A) + P(B) − P(A ∩ B).


En effet A ∪ B = (B \ A) ∪ (A ∩ B) ∪ (A \ B) où les ensembles sont deux à deux disjoints.
On a donc
P(A ∪ B) = P(B \ A) + P(A ∩ B) + P(A \ B). (2.1)
Or A = (A \ B) ∪ (A ∩ B) avec une réunion d’ensembles disjoints donc

P(A) = P(A \ B) + P (A ∩ B).

Et de même B = (B \ A) ∪ (A ∩ B) avec une réunion d’ensembles disjoints donc

P(B) = P(B \ A) + P (A ∩ B).

On a donc P(B \ A) = P(B) − P (A ∩ B) et P(A \ B) = P(A) − P (A ∩ B), ce qui conclut


en reportant dans (2.1).
– ∀A ∈ F, ∀B ∈ F, P(A ∪ B) ≤ P(A) + P(B),
– ∀A1 , A2 , . . . , An ∈ F, P(A1 ∪ A2 ∪ · · · ∪ An ) ≤ P(A1 ) + P(A2 ) + · · · + P(An ),
– ∀A1 , A2 , . . . , An , · · · ∈ F, ! +∞
[ X
P Ai ≤ P(Ai ).
i∈N∗ i=1

En effet cela suit pour une réunion de deux ensembles A ∪ B du point précédent. Le
cas d’une réunion dénombrable est une simple généralisation.
• Propriété de continuité monotone séquentielle
18 Chapitre 2. c JCB – L2 IMAE – Université de La Rochelle

(i) Si (An )n∈N∗ est une suite croissante d’évènements (i.e. pour tout n An ⊂ An+1 ) alors
[
lim P(An ) = P(A) où A = An . (2.2)
n→+∞
n∈N∗

(ii) Si (Bn )n∈N∗ est une suite décroissante d’évènements (i.e. pour tout n Bn+1 ⊂ Bn )
alors \
lim P(Bn ) = P(B) où B = Bn . (2.3)
n→+∞
n∈N∗

En effet dans le cas croissant, on a ∪nk=1 Ak = An et donc

lim P(An ) = lim P(∪nk=1 Ak ) = P(∪+∞


k=1 Ak ).
n→+∞ n→+∞

De même dans le cas décroissant, on a ∩nk=1 Ak = An et donc

lim P(An ) = lim P(∩nk=1 Ak ) = P(∩+∞


k=1 Ak ).
n→+∞ n→+∞

Remarque 2.3.2 En général, on ne peut pas calculer P(A ∪ B) à partir de P(A) et de


P(B) comme le montre la formule P(A ∪ B) = P(A) + P(B) − P(A ∩ B) : il faut connaı̂tre
A ∩ B, on verra que ceci est lié à l’indépendance ou non des évènements A et B.
Attention, cette formule ne se généralise pas immédiatement pour plus de deux évène-
ments, par exemple pour A, B, C, on a :

P(A ∪ B ∪ C) = P(A) + P(B) + P(C) − P(A ∩ B) − P(A ∩ C) − P(B ∩ C) + P(A ∩ B ∩ C).

Plus généralement, on a le résultat suivant (admis) :

Proposition 2.3.1 (Formule de Poincaré) Pour tout entier n ≥ 2, et tous évènements


A1 , A2 , . . . , An , on a :
n
! n n
[ X X X
P Ai = P(Ai ) + (−1)k+1 P(Ai1 ∩ Ai2 ∩ · · · ∩ Aik ).
i=1 i=1 k=2 1≤i1 <i2 <···<ik ≤n

Définition 2.3.2 On appelle système complet d’évènements toute suite A1 , A2 , . . . , An , . . .


d’évènements deux à deux disjoints et dont la somme des probabilités vaut 1 :
X
P(Ai ) = 1.
i

Proposition 2.3.2 (Formule des probabilités totales – version 1) Étant donné un


système complet {A1 , A2 , . . . , An , . . .}, pour tout évènement B, sa probabilité peut se dé-
composer de la façon suivante :
X
P(B) = P(B ∩ Ai ) = P(B ∩ A1 ) + P (B ∩ A2 ) + . . . P(B ∩ Ai ) + . . . (2.4)
i
2.3. Espace Ω général 19

S
Démonstration : Notons Ω0 = i Ai , il s’agit d’un évènement de probabilité 1 (par
définition de {Ai }i système complet). Observons que les ensembles B ∩ Ai , i = 1 . . . , n . . . ,
sont deux à deux disjoints : (B ∩ Ai ) ∩ (B ∩ Aj ) ⊂ Ai ∩ Aj = ∅ si i 6= j. Par σ-additivité,
on a maintenant

où la dernière égalité vient de :

P(B) − P(B ∩ Ω0 ) = P(B \ (B ∩ Ω0 ))


= P(B ∩ (Ω \ Ω0 ))
= P(B ∩ Ωc0 )
≤ P(Ωc0 )
= 1 − P(Ω0 )
= 1 − 1 = 0.

Concrètement le calcul de P(B) par (2.4) consiste à calculer la probabilité de B en


distinguant selon les différents cas possibles dans l’espace Ω (A1 , . . . , An , . . . ) et à faire la
somme obtenue des probabilités dans ces différents cas pour réobtenir la probabilité totale
P(B).
20 Chapitre 2. c JCB – L2 IMAE – Université de La Rochelle
Chapitre 3

Indépendance et conditionnement

3.1 Conditionnement
Le conditionnement a pour objet de répondre à la question suivante : comment se
modifie la probabilité d’un évènement lorsque l’on connaı̂t déjà une information supplé-
mentaire ?
Exemple. On choisit au hasard deux chiffres entre 1 et 9. Sachant que la somme
obtenue est paire, calculer la probabilité p pour que les deux chiffres soient impairs.
Dans la suite, on fixe un espace probabilisé (Ω, F, P).
Définition 3.1.1 Soit B un évènement de probabilité non nulle P(B) 6= 0. Pour tout
évènement observable A, on définit la probabilité conditionnelle de A sachant B :
P(A ∩ B)
P(A|B) = .
P(B)

L’intérêt de cette notion vient du fait que souvent, compte tenu des informations dis-
ponibles dans un problème, il est plus facile d’attribuer une valeur à la probabilité condi-
tionnelle P(A|B) que de calculer P(A ∩ B) ou P(A).
Exemple. Une urne U1 contient 9 boules dont 5 rouges, une urne U2 contient 5 boules
dont 3 rouges. On choisit une urne au hasard et on tire une boule de cette urne. Si cette
boule est rouge, calculer la probabilité pour que la boule tirée vienne de l’urne U1 .

Remarque 3.1.1 – Il importe de bien comprendre la différence entre P(A|B), la pro-


babilité que A se réalise sachant que B est réalisé et P(A ∩ B), la probabilité que A
et B se réalisent simultanément.
– L’écriture A|B ne désigne pas un nouvel ensemble et ne veut rien dire isolément. Seul
P(A|B) a une signification. En fait, on ne modifie pas l’ensemble A mais on change
la probabilité en prenant P(·|B) comme nouvelle probabilité, comme le montre la
proposition suivante :

21
22 Chapitre 3. c JCB – L2 IMAE – Université de La Rochelle

Proposition 3.1.1 Soit dans un espace probabilisé (Ω, F, P), B ∈ F un évènement ob-
servable fixé tel que P(B) > 0. Alors la fonction d’ensemble P(·|B) :

A ∈ F −→ P(A|B)

est une nouvelle probabilité sur (Ω, F).

De ce fait, on dispose pour les probabilités conditionnelles de toutes les propriétés d’une
probabilité vues à la proposition ??.
Notons que pour chaque observable B de probabilité non nulle, on définit une probabi-
lité conditionnelle P(·|B). Ce ne sont pas les mêmes probabilités conditionnelles pour des
évènements B et B 0 différents.
On dispose par ailleurs des propriétés suivantes propres aux conditionnements :

Proposition 3.1.2 (Règle des conditionnements successifs) Si A1 , . . . , An sont n évè-


nements observables tels que P(A1 ∩ A2 ∩ · · · ∩ An−1 ) 6= 0, alors

P(A1 ∩ A2 ∩ · · · ∩ An ) = P(A1 )P(A2 |A1 )P(A3 |A1 ∩ A2 ) × · · · × P(An |A1 ∩ A2 ∩ · · · ∩ An−1 ).

Application : Quand B ⊂ C, on a on a pour tout évènement A :

P(A ∩ B|C) = P(A|B)P(B|C).

n−1
\ i
\
Démonstration : Notons d’abord que pour 1 ≤ i ≤ n − 1, Aj ⊂ Aj donc
j=1 j=1

 n−1
\  i
\ 
0<P Aj ≤ P Aj
j=1 j=1

Ti
si bien qu’on peut conditionner par j=1 Aj pour tout 1 ≤ i ≤ n − 1. On a alors par
simplifications en cascade.

P(A1 )P(A2 |A1 )P(A3 |A1 ∩ A2 ) × · · · × P(An |A1 ∩ A2 ∩ · · · ∩ An−1 )


P(A1 ∩ A2 ) P(A1 ∩ A2 ∩ A3 ) P(A1 ∩ · · · ∩ An )
= P(A1 ) × × × ··· ×
P(A1 ) P(A1 ∩ A2 ) P(A1 ∩ · · · ∩ An−1 )
= P(A1 ∩ · · · ∩ An ).

Définition 3.1.2 Une famille finie ou non d’ensembles (Ai )i∈I est une partition de Ω si
– les ensembles sont deux à deux disjoints : ∀i 6= j, Ai ∩ Aj = ∅,
3.1. Conditionnement 23
[
– leur réunion est Ω : Ω = Ai .
i∈I
La partition est dite finie, infinie, dénombrable si I est un ensemble d’indices respectivement
fini, infini, dénombrable.

On peut aussi calculer la probabilité d’un évènement en conditionnant par tous les cas
possibles, c’est l’objet de la proposition suivante :

Proposition 3.1.3 (Formule des probabilités totales – version 2)


– Si B ∈ F est tel que P(B) 6= 0 et 1 alors

∀A ∈ F, P(A) = P(A|B)P(B) + P(A|B c )P(B c ).

– Si B1 , . . . , Bn ∈ F forment une partition finie de Ω en évènements de probabilités


non nulles alors

∀A ∈ F, P(A) = P(A|B1 )P(B1 ) + P(A|B2 )P(B2 ) + · · · + P(A|Bn )P(Bn ).

– Si B1 , . . . , Bn , · · · ∈ F forment une partition dénombrable de Ω en évènements avec


P(Bi ) > 0 pour tout i ∈ N∗ , alors
+∞
X
∀A ∈ F, P(A) = P(A|Bi )P(Bi ).
i=1

Démonstration : Les premier et deuxième points sont des cas particuliers du dernier
qu’on prouve : comme (Bi )i∈N∗ est une partition de Ω, on a
!
[ [
A=A∩Ω=A∩ Bi = A ∩ Bi ,
i∈N∗ i∈N∗

cette réunion est disjointe car les Bi le sont :


 
A ∩ Bi ∩ A ∩ Bj ⊂ Bi ∩ Bj = ∅ si i 6= j.

Par σ-additivité de P, il suit :


[  X+∞ +∞
X
P(A) = P A ∩ Bi = P(A ∩ Bi ) = P(A|Bi )P(Bi ).
i∈N∗ i=1 i=1

Exercice. Revenons à l’exemple précédent avec deux urnes où il y a des boules rouges.
Calculer la probabilité de tirer une boule rouge.
Au passage, notons le résultat utile suivant qui souligne que pour calculer une proba-
bilité, il suffit parfois de diviser les cas :
24 Chapitre 3. c JCB – L2 IMAE – Université de La Rochelle

Proposition 3.1.4 Soit (Ω, F, P) un espace probabilisé, (Bi )i∈N∗ une partition de Ω. Alors,
on a
X+∞
∀A ∈ F, P(A) = P(A ∩ Bi ).
i=1

Lorsque l’on sait calculer les probabilités conditionnelles P(A|Bi ) pour tout un système de
partition (Bi )i∈I , on peut chercher les probabilités conditionnelles avec les conditionnements
inverses P(Bi |A). Elles sont données par :

Proposition 3.1.5 (Formule de Bayes) Soient A un évènement observable de probabi-


lité non nulle et (Bi )i∈I une partition de Ω en évènements de probabilités non nulles. On
a
P(A|Bj )P(Bj )
∀j ∈ I, P(Bj |A) = P .
i∈I P(A|Bi )P(Bi )

Le résultat est vrai que I soit un ensemble d’indice fini ou infini dénombrable.
Démonstration : Par définition des probabilités conditionnelles :

P(Bj ∩ A) P(A|Bj )P(Bj )


P(Bj |A) = = .
P(A) P(A)

Il ne reste plus qu’à développer P(A) par la formule des probabilités totale en
X
P(A) = P(A|Bi )P(Bi ).
i∈I

Exemple. Dans une population, chaque individu a une probabilité 0, 2 d’être droitier.
On pratique un test de latéralisation sur les individus de cette population. Un individu qui
n’est pas droitier a une probabilité 0, 6 d’échouer au test. Un individu qui est droitier a une
probabilité 0, 8 de réussir le test. On fait le test sur une personne. Quelle est la probabilité
pour qu’elle ne soit pas droitière sachant que le test est positif ?
Notons D l’évènement « être droitier » et T l’évènement « réussir le test ».
L’énoncé indique que P(D) = 0, 2, P(T c |Dc ) = 0, 6 et P(T |D) = 0, 8. On cherche
P(Dc |T ).
Pour cela, on utilise la formule de Bayes (ou celle des probabilités totales)

P(Dc ∩ T ) P(T |Dc )P(Dc ) (1 − 0, 6) × (1 − 0, 2)


P(Dc |T ) = = c c
=
P(T ) P(T |D )P(D ) + P(T |D)P(D) (1 − 0, 6) × (1 − 0, 2) + 0, 8 × 0, 2
0, 4 × 0, 8 0, 4 4 4 2
= = = = = ' 0, 666.
0, 4 × 0, 8 + 0, 8 × 0, 2 0, 4 + 0, 2 4+2 6 3
3.2. Indépendance 25

3.2 Indépendance
Il arrive que la connaissance d’un évènement influe sur celle d’un autre par exemple,
quand on considère la population française, savoir {habiter près de la mer} influe sur la
réalisation de {habiter à La Rochelle}. Parfois, ce n’est pas le cas : {parler une langue
étrangère} n’influencera pas, a priori, sur {habiter à La Rochelle}. Dans ce dernier cas, on
parle d’évènements indépendants.
C’est aussi le cas dans les situations suivantes :
• lors de tirages aléatoires avec remises dans une urne contenant des boules bleues et
rouges ou
• lors de deux lancers successifs d’un dé.
Dans le premier cas, la couleur de la boule au premier tirage ne donne aucune informa-
tion sur le tirage de la seconde.
Dans le cas d’un dé, l’obtention de l’as au premier lancer ne modifie pas la probabilité
d’obtention d’un quatre, par exemple, au second lancer.
Voyons un autre exemple.
Exemple : Considérons une population de 100 étudiants composée de 60 étudiants en
mathématiques et de 40 en informatique. On étudie deux caractéristiques de ces individus :
être attiré par le métier d’enseignant et pratiquer régulièrement un sport. La répartition
observée est la suivante :
– 31 matheux veulent devenir enseignant, 29 non,
– 10 informaticiens veulent devenir enseignant, 30 non.
– 24 matheux font du sport, 36 non,
– 16 informaticiens font du sport, 24 non,
Notons A = {pratiquer un sport}, B = {être matheux} et C = {vouloir devenir enseignant}.
On a
24 + 16 31 + 10
P(A) = = 0, 40, P(B) = 0, 60, P(C) = = 0, 41.
100 100
Par ailleurs, A ∩ B = {être matheux et pratiquer un sport} d’où P(A ∩ B) = 0, 24.
Et B ∩ C = {être matheux et vouloir devenir enseignant} d’où P(B ∩ C) = 0, 31.
On remarque alors que
P(A ∩ B) = 0, 24 = 0, 40 × 0, 60 = P(A) × P(B). (3.1)
et
P(B ∩ C) = 0, 31 6= P(B) × P(C) = 0, 60 × 0, 41 = 0, 246 (3.2)
Intuitivement, on comprend bien que la pratique d’un sport est sans rapport avec le fait
d’être étudiant en mathématiques ou en informatique. Par contre, la spécialité influe sur
l’attrait du métier d’enseignant : comme le nombre de postes au concours d’enseignants
est plus important en mathématiques qu’en informatique, il est légitime que davantage
d’étudiant en mathématiques envisage sérieusement cette carrière.
On dit alors que A et B sont indépendants tandis que B et C ne le sont pas.
Compte tenu de (3.1) et (3.2), la notion d’indépendance de deux évènements se définit
de la façon suivante :
26 Chapitre 3. c JCB – L2 IMAE – Université de La Rochelle

Définition 3.2.1 Soit (Ω, F, P) un espace de probabilité. Deux évènements observables A


et B sont dits indépendants si
P(A ∩ B) = P(A) P(B).
Exemple. Reprenons l’exemple du lancer de deux dés. L’espace à considérer est Ω =
{1, 2, 3, 4, 5, 6}2 muni de ces parties P(Ω) et de d’équiprobabilité P. Chaque tirage possible
a la probabilité 1/36 car #Ω = 62 = 36.
Soient A :« obtention de l’as au premier lancer » et B : « obtention du 4 au second
lancer ».
Le tirage de l’as au premier lancer se décompose en les évènements élémentaires sui-
vants : {1, 1}, {1, 2}, {1, 3}, {1, 4}, {1, 5}, {1, 6} et est de probabilité

P(A) = P {1, 1}, {1, 2}, {1, 3}, {1, 4}, {1, 5}, {1, 6}
= P{1, 1} + P{1, 2} + P{1, 3} + P{1, 4} + P{1, 5} + P{1, 6}
= 1/36 + 1/36 + 1/36 + 1/36 + 1/36 + 1/36
= 1/6.
De même, l’obtention du 4 au second lancer se décompose en {1, 4},{2, 4}, {3, 4}, {4, 4},
{5, 4}, {6, 4} et est de probabilité

P(B) = P {1, 4}, {2, 4}, {3, 4}, {4, 4}, {5, 4}, {6, 4} = 6/36 = 1/6.
L’évènement A ∩ B désigne le tirage de l’as au premier et du 4 au second lancer, on a
donc A ∩ B = {1, 4} et P(A ∩ B) = P{1, 4} = 1/36 = 1/6 × 1/6 = P(A) × P(B). Les
évènements A « tirage de l’as au premier lancer » et B « tirage du 4 au second » sont
donc indépendants dans (Ω, P(Ω), P).
Intuitivement, les deux lancers sont indépendants donc leurs résultats le sont aussi.
Considérons maintenant C :« la somme des deux résultats est 6 ». L’évènement C se
décompose en
C = {(1, 5), (2, 4), (3, 3), (4, 2), (5, 1)}
et est donc de probabilité P(C) = 5/36 = 1/6.
On a A ∩ C = {(1, 5)} de probabilité P(A ∩ C) = 1/36 6= P(A)P(C).
Les évènements A et C ne sont pas indépendants.
Intuitivement, si on a un 1 au premier lancer pour que finalement la somme des résultats
fasse 6, il faut que le second lancer soit important, ce qui explique la non-indépendance de
A et de C.
Exemple. On lance deux fois une pièce et on considère les évènements A : « obtenir
deux fois le même résultat », B : « avoir une face au premier lancer » et C : « avoir au
moins une face ».
En notant p pour pile et f pour face, on a facilement
1 1 1
A = {f f, pp}, P(A) = + =
4 4 2
3.2. Indépendance 27

1
B = {f f, f p}, P(B) =
2
3
C = {f f, f p, pf }, P(C) =
4
1 1 1
A ∩ B = {f f }, P(A ∩ B) = = × = P(A) × P(B)
4 2 2
1
A ∩ C = {f f }, P(A ∩ C) = 6= P(A) × P(B).
4
Les évènements A et B sont donc indépendants alors que A et C ne le sont pas.
Les évènements B et C ne sont pas indépendants car B ⊂ C et donc B ∩ C = B ce qui
empêche d’avoir P(B ∩ C) = P(B)P(C) car P(C) 6= 1.

Remarques.
• Il faut faire attention à ne pas confondre « être indépendants » et « être disjoints ».
En particulier deux évènements A et B disjoints ne peuvent pas être indépendants quand
ils sont de probabilités non nulles.
C’est clair intuitivement : avoir une information sur A, c’est en avoir une sur B (si A
se réalise alors par disjonction B ne peut pas se réaliser).
C’est clair aussi par le calcul car
P(A ∩ B) = P(∅) = 0 6= P(A) × P(B).
• Il faut faire attention encore : l’indépendance de deux évènements A et B n’est pas
intrinsèque mais dépend de l’espace de probabilité (Ω, F, P) utilisé (c’est à dire du choix
du modèle) :
Exemple : Une urne contient 12 boules numérotées de 1 à 12. On en tire une au hasard
et on considère : A = {tirage d’un nombre pair}, B = {tirage d’un multiple de 3}. Que
dire de A et B ?
L’espace à considérer est Ω = {1, 2, . . . , 12} munie de l’equiprobabilité P, chaque boule
étant équiprobable. On a
A = {2, 4, 6, 8, 10, 12}, B = {3, 6, 9, 12}, A ∩ B = {6, 12}.
On a P(A) = 6/12 = 1/2, P(B) = 4/12 = 1/3 et
2 1 1 1
P(A ∩ B) = = = × = P(A) × P(B).
12 6 2 3
Les évènements A et B sont indépendants dans l’espace (Ω, F, P).
On rajoute maintenant une treizième boule. Que dire de A et B ?
Le modèle –c’est à dire l’espace de probabilité– change. Il faut désormais considérer
Ω = {1, 2, . . . , 12, 13} munie de la nouvelle equiprobabilité P0 . A, B gardent les mêmes
0

descriptions mais leur probabilité sont P0 (A) = 6/13, P0 (B) = 4/13 et


2 6 4
P0 (A ∩ B) = 6= × = P0 (A) × P0 (B).
13 13 13
28 Chapitre 3. c JCB – L2 IMAE – Université de La Rochelle

Les évènements A et B ne sont pas indépendants pour P0 .


Intuitivement : dans le premier cas, la proportion des multiples de 3 est la même chez
les pairs et les impairs. Le fait de savoir que la boule tirée est paire ne modifie donc pas
notre information sur B. Par contre dans le deuxième cas, la proportion des multiples de
3 est plus élevée chez les pairs que chez les impairs. Le fait de savoir que la boule tirée est
paire augmente un peu la probabilité (conditionnelle) que nous pouvons attribuer à B.

Remarque 3.2.1 (Probabilités conditionnelles) La notion d’indépendance est évi-


demment liée à celle de conditionnement : rappelons que si B est de probabilité non nulle
la probabilité conditionnelle de A sachant B est définie par

P(A ∩ B)
P(A|B) = .
P(B)

On a alors les équivalences pour A et B de probabilités non nulles :


– P(A ∩ B) = P(A) P(B) (i.e. A et B indépendants),
– P(A|B) = P(A) (le conditionnement par B est sans effet sur A),
– P(B|A) = P(B) (le conditionnement par A est sans effet sur B).

Ces équivalentes découlent directement des définitions de l’indépendance et des proba-


bilités conditionnelles.

Proposition 3.2.1 Si A et B sont deux évènements observables indépendants, alors Ac


et B, A et B c , Ac et B c le sont encore deux à deux.

Démonstration : Montrons le pour Ac et B : comme

Ac ∩ B = (Ω \ A) ∩ B = (Ω ∩ B) \ (A ∩ B) = B \ (A ∩ B),

on a :

P(Ac ∩ B) = P B \ (A ∩ B) = P(B) − P(A ∩ B)




= P(B) − P(A)P(B) = (1 − P(A))P(B) = P(Ac )P(B).

Exercice. Faire la preuve dans les autres cas.


La notion d’indépendance se généralise à plus de deux évènements avec quelques pré-
cautions. Pour le voir, analysons d’abord la situation suivante :
Exemple : On considère une urne qui contient quatre boules : une bleue, une blanche, une
rouge et une tricolore. Considérons les évènements suivants

A = {la boule tirée contient du bleu},


B = {la boule tirée contient du blanc},
3.2. Indépendance 29

C = {la boule tirée contient du rouge}.


Comme il y a quatre boules et qu’à chaque fois la boule unie de couleur concernée et la
boule tricolore conviennent, on a facilement P(A) = P(B) = P(C) = 2/4 = 1/2. Par
ailleurs A ∩ B = {tirage de la boule tricolore} et
P(A ∩ B) = P{tirage de la boule tricolore} = 1/4 = 1/2 × 1/2 = P(A)P(B).
Donc A, B sont indépendants, de même pour A et C, B et C. Les évènements A, B, C sont
donc deux à deux indépendants.
D’autre part P(A ∩ B ∩ C) = 1/4 car A ∩ B ∩ C = {tirage de la boule tricolore} et donc
P(A ∩ B ∩ C) 6= P(A)P(B)P(C) = 1/2 × 1/2 × 1/2 = 1/8. (3.3)
Intuitivement, on n’a pas indépendance de A, B, C ensemble et donc l’indépendance deux
à deux ne suffit à généraliser à plus de deux évènements l’indépendance globale. Ce qu’il
manque pour avoir l’indépendance de A, B, C ensemble c’est la vérification de (3.3).
D’où la définition suivante : trois évènements A, B, C sont dits mutuellement indé-
pendants (càd indépendants quand on les considère ensemble et non pas seulement deux à
deux) si la probabilité de toute intersection d’ensembles pris parmi A, B, C est le produit
des probabilités de ces mêmes ensembles :
P(A ∩ B) = P(A)P(B),
P(A ∩ C) = P(A)P(C),
P(B ∩ C) = P(B)P(C),
P(A ∩ B ∩ C) = P(A)P(B)P(C).
Plus généralement pour n évènements :
Définition 3.2.2 Les n évènements observables A1 , . . . , An sont mutuellement indépen-
dants si pour toute sous-famille Ai1 , . . . , Aip avec 1 ≤ i1 < · · · < ip ≤ n, on a
P(Ai1 ∩ · · · ∩ Aip ) = P(Ai1 ) × · · · × P(Aip ).
L’indépendance mutuelle implique l’indépendance deux à deux (prendre p = 2), la
réciproque est fausse comme le justifie l’exemple précédent.
Le même type de remarque qu’à la Proposition 3.2.1 est valable : si un ou plusieurs
évènements est remplacé par son complémentaire, cela ne change rien à l’indépendance de
la famille.
Définition 3.2.3 Une suite infinie d’évènements est dite indépendante si toute sous-famille
finie est formée d’évènements mutuellement indépendants.
Souvent dans la suite nous parlerons d’une suite indépendante d’épreuves. Intuitive-
ment, il est clair de quoi il s’agit ; formellement on a :
Définition 3.2.4 On dit qu’une suite infinie d’épreuves est indépendante si toute suite
(Ai )i≥1 formée d’évènements Ai dont la réalisation ne dépend que de la ième épreuve
forme une suite indépendante d’évènements.
30 Chapitre 3. c JCB – L2 IMAE – Université de La Rochelle
Chapitre 4

Variables aléatoires discrètes

Jusqu’à maintenant, on a parlé d’évènements (aléatoires) et de leur probabilité. Or dans


la plupart des expériences aléatoires, il s’agit plutôt d’observer un résultat (aléatoire aussi),
en général numérique, que des évènements. Par exemple :
– le nombre de bonnes réponses dans un QCM,
– le temps d’obtention du premier six aux dés,
– la durée de vie d’ume ampoule électrique.
Le résultat aléatoire est une fonction (au sens mathématique) du hasard ω ∈ Ω. L’informa-
tion apportée par cette expérience est portée par cette fonction appelée variable aléatoire.

4.1 Variables aléatoires discrètes


4.1.1 Définition
Définition 4.1.1 Soit (Ω, F, P) un espace probabilisé. On appelle variable aléatoire dis-
crète sur (Ω, F, P) toute application X :

X : Ω −→ R, ω 7−→ X(ω)

telle que l’ensemble de ses images X(Ω) = {X(ω), ω ∈ Ω} est une partie au plus dé-
nombrable de R. On peut donc numéroter ses éléments par des indices entiers : X(Ω) =
{x1 , x2 , . . . , xk , . . .}.

X(Ω) s’appelle le domaine ou le support de la v.a. X.


Les points xk du support X(Ω) de la v.a. X s’appellent les atomes de la loi ou de la
v.a. X.
L’évènement Ak = {ω ∈ Ω, X(ω) = xk } est aussi noté X −1 ({xk }) (où X −1 désigne
l’inverse ensembliste) ou encore {X = xk } (dans ce cas, il est implicite que c’est l’ensemble
des ω ∈ Ω tel que X(ω) = xk , nous utiliserons la plupart du temps dans la suite, cette
notation implicite).
Dans la suite, nous utiliserons l’abréviation v.a. pour variable(s) aléatoire(s).

31
32 Chapitre 4. c JCB – L2 IMAE – Université de La Rochelle

Remarquons que l’ensemble des Ak forme une partition de l’espace de probabilité Ω


(par partition, on entend une famille d’ensembles deux à deux disjoints et de réunion Ω).
On a alors
X X
P(Ak ) = P(X = xk ) = P(X ∈ {x1 , . . . , xk , . . .}) = 1.
k,xk ∈X(Ω) k,xk ∈X(Ω)

Dans cette écriture, les sommes sont des séries convergentes si X(Ω) est infini, des sommes
finies si l’ensemble X(Ω) est fini.

4.1.2 Loi d’une variable aléatoire discrète


L’application X permet de transporter la probabilité P de Ω en une probabilité PX
sur R : on considère pour cela les P(X = xk ) comme des masses ponctuelles pk situées
en les points xk de la droite réelle, on définit ainsi une probabilité sur R (le point xk a la
probabilité pk ). La probabilité, pour cette loi, d’une partie quelconque de R est alors la
somme des masses ponctuelles qu’elle contient.
Définition 4.1.2 Soit X une v.a. discrète sur (Ω, F, P). On lui associe sa loi PX qui est
la probabilité définie sur les parties de R par

pk = PX ({xk }) = P(X = xk ) = P(Ak ).

Pour tout B ⊂ R : X X
PX (B) = P(X = xk ) = pk .
xk ∈B xk ∈B

Les probabilités pk = P(X = xk ) sont appelées probabilités ponctuelles de la v.a. X.


Dans la suite, le symbole ∼ signifiera « a pour loi ». Par exemple, on notera X ∼ B(n, p)
pour signifier que la v.a. X suit la loi binomiale B(n, p).
Dans ce cas, n’importe quelle partie de R est observable car la loi est discrète (l’ensemble
des observables est P(R) tout entier).P
Notons en particulier que comme k,xk ∈Ω pk = 1, PX (B) est une sous-série d’une série
à termes positifs convergente donc convergente : PX (B) est donc toujours bien définie pour
toute partie B ⊂ R. Ce ne sera pas aussi simple dans le cas des variables aléatoires réelles
(pour lesquelles les observables seront réduits aux intervalles de R).

Remarque 4.1.1
– Attention, deux v.a. peuvent avoir la même loi sans pour autant être égales. Par
exemple si on dispose d’un dé rouge et d’un dé bleu et que X, Y désignent la somme
des points obtenus après un lancer respectivement du dé rouge et du dé bleu, X et
Y ont la même loi. Pourtant bien sûr, on n’a pas X = Y , ce qui équivaudrait à dire
que les tirages des deux dés sont nécessairement identiques.
– Désormais, on utilise la notation suivante où le ω est implicite :

P(X ∈ B) = P(ω ∈ Ω, X(ω) ∈ B).


4.1. Variables aléatoires discrètes 33

4.1.3 Fonction de répartition


Définition 4.1.3 On appelle fonction de répartition de la v.a. X la fonction FX définie
par :
∀x ∈ R, FX (x) = PX (] − ∞, x]) = P(X ∈] − ∞, x]) = P(X ≤ x).
On a aussi pour une v.a. X discrète
X X
FX (x) = P(X = xk ) = pk .
k,xk ∈X(Ω), k,xk ∈X(Ω),
xk ≤x xk ≤x

Proposition 4.1.1 Soit X une v.a. discrète d’ensemble de valeurs X(Ω) =


{x1 , x2 , . . . , xk , . . .} supposé ordonné x1 < x2 < · · · < xk < . . . . La fonction de répartition
FX de X est croissante de 0 en −∞ à 1 en +∞, constante sur chaque intervalle [xk , xk+1 [
avec un saut pk en chaque atome xk .

Notons que FX détermine complètement la loi de X : les points du support sont les points
de sauts de FX et la probabilité associée est donnée par

pk = FX (xk ) − FX (xk−1 ).

Autrement dit PX ([a, b]) = FX (b) − limt→a− FX (t). On retrouve donc la loi à partir de FX .
Démonstration : D’abord FX est à valeurs positives car une probabilité est toujours
positive. Si s < t,

F (t) − F (s) = P(X ≤ t) − P(X ≤ s)


= P(X ≤ s) + P(s < X ≤ t) − P(X ≤ s)
X
= P(s < X ≤ t) = pi ≥ 0
i | s<xi ≤t

donc FX est croissante. Puis si s < t sont dans [xk , xk+1 [ alors
X
F (t) − F (s) = pi = 0
i | s<xi ≤t

car la somme est vide : il n’y a pas d’atome xi entre s et t. S’il y en avait un, il serait a
fortiori entre xk et xk+1 , ce qui est exclu, car par l’indexation, les atomes xk et xk+1 sont
consécutifs.
Puis avec s = xk et t = xk+1 , on a
X X
F (xk+1 ) − F (xk ) = pi = pi = pk+1
i | xk <xi ≤xk+1 i | xi ∈]xk ,xk+1 ]

car xk+1 est le seul atome dans ]xk , xk+1 ]. Il y a donc un saut pk+1 en xk+1 . Enfin,
X
lim FX (t) = lim pi = 0
t→−∞ t→−∞
i | xi ≤t
34 Chapitre 4. c JCB – L2 IMAE – Université de La Rochelle

car pour t ≤ inf k (xk ), la somme est vide donc –par convention– nulle. Et
X X
lim FX (t) = lim pi = pi = 1
t→+∞ t→+∞
i | xi ≤t i
P
car pour t ≥ supk (xk ), la somme devient i | xi ∈R pi = 1.
Exemple. Soit S la variable aléatoire qui donne la somme des faces obtenues en lançant
deux fois un dé à six faces bien équilibré. La loi de S est donnée par l’ensemble des valeurs
possibles S(Ω) = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12} et les probabilités associées
P(S = 2) = 1/36, P(S = 6) = 5/36, P(S = 10) = 3/36,
P(S = 3) = 2/36, P(S = 7) = 6/36, P(S = 11) = 2/36,
P(S = 4) = 3/36, P(S = 8) = 5/36, P(S = 12) = 1/36.
P(S = 5) = 4/36, P(S = 9) = 4/36,
La fonction de répartition est alors donnée par :
1

0 1 2 3 4 5 6 7 8 9 10 11 12 x

4.2 Lois discrètes classiques


4.2.1 Lois de v.a. finies déjà connues
Ont déjà été vues en L1, les v.a. prenant un nombre fini de valeurs. Rappelons les
principales telles lois.
Loi de Bernoulli de paramètre p notée b(p). Une v.a. X suit une loi de Bernoulli de
paramètre p ∈ [0, 1] si elle ne prend que deux valeurs, la plupart du temps 0 et 1 avec :
P(X = 1) = p, P(X = 0) = 1 − p := q.
Exemple. Pile ou face avec p = 1/2 si la pièce est équilibrée, p 6= 1/2 si elle est truquée.

Loi equirépartie sur un ensemble fini {x1 , . . . , xn } notée U{x1 , . . . , xn }. Une v.a. X
prenant un nombre fini de valeurs x1 , . . . , xn suit une loi equirépartie quand
1
PX ({xi }) = , 1 ≤ i ≤ n.
n
4.2. Lois discrètes classiques 35

Exemple. Jet d’un dé (équilibré).


Loi binomiale de paramètres n, p notée B(n, p). Une v.a. suit une loi binomiale de
paramètres n ∈ N∗ et p ∈ [0, 1] si l’ensemble de ses valeurs possibles est :

X(Ω) = {0, 1, 2, . . . , n}

et pour tout k = 0, 1, . . . , n, on a

P(X = k) = Cnk pk (1 − p)n−k (4.1)

n!
où Cnk = est le coefficient binomial. Il s’agit bien d’une loi de probabilité car la
k!(n − k)!
formule du binome de Newton (d’où le nom de la loi) donne :

n
X n
Cnk pk (1 − p)n−k = p + (1 − p) = 1n = 1.
k=0

Remarque 4.2.1 Il est souvent pratique de voir cette loi comme celle du nombre de succès
obtenus dans une suite de n épreuves répétées indépendantes avec pour chaque épreuve
une probabilité p de succès (par exemple des tirages avec remises de n boules rouges dans
une urne contenant des boules rouges, en proportion p ∈ [0, 1], et des boules noires). Ainsi,
P(X = k) est la probabilité d’avoir exactement k succès en n épreuves (dans l’exemple, k
boules rouges en n tirages). On en déduit l’explication suivante des différents facteurs de
(4.1) :
– pk est la probabilité des k succès (par indépendance des tirages),
– (1 − p)n−k est la probabilité des n − k échecs (pour avoir exactement k succès, il
faut bien que les n − k autres épreuves soient des échecs),
– et Cnk pour tenir compte de tous les choix possibles des k épreuves réussies sur les n
réalisées (il y a Cnk tirages différents de n boules comprenant k boules rouges).
Une autre façon de dire la même chose est qu’une v.a. Y de loi binomiale B(n, p) peut
se voir comme la somme de n v.a. Xi indépendantes de loi de Bernoulli b(p) :

Y = X1 + · · · + Xn .

D’après cette interprétation, la loi binomiale intervient dans les tirages avec remises : elle
modélise la v.a. qui compte le nombre de bons tirages en un nombre fixé, n, de tirages. Ici
chaque Xi indique si à l’épreuve i on a eu un succès (Xi = 1) ou un échec (Xi = 0).

Intéressons nous maintenant aux lois des v.a. discrètes prenant un nombre infini de
valeurs.
36 Chapitre 4. c JCB – L2 IMAE – Université de La Rochelle

4.2.2 Lois Géométriques


Exemple : Considérons une suite infinie d’épreuves répétées indépendantes avec même
probabilité de succès p ∈]0, 1[. Soit X le numéro aléatoire de l’épreuve où l’on obtient
le premier succès. Convenons que si l’on n’obtient jamais de succès, on note X = +∞.
Calculer P(X = k) pour tout k ∈ N∗ . En déduire P(X ∈ N∗ ) et P(X = +∞).
A priori, X prend ses valeurs dans {1, 2 . . . , k, . . .} ∪ {∞} = N∗ ∪ {∞}.
Notons Ri = {succès à la i-ème épreuve}, on a :

{X = k} = {échecs aux k − 1 premières épreuves puis succès à la k-ème}


 k−1
\ 
= Ric ∩ Rk .
i=1

Par indépendance des épreuves, il suit

 k−1
\   k−1
Y
P(X = k) = P Ric ∩ Rk = P(Ric ) × P(Rk ) = (1 − p)k−1 p.
i=1 i=1

Posons q := 1 − p ∈]0, 1[. Décomposons l’évènement {X ∈ N∗ } en réunion disjointe des


{X = k} pour k ∈ N∗ , on a alors par σ-additivité de P :

X +∞
X ∞
X
∗ k−1
P(X ∈ N ) = P(X = k) = q p=p ql (en posant l = k − 1)
k∈N∗ k=1 l=0
1 1
= p = p =1 (somme d’une suite géométrique).
1−q 1 − (1 − p)

Ainsi, avec probabilité 1, le premier succès intervient au bout d’un nombre fini d’épreuves
(car dire X ∈ N∗ , c’est dire que X est un entier donc prend une valeur finie). On en déduit
immédiatement
P(X = +∞) = P(X 6∈ N∗ ) = 1 − P(X ∈ N∗ ) = 0.

Définition 4.2.1 Une v.a. X suit la loi géométrique de paramètre p ∈]0, 1[ notée G(p) si
X(Ω) = N∗ et
P(X = k) = (1 − p)k−1 p, k ∈ N∗ .

Exercice. Notons que si X suit une loi G(p), les probabilités P(X > n) ont une ex-
pression simple qu’on pourra montrer à titre d’exercice :

P(X > n) = (1 − p)n .


4.2. Lois discrètes classiques 37

4.2.3 Loi de Poisson


Cette loi intervient dans les processus aléatoires dont les éventualités sont faiblement
probables et survenant indépendamment les unes des autes : cas de phénomènes accidentels,
d’anomalies diverses, de problèmes d’encombrement (files d’attente), de rupture de stocks,
etc.

Définition 4.2.2 On dit qu’une v.a. discrète X suit une loi de Poisson de paramètre λ > 0
si l’ensemble de ses valeurs possibles est X(Ω) = N et

e−λ λk
∀k ∈ N, P(X = k) = .
k!
La loi de Poisson de paramètre λ > 0 est notée P(λ).

Rappelons que la fonction exponentielle a un développement en série entière avec un rayon


de convergence infini :
+∞ k
λ
X λ
∀λ > 0, e = .
k=0
k!
On vérifie alors facilement qu’on a bien défini une loi de probabilité car
+∞ +∞ k
X
−λ
X λ
P(X = k) = e = e−λ eλ = e−λ+λ = 1.
k=0 k=0
k!

Approximation de la loi binomiale par la loi de Poisson


En liaison avec les lois binomiales, on dispose du résultat suivant justifiant que la loi
de Poisson approxime la loi binomiale B(n, p) quand n est « grand » et np est « petit ».

Théorème 4.2.1 (Approximation de la loi de Poisson par la loi binomiale)


Si (pn )n∈N∗ est une suite de réels de [0, 1] telle que

npn → λ ∈]0, +∞[, n → +∞

alors
λk
Cnk pkn (1 − pn )n−k −→ e−λ , quand n → +∞.
k!
Autrement dit, si Xn est une suite de v.a. de loi binomiale B(n, pn ) et X une v.a. de
loi P(λ) alors pour tout k ∈ N :

lim P(Xn = k) = P(X = k).


n→+∞

« Les lois binomiales convergent vers la loi de Poisson. »


38 Chapitre 4. c JCB – L2 IMAE – Université de La Rochelle

Démonstration : On remplace pn par son équivalent λ/n. Pour k fixé,


n!
P (Xn = k) = Cnk pkn (1 − pn )n−k = pk e(n−k) ln(1−pn )
k!(n − k)! n
 k
n(n − 1) · · · (n − k + 1) λ
' e−(n−k)λ/n
k! n
1 n(n − 1) · · · (n − k + 1) k −λ kλ/n
' λ e e
k! nk
λk
' e−λ = P (X = k).
k!

Application pratique. Le théorème 4.2.1 sert de justification théorique à la règle pratique


suivante : lorsque n est « grand » et np est « petit », on peut remplacer la loi binomiale
B(n, p) par la loi de Poisson P(λ) où λ = np.
En général, on considère que lorsque n est de l’ordre de quelques centaines et np est de
l’ordre de quelques unités, l’approximation de B(n, p) par P(np) est assez bonne.
Intérêt : si n est grand, le calcul des coefficients binomiaux Cnk est fastidieux, voire
impossible. En approchant par la loi de Poisson, le calcul devient assez simple.
Exemple : Le président d’un bureau de vote est né un 1er avril. Il décide de noter le
nombre de personnes ayant leur anniversaire le même jour que lui parmi les 500 premiers
votants.
La situation peut être assimilée à une suite de 500 épreuves indépendantes répétées
avec une probabilité p = 1/365 de succès (on néglige les effets des années bissextiles, sinon
il faudrait plutôt prendre p = 4/(3 × 365 + 366)). Notons X la variable aléatoire qui compte
le nombre de succès. X suit une loi B(500, p), ainsi :
k
P(X = k) = C500 pk (1 − p)500−k .

Comme 500 est « grand » et np = 500/365 ' 1, 37, la règle ci-dessus permet l’approxima-
tion par la loi P(λ) avec λ = 500/365. Voici une comparaison numérique pour les petites
valeurs de k :

k 0 1 2 3 4 5
P(X = k) 0, 2537 0, 3484 0, 2388 0, 1089 0, 0372 0, 0101
e−λ λk
0, 2541 0, 3481 0, 2385 0, 1089 0, 0373 0, 0102
k!

On constate que les valeurs approchées sont très proches des valeurs réelles.

Application aux files d’attente


4.2. Lois discrètes classiques 39

Un poste de péage d’une autoroute posséde plusieurs guichets. En période de pointe et


dans la tranche 7h–9h, on compte 6300 véhicules par heure (c’est à peu près les chiffres sur
le périphérique parisien).
Des compteurs à la sortie du péage ont montré qu’un automobiliste met en moyenne 18
secondes pour s’acquitter du montant du péage. On estime qu’il y a risque de saturation
(création d’un bouchon) si on compte plus de 10 véhicules en attente à chaque guichet.
On se place désormais dans la tranche 7h–9h.
1) Soit X la v.a. qui désigne le nombre de véhicules présents au péage à un instant
donné. Quelle est sa loi ? Quelle est son espérance (nombre moyen de véhicules présents au
péage à un instant donné) ?
L’arrivée au péage est un évènement de probabilité p = 18/(2 × 360) = 0, 0025. Il y
a N = 12600 véhicules présents dans la tranche horaire. La v.a. X suit la loi binomiale
B(N, p).
2) Dans le cas où il y a 5 guichets, en admettant une égale répartition des véhicules sur
chaque guichet et en notant Y le nombre de véhicules se présentant à un guichet donné,
justifier que Y suit sensiblement une loi de Poisson et calculer la probabilité de saturation,
P(Y > 10).
Pour un guichet donné Y suit la loi binomiale B(N, p0 ) avec p0 = p/5, ce qui s’approxime
par la loi de Poisson P(N p0 ) = P(6, 3). L’approximation est légitime car N p0 est entre 1
et 10.
La probabilité de saturation est P(Y > 10) = P(Y ≥ 11) = 1 − P(Y ≤ 10) ' 0, 056.
3) On suppose le nombre k de guichets non précisé. Quelle est la valeur minimale à
attribuer à k pour que la probabilité de saturation ne dépasse pas 0, 01 ?
En procédant par dichotomie (tester k = 5 guichets avec p0 = p/5 puis k = 10 guichets
avec p0 = p/10 puis etc), on trouve k = 7 guichets.
Notez que la probabilité trouvée en 2) avec 5 guichets est de 6% alors qu’avec 2 gui-
chets de plus elle est divisée par 6. Il n’y a donc pas proportionalité dans ces calculs de
probabilités !
40 Chapitre 4. c JCB – L2 IMAE – Université de La Rochelle
Chapitre 5

Moment des variables aléatoires


discrètes

On en vient dans la section suivante aux espérances et variances de variables aléatoires.


Ce sont certaines quantités numériques associées à la loi d’une v.a. qui apportent des
informations sur cette loi. On traite d’abord le cas des v.a. discrètes, l’analogue s’énoncera
pour les v.a. à densité.

5.1 Espérance d’une v.a.


5.1.1 Définitions
Définition 5.1.1 (Espérance d’une v.a. discrète) Soit X une v.a. discrète prenant
une infinité de valeurs x1 , x2 , . . . , xn , . . . si
X ∞
|xk | P(X = xk ) < +∞, (5.1)
k=1

on définit l’espérance de X par



X ∞
X
E[X] = xk P(X = xk ) = x k pk . (5.2)
k=1 k=1

Remarque 5.1.1
– Si X(Ω) est fini, la somme dans (5.1) est forcément finie et l’espérance dans (5.2) est
forcément définie.
– L’espérance généralise la notion intuitive de moyenne et peut être vue comme le
barycentre des points xk avec le poids donné par leur probabilité ponctuelle pk =
P(X = xk ). Elle donne donc la valeur moyenne de la v.a. au sens probabiliste.
– L’espérance ne dépend que de la loi de X : si X et Y sont deux v.a. de même loi,
alors E[X] = E[Y ] car ça ne dépend que des atomes xk et de leur probabilité pk . On
devrait ainsi plutôt parler de l’espérance de la loi de X.

41
42 Chapitre 5. c JCB – L2 IMAE – Université de La Rochelle

5.1.2 Espérances classiques


Exemples :
– X v.a. constante (∃c ∈ R, ∀ω ∈ Ω, X(ω) = c), alors son espérance est E[X] = c × 1 =
c.
– X de loi de Bernoulli b(p) :

E[X] = 0 × (1 − p) + 1 × p = p.

– X de loi equirépartie sur {x1 , . . . , xn )} :


x1 + x2 + · · · + xn
E[X] = .
n
– X de loi binomiale B(n, p) :
n n
X X (n − 1)!
E[X] = kCnk pk (1 − p)n−k = np pk−1 (1 − p)n−k
k=0 k=1
(k − 1)!(n − k)!
n−1
X (n − 1)!
= np pl (1 − p)n−1−l = np(p + (1 − p))n−1
l=0
l!(n − 1 − l)!
= np.

– X de loi géométrique G(p) : avec la propriété de dérivation des séries entières rappelée
en section 1.4 (ou à voir en cours d’analyse) :
+∞ +∞   " +∞
#
X X d d X
E[X] = kq k−1 p = p (xk ) =p ( xk )
k=1 k=1
dx x=q dx k=0 x=q
1 p 1
= p 2
= 2 = .
(1 − q) 1 − (1 − p) p

– X de loi de Poisson P(λ) :


+∞ +∞ +∞ l
X X e−λ λk X λ
E[X] = k P(X = k) = = λe−λ = λ (avec l = k − 1).
k=0 k=1
(k − 1)! l=0
l!

5.1.3 Propriétés de l’espérance


Les principales propriétés des espérances sont données par

Proposition 5.1.1 (Linéarité de l’espérance) Soient X et Y deux v.a. discrètes ad-


mettant des espérances. Alors
(1) E[X + Y ] = E[X] + E[Y ],
(2) Pour tout réel a, E[aX] = aE[X],
5.1. Espérance d’une v.a. 43

Démonstration : Le deuxième point est clair : en effet si X(Ω) = {x1 , . . . , xk , . . .} alors


(aX)(Ω) = {ax1 , . . . , axk , . . .} et comme P(aX = axk ) = P(X = xk ), on a d’abord
+∞
X ∞
X
|axk |P(aX = axk ) = |a| |xk |P(X = xk ) < +∞
k=1 k=0

par hypothèse de l’existence de E[X]. Puis la même chose sans les valeurs absolues donne :
+∞
X ∞
X
E[aX] = axk P(aX = axk ) = a xk P(X = xk ) = aE[X].
k=1 k=0

Pour le premier point, posons Z = X + Y , supposons d’abord que X et Y prennent un


nombre fini de valeurs {x1 , . . . , xn } et {y1 , . . . , yp } alors Z prend aussi un nombre fini de
valeurs {zk = xi + yj , i = 1, . . . , n, j = 1, . . . , p} et la loi de Z est donnée par
X
P(Z = zk ) = P(X = xi , Y = yj ).
(i,j) | xi +yj =zk

La condition (5.1) est remplie dans ce cas car Z prend un nombre finie de valeur (et donc
la somme dans (5.1) est finie). On a alors
X
E[Z] = zk P(Z = zk ) (5.3)
k
X X
= zk P(X = xi , Y = yj )
k xi +yj =zk
X X
= (xi + yj ) P(X = xi , Y = yj )
k xi +yj =zk
X
= (xi + yj ) P(X = xi , Y = yj ) (5.4)
i,j
X X
= xi P(X = xi , Y = yj ) + yj P(X = xi , Y = yj ) (5.5)
i,j i,j

car {(i, j), xi +yj = zk }k forme une partition de {1,P. . . , n}×{1,


P P . . . ,P
p}. P
Comme les sommes
sont finies, on les calcule dans le sens qu’on veut i,j = i j = j i .
XX XX
E[Z] = xi P(X = xi , Y = yj ) + yj P(X = xi , Y = yj ) (5.6)
i j j i
" # " #
X X X X
= xi P(X = xi , Y = yj ) + yj P(X = xi , Y = yj )
i j j i
X X
= xi P(X = xi ) + yj P(Y = yj )
i j
44 Chapitre 5. c JCB – L2 IMAE – Université de La Rochelle

= E[X] + E[Y ]. (5.7)

Dans le cas général, X et/ou Y prennent un nombre dénombrable infini de valeurs (i.e.
X(Ω), Y (Ω) sont infinis). On commence alors à remplacer zk par |zk | et xi + yj par |xi + yj |
dans les égalités (5.3)–(5.7). On passe alors de (5.4) à (5.5) par l’inégalité triangulaire
|xi + yj | ≤ |xi | + |yj |, ce qui donne :
X X X
|zk | P(Z = zk ) ≤ |xi | P(X = xi ) + |yj | P(Y = yj ) < +∞
k i j

les deux dernières séries sont finies d’après les hypothèses sur les existences des espérances
E[X] et E[Y ].
On obtient alors la condition qui garantit l’existence de E[Z] et les égalités (5.3)–
(5.7) restent vraies, dans le cas infini dénombrable, par les propriétés des séries doubles
absolument convergentes (théorème de Fubini).

Exemple : Calcul de l’espérance d’une loi binomiale B(n, p)


Si X suit la loi B(n, p), alors E[X] = np.
En effet, on sait que X a même loi qu’une somme de v.a. Xi de Bernoulli indépendantes
de paramètre p :
Xn
S= Xi .
i=1

Par linéarité de l’espérance, comme E[Xi ] = p pour tout i = 1, . . . , p, on a


n n
X  X
E[X] = E[S] = E Xi = E[Xi ] = np.
i=1 i=1

Proposition 5.1.2 (Théorème de transfert, Espérance d’une fonction de va) Soient


X une v.a. discrète de domaine X(Ω) = {x1 , . . . , xk . . .} et F une fonction numérique sur
R (ou dont l’ensemble de définition contient au moins l’ensemble des valeurs X(Ω) de X).
Alors si E[F (X)] existe, on a
+∞
X
E[F (X)] = F (xk ) P(X = xk ).
k=1

Démonstration : Notons Y = F (X), l’ensemble des valeurs prises par la v.a. Y est
{F (x1 ), . . . , F (xk ), . . .} avec éventuellement des répétitions car F n’est pas nécessairement
injective. En notant {y1 , . . . , yk , . . .} l’ensemble des valeurs de Y sans répétition (i.e. les yi
sont deux à deux distincts), on a :
+∞
X
E[Y ] = E[F (X)] = yi P(Y = yi ). (5.8)
i=1
5.1. Espérance d’une v.a. 45

Pour chaque i = 1, . . . , k, . . . , notons Bi = {xk | F (xk ) = yi } l’ensemble des antécédents


de yi par F . Ce sous-ensemble est non vide et au plus dénombrable (si F est injective, cet
ensemble est de cardinal 1).
[
{Y = yi } = {X = xk } (5.9)
k | xk ∈Bi
S
en effet {Y = yi } ⊂ k | xk ∈Bi {X = xk } car si ω ∈ {Y = yi } alors F (X(ω)) = Y (ω) = yi .
Or il existe k tel que X(ω) = xk . Comme alors F (xk ) = yi , on a xk ∈ Bi . Autrement dit,
il existe k vérifiant xk ∈ Bi tel que X(ω) = xk , c’est à dire
[
ω∈ {X = xk }.
k | xk ∈Bi
S
Puis si ω ∈ k,xk ∈Bi {X = xk } alors Y (ω) = F (X(ω)) = F (xk ) = yi car xk ∈ Bi , donc
ω ∈ {Y = yi }, ce qui justifie l’inclusion réciproque et donc l’égalité (5.9).
Le terme général de la série (5.8) se transforme alors en
 [  X X
yi P(Y = yi ) = yi P {X = xk } = yi P(X = xk ) = F (xk ) P(X = xk ).
xk ∈Bi xk ∈Bi xk ∈Bi

La série précédente est absolument convergente car F est constante sur Bi . Comme les Bi
forment une partition de X(Ω), les propriétés des séries à termes positifs donnent
+∞
X +∞ X
X +∞
X
|F (xk )| P(X = xk ) = |F (xk )| P(X = xk ) = |yi | P(Y = yi ) < +∞
k=1 i=1 xk ∈Bi i=1

par hypothèse (existence de E[Y ]). Ceci légitime le même calcul sans les valeurs absolues
et prouve la proposition.

Remarque 5.1.2 La proposition appliquée avec F (x) = |x| donne :


+∞
X
E[|X|] = |xk | P(X = xk ).
k=1

La condition de définition des espérances (cf. Déf. 5.1.1) pour l’existence de E[X] n’est
donc rien d’autre que E[|X|] < +∞.

On a de plus facilement

Proposition 5.1.3 (Espérance et valeurs absolues) Si E[X] existe, E[X] ≤ E[|X|].

Démonstration : car par l’inégalité triangulaire, la valeur absolue d’une somme est ma-
jorée par la somme des valeurs absolues.
46 Chapitre 5. c JCB – L2 IMAE – Université de La Rochelle

Proposition 5.1.4 (Positivité de l’espérance)


– Si X a une espérance et X ≥ 0, alors E[X] ≥ 0.
– Si Xet Y ont des espérances et X ≤ Y alors E[X] ≤ E[Y ].

Démonstration : X ≥ 0 signifie que pour tout ω ∈ Ω, on a X(ω) ≥ 0. De même, X ≤ Y


signifie que pour tout ω ∈ Ω, on a X(ω) ≤ Y (ω).
Il suffit de voir le premier point, le deuxième se voit en appliquant le premier à Z =
Y − X et en appliquant la linéarité de l’espérance.
Soit donc X ≥ 0, l’ensemble des valeurs xk prises par X est dans R+ . E[X] apparaı̂t
alors comme une série avec que des termes positifs, elle est a fortiori positive.

Théorème 5.1.1 (Inégalité de Markov) Si X est une v.a. positive ayant une espérance
alors
E[X]
∀t > 0, P(X ≥ t) ≤ .
t
Démonstration : Dans la série E[X], on regroupe les termes en deux paquets selon la
position de xk par rapport à t :
+∞
X X X
E[X] = xk P(X = xk ) = xk P(X = xk ) + xk P(X = xk )
k=1 k | xk <t k | xk ≥t
X
≥ 0+t P(X = xk ) = t P(X ≥ t).
k | xk ≥t

[
car {X ≥ t} = {X = xk }.
k | xk ≥t

5.2 Variance d’une va


Définition 5.2.1 Soit r ∈ N∗ , on appelle moment d’ordre r de la v.a. discrète X le nombre
+∞
X
r
E[|X| ] = |xk |r P(X = xk )
k=1

On peut alors définir aussi


+∞
X
r
E[X ] = xrk P(X = xk ).
k=1

où X(Ω) = {x1 , . . . , xk , . . .} est l’ensemble des valeurs de X.

Remarque 5.2.1 Attention, il ne faut pas confondre E[X r ] et E[X]r . La position de


l’exposant r par rapport à l’espérance E est cruciale.
5.2. Variance d’une va 47

Lorsque une v.a. est bornée, il est facile de voir qu’elle a des moments de tous les ordres.
De façon générale, l’existence de moment d’ordre r implique celles des moments d’ordre
inférieurs.

Proposition 5.2.1 Si X possède un moment d’ordre r, pour tout n ≤ r, X en possède


un d’ordre n.

Démonstration : Il s’agit de voir la finitude de


+∞
X
n
E[|X| ] = |xk |n P(X = xk ).
k=1

Regroupons les termes de la série précédente en deux selon le module des xk par rapport
à 1 :
X+∞ +∞
X
n n
E[|X| ] = |xk | P(X = xk ) + |xk |n P(X = xk ).
k=1, k=1,
|xk |≤1 |xk |>1

Pour la première série, on a la majoration


+∞
X +∞
X +∞
X
|xk |n P(X = xk ) ≤ P(X = xk ) ≤ P(X = xk ) = 1
k=1, k=1, k=1
|xk |≤1 |xk |≤1

car |xk |n ≤ 1. Pour la deuxième, comme |xk | > 1, on a |xk |n ≤ |xk |r et on la majore par
+∞
X +∞
X
r
|xk | P(X = xk ) ≤ |xk |r P(X = xk ) = E[|X|r ] < +∞.
k=1, k=1
|xk |≤1

On a même montré pour n ≤ r :

E[|X|n ] ≤ 1 + E[|X|r ]

Définition 5.2.2 (Variance d’une va) Soit X une v.a. de domaine X(Ω) = {x1 , . . . , xk , . . .}
et avec un moment d’ordre 2. On appelle respectivement variance de X et écart-type de X
les quantités
+∞
X
2
Var(X) = E[(X − E[X]) ] = (xk − E[X])2 P(X = xk ),
k=1
p
σX = Var(X).
48 Chapitre 5. c JCB – L2 IMAE – Université de La Rochelle

Remarque 5.2.2 – L’espérance permet de trouver la valeur moyenne d’une v.a. à


partir de cette valeur, la variance ou l’écart-type permettent de voir la dispersion de
la v.a. autour de cette moyenne.
– On introduit l’écart type pour avoir une quantité homogène avec X : si X est une
grandeur physique d’une certaine unité, alors σX a la même unité, ce n’est pas le cas
de Var(X).
– En quelque sorte, l’écart-type σX de X donne l’écart moyen de la v.a. X par rapport
à sa valeur moyenne E[X].

Proposition 5.2.2 (Translation et changement d’échelle) Si X a un moment d’ordre


2 alors
Var(aX) = a2 Var(X), Var(X + b) = Var(X).

Démonstration :

Var(aX) = E[(aX − E[aX])2 ] = E[a2 (X − E[X])2 ] = a2 E[(X − E[X])2 ] = a2 Var(X)

Var(X +b) = E[(X +b−E[X +b])2 ] = E[(X +b−E[X]−b)2 ] = E[(X −E[X])2 ] = Var(X).

En particulier avec a = 0, on obtient la nullité de la variance d’une va constante. On a le


résultat réciproque :

Proposition 5.2.3

Var(X) = 0 ⇐⇒ X est presque sûrement constant ⇐⇒ X = E[X] p.s.

Notons µ = E[X], l’égalité presque sûre (p.s.) X = µ signifie que P(X = µ) = 1. De


même, X constant presque sûrement signifie qu’il existe une constante telle que presque
sûrement X est égale à cette constante.
Démonstration : On a
+∞
X
2
Var(X) = E[(X − µ) ] = (xk − µ)2 P(X = xk ).
k=1

Cette série à termes positifs est nulle si et seulement si chacun de ses termes est nuls c’est
à dire si
xk = µ ou P(X = xk ) = 0.
Par définition d’un atome, xk ∈ X(Ω), sa probabilité ponctuelle P (X = xk ) est non nulle.
On a donc forcément xk = µ. En fait, il y a un seul atome et c’est µ = E[X] et sa
probabilité ponctuelle est alors forcément 1. La valeur µ = E[X] est donc prise par la v.a.
X avec probabilité 1 (et il est bien logique que cette valeur soit l’espérance).
5.2. Variance d’une va 49

Proposition 5.2.4 (Formule de Koenig)

Var(X) = E[X 2 ] − E[X]2 .

En pratique, on calcule la variance par cette formule. On commence par calculer E[X] puis
E[X 2 ] pour en déduire la variance par Koenig.
Démonstration : Il suffit de développer Var(X), notons encore µ = E[X] :

Var(X) = E[(X − µ)2 ] = E X 2 − 2Xµ + µ2


 

= E[X 2 ] − 2E[Xµ] + µ2
= E[X 2 ] − 2E[X]µ + µ2
= E[X 2 ] − 2µ2 + µ2 = E[X 2 ] − E[X]2 .

Exemples : Quelques variances classiques


• X v.a. constante (∃c ∈ R, ∀ω ∈ Ω, X(ω) = c), alors sa variance est Var(X) = 0.
On retrouve le cas spécial où il n’y a aucune dispersion autour de la moyenne puisque
la v.a. est constante, égale à cette moyenne.
• X de loi de Bernoulli B(p) : on a E[X 2 ] = 0×(1−p)+12 ×p = p d’où Var(X) = p−p2 :

Var(X) = p(1 − p).

• X de loi equirépartie sur {1, . . . , n} : on a


n n
X X k n(n + 1) n+1
E[X] = k P(X = k) = = =
k=1 k=1
n 2n 2
n n
2
X
2
X k2 n(n + 1)(2n + 1) (n + 1)(2n + 1)
E[X ] = k P(X = k) = = =
k=1 k=1
n 6n 6
(n + 1)(n − 1)
Var(X) = E[X 2 ] − E[X]2 = .
12
• X de loi binomiale B(n, p) :

Var(X) = np(1 − p).


Pn Pn
En effet E[X 2 ] = k=0 Cnk k 2 pk (1−p)n−k = Sq (p) où q = 1−p et Sq (x) = k=1 Cnk k 2 xk q n−k .
Or
n
X n
X n
X
Sq (x) = Cnk k 2 xk q n−k = x Cnk k 2 xk−1 q n−k = x Cnk k(xk )0 q n−k
k=1 k=1 k=1
n
!0 n
!0
X X
= x Cnk kxk q n−k =x x Cnk kxk−1 q n−k
k=1 k=1
50 Chapitre 5. c JCB – L2 IMAE – Université de La Rochelle

n
!0 n
!0 !0
X X
= x x Cnk (xk )0 q n−k =x x Cnk xk q n−k
k=1 k=1
n
!0 !0
0
X
= x x Cnk xk q n−k = x (x[(x + q)n ]0 )
k=0
0
= x x × n(x + q)n−1 = xn(x + q)n−1 + x2 × n(n − 1)(x + q)n−2 .

D’où E[X 2 ] = S1−p (p) = pn + p2 n(n − 1) et

Var(X) = pn + p2 n(n − 1) − (np)2 = n(p − p2 ) = np(1 − p).

• X de loi géométrique G(p) :


1−p
Var(X) = .
p2
P+∞ P+∞
En effet E[X 2 ] = k=0 k 2 (1 − p)k−1 p = pS(1 − p) avce S(x) = k=0 k 2 xk−1 . Puis
+∞ +∞ +∞
!0
X X X
S(x) = k 2 xk−1 = k(xk )0 = kxk
k=0 k=1 k=1
+∞
!0 +∞
!0
X X
= x kxk−1 = x (xk )0
k=1 k=1
+∞
!0 !0 +∞
!0 !0
X X
= x xk = x xk
k=1 k=0
  0 0  0
1 1
= x = x
1−x (1 − x)2
1 2x
= 2
+
(1 − x) (1 − x)3
1 2 − 2p 1 2 − 2p
D’où E[X 2 ] = pS(1 − p) = p + p = + et
(1 − (1 − p))2 (1 − (1 − p))3 p p2
1 2 − 2p 1 p(1 − p)
Var(X) = + 2
− 2 = .
p p p p2
• X de loi de Poisson P(λ) :
+∞ −λ k +∞
2
X
2e λ X e−λ λk
E[X ] = k = k
k=0
k! k=1
(k − 1)!
+∞
X  e−λ λk
= (k − 1) + 1
k=1
(k − 1)!
5.2. Variance d’une va 51

+∞ +∞
X e−λ λk X e−λ λk
= +
k=2
(k − 2)! k=1 (k − 1)!
+∞ −λ l +∞ −λ l
2
X e λ X e λ
= λ +λ
l=0
l! l=0
l!
= λ2 + λ,

Comme E[X] = λ, on en déduit par la formule de Koenig :

Var(X) = λ.

Théorème 5.2.1 (Inégalité de Tchebychev) Si Var(X) existe, on a pour tout t > 0

Var(X)
P(|X − E[X]| ≥ t) ≤ .
t2
Démonstration : Par l’inégalité de Markov, on a
E[|X − E[X]|2 ] Var(X)
P(|X − E[X]| ≥ t) = P(|X − E[X]|2 ≥ t2 ) ≤ 2
≤ .
t t2

Application. On jette 3600 fois un dé. Minorer la probabilité que le nombre d’apparitions
du 1 soit compris strictement entre 480 et 720.
Notons S le nombre d’apparitions du 1. On peut voir S comme la somme de 3600 v.a.
de Bernoulli indépendantes de paramètre p = 1/6 (probabilité d’apparition du 1 au cours
d’un lancer). Par un raisonnement classique, S suit une loi B(3600, p). On cherche ici
719
X
P(480 < S < 720) = Cnk pk (1 − p)n−k .
k=481

Ce résultat exact ne peut être calculé en pratique, même un ordinateur très puissant ne
pouvant calculer tous ces coefficients binomiaux pour des chiffres aussi grands.
On peut penser à approximer la loi B(3600, 1/6) par P(600) mais il resterait à calculer
719 k
−600 600
X
e ,
k=481
k!

ce qui n’est pas évident.


On a alors recours à l’inégalité de Tchebychev : notons que E[S] = np = 3600/6 = 600
et Var(X) = npq = 3600 × 5/6 × 1/6 = 500. Remarquons de plus que

480 < S < 720 ⇐⇒ −120 < S − 600 < 120.


52 Chapitre 5. c JCB – L2 IMAE – Université de La Rochelle

D’où

P(480 < S < 720) = P(−120 < S − 600 < 120) = P(|S − 600| < 120)
= 1 − P(|S − 600| ≥ 120)
500
≥ 1−
1202
≥ 0, 95833 . . .

Remarque 5.2.3 Les valeurs 480 et 720 sont symétriques par rapport à la moyenne 600
de la v.a. considérée, ce sont 600±120. Ce n’est pas nécessaire : on peut aussi appliquer l’in-
égalité de Tchebychev sur un intervalle non centré autour de l’espérance. Il suffit pour cela
d’utiliser le plus grand intervalle centré sur l’espérance qu’il contient. Ainsi pour minorer
P(550 < S < 700), il suffit de remarquer que

550 < S < 700 ⇐= 550


| < {z S < 650} ⇐⇒ −50 < S − 600 < 50.
intervalle centré autour de 600

et

P(550 < S < 700) ≥ P(550 < S < 650) = P(−50 < S − 600 < 50)
= P(|S − 600| < 50)
= 1 − P(|S − 600| ≥ 50)
500
≥ 1 − 2 = 0, 8.
50
Chapitre 6

Variables aléatoires à valeurs réelles


réelles

6.1 Généralités
Dans l’observation de grandeurs physiques (longueur, aire, volume, temps, poids), les
données à modéliser prennent souvent une infinité de valeurs non nécessairement discrètes.
D’où la nécessité de définir des variables aléatoires qui prennent un ensemble diffus de
valeurs réelles.
Jusqu’à maintenant, pour les variables aléatoires discrètes, on s’est ramené aux proba-
bilités des points où la v.a. est répartie (les masses ou probabilités ponctuelles P(X = xk )
en les atomes xk ). Pour les variables continues, les probabilités des points seront la plupart
du temps nulles (il y a en quelque sorte trop de points pour qu’ils aient chacun une pro-
babilité ponctuelle non nulle). Par contre les probabilités des intervalles ne s’annulent pas.
Il apparaı̂t alors pertinent de baser la théorie des v.a. réelles non plus sur les quantités du
type P(X = xk ) mais sur P(X ∈ [a, b]) où [a, b] désigne un intervalle réel. La définition qui
suit est donc motivée par la nécessité d’attribuer une définition cohérente aux probabilités
des ensembles {ω ∈ Ω; X(ω) ∈ [a, b]} = {X ∈ [a, b]}.
Définition 6.1.1 (Variable aléatoire réelle) On appellera, dans ce cours, variable aléa-
toire réelle (notée v.a.r.) sur un espace de probabilité (Ω, F, P) une fonction X : Ω −→ R,
ω 7→ X(ω) dont le domaine X(Ω) est un intervalle (qui peut être borné ou une demi-droite
ou encore R tout entier).
À nouveau, à chaque v.a.r., on associe sa loi. Elle définit une probabilité sur R :
Définition 6.1.2 Soit X une v.a.r. sur (Ω, F, P). On lui associe la fonction d’ensembles
PX qu’on considérera sur l’ensemble des intervalles de R en posant
∀I intervalle de R, PX (I) = P(ω ∈ Ω; X(ω) ∈ I) = P(X ∈ I) = P(X −1 (I)).
La fonction d’ensemble PX ainsi définie est une probabilité sur R muni de la famille des
observables obtenue à partir des intervalles. On l’appelle la loi de la v.a.r. X.

53
54 Chapitre 6. c JCB – L2 IMAE – Université de La Rochelle

Il est facile de vérifier qu’il s’agit bien d’une probabilité sur R : en effet, d’abord PX (R) =
P(X ∈ R) = P(Ω) = 1. Puis si (In )n∈N est une famille d’intervalles de R deux à deux
disjoints, on a :
[  [ [ [
X −1 In = {ω ∈ Ω; X(ω) ∈ In } = {ω ∈ Ω; X(ω) ∈ In } = X −1 (In ).
n n n n

Comme les évènements {X ∈ In }, n ∈ N∗ , sont deux à deux disjoints, il suit par σ-additivité
de P :
[  [  [  X X
PX In = P X −1 In = P X −1 (In ) = P(X −1 (In )) = PX (In ).
n n n n n

Proposition 6.1.1 Soit X une v.a.r. Sa loi PX est caractérisée par la fonction de répar-
tition FX : R −→ [0, 1] définie par

FX (x) = PX (] − ∞, x]) = P(X ∈] − ∞, x]) = P(X ≤ x), x ∈ R.

Ainsi en pratique pour montrer que deux v.a.r. X, Y ont même loi, il suffit de montrer
que pour tous réels a, b on a P(X ∈ [a, b]) = P(Y ∈ [a, b]), ou que X, Y ont même fonction
de répartition. La caractérisation de la loi par la fonction de répartition FX se déduit
facilement de
P(X ∈]a, b]) = FX (b) − FX (a).
La fonction de répartition FX d’une v.a.r. X jouit des mêmes propriétés que celles des
v.a. discrètes qu’on énonce de la même façon :

Proposition 6.1.2 La fonction de répartition d’une v.a. X satisfait :


– FX (t) ≥ 0,
– FX est croissante,
– lim FX (t) = 0, lim FX (t) = 1,
t→−∞ t→+∞
– En tout point, FX est continue à droite et a une limite à gauche, c’est à dire

lim FX (t) = FX (t0 ), et lim FX (t) existe.


t↓t0 t&t0

Démonstration : Le premier point est clair car une probabilité est toujours positive. Le
deuxième vient de ce que {X ≤ s} ⊂ {X ≤ t} si s ≤ t, car si ω ∈ Ω vérifie X(ω) ≤ s alors
il vérifie a fortiori X(ω) ≤ t, il suit par croissance de P :

FX (s) = P(X ≤ s) ≤ P(X ≤ t) = FX (t).

Pour le dernier point : en tant que fonction croissante FX a des limites à droite et à gauche
en tout point (résultat élémentaire d’analyse) : en effet, si h > 0,

FX (t0 + h) − FX (t0 ) = P(t0 < X ≤ t0 + h) −→h→0 P(t0 < X ≤ t0 ) = P(∅) = 0


6.1. Généralités 55

(rappelons qu’en passant à la limite, une inégalité devient forcément large).


D’où limt→t+0 FX (t) = FX (t0 ). Alors que

FX (t0 ) − FX (t0 − h) = P(t0 − h < X ≤ t0 ) −→h→0 P(t0 ≤ X ≤ t0 ) = P(X = t0 ) ≥ 0

éventuellement non nul si X a un atome en t0 . On a donc limt→t−0 FX (t) = P(X < t0 )


existe.
Le reste de la preuve vient maintenant des propriétés de monotonie séquentielle des
probabilités vues au chapitre 1 : Si (An )n∈N∗ est une suite croissante d’évènements (i.e.
pour tout n, An ⊂ An+1 ) alors
[
lim P(An ) = P(A) où A = An . (6.1)
n→+∞
n∈N∗

Si (Bn )n∈N∗ est une suite décroissante d’évènements (i.e. pour tout n, Bn+1 ⊂ Bn ) alors
\
lim P(Bn ) = P(B) où B = Bn . (6.2)
n→+∞
n∈N∗

La\
limite 0 en
\−∞ vient alors de (6.2) appliquée à PX et Bn =] − ∞, −n] pour lequel
B= Bn = ] − ∞, −n] = ∅ et qui donne
n∈N∗ n∈N∗

lim FX (−n) = lim PX (Bn ) = PX (∅) = 0.


n→∞ n→+∞

La limite
[ 1 en [ +∞ vient alors de (6.1) appliquée à PX et An =] − ∞, n] pour lequel
A= An = ] − ∞, n] = R et qui donne
n∈N∗ n∈N∗

lim FX (n) = lim PX (An ) = PX (R) = 1.


n→∞ n→+∞

La continuité à droite en x s’obtient aussi en appliquant (2.3) à PX et Bn =] − ∞, x + 1/n]


avec B =] − ∞, x]. On a

lim FX (x + 1/n) = lim P(Bn ) = PX (B) = FX (x).


n→+∞ n→+∞

Signalons que ce résultat admet la réciproque –culturelle– suivante :

Théorème 6.1.1 Soit F une fonction définie et croissante sur R. On suppose de plus que
F est continue à droite, qu’elle admet une limite à gauche en tout point et qu’elle tend vers
0 en −∞ et vers 1 en +∞. Alors, il existe un espace probabilisé (Ω, F, P) et une v.a.r. X
définie sur cet espace et ayant F pour fonction de répartition.
56 Chapitre 6. c JCB – L2 IMAE – Université de La Rochelle

6.2 Intégrales impropres


Lorsque l’on intègre une fonction sur un domaine non borné ou sur un domaine où elle
possède une singularité (i.e. où elle n’est pas définie), on parle d’intégrale impropre.
Fonctions positives
Dans le cas de l’intégration d’une fonction f sur R+ , on définit son intégrale impropre,
si elle existe, par Z +∞ Z M
f (x)dx = lim f (x)dx.
0 M →+∞ 0

Si f est définie sur R, son intégrale impropre est donnée, si elle existe, par
Z +∞ Z M
f (x)dx = lim f (x)dx.
−∞ M →+∞ −M

Là encore, on parle d’intégrale convergente ou divergente selon que la limite existe et est
finie ou non.
Critère d’intégrabilité en x0 ∈ R : (souvent x0 = 0) Soit f : [a, b] → R+ et x0 ∈]a, b[,
si ∃α < 1 tel que
lim (x − x0 )α f (x) = 0
x→x0

alors f est intégrable au voisinage


p de x0 .
Par exemple : x 7→ 1/ |x − 1| est intégrable en 1, x 7→ 1/|x − 1| ne l’est pas.
Critère d’intégrabilité en +∞ : Soit f : [A, +∞) → R+ , si ∃α > 1 tel que

lim xα f (x) = 0
x→+∞

alors f est intégrable en +∞.


2
Par exemple, x 7→ 1/xa est intégrable en +∞ ssi a > 1, x 7→ e−x est intégrable en
+∞, x 7→ 1/ log x ne l’est pas.
Fonctions de signe quelconque
Une fonction f de signe quelconque est dite absolument intégrable si la fonction positive
|f | est intégrable.
L’absolue intégrabilité entraı̂ne l’intégrabilité (simple).

6.3 Variables aléatoires réelles à densité


C’est essentiellement ce type de v.a.r. que l’on considérera dans la suite de ce cours.
La loi d’une v.a.r. est à densité f si pour tout intervalle de R, la probabilité d’apparte-
nance de X à cet intervalle s’exprime comme l’intégrale de f sur cet intervalle.

Définition 6.3.1 Une fonction f : R → R est appelée densité de probabilité si


– f est positive : en tout point t où elle est définie f (t) ≥ 0,
6.3. Variables aléatoires réelles à densité 57

– f est intégrable sur R d’intégrale 1 :


Z +∞
f (t) dt = 1.
−∞

Définition 6.3.2 La v.a.r. X suit la loi de densité f si


Z b
∀[a, b] intervalle de R, P(X ∈ [a, b]) = f (t) dt.
a

Notons que pour une v.a. X de densité f , la probabilité que X vaille un point est 0, car
c’est une intégrale sur un intervalle réduit à un point :
Z x0
P(X = x0 ) = P(X ∈ [x0 , x0 ]) = f (x)dx = 0.
x0

Par conséquent, le sens des bornes des intervalles (fermées ou ouvertes) n’est pas important :

P(X ∈ [a, b]) = P(X ∈]a, b[) et P(X ≤ t) = P(X < t),

en effet la différence est la probabilité que X vaille un point, ce qui est 0.


Il est clair que si Y est une v.a.r. de même loi que X alors elle a aussi la densité f . Il
serait plus correct de parler de la densité de la loi.
La densité d’une v.a. réelle joue le rôle pour une v.a. discrète de ses probabilités ponctuelles
P(X = xk ).
Exemples : Quelques exemples de densité de var
1 1
f1 (t) = 1[a,b] (t), f2 (t) = √ 1[0,1](t) ,
b−a 2 t
1
f3 (t) = e−t 1[0,+∞[ (t), f4 (t) =
π(1 + t2 )

avec la notation suivante pour la fonction indicatrice d’un ensemble A



1 si t ∈ A
1A (t) =
0 si t 6∈ A.

Généralement, les densités que nous considérerons seront de l’un de deux types suivants
R +∞
– f est définie et continue sur R et son intégrale de Riemann généralisée −∞ f (t) dt
converge et vaut 1.
– f est définie sur R privé d’un point ou d’un ensemble fini de point, a1 < · · · < an .
Sur chaque intervalle ouvert ] − ∞, a1 [, · · · , ]ai , ai+1 [, · · · , ]an , +∞[, f est continue
et a une intégrale de Riemann (généralisée ou non) convergente et la somme de ces
intégrales vaut 1.
Dans l’exemple ci-dessus f1 , f2 , f3 sont du deuxième type, f4 du premier.
58 Chapitre 6. c JCB – L2 IMAE – Université de La Rochelle

Proposition 6.3.1 (Domaine d’une v.a. à densité) Le domaine d’une v.a.r. à densité
coı̈ncide avec le support de sa densité.

Démonstration : Soit X une v.a.r. de densité f . On note D le support de f : ∀x 6∈


D, f (x) = 0. Pour simplifier, on suppose f continue (ou continue par morceaux), dans ce
cas D = f −1 {R∗ }. Pour tout intervalle I ⊂ Dc , on a
Z
P(X ∈ I) = f (t)dt = 0
I

car f est nulle sur I ⊂ Dc . Les seuls intervalles que X visite avec une probabilité non nulle
sont ceux inclus dans le support D de sa densité. R
Réciproquement, si P(X ∈ I) = 0 alors I f (t)dt = 0 et comme f est positive et
continue, on a f (t) = 0 pour tout t ∈ I. Il suit I ∩ D = ∅. On en déduit X(Ω) = D.

Lorsqu’elle existe la densité f est naturellement reliée à la fonction de répartition FX :

Proposition 6.3.2 Si X est une v.a.r. de densité f , sa fonction de répartition FX vérifie :


Rx
(i) ∀x ∈ R, FX (x) = −∞ f (t) dt.
(ii) FX est continue sur R.
(iii) Si f est continue au point x0 , alors FX est dérivable en x0 de dérivée FX0 (x0 ) = f (x0 ).

D’après (ii), la fonction de répartition est continue. De là, vient aussi qu’on parle de variable
aléatoire continue pour v.a. à densité.
Démonstration : Puisque X a pour densité f , et comme

FX (b) = P(X ∈] − ∞, b]) = P(X ∈] − ∞, a]∪]a, b]) = FX (a) + P(X ∈]a, b]),

on a pour tous réels a < b :


Z b
P(ω, X(ω) ∈]a, b]) = P(X ∈]a, b]) = FX (b) − FX (a) = f (t) dt. (6.3)
a

(i) : Il suffit d’appliquer (6.3) avec b = x fixé et a = −n pour chaque n ∈ N tel que
x > −n. La suite d’évènements

An = {ω, X(ω) ∈] − n, x]}, n > −x,

est croissante pour l’inclusion et de réunion A = {ω, X(ω) ∈] − ∞, x]} = {X ≤ x}. Par la
propriété de monotonie séquentielle, on a P(An ) & P(A), d’où
Z x Z x
FX (x) = P(X ≤ x) = P(A) = lim P(An ) = lim f (t) dt = f (t) dt
n→+∞ n→+∞ −n −∞

en notant que l’intégrale généralisée de la densité f converge en −∞.


6.4. Lois à densité classiques 59

(ii) : On fixe x0 ∈ R quelconque. D’abord FX est continue à droite en tout point car
c’est une fonction de répartition et que c’est vrai de toute fonction de répartition (cf. Prop.
6.1.2).
Il reste à voir la continuité à gauche. On se contente de le faire avec l’hypothèse sup-
plémentaire suivante : « il existe a < x0 tel que f soit définie et Riemann intégrable sur
tout intervalle [a, a0 ] ⊃ [a, x0 ] ». On a alors :
Z x Z x0
lim f (t) dt = f (t) dt,
x&x0 a a

où la deuxième intégrale est soit une intégrale de Riemann ordinaire soit une intégrale de
Riemann impropre convergente. On peut réécrire

lim (FX (x) − FX (a)) = FX (x0 ) − FX (a).


x&x0

On conclut en rajoutant des deux côtés FX (a).


(iii) : Comme par hypothèse f est continue en x0 , elle est définie sur tout un voisinage
de x0 et donc sur un intervalle [a, b] qui contient x0 . La continuité de f en x0 s’écrit :
∀ε > 0, ∃δ > 0 tel que ]x0 − δ, x0 + δ[⊂]a, b[ et

∀t ∈]x0 − δ, x0 + δ[, |f (t) − f (x0 )| < ε.


Z x0 +h
Pour tout h tel que 0 < |h| < δ, on a alors FX (x0 + h) − FX (x0 ) = f (t) dt. D’où
x0

Z x0 +h Z x0 +h
|FX (x0 + h) − FX (x0 ) − hf (x0 )| = f (t)dt − f (x0 )dt
x0 x0
Z x0 +h Z x0 +h
 
= f (t) − f (x0 ) dt ≤ f (t) − f (x0 ) dt
x0 x0
≤ hε.

En divisant par h puis en faisant h → 0, on constate que FX est dérivable en x0 , de dérivée


f 0 (x0 ).

6.4 Lois à densité classiques


Définition 6.4.1 La fonction indicatrice d’un ensemble A est

1 si x ∈ A,
1A (x) =
0 si x 6∈ A.
60 Chapitre 6. c JCB – L2 IMAE – Université de La Rochelle

6.4.1 Lois uniformes


Définition 6.4.2 La v.a.r. X suit une loi uniforme sur l’intervalle [a, b] (−∞ < a < b <
+∞) si elle a une densité f constante sur cet intervalle et nulle en dehors. Sa densité est
alors 
1 1/(b − a) si t ∈ [a, b],
f (t) = 1[a,b] (t) =
b−a 0 si t 6∈ [a, b].

Cette loi est l’équivalent continue de la loi discrète equirépartie. L’allure de la densité d’une
v.a. de loi uniforme est :
f (t)

a 0 b t

Remarque
R +∞ 6.4.1 Le facteur 1/(b − a) permet de normaliser l’intégrale de f sur R pour
que −∞ f (t) dt = 1. On comprend bien dès lors pourquoi on ne parle de lois uniformes
que sur les intervalles finis : si a ou b est infini le facteur de normalisation est nul et la
densité f vaut 0 partout. Son intégrale ne peut plus dès lors valoir 1.

Sa fonction de répartition est affine par morceaux :



Z x 
 x−0 si −∞ < x ≤ a
a
F (x) = f (t)dt = si a ≤ x ≤ b
−∞  b−a

1 si b ≤ x < +∞.
L’allure de la fonction de répartition d’une v.a. de loi uniforme est :
F (x)

b x
a 0
6.4. Lois à densité classiques 61

Le résultat suivant permet d’éviter des calculs fastidieux pour la probabilité uniforme
d’un intervalle.

Proposition 6.4.1 Si X est une v.a.r. de loi uniforme sur [a, b] alors pour tout intervalle
I de R :
l([a, b] ∩ I)
P(X ∈ I) =
l([a, b])
où l(J) désigne la longueur de l’intervalle J (l([a, b]) = b − a).

6.4.2 Lois exponentielles


Définition 6.4.3 Soit a un réel strictement positif. La v.a.r. X suit une loi exponentielle
de paramètre a si elle admet pour densité :

f (t) = ae−at 1[0,+∞[ (t).

Elle est notée E(a).

En pratique, à la place de la fonction de répartition, on utilise souvent la fonction de survie


G d’une v.a.r. de loi exponentielle

1 si x ≤ 0,
GX (x) = P(X > x) = 1 − FX (x) = −ax
e si x ≥ 0.

Les lois exponentielles sont souvent utilisées pour modéliser des temps d’attente ou des
durées de vie. Par exemple, les temps d’attente à partir de maintenant du prochain trem-
blement de terre, de la prochaine panne d’un appareil, de la prochaine désintégration dans
un réacteur nucléaire suivent des lois exponentielles. On verra bientôt que le paramètre a
désigne alors l’inverse du temps d’attente moyen.
Une propriété intéressante de ce type de loi est l’absence de mémoire. Cette propriété
caractérise les lois exponentielles.

Théorème 6.4.1 (i) Si la v.a.r. X suit une loi exponentielle alors elle vérifie la pro-
priété d’absence de mémoire :

∀s ∈ R+ , ∀t ∈ R+ , P(X > t + s|X > t) = P(X > s). (6.4)

(ii) Réciproquement, si une v.a.r. X vérifie (6.4) alors elle suit une loi exponentielle.

Autrement dit si X survit jusqu’en t, sa survie pendant encore s unités de temps est la
même qu’une survie de durée s depuis le départ : tout se passe comme si, ce qui se passe
de 0 à t est oublié pour survivre encore s unités de temps. C’est à comparer, par exemple,
avec la vie humaine qui a une mémoire : pour un homme de 60, la probabilité de vivre
encore 30 ans n’est pas la même que pour celle d’un nouveau né (de 0 an).
62 Chapitre 6. c JCB – L2 IMAE – Université de La Rochelle

Démonstration : Pour (i) :


P(X > t + s et X > t) P(X > t + s)
P(X > t + s | X > t) = =
P(X > t) P(X > t)
e−a(t+s)
= = e−as = P(X > s)
e−at
d’après l’expression de la fonction de survie. Le point (ii), un peu plus délicat, est admis.

6.4.3 Lois de Cauchy


Définition 6.4.4 Une variable aléatoire réelle suit une loi de Cauchy de paramètre a ∈ R∗+
si elle admet pour densité :
a 1
f (t) = .
π a2 + t 2
Exercice. Montrer qu’il s’agit bien d’une densité.

6.4.4 Lois normales ou gaussiennes


Elles jouent un rôle capital dans l’étude des lois limites de sommes de variables aléatoires
indépendantes (cf. le théorème central limite, résultat central comme son nom l’indique en
théorie des probabilités). On parle encore de loi gaussiennes.

Définition 6.4.5 On dit que la v.a.r. X suit une loi gaussienne ou normale N (m, σ 2 ) si
elle a pour densité la fonction :
1 (t − m)2 
fm,σ : R −→ R, t 7−→ √ exp − .
σ 2π 2σ 2
1 2
La loi normale standard N (0, 1) est celle de densité f0,1 (t) = √ e−t /2 .

Remarque 6.4.2 Cette loi est fondamentale en théorie des probabilités et en statistique :
c’est la loi limite de la moyenne dans une suite infinie d’épreuves répétées indépendantes.
En pratique elle sert à modéliser les effets additifs de petits phénomènes aléatoires indé-
pendants répétés souvent.
On parle de densité gaussienne pour fm,σ . Le paramètre m est un paramètre de loca-
lisation (c’est la valeur où fm,σ atteint son maximum), le paramètre σ est un paramètre
d’échelle. Nous verrons que ce sont en fait la moyenne et l’écart-type de la loi.
La fonction f0,1 s’appelle la densité normale standard (ou gaussienne standard). Sa courbe
représentative est bien connue, il s’agit de la « courbe en cloche » (ou courbe de Gauss)
à laquelle il est souvent fait référence. Les courbes des fm,σ sont aussi des « courbes en
cloche » obtenues par translation et dilatation de celle de f0,1 (ce phénomène est lié à la
Proposition 6.4.2).
6.4. Lois à densité classiques 63

Notez que le facteur 1/ 2π dans les densités gaussiennes a été choisi car on montre que
Z +∞
2 √
e−t /2 dt = 2π.
−∞

Notez encore qu’on peut facilement passer d’une loi normale à la loi standard :
X −m
Proposition 6.4.2 Si la v.a.r. X suit une loi N (m, σ 2 ), alors Y := suit la loi
σ
N (0, 1).

La v.a. Y s’appelle la v.a. centrée réduite associée à X.


Démonstration : Calculons pour a < b quelconques P(a ≤ Y ≤ b) :
 X −m 
P a≤ ≤ b = P(σa + m ≤ X ≤ σb + m)
σ
Z σb+m
1 (t − m)2 
= √ exp − dt.
σa+m σ 2π 2σ 2

Il suffit alors de faire le changement de variable s = (t − m)/σ pour obtenir


b
1 s2 
Z
∀a ∈ R, ∀b > a, P(a ≤ Y ≤ b) = √ exp − ds,
a 2π 2

c’est à dire Y suit la loi N (0, 1).

6.4.5 Lois log-normales


Définition 6.4.6 Une variable aléatoire réelle X suit une loi log-normale si elle admet la
densité (
0  si t < 0
f (t) =

1 (ln t−m)2

σt 2π
exp − 2σ2 si t ≥ 0
où m ∈ R, σ ∈ R∗ .

Cette loi est l’analogue multiplicatif de la loi normale : elle modélise les effets multipli-
catifs de phénomènes aléatoires nombreux et indépendants.
La terminologie vient de ce que :

Proposition 6.4.3 Si X est de loi log-normale alors ln(X) suit une loi normale et réci-
proquement.

Démonstration : En effet X est log-normale si et seulement si pour x ≥ 0


Z x
(ln t − m)2
 
1
FX (x) = √ exp − dt
0 σt 2π 2σ 2
64 Chapitre 6. c JCB – L2 IMAE – Université de La Rochelle

ln(x)
(s − m)2
 
1
Z
= √ exp − ds en posant s = ln(t),
−∞ σ 2π 2σ 2
= FY (ln(x))

où Y est une variable aléatoire de loi normale N (m, σ 2 ).


On a alors

Fln X (x) = P(ln X ≤ x) = P(X ≤ ex ) = FX (ex ) = FY (ln ex ) = FY (x).

La variable ln X a la même fonction de répartition que Y , variable normale, elle est donc
normale de paramètres m, σ 2 .

6.5 Espérance et variance des lois à densité


Définition 6.5.1 (Espérance
R +∞ d’une v.a.r. à densité) Si X est une v.a.r. de densité f
telle que l’intégrale −∞ |x|f (x) dx converge, on appelle espérance de X le réel (fini)
Z +∞
E[X] = xf (x) dx. (6.5)
−∞

Remarque 6.5.1 P Noter R la ressemblance formelle du cas continu avec le cas discret : on a
juste remplacé par , et il s’agit encore de faire la moyenne des x
– pondérés par la densité f (x) dans le cas continu avec densité,
– pondérés par les probabilités ponctuelles P(X = xk ) dans le cas discret.
Il faut retenir que la densité du cas continu est l’équivalent des probabilités ponctuelles du
cas discret.

Exemples : espérance de v.a. réelles à densité


• Si X suit une loi uniforme sur [a, b] son espérance est
+∞ b  2 b
1 1 1 t b 2 − a2 a+b
Z Z
E[X] = t1[a,b] (t) dt = t dt = = = .
b−a −∞ b−a a b − a 2 a 2(b − a) 2

• Si X suit une loi exponentielle de paramètre a > 0, son espérance est (en intégrant
par parties)
Z +∞ Z +∞ +∞
Z +∞
−at −at
te−at 0 e−at dt

E[X] = ate 1R+ (t)dt = at e dt = − +
−∞ 0 0
 −at
+∞
e
= 0+ = 1/a.
a 0
6.5. Espérance et variance des lois à densité 65

• Si X suit une loi de Cauchy de paramètre a alors, l’espérance n’est pas définie. En
effet, Z +∞
a|t| dt
2 2
= +∞,
−∞ π(a + t )

car t/(a2 + t2 ) '+∞ 1/t qui n’est pas intégrable en +∞ (on fait de même en −∞). Finale-
ment, la condition d’existence de l’espérance n’est pas remplie.
X −m
• Si X suit une loi normale N (m, σ 2 ), son espérance vaut E[X] = m : comme Y :=
σ
suit une loi N (0, 1) (cf. la proposition 6.4.2), il suffit de voir d’après la linéarité (justifiée
dans la proposition 6.5.1 à venir) E[Y ] = 0 c’est à dire
Z +∞
1 2
√ te−t /2 dt = 0
2π −∞
ce qui est clair car comme l’intégrant est impair :
Z 0 Z +∞
−t2 /2 2
te dt = − se−s /2 ds avec le changement de variables s = −t
−∞ 0

et donc
+∞ +∞ +∞
1 1 1
Z Z Z
−t2 /2 −t2 /2 2 /2
√ te dt = √ te dt − √ se−s ds = 0.
2π −∞ 2π 0 2π 0

(Au passage, noter que la convergence de l’intégrale ne pose pas de problème grâce au
2
facteur e−t /2 qui assure que les critères de convergence sont vérifiés car par exemple
2
t2 e−t /2 → 0, t → ±∞, cf. page 56.)

Les principales propriétés des espérances ont déjà été vues précédemment pour les v.a.
discrètes. Elles ont leurs analogues pour des v.a. à densité. On se contente de les citer, les
preuves étant essentiellement de simples adaptations de celles déjà vues.
Proposition 6.5.1 (Linéarité de l’espérance) Soient X et Y deux v.a.r. admettant
des espérances. Alors
(1) E[X + Y ] = E[X] + E[Y ],
(2) Pour tout réel a, E[aX] = aE[X].
Démonstration : On prouve seulement le 2) pour a > 0 :
Z x/a
FaX (x) = P(aX ≤ x) = P(X ≤ x/a) = FX (x/a) = fX (t)dt
−∞
0
En dérivant, on déduit la densité de aX : faX (t) = FaX (t) = a1 fX (t/a) et
u u
Z Z Z
E[aX] = ufaX (u)du = fX ( )du = a xfX (x)dx
R R a a R

avec le changement de variable x = u/a.


66 Chapitre 6. c JCB – L2 IMAE – Université de La Rochelle

Proposition 6.5.2 (Théorème de transfert : Espérance d’une fonction de v.a.) Soient


X une v.a.r. de densité f et F une fonction numérique sur R (ou dont l’ensemble de dé-
finition contient au moins l’ensemble des valeurs de X) continue par morceaux. Alors si
E[|F (X)|] existe, on a Z +∞
E[F (X)] = F (x)f (x) dx.
−∞

On a de plus facilement avec la fonction numérique F (x) = |x| :


Z +∞
Proposition 6.5.3 (Espérance et valeurs absolues) E[|X|] = |x|f (x)dx. Et si
−∞
E[X] existe, |E[X]| ≤ E[|X]|.
Notons que la condition de définition des espérances (cf. Déf. 6.5.1) pour l’existence de
E[X] n’est donc à nouveau rien d’autre que E[|X|] < +∞.
Proposition 6.5.4 (Positivité de l’espérance)
– Si X a une espérance et X ≥ 0, alors E[X] ≥ 0.
– Si Xet Y ont des espérances et X ≤ Y alors E[X] ≤ E[Y ].
Z 0
Démonstration : Si X ≥ 0 alors P(X ≤ 0) = f (t) dt = 0. Comme f est positive et
−∞
d’intégrale nulle sur R− alors f (t) = 0 si t < 0. On a donc
Z +∞ Z +∞
E[X] = tf (t) dt = tf (t) dt.
−∞ 0

Comme sur R+ , t ≥ 0 et f est positive, l’intégrale précédente est positive.


Pour la deuxième partie, appliquer la première à la v.a. positive Y − X puis utiliser la
linéarité de l’espérance.
Soulignons qu’on dispose toujours de l’inégalité de Markov :
Théorème 6.5.1 (Inégalité de Markov) Si X est une v.a.r. positive à densité ayant
une espérance alors
E[X]
∀t > 0, P(X ≥ t) ≤ .
t
Démonstration : Si on note f la densité de la v.a. X, on a f (t) = 0 si t < 0 car X
est à valeurs positives. Puis
Z +∞ Z t Z +∞
E[X] = xf (x)dx = xf (x)dx + xf (x)dx
0 0 t
Z +∞ Z +∞
≥ 0+ xf (x)dx ≥ t f (x)dx
t t
≥ tP(X ∈ [t, +∞)) = tP(X ≥ t).
On redéfinit aussi les moments :
6.5. Espérance et variance des lois à densité 67

Définition 6.5.2 Soit r ∈ N∗ , on appelle moment d’ordre r de la v.a.r. X de densité f le


nombre Z +∞
r
E[|X| ] = |x|r f (x) dx.
−∞

Lorsqu’il est fini, on considère aussi


Z +∞
r
E[X ] = xr f (x) dx.
−∞

Lorsque une v.a. est bornée, il est facile de voir qu’elle a des moments de tous les ordres.
De façon générale, l’existence de moment d’ordre r implique celles des moments d’ordre
inférieurs. En effet, on montre comme dans le cas discret (cf. Prop. 5.2.1) que pour n ≤ r :

E[|X|n ] ≤ 1 + E[|X|r ].

On définit en particulier la variance et l’écart-type de la même façon que pour les v.a.
discrètes. p
Var(X) = E[(X − E[X])2 ], σX = Var(X).
On dispose des mêmes propriétés que dans le cas des v.a. discrètes :

Var(aX) = a2 Var(X), Var(X + b) = Var(X), ∀a, b ∈ R.
– Formule de Koenig :
Var(X) = E[X 2 ] − E[X]2 .
– Inégalité de Tchebychev : si Var(X) existe, on a

Var(X)
P(|X − E[X]| ≥ t) ≤ , ∀t > 0.
t2

Exemples : variances des lois à densités usuelles


• Si X suit une loi uniforme sur [a, b] sa variance est

(b − a)2
Var(X) = .
12
En effet

Z b
2 1 b 3 − a3 a2 + ab + b2
E[X ] = t2 dt = =
b−a a 3(b − a) 3
2 2 2
a + ab + b (a + b) (b − a)2
Var(X) = − = .
3 4 12
68 Chapitre 6. c JCB – L2 IMAE – Université de La Rochelle

• Si X suit une loi exponentielle de paramètre a, sa variance est 1/a2 : en intégrant par
parties (deux fois),

Z +∞ +∞
Z +∞
−at
2 2
t2 e−at 0 2te−at dt

E[X ] = at e dt = − +
0 0
 −at +∞ Z +∞ −at  −at +∞
te e e
= 0−2 +2 dt = 0 − 2 2
= 2/a2
a 0 0 a a 0
Var(X) = E[X 2 ] − E[X]2 = 2/a2 − 1/a2 = 1/a2 .

• Si X suit une loi de Cauchy alors elle n’a pas de moment d’ordre 2 car n’en a déjà
pas d’ordre 1 (pas de moyenne). Elle n’admet donc pas de variance.
• Si X suit une loi normale N (m, σ 2 ), sa variance vaut Var(X) = σ 2 , en effet comme
X −m
Y := est de loi N (0, 1) et que Var(X) = σ 2 Var(Y ) (cf. Prop. 6.4.2), il suffit de
σ
voir Var(Y ) = E[Y 2 ] − E[Y ]2 = 1. Or E[Y ] = 0 et

Z +∞
1 2
2
E[Y ] = √ t2 e−t /2 dt
2π −∞
Z +∞
1 h −t2 /2
i+∞ 1 2
= √ −te +√ e−t /2 dt
2π −∞ 2π −∞
= 0 + 1 = 1.

On a bien E[Y 2 ] = 1, Var(Y ) = 1, Var(X) = σ 2 .

6.6 Tableau comparatif des formules pour des v.a. dis-


crètes et continues à densité

Lorsque les intégrales et les séries concernées sont absolument convergentes, on a le


tableau comparatif suivant entre le cas discret et le cas continu :
6.6. Tableau comparatif 69

X Variable discrète Variable à densité f


X(Ω) {x1 , x2 , . . . , xk , . . .} R ou un intervalle
X Z b
P(a ≤ X ≤ b) P(X = xk ) f (t) dt
a≤xk ≤b a
X Z x
F (x) = P(X ≤ x) P(X = xk ) f (t) dt
xk ≤x −∞
+∞
X Z +∞
E[X] xk P(X = xk ) tf (t) dt
k=1 −∞
+∞
X Z +∞
E[g(X)] g(xk )P(X = xk ) g(t)f (t) dt
k=1 −∞
+∞
X Z +∞
2
E[X ] x2k P(X = xk ) t2 f (t) dt
k=1 −∞
+∞ Z +∞
X 2 2
Var(X) xk − E[X] P(X = xk ) t − E[X] f (t) dt
k=1 −∞
70 Chapitre 6. c JCB – L2 IMAE – Université de La Rochelle
Chapitre 7

Vecteurs aléatoires

Dans des situations où interviennent plusieurs variables aléatoires, le calcul de la pro-
babilité d’un évènement dont la réalisation dépend des valeurs de ces variables doit faire
intervenir ces variables considérées dans leur ensemble et non chacune isolément. Cela
amène ainsi à étudier une nouvelle notion : celle de vecteur aléatoire.

7.1 Généralités
Définition 7.1.1 Soient X, Y des v.a. définies sur le même espace probabilisé (Ω, F, P).
L’application
Ω −→ R2 , ω 7−→ (X(ω), Y (ω))
est appelé couple aléatoire, on le note (X, Y ). Les variables aléatoires X et Y sont alors
appelées ses marginales.
Définition 7.1.2 De même, si X1 , X2 , . . . , Xn sont n variables aléatoires, sur le même
espace (Ω, F, P), on définit le vecteur aléatoire (X1 , . . . , Xn ) comme l’application
Ω −→ Rn , ω 7−→ (X1 (ω), . . . , Xn (ω)).
La v.a. Xi est appelée la i-ème marginale du vecteur. Pour n = 2, on retrouve les couples
aléatoires.
Le couple aléatoire (X, Y ) permet de transporter la probabilité P de l’espace Ω sur
l’espace R2 . Rappelons qu’un produit cartésien A × B de deux ensembles A, B ⊂ R désigne
l’ensemble suivant de R2 :
A × B = {(a, b) tel que a ∈ A et b ∈ B}.
Définition 7.1.3 La loi PX,Y du couple (X, Y ) est la probabilité définie sur l’ensemble des
produits d’intervalles I × J de R2 par ∀I, J intervalles de R
PX,Y (I × J) = P(ω ∈ Ω; (X(ω), Y (ω)) ∈ I × J) (7.1)
= P(X ∈ I, Y ∈ J).

71
72 Chapitre 7. c JCB – L2 IMAE – Université de La Rochelle

Remarque 7.1.1 (pour des v.a. dicrètes)


– À nouveau, s’il s’agit de couple de v.a. discrètes, il n’est pas utile de se restreindre à
définir PX,Y sur les produits d’intervalles I × J. On peut définir la loi PX,Y sur tout
P(R2 ), l’ensemble des parties de R2 .
– Dans le cas de v.a. X, Y discrètes, il est facile de voir que la loi du couple (X, Y ) est
caractérisée par les probabilités ponctuelles PX,Y (xi , yj ) = P(X = xi , Y = yj ) pour
tout xi ∈ X(Ω), yj ∈ Y (Ω) dans les domaines de valeurs de X et de Y .

7.2 Vecteurs aléatoires discrets


Rappelons encore que pour X, Y v.a. discrètes, les lois de X et de Y sont définies sur
toutes les parties de R, celle du couple sur toutes les parties de R2 . Le résultat suivant
montre qu’on retrouve la loi des v.a. marginales à partir de celle d’un couple.
Proposition 7.2.1 Si (X, Y ) est un couple aléatoire de v.a. discrètes de domaine
(X, Y )(Ω) = {(x1 , y1 ), . . . , (xi , yi ), . . .}, les domaines des marginales X, Y s’obtiennent par
projection :
 
X(Ω) = p1 (X, Y )(Ω) = {x1 , . . . , xi , . . .}, Y (Ω) = p2 (X, Y )(Ω) = {y1 , . . . , yi , . . .}
où p1 , p2 sont les première et seconde projections
 
R2 → R R2 → R
p1 : , p2 : .
(x, y) 7→ x (x, y) 7→ y
Les lois marginales PX , PY (i.e. les lois de X et de Y, ses marginales) sont données par :
X
∀xi ∈ X(Ω), PX (xi ) = P(X = xi ) = P(X = xi , Y = yj ),
yj ∈Y (Ω)
X
∀yi ∈ Y (Ω), PY (yj ) = P(Y = yj ) = P(X = xi , Y = yj ).
xi ∈X(Ω)

Démonstration : Il suffit de faire la preuve pour le domaine et les probabilités ponctuelles


de X. Or pour i fixé {X = xi } est la réunion de la famille dénombrable d’évènements deux à
deux disjoints {X = xi , Y = yj } pour tous les j tels que yj ∈ Y (Ω) car {ω ∈ Ω|Y (ω) = yj }j
est une partition de Ω. On conclut alors par σ-additivité de P :
 [ 
P(X = xi ) = P {X = xi } ∩ {Y = yj }
j
[  X
= P {X = xi , Y = yj } = P(X = xi , Y = yj ).
j yj ∈Y (Ω)

Puis {x1 , . . . , xi , . . .} et {y1 , . . . , yj , . . .} sont bien d’une part les projections de (X, Y )(Ω)
sur les premier et second facteurs de R2 = R × R et d’autre part les domaines de X et de
Y.
7.3. Intégrales multiples 73

Remarque 7.2.1 La connaissance du couple (X, Y ) permet de connaı̂tre les lois margi-
nales de X et de Y . Il est important de comprendre que la réciproque est fausse : les lois
marginales ne permettent pas de reconstruire la loi du couple (X, Y ) en général. C’est
possible dans le cas particulier où X et Y sont indépendantes comme nous le verrons
bientôt.

Exemples : On donne le tableau des probabilités ponctuelles P(X = xi , Y = yj ) d’un


vecteur aléatoire discret (X, Y ) :

X \ Y y1 = −1 y2 = 2 y3 = 3 y4 = 5
x1 = 0 0, 1 0, 05 0, 15 0 0, 3
x2 = 2 0, 05 0, 2 0, 05 0, 1 0, 4
x3 = 3 0, 1 0 0, 1 0, 1 0, 3
0, 25 0, 25 0, 3 0, 2 1
On en déduit la loi de X : X(Ω) = {0, 2, 3} et

P(X = 0) = 0, 3, P(X = 2) = 0, 4, P(X = 3) = 0, 3

et celle de Y : Y (Ω) = {−1, 2, 3, 5} et

P(Y = −1) = 0, 25, P(Y = 2) = 0, 25, P(Y = 3) = 0, 3, P(Y = 5) = 0, 2.

Notons qu’il n’y a pas unicité des couples (X, Y ) donnant les mêmes marginales. Ainsi, le
couple suivant est différent du précédent mais partage les mêmes marginales.

X \ Y y1 = −1 y2 = 2 y3 = 3 y4 = 5
x1 = 0 0, 1 0, 1 0 0, 1 0, 3
x2 = 2 0, 1 0, 1 0, 1 0, 1 0, 4
x3 = 3 0, 05 0, 05 0, 2 0 0, 3
0, 25 0, 25 0, 3 0, 2 1

7.3 Intégrales multiples


Pour exprimer les lois de vecteurs aléatoires réels, on a besoin d’intégrales multiples.
n
Pour les
Z fonctions de plusieurs variables F : R → R, on considère des intégrales
multiples F (x1 , . . . , xn )dx1 . . . dxn . Pour les calculer, on se ramène à des intégrales
Rn
simples imbriquées grâce au théorème de Fubini.
74 Chapitre 7. c JCB – L2 IMAE – Université de La Rochelle

Théorème 7.3.1 (Fubini en dimension 2) Soit F : [a, b] × [c, d] → R telle que l’une
ou l’autre des conditions suivantes est vérifiée :
– F est positive : ∀(x, y) ∈ [a, b] × [c, d], F (x, y) ≥ 0, (Fubini-Tonelli)
– |F | est intégrable sur le pavé [a, b] × [c, d] (Fubini) :
Z
|F (x, y)|dxdy < +∞, (7.2)
[a,b]×[c,d]

alors
Z Z d Z b Z bZ d
F (x, y) dxdy = F (x, y) dxdy = F (x, y) dydx.
[a,b]×[c,d] c a a c

Si F est positive, on peut intervertir directement les intégrations (par la version Fubini-
Tonelli du théorème). Si F ne l’est pas, il faut vérifier (7.2) en calculant l’intégrale double
de |F |. Pour cela, on peut appliquer par exemple la version Fubini-Tonelli à la fonction
postive |F | pour se ramener à des intégrales simples.
Des changements de variables sont souvent utiles pour calculer des intégrales multiples.
En particulier le changement de variables en polaire qui consiste à passer de (x, y) repré-
sentant des coordonneés cartésiennes dans un repère orthonormée à (r, θ) les coordonnées
polaires correspondantes. Ces coordonnées polaires sont données par :

x = r cos θ
, r ∈ [0, +∞[, θ ∈ [0, 2π[.
y = r sin θ
On remplace alors dxdy par rdrdθ car le jacobien du changement de variables est r. Ainsi :
Z ∞Z ∞ Z 2π Z +∞
F (x, y)dxdy = F (r cos θ, r sin θ)rdrdθ.
−∞ −∞ 0 0

2
Z√ +∞
Exemple : Normalisation de la loi normale e−x /2 dx = 2π.
R +∞ −x2 /2 −∞
2
Notons I = −∞ e dx et montrons que I = 2π. On a
Z +∞ Z +∞
−x2 /2 2
2
I = e dx × e−y /2 dy
−∞ −∞
Z +∞ Z +∞ Z Z
−x /2 −y 2 /2
2 2 2
= e e dxdy = e−(x +y )/2 dxdy
−∞ −∞ R×R
Z 2π Z +∞
2
= e−r /2 rdrdθ
Z0 2π 0 Z +∞ h i+∞
2 2
= dθ re−r /2 dr = 2π −e−r /2 = 2π
0 0 0

où on a utilisé le théorème de Fubini à la 2ème ligne puis on a fait un changement de


variables en polaire à la 3ème ligne.
7.4. Vecteurs aléatoires réels à densité 75

7.4 Vecteurs aléatoires réels à densité


La notion est la même que celle des densités des v.a.r. adaptée au cas multidimensionnel.
La loi d’un vecteur aléatoire de dimension n est de densité f si pour tous intervalles I1 ,
I2 , . . . , In de R, la probabilité d’appartenance du vecteur aléatoire au produit cartésien
I1 × I2 × · · · × In de ces intervalles s’exprime comme l’intégrale multiple de f sur ce produit
d’intervalles.
Définition 7.4.1 Une fonction f : Rn → R est appelée densité de probabilité (en dimen-
sion n) si
– f est positive : en tout point où elle est définie, f (t1 , . . . , tn ) ≥ 0,
– f est intégrable sur Rn d’intégrale 1 :
Z +∞ Z +∞
... f (t1 , . . . , tn ) dt1 . . . dtn = 1.
−∞ −∞

Définition 7.4.2 Le vecteur aléatoire (X1 , . . . , Xn ) suit la loi de densité f si pour tous
intervalles [ai , bi ], i = 1, . . . , n
  Z b1 Z b2 Z bn
P (X1 , . . . , Xn ) ∈ [a1 , b1 ] × · · · × [an , bn ] = ... f (t1 , t2 , . . . , tn ) dt1 . . . dtn .
a1 a2 an

À nouveau, le sens des bornes dans les intervalles (ouvertes ou fermées) n’est pas important.
À nouveau encore, la densité caractérise la loi : si (Y1 , . . . , Yn ) a même loi que (X1 , . . . , Xn )
alors ce vecteur a la même densité et réciproquement.
Proposition 7.4.1 Si (X, Y ) est un couple aléatoire de loi de densité f , ses lois marginales
PX , PY sont données par :
Z b Z +∞
∀[a, b] intervalle, PX ([a, b]) = P(X ∈ [a, b]) = f (x, y) dxdy,
a −∞
Z bZ +∞
∀[a, b] intervalle, PY ([a, b]) = P(Y ∈ [a, b]) = f (x, y) dydx.
a −∞
R +∞
Autrement dit, la loi de X est de densité fX (x) = −∞
f (x, y)dy, celle de Y est de densité
R +∞
fY (y) = −∞ f (x, y) dx.
Démonstration : La preuve est une application directe du théorème de Fubini-Tonelli
sur les intégrales doubles une fois qu’on a remarqué que
PX ([a, b]) = P(X ∈ [a, b]) = P(X ∈ [a, b], Y ∈ R) = P(X,Y ) ([a, b] × R)
Z Z b Z  Z b
= f (x, y) dxdy = f (x, y)dy dx = fX (x)dx
[a,b]×R a R a
R +∞
avec la densité anoncée fX (x) = −∞ f (x, y)dy. Il s’applique sans problème car par défini-
tion d’une densité, f est positive (et même intégrable sur R2 ). Idem pour Y .
76 Chapitre 7. c JCB – L2 IMAE – Université de La Rochelle

Remarque 7.4.1 À nouveau la connaissance de la loi du couple permet d’en déduire celle
des lois marginales, la réciproque est en général fausse.

Exemples : • Considérons f (x, y) = 31 1[0,1]×[−1,2] (x, y). Il s’agit bien d’une densité car f
est positive et
1
Z Z Z Z
f (x, y) dxdy = 1[0,1]×[−1,2] (x, y) dxdy
R2 3 R2

1
Z Z
= 1[0,1] (x) × 1[−1,2] (y) dxdy
3 R2
1 +∞
Z Z +∞
= 1[0,1] (x) dx 1[−1,2] (y) dy
3 −∞ −∞
| {z } | {z }
=1 =2−(−1)=3
= 1.

Considérons un couple (X, Y ) de loi de densité f . La loi de X est alors de densité donnée
par :
Z +∞
1 +∞ 1 +∞
Z Z
fX (x) = f (x, y)dy = 1[0,1]×[−1,2] (x, y)dy = 1[0,1] (x) × 1[−1,2] (y)dy
−∞ 3 −∞ 3 −∞
1 +∞
Z
= 1[0,1] (x) × 1[−1,2] (y)dy
3 −∞
| {z }
=1
= 1[0,1] (x).

De la même façon, fY (y) = 13 1[−1,2] (y).


• Montrer que f (x, y) = λµe−λx−µy 1R+ ×R+ (x, y) est la densité d’un couple (X, Y ) de
R2 . Montrer que X est de loi E(λ) et Y de loi E(µ).
• Montrer que
x2 2
− − y0 2
e 2σ 2 2(σ )
f (x, y) =

est la densité d’un couple (X, Y ) de R . Montrer que X est de loi N (0, σ 2 ) et Y de loi
2

N (0, (σ 0 )2 ).
• Montrer que
f (x, y) = ye−xy 1R+ (x)1[0,1] (y)
est la densité d’un couple (X, Y ) de R2 . Montrer que X est de loi donnée par la densité

1 − e−x − xe−x
fX (x) = 1R+ (x)
x2
et Y de loi uniforme sur [0, 1].
7.5. Variables aléatoires indépendantes 77

x2 +2xy+5y 2
1 −
• Soit f (x, y) = 3π e 6 . Il s’agit d’une densité car

x2 +2xy+5y 2 dxdy
Z Z Z Z
f (x, y)dxdy = e− 6

R2 R2 3π
(x+y)2 +4y 2 dxdy 4y 2 dxdy
Z Z Z Z
(x+y)2
= e − 6 = e− 2×3 e− 2×3
2 3π R2 3π
Z RZ  Z Z 
(x+y) 2 4y dy
2 z2 4y 2 dy
= e− 2×3 dx e− 2×3 = e− 2×3 dz e− 2×3
3π 3π
ZR R R R
√ 4y dy dy
2
Z 2
y
= 2π × 3e− 2×3 = e− 2×(3/4) p =1
R 3π R 2π × 3/4
Z
t2 √
en utilisant la normalisation de la loi normale N (0, σ ) : 2
e− 2σ2 dt = 2πσ 2 .
R
Considérons un couple (X, Y ) de densité f , alors X est de densité

( √1 x+ 5y)2 +4x2 /5
dy dy
Z Z Z
2 +2xy+5y 2
−x − 5
fX (x) = f (x, y)dy = e 6 = e 6

R R 3π R 3π

( √1 x+ 5y)2

4x2 dy dz 2π × 3
Z Z
5 4x2 z2 4x2
= e− 6 e− 30 = e− 30 e− 2×3 √ = e− 30 √
R 3π R 3π 5 3π 5
1 4x2
= p e− 30 .
15π/2

La marginale Y est de densité :

dx (x+y)2 +4y 2 dx 4y 2 dx
Z Z Z Z
2 2 (x+y)2
− x +2xy+5y
fY (y) = f (x, y)dx = e 6 = e− 6 = e− 2×3 e− 6
3π 3π 3π
R R
√ R R
(x+y) dx 2π × 3 1
Z 2
4y 2 4y 2 4y 2
= e− 6 e− 2×3 = e− 6 =p e− 6 .
R 3π 3π 3π/2

Les marginales X et Y sont donc de lois N (0; 15/4) et N (0; 3/4).


Comme pour la proposition 6.5.2, on a :

Proposition 7.4.2 (Théorème de transfert) Si (X,Y) est un couple de v.a.r. de den-


sité f (x, y) alors pour F une fonction numérique continue sur R2 , on a
Z
E[F (X, Y )] = F (x, y)f (x, y) dxdy. (7.3)
R2

7.5 Variables aléatoires indépendantes


L’indépendance pour des v.a. finies a déjà été vue en L1. Il s’agit maintenant de voir
le cas de v.a. discrètes pas nécéssairement finies et de v.a. à densité.
78 Chapitre 7. c JCB – L2 IMAE – Université de La Rochelle

Dans la suite, on traite simultanément le cas des v.a. discrètes et des v.a. à densité. On
énoncera les résultats avec la restriction I intervalle de R pour les ensembles considérés.
On a besoin de cette restriction pour les v.a. à densité. Par contre, pour les v.a. discrètes,
ce n’est pas nécéssaire et il est possible de prendre des sous-ensembles A quelconques de
R.

Définition 7.5.1 (Indépendance de deux va) Deux v.a. X, Y sont dites indépendantes
si pour I, J intervalles de R, les évènements {X ∈ I}, {Y ∈ J} sont indépendants :

∀I, J intervalles, P(X ∈ I, Y ∈ J) = P(X ∈ I) × P(Y ∈ J)

ce qui s’écrit encore en termes de loi PX,Y (I × J) = PX (I) × PY (J) : la loi du couple est
le « produit » des lois marginales.

Définition 7.5.2 (Indépendance d’une famille finie de va) Les m variables


aléatoires X1 , . . . , Xm sont dites (mutuellement) indépendantes si pour tout intervalles
I1 , . . . , Im , les évènements {X1 ∈ I1 }, . . . , {Xm ∈ Im } sont mutuellement indépendants :
∀Ii intervalles , i = 1, . . . , m,

P(X1 ∈ I1 , . . . , Xm ∈ Im ) = P(X1 ∈ I1 ) . . . P(Xm ∈ Im ).

Remarque 7.5.1 Pour l’indépendance de n évènements, il faut tester toutes les sous
familles des n évènements et pas seulement la famille entière ou l’indépendance deux à
deux. Pour une famille de n va, il suffit de tester la famille des n v.a. toutes ensembles.
L’apparente différence est due au fait que le test pour n v.a. contient les tests pour toutes
les sous familles : il suffit par exemple de prendre Ik = R pour faire le test sur la famille
de (n − 1) v.a. où on a exclu la k-ème v.a. c Car dire Xk ∈ R, c’est ne rien dire sur Xk et
donc faire comme s’il n’y avait aucune contrainte sur Xk . On comprend bien dès lors que
l’on peut tester toutes les sous familles avec des choix adéquats de Ik = R.

Définition 7.5.3 (Indépendance d’une suite de va) Une suite (Xi )i∈N de v.a. est dite
indépendante si toute sous-suite finie de (Xi )i∈N est indépendante au sens de la définition
7.5.2.

Proposition 7.5.1
– Les v.a. discrètes X et Y sont indépendantes si et seulement si

∀xi ∈ X(Ω), ∀yj ∈ Y (Ω), P(X = xi , Y = yj ) = P(X = xi ) P(Y = yj ). (7.4)

– Les v.a.r. X, Y de densités respectives f et g sont indépendantes si et seulement si


le couple (X, Y ) est de densité le produit tensoriel f ⊗ g : R2 → R, (x, y) 7→ f (x)g(y).
7.5. Variables aléatoires indépendantes 79

Démonstration : • Il est clair que l’indépendance implique (7.4) : il suffit de pendre


I = {xi } et J = {yj } dans la définition 7.5.1.
Réciproquement, si (7.4) est vérifié, alors pour deux parties A et B quelconques de R,
on a

P(X ∈ A, Y ∈ B) = P((X, Y ) ∈ A × B)
X
= P((X, Y ) = (xi , yj ))
(xi ,yj )∈A×B
X
= P(X = xi , Y = yj )
(xi ,yj )∈A×B
X
= P(X = xi ) P(Y = yj )
(xi ,yj )∈A×B
X X
= P(X = xi ) P(Y = yj )
xi ∈A yj ∈B

= P(X ∈ A) P(Y ∈ B).

• Dans le cas de v.a.r. à densité, si X et Y sont indépendantes, la définition des densités


et la définition 7.5.1 donnent :
  
P(X,Y ) ([a, b] × [c, d]) = P X ∈ [a, b], Y ∈ [c, d] = P X ∈ [a, b] P Y ∈ [c, d]
Z b Z d
= f (x) dx g(y)dy
a c
Z bZ d
= f (x)g(y) dxdy
a c

par le théorème de Fubini, ce qui montre que f (x)g(y) est densité du couple (X, Y ). Réci-
proquement, si le couple a pour densité (f ⊗ g)(x, y) = f (x)g(y) alors pour tous intervalles
[a, b], [c, d] :
Z bZ d Z b Z d
P(X,Y ) ([a, b] × [c, d]) = f (x)g(y) dxdy = f (x) dx g(y)dy
a c a c
= P(X ∈ [a, b]) P(Y ∈ [c, d]),

ce qui justifie l’indépendance de X et de Y .

Remarque 7.5.2 Une conséquence importante : si on connait les lois de X et de Y , des


variables supposées indépendantes, on peut reconstruire la loi du couple (X, Y ) à partir
des marginales par (7.4) dans le cas discret ou par le produit tensoriel f ⊗ g des densités
dans le cas à densité. Insistons sur le fait que ce n’est pas vrai en général quand
X et Y ne sont pas indépendantes.
80 Chapitre 7. c JCB – L2 IMAE – Université de La Rochelle

Dans les deux exemples de la page 73, X et Y ne sont pas indépendantes car par exemple
pour le premier :

P(X = 2, Y = 2) = 0, 2, tandis que P(X = 2) × P(Y = 2) = 0, 4 × 0, 25 = 0, 1.

Et pour le second :

P(X = 3, Y = 5) = 0, tandis que P(X = 3) × P(Y = 5) = 0, 3 × 0, 2 = 0, 06.

Exemples :
• On donne le tableau de la loi d’un couple (X, Y ) en donnant les probabilités ponc-
tuelles P(X = xi , Y = yj ) :

X \ Y y1 y2 y3
x1 0, 12 0, 08 0, 20 0, 4
x2 0, 18 0, 12 0, 30 0, 6
0, 3 0, 2 0, 5 = 1
On vérifie ici que X et Y sont indépendantes car pour tout i = 1, 2 et j = 1, 2, 3, on a

P(X = xi , Y = yj ) = P(X = xi ) P(Y = yj ).

• Considérons le couple (X, Y ) de loi donnée par la densité f(X,Y ) (x, y) = 31 1[0,1]×[−1,2] (x, y).
On a vu que X et Y avaient pour densité fX (x) = 1[0,1] (x) et fY (y) = 13 1[−1,2] (y). On a
alors
1 1
f(X,Y ) (x, y) = 1[0,1]×[−1,2] (x, y) = 1[0,1] (x) × 1[−1,2] (y) = fX (x)fY (y).
3 3
Les variables X et Y sont donc indépendantes.
2 2
1 − x +2xy+5y
• Soit (X, Y ) le couple aléatoire de loi donnée par la densité f(X,Y ) (x, y) = 3π e 6 .
On a vu que les densités marginales sont
1 4x2 1 4y 2
fX (x) = p e− 30 , fY (y) = p e− 6 .
15π/2 3π/2

On a alors
1 4x2 1 4y 2 1 − x2 +2xy+5y2
fX (x)fY (y) = p e− 30 × p e− 6 6= e 6 = f(X,Y ) (x, y).
15π/2 3π/2 3π

Dans ce cas, X et Y ne sont pas indépendantes.

Proposition 7.5.2 Soient X, Y des v.a. indépendantes, F , G des fonctions dont les do-
maines de définition contiennent respectivement X(Ω) et Y (Ω). Alors les v.a. F (X) et
G(Y ) sont indépendantes.
7.5. Variables aléatoires indépendantes 81

Démonstration : Plaçons nous dans le cas de v.a. discrètes. Rappelons que F (X) désigne
l’application F ◦ X définie par
F ◦ X : Ω −→ R, ω 7→ F (X(ω)).
Il s’agit bien d’une v.a. discrète car l’ensemble de ses valeurs est {F (x1 ), . . . , F (xk ), . . .} si
celui de X est {x1 , . . . , xk , . . .}. De même celui de G(Y ) est {G(y1 ), . . . , G(yk ), . . .}. Pour
prouver l’indépendance de F (X) et G(Y ), il suffit d’après la proposition 7.5.1, de voir pour
t ∈ F (X)(Ω) et s ∈ G(Y )(Ω) :
P(F (X) = t, G(Y ) = s) = P(F (X) = t) P(G(Y ) = s).
Or
X
P(F (X) = t, G(Y ) = s) = P(X = xi , Y = yj )
i:F (xi )=t
j:G(yj )=s
X
= P(X = xi ) P(Y = yj )
i:F (xi )=t
j:G(yj )=s
X X
= P(X = xi ) P(Y = yj )
i:F (xi )=t j:G(yj )=s

= P(F (X) = t) P(G(Y ) = s).

Proposition 7.5.3 Soient X et Y des v.a. indépendantes et F , G des fonctions numé-


riques R2 → R. Alors quand toutes les quantités sont bien définies, on a
E[F (X)G(Y )] = E[F (X)] E[G(Y )].
Démonstration : Par exemple si X et Y sont des v.a.r. de densités f et g, d’après la
proposition 7.4.2, (X, Y ) est de densité f (x)g(y) et
Z Z
E[F (X)G(Y )] = F (x)G(y)f (x)g(y) dxdy
R 2
Z Z
= F (x)f (x) G(y)g(y) dxdy
R2
Z +∞ Z +∞
= F (x)f (x) dx × G(y)g(y) dy
−∞ −∞
= E[F (X)] E[G(Y ))].

Remarque 7.5.3 En particulier pour X et Y des v.a.r. indépendantes, quand les espé-
rances sont bien définies :
E[XY ] = E[X] E[Y ]. (7.5)
82 Chapitre 7. c JCB – L2 IMAE – Université de La Rochelle

7.6 Lois conditionnelles


7.6.1 Cas discret
Définition 7.6.1 Soit (X, Y ) un couple de variables aléatoires discrètes sur (Ω, F, P) avec
X, Y de domaines respectifs X(Ω), Y (Ω). Pour y ∈ Y (Ω) tel que P(Y = y) 6= 0, on appelle
loi conditionnelle de X sachant Y = y, l’application définie sur X(Ω) par
P(X = x, Y = y)
P(X = x|Y = y) = .
P(Y = y)
De même si x ∈ X(Ω) est tel que P(X = x) 6= 0, on appelle loi conditionnelle de Y sachant
X = x l’application définie sur Y (Ω) par
P(X = x, Y = y)
P(Y = y|X = x) = .
P(Y = y)
Notons que la loi conditionnelle de X sachant Y = y notée PX (·|Y = y) et qui à un
évènement A associe
P(X ∈ A, Y = y)
PX (A|Y = y) = P(X ∈ A|X = y) =
P(Y = y)
est en fait une probabilité sur R. Elle vérifie donc toutes les propriétés d’une probabilité.
Proposition 7.6.1 Soit (X, Y ) un couple de variables aléatoires discrètes. Alors pour tous
x, y, on a :

P(X = x|Y = y) P(Y = y) si P(Y = y) 6= 0.
P(X = x, Y = y) =
0 si P(Y = y) = 0.
Démonstration : Si P(Y = y) 6= 0, par définition :
P(X = x, Y = y)
P(X = x|Y = y) =
P(Y = y)
et la conclusion s’impose.
Si P(Y = y) = 0 alors P(X = x, Y = y) = P({X = x} ∩ {Y = y}) ≤ P(Y = y) = 0.

Proposition 7.6.2 Si X, Y sont des v.a. indépendantes alors la loi conditionelle de X


sachant Y = y est la même que celle de X :
PX (·|Y = y) = PX .
Le conditionnement par une v.a. indépendante est sans effet.
Démonstration : En effet, pour tout A, par indépendance de X et de Y
P(X ∈ A, Y = y) P(X ∈ A)P(Y = y)
PX (A|Y = y) = P(X ∈ A|Y = y) = =
P(Y = y) P(Y = y)
= P(X ∈ A) = PX (A).
7.6. Lois conditionnelles 83

Exemple : Une variable aléatoire Y suit la loi de Poisson P(λ). La loi conditionnelle de
X sachant Y = m est la loi binomiale de paramètres m et p. Déterminer la loi de X.
On détermine d’abord la loi jointe du couple (X, Y ) : pour des entiers n, m, on a

P(X = n|Y = m) P(Y = m) si P(Y = m) 6= 0,
P(X = n, Y = m) =
0 si P(Y = m) = 0.

e−λ λm
Comme P(Y = m) = > 0 mais P(X = n|Y = m) = 0 si n > m, on a :
m!
−λ m
e−λ λm

 n n m−n e λ n m−n
Cm p (1 − p) = p (1 − p) si n ≤ m,
P(X = n, Y = m) = m! n!(m − n)!
0 si n > m.

On en déduit la loi de X : pour n ∈ N,


+∞
X +∞
X
P(X = n) = P(X = n, Y = m) = P(X = n, Y = m)
m=0 m=n
+∞ −λ m
X e λ
= pn (1 − p)m−n
m=n
n!(m − n)!
+∞ +∞
pn e−λ X m−n λm pn e−λ X λk+n
= (1 − p) = (1 − p)k avec k = m − n
n! m=n (m − n)! n! k=0 k!
+∞
(pλ)n e−λ X ((1 − p)λ)k (pλ)n e−λ λ(1−p) (pλ)n e−pλ
= = e = .
n! k=0
k! n! n!

La variable X suit donc la loi de Poisson P(pλ).

7.6.2 Cas continu : densité conditionnelle


Définition 7.6.2 Soit (X, Y ) un couple de variables aléatoires réelles de densité f : R2 →
R. On définit la densité conditionnelle de X sachant Y = y par

f (x, y)
fX|Y =y (x) =
fY (y)
Z +∞
où fY (y) = f (x, y) dx est la densité (marginale) de Y .
−∞

La loi conditionnelle de X sachant Y = y est alors définie par cette densité fX|Y =y :

f (x, y)
Z Z
∀I intervalle de R, P(X ∈ I | Y = y) = fX|Y =y (x) dy = dy.
I I fY (y)
84 Chapitre 7. c JCB – L2 IMAE – Université de La Rochelle

La densité conditionnelle fX|Y =y est une fonction de la seule variable x. Par contre, y est
seulement un paramètre de la fonction.
Exemple : Reprenons le couple (X, Y ) de loi donnée par la densité
1 − x2 +2xy+5y2
e
f (x, y) = 6 .

On a vu que X et Y sont de loi N (0; 15/4) et N (0; 3/4) avec les densités
1 4x2 1 4y 2
fX (x) = p e− 30 , fY (y) = p e− 6 .
15π/2 3π/2
La loi de X conditionnellement à {Y = y} est alors de densité
2 +2xy+5y 2
1 −x
f (x, y) e 6 1 x2 +2xy+y 2
fX|Y =y (x) = = 3π
4y 2
= √ e− 6 .
fY (y) √1 e− 6 6π
3π/2

Celle de Y conditionnellement à {X = x} est de densité


x2 +2xy+5y 2
1 −
f (x, y) e 6 1 x2 +10xy+25y 2
fY |X=x (y) = = 3π 4x2
=p e− 30 .
fX (x) √1 e− 30 6π/5
15π/2

Comme pour la Proposition 7.6.2 dans le cas discret, on a dans le cas avec des densités :
Proposition 7.6.3 Si les variables aléatoires X et Y sont indépendantes de densité fX et
fY alors les densités conditionnelles sont les densités marginales :
fX|Y =y (x) = fX (x) ∀y, et fY |X=x (y) = fY (y) ∀x.
À nouveau le conditionnement est sans effet car les variables sont indépendantes.
Démonstration : Comme X et Y sont indépendantes, le couple (X, Y ) est de densité
f(X,Y ) (x, y) = fX (x)fY (y). On a alors :
f(X,Y ) (x, y) fX (x)fY (y)
fX|Y =y (x) = = = fX (x),
fY (y) fY (y)
f(X,Y ) (x, y) fX (x)fY (y)
fY |X=x (y) = = = fY (y).
fX (x) fX (x)

Exemple : Si on considère (X, Y ) de loi donnée par la densité


1
f (x, y) = 1[0,1]×[−1,2] (x, y)
3
alors X et Y sont de densité fX (x) = 1[0,1] (x) et fY (y) = 13 1[−1,2] (y). On a bien f(X,Y ) (x, y) =
fX (x)fY (y) et donc les lois conditionnelles sont
1
fX|Y =y (x) = fX (x) = 1[0,1] (x), fY |X=x (y) = fY (y) = 1[−1,2] (y).
3
Chapitre 8

Somme de v.a. indépendantes

Les sommes de variables aléatoires interviennent souvent en probabilité. Elles per-


mettent de modéliser les effets conjugués de plusieurs phénomènes. Lorsqu’en plus les v.a.
sont indépendantes et de même loi, on modélise l’effet cumulé d’un phénomène récurrent
dont les réalisations sont indépendantes. Plusieurs résultats très importants, des théorèmes
limites, leur sont consacrés. En fait, on s’intéresse souvent à la moyenne arithmétique de
variables aléatoires indépendantes et de même loi (Xi )i∈N∗ :
n
1X
Xi . (8.1)
n i=1

Le plus important résultat est la loi des grands nombres (LGN) qui énonce la conver-
gence de la moyenne arithmétique (8.1) vers l’espérance de la loi. Puis le théorème central
limite (TCL) qui précise (en un certain sens la LGN).

8.1 Somme de deux v.a. indépendantes


Variables aléatoires discrètes
Commençons d’abord par étudier le cas de la somme de deux variables aléatoires dis-
crètes.

Proposition 8.1.1 Soient X, Y deux v.a. discrètes indépendantes à valeurs entières (i.e.
avec X(Ω) ⊂ N, Y (Ω) ⊂ N). La loi de X + Y est donnée par :
X
∀n ∈ N, P(X + Y = n) = P(X = i) P(Y = j)
i+j=n
Xn
= P(X = i) P(Y = n − i).
i=0

85
86 Chapitre 8. c JCB – L2 IMAE – Université de La Rochelle

Démonstration : Comme X et Y sont à valeurs entières, il en est de même pour X + Y .


Sa loi est caractérisée par les probabilités P(X + Y = n). Pour les calculer, il suffit de
décomposer l’évènement {X +Y = n} en la réunion de tous les évènements {X = i, Y = j}
tels que i + j = n. Il suit alors
 [ 
P(X + Y = n) = P {X = i, Y = j}
(i,j);i+j=n
X 
= P X = i, Y = j (8.2)
i+j=n
X
= P(X = i) P(Y = j), (8.3)
i+j=n

ce qui prouve la proposition.

Remarque 8.1.1 Si X et Y ne sont pas indépendantes le passage de (8.2) à (8.3) n’est


plus valable, on peut seulement écrire (8.2). On voit ainsi que l’on peut toujours calculer la
loi de X + Y si on connaı̂t celle du couple (X, Y ) par (8.2). Par contre, le calcul de cette loi
à partir de celles de X et de Y n’est pas possible en général, il faut en plus l’indépendance
pour avoir (8.3).

Exemple : Si X, Y sont des v.a. indépendantes de lois binomiales B(n, p) et B(m, p),
alors X + Y suit une loi binomiale B(n + m, p).
En effet, on sait que X, de loi B(n, p), peut être vue comme une somme de n v.a.
indépendantes εi , 1 ≤ i ≤ n, de loi de Bernoulli b(p)

i = 0 ou 1, avec P(i = 1) = p, P(i = 0) = 1 − p.

De même Y est somme de m v.a. indépendantes ε̃j , 1 ≤ j ≤ m, de loi b(p). Comme


(εi )i=1,...,n et (ε̃i )i=1,...,m sont indépendantes,

X + Y = ε1 + · · · + εn + ε̃1 + · · · + ε̃m

est une somme de n + m v.a. de Bernoulli b(p) indépendantes. X + Y suit donc la loi
B(n + m, p).
On peut aussi le faire directement : pour i = 0, . . . , n + m, on a
i
X i
X
P(X + Y = i) = P(X = j, Y = i − j) = P(X = i)P(Y = i − j)
j=0 j=0
i
X
= Cnj pj (1 − p)n−j Cm
i−j i−j
p (1 − p)m−i+j
j=0
i
X
= pi (1 − p)n+m−i Cnj Cm
i−j

j=0
8.1. Somme de deux v.a. indépendantes 87

i
= Cn+m pi (1 − p)n+m−i

en utilisant l’identité
i
X
Cnj Cm
i−j i
= Cn+m
j=0

qu’on prouve en développant de deux façons (1 + x)n+m = (1 + x)n (1 + x)m .


Exemple : Soient X, Y des v.a. indépendantes suivant des lois de Poisson de para-
mètres respectifs α et β. Quelle est la loi de S = X + Y ?
Les lois de X et Y sont données par

e−α αi e−β β j
P(X = i) = , P(Y = j) = , i, j ∈ N.
i! j!

Comme X et Y sont indépendantes, on a en utilisant la formule du binome de Newton :


n n
X X e−α αi e−β β n−i
P(S = n) = P(X = i)P(Y = n − i) =
i=0 i=0
i! (n − i)!
n
e−(α+β) X i i n−i
= Cn α β
n! i=0
e−(α+β) (α + β)n
= .
n!
Ainsi S = X + Y suit la loi de Poisson de paramètre α + β.

Variables aléatoires à densité


Avant de voir la loi de la somme de deux v.a. réelles indépendantes à densité, introdui-
sons la notion de convolution :

Définition 8.1.1 La convolution de deux fonctions f et g réelles est la fonction f ∗ g sur


R donnée par
Z +∞
(f ∗ g)(x) = f (x − y)g(y) dy.
−∞

On parle encore de la convolée f ∗ g de f et de g.

Remarque 8.1.2 On a f ∗ g = g ∗ f (c’est immédiat en faisant le changement de variable


y donne x − y dans l’intégrale de la définition)
Dans la proposition 8.1.1, on a défini un analogue discret de la convolution de la dé-
finition 8.1.1, comme en témoigne le résultat suivant qui exprime la loi de X + Y par la
convolution des densités.
88 Chapitre 8. c JCB – L2 IMAE – Université de La Rochelle

Proposition 8.1.2 Soient X, Y deux v.a.r. indépendantes et de densités f et g. La loi de


X + Y est donnée par :
Z b
∀[a, b] intervalle, P(X + Y ∈ [a, b]) = (f ∗ g)(x) dx
a

Autrement dit, X + Y a pour densité la fonction f ∗ g.

Démonstration : Soient a < b, comme (X, Y ) est de densité (x, y) 7→ f (x)g(y), on a


Z

P X + Y ∈ [a, b] = f (x)g(y) dxdy.
(x,y);x+y∈[a,b]

On fait le changement de variable (x, y) −→ (t, s) = (x, x + y). Comme (x, y) varie dans
R2 de façon que x + y ∈ [a, b], t décrit tout R et s décrit [a, b]. On a alors :
Z b Z +∞ Z b

P X + Y ∈ [a, b] = 1 ×dtds =
f (t)g(s − t) × |{z} (f ∗ g)(s) ds,
a −∞ a
Jac
car le jacobien du changement de variable est
∂t ∂s
∂x ∂x 1 1
Jac = = = 1,
∂t ∂s 0 1
∂y ∂y
ce qui prouve la proposition.

Remarque 8.1.3 A nouveau on connaı̂t bien la loi de la somme X + Y si X et Y sont


indépendantes, sinon, il faut connaı̂tre la loi du couple (X, Y ) et sa densité h(x, y) si elle
existe pour avoir la loi de X + Y par
Z Z b Z +∞

P X + Y ∈ [a, b] = h(x, y) dxdy = h(x, y − x) dxdy.
(x,y);x+y∈[a,b] a −∞

Exemples : • Soient X, Y des v.a. indépendantes suivant des lois exponentielles de


paramètres respectifs a et b. Quelle est la loi de S = X + Y ?
Les lois de X et Y sont de densités

f (x) = ae−ax 1[0,+∞[ (x), g(y) = be−by 1[0,+∞[ (y).

Comme X et Y sont indépendantes, la densité de X + Y est, si a 6= b :


Z +∞
(f ∗ g)(x) = g(y)f (x − y) dy
−∞
8.1. Somme de deux v.a. indépendantes 89
Z +∞
= be−by ae−a(x−y) 1[0,+∞[ (x − y) dy
0
Z x
−ax
= abe 1{x≥0} e(a−b)y dy
0
−ax
abe
e(a−b)x − 1 1{x≥0}

=
a−b
ab
e−bx − e−ax 1{x≥0}

=
a−b

où à la 3ème ligne on a utilisé 1[0,+∞[ (x − y)1[0,+∞[ (y) = 1[0,+∞[ (x)1[0,x] (y). Si a = b, la
densité est
Z +∞ Z +∞
f ∗ g(x) = g(y)f (x − y) dy = a 2
e−ay 1{y≥0} e−a(x−y) 1{x−y≥0} dy
−∞ −∞
Z x Z x
−ay −a(x−y) −ax
2
= a 1{x≥0} e e 2
dy = a 1{x≥0} e dy = a2 x1{x≥0} e−ax .
0 0

• Soient X1 de loi N (m1 , σ12 ) et X2 de loi N (m2 , σ22 ) alors X1 + X2 est de loi normale
N (m1 + m2 , σ12 + σ22 ).
Pour simplifier ( ? ! ?) les calculs qui suivent, prenons m1 = m2 = 0, et notons f1 et f2
les densités de X1 et de X2 . Celle de X1 + X2 est donnée par
+∞ +∞
dt
Z Z
2 /(2σ 2 ) 2 /(2σ 2 )
f1 ∗ f2 (x) = f1 (t)f2 (x − t)dt = e−t 1 e−(x−t) 2 p p
−∞ −∞ 2πσ12 2πσ22
+∞
(σ12 + σ22 )t2 − 2σ12 xt + σ12 x2
 
dt
Z
= exp − 2 2
−∞ 2σ1 σ2 2πσ1 σ2
2 σ14
 2 
2 2 1/2 σ1 2 2 2
1
Z +∞ (σ 1 + σ 2 ) t − (σ12 +σ22 )1/2
x − (σ12 +σ22 )
x + σ1 x
= exp − 2 2
 dt
2πσ1 σ2 −∞ 2σ1 σ2
σ12 σ12 σ22
 2 
2 2 1/2 2
1
Z +∞ (σ 1 + σ 2 ) t − (σ12 +σ22 )1/2
x + (σ12 +σ22 )
x
= exp − 2 2
 dt
2πσ1 σ2 −∞ 2σ1 σ2
 
σ2
2
 2 
exp − 2(σ2x+σ2 ) Z +∞ (σ12 + σ22 )1/2 t − (σ2 +σ12 )1/2 x
1 2
= exp − 2 2
1 2  dt
2πσ1 σ2 −∞ 2σ σ
1 2
 2

exp − 2(σ2x+σ2 ) Z +∞ 
u2

du
1 2
= exp − 2 2
2πσ1 σ2 −∞ 2σ1 σ2 (σ1 + σ22 )1/2
2

σ12
avec le changement de variable u = (σ12 + σ22 )1/2 t − x.
(σ12 + σ22 )1/2
90 Chapitre 8. c JCB – L2 IMAE – Université de La Rochelle

Puis d’après la normalisation de la loi normale N (0, σ12 σ22 ), la dernière intégrale vaut
Z +∞ p
u2 2πσ12 σ22
 
du
exp − 2 2 = .
−∞ 2σ1 σ2 (σ12 + σ22 )1/2 (σ12 + σ22 )1/2
On a finalement :
 2
  
x2
exp − 2(σ2x+σ2 ) exp −
p
2 2
1 2 2πσ1 σ2 2 2
2(σ1 +σ2 )
f1 ∗ f2 (x) = 2 2 1/2
= p .
2πσ1 σ2 (σ1 + σ2 ) 2π(σ12 + σ22 )

On a obtenu la densité de la loi N (0, σ12 + σ22 ).

Proposition 8.1.3 (Variance d’une somme de v.a. indépendantes) Si X, Y sont


des v.a. indépendantes alors

Var(X + Y ) = Var(X) + Var(Y ).

Remarque 8.1.4 Notez que la même propriété est vraie pour l’espérance (qui est linéaire)
sans hypothèse d’indépendance alors qu’en général, c’est faux pour la variance si X et Y
ne sont pas indépendantes. Par exemple

Var(X + X) = Var(2X) = 22 Var(X) = 4 Var(X) 6= 2 Var(X) = Var(X) + Var(X).

Démonstration :

Var(X + Y ) = E[(X + Y )2 ] − (E[X + Y ])2


= E[X 2 + 2XY + Y 2 ] − (E[X] + E[Y ])2
= E[X 2 ] + 2E[XY ] + E[Y 2 ] − E[X]2 − 2E[X]E[Y ] − E[Y ]2
= E[X 2 ] − E[X]2 + E[Y 2 ] − E[Y ]2 + 2E[XY ] − 2E[X]E[Y ]
= Var(X) + Var(Y )

car par indépendance de X et Y , on a la propriété (7.5) : E[XY ] = E[X]E[Y ].

Exemple : Soient X1 ∼ N (m1 , σ12 ) et X2 ∼ N (m2 , σ22 ) des variables normales indépen-
dantes. Retrouvons les paramètres de la loi de Y = X1 + X2 .
On a vu que Y suit une loi normale, pour connaı̂tre les paramètres, il s’agit de connaı̂tre
E[X1 + X2 ] = E[X1 ] + E[X2 ] = m1 + m2 et Var(X1 + X2 ) = Var(X1 ) + Var(X2 ) = σ12 + σ22 .
D’où
Y = X1 + X2 ∼ N (m1 + m2 , σ12 + σ22 ).
Retenons des exemples précédents que :
Proposition 8.1.4 Soient X1 ∼ N (m1 , σ12 ) et X2 ∼ N (m2 , σ22 ) des v.a. normales indé-
pendantes. Alors
X1 + X2 ∼ N (m1 + m2 , σ12 + σ22 ).
8.2. Convergences probabilistes 91

8.2 Convergences probabilistes


Les variables aléatoires Xn sont des applications de Ω vers R, et pour des applications,
le mode de convergence le plus naturel est celui de la convergence pour chaque ω ∈ Ω de
la suite de réels Xn (ω) vers le réel X(ω).

∀ω ∈ Ω, Xn (ω) → X(ω), n → +∞.

Il s’agit de la convergence simple d’une suite d’applications vue en analyse. Malheureuse-


ment, en probabilité, ce type de convergence est trop restrictif : on ne peut raisonnablement
demander à tous les Xn (ω) de converger (i.e. pour tous les ω ∈ Ω).
Par contre, il est plus raisonnable de demander que l’ensemble des ω pour lesquels ça
n’arrive pas soit de probabilité nulle (ou au moins petite). Ceci nous amène aux notions de
convergences presque sûre et en probabilité.
Définition 8.2.1 Soit (Xn )n∈N∗ une suite de variables aléatoires et X une v.a. définies sur
le même espace de probabilité (Ω, F, P). On dit que Xn converge presque sûrement (p.s.)
vers X si l’ensemble des ω tels que Xn (ω) converge vers X(ω) a pour probabilité 1, c’est à
dire :
P(ω ∈ Ω | Xn (ω) → X(ω)) = 1.
p.s.
On la note Xn −→ X.
Rappelons qu’un évènement de probabilité 1 n’est pas nécessairement égale à tout l’espace
Ω. Il peut même y avoir une infinité d’éléments dans son complémentaire. Seulement, ce
complémentaire est (du point de vue de la probabilité P) négligeable.
Dans la convergence presque sûre, si on se fixe ε > 0, le rang n0 à partir duquel Xn (ω)
est à moins de ε de X(ω) dépend à la fois de ε et de ω : n0 = n0 (ε, ω). Généralement,
on ne sait pas comment n0 (ε, ω) dépend de ω. De ce fait la convergence presque sûre est
essentiellement une convergence théorique.
Par exemple, si on suppose que Xn est une v.a. dont la réalisation dépend de n épreuves
répétées, savoir que Xn converge presque sûrement vers X ne permet pas de prédire un
nombre (non aléatoire, c’est à dire qui ne dépend pas de ω) n d’épreuves à partir duquel
|Xn (ω) − X(ω)| ≤ ε si ce n’est pour presque tous les ω ∈ Ω, même pour 99% ou 95%
d’entre eux. Or cette question a une grande importance pratique pour le statisticien. C’est
l’une des raisons de l’introduction de la convergence en probabilité qui permet de répondre
à cette question lorsque l’on connaı̂t la vitesse de convergence selon ce mode.

Définition 8.2.2 (Convergence en probabilité) Soit (Xn )n≥1 une suite de variables
aléatoires et X une v.a. définies sur le même espace de probabilité (Ω, F, P). On dit que
Xn converge en probabilité vers X si :

∀ε > 0, lim P(|Xn − X| ≥ ε) = 0.


n→+∞

P
On la note Xn → X.
92 Chapitre 8. c JCB – L2 IMAE – Université de La Rochelle

Remarque 8.2.1 Il faut bien comprendre que quand Xn converge en probabilité vers X,
il est toujours possible que pour certain ω ∈ Ω, Xn (ω) s’écarte de X(ω) même quand n
est grand. Mais, c’est de moins en moins probable, c’est à dire que cela arrive pour peu de
ω ∈ Ω : la probabilité que Xn soit distant de plus de ε > 0 de X est de plus en plus faible.

Proposition 8.2.1 La convergence presque sûre entraı̂ne la convergence en probabilité.

Démonstration : Soit Xn convergeant presque sûrement vers X. L’évènement

Ω0 = ω ∈ Ω; lim Xn (ω) = X(ω)



n→+∞

est de probabilité 1. Fixons ε > 0, et définissons

Ω0ε = ω ∈ Ω, ∃m0 = m0 (ω), ∀n ≥ m0 , |Xn (ω) − X(ω)| < ε .




Il est clair que Ω0 ⊂ Ω0ε et donc P(Ω0ε ) = 1. Par traduction des opérateurs logiques ∀ et ∃
en opérateur ensemblistes ∩, ∪, on exprime facilement :
[ \ 
Ω0ε = ω ∈ Ω; |Xn (ω) − X(ω)| < ε .
m0 ∈N n≥m0

Posons
 \
Ak = ω ∈ Ω; ∀n ≥ k |Xn (ω) − X(ω)| < ε = {ω ∈ Ω; |Xn (ω) − X(ω)| < ε .
n≥k

Il est clair que la suite d’ensembles (Ak )k∈N est croissante (Ak ⊂ Ak+1 ) pour l’inclusion et
de réunion Ω0ε . Par continuité monotone de P, on a
[
Ak = P(Ω0ε ) = 1.

lim P(Ak ) = P
k→+∞
k

D’où ∀η > 0, ∃k0 tel que pour k ≥ k0 , P(Ak ) ≥ 1 − η. En particulier, la traduction de


P(Ak0 ) ≥ 1 − η donne :

∀n ≥ k0 , P(|Xn − X| < ε) > 1 − η,

ce qui justifie la convergence en probabilité de Xn vers X.

Remarque 8.2.2 La réciproque n’est pas vraie. Cependant, si Xn converge vers X en pro-
babilité, on peut montrer qu’il existe une sous-suite de Xn qui converge presque sûrement
vers X.
8.3. Loi des grands nombres 93

8.3 Loi des grands nombres


8.3.1 Loi faible des grands nombres
La loi des grands nombres est la formulation rigoureuse des faits intuitifs suivants : si
on lance un « grand » nombre de fois une pièce en l’air, il y aura en moyenne 50% de
piles. De même, si on lance un « grand » nombre de fois un dé à 6 faces en l’air, il y
aura en moyenne 1/6-ème des faces qui seront, par exemple, des 4 (si la pièce et le dé sont
équilibrés). Il existe deux versions de la LGN : la faible où on énonce la convergence en
probabilité et la forte avec la convergence presque sûre.

Théorème 8.3.1 (Loi faible des grands nombres) Soit (Xn )n∈N∗ une suite de variables
aléatoires (deux à deux) indépendantes et de même loi avec un moment d’ordre 2. Alors
n
1X P
Xi −→ E[X1 ], n → +∞.
n i=1

La LGN énonce la convergence (en probabilité) de la moyenne arithmétique Mn vers la


moyenne probabiliste E[X1 ].
Elle est encore vraie en supposant seulement l’existence du moment d’ordre 1 : E[|X1 |] <
+∞.
Démonstration : Ici, la v.a. limite est la constante E[X1 ](= E[Xi ] pour tout i car les
v.a. Xi ont même loi, donc même espérance). Il s’agit de vérifier
n
!
1X
∀ε > 0, lim P Xi − E[X1 ] ≥ ε = 0.
n→+∞ n i=1
n n
1X 1X
Posons Mn = Xi , par linéarité, on a E[Mn ] = E[Xi ] = E[X1 ]. D’autre part,
n i=1 n i=1
par indépendance des Xi , on a grâce à la proposition 8.1.3 :

n
! n
! n
1X 1 X 1 X
Var(Mn ) = Var Xi = 2 Var Xi = Var(Xi )
n i=1 n i=1
n2 i=1
n
1 X 1 Var(X1 )
= 2
Var(X1 ) = 2 × (n Var(X1 )) = .
n i=1 n n

L’inégalité de Tchebychev appliquée à Mn donne alors pour tout ε > 0 :


n
!
 1 X 

∀n ∈ N , P Xi − E[X1 ] ≥ ε = P(|Mn − E[Mn ]| ≥ ε)
n i=1
Var(Mn )

ε2
94 Chapitre 8. c JCB – L2 IMAE – Université de La Rochelle

Var(X1 )
≤ . (8.4)
nε2
On conclut en faisant tendre n vers +∞.

Remarque 8.3.1 Plus que la convergence, nous avons obtenu la vitesse de convergence :
d’après (8.4) elle est en 1/n. Si on connaı̂t Var(X1 ), on peut donc pour une proportion
donnée, trouver un rang n0 tel Pque que pour n ≥ n0 et pour cette proportion de ω ∈ Ω, on
ait la moyenne arithmétique n1 ni=1 Xi à moins de ε de l’espérance E[X1 ].

Souvent, on se trouve dans le cas particulier où les v.a. considérées sont de loi de
Bernoulli, la LGN se réécrit alors :

Corollaire 8.3.1 Soit (Xn )n∈N∗ une suite de variables aléatoires indépendantes de Ber-
noulli de même paramètre p. Alors
n
1X P
Xi −→ p, n → +∞.
n i=1

Démonstration : La LGN (théorème 8.3.1) s’applique car E[Xi2 ] = p < ∞ et elle donne
le résultat car E[Xi ] = p quand Xi ∼ b(p).

C’est ce résultat qui formalise le résultat intuitif sur le lancer des dés ou des pièces :
avec

1 si on obtient le 4 au i-ème lancer
Xi = = 1{obtenir le 4 au i-ème lancer} ,
0 si on n’obtient pas le 4 au i-ème lancer
n
1X
on a Xi ∼ b(1/6) et p = 1/6 et Xi désigne la fréquence d’apparition du 4 sur les n
n i=1
premiers lancers qui tend vers 1/6 d’après le corollaire 8.3.1.

Application : estimation d’une proportion inconnue


On se propose d’estimer le paramètre p inconnu d’une loi de Bernoulli en observant
un grand nombre de fois un phénomène aléatoire de loi de Bernoulli b(p), c’est à dire en
observant les valeurs d’une suite de v.a. Xi (ω) indépendantes et de loi de Bernoulli b(p).
Considérons une urne comportant des boules rouges en proportion inconnue p et des
boules vertes (en proportion 1 − p).
D’après la LGN, un grand nombre de tirages de boules dans l’urne donnera une esti-
mation de la proportion p en comptant (la fréquence du) nombre de boules rouges ainsi
tirées. Seulement, quel est le nombre raisonnable de boules à tirer pour avoir une réponse
assez précise ?
8.3. Loi des grands nombres 95

On effectue n tirages d’une boule avec remise. Notons



1 si la boule tirée est rouge
Xi = = 1 .
0 si la boule tirée est verte la boule est rouge au i-ème tirage
Désignons toujours par Mn la moyenne arithmétique des n premières v.a. Xi . Ici cela
correspond à la fréquence d’apparition des boules rouges lors des n premiers tirages. D’après
la loi faible des grands nombres (ou plutôt son corollaire 8.3.1 pour les proportions), Mn
converge en probabilité vers p :
n
1X P
Mn = Xi −→ p, n → +∞.
n i=1

On v.a. donc estimer p par Mn pour n assez grand.


En fait, on observe une valeur particulière Mn (ω) calculée à partir des n tirages réel-
lement effectués mais peut-être que cette valeur particulière n’est pas une bonne approxi-
mation de p : imaginez qu’on ne tire que des boules rouges, on aurait Mn (ω) = 1 qui n’est
sans doute pas une bonne approximation de p ; ce qui nous sauve, c’est qu’un tel tirage est
peu probable.
Mais alors, la question pratique qui se pose est de donner un intervalle fourchette I à
partir de l’observation de Mn (ω) pour p et de contrôler le risque (toujours possible) que p
ne soit pas du tout dans l’intervalle I proposé.
Pour cela, on dispose de l’inégalité de Tchebychev, qui pour Mn s’écrit :
Var(X1 ) p(1 − p) 1
P(|Mn − p| ≥ t) ≤ 2
= 2
≤ .
nt nt 4nt2
car p(1 − p) ≤ 1/4 en majorant sur [0, 1] la fonction x 7→ x(1 − x) qui atteint son maximum
en 1/2 où il vaut 1/4. D’où
1
P(p ∈]Mn − t, Mn + t[) = P(Mn − t < p < Mn + t) = 1 − P(|Mn − p| ≥ t) ≥ 1 − . (8.5)
4nt2
En pratique, on fait n tirages, on observe Mn (ω) et on dit que I =]Mn (ω)−t, Mn (ω)+t[ est
un intervalle de confiance (ou fourchette). L’équation (8.5) permet de voir que la probabilité
de se tromper (i.e. en fait p 6∈ I) est majorée par 1/(4nt2 ).
Si on se fixe un seuil d’erreur α ∈]0, 1[ (en général proche de 0 pour que l’erreur soit
faible), on trouve tα tel que 1/(4nt2α ) = α et l’intervalle Iα =]Mn (ω) − tα , Mn (ω) + tα [
est l’intervalle de confiance au niveau 1 − α : on peut annoncer que p est dans l’intervalle
Iα =]Mn (ω) − tα , Mn (ω) + tα [ avec un risque d’erreur de α.

Exemple (Sondage) : Avant le second tour d’une élection, opposant les candidats D
et G, un institut de sondage interroge au hasard 1000 personnes dans la rue. On note p
la proportion d’électeurs décidés à voter pour G dans la population totale et on suppose
l’échantillon de personnes intérrogées représentatif. Dans l’échantillon sondé, cette propor-
tion est égale à 0, 54. Proposer un intervalle de confiance pour p avec un risque d’erreur de
5%.
96 Chapitre 8. c JCB – L2 IMAE – Université de La Rochelle

Le sondage peut être assimilé à une suite de 1000 tirages de boules avec remise (la
réponse d’un électeur de l’échantillon correspondant au tirage d’une boule d’une certaine
couleur selon son choix de vote), on est alors ramené à la situation de l’exemple précédent.
Ici, la fréquence observée du choix du candidat G sur les 1000 électeurs est M1000 (ω) = 0, 54
et l’intervalle de confiance est

I =]0, 54 − t; 0, 54 + t[

avec un niveau de confiance supérieur à

1 − 1/(4 × 1000 × t2 ).

Ici, on veut un seuil de confiance d’au moins 0, 95, il faut alors


1 1 1
1− ≥ 0, 95 ⇐⇒ ≤ 0, 05 ⇐⇒ t ≥ √ ' 0, 0707.
4000 × t2 4000 × t2 10 2
Avec t = 0, 071, on trouve l’intervalle de confiance I =]0, 469 ; 0, 611[. On constate en
particulier qu’une zone de l’intervalle de confiance correspond à une proportion inférieure
à 1/2, pour lequel G ne serait pas élu alors que la proportion observée semblait lui garantir
l’élection.
On ne peut donc pas garantir l’élection de G avec une probabilité d’erreur inférieure à
5%.
Combien de personnes faut-il alors interroger pour donner une fourchette à ±1% avec
un seuil de 95% ?
Repartons de (8.5), avec une fourchette de t = 0, 01. On veut un seuil de confiance d’au
moins 0, 95 donc un risque d’erreur α ≤ 0, 05 :
1
≤ 0, 05.
4n × 0, 012
On trouve n = 50 000, ce qui donne au sondage un coût prohibitif. En gros, pour améliorer
la précision d’un facteur 10, il faut interroger 100 fois plus de personnes et donc multiplier
les coûts par 100.

8.3.2 Lemme de Borel-Cantelli


Définition 8.3.1 Soit (An ) une suite d’évènements observables. On pose
\ [
limn→+∞ An = Ak ,
n≥1 k≥n
[ \
limn→+∞ An = Ak .
n≥1 k≥n

On parle respectivement de limites supérieure et inférieure de la suite d’ensembles (An )n .


8.3. Loi des grands nombres 97

L’ensemble limn→+∞ An désigne l’ensemble des ω ∈ Ω qui sont dans une infinité d’en-
sembles Ai .
L’ensemble limn→+∞ An désigne l’ensemble des ω ∈ Ω qui sont dans tous les ensembles
Ai à partir d’un certain rang.
Notons de plus que limn→+∞ An ⊂ limn→+∞ An .

Théorème 8.3.2 (Premier lemme de Borel-Cantelli) Soit (An )n≥1 une suite d’évè-
nements observables. Si la série suivante converge
+∞
X
P(An ) < +∞,
n=1

alors

P limn→+∞ An = 0.
[
Démonstration : Posons Bn = Ak . La suite (Bn )n est décroissante (Bn+1 ⊂ Bn ) et
k≥n
l’intersection des Bn est limn→+∞ An . D’après le théorème de continuité monotone séquen-
tielle (cf. Proposition ??), on a
 [
P limn→+∞ An = P( Bn ) = lim P(Bn ).
n→+∞
n

Or
[  +∞
X
P(Bn ) = P Ak ≤ P(Ak ) := rn .
k≥n k=n

Comme rn est le reste d’une série convergente, rn est de limite nulle et donc

P limn→+∞ An = 0.

Remarque
P 8.3.2 Le deuxième lemme de Borel-Cantelli complète le premier : si la série
n P(A n ) diverge et qu’en plus les An sont des évènements indépendants alors la limite
supérieure des An est de probabilité 1.

8.3.3 Loi forte des grands nombres


Il existe une version de la loi des grands nombres pour la convergence presque sûre, on
parle de la loi forte (car la convergence presque sûre est plus forte que celle en probabilité
d’après la proposition 8.2.1) :
98 Chapitre 8. c JCB – L2 IMAE – Université de La Rochelle

Théorème 8.3.3 (Loi forte des grands nombres) Soit (Xn )n≥1 une suite de variables
aléatoires indépendantes et de même loi avec un moment d’ordre quatre (i.e. E[X14 ] < +∞).
Alors n
1X p.s.
Xi −→ E[X1 ].
n i=1
n
1X
Réciproquement, si Xi converge presque sûrement vers c quand n → +∞ alors les
n i=1
variables ont un moment d’ordre 1, E[|X1 |] < +∞ et leur espérance est E[Xi ] = c.
Remarque 8.3.3 En fait, il suffit qu’un moment d’ordre 1 existe. Mais on se contente de
la preuve dans le cas où le moment d’ordre 4 existe (c’est déjà assez compliqué).
Démonstration : Il suffit de prouver le théorème quand E[X1 ] = 0, le cas général
s’obtenant par translation. Posons
n n
1X X
Mn = Xi , Sn = Xi .
n i=1 i=1

Soit ε > 0 et Dε = limn→+∞ {|Mn | ≥ ε}.


On va utiliser le lemme de Borel-Cantelli pour montrer que P(Dε ) = 0.
S
On conclura alors en montrant que D = n D1/n est de probabilité nulle. En effet on a
D = {Mn 6−→ 0}, donc le résultat est acquis si on montre que D est de probabilité nulle.
Afin d’utiliser le lemme de Borel-Cantelli, on montre la convergence de la série de terme
général P(|Mn | ≥ ε). Or
P(|Mn | ≥ ε) = P(|Sn | ≥ nε) = P(|Sn |4 ≥ n4 ε4 ).
Par l’inégalité de Markov, on a alors
E[Sn4 ]
P(|Mn | ≥ ε) ≤ .
n 4 ε4
Il reste à estimer E[Sn4 ].
Sn4 = (X1 + X2 + · · · + Xn )4
X
= Xk1 Xk2 Xk3 Xk4
k1 ,k2 ,k3 ,k4 ∈{1,...,n}4

 n
X X
M (4) Xi4 + M (1, 3) Xi3 Xj







 i=1 1≤i<j≤n
X X
= + M (2, 2) Xi2 Xj2 + M (2, 1, 1) Xi2 Xj Xk
1≤i<j≤n 1≤i<j<k≤n



 X



 + M (1, 1, 1, 1) X i Xj Xk Xl
1≤i<j<k<l≤n
8.3. Loi des grands nombres 99

où M (i1 , . . . , ip ) désigne le nombre de 4-uplets (u1 , . . . , u4 ) de {1, . . . , n} en prenant i1 fois


la valeur u1 , . . . , ip fois la valeur up .
La linéarité et l’indépendance des Xi donnent alors E[Sn4 ] =
 n
X X
M (4) E[Xi4 ] + M (1, 3) E[Xi3 ]E[Xj ]







 i=1 1≤i<j≤n
X X
+ M (2, 2) E[Xi2 ]E[Xj2 ] + M (2, 1, 1) E[Xi2 ]E[Xj ]E[Xk ]
1≤i<j≤n 1≤i<j<k≤n



 X



 + M (1, 1, 1, 1) E[Xi ]E[Xj ]E[Xk ]E[Xl ]
1≤i<j<k<l≤n

Comme E[Xi ] = 0, les deuxième, quatrième et cinquième termes sont nuls. Comme on
montre que M (4) = 1, M (2, 2) = 6, on obtient
n
X X
E(Sn4 ) = E[Xi4 ] + 6 E[Xi2 ]E[Xj2 ]
i=1 1≤i<j≤n

= nE[X14 ]
+ 6Cn (E[X12 ])2
2

= nE[X14 ]
+ 3n(n − 1)(E[X12 ])2
≤ M n + 3M n(n − 1)
≤ 3M n2 < +∞

où on a posé M = max(E[X12 ]2 , E[X14 ]). On a alors

E[Sn4 ] 3M
P(|Mn | ≥ ε) ≤ ≤ .
n 4 ε4 n 2 ε4

Comme 3M/n2 ε4 est le terme général d’une série convergente, P(|Mn | ≥ ε) aussi. Le lemme
de Borel-Cantelli s’applique et donne P(Dε ) = 0. Posons alors
+∞
[
D= D1/p
p=1

On a P(D) = 0 car D est réunion dénombrable d’ensembles D1/p de probabilités nulles.


Prenons alors \ \[\
Ω0 := Dc = c
D1/p = {|Mn | ≤ 1/p}.
p≥1 p≥1 k≥1 n≥k

On a P(Ω0 ) = 1 et pour tout ω ∈ Ω0 , par traduction dans le langage logique des symboles
ensemblistes, pour tout p ∈ N∗ , il existe un entier k tel que pour tout n ≥ k |Mn | ≤ 1/p.
On a donc Mn qui converge presque sûrement vers 0 ; ce qui achève la preuve de la
LGN forte.
100 Chapitre 8. c JCB – L2 IMAE – Université de La Rochelle

8.4 Théorème central limite


Rappelons deux résulats essentiels pour les v.a. normales.
• Si X est de loi N (m, σ 2 ) alors pour tout α ∈ R, αX est de loi N (αm, α2 σ 2 ).
X −m
Puis on peut toujours se ramener à la loi normale standard car ∼ N (0, 1).
σ
X −m
Considérer s’appelle centrer et réduire la v.a. X.
σ
• Si X1 ∼ N (m1 , σ12 ) et X2 ∼ N (m2 , σ22 ) sont indépendantes alors

X1 + X2 ∼ N (m1 + m2 , σ12 + σ22 ).

Théorème 8.4.1 (Théorème central limite) Soit (Xn )n≥1 une suite de variables aléa-
toires indépendantes et de même loi, de moyenne m et de variance σ 2 (i.e. avec un moment
d’ordre deux fini). Notons Mn les moyennes arithmétiques
n
X1 + · · · + Xn 1X
Mn = = Xi ,
n n i=1

et Zn les variables centrées réduites associées :



Mn − m n(Mn − m)
Zn = √ = .
σ/ n σ

Alors pour tout intervalle [a, b], on a


b 2
e−t /2
Z
lim P (a ≤ Zn ≤ b) = √ dt. (8.6)
n→+∞ a 2π

n(Mn − m)
On dit que la loi de la v.a. Zn = converge en loi vers la loi normale standard
σ
N (0, 1).

Remarque 8.4.1 – Ce théorème justifie le rôle fondamental de la loi normale : si


(Xn )n est une suite de v.a. indépendantes de même loi centrée (E[X1 ] = m = 0) et
réduite (de variance σ = 1) alors (8.6) se réécrit :
b 2
√ e−t /2
Z

∀a < b, lim P a ≤ nMn ≤ b = √ dt.
n→+∞ a 2π
Autrement dit les sommes renormalisée se comportent asymptotiquement comme la
loi normale. De façon générale, l’écart entre les moyennes arithmétiques et l’espérance
(écart qui tend vers 0 par la LGN) se comporte après normalisation comme la loi
normale.
8.4. Théorème central limite 101

– En pratique : lorsque l’on considère un grand nombre de v.a. indépendantes et de


même loi X1 , . . . , Xn , on approxime leur somme Sn ou leur moyenne Mn par des
variables normales suivantes :

Sn “ ∼00 N (nm, σ 2 n), Mn “ ∼00 N (m, σ 2 /n).

En particulier si Xn est de loi B(n, p), on peut voir Xn comme une somme de n v.a.
indépendantes de loi de Bernoulli b(p). D’après la remarque précédente, on a
Proposition 8.4.1 (Moivre-Laplace) La loi binomiale B(n, p) s’approxime par la
loi normale N (np, np(1 − p)) lorsque n est grand.
On a donc deux approximations possibles pour les lois binomiales B(n, p) : celle par
une loi de Poisson P(np) lorsque n est grand, p petit et np de l’ordre de quelques
unités et celle par N (np, np(1 − p)) lorsque n est grand. Seule la pratique permet de
décider laquelle des deux est la meilleure approximation.
– Le TCL est fondamental en statistique pour l’obtention d’intervalles de confiance. Il
est à l’origine de beaucoup d’approximation de lois et permet de se ramener à la loi
normale pour laquelle on dispose de tables des valeurs.

Exemple : Un joueur lance une pièce équilibrée : lorsqu’il obtient pile, il gagne 100
Euros, lorsqu’il obtient face, il perd 100 Euros. Estimer le nombre maximal de lancers à
effectuer pour que ce joueur ait plus de 95 chances sur 100 de perdre au plus 2000 Euros.
Notons n le nombre de lancers effectués, la v.a. Xn égale au nombre de piles obtenus
sur les n premiers lancers suit une loi B(n, 1/2) et le gain (algébrique) vaut :

Gn = 100 × Xn − 100 × (n − Xn ) = 200Xn − 100n.

On cherche alors n tel que P(Gn ≥ −2000) ≥ 0, 95. Or {Gn ≥ −2000} = {Xn −n/2 ≥ −10}.
Comme Xn de loi binomiale, peut être vue comme une somme Xn = 1 + · · · + n de v.a.
n n
de loi b(1/2), on peut approximer la loi de Xn , d’après le TCL par la loi normale N ( , )
2 4
X n − n/2
et donc celle de Xn∗ = p par la loi N (0, 1).
n/4
Chercher n tel que P(Gn ≥ −2000) = P(Xn − n/2 ≥ −10) ≥ 0, 95 revient à estimer n
tel que
√ √
P(N (0, 1) ≥ −20/ n) ≥ 0, 95 ou par symétrie de la loi P(N (0, 1) ≤ 20/ n) ≥ 0, 95.

La table de la loi N (0, 1) donne alors


 2
20 20
√ = 1, 65 c’est à dire n= = 146.
n 1, 65

Exemple : On lance 3600 fois un dé. Évaluer la probabilité que le nombre d’apparitions
du 1 soit compris entre 540 et 660.
102 Chapitre 8. c JCB – L2 IMAE – Université de La Rochelle

Soit S le nombre d’apparitions du 1. S suit la loi B(3600, 1/6) et donc sa loi peut être
approchée par celle de S̃ ∼ N (600, 500).
S̃ − 600
Mais comme X0 = √ ∼ N (0, 1), on a
500
P(540 ≤ S ≤ 660) ' P(540 ≤ S̃ ≤ 660)
!
540 − 600 S̃ − 600 660 − 600
= P √ ≤ √ ≤ √
500 500 500
= P(−2, 68 ≤ X0 ≤ 2, 68)
= P(X0 ≤ 2, 68) − P(X0 ≤ −2, 68)
= 2P(X0 ≤ 2, 68) − 1
' 0, 9926.

Exemple : Une entreprise emploie 500 personnes qui déjeunent à la cantine à l’un ou
l’autre des deux services avec une probabilité égale de manger au premier ou au second
service. Si le gérant veut avoir une probabilité supérieure à 95% de disposer d’assez de
couverts, combien devra-t-il en prévoir à chacun des deux services ?
On commence par numéroter les 500 personnes de 1 à 500 et on note pour chacune Xi la
variable aléatoire qui vaut 1 si la ième personne choisit le premier service (avec probabilité
1/2) et 0 sinon. Les Xi sont donc des v.a. de Bernoulli b(1/2).
Nous cherchons k le nombre minimal de couverts à disposer à chaque service, sinon 500
couverts conviennent sans prendre le moindre risque. P500
Le nombre de personnes déjeunant au premier service est S500 = i=1 Xi de loi
B(500, 1/2). Le nombre de personnes déjeunant au second service est 500 − Sn (on suppose
que tout le monde mange exactement une fois).
Le problème revient à chercher le plus petit k tel que
P(S500 ≤ k, 500 − S500 ≤ k) ≥ 0, 95
c’est à dire
P(500 − k ≤ S500 ≤ k) ≥ 0, 95.
D’après le théorème de Moivre-Laplace, on peut approcher la loi de S500 par N (250, 125).
X0 − 250
Notons X0 une v.a. suivant une telle loi, on a √ ∼ N (0, 1). Notons F0 la fonction
125
de répartition de X0 (pour laquelle on dispose d’une table des valeurs approchées). On a
alors
P(500 − k ≤ S500 ≤ k) ' P(500 − k ≤ X0 ≤ k)
 
250 − k k − 250
= P √ ≤ X0 ≤ √
125 125
   
k − 250 250 − k
= F0 √ − F0 √
125 125
8.4. Théorème central limite 103
 
k − 250
= 2F0 √ − 1.
125
 
k−250
Pour obtenir une probabilité d’au moins 0, 95, il faut que F0 √
125
≥ 0, 975, ce qui d’après
la table de la loi normale standard est vrai pour
k − 250 √
√ ≥ 1, 96 c’est à dire k ≥ 250 + 1, 96 125 ' 271, 91.
125
Il faut donc au minimum 272 couverts à chacun des deux services pour qu’avec une pro-
babilité de 95%, chacun puisse manger au service ce son choix.
En acceptant les 5% de risque, il y a moyen de réaliser une économie considérable en
place et en mobilier.

Vous aimerez peut-être aussi