0% ont trouvé ce document utile (0 vote)

36 vues107 pages

Probabilités et Variables Aléatoires

Ce document est un cours sur les probabilités, axé sur les variables aléatoires discrètes et à densité, destiné aux étudiants de Licence en Mathématiques. Il couvre des sujets tels que les langages ensemblistes, les mesures de probabilité, l'indépendance, le conditionnement, et les lois de probabilité. L'introduction présente l'importance de la théorie des probabilités dans la modélisation d'expériences incertaines et la prévision des résultats.

Transféré par

recherche801

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

36 vues107 pages

Probabilités et Variables Aléatoires

Transféré par

recherche801

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Probabilités

variables aléatoires discrètes et à densité

Licence de Mathématiques 2ème année

Jean-Christophe Breton
Université de La Rochelle
Janvier–Mai 2010

version du 12 mai 2010

2
Table des matières

1 Langages ensembliste et probabiliste 3

1.1 Opérations entre ensembles . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Vocabulaire probabiliste . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 Dénombrement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.4 Rappel sur les séries . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2 Mesures de probabilité 13
2.1 Espace de cardinal fini . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2 Espaces infinis dénombrables (par exemple N, Z) . . . . . . . . . . . . . . . 14
2.3 Espace Ω général . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

3 Indépendance et conditionnement 21
3.1 Conditionnement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

4 Variables aléatoires discrètes 31

4.1 Variables aléatoires discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.1.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.1.2 Loi d’une variable aléatoire discrète . . . . . . . . . . . . . . . . . . 32
4.1.3 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.2 Lois discrètes classiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.2.1 Lois de v.a. finies déjà connues . . . . . . . . . . . . . . . . . . . . 34
4.2.2 Lois Géométriques . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.2.3 Loi de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

5 Moment des variables aléatoires discrètes 41

5.1 Espérance d’une v.a. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
5.1.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
5.1.2 Espérances classiques . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5.1.3 Propriétés de l’espérance . . . . . . . . . . . . . . . . . . . . . . . . 42
5.2 Variance d’une va . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

i
ii Table des matières

6 Variables aléatoires à valeurs réelles réelles 53

6.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
6.2 Intégrales impropres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
6.3 Variables aléatoires réelles à densité . . . . . . . . . . . . . . . . . . . . . . 56
6.4 Lois à densité classiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
6.4.1 Lois uniformes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
6.4.2 Lois exponentielles . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
6.4.3 Lois de Cauchy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
6.4.4 Lois normales ou gaussiennes . . . . . . . . . . . . . . . . . . . . . 62
6.4.5 Lois log-normales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
6.5 Espérance et variance des lois à densité . . . . . . . . . . . . . . . . . . . . 64
6.6 Tableau comparatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

7 Vecteurs aléatoires 71
7.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
7.2 Vecteurs aléatoires discrets . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
7.3 Intégrales multiples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
7.4 Vecteurs aléatoires réels à densité . . . . . . . . . . . . . . . . . . . . . . . 75
7.5 Variables aléatoires indépendantes . . . . . . . . . . . . . . . . . . . . . . . 77
7.6 Lois conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
7.6.1 Cas discret . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
7.6.2 Cas continu : densité conditionnelle . . . . . . . . . . . . . . . . . . 83

8 Somme de v.a. indépendantes 85

8.1 Somme de deux v.a. indépendantes . . . . . . . . . . . . . . . . . . . . . . 85
8.2 Convergences probabilistes . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
8.3 Loi des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
8.3.1 Loi faible des grands nombres . . . . . . . . . . . . . . . . . . . . . 93
8.3.2 Lemme de Borel-Cantelli . . . . . . . . . . . . . . . . . . . . . . . . 96
8.3.3 Loi forte des grands nombres . . . . . . . . . . . . . . . . . . . . . . 97
8.4 Théorème central limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
Table des matières 1

Introduction
Dans la vie courante, il existe de nombreuses expériences dont le résultat n’est pas
connu avec certitude. C’est l’objet de la théorie des probabilités que de fournir des modèles
mathématiques permettant l’étude d’expériences dont le résultat n’est pas connu ou ne
peut pas être prévu avec une totale certitude. Par exemple :

Expérience Résultat observable

Lancer d’un dé Un entier k ∈ {1, . . . , 6}
Prélèvement de n objets en sortie Nombre d’objets défectueux
d’une chaı̂ne de production dans l’échantillon∈ N∗
Questionnaire à 100 questions Suite ω de 100 réponses
binaires ω ∈ {oui, non}100
Lancer d’une pièce jusqu’à Un entier k ∈ N : le temps
l’obtention d’un pile d’attente du premier succès
Mise en service d’une ampoule Durée de vie T ∈ R+
Lancer d’une flèche sur une cible Point d’impact M ∈ R2
Mouvement (Brownien) d’un grain Une fonction continue :
de pollen dans un liquide la trajectoire x ∈ C(R)
Mélange de deux gaz Répartition spatiale de deux
types de molécules
Le résultat précis de ces expériences n’est en général pas prévisible. Toutefois, l’observation
et/ou l’intuition amènent souvent à penser que certaines règles semblent vérifier.
Par exemple si on jette 6000 fois un dé à 6 faces, on s’attend à ce que le nombre d’ap-
paritions de faces « 4 » soit voisin de 1000. De même, si on met en service 100 téléviseurs
du même modèle, leurs durées de vie observées seront concentrées autour d’une valeur
moyenne.
Lorsqu’un phénomène se répète à l’infinité avec des réalisations indépendantes et iden-
tiques, ses effets cummulés ont une distribution qui s’approche toujours de la même loi :
une loi normale.
La théorie des probabilités permet de donner un sens précis à ces règles.
De façon générale, la théorie des probabilités modélise des situations concrètes et permet
de calculer les probabilités d’évènement.
En aval des probabilités, il y a les statistiques. Ils se chargent de confronter les modèles
probabilistes à la réalité observée pour les valider ou les invalider.
Les statistiques s’occupent par exemple de questions du genre :
– si à un examen sous forme de 100 questions avec réponses binaires, un étudiant a
60 bonnes réponses, est-il légitime de considérer qu’il a fait mieux que répondre au
hasard ?
2 Table des matières

– Si sur un échantillon de 1000 personnes, un sondage donne un candidat à une élection

crédité de 54% des voies, peut-on en déduire raisonnablement son élection ?

Dans ce cours, nous verrons les outils probabilistes de base pour calculer des probabilités
d’évènements.
Nous définirons les lois classiques et nous étudierons leurs utilisations. Les cas des
variables aléatoires discrètes et des variables aléatoires à densité sont traités.
Dans une deuxième partie, nous considérerons les vecteurs aléatoires et les sommes de
variables aléatoires (indépendantes).
Nous terminerons avec la loi des grands nombres et le théorème central limite qui sont
les premiers résultats fondamentaux des Probabilités.
Chapitre 1

Langages ensembliste et probabiliste

La théorie moderne des probabilités utilise le langage des ensembles pour modéliser
une expérience aléatoire. Nous commencons donc par quelques rappels sur les opérations
usuelles entre les ensembles.

1.1 Opérations entre ensembles

Soit Ω un ensemble de base. Considérons A et B deux sous ensembles de Ω.
Un élément ω appartient à A s’écrit ω ∈ A.
L’ensemble A est inclus dans l’ensemble B s’écrit A ⊂ B.
L’ensemble des points de B qui ne sont pas dans A se note B \ A.
L’ensemble de tous les points qui ne sont pas dans A est le complémentaire de A, il est
noté Ac = Ω \ A.
L’ensemble vide ∅ est l’ensemble qui ne contient aucun point, il s’agit du complémentaire
de tout l’espace ∅ = Ωc = Ω \ Ω.
La réunion A ∪ B de A et de B est l’ensemble des points qui sont dans A ou dans B.
L’intersection A ∩ B de A et de B est l’ensemble des points qui sont dans A et dans B.
Deux ensembles A et B sont dits disjoints si leur intersection est vide A ∩ B = ∅.

Proposition 1.1.1 • Le complémentaire d’une réunion ou d’une intersection est donné

par
(A ∩ B)c = Ac ∪ B c et (A ∪ B)c = Ac ∩ B c .
• Le complémentaire du complémentaire d’un ensemble est cet ensemble : (Ac )c = A.

Démonstration : Exercice
Rappelons enfin que de façon générale, pour montrer l’égalité A = B de deux ensembles
A et B, il faut (et il suffit de) voir la double inclusion

A⊂B et B ⊂ A.

3
4 Chapitre 1. c JCB – L2 IMAE – Université de La Rochelle

C’est à dire, montrer que pour tout ω ∈ A, on a ω ∈ B et de la même façon pour tout
ω 0 ∈ B, on a ω 0 ∈ A. On peut éventuellement le faire en une seule étape si on raisonne par
équivalence : il faut alors montrer que ω ∈ A est équivalent à ω ∈ B.

1.2 Vocabulaire probabiliste

Dans la suite, l’ensemble de base Ω va nous permettre de décrire une expérience aléa-
toire. Cet ensemble va représenter l’ensemble des résultats possibles de l’expérience (aléa-
toire) que l’on étudie. Nous l’appellerons l’univers des possibles ou espace probabilisé. Les
parties de Ω seront appelés des évènements (ou évènements composés), les élément ω ∈ Ω
seront les évènements élémentaires, c’est à dire les évènements les plus simples qui ne
peuvent pas être exprimés par des évènements encore plus simples.
Exemple : On lance un dé à six face. Le résultat a priori est aléatoire et les résultats
possibles sont 1, 2, 3, 4, 5, 6. L’espace Ω = {1, 2, 3, 4, 5, 6} décrit bien l’ensemble des résul-
tats. La partie A = {1, 4} est un évènement composé : il s’agit de « le résultat est un 1 ou
un 4 ». Par contre {3} est un évènement élémentaire, « observer un 3 » ne peut pas être
décrit par des évènements plus simples.
Avec ce mode de représentation, les opérations logiques sur les évènements que sont
« ou », « et », « négation » se traduisent par des opérations ensemblistes : réunion ∪, inter-
section ∩, complémentaire c . Voici le tableau des correspondances entre ces deux langages :

Notations Vocabulaire ensembliste Vocabulaire probabiliste

∅ ensemble vide évènement impossible
Ω ensemble plein évènement certain
ω élément de Ω évènement élémentaire
A sous-ensemble de Ω évènement
ω∈A ω appartient à A le résultat ω est une des
réalisations possibles de A
A⊂B A inclus dans B A implique B
A∪B réunion de A et B A ou B
A∩B intersection de A et B A et B
Ac complémentaire de A dans Ω évènement contraire de A
A∩B =∅ A et B sont disjoints A et B sont incompatibles

Remarque 1.2.1 Il faut retenir que

• une réunion ∪ s’interprète comme un « ou »,
• une intersection ∩ s’interprète comme un « et »,
• un complémentaire c s’interprète comme « le contraire de ».
1.2. Vocabulaire probabiliste 5

Notez enfin que en mathématiques le « ou » est un ou inclusif alors que dans le langage
usuel il s’agit d’un ou exclusif (dessert ou fromage ? c’est l’un ou l’autre mais pas les deux
alors qu’avec le « ou » mathématiques, ça pourrait être les deux).

Les opérations sur les ensembles (ou sur les évènements) peuvent faire intervenir plus
de deux évènements. Ainsi si A1 , . . . , An sont des évènements,
n
[
Ai = A1 ∪ A2 ∪ · · · ∪ An
i=1

est l’ensemble des ω qui sont dans au moins un des Ai . De même

n
\
Ai = A1 ∩ A2 ∩ · · · ∩ An
i=1

est l’ensemble des ω qui sont dans tous les Ai . On étend encore ces définitions aux réunions
et intersections dénombrables (i.e. en nombre infini mais qu’on peut énumérer) :

[ +∞
[
Ai = Ai = {réalisation d’au moins un Ai },
i∈N i=1

\ +∞
\
Ai = Ai = {réalisation de tous les Ai }.
i∈N i=1

Rappel (dénombrabilité) : une partie infinie est dénombrable si elle peut être mise en
bijection avec N, c’est à dire si on peut énumérer tous ses éléments. L’ensemble N, bien
sûr, est dénombrable mais Z, Q le sont aussi. Par contre [0, 1] ou R ne le sont pas.
Comme on peut énumérer aussi les éléments d’une partie finie, il est usage d’inclure
le cas fini dans le cas dénombrable, même si d’ordinaire, le terme dénombrable est utilisé
pour les parties infinies dénombrables.

Ces opérations logiques sur des suites d’évènements sont très utiles pour analyser les
évènements complexes : il s’agit de les réexprimer comme réunion, intersection, complémen-
taire d’évènements plus simples. Il importe donc de bien traduire en langage ensembliste
un énoncé et ses enchaı̂nements logiques.

Voilà maintenant un exemple, utile dans de nombreuses situations, de « traduction » en

langage ensembliste d’une assertion en français.

Proposition 1.2.1 Soit Ai , i ≥ 0, une collection infinie d’ensembles. Alors

– À partir d’un certain rang, ω est dans tous les Ai s’écrit
[\
ω∈ Aj = limi Ai .
i≥0 j>i
6 Chapitre 1. c JCB – L2 IMAE – Université de La Rochelle

– ω est dans une infinité de Ai s’écrit

\[
ω∈ Aj = limi Ai .
i≥0 j>i

Démonstration :
• Pour le premier point : Soit ω qui, à partir d’un certain rang, est dans tous les Ai .
On traduit cela de la façon suivante : il existe un rang i tel que pour tout rang j > i, ω est
dans Aj . D’après la signification des symboles ∀, ∃, ∩, ∪, cela revient à écrire
[ \
ω∈ Aj
|{z}
i≥0 j>i
|{z} ω est
il existe pour tout dans Aj .
|{z}
i≥0 j>i

• Pour le second point, dire que ω est dans une infinité de Ai est équivalent à dire que

« pour tout p, il existe q > p avec ω dans Aq . »

En effet, si tel est le cas, ω est bien dans une infinité de Ai car, d’après cette propriété,
– avec p = 0, il existe p1 > p tel que ω est dans Ap1
– avec p = p1 , il existe p2 > p1 tel que ω est dans Ap2
– avec p = p2 , il existe p3 > p2 tel que ω est dans Ap3
– ...
– avec p = pn , il existe pn+1 > pn tel que ω est dans Apn+1
– ...
et finalement, ω est dans chaque Apn , n ∈ N∗ , c’est à dire dans une infinité de Ai . Récipro-
quement, s’il est dans une infinité de Ai , alors pour tout p, on trouve q > p tel que ω ∈ Aq ;
sinon, ce serait qu’il existe p tel que pour q > p, ω n’est pas dans Aq . Ou encore : ω ne
peut appartenir qu’aux Ai d’indice i ≤ p, c’est à dire seulement à un nombre fini d’entre
eux, ce qui est faux.
Donc, pour ce deuxième point, pour tout p, on trouve q > p, tel que ω ∈ Aq , en langage
∀, ∃, cela s’écrit \ [
ω∈ Aq
|{z}
p≥0 q>p
|{z} ω est
pour tout il existe dans Aq .
|{z}
p≥0 q>p

1.3 Dénombrement
Considérons un ensemble Ω = {ω1 , . . . , ωn } de cardinal n.
• Permutation
1.3. Dénombrement 7

Le nombre de permutations d’un ensemble est le nombre de manières d’ordonner ses

éléments. Le nombre de permutations de Ω est n! = 1 × 2 × 3 × · · · × n.
En effet, il s’agit de trouver tous les reordonnements de {ω1 , . . . , ωn }. On a d’abord n
choix pour le premier terme, puis n − 1 pour le deuxième puis n − 2 puis . . . puis 2 choix
pour l’avant dernier et enfin plus qu’un seul pour le dernier. Il y a donc n × (n − 1) × (n −
2) × · · · × 2 × 1 = n!.
Exercice. Faire la preuve pour n = 3 et trouver les 3! = 6 permutations de {A, B, C}.
Exemple. Un professeur doit faire passer dans la journée 5 étudiants pour un oral de
rattrapage. Il a 5! = 120 manières de choisir l’ordre de passage.

• Tirage de p objets (avec remise) dans un ensemble de cardinal n.

Pour chaque tirage, il y a n objets possibles à tirer, il y a donc en tout n × · · · × n = np
tirages possibles (avec remise) dans un ensemble de cardinal n.
Exemple. Un professeur note chaque étudiant d’une classe de 30 étudiants par une
note entière de 0 à 20. Le nombre de résultats possibles est le nombre de manières de
choisir de façon indépendante 30 éléments de l’ensemble {0, 1, . . . , 20} de cardinal 21. Il y
a donc 2130 résultats possibles pour l’ensemble de la classe.

• Arrangement (nombre de tirages ordonnés sans remise).

On appelle tirage sans remise de p éléments dans un ensemble Ω de cardinal n, tout
tirage successif de p éléments de Ω, chaque élément ne pouvant être tiré plus d’une fois.
Bien évidemment, pour qu’un tel tirage puisse exister, il faut avoir p ≤ n.
Le nombre de tirages sans remise est

n!
n(n − 1) . . . (n − p + 1) =
(n − p)!

Remarque 1.3.1 Le nombre n!/(n − p)! s’appelle le nombre d’arrangements, on le note

Apn . Lorsque n = p, on retrouve le nombre de permutations, puisqu’on tire tous les éléments
de Ω et qu’en fait, on les a reordonnés.

Exemple. 3500 personnes se présentent au concours de l’agrégation de Mathématiques.

300 places sont mises au concours. Combien y-a-t-il de palmarès possibles (en supposant
qu’il n’y ait pas d’ex-aequo) ?
3500!
Réponse : 3500 × 3499 × · · · × 3202 × 3201 = .
3200!
• Combinaison (nombre de tirages désordonnés sans remise)
Il s’agit du nombre de parties d’un ensemble Ω possédant p éléments.
C’est exactement le nombre de manières de choisir p objets dans un ensemble de n
objets, l’ordre n’ayant pas d’importance.
On sait qu’il y a n!/(n − p)! tirages de p objets lorsque l’on tient compte de l’ordre.
Or un tirage (désordonné) donné (où l’ordre n’est pas pris en compte) représente p! tirages
où l’ordre est pris en compte (car il y a p! permutations de l’ensemble des p objets du
8 Chapitre 1. c JCB – L2 IMAE – Université de La Rochelle

tirage). Il y a donc p! fois plus de tirages de p objets lorsque l’on tient compte de l’ordre.
Finalement, le nombre de tirages (sans tenir compte de l’ordre) est

n!
.
p!(n − p)!

Exemple. Dénombrer le nombre de tirages sans remise de 2 éléments parmi 4 avec ordre
puis sans ordre.
Exemple. 3500 personnes se présentent au concours de l’agrégation de Mathématiques.
300 places sont mises au concours. Combien y-a-t-il de promotions possibles ?
300
Réponse : C3500 . Ici, Ω est l’ensemble des candidats et il s’agit de choisir 300 d’entre
eux. On s’intéresse aux différentes promotions possibles, prises dans leur ensemble, sans
tenir compte du classement de la promotion.
• Rappelons d’abord la définition des coefficients binomiaux et la formule du binome
de Newton :
n
n n! X
Cnk = = 0 ≤ k ≤ n, (a + b)n = Cnk ak bn−k .
k k!(n − k)! k=0

Cnk s’interprète comme le nombre d’échantillons de taille k dans une population de taille
n. Par exemple, si dans une urne de n boules distinctes, on en tire k, il y a Cnk tirages
différents possibles.
Rappelons les propriétés immédiates suivantes pour tout n ∈ N∗ et k ≤ n :

Cnk = Cnn−k , Cnn = Cn0 = 1, Cnn−1 = Cn1 = n

Cnk−1 + Cnk = Cn+1
k
(triangle de Pascal).

Exercice. Prouver deux fois la formule du binome de Newton :

• d’abord en utilisant l’interprétation en dénombrement des coefficients binomiaux,
• puis par récurrence sur n avec la relation du triangle de Pascal.

1.4 Rappel sur les séries

Dans le cadre qu’on se fixe dans ce cours (espaces discrets ou réels), les calculs de pro-
babilités font intervenir plus d’outils que ceux de dénombrement (réservé au cadre fini, cf.
Terminale ou première année de Licence). On a alors recours à des outils d’analyse qu’il
faut connaı̂tre : séries numériques, intégrales impropres, quelques notions de développe-
ment en séries entières. Ces outils seront développés ultérieurement dans d’autres cours
de Mathématiques. On se contente ici de les définir succinctement. Cette approche suffira
pour l’utilisation dont on a besoin. Pour plus de précision, on renvoie aux cours concernés.
1.4. Rappel sur les séries 9

Séries numériques
Les séries numériques sont des sommes infinies de réels (ou de complexes). Généra-
lement, il s’agit de la somme de tous les termes d’une suite réelle (ai )i∈N . On la définit
(lorsqu’elle existe) comme la limite quand n tend vers +∞ de la somme des n premiers
termes :
+∞
X Xn
S= ai = lim ai . (1.1)
n→+∞
i=0 i=0

Bien sûr, la somme infinie n’a pas toujours un sens (exemple, +∞ i

P
i=0 (−1) n’existe pas car
les sommes partielles valent 1 ou 0 selon la parité de n) ou si elle en a un, sa valeur peut
être infinie.
Si la limite est bien définie et est finie, on parle alors de série convergente. Sinon on
parle de série divergente.
Lorsque ai ≥ 0, la limite qui définit la série dans (1.1) existe toujours, seulement, elle
peut être égale à +∞.
Pour une suite (ai )i de signe quelconque –ou complexe–, la série S est dite absolument
+∞
X
convergente si la série |ai | des |ai | est finie. Lorsque tel est le cas, la série S est a fortiori
i=1
convergente : la convergence absolue entraı̂ne la convergence simple (la réciproque étant
fausse).
On renvoie au cours d’Analyse 2 pour les différents critères de convergence des séries.
On se contente de :
Séries de Riemann : La série de terme général an = 1/nα converge ssi α > 1.
Critère de Riemann : Soit (an )n une suite réelle (ou même complexe).
+∞
X
α
• S’il existe α > 1 tel que lim n |an | = 0 alors la série an converge (absolument).
n→+∞
n=0
+∞
X
• S’il existe α < 1 tel que limn→+∞ nα |an | = +∞ alors la série an diverge (absolu-
n=0
ment).
Lorsque l’on considère une suite géométrique (du type ai+1 = ρ ai ), la somme Sn de ses
n + 1 premiers termes est connue :
n
X 1 − ρn+1
Sn = ai = a0
i=0
1−ρ

si ρ 6= 1, sinon, Sn = n + 1 (valeur qu’on retrouve en faisant un d.l. à l’ordre 1 en 1 de la

formule précédente). La série converge si |ρ| < 1 et alors la série vaut

1
S = lim Sn = a0 .
n→+∞ 1−ρ
10 Chapitre 1. c JCB – L2 IMAE – Université de La Rochelle

Ce type de série est le cas particulier d’autres séries qui définissent des fonctions : les
séries entières.

Séries entières
Définition 1.4.1 Étant donnée une suite (an )n∈N , la série entière associée est la série de
terme général un = an xn , c’est donc une fonction de x :
+∞
X
f (x) = an x n .
n=0

Cette fonction n’est pas définie pour tout les x. Cependant, on a :

Proprosition–définition Il existe R ∈ [0, +∞] appelé rayon de convergence (nul dans
le plus mauvais cas, infini dans le meilleur) de la série entière tel que
– la série qui définit f (x) converge si |x| < R,
– la série diverge si |x| > R,
– pour |x| = R, le comportement (convergence ou divergence) dépend de la série étudiée.
Exemples.
• Avec an = 1 pour tout n ≥ 0, on obtient la série géométrique (de raison x) de rayon
de convergence R1 = 1 :
+∞
X 1
f1 (x) = xn = .
n=0
1−x

• Avec an = (−1)n+1 /n pour tout n ≥ 1, on obtient le développement en série entière de

la fonction logarithme (en 1) de rayon de convergence R2 = +1 :
+∞
X (−1)n+1
f2 (x) = xn = ln(1 + x).
n=0
n

• Avec an = 1/n! pour tout n ≥ 0, on obtient le développement en série entière de la

fonction exponentielle de rayon de convergence R3 = +∞ :
+∞ n
X x
f3 (x) = = ex .
n=0
n!

• Un cas pathologique : avec an = n! pour tout n ≥ 0, on obtient

+∞
X
f4 (x) = n!xn
n=0

qui est de rayon nul. Donc en pratique, cette série n’existe pas (ou si peu : seulement pour
x = 0).
1.4. Rappel sur les séries 11

Un résultat important concernant les séries entières est qu’on les dérive termes à termes
sur leur domaine de convergence (i.e. pour |x| < R) :
+∞ +∞ +∞ +∞
X 0 X X X
f 0 (x) = an x n = an (xn )0 = nan xn−1 = (n + 1)an+1 xn pour |x| < R.
n=0 n=0 n=1 n=0

On intègre aussi les séries entières termes à termes sur le disque (ouvert) de convergence :
Z t Z t X +∞
! +∞ Z t +∞ +∞
n
X
n
X an n+1 X an−1 n
f (x)dx = an x dx = an x dx = x = x pour |x| < R.
0 0 n=0 n=0 0 n=0
n+1 n=1
n

Ces résultats sont très utiles dans le calcul de séries entières.

Exemples. Retrouver les développements en séries entières en 0 de
1 1
, ln(1 + x), , arctan x.
1+x 1 + x2
12 Chapitre 1. c JCB – L2 IMAE – Université de La Rochelle
Chapitre 2

Mesures de probabilité

2.1 Espace de cardinal fini

Dans le cas où l’espace Ω est fini {ω1 , . . . , ωn }, la probabilité P(A) peut se définir pour
tout sous ensemble A ⊂ Ω et la probabilité P est donnée par une suite finie (pi )1≤i≤n qui
est la suite des probabilités des évènements élémentaires ωi : pi = P({ωi }).
Définition 2.1.1 Soit Ω = {ω1 , . . . , ωn } un ensemble fini à n éléments. On définit une
probabilité P sur (Ω, P(Ω)) par la donnée d’une suite finie de réels positifs pi de somme
Xn
pi = 1 données par P{ωi } = pi . Pour tout A ⊂ Ω, P(A) est alors donnée par
i=1
X
P(A) = pi .
i;ωi ∈A

On rappelle que P(Ω) désigne l’ensemble des parties de Ω, et que card P(Ω) = 2card Ω .
Ainsi, si Ω = {a, b, c} alors

P(Ω) = ∅, {1}, {2}, {3}, {1, 2}, {1, 3}, {2, 3}, {1, 2, 3} .

Une mesure de probabilités P est une fonction définie sur l’ensemble des parties de Ω.
Formellement, on a
P(Ω) → [0, 1]
P:
A 7→ P(A)
Remarque 2.1.1 On constate facilement que P satisfait les propriétés suivantes :
– P(Ac ) = 1 − P(A),
– si A ∩ B = ∅, alors
P(A ∪ B) = P(A) + P(B)
et plus généralement si A1 , A2 , . . . , Ap sont 2 à 2 disjoints, alors

P(A1 ∪ A2 ∪ · · · ∪ Ap ) = P(A1 ) + P(A2 ) + · · · + P(Ap ) (propriété de fini-additivité).

13
14 Chapitre 2. c JCB – L2 IMAE – Université de La Rochelle

Exemple : On effectue une partie de pile ou face en trois coups. Quelle est la probabilité
d’obtenir face au premier lancer et pile au dernier ?
On modélise la situation en prenant Ω = {p, f }3 où p désigne pile et f face. P est définie
sur l’ensemble de toutes les parties de Ω, P(Ω). Il y a 8 = 23 triplets de résultats possibles :

(p, p, p), (p, p, f ), (p, f, p), (f, p, p), (f, f, p), (f, p, f ), (p, f, f ), (f, f, f ).

Si on suppose la pièce bien équilibrée, a priori chacun de ces triplets est équiprobable (i.e. a
la même probabilité de survenir). Comme la somme de leur probabilité doit faire 1, chacun
a pour probabilité 1/8. L’évènement A cherché se décompose en :

(f, f, p), (f, p, p).

D’où P(A) = P{(f, f, p), (f, p, p)} = P{(f, f, p)} + P{(f, p, p)} = 1/8 + 1/8 = 1/4.

Lorsque l’espace est fini, la probabilité la plus simple est l’équiprobabilité qui donne la
même probabilité à chaque évènement élémentaire ωi . C’est la probabilité qui est utilisée
en général sur les espaces Ω finis lorsque rien n’est précisé.

Exemple. • Lorsqu’on lance un dé équilibré à 6 faces, il est naturel de choisir l’équi-
probabilité qui associe la probabilité 1/6 à chaque face 1, 2, 3, 4, 5, 6.
• Au loto, la probabilité de chaque boule est 1/49.
Exercice. On jette deux fois deux dés. Quelle est la probabilité d’avoir au moins une
fois au moins un six ?

2.2 Espaces infinis dénombrables (par exemple N, Z)

Lorsque l’espace Ω est infini dénombrable, la probabilité se définit encore sur tout P(Ω) :
à chaque sous-ensemble A de Ω, une probabilité est associée. Elle est donnée à nouveau
par la suite infinie des probabilités des évènements élémentaires ωi :

Définition 2.2.1 Soit Ω = {ω1 , . . . , ωn , . . .} un ensemble infini dénombrable. Une proba-

bilité P sur (Ω, P(Ω)) est définie par la donnée d’une suite infinie de réels positifs pi de
+∞
X
somme pi = 1, donnés par P{ωi } = pi . Pour tout A ⊂ Ω, P(A) est alors donnée par
i=1
X
P(A) = pi .
i;ωi ∈A

Remarque 2.2.1 Il revient au même dans le cas discret fini ou infini d’indexer à partir de
0 ou de 1. Dans le cas fini, se méfier cependant si l’indexation va de 0 à n que le cardinal
de l’ensemble Ω est n + 1.
On constate encore que P satisfait les propriétés suivantes :
2.2. Espaces infinis dénombrables (par exemple N, Z) 15

– P(Ac ) = 1 − P(A),
– si A ∩ B = ∅, alors
P(A ∪ B) = P(A) + P(B)

et plus généralement si A1 , A2 , . . . , An , . . . est une suite infinie d’évènements 2 à 2

disjoints, alors

+∞
[ +∞
X

P Ai = P(A1 ∪ · · · ∪ An ∪ . . . ) = P(Ai ) (propriété de σ-additivité).
i=1 i=1

Noter que l’équiprobabilité n’existe plus lorsque l’espace est dénombrable non fini : si
on accorde la même probabilité p à chaque ωi , par σ-additivité, on doit avoir

+∞
! +∞ +∞
[ X X
1 = P(Ω) = P {ωi } = P{ωi } = p;
i=1 i=1 i=1

la somme est alors infinie si p > 0 et elle est nulle si p = 0, ce qui dans les deux cas est
absurde.
Exemple de probabilité définie sur (N, P(N)). Soit a ∈ R∗+ , posons

e−a ak
∀k ∈ N, pk = P({k}) = .
k!

(pk )k≥0 est une suite de terme positifs de somme

+∞ +∞ −a k +∞ k
X X e a −a
X a
pk = =e = e−a ea = 1.
k=0 k=0
k! k=0
k!

La probabilité d’une partie A de N est alors donnée par

X e−a ak
P(A) = .
k∈A
k!

Par exemple la probabilité de l’ensemble des nombres pairs 2N = {2n, n ∈ N} est

+∞ −a 2k
X e a ea + e−a 1 + e−2a
P(2N) = = e−a cosh(a) = e−a =
k=0
2k! 2 2

−2a
et celle des nombres impairs est P(2N + 1) = 1 − P(2N) = 1−e2 .
On verra au chapitre prochain qu’il s’agit de la loi de Poisson de paramètre a.
16 Chapitre 2. c JCB – L2 IMAE – Université de La Rochelle

2.3 Espace Ω général

On l’a vu dans les cas précédents : la probabilité P est une fonction qui à un ensemble
A associe un nombre compris entre 0 et 1, sa probabilité P(A). C’est donc une fonc-
tion d’ensembles – c’est à dire sur les ensembles. Cette fonction P doit vérifier un certain
nombre de propriétés (poids total égale à 1, σ-additivité). Pour à la fois les satisfaire et être
définie avec cohérence, on ne peut pas définir, en général, la probabilité de tous les sous-
ensembles A ⊂ Ω. P n’est donc pas en général définie sur tout P(Ω), l’ensemble de tous les
sous-ensembles de Ω. On doit se restreindre à une famille d’évènements F ⊂ P(Ω) qu’on
appellera famille des évènements observables (en L3, on parlera de tribu ou de σ-algèbre).
On définit alors la probabilité P sur l’ensemble des évènements observables F :

Définition 2.3.1 Soient Ω un ensemble, F une famille d’observables sur Ω. On appelle

probabilité sur (Ω, F) toute application P de F dans [0, 1] qui vérifie :
(i) P(Ω) = 1,
(ii) (Propriété de σ-additivité) Pour toute suite (Ai )i∈N∗ d’observables, deux à deux dis-
joints, on a ! +∞
[ X
P Ai = P(Ai ).
i∈N∗ i=1

On appelle (Ω, F, P) un espace probabilisé ou espace de probabilité.

Remarque 2.3.1 – En pratique, pour vérifier que P est une probabilité, on se conten-
tera de vérifier que P(A) ≥ 0 pour tout observable A, que P(Ω) = 1 et que P est
additive : P(A ∪ B) = P(A) + P(B) quand A et B sont disjoints.
– Lorsque l’espace Ω est discret (c’est à dire fini ou dénombrable, par exemple N ou
une partie de N), tous les ensembles sont observables et on peut choisir F = P(Ω).
C’est la raison pour laquelle cette restriction aux familles d’observables n’est jamais
apparue lors de cours de Probabilités en espaces finis ou discrets.
– Lorsque l’espace est R, pour le choix de la famille d’observables, on peut se restreindre
aux ensembles qui sont des intervalles.
Exemples. Soit f (x) = 21 e−|x| , montrer que
Z b
P([a, b]) = f (x)dx
a

définit une mesure de probabilité sur les intervalles de R.

Finalement, par observables, on pourra se contenter de comprendre dans ce cours :
n’importe quel ensemble si l’espace Ω est discret et les intervalles si l’espace est R.

Propriétés des probabilités

Une probabilité satisfait un certain nombre de propriétés de base qu’il faut connaı̂tre.
2.3. Espace Ω général 17

Toute probabilité P sur (Ω, F) vérifie les propriétés suivantes :

• ∀A ∈ F, P(Ac ) = 1 − P(A).
En effet Ω = A ∪ Ac avec une réunion disjointe. Par additivité, on a donc

1 = P(Ω) = P(A) + P(Ac ).

• P(∅) = 0.
En effet ∅ = Ωc donc P(∅) = 1 − P(Ω) = 1 − 1 = 0.
• Additivité (cas particulier du point (ii) de la définition d’une probabilité) :
– Si A ∩ B = ∅, P(A ∪ B) = P(A) + P(B),
– Si les Ai (1 ≤ i ≤ n) sont deux à deux disjoints,
n
! n
[ X
P Ai = P(Ai ).
i=1 i=1

• ∀A, B ∈ F, A ⊂ B ⇒ P(A) ≤ P(B).

En effet B = (B \ A) ∪ A où la réunion est disjointe. On a donc

P(B) = P(A) + P(B \ A) ≥ P(A).

• ∀A, B ∈ F, P(A ∪ B) = P(A) + P(B) − P(A ∩ B).

En effet A ∪ B = (B \ A) ∪ (A ∩ B) ∪ (A \ B) où les ensembles sont deux à deux disjoints.
On a donc
P(A ∪ B) = P(B \ A) + P(A ∩ B) + P(A \ B). (2.1)
Or A = (A \ B) ∪ (A ∩ B) avec une réunion d’ensembles disjoints donc

P(A) = P(A \ B) + P (A ∩ B).

Et de même B = (B \ A) ∪ (A ∩ B) avec une réunion d’ensembles disjoints donc

P(B) = P(B \ A) + P (A ∩ B).

On a donc P(B \ A) = P(B) − P (A ∩ B) et P(A \ B) = P(A) − P (A ∩ B), ce qui conclut

en reportant dans (2.1).
– ∀A ∈ F, ∀B ∈ F, P(A ∪ B) ≤ P(A) + P(B),
– ∀A1 , A2 , . . . , An ∈ F, P(A1 ∪ A2 ∪ · · · ∪ An ) ≤ P(A1 ) + P(A2 ) + · · · + P(An ),
– ∀A1 , A2 , . . . , An , · · · ∈ F, ! +∞
[ X
P Ai ≤ P(Ai ).
i∈N∗ i=1

En effet cela suit pour une réunion de deux ensembles A ∪ B du point précédent. Le
cas d’une réunion dénombrable est une simple généralisation.
• Propriété de continuité monotone séquentielle
18 Chapitre 2. c JCB – L2 IMAE – Université de La Rochelle

(i) Si (An )n∈N∗ est une suite croissante d’évènements (i.e. pour tout n An ⊂ An+1 ) alors
[
lim P(An ) = P(A) où A = An . (2.2)
n→+∞
n∈N∗

(ii) Si (Bn )n∈N∗ est une suite décroissante d’évènements (i.e. pour tout n Bn+1 ⊂ Bn )
alors \
lim P(Bn ) = P(B) où B = Bn . (2.3)
n→+∞
n∈N∗

En effet dans le cas croissant, on a ∪nk=1 Ak = An et donc

lim P(An ) = lim P(∪nk=1 Ak ) = P(∪+∞

k=1 Ak ).
n→+∞ n→+∞

De même dans le cas décroissant, on a ∩nk=1 Ak = An et donc

lim P(An ) = lim P(∩nk=1 Ak ) = P(∩+∞

k=1 Ak ).
n→+∞ n→+∞

Remarque 2.3.2 En général, on ne peut pas calculer P(A ∪ B) à partir de P(A) et de

P(B) comme le montre la formule P(A ∪ B) = P(A) + P(B) − P(A ∩ B) : il faut connaı̂tre
A ∩ B, on verra que ceci est lié à l’indépendance ou non des évènements A et B.
Attention, cette formule ne se généralise pas immédiatement pour plus de deux évène-
ments, par exemple pour A, B, C, on a :

P(A ∪ B ∪ C) = P(A) + P(B) + P(C) − P(A ∩ B) − P(A ∩ C) − P(B ∩ C) + P(A ∩ B ∩ C).

Plus généralement, on a le résultat suivant (admis) :

Proposition 2.3.1 (Formule de Poincaré) Pour tout entier n ≥ 2, et tous évènements

A1 , A2 , . . . , An , on a :
n
! n n
[ X X X
P Ai = P(Ai ) + (−1)k+1 P(Ai1 ∩ Ai2 ∩ · · · ∩ Aik ).
i=1 i=1 k=2 1≤i1 <i2 <···<ik ≤n

Définition 2.3.2 On appelle système complet d’évènements toute suite A1 , A2 , . . . , An , . . .

d’évènements deux à deux disjoints et dont la somme des probabilités vaut 1 :
X
P(Ai ) = 1.
i

Proposition 2.3.2 (Formule des probabilités totales – version 1) Étant donné un

système complet {A1 , A2 , . . . , An , . . .}, pour tout évènement B, sa probabilité peut se dé-
composer de la façon suivante :
X
P(B) = P(B ∩ Ai ) = P(B ∩ A1 ) + P (B ∩ A2 ) + . . . P(B ∩ Ai ) + . . . (2.4)
i
2.3. Espace Ω général 19

S
Démonstration : Notons Ω0 = i Ai , il s’agit d’un évènement de probabilité 1 (par
définition de {Ai }i système complet). Observons que les ensembles B ∩ Ai , i = 1 . . . , n . . . ,
sont deux à deux disjoints : (B ∩ Ai ) ∩ (B ∩ Aj ) ⊂ Ai ∩ Aj = ∅ si i 6= j. Par σ-additivité,
on a maintenant

où la dernière égalité vient de :

P(B) − P(B ∩ Ω0 ) = P(B \ (B ∩ Ω0 ))

= P(B ∩ (Ω \ Ω0 ))
= P(B ∩ Ωc0 )
≤ P(Ωc0 )
= 1 − P(Ω0 )
= 1 − 1 = 0.

Concrètement le calcul de P(B) par (2.4) consiste à calculer la probabilité de B en

distinguant selon les différents cas possibles dans l’espace Ω (A1 , . . . , An , . . . ) et à faire la
somme obtenue des probabilités dans ces différents cas pour réobtenir la probabilité totale
P(B).
20 Chapitre 2. c JCB – L2 IMAE – Université de La Rochelle
Chapitre 3

Indépendance et conditionnement

3.1 Conditionnement
Le conditionnement a pour objet de répondre à la question suivante : comment se
modifie la probabilité d’un évènement lorsque l’on connaı̂t déjà une information supplé-
mentaire ?
Exemple. On choisit au hasard deux chiffres entre 1 et 9. Sachant que la somme
obtenue est paire, calculer la probabilité p pour que les deux chiffres soient impairs.
Dans la suite, on fixe un espace probabilisé (Ω, F, P).
Définition 3.1.1 Soit B un évènement de probabilité non nulle P(B) 6= 0. Pour tout
évènement observable A, on définit la probabilité conditionnelle de A sachant B :
P(A ∩ B)
P(A|B) = .
P(B)

L’intérêt de cette notion vient du fait que souvent, compte tenu des informations dis-
ponibles dans un problème, il est plus facile d’attribuer une valeur à la probabilité condi-
tionnelle P(A|B) que de calculer P(A ∩ B) ou P(A).
Exemple. Une urne U1 contient 9 boules dont 5 rouges, une urne U2 contient 5 boules
dont 3 rouges. On choisit une urne au hasard et on tire une boule de cette urne. Si cette
boule est rouge, calculer la probabilité pour que la boule tirée vienne de l’urne U1 .

Remarque 3.1.1 – Il importe de bien comprendre la différence entre P(A|B), la pro-

babilité que A se réalise sachant que B est réalisé et P(A ∩ B), la probabilité que A
et B se réalisent simultanément.
– L’écriture A|B ne désigne pas un nouvel ensemble et ne veut rien dire isolément. Seul
P(A|B) a une signification. En fait, on ne modifie pas l’ensemble A mais on change
la probabilité en prenant P(·|B) comme nouvelle probabilité, comme le montre la
proposition suivante :

21
22 Chapitre 3. c JCB – L2 IMAE – Université de La Rochelle

Proposition 3.1.1 Soit dans un espace probabilisé (Ω, F, P), B ∈ F un évènement ob-
servable fixé tel que P(B) > 0. Alors la fonction d’ensemble P(·|B) :

A ∈ F −→ P(A|B)

est une nouvelle probabilité sur (Ω, F).

De ce fait, on dispose pour les probabilités conditionnelles de toutes les propriétés d’une
probabilité vues à la proposition ??.
Notons que pour chaque observable B de probabilité non nulle, on définit une probabi-
lité conditionnelle P(·|B). Ce ne sont pas les mêmes probabilités conditionnelles pour des
évènements B et B 0 différents.
On dispose par ailleurs des propriétés suivantes propres aux conditionnements :

Proposition 3.1.2 (Règle des conditionnements successifs) Si A1 , . . . , An sont n évè-

nements observables tels que P(A1 ∩ A2 ∩ · · · ∩ An−1 ) 6= 0, alors

P(A1 ∩ A2 ∩ · · · ∩ An ) = P(A1 )P(A2 |A1 )P(A3 |A1 ∩ A2 ) × · · · × P(An |A1 ∩ A2 ∩ · · · ∩ An−1 ).

Application : Quand B ⊂ C, on a on a pour tout évènement A :

P(A ∩ B|C) = P(A|B)P(B|C).

n−1
\ i
\
Démonstration : Notons d’abord que pour 1 ≤ i ≤ n − 1, Aj ⊂ Aj donc
j=1 j=1

n−1
\ i
\
0<P Aj ≤ P Aj
j=1 j=1

Ti
si bien qu’on peut conditionner par j=1 Aj pour tout 1 ≤ i ≤ n − 1. On a alors par
simplifications en cascade.

P(A1 )P(A2 |A1 )P(A3 |A1 ∩ A2 ) × · · · × P(An |A1 ∩ A2 ∩ · · · ∩ An−1 )

P(A1 ∩ A2 ) P(A1 ∩ A2 ∩ A3 ) P(A1 ∩ · · · ∩ An )
= P(A1 ) × × × ··· ×
P(A1 ) P(A1 ∩ A2 ) P(A1 ∩ · · · ∩ An−1 )
= P(A1 ∩ · · · ∩ An ).

Définition 3.1.2 Une famille finie ou non d’ensembles (Ai )i∈I est une partition de Ω si
– les ensembles sont deux à deux disjoints : ∀i 6= j, Ai ∩ Aj = ∅,
3.1. Conditionnement 23
[
– leur réunion est Ω : Ω = Ai .
i∈I
La partition est dite finie, infinie, dénombrable si I est un ensemble d’indices respectivement
fini, infini, dénombrable.

On peut aussi calculer la probabilité d’un évènement en conditionnant par tous les cas
possibles, c’est l’objet de la proposition suivante :

Proposition 3.1.3 (Formule des probabilités totales – version 2)

– Si B ∈ F est tel que P(B) 6= 0 et 1 alors

∀A ∈ F, P(A) = P(A|B)P(B) + P(A|B c )P(B c ).

– Si B1 , . . . , Bn ∈ F forment une partition finie de Ω en évènements de probabilités

non nulles alors

∀A ∈ F, P(A) = P(A|B1 )P(B1 ) + P(A|B2 )P(B2 ) + · · · + P(A|Bn )P(Bn ).

– Si B1 , . . . , Bn , · · · ∈ F forment une partition dénombrable de Ω en évènements avec

P(Bi ) > 0 pour tout i ∈ N∗ , alors
+∞
X
∀A ∈ F, P(A) = P(A|Bi )P(Bi ).
i=1

Démonstration : Les premier et deuxième points sont des cas particuliers du dernier
qu’on prouve : comme (Bi )i∈N∗ est une partition de Ω, on a
!
[ [
A=A∩Ω=A∩ Bi = A ∩ Bi ,
i∈N∗ i∈N∗

cette réunion est disjointe car les Bi le sont :

A ∩ Bi ∩ A ∩ Bj ⊂ Bi ∩ Bj = ∅ si i 6= j.

Par σ-additivité de P, il suit :

[ X+∞ +∞
X
P(A) = P A ∩ Bi = P(A ∩ Bi ) = P(A|Bi )P(Bi ).
i∈N∗ i=1 i=1

Exercice. Revenons à l’exemple précédent avec deux urnes où il y a des boules rouges.
Calculer la probabilité de tirer une boule rouge.
Au passage, notons le résultat utile suivant qui souligne que pour calculer une proba-
bilité, il suffit parfois de diviser les cas :
24 Chapitre 3. c JCB – L2 IMAE – Université de La Rochelle

Proposition 3.1.4 Soit (Ω, F, P) un espace probabilisé, (Bi )i∈N∗ une partition de Ω. Alors,
on a
X+∞
∀A ∈ F, P(A) = P(A ∩ Bi ).
i=1

Lorsque l’on sait calculer les probabilités conditionnelles P(A|Bi ) pour tout un système de
partition (Bi )i∈I , on peut chercher les probabilités conditionnelles avec les conditionnements
inverses P(Bi |A). Elles sont données par :

Proposition 3.1.5 (Formule de Bayes) Soient A un évènement observable de probabi-

lité non nulle et (Bi )i∈I une partition de Ω en évènements de probabilités non nulles. On
a
P(A|Bj )P(Bj )
∀j ∈ I, P(Bj |A) = P .
i∈I P(A|Bi )P(Bi )

Le résultat est vrai que I soit un ensemble d’indice fini ou infini dénombrable.
Démonstration : Par définition des probabilités conditionnelles :

P(Bj ∩ A) P(A|Bj )P(Bj )

P(Bj |A) = = .
P(A) P(A)

Il ne reste plus qu’à développer P(A) par la formule des probabilités totale en
X
P(A) = P(A|Bi )P(Bi ).
i∈I

Exemple. Dans une population, chaque individu a une probabilité 0, 2 d’être droitier.
On pratique un test de latéralisation sur les individus de cette population. Un individu qui
n’est pas droitier a une probabilité 0, 6 d’échouer au test. Un individu qui est droitier a une
probabilité 0, 8 de réussir le test. On fait le test sur une personne. Quelle est la probabilité
pour qu’elle ne soit pas droitière sachant que le test est positif ?
Notons D l’évènement « être droitier » et T l’évènement « réussir le test ».
L’énoncé indique que P(D) = 0, 2, P(T c |Dc ) = 0, 6 et P(T |D) = 0, 8. On cherche
P(Dc |T ).
Pour cela, on utilise la formule de Bayes (ou celle des probabilités totales)

P(Dc ∩ T ) P(T |Dc )P(Dc ) (1 − 0, 6) × (1 − 0, 2)

P(Dc |T ) = = c c
=
P(T ) P(T |D )P(D ) + P(T |D)P(D) (1 − 0, 6) × (1 − 0, 2) + 0, 8 × 0, 2
0, 4 × 0, 8 0, 4 4 4 2
= = = = = ' 0, 666.
0, 4 × 0, 8 + 0, 8 × 0, 2 0, 4 + 0, 2 4+2 6 3
3.2. Indépendance 25

3.2 Indépendance
Il arrive que la connaissance d’un évènement influe sur celle d’un autre par exemple,
quand on considère la population française, savoir {habiter près de la mer} influe sur la
réalisation de {habiter à La Rochelle}. Parfois, ce n’est pas le cas : {parler une langue
étrangère} n’influencera pas, a priori, sur {habiter à La Rochelle}. Dans ce dernier cas, on
parle d’évènements indépendants.
C’est aussi le cas dans les situations suivantes :
• lors de tirages aléatoires avec remises dans une urne contenant des boules bleues et
rouges ou
• lors de deux lancers successifs d’un dé.
Dans le premier cas, la couleur de la boule au premier tirage ne donne aucune informa-
tion sur le tirage de la seconde.
Dans le cas d’un dé, l’obtention de l’as au premier lancer ne modifie pas la probabilité
d’obtention d’un quatre, par exemple, au second lancer.
Voyons un autre exemple.
Exemple : Considérons une population de 100 étudiants composée de 60 étudiants en
mathématiques et de 40 en informatique. On étudie deux caractéristiques de ces individus :
être attiré par le métier d’enseignant et pratiquer régulièrement un sport. La répartition
observée est la suivante :
– 31 matheux veulent devenir enseignant, 29 non,
– 10 informaticiens veulent devenir enseignant, 30 non.
– 24 matheux font du sport, 36 non,
– 16 informaticiens font du sport, 24 non,
Notons A = {pratiquer un sport}, B = {être matheux} et C = {vouloir devenir enseignant}.
On a
24 + 16 31 + 10
P(A) = = 0, 40, P(B) = 0, 60, P(C) = = 0, 41.
100 100
Par ailleurs, A ∩ B = {être matheux et pratiquer un sport} d’où P(A ∩ B) = 0, 24.
Et B ∩ C = {être matheux et vouloir devenir enseignant} d’où P(B ∩ C) = 0, 31.
On remarque alors que
P(A ∩ B) = 0, 24 = 0, 40 × 0, 60 = P(A) × P(B). (3.1)
et
P(B ∩ C) = 0, 31 6= P(B) × P(C) = 0, 60 × 0, 41 = 0, 246 (3.2)
Intuitivement, on comprend bien que la pratique d’un sport est sans rapport avec le fait
d’être étudiant en mathématiques ou en informatique. Par contre, la spécialité influe sur
l’attrait du métier d’enseignant : comme le nombre de postes au concours d’enseignants
est plus important en mathématiques qu’en informatique, il est légitime que davantage
d’étudiant en mathématiques envisage sérieusement cette carrière.
On dit alors que A et B sont indépendants tandis que B et C ne le sont pas.
Compte tenu de (3.1) et (3.2), la notion d’indépendance de deux évènements se définit
de la façon suivante :
26 Chapitre 3. c JCB – L2 IMAE – Université de La Rochelle

Définition 3.2.1 Soit (Ω, F, P) un espace de probabilité. Deux évènements observables A

et B sont dits indépendants si
P(A ∩ B) = P(A) P(B).
Exemple. Reprenons l’exemple du lancer de deux dés. L’espace à considérer est Ω =
{1, 2, 3, 4, 5, 6}2 muni de ces parties P(Ω) et de d’équiprobabilité P. Chaque tirage possible
a la probabilité 1/36 car #Ω = 62 = 36.
Soient A :« obtention de l’as au premier lancer » et B : « obtention du 4 au second
lancer ».
Le tirage de l’as au premier lancer se décompose en les évènements élémentaires sui-
vants : {1, 1}, {1, 2}, {1, 3}, {1, 4}, {1, 5}, {1, 6} et est de probabilité

P(A) = P {1, 1}, {1, 2}, {1, 3}, {1, 4}, {1, 5}, {1, 6}
= P{1, 1} + P{1, 2} + P{1, 3} + P{1, 4} + P{1, 5} + P{1, 6}
= 1/36 + 1/36 + 1/36 + 1/36 + 1/36 + 1/36
= 1/6.
De même, l’obtention du 4 au second lancer se décompose en {1, 4},{2, 4}, {3, 4}, {4, 4},
{5, 4}, {6, 4} et est de probabilité

P(B) = P {1, 4}, {2, 4}, {3, 4}, {4, 4}, {5, 4}, {6, 4} = 6/36 = 1/6.
L’évènement A ∩ B désigne le tirage de l’as au premier et du 4 au second lancer, on a
donc A ∩ B = {1, 4} et P(A ∩ B) = P{1, 4} = 1/36 = 1/6 × 1/6 = P(A) × P(B). Les
évènements A « tirage de l’as au premier lancer » et B « tirage du 4 au second » sont
donc indépendants dans (Ω, P(Ω), P).
Intuitivement, les deux lancers sont indépendants donc leurs résultats le sont aussi.
Considérons maintenant C :« la somme des deux résultats est 6 ». L’évènement C se
décompose en
C = {(1, 5), (2, 4), (3, 3), (4, 2), (5, 1)}
et est donc de probabilité P(C) = 5/36 = 1/6.
On a A ∩ C = {(1, 5)} de probabilité P(A ∩ C) = 1/36 6= P(A)P(C).
Les évènements A et C ne sont pas indépendants.
Intuitivement, si on a un 1 au premier lancer pour que finalement la somme des résultats
fasse 6, il faut que le second lancer soit important, ce qui explique la non-indépendance de
A et de C.
Exemple. On lance deux fois une pièce et on considère les évènements A : « obtenir
deux fois le même résultat », B : « avoir une face au premier lancer » et C : « avoir au
moins une face ».
En notant p pour pile et f pour face, on a facilement
1 1 1
A = {f f, pp}, P(A) = + =
4 4 2
3.2. Indépendance 27

1
B = {f f, f p}, P(B) =
2
3
C = {f f, f p, pf }, P(C) =
4
1 1 1
A ∩ B = {f f }, P(A ∩ B) = = × = P(A) × P(B)
4 2 2
1
A ∩ C = {f f }, P(A ∩ C) = 6= P(A) × P(B).
4
Les évènements A et B sont donc indépendants alors que A et C ne le sont pas.
Les évènements B et C ne sont pas indépendants car B ⊂ C et donc B ∩ C = B ce qui
empêche d’avoir P(B ∩ C) = P(B)P(C) car P(C) 6= 1.

Remarques.
• Il faut faire attention à ne pas confondre « être indépendants » et « être disjoints ».
En particulier deux évènements A et B disjoints ne peuvent pas être indépendants quand
ils sont de probabilités non nulles.
C’est clair intuitivement : avoir une information sur A, c’est en avoir une sur B (si A
se réalise alors par disjonction B ne peut pas se réaliser).
C’est clair aussi par le calcul car
P(A ∩ B) = P(∅) = 0 6= P(A) × P(B).
• Il faut faire attention encore : l’indépendance de deux évènements A et B n’est pas
intrinsèque mais dépend de l’espace de probabilité (Ω, F, P) utilisé (c’est à dire du choix
du modèle) :
Exemple : Une urne contient 12 boules numérotées de 1 à 12. On en tire une au hasard
et on considère : A = {tirage d’un nombre pair}, B = {tirage d’un multiple de 3}. Que
dire de A et B ?
L’espace à considérer est Ω = {1, 2, . . . , 12} munie de l’equiprobabilité P, chaque boule
étant équiprobable. On a
A = {2, 4, 6, 8, 10, 12}, B = {3, 6, 9, 12}, A ∩ B = {6, 12}.
On a P(A) = 6/12 = 1/2, P(B) = 4/12 = 1/3 et
2 1 1 1
P(A ∩ B) = = = × = P(A) × P(B).
12 6 2 3
Les évènements A et B sont indépendants dans l’espace (Ω, F, P).
On rajoute maintenant une treizième boule. Que dire de A et B ?
Le modèle –c’est à dire l’espace de probabilité– change. Il faut désormais considérer
Ω = {1, 2, . . . , 12, 13} munie de la nouvelle equiprobabilité P0 . A, B gardent les mêmes
0

descriptions mais leur probabilité sont P0 (A) = 6/13, P0 (B) = 4/13 et

2 6 4
P0 (A ∩ B) = 6= × = P0 (A) × P0 (B).
13 13 13
28 Chapitre 3. c JCB – L2 IMAE – Université de La Rochelle

Les évènements A et B ne sont pas indépendants pour P0 .

Intuitivement : dans le premier cas, la proportion des multiples de 3 est la même chez
les pairs et les impairs. Le fait de savoir que la boule tirée est paire ne modifie donc pas
notre information sur B. Par contre dans le deuxième cas, la proportion des multiples de
3 est plus élevée chez les pairs que chez les impairs. Le fait de savoir que la boule tirée est
paire augmente un peu la probabilité (conditionnelle) que nous pouvons attribuer à B.

Remarque 3.2.1 (Probabilités conditionnelles) La notion d’indépendance est évi-

demment liée à celle de conditionnement : rappelons que si B est de probabilité non nulle
la probabilité conditionnelle de A sachant B est définie par

P(A ∩ B)
P(A|B) = .
P(B)

On a alors les équivalences pour A et B de probabilités non nulles :

– P(A ∩ B) = P(A) P(B) (i.e. A et B indépendants),
– P(A|B) = P(A) (le conditionnement par B est sans effet sur A),
– P(B|A) = P(B) (le conditionnement par A est sans effet sur B).

Ces équivalentes découlent directement des définitions de l’indépendance et des proba-

bilités conditionnelles.

Proposition 3.2.1 Si A et B sont deux évènements observables indépendants, alors Ac

et B, A et B c , Ac et B c le sont encore deux à deux.

Démonstration : Montrons le pour Ac et B : comme

Ac ∩ B = (Ω \ A) ∩ B = (Ω ∩ B) \ (A ∩ B) = B \ (A ∩ B),

on a :

P(Ac ∩ B) = P B \ (A ∩ B) = P(B) − P(A ∩ B)

= P(B) − P(A)P(B) = (1 − P(A))P(B) = P(Ac )P(B).

Exercice. Faire la preuve dans les autres cas.

La notion d’indépendance se généralise à plus de deux évènements avec quelques pré-
cautions. Pour le voir, analysons d’abord la situation suivante :
Exemple : On considère une urne qui contient quatre boules : une bleue, une blanche, une
rouge et une tricolore. Considérons les évènements suivants

A = {la boule tirée contient du bleu},

B = {la boule tirée contient du blanc},
3.2. Indépendance 29

C = {la boule tirée contient du rouge}.

Comme il y a quatre boules et qu’à chaque fois la boule unie de couleur concernée et la
boule tricolore conviennent, on a facilement P(A) = P(B) = P(C) = 2/4 = 1/2. Par
ailleurs A ∩ B = {tirage de la boule tricolore} et
P(A ∩ B) = P{tirage de la boule tricolore} = 1/4 = 1/2 × 1/2 = P(A)P(B).
Donc A, B sont indépendants, de même pour A et C, B et C. Les évènements A, B, C sont
donc deux à deux indépendants.
D’autre part P(A ∩ B ∩ C) = 1/4 car A ∩ B ∩ C = {tirage de la boule tricolore} et donc
P(A ∩ B ∩ C) 6= P(A)P(B)P(C) = 1/2 × 1/2 × 1/2 = 1/8. (3.3)
Intuitivement, on n’a pas indépendance de A, B, C ensemble et donc l’indépendance deux
à deux ne suffit à généraliser à plus de deux évènements l’indépendance globale. Ce qu’il
manque pour avoir l’indépendance de A, B, C ensemble c’est la vérification de (3.3).
D’où la définition suivante : trois évènements A, B, C sont dits mutuellement indé-
pendants (càd indépendants quand on les considère ensemble et non pas seulement deux à
deux) si la probabilité de toute intersection d’ensembles pris parmi A, B, C est le produit
des probabilités de ces mêmes ensembles :
P(A ∩ B) = P(A)P(B),
P(A ∩ C) = P(A)P(C),
P(B ∩ C) = P(B)P(C),
P(A ∩ B ∩ C) = P(A)P(B)P(C).
Plus généralement pour n évènements :
Définition 3.2.2 Les n évènements observables A1 , . . . , An sont mutuellement indépen-
dants si pour toute sous-famille Ai1 , . . . , Aip avec 1 ≤ i1 < · · · < ip ≤ n, on a
P(Ai1 ∩ · · · ∩ Aip ) = P(Ai1 ) × · · · × P(Aip ).
L’indépendance mutuelle implique l’indépendance deux à deux (prendre p = 2), la
réciproque est fausse comme le justifie l’exemple précédent.
Le même type de remarque qu’à la Proposition 3.2.1 est valable : si un ou plusieurs
évènements est remplacé par son complémentaire, cela ne change rien à l’indépendance de
la famille.
Définition 3.2.3 Une suite infinie d’évènements est dite indépendante si toute sous-famille
finie est formée d’évènements mutuellement indépendants.
Souvent dans la suite nous parlerons d’une suite indépendante d’épreuves. Intuitive-
ment, il est clair de quoi il s’agit ; formellement on a :
Définition 3.2.4 On dit qu’une suite infinie d’épreuves est indépendante si toute suite
(Ai )i≥1 formée d’évènements Ai dont la réalisation ne dépend que de la ième épreuve
forme une suite indépendante d’évènements.
30 Chapitre 3. c JCB – L2 IMAE – Université de La Rochelle
Chapitre 4

Variables aléatoires discrètes

Jusqu’à maintenant, on a parlé d’évènements (aléatoires) et de leur probabilité. Or dans

la plupart des expériences aléatoires, il s’agit plutôt d’observer un résultat (aléatoire aussi),
en général numérique, que des évènements. Par exemple :
– le nombre de bonnes réponses dans un QCM,
– le temps d’obtention du premier six aux dés,
– la durée de vie d’ume ampoule électrique.
Le résultat aléatoire est une fonction (au sens mathématique) du hasard ω ∈ Ω. L’informa-
tion apportée par cette expérience est portée par cette fonction appelée variable aléatoire.

4.1 Variables aléatoires discrètes

4.1.1 Définition
Définition 4.1.1 Soit (Ω, F, P) un espace probabilisé. On appelle variable aléatoire dis-
crète sur (Ω, F, P) toute application X :

X : Ω −→ R, ω 7−→ X(ω)

telle que l’ensemble de ses images X(Ω) = {X(ω), ω ∈ Ω} est une partie au plus dé-
nombrable de R. On peut donc numéroter ses éléments par des indices entiers : X(Ω) =
{x1 , x2 , . . . , xk , . . .}.

X(Ω) s’appelle le domaine ou le support de la v.a. X.

Les points xk du support X(Ω) de la v.a. X s’appellent les atomes de la loi ou de la
v.a. X.
L’évènement Ak = {ω ∈ Ω, X(ω) = xk } est aussi noté X −1 ({xk }) (où X −1 désigne
l’inverse ensembliste) ou encore {X = xk } (dans ce cas, il est implicite que c’est l’ensemble
des ω ∈ Ω tel que X(ω) = xk , nous utiliserons la plupart du temps dans la suite, cette
notation implicite).
Dans la suite, nous utiliserons l’abréviation v.a. pour variable(s) aléatoire(s).

31
32 Chapitre 4. c JCB – L2 IMAE – Université de La Rochelle

Remarquons que l’ensemble des Ak forme une partition de l’espace de probabilité Ω

(par partition, on entend une famille d’ensembles deux à deux disjoints et de réunion Ω).
On a alors
X X
P(Ak ) = P(X = xk ) = P(X ∈ {x1 , . . . , xk , . . .}) = 1.
k,xk ∈X(Ω) k,xk ∈X(Ω)

Dans cette écriture, les sommes sont des séries convergentes si X(Ω) est infini, des sommes
finies si l’ensemble X(Ω) est fini.

4.1.2 Loi d’une variable aléatoire discrète

L’application X permet de transporter la probabilité P de Ω en une probabilité PX
sur R : on considère pour cela les P(X = xk ) comme des masses ponctuelles pk situées
en les points xk de la droite réelle, on définit ainsi une probabilité sur R (le point xk a la
probabilité pk ). La probabilité, pour cette loi, d’une partie quelconque de R est alors la
somme des masses ponctuelles qu’elle contient.
Définition 4.1.2 Soit X une v.a. discrète sur (Ω, F, P). On lui associe sa loi PX qui est
la probabilité définie sur les parties de R par

pk = PX ({xk }) = P(X = xk ) = P(Ak ).

Pour tout B ⊂ R : X X
PX (B) = P(X = xk ) = pk .
xk ∈B xk ∈B

Les probabilités pk = P(X = xk ) sont appelées probabilités ponctuelles de la v.a. X.

Dans la suite, le symbole ∼ signifiera « a pour loi ». Par exemple, on notera X ∼ B(n, p)
pour signifier que la v.a. X suit la loi binomiale B(n, p).
Dans ce cas, n’importe quelle partie de R est observable car la loi est discrète (l’ensemble
des observables est P(R) tout entier).P
Notons en particulier que comme k,xk ∈Ω pk = 1, PX (B) est une sous-série d’une série
à termes positifs convergente donc convergente : PX (B) est donc toujours bien définie pour
toute partie B ⊂ R. Ce ne sera pas aussi simple dans le cas des variables aléatoires réelles
(pour lesquelles les observables seront réduits aux intervalles de R).

Remarque 4.1.1
– Attention, deux v.a. peuvent avoir la même loi sans pour autant être égales. Par
exemple si on dispose d’un dé rouge et d’un dé bleu et que X, Y désignent la somme
des points obtenus après un lancer respectivement du dé rouge et du dé bleu, X et
Y ont la même loi. Pourtant bien sûr, on n’a pas X = Y , ce qui équivaudrait à dire
que les tirages des deux dés sont nécessairement identiques.
– Désormais, on utilise la notation suivante où le ω est implicite :

P(X ∈ B) = P(ω ∈ Ω, X(ω) ∈ B).

4.1. Variables aléatoires discrètes 33

4.1.3 Fonction de répartition

Définition 4.1.3 On appelle fonction de répartition de la v.a. X la fonction FX définie
par :
∀x ∈ R, FX (x) = PX (] − ∞, x]) = P(X ∈] − ∞, x]) = P(X ≤ x).
On a aussi pour une v.a. X discrète
X X
FX (x) = P(X = xk ) = pk .
k,xk ∈X(Ω), k,xk ∈X(Ω),
xk ≤x xk ≤x

Proposition 4.1.1 Soit X une v.a. discrète d’ensemble de valeurs X(Ω) =

{x1 , x2 , . . . , xk , . . .} supposé ordonné x1 < x2 < · · · < xk < . . . . La fonction de répartition
FX de X est croissante de 0 en −∞ à 1 en +∞, constante sur chaque intervalle [xk , xk+1 [
avec un saut pk en chaque atome xk .

Notons que FX détermine complètement la loi de X : les points du support sont les points
de sauts de FX et la probabilité associée est donnée par

pk = FX (xk ) − FX (xk−1 ).

Autrement dit PX ([a, b]) = FX (b) − limt→a− FX (t). On retrouve donc la loi à partir de FX .
Démonstration : D’abord FX est à valeurs positives car une probabilité est toujours
positive. Si s < t,

F (t) − F (s) = P(X ≤ t) − P(X ≤ s)

= P(X ≤ s) + P(s < X ≤ t) − P(X ≤ s)
X
= P(s < X ≤ t) = pi ≥ 0
i | s<xi ≤t

donc FX est croissante. Puis si s < t sont dans [xk , xk+1 [ alors
X
F (t) − F (s) = pi = 0
i | s<xi ≤t

car la somme est vide : il n’y a pas d’atome xi entre s et t. S’il y en avait un, il serait a
fortiori entre xk et xk+1 , ce qui est exclu, car par l’indexation, les atomes xk et xk+1 sont
consécutifs.
Puis avec s = xk et t = xk+1 , on a
X X
F (xk+1 ) − F (xk ) = pi = pi = pk+1
i | xk <xi ≤xk+1 i | xi ∈]xk ,xk+1 ]

car xk+1 est le seul atome dans ]xk , xk+1 ]. Il y a donc un saut pk+1 en xk+1 . Enfin,
X
lim FX (t) = lim pi = 0
t→−∞ t→−∞
i | xi ≤t
34 Chapitre 4. c JCB – L2 IMAE – Université de La Rochelle

car pour t ≤ inf k (xk ), la somme est vide donc –par convention– nulle. Et
X X
lim FX (t) = lim pi = pi = 1
t→+∞ t→+∞
i | xi ≤t i
P
car pour t ≥ supk (xk ), la somme devient i | xi ∈R pi = 1.
Exemple. Soit S la variable aléatoire qui donne la somme des faces obtenues en lançant
deux fois un dé à six faces bien équilibré. La loi de S est donnée par l’ensemble des valeurs
possibles S(Ω) = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12} et les probabilités associées
P(S = 2) = 1/36, P(S = 6) = 5/36, P(S = 10) = 3/36,
P(S = 3) = 2/36, P(S = 7) = 6/36, P(S = 11) = 2/36,
P(S = 4) = 3/36, P(S = 8) = 5/36, P(S = 12) = 1/36.
P(S = 5) = 4/36, P(S = 9) = 4/36,
La fonction de répartition est alors donnée par :
1

0 1 2 3 4 5 6 7 8 9 10 11 12 x

4.2 Lois discrètes classiques

4.2.1 Lois de v.a. finies déjà connues
Ont déjà été vues en L1, les v.a. prenant un nombre fini de valeurs. Rappelons les
principales telles lois.
Loi de Bernoulli de paramètre p notée b(p). Une v.a. X suit une loi de Bernoulli de
paramètre p ∈ [0, 1] si elle ne prend que deux valeurs, la plupart du temps 0 et 1 avec :
P(X = 1) = p, P(X = 0) = 1 − p := q.
Exemple. Pile ou face avec p = 1/2 si la pièce est équilibrée, p 6= 1/2 si elle est truquée.

Loi equirépartie sur un ensemble fini {x1 , . . . , xn } notée U{x1 , . . . , xn }. Une v.a. X
prenant un nombre fini de valeurs x1 , . . . , xn suit une loi equirépartie quand
1
PX ({xi }) = , 1 ≤ i ≤ n.
n
4.2. Lois discrètes classiques 35

Exemple. Jet d’un dé (équilibré).

Loi binomiale de paramètres n, p notée B(n, p). Une v.a. suit une loi binomiale de
paramètres n ∈ N∗ et p ∈ [0, 1] si l’ensemble de ses valeurs possibles est :

X(Ω) = {0, 1, 2, . . . , n}

et pour tout k = 0, 1, . . . , n, on a

P(X = k) = Cnk pk (1 − p)n−k (4.1)

n!
où Cnk = est le coefficient binomial. Il s’agit bien d’une loi de probabilité car la
k!(n − k)!
formule du binome de Newton (d’où le nom de la loi) donne :

n
X n
Cnk pk (1 − p)n−k = p + (1 − p) = 1n = 1.
k=0

Remarque 4.2.1 Il est souvent pratique de voir cette loi comme celle du nombre de succès
obtenus dans une suite de n épreuves répétées indépendantes avec pour chaque épreuve
une probabilité p de succès (par exemple des tirages avec remises de n boules rouges dans
une urne contenant des boules rouges, en proportion p ∈ [0, 1], et des boules noires). Ainsi,
P(X = k) est la probabilité d’avoir exactement k succès en n épreuves (dans l’exemple, k
boules rouges en n tirages). On en déduit l’explication suivante des différents facteurs de
(4.1) :
– pk est la probabilité des k succès (par indépendance des tirages),
– (1 − p)n−k est la probabilité des n − k échecs (pour avoir exactement k succès, il
faut bien que les n − k autres épreuves soient des échecs),
– et Cnk pour tenir compte de tous les choix possibles des k épreuves réussies sur les n
réalisées (il y a Cnk tirages différents de n boules comprenant k boules rouges).
Une autre façon de dire la même chose est qu’une v.a. Y de loi binomiale B(n, p) peut
se voir comme la somme de n v.a. Xi indépendantes de loi de Bernoulli b(p) :

Y = X1 + · · · + Xn .

D’après cette interprétation, la loi binomiale intervient dans les tirages avec remises : elle
modélise la v.a. qui compte le nombre de bons tirages en un nombre fixé, n, de tirages. Ici
chaque Xi indique si à l’épreuve i on a eu un succès (Xi = 1) ou un échec (Xi = 0).

Intéressons nous maintenant aux lois des v.a. discrètes prenant un nombre infini de
valeurs.
36 Chapitre 4. c JCB – L2 IMAE – Université de La Rochelle

4.2.2 Lois Géométriques

Exemple : Considérons une suite infinie d’épreuves répétées indépendantes avec même
probabilité de succès p ∈]0, 1[. Soit X le numéro aléatoire de l’épreuve où l’on obtient
le premier succès. Convenons que si l’on n’obtient jamais de succès, on note X = +∞.
Calculer P(X = k) pour tout k ∈ N∗ . En déduire P(X ∈ N∗ ) et P(X = +∞).
A priori, X prend ses valeurs dans {1, 2 . . . , k, . . .} ∪ {∞} = N∗ ∪ {∞}.
Notons Ri = {succès à la i-ème épreuve}, on a :

{X = k} = {échecs aux k − 1 premières épreuves puis succès à la k-ème}

k−1
\
= Ric ∩ Rk .
i=1

Par indépendance des épreuves, il suit

k−1
\ k−1
Y
P(X = k) = P Ric ∩ Rk = P(Ric ) × P(Rk ) = (1 − p)k−1 p.
i=1 i=1

Posons q := 1 − p ∈]0, 1[. Décomposons l’évènement {X ∈ N∗ } en réunion disjointe des

{X = k} pour k ∈ N∗ , on a alors par σ-additivité de P :

X +∞
X ∞
X
∗ k−1
P(X ∈ N ) = P(X = k) = q p=p ql (en posant l = k − 1)
k∈N∗ k=1 l=0
1 1
= p = p =1 (somme d’une suite géométrique).
1−q 1 − (1 − p)

Ainsi, avec probabilité 1, le premier succès intervient au bout d’un nombre fini d’épreuves
(car dire X ∈ N∗ , c’est dire que X est un entier donc prend une valeur finie). On en déduit
immédiatement
P(X = +∞) = P(X 6∈ N∗ ) = 1 − P(X ∈ N∗ ) = 0.

Définition 4.2.1 Une v.a. X suit la loi géométrique de paramètre p ∈]0, 1[ notée G(p) si
X(Ω) = N∗ et
P(X = k) = (1 − p)k−1 p, k ∈ N∗ .

Exercice. Notons que si X suit une loi G(p), les probabilités P(X > n) ont une ex-
pression simple qu’on pourra montrer à titre d’exercice :

P(X > n) = (1 − p)n .

4.2. Lois discrètes classiques 37

4.2.3 Loi de Poisson

Cette loi intervient dans les processus aléatoires dont les éventualités sont faiblement
probables et survenant indépendamment les unes des autes : cas de phénomènes accidentels,
d’anomalies diverses, de problèmes d’encombrement (files d’attente), de rupture de stocks,
etc.

Définition 4.2.2 On dit qu’une v.a. discrète X suit une loi de Poisson de paramètre λ > 0
si l’ensemble de ses valeurs possibles est X(Ω) = N et

e−λ λk
∀k ∈ N, P(X = k) = .
k!
La loi de Poisson de paramètre λ > 0 est notée P(λ).

Rappelons que la fonction exponentielle a un développement en série entière avec un rayon

de convergence infini :
+∞ k
λ
X λ
∀λ > 0, e = .
k=0
k!
On vérifie alors facilement qu’on a bien défini une loi de probabilité car
+∞ +∞ k
X
−λ
X λ
P(X = k) = e = e−λ eλ = e−λ+λ = 1.
k=0 k=0
k!

Approximation de la loi binomiale par la loi de Poisson

En liaison avec les lois binomiales, on dispose du résultat suivant justifiant que la loi
de Poisson approxime la loi binomiale B(n, p) quand n est « grand » et np est « petit ».

Théorème 4.2.1 (Approximation de la loi de Poisson par la loi binomiale)

Si (pn )n∈N∗ est une suite de réels de [0, 1] telle que

npn → λ ∈]0, +∞[, n → +∞

alors
λk
Cnk pkn (1 − pn )n−k −→ e−λ , quand n → +∞.
k!
Autrement dit, si Xn est une suite de v.a. de loi binomiale B(n, pn ) et X une v.a. de
loi P(λ) alors pour tout k ∈ N :

lim P(Xn = k) = P(X = k).

n→+∞

« Les lois binomiales convergent vers la loi de Poisson. »

38 Chapitre 4. c JCB – L2 IMAE – Université de La Rochelle

Démonstration : On remplace pn par son équivalent λ/n. Pour k fixé,

n!
P (Xn = k) = Cnk pkn (1 − pn )n−k = pk e(n−k) ln(1−pn )
k!(n − k)! n
k
n(n − 1) · · · (n − k + 1) λ
' e−(n−k)λ/n
k! n
1 n(n − 1) · · · (n − k + 1) k −λ kλ/n
' λ e e
k! nk
λk
' e−λ = P (X = k).
k!

Application pratique. Le théorème 4.2.1 sert de justification théorique à la règle pratique

suivante : lorsque n est « grand » et np est « petit », on peut remplacer la loi binomiale
B(n, p) par la loi de Poisson P(λ) où λ = np.
En général, on considère que lorsque n est de l’ordre de quelques centaines et np est de
l’ordre de quelques unités, l’approximation de B(n, p) par P(np) est assez bonne.
Intérêt : si n est grand, le calcul des coefficients binomiaux Cnk est fastidieux, voire
impossible. En approchant par la loi de Poisson, le calcul devient assez simple.
Exemple : Le président d’un bureau de vote est né un 1er avril. Il décide de noter le
nombre de personnes ayant leur anniversaire le même jour que lui parmi les 500 premiers
votants.
La situation peut être assimilée à une suite de 500 épreuves indépendantes répétées
avec une probabilité p = 1/365 de succès (on néglige les effets des années bissextiles, sinon
il faudrait plutôt prendre p = 4/(3 × 365 + 366)). Notons X la variable aléatoire qui compte
le nombre de succès. X suit une loi B(500, p), ainsi :
k
P(X = k) = C500 pk (1 − p)500−k .

Comme 500 est « grand » et np = 500/365 ' 1, 37, la règle ci-dessus permet l’approxima-
tion par la loi P(λ) avec λ = 500/365. Voici une comparaison numérique pour les petites
valeurs de k :

k 0 1 2 3 4 5
P(X = k) 0, 2537 0, 3484 0, 2388 0, 1089 0, 0372 0, 0101
e−λ λk
0, 2541 0, 3481 0, 2385 0, 1089 0, 0373 0, 0102
k!

On constate que les valeurs approchées sont très proches des valeurs réelles.

Application aux files d’attente

4.2. Lois discrètes classiques 39

Un poste de péage d’une autoroute posséde plusieurs guichets. En période de pointe et

dans la tranche 7h–9h, on compte 6300 véhicules par heure (c’est à peu près les chiffres sur
le périphérique parisien).
Des compteurs à la sortie du péage ont montré qu’un automobiliste met en moyenne 18
secondes pour s’acquitter du montant du péage. On estime qu’il y a risque de saturation
(création d’un bouchon) si on compte plus de 10 véhicules en attente à chaque guichet.
On se place désormais dans la tranche 7h–9h.
1) Soit X la v.a. qui désigne le nombre de véhicules présents au péage à un instant
donné. Quelle est sa loi ? Quelle est son espérance (nombre moyen de véhicules présents au
péage à un instant donné) ?
L’arrivée au péage est un évènement de probabilité p = 18/(2 × 360) = 0, 0025. Il y
a N = 12600 véhicules présents dans la tranche horaire. La v.a. X suit la loi binomiale
B(N, p).
2) Dans le cas où il y a 5 guichets, en admettant une égale répartition des véhicules sur
chaque guichet et en notant Y le nombre de véhicules se présentant à un guichet donné,
justifier que Y suit sensiblement une loi de Poisson et calculer la probabilité de saturation,
P(Y > 10).
Pour un guichet donné Y suit la loi binomiale B(N, p0 ) avec p0 = p/5, ce qui s’approxime
par la loi de Poisson P(N p0 ) = P(6, 3). L’approximation est légitime car N p0 est entre 1
et 10.
La probabilité de saturation est P(Y > 10) = P(Y ≥ 11) = 1 − P(Y ≤ 10) ' 0, 056.
3) On suppose le nombre k de guichets non précisé. Quelle est la valeur minimale à
attribuer à k pour que la probabilité de saturation ne dépasse pas 0, 01 ?
En procédant par dichotomie (tester k = 5 guichets avec p0 = p/5 puis k = 10 guichets
avec p0 = p/10 puis etc), on trouve k = 7 guichets.
Notez que la probabilité trouvée en 2) avec 5 guichets est de 6% alors qu’avec 2 gui-
chets de plus elle est divisée par 6. Il n’y a donc pas proportionalité dans ces calculs de
probabilités !
40 Chapitre 4. c JCB – L2 IMAE – Université de La Rochelle
Chapitre 5

Moment des variables aléatoires

discrètes

On en vient dans la section suivante aux espérances et variances de variables aléatoires.

Ce sont certaines quantités numériques associées à la loi d’une v.a. qui apportent des
informations sur cette loi. On traite d’abord le cas des v.a. discrètes, l’analogue s’énoncera
pour les v.a. à densité.

5.1 Espérance d’une v.a.

5.1.1 Définitions
Définition 5.1.1 (Espérance d’une v.a. discrète) Soit X une v.a. discrète prenant
une infinité de valeurs x1 , x2 , . . . , xn , . . . si
X ∞
|xk | P(X = xk ) < +∞, (5.1)
k=1

on définit l’espérance de X par

∞
X ∞
X
E[X] = xk P(X = xk ) = x k pk . (5.2)
k=1 k=1

Remarque 5.1.1
– Si X(Ω) est fini, la somme dans (5.1) est forcément finie et l’espérance dans (5.2) est
forcément définie.
– L’espérance généralise la notion intuitive de moyenne et peut être vue comme le
barycentre des points xk avec le poids donné par leur probabilité ponctuelle pk =
P(X = xk ). Elle donne donc la valeur moyenne de la v.a. au sens probabiliste.
– L’espérance ne dépend que de la loi de X : si X et Y sont deux v.a. de même loi,
alors E[X] = E[Y ] car ça ne dépend que des atomes xk et de leur probabilité pk . On
devrait ainsi plutôt parler de l’espérance de la loi de X.

41
42 Chapitre 5. c JCB – L2 IMAE – Université de La Rochelle

5.1.2 Espérances classiques

Exemples :
– X v.a. constante (∃c ∈ R, ∀ω ∈ Ω, X(ω) = c), alors son espérance est E[X] = c × 1 =
c.
– X de loi de Bernoulli b(p) :

E[X] = 0 × (1 − p) + 1 × p = p.

– X de loi equirépartie sur {x1 , . . . , xn )} :

x1 + x2 + · · · + xn
E[X] = .
n
– X de loi binomiale B(n, p) :
n n
X X (n − 1)!
E[X] = kCnk pk (1 − p)n−k = np pk−1 (1 − p)n−k
k=0 k=1
(k − 1)!(n − k)!
n−1
X (n − 1)!
= np pl (1 − p)n−1−l = np(p + (1 − p))n−1
l=0
l!(n − 1 − l)!
= np.

– X de loi géométrique G(p) : avec la propriété de dérivation des séries entières rappelée
en section 1.4 (ou à voir en cours d’analyse) :
+∞ +∞ " +∞
#
X X d d X
E[X] = kq k−1 p = p (xk ) =p ( xk )
k=1 k=1
dx x=q dx k=0 x=q
1 p 1
= p 2
= 2 = .
(1 − q) 1 − (1 − p) p

– X de loi de Poisson P(λ) :

+∞ +∞ +∞ l
X X e−λ λk X λ
E[X] = k P(X = k) = = λe−λ = λ (avec l = k − 1).
k=0 k=1
(k − 1)! l=0
l!

5.1.3 Propriétés de l’espérance

Les principales propriétés des espérances sont données par

Proposition 5.1.1 (Linéarité de l’espérance) Soient X et Y deux v.a. discrètes ad-

mettant des espérances. Alors
(1) E[X + Y ] = E[X] + E[Y ],
(2) Pour tout réel a, E[aX] = aE[X],
5.1. Espérance d’une v.a. 43

Démonstration : Le deuxième point est clair : en effet si X(Ω) = {x1 , . . . , xk , . . .} alors

(aX)(Ω) = {ax1 , . . . , axk , . . .} et comme P(aX = axk ) = P(X = xk ), on a d’abord
+∞
X ∞
X
|axk |P(aX = axk ) = |a| |xk |P(X = xk ) < +∞
k=1 k=0

par hypothèse de l’existence de E[X]. Puis la même chose sans les valeurs absolues donne :
+∞
X ∞
X
E[aX] = axk P(aX = axk ) = a xk P(X = xk ) = aE[X].
k=1 k=0

Pour le premier point, posons Z = X + Y , supposons d’abord que X et Y prennent un

nombre fini de valeurs {x1 , . . . , xn } et {y1 , . . . , yp } alors Z prend aussi un nombre fini de
valeurs {zk = xi + yj , i = 1, . . . , n, j = 1, . . . , p} et la loi de Z est donnée par
X
P(Z = zk ) = P(X = xi , Y = yj ).
(i,j) | xi +yj =zk

La condition (5.1) est remplie dans ce cas car Z prend un nombre finie de valeur (et donc
la somme dans (5.1) est finie). On a alors
X
E[Z] = zk P(Z = zk ) (5.3)
k
X X
= zk P(X = xi , Y = yj )
k xi +yj =zk
X X
= (xi + yj ) P(X = xi , Y = yj )
k xi +yj =zk
X
= (xi + yj ) P(X = xi , Y = yj ) (5.4)
i,j
X X
= xi P(X = xi , Y = yj ) + yj P(X = xi , Y = yj ) (5.5)
i,j i,j

car {(i, j), xi +yj = zk }k forme une partition de {1,P. . . , n}×{1,

P P . . . ,P
p}. P
Comme les sommes
sont finies, on les calcule dans le sens qu’on veut i,j = i j = j i .
XX XX
E[Z] = xi P(X = xi , Y = yj ) + yj P(X = xi , Y = yj ) (5.6)
i j j i
" # " #
X X X X
= xi P(X = xi , Y = yj ) + yj P(X = xi , Y = yj )
i j j i
X X
= xi P(X = xi ) + yj P(Y = yj )
i j
44 Chapitre 5. c JCB – L2 IMAE – Université de La Rochelle

= E[X] + E[Y ]. (5.7)

Dans le cas général, X et/ou Y prennent un nombre dénombrable infini de valeurs (i.e.
X(Ω), Y (Ω) sont infinis). On commence alors à remplacer zk par |zk | et xi + yj par |xi + yj |
dans les égalités (5.3)–(5.7). On passe alors de (5.4) à (5.5) par l’inégalité triangulaire
|xi + yj | ≤ |xi | + |yj |, ce qui donne :
X X X
|zk | P(Z = zk ) ≤ |xi | P(X = xi ) + |yj | P(Y = yj ) < +∞
k i j

les deux dernières séries sont finies d’après les hypothèses sur les existences des espérances
E[X] et E[Y ].
On obtient alors la condition qui garantit l’existence de E[Z] et les égalités (5.3)–
(5.7) restent vraies, dans le cas infini dénombrable, par les propriétés des séries doubles
absolument convergentes (théorème de Fubini).

Exemple : Calcul de l’espérance d’une loi binomiale B(n, p)

Si X suit la loi B(n, p), alors E[X] = np.
En effet, on sait que X a même loi qu’une somme de v.a. Xi de Bernoulli indépendantes
de paramètre p :
Xn
S= Xi .
i=1

Par linéarité de l’espérance, comme E[Xi ] = p pour tout i = 1, . . . , p, on a

n n
X X
E[X] = E[S] = E Xi = E[Xi ] = np.
i=1 i=1

Proposition 5.1.2 (Théorème de transfert, Espérance d’une fonction de va) Soient

X une v.a. discrète de domaine X(Ω) = {x1 , . . . , xk . . .} et F une fonction numérique sur
R (ou dont l’ensemble de définition contient au moins l’ensemble des valeurs X(Ω) de X).
Alors si E[F (X)] existe, on a
+∞
X
E[F (X)] = F (xk ) P(X = xk ).
k=1

Démonstration : Notons Y = F (X), l’ensemble des valeurs prises par la v.a. Y est
{F (x1 ), . . . , F (xk ), . . .} avec éventuellement des répétitions car F n’est pas nécessairement
injective. En notant {y1 , . . . , yk , . . .} l’ensemble des valeurs de Y sans répétition (i.e. les yi
sont deux à deux distincts), on a :
+∞
X
E[Y ] = E[F (X)] = yi P(Y = yi ). (5.8)
i=1
5.1. Espérance d’une v.a. 45

Pour chaque i = 1, . . . , k, . . . , notons Bi = {xk | F (xk ) = yi } l’ensemble des antécédents

de yi par F . Ce sous-ensemble est non vide et au plus dénombrable (si F est injective, cet
ensemble est de cardinal 1).
[
{Y = yi } = {X = xk } (5.9)
k | xk ∈Bi
S
en effet {Y = yi } ⊂ k | xk ∈Bi {X = xk } car si ω ∈ {Y = yi } alors F (X(ω)) = Y (ω) = yi .
Or il existe k tel que X(ω) = xk . Comme alors F (xk ) = yi , on a xk ∈ Bi . Autrement dit,
il existe k vérifiant xk ∈ Bi tel que X(ω) = xk , c’est à dire
[
ω∈ {X = xk }.
k | xk ∈Bi
S
Puis si ω ∈ k,xk ∈Bi {X = xk } alors Y (ω) = F (X(ω)) = F (xk ) = yi car xk ∈ Bi , donc
ω ∈ {Y = yi }, ce qui justifie l’inclusion réciproque et donc l’égalité (5.9).
Le terme général de la série (5.8) se transforme alors en
[ X X
yi P(Y = yi ) = yi P {X = xk } = yi P(X = xk ) = F (xk ) P(X = xk ).
xk ∈Bi xk ∈Bi xk ∈Bi

La série précédente est absolument convergente car F est constante sur Bi . Comme les Bi
forment une partition de X(Ω), les propriétés des séries à termes positifs donnent
+∞
X +∞ X
X +∞
X
|F (xk )| P(X = xk ) = |F (xk )| P(X = xk ) = |yi | P(Y = yi ) < +∞
k=1 i=1 xk ∈Bi i=1

par hypothèse (existence de E[Y ]). Ceci légitime le même calcul sans les valeurs absolues
et prouve la proposition.

Remarque 5.1.2 La proposition appliquée avec F (x) = |x| donne :

+∞
X
E[|X|] = |xk | P(X = xk ).
k=1

La condition de définition des espérances (cf. Déf. 5.1.1) pour l’existence de E[X] n’est
donc rien d’autre que E[|X|] < +∞.

On a de plus facilement

Proposition 5.1.3 (Espérance et valeurs absolues) Si E[X] existe, E[X] ≤ E[|X|].

Démonstration : car par l’inégalité triangulaire, la valeur absolue d’une somme est ma-
jorée par la somme des valeurs absolues.
46 Chapitre 5. c JCB – L2 IMAE – Université de La Rochelle

Proposition 5.1.4 (Positivité de l’espérance)

– Si X a une espérance et X ≥ 0, alors E[X] ≥ 0.
– Si Xet Y ont des espérances et X ≤ Y alors E[X] ≤ E[Y ].

Démonstration : X ≥ 0 signifie que pour tout ω ∈ Ω, on a X(ω) ≥ 0. De même, X ≤ Y

signifie que pour tout ω ∈ Ω, on a X(ω) ≤ Y (ω).
Il suffit de voir le premier point, le deuxième se voit en appliquant le premier à Z =
Y − X et en appliquant la linéarité de l’espérance.
Soit donc X ≥ 0, l’ensemble des valeurs xk prises par X est dans R+ . E[X] apparaı̂t
alors comme une série avec que des termes positifs, elle est a fortiori positive.

Théorème 5.1.1 (Inégalité de Markov) Si X est une v.a. positive ayant une espérance
alors
E[X]
∀t > 0, P(X ≥ t) ≤ .
t
Démonstration : Dans la série E[X], on regroupe les termes en deux paquets selon la
position de xk par rapport à t :
+∞
X X X
E[X] = xk P(X = xk ) = xk P(X = xk ) + xk P(X = xk )
k=1 k | xk <t k | xk ≥t
X
≥ 0+t P(X = xk ) = t P(X ≥ t).
k | xk ≥t

[
car {X ≥ t} = {X = xk }.
k | xk ≥t

5.2 Variance d’une va

Définition 5.2.1 Soit r ∈ N∗ , on appelle moment d’ordre r de la v.a. discrète X le nombre
+∞
X
r
E[|X| ] = |xk |r P(X = xk )
k=1

On peut alors définir aussi

+∞
X
r
E[X ] = xrk P(X = xk ).
k=1

où X(Ω) = {x1 , . . . , xk , . . .} est l’ensemble des valeurs de X.

Remarque 5.2.1 Attention, il ne faut pas confondre E[X r ] et E[X]r . La position de

l’exposant r par rapport à l’espérance E est cruciale.
5.2. Variance d’une va 47

Lorsque une v.a. est bornée, il est facile de voir qu’elle a des moments de tous les ordres.
De façon générale, l’existence de moment d’ordre r implique celles des moments d’ordre
inférieurs.

Proposition 5.2.1 Si X possède un moment d’ordre r, pour tout n ≤ r, X en possède

un d’ordre n.

Démonstration : Il s’agit de voir la finitude de

+∞
X
n
E[|X| ] = |xk |n P(X = xk ).
k=1

Regroupons les termes de la série précédente en deux selon le module des xk par rapport
à 1 :
X+∞ +∞
X
n n
E[|X| ] = |xk | P(X = xk ) + |xk |n P(X = xk ).
k=1, k=1,
|xk |≤1 |xk |>1

Pour la première série, on a la majoration

+∞
X +∞
X +∞
X
|xk |n P(X = xk ) ≤ P(X = xk ) ≤ P(X = xk ) = 1
k=1, k=1, k=1
|xk |≤1 |xk |≤1

car |xk |n ≤ 1. Pour la deuxième, comme |xk | > 1, on a |xk |n ≤ |xk |r et on la majore par
+∞
X +∞
X
r
|xk | P(X = xk ) ≤ |xk |r P(X = xk ) = E[|X|r ] < +∞.
k=1, k=1
|xk |≤1

On a même montré pour n ≤ r :

E[|X|n ] ≤ 1 + E[|X|r ]

Définition 5.2.2 (Variance d’une va) Soit X une v.a. de domaine X(Ω) = {x1 , . . . , xk , . . .}
et avec un moment d’ordre 2. On appelle respectivement variance de X et écart-type de X
les quantités
+∞
X
2
Var(X) = E[(X − E[X]) ] = (xk − E[X])2 P(X = xk ),
k=1
p
σX = Var(X).
48 Chapitre 5. c JCB – L2 IMAE – Université de La Rochelle

Remarque 5.2.2 – L’espérance permet de trouver la valeur moyenne d’une v.a. à

partir de cette valeur, la variance ou l’écart-type permettent de voir la dispersion de
la v.a. autour de cette moyenne.
– On introduit l’écart type pour avoir une quantité homogène avec X : si X est une
grandeur physique d’une certaine unité, alors σX a la même unité, ce n’est pas le cas
de Var(X).
– En quelque sorte, l’écart-type σX de X donne l’écart moyen de la v.a. X par rapport
à sa valeur moyenne E[X].

Proposition 5.2.2 (Translation et changement d’échelle) Si X a un moment d’ordre

2 alors
Var(aX) = a2 Var(X), Var(X + b) = Var(X).

Démonstration :

Var(aX) = E[(aX − E[aX])2 ] = E[a2 (X − E[X])2 ] = a2 E[(X − E[X])2 ] = a2 Var(X)

Var(X +b) = E[(X +b−E[X +b])2 ] = E[(X +b−E[X]−b)2 ] = E[(X −E[X])2 ] = Var(X).

En particulier avec a = 0, on obtient la nullité de la variance d’une va constante. On a le

résultat réciproque :

Proposition 5.2.3

Var(X) = 0 ⇐⇒ X est presque sûrement constant ⇐⇒ X = E[X] p.s.

Notons µ = E[X], l’égalité presque sûre (p.s.) X = µ signifie que P(X = µ) = 1. De

même, X constant presque sûrement signifie qu’il existe une constante telle que presque
sûrement X est égale à cette constante.
Démonstration : On a
+∞
X
2
Var(X) = E[(X − µ) ] = (xk − µ)2 P(X = xk ).
k=1

Cette série à termes positifs est nulle si et seulement si chacun de ses termes est nuls c’est
à dire si
xk = µ ou P(X = xk ) = 0.
Par définition d’un atome, xk ∈ X(Ω), sa probabilité ponctuelle P (X = xk ) est non nulle.
On a donc forcément xk = µ. En fait, il y a un seul atome et c’est µ = E[X] et sa
probabilité ponctuelle est alors forcément 1. La valeur µ = E[X] est donc prise par la v.a.
X avec probabilité 1 (et il est bien logique que cette valeur soit l’espérance).
5.2. Variance d’une va 49

Proposition 5.2.4 (Formule de Koenig)

Var(X) = E[X 2 ] − E[X]2 .

En pratique, on calcule la variance par cette formule. On commence par calculer E[X] puis
E[X 2 ] pour en déduire la variance par Koenig.
Démonstration : Il suffit de développer Var(X), notons encore µ = E[X] :

Var(X) = E[(X − µ)2 ] = E X 2 − 2Xµ + µ2

= E[X 2 ] − 2E[Xµ] + µ2
= E[X 2 ] − 2E[X]µ + µ2
= E[X 2 ] − 2µ2 + µ2 = E[X 2 ] − E[X]2 .

Exemples : Quelques variances classiques

• X v.a. constante (∃c ∈ R, ∀ω ∈ Ω, X(ω) = c), alors sa variance est Var(X) = 0.
On retrouve le cas spécial où il n’y a aucune dispersion autour de la moyenne puisque
la v.a. est constante, égale à cette moyenne.
• X de loi de Bernoulli B(p) : on a E[X 2 ] = 0×(1−p)+12 ×p = p d’où Var(X) = p−p2 :

Var(X) = p(1 − p).

• X de loi equirépartie sur {1, . . . , n} : on a

n n
X X k n(n + 1) n+1
E[X] = k P(X = k) = = =
k=1 k=1
n 2n 2
n n
2
X
2
X k2 n(n + 1)(2n + 1) (n + 1)(2n + 1)
E[X ] = k P(X = k) = = =
k=1 k=1
n 6n 6
(n + 1)(n − 1)
Var(X) = E[X 2 ] − E[X]2 = .
12
• X de loi binomiale B(n, p) :

Var(X) = np(1 − p).

Pn Pn
En effet E[X 2 ] = k=0 Cnk k 2 pk (1−p)n−k = Sq (p) où q = 1−p et Sq (x) = k=1 Cnk k 2 xk q n−k .
Or
n
X n
X n
X
Sq (x) = Cnk k 2 xk q n−k = x Cnk k 2 xk−1 q n−k = x Cnk k(xk )0 q n−k
k=1 k=1 k=1
n
!0 n
!0
X X
= x Cnk kxk q n−k =x x Cnk kxk−1 q n−k
k=1 k=1
50 Chapitre 5. c JCB – L2 IMAE – Université de La Rochelle

n
!0 n
!0 !0
X X
= x x Cnk (xk )0 q n−k =x x Cnk xk q n−k
k=1 k=1
n
!0 !0
0
X
= x x Cnk xk q n−k = x (x[(x + q)n ]0 )
k=0
0
= x x × n(x + q)n−1 = xn(x + q)n−1 + x2 × n(n − 1)(x + q)n−2 .

D’où E[X 2 ] = S1−p (p) = pn + p2 n(n − 1) et

Var(X) = pn + p2 n(n − 1) − (np)2 = n(p − p2 ) = np(1 − p).

• X de loi géométrique G(p) :

1−p
Var(X) = .
p2
P+∞ P+∞
En effet E[X 2 ] = k=0 k 2 (1 − p)k−1 p = pS(1 − p) avce S(x) = k=0 k 2 xk−1 . Puis
+∞ +∞ +∞
!0
X X X
S(x) = k 2 xk−1 = k(xk )0 = kxk
k=0 k=1 k=1
+∞
!0 +∞
!0
X X
= x kxk−1 = x (xk )0
k=1 k=1
+∞
!0 !0 +∞
!0 !0
X X
= x xk = x xk
k=1 k=0
0 0 0
1 1
= x = x
1−x (1 − x)2
1 2x
= 2
+
(1 − x) (1 − x)3
1 2 − 2p 1 2 − 2p
D’où E[X 2 ] = pS(1 − p) = p + p = + et
(1 − (1 − p))2 (1 − (1 − p))3 p p2
1 2 − 2p 1 p(1 − p)
Var(X) = + 2
− 2 = .
p p p p2
• X de loi de Poisson P(λ) :
+∞ −λ k +∞
2
X
2e λ X e−λ λk
E[X ] = k = k
k=0
k! k=1
(k − 1)!
+∞
X e−λ λk
= (k − 1) + 1
k=1
(k − 1)!
5.2. Variance d’une va 51

+∞ +∞
X e−λ λk X e−λ λk
= +
k=2
(k − 2)! k=1 (k − 1)!
+∞ −λ l +∞ −λ l
2
X e λ X e λ
= λ +λ
l=0
l! l=0
l!
= λ2 + λ,

Comme E[X] = λ, on en déduit par la formule de Koenig :

Var(X) = λ.

Théorème 5.2.1 (Inégalité de Tchebychev) Si Var(X) existe, on a pour tout t > 0

Var(X)
P(|X − E[X]| ≥ t) ≤ .
t2
Démonstration : Par l’inégalité de Markov, on a
E[|X − E[X]|2 ] Var(X)
P(|X − E[X]| ≥ t) = P(|X − E[X]|2 ≥ t2 ) ≤ 2
≤ .
t t2

Application. On jette 3600 fois un dé. Minorer la probabilité que le nombre d’apparitions
du 1 soit compris strictement entre 480 et 720.
Notons S le nombre d’apparitions du 1. On peut voir S comme la somme de 3600 v.a.
de Bernoulli indépendantes de paramètre p = 1/6 (probabilité d’apparition du 1 au cours
d’un lancer). Par un raisonnement classique, S suit une loi B(3600, p). On cherche ici
719
X
P(480 < S < 720) = Cnk pk (1 − p)n−k .
k=481

Ce résultat exact ne peut être calculé en pratique, même un ordinateur très puissant ne
pouvant calculer tous ces coefficients binomiaux pour des chiffres aussi grands.
On peut penser à approximer la loi B(3600, 1/6) par P(600) mais il resterait à calculer
719 k
−600 600
X
e ,
k=481
k!

ce qui n’est pas évident.

On a alors recours à l’inégalité de Tchebychev : notons que E[S] = np = 3600/6 = 600
et Var(X) = npq = 3600 × 5/6 × 1/6 = 500. Remarquons de plus que

480 < S < 720 ⇐⇒ −120 < S − 600 < 120.

52 Chapitre 5. c JCB – L2 IMAE – Université de La Rochelle

D’où

P(480 < S < 720) = P(−120 < S − 600 < 120) = P(|S − 600| < 120)
= 1 − P(|S − 600| ≥ 120)
500
≥ 1−
1202
≥ 0, 95833 . . .

Remarque 5.2.3 Les valeurs 480 et 720 sont symétriques par rapport à la moyenne 600
de la v.a. considérée, ce sont 600±120. Ce n’est pas nécessaire : on peut aussi appliquer l’in-
égalité de Tchebychev sur un intervalle non centré autour de l’espérance. Il suffit pour cela
d’utiliser le plus grand intervalle centré sur l’espérance qu’il contient. Ainsi pour minorer
P(550 < S < 700), il suffit de remarquer que

550 < S < 700 ⇐= 550

| < {z S < 650} ⇐⇒ −50 < S − 600 < 50.
intervalle centré autour de 600

P(550 < S < 700) ≥ P(550 < S < 650) = P(−50 < S − 600 < 50)
= P(|S − 600| < 50)
= 1 − P(|S − 600| ≥ 50)
500
≥ 1 − 2 = 0, 8.
50
Chapitre 6

Variables aléatoires à valeurs réelles

réelles

6.1 Généralités
Dans l’observation de grandeurs physiques (longueur, aire, volume, temps, poids), les
données à modéliser prennent souvent une infinité de valeurs non nécessairement discrètes.
D’où la nécessité de définir des variables aléatoires qui prennent un ensemble diffus de
valeurs réelles.
Jusqu’à maintenant, pour les variables aléatoires discrètes, on s’est ramené aux proba-
bilités des points où la v.a. est répartie (les masses ou probabilités ponctuelles P(X = xk )
en les atomes xk ). Pour les variables continues, les probabilités des points seront la plupart
du temps nulles (il y a en quelque sorte trop de points pour qu’ils aient chacun une pro-
babilité ponctuelle non nulle). Par contre les probabilités des intervalles ne s’annulent pas.
Il apparaı̂t alors pertinent de baser la théorie des v.a. réelles non plus sur les quantités du
type P(X = xk ) mais sur P(X ∈ [a, b]) où [a, b] désigne un intervalle réel. La définition qui
suit est donc motivée par la nécessité d’attribuer une définition cohérente aux probabilités
des ensembles {ω ∈ Ω; X(ω) ∈ [a, b]} = {X ∈ [a, b]}.
Définition 6.1.1 (Variable aléatoire réelle) On appellera, dans ce cours, variable aléa-
toire réelle (notée v.a.r.) sur un espace de probabilité (Ω, F, P) une fonction X : Ω −→ R,
ω 7→ X(ω) dont le domaine X(Ω) est un intervalle (qui peut être borné ou une demi-droite
ou encore R tout entier).
À nouveau, à chaque v.a.r., on associe sa loi. Elle définit une probabilité sur R :
Définition 6.1.2 Soit X une v.a.r. sur (Ω, F, P). On lui associe la fonction d’ensembles
PX qu’on considérera sur l’ensemble des intervalles de R en posant
∀I intervalle de R, PX (I) = P(ω ∈ Ω; X(ω) ∈ I) = P(X ∈ I) = P(X −1 (I)).
La fonction d’ensemble PX ainsi définie est une probabilité sur R muni de la famille des
observables obtenue à partir des intervalles. On l’appelle la loi de la v.a.r. X.

53
54 Chapitre 6. c JCB – L2 IMAE – Université de La Rochelle

Il est facile de vérifier qu’il s’agit bien d’une probabilité sur R : en effet, d’abord PX (R) =
P(X ∈ R) = P(Ω) = 1. Puis si (In )n∈N est une famille d’intervalles de R deux à deux
disjoints, on a :
[ [ [ [
X −1 In = {ω ∈ Ω; X(ω) ∈ In } = {ω ∈ Ω; X(ω) ∈ In } = X −1 (In ).
n n n n

Comme les évènements {X ∈ In }, n ∈ N∗ , sont deux à deux disjoints, il suit par σ-additivité
de P :
[ [ [ X X
PX In = P X −1 In = P X −1 (In ) = P(X −1 (In )) = PX (In ).
n n n n n

Proposition 6.1.1 Soit X une v.a.r. Sa loi PX est caractérisée par la fonction de répar-
tition FX : R −→ [0, 1] définie par

FX (x) = PX (] − ∞, x]) = P(X ∈] − ∞, x]) = P(X ≤ x), x ∈ R.

Ainsi en pratique pour montrer que deux v.a.r. X, Y ont même loi, il suffit de montrer
que pour tous réels a, b on a P(X ∈ [a, b]) = P(Y ∈ [a, b]), ou que X, Y ont même fonction
de répartition. La caractérisation de la loi par la fonction de répartition FX se déduit
facilement de
P(X ∈]a, b]) = FX (b) − FX (a).
La fonction de répartition FX d’une v.a.r. X jouit des mêmes propriétés que celles des
v.a. discrètes qu’on énonce de la même façon :

Proposition 6.1.2 La fonction de répartition d’une v.a. X satisfait :

– FX (t) ≥ 0,
– FX est croissante,
– lim FX (t) = 0, lim FX (t) = 1,
t→−∞ t→+∞
– En tout point, FX est continue à droite et a une limite à gauche, c’est à dire

lim FX (t) = FX (t0 ), et lim FX (t) existe.

t↓t0 t&t0

Démonstration : Le premier point est clair car une probabilité est toujours positive. Le
deuxième vient de ce que {X ≤ s} ⊂ {X ≤ t} si s ≤ t, car si ω ∈ Ω vérifie X(ω) ≤ s alors
il vérifie a fortiori X(ω) ≤ t, il suit par croissance de P :

FX (s) = P(X ≤ s) ≤ P(X ≤ t) = FX (t).

Pour le dernier point : en tant que fonction croissante FX a des limites à droite et à gauche
en tout point (résultat élémentaire d’analyse) : en effet, si h > 0,

FX (t0 + h) − FX (t0 ) = P(t0 < X ≤ t0 + h) −→h→0 P(t0 < X ≤ t0 ) = P(∅) = 0

6.1. Généralités 55

(rappelons qu’en passant à la limite, une inégalité devient forcément large).

D’où limt→t+0 FX (t) = FX (t0 ). Alors que

FX (t0 ) − FX (t0 − h) = P(t0 − h < X ≤ t0 ) −→h→0 P(t0 ≤ X ≤ t0 ) = P(X = t0 ) ≥ 0

éventuellement non nul si X a un atome en t0 . On a donc limt→t−0 FX (t) = P(X < t0 )

existe.
Le reste de la preuve vient maintenant des propriétés de monotonie séquentielle des
probabilités vues au chapitre 1 : Si (An )n∈N∗ est une suite croissante d’évènements (i.e.
pour tout n, An ⊂ An+1 ) alors
[
lim P(An ) = P(A) où A = An . (6.1)
n→+∞
n∈N∗

Si (Bn )n∈N∗ est une suite décroissante d’évènements (i.e. pour tout n, Bn+1 ⊂ Bn ) alors
\
lim P(Bn ) = P(B) où B = Bn . (6.2)
n→+∞
n∈N∗

La\
limite 0 en
\−∞ vient alors de (6.2) appliquée à PX et Bn =] − ∞, −n] pour lequel
B= Bn = ] − ∞, −n] = ∅ et qui donne
n∈N∗ n∈N∗

lim FX (−n) = lim PX (Bn ) = PX (∅) = 0.

n→∞ n→+∞

La limite
[ 1 en [ +∞ vient alors de (6.1) appliquée à PX et An =] − ∞, n] pour lequel
A= An = ] − ∞, n] = R et qui donne
n∈N∗ n∈N∗

lim FX (n) = lim PX (An ) = PX (R) = 1.

n→∞ n→+∞

La continuité à droite en x s’obtient aussi en appliquant (2.3) à PX et Bn =] − ∞, x + 1/n]

avec B =] − ∞, x]. On a

lim FX (x + 1/n) = lim P(Bn ) = PX (B) = FX (x).

n→+∞ n→+∞

Signalons que ce résultat admet la réciproque –culturelle– suivante :

Théorème 6.1.1 Soit F une fonction définie et croissante sur R. On suppose de plus que
F est continue à droite, qu’elle admet une limite à gauche en tout point et qu’elle tend vers
0 en −∞ et vers 1 en +∞. Alors, il existe un espace probabilisé (Ω, F, P) et une v.a.r. X
définie sur cet espace et ayant F pour fonction de répartition.
56 Chapitre 6. c JCB – L2 IMAE – Université de La Rochelle

6.2 Intégrales impropres

Lorsque l’on intègre une fonction sur un domaine non borné ou sur un domaine où elle
possède une singularité (i.e. où elle n’est pas définie), on parle d’intégrale impropre.
Fonctions positives
Dans le cas de l’intégration d’une fonction f sur R+ , on définit son intégrale impropre,
si elle existe, par Z +∞ Z M
f (x)dx = lim f (x)dx.
0 M →+∞ 0

Si f est définie sur R, son intégrale impropre est donnée, si elle existe, par
Z +∞ Z M
f (x)dx = lim f (x)dx.
−∞ M →+∞ −M

Là encore, on parle d’intégrale convergente ou divergente selon que la limite existe et est
finie ou non.
Critère d’intégrabilité en x0 ∈ R : (souvent x0 = 0) Soit f : [a, b] → R+ et x0 ∈]a, b[,
si ∃α < 1 tel que
lim (x − x0 )α f (x) = 0
x→x0

alors f est intégrable au voisinage

p de x0 .
Par exemple : x 7→ 1/ |x − 1| est intégrable en 1, x 7→ 1/|x − 1| ne l’est pas.
Critère d’intégrabilité en +∞ : Soit f : [A, +∞) → R+ , si ∃α > 1 tel que

lim xα f (x) = 0
x→+∞

alors f est intégrable en +∞.

2
Par exemple, x 7→ 1/xa est intégrable en +∞ ssi a > 1, x 7→ e−x est intégrable en
+∞, x 7→ 1/ log x ne l’est pas.
Fonctions de signe quelconque
Une fonction f de signe quelconque est dite absolument intégrable si la fonction positive
|f | est intégrable.
L’absolue intégrabilité entraı̂ne l’intégrabilité (simple).

6.3 Variables aléatoires réelles à densité

C’est essentiellement ce type de v.a.r. que l’on considérera dans la suite de ce cours.
La loi d’une v.a.r. est à densité f si pour tout intervalle de R, la probabilité d’apparte-
nance de X à cet intervalle s’exprime comme l’intégrale de f sur cet intervalle.

Définition 6.3.1 Une fonction f : R → R est appelée densité de probabilité si

– f est positive : en tout point t où elle est définie f (t) ≥ 0,
6.3. Variables aléatoires réelles à densité 57

– f est intégrable sur R d’intégrale 1 :

Z +∞
f (t) dt = 1.
−∞

Définition 6.3.2 La v.a.r. X suit la loi de densité f si

Z b
∀[a, b] intervalle de R, P(X ∈ [a, b]) = f (t) dt.
a

Notons que pour une v.a. X de densité f , la probabilité que X vaille un point est 0, car
c’est une intégrale sur un intervalle réduit à un point :
Z x0
P(X = x0 ) = P(X ∈ [x0 , x0 ]) = f (x)dx = 0.
x0

Par conséquent, le sens des bornes des intervalles (fermées ou ouvertes) n’est pas important :

P(X ∈ [a, b]) = P(X ∈]a, b[) et P(X ≤ t) = P(X < t),

en effet la différence est la probabilité que X vaille un point, ce qui est 0.

Il est clair que si Y est une v.a.r. de même loi que X alors elle a aussi la densité f . Il
serait plus correct de parler de la densité de la loi.
La densité d’une v.a. réelle joue le rôle pour une v.a. discrète de ses probabilités ponctuelles
P(X = xk ).
Exemples : Quelques exemples de densité de var
1 1
f1 (t) = 1[a,b] (t), f2 (t) = √ 1[0,1](t) ,
b−a 2 t
1
f3 (t) = e−t 1[0,+∞[ (t), f4 (t) =
π(1 + t2 )

avec la notation suivante pour la fonction indicatrice d’un ensemble A

1 si t ∈ A
1A (t) =
0 si t 6∈ A.

Généralement, les densités que nous considérerons seront de l’un de deux types suivants
R +∞
– f est définie et continue sur R et son intégrale de Riemann généralisée −∞ f (t) dt
converge et vaut 1.
– f est définie sur R privé d’un point ou d’un ensemble fini de point, a1 < · · · < an .
Sur chaque intervalle ouvert ] − ∞, a1 [, · · · , ]ai , ai+1 [, · · · , ]an , +∞[, f est continue
et a une intégrale de Riemann (généralisée ou non) convergente et la somme de ces
intégrales vaut 1.
Dans l’exemple ci-dessus f1 , f2 , f3 sont du deuxième type, f4 du premier.
58 Chapitre 6. c JCB – L2 IMAE – Université de La Rochelle

Proposition 6.3.1 (Domaine d’une v.a. à densité) Le domaine d’une v.a.r. à densité
coı̈ncide avec le support de sa densité.

Démonstration : Soit X une v.a.r. de densité f . On note D le support de f : ∀x 6∈

D, f (x) = 0. Pour simplifier, on suppose f continue (ou continue par morceaux), dans ce
cas D = f −1 {R∗ }. Pour tout intervalle I ⊂ Dc , on a
Z
P(X ∈ I) = f (t)dt = 0
I

car f est nulle sur I ⊂ Dc . Les seuls intervalles que X visite avec une probabilité non nulle
sont ceux inclus dans le support D de sa densité. R
Réciproquement, si P(X ∈ I) = 0 alors I f (t)dt = 0 et comme f est positive et
continue, on a f (t) = 0 pour tout t ∈ I. Il suit I ∩ D = ∅. On en déduit X(Ω) = D.

Lorsqu’elle existe la densité f est naturellement reliée à la fonction de répartition FX :

Proposition 6.3.2 Si X est une v.a.r. de densité f , sa fonction de répartition FX vérifie :

Rx
(i) ∀x ∈ R, FX (x) = −∞ f (t) dt.
(ii) FX est continue sur R.
(iii) Si f est continue au point x0 , alors FX est dérivable en x0 de dérivée FX0 (x0 ) = f (x0 ).

D’après (ii), la fonction de répartition est continue. De là, vient aussi qu’on parle de variable
aléatoire continue pour v.a. à densité.
Démonstration : Puisque X a pour densité f , et comme

FX (b) = P(X ∈] − ∞, b]) = P(X ∈] − ∞, a]∪]a, b]) = FX (a) + P(X ∈]a, b]),

on a pour tous réels a < b :

Z b
P(ω, X(ω) ∈]a, b]) = P(X ∈]a, b]) = FX (b) − FX (a) = f (t) dt. (6.3)
a

(i) : Il suffit d’appliquer (6.3) avec b = x fixé et a = −n pour chaque n ∈ N tel que
x > −n. La suite d’évènements

An = {ω, X(ω) ∈] − n, x]}, n > −x,

est croissante pour l’inclusion et de réunion A = {ω, X(ω) ∈] − ∞, x]} = {X ≤ x}. Par la
propriété de monotonie séquentielle, on a P(An ) & P(A), d’où
Z x Z x
FX (x) = P(X ≤ x) = P(A) = lim P(An ) = lim f (t) dt = f (t) dt
n→+∞ n→+∞ −n −∞

en notant que l’intégrale généralisée de la densité f converge en −∞.

6.4. Lois à densité classiques 59

(ii) : On fixe x0 ∈ R quelconque. D’abord FX est continue à droite en tout point car
c’est une fonction de répartition et que c’est vrai de toute fonction de répartition (cf. Prop.
6.1.2).
Il reste à voir la continuité à gauche. On se contente de le faire avec l’hypothèse sup-
plémentaire suivante : « il existe a < x0 tel que f soit définie et Riemann intégrable sur
tout intervalle [a, a0 ] ⊃ [a, x0 ] ». On a alors :
Z x Z x0
lim f (t) dt = f (t) dt,
x&x0 a a

où la deuxième intégrale est soit une intégrale de Riemann ordinaire soit une intégrale de
Riemann impropre convergente. On peut réécrire

lim (FX (x) − FX (a)) = FX (x0 ) − FX (a).

x&x0

On conclut en rajoutant des deux côtés FX (a).

(iii) : Comme par hypothèse f est continue en x0 , elle est définie sur tout un voisinage
de x0 et donc sur un intervalle [a, b] qui contient x0 . La continuité de f en x0 s’écrit :
∀ε > 0, ∃δ > 0 tel que ]x0 − δ, x0 + δ[⊂]a, b[ et

∀t ∈]x0 − δ, x0 + δ[, |f (t) − f (x0 )| < ε.

Z x0 +h
Pour tout h tel que 0 < |h| < δ, on a alors FX (x0 + h) − FX (x0 ) = f (t) dt. D’où
x0

Z x0 +h Z x0 +h
|FX (x0 + h) − FX (x0 ) − hf (x0 )| = f (t)dt − f (x0 )dt
x0 x0
Z x0 +h Z x0 +h

= f (t) − f (x0 ) dt ≤ f (t) − f (x0 ) dt
x0 x0
≤ hε.

En divisant par h puis en faisant h → 0, on constate que FX est dérivable en x0 , de dérivée

f 0 (x0 ).

6.4 Lois à densité classiques

Définition 6.4.1 La fonction indicatrice d’un ensemble A est

1 si x ∈ A,
1A (x) =
0 si x 6∈ A.
60 Chapitre 6. c JCB – L2 IMAE – Université de La Rochelle

6.4.1 Lois uniformes

Définition 6.4.2 La v.a.r. X suit une loi uniforme sur l’intervalle [a, b] (−∞ < a < b <
+∞) si elle a une densité f constante sur cet intervalle et nulle en dehors. Sa densité est
alors
1 1/(b − a) si t ∈ [a, b],
f (t) = 1[a,b] (t) =
b−a 0 si t 6∈ [a, b].

Cette loi est l’équivalent continue de la loi discrète equirépartie. L’allure de la densité d’une
v.a. de loi uniforme est :
f (t)

a 0 b t

Remarque
R +∞ 6.4.1 Le facteur 1/(b − a) permet de normaliser l’intégrale de f sur R pour
que −∞ f (t) dt = 1. On comprend bien dès lors pourquoi on ne parle de lois uniformes
que sur les intervalles finis : si a ou b est infini le facteur de normalisation est nul et la
densité f vaut 0 partout. Son intégrale ne peut plus dès lors valoir 1.

Sa fonction de répartition est affine par morceaux :


Z x 
 x−0 si −∞ < x ≤ a
a
F (x) = f (t)dt = si a ≤ x ≤ b
−∞  b−a

1 si b ≤ x < +∞.
L’allure de la fonction de répartition d’une v.a. de loi uniforme est :
F (x)

b x
a 0
6.4. Lois à densité classiques 61

Le résultat suivant permet d’éviter des calculs fastidieux pour la probabilité uniforme
d’un intervalle.

Proposition 6.4.1 Si X est une v.a.r. de loi uniforme sur [a, b] alors pour tout intervalle
I de R :
l([a, b] ∩ I)
P(X ∈ I) =
l([a, b])
où l(J) désigne la longueur de l’intervalle J (l([a, b]) = b − a).

6.4.2 Lois exponentielles

Définition 6.4.3 Soit a un réel strictement positif. La v.a.r. X suit une loi exponentielle
de paramètre a si elle admet pour densité :

f (t) = ae−at 1[0,+∞[ (t).

Elle est notée E(a).

En pratique, à la place de la fonction de répartition, on utilise souvent la fonction de survie

G d’une v.a.r. de loi exponentielle

1 si x ≤ 0,
GX (x) = P(X > x) = 1 − FX (x) = −ax
e si x ≥ 0.

Les lois exponentielles sont souvent utilisées pour modéliser des temps d’attente ou des
durées de vie. Par exemple, les temps d’attente à partir de maintenant du prochain trem-
blement de terre, de la prochaine panne d’un appareil, de la prochaine désintégration dans
un réacteur nucléaire suivent des lois exponentielles. On verra bientôt que le paramètre a
désigne alors l’inverse du temps d’attente moyen.
Une propriété intéressante de ce type de loi est l’absence de mémoire. Cette propriété
caractérise les lois exponentielles.

Théorème 6.4.1 (i) Si la v.a.r. X suit une loi exponentielle alors elle vérifie la pro-
priété d’absence de mémoire :

∀s ∈ R+ , ∀t ∈ R+ , P(X > t + s|X > t) = P(X > s). (6.4)

(ii) Réciproquement, si une v.a.r. X vérifie (6.4) alors elle suit une loi exponentielle.

Autrement dit si X survit jusqu’en t, sa survie pendant encore s unités de temps est la
même qu’une survie de durée s depuis le départ : tout se passe comme si, ce qui se passe
de 0 à t est oublié pour survivre encore s unités de temps. C’est à comparer, par exemple,
avec la vie humaine qui a une mémoire : pour un homme de 60, la probabilité de vivre
encore 30 ans n’est pas la même que pour celle d’un nouveau né (de 0 an).
62 Chapitre 6. c JCB – L2 IMAE – Université de La Rochelle

Démonstration : Pour (i) :

P(X > t + s et X > t) P(X > t + s)
P(X > t + s | X > t) = =
P(X > t) P(X > t)
e−a(t+s)
= = e−as = P(X > s)
e−at
d’après l’expression de la fonction de survie. Le point (ii), un peu plus délicat, est admis.

6.4.3 Lois de Cauchy

Définition 6.4.4 Une variable aléatoire réelle suit une loi de Cauchy de paramètre a ∈ R∗+
si elle admet pour densité :
a 1
f (t) = .
π a2 + t 2
Exercice. Montrer qu’il s’agit bien d’une densité.

6.4.4 Lois normales ou gaussiennes

Elles jouent un rôle capital dans l’étude des lois limites de sommes de variables aléatoires
indépendantes (cf. le théorème central limite, résultat central comme son nom l’indique en
théorie des probabilités). On parle encore de loi gaussiennes.

Définition 6.4.5 On dit que la v.a.r. X suit une loi gaussienne ou normale N (m, σ 2 ) si
elle a pour densité la fonction :
1 (t − m)2
fm,σ : R −→ R, t 7−→ √ exp − .
σ 2π 2σ 2
1 2
La loi normale standard N (0, 1) est celle de densité f0,1 (t) = √ e−t /2 .
2π
Remarque 6.4.2 Cette loi est fondamentale en théorie des probabilités et en statistique :
c’est la loi limite de la moyenne dans une suite infinie d’épreuves répétées indépendantes.
En pratique elle sert à modéliser les effets additifs de petits phénomènes aléatoires indé-
pendants répétés souvent.
On parle de densité gaussienne pour fm,σ . Le paramètre m est un paramètre de loca-
lisation (c’est la valeur où fm,σ atteint son maximum), le paramètre σ est un paramètre
d’échelle. Nous verrons que ce sont en fait la moyenne et l’écart-type de la loi.
La fonction f0,1 s’appelle la densité normale standard (ou gaussienne standard). Sa courbe
représentative est bien connue, il s’agit de la « courbe en cloche » (ou courbe de Gauss)
à laquelle il est souvent fait référence. Les courbes des fm,σ sont aussi des « courbes en
cloche » obtenues par translation et dilatation de celle de f0,1 (ce phénomène est lié à la
Proposition 6.4.2).
6.4. Lois à densité classiques 63
√
Notez que le facteur 1/ 2π dans les densités gaussiennes a été choisi car on montre que
Z +∞
2 √
e−t /2 dt = 2π.
−∞

Notez encore qu’on peut facilement passer d’une loi normale à la loi standard :
X −m
Proposition 6.4.2 Si la v.a.r. X suit une loi N (m, σ 2 ), alors Y := suit la loi
σ
N (0, 1).

La v.a. Y s’appelle la v.a. centrée réduite associée à X.

Démonstration : Calculons pour a < b quelconques P(a ≤ Y ≤ b) :
X −m
P a≤ ≤ b = P(σa + m ≤ X ≤ σb + m)
σ
Z σb+m
1 (t − m)2
= √ exp − dt.
σa+m σ 2π 2σ 2

Il suffit alors de faire le changement de variable s = (t − m)/σ pour obtenir

b
1 s2
Z
∀a ∈ R, ∀b > a, P(a ≤ Y ≤ b) = √ exp − ds,
a 2π 2

c’est à dire Y suit la loi N (0, 1).

6.4.5 Lois log-normales

Définition 6.4.6 Une variable aléatoire réelle X suit une loi log-normale si elle admet la
densité (
0 si t < 0
f (t) =

1 (ln t−m)2
√
σt 2π
exp − 2σ2 si t ≥ 0
où m ∈ R, σ ∈ R∗ .

Cette loi est l’analogue multiplicatif de la loi normale : elle modélise les effets multipli-
catifs de phénomènes aléatoires nombreux et indépendants.
La terminologie vient de ce que :

Proposition 6.4.3 Si X est de loi log-normale alors ln(X) suit une loi normale et réci-
proquement.

Démonstration : En effet X est log-normale si et seulement si pour x ≥ 0

Z x
(ln t − m)2

1
FX (x) = √ exp − dt
0 σt 2π 2σ 2
64 Chapitre 6. c JCB – L2 IMAE – Université de La Rochelle

ln(x)
(s − m)2

1
Z
= √ exp − ds en posant s = ln(t),
−∞ σ 2π 2σ 2
= FY (ln(x))

où Y est une variable aléatoire de loi normale N (m, σ 2 ).

On a alors

Fln X (x) = P(ln X ≤ x) = P(X ≤ ex ) = FX (ex ) = FY (ln ex ) = FY (x).

La variable ln X a la même fonction de répartition que Y , variable normale, elle est donc
normale de paramètres m, σ 2 .

6.5 Espérance et variance des lois à densité

Définition 6.5.1 (Espérance
R +∞ d’une v.a.r. à densité) Si X est une v.a.r. de densité f
telle que l’intégrale −∞ |x|f (x) dx converge, on appelle espérance de X le réel (fini)
Z +∞
E[X] = xf (x) dx. (6.5)
−∞

Remarque 6.5.1 P Noter R la ressemblance formelle du cas continu avec le cas discret : on a
juste remplacé par , et il s’agit encore de faire la moyenne des x
– pondérés par la densité f (x) dans le cas continu avec densité,
– pondérés par les probabilités ponctuelles P(X = xk ) dans le cas discret.
Il faut retenir que la densité du cas continu est l’équivalent des probabilités ponctuelles du
cas discret.

Exemples : espérance de v.a. réelles à densité

• Si X suit une loi uniforme sur [a, b] son espérance est
+∞ b 2 b
1 1 1 t b 2 − a2 a+b
Z Z
E[X] = t1[a,b] (t) dt = t dt = = = .
b−a −∞ b−a a b − a 2 a 2(b − a) 2

• Si X suit une loi exponentielle de paramètre a > 0, son espérance est (en intégrant
par parties)
Z +∞ Z +∞ +∞
Z +∞
−at −at
te−at 0 e−at dt

E[X] = ate 1R+ (t)dt = at e dt = − +
−∞ 0 0
−at
+∞
e
= 0+ = 1/a.
a 0
6.5. Espérance et variance des lois à densité 65

• Si X suit une loi de Cauchy de paramètre a alors, l’espérance n’est pas définie. En
effet, Z +∞
a|t| dt
2 2
= +∞,
−∞ π(a + t )

car t/(a2 + t2 ) '+∞ 1/t qui n’est pas intégrable en +∞ (on fait de même en −∞). Finale-
ment, la condition d’existence de l’espérance n’est pas remplie.
X −m
• Si X suit une loi normale N (m, σ 2 ), son espérance vaut E[X] = m : comme Y :=
σ
suit une loi N (0, 1) (cf. la proposition 6.4.2), il suffit de voir d’après la linéarité (justifiée
dans la proposition 6.5.1 à venir) E[Y ] = 0 c’est à dire
Z +∞
1 2
√ te−t /2 dt = 0
2π −∞
ce qui est clair car comme l’intégrant est impair :
Z 0 Z +∞
−t2 /2 2
te dt = − se−s /2 ds avec le changement de variables s = −t
−∞ 0

et donc
+∞ +∞ +∞
1 1 1
Z Z Z
−t2 /2 −t2 /2 2 /2
√ te dt = √ te dt − √ se−s ds = 0.
2π −∞ 2π 0 2π 0

(Au passage, noter que la convergence de l’intégrale ne pose pas de problème grâce au
2
facteur e−t /2 qui assure que les critères de convergence sont vérifiés car par exemple
2
t2 e−t /2 → 0, t → ±∞, cf. page 56.)

Les principales propriétés des espérances ont déjà été vues précédemment pour les v.a.
discrètes. Elles ont leurs analogues pour des v.a. à densité. On se contente de les citer, les
preuves étant essentiellement de simples adaptations de celles déjà vues.
Proposition 6.5.1 (Linéarité de l’espérance) Soient X et Y deux v.a.r. admettant
des espérances. Alors
(1) E[X + Y ] = E[X] + E[Y ],
(2) Pour tout réel a, E[aX] = aE[X].
Démonstration : On prouve seulement le 2) pour a > 0 :
Z x/a
FaX (x) = P(aX ≤ x) = P(X ≤ x/a) = FX (x/a) = fX (t)dt
−∞
0
En dérivant, on déduit la densité de aX : faX (t) = FaX (t) = a1 fX (t/a) et
u u
Z Z Z
E[aX] = ufaX (u)du = fX ( )du = a xfX (x)dx
R R a a R

avec le changement de variable x = u/a.

66 Chapitre 6. c JCB – L2 IMAE – Université de La Rochelle

Proposition 6.5.2 (Théorème de transfert : Espérance d’une fonction de v.a.) Soient

X une v.a.r. de densité f et F une fonction numérique sur R (ou dont l’ensemble de dé-
finition contient au moins l’ensemble des valeurs de X) continue par morceaux. Alors si
E[|F (X)|] existe, on a Z +∞
E[F (X)] = F (x)f (x) dx.
−∞

On a de plus facilement avec la fonction numérique F (x) = |x| :

Z +∞
Proposition 6.5.3 (Espérance et valeurs absolues) E[|X|] = |x|f (x)dx. Et si
−∞
E[X] existe, |E[X]| ≤ E[|X]|.
Notons que la condition de définition des espérances (cf. Déf. 6.5.1) pour l’existence de
E[X] n’est donc à nouveau rien d’autre que E[|X|] < +∞.
Proposition 6.5.4 (Positivité de l’espérance)
– Si X a une espérance et X ≥ 0, alors E[X] ≥ 0.
– Si Xet Y ont des espérances et X ≤ Y alors E[X] ≤ E[Y ].
Z 0
Démonstration : Si X ≥ 0 alors P(X ≤ 0) = f (t) dt = 0. Comme f est positive et
−∞
d’intégrale nulle sur R− alors f (t) = 0 si t < 0. On a donc
Z +∞ Z +∞
E[X] = tf (t) dt = tf (t) dt.
−∞ 0

Comme sur R+ , t ≥ 0 et f est positive, l’intégrale précédente est positive.

Pour la deuxième partie, appliquer la première à la v.a. positive Y − X puis utiliser la
linéarité de l’espérance.
Soulignons qu’on dispose toujours de l’inégalité de Markov :
Théorème 6.5.1 (Inégalité de Markov) Si X est une v.a.r. positive à densité ayant
une espérance alors
E[X]
∀t > 0, P(X ≥ t) ≤ .
t
Démonstration : Si on note f la densité de la v.a. X, on a f (t) = 0 si t < 0 car X
est à valeurs positives. Puis
Z +∞ Z t Z +∞
E[X] = xf (x)dx = xf (x)dx + xf (x)dx
0 0 t
Z +∞ Z +∞
≥ 0+ xf (x)dx ≥ t f (x)dx
t t
≥ tP(X ∈ [t, +∞)) = tP(X ≥ t).
On redéfinit aussi les moments :
6.5. Espérance et variance des lois à densité 67

Définition 6.5.2 Soit r ∈ N∗ , on appelle moment d’ordre r de la v.a.r. X de densité f le

nombre Z +∞
r
E[|X| ] = |x|r f (x) dx.
−∞

Lorsqu’il est fini, on considère aussi

Z +∞
r
E[X ] = xr f (x) dx.
−∞

E[|X|n ] ≤ 1 + E[|X|r ].

On définit en particulier la variance et l’écart-type de la même façon que pour les v.a.
discrètes. p
Var(X) = E[(X − E[X])2 ], σX = Var(X).
On dispose des mêmes propriétés que dans le cas des v.a. discrètes :
–
Var(aX) = a2 Var(X), Var(X + b) = Var(X), ∀a, b ∈ R.
– Formule de Koenig :
Var(X) = E[X 2 ] − E[X]2 .
– Inégalité de Tchebychev : si Var(X) existe, on a

Var(X)
P(|X − E[X]| ≥ t) ≤ , ∀t > 0.
t2

Exemples : variances des lois à densités usuelles

• Si X suit une loi uniforme sur [a, b] sa variance est

(b − a)2
Var(X) = .
12
En effet

Z b
2 1 b 3 − a3 a2 + ab + b2
E[X ] = t2 dt = =
b−a a 3(b − a) 3
2 2 2
a + ab + b (a + b) (b − a)2
Var(X) = − = .
3 4 12
68 Chapitre 6. c JCB – L2 IMAE – Université de La Rochelle

• Si X suit une loi exponentielle de paramètre a, sa variance est 1/a2 : en intégrant par
parties (deux fois),

Z +∞ +∞
Z +∞
−at
2 2
t2 e−at 0 2te−at dt

E[X ] = at e dt = − +
0 0
−at +∞ Z +∞ −at −at +∞
te e e
= 0−2 +2 dt = 0 − 2 2
= 2/a2
a 0 0 a a 0
Var(X) = E[X 2 ] − E[X]2 = 2/a2 − 1/a2 = 1/a2 .

• Si X suit une loi de Cauchy alors elle n’a pas de moment d’ordre 2 car n’en a déjà
pas d’ordre 1 (pas de moyenne). Elle n’admet donc pas de variance.
• Si X suit une loi normale N (m, σ 2 ), sa variance vaut Var(X) = σ 2 , en effet comme
X −m
Y := est de loi N (0, 1) et que Var(X) = σ 2 Var(Y ) (cf. Prop. 6.4.2), il suffit de
σ
voir Var(Y ) = E[Y 2 ] − E[Y ]2 = 1. Or E[Y ] = 0 et

Z +∞
1 2
2
E[Y ] = √ t2 e−t /2 dt
2π −∞
Z +∞
1 h −t2 /2
i+∞ 1 2
= √ −te +√ e−t /2 dt
2π −∞ 2π −∞
= 0 + 1 = 1.

On a bien E[Y 2 ] = 1, Var(Y ) = 1, Var(X) = σ 2 .

6.6 Tableau comparatif des formules pour des v.a. dis-

crètes et continues à densité

Lorsque les intégrales et les séries concernées sont absolument convergentes, on a le

tableau comparatif suivant entre le cas discret et le cas continu :
6.6. Tableau comparatif 69

X Variable discrète Variable à densité f

X(Ω) {x1 , x2 , . . . , xk , . . .} R ou un intervalle
X Z b
P(a ≤ X ≤ b) P(X = xk ) f (t) dt
a≤xk ≤b a
X Z x
F (x) = P(X ≤ x) P(X = xk ) f (t) dt
xk ≤x −∞
+∞
X Z +∞
E[X] xk P(X = xk ) tf (t) dt
k=1 −∞
+∞
X Z +∞
E[g(X)] g(xk )P(X = xk ) g(t)f (t) dt
k=1 −∞
+∞
X Z +∞
2
E[X ] x2k P(X = xk ) t2 f (t) dt
k=1 −∞
+∞ Z +∞
X 2 2
Var(X) xk − E[X] P(X = xk ) t − E[X] f (t) dt
k=1 −∞
70 Chapitre 6. c JCB – L2 IMAE – Université de La Rochelle
Chapitre 7

Vecteurs aléatoires

Dans des situations où interviennent plusieurs variables aléatoires, le calcul de la pro-
babilité d’un évènement dont la réalisation dépend des valeurs de ces variables doit faire
intervenir ces variables considérées dans leur ensemble et non chacune isolément. Cela
amène ainsi à étudier une nouvelle notion : celle de vecteur aléatoire.

7.1 Généralités
Définition 7.1.1 Soient X, Y des v.a. définies sur le même espace probabilisé (Ω, F, P).
L’application
Ω −→ R2 , ω 7−→ (X(ω), Y (ω))
est appelé couple aléatoire, on le note (X, Y ). Les variables aléatoires X et Y sont alors
appelées ses marginales.
Définition 7.1.2 De même, si X1 , X2 , . . . , Xn sont n variables aléatoires, sur le même
espace (Ω, F, P), on définit le vecteur aléatoire (X1 , . . . , Xn ) comme l’application
Ω −→ Rn , ω 7−→ (X1 (ω), . . . , Xn (ω)).
La v.a. Xi est appelée la i-ème marginale du vecteur. Pour n = 2, on retrouve les couples
aléatoires.
Le couple aléatoire (X, Y ) permet de transporter la probabilité P de l’espace Ω sur
l’espace R2 . Rappelons qu’un produit cartésien A × B de deux ensembles A, B ⊂ R désigne
l’ensemble suivant de R2 :
A × B = {(a, b) tel que a ∈ A et b ∈ B}.
Définition 7.1.3 La loi PX,Y du couple (X, Y ) est la probabilité définie sur l’ensemble des
produits d’intervalles I × J de R2 par ∀I, J intervalles de R
PX,Y (I × J) = P(ω ∈ Ω; (X(ω), Y (ω)) ∈ I × J) (7.1)
= P(X ∈ I, Y ∈ J).

71
72 Chapitre 7. c JCB – L2 IMAE – Université de La Rochelle

Remarque 7.1.1 (pour des v.a. dicrètes)

– À nouveau, s’il s’agit de couple de v.a. discrètes, il n’est pas utile de se restreindre à
définir PX,Y sur les produits d’intervalles I × J. On peut définir la loi PX,Y sur tout
P(R2 ), l’ensemble des parties de R2 .
– Dans le cas de v.a. X, Y discrètes, il est facile de voir que la loi du couple (X, Y ) est
caractérisée par les probabilités ponctuelles PX,Y (xi , yj ) = P(X = xi , Y = yj ) pour
tout xi ∈ X(Ω), yj ∈ Y (Ω) dans les domaines de valeurs de X et de Y .

7.2 Vecteurs aléatoires discrets

Rappelons encore que pour X, Y v.a. discrètes, les lois de X et de Y sont définies sur
toutes les parties de R, celle du couple sur toutes les parties de R2 . Le résultat suivant
montre qu’on retrouve la loi des v.a. marginales à partir de celle d’un couple.
Proposition 7.2.1 Si (X, Y ) est un couple aléatoire de v.a. discrètes de domaine
(X, Y )(Ω) = {(x1 , y1 ), . . . , (xi , yi ), . . .}, les domaines des marginales X, Y s’obtiennent par
projection :

X(Ω) = p1 (X, Y )(Ω) = {x1 , . . . , xi , . . .}, Y (Ω) = p2 (X, Y )(Ω) = {y1 , . . . , yi , . . .}
où p1 , p2 sont les première et seconde projections

R2 → R R2 → R
p1 : , p2 : .
(x, y) 7→ x (x, y) 7→ y
Les lois marginales PX , PY (i.e. les lois de X et de Y, ses marginales) sont données par :
X
∀xi ∈ X(Ω), PX (xi ) = P(X = xi ) = P(X = xi , Y = yj ),
yj ∈Y (Ω)
X
∀yi ∈ Y (Ω), PY (yj ) = P(Y = yj ) = P(X = xi , Y = yj ).
xi ∈X(Ω)

Démonstration : Il suffit de faire la preuve pour le domaine et les probabilités ponctuelles

de X. Or pour i fixé {X = xi } est la réunion de la famille dénombrable d’évènements deux à
deux disjoints {X = xi , Y = yj } pour tous les j tels que yj ∈ Y (Ω) car {ω ∈ Ω|Y (ω) = yj }j
est une partition de Ω. On conclut alors par σ-additivité de P :
[
P(X = xi ) = P {X = xi } ∩ {Y = yj }
j
[ X
= P {X = xi , Y = yj } = P(X = xi , Y = yj ).
j yj ∈Y (Ω)

Puis {x1 , . . . , xi , . . .} et {y1 , . . . , yj , . . .} sont bien d’une part les projections de (X, Y )(Ω)
sur les premier et second facteurs de R2 = R × R et d’autre part les domaines de X et de
Y.
7.3. Intégrales multiples 73

Remarque 7.2.1 La connaissance du couple (X, Y ) permet de connaı̂tre les lois margi-
nales de X et de Y . Il est important de comprendre que la réciproque est fausse : les lois
marginales ne permettent pas de reconstruire la loi du couple (X, Y ) en général. C’est
possible dans le cas particulier où X et Y sont indépendantes comme nous le verrons
bientôt.

Exemples : On donne le tableau des probabilités ponctuelles P(X = xi , Y = yj ) d’un

vecteur aléatoire discret (X, Y ) :

X \ Y y1 = −1 y2 = 2 y3 = 3 y4 = 5
x1 = 0 0, 1 0, 05 0, 15 0 0, 3
x2 = 2 0, 05 0, 2 0, 05 0, 1 0, 4
x3 = 3 0, 1 0 0, 1 0, 1 0, 3
0, 25 0, 25 0, 3 0, 2 1
On en déduit la loi de X : X(Ω) = {0, 2, 3} et

P(X = 0) = 0, 3, P(X = 2) = 0, 4, P(X = 3) = 0, 3

et celle de Y : Y (Ω) = {−1, 2, 3, 5} et

P(Y = −1) = 0, 25, P(Y = 2) = 0, 25, P(Y = 3) = 0, 3, P(Y = 5) = 0, 2.

Notons qu’il n’y a pas unicité des couples (X, Y ) donnant les mêmes marginales. Ainsi, le
couple suivant est différent du précédent mais partage les mêmes marginales.

X \ Y y1 = −1 y2 = 2 y3 = 3 y4 = 5
x1 = 0 0, 1 0, 1 0 0, 1 0, 3
x2 = 2 0, 1 0, 1 0, 1 0, 1 0, 4
x3 = 3 0, 05 0, 05 0, 2 0 0, 3
0, 25 0, 25 0, 3 0, 2 1

7.3 Intégrales multiples

Pour exprimer les lois de vecteurs aléatoires réels, on a besoin d’intégrales multiples.
n
Pour les
Z fonctions de plusieurs variables F : R → R, on considère des intégrales
multiples F (x1 , . . . , xn )dx1 . . . dxn . Pour les calculer, on se ramène à des intégrales
Rn
simples imbriquées grâce au théorème de Fubini.
74 Chapitre 7. c JCB – L2 IMAE – Université de La Rochelle

Théorème 7.3.1 (Fubini en dimension 2) Soit F : [a, b] × [c, d] → R telle que l’une
ou l’autre des conditions suivantes est vérifiée :
– F est positive : ∀(x, y) ∈ [a, b] × [c, d], F (x, y) ≥ 0, (Fubini-Tonelli)
– |F | est intégrable sur le pavé [a, b] × [c, d] (Fubini) :
Z
|F (x, y)|dxdy < +∞, (7.2)
[a,b]×[c,d]

alors
Z Z d Z b Z bZ d
F (x, y) dxdy = F (x, y) dxdy = F (x, y) dydx.
[a,b]×[c,d] c a a c

Si F est positive, on peut intervertir directement les intégrations (par la version Fubini-
Tonelli du théorème). Si F ne l’est pas, il faut vérifier (7.2) en calculant l’intégrale double
de |F |. Pour cela, on peut appliquer par exemple la version Fubini-Tonelli à la fonction
postive |F | pour se ramener à des intégrales simples.
Des changements de variables sont souvent utiles pour calculer des intégrales multiples.
En particulier le changement de variables en polaire qui consiste à passer de (x, y) repré-
sentant des coordonneés cartésiennes dans un repère orthonormée à (r, θ) les coordonnées
polaires correspondantes. Ces coordonnées polaires sont données par :

x = r cos θ
, r ∈ [0, +∞[, θ ∈ [0, 2π[.
y = r sin θ
On remplace alors dxdy par rdrdθ car le jacobien du changement de variables est r. Ainsi :
Z ∞Z ∞ Z 2π Z +∞
F (x, y)dxdy = F (r cos θ, r sin θ)rdrdθ.
−∞ −∞ 0 0

2
Z√ +∞
Exemple : Normalisation de la loi normale e−x /2 dx = 2π.
R +∞ −x2 /2 −∞
2
Notons I = −∞ e dx et montrons que I = 2π. On a
Z +∞ Z +∞
−x2 /2 2
2
I = e dx × e−y /2 dy
−∞ −∞
Z +∞ Z +∞ Z Z
−x /2 −y 2 /2
2 2 2
= e e dxdy = e−(x +y )/2 dxdy
−∞ −∞ R×R
Z 2π Z +∞
2
= e−r /2 rdrdθ
Z0 2π 0 Z +∞ h i+∞
2 2
= dθ re−r /2 dr = 2π −e−r /2 = 2π
0 0 0

où on a utilisé le théorème de Fubini à la 2ème ligne puis on a fait un changement de

variables en polaire à la 3ème ligne.
7.4. Vecteurs aléatoires réels à densité 75

7.4 Vecteurs aléatoires réels à densité

La notion est la même que celle des densités des v.a.r. adaptée au cas multidimensionnel.
La loi d’un vecteur aléatoire de dimension n est de densité f si pour tous intervalles I1 ,
I2 , . . . , In de R, la probabilité d’appartenance du vecteur aléatoire au produit cartésien
I1 × I2 × · · · × In de ces intervalles s’exprime comme l’intégrale multiple de f sur ce produit
d’intervalles.
Définition 7.4.1 Une fonction f : Rn → R est appelée densité de probabilité (en dimen-
sion n) si
– f est positive : en tout point où elle est définie, f (t1 , . . . , tn ) ≥ 0,
– f est intégrable sur Rn d’intégrale 1 :
Z +∞ Z +∞
... f (t1 , . . . , tn ) dt1 . . . dtn = 1.
−∞ −∞

Définition 7.4.2 Le vecteur aléatoire (X1 , . . . , Xn ) suit la loi de densité f si pour tous
intervalles [ai , bi ], i = 1, . . . , n
Z b1 Z b2 Z bn
P (X1 , . . . , Xn ) ∈ [a1 , b1 ] × · · · × [an , bn ] = ... f (t1 , t2 , . . . , tn ) dt1 . . . dtn .
a1 a2 an

À nouveau, le sens des bornes dans les intervalles (ouvertes ou fermées) n’est pas important.
À nouveau encore, la densité caractérise la loi : si (Y1 , . . . , Yn ) a même loi que (X1 , . . . , Xn )
alors ce vecteur a la même densité et réciproquement.
Proposition 7.4.1 Si (X, Y ) est un couple aléatoire de loi de densité f , ses lois marginales
PX , PY sont données par :
Z b Z +∞
∀[a, b] intervalle, PX ([a, b]) = P(X ∈ [a, b]) = f (x, y) dxdy,
a −∞
Z bZ +∞
∀[a, b] intervalle, PY ([a, b]) = P(Y ∈ [a, b]) = f (x, y) dydx.
a −∞
R +∞
Autrement dit, la loi de X est de densité fX (x) = −∞
f (x, y)dy, celle de Y est de densité
R +∞
fY (y) = −∞ f (x, y) dx.
Démonstration : La preuve est une application directe du théorème de Fubini-Tonelli
sur les intégrales doubles une fois qu’on a remarqué que
PX ([a, b]) = P(X ∈ [a, b]) = P(X ∈ [a, b], Y ∈ R) = P(X,Y ) ([a, b] × R)
Z Z b Z Z b
= f (x, y) dxdy = f (x, y)dy dx = fX (x)dx
[a,b]×R a R a
R +∞
avec la densité anoncée fX (x) = −∞ f (x, y)dy. Il s’applique sans problème car par défini-
tion d’une densité, f est positive (et même intégrable sur R2 ). Idem pour Y .
76 Chapitre 7. c JCB – L2 IMAE – Université de La Rochelle

Remarque 7.4.1 À nouveau la connaissance de la loi du couple permet d’en déduire celle
des lois marginales, la réciproque est en général fausse.

Exemples : • Considérons f (x, y) = 31 1[0,1]×[−1,2] (x, y). Il s’agit bien d’une densité car f
est positive et
1
Z Z Z Z
f (x, y) dxdy = 1[0,1]×[−1,2] (x, y) dxdy
R2 3 R2

1
Z Z
= 1[0,1] (x) × 1[−1,2] (y) dxdy
3 R2
1 +∞
Z Z +∞
= 1[0,1] (x) dx 1[−1,2] (y) dy
3 −∞ −∞
| {z } | {z }
=1 =2−(−1)=3
= 1.

Considérons un couple (X, Y ) de loi de densité f . La loi de X est alors de densité donnée
par :
Z +∞
1 +∞ 1 +∞
Z Z
fX (x) = f (x, y)dy = 1[0,1]×[−1,2] (x, y)dy = 1[0,1] (x) × 1[−1,2] (y)dy
−∞ 3 −∞ 3 −∞
1 +∞
Z
= 1[0,1] (x) × 1[−1,2] (y)dy
3 −∞
| {z }
=1
= 1[0,1] (x).

De la même façon, fY (y) = 13 1[−1,2] (y).

• Montrer que f (x, y) = λµe−λx−µy 1R+ ×R+ (x, y) est la densité d’un couple (X, Y ) de
R2 . Montrer que X est de loi E(λ) et Y de loi E(µ).
• Montrer que
x2 2
− − y0 2
e 2σ 2 2(σ )
f (x, y) =
2π
est la densité d’un couple (X, Y ) de R . Montrer que X est de loi N (0, σ 2 ) et Y de loi
2

N (0, (σ 0 )2 ).
• Montrer que
f (x, y) = ye−xy 1R+ (x)1[0,1] (y)
est la densité d’un couple (X, Y ) de R2 . Montrer que X est de loi donnée par la densité

1 − e−x − xe−x
fX (x) = 1R+ (x)
x2
et Y de loi uniforme sur [0, 1].
7.5. Variables aléatoires indépendantes 77

x2 +2xy+5y 2
1 −
• Soit f (x, y) = 3π e 6 . Il s’agit d’une densité car

x2 +2xy+5y 2 dxdy
Z Z Z Z
f (x, y)dxdy = e− 6

R2 R2 3π
(x+y)2 +4y 2 dxdy 4y 2 dxdy
Z Z Z Z
(x+y)2
= e − 6 = e− 2×3 e− 2×3
2 3π R2 3π
Z RZ Z Z
(x+y) 2 4y dy
2 z2 4y 2 dy
= e− 2×3 dx e− 2×3 = e− 2×3 dz e− 2×3
3π 3π
ZR R R R
√ 4y dy dy
2
Z 2
y
= 2π × 3e− 2×3 = e− 2×(3/4) p =1
R 3π R 2π × 3/4
Z
t2 √
en utilisant la normalisation de la loi normale N (0, σ ) : 2
e− 2σ2 dt = 2πσ 2 .
R
Considérons un couple (X, Y ) de densité f , alors X est de densité
√
( √1 x+ 5y)2 +4x2 /5
dy dy
Z Z Z
2 +2xy+5y 2
−x − 5
fX (x) = f (x, y)dy = e 6 = e 6

R R 3π R 3π
√
( √1 x+ 5y)2
√
4x2 dy dz 2π × 3
Z Z
5 4x2 z2 4x2
= e− 6 e− 30 = e− 30 e− 2×3 √ = e− 30 √
R 3π R 3π 5 3π 5
1 4x2
= p e− 30 .
15π/2

La marginale Y est de densité :

dx (x+y)2 +4y 2 dx 4y 2 dx
Z Z Z Z
2 2 (x+y)2
− x +2xy+5y
fY (y) = f (x, y)dx = e 6 = e− 6 = e− 2×3 e− 6
3π 3π 3π
R R
√ R R
(x+y) dx 2π × 3 1
Z 2
4y 2 4y 2 4y 2
= e− 6 e− 2×3 = e− 6 =p e− 6 .
R 3π 3π 3π/2

Les marginales X et Y sont donc de lois N (0; 15/4) et N (0; 3/4).

Comme pour la proposition 6.5.2, on a :

Proposition 7.4.2 (Théorème de transfert) Si (X,Y) est un couple de v.a.r. de den-

sité f (x, y) alors pour F une fonction numérique continue sur R2 , on a
Z
E[F (X, Y )] = F (x, y)f (x, y) dxdy. (7.3)
R2

7.5 Variables aléatoires indépendantes

L’indépendance pour des v.a. finies a déjà été vue en L1. Il s’agit maintenant de voir
le cas de v.a. discrètes pas nécéssairement finies et de v.a. à densité.
78 Chapitre 7. c JCB – L2 IMAE – Université de La Rochelle

Dans la suite, on traite simultanément le cas des v.a. discrètes et des v.a. à densité. On
énoncera les résultats avec la restriction I intervalle de R pour les ensembles considérés.
On a besoin de cette restriction pour les v.a. à densité. Par contre, pour les v.a. discrètes,
ce n’est pas nécéssaire et il est possible de prendre des sous-ensembles A quelconques de
R.

Définition 7.5.1 (Indépendance de deux va) Deux v.a. X, Y sont dites indépendantes
si pour I, J intervalles de R, les évènements {X ∈ I}, {Y ∈ J} sont indépendants :

∀I, J intervalles, P(X ∈ I, Y ∈ J) = P(X ∈ I) × P(Y ∈ J)

ce qui s’écrit encore en termes de loi PX,Y (I × J) = PX (I) × PY (J) : la loi du couple est
le « produit » des lois marginales.

Définition 7.5.2 (Indépendance d’une famille finie de va) Les m variables

aléatoires X1 , . . . , Xm sont dites (mutuellement) indépendantes si pour tout intervalles
I1 , . . . , Im , les évènements {X1 ∈ I1 }, . . . , {Xm ∈ Im } sont mutuellement indépendants :
∀Ii intervalles , i = 1, . . . , m,

P(X1 ∈ I1 , . . . , Xm ∈ Im ) = P(X1 ∈ I1 ) . . . P(Xm ∈ Im ).

Remarque 7.5.1 Pour l’indépendance de n évènements, il faut tester toutes les sous
familles des n évènements et pas seulement la famille entière ou l’indépendance deux à
deux. Pour une famille de n va, il suffit de tester la famille des n v.a. toutes ensembles.
L’apparente différence est due au fait que le test pour n v.a. contient les tests pour toutes
les sous familles : il suffit par exemple de prendre Ik = R pour faire le test sur la famille
de (n − 1) v.a. où on a exclu la k-ème v.a. c Car dire Xk ∈ R, c’est ne rien dire sur Xk et
donc faire comme s’il n’y avait aucune contrainte sur Xk . On comprend bien dès lors que
l’on peut tester toutes les sous familles avec des choix adéquats de Ik = R.

Définition 7.5.3 (Indépendance d’une suite de va) Une suite (Xi )i∈N de v.a. est dite
indépendante si toute sous-suite finie de (Xi )i∈N est indépendante au sens de la définition
7.5.2.

Proposition 7.5.1
– Les v.a. discrètes X et Y sont indépendantes si et seulement si

∀xi ∈ X(Ω), ∀yj ∈ Y (Ω), P(X = xi , Y = yj ) = P(X = xi ) P(Y = yj ). (7.4)

– Les v.a.r. X, Y de densités respectives f et g sont indépendantes si et seulement si

le couple (X, Y ) est de densité le produit tensoriel f ⊗ g : R2 → R, (x, y) 7→ f (x)g(y).
7.5. Variables aléatoires indépendantes 79

Démonstration : • Il est clair que l’indépendance implique (7.4) : il suffit de pendre

I = {xi } et J = {yj } dans la définition 7.5.1.
Réciproquement, si (7.4) est vérifié, alors pour deux parties A et B quelconques de R,
on a

P(X ∈ A, Y ∈ B) = P((X, Y ) ∈ A × B)
X
= P((X, Y ) = (xi , yj ))
(xi ,yj )∈A×B
X
= P(X = xi , Y = yj )
(xi ,yj )∈A×B
X
= P(X = xi ) P(Y = yj )
(xi ,yj )∈A×B
X X
= P(X = xi ) P(Y = yj )
xi ∈A yj ∈B

= P(X ∈ A) P(Y ∈ B).

• Dans le cas de v.a.r. à densité, si X et Y sont indépendantes, la définition des densités

et la définition 7.5.1 donnent :

P(X,Y ) ([a, b] × [c, d]) = P X ∈ [a, b], Y ∈ [c, d] = P X ∈ [a, b] P Y ∈ [c, d]
Z b Z d
= f (x) dx g(y)dy
a c
Z bZ d
= f (x)g(y) dxdy
a c

par le théorème de Fubini, ce qui montre que f (x)g(y) est densité du couple (X, Y ). Réci-
proquement, si le couple a pour densité (f ⊗ g)(x, y) = f (x)g(y) alors pour tous intervalles
[a, b], [c, d] :
Z bZ d Z b Z d
P(X,Y ) ([a, b] × [c, d]) = f (x)g(y) dxdy = f (x) dx g(y)dy
a c a c
= P(X ∈ [a, b]) P(Y ∈ [c, d]),

ce qui justifie l’indépendance de X et de Y .

Remarque 7.5.2 Une conséquence importante : si on connait les lois de X et de Y , des

variables supposées indépendantes, on peut reconstruire la loi du couple (X, Y ) à partir
des marginales par (7.4) dans le cas discret ou par le produit tensoriel f ⊗ g des densités
dans le cas à densité. Insistons sur le fait que ce n’est pas vrai en général quand
X et Y ne sont pas indépendantes.
80 Chapitre 7. c JCB – L2 IMAE – Université de La Rochelle

Dans les deux exemples de la page 73, X et Y ne sont pas indépendantes car par exemple
pour le premier :

P(X = 2, Y = 2) = 0, 2, tandis que P(X = 2) × P(Y = 2) = 0, 4 × 0, 25 = 0, 1.

Et pour le second :

P(X = 3, Y = 5) = 0, tandis que P(X = 3) × P(Y = 5) = 0, 3 × 0, 2 = 0, 06.

Exemples :
• On donne le tableau de la loi d’un couple (X, Y ) en donnant les probabilités ponc-
tuelles P(X = xi , Y = yj ) :

X \ Y y1 y2 y3
x1 0, 12 0, 08 0, 20 0, 4
x2 0, 18 0, 12 0, 30 0, 6
0, 3 0, 2 0, 5 = 1
On vérifie ici que X et Y sont indépendantes car pour tout i = 1, 2 et j = 1, 2, 3, on a

P(X = xi , Y = yj ) = P(X = xi ) P(Y = yj ).

• Considérons le couple (X, Y ) de loi donnée par la densité f(X,Y ) (x, y) = 31 1[0,1]×[−1,2] (x, y).
On a vu que X et Y avaient pour densité fX (x) = 1[0,1] (x) et fY (y) = 13 1[−1,2] (y). On a
alors
1 1
f(X,Y ) (x, y) = 1[0,1]×[−1,2] (x, y) = 1[0,1] (x) × 1[−1,2] (y) = fX (x)fY (y).
3 3
Les variables X et Y sont donc indépendantes.
2 2
1 − x +2xy+5y
• Soit (X, Y ) le couple aléatoire de loi donnée par la densité f(X,Y ) (x, y) = 3π e 6 .
On a vu que les densités marginales sont
1 4x2 1 4y 2
fX (x) = p e− 30 , fY (y) = p e− 6 .
15π/2 3π/2

On a alors
1 4x2 1 4y 2 1 − x2 +2xy+5y2
fX (x)fY (y) = p e− 30 × p e− 6 6= e 6 = f(X,Y ) (x, y).
15π/2 3π/2 3π

Dans ce cas, X et Y ne sont pas indépendantes.

Proposition 7.5.2 Soient X, Y des v.a. indépendantes, F , G des fonctions dont les do-
maines de définition contiennent respectivement X(Ω) et Y (Ω). Alors les v.a. F (X) et
G(Y ) sont indépendantes.
7.5. Variables aléatoires indépendantes 81

Démonstration : Plaçons nous dans le cas de v.a. discrètes. Rappelons que F (X) désigne
l’application F ◦ X définie par
F ◦ X : Ω −→ R, ω 7→ F (X(ω)).
Il s’agit bien d’une v.a. discrète car l’ensemble de ses valeurs est {F (x1 ), . . . , F (xk ), . . .} si
celui de X est {x1 , . . . , xk , . . .}. De même celui de G(Y ) est {G(y1 ), . . . , G(yk ), . . .}. Pour
prouver l’indépendance de F (X) et G(Y ), il suffit d’après la proposition 7.5.1, de voir pour
t ∈ F (X)(Ω) et s ∈ G(Y )(Ω) :
P(F (X) = t, G(Y ) = s) = P(F (X) = t) P(G(Y ) = s).
Or
X
P(F (X) = t, G(Y ) = s) = P(X = xi , Y = yj )
i:F (xi )=t
j:G(yj )=s
X
= P(X = xi ) P(Y = yj )
i:F (xi )=t
j:G(yj )=s
X X
= P(X = xi ) P(Y = yj )
i:F (xi )=t j:G(yj )=s

= P(F (X) = t) P(G(Y ) = s).

Proposition 7.5.3 Soient X et Y des v.a. indépendantes et F , G des fonctions numé-

riques R2 → R. Alors quand toutes les quantités sont bien définies, on a
E[F (X)G(Y )] = E[F (X)] E[G(Y )].
Démonstration : Par exemple si X et Y sont des v.a.r. de densités f et g, d’après la
proposition 7.4.2, (X, Y ) est de densité f (x)g(y) et
Z Z
E[F (X)G(Y )] = F (x)G(y)f (x)g(y) dxdy
R 2
Z Z
= F (x)f (x) G(y)g(y) dxdy
R2
Z +∞ Z +∞
= F (x)f (x) dx × G(y)g(y) dy
−∞ −∞
= E[F (X)] E[G(Y ))].

Remarque 7.5.3 En particulier pour X et Y des v.a.r. indépendantes, quand les espé-
rances sont bien définies :
E[XY ] = E[X] E[Y ]. (7.5)
82 Chapitre 7. c JCB – L2 IMAE – Université de La Rochelle

7.6 Lois conditionnelles

7.6.1 Cas discret
Définition 7.6.1 Soit (X, Y ) un couple de variables aléatoires discrètes sur (Ω, F, P) avec
X, Y de domaines respectifs X(Ω), Y (Ω). Pour y ∈ Y (Ω) tel que P(Y = y) 6= 0, on appelle
loi conditionnelle de X sachant Y = y, l’application définie sur X(Ω) par
P(X = x, Y = y)
P(X = x|Y = y) = .
P(Y = y)
De même si x ∈ X(Ω) est tel que P(X = x) 6= 0, on appelle loi conditionnelle de Y sachant
X = x l’application définie sur Y (Ω) par
P(X = x, Y = y)
P(Y = y|X = x) = .
P(Y = y)
Notons que la loi conditionnelle de X sachant Y = y notée PX (·|Y = y) et qui à un
évènement A associe
P(X ∈ A, Y = y)
PX (A|Y = y) = P(X ∈ A|X = y) =
P(Y = y)
est en fait une probabilité sur R. Elle vérifie donc toutes les propriétés d’une probabilité.
Proposition 7.6.1 Soit (X, Y ) un couple de variables aléatoires discrètes. Alors pour tous
x, y, on a :

P(X = x|Y = y) P(Y = y) si P(Y = y) 6= 0.
P(X = x, Y = y) =
0 si P(Y = y) = 0.
Démonstration : Si P(Y = y) 6= 0, par définition :
P(X = x, Y = y)
P(X = x|Y = y) =
P(Y = y)
et la conclusion s’impose.
Si P(Y = y) = 0 alors P(X = x, Y = y) = P({X = x} ∩ {Y = y}) ≤ P(Y = y) = 0.

Proposition 7.6.2 Si X, Y sont des v.a. indépendantes alors la loi conditionelle de X

sachant Y = y est la même que celle de X :
PX (·|Y = y) = PX .
Le conditionnement par une v.a. indépendante est sans effet.
Démonstration : En effet, pour tout A, par indépendance de X et de Y
P(X ∈ A, Y = y) P(X ∈ A)P(Y = y)
PX (A|Y = y) = P(X ∈ A|Y = y) = =
P(Y = y) P(Y = y)
= P(X ∈ A) = PX (A).
7.6. Lois conditionnelles 83

Exemple : Une variable aléatoire Y suit la loi de Poisson P(λ). La loi conditionnelle de
X sachant Y = m est la loi binomiale de paramètres m et p. Déterminer la loi de X.
On détermine d’abord la loi jointe du couple (X, Y ) : pour des entiers n, m, on a

P(X = n|Y = m) P(Y = m) si P(Y = m) 6= 0,
P(X = n, Y = m) =
0 si P(Y = m) = 0.

e−λ λm
Comme P(Y = m) = > 0 mais P(X = n|Y = m) = 0 si n > m, on a :
m!
−λ m
e−λ λm

 n n m−n e λ n m−n
Cm p (1 − p) = p (1 − p) si n ≤ m,
P(X = n, Y = m) = m! n!(m − n)!
0 si n > m.


On en déduit la loi de X : pour n ∈ N,

+∞
X +∞
X
P(X = n) = P(X = n, Y = m) = P(X = n, Y = m)
m=0 m=n
+∞ −λ m
X e λ
= pn (1 − p)m−n
m=n
n!(m − n)!
+∞ +∞
pn e−λ X m−n λm pn e−λ X λk+n
= (1 − p) = (1 − p)k avec k = m − n
n! m=n (m − n)! n! k=0 k!
+∞
(pλ)n e−λ X ((1 − p)λ)k (pλ)n e−λ λ(1−p) (pλ)n e−pλ
= = e = .
n! k=0
k! n! n!

La variable X suit donc la loi de Poisson P(pλ).

7.6.2 Cas continu : densité conditionnelle

Définition 7.6.2 Soit (X, Y ) un couple de variables aléatoires réelles de densité f : R2 →
R. On définit la densité conditionnelle de X sachant Y = y par

f (x, y)
fX|Y =y (x) =
fY (y)
Z +∞
où fY (y) = f (x, y) dx est la densité (marginale) de Y .
−∞

La loi conditionnelle de X sachant Y = y est alors définie par cette densité fX|Y =y :

f (x, y)
Z Z
∀I intervalle de R, P(X ∈ I | Y = y) = fX|Y =y (x) dy = dy.
I I fY (y)
84 Chapitre 7. c JCB – L2 IMAE – Université de La Rochelle

La densité conditionnelle fX|Y =y est une fonction de la seule variable x. Par contre, y est
seulement un paramètre de la fonction.
Exemple : Reprenons le couple (X, Y ) de loi donnée par la densité
1 − x2 +2xy+5y2
e
f (x, y) = 6 .
3π
On a vu que X et Y sont de loi N (0; 15/4) et N (0; 3/4) avec les densités
1 4x2 1 4y 2
fX (x) = p e− 30 , fY (y) = p e− 6 .
15π/2 3π/2
La loi de X conditionnellement à {Y = y} est alors de densité
2 +2xy+5y 2
1 −x
f (x, y) e 6 1 x2 +2xy+y 2
fX|Y =y (x) = = 3π
4y 2
= √ e− 6 .
fY (y) √1 e− 6 6π
3π/2

Celle de Y conditionnellement à {X = x} est de densité

x2 +2xy+5y 2
1 −
f (x, y) e 6 1 x2 +10xy+25y 2
fY |X=x (y) = = 3π 4x2
=p e− 30 .
fX (x) √1 e− 30 6π/5
15π/2

Comme pour la Proposition 7.6.2 dans le cas discret, on a dans le cas avec des densités :
Proposition 7.6.3 Si les variables aléatoires X et Y sont indépendantes de densité fX et
fY alors les densités conditionnelles sont les densités marginales :
fX|Y =y (x) = fX (x) ∀y, et fY |X=x (y) = fY (y) ∀x.
À nouveau le conditionnement est sans effet car les variables sont indépendantes.
Démonstration : Comme X et Y sont indépendantes, le couple (X, Y ) est de densité
f(X,Y ) (x, y) = fX (x)fY (y). On a alors :
f(X,Y ) (x, y) fX (x)fY (y)
fX|Y =y (x) = = = fX (x),
fY (y) fY (y)
f(X,Y ) (x, y) fX (x)fY (y)
fY |X=x (y) = = = fY (y).
fX (x) fX (x)

Exemple : Si on considère (X, Y ) de loi donnée par la densité

1
f (x, y) = 1[0,1]×[−1,2] (x, y)
3
alors X et Y sont de densité fX (x) = 1[0,1] (x) et fY (y) = 13 1[−1,2] (y). On a bien f(X,Y ) (x, y) =
fX (x)fY (y) et donc les lois conditionnelles sont
1
fX|Y =y (x) = fX (x) = 1[0,1] (x), fY |X=x (y) = fY (y) = 1[−1,2] (y).
3
Chapitre 8

Somme de v.a. indépendantes

Les sommes de variables aléatoires interviennent souvent en probabilité. Elles per-

mettent de modéliser les effets conjugués de plusieurs phénomènes. Lorsqu’en plus les v.a.
sont indépendantes et de même loi, on modélise l’effet cumulé d’un phénomène récurrent
dont les réalisations sont indépendantes. Plusieurs résultats très importants, des théorèmes
limites, leur sont consacrés. En fait, on s’intéresse souvent à la moyenne arithmétique de
variables aléatoires indépendantes et de même loi (Xi )i∈N∗ :
n
1X
Xi . (8.1)
n i=1

Le plus important résultat est la loi des grands nombres (LGN) qui énonce la conver-
gence de la moyenne arithmétique (8.1) vers l’espérance de la loi. Puis le théorème central
limite (TCL) qui précise (en un certain sens la LGN).

8.1 Somme de deux v.a. indépendantes

Variables aléatoires discrètes
Commençons d’abord par étudier le cas de la somme de deux variables aléatoires dis-
crètes.

Proposition 8.1.1 Soient X, Y deux v.a. discrètes indépendantes à valeurs entières (i.e.
avec X(Ω) ⊂ N, Y (Ω) ⊂ N). La loi de X + Y est donnée par :
X
∀n ∈ N, P(X + Y = n) = P(X = i) P(Y = j)
i+j=n
Xn
= P(X = i) P(Y = n − i).
i=0

85
86 Chapitre 8. c JCB – L2 IMAE – Université de La Rochelle

Démonstration : Comme X et Y sont à valeurs entières, il en est de même pour X + Y .

Sa loi est caractérisée par les probabilités P(X + Y = n). Pour les calculer, il suffit de
décomposer l’évènement {X +Y = n} en la réunion de tous les évènements {X = i, Y = j}
tels que i + j = n. Il suit alors
[
P(X + Y = n) = P {X = i, Y = j}
(i,j);i+j=n
X
= P X = i, Y = j (8.2)
i+j=n
X
= P(X = i) P(Y = j), (8.3)
i+j=n

ce qui prouve la proposition.

Remarque 8.1.1 Si X et Y ne sont pas indépendantes le passage de (8.2) à (8.3) n’est

plus valable, on peut seulement écrire (8.2). On voit ainsi que l’on peut toujours calculer la
loi de X + Y si on connaı̂t celle du couple (X, Y ) par (8.2). Par contre, le calcul de cette loi
à partir de celles de X et de Y n’est pas possible en général, il faut en plus l’indépendance
pour avoir (8.3).

Exemple : Si X, Y sont des v.a. indépendantes de lois binomiales B(n, p) et B(m, p),
alors X + Y suit une loi binomiale B(n + m, p).
En effet, on sait que X, de loi B(n, p), peut être vue comme une somme de n v.a.
indépendantes εi , 1 ≤ i ≤ n, de loi de Bernoulli b(p)

i = 0 ou 1, avec P(i = 1) = p, P(i = 0) = 1 − p.

De même Y est somme de m v.a. indépendantes ε̃j , 1 ≤ j ≤ m, de loi b(p). Comme

(εi )i=1,...,n et (ε̃i )i=1,...,m sont indépendantes,

X + Y = ε1 + · · · + εn + ε̃1 + · · · + ε̃m

est une somme de n + m v.a. de Bernoulli b(p) indépendantes. X + Y suit donc la loi
B(n + m, p).
On peut aussi le faire directement : pour i = 0, . . . , n + m, on a
i
X i
X
P(X + Y = i) = P(X = j, Y = i − j) = P(X = i)P(Y = i − j)
j=0 j=0
i
X
= Cnj pj (1 − p)n−j Cm
i−j i−j
p (1 − p)m−i+j
j=0
i
X
= pi (1 − p)n+m−i Cnj Cm
i−j

j=0
8.1. Somme de deux v.a. indépendantes 87

i
= Cn+m pi (1 − p)n+m−i

en utilisant l’identité
i
X
Cnj Cm
i−j i
= Cn+m
j=0

qu’on prouve en développant de deux façons (1 + x)n+m = (1 + x)n (1 + x)m .

Exemple : Soient X, Y des v.a. indépendantes suivant des lois de Poisson de para-
mètres respectifs α et β. Quelle est la loi de S = X + Y ?
Les lois de X et Y sont données par

e−α αi e−β β j
P(X = i) = , P(Y = j) = , i, j ∈ N.
i! j!

Comme X et Y sont indépendantes, on a en utilisant la formule du binome de Newton :

n n
X X e−α αi e−β β n−i
P(S = n) = P(X = i)P(Y = n − i) =
i=0 i=0
i! (n − i)!
n
e−(α+β) X i i n−i
= Cn α β
n! i=0
e−(α+β) (α + β)n
= .
n!
Ainsi S = X + Y suit la loi de Poisson de paramètre α + β.

Variables aléatoires à densité

Avant de voir la loi de la somme de deux v.a. réelles indépendantes à densité, introdui-
sons la notion de convolution :

Définition 8.1.1 La convolution de deux fonctions f et g réelles est la fonction f ∗ g sur

R donnée par
Z +∞
(f ∗ g)(x) = f (x − y)g(y) dy.
−∞

On parle encore de la convolée f ∗ g de f et de g.

Remarque 8.1.2 On a f ∗ g = g ∗ f (c’est immédiat en faisant le changement de variable

y donne x − y dans l’intégrale de la définition)
Dans la proposition 8.1.1, on a défini un analogue discret de la convolution de la dé-
finition 8.1.1, comme en témoigne le résultat suivant qui exprime la loi de X + Y par la
convolution des densités.
88 Chapitre 8. c JCB – L2 IMAE – Université de La Rochelle

Proposition 8.1.2 Soient X, Y deux v.a.r. indépendantes et de densités f et g. La loi de

X + Y est donnée par :
Z b
∀[a, b] intervalle, P(X + Y ∈ [a, b]) = (f ∗ g)(x) dx
a

Autrement dit, X + Y a pour densité la fonction f ∗ g.

Démonstration : Soient a < b, comme (X, Y ) est de densité (x, y) 7→ f (x)g(y), on a

Z

P X + Y ∈ [a, b] = f (x)g(y) dxdy.
(x,y);x+y∈[a,b]

On fait le changement de variable (x, y) −→ (t, s) = (x, x + y). Comme (x, y) varie dans
R2 de façon que x + y ∈ [a, b], t décrit tout R et s décrit [a, b]. On a alors :
Z b Z +∞ Z b

P X + Y ∈ [a, b] = 1 ×dtds =
f (t)g(s − t) × |{z} (f ∗ g)(s) ds,
a −∞ a
Jac
car le jacobien du changement de variable est
∂t ∂s
∂x ∂x 1 1
Jac = = = 1,
∂t ∂s 0 1
∂y ∂y
ce qui prouve la proposition.

Remarque 8.1.3 A nouveau on connaı̂t bien la loi de la somme X + Y si X et Y sont

indépendantes, sinon, il faut connaı̂tre la loi du couple (X, Y ) et sa densité h(x, y) si elle
existe pour avoir la loi de X + Y par
Z Z b Z +∞

P X + Y ∈ [a, b] = h(x, y) dxdy = h(x, y − x) dxdy.
(x,y);x+y∈[a,b] a −∞

Exemples : • Soient X, Y des v.a. indépendantes suivant des lois exponentielles de

paramètres respectifs a et b. Quelle est la loi de S = X + Y ?
Les lois de X et Y sont de densités

f (x) = ae−ax 1[0,+∞[ (x), g(y) = be−by 1[0,+∞[ (y).

Comme X et Y sont indépendantes, la densité de X + Y est, si a 6= b :

Z +∞
(f ∗ g)(x) = g(y)f (x − y) dy
−∞
8.1. Somme de deux v.a. indépendantes 89
Z +∞
= be−by ae−a(x−y) 1[0,+∞[ (x − y) dy
0
Z x
−ax
= abe 1{x≥0} e(a−b)y dy
0
−ax
abe
e(a−b)x − 1 1{x≥0}

=
a−b
ab
e−bx − e−ax 1{x≥0}

=
a−b

où à la 3ème ligne on a utilisé 1[0,+∞[ (x − y)1[0,+∞[ (y) = 1[0,+∞[ (x)1[0,x] (y). Si a = b, la
densité est
Z +∞ Z +∞
f ∗ g(x) = g(y)f (x − y) dy = a 2
e−ay 1{y≥0} e−a(x−y) 1{x−y≥0} dy
−∞ −∞
Z x Z x
−ay −a(x−y) −ax
2
= a 1{x≥0} e e 2
dy = a 1{x≥0} e dy = a2 x1{x≥0} e−ax .
0 0

• Soient X1 de loi N (m1 , σ12 ) et X2 de loi N (m2 , σ22 ) alors X1 + X2 est de loi normale
N (m1 + m2 , σ12 + σ22 ).
Pour simplifier ( ? ! ?) les calculs qui suivent, prenons m1 = m2 = 0, et notons f1 et f2
les densités de X1 et de X2 . Celle de X1 + X2 est donnée par
+∞ +∞
dt
Z Z
2 /(2σ 2 ) 2 /(2σ 2 )
f1 ∗ f2 (x) = f1 (t)f2 (x − t)dt = e−t 1 e−(x−t) 2 p p
−∞ −∞ 2πσ12 2πσ22
+∞
(σ12 + σ22 )t2 − 2σ12 xt + σ12 x2

dt
Z
= exp − 2 2
−∞ 2σ1 σ2 2πσ1 σ2
2 σ14
 2 
2 2 1/2 σ1 2 2 2
1
Z +∞ (σ 1 + σ 2 ) t − (σ12 +σ22 )1/2
x − (σ12 +σ22 )
x + σ1 x
= exp − 2 2
 dt
2πσ1 σ2 −∞ 2σ1 σ2
σ12 σ12 σ22
 2 
2 2 1/2 2
1
Z +∞ (σ 1 + σ 2 ) t − (σ12 +σ22 )1/2
x + (σ12 +σ22 )
x
= exp − 2 2
 dt
2πσ1 σ2 −∞ 2σ1 σ2

σ2
2
 2 
exp − 2(σ2x+σ2 ) Z +∞ (σ12 + σ22 )1/2 t − (σ2 +σ12 )1/2 x
1 2
= exp − 2 2
1 2  dt
2πσ1 σ2 −∞ 2σ σ
1 2
2

exp − 2(σ2x+σ2 ) Z +∞
u2

du
1 2
= exp − 2 2
2πσ1 σ2 −∞ 2σ1 σ2 (σ1 + σ22 )1/2
2

σ12
avec le changement de variable u = (σ12 + σ22 )1/2 t − x.
(σ12 + σ22 )1/2
90 Chapitre 8. c JCB – L2 IMAE – Université de La Rochelle

Puis d’après la normalisation de la loi normale N (0, σ12 σ22 ), la dernière intégrale vaut
Z +∞ p
u2 2πσ12 σ22

du
exp − 2 2 = .
−∞ 2σ1 σ2 (σ12 + σ22 )1/2 (σ12 + σ22 )1/2
On a finalement :
2

x2
exp − 2(σ2x+σ2 ) exp −
p
2 2
1 2 2πσ1 σ2 2 2
2(σ1 +σ2 )
f1 ∗ f2 (x) = 2 2 1/2
= p .
2πσ1 σ2 (σ1 + σ2 ) 2π(σ12 + σ22 )

On a obtenu la densité de la loi N (0, σ12 + σ22 ).

Proposition 8.1.3 (Variance d’une somme de v.a. indépendantes) Si X, Y sont

des v.a. indépendantes alors

Var(X + Y ) = Var(X) + Var(Y ).

Remarque 8.1.4 Notez que la même propriété est vraie pour l’espérance (qui est linéaire)
sans hypothèse d’indépendance alors qu’en général, c’est faux pour la variance si X et Y
ne sont pas indépendantes. Par exemple

Var(X + X) = Var(2X) = 22 Var(X) = 4 Var(X) 6= 2 Var(X) = Var(X) + Var(X).

Démonstration :

Var(X + Y ) = E[(X + Y )2 ] − (E[X + Y ])2

= E[X 2 + 2XY + Y 2 ] − (E[X] + E[Y ])2
= E[X 2 ] + 2E[XY ] + E[Y 2 ] − E[X]2 − 2E[X]E[Y ] − E[Y ]2
= E[X 2 ] − E[X]2 + E[Y 2 ] − E[Y ]2 + 2E[XY ] − 2E[X]E[Y ]
= Var(X) + Var(Y )

car par indépendance de X et Y , on a la propriété (7.5) : E[XY ] = E[X]E[Y ].

Exemple : Soient X1 ∼ N (m1 , σ12 ) et X2 ∼ N (m2 , σ22 ) des variables normales indépen-
dantes. Retrouvons les paramètres de la loi de Y = X1 + X2 .
On a vu que Y suit une loi normale, pour connaı̂tre les paramètres, il s’agit de connaı̂tre
E[X1 + X2 ] = E[X1 ] + E[X2 ] = m1 + m2 et Var(X1 + X2 ) = Var(X1 ) + Var(X2 ) = σ12 + σ22 .
D’où
Y = X1 + X2 ∼ N (m1 + m2 , σ12 + σ22 ).
Retenons des exemples précédents que :
Proposition 8.1.4 Soient X1 ∼ N (m1 , σ12 ) et X2 ∼ N (m2 , σ22 ) des v.a. normales indé-
pendantes. Alors
X1 + X2 ∼ N (m1 + m2 , σ12 + σ22 ).
8.2. Convergences probabilistes 91

8.2 Convergences probabilistes

Les variables aléatoires Xn sont des applications de Ω vers R, et pour des applications,
le mode de convergence le plus naturel est celui de la convergence pour chaque ω ∈ Ω de
la suite de réels Xn (ω) vers le réel X(ω).

∀ω ∈ Ω, Xn (ω) → X(ω), n → +∞.

Il s’agit de la convergence simple d’une suite d’applications vue en analyse. Malheureuse-

ment, en probabilité, ce type de convergence est trop restrictif : on ne peut raisonnablement
demander à tous les Xn (ω) de converger (i.e. pour tous les ω ∈ Ω).
Par contre, il est plus raisonnable de demander que l’ensemble des ω pour lesquels ça
n’arrive pas soit de probabilité nulle (ou au moins petite). Ceci nous amène aux notions de
convergences presque sûre et en probabilité.
Définition 8.2.1 Soit (Xn )n∈N∗ une suite de variables aléatoires et X une v.a. définies sur
le même espace de probabilité (Ω, F, P). On dit que Xn converge presque sûrement (p.s.)
vers X si l’ensemble des ω tels que Xn (ω) converge vers X(ω) a pour probabilité 1, c’est à
dire :
P(ω ∈ Ω | Xn (ω) → X(ω)) = 1.
p.s.
On la note Xn −→ X.
Rappelons qu’un évènement de probabilité 1 n’est pas nécessairement égale à tout l’espace
Ω. Il peut même y avoir une infinité d’éléments dans son complémentaire. Seulement, ce
complémentaire est (du point de vue de la probabilité P) négligeable.
Dans la convergence presque sûre, si on se fixe ε > 0, le rang n0 à partir duquel Xn (ω)
est à moins de ε de X(ω) dépend à la fois de ε et de ω : n0 = n0 (ε, ω). Généralement,
on ne sait pas comment n0 (ε, ω) dépend de ω. De ce fait la convergence presque sûre est
essentiellement une convergence théorique.
Par exemple, si on suppose que Xn est une v.a. dont la réalisation dépend de n épreuves
répétées, savoir que Xn converge presque sûrement vers X ne permet pas de prédire un
nombre (non aléatoire, c’est à dire qui ne dépend pas de ω) n d’épreuves à partir duquel
|Xn (ω) − X(ω)| ≤ ε si ce n’est pour presque tous les ω ∈ Ω, même pour 99% ou 95%
d’entre eux. Or cette question a une grande importance pratique pour le statisticien. C’est
l’une des raisons de l’introduction de la convergence en probabilité qui permet de répondre
à cette question lorsque l’on connaı̂t la vitesse de convergence selon ce mode.

Définition 8.2.2 (Convergence en probabilité) Soit (Xn )n≥1 une suite de variables
aléatoires et X une v.a. définies sur le même espace de probabilité (Ω, F, P). On dit que
Xn converge en probabilité vers X si :

∀ε > 0, lim P(|Xn − X| ≥ ε) = 0.

n→+∞

P
On la note Xn → X.
92 Chapitre 8. c JCB – L2 IMAE – Université de La Rochelle

Remarque 8.2.1 Il faut bien comprendre que quand Xn converge en probabilité vers X,
il est toujours possible que pour certain ω ∈ Ω, Xn (ω) s’écarte de X(ω) même quand n
est grand. Mais, c’est de moins en moins probable, c’est à dire que cela arrive pour peu de
ω ∈ Ω : la probabilité que Xn soit distant de plus de ε > 0 de X est de plus en plus faible.

Proposition 8.2.1 La convergence presque sûre entraı̂ne la convergence en probabilité.

Démonstration : Soit Xn convergeant presque sûrement vers X. L’évènement

Ω0 = ω ∈ Ω; lim Xn (ω) = X(ω)

n→+∞

est de probabilité 1. Fixons ε > 0, et définissons

Ω0ε = ω ∈ Ω, ∃m0 = m0 (ω), ∀n ≥ m0 , |Xn (ω) − X(ω)| < ε .

Il est clair que Ω0 ⊂ Ω0ε et donc P(Ω0ε ) = 1. Par traduction des opérateurs logiques ∀ et ∃
en opérateur ensemblistes ∩, ∪, on exprime facilement :
[ \
Ω0ε = ω ∈ Ω; |Xn (ω) − X(ω)| < ε .
m0 ∈N n≥m0

Posons
\
Ak = ω ∈ Ω; ∀n ≥ k |Xn (ω) − X(ω)| < ε = {ω ∈ Ω; |Xn (ω) − X(ω)| < ε .
n≥k

Il est clair que la suite d’ensembles (Ak )k∈N est croissante (Ak ⊂ Ak+1 ) pour l’inclusion et
de réunion Ω0ε . Par continuité monotone de P, on a
[
Ak = P(Ω0ε ) = 1.

lim P(Ak ) = P
k→+∞
k

D’où ∀η > 0, ∃k0 tel que pour k ≥ k0 , P(Ak ) ≥ 1 − η. En particulier, la traduction de

P(Ak0 ) ≥ 1 − η donne :

∀n ≥ k0 , P(|Xn − X| < ε) > 1 − η,

ce qui justifie la convergence en probabilité de Xn vers X.

Remarque 8.2.2 La réciproque n’est pas vraie. Cependant, si Xn converge vers X en pro-
babilité, on peut montrer qu’il existe une sous-suite de Xn qui converge presque sûrement
vers X.
8.3. Loi des grands nombres 93

8.3 Loi des grands nombres

8.3.1 Loi faible des grands nombres
La loi des grands nombres est la formulation rigoureuse des faits intuitifs suivants : si
on lance un « grand » nombre de fois une pièce en l’air, il y aura en moyenne 50% de
piles. De même, si on lance un « grand » nombre de fois un dé à 6 faces en l’air, il y
aura en moyenne 1/6-ème des faces qui seront, par exemple, des 4 (si la pièce et le dé sont
équilibrés). Il existe deux versions de la LGN : la faible où on énonce la convergence en
probabilité et la forte avec la convergence presque sûre.

Théorème 8.3.1 (Loi faible des grands nombres) Soit (Xn )n∈N∗ une suite de variables
aléatoires (deux à deux) indépendantes et de même loi avec un moment d’ordre 2. Alors
n
1X P
Xi −→ E[X1 ], n → +∞.
n i=1

La LGN énonce la convergence (en probabilité) de la moyenne arithmétique Mn vers la

moyenne probabiliste E[X1 ].
Elle est encore vraie en supposant seulement l’existence du moment d’ordre 1 : E[|X1 |] <
+∞.
Démonstration : Ici, la v.a. limite est la constante E[X1 ](= E[Xi ] pour tout i car les
v.a. Xi ont même loi, donc même espérance). Il s’agit de vérifier
n
!
1X
∀ε > 0, lim P Xi − E[X1 ] ≥ ε = 0.
n→+∞ n i=1
n n
1X 1X
Posons Mn = Xi , par linéarité, on a E[Mn ] = E[Xi ] = E[X1 ]. D’autre part,
n i=1 n i=1
par indépendance des Xi , on a grâce à la proposition 8.1.3 :

n
! n
! n
1X 1 X 1 X
Var(Mn ) = Var Xi = 2 Var Xi = Var(Xi )
n i=1 n i=1
n2 i=1
n
1 X 1 Var(X1 )
= 2
Var(X1 ) = 2 × (n Var(X1 )) = .
n i=1 n n

L’inégalité de Tchebychev appliquée à Mn donne alors pour tout ε > 0 :

n
!
1 X
∗
∀n ∈ N , P Xi − E[X1 ] ≥ ε = P(|Mn − E[Mn ]| ≥ ε)
n i=1
Var(Mn )
≤
ε2
94 Chapitre 8. c JCB – L2 IMAE – Université de La Rochelle

Var(X1 )
≤ . (8.4)
nε2
On conclut en faisant tendre n vers +∞.

Remarque 8.3.1 Plus que la convergence, nous avons obtenu la vitesse de convergence :
d’après (8.4) elle est en 1/n. Si on connaı̂t Var(X1 ), on peut donc pour une proportion
donnée, trouver un rang n0 tel Pque que pour n ≥ n0 et pour cette proportion de ω ∈ Ω, on
ait la moyenne arithmétique n1 ni=1 Xi à moins de ε de l’espérance E[X1 ].

Souvent, on se trouve dans le cas particulier où les v.a. considérées sont de loi de
Bernoulli, la LGN se réécrit alors :

Corollaire 8.3.1 Soit (Xn )n∈N∗ une suite de variables aléatoires indépendantes de Ber-
noulli de même paramètre p. Alors
n
1X P
Xi −→ p, n → +∞.
n i=1

Démonstration : La LGN (théorème 8.3.1) s’applique car E[Xi2 ] = p < ∞ et elle donne
le résultat car E[Xi ] = p quand Xi ∼ b(p).

C’est ce résultat qui formalise le résultat intuitif sur le lancer des dés ou des pièces :
avec

1 si on obtient le 4 au i-ème lancer
Xi = = 1{obtenir le 4 au i-ème lancer} ,
0 si on n’obtient pas le 4 au i-ème lancer
n
1X
on a Xi ∼ b(1/6) et p = 1/6 et Xi désigne la fréquence d’apparition du 4 sur les n
n i=1
premiers lancers qui tend vers 1/6 d’après le corollaire 8.3.1.

Application : estimation d’une proportion inconnue

On se propose d’estimer le paramètre p inconnu d’une loi de Bernoulli en observant
un grand nombre de fois un phénomène aléatoire de loi de Bernoulli b(p), c’est à dire en
observant les valeurs d’une suite de v.a. Xi (ω) indépendantes et de loi de Bernoulli b(p).
Considérons une urne comportant des boules rouges en proportion inconnue p et des
boules vertes (en proportion 1 − p).
D’après la LGN, un grand nombre de tirages de boules dans l’urne donnera une esti-
mation de la proportion p en comptant (la fréquence du) nombre de boules rouges ainsi
tirées. Seulement, quel est le nombre raisonnable de boules à tirer pour avoir une réponse
assez précise ?
8.3. Loi des grands nombres 95

On effectue n tirages d’une boule avec remise. Notons

1 si la boule tirée est rouge
Xi = = 1 .
0 si la boule tirée est verte la boule est rouge au i-ème tirage
Désignons toujours par Mn la moyenne arithmétique des n premières v.a. Xi . Ici cela
correspond à la fréquence d’apparition des boules rouges lors des n premiers tirages. D’après
la loi faible des grands nombres (ou plutôt son corollaire 8.3.1 pour les proportions), Mn
converge en probabilité vers p :
n
1X P
Mn = Xi −→ p, n → +∞.
n i=1

On v.a. donc estimer p par Mn pour n assez grand.

En fait, on observe une valeur particulière Mn (ω) calculée à partir des n tirages réel-
lement effectués mais peut-être que cette valeur particulière n’est pas une bonne approxi-
mation de p : imaginez qu’on ne tire que des boules rouges, on aurait Mn (ω) = 1 qui n’est
sans doute pas une bonne approximation de p ; ce qui nous sauve, c’est qu’un tel tirage est
peu probable.
Mais alors, la question pratique qui se pose est de donner un intervalle fourchette I à
partir de l’observation de Mn (ω) pour p et de contrôler le risque (toujours possible) que p
ne soit pas du tout dans l’intervalle I proposé.
Pour cela, on dispose de l’inégalité de Tchebychev, qui pour Mn s’écrit :
Var(X1 ) p(1 − p) 1
P(|Mn − p| ≥ t) ≤ 2
= 2
≤ .
nt nt 4nt2
car p(1 − p) ≤ 1/4 en majorant sur [0, 1] la fonction x 7→ x(1 − x) qui atteint son maximum
en 1/2 où il vaut 1/4. D’où
1
P(p ∈]Mn − t, Mn + t[) = P(Mn − t < p < Mn + t) = 1 − P(|Mn − p| ≥ t) ≥ 1 − . (8.5)
4nt2
En pratique, on fait n tirages, on observe Mn (ω) et on dit que I =]Mn (ω)−t, Mn (ω)+t[ est
un intervalle de confiance (ou fourchette). L’équation (8.5) permet de voir que la probabilité
de se tromper (i.e. en fait p 6∈ I) est majorée par 1/(4nt2 ).
Si on se fixe un seuil d’erreur α ∈]0, 1[ (en général proche de 0 pour que l’erreur soit
faible), on trouve tα tel que 1/(4nt2α ) = α et l’intervalle Iα =]Mn (ω) − tα , Mn (ω) + tα [
est l’intervalle de confiance au niveau 1 − α : on peut annoncer que p est dans l’intervalle
Iα =]Mn (ω) − tα , Mn (ω) + tα [ avec un risque d’erreur de α.

Exemple (Sondage) : Avant le second tour d’une élection, opposant les candidats D
et G, un institut de sondage interroge au hasard 1000 personnes dans la rue. On note p
la proportion d’électeurs décidés à voter pour G dans la population totale et on suppose
l’échantillon de personnes intérrogées représentatif. Dans l’échantillon sondé, cette propor-
tion est égale à 0, 54. Proposer un intervalle de confiance pour p avec un risque d’erreur de
5%.
96 Chapitre 8. c JCB – L2 IMAE – Université de La Rochelle

Le sondage peut être assimilé à une suite de 1000 tirages de boules avec remise (la
réponse d’un électeur de l’échantillon correspondant au tirage d’une boule d’une certaine
couleur selon son choix de vote), on est alors ramené à la situation de l’exemple précédent.
Ici, la fréquence observée du choix du candidat G sur les 1000 électeurs est M1000 (ω) = 0, 54
et l’intervalle de confiance est

I =]0, 54 − t; 0, 54 + t[

avec un niveau de confiance supérieur à

1 − 1/(4 × 1000 × t2 ).

Ici, on veut un seuil de confiance d’au moins 0, 95, il faut alors

1 1 1
1− ≥ 0, 95 ⇐⇒ ≤ 0, 05 ⇐⇒ t ≥ √ ' 0, 0707.
4000 × t2 4000 × t2 10 2
Avec t = 0, 071, on trouve l’intervalle de confiance I =]0, 469 ; 0, 611[. On constate en
particulier qu’une zone de l’intervalle de confiance correspond à une proportion inférieure
à 1/2, pour lequel G ne serait pas élu alors que la proportion observée semblait lui garantir
l’élection.
On ne peut donc pas garantir l’élection de G avec une probabilité d’erreur inférieure à
5%.
Combien de personnes faut-il alors interroger pour donner une fourchette à ±1% avec
un seuil de 95% ?
Repartons de (8.5), avec une fourchette de t = 0, 01. On veut un seuil de confiance d’au
moins 0, 95 donc un risque d’erreur α ≤ 0, 05 :
1
≤ 0, 05.
4n × 0, 012
On trouve n = 50 000, ce qui donne au sondage un coût prohibitif. En gros, pour améliorer
la précision d’un facteur 10, il faut interroger 100 fois plus de personnes et donc multiplier
les coûts par 100.

8.3.2 Lemme de Borel-Cantelli

Définition 8.3.1 Soit (An ) une suite d’évènements observables. On pose
\ [
limn→+∞ An = Ak ,
n≥1 k≥n
[ \
limn→+∞ An = Ak .
n≥1 k≥n

On parle respectivement de limites supérieure et inférieure de la suite d’ensembles (An )n .

8.3. Loi des grands nombres 97

L’ensemble limn→+∞ An désigne l’ensemble des ω ∈ Ω qui sont dans une infinité d’en-
sembles Ai .
L’ensemble limn→+∞ An désigne l’ensemble des ω ∈ Ω qui sont dans tous les ensembles
Ai à partir d’un certain rang.
Notons de plus que limn→+∞ An ⊂ limn→+∞ An .

Théorème 8.3.2 (Premier lemme de Borel-Cantelli) Soit (An )n≥1 une suite d’évè-
nements observables. Si la série suivante converge
+∞
X
P(An ) < +∞,
n=1

alors

P limn→+∞ An = 0.
[
Démonstration : Posons Bn = Ak . La suite (Bn )n est décroissante (Bn+1 ⊂ Bn ) et
k≥n
l’intersection des Bn est limn→+∞ An . D’après le théorème de continuité monotone séquen-
tielle (cf. Proposition ??), on a
[
P limn→+∞ An = P( Bn ) = lim P(Bn ).
n→+∞
n

Or
[ +∞
X
P(Bn ) = P Ak ≤ P(Ak ) := rn .
k≥n k=n

Comme rn est le reste d’une série convergente, rn est de limite nulle et donc

P limn→+∞ An = 0.

Remarque
P 8.3.2 Le deuxième lemme de Borel-Cantelli complète le premier : si la série
n P(A n ) diverge et qu’en plus les An sont des évènements indépendants alors la limite
supérieure des An est de probabilité 1.

8.3.3 Loi forte des grands nombres

Il existe une version de la loi des grands nombres pour la convergence presque sûre, on
parle de la loi forte (car la convergence presque sûre est plus forte que celle en probabilité
d’après la proposition 8.2.1) :
98 Chapitre 8. c JCB – L2 IMAE – Université de La Rochelle

Théorème 8.3.3 (Loi forte des grands nombres) Soit (Xn )n≥1 une suite de variables
aléatoires indépendantes et de même loi avec un moment d’ordre quatre (i.e. E[X14 ] < +∞).
Alors n
1X p.s.
Xi −→ E[X1 ].
n i=1
n
1X
Réciproquement, si Xi converge presque sûrement vers c quand n → +∞ alors les
n i=1
variables ont un moment d’ordre 1, E[|X1 |] < +∞ et leur espérance est E[Xi ] = c.
Remarque 8.3.3 En fait, il suffit qu’un moment d’ordre 1 existe. Mais on se contente de
la preuve dans le cas où le moment d’ordre 4 existe (c’est déjà assez compliqué).
Démonstration : Il suffit de prouver le théorème quand E[X1 ] = 0, le cas général
s’obtenant par translation. Posons
n n
1X X
Mn = Xi , Sn = Xi .
n i=1 i=1

Soit ε > 0 et Dε = limn→+∞ {|Mn | ≥ ε}.

On va utiliser le lemme de Borel-Cantelli pour montrer que P(Dε ) = 0.
S
On conclura alors en montrant que D = n D1/n est de probabilité nulle. En effet on a
D = {Mn 6−→ 0}, donc le résultat est acquis si on montre que D est de probabilité nulle.
Afin d’utiliser le lemme de Borel-Cantelli, on montre la convergence de la série de terme
général P(|Mn | ≥ ε). Or
P(|Mn | ≥ ε) = P(|Sn | ≥ nε) = P(|Sn |4 ≥ n4 ε4 ).
Par l’inégalité de Markov, on a alors
E[Sn4 ]
P(|Mn | ≥ ε) ≤ .
n 4 ε4
Il reste à estimer E[Sn4 ].
Sn4 = (X1 + X2 + · · · + Xn )4
X
= Xk1 Xk2 Xk3 Xk4
k1 ,k2 ,k3 ,k4 ∈{1,...,n}4

 n
X X
M (4) Xi4 + M (1, 3) Xi3 Xj







 i=1 1≤i<j≤n
X X
= + M (2, 2) Xi2 Xj2 + M (2, 1, 1) Xi2 Xj Xk
1≤i<j≤n 1≤i<j<k≤n



 X



 + M (1, 1, 1, 1) X i Xj Xk Xl
1≤i<j<k<l≤n
8.3. Loi des grands nombres 99

où M (i1 , . . . , ip ) désigne le nombre de 4-uplets (u1 , . . . , u4 ) de {1, . . . , n} en prenant i1 fois

la valeur u1 , . . . , ip fois la valeur up .
La linéarité et l’indépendance des Xi donnent alors E[Sn4 ] =
 n
X X
M (4) E[Xi4 ] + M (1, 3) E[Xi3 ]E[Xj ]







 i=1 1≤i<j≤n
X X
+ M (2, 2) E[Xi2 ]E[Xj2 ] + M (2, 1, 1) E[Xi2 ]E[Xj ]E[Xk ]
1≤i<j≤n 1≤i<j<k≤n



 X



 + M (1, 1, 1, 1) E[Xi ]E[Xj ]E[Xk ]E[Xl ]
1≤i<j<k<l≤n

Comme E[Xi ] = 0, les deuxième, quatrième et cinquième termes sont nuls. Comme on
montre que M (4) = 1, M (2, 2) = 6, on obtient
n
X X
E(Sn4 ) = E[Xi4 ] + 6 E[Xi2 ]E[Xj2 ]
i=1 1≤i<j≤n

= nE[X14 ]
+ 6Cn (E[X12 ])2
2

= nE[X14 ]
+ 3n(n − 1)(E[X12 ])2
≤ M n + 3M n(n − 1)
≤ 3M n2 < +∞

où on a posé M = max(E[X12 ]2 , E[X14 ]). On a alors

E[Sn4 ] 3M
P(|Mn | ≥ ε) ≤ ≤ .
n 4 ε4 n 2 ε4

Comme 3M/n2 ε4 est le terme général d’une série convergente, P(|Mn | ≥ ε) aussi. Le lemme
de Borel-Cantelli s’applique et donne P(Dε ) = 0. Posons alors
+∞
[
D= D1/p
p=1

On a P(D) = 0 car D est réunion dénombrable d’ensembles D1/p de probabilités nulles.

Prenons alors \ \[\
Ω0 := Dc = c
D1/p = {|Mn | ≤ 1/p}.
p≥1 p≥1 k≥1 n≥k

On a P(Ω0 ) = 1 et pour tout ω ∈ Ω0 , par traduction dans le langage logique des symboles
ensemblistes, pour tout p ∈ N∗ , il existe un entier k tel que pour tout n ≥ k |Mn | ≤ 1/p.
On a donc Mn qui converge presque sûrement vers 0 ; ce qui achève la preuve de la
LGN forte.
100 Chapitre 8. c JCB – L2 IMAE – Université de La Rochelle

8.4 Théorème central limite

Rappelons deux résulats essentiels pour les v.a. normales.
• Si X est de loi N (m, σ 2 ) alors pour tout α ∈ R, αX est de loi N (αm, α2 σ 2 ).
X −m
Puis on peut toujours se ramener à la loi normale standard car ∼ N (0, 1).
σ
X −m
Considérer s’appelle centrer et réduire la v.a. X.
σ
• Si X1 ∼ N (m1 , σ12 ) et X2 ∼ N (m2 , σ22 ) sont indépendantes alors

X1 + X2 ∼ N (m1 + m2 , σ12 + σ22 ).

Théorème 8.4.1 (Théorème central limite) Soit (Xn )n≥1 une suite de variables aléa-
toires indépendantes et de même loi, de moyenne m et de variance σ 2 (i.e. avec un moment
d’ordre deux fini). Notons Mn les moyennes arithmétiques
n
X1 + · · · + Xn 1X
Mn = = Xi ,
n n i=1

et Zn les variables centrées réduites associées :

√
Mn − m n(Mn − m)
Zn = √ = .
σ/ n σ

Alors pour tout intervalle [a, b], on a

b 2
e−t /2
Z
lim P (a ≤ Zn ≤ b) = √ dt. (8.6)
n→+∞ a 2π
√
n(Mn − m)
On dit que la loi de la v.a. Zn = converge en loi vers la loi normale standard
σ
N (0, 1).

Remarque 8.4.1 – Ce théorème justifie le rôle fondamental de la loi normale : si

(Xn )n est une suite de v.a. indépendantes de même loi centrée (E[X1 ] = m = 0) et
réduite (de variance σ = 1) alors (8.6) se réécrit :
b 2
√ e−t /2
Z

∀a < b, lim P a ≤ nMn ≤ b = √ dt.
n→+∞ a 2π
Autrement dit les sommes renormalisée se comportent asymptotiquement comme la
loi normale. De façon générale, l’écart entre les moyennes arithmétiques et l’espérance
(écart qui tend vers 0 par la LGN) se comporte après normalisation comme la loi
normale.
8.4. Théorème central limite 101

– En pratique : lorsque l’on considère un grand nombre de v.a. indépendantes et de

même loi X1 , . . . , Xn , on approxime leur somme Sn ou leur moyenne Mn par des
variables normales suivantes :

Sn “ ∼00 N (nm, σ 2 n), Mn “ ∼00 N (m, σ 2 /n).

En particulier si Xn est de loi B(n, p), on peut voir Xn comme une somme de n v.a.
indépendantes de loi de Bernoulli b(p). D’après la remarque précédente, on a
Proposition 8.4.1 (Moivre-Laplace) La loi binomiale B(n, p) s’approxime par la
loi normale N (np, np(1 − p)) lorsque n est grand.
On a donc deux approximations possibles pour les lois binomiales B(n, p) : celle par
une loi de Poisson P(np) lorsque n est grand, p petit et np de l’ordre de quelques
unités et celle par N (np, np(1 − p)) lorsque n est grand. Seule la pratique permet de
décider laquelle des deux est la meilleure approximation.
– Le TCL est fondamental en statistique pour l’obtention d’intervalles de confiance. Il
est à l’origine de beaucoup d’approximation de lois et permet de se ramener à la loi
normale pour laquelle on dispose de tables des valeurs.

Exemple : Un joueur lance une pièce équilibrée : lorsqu’il obtient pile, il gagne 100
Euros, lorsqu’il obtient face, il perd 100 Euros. Estimer le nombre maximal de lancers à
effectuer pour que ce joueur ait plus de 95 chances sur 100 de perdre au plus 2000 Euros.
Notons n le nombre de lancers effectués, la v.a. Xn égale au nombre de piles obtenus
sur les n premiers lancers suit une loi B(n, 1/2) et le gain (algébrique) vaut :

Gn = 100 × Xn − 100 × (n − Xn ) = 200Xn − 100n.

On cherche alors n tel que P(Gn ≥ −2000) ≥ 0, 95. Or {Gn ≥ −2000} = {Xn −n/2 ≥ −10}.
Comme Xn de loi binomiale, peut être vue comme une somme Xn = 1 + · · · + n de v.a.
n n
de loi b(1/2), on peut approximer la loi de Xn , d’après le TCL par la loi normale N ( , )
2 4
X n − n/2
et donc celle de Xn∗ = p par la loi N (0, 1).
n/4
Chercher n tel que P(Gn ≥ −2000) = P(Xn − n/2 ≥ −10) ≥ 0, 95 revient à estimer n
tel que
√ √
P(N (0, 1) ≥ −20/ n) ≥ 0, 95 ou par symétrie de la loi P(N (0, 1) ≤ 20/ n) ≥ 0, 95.

La table de la loi N (0, 1) donne alors

2
20 20
√ = 1, 65 c’est à dire n= = 146.
n 1, 65

Exemple : On lance 3600 fois un dé. Évaluer la probabilité que le nombre d’apparitions
du 1 soit compris entre 540 et 660.
102 Chapitre 8. c JCB – L2 IMAE – Université de La Rochelle

Soit S le nombre d’apparitions du 1. S suit la loi B(3600, 1/6) et donc sa loi peut être
approchée par celle de S̃ ∼ N (600, 500).
S̃ − 600
Mais comme X0 = √ ∼ N (0, 1), on a
500
P(540 ≤ S ≤ 660) ' P(540 ≤ S̃ ≤ 660)
!
540 − 600 S̃ − 600 660 − 600
= P √ ≤ √ ≤ √
500 500 500
= P(−2, 68 ≤ X0 ≤ 2, 68)
= P(X0 ≤ 2, 68) − P(X0 ≤ −2, 68)
= 2P(X0 ≤ 2, 68) − 1
' 0, 9926.

Exemple : Une entreprise emploie 500 personnes qui déjeunent à la cantine à l’un ou
l’autre des deux services avec une probabilité égale de manger au premier ou au second
service. Si le gérant veut avoir une probabilité supérieure à 95% de disposer d’assez de
couverts, combien devra-t-il en prévoir à chacun des deux services ?
On commence par numéroter les 500 personnes de 1 à 500 et on note pour chacune Xi la
variable aléatoire qui vaut 1 si la ième personne choisit le premier service (avec probabilité
1/2) et 0 sinon. Les Xi sont donc des v.a. de Bernoulli b(1/2).
Nous cherchons k le nombre minimal de couverts à disposer à chaque service, sinon 500
couverts conviennent sans prendre le moindre risque. P500
Le nombre de personnes déjeunant au premier service est S500 = i=1 Xi de loi
B(500, 1/2). Le nombre de personnes déjeunant au second service est 500 − Sn (on suppose
que tout le monde mange exactement une fois).
Le problème revient à chercher le plus petit k tel que
P(S500 ≤ k, 500 − S500 ≤ k) ≥ 0, 95
c’est à dire
P(500 − k ≤ S500 ≤ k) ≥ 0, 95.
D’après le théorème de Moivre-Laplace, on peut approcher la loi de S500 par N (250, 125).
X0 − 250
Notons X0 une v.a. suivant une telle loi, on a √ ∼ N (0, 1). Notons F0 la fonction
125
de répartition de X0 (pour laquelle on dispose d’une table des valeurs approchées). On a
alors
P(500 − k ≤ S500 ≤ k) ' P(500 − k ≤ X0 ≤ k)

250 − k k − 250
= P √ ≤ X0 ≤ √
125 125

k − 250 250 − k
= F0 √ − F0 √
125 125
8.4. Théorème central limite 103

k − 250
= 2F0 √ − 1.
125

k−250
Pour obtenir une probabilité d’au moins 0, 95, il faut que F0 √
125
≥ 0, 975, ce qui d’après
la table de la loi normale standard est vrai pour
k − 250 √
√ ≥ 1, 96 c’est à dire k ≥ 250 + 1, 96 125 ' 271, 91.
125
Il faut donc au minimum 272 couverts à chacun des deux services pour qu’avec une pro-
babilité de 95%, chacun puisse manger au service ce son choix.
En acceptant les 5% de risque, il y a moyen de réaliser une économie considérable en
place et en mobilier.

Vous aimerez peut-être aussi

Poly Stat Inf PDF
Pas encore d'évaluation
Poly Stat Inf PDF
62 pages
Cours Probabilités 231201 164123
Pas encore d'évaluation
Cours Probabilités 231201 164123
83 pages
Cours Probabilités
Pas encore d'évaluation
Cours Probabilités
84 pages
Cours Proba ISAE
Pas encore d'évaluation
Cours Proba ISAE
120 pages
Probabilités et Statistiques DEUG
Pas encore d'évaluation
Probabilités et Statistiques DEUG
335 pages
Cours de DEUG Probabilites Et Statistiques
100% (3)
Cours de DEUG Probabilites Et Statistiques
335 pages
Cours Probabilité
Pas encore d'évaluation
Cours Probabilité
58 pages
CMD 060902
Pas encore d'évaluation
CMD 060902
343 pages
Poly Proba
Pas encore d'évaluation
Poly Proba
73 pages
Suquet Cours Deug Proba
100% (1)
Suquet Cours Deug Proba
225 pages
Cours de Probabilités et Statistiques
60% (5)
Cours de Probabilités et Statistiques
128 pages
Cours de Probabilité MR LAKHAL Elhasan
0% (1)
Cours de Probabilité MR LAKHAL Elhasan
128 pages
Probabilités et Statistiques Élémentaires
Pas encore d'évaluation
Probabilités et Statistiques Élémentaires
89 pages
Cours de Probabilités et Combinatoire
Pas encore d'évaluation
Cours de Probabilités et Combinatoire
99 pages
Introduction aux Processus Stochastiques
Pas encore d'évaluation
Introduction aux Processus Stochastiques
39 pages
Introduction au Calcul des Probabilités
Pas encore d'évaluation
Introduction au Calcul des Probabilités
237 pages
Poly de Cours Proba
Pas encore d'évaluation
Poly de Cours Proba
82 pages
Cours de Probabilités - Exercices Corrigés
Pas encore d'évaluation
Cours de Probabilités - Exercices Corrigés
108 pages
PolyTunis A Perrut
Pas encore d'évaluation
PolyTunis A Perrut
71 pages
PolyTunis A Perrut PDF
Pas encore d'évaluation
PolyTunis A Perrut PDF
71 pages
PolyTunis A Perrut PDF
Pas encore d'évaluation
PolyTunis A Perrut PDF
71 pages
Probabilités et Statistiques UPMC 2004/2005
100% (1)
Probabilités et Statistiques UPMC 2004/2005
120 pages
Cours de Probabilités Appliquées
Pas encore d'évaluation
Cours de Probabilités Appliquées
103 pages
Polymap361 1 5
Pas encore d'évaluation
Polymap361 1 5
5 pages
Cours de Dénombrement et Probabilités
Pas encore d'évaluation
Cours de Dénombrement et Probabilités
71 pages
Poly Probabilités
Pas encore d'évaluation
Poly Probabilités
41 pages
Probabilit E Et Statistiques.: Licence 2' Eme Ann Ee
Pas encore d'évaluation
Probabilit E Et Statistiques.: Licence 2' Eme Ann Ee
73 pages
Introduction aux Phénomènes Aléatoires
Pas encore d'évaluation
Introduction aux Phénomènes Aléatoires
264 pages
Introduction aux probabilités L2 SEG
Pas encore d'évaluation
Introduction aux probabilités L2 SEG
53 pages
2019 Cours Proba Stats 2 - Copie - Copie - Copie
Pas encore d'évaluation
2019 Cours Proba Stats 2 - Copie - Copie - Copie
90 pages
Statinf 2
Pas encore d'évaluation
Statinf 2
33 pages
Proba l3
Pas encore d'évaluation
Proba l3
67 pages
Introduction aux probabilités 2021-2022
Pas encore d'évaluation
Introduction aux probabilités 2021-2022
90 pages
Probabilité Et Statistique Mathématique (v1) - Chapitre 3 Et 4
Pas encore d'évaluation
Probabilité Et Statistique Mathématique (v1) - Chapitre 3 Et 4
160 pages
Cours PROBABILITES ET STATISTIQUE S4 LE Sec Math-1
Pas encore d'évaluation
Cours PROBABILITES ET STATISTIQUE S4 LE Sec Math-1
63 pages
Cours Probabilite Part1 2
Pas encore d'évaluation
Cours Probabilite Part1 2
23 pages
Poly Probabilité
Pas encore d'évaluation
Poly Probabilité
41 pages
CM Proba MI L2 (28-03-2024) (v2)
Pas encore d'évaluation
CM Proba MI L2 (28-03-2024) (v2)
41 pages
Introduction à la Probabilité et Statistique
Pas encore d'évaluation
Introduction à la Probabilité et Statistique
24 pages
Lois Usuelles
Pas encore d'évaluation
Lois Usuelles
28 pages
Elements de La Theorie Des Probabilités
Pas encore d'évaluation
Elements de La Theorie Des Probabilités
225 pages
Introduction aux Probabilités et Combinatoire
Pas encore d'évaluation
Introduction aux Probabilités et Combinatoire
53 pages
Cours Proba Stat 2011 Debut
Pas encore d'évaluation
Cours Proba Stat 2011 Debut
40 pages
Proba Lice PDF
Pas encore d'évaluation
Proba Lice PDF
135 pages
Cours de Probabilites 2024-2025: 25 Novembre 2024
100% (1)
Cours de Probabilites 2024-2025: 25 Novembre 2024
67 pages
Initiation Aux Statistiques Et Aux Proba
100% (1)
Initiation Aux Statistiques Et Aux Proba
55 pages
2MA241 Poly
Pas encore d'évaluation
2MA241 Poly
104 pages
Introduction aux statistiques
Pas encore d'évaluation
Introduction aux statistiques
34 pages
Cours Prob As
Pas encore d'évaluation
Cours Prob As
38 pages
Poly Integration Probas
Pas encore d'évaluation
Poly Integration Probas
10 pages
Cours de Probabilités et Statistiques
Pas encore d'évaluation
Cours de Probabilités et Statistiques
64 pages
Cours de Probabilités et Statistiques S3
Pas encore d'évaluation
Cours de Probabilités et Statistiques S3
53 pages
332 Proba2222888
Pas encore d'évaluation
332 Proba2222888
62 pages
Cours Proba AS1 2022
Pas encore d'évaluation
Cours Proba AS1 2022
39 pages
Cours de Probabilités et Statistiques I
Pas encore d'évaluation
Cours de Probabilités et Statistiques I
49 pages
Résolution d'équations complexes et intégrales
Pas encore d'évaluation
Résolution d'équations complexes et intégrales
2 pages
MM1S2012
Pas encore d'évaluation
MM1S2012
51 pages
Constructions Bases
Pas encore d'évaluation
Constructions Bases
6 pages
Exercice 5 Proba Enti
Pas encore d'évaluation
Exercice 5 Proba Enti
2 pages
Exponentielle 1 20
Pas encore d'évaluation
Exponentielle 1 20
19 pages
Affine Signe Seconde21
Pas encore d'évaluation
Affine Signe Seconde21
34 pages
Intervalle Inegalite 21
Pas encore d'évaluation
Intervalle Inegalite 21
22 pages
Suites Geome 1s 2024final
Pas encore d'évaluation
Suites Geome 1s 2024final
6 pages
DS5 Suites Arithmetiques
Pas encore d'évaluation
DS5 Suites Arithmetiques
1 page
Chapitre 03 Focts Derivee Eleve
Pas encore d'évaluation
Chapitre 03 Focts Derivee Eleve
24 pages
Cours Equations Differentielles TSTI2D
Pas encore d'évaluation
Cours Equations Differentielles TSTI2D
6 pages
Mathématiques STI2D: Dérivées & Intégration
Pas encore d'évaluation
Mathématiques STI2D: Dérivées & Intégration
25 pages
Cours sur les Variables Aléatoires
Pas encore d'évaluation
Cours sur les Variables Aléatoires
11 pages
DERIVEE TANGENTE 24finale
Pas encore d'évaluation
DERIVEE TANGENTE 24finale
61 pages
Fonctions Cours Exos
Pas encore d'évaluation
Fonctions Cours Exos
12 pages
Lentilles: Types, Foyers et Vergence
100% (1)
Lentilles: Types, Foyers et Vergence
4 pages
Sections de Solides et Plans Parallèles
Pas encore d'évaluation
Sections de Solides et Plans Parallèles
4 pages
Questionnaire S.V.T. Termrnale D
100% (1)
Questionnaire S.V.T. Termrnale D
98 pages
Fractions Rationnelles Cours
Pas encore d'évaluation
Fractions Rationnelles Cours
11 pages
Polygones : Types, Propriétés et Construction
Pas encore d'évaluation
Polygones : Types, Propriétés et Construction
5 pages
Cours de Dénombrement Et Probabilité M.PND
Pas encore d'évaluation
Cours de Dénombrement Et Probabilité M.PND
12 pages
Picchione Geometrie
Pas encore d'évaluation
Picchione Geometrie
74 pages
Ivan Illich, Lhomme Qui A Libéré Lavenir - 1-rt-rt
Pas encore d'évaluation
Ivan Illich, Lhomme Qui A Libéré Lavenir - 1-rt-rt
223 pages
Peur et guérison : un nouveau paradigme
Pas encore d'évaluation
Peur et guérison : un nouveau paradigme
40 pages
Écrasement des Grains de Schiste au Compactage
Pas encore d'évaluation
Écrasement des Grains de Schiste au Compactage
9 pages
Hydratation Du Ciment
Pas encore d'évaluation
Hydratation Du Ciment
17 pages
Systeme Catalytique
100% (1)
Systeme Catalytique
7 pages
Memoire Definitif 1
Pas encore d'évaluation
Memoire Definitif 1
51 pages
Catalogue Produits Enicab
Pas encore d'évaluation
Catalogue Produits Enicab
104 pages
Chap 1 Sur Les Systèmes de Maintenance À Bord (Ata 45)
Pas encore d'évaluation
Chap 1 Sur Les Systèmes de Maintenance À Bord (Ata 45)
22 pages
Takhna
Pas encore d'évaluation
Takhna
23 pages
Assassin
Pas encore d'évaluation
Assassin
21 pages
Fezan 2025
100% (1)
Fezan 2025
3 pages
Introduction à l'informatique
Pas encore d'évaluation
Introduction à l'informatique
21 pages
Examen Cristallographique SMP4 SMC4 2020 FSA Norm
Pas encore d'évaluation
Examen Cristallographique SMP4 SMC4 2020 FSA Norm
2 pages
Devoir de Sciences Physiques : Hydrocarbures et Lentilles
Pas encore d'évaluation
Devoir de Sciences Physiques : Hydrocarbures et Lentilles
1 page
Étude de faisabilité : lampadaires solaires en Guinée
100% (2)
Étude de faisabilité : lampadaires solaires en Guinée
78 pages
Réglage des Projecteurs Auto
Pas encore d'évaluation
Réglage des Projecteurs Auto
6 pages
Lancer de Poids
Pas encore d'évaluation
Lancer de Poids
17 pages
Activités Graphiques et Ludiques
Pas encore d'évaluation
Activités Graphiques et Ludiques
33 pages
37 Mémo Aérosolthérapie Copie de Douleur Thoracique Aux Urgences-1
Pas encore d'évaluation
37 Mémo Aérosolthérapie Copie de Douleur Thoracique Aux Urgences-1
1 page
Définition du Plan d'Occupation des Sols
Pas encore d'évaluation
Définition du Plan d'Occupation des Sols
4 pages
1ère A - APC - Les Alcanes
Pas encore d'évaluation
1ère A - APC - Les Alcanes
5 pages
Lierre terrestre : secrets, usages et bienfaits
Pas encore d'évaluation
Lierre terrestre : secrets, usages et bienfaits
21 pages
Avis Technique Panneau Bilame
Pas encore d'évaluation
Avis Technique Panneau Bilame
48 pages
Tragédie d'Œdipe Roi de Sophocle
Pas encore d'évaluation
Tragédie d'Œdipe Roi de Sophocle
50 pages
La Categorisation, Les Types de Proces
Pas encore d'évaluation
La Categorisation, Les Types de Proces
39 pages
Exercices
Pas encore d'évaluation
Exercices
3 pages
Trousse de Lecture C1
100% (1)
Trousse de Lecture C1
10 pages
Analyse de "Nuit Rhénane" d'Apollinaire
Pas encore d'évaluation
Analyse de "Nuit Rhénane" d'Apollinaire
2 pages
Rapport Final Groupe 8 Projet Intégrateur
100% (1)
Rapport Final Groupe 8 Projet Intégrateur
61 pages
Découverte de la Chimie Moderne
Pas encore d'évaluation
Découverte de la Chimie Moderne
4 pages
Cours de Mathématiques 2020-2021
Pas encore d'évaluation
Cours de Mathématiques 2020-2021
16 pages