0% ont trouvé ce document utile (0 vote)

364 vues60 pages

Cours de Probabilités et Statistiques

Ce document présente le contenu d'un cours de probabilités et statistiques dispensé à l'INSA de Strasbourg. Le cours est divisé en deux parties, la première couvrant les fondements du calcul des probabilités et la seconde des éléments de statistique mathématique. Le document détaille les différents chapitres qui seront abordés.

Transféré par

Doc

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

364 vues60 pages

Cours de Probabilités et Statistiques

Transféré par

Doc

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Cours de Probabilités et Statistique

INSA de Strasbourg - GC3

J. FRANCHI

Premier trimestre 2010-2011. 20 h de cours et 20 h de T.D..

Contenu

0. Éléments d’Algèbre Linéaire page 2

1) Matrices page 2
2) Produits scalaire et vectoriel page 8
I. Fondements du calcul des probabilités page 11
3) Probabilité ; conditionnement page 11
4) Variables aléatoires et leur lois page 18
5) Lois usuelles page 22
6) Lemmes de Borel-Cantelli page 27
7) Variables aléatoires indépendantes page 29
8) Convergences des variables aléatoires page 32
9) Loi des Grands Nombres page 33
10) Théorème Central Limite page 34
II. Éléments de statistique mathématique page 35
11) Caractères quantitatifs monodimensionnels page 36
12) Régression linéaire page 42
13) Vraisemblance et estimation page 45
14) Tests page 53

1
0. Éléments d’Algèbre Linéaire
Ce chapitre, utile de toute façon, est placé ici pour les besoins du cours de physique.

1 Matrices
Matrice (réelle ou complexe) de format (m, n) : m lignes et n colonnes.
Notation M = ((Mij )) (i est l’indice de ligne et j est l’indice de colonne).

M11 M12 M13
Par exemple, pour (m, n) = (2, 3) : M = .
M21 M22 M23
L’ensemble des matrices de format (m, n) fixé constitue un expace vectoriel pour la
somme et le produit par un scalaire. Les matrices de format (n, n) sont dites carrées.

Définition 1.0.1 Le produit de M = ((Mij )), de format (m, n), par P = ((Pij )), de format
(n, p) : c’est la matrice M P de format (m, p) définie par la formule du produit :
n
X
(M × P )ij = (M P )ij := Mik Pkj .
k=1

   
2 2
1 2 3 1 1 2 3
Exemples : ×  1  = .  1  × n’existe pas.
7 8 9 13 7 8 9
−1 −1
     
2 2 2 4 6
(1 2 3) ×  1  = (1).  1  × (1 2 3) =  1 2 3 .
−1 −1 −1 −2 −3

Proposition 1.0.2 Ce produit est associatif : (M1 M2 )M3 = M1 (M2 M3 ), pour toutes
matrices M1 , M2 , M3 avec des formats compatibles. Cela permet de le noter simplement
M1 M2 M3 .
L’ensemble (Mn (IR) ou Mn (C)) des matrices carrées de format (n, n) constitue un
anneau (non commutatif !) pour la somme et le produit, et même une algèbre pour la
somme, le produit, et le produit par un scalaire.

Définition 1.0.3 La transposée de la matrice M de format (m, n) est la matrice tM de

format (n, m), dont les lignes sont les colonnes de M , et réciproquement.
t
Autrement dit, elle est définie par : Mij := Mji , pour tous 1 ≤ i ≤ n , 1 ≤ j ≤ m .

Proposition 1.0.4 La transposition M 7→ tM est une involution linéaire : t (λM +

µM 0 ) = λ tM + µ tM 0 , et t (tM ) = M , pour toutes matrices M, M 0 de même format et tous
scalaires λ, µ ∈ C. En outre, on a t(M × P ) = tP × tM , dès que le produit M × P
existe.

2
1.1 Inverse d’une matrice carrée
On ne considère ici plus que des matrices carrées, disons de format (n, n), et des
vecteurs(-colonne), c’est-à-dire ici des matrices de format (n, 1). Convenons de noter par
1 la matrice unité de format (n, n) (quelle que soit la dimension n , qui devra être claire
dans le contexte) : elle comporte des 1 sur sa diagonale, et des 0 partout ailleurs. C’est
l’élément neutre pour le produit des matrices de format (n, n).

Définition 1.1.1 Une matrice M est dite inversible lorsqu’il existe une matrice, notée
M −1 et nommée inverse de M (à ne jamais confondre avec l’opposée −M de M ), telle
que
M × M −1 = M −1 × M = 1 .

Le noyau de la matrice M est l’espace vectoriel des vecteurs-colonne V tels que M V = 0.

Noter qu’une matrice M admet au plus une matrice inverse : 2 matrices qui vérifieraient
la propriété d’inverse (pour M ) de la définition 1.1.1 seraient nécessairement égales.
Il faut absolument connaı̂tre les propriétés fondamentales suivantes.

Proposition 1.1.2 (i) Si M admet une inverse à gauche : P × M = 1 (ou à droite :

M × P = 1), alors elle est inversible, d’inverse P .
(ii) M est inversible si et seulement si son noyau est réduit à {0}.
(iii) M est inversible si et seulement si tM est inversible, et dans ce cas on a :
(tM )−1 = t (M −1 ).

(iv) M est inversible si et seulement si l’équation (qu’on a le droit de voir comme un

système de n équations à n inconnues) M V = W admet un unique vecteur V solution, cela
pour tout vecteur donné W ou bien pour un seul W (on dit que le système est de Cramer).
Alors, on a pour tous vecteurs V, W ∈ Cn :
M V = W ⇐⇒ V = M −1 W .

(iv) Si M et P sont inversibles, alors M P l’est aussi, et (M P )−1 = P −1 M −1 .

Nota Bene Une des meilleures façons de calculer à la main l’inverse d’une matrice (de
dimension raisonnable !) est d’utiliser l’équivalence (iv) ci-dessus, et donc de résoudre
(par la méthode du pivot) par rapport aux inconnues (x1 , . . . , xn ) le système d’équations
M V = W , pour t V = (x1 , . . . , xn ) et t W = (y1 , . . . , yn ).

1.2 Déterminant d’une matrice carrée

Il y a plusieurs façons de définir cette notion essentielle. Commençons par les dimensions
1, 2 et 3.

3

a b
Définition 1.2.1 det( a ) := a ; det := ad − bc ;
c d
 
a1 b1 c1
det a2
 b2 c2  := a1 (b2 c3 − b3 c2 ) − a2 (b1 c3 − b3 c1 ) + a3 (b1 c2 − b2 c1 ).
a3 b3 c3

Et pour une matrice carrée de format général (n, n) :

(−1)sign(σ) M1 σ(1) × . . . × Mn σ(n) .

P
Définition 1.2.2 det((Mij )) :=
σ∈Sn

Sn désigne le n-ième groupe symétrique, i.e. l’ensemble des permutations de {1, . . . , n}, et
sign(σ) désigne la signature de la permutation σ .

On démontre que c’est équivalent à la définition par récurrence sur n , de développement

par rapport à une colonne, que l’on vérifie directement pour les dimensions 2 et 3 à partir
des expressions données ci-dessus, et que voici dans le cas général.

Proposition 1.2.3 On a (pour tout 1 ≤ j ≤ n) la formule suivante, de développement

n
(−1)i+j Mij × det M
cij , où M
cij
P
par rapport à la j-ième colonne : det((Mij )) :=
i=1
désigne la matrice de format (n − 1, n − 1) déduite de la matrice M par élimination de la
ligne d’indice i et de la colonne d’indice j .

Le déterminant possède les deux propriétés fondamentales suivantes.

Proposition 1.2.4 Pour toutes matrices carrées M, P de même format, on a :

det(M P ) = det M det P , et det(tM ) = det M .

Noter que la seconde de ces formules montre, avec la proposition 1.2.3, qu’on peut déve-
lopper un déterminant aussi bien par rapport à une ligne que par rapport à une colonne :
n
(−1)i+j Mij × det M
cij , pour tout i ∈ {1, . . . , n}.
P
det((Mij )) :=
j=1

Il est commode et usuel d’identifier une matrice à la suite de ses vecteurs-colonne :

M ≡ (V1 , . . . , Vn ), avec t Vj := (M1j , . . . , Mnj ). Cela permet en particulier d’exprimer
simplement une autre propriété fondamentale des déterminants, comme suit.

Proposition 1.2.5 Le déterminant est une forme multilinéaire alternée. Ce qui signifie
d’une part que pour tous vecteurs V1 , . . . , Vn , V10 . . . , Vn0 ∈ Cn , tous scalaires λ, µ ∈ C, et
tout 1 ≤ j ≤ n, on a :
det(V1 , . . . , λ Vj + µ Vj0 , . . . , Vn ) = λ det(V1 , . . . , Vj , . . . , Vn ) + µ det(V1 , . . . , Vj0 , . . . , Vn ) ,
et d’autre part que det(V1 , . . . , Vn ) s’annule dès que deux des vecteurs V1 , . . . , Vn sont
colinéaires, ou bien encore : det(. . . , Vj , . . . , Vi , . . .) = − det(. . . , Vi , . . . , Vj , . . .), dès que
1 ≤ i < j ≤ n (antisymétrie), ou aussi : det(Vσ(1) , . . . , Vσ(n) ) = (−1)sign(σ) det(V1 , . . . , Vn ).

4
Noter que par simple transposition, on voit que cette proposition reste valable si on y rem-
place les vecteurs-colonne par les vecteurs-ligne : le déterminant est également une forme
multilinéaire alternée par rapport aux lignes de la matrice. Cette proposition 1.2.5, ainsi
augmentée, est très utile pour gagner du temps dans le calcul à la main d’un déterminant
donné.
Voici encore une propriété fondamentale du déterminant, complétant la proposition
1.1.2.

Proposition 1.2.6 Une matrice carrée M est inversible si et seulement si son déter-
minant est non nul.

Notons qu’en outre det(1) = 1, et det(M −1 ) = 1/ det M , pour toute matrice M

inversible.
−1
a b 1 d −b
Exemple des matrices (2, 2) : = , dès que ad − bc 6= 0 .
c d ad − bc −c a

1.3 Valeurs et vecteurs propres des matrices carrées

Fixons ici le format (n, n) des matrices carrées M que nous considérerons. Tout vecteur
V sera identifié à une matrice colonne, c’est-à-dire ici à une matrice de format (n, 1). De
façon que le produit M V existe, et soit lui-même un vecteur. L’ensemble de ces vecteurs-
colonne de dimension n est identifié à l’espace vectoriel Cn .

Définition 1.3.1 Un vecteur V est dit propre pour la matrice M lorsque le vecteur M V
est colinéaire à V : il existe un scalaire λ ∈ C tel que M V = λV .
Un scalaire λ ∈ C est une valeur propre de la matrice M lorsqu’il existe un vecteur
V non nul tel que M V = λV .
Lorsque c’est le cas : M V = λV avec V 6= 0 , on dit que λ est la valeur propre associée
au vecteur propre V , et aussi que V est un vecteur propre associé à la valeur propre λ .
L’ensemble des vecteurs propres associés à une valeur propre λ , le vecteur nul inclus,
s’appelle le sous-espace propre associé à la valeur propre λ .

Le sous-espace propre associé à une valeur propre λ forme un sous-espace vectoriel de

n
C , puisque c’est simplement le noyau de la matrice (M − λ1). Lorsque le noyau de la
matrice M est non réduit à {0}, c’est le sous-espace propre associé à la valeur propre 0.
Noter que même si la matrice M est réelle, valeurs, vecteurs, et sous-espaces propres
sont a priori complexes.

Corollaire 1.3.2 Le scalaire λ ∈ C est valeur propre de la matrice M ssi det(M −λ1) =
0.

5
Nota Bene Pour M de format (n, n) donnée, la fonction PM définie par λ 7→ PM (λ) :=
det(M − λ1) est polynômiale de degré n . C’est le polynôme caractéristique de M . Selon
le corollaire ci-dessus, ses racines sont exactement les valeurs propres de la matrice M .
Donc, en tenant compte des multiplicités (on décompte 2 fois une racine double, 3
fois une racine triple, etc...), puisque C est un corps algébriquement clos (théorème de
d’Alembert), toute matrice (réelle ou complexe) de format (n, n) possède exactement n
valeurs propres complexes.

1.4 Diagonalisation d’une matrice carrée

Définition 1.4.1 Diagonaliser la matrice carrée M signifie trouver une matrice diagonale
(ce qui signifie qu’hors de sa diagonale, tous ses coefficients sont nuls) D et une matrice
inversible P (dite matrice de passage) telles que M = P D P −1 . On dit alors que M est
semblable à D. Lorsque c’est possible, on dit que la matrice M est diagonalisable.

Attention, il y a bien des matrices carrées qui ne sont pas diagonalisables.

1 1 λ 0
Par exemple et .
0 1 5 λ
Notons que la proposition 1.2.4 (avec le fait élémentaire que le déterminant d’une
matrice diagonale est égal au produit de ses termes diagonaux) entraı̂ne que
det(P D P −1 − λ1) = det P det(D − λ1) det P −1 = det(D − λ1) = (d1 − λ) . . . (dn − λ),
de sorte que, si M = P DP −1 est diagonalisable, les coefficients diagonaux (d1 , . . . , dn ) de
D sont nécessairement précisément les valeurs propres de M .
Exercice : Prouver simplement que les 2 matrices de l’exemple ci-dessus ne sont en effet
pas diagonalisables.
De plus, comme par définition le j-ième vecteur Ej de la base canonique de Cn est pro-
pre pour D, associé à dj , on voit que le j-ième vecteur-colonne P Ej de P est propre pour
M = P DP −1 , associé à dj . Donc la matrice de passage P est nécessairement constituée de
vecteurs propres de M , rangés dans le même ordre que les valeurs propres correspondantes
sur la diagonale de D.
Le résultat suivant est essentiel, quoique très simple à déduire de l’observation ci-dessus.

Proposition 1.4.2 La matrice M de format (n, n) est diagonalisable si et seulement si

il existe une base de Cn formée de vecteurs propres de M , ou encore, si et seulement si la
somme des dimensions des sous-espaces propres de M est égale à la dimension n .
En particulier, si M admet n valeurs propres distinctes, elle est nécessairement diagonal-
isable (mais ce n’est pas nécessaire ! la réciproque est fausse : penser à la matrice unité).
On obtient une diagonalisation de la matrice diagonalisable M en plaçant sur la diagonale
de D les n valeurs propres (avec les répétitions s’il y a lieu !) de M , et en prenant pour

6
matrice de passage P une base de vecteurs propres de M , rangés dans le même ordre que
les valeurs propres correspondantes sur la diagonale de D.

La diagonalisation est importante car extrêmement utile pour calculer toutes les puis-
sances d’une matrice et son exponentielle, elle-même indispensable pour résoudre par exem-
ple des systèmes d’équations différentielles linéaires à coefficients constants V 0(t) = M V(t).

Définition 1.4.3 L’exponentielle d’une matrice carrée M est la matrice exp(M ) de

∞
X Mn
même format définie par la série convergente : exp(M ) := .
n=0
n!

Noter en effet que (par une récurrence immédiate) (P DP −1 )n = P Dn P −1 , (pour tout

n ∈ IN , et même pour tout n ∈ Z si M est inversible), et donc que exp(P DP −1 ) =
P exp(D)P −1 , expression très agréable puisque exp(D) est clairement obtenue simplement
en exponentiant les coefficients diagonaux de D.
√ √ √
0 ϕ cos(ϕ/ 2) 2 sin(ϕ/ 2)
Exercice : Calculer exp . (On doit trouver √ −1 √ √ .)
−ϕ/2 0 2
sin(ϕ/ 2) cos(ϕ/ 2)

1.5 Trigonalisation d’une matrice carrée

Lorsque la matrice carrée M n’est pas diagonalisable, il reste la possibilité de la trigo-
naliser.

Définition 1.5.1 Trigonaliser la matrice carrée M signifie trouver une matrice

triangulaire (ce qui signifie qu’en dessous ou bien au-dessus de sa diagonale tous ses co-
efficients sont nuls) T et une matrice inversible P (dite matrice de passage) telles que
M = P T P −1 . On dit alors que M est semblable à T . Lorsque c’est possible, on dit que
la matrice M est trigonalisable.

L’analogue de la proposition 1.4.2 est ici :

Proposition 1.5.2 Toute matrice carrée M est trigonalisable (dans C).

La diagonale de T comporte nécessairement les n valeurs propres de M (avec toutes
leurs répétitions).
On obtient les vecteurs-colonne d’une matrice de passage P en choisissant dans l’ordre,
pour chaque valeur propre λ , d’abord un vecteur propre associé V1λ , puis un vecteur V2λ
non colinéaire à V1λ tel que (M − λ1)V2λ soit colinéaire à V1λ , puis un vecteur V3λ non
combinaison linéaire de V1λ et V2λ tel que (M − λ1)V3λ soit combinaison linéaire de V1λ
et V2λ , et ainsi de suite jusqu’à obtenir un nombre de vecteurs (linéairement indépendants
associés à la valeur propre λ ) égal à la multiplicité de λ .

7
Remarque 1.5.3 Il est en fait toujours possible de trouver une matrice triangulaire T
qui hors de sa diagonale ne comporte, en fait de termes non nuls, que des 1 (en nombre
≤ n − 1) situés juste au-dessus de la diagonale. C’est la réduction de Jordan.
Comme dans le cas diagonalisable, le calcul de (P T P −1 )n et de exp(P T P −1 ) se ramène
aussitôt à celui de T n , qui n’est pas difficile (même si moins immédiat que dans le cas
diagonal) : T est constituée de blocs de la forme (λ1 + Nλ ), avec Nλ nilpotente, auquel la
formule du binôme s’applique, avec un nombre de termes majoré par la multiplicité de λ .
 
5 1 −1
Exercice : Calculer exp(tM ), pour M :=  2 2 2 . (On remarquera que 4 est
 3 −1 5 
t+1 t −t
valeur propre de M . On doit trouver e4t × 2t(t + 1) 2t2 − 2t + 1 2t(1 − t) . )
t(2t + 3) t(2t − 1) (2t + 1)(1 − t)

1.6 Trace d’une matrice carrée

Définition 1.6.1 La trace d’une matrice M = ((Mij )) de format (n, n) est par définition :
n
X
Trace(M ) := Mjj .
j=1

Proposition 1.6.2 (i) La trace est une forme linéaire sur l’espace vectoriel (Mn (IR) ou
Mn (C)) des matrices de format (n, n).
(ii) Trace(M M 0 ) = Trace(M 0 M ), pour toutes matrices M, M 0 de format (n, n) ;
(iii) Trace(M ) = Trace( tM ) = Trace(P −1 M P ), pour toute matrice carrée M et toute
matrice inversible P de même format ;
(iv) (M, M 0 ) 7→ Trace( tM M 0 ) = Trace(M tM 0 ) définit un produit scalaire sur Mn (IR).
(v) det(exp(M )) = exp[Trace(M )] pour toute matrice carrée M .

Trace( tM M ) = |Mij |2 pour toute M ∈ Mn (C).

P
Noter que
1≤i,j≤n

2 Produits scalaire et vectoriel

2.1 Produit scalaire
Définition 2.1.1 Le produit scalaire canonique de IRn est l’application qui à deux vecteurs
(notés ici en ligne) ~x = (x1 , . . . , xn ), ~y = (y1 , . . . , yn ) ∈ IRn associe le nombre réel ~x · ~y :=

8
n
xj yj ≡ ~x × t~y . La norme euclidienne canonique de IRn est
P
x1 y 1 + . . . + xn y n =
j=1
s
√ n
l’application qui à tout ~x = (x1 , . . . , xn ) ∈ IRn associe le réel k~xk := ~x · ~x = x2j .
P
j=1

Proposition 2.1.2 Le produit scalaire canonique de IRn jouit des propriétés suivantes :
- bilinéarité : (λ~x + λ0 x~0 ) · ~y = λ~x · ~y + λ0 x~0 · ~y et ~x · (λ~y + λ0 y~0 ) = λ~x · ~y + λ0~x · y~0 ;
- symétrie : ~x·~y = ~y ·~x ; - positivité : ~x·~x ≥ 0 ; - non dégénérescence : ~x·~x = 0 ⇒ ~x = ~0 .

Définition 2.1.3 On appelle produit scalaire sur un espace vectoriel réel E ~ toute forme
bilinéaire symétrique définie positive ϕ (“forme” signifie ici : à valeurs réelles ; “définie”
~ ϕ) est appelé espace vectoriel euclidien.
signifie ici : non dégénérée). Le couple (E,
~ par k~xk := ϕ(~x, ~x) .
p
La norme euclidienne associée à ϕ est définie sur E

n
~ = IRn , ϕ(~x, ~y ) := P αj xj yj , pour α1 , . . . , αn > 0 donnés.
Exemples : 1) E
j=1

~ = IR , ϕ(~x, ~x) :=
2) E 2
a x21 +2b x1 x2 +c x22 , pour a, b, c donnés tels que a > 0 et b2 < ac .
Z b
~ = C k ([a, b], IR), ϕ(f, g) :=
3) E f g , pour k ∈ IN et a < b réels donnés.
a

Remarque 2.1.4 L’application définie sur E ~ par ~x 7→ ϕ(~x, ~x) est la forme quadratique
associée à ϕ . Elle suffit à déterminer le produit scalaire ϕ par l’identité de polarisation :

ϕ(~x, ~y ) = 21 [ϕ(~x + ~y , ~x + ~y ) − ϕ(~x, ~x) − ϕ(~y , ~y )].

Proposition 2.1.5 La norme euclidienne vérifie les propriétés suivantes :

~ , et k~xk = 0 ⇔ ~x = ~0 ;
(i) k~xk ≥ 0 pour tout ~x ∈ E
(ii) kλ~xk = |λ| × k~xk pour tous ~x ∈ E ~ et λ ∈ IR ;
(iii) k~x ± ~y k ≤ k~xk + k~y k pour tous ~x, ~y ∈ E~ (inégalité triangulaire) ;
~ (inégalité de Schwarz).
(iv) |ϕ(~x, ~y )| ≤ k~xk × k~y k pour tous ~x, ~y ∈ E

ϕ(~x, ~y ) [ ~
Remarque 2.1.6 est le cosinus de l’angle (~
x, ~y ) (pour ~x, ~y non nuls dans E).
k~xk×k~y k

Définition 2.1.7 Une base (~ ej )j∈J de l’esp. vect. euclidien (E,~ ϕ) est dite orthonormée
lorsque i 6= j ⇒ ϕ(~ei , e~j ) = 0 (orthogonalité de e~i , e~j ) et ϕ(~
ej , e~j ) = 1 , pour tous
i, j ∈ J.

9
Le résultat suivant exprime qu’en dimension finie n , tout produit scalaire est fait
comme le produit scalaire canonique de IRn , et qu’il suffit donc (en dimension finie) essen-
tiellement de considérer celui-ci. Par défaut, IRn est a priori muni de son produit scalaire
canonique.
Proposition 2.1.8 Tout espace vectoriel euclidien de dimension finie admet des bases
orthonormées. Dans une telle base, le produit scalaire s’écrit précisément comme le produit
scalaire canonique.

Définition 2.1.9 Une matrice réelle carrée M est dite orthogonale lorsque tM × M = 1 .

Proposition 2.1.10 Soit M une matrice réelle de format (n, n). Les conditions suivantes
sont toutes équivalentes :
(i) M est orthogonale ; (ii) M × tM = 1 ;
(iii) les vecteurs-ligne de M forment une base orthonormée de IRn ;
(iv) les vecteurs-colonne de M forment une base orthonormée de IRn ;
(v) M est isométrique : kM Xk = kXk pour tout vecteur-colonne X ∈ IRn ;
(vi) M respecte le produit scalaire : M X · M Y = X · Y pour tous X, Y ∈ IRn .

Remarque 2.1.11 Le déterminant d’une matrice orthogonale vaut ±1 . Lorsqu’il vaut

+1, la matrice est associée à une rotation. Sinon, à la composée d’une rotation par une
symétrie orthogonale hyperplane.

2.2 Produit vectoriel

On se restreint ici à l’espace vectoriel euclidien IR3 .
Définition 2.2.1 Le produit vectoriel de deux vecteurs-colonne de IR3 est par définition :
     
x1 y1 x2 y3 − x3 y2
 x2  ∧  y2  :=  y1 x3 − y3 x1  ∈ IR3 .
x3 y3 x1 y2 − x2 y1

Proposition 2.2.2 (i) Le produit vectoriel est bilinéaire, et antisymétrique (ou alterné) :
Y ∧ X = −X ∧ Y pour tous X, Y ∈ IR3 (ou encore : X ∧ X = 0 pour tout X ∈ IR3 ).
(ii) X ∧ Y est le seul vecteur V de IR3 tel que V · Z = det(X, Y, Z) pour tout vecteur Z
de IR3 . (Noter en particulier l’orthogonalité de X ∧ Y avec X, Y .)
kX ∧ Y k
(iii) kX ∧ Y k2 + |X · Y |2 = kXk2 kY k2 pour tous X, Y ∈ IR3 : \
= sin (X, Y ) .

kXk×kY k
(iv) M X ∧ M Y = M (X ∧ Y ) pour toute matrice de rotation (orthog. de déterminant 1),
et M X ∧ M Y = −M (X ∧ Y ) pour toute matrice orthogonale de déterminant −1 ;
(v) X ∧ (Y ∧ Z) = (X · Z) Y − (X · Y ) Z , pour tous vecteurs X, Y, Z ∈ IR3 .

10
I. Fondements de la théorie des probabilités
Les probabilités et la statistique interviennent naturellement de façon importante dans
plusieurs grands domaines de la physique : mécanique quantique, percolation, mécanique
statistique (transitions de phases, croissance de polymères, verres de spin, etc...).
Elles sont essentielles également en épidémiologie (depuis I. Semmelweiss, voir la thèse
de L.F. Céline), source de la grande majorité des progrès médicaux depuis 30 ans (selon P.
Corvol, médecin épidémiologiste du Collège de France), et dans la pratique des sondages.
Enfin elles sont importantes aussi en économie, en étude de fiabilité, et dans bien
d’autres domaines (si le juge de l’affaire d’Outreau avait appris à penser tant soit peu en
termes de calcul des probabilités élémentaires, il eut probablement évité de croire vraisem-
blable le regroupement de tous les pédophiles de la ville dans une même cage d’escalier
HLM, où les attributions sont a priori aléatoires...).

3 Probabilité ; conditionnement
Une probabilité est d’abord une fonction qui à un événement associe un nombre réel
compris entre 0 et 1. Cela implique de préciser ce qu’est un événement. Or cela n’a de sens
que dans le cadre d’un ensemble d’épreuves aléatoires ou tirages, qu’on note généralement
Ω. Il peut s’agir par exemple de lancers de dés ou de pièces de monnaie, de tirages d’urne, de
durées de vie (d’atomes ou d’individus), de tirs sur une cible, etc... Ces premiers exemples
familiers montrent déjà que l’ensemble Ω peut être fini, dénombrable (ce qui signifie : infini
indexé par IN ou IN ∗ ), ou continu. Ce sera donc a priori un ensemble non vide quelconque.
Lorsque Ω est fini ou dénombrable, toutes ses parties seront des événements. Tan-
dis qu’en général il est nécessaire de se restreindre à un sous-ensemble de parties de Ω :
T ⊂ P(Ω), qu’on nomme tribu (ou σ-algèbre). On a naturellement besoin de pouvoir
considérer la réunion et la conjonction (≡ intersection) de 2 événements, de même que le
complémentaire (≡ contraire) d’un événement ; en outre il faut aussi pouvoir considérer
une réunion dénombrable d’événements. Enfin il est naturel de considérer l’événement
impossible (≡ vide : ∅) et l’événement certain Ω. D’où la définition suivante.

Définition 3.0.3 Une tribu (ou σ-algèbre) est une partie T de P(Ω) stable par réunion
dénombrable et par passage au complémentaire, et contenant l’ensemble vide ∅.
Le couple (Ω, T ) est appelé espace probabilisable. Un événement est un élément de T .

P(Ω) désigne l’ensemble de toutes les parties de Ω ; T est donc un ensemble de parties de
Ω . La stabilité par réunion dénombrable s’écrit formellement : pour toute
S suite
{En | n ∈ IN } ⊂ T d’événements, leur réunion est aussi un événement : En ∈ T .
n∈IN
La stabilité par passage au complémentaire s’écrit formellement : le complémentaire
E c := Ω \ E = {ω ∈ Ω | ω ∈/ E} de tout événement E est aussi un événement : E c ∈ T .

11
Nota Bene Sur Ω fini ou dénombrable, on choisira toujours par défaut la tribu P(Ω).
h T ic S h S ic T
c
Rappel : An = An ; An = Acn . On vérifie aussitôt les propriétés suivantes :
n n n n

Proposition 3.0.4 Ω est un événement (certain). La réunion et l’intersection d’un nom-

bre fini d’événements sont des événements. La différence A \ B := A ∩ B c et la différence
symétrique A∆B := (A \ B) ∪ (B \ A) = (A ∪ B) \ (A ∩ B) de deux événements A et B sont
des événements. Toute intersection dénombrable d’événements est un événement.

Nous pouvons maintenant définir rigoureusement ce qu’est une probabilité ; dans la

pratique, ce sera le plus souvent soit une somme (soit finie, soit infinie, c’est-à-dire une
série) ou une intégrale (soit propre, dite de Riemann, soit impropre). (Pour rassembler
toutes ces possibilités, et d’autres encore, on parle de mesure.)

Définition 3.0.5 Une probabilité sur l’espace probabilisable (Ω, T ) est une fonction IP de
T dans [0, 1] qui vérifie : IP (Ω) = 1, et la propriété d’additivité dénombrable :
F P
IP An = IP (An ) pour tout suite {An |n ∈ IN } d’événements deux à deux dis-
n∈IN n∈IN
joints. Le triplet (Ω, T , IP ) est appelé espace probabilisé ou espace de probabilité. Les
événements de probabilité nulle sont dits négligeables. Les événements de probabilité 1
sont dits presque sûrs.

C’est toujours dans le cadre d’un espace de probabilité, plus ou moins bien précisé, que
peut avoir lieu un calcul de probabilité. Il est généralement préférable de bien le préciser.
En effet c’est la non-précision de l’espace considéré qui est à l’origine de paradoxes ou
d’erreurs courantes sur les probabilités.
On vérifie aisément les propriétés suivantes :

Proposition 3.0.6 (i) L’événement impossible est négligeable : IP (∅) = 0.

(ii) IP est croissante : A ⊂ B ⇒ IP (A) ≤ IP (B), pour tous événements A et B.
S P
(iii) IP An ≤ IP (An ) pour tout suite {An |n ∈ IN } d’événements.
n∈IN n∈IN
(iv) IP (A \ B) = IP (A) − IP (B), lorsque A et B sont deux événements tels que B ⊂ A.
En particulier, IP (Ac ) = 1 − IP (A) pour tout événement A.
(v) Toute intersection dénombrable d’événements presque sûrs est presque sûre.
(vi) IP (A ∪ B) = IP (A) + IP (B) − IP (A ∩ B), pour tous événements A et B.
S
(vii) IP est continue : IP An = lim IP (An ), pour toute suite croissante d’évé-
n∈IN n→∞
T
nements {An | n ∈ IN } (id est An ⊂ An+1 (∀ n)) ; et de même IP Bn = lim IP (Bn ),
n∈IN n→∞
pour toute suite décroissante d’événements {Bn | n ∈ IN } (id est Bn ⊃ Bn+1 (∀ n)).

12
3.1 Exemples
1. Probabilité discrète sur un ensemble Ω = {ω1 , .., ωN } fini :
elle est clairement définie par la liste des probabilités des singletons : pj := IP ({ωj }).
P
Nous avons en effet IP (A) = pj pour toute partie A ⊂ Ω.
ωj ∈A
N
P
Réciproquement, toute liste {p1 , .., pN } de réels pj ≥ 0 tels que pj = 1 définit bien (par
j=1
la même formule) une probabilité unique sur Ω.
Exemples concrets : lancers de dés, de pièces de monnaie, tirages de cartes à jouer, tirages
de boules dans des urnes, loteries, etc. . .

2. Probabilité discrète sur IN (ou sur n’importe quel autre ensemble dénombrable) :
elle est encore définie par la liste des probabilités des singletons : pj := IP ({ωj }).
P
Nous avons en effet IP (A) = pj pour toute partie A ⊂ IN . La seule différence avec le
ωj ∈A
cas précédent est que la somme peut être une série (≡ comporter une infinité de termes).
P
Réciproquement, toute suite {pj | j ∈ IN } de réels pj ≥ 0 tels que pj = 1 définit bien
j≥1
(par la même formule, forcément convergente) une probabilité unique sur IN .

3. Cordes. On tire une corde au hasard dans un disque de rayon R. Quelle est la
probabilité que la longueur ` de la corde soit ≥ R ?
a. ` varie continûment dans [0, 2R], de sorte que la probabilité cherchée vaut 1/2.
b. ` est déterminée par
√ la distance d de la corde
√ au centre du disque ; d varie continûment
2 2
[0, R], et ` = 2 R − d ≥ R ⇔ d ≤ R 3/2, de sorte que la probabilité cherchée
dans √
vaut 3/2.
c. ` est déterminée par le milieu M de la corde, qui varie continûment
√ dans le disque ;
et ` ≥ R a lieu ssi M est dans le disque concentrique de rayon 3/2, de sorte que la
probabilité cherchée vaut 3/4.
Explication : la probabilité choisie est très insuffisamment précisée par l’expression “tirage
au hasard”. Ici on a considéré successivement la probabilité uniforme sur l’ensemble : des
longueurs, des distances au centre, des milieux. Ce sont trois probabilités différentes !

4. Jeu de pile ou façe illimité ; première apparition de “pile”, ou d’une séquence donnée.

Exercice no 3.1 Est-il plus probable d’obtenir au moins une fois 6 en lançant 4 dés usuels,
ou bien d’obtenir au moins une fois un double 6 en lançant 24 fois 2 dés usuels ?

Exercice no 3.2 On lance n fois de suite 3 dés normaux. Pour quelles valeurs de n la
probabilité d’avoir obtenu au moins un 421 dépasse-t-elle 12 ?

13
Exercice no 3.3 On lance 5 pièces de monnaie. Calculer les probabilités des événements
suivant : “la 1ère pièce donne face” ; “face sort exactement 2 fois” ; “face sort au plus 3
fois”.
Exercice no 3.4 On lance 10 dés usuels. Calculer les probabilités des événements suivant :
“6 ne sort pas” ; “6 sort 1 fois exactement” ; “6 sort 3 fois exactement” ; “6 sort 2 fois au
moins” ; “6 sort 3 fois au moins”.
Exercice no 3.5 Une armoire contient 10 paires de chaussures, parmi lesquelles on prélève
au hasard 8 chaussures. Quelle est la probabilité d’avoir ainsi k paires de chaussures
exactement ?
Exercice no 3.6 Une urne contient n boules noires et b boules blanches. Deux joueurs X
et Y tirent avec remise une boule dans l’urne, tour à tour, X tirant le premier. Quelle est
la probabilité que X soit le premier à tirer une boule noire ? Même question sans remise.
Exercice no 3.7 Une loterie comporte 100 billets, dont les seuls billets gagnants suivant :
1 billet gagne 50 euros, 5 billets gagnent chacun 30 euros, 10 billets gagnent chacun 10
euros. Quelle est la probabilité qu’un acheteur de 3 billets gagne 30 euros (au moins, puis
exactement) ?
Exercice no 3.8 Un joueur X lance 2 dés usuels, et obtient ainsi la somme S.
a) Calculer la probabilité que S > n , en fonction des différentes valeurs de l’entier n .
b) Un joueur Y relance les 2 dés et obtient une somme T . Quelles sont les probabilités
que S = T , que S > T , que S ≥ T ?

Proposition 3.1.1 (Formule de crible, de Poincaré) Pour tout espace probabilisé

(Ω, T , IP ), tout entier n ∈ IN ∗ , et tous événements A1 , . . . , An , on a :
h i X n X h i
k−1
IP A1 ∪ . . . ∪ An = (−1) IP Ai1 ∩ . . . ∩ Aik .
k=1 1≤i1 <...<ik ≤n

Preuve Par récurrence sur n : exercice.

Exercice no 3.9 Un sac contient n jetons numérotés de 1 à n, qu’on tire tous 1 à 1, sans
remise. i) Calculer pn := IP (au moins un jeton sorte au rang indiqué par son numéro),
sa limite p∞ , et majorer |pn − p∞ |.
ii) Soit pn (k) := IP (exactement k jetons sortent au rang indiqué par leur numéros), pour
k ∈ {0, .., n}. Déduire de (i) une formule pour pn (k), puis lim pn (k) (pour tout k ∈ IN ).
n→∞

3.2 Probabilités conditionnelles

Définition 3.2.1 (Probabilité conditionnelle) Fixons un espace de probabilité (Ω, T , IP ),
et un événement C ∈ T , non négligeable. La probabilité conditionnelle relative à C (ou
“sachant C”) est définie par : IP (A/C) := IP (A ∩ C)/IP (C).

14
On vérifie immédiatement qu’il s’agit encore d’une probabilité sur (Ω, T ).
Exercice no 1.2.1 Lancer de 2 dés usuels : Ω = {1, .., 6}2 . IP uniforme. Soient X1 le chiffre
indiqué par le premier dé, S la somme des chiffres indiqués par les 2 dés, et C = {S = 5}.
Dresser le tableau des valeurs de IP (·/C), puis de IP (X1 = ·/C).
Exercice no 1.2.2 Vous allez chez des gens dont vous savez qu’ils ont 2 enfants, dont au
moins une fille. a) Quelle est la probabilité que l’autre enfant soit aussi une fille ?
b) En l’absence de l’information qu’ils ont au moins une fille (pour cette question seule-
ment), mais en voyant une fille ouvrir la porte, quelle est la probabilité que l’autre enfant
soit aussi une fille ? c) Une fille vous ouvre la porte ; quelle est la probabilité que l’autre
enfant soit aussi une fille ?
Exercice no 1.2.3 Vous attendez un ami de Vancouver, qui voyage jusqu’à Strasbourg
avec changement d’avion à New York, Londres et Francfort. La probabilité d’attentat
est estimée à p pour chacun des 4 vols, avec indépendance entre les 4 vols. Votre ami
n’arrivant pas, quelle est la probabilité que l’attentat ait eu lieu : a) dans le 1er avion ?
b) dans le 2ème avion ? c) dans le 3ème avion ? c) dans le 4ème avion ?

Pour effectuer un calcul, il est très souvent indispensable de pouvoir “distinguer des
cas”. Cela s’exprime par la formule suivante, très élémentaire et très utile à la fois.

Proposition 3.2.2 (Formule des probabilités totales) Fixons un espace de probabilité

N
F
(Ω, T,IP ) et une partition de Ω en événements non négligeables : Ω = Cj . Alors nous
j=1
N
P
avons IP (A) = IP (A/Cj )IP (Cj ) , pour tout événement A .
j=1

Exercice no 1.2.4 Une urne contient b boules blanches et n boules noires. Quand une
boule est tirée, on le remet dans l’urne, avec ` boules de la même couleur. On effectue ainsi
3 tirages au hasard. a) Quelle est la probabilité que la 1ère boule tirée soit noire sachant
que la seconde est blanche ? b) Quelle est la probabilité que la 3ème boule soit noire ?
On a souvent à inverser un conditionnement. Cela se fait simplement, au moyen de la
formule élémentaire suivante, très utile aussi, quoiqu’également de preuve immédiate.
Proposition 3.2.3 (Formule de Bayes) Fixons un espace de probabilité (Ω, T , IP ), et une
N
F
partition de Ω en événements non négligeables : Ω = Cj . Alors nous avons pour tout
j=1
événement non négligeable A et tout k ∈ {1, .., N } :
N
.X
IP (Ck /A) = IP (A/Ck )IP (Ck ) IP (A/Cj )IP (Cj ) .
j=1

15
Exemple : Les candidats à un examen proviennent de 4 lycées K,L,V,W, à raison de 20%
pour K, de 25% pour L, de 15% pour V, et de 40% pour W. K enregistre 35% de succès,
2
L 30%, V 50%, W 45%. Alors la probabilité qu’un candidat reçu provienne de K est 13 ,
5 5 6
de L est 26 , de K est 26 , de K est 13 .

Exercice no 1.2.5 Trois machines U, V, W produisent une même pièce dans une usine. U
assure 40% de la production, V 35%, et W le reste. U produit 20% de pièces défectueuses,
V 15%, et W 10%.
a) Quelle est la probabilité qu’une pièce prise au hasard soit défectueuse ?
b) Quelle est la probabilité qu’une pièce défectueuse prise au hasard provienne de U ?
Exercice no 1.2.6 Trois condamnés X, Y, Z sont informés que l’un d’eux, choisi au hasard,
va être exécuté, et que les 2 autres vont être libérés. Mais ils ne doivent pas encore savoir
qui le hasard a désigné. X demande au geôlier de lui nommer l’un de ses 2 codétenus devant
être libéré, arguant que cette information serait innocente, puisqu’il sait que l’un des 2 au
moins doit l’être. Le geôlier refuse, arguant que cette information modifierait réellement
l’estimation que X peut faire de ses chances. Qui a raison ?
Exercice no 1.2.7 12% des individus d’une population sont porteurs d’une certaine ma-
ladie. Un test relatif à cette maladie est fiable à 95%, dans le cas d’un malade comme
dans le cas d’un sujet sain. a) Quelle est la probabilité qu’un individu présentant un test
positif soit effectivement malade ? b) Quelle est la probabilité qu’un individu présentant
un test négatif soit effectivement sain ?
Exercice no 1.2.8 Émile possède 5 pièces de monnaie, dont 2 sont normales, 2 ont 2 côtés
“face”, et une a 2 côtés “pile”.
a) Il prend une pièce au hasard et la lance ; quelle est la probabilité qu’il voie “face” ?
b) Il voit “face” ; quelle est la probabilité que l’autre côté de la pièce soit aussi “face” ?
Il relance la même pièce.
c) Quelle est la probabilité que le côté caché de la pièce soit “face” ?
d) Il voit de nouveau “face” ; quelle est la probabilité que l’autre côté de la pièce soit aussi
“face” ? Il choisit ensuite au hasard une des autres pièces et la lance.
e) Quelle est la probabilité de voir de nouveau “face” (pour la troisième fois) ?
Exercice no 1.2.9 Un livre a une probabilité p > 0 de se trouver dans une commode
comportant k tiroirs, et des chances égales de se trouver dans chacun des tiroirs.
i) On ouvre les (k − 1) premiers tiroirs, sans le trouver ; quelle est la probabilité de le
trouver dans le dernier tiroir ?
ii) Soit j ∈ {2, .., k − 1} . On ouvre les (k − j) premiers tiroirs, sans le trouver ; quelle est
la probabilité de le trouver dans le dernier tiroir ? dans l’un des j derniers tiroirs ?
Exercice no 1.2.10 Le quart d’une population est vacciné contre le choléra. Au cours
d’une épidémie, on constate qu’il y a parmi les malades un vacciné pour 4 non-vaccinés, et

16
qu’il y a un malade sur 12 parmi les vaccinés. Quelle est la probabilité qu’un non-vacciné
tombe malade ? Le vaccin est-il efficace ?

3.3 Événements indépendants

L’indépendance est au cœur de la théorie des probabilités. On l’aborde en douceur, par
le cas des événements. Le cas général des variables aléatoires viendra ensuite (section 7).

Définition 3.3.1 Fixons un espace de probabilité (Ω, T , IP ). Deux événements A et B

sont dits indépendants lorsque IP (A ∩ B) = IP (A)IP (B).

Exemples : 1) “tirer un roi” et “tirer un trèfle”, dans un jeu de bridge, ou de belote.

2) “obtenir un chiffre pair avec le 1er dé” et “obtenir un 6 avec le 2ème dé”≡ {X2 = 6},
lors du lancer de 2 dés : tirages indépendants (au sens usuel) !
3) “obtenir une somme paire” et “obtenir un 5 avec le 2ème dé”, lors du lancer de 2 dés.
4) “obtenir une somme S égale à 7” et “obtenir un produit égal à 12”, lors du lancer de
2 dés (non indépendants !)
5) {S = 7} et {X2 = 2}, ou bien {S = 6} et {X2 = 2}, lors du lancer de 2 dés.
6) “obtenir un produit pair” et “obtenir un 5 avec le 2ème dé”, lors du lancer de 2 dés.
Exercice no 3.3.1 Montrer que 2 événements A et B sont indépendants ssi A et B c le sont,
et ssi Ac et B c le sont, ou bien encore (lorsqu’ils sont non négligeables) ssi IP (A/B) = IP (A),
et ssi IP (B/A) = IP (B).
Exercice no 3.3.2 Une urne contient des jetons numérotés, rouges ou noirs. Lors du tirage
d’un jeton la probabilité d’en tirer un rouge est 3/5 ; d’en tirer un de numéro impair est
2/3 ; d’en tirer un rouge et pair est p. Que vaut la probabilité d’en tirer un noir impair ?
Pour quelles valeurs de p les événements “noir” et “impair” sont-ils indépendants ?

Définition 3.3.2 Fixons un espace de probabilité (Ω, T , IP ). Des événements A1 , . . . , An

sont dits indépendants lorsque IP (Ai1 ∩ Ai2 ∩ . . . ∩ Aik ) = IP (Ai1 )IP (Ai2 ) . . . IP (Aik ) pour
tous 1 ≤ i1 < . . . . < ik ≤ n. Les événements d’une suite sont dits indépendants lorsque
toute sous-suite finie est constituée d’événements indépendants.

Proposition 3.3.3 Les événements A1 , . . . , An sont indépendants ssi

IP (Aε11 ∩ Aε22 ∩ . . . ∩ Aεnn ) = IP (Aε11 )IP (Aε22 ) . . . IP (Aεnn ) pour tout choix de ε1 , . . . , εn ,
ε ε
avec soit Aj j = Aj soit Aj j = Acj .

Preuve Pour le sens direct, on vérifie par récurrence sur k ∈ {0, . . . , n} que pour tout
choix de ε1 , . . . , εk , tout ` ∈ {k + 1, . . . , n} et tous ik+1 , . . . , i` ∈ {k + 1 . . . , n}, on a :
h i
P A1 ∩ . . . ∩ Ak ∩ Aik+1 ∩ . . . ∩ Ai` = P [Aε11 ] × . . . × IP [Aεkk ] × IP [Aik+1 ] × . . . × IP [Ai` ] .
ε1 εk

17
Pour la réciproque, si i1 , . . . , ik sont fixés dans {1, . . . , n}, on note {j1 , . . . , jn−k } :=
{1, . . . , n} \ {i1 , . . . , ik }, et on applique la formule des probabilités totales avec la partition
ε εjn−k
{Aj1j1 ∩ . . . ∩ Ajn−k | εj1 , . . . , εjn−k = ou c} (c’est bien une partition de Ω , car l’ensemble
des intersections des éléments de 2 partitions en forme encore une).

Exercice no 3.3.3 On jette un dé normal n (≥ 3) fois de suite. Montrer que les événe-
ments {les lancers j et k donnent le même résultat} sont deux à deux indépendants, mais
non indépendants.
Exercice no 3.3.4 Sur Ω := {a, b, c, d} on définit IP par : IP ({a}) = α , IP ({b}) = β ,
IP ({c}) = γ , IP ({d}) = δ . Trouver les valeurs de α, β, γ , δ telles que les événements
A := {b, c} , B := {c, a} , C := {a, b} soient 2 à 2 indépendants mais non indépendants.
Exercice no 3.3.5 Pour ridiculiser un astrologue (ou un “voyant”, ou n’importe quelle
autre sorte de charlatan), on le défie de prédire le résultat de 12 lancers successifs d’une
pièce de monnaie usuelle. Quelle est la probabilité (en fonction de n ∈ {0, 1, .., 5}) qu’il se
trompe au plus n fois ?

4 Variables aléatoires et leur lois

Définition 4.0.4 Une variable aléatoire (“v.a.”) est une fonction V définie sur un espace
de probabilité (Ω, T , IP ) et à valeurs dans IRd , telle que {V ∈ E} = V −1 (E) ∈ T , pour
tout E pavé (ou ouvert ou fermé) de IRd . Sa loi est la probabilité IPV := IP ◦ V −1 sur
IRd , définie par : IPV (E) := IP (V −1 (E)) = IP (V ∈ E). Lorsque d = 1, on parle de
variable aléatoire réelle, “v.a.r.”.

On vérifie immédiatement que la loi d’une variable aléatoire est bien une probabilité
(sur V (Ω) ⊂ IRd , ou directement sur IRd , la tribu étant celle des “boréliens”, engendrée
par les pavés ou par les ouverts ou par les fermés de IRd ). Notons que dans le cas où Ω est
discret (fini ou dénombrable), dans la définition ci-dessus la condition de mesurabilité sur
V est vide, c’est-à-dire qu’elle est forcément vérifiée par n’importe quelle fonction V .
On vérifie les propriétés suivantes, qui autorisent toutes les opérations usuelles sur les
variables aléatoires.

Proposition 4.0.5 Une fonction de Ω dans IRd est une v.a. ssi ses coordonnées (dans
n’importe quelle base de IRd ) sont des v.a.r.. Une combinaison linéaire de v.a. est encore
une v.a.. Un produit de v.a.r. est une v.a.r.. La composée d’une v.a. par une fonction
0
continue de IRd dans IRd est encore une v.a..

Exemples : La somme et le produit des chiffres indiqués par 2 dés ; les durées de vie de
particules fissiles ; le nombre de fois qu’une suite de N lancers d’une pièce de monnaie donne
pile ; les temps qu’il faut attendre pour tirer dans une urne, lors de tirages successifs, une

18
boule rouge, une boule verte ; ou bien lors de lancers illimités d’une pièce, pour obtenir
une séquence donnée ; etc...

La notion d’espérance est fondamentale dans la théorie des probabilités. Il s’agit en fait
simplement d’une somme ou d’une série ou d’une intégrale, qui est aussi une moyenne.

Définition 4.0.6 L’espérance d’une variable aléatoire V définie sur un espace de proba-
bilité (Ω, T , IP ) est son intégrale par rapport à la probabilité IP :
Z
IE(V ) := V dIP .
Ω

Elle existe lorsque (la norme de) V est intégrable, c’est-à-dire lorsque IE(kV k) < ∞ .

Exemple Lorsque Ω = {ω1 , . . . , ωN } est fini, IP étant donnée par la liste des probabilités
PN
des singletons : pj := IP ({ωj }), on a IE(V ) = pj V (ωj ) : c’est une moyenne pondérée.
j=1
P
Lorsque Ω = {ω1 , . . . , ωn , . . .} est dénombrable, on a IE(V ) = pj V (ωj ).
j≥1

0
Corollaire 4.0.7 Soient V une v.a. et f une fonction continue bornée de IRd dans IRd .
Alors Z Z
IE(f ◦ V ) = f ◦ V dIP = f dIPV .
Ω IRd
Lorsque la loi de V est discrète, c’est-à-dire lorsque presque sûrement V ne prend qu’un
ensemble fini ou dénombrable de valeurs, alors on a
X
IE(f ◦ V ) = f (v) IP (V = v) ,
v

cette série convergeant dès que f ◦ V est intégrable (ce qui a lieu par exemple dès que V ne
prend qu’un nombre fini de valeurs, ou encore, dès que f est bornée).
P
Justification Pour toute v.a. discrète V = vj 1Aj (avec les vj distincts 2 à 2), on a :
j
Z X Z X X Z
f ◦ V dIP = f (vj ) 1Aj dIP = f (vj )IP (Aj ) = f (vj )IPV ({vj }) = f dIPV .
Ω j j j IRd

Exercice no 4.0 Lors du lancer de 2 dés usuels, calculer :

(i) l’espérance du résultat du 2ème dé, puis du carré de ce résultat ;
(ii) l’espérance de la somme des 2 dés.

19
N
P N
P
Proposition 4.0.8 L’espérance est linéaire : IE λj V j = λj IE(Vj ) , pour toutes
j=1 j=1
v.a. intégrables V1 , .., VN et tous réels λ1 , .., λN (c’est une propriété générale, fondamen-
tale, de toute intégrale). En particulier, l’espérance d’une v.a. vectorielle intégrable, dans
n’importe quelle base (déterministe), a pour coordonnées les espérances des coordonnées.

Exercice no 4.1 On tire au hasard et sans remise toutes les boules d’une urne remplie de
r boules rouges et n boules noires.
1) Montrer que que la probabilité de tirer une boule rouge au k-ième tirage ne dépend pas
de k. (Il y a au moins 2 solutions bien différentes : soit par récurrence, soit en considérant
directement l’ensemble de tous les tirages exhaustifs possibles.)
2) Quelle est l’espérance du rang de la k-ième boule rouge ? (Considérer le vecteur (X1 , X2 −
X1 , . . . , Xr − Xr−1 , r + n + 1 − Xr ), Xj désignant le rang de la j-ième boule rouge).
Exercice no 4.2 Une urne U contient initialement 2 boules blanches, et une urne U’ 2
boules noires. A chaque instant, on tire au hasard une boule par urne, et on les interchange.
Notons Xk le nombre de boules blanches dans U au k-ième instant, et Vk le vecteur-colonne
donnant la loi de Xk .
a) Quelle est la relation entre Vk+1 et Vk ? b) Calculer lim IP (Xk = 2).
k→∞
Soient T le premier instant où U contient deux boules noires, pk := IP (T ≥ k, Xk = 1),
et qk := IP (T ≥ k, Xk = 2).
c) Exprimer (pk+1 , qk+1 ) en fonction de (pk , qk ), puis pk+1 en fonction de (pk , pk−1 ).
d) Déduire la valeur de pk , puis la loi de T . Que vaut IP (T = ∞) ?

Exercice no 4.3 Un marchand de journaux a X clients par jour, X étant une v.a. entière
intégrable, de loi supposée connue. Il gagne a par journal vendu, perd b par journal invendu,
et perd c par client insatisfait. Quel est le nombre n de journaux qu’il doit commander par
jour pour optimiser son gain moyen ?
Z ∞
o
Exercice n 4.4 Montrer que pour toute v.a.r. Z ≥ 0, on a IE(Z) = IP (Z > s) ds .
0
Particulariser au cas où Z prend ses valeurs dans IN .

Définition 4.0.9 Une variable aléatoire V définie sur un espace de probabilité (Ω, T , IP )
(et à valeurs dans IRd ) admet la densité h lorsque sa loi est donnée par
Z
IE(f ◦ V ) := f (v) h(v) dv , pour toute fonction continue bornée f : IRd → IR .
IRd

La densité h est forcément une fonction intégrable de IRd dans IR+ , d’intégrale égale à 1.

20
Attention, la plupart des variables aléatoires ne sont ni discrètes ni à densité ! Il suffit
de songer à une v.a. V valant une v.a. discrète X avec probabilité 1/2 et une v.a. à densité
Y avec probabilité 1/2 : IPV = (IPX + IPY )/2 . Imaginer par exemple un tir sur cible, avec
probabilité 1/2 de rater la cible, auquel cas la v.a. prend la valeur disons −1, et probabilité
1/2 d’atteindre la cible, auquel cas la v.a. prend ses valeurs dans le disque formé par la
cible, avec par exemple la loi uniforme.
Cela dit, les lois usuelles, celles qu’on rencontre le plus souvent, sont discrètes ou à
densité (on dit aussi : absolument continues).

Définition 4.0.10 Une v.a. V (définie sur un espace de probabilité (Ω, T , IP )) est dite
de carré intégrable ou dans L2 lorsque IE(kV k2 ) < ∞. Elle est alors nécessairement
intégrable.
La variance d’une v.a.r. V de carré intégrable est :
h i
Var(V ) := IE |V − IE(V )| = IE(V 2 ) − IE(V )2 .
2

La covariance de deux v.a.r. V, V 0 de carré intégrable est :

h i
Cov(V, V 0 ) := IE (V − IE(V )) × (V 0 − IE(V 0 )) = IE(V V 0 ) − IE(V )IE(V 0 ) .

La matrice de covariance (ou de dispersion) d’une v.a. V = (V1 , . . . , Vd ) ∈ IRd de carré

intégrable est :
h i
t t t
KV := IE (V −IE(V ))×(V −IE(V )) = IE( V V )−IE( V )IE(V ) = Cov(Vi , Vj ) .
1≤i,j≤d

Proposition 4.0.11 La covariance est bilinéaire, symétrique, positive, et Var(V ) est nulle
ssi V est p.s. constante. En outre Var(λV + V 0 ) = λ2 Var(V ) + 2 λ Cov(V, V 0 ) + Var(V 0 ).

Preuve : La symétrie : Cov(V, V 0 ) = Cov(V 0 , V ) est évidente. La linéarité à gauche :

Cov(a1 V1 +a2 V2 , V 0 ) = a1 Cov(V1 , V 0 )+a2 Cov(V2 , V 0 ) découle immédiatement de la linéarité
de l’espérance. Par symétrie elle entraı̂ne la linéarité à droite, et donc la bilinéarité. La
positivité : Cov(V, V ) = Var(V ) ≥ 0 est claire. Ensuite, Var(constante) = 0 est clair, et
réciproquement, si IP [V 6= IE(V )] > 0 , alors il existe ε > 0 tel que IP (|V − IE(V )| >
ε) > ε , de sorte qu’alors Var(V ) = IE(|V − IE(V )|2 ) > ε × ε2 > 0 . Enfin, la dernière
formule découle très simplement du développement du carré d’une somme et de la linéarité
de l’espérance (détails à rédiger en exercice).
Constatant que le trinôme en λ de cette proposition doit toujours être positif ou nul,
et donc doit avoir son discriminant négatif ou nul, on obtient immédiatement l’inégalité de
Schwarz (dite aussi de Cauchy-Schwarz) :

21
Corollaire 4.0.12 (Inégalité de Schwarz) La covariance est majorée par le produit des
écart-types : |Cov(V, V 0 )| ≤ σ(V )σ(V 0 ) , où l’écart-type de la v.a.r. V est σ(V ) :=
Cov(V, V 0 )
Var(V ) . De sorte que le coefficient de corrélation linéaire %(V, V 0 ) :=
p
σ(V )σ(V 0 )
(défini pour V et V 0 v.a.r. de carré intégrable et non p.s. constantes) appartient à [−1, 1].
Il vaut ±1 ssi V = aV 0 + b (presque sûrement, pour a, b réels fixes).

Exercice no 4.6 a) Vérifier que KV = IE( t V V )− tIE(V )IE(V ) = Cov(Vi , Vj ) .
1≤i,j≤d

b) Vérifier que pour tout u ∈ IRd on a Var(u t V ) = uKV tu =

P
ui uj Cov(Vi , Vj ) .
1≤i,j≤d

c) Montrer que KV est une matrice symétrique, et positive : vKV tv ≥ 0 (∀ v ∈ IRd ).

d) Montrer que KV est inversible ssi il n’existe pas d’hyperplan de IRd contenant p.s. V .
e) Soit M une matrice de Mn,d (IR). Calculer IE(M V ) et KM V . Même question pour AV ,
si A est une application affine de IRd dans IRn .
Exercice no 4.7 Inégalité de Markov, ou de Bienaymé-Tchebitchev :
Vérifier que IP [|V | ≥ v] ≤ IE[|V |k ]/v k , pour tous v > 0 et k ≥ 0 .
Exercice no 4.8 Vous écrivez chaque jour avec probabilité 1 si vous n’avez pas écrit la
veille, et avec probabilité 1/2 sinon. Montrez que vous écrivez ainsi en moyenne 243 lettres
par an. (Considérer pour chaque jour la variable indicatrice de l’événement “écrire”.)
L’inégalité suivante est une importante inégalité de convexité.

Proposition 4.0.13 (Inégalité de Jensen) Pour toute v.a.r. intégrable V et toute fonc-
tion convexe ψ de IR dans IR, telle que ψ ◦ V soit positive ou intégrable, on a
IE[ψ ◦ V ] ≥ ψ(IE[V ]) .

Exemples : On a |x1 +. . .+xn |p ≤ np−1 (|x1 |p +. . .+|xn |p ) pour tous n ∈ IN ∗ , p ∈ [1, ∞[ ,

et x1 , . . . , xn ∈ IR . Et (IE[|V |p ])1/p ≥ (IE[|V |q ])1/q si p ≥ q > 0 .

5 Lois usuelles
5.1 Lois usuelles discrètes
Définition 5.1.1 La loi uniforme sur un espace de probabilité fini est celle qui attribue
la même valeur à tous les singletons.

Corollaire 5.1.2 Si IP est uniforme sur Ω fini, alors IP (A) = Card(A)/Card(Ω) pour
toute partie A de Ω.

22
Exercice no 5.1.1 Calculer l’espérance et la variance d’une v.a. uniforme sur un intervalle
de Z.

Définition 5.1.3 La loi de Bernoulli de paramètre p , notée B(p), est sur l’espace {0, 1}
la loi (de probabilité) qui attribue la valeur p au singleton {1}. Ici 0 ≤ p ≤ 1.

Définition 5.1.4 La loi binômiale de paramètres n et p , notée B(n, p), est sur l’espace
{0, . . . , n} la loi (de probabilité) qui attribue la valeur Cnk pk (1 − p)n−k au singleton {k}.
Ici n ∈ IN ∗ et 0 ≤ p ≤ 1.

Remarque 5.1.5 C’est la loi de la somme de n v.a. indépendantes de même loi B(p).
La formule du binôme est exactement équivalente au fait que la somme de ces probabilités
Cnk pk (1 − p)n−k vaut bien 1.

Exercice no 5.1.2 Montrer que l’espérance et la variance d’une v.a. de loi B(n, p) valent
respectivement np et np(1 − p).

Définition 5.1.6 La loi hypergéométrique de paramètre N, n, p , notée H(N, n, p), est

CNk p CNn−k
(1−p)
sur l’espace {0, . . . , n} la loi (de probabilité) qui attribue la valeur n
au sin-
CN
gleton {k}. Ici N, N p, n ∈ IN , n ≤ N , et 0 ≤ p ≤ 1.

Remarque 5.1.7 C’est la loi du nombre d’éléments possédant un caractère donné K dans
un échantillon de taille n, prélevé au hasard, uniformément parmi les parties de cardinal
n, dans un ensemble de cardinal N , dont une proportion p possède le caractère K.
Cela s’applique aussi bien à des pièces défectueuses dans une production industrielle, qu’aux
individus malades dans une population, etc. . .

Exercice no 5.1.3 a) Montrer que l’espérance d’une v.a. de loi H(N, n, p) vaut np .
b) Calculer sa variance. c) Vérifier que lim H(N, n, p)(k) = B(n, p)(k), pour n, p, k fixés.
N →∞

Définition 5.1.8 La loi géométrique de paramètre p , notée G(p), est sur l’espace IN ∗ la
loi (de probabilité) qui attribue la valeur (1 − p)n−1 p au singleton {n}. Ici 0 < p < 1.

Remarque 5.1.9 C’est la loi du nombre N de tentatives nécessaires pour obtenir un

résultat positif (succès), lors d’une suite de tentatives identiques et indépendantes, p étant
la probabilité de succès à chaque tentative. On a IP (N > n) = (1 − p)n pour tout n ∈ IN .

Exercice no 5.1.4 a) Les lois géométriques vérifient la propriété de non-vieillissement :

IP (N > n + m/N > m) = IP (N > n) pour tous n, m ∈ IN .
b) Y a-t-il d’autres lois sur IN ∗ qui vérifient cette propriété ?

23
1 1−p .
Exercice no 5.1.5 Montrer que l’esp. et la variance d’une v.a. de loi G(p) valent p
et p2

Exercice no 5.1.6 Au cours d’un jeu illimité de pile ou face avec IP (pile)= p , on note
Xk le rang de la k-ième apparition de “pile”. Calculer la
loi de Xk , son espérance et sa
variance. Pour n ∈ IN ∗ , calculer IP (∃ k ∈ IN ∗ ) Xk = n .

Définition 5.1.10 La loi de Poisson de paramètre λ , notée P(λ), est sur l’espace IN la
n
−λ λ
loi (probabilité) qui attribue la valeur e au singleton {n}. Ici λ > 0.
n!

Exercice no 5.1.7 a) Montrer que l’esp. et la variance d’une v.a. de loi P(λ) valent λ.
b) Vérifier que lim B(n, p)({k}) = P(λ)({k}), pour λ > 0, k ∈ IN fixés et n → ∞ .
np→λ

Exercice no 5.1.8 Quelle est la valeur la plus probable pour une variable aléatoire pois-
sonnienne de paramètre λ ?
Exercice no 5.1.9 Un trousseau de n clefs contient une seule clef ouvrant une serrure
donnée. On les essaie l’une après l’autre au hasard. Calculer la loi, l’espérance et la
variance du nombre d’essais nécessaires. Même question si on réessaie à chaque fois une
clef au hasard sans avoir écarté la précédente.

Définition 5.1.11 La loi multinômiale de paramètres (N, d, p1 , . . . , pd ) (tels que N, d ∈

IN ∗ , p1 , . . . , pd ≥ 0 , et p1 + . . . + pd = 1) attribue à tout singleton (k1 , . . . , kd ) ∈ IN d tel
que k1 + . . . + kd = N la valeur
N!
IP (N1 , . . . , Nd ) = (k1 , . . . , kd ) = × pk11 × . . . × pkdd .
k1 ! × . . . × kd !

Elle généralise la loi binômiale. On la rencontre naturellement, par exemple en tirant

(avec remise) N boules dans une urne contenant des boules marquées 1 en proportion p1 ,
. . . , et des boules marquées d en proportion pd , et en décomptant par marque le nombre
des boules tirées.
La mécanique statistique classique s’appuie sur le modèle statistique de Maxwell, dans
lequel N particules sont réparties parmi n états, dont nj ont un niveau d’énergie ej , de
sorte que n = n1 + .. + nd . Soit Nj le nombre de particules ayant le niveau d’énergie ej , de
sorte que N = N1 + .. + Nd . La loi du vecteur (N1 , . . . , Nd ) est aussi la loi multinômiale :
N! nk11 × . . . × nkdd
IP (N1 , . . . , Nd ) = (k1 , . . . , kd ) = × .
k1 ! × . . . × kd ! nN
N!
En effet, le coefficient multinômial k1 !×..×k d!
(c’est un coefficient binômial lorsque d = 2) est
le nombre de partitions de l’ensemble des N particules en d classes de cardinaux respectifs
k1 , . . . , kd ; et d’autre part nk11 × . . . × nkdd est le nombre de façons de répartir k1 particules

24
d’énergie e1 parmi n1 états, . . . , kd particules d’énergie ed parmi nd états ; tandis que nN
est le nombre total de répartitions des N particules parmi les n états.
Ici IP est uniforme sur l’ensemble Ω des fonctions de {1, . . . , N } dans {1, . . . , n}.
Notons que cela montre du même coup la généralisation de la formule du binôme :
X N!
×z k1 . . . zdkd = (z1 +. . .+zd )N , pour tous z1 , . . . , zd ∈ C ,
k1 ! . . . kd ! 1
{(k1 ,...,kd )∈IN d | k1 +...+kd =N }

N!
= dN pour tous N, d ∈ IN ∗ .
P
et en particulier : k1 !...kd !
{(k1 ,...,kd )∈IN d | k1 +...+kd =N }

5.2 Lois usuelles à densité

Définition 5.2.1 La loi uniforme sur un ouvert (ou un fermé) O de IRd , notée U(O),
est la loi admettant une densité constante (par rapport à la mesure de Lebesgue) sur O.

Exercice no 5.2.1 Calculer l’esp. et la variance d’une v.a. uniforme sur un intervalle de IR.
Exercice no 5.2.2 (Aiguille de Buffon) Sur un sol plat sont tracées 2 droites parallèles D
et D0 , distantes de L ≥ 1 . On laisse tomber entre D et D0 une aiguille de longueur 1, puis
on note x la distance du centre de l’aiguille à D, et θ l’angle que fait l’aiguille avec D. On
suppose que la v.a. (x, θ) est uniforme sur [0, L] × [0, π/2]. Vérifier que la probabilité que
l’aiguille intersecte D ou D0 vaut 2/(πL). Qu’en est-il si 0 < L < 1 ?

Définition 5.2.2 La loi exponentielle de paramètre λ , notée E(λ), est la loi admettant
sur IR+ la densité t 7→ λ e−λ t . Ici λ > 0.

Exercice no 5.2.3 a) Les lois exponentielles vérifient la propriété de non-vieillissement :

si la loi de Y est E(λ), alors IP (Y > s + t/Y > s) = IP (Y > t) pour tous s, t > 0.
b) Y a-t-il d’autres lois à densité sur IR+ qui vérifient cette propriété ?
c) En déduire la loi de la durée de vie d’un atome fissile, en fonction de sa demi-vie.
1
Exercice no 5.2.4 Montrer que l’espérance et l’écart-type d’une v.a. de loi E(λ) valent λ
.

Définition 5.2.3 Une variable aléatoire réelle est dite gaussienne centrée réduite ou
normale centrée réduite ou gaussienne standard lorsqu’elle admet (sur IR) la densité :
√
t 7−→ exp(−t2 /2)/ 2π . Une variable aléatoire réelle X est dite gaussienne ou normale
lorsqu’il existe m ∈ IR et σ > 0 tels que (X − m)/σ soit normale centrée réduite. On dit
alors que la loi de X est N (m, σ 2 ).

Exercice no 5.2.5 a) Vérifier que m = IE(X) et σ 2 = Var(X), et que X ∈ ∩ Lp .

p<∞

25
2 −x2 /2 R∞ 2 −x2 /2
b) Vérifier que A(A2e+1) x ≤ x e−t /2 dt ≤ e x sur [A, ∞[ , pour tout A > 0. Donner un
équivalent de IP (X > x) quand x → +∞.
√
c) Montrer que la densité de X est t 7−→ exp[−(t − m)2 /2σ 2 ]/σ 2π .
Nota Bene (i) La courbe de la densité gaussienne est la célèbre “courbe en cloche”.
(ii) Valeurs numériques à connaı̂tre :

N (0, 1) ] − ∞ , 1,65 ] ≈ 0, 95 , et N (0, 1) ] − ∞ , 1,96 ] ≈ 0, 975 .

Exercice no 5.2.6 Pour être en cours à 8h, un étudiant en voiture a le choix entre un
trajet sur petite route, dont la durée (en minutes) X suit la loi normale de moyenne 35,2
et de variance 25, et un trajet sur autoroute, dont la durée Y suit la loi normale de moyenne
40 et de variance 4. Il désire arriver à l’heure. Quel trajet doit-il préférer s’il part à 7h15 ?
Et s’il part à 7h30 ?

Définition 5.2.4 Une variable aléatoire V à valeurs dans IRd est dite gaussienne ou
normale lorsque u · V = tu V est une v.a.r. normale ou p.s. constante pour tout u ∈ IRd .
On note N (m, K) la loi d’un vecteur gaussien d’espérance m et de matrice de covariance
K. Une probabilité (resp. une densité) est dite gaussienne lorsqu’elle est la loi (resp. la
densité) d’un vecteur gaussien.

Exercice no 5.2.7 a) Vérifier que si V est un vecteur gaussien de IRd et si A est une
application affine de IRd dans IRn , alors AV est un vecteur gaussien.
b) Montrer que si V est un vecteur gaussien, alors ses coordonnées dans n’importe quelle
base sont gaussiennes (ou p.s. constantes).

Proposition 5.2.5 Soit K une matrice réelle symétrique positive, de format d × d et de

rang r, et soit M une matrice réelle de format d × r telle que K = M ×t M . Soit m ∈ IRd .
Soit V un vecteur de IRr formé de coordonnées gaussiennes standard indépendantes. Alors
m + M V est un vecteur gaussien de loi N (m, K).

Corollaire 5.2.6 Si la matrice de covariance d’un vecteur gaussien d-dimensionnel de loi

N (m, K) est inversible, alors ce vecteur admet la densité sur IRd :

v 7−→ (2π)−d/2 (det K)−1/2 exp − 21 t (v − m)K −1 (v − m) .

Preuve Soit V un vecteur de IRd formé de coordonnées gaussiennes standard indépendantes.

Soit M une matrice réelle de format d × d telle que K = M ×t M . Alors M est inversible,
et nous avons pour toute fonction-test f , par changement de variable :
Z d Z
−1/2 −x2j /2 t
Y
IE(f (m+M V )) = f (m+M x) (2π) e dx = f (m+M x) (2π)−d/2 e− xx/2 dx
IRd j=1 IRd

26
Z
t (M −1 (v−m))×(M −1 (v−m))/2
= f (v) (2π)−d/2 e− |det (M −1 )| dv
IRd
Z
= f (v) (2π)−d/2 (det K)−1/2 exp − 1 t
2
(v − m)K −1 (v − m) dv .
IRd

Exercice no 5.2.8 : Simulation Soit F une fonction de répartition sur IR . Pour tout p ∈
[0, 1] , posons G(p) := inf{x ∈ IR | F (x) ≥ p}. (Nota Bene : inf IR = −∞ et inf ∅ = +∞ .)
a) Justifier l’existence dans IR de G(p) si p ∈]0, 1[ . b) Montrer que (∀x ∈ IR) G(F (x)) ≤ x.
c) Montrer que si G(p) ∈ IR, alors F (G(p)) ≥ p . d) Montrer que G(p) ≤ x ⇔ F (x) ≥ p .
e) Montrer que si U est une variable aléatoire de loi uniforme sur [0, 1], alors G ◦ U admet
F pour fonction de répartition. Nota Bene : Ceci est utilisé pour simuler des variables
aléatoires.
f) Que vaut G lorsque F est bijective de IR sur ]0, 1[ ? Comment simuler la loi E(λ) ?

6 Lemmes de Borel-Cantelli
Ces fameux lemmes, quoique simples, illustrent bien l’hypothèse d’additivité dénombrable
faite sur les probabilités. Ils sont très utiles, et ont des conséquences qui frappent
l’imagination.
T S
Pour toute suite d’ensembles {An | n ∈ IN }, lim sup An := Am est l’ensemble des
n n m≥n
éléments qui appartiennent à une infinité d’ensembles An . De même, lim inf An :=
S T n
Am est l’ensemble des éléments qui appartiennent à tous les ensembles An sauf
n m≥n
au plus un nombre fini. On a aussitôt : (lim sup An )c = lim inf Acn . Et lim sup An et
n n n
lim inf An sont des événements si les An en sont.
n

Proposition 6.0.7 (lemmes de Borel-Cantelli) Soit {An |n ∈ IN} une suite d’événements.
P
1) Si IP (An ) < ∞ , alors IP lim sup An = 0 .
n n
P
2) Si IP (An ) = ∞ et si les An sont indépendants, alors IP lim sup An = 1 .
n n

T S P
Preuve 1) IP Am ≤ IP (Am ) → 0 .
n m≥n m≥n
T S S T T
Acm Acm IP (Acm )
Q
2) 1 − IP Am = IP = lim ↑ IP = lim
n m≥n n m≥n n m≥n n m≥n
Q P
= lim (1 − IP (Am )) ≤ lim exp − IP (Am ) = 0 .
n m≥n n m≥n

27
Exemples 1) Un singe tapant sur un clavier d’ordinateur au hasard et indéfiniment
tapera presque sûrement à un certain moment les œuvres complètes de Victor Hugo sans
erreur (et même une infinité de fois). Mais ce résultat ne fournit aucun majorant du temps
qu’il faudra attendre pour voir ceci se réaliser une première fois !
2) Si l’univers est infini, il y a une infinité de planètes habitées par des êtres vivant.
3) Une utilisation typique du premier lemme de Borel-Cantelli : records.
Considérons une v.a.r. X1 ≥ 0 , pour laquelle
.
(∃ c > 0) (∃ % ∈ ]0, 1[ ) lim IP (X1 > x) %x = c .
x→+∞

C’est le cas des variables exponentielles et géométriques, par exemple. Considérons une
suite i.i.d. de telles v.a.r. : {X1 , . . . , Xn , . . .}, et posons Yn := max{X1 , . . . , Xn }, pour tout
n ∈ IN ∗ . Nous voulons évaluer la valeur du “record” Yn lorsque n est grand.
a) Fixons ε > 0 . Pour n suffisament grand, nous avons :
h log n i h log n in h log n in
IP Yn ≤ (1−ε) = IP X1 ≤ (1−ε) = 1−IP X1 > (1−ε)
log(1/%) log(1/%) log(1/%)
h log n i c log n
(1−ε) log(1/%)
c ε
≤ exp − n IP X1 > (1 − ε) ≤ exp − n × % = exp − n ,
log(1/%) 2 2
P h log n
i
de sorte que IP Yn ≤ (1 − ε) log(1/%) < ∞ , et donc que selon le premier lemme de
n
Yn 1−ε
Borel-Cantelli, nous avons presque sûrement : log n
> log(1/%)
pour tout n > n1 (ω).
b) Pour tout β > 0 , nous avons :
h β log n i h β log n i
IP Ynβ > (1 + ε) ≤ nβ IP X1 > (1 + ε) ≤ 2c nβ × n−β(1+ε) = 2c n−β ε ,
log(1/%) log(1/%)
P h log nβ
i
de sorte qu’en fixant β = 2/ε , nous obtenons : IP Ynβ > (1 + ε) log(1/%) < ∞ . Donc
n
1+ε Y
selon le premier lemme de Borel-Cantelli, nous avons presque sûrement : lognnββ ≤ log(1/%)
pour tout n > n2 (ω). Cela entraı̂ne que pour tout k > n2 (ω)β , si n := [k 1/β ], alors
nβ ≤ k < (n + 1)β , et par croissance de la suite (Yn ), nous avons presque sûrement, pour
tout entier k suffisament grand :
1−ε Yk Y(n+1)β 1+ε log(n + 1) 1 + 2ε
< ≤ ≤ × < .
log(1/%) log k log nβ log(1/%) log n log(1/%)
Yn 1
Ceci démontre précisément que presque sûrement : lim = .
n→∞ log n log(1/%)
Exercice no 6.1 kYn k22
P
Montrer que si une suite de v.a. {Yn | n ∈ IN } est telle que
n
converge, alors cette suite converge presque sûrement vers 0.

28
Exercice no 6.2 a) Montrer que si Y est une v.a.r. ≥ 0 , alors IE(Y )2 ≤ IE(Y 2 )×IP (Y > 0).
b) Déduire que si {A1 , . . . , An } sont des événements non tous négligeables, alors
n
[ n
X n
2 .h X X i
IP Aj ≥ IP (Aj ) IP (Aj ) + 2 IP (Ai ∩ Aj ) .
j=1 j=1 j=1 1≤i<j≤n

c) Déduire que pour le deuxième lemme de Borel-Cantelli il suffit de supposer

l’indépendance des événements 2 à 2 (en plus de la divergence de la série).
d) Montrer
P que s’il existe un c > 0 tel que IP (Ai ∩ Aj ) ≤ c IP (Ai )IP (Aj ) pour tous i 6= j
et si j IP (Aj ) = ∞ , alors IP (lim supj Aj ) > 0 .
e) Considérons un jeu illimité de pile ou face, avec p := IP (“pile”) ∈ ]0, 1[ .
Notons Xj la variable de Bernoulli valant 1 ssi le j-ième lancer donne pile, et posons
TS
k ∗
Aj := {Xj = . . . = Xj+k−1 = 1}, pour j, k ∈ IN . Montrer que IP Akj = 1 .
k j
Interpréter.

7 Variables aléatoires indépendantes

Définition 7.0.8 Fixons un espace de probabilité (Ω, T , IP ). Des v.a. (définies sur
(Ω, T )) V1 , . . . , Vn , . . . sont dites indépendantes lorsque pour tous B1 , . . . , Bn , . . . , les évé-
nements {V1 ∈ B1 }, . . . , {Vn ∈ Bn }, . . . sont indépendants (définition 3.3.2, section 3.3).

Proposition 7.0.9 Les v.a. V1 , . . . , Vn , . . . sont indépendantes ssi

IE f1 ◦ V1 × . . . × fn ◦ Vn = IE f1 ◦ V1 × . . . × IE fn ◦ Vn

pour tous n ∈ IN ∗ et toutes fonctions mesurables positives f1 , . . . , fn .

Cela se dit aussi sous la forme : la loi de (V1 , . . . , Vn , . . .) est le produit des lois des Vn .
En particulier, lorsque les v.a.r. indépendantes Vn admettent des densités hn sur IR, alors
. . . , Vd ) admet la densité h1 ⊗ . . . ⊗ hd sur IRd
la v.a. (V1 ,
définie par : h1 ⊗ . . . ⊗ hd (x1 , . . . , xd ) := h1 (x1 ) × . . . × hd (xd ) .

Remarque 7.0.10 1) Les événements A1 , . . . , An , . . . sont indépendants ssi les v.a.

1A1 , . . . , 1An , . . . sont indépendantes (revoir la proposition 3.3.3, section 3.3).
2) Si des v.a.r. V1 , .., Vn , .. ∈ L2 sont indépendantes, alors leurs covariances sont nulles.
Mais la réciproque est fausse. Contrexemples : a) Si G ( N (0, 1)) et ε ( B(±1, 21 )) sont
indépendantes, alors Cov(G, εG) = 0 , mais IP (G + εG = 0) = 21 contredit l’éventuelle
indépendance de G et de εG . b) Cas de V1 , .., Vn , .. indépendantes 2 à 2, mais non
indépendantes. c) Cas de V1 , . . . , Vn , . . . indépendantes mais de carré non intégrable.

29
3) Les v.a. discrètes V1 , . . . , Vn , . . . sont indépendantes ssi pour tous v1 , . . . , vn , . . . les
événements {V1 = v1 }, . . . , {Vn = vn }, . . . sont indépendants.

Exemples : les résultats de différents dés, de lancers successifs d’une pièce, de tirages
successifs (roulette, . . . ), les durées de vie de différents atomes fissiles (en l’absence de
toute réaction en chaı̂ne), etc...
Exercice no 7.1 a) Soient U1 , U2 , U3 trois v.a. indépendantes, uniformes sur [0, 1]. Mon-
trer qu’elles sont p.s. 2 à 2 distinctes. On les réordonne en V1 < V2 < V3 . Montrer que
(V1 , V2 , V3 ) admet la densité 6 × 1{0<v1 <v2 <v3 <1} , et en déduire les densités de V1 , V2 , V3 .
b) Soient U1 , .., Un des v.a. indépendantes, uniformes sur [0, 1], et Jn := min{U1 , .., Un },
Mn := max{U1 , . . . , Un }. Calculer IP (x < Jn , Mn < y), et en déduire la loi (conjointe) de
(Jn , Mn ). c) Que vaut lim IP (Jn < x < y < Mn ) ?
n→∞

Exercice no 7.2 Soient Y1 , . . . , Yn des v.a. indépendantes, exponentielles. Quelle est la

loi de min{Y1 , . . . , Yn } ?
Exercice no 7.3 Soient X1 , .., Xn n v.a. indépendantes, Xj étant poissonnienne de
paramètre λj . a) Quelle est la loi de X1 + X2 , puis de X1 + . . . + Xn ?
b) Calculer la loi, l’espérance et la variance de Xj sachant X1 + . . . + Xn .
c) Soient Yj , j ∈ IN , des v.a. indépendantes à valeurs dans {1, . . . , n}, de même loi donnée
par IP (Yj = k) = αk , pour 1 ≤ k ≤ n . Soient N une variable de Poisson de paramètre
PN
λ , indépendante des Yj , et Nk := 1{Yj =k} . Montrer que les variables N1 , . . . , Nk sont
j=1
poissonniennes indépendantes.
Exercice no 7.4 Soient X1 , X2 deux v.a.r. indépendantes de lois exponentielles de para-
mètres λ1 , λ2 . a) Calculer les lois de J := min{X1 , X2 } , M := max{X1 , X2 } .
b) Supposant que λ1 = λ2 , montrer que J et M − J sont des variables indépendantes.
Exercice no 7.5 Soient X, Y deux variables aléatoires indépendantes, de densité respec-
λn
tivement f, g , avec n ∈ IN ∗ , f (x) = 1{x>0} Γ(n) xn−1 e−λ x , et g(y) = 1{y>0} λ e−λ y .
Calculer la densité de X + Y , IE(X + Y ) , et Var(X + Y ) .
Exercice no 7.6 Calculer la densité du carré d’une v.a.r. normale standard, puis de la
somme de 2 tels carrés, puis du quotient de deux v.a.r. normales standards indépendantes.
Vérifier que la loi (dite du χ2 à q degrés de liberté) de la somme des carrés de q v.a.r.i.i.d.
2−q/2 q/2−1 −x/2
de loi gaussienne standard admet la densité : x 7→ 1{x>0} x e . Préciser son
Γ(q/2)
espérance et sa variance.
Exercice no 7.7 Soient X et Y 2 v.a.r. indépendantes, admettant toutes 2 la densité
t 7→ t−2 1[1,∞[ (t). On pose U := XY et V := X/Y .
a) Calculer les lois de (U, V ), de U , et de V . U et V sont-elles indépendantes ?

30
b) Calculer IE(U −1/2 V −1 ) .
Exercice no 7.8 Trois clients A, B, C arrivent au même temps 0 à la poste, où 2 guichets
sont ouverts, qu’occupent A et B tout de suite. C remplace le premier des 2 qui a terminé.
On admet que les temps de service X, Y, Z requis par ces 3 clients sont des v.a.r.i.i.d. de
même loi E(λ).
a) Quelle est la loi du temps d’attente T de C ? b) Calculer la probabilité que C
termine (et parte) le dernier. c) Calculer la loi du temps du dernier départ.
Exercice no 7.9 Quand la somme de 2 variables aléatoires binômiales indépendantes est-
elle binômiale ?
Exercice no 7.10 On effectue n tirages indépendants avec remise dans une urne contenant
une proportion pj de boules marquées j, pour 1 ≤ j ≤ r , r > 1 étant fixé. On note Nj le
nombre de boules marquées j qu’on tire ainsi. Préciser la loi du vecteur N := (N1 , .., Nr ) ,
et calculer l’espérance et la variance de Nj , la covariance de Nj et Nk , et le nombre moyen
de j tels que Nj = 0 .

Exercice no 7.11 a) Soient N gaussienne standard, et ε indépendante de N et uniforme

sur ±1. Montrer que εN est gaussiennne standard, mais que le vecteur (N, εN ) n’est pas
gaussien.
b) Montrer que toute combinaison linéaire (non triviale) de v.a. normales indépendantes
est normale. Donner un contrexemple simple s’il n’y a pas indépendance.
c) Montrer que si le vecteur aléatoire V a ses coordonnées gaussiennes et indépendantes,
alors il est gaussien (revenir à la définition 5.2.4).
d) Montrer que les coordonnées (dans la base canonique de IRd ) d’un vecteur gaussien
sont indépendantes ssi la matrice de covariance est diagonale, et donc ssi elles sont non
corrélées. Vérifier que c’est faux si le vecteur n’est pas gaussien (même si ses coordonnées
sont gaussiennes).
Exercice no 7.12 Soit V := (V0 , ..Vd ) un vecteur gaussien (d + 1)-dimensionnel, dont les
coordonnées sont N (0, 1) et vérifient : Cov(V0 , Vj ) = p pour 1 ≤ j ≤ d et Cov(Vi , Vj ) = p2
pour 1 ≤ i 6= j ≤ d, p étant un paramètre. Posons Wj := (1 − p2 )−1/2 (Vj − pV0 ) pour
1 ≤ j ≤ d. Déterminer successivement les lois de : (V0 , W1 , .., Wd ) ; S := dj=1 Vj ; S/V0 .
P

Exercice no 7.14 Étude de la transmission du nom “Chenin”, porté à la génération 0 par

un unique homme (= humain mâle). Notons Zn le nombre d’hommes s’appelant “Chenin”
Z1
à la génération n ∈ IN , F la fonction génératrice de Z1 (F (s) := IE(sP )), pk la probabilité
(supposée fixe) qu’un homme ait k enfants mâles, et posons m := k pk .
k∈IN
Supposons l’indépendance entre les descendances des différents hommes.
a) Calculer par récurrence la fonction Gn , génératrice de Zn , en fonction de F .
b) Vérifier que F est monotone et convexe sur [0, 1].
c) En déduire en fonction de m le comportement asymptotique de αn := IP (Zn = 0) .
Interprétation ?

31
Exercice no 7.15 Un joueur va au casino avec une fortune initiale a ∈ IN ∗ . À chaque
partie, il gagne 1 avec probabilité p et perd 1 avec probabilité q = 1 − p. Les parties sont
supposées indépendantes.
1) Fixons un entier b > a, et notons Pb (a) la probabilité qu’a le joueur d’atteindre la
fortune b avant d’être ruiné.
a) Montrer que Pb (a) = p Pb (a + 1) + q Pb (a − 1). b) Déduire la valeur de Pb (a).
2) Autorisons le joueur à s’endetter, notons T le premier instant où sa fortune vaut a + 1,
puis, pour n ∈ IN , gn := IP (T = n), et enfin g la fonction génératrice de T .
a) Montrer que gn+2 = q (g1 gn + .. + gn g1 ). b) Déduire que g(s) − ps = qs g 2 (s).
c) Calculer g , IP (T < ∞), et IE(T ).

8 Convergences des variables aléatoires

Soient X et Xn , n ∈ IN , des v.a. à valeurs dans IRd , définies sur un même espace de
probabilité. Notons kXk := [ ω 7→ kX(ω)k ] une norme de X dans IRd .

Définition 8.0.11 On dit que la suite {Xn , n ∈ IN } converge vers X

i) en moyenne quadratique (ou dans L2 ) lorsque IE(kXn − Xk2 ) → 0 ;
ii) presque sûrement lorsque IP (Xn converge vers X) = 1 ;
iii) en probabilité lorsque IP (kXn − Xk > ε) tend vers 0 pour tout ε > 0 .

Proposition 8.0.12 1) La convergence presque sûre et la convergence en moyenne

quadratique entraı̂nent (chacune) la convergence en probabilité.
2) Si Xn converge en probabilité vers X et Yn converge en probabilité vers Y , alors pour
tous a et b réels, aXn + bYn et Xn · Yn convergent en probabilité, vers aX + bY et X · Y .

La moitié de la partie 1) de cet énoncé découle aussitôt de l’inégalité de Bienaymé-

Tchebitcheff (exercice no 4.7).
Exercice no 8.1 Soit {Xn | n ∈ IN ∗ } une suite de v.a.r. indépendantes, telles que
IP (Xn = n) = 1/n et IP (Xn = 0) = 1 − 1/n pour chaque n ∈ IN ∗ . Montrer que cette
suite converge en probabilité, mais ni presque sûrement ni en moyenne quadratique.
Exercice no 8.2 Montrer qu’une suite de v.a. qui converge en probabilité admet une
sous-suite qui converge presque sûrement. (Utiliser le premier lemme de Borel-Cantelli,
proposition 6.0.7 section 6.)

Définition 8.0.13 On dit que la suite {Xn | n ∈ IN } de variables aléatoires à valeurs dans
IRd converge en loi vers X (à valeurs dans IRd ) lorsque IE(f ◦ Xn ) tend vers IE(f ◦ X),
pour toute fonction f continue à support compact (ou continue bornée) de IRd dans IR .

32
Proposition 8.0.14 La convergence en probabilité entraı̂ne la convergence en loi.

Remarque 8.0.15 a) Si les lois de Xn et de X ont un même support dénombrable

discret S (en général S ⊂ Zd ), alors la convergence en loi de Xn vers X équivaut à :
IP (Xn = s) tend vers IP (X = s) pour tout s ∈ S .
b) Si Xn converge en loi vers X et si g est continue, alors g ◦ Xn converge en loi vers
g ◦ X.

Proposition 8.0.16 La convergence en loi d’une suite de v.a.r. {Xn | n ∈ IN ∗ } vers une
v.a.r. X équivaut à la convergence simple de Fn vers F en chaque point de continuité de
F ; Fn désignant la fonction de répartition de Xn , et F celle de X.

Exemples a) La loi B(n, pn ) converge vers la loi P(λ) si n → ∞ et npn → λ > 0 .

b) La loi H(N, n, pN ) converge vers la loi B(n, p) si N → ∞ et pN → p ∈ ]0, 1[ .
Noter que ceci se conçoit très bien intuitivement, puisque H(N, n, p) décrit sans remise le
même tirage que B(n, p) décrit avec remise : l’influence de la remise s’évanouit lorsque le
tirage s’effectue dans un très gros ensemble.
c) Soient B une variable de Bernoulli (IP (B = 1) = IP (B = −1) = 1/2) , et pour tout
0 0
n ∈ IN : Xn = B = X2n et X2n+1 = −B . Alors les 2 suites X et X 0 convergent en loi,
mais pas la suite X + X 0 .

Exercice no 8.3 Soit {Xn | n ∈ IN } une suite de v.a.r. de fonction de répartition commune
F , telle que lim x (1 − F (x)) = lim x F (−x) = 0 . Posons Mn := max{X1 , . . . , Xn }, et
x→∞ x→∞
Mn mn
mn := min{X1 , . . . , Xn }. Montrer que n
et n
convergent en probabilité vers 0.

9 Loi des Grands Nombres

Proposition 9.0.17 (Loi faible des grands nombres) Soit {Xn | n ∈ IN ∗ } une suite de
v.a. de même loi, de carré intégrable, et deux à deux non corrélées. Alors la suite des
X 1 + · · · + Xn
moyennes de Césaro converge vers IE(X1 ) en moyenne quadratique (et en
n
probabilité).

Exercice no 9.1 Prouver la proposition 9.0.17.

Théorème 9.0.18 (Loi forte des grands nombres) Soit {Xn | n ∈ IN ∗ } une suite de v.a.
indépendantes et intégrables, de même loi. Alors la suite des moyennes de Césaro
X 1 + · · · + Xn
converge presque sûrement vers IE(X1 ).
n

33
Remarque 9.0.19 La réciproque suivante de la loi des grands nombres est vraie :
Si {Xn | n ∈ IN ∗ } est une suite de v.a.r indépendantes et de même loi telle que la suite
des moyennes de Césaro X1 +···+X
n
n
converge p.s., alors X1 est intégrable.

Preuve Remarquons Xn
Pqu’alors n =
X1 +..+Xn
n
− X1 +..+X
n−1
n−1
× n−1
n
doit converger p.s. vers
0. Donc IE(|X1 |) ≤ IP (|Xn | > n) est finie d’après le deuxième lemme de Borel-Cantelli.
n

10 Théorème Central Limite

Théorème 10.0.20 Soit {Xn | n ∈ IN ∗ } une suite de v.a. à valeurs dans IRd , indépen-
X1 + · · · + Xn − nIE(X1 )
dantes, et de même loi admettant un second moment. Alors √
n
converge en loi, vers la loi gaussienne N (0, KX1 ), où KX1 := IE(tX1 X1 ) − tIE(X1 )IE(X1 )
désigne la matrice de covariance de X1 .

Nota Bene Le TCL évalue les fluctuations d’une somme de v.a.i.i.d. (de carré intégrable)
autour du terme (déterministe) dominant (donné par la LGN) ; en dimension 1 (pour
simplifier) on peut en effet le réécrire (sous forme d’égalité en loi) :
L √ √
X1 + · · · + Xn = n IE(X1 ) + n σ(X1 ) N (0, 1) + o( n ).

Exercice no 10.1 (Surlocation) Une agence de voyage dispose de 160 places à louer pour
une destination donnée. Elle sait que les locations sont honorées par ses clients avec une
probabilité fixe p. Elle vend N = 160α > 160 places. Pour quelles valeurs de α la
probabilité de ne pas louer trop de places vaut-elle 0, 95 ; 0, 975 ?
Rappel Valeurs numériques à connaı̂tre :

N (0, 1) ] − ∞ , 1,65 ] ≈ 0, 95 , et N (0, 1) ] − ∞ , 1,96 ] ≈ 0, 975 .

Exercice no 10.2 Le prix Sn d’une action au jour n est modélisé ainsi : S0 = s > 0 est
fixe, et Sn+1 = (1 + r + σεn+1 ) Sn , où r > 0 est un taux fixe, σ ∈]0, 1 + r[ est une
volatilité fixe, et {εn | n ∈ IN } est une suite i.i.d. de loi de Bernoulli B(±1, 1/2) .
a) Étudier le comportement des suites (log Sn )/n√et Sn .
b) Étudier le comportement de la suite (log Sn )/ n . √
√ [1/ n ]
c) Étudier le comportement de la suite [(1 + r)2 − σ 2 ](− n /2) × Sn .
Exercice no 10.3 Notons {Xn , Yn , Zn | n ∈ IN ∗ } une famille de v.a.i.i.d. de loi commune
B(±1, 1/2) . Posons pour tout n ∈ IN :
n
P n
P Pn
Rn := Xk Yk , Sn := Yk Zk , Tn := Zk Xk , puis Vn := (Rn , Sn , Tn ) .
k=1 k=1 k=1

34
a) Rn , Sn , Tn sont-elles indépendantes 2 à 2 ? indépendantes ?
b) Quelle est la loi de Rn ? c) Calculer la transformée
√ de Fourier de Vn .
d) Étudier la convergence de Vn /n , puis de Vn / n .
Exercice no 10.4 3016 mathématiciens sont invités à un colloque ; en moyenne un sur 4
répondra favorablement, et les réponses sont supposées indépendantes les unes des autres.
Combien les organisateurs doivent-ils prévoir de places, afin que la probabilité de ne pas
en manquer soit ≥ 0, 99 ?
Exercice no 10.5 Une compagnie assure 10000 clients sur la vie, qui payent chacun une
prime annuelle de A euros. On estime que chaque client a une probabilité de décès au
cours d’une année égale à 6/1000, indépendamment les uns des autres. La prime de décès
est de B euros.
a) Quelle est la loi du nombre annuel des décès ? Comment peut-on l’approcher ?
b) Si B = 1000, pour quels A la compagnie a-t-elle une probabilité < 1/100 d’être en
déficit ? c) Si A = 15, pour quels B la compagnie a-t-elle une probabilité > 0, 7 de faire
un bénéfice annuel > 50000 euros ?
Exercice no 10.6 Soit {Xn | n ∈ IN } une suite de v.a.i.i.d. de loi commune B(p) . Posons
Yn := Xn Xn+1 et Sn := (Y1 + · · · + Yn )/n , pour tout n ∈ IN .
Calculer la loi et l’espérance de Yn , puis la covariance de Yn et de Yn+k , l’espérance de Sn2 ,
et enfin montrer que Sn converge en probabilité vers p2 .

II. Éléments de statistique mathématique

Le mot statistique désigne à la fois un ensemble de données et l’ensemble des activités
consistant à collecter ces données, à les traiter et à les interpréter. Les statistiques inter-
viennent donc dans pratiquement tous les domaines d’activité : gestion financière (états,
banques, assurances, entreprises . . . ), démographie, contrôles de qualité, études de marché,
recherche médicale, autres sciences expérimentales. . .
Le traitement des données, pour en dégager un certain nombre de renseignements qual-
itatifs ou quantitatifs à des fins de comparaison, s’appelle la statistique descriptive. Elle
sera l’objet des sections 11 et 12 ci-dessous.
L’estimation à l’aide des données d’un paramètre caché régissant le phénomène observé,
pour déduire des observations, autant que possible, la nature précise de ce phénomène, par
exemple à des fins de prédiction, s’appelle la statistique inférentielle. Elle sera l’objet des
sections 13 et 14 ci-dessous.
L’ensemble sur lequel porte l’activité statistique s’appelle la population. Elle est généra-
lement notée Ω. Ses éléments sont les individus. Ces individus peuvent être de natures
très diverses : personnes, mois d’une année, pièces produites par une usine, résultats
d’expériences répétées un certain nombre de fois. . . Les caractéristiques étudiées sur les
individus d’une population sont appelées les caractères.

35
Un caractère est donc une application χ d’un ensemble fini Ω (la population) dans un
ensemble E (l’ensemble des valeurs du caractère), qui associe à chaque individu ω ∈ Ω
la valeur χ(ω) que prend ce caractère sur ω . La suite des valeurs χ(ω) prises par χ
constitue les données brutes. C’est une suite finie (χ1 , χ2 , . . . , χN ) ∈ E N .
On peut considérer des caractères qualitatifs (comme : profession, adresse, situation
de famille, sexe, etc. . . ) et des caractères quantitatifs, dont la détermination produit un
nombre ou une suite de nombres. Cela dit, les caractères qualitatifs peuvent toujours être
transformés en caractères quantitatifs par simple codage. C’est ce qui se fait le plus souvent,
quoiqu’un tel codage soit purement conventionnel et n’ait pas de vrai sens quantitatif.

11 Caractères quantitatifs monodimensionnels

Si χ est un caractère quantitatif monodimensionnel (c’est-à-dire à valeurs réelles ; on
dit aussi simple) l’ensemble χ(Ω) = {χ1 , χ2 , . . . , χN } des valeurs atteintes par le caractère
(ou données brutes) est un ensemble fini {x1 , . . . , xn }. Nous supposerons que ces valeurs
sont ordonnées : x1 < x2 < . . . < xn . Le fait que telle valeur soit relative à tel individu est
un renseignement qui n’intéresse pas le statisticien. Seul l’ensemble des valeurs atteintes
et le nombre de fois que chacune d’elle est atteinte est utile. On définit successivement les
paramètres suivant :
- l’effectif de la valeur xi est le nombre ni de fois que la valeur xi est prise par χ ,
c’est-à-dire le cardinal de l’ensemble χ−1 ({xi }) ;
ni
- la fréquence de la valeur xi est le rapport fi := N
de l’effectif de xi à l’effectif total
Pn
N= ni (ou cardinal) de la population ;
i=1
i
P
- l’effectif cumulé en xi est la somme partielle cumulée ni des effectifs ;
j=1
i
P
- la fréquence cumulée en xi est la somme partielle cumulée fj des fréquences.
j=1

Ces distributions statistiques sont qualifiées de discrètes. Lorsque le nombre des valeurs
atteintes est important, on préfère regrouper les valeurs en classes pour rendre la statistique
plus lisible. On partage alors l’ensemble C des valeurs du caractère en classes ]ai , ai+1 ] telles
que ai < ai+1 ; les deux classes extrêmes pouvant s’étendre jusquà l’infini.
On parle alors de statistique groupée ou continue, et on nomme successivement :
- effectif de la classe ]ai , ai+1 ] : le nombre ni des valeurs prises par χ qui se trouvent dans
la classe ]ai , ai+1 ], c’est-à-dire ni := Card[χ−1 ( ]ai , ai+1 ])] ;
- effectif cumulé en ai : le nombre de valeurs prises par χ qui se trouvent dans la classe
] − ∞, ai ] ;
ni
- fréquence de la classe ]ai , ai+1 ] : le rapport fi := N
;

36
0.2
6

5
0.15

0.1
3

2
0.05

0 2 4 6 8 10
0 2 4 6 8 10

Figure 2: Diagramme en bâtons et polygone

Figure 1: Diagramme en bâtons des fréquences

i
P
- fréquence cumulée en ai : la somme partielle cumulée fj des fréquences.
j=1

La famille (xi , ni )i=1,...,n ou (xi , fi )i=1,...,n est encore appelée distribution statistique
discrète. De même, la famille ( ]ai , ai+1 ], ni )i=1,...,n ou ( ]ai , ai+1 ], fi )i=1,...,n est encore ap-
pelée distribution statistique groupée (ou continue).

11.1 Représentations graphiques

11.1.1 Diagrammes en bâtons d’une distribution statistique discrète

On représente la distribution par une suite de segments verticaux d’abscisses xi dont la

longueur est proportionnelle à l’effectif ou la fréquence de xi . Par exemple, la distribution

(1, 1); (2, 3), (3, 4); (4, 2); (5, 5); (6, 6); (7, 2); (8, 3); (9, 1); (10, 1)

est représentée par le diagramme en bâtons de la figure 1.

11.1.2 Polygone des fréquences d’une distribution statistique discrète

Le polygone des fréquences (resp. des effectifs) est obtenu à partir du diagramme
en bâtons des fréquences (resp. des effectifs) en joignant par un segment les sommets
des bâtons voisins. Le graphique de la figure 2 superpose le polygone des effectifs et le
diagramme en bâtons des effectifs de l’exemple précédent.
En remplaçant les fréquences (resp. les effectifs) par les fréquences cumulées (resp. les
effectifs cumulés) on obtient le diagramme en bâtons et le polygone des fréquences cumulées
(resp. des effectifs cumulés). La figure 3 donne le diagramme en bâtons et le polygone des
effectifs cumulés de l’exemple précédent.

37
25

0 2 4 6 8 10

Figure 3: Diagramme en bâtons et polygone des effectifs cumulés

0.35

0.3
25

0.25

0.2

0.15

10
0.1

0.05
5

0 2 4 6 8 10 12
0 2 4 6 8 10 12

Figure 5: Histogramme et polygone des

Figure 4: Histogramme fréquences

11.1.3 Histogramme d’une distribution statistique groupée

On représente la distribution par des rectangles dont les cotés horizontaux sont les
classes et dont les aires sont proportionnelles aux effectifs ou aux fréquences.
En figure 4 nous donnons l’histogramme de la distribution suivante
(]1, 3], 4); (]3, 4], 8); (]4, 11
2
], 10); (] 11
2
, 6], 14); (]6, 8], 20); (]8, 10], 12); (]10, 11], 9); (]11, 25
2
], 3).

11.1.4 Polygone des effectifs et des fréquences d’une distribution groupée

On obtient ce polygone en joignant dans l’histogramme de cette distribution les milieux

des côtés horizontaux supérieurs adjacents. La figure 5 superpose l’histogramme des
fréquences de l’exemple précédent et son polygone des fréquences.

38
1

0.8

0.6

0.4

0.2

0 2 4 6 8 10 12

Figure 6: Polygone des fréquences cumulées d’une statistique groupée

11.1.5 Polygone des fréquences cumulées d’une distribution statistique groupée

C’est la représentation graphique de la fonction définie par

i−1
X x − ai
x 7→ fj + fi
j=1
ai+1 − ai

i−1
P i
P
sur l’intervalle ]ai , ai+1 ]. En particulier ai 7→ fj ou bien ai+1 7→ fj , et le polygone
j=1 j=1
est déduit de ces valeurs particulières par simple interpolation affine. La fonction ainsi
définie est proportionnelle à la primitive nulle en a0 de la fonction en escalier représentée
par l’histogamme de la figure 4. Pour l’exemple précédent nous obtenons le graphique de
la figure 6.

11.2 Caractéristiques de position

11.2.1 Valeurs modales

On nomme valeur modale ou mode d’une distribution statistique discrète (xi , fi )i=1,...,p
toute valeur x1 , x2 , . . . , xp dont la fréquence est maximale. La distribution est unimodale
si elle a un seul mode, plurimodale (bimodale, trimodale, . . . ) sinon. On visualise aisément
les modes sur les représentations graphiques. Pour une distribution statistique groupée,
on nomme de manière analogue classe modale toute classe de fréquence maximale.

11.2.2 Médiane et quantiles

La médiane d’une distribution statistique discrète (xi , fi )i=1,...,p est la plus petite des
valeurs xi pour laquelle la fréquence cumulée est supérieure ou égale à 0,5. On la note
Q0.5 . On peut la déterminer aisément à partir du diagramme en bâtons des fréquences

39
cumulées. En gros, la moitié de la population présente une valeur du caractère inférieure
à la médiane, l’autre moitié une valeur supérieure.
Pour une distribution statistique groupée, la médiane est définie comme le nombre réel
x pour lequel le polygone des fréquences cumulées atteint la valeur 0,5.
Plus généralement, si α est un nombre réel strictement compris entre 0 et 1, le quantile
d’ordre α, noté Qα , est la plus petite des valeurs xi pour laquelle la fréquence cumulée
est supérieure à α . En dehors de la médiane, les quantiles les plus souvent utilisés sont
les quartiles (α = 0, 25 ; 0, 5 ; 0, 75) et les déciles (α = 0, 1 ; 0, 2 ; . . . ; 0, 9).

11.2.3 Moyenne

La moyenne d’une distribution statistique discrète χ = (xi , fi )i=1,...,p est le nombre réel
m défini par
p p
X X
m = m(χ) := N1 n i xi = f i xi .
i=1 i=1

où N est l’effectif total de la population. On peut aussi la calculer directement à partir
des données brutes par
N
X
1
m(χ) = N χj ,
j=1

c’est-à-dire en calculant le rapport entre la somme de toutes les valeurs relevées (avec
répétitions éventuelles) et l’effectif total de la population.
Pour une statistique groupée ( ]ai , ai+1 ], fi )i=1,...,p la moyenne se calcule par
p
X ai + ai+1
m := fi .
i=1
2

Cela revient à faire une hypothèse d’homogénéité en considérant les valeurs équidistribuées
à l’intérieur d’une classe ou, au contraire, à supposer que toute la fréquence est concentrée
au centre de la classe (ce qui revient au même : on remplace la distribution à l’intérieur de
la classe par son barycentre).

11.2.4 Caractéristiques de dispersion

Ce sont des paramètres qui mesurent de différentes façons la dispersion d’une distribu-
tion statistique discrète χ = (xi , fi )i=1,...,p .
On nomme successivement :
- étendue la différence (xp − x1 ) entre la plus grande et la plus petite des valeurs prises ;
- intervalle interquartile la différence (Q0,75 − Q0,25 ) ;

40
p p
fi (xi − m)2 = fi x2i − m2 ;
P P
- variance la quantité Var(χ) :=
i=1 i=1
p
- écart-type la quantité σ(χ) := Var(χ) ;
p N
- moment d’ordre k (pour k ∈ IN ∗ ) la quantité mk (χ) := fi xki = 1
χkj ;
P P
N
i=1 j=1
p
- moment centré d’ordre k (pour k ∈ IN ∗ ) la quantité m0k (χ) := fi (xi − m)k .
P
i=1
La variance est ainsi le moment centré d’ordre 2. On la note souvent σ 2 .

Remarque 11.2.5 On a les relations plus ou moins immédiates (exercice !) suivantes,

valables pour tous réels a, λ , et totalement analogues avec ce qui se passe dans le cadre
probabiliste :
m(λ(χ − a)) = λ(m(χ) − a) ;
Var(λ(χ − a)) = λ2 Var(χ) ; σ(λ(χ − a)) = |λ| σ(χ).
X
Remarque 11.2.6 (Inégalité de Bienaymé-Tchébychev) fi ≤ σ 2 /ε2 .
{i | |xi −m|≥ε}
X
En particulier pour ε = 2σ, on a fi ≤ 1/4 , ce qui montre que les 3/4 de l’effectif
{i | |xi −m|≥ε}
global sont contenus dans l’intervalle [m − 2σ, m + 2σ]. Ainsi, plus σ est petit, plus la
distribution est concentrée autour de sa moyenne.

Preuve Sur l’ensemble {i | |xi − m| ≥ ε}, le nombre positif (xi − m)2 est minoré par ε2 ;
on a donc
p
X X X
2
σ = (xi − m)2 fi ≥ (xi − m)2 fi ≥ ε2 fi ,
i=1 {i | |xi −m|≥ε} {i | |xi −m|≥ε}

d’où l’inégalité cherchée en divisant par ε2 .

Remarque 11.2.7 Pour les distributions statistiques groupées, on définit les mêmes no-
tions en supposant que toutes les valeurs d’une classe sont concentrées au centre de la
classe :
p 2 p k
√

X ai+1 + ai X ai+1 + ai
Var := fi − m ; σ = Var ; mk := fi .
i=1
2 i=1
2

ai+1 +ai
En remplaçant xi par 2
, les remarques 11.2.5 et 11.2.6 restent valables pour ces
distributions.

41
12 Régression linéaire
12.1 Problématique
Étant donnée une statistique double ou statistique bivariée (de données réelles)

X = (X1 , . . . , Xn ), Y = (Y1 , . . . , Yn ) , on cherche une relation linéaire : Y = aX + b .
Bien entendu elle ne peut être exacte sauf cas exceptionnel. Aussi cherche-t-on les co-
efficients (a, b) de façon que cette relation soit le plus près possible d’être vérifiée. La
notion de proximité qu’on retient est celle qui conduit au calcul le plus simple : on
cherche à minimiser la somme des carrés. (a, b) sera donc le couple de réels minimisant
n
(Yj − aXj − b)2 . La droite DY /X d’équation Y = aX + b correspondante est la
P
j=1
droite de régression au sens des moindres carrés (ou droite de régression ou
droite d’ajustement) de Y par rapport à X.

12.2 Moments
Exactement analogues aux quantités intervenant dans le cadre probabiliste sont :
n n
les moyennes empiriques X̄ := n1 Xj , Ȳ := n1
P P
Yj , puis les variances empiriques
j=1 j=1
n n n
1 1 1
Xj2 − X̄ 2 , Vy := Yj2 − Ȳ 2 , et la covariance empirique κ :=
P P P
Vx := n n n
Xj Yj − X̄ Ȳ .
j=1 j=1 j=1
√ p
Les écarts-type sont σx := Vx et σy := Vy , et le coefficient de corrélation linéaire est
% := κ/(σx σy ).

12.3 Solution
Nous avons simplement :
n n
1X 2 1 X 2
(Yj − aXj − b) = (Yj − Ȳ ) − a(Xj − X̄) + (Ȳ − aX̄ − b)
n j=1 n j=1

= (Ȳ − aX̄ − b)2 + Vx a2 − 2κ a + Vy ,

de sorte qu’apparaı̂t aussitôt (pour peu que la statistique X ne soit pas constante) la
solution unique suivante :
a = κ/Vx , b = Ȳ − aX̄ .
L’erreur quadratique totale vaut alors
n
1X
σ 2 := (Yj − aXj − b)2 = Vy − κ2 /Vx = (1 − %2 )Vy .
n j=1

42
Elle est nulle lorsque qu’existe une relation linéaire entre les statistiques X et Y , et faible
en cas de relation quasi-linéaire. Notons que la droite de régression passe par le centre de
gravité (X̄, Ȳ ) du nuage formé par les n points (Xj , Yj ).
De même qu’on a la droite DY /X de régression de Y par rapport à X, on a la droite
DX/Y de régression de X par rapport à Y , d’équation X = a0 Y + b0 , avec

a0 = κ/Vy , b0 = X̄ − a0 Ȳ .

Les deux droites DY /X et DX/Y passant toutes deux par le centre de gravité (X̄, Ȳ ) du
nuage, elles sont confondues si et seulement si aa0 = 1 , id est si et seulement si κ2 = Vx Vy ,
ou encore si et seulement si % = ±1 , et d’autant plus proches l’une de l’autre que |%| est
proche de 1. Cela explique la dénomination de % .

12.4 Utilisation
Il est naturel d’utiliser la droite DY /X pour prédire une valeur supplémentaire Yn+1 de
la statistique Y , connaissant une valeur supplémentaire Xn+1 de la statistique X : Yn+1 =
aXn+1 + b .
La qualité d’une telle prédiction (qui a priori n’a vraiment de sens que pour Xn+1 proche
de l’intervalle [min X, max X]) dépend de la valeur de σ 2 = Vy − κ2 /Vx , qui est la variance
empirique de la statistique Y − aX − b . On peut déterminer une bande de confiance
(on parle plutôt d’intervalle de confiance, voir la section 13.5 ci-dessous) par sa largeur
autour de la droite de régression, de la façon suivante : pour p ∈ ]0, 1[ fixé, soit r un réel
n
> 0 tel que p ≈ n1
P
1{|Yj −aXj −b|≤r} . Pensant au théorème central limite, il est naturel
j=1
d’approcher la loi empirique des (Yj − aXj − b) par une gaussienne, nécessairement centrée
et de variance σ 2 . De sorte qu’on doit avoir p ≈ IP (|G| ≤ r/σ) , pour G gaussienne centrée
réduite. On peut ainsi estimer que pour Xn+1 proche de l’intervalle [min X, max X], on
doit avoir
h par exemple 95% de chance de trouver iYn+1 dans l’intervalle (de confiance à
95%) aXn+1 + b − (1, 96)σ , aXn+1 + b + (1, 96)σ .

12.5 Autres ajustements

Bien entendu, on ne cherche pas toujours une relation linéaire entre les statistiques X
et Y . Mais on peut bien souvent s’y ramener, par un changement de variable élémentaire,
dès qu’on cherche une relation simple comportant 2 paramètres réels.
Exemples : si l’on espère que Y ≈ a X b , il suffit de considérer le nuage formé (ou la
statistique double formée) par les (log Xj , log Yj ) ;
si l’on espère que Y ≈ log(aeX + b), il suffit de considérer le nuage formé par les (eXj , eYj ) ;
si l’on soupçonne que Y ≈ XaX 2 +b , il suffit de considérer le nuage formé (ou la statistique
2
double formée) par les (Xj , Xj /Yj ).

43
Si l’on recherche une relation fonctionnelle comportant plus de deux paramètres, on peut
de nouveau minimiser la somme des carrés des différences (comme avec 2 paramètres),
cette fois en commençant par annuler les dérivées partielles. Par exemple dans le cas
d
αk X k : on cherchera la (les) valeur(s) du paramètre
P
d’une relation polynômiale Y ≈
k=0
n h d i2
(α0 , . . . , αd ) ∈ IRd+1 qui minimise(nt) δ = δ(α0 , . . . , αd ) := αk Xjk .
P P
Yj −
j=1 k=0

Exercice no 12.1 Soient X = (1, 3, 5, 7, 8, 9, 11, 12, 15, 18) et

Y = (−33, −97, −134, −141, −130, −102, −32, 37, 343, 860). Représenter le nuage, et tester
s’il y a une relation Y = αX 3 + βX, ou Y = ch(aX − b) − 150 , ou Y = α(X − β)2 − 150 .
Déterminer un intervalle de confiance à 95% pour la valeur y associée à x = 14 .

12.6 Variations expliquée et inexpliquée

La régression (on dit aussi l’ajustement) de Y par rapport à X rend compte de ce qui
dans les variations de la série Y est explicable par la série X, qu’on voit ainsi comme un
facteur agissant (plus ou moins fortement) sur Y .
Ayant déterminé la droite de régression DY /X , il est naturel de comparer la série Y
avec son explication par X, à savoir : Ŷ := aX + b = (Ŷ1 = aX1 + b, . . . , Ŷn = aXn + b).
D’une part, selon le calcul du paragraphe 12.3, nous avons :
n
1X
(Yj − Ŷj )2 = (1 − %2 )Vy ; et d’autre part :
n j=1

n n
1X 1X
(Ŷj − Ȳ )2 = (a[Xj − X̄])2 = a2 Vx = %2 Vy .
n j=1 n j=1

Répartissant la variance de Y , qu’on peut voir comme sa variation totale, en

Vy = (1 − %2 )Vy + %2 Vy , nous déduisons :
n n n
1X 1X 1X
(Yj − Ȳ )2 = (Yj − Ŷj )2 + (Ŷj − Ȳ )2 ,
n j=1 n j=1 n j=1

relation de Pythagore que nous interprétons comme :

Variation totale de Y = variation de Y inexpliquée + variation de Y expliquée par X .

12.7 Distribution conjointe

La donné du paragraphe 12.1, sous forme de statistique double (ou bivariée) brute

44

X = (X1 , . . . , Xn ), Y = (Y1 , . . . , Yn ) peut aussi bien bien être présentée sous la forme

alternative de nuage de points pondérés : (xi , yj ); nij , où nij figure l’effectif
1≤i≤p , 1≤j≤q
du point de coordonnées (xi , yj ), id est le nombre de fois qu’il figure dans la statistique
double considérée (X, Y ).
Noter que l’on peut (ou non) considérer que (x1 , . . . , xp ) est la liste strictement crois-
sante des différentes valeurs de X, et que (y1 , . . . , yq ) est la liste strictement croissante
des différentes valeurs de Y , quitte à admettre des effectifs éventuellement nuls. Mais cela
n’importe guère.
P
L’effectif total est alors bien sûr n = nij . La fréquence du point de coordonnées (xi , yj )
i,j
est fij := nij /n . Les distributions marginales, et fréquences marginales, exactement
analogues aux lois marginales probabilistes, sont données par :
q p q p
X X X X
ni· := nij ; n·j := nij ; fi· := fij = ni· /n ; f·j := fij = n·j /n .
j=1 i=1 j=1 i=1

Notons que l’indépendance probabiliste trouve ici son pendant dans la relation suivante,
qu’on peut nommer “indépendance statistique” : fij = fi· × f·j (∀ 1 ≤ i ≤ p , 1 ≤ j ≤ q).
Les moments du paragraphe 12.2 se calculent évidemment aussi bien sous cette forme
de donnée que sous la forme précédente. Nous avons en effet :
p q
1X 1X 1X 1X
X̄ = ni· xi = nij xi ; Ȳ = n·j yj = nij yj ;
n i=1 n ij n j=1 n ij

p q
1X 1X 1X
Vx = ni· x2i − X̄ 2 ; Vy = n·j yj2 − Ȳ 2 ; κ= nij xi yj − X̄ Ȳ .
n i=1 n j=1 n ij

Exercice no 12.2 Vérifier les formules ci-dessus, et en donner d’autres formes alternatives.

13 Vraisemblance et estimation
13.1 Maximum de vraisemblance
Il s’agit d’estimer un paramètre inconnu θ d’une loi de probabilité µ = IPθ , sur la base
d’une suite de réalisations, ou d’observations, effectuées suivant cette loi. Le paramètre
θ varie a priori dans un certain ensemble Θ ⊂ IRd (dont le choix peut appartenir au
statisticien).
Notons X une v.a. dont la loi est µ , et x1 , . . . , xn une suite d’observations, nommée
échantillon ou statistique (ou échantillon statistique), représentant des réalisations de X,
qu’on suppose indépendantes. On considère les 2 cas les plus usuels : soit µ est discrète, soit

45
elle admet une densité g = gθ . La fonction de vraisemblance associée à θ et à x1 , . . . , xn
est :
n
Q
f (x1 , . . . , xn | θ) := IPθ ({xj }) lorsque µ est discrète, et
j=1
n
Q
f (x1 , . . . , xn | θ) := gθ (xj ) lorsque IPθ admet la densité gθ .
j=1

L’estimateur du maximum de vraisemblance est par définition la valeur (supposée

unique) de θ maximisant la fonction de vraisemblance :
θ̂ := argmax f (x1 , . . . , xn | θ) = argmax log f (x1 , . . . , xn | θ).
Exemples 1) µ est exponentielle de moyenne θ, id est E(1/θ) : alors
log f (x1 , . . . , xn | θ) = −n log θ − (x1 + . . . + xn )/θ , de sorte que θ̂ = (x1 + . . . + xn )/n .
2) µ = B(m, p), avec m supposé connu et θ = p : alors
n n n
P x P P
log f (x1 , . . . , xn | p) = log Cmj + xj log p + (mn − xj ) log(1 − p) , de sorte que
j=1 j=1 j=1
p̂ = (x1 + . . . + xn )/(mn) .
n
P
3) µ = P(λ) : alors log f (x1 , . . . , xn | λ) = xj log λ − nλ − log(x1 ! . . . xn !) , de sorte que
j=1
λ̂ = (x1 + . . . + xn )/n .
4) µ = N (m, σ 2 ), avec θ = (m, σ) : alors
n
(xj − m)2 /(2σ 2 ), de sorte que
P
log f (x1 , . . . , xn | m, σ) = −(n/2) log(2π) − n log σ −
j=1
n
X n
X 1/2
m̂ = xj /n et σ̂ = (xj − m̂)2 /n (ce sont les seules valeurs qui annulent à la
j=1 j=1
fois les deux dérivées partielles de la fonction de vraisemblance).
5) µ = H(N, n, p), avec n connu, N très grand, et p ∈]0, 1[ à estimer, à l’aide d’un
unique tirage, qui produit la valeur k de la variable. (Exemple : pour évaluer la population
piscicole d’un lac, on remet ` poissons dans ce lac après les avoir marqués, de sorte que
p = `/N , et on pêche ensuite n poissons.) La valeur optimale p doit résoudre l’équation :
k−1 n−k−1
1 d h
k n−k
i 1 X 1 1 X 1
0= log CN p CN (1−p) = −
N dp N j=0 p − Nj N j=0 1 − p − j
N

k n−k
Z
N dt
Z
N dt h p i h 1−p i
≈ − = log − log ,
0 p−t 0 1−p−t p − Nk 1 − p − n−k
N
dont la nullité équivaut à :
p 1−p k
k
= n−k
⇔ p= .
p− N 1−p− N n

46
Notons que c’est la valeur qu’on obtient trivialement en imposant, au lieu du maximum de
vraisemblance, simplement que la moyenne np soit égale à la valeur k obtenue au tirage.
Exercice no 13.1.1 Soit {Xj | j ∈ IN ∗ } une suite de v.a.i.i.d. de loi E(λ). On appelle
“processus de Poisson” d’intensité λ le processus (t 7→ Nt ) défini pour tout t ∈ IR+ par
Nt := max{n ∈ IN | X1 + · · · + Xn ≤ t}. X1 + · · · + Xn est le temps auquel survient le
n-ième événement décompté par (Nt ) (comme des arrivées successives de trams à un arrêt,
de clients à un guichet, etc...). On montre que (pour tous s, t ≥ 0) Ns+t − Ns a pour loi
IP (λt), et est indépendante de toutes les variables {Ns0 | 0 ≤ s0 ≤ s}.
Supposons qu’un processus de Poisson d’intensité inconnue λ est observé : a) jusqu’à un
temps fixe T ; b) jusqu’à la survenue du n-ième événement. Dans chacun de ces deux
cas, quel est l’estimateur du maximum de vraisemblance pour λ ?

13.2 Biais, risque

Un estimateur θ̂ = θ̂(x1 , . . . , xn ) est dit sans biais lorsque sa moyenne pour la loi IPθ
est θ, cela pour tout θ ∈ Θ :
Z
IE[θ̂(X1 , . . . , Xn )| θ] ≡ θ̂(x1 , . . . , xn ) dIPθ (x1 ) . . . dIPθ (xn ) = θ , (∀ θ ∈ Θ).

La qualité d’un estimateur est évaluée par son risque (quadratique) :

h i
2
R(θ̂, θ) := IE [θ̂(X1 , . . . , Xn ) − θ] θ ,

qui est égal à sa variance s’il n’est pas biaisé. Il n’y a généralement pas d’estimateur dont
le risque soit minimal uniformément (c’est-à-dire pour tous les θ dans Θ), même parmi
les estimateurs sans biais. Il peut y avoir des estimateurs biaisés meilleurs (c’est-à-dire de
risque moindre pour tout θ ∈ Θ) que les estimateurs sans biais.
Exemples 1)Soit A une sous-population en proportion p dans une population Ω.
n
L’estimateur “proportion empirique” p̂ = p̂(x1 , . . . , xn ) := n1
P
1A (xj ) de p est sans
j=1
biais, de risque R(p̂, p) = p(1 − p)/n . Ici IPp = B(p).
2) µθ = E(1/θ), comme dans l’exemple 1 de la section 13.1 ci-dessus : notons θ̂1 (x) := x1 ,
qui est sans biais, de même que l’estimateur θ̂ = (x1 + . . . + xn )/n du maximum de
vraisemblance. On a aussitôt : R(θ̂1 , θ) = θ2 > R(θ̂, θ) = θ2 /n .
De même, si on considère une moyenne quelconque : θ̂λ = λ1 x1 + . . . + λn xn , avec
λ1 , . . . , λn ≥ 0 tels que λ1 + . . . + λn = 1 , on trouve encore un estimateur sans biais,
de risque R(θ̂λ , θ) = λ21 + . . . + λ2n , qui est minimal pour θ̂λ = θ̂ .

On a plus généralement le résultat suivant, valable dès que les v.a.r.i.i.d. Xj sont de
carré intégrable. Bien entendu, cet énoncé ne traite pas tous les cas.

47
Proposition 13.2.1 1) Parmi tous les estimateurs sans biais de IE(X1 ) qui sont des
n
fonctions linéaires de (X1 , . . . , Xn ), la moyenne empirique X̄n := n1
P
Xj est de risque
j=1
minimal.
2) Parmi tous les estimateurs sans biais de Var(X1 ) qui sont des fonctions quadratiques
n
1
(Xj − X̄n )2 est de risque minimal.
P
de (X1 , . . . , Xn ), la déviation standard Vn := n−1
j=1

Exemple Pour µ = N (m, σ 2 ), la médiane m̃n de l’échantillon (ou médiane empirique)

est un estimateur sans biais de la moyenne, mais non linéaire. Un calcul délicat fournit
Var(m̃n ) ≈ 1, 57 × σ 2 /n = 1, 57 Var(m̄n ) , ce qui montre que dans ce cas la moyenne
empirique est meilleure que la médiane empirique. Le théorème 13.4.2 de Rao-Blackwell
(voir la section 13.4 ci-dessous) montre que dans ce cas la moyenne empirique est meilleure
que tout estimateur sans biais.

Définition 13.2.2 Un estimateur θ̂ = θ̂(X1 , . . . , Xn ) de θ est dit convergent lorsque

lim θ̂(X1 , . . . , Xn ) = θ , cela en probabilité relativement à IPθ , pour tout θ ∈ Θ .
n→∞

Exemples Les estimateurs des exemples de la section 13.1 sont convergents.

Exercice no 13.2.1 Soient X1 , . . . , Xn , . . . des v.a.r.i.i.d. de loi B(p).
a) Si (pour n fixé) X1 + . . . + Xn = k , quel est l’estimateur du maximum de vraisemblance
pour p ? Est-il sans biais ? Converge-t-il ?
b) Supposons qu’on s’arrête au premier n tel que X1 + . . . + Xn = k , pour k fixé ; quel
est alors l’estimateur du maximum de vraisemblance pour p ? Est-il sans biais ?

13.3 Cas gaussien

Dans le cas µ = µ(m,σ) = N (m, σ 2 ), il n’est pas très difficile de pousser les calculs plus
loin. On peut établir ainsi en particulier :
Proposition 13.3.1 (i) La moyenne empirique X̄n a pour loi N (m, σ 2 /n) ;
n
(ii) σ −2 (Xj − X̄n )2 ( = (n − 1)σ −2 fois la déviation standard Vn de la proposition
P
j=1
13.2.1) suit la loi χ2n−1 (du χ2 à (n − 1) degrés de liberté, voir l’exercice no 7.6) ;
(iii) La moyenne empirique et la déviation standard sont indépendantes.
Le corollaire suivant est immédiat, et utile, puisqu’il met en évidence une loi indépendante
de l’écart-type σ (souvent inconnu dans la pratique).
p
Corollaire 13.3.2 La variable Zn−1 := (X̄n − m) n/Vn suit la loi dite de Student à
(n−1)
p 2degrés de liberté, qui est par définition la loi du rapport d’une gaussienne standard et
2
de χn−1 /(n − 1) , où χn−1 désigne une v.a. ayant cette loi, indépendante de la gaussienne.

48
13.4 Statistique exhaustive
Définition 13.4.1 Une statistique exhaustive des v.a.i.i.d. X1 , . . . , Xn est une fonction
(déterministe et indépendante de θ) τn = τ (X1 , . . . , Xn ) qui permet de factoriser la fonction
de vraisemblance sous la forme : f (X1 , . . . , Xn | θ) = hn (τn , θ) × kn (X1 , . . . , Xn ), pour une
fonction kn indépendante de θ .

Dans les exemples 1,2,3 ci-dessus, τ (X1 , . . . , Xn ) := X1 + · · · + Xn est une statistique

exhaustive. Dans l’exemple 4 ci-dessus,

2 2
τ (X1 , . . . , Xn ) = (X1 + · · · + Xn ), (X1 + · · · + Xn ) est une statistique exhaustive ; donc

(X̄, V ) := X1 +···+X n
n
, (X 1 − X̄)2
+ · · · + (X n − X̄)2
en est une autre.

Théorème 13.4.2 (Rao-Blackwell) Si une statistique exhaustive τ = τ (X1 , . . . , Xn ) existe

et si θ̂ = θ̂(X1 , . . . , Xn ) est un estimateur sans biais de θ, alors il existeune certaine fonc-
tion de τ qui est un estimateur sans biais de θ, de risque ≤ R(θ̂, θ). Cette fonction est

égale à l’“espérance conditionnelle” IE[θ̂ | τ ], relativement à kn (X1 , . . . , Xn ) dX1 . . . dXn .

Corollaire 13.4.3 En présence d’une statistique exhaustive τ , les estimateurs sans biais
ne sont à rechercher que parmi les fonctions de τ .
Lorsqu’il n’existe qu’un seul estimateur sans biais fonction d’une statistique exhaustive,
alors il est optimal parmi les estimateurs sans biais.

n
P
Exemple Reprenons l’exemple 3 vu plus haut : µ = P(λ). La statistique X̄ := Xj /n
j=1
est exhaustive, et optimale pour l’estimation (sans biais) de λ . En effet, f (X̄) est sans biais
X (λn)x x
λn
ssi λe = f pour tout λ > 0, ce qui, par injectivité de la transformation
x∈IN
x! n
de Laplace, impose que f = Id est la seule solution.
Cherchons un estimateur optimal pour θ = e−λ , en observant que l’estimateur élémentaire

1{X1 =0} est sans biais. La statistique X̄ est encore exhaustive, et donc IP X1 = 0 X̄

est un bon estimateur, en fait optimal.

Or
(voir
l’exercice 7.3) la loi de X1 sachant nX̄
est B(nX̄, 1/n) , de sorte que IP X1 = 0 X̄ = (1 − 1/n)nX̄ 6= e−X̄ .

Exercice no 13.4.1 a) Soient X1 , . . . , Xn des v.a.r.i.i.d. uniformes sur un intervalle

[0, θ]. Montrer que max{X1 , . . . , Xn } est une statistique exhaustive pour θ, et que c’est
aussi l’estimateur du maximum de vraisemblance pour θ. Est-il biaisé ?
b) Soient X1 , . . . , Xn des v.a.r.i.i.d. de loi U([θ, θ0 ]). Trouver une statistique exhaustive
pour (θ, θ0 ), et l’estimateur du maximum de vraisemblance pour (θ, θ0 ).

49
Exercice no 13.4.2 Soient X1 , . . . , Xn , Y1 , . . . , Yn des v.a.r. indépendantes, les Xj de
loi E(λ), et les Yj de loi E(λ0 ). Trouver une statistique exhaustive pour (λ, λ0 ), et les
estimateurs du maximum de vraisemblance pour λ et λ0 . Ont-ils un biais ?

13.5 Intervalles de confiance

On veut ici quantifier la proximité d’un estimateur θ̂n (fonction d’un échantillon
x1 , . . . , xn ) avec le paramètre θ , supposé réel, de la loi inconnue IPθ . Précisément, on
cherche un intervalle Jn (θ̂n ) = ]bn (θ̂n ), b0n (θ̂n )[ , dont on puisse affirmer qu’il contient θ
avec une grande probabilité.

Définition 13.5.1 Fixons 0 < α < 1 . Un intervalle de confiance de niveau 1 − α est

un intervalle Jn (θ̂n ) = ]bn (θ̂n ), b0n (θ̂n )[ , fonction d’un estimateur θ̂n et de n , tel que

IPθ bn (θ̂n ) < θ < b0n (θ̂n ) ≥ 1 − α .

On peut souvent obtenir un tel intervalle de confiance sans trop de mal, du moins
lorsque la loi de l’estimateur θ̂n est accessible : on détermine pour cela d’abord un intervalle
symétrique (la symétrie étant facultative) [θ − an (θ) , θ + an (θ)] tel que pour tout θ ∈ Θ

IPθ θ − an (θ) < θ̂n < θ + an (θ) = 1 − α ;

puis on résoud autant que possible : θ − an (θ) < θ̂n < θ + an (θ) ⇐⇒ bn (θ̂n ) < θ < b0n (θ̂n ).
C’est souvent aisé, du moins pour les exemples simples, car les bornes θ ±an (θ) se trouvent
souvent être des fonctions continues strictement croissantes de θ .

La qualité (précision) d’un intervalle de confiance sera d’autant meilleure que l’esti-
mateur utilisé sera bon et que la taille n de l’échantillon sera grande.

13.5.2 Exemple 1 : Estimation de la moyenne d’une loi normale N (m, σ 2 )

Nous avons vu que dans ce cas la moyenne empirique est le meilleur des estimateurs
qu’il faut utiliser. Sa loi est N (m, σ 2 /n). Nous avons alors
(sans biais) : c’est donc x̄n √
aussitôt an (m) = qα/2 × σ/ n , notant qp le quantile d’ordre (1 − p) de la loi N (0, 1).
En effet, notant Φ la fonction de répartition gaussienne standard, nous avons : d’une part
√ √ √
n n n
1−α = IPθ m−an (m) < x̄n < m+an (m) = IPθ − σ an (m) < σ (x̄n −m) < σ an (m)
√ √
n n
= 2 N (0, 1) [0, σ an (m)] = 2 Φ σ an (m) − 1 ,
et d’autre part 2 Φ(qα/2 ) − 1 = 2 (1 − α/2) − 1 = 1 − α .
Donc un intervalle de confiance de niveau 1 − α pour la moyenne m de N (m, σ 2 ) est
i √ √ h
J = Jn (x̄n ) = x̄n − qα/2 × σ/ n , x̄n + qα/2 × σ/ n .

50
2
√ √
En particulier : N (m, σ ) x̄n − (1, 96) σ/ n < m < x̄n + (1, 96) σ/ n ≈ 0, 95 ,
√ √
et N (m, σ 2 ) x̄n − (1, 65) σ/ n < m < x̄n + (1, 65) σ/ n ≈ 0, 90 .

13.5.3 Exemple 2 : Estimation de la moyenne d’une loi normale N (m, ?)

La faiblesse du traitement de l’exemple précédent est qu’il suppose implicitement l’écart-

type σ connu, ce qui est rarement le cas. Un bon moyen de contourner cette difficulté est
de recourir au corollaire 13.3.2. Nous avons en effet (la loi de Student étant symétrique
comme la loi gaussienne standard) :
p
IP − zn−1,α/2 < (x̄n − m) n/Vn < zn−1,α/2 = 1 − α ,

où zn−1,p désigne le quantile d’ordre (1 − p) de la loi de Student à (n − 1) degrés de liberté.

Donc un intervalle de confiance (indépendant de σ !) de niveau 1 − α pour la moyenne
m de N (m, σ 2 ) est
i p p h
J 0 = Jn0 (x̄n ) = x̄n − zn−1,α/2 × Vn /n , x̄n + zn−1,α/2 × Vn /n .

13.5.4 Exemple 3 : Estimation de la variance d’une loi normale N (?, σ 2 )

Utilisant le bon estimateur Vn (de déviation standard, voir la proposition 13.2.1) et la

proposition 13.3.1, nous avons :

IP kn−1,α < (n − 1)σ −2 Vn < kn−1,α
0
= 1−α,

0
si χ2n−1 [kn−1,α , kn−1,α ] = 1 − α (χ2n−1 désignant la loi du χ2 à (n − 1) degrés de liberté).
Donc un intervalle de confiance (indépendant de m !) de niveau 1 − α pour la variance
σ 2 de N (m, σ 2 ) est i h
J 00 = Jn00 (Vn ) = (n−1)V
k0
n , (n−1)Vn
kn−1,α
.
n−1,α

13.5.5 Exemple 4 : Estimation de la moyenne d’une loi quelconque

Supposons ici seulement que n soit assez grand, et que la loi µm , de moyenne inconnue
m , admette un second moment. Notons σ son écart-type. Nous savons que la moyenne
empirique x̄n est un bon estimateur de m (et qu’il converge p.s. vers m).
Appliquons le théorème central limite :
√ √
(m − x̄n ) n /σ = (nm − x1 − · · · − xn )/(σ n ) doit être proche d’une v.a. G de loi N (0, 1).

51
√ √ √
Posant α := (a −√x̄n ) n /σ et β := (b − x̄n ) n /σ , ce qui équivaut à a = x̄n + α σ/ n
et b = x̄n + β σ/ n , on obtient :
√
IP (m ∈ J ≡ [a, b]) = IP α ≤ (m − x̄n ) n /σ ≤ β ≈ IP (G ∈ [α, β]).

On choisit ordinairement (mais ce n’est pas une obligation) l’intervalle [α, β] centré, et
de sorte que IP (G ∈ [α, β]) vaille (le plus souvent) 0, 9 ou 0, 95 . On obtient par exemple :
√ √
IP x̄n − (1, 96) σ/ n ≤ m ≤ x̄n + (1, 96) σ/ n ≈ 0, 95 .
√ √
Donc J = [x̄n − (1, 96) σ/ n , x̄n +(1, 96) σ/ n ] est (presque !) un intervalle de confiance
à 95% pour m .
Il est généralement irréaliste de supposer l’écart-type σ connu. Comme dans l’exemple
2 ci-dessus, on peut le remplacer par l’estimateur (voir la proposition 13.2.1 ci-dessus) :
p
σ ≈ σ̂ = σ̂(x1 , . . . , xn ) = Vn .
h p p i
L’intervalle J = x̄n + α Vn /n , x̄n + β Vn /n est alors réellement fonction seulement
de l’échantillon (x1 , . . . , xn ) et de n . Mais son niveau n’est plus nécessairement le même.

Exercice no 13.5.1 Une caractéristique électrique d’un composant électronique varie, du

fait des dispersions de fabrication, suivant une loi normale N (µ, µ2 ). On se propose
d’estimer son espérance µ par un intervalle de confiance. Un prélèvement de 20 com-
posants effectué sur un lot de série a donné les résultats suivant : 10,1 ; 10,5 ; 9,4 ; 10,2 ;
9,5 ; 9,8 ; 10,1 ; 10,3 ; 10,6 ; 9,7 ; 10,2 ; 10,4 ; 10,3 ; 9,6 ; 9,9 ; 9,8 ; 10,1 ; 10,3 ; 10,5 ; 9,8 .
(x = 10, 055).
a) Construire un intervalle de confiance pour µ de niveau de confiance 90%. Est-il le plus
court parmi tous les intervalles de confiance de niveau de confiance 90% ?
b) Construire un intervalle de confiance pour µ de niveau de confiance 95%.
Exercice no 13.5.2 La fiabilité dans le temps d’un composant électrique, c’est-à-dire sa
durée de vie X, est supposée de type exponentiel : IP (X ≥ t) = exp(−t/λ), t ≥ 0 . On
cherche à estimer à l’aide d’un intervalle de confiance le paramètre λ. Si la moyenne
observée d’un échantillon de taille n est x, donner un intervalle de confiance de niveau de
confiance 95% du paramètre λ. Est-il le plus court parmi tous les intervalles de confiance
à 95% (lorsque n est grand) ?
Exercice no 13.5.3 Ayant lu dans le magazine ELLE du 19.8.02 que 55% des Français util-
isaient des bains moussants, vous décidez de vérifier vous-même l’affirmation du magazine
ELLE par un mini-sondage, en posant autour de vous la question :
“Utilisez-vous des bains moussants ? OUI, NON”
et en construisant un intervalle de confiance à 90% sur la proportion considérée.

52
a) Vous envisagez de ne considérer l’affirmation comme confirmée que si cet intervalle
à 90% basé sur le groupe des personnes interrogées est inclus dans [54%; 56%]. Est-ce
raisonnable ?
b) Découragé(e) par la réponse obtenue en a), vous vous contentez d’un échantillon de
50 personnes. Si la proportion de oui est de 53% parmi les 50 réponses, déterminez un
intervalle de confiance à 90% .

14 Tests
Au lieu d’estimer le paramètre inconnu θ de la loi IPθ , on cherche ici à savoir s’il
vérifie une hypothèse statistique notée H0 , identifiée à une partie de Θ, et nommée aussi
hypothèse nulle. Pour cela on emploie un test. Par exemple H0 = {θ < 7}, et le test
est une règle devant permettre de trancher ou de parier, en fonction d’un échantillon
statistique relatif à IPθ , si l’hypothèse nulle H0 doit être acceptée ou bien rejetée. Dans le
cas le plus général, on considère une hypothèse alternative H1 , contre laquelle on teste H0 ,
conditionnellement à H0 ∪ H1 . Ici on a choisi simplement H1 = (H0 )c = Θ \ H0 .
Bien entendu, l’acceptation ou le rejet de l’hypothèse ne peut pas être une décision
déterministe : il y a toujours en pratique une probabilité non nulle que la décision arrêtée
soit erronée. Il faut donc décider a priori un seuil de confiance, dit aussi niveau de test,
c’est-à-dire une probabilité de rejet à tort. La plupart du temps, on fixe ce niveau à 5%.

La décision d’acceptation ou de rejet de l’hypothèse nulle H0 sera prise en fonction

d’un estimateur θ̂n de θ , bien entendu de la meilleure qualité possible, et de loi calculable.
Ce sera la “variable de décision”.
On nomme région critique l’événement W := {θ̂n ∈ Θ1 }, Θ1 étant l’ensemble déterministe
(calculé) des valeurs pour lesquelles on décide a priori de rejeter H0 .
Donc : si ω ∈ W , on rejette H0 , et si ω ∈ W c , on accepte H0 . Et on veut que

sup IPθ (W ) = sup IPθ (rejeter H0 ) = 0, 05 .

θ∈H0 θ∈H0

Il y a clairement deux types de risque : rejeter H0 à tort, et accepter H0 à tort.

Exemples : 1) Évacuer Basse-Terre (Guadeloupe) alors que l’explosion attendue du volcan
de la Soufrière ne se produira pas ; ou ne pas l’avoir évacuée alors que l’explosion a lieu.
2) Classer malade un individu qui ne l’est pas ; ou classer sain un individu malade.

On voit sur ces deux exemples : d’une part que la décision prise peut être très lourde
de conséquences, et d’autre part que les deux types de risque ne revêtent pas le même
ordre de gravité. Dans le premier exemple, on prendra pour H0 le sous-ensemble de Θ
correspondant au déclenchement de l’explosion (et donc le rejet de H0 se traduira par
la non-évacuation), et dans le second, le sous-ensemble de Θ correspondant à la maladie

53
(et donc le rejet de H0 se traduira par le classement parmi les individus sains et le non-
traitement). Il est en effet tout indiqué de fixer un seuil bas (5%, voire encore moins) pour
le risque le plus grave, soit le rejet de H0 à tort, dit risque de première espèce.
Quant au risque de deuxième espèce, soit l’acceptation de H0 à tort, il est contrôlé
par la quantité
inf IPθ (W ) = inf IPθ (rejeter H0 ) ,
θ∈H1 θ∈H1

qu’on nomme puissance du test, et qu’on souhaite la plus grande possible (dans les 2
exemples ci-dessus, cela signifie minimiser le risque de décision d’évacuer Basse-Terre alors
qu’il n’y a pas d’explosion, comme celle de C. Allègre contre l’avis de H. Tazieff en 1976,
ou bien de décision de traiter un individu sain).

L’élaboration d’un test suit ainsi la démarche :

- fixation du seuil ou niveau α (5% bien souvent) ;
- choix de l’hypothèse nulle H0 (⊂ Θ , et de H1 , souvent Θ \ H0 ) ;
- choix de l’estimateur θ̂n comme variable de décision ;
- choix de l’allure de la région critique W = {θ̂n ∈ Θ1 } (et donc de Θ1 ⊂ Θ) ;
- calcul de Θ1 en fonction du seuil α (et de la loi de θ̂n ) ;
- calcul éventuel de la puissance (qui doit être aussi grande que possible) ;
- calcul de la valeur expérimentale θ̂n (ω) ;
- conlusion : rejet de H0 si ω ∈ W , et acceptation sinon.

14.1 Test de Neyman-Pearson

On se limite ici au cas très simple où H0 = {θ0 } et H1 = {θ1 } sont des singletons.
Z (voir la section 13.1) f (x | θ)Z= f (x1 , . . . , xn | θ),
En terme de la fonction de vraisemblance
nous avons simplement α = IPθ0 (W ) = f (x | θ0 ) dx , et IPθ1 (W ) = f (x | θ1 ) dx , qui
W W
est la puissance et doit être la plus grande possible.

Proposition 14.1.1 (Neyman-Pearson) Lorsque H0 = {θ0 } et H1 = {θ1 } sont des

n f (x | θ ) o
0
singletons, il y a une région critique optimale : W = x ∈ IRn ≤ kα , kα étant

f (x | θ1 )
déterminé par l’équation α = IPθ0 (W ).

54
14.1.2 Exemple 1 : Test de la moyenne d’une loi normale N (m, σ 2 )
√ n
h P i
Nous avons dans ce cas f (x | m) = (σ 2π )−n exp − (xj − m)2 /(2σ 2 ) , et donc
j=1
selon la proposition 14.1.1, le meilleur choix de test est :
nX n h i o
σ2
W= (xj − m1 )2 − (xj − m0 )2 ≤ 2σ 2 log kα = {(x̄n − m0 +m1
2
)(m0 − m1 ) ≤ n
log kα}.
j=1

Considérons le cas m0 < m1 (le cas contraire se traite de la même façon). Alors
n o
m0 +m1 σ 2 log kα
W = x̄n ≥ 2 − n(m1 −m0 ) =: λ , avec kα (ou λ) déterminé par (notant Φ la fonction

de répartition gaussienne centrée réduite) : α = IPm0 (X̄n ≥ λ) = 1 − Φ λ−m√ 0 , id est
σ/ n
√
λ = m0 + (σ/ n ) qα .
Nous aboutissons à la règle de décision du test, en fonction de la variable de décision
x̄n (la moyenne empirique, qui est ici l’estimateur optimal) : on accepte la valeur m0 pour
la moyenne si x̄n < λ , et on accepte la valeur m1 sinon.
m1 −m
Notons que la puissance de ce test est IPm1 (X̄n ≥ λ) = 1 − Φ[ λ−m
√ 1 ] = 1 − Φ[qα −
σ/ n
√ 0 ].
σ/ n

14.1.3 Exemple 2 : Test de la moyenne d’une loi normale N (m, ?)

Comme dans la section 13.5, il est préférable de ne pas supposer l’écart-type σ connu,
et pour
n cela, recourant
o au corollaire 13.3.2, d’utiliser la loi de Student. Nous avons toujours
W = x̄n ≥ λ , avec cette fois λ déterminé par :
p
α = IPm0 (X̄n ≥ λ) = IP Tn−1 ≥ (λ − m0 ) n/vn , où Tn−1 suit la loi de Student à (n−1)
degrés de liberté, et où vn désigne
p la déviation standard relative à l’échantillon (x1 , . . . , xn ).
De sorte que λ = m0 + zn−1,α vn /n , où zn−1,α désigne le quantile d’ordre α de la loi
de Student à (n − 1) degrés de liberté.
Nous aboutissons donc à une règle de décision du test identique à celle de l’exemple
précédent, pour une valeur de λ différente, et indépendante de l’écart-type σ .
p
La puissance de ce test est IPm1 (X̄n ≥ λ) = IP Tn−1 ≥ zn−1,α − (m1 − m0 ) n/vn .

14.1.4 Exemple 3 : Test de la variance d’une loi normale N (m, σ 2 )

Appliquons de nouveau la proposition 14.1.1 (de Neyman-Pearson) : le meilleur choix

√ h Pn i
de test avec ici f (x | σ) = (σ 2π )−n exp − (xj − m)2 /(2σ 2 ) est :
j=1

n o n n
X o
(x | σ0 )
W = x ff (x
1 −2 −2 2
| σ1 )
≤ kα = x [σ
2 1 − σ0 ] (x j − m) ≤ log kα − n log(σ1 /σ0 ) .
j=1

55
n
1
Alors utilisant comme variable de décision la variance empirique σ̂n2 = (xj − m)2 (qui
P
n
j=1
est un bon estimateur, lorsque la moyenne m est connue), et considérant le cas σ0 > σ1
(le cas contraire se traite de la même façon), nous avons :
n . o
1 −2 −2
W = x σ̂n ≤ 2 [ n log kα − log(σ1 /σ0 )] [σ1 − σ0 ] =: {σ̂n ≤ s}.

Puisque n σ̂n2 /σ02 suit sous IPσ0 la loi χ2n , la valeur kα est déterminée par :
h i
2 −2 2 2σ12
α = IPσ0 [W ] = IP [χn ≤ n s σ0 ] = IP χn ≤ σ2 −σ2 [log kα − n log(σ1 /σ0 )] .
0 1
h i
2σ 2
La puissance du test est IPσ1 [W ] = IP [χ2n ≤ n s σ1−2 ] = IP χ2n ≤ σ2 −σ0 2 [log kα − n log( σσ10 )] .
0 1

En conclusion, on accepte la valeur σ1 si σ̂n ≤ s , et on accepte la valeur σ0 sinon.

14.1.5 Exemple 4 : Test de la variance d’une loi normale N (?, σ 2 )

Comme dans la section 13.5, il est naturel d’utiliser ici (dans le cas d’une moyenne
inconnue) comme variable de décision le bon estimateur Vn (de déviation standard, voir la
proposition 13.2.1). La proposition 14.1.1 (de Neyman-Pearson) ne s’applique pas directe-
ment, mais les exemples précédents conduisent à choisir (toujours dans le cas σ0 > σ1 ) une
région critique du même type : W = {Vn ≤ v}. Puisque (n − 1)Vn /σ02 suit sous IPσ0 la
loi χ2n−1 , la valeur v est déterminée par :
α = IPσ0 [W ] = IP [χ2n−1 ≤ (n − 1)v σ0−2 ].
La puissance du test est IPσ1 [W ] = IP [χ2n−1 ≤ (n − 1)v σ1−2 ].
En conclusion, on accepte la valeur σ1 si Vn ≤ v , et on accepte la valeur σ0 sinon.

14.2 Test de la moyenne d’une loi quelconque

On ne suppose plus ici que l’alternative soit entre deux singletons, mais seulement que
n est assez grand, et que la loi IPm , de moyenne inconnue m , admet un second moment.
Notons σ son écart-type. Nous savons que la moyenne empirique x̄n est un très bon
estimateur de m (et qu’il converge p.s. vers m).
Si par exemple H0 = {θ ≤ a}, on prendra une région critique de la forme {x̄n > a0 } (si
la statistique observée tombe dedans, on décide de rejeter l’hypothèse nulle), avec a0 > a
à déterminer pour que le niveau soit bien 5%, c’est-à-dire ici pour que
IPa (X̄n > a0 ) = 0, 05 (si H0 = {θ ≤ a}).

Pour√n grand, si σ est supposé connu, recourant au théorème central limite, on assi-
milera n (X̄n − a)/σ à une variable gaussienne centrée réduite G , de sorte que a0 doit
vérifier :
√ √ √
0 0 0
0, 05 = IPa (X̄n > a ) = IPa n (X̄n − a)/σ > n (a − a)/σ ≈ IP G > n (a − a)/σ ,

56
√ √
ce qui donne n (a0 − a)/σ ≈ 1, 65 , id est a0 ≈ a + (1, 65) σ/ n .
Toutefois, comme déjà dit dans la section 13.5, il est généralement irréaliste de supposer
l’écart-type σ connu. Comme dans les exemples vus plus haut, on peut recourir à des tests
plus sophistiqués, ou estimer la variance via la déviation standard...
Exemples 1) IPθ = E(1/θ) . Via le changement de variable s1 = x1 , . . . , sn = x1 + · · · + xn :
Z Z
x +···+x
0 −( 1 a n )
1
IPa (X̄n < a ) = an e dx1 . . . dxn = 0
e−(x1 +···+xn ) dx1 . . . dxn
x1 +···+xn
n
<a0 x1 +···+xn <n aa
Z Z na0 /a Z
−sn
= e ds1 . . . dsn = ds1 . . . dsn−1 e−sn dsn
{0<s1 <···<sn <na0 /a} 0 {0<s1 <···<sn−1 <sn }

na0 /a n−1
sn−1 (na0 /a)j X (na0 /a)j
Z
0 0
X
= e−s ds = 1 − e−na /a = e−na /a .
0 (n − 1)! j=0
j! j≥n
j!
Il est assez légitime d’approcher la loi P(na0 /a) par une loi normale, id est N (na0 /a, na0 /a).
Ce qui donne (pour une variable gaussienne centrée réduite G) :
√ p p
0, 05 = IPa⊗n (X̄n > a0 ) = P(na0 /a)([0, n[) ≈ IP G > n ( a0 /a − a/a0 ) ,
√
et donc a0 /a ≈ 1 + (1, 65)/(2 n ).
X (na)j
2) IPθ = P(θ) . Alors IPa (X̄n > a0 ) = P(na)[{j | j > na0 }] = e−na .
j>na0
j!
Il est légitime d’approcher la loi P(na) par une loi normale, id est N (na, na). Ce qui
donne (pour une variable gaussienne centrée réduite G) :
p
0, 05 = IPa (X̄n > a0 ) ≈ IP G > n/a (a0 − a) ,
p
et donc a0 ≈ a + (1, 65) a/n .
Exercice no 14.1 Deux associés A et B se partagent les tâches d’un cabinet commun de
conseil. L’associé A pense qu’il traite moins de 30% des dossiers. Pour vérifier cela, il
décide de choisir au hasard un échantillon de 100 dossiers (traités soit par lui-même, soit
par l’associé B), sur lesquels il prévoit d’effectuer deux tests, avec le même risque de rejet
à tort de 5%, en prenant successivement comme hypothèse nulle
i) H0 : p ≤ 30% ii) H00 : p ≥ 30% , p étant la proportion réelle des dossiers traités par A.
a) Pour combien de dossiers traités par A (au plus) l’hypothèse H0 est-elle acceptée ?
b) Pour combien de dossiers traités par A H00 est-elle rejetée ? acceptée ?
c) Déterminer la probabilité d’accepter l’hypothèse H0 si la proportion réelle de dossiers
traités par A est de 40%.
d) Déterminer la probabilité d’accepter l’hypothèse H00 si la proportion réelle de dossiers
traités par A est de 40%.

57
14.3 Analyse de la variance (à un facteur)
Il s’agit ici de l’une des procédures les plus utilisées dans la pratique. Il s’agit de
comparer les moyennes de plusieurs variables gaussiennes de même variance fixe, et de
tester en particulier leur égalité.
La donnée typique est ici une suite de variables aléatoires gaussiennes supposées indé-
pendantes Yij , doublement indexées par (i, j) ∈ {1, . . . , I} × {1, . . . , J}, dont on se donne
a priori les lois : IPYij = N (mi , σ 2 ), qui ne peuvent différer que par leur moyenne
m1 , . . . , mI . Le facteur (ici monodimensionnel) dont on recherche l’impact (l’incidence)
éventuel(le) sur la statistique est l’indice i . Voyons précisément comment tester l’hypo-
thèse nulle H0 := {m1 = . . . = mI } contre H1 := H0c .
Le principe de ce test (dû à Fisher) est de comparer les dispersions des moyennes
observées à la dispersion globale. Posons pour cela :
J
X I X
X J I
X J
X I X
X J
ȳi := 1
J
yij ; ȳ := 1
IJ
yij = 1
I
ȳi ; σi2 := 1
J
2
|yij −ȳi | ; σ :=2 1
IJ
|yij −ȳ|2 .
j=1 i=1 j=1 i=1 j=1 i=1 j=1

Lemme 14.3.1 La variance globale est la somme de la variance des moyennes (variance
VF due au facteur) et de la moyenne des variances (variance résiduelle VR ) :
I
X I
X
2 2
σ = 1
I
(ȳi − ȳ) + 1
I
σi2 =: VF + VR .
i=1 i=1

Preuve Nous avons

X X Xh X X 2 i X
1
IJ
yij2 − 1
I
ȳi2 = 1
I
1
J
yij2 − 1
J
yij = 1
I
σi2 ,
i,j i i j j i
X X X
d’où σ2 = 1
IJ
yij2 − ȳ 2 = 1
I
ȳi2 − ȳ 2 + 1
I
σi2 = VF + VR .
i,j i i

(Noter la ressemblance avec la section 12.6 sur les variations expliquée et inexpliquée.)
Si l’hypothèse nulle H0 = {m1 = . . . = mI } est correcte, alors VF doit être petite par
rapport à VR . Pour les comparer précisément, on les normalise par leurs degrés de liberté,
de sorte qu’on considère :
I
- la variance corrigée due au facteur : SF := I−1
VF ; et
J
- la variance résiduelle corrigée : SR := J−1
VR ;
- une région critique du type W = {ϕ := SF /SR ≥ c}.
Dans le cas où H0 est vraie, la loi de ϕ := SF /SR est celle du rapport de deux variables χ2
indépendantes, qu’on nomme loi de Fisher, et qui est tabulée. On obtient ainsi c ≈ 4, 066
pour que IPH0 [ϕ ≥ c] = 0, 05 , et on accepte H1 si ϕ ≥ c , et H0 sinon.

58
Exemple : Études de la stabilité dans le temps de l’hydrophilie d’éponges artificielles.
éponge no après indice d’hydrophilie
1 3 mois 43
2 3 mois 40
3 3 mois 41
4 6 mois 36
5 6 mois 40
6 6 mois 39
7 12 mois 28
8 12 mois 24
9 12 mois 33
10 24 mois 32
11 24 mois 29
12 24 mois 32
Nous avons alors successivement :
I = 4 ; J = 3 ; ȳ1 = 41, 33 ; ȳ2 = 38, 33 ; ȳ3 = 28, 33 ; ȳ4 = 31 ;
σ 2 = 32, 85 ; σ12 = 1, 56 ; σ22 = 2, 89 ; σ32 = 13, 56 ; σ42 = 2 ;
VF = 27, 85 ; VR = 5 ; SF = 37, 13 ; SR = 7, 5 ; ϕ ≈ 4, 95 > 4, 066 .
De sorte qu’il convient ici de rejeter l’hypothèse de stabilité dans le temps de l’hydrophilie.

BIBLIOGRAPHIE

BRÉMAUD P. Introduction aux probabilités. Springer, Berlin 1984.

COTTRELL M., GENON-CATALOT V., DUHAMEL C., MEYRE T.
Exercices de probabilités. Cassini, Paris 1999.

FOATA D., FUCHS A. Calcul des probabilités. Dunod, Paris 1998, 2003.
GOLDFARB B., PARDOUX C. Introduction à la méthode statistique. Dunod, 2004.

LESIGNE É. Une introduction aux théorèmes limites du calcul des probabilités.
Ellipses, Paris 1997.

LETAC G. Intégration et probabilités. Masson, Paris 1997.

METIVIER M., NEVEU J. Cours de probabilités. École polytechnique, 1979.
REES D.G. Essential Statistics. Chapman & Hall, London New York 1989.
ROSS S. Introduction to probability models. Academic press, 1980.

SAPORTA G. Probabilités, analyse des données et statistique. Technip, 2006.

59
Table de la loi normale centrée réduite : [105 Φ(x)]
x ,.0 ,.1 ,.2 ,.3 ,.4 ,.5 ,.6 ,.7 ,.8 ,.9
0,0 50000 50399 50798 51197 51595 51994 52392 52790 53188 53586
0,1 53983 54380 54776 55172 55567 55962 56356 56749 57142 57535
0,2 57926 58317 58706 59095 59483 59871 60257 60642 61026 61409
0,3 61791 62172 62552 62930 63307 63683 64058 64431 64803 65173
0,4 65542 65910 66276 66640 67003 67364 67724 68082 68439 68793
0,5 69146 69497 69847 70194 70540 70884 71226 71566 71904 72240
0,6 72575 72907 73237 73565 73891 74215 74537 74857 75175 75490
0,7 75804 76115 76424 76730 77035 77337 77637 77935 78230 78524
0,8 78814 79103 79389 79673 79955 80234 80511 80785 81057 81327
0,9 81594 81859 82121 82381 82639 82894 83147 83398 83646 83891
1,0 84134 84375 84614 84849 85083 85314 85543 85769 85993 86214
1,1 86433 86650 86864 87076 87286 87493 87698 87900 88100 88298
1,2 88493 88686 88877 89065 89251 89435 89617 89796 89973 90147
1,3 90320 90490 90658 90824 90988 91149 91309 91466 91621 91774
1,4 91924 92073 92220 92364 92507 92647 92785 92922 93056 93189
1,5 93319 93448 93574 93699 93822 93943 94062 94179 94295 94408
1,6 94520 94630 94738 94845 94950 95053 95154 95254 95352 95449
1,7 95543 95637 95728 95818 95907 95994 96080 96164 96246 96327
1,8 96407 96485 96562 96638 96712 96784 96856 96926 96995 97062
1,9 97128 97193 97257 97320 97381 97441 97500 97558 97615 97670
2,0 97725 97778 97831 97882 97932 97982 98030 98077 98124 98169
2,1 98214 98257 98300 98341 98382 98422 98461 98500 98537 98574
2,2 98610 98645 98679 98713 98745 98778 98809 98840 98870 98899
2,3 98928 98956 98983 99010 99036 99061 99086 99111 99134 99158
2,4 99180 99202 99224 99245 99266 99286 99305 99324 99343 99361
2,5 99379 99396 99413 99430 99446 99461 99477 99492 99506 99520
2,6 99534 99547 99560 99573 99585 99598 99609 99621 99632 99643
2,7 99653 99664 99674 99683 99693 99702 99711 99720 99728 99736
2,8 99744 99752 99760 99767 99774 99781 99788 99795 99801 99807
2,9 99813 99819 99825 99831 99836 99841 99846 99851 99856 99861
3,0 99865 99869 99874 99878 99882 99886 99889 99893 99896 99900
3,1 99903 99906 99910 99913 99916 99918 99921 99924 99926 99929
3,2 99931 99934 99936 99938 99940 99942 99944 99946 99948 99950
3,3 99952 99953 99955 99957 99958 99960 99961 99962 99964 99965
3,4 99966 99968 99969 99970 99971 99972 99973 99974 99975 99976
3,5 99977 99978 99978 99979 99980 99981 99981 99982 99983 99983
3,6 99984 99985 99985 99986 99986 99987 99987 99988 99988 99989
3,7 99989 99990 99990 99990 99991 99991 99992 99992 99992 99992
3,8 99993 99993 99993 99994 99994 99994 99994 99995 99995 99995
3,9 99995 99995 99996 99996 99996 99996 99996 99996 99997 99997
4,0 99997 99997 99997 99997 99997 99997 99998 99998 99998 99998
4,1 99998 99998 99998 99998 99998 99998 99998 99998 99999 99999

La fonction de répartition Φ de la loi normale centrée réduite est définie par

Z x
1 t2
Φ(x) := √ e− 2 dt = 1 − Φ(−x) (∀x ∈ IR) .
2π −∞

La table donne les valeurs de 105 Φ(x) pour les valeurs positives de x , de 0 jusqu’à 4,19, avec
un pas de 0,01. Ces valeurs sont arrondies à l’unité la plus proche. Cette table est à double
entrée, l’entrée en ligne donnant les deux premiers chiffres de x et l’entrée en colonne le chiffre
des centièmes. Exemples : Φ(0, 71) ' 0, 76115 ; Φ(2, 48) ' 0, 99343 .

Vous aimerez peut-être aussi

Étude Physique-Chimie: Haut-parleur et Membranes
Pas encore d'évaluation
Étude Physique-Chimie: Haut-parleur et Membranes
12 pages
Insat A.U. 2020/2021
Pas encore d'évaluation
Insat A.U. 2020/2021
2 pages
Rapport Stage INSA CVL 2023 Template
Pas encore d'évaluation
Rapport Stage INSA CVL 2023 Template
13 pages
Intervention Classe Choix Spe Diapo 2024 Premiere
Pas encore d'évaluation
Intervention Classe Choix Spe Diapo 2024 Premiere
19 pages
Team Robots Tome 01 La Raison Du Plus Fort
Pas encore d'évaluation
Team Robots Tome 01 La Raison Du Plus Fort
80 pages
Corrigé Test de Niveau en Français
Pas encore d'évaluation
Corrigé Test de Niveau en Français
1 page
Test de niveau français 3ème corrigé
0% (1)
Test de niveau français 3ème corrigé
1 page
Correction Épreuve Commune - Nov 2024-1
Pas encore d'évaluation
Correction Épreuve Commune - Nov 2024-1
3 pages
Exercices Brevets Géométrie
Pas encore d'évaluation
Exercices Brevets Géométrie
23 pages
100 Exos Math
Pas encore d'évaluation
100 Exos Math
39 pages
Travaux Dirigés1
Pas encore d'évaluation
Travaux Dirigés1
8 pages
Mouvements à Force Centrale et Lois de Kepler
Pas encore d'évaluation
Mouvements à Force Centrale et Lois de Kepler
27 pages
Exercices sur les forces centrales
Pas encore d'évaluation
Exercices sur les forces centrales
8 pages
Mouvements dans un champ de forces centrales
100% (1)
Mouvements dans un champ de forces centrales
13 pages
Cours Force Centrale
Pas encore d'évaluation
Cours Force Centrale
18 pages
Chapitre17 - Forces Centrales
Pas encore d'évaluation
Chapitre17 - Forces Centrales
6 pages
Activité 3 Rôle Du Microbiote
Pas encore d'évaluation
Activité 3 Rôle Du Microbiote
2 pages
LES DISPOSITIFS D'ancrage
Pas encore d'évaluation
LES DISPOSITIFS D'ancrage
12 pages
Analyse de la préface des Misérables
Pas encore d'évaluation
Analyse de la préface des Misérables
8 pages
Maths 3 e
Pas encore d'évaluation
Maths 3 e
67 pages
Physique Chimie 1 Centrale MP 2016 Corrigé
Pas encore d'évaluation
Physique Chimie 1 Centrale MP 2016 Corrigé
6 pages
Chapitre 2 Electronique
Pas encore d'évaluation
Chapitre 2 Electronique
81 pages
Exercices Brevet Calcul Littéral
Pas encore d'évaluation
Exercices Brevet Calcul Littéral
36 pages
1685440783142-Plan-Etudes Insat 22 23 Web
Pas encore d'évaluation
1685440783142-Plan-Etudes Insat 22 23 Web
28 pages
Sujet Des Exercices de Brevet Sur Le Triangle Rectangle Et La Trigonométrie Pour La Troisième (3ème)
Pas encore d'évaluation
Sujet Des Exercices de Brevet Sur Le Triangle Rectangle Et La Trigonométrie Pour La Troisième (3ème)
5 pages
Révision DNB
Pas encore d'évaluation
Révision DNB
3 pages
Rôles essentiels du microbiote humain
Pas encore d'évaluation
Rôles essentiels du microbiote humain
3 pages
Mission Bepi-Colombo et Pendule de Foucault
Pas encore d'évaluation
Mission Bepi-Colombo et Pendule de Foucault
4 pages
Introduction aux Coordonnées Sphériques
Pas encore d'évaluation
Introduction aux Coordonnées Sphériques
22 pages
2-L'atome Et L'ion
Pas encore d'évaluation
2-L'atome Et L'ion
3 pages
Correction Examen DS Électro 2021
Pas encore d'évaluation
Correction Examen DS Électro 2021
6 pages
Révision Physique : Satellite ATS 2014
Pas encore d'évaluation
Révision Physique : Satellite ATS 2014
60 pages
COURS Force Centrale
Pas encore d'évaluation
COURS Force Centrale
19 pages
Lois de Kepler et Mouvement Orbital
100% (1)
Lois de Kepler et Mouvement Orbital
1 page
Chap - 02 Dynamique Du Point Matériel - 2023 - 2024
Pas encore d'évaluation
Chap - 02 Dynamique Du Point Matériel - 2023 - 2024
18 pages
Rapport de Stage chez SITRAMEC
Pas encore d'évaluation
Rapport de Stage chez SITRAMEC
22 pages
Notions de Bases de Calcul
Pas encore d'évaluation
Notions de Bases de Calcul
5 pages
Devoir de Synthèse N°1 - Sciences Physiques - 3ème Mathématiques (2015-2016) Mme Grissa Hafidha
100% (1)
Devoir de Synthèse N°1 - Sciences Physiques - 3ème Mathématiques (2015-2016) Mme Grissa Hafidha
3 pages
Exercices de Mathématiques Orales 2018
Pas encore d'évaluation
Exercices de Mathématiques Orales 2018
23 pages
Activité - L'aire Urbaine de Toulouse - Quint
Pas encore d'évaluation
Activité - L'aire Urbaine de Toulouse - Quint
4 pages
Géométrie : Droites et Plans
Pas encore d'évaluation
Géométrie : Droites et Plans
9 pages
3e - Livret de Révisions
Pas encore d'évaluation
3e - Livret de Révisions
34 pages
Formulaire Scientifique
Pas encore d'évaluation
Formulaire Scientifique
12 pages
Cours d'Électromagnétisme Classique
Pas encore d'évaluation
Cours d'Électromagnétisme Classique
49 pages
Identification des ions par précipitation
Pas encore d'évaluation
Identification des ions par précipitation
5 pages
Mécanique: I. Étude D'un Satellite de Télédétection Terrestre
Pas encore d'évaluation
Mécanique: I. Étude D'un Satellite de Télédétection Terrestre
3 pages
Concours Blanc 2017: PTSI - Lycée C.Coeffin
Pas encore d'évaluation
Concours Blanc 2017: PTSI - Lycée C.Coeffin
15 pages
Mécanique du Point: Forces Centrales
Pas encore d'évaluation
Mécanique du Point: Forces Centrales
51 pages
Mécanique Générale
Pas encore d'évaluation
Mécanique Générale
27 pages
Le Monde Des Ados 502 - 21 Septembre 2022
Pas encore d'évaluation
Le Monde Des Ados 502 - 21 Septembre 2022
52 pages
Réponses aux exercices de polynômes
100% (1)
Réponses aux exercices de polynômes
3 pages
Formulaire Maths Pour La Physique
Pas encore d'évaluation
Formulaire Maths Pour La Physique
23 pages
3šme Ch5act4 - Corrig
Pas encore d'évaluation
3šme Ch5act4 - Corrig
2 pages
DS Description Mouvement1
Pas encore d'évaluation
DS Description Mouvement1
6 pages
Mathématiques Tle ES : Sujets et Exercices
Pas encore d'évaluation
Mathématiques Tle ES : Sujets et Exercices
101 pages
Cours Intégrale Bac BIOF - FF
Pas encore d'évaluation
Cours Intégrale Bac BIOF - FF
15 pages
Supelec Sujet TSI Physique Chimie 2 2015
Pas encore d'évaluation
Supelec Sujet TSI Physique Chimie 2 2015
12 pages
6-Reduction MP 2022
Pas encore d'évaluation
6-Reduction MP 2022
46 pages
Série Corrigée Avec Correction - Chimie SERIE ATOME Et Élément Chimique - 2ème Sciences Exp (2012-2013) MR SASSI LASSAAD PDF
Pas encore d'évaluation
Série Corrigée Avec Correction - Chimie SERIE ATOME Et Élément Chimique - 2ème Sciences Exp (2012-2013) MR SASSI LASSAAD PDF
2 pages
Introduction aux Vecteurs et Matrices
Pas encore d'évaluation
Introduction aux Vecteurs et Matrices
53 pages
Comparaison Golay Hamming
Pas encore d'évaluation
Comparaison Golay Hamming
6 pages
Corps Deformables - FM
Pas encore d'évaluation
Corps Deformables - FM
24 pages
Séries et Transformées de Fourier
Pas encore d'évaluation
Séries et Transformées de Fourier
4 pages
Gestion Thermique Des Systèmes Électroniques - NCAB Group
Pas encore d'évaluation
Gestion Thermique Des Systèmes Électroniques - NCAB Group
11 pages
Cours Mécanique Du Point
Pas encore d'évaluation
Cours Mécanique Du Point
116 pages
Chap 4 - Cours - Convolution Et Corrélation ELN2 - 2021
Pas encore d'évaluation
Chap 4 - Cours - Convolution Et Corrélation ELN2 - 2021
15 pages
Analyse de filtres numériques
100% (1)
Analyse de filtres numériques
3 pages
Transformée de Laplace ELN 3
Pas encore d'évaluation
Transformée de Laplace ELN 3
13 pages
Mesincert
Pas encore d'évaluation
Mesincert
12 pages
Théorie de l'échantillonnage en radio
100% (2)
Théorie de l'échantillonnage en radio
8 pages
Filtrage de Wiener : Estimation et Optimisation
100% (1)
Filtrage de Wiener : Estimation et Optimisation
6 pages
Comprendre les incertitudes en physique
Pas encore d'évaluation
Comprendre les incertitudes en physique
6 pages
Fondamentaux des ADC en électronique
Pas encore d'évaluation
Fondamentaux des ADC en électronique
78 pages
CESI Signal 0607 Cours
Pas encore d'évaluation
CESI Signal 0607 Cours
106 pages
Décimation des convertisseurs Sigma-Delta
Pas encore d'évaluation
Décimation des convertisseurs Sigma-Delta
34 pages
Cours MOSE2015
Pas encore d'évaluation
Cours MOSE2015
87 pages
Transmission EISTI Guy-Almouzni PDF
Pas encore d'évaluation
Transmission EISTI Guy-Almouzni PDF
209 pages
Cours Prob Phys
Pas encore d'évaluation
Cours Prob Phys
66 pages
Applications linéaires et endomorphismes
Pas encore d'évaluation
Applications linéaires et endomorphismes
4 pages
2020-2021 4.tech Derivabilite
100% (1)
2020-2021 4.tech Derivabilite
8 pages
TD F256 Corrigé
Pas encore d'évaluation
TD F256 Corrigé
3 pages
Nombres complexes : Formes algébriques et trigonométriques
100% (1)
Nombres complexes : Formes algébriques et trigonométriques
7 pages
11 Sujets Revision Bac Sciences 2019
Pas encore d'évaluation
11 Sujets Revision Bac Sciences 2019
30 pages
Propriétés et limites de la fonction arctan
100% (1)
Propriétés et limites de la fonction arctan
2 pages
Commutants et Endomorphismes
0% (1)
Commutants et Endomorphismes
4 pages
2 Equations Différentielles 2
Pas encore d'évaluation
2 Equations Différentielles 2
2 pages
Devoir Mathématiques 3ème Année - 02/11/2016
100% (2)
Devoir Mathématiques 3ème Année - 02/11/2016
3 pages
Exam SMP1 Alg1SN Mars 2021
Pas encore d'évaluation
Exam SMP1 Alg1SN Mars 2021
1 page
La Représentation Géométrique D'un Nombre Complexe
Pas encore d'évaluation
La Représentation Géométrique D'un Nombre Complexe
6 pages
1.nombres Complexes - 4info - Cours
Pas encore d'évaluation
1.nombres Complexes - 4info - Cours
5 pages
TP Java : Classes Complexes et Équations
Pas encore d'évaluation
TP Java : Classes Complexes et Équations
2 pages
Maths 5ième. Cours Complet École Numérique (Côte D'ivoire)
100% (10)
Maths 5ième. Cours Complet École Numérique (Côte D'ivoire)
148 pages
Exercices de Matrices pour Semestre S2
Pas encore d'évaluation
Exercices de Matrices pour Semestre S2
2 pages
Les 4 Operations de Base Et Calculs
Pas encore d'évaluation
Les 4 Operations de Base Et Calculs
64 pages
Matrice Semblable À Son Inverse
Pas encore d'évaluation
Matrice Semblable À Son Inverse
4 pages
Répartition 4ème Maths 2020 2021
Pas encore d'évaluation
Répartition 4ème Maths 2020 2021
2 pages
Exercices 19 Calcul Differentiel Aspects Theoriques
Pas encore d'évaluation
Exercices 19 Calcul Differentiel Aspects Theoriques
3 pages
Base canonique de R4 et applications linéaires
Pas encore d'évaluation
Base canonique de R4 et applications linéaires
10 pages
Algèbre Commutative et Galois
Pas encore d'évaluation
Algèbre Commutative et Galois
20 pages
CCP Tsi 2015 Maths Corrige
Pas encore d'évaluation
CCP Tsi 2015 Maths Corrige
5 pages
tp2 Py
Pas encore d'évaluation
tp2 Py
3 pages
Exemple Jordan
Pas encore d'évaluation
Exemple Jordan
6 pages
Astuce Primitive
Pas encore d'évaluation
Astuce Primitive
4 pages
2 - Matrice Compagnon Correction 2
Pas encore d'évaluation
2 - Matrice Compagnon Correction 2
3 pages
Girard
Pas encore d'évaluation
Girard
181 pages
CM2 Les Fractions Evaluation
0% (1)
CM2 Les Fractions Evaluation
4 pages
Download
Pas encore d'évaluation
Download
1 page
Équations Différentielles Linéaires PSI
Pas encore d'évaluation
Équations Différentielles Linéaires PSI
3 pages

Cours de Probabilités et Statistiques

Transféré par

Cours de Probabilités et Statistiques

Transféré par

Cours de Probabilités et Statistique

INSA de Strasbourg - GC3

Premier trimestre 2010-2011. 20 h de cours et 20 h de T.D..

0. Éléments d’Algèbre Linéaire page 2

Définition 1.0.3 La transposée de la matrice M de format (m, n) est la matrice tM de

Proposition 1.0.4 La transposition M 7→ tM est une involution linéaire : t (λM +

Le noyau de la matrice M est l’espace vectoriel des vecteurs-colonne V tels que M V = 0.

Proposition 1.1.2 (i) Si M admet une inverse à gauche : P × M = 1 (ou à droite :

(iv) M est inversible si et seulement si l’équation (qu’on a le droit de voir comme un

(iv) Si M et P sont inversibles, alors M P l’est aussi, et (M P )−1 = P −1 M −1 .

1.2 Déterminant d’une matrice carrée

Et pour une matrice carrée de format général (n, n) :

(−1)sign(σ) M1 σ(1) × . . . × Mn σ(n) .

On démontre que c’est équivalent à la définition par récurrence sur n , de développement

Proposition 1.2.3 On a (pour tout 1 ≤ j ≤ n) la formule suivante, de développement

Le déterminant possède les deux propriétés fondamentales suivantes.

Proposition 1.2.4 Pour toutes matrices carrées M, P de même format, on a :

Il est commode et usuel d’identifier une matrice à la suite de ses vecteurs-colonne :

Notons qu’en outre det(1) = 1, et det(M −1 ) = 1/ det M , pour toute matrice M

1.3 Valeurs et vecteurs propres des matrices carrées

Le sous-espace propre associé à une valeur propre λ forme un sous-espace vectoriel de

1.4 Diagonalisation d’une matrice carrée

Attention, il y a bien des matrices carrées qui ne sont pas diagonalisables.

Proposition 1.4.2 La matrice M de format (n, n) est diagonalisable si et seulement si

Définition 1.4.3 L’exponentielle d’une matrice carrée M est la matrice exp(M ) de

Noter en effet que (par une récurrence immédiate) (P DP −1 )n = P Dn P −1 , (pour tout

1.5 Trigonalisation d’une matrice carrée

Définition 1.5.1 Trigonaliser la matrice carrée M signifie trouver une matrice

L’analogue de la proposition 1.4.2 est ici :

Proposition 1.5.2 Toute matrice carrée M est trigonalisable (dans C).

1.6 Trace d’une matrice carrée

Trace( tM M ) = |Mij |2 pour toute M ∈ Mn (C). 

2 Produits scalaire et vectoriel

ϕ(~x, ~y ) = 21 [ϕ(~x + ~y , ~x + ~y ) − ϕ(~x, ~x) − ϕ(~y , ~y )].

Proposition 2.1.5 La norme euclidienne vérifie les propriétés suivantes :

Remarque 2.1.11 Le déterminant d’une matrice orthogonale vaut ±1 . Lorsqu’il vaut

2.2 Produit vectoriel

Proposition 3.0.4 Ω est un événement (certain). La réunion et l’intersection d’un nom-

Nous pouvons maintenant définir rigoureusement ce qu’est une probabilité ; dans la

Proposition 3.0.6 (i) L’événement impossible est négligeable : IP (∅) = 0.

Proposition 3.1.1 (Formule de crible, de Poincaré) Pour tout espace probabilisé

Preuve Par récurrence sur n : exercice.

3.2 Probabilités conditionnelles

Proposition 3.2.2 (Formule des probabilités totales) Fixons un espace de probabilité

3.3 Événements indépendants

Définition 3.3.1 Fixons un espace de probabilité (Ω, T , IP ). Deux événements A et B

Exemples : 1) “tirer un roi” et “tirer un trèfle”, dans un jeu de bridge, ou de belote.

Définition 3.3.2 Fixons un espace de probabilité (Ω, T , IP ). Des événements A1 , . . . , An

Proposition 3.3.3 Les événements A1 , . . . , An sont indépendants ssi

4 Variables aléatoires et leur lois

Exercice no 4.0 Lors du lancer de 2 dés usuels, calculer :

La covariance de deux v.a.r. V, V 0 de carré intégrable est :

La matrice de covariance (ou de dispersion) d’une v.a. V = (V1 , . . . , Vd ) ∈ IRd de carré

Preuve : La symétrie : Cov(V, V 0 ) = Cov(V 0 , V ) est évidente. La linéarité à gauche :

b) Vérifier que pour tout u ∈ IRd on a Var(u t V ) = uKV tu =

c) Montrer que KV est une matrice symétrique, et positive : vKV tv ≥ 0 (∀ v ∈ IRd ).

Exemples : On a |x1 +. . .+xn |p ≤ np−1 (|x1 |p +. . .+|xn |p ) pour tous n ∈ IN ∗ , p ∈ [1, ∞[ ,

Définition 5.1.6 La loi hypergéométrique de paramètre N, n, p , notée H(N, n, p), est

Remarque 5.1.9 C’est la loi du nombre N de tentatives nécessaires pour obtenir un

Exercice no 5.1.4 a) Les lois géométriques vérifient la propriété de non-vieillissement :

Définition 5.1.11 La loi multinômiale de paramètres (N, d, p1 , . . . , pd ) (tels que N, d ∈

Elle généralise la loi binômiale. On la rencontre naturellement, par exemple en tirant

5.2 Lois usuelles à densité

Exercice no 5.2.3 a) Les lois exponentielles vérifient la propriété de non-vieillissement :

Exercice no 5.2.5 a) Vérifier que m = IE(X) et σ 2 = Var(X), et que X ∈ ∩ Lp .

Proposition 5.2.5 Soit K une matrice réelle symétrique positive, de format d × d et de

Corollaire 5.2.6 Si la matrice de covariance d’un vecteur gaussien d-dimensionnel de loi

Preuve Soit V un vecteur de IRd formé de coordonnées gaussiennes standard indépendantes.

c) Déduire que pour le deuxième lemme de Borel-Cantelli il suffit de supposer

7 Variables aléatoires indépendantes

Proposition 7.0.9 Les v.a. V1 , . . . , Vn , . . . sont indépendantes ssi

pour tous n ∈ IN ∗ et toutes fonctions mesurables positives f1 , . . . , fn .

Remarque 7.0.10 1) Les événements A1 , . . . , An , . . . sont indépendants ssi les v.a.

Exercice no 7.2 Soient Y1 , . . . , Yn des v.a. indépendantes, exponentielles. Quelle est la

Exercice no 7.11 a) Soient N gaussienne standard, et ε indépendante de N et uniforme

Exercice no 7.14 Étude de la transmission du nom “Chenin”, porté à la génération 0 par

Trace( tM M ) = |Mij |2 pour toute M ∈ Mn (C).

d’où l’inégalité cherchée en divisant par ε2 .