Cours de Probabilités et Statistiques
Cours de Probabilités et Statistiques
Contenu
1
0. Éléments d’Algèbre Linéaire
Ce chapitre, utile de toute façon, est placé ici pour les besoins du cours de physique.
1 Matrices
Matrice (réelle ou complexe) de format (m, n) : m lignes et n colonnes.
Notation M = ((Mij )) (i est l’indice de ligne et j est l’indice de colonne).
M11 M12 M13
Par exemple, pour (m, n) = (2, 3) : M = .
M21 M22 M23
L’ensemble des matrices de format (m, n) fixé constitue un expace vectoriel pour la
somme et le produit par un scalaire. Les matrices de format (n, n) sont dites carrées.
Définition 1.0.1 Le produit de M = ((Mij )), de format (m, n), par P = ((Pij )), de format
(n, p) : c’est la matrice M P de format (m, p) définie par la formule du produit :
n
X
(M × P )ij = (M P )ij := Mik Pkj .
k=1
2 2
1 2 3 1 1 2 3
Exemples : × 1 = . 1 × n’existe pas.
7 8 9 13 7 8 9
−1 −1
2 2 2 4 6
(1 2 3) × 1 = (1). 1 × (1 2 3) = 1 2 3 .
−1 −1 −1 −2 −3
Proposition 1.0.2 Ce produit est associatif : (M1 M2 )M3 = M1 (M2 M3 ), pour toutes
matrices M1 , M2 , M3 avec des formats compatibles. Cela permet de le noter simplement
M1 M2 M3 .
L’ensemble (Mn (IR) ou Mn (C)) des matrices carrées de format (n, n) constitue un
anneau (non commutatif !) pour la somme et le produit, et même une algèbre pour la
somme, le produit, et le produit par un scalaire.
2
1.1 Inverse d’une matrice carrée
On ne considère ici plus que des matrices carrées, disons de format (n, n), et des
vecteurs(-colonne), c’est-à-dire ici des matrices de format (n, 1). Convenons de noter par
1 la matrice unité de format (n, n) (quelle que soit la dimension n , qui devra être claire
dans le contexte) : elle comporte des 1 sur sa diagonale, et des 0 partout ailleurs. C’est
l’élément neutre pour le produit des matrices de format (n, n).
Définition 1.1.1 Une matrice M est dite inversible lorsqu’il existe une matrice, notée
M −1 et nommée inverse de M (à ne jamais confondre avec l’opposée −M de M ), telle
que
M × M −1 = M −1 × M = 1 .
Noter qu’une matrice M admet au plus une matrice inverse : 2 matrices qui vérifieraient
la propriété d’inverse (pour M ) de la définition 1.1.1 seraient nécessairement égales.
Il faut absolument connaı̂tre les propriétés fondamentales suivantes.
Nota Bene Une des meilleures façons de calculer à la main l’inverse d’une matrice (de
dimension raisonnable !) est d’utiliser l’équivalence (iv) ci-dessus, et donc de résoudre
(par la méthode du pivot) par rapport aux inconnues (x1 , . . . , xn ) le système d’équations
M V = W , pour t V = (x1 , . . . , xn ) et t W = (y1 , . . . , yn ).
3
a b
Définition 1.2.1 det( a ) := a ; det := ad − bc ;
c d
a1 b1 c1
det a2
b2 c2 := a1 (b2 c3 − b3 c2 ) − a2 (b1 c3 − b3 c1 ) + a3 (b1 c2 − b2 c1 ).
a3 b3 c3
Sn désigne le n-ième groupe symétrique, i.e. l’ensemble des permutations de {1, . . . , n}, et
sign(σ) désigne la signature de la permutation σ .
Noter que la seconde de ces formules montre, avec la proposition 1.2.3, qu’on peut déve-
lopper un déterminant aussi bien par rapport à une ligne que par rapport à une colonne :
n
(−1)i+j Mij × det M
cij , pour tout i ∈ {1, . . . , n}.
P
det((Mij )) :=
j=1
Proposition 1.2.5 Le déterminant est une forme multilinéaire alternée. Ce qui signifie
d’une part que pour tous vecteurs V1 , . . . , Vn , V10 . . . , Vn0 ∈ Cn , tous scalaires λ, µ ∈ C, et
tout 1 ≤ j ≤ n, on a :
det(V1 , . . . , λ Vj + µ Vj0 , . . . , Vn ) = λ det(V1 , . . . , Vj , . . . , Vn ) + µ det(V1 , . . . , Vj0 , . . . , Vn ) ,
et d’autre part que det(V1 , . . . , Vn ) s’annule dès que deux des vecteurs V1 , . . . , Vn sont
colinéaires, ou bien encore : det(. . . , Vj , . . . , Vi , . . .) = − det(. . . , Vi , . . . , Vj , . . .), dès que
1 ≤ i < j ≤ n (antisymétrie), ou aussi : det(Vσ(1) , . . . , Vσ(n) ) = (−1)sign(σ) det(V1 , . . . , Vn ).
4
Noter que par simple transposition, on voit que cette proposition reste valable si on y rem-
place les vecteurs-colonne par les vecteurs-ligne : le déterminant est également une forme
multilinéaire alternée par rapport aux lignes de la matrice. Cette proposition 1.2.5, ainsi
augmentée, est très utile pour gagner du temps dans le calcul à la main d’un déterminant
donné.
Voici encore une propriété fondamentale du déterminant, complétant la proposition
1.1.2.
Proposition 1.2.6 Une matrice carrée M est inversible si et seulement si son déter-
minant est non nul.
Définition 1.3.1 Un vecteur V est dit propre pour la matrice M lorsque le vecteur M V
est colinéaire à V : il existe un scalaire λ ∈ C tel que M V = λV .
Un scalaire λ ∈ C est une valeur propre de la matrice M lorsqu’il existe un vecteur
V non nul tel que M V = λV .
Lorsque c’est le cas : M V = λV avec V 6= 0 , on dit que λ est la valeur propre associée
au vecteur propre V , et aussi que V est un vecteur propre associé à la valeur propre λ .
L’ensemble des vecteurs propres associés à une valeur propre λ , le vecteur nul inclus,
s’appelle le sous-espace propre associé à la valeur propre λ .
Corollaire 1.3.2 Le scalaire λ ∈ C est valeur propre de la matrice M ssi det(M −λ1) =
0.
5
Nota Bene Pour M de format (n, n) donnée, la fonction PM définie par λ 7→ PM (λ) :=
det(M − λ1) est polynômiale de degré n . C’est le polynôme caractéristique de M . Selon
le corollaire ci-dessus, ses racines sont exactement les valeurs propres de la matrice M .
Donc, en tenant compte des multiplicités (on décompte 2 fois une racine double, 3
fois une racine triple, etc...), puisque C est un corps algébriquement clos (théorème de
d’Alembert), toute matrice (réelle ou complexe) de format (n, n) possède exactement n
valeurs propres complexes.
6
matrice de passage P une base de vecteurs propres de M , rangés dans le même ordre que
les valeurs propres correspondantes sur la diagonale de D.
La diagonalisation est importante car extrêmement utile pour calculer toutes les puis-
sances d’une matrice et son exponentielle, elle-même indispensable pour résoudre par exem-
ple des systèmes d’équations différentielles linéaires à coefficients constants V 0(t) = M V(t).
7
Remarque 1.5.3 Il est en fait toujours possible de trouver une matrice triangulaire T
qui hors de sa diagonale ne comporte, en fait de termes non nuls, que des 1 (en nombre
≤ n − 1) situés juste au-dessus de la diagonale. C’est la réduction de Jordan.
Comme dans le cas diagonalisable, le calcul de (P T P −1 )n et de exp(P T P −1 ) se ramène
aussitôt à celui de T n , qui n’est pas difficile (même si moins immédiat que dans le cas
diagonal) : T est constituée de blocs de la forme (λ1 + Nλ ), avec Nλ nilpotente, auquel la
formule du binôme s’applique, avec un nombre de termes majoré par la multiplicité de λ .
5 1 −1
Exercice : Calculer exp(tM ), pour M := 2 2 2 . (On remarquera que 4 est
3 −1 5
t+1 t −t
valeur propre de M . On doit trouver e4t × 2t(t + 1) 2t2 − 2t + 1 2t(1 − t) . )
t(2t + 3) t(2t − 1) (2t + 1)(1 − t)
Proposition 1.6.2 (i) La trace est une forme linéaire sur l’espace vectoriel (Mn (IR) ou
Mn (C)) des matrices de format (n, n).
(ii) Trace(M M 0 ) = Trace(M 0 M ), pour toutes matrices M, M 0 de format (n, n) ;
(iii) Trace(M ) = Trace( tM ) = Trace(P −1 M P ), pour toute matrice carrée M et toute
matrice inversible P de même format ;
(iv) (M, M 0 ) 7→ Trace( tM M 0 ) = Trace(M tM 0 ) définit un produit scalaire sur Mn (IR).
(v) det(exp(M )) = exp[Trace(M )] pour toute matrice carrée M .
8
n
xj yj ≡ ~x × t~y . La norme euclidienne canonique de IRn est
P
x1 y 1 + . . . + xn y n =
j=1
s
√ n
l’application qui à tout ~x = (x1 , . . . , xn ) ∈ IRn associe le réel k~xk := ~x · ~x = x2j .
P
j=1
Proposition 2.1.2 Le produit scalaire canonique de IRn jouit des propriétés suivantes :
- bilinéarité : (λ~x + λ0 x~0 ) · ~y = λ~x · ~y + λ0 x~0 · ~y et ~x · (λ~y + λ0 y~0 ) = λ~x · ~y + λ0~x · y~0 ;
- symétrie : ~x·~y = ~y ·~x ; - positivité : ~x·~x ≥ 0 ; - non dégénérescence : ~x·~x = 0 ⇒ ~x = ~0 .
Définition 2.1.3 On appelle produit scalaire sur un espace vectoriel réel E ~ toute forme
bilinéaire symétrique définie positive ϕ (“forme” signifie ici : à valeurs réelles ; “définie”
~ ϕ) est appelé espace vectoriel euclidien.
signifie ici : non dégénérée). Le couple (E,
~ par k~xk := ϕ(~x, ~x) .
p
La norme euclidienne associée à ϕ est définie sur E
n
~ = IRn , ϕ(~x, ~y ) := P αj xj yj , pour α1 , . . . , αn > 0 donnés.
Exemples : 1) E
j=1
~ = IR , ϕ(~x, ~x) :=
2) E 2
a x21 +2b x1 x2 +c x22 , pour a, b, c donnés tels que a > 0 et b2 < ac .
Z b
~ = C k ([a, b], IR), ϕ(f, g) :=
3) E f g , pour k ∈ IN et a < b réels donnés.
a
Remarque 2.1.4 L’application définie sur E ~ par ~x 7→ ϕ(~x, ~x) est la forme quadratique
associée à ϕ . Elle suffit à déterminer le produit scalaire ϕ par l’identité de polarisation :
ϕ(~x, ~y ) [ ~
Remarque 2.1.6 est le cosinus de l’angle (~
x, ~y ) (pour ~x, ~y non nuls dans E).
k~xk×k~y k
Définition 2.1.7 Une base (~ ej )j∈J de l’esp. vect. euclidien (E,~ ϕ) est dite orthonormée
lorsque i 6= j ⇒ ϕ(~ei , e~j ) = 0 (orthogonalité de e~i , e~j ) et ϕ(~
ej , e~j ) = 1 , pour tous
i, j ∈ J.
9
Le résultat suivant exprime qu’en dimension finie n , tout produit scalaire est fait
comme le produit scalaire canonique de IRn , et qu’il suffit donc (en dimension finie) essen-
tiellement de considérer celui-ci. Par défaut, IRn est a priori muni de son produit scalaire
canonique.
Proposition 2.1.8 Tout espace vectoriel euclidien de dimension finie admet des bases
orthonormées. Dans une telle base, le produit scalaire s’écrit précisément comme le produit
scalaire canonique.
Définition 2.1.9 Une matrice réelle carrée M est dite orthogonale lorsque tM × M = 1 .
Proposition 2.1.10 Soit M une matrice réelle de format (n, n). Les conditions suivantes
sont toutes équivalentes :
(i) M est orthogonale ; (ii) M × tM = 1 ;
(iii) les vecteurs-ligne de M forment une base orthonormée de IRn ;
(iv) les vecteurs-colonne de M forment une base orthonormée de IRn ;
(v) M est isométrique : kM Xk = kXk pour tout vecteur-colonne X ∈ IRn ;
(vi) M respecte le produit scalaire : M X · M Y = X · Y pour tous X, Y ∈ IRn .
Proposition 2.2.2 (i) Le produit vectoriel est bilinéaire, et antisymétrique (ou alterné) :
Y ∧ X = −X ∧ Y pour tous X, Y ∈ IR3 (ou encore : X ∧ X = 0 pour tout X ∈ IR3 ).
(ii) X ∧ Y est le seul vecteur V de IR3 tel que V · Z = det(X, Y, Z) pour tout vecteur Z
de IR3 . (Noter en particulier l’orthogonalité de X ∧ Y avec X, Y .)
kX ∧ Y k
(iii) kX ∧ Y k2 + |X · Y |2 = kXk2 kY k2 pour tous X, Y ∈ IR3 : \
= sin (X, Y ) .
kXk×kY k
(iv) M X ∧ M Y = M (X ∧ Y ) pour toute matrice de rotation (orthog. de déterminant 1),
et M X ∧ M Y = −M (X ∧ Y ) pour toute matrice orthogonale de déterminant −1 ;
(v) X ∧ (Y ∧ Z) = (X · Z) Y − (X · Y ) Z , pour tous vecteurs X, Y, Z ∈ IR3 .
10
I. Fondements de la théorie des probabilités
Les probabilités et la statistique interviennent naturellement de façon importante dans
plusieurs grands domaines de la physique : mécanique quantique, percolation, mécanique
statistique (transitions de phases, croissance de polymères, verres de spin, etc...).
Elles sont essentielles également en épidémiologie (depuis I. Semmelweiss, voir la thèse
de L.F. Céline), source de la grande majorité des progrès médicaux depuis 30 ans (selon P.
Corvol, médecin épidémiologiste du Collège de France), et dans la pratique des sondages.
Enfin elles sont importantes aussi en économie, en étude de fiabilité, et dans bien
d’autres domaines (si le juge de l’affaire d’Outreau avait appris à penser tant soit peu en
termes de calcul des probabilités élémentaires, il eut probablement évité de croire vraisem-
blable le regroupement de tous les pédophiles de la ville dans une même cage d’escalier
HLM, où les attributions sont a priori aléatoires...).
3 Probabilité ; conditionnement
Une probabilité est d’abord une fonction qui à un événement associe un nombre réel
compris entre 0 et 1. Cela implique de préciser ce qu’est un événement. Or cela n’a de sens
que dans le cadre d’un ensemble d’épreuves aléatoires ou tirages, qu’on note généralement
Ω. Il peut s’agir par exemple de lancers de dés ou de pièces de monnaie, de tirages d’urne, de
durées de vie (d’atomes ou d’individus), de tirs sur une cible, etc... Ces premiers exemples
familiers montrent déjà que l’ensemble Ω peut être fini, dénombrable (ce qui signifie : infini
indexé par IN ou IN ∗ ), ou continu. Ce sera donc a priori un ensemble non vide quelconque.
Lorsque Ω est fini ou dénombrable, toutes ses parties seront des événements. Tan-
dis qu’en général il est nécessaire de se restreindre à un sous-ensemble de parties de Ω :
T ⊂ P(Ω), qu’on nomme tribu (ou σ-algèbre). On a naturellement besoin de pouvoir
considérer la réunion et la conjonction (≡ intersection) de 2 événements, de même que le
complémentaire (≡ contraire) d’un événement ; en outre il faut aussi pouvoir considérer
une réunion dénombrable d’événements. Enfin il est naturel de considérer l’événement
impossible (≡ vide : ∅) et l’événement certain Ω. D’où la définition suivante.
Définition 3.0.3 Une tribu (ou σ-algèbre) est une partie T de P(Ω) stable par réunion
dénombrable et par passage au complémentaire, et contenant l’ensemble vide ∅.
Le couple (Ω, T ) est appelé espace probabilisable. Un événement est un élément de T .
P(Ω) désigne l’ensemble de toutes les parties de Ω ; T est donc un ensemble de parties de
Ω . La stabilité par réunion dénombrable s’écrit formellement : pour toute
S suite
{En | n ∈ IN } ⊂ T d’événements, leur réunion est aussi un événement : En ∈ T .
n∈IN
La stabilité par passage au complémentaire s’écrit formellement : le complémentaire
E c := Ω \ E = {ω ∈ Ω | ω ∈/ E} de tout événement E est aussi un événement : E c ∈ T .
11
Nota Bene Sur Ω fini ou dénombrable, on choisira toujours par défaut la tribu P(Ω).
h T ic S h S ic T
c
Rappel : An = An ; An = Acn . On vérifie aussitôt les propriétés suivantes :
n n n n
Définition 3.0.5 Une probabilité sur l’espace probabilisable (Ω, T ) est une fonction IP de
T dans [0, 1] qui vérifie : IP (Ω) = 1, et la propriété d’additivité dénombrable :
F P
IP An = IP (An ) pour tout suite {An |n ∈ IN } d’événements deux à deux dis-
n∈IN n∈IN
joints. Le triplet (Ω, T , IP ) est appelé espace probabilisé ou espace de probabilité. Les
événements de probabilité nulle sont dits négligeables. Les événements de probabilité 1
sont dits presque sûrs.
C’est toujours dans le cadre d’un espace de probabilité, plus ou moins bien précisé, que
peut avoir lieu un calcul de probabilité. Il est généralement préférable de bien le préciser.
En effet c’est la non-précision de l’espace considéré qui est à l’origine de paradoxes ou
d’erreurs courantes sur les probabilités.
On vérifie aisément les propriétés suivantes :
12
3.1 Exemples
1. Probabilité discrète sur un ensemble Ω = {ω1 , .., ωN } fini :
elle est clairement définie par la liste des probabilités des singletons : pj := IP ({ωj }).
P
Nous avons en effet IP (A) = pj pour toute partie A ⊂ Ω.
ωj ∈A
N
P
Réciproquement, toute liste {p1 , .., pN } de réels pj ≥ 0 tels que pj = 1 définit bien (par
j=1
la même formule) une probabilité unique sur Ω.
Exemples concrets : lancers de dés, de pièces de monnaie, tirages de cartes à jouer, tirages
de boules dans des urnes, loteries, etc. . .
2. Probabilité discrète sur IN (ou sur n’importe quel autre ensemble dénombrable) :
elle est encore définie par la liste des probabilités des singletons : pj := IP ({ωj }).
P
Nous avons en effet IP (A) = pj pour toute partie A ⊂ IN . La seule différence avec le
ωj ∈A
cas précédent est que la somme peut être une série (≡ comporter une infinité de termes).
P
Réciproquement, toute suite {pj | j ∈ IN } de réels pj ≥ 0 tels que pj = 1 définit bien
j≥1
(par la même formule, forcément convergente) une probabilité unique sur IN .
3. Cordes. On tire une corde au hasard dans un disque de rayon R. Quelle est la
probabilité que la longueur ` de la corde soit ≥ R ?
a. ` varie continûment dans [0, 2R], de sorte que la probabilité cherchée vaut 1/2.
b. ` est déterminée par
√ la distance d de la corde
√ au centre du disque ; d varie continûment
2 2
[0, R], et ` = 2 R − d ≥ R ⇔ d ≤ R 3/2, de sorte que la probabilité cherchée
dans √
vaut 3/2.
c. ` est déterminée par le milieu M de la corde, qui varie continûment
√ dans le disque ;
et ` ≥ R a lieu ssi M est dans le disque concentrique de rayon 3/2, de sorte que la
probabilité cherchée vaut 3/4.
Explication : la probabilité choisie est très insuffisamment précisée par l’expression “tirage
au hasard”. Ici on a considéré successivement la probabilité uniforme sur l’ensemble : des
longueurs, des distances au centre, des milieux. Ce sont trois probabilités différentes !
4. Jeu de pile ou façe illimité ; première apparition de “pile”, ou d’une séquence donnée.
Exercice no 3.1 Est-il plus probable d’obtenir au moins une fois 6 en lançant 4 dés usuels,
ou bien d’obtenir au moins une fois un double 6 en lançant 24 fois 2 dés usuels ?
Exercice no 3.2 On lance n fois de suite 3 dés normaux. Pour quelles valeurs de n la
probabilité d’avoir obtenu au moins un 421 dépasse-t-elle 12 ?
13
Exercice no 3.3 On lance 5 pièces de monnaie. Calculer les probabilités des événements
suivant : “la 1ère pièce donne face” ; “face sort exactement 2 fois” ; “face sort au plus 3
fois”.
Exercice no 3.4 On lance 10 dés usuels. Calculer les probabilités des événements suivant :
“6 ne sort pas” ; “6 sort 1 fois exactement” ; “6 sort 3 fois exactement” ; “6 sort 2 fois au
moins” ; “6 sort 3 fois au moins”.
Exercice no 3.5 Une armoire contient 10 paires de chaussures, parmi lesquelles on prélève
au hasard 8 chaussures. Quelle est la probabilité d’avoir ainsi k paires de chaussures
exactement ?
Exercice no 3.6 Une urne contient n boules noires et b boules blanches. Deux joueurs X
et Y tirent avec remise une boule dans l’urne, tour à tour, X tirant le premier. Quelle est
la probabilité que X soit le premier à tirer une boule noire ? Même question sans remise.
Exercice no 3.7 Une loterie comporte 100 billets, dont les seuls billets gagnants suivant :
1 billet gagne 50 euros, 5 billets gagnent chacun 30 euros, 10 billets gagnent chacun 10
euros. Quelle est la probabilité qu’un acheteur de 3 billets gagne 30 euros (au moins, puis
exactement) ?
Exercice no 3.8 Un joueur X lance 2 dés usuels, et obtient ainsi la somme S.
a) Calculer la probabilité que S > n , en fonction des différentes valeurs de l’entier n .
b) Un joueur Y relance les 2 dés et obtient une somme T . Quelles sont les probabilités
que S = T , que S > T , que S ≥ T ?
14
On vérifie immédiatement qu’il s’agit encore d’une probabilité sur (Ω, T ).
Exercice no 1.2.1 Lancer de 2 dés usuels : Ω = {1, .., 6}2 . IP uniforme. Soient X1 le chiffre
indiqué par le premier dé, S la somme des chiffres indiqués par les 2 dés, et C = {S = 5}.
Dresser le tableau des valeurs de IP (·/C), puis de IP (X1 = ·/C).
Exercice no 1.2.2 Vous allez chez des gens dont vous savez qu’ils ont 2 enfants, dont au
moins une fille. a) Quelle est la probabilité que l’autre enfant soit aussi une fille ?
b) En l’absence de l’information qu’ils ont au moins une fille (pour cette question seule-
ment), mais en voyant une fille ouvrir la porte, quelle est la probabilité que l’autre enfant
soit aussi une fille ? c) Une fille vous ouvre la porte ; quelle est la probabilité que l’autre
enfant soit aussi une fille ?
Exercice no 1.2.3 Vous attendez un ami de Vancouver, qui voyage jusqu’à Strasbourg
avec changement d’avion à New York, Londres et Francfort. La probabilité d’attentat
est estimée à p pour chacun des 4 vols, avec indépendance entre les 4 vols. Votre ami
n’arrivant pas, quelle est la probabilité que l’attentat ait eu lieu : a) dans le 1er avion ?
b) dans le 2ème avion ? c) dans le 3ème avion ? c) dans le 4ème avion ?
Pour effectuer un calcul, il est très souvent indispensable de pouvoir “distinguer des
cas”. Cela s’exprime par la formule suivante, très élémentaire et très utile à la fois.
Exercice no 1.2.4 Une urne contient b boules blanches et n boules noires. Quand une
boule est tirée, on le remet dans l’urne, avec ` boules de la même couleur. On effectue ainsi
3 tirages au hasard. a) Quelle est la probabilité que la 1ère boule tirée soit noire sachant
que la seconde est blanche ? b) Quelle est la probabilité que la 3ème boule soit noire ?
On a souvent à inverser un conditionnement. Cela se fait simplement, au moyen de la
formule élémentaire suivante, très utile aussi, quoiqu’également de preuve immédiate.
Proposition 3.2.3 (Formule de Bayes) Fixons un espace de probabilité (Ω, T , IP ), et une
N
F
partition de Ω en événements non négligeables : Ω = Cj . Alors nous avons pour tout
j=1
événement non négligeable A et tout k ∈ {1, .., N } :
N
.X
IP (Ck /A) = IP (A/Ck )IP (Ck ) IP (A/Cj )IP (Cj ) .
j=1
15
Exemple : Les candidats à un examen proviennent de 4 lycées K,L,V,W, à raison de 20%
pour K, de 25% pour L, de 15% pour V, et de 40% pour W. K enregistre 35% de succès,
2
L 30%, V 50%, W 45%. Alors la probabilité qu’un candidat reçu provienne de K est 13 ,
5 5 6
de L est 26 , de K est 26 , de K est 13 .
Exercice no 1.2.5 Trois machines U, V, W produisent une même pièce dans une usine. U
assure 40% de la production, V 35%, et W le reste. U produit 20% de pièces défectueuses,
V 15%, et W 10%.
a) Quelle est la probabilité qu’une pièce prise au hasard soit défectueuse ?
b) Quelle est la probabilité qu’une pièce défectueuse prise au hasard provienne de U ?
Exercice no 1.2.6 Trois condamnés X, Y, Z sont informés que l’un d’eux, choisi au hasard,
va être exécuté, et que les 2 autres vont être libérés. Mais ils ne doivent pas encore savoir
qui le hasard a désigné. X demande au geôlier de lui nommer l’un de ses 2 codétenus devant
être libéré, arguant que cette information serait innocente, puisqu’il sait que l’un des 2 au
moins doit l’être. Le geôlier refuse, arguant que cette information modifierait réellement
l’estimation que X peut faire de ses chances. Qui a raison ?
Exercice no 1.2.7 12% des individus d’une population sont porteurs d’une certaine ma-
ladie. Un test relatif à cette maladie est fiable à 95%, dans le cas d’un malade comme
dans le cas d’un sujet sain. a) Quelle est la probabilité qu’un individu présentant un test
positif soit effectivement malade ? b) Quelle est la probabilité qu’un individu présentant
un test négatif soit effectivement sain ?
Exercice no 1.2.8 Émile possède 5 pièces de monnaie, dont 2 sont normales, 2 ont 2 côtés
“face”, et une a 2 côtés “pile”.
a) Il prend une pièce au hasard et la lance ; quelle est la probabilité qu’il voie “face” ?
b) Il voit “face” ; quelle est la probabilité que l’autre côté de la pièce soit aussi “face” ?
Il relance la même pièce.
c) Quelle est la probabilité que le côté caché de la pièce soit “face” ?
d) Il voit de nouveau “face” ; quelle est la probabilité que l’autre côté de la pièce soit aussi
“face” ? Il choisit ensuite au hasard une des autres pièces et la lance.
e) Quelle est la probabilité de voir de nouveau “face” (pour la troisième fois) ?
Exercice no 1.2.9 Un livre a une probabilité p > 0 de se trouver dans une commode
comportant k tiroirs, et des chances égales de se trouver dans chacun des tiroirs.
i) On ouvre les (k − 1) premiers tiroirs, sans le trouver ; quelle est la probabilité de le
trouver dans le dernier tiroir ?
ii) Soit j ∈ {2, .., k − 1} . On ouvre les (k − j) premiers tiroirs, sans le trouver ; quelle est
la probabilité de le trouver dans le dernier tiroir ? dans l’un des j derniers tiroirs ?
Exercice no 1.2.10 Le quart d’une population est vacciné contre le choléra. Au cours
d’une épidémie, on constate qu’il y a parmi les malades un vacciné pour 4 non-vaccinés, et
16
qu’il y a un malade sur 12 parmi les vaccinés. Quelle est la probabilité qu’un non-vacciné
tombe malade ? Le vaccin est-il efficace ?
Preuve Pour le sens direct, on vérifie par récurrence sur k ∈ {0, . . . , n} que pour tout
choix de ε1 , . . . , εk , tout ` ∈ {k + 1, . . . , n} et tous ik+1 , . . . , i` ∈ {k + 1 . . . , n}, on a :
h i
P A1 ∩ . . . ∩ Ak ∩ Aik+1 ∩ . . . ∩ Ai` = P [Aε11 ] × . . . × IP [Aεkk ] × IP [Aik+1 ] × . . . × IP [Ai` ] .
ε1 εk
17
Pour la réciproque, si i1 , . . . , ik sont fixés dans {1, . . . , n}, on note {j1 , . . . , jn−k } :=
{1, . . . , n} \ {i1 , . . . , ik }, et on applique la formule des probabilités totales avec la partition
ε εjn−k
{Aj1j1 ∩ . . . ∩ Ajn−k | εj1 , . . . , εjn−k = ou c} (c’est bien une partition de Ω , car l’ensemble
des intersections des éléments de 2 partitions en forme encore une).
Exercice no 3.3.3 On jette un dé normal n (≥ 3) fois de suite. Montrer que les événe-
ments {les lancers j et k donnent le même résultat} sont deux à deux indépendants, mais
non indépendants.
Exercice no 3.3.4 Sur Ω := {a, b, c, d} on définit IP par : IP ({a}) = α , IP ({b}) = β ,
IP ({c}) = γ , IP ({d}) = δ . Trouver les valeurs de α, β, γ , δ telles que les événements
A := {b, c} , B := {c, a} , C := {a, b} soient 2 à 2 indépendants mais non indépendants.
Exercice no 3.3.5 Pour ridiculiser un astrologue (ou un “voyant”, ou n’importe quelle
autre sorte de charlatan), on le défie de prédire le résultat de 12 lancers successifs d’une
pièce de monnaie usuelle. Quelle est la probabilité (en fonction de n ∈ {0, 1, .., 5}) qu’il se
trompe au plus n fois ?
On vérifie immédiatement que la loi d’une variable aléatoire est bien une probabilité
(sur V (Ω) ⊂ IRd , ou directement sur IRd , la tribu étant celle des “boréliens”, engendrée
par les pavés ou par les ouverts ou par les fermés de IRd ). Notons que dans le cas où Ω est
discret (fini ou dénombrable), dans la définition ci-dessus la condition de mesurabilité sur
V est vide, c’est-à-dire qu’elle est forcément vérifiée par n’importe quelle fonction V .
On vérifie les propriétés suivantes, qui autorisent toutes les opérations usuelles sur les
variables aléatoires.
Proposition 4.0.5 Une fonction de Ω dans IRd est une v.a. ssi ses coordonnées (dans
n’importe quelle base de IRd ) sont des v.a.r.. Une combinaison linéaire de v.a. est encore
une v.a.. Un produit de v.a.r. est une v.a.r.. La composée d’une v.a. par une fonction
0
continue de IRd dans IRd est encore une v.a..
Exemples : La somme et le produit des chiffres indiqués par 2 dés ; les durées de vie de
particules fissiles ; le nombre de fois qu’une suite de N lancers d’une pièce de monnaie donne
pile ; les temps qu’il faut attendre pour tirer dans une urne, lors de tirages successifs, une
18
boule rouge, une boule verte ; ou bien lors de lancers illimités d’une pièce, pour obtenir
une séquence donnée ; etc...
La notion d’espérance est fondamentale dans la théorie des probabilités. Il s’agit en fait
simplement d’une somme ou d’une série ou d’une intégrale, qui est aussi une moyenne.
Définition 4.0.6 L’espérance d’une variable aléatoire V définie sur un espace de proba-
bilité (Ω, T , IP ) est son intégrale par rapport à la probabilité IP :
Z
IE(V ) := V dIP .
Ω
Elle existe lorsque (la norme de) V est intégrable, c’est-à-dire lorsque IE(kV k) < ∞ .
Exemple Lorsque Ω = {ω1 , . . . , ωN } est fini, IP étant donnée par la liste des probabilités
PN
des singletons : pj := IP ({ωj }), on a IE(V ) = pj V (ωj ) : c’est une moyenne pondérée.
j=1
P
Lorsque Ω = {ω1 , . . . , ωn , . . .} est dénombrable, on a IE(V ) = pj V (ωj ).
j≥1
0
Corollaire 4.0.7 Soient V une v.a. et f une fonction continue bornée de IRd dans IRd .
Alors Z Z
IE(f ◦ V ) = f ◦ V dIP = f dIPV .
Ω IRd
Lorsque la loi de V est discrète, c’est-à-dire lorsque presque sûrement V ne prend qu’un
ensemble fini ou dénombrable de valeurs, alors on a
X
IE(f ◦ V ) = f (v) IP (V = v) ,
v
cette série convergeant dès que f ◦ V est intégrable (ce qui a lieu par exemple dès que V ne
prend qu’un nombre fini de valeurs, ou encore, dès que f est bornée).
P
Justification Pour toute v.a. discrète V = vj 1Aj (avec les vj distincts 2 à 2), on a :
j
Z X Z X X Z
f ◦ V dIP = f (vj ) 1Aj dIP = f (vj )IP (Aj ) = f (vj )IPV ({vj }) = f dIPV .
Ω j j j IRd
19
N
P N
P
Proposition 4.0.8 L’espérance est linéaire : IE λj V j = λj IE(Vj ) , pour toutes
j=1 j=1
v.a. intégrables V1 , .., VN et tous réels λ1 , .., λN (c’est une propriété générale, fondamen-
tale, de toute intégrale). En particulier, l’espérance d’une v.a. vectorielle intégrable, dans
n’importe quelle base (déterministe), a pour coordonnées les espérances des coordonnées.
Exercice no 4.1 On tire au hasard et sans remise toutes les boules d’une urne remplie de
r boules rouges et n boules noires.
1) Montrer que que la probabilité de tirer une boule rouge au k-ième tirage ne dépend pas
de k. (Il y a au moins 2 solutions bien différentes : soit par récurrence, soit en considérant
directement l’ensemble de tous les tirages exhaustifs possibles.)
2) Quelle est l’espérance du rang de la k-ième boule rouge ? (Considérer le vecteur (X1 , X2 −
X1 , . . . , Xr − Xr−1 , r + n + 1 − Xr ), Xj désignant le rang de la j-ième boule rouge).
Exercice no 4.2 Une urne U contient initialement 2 boules blanches, et une urne U’ 2
boules noires. A chaque instant, on tire au hasard une boule par urne, et on les interchange.
Notons Xk le nombre de boules blanches dans U au k-ième instant, et Vk le vecteur-colonne
donnant la loi de Xk .
a) Quelle est la relation entre Vk+1 et Vk ? b) Calculer lim IP (Xk = 2).
k→∞
Soient T le premier instant où U contient deux boules noires, pk := IP (T ≥ k, Xk = 1),
et qk := IP (T ≥ k, Xk = 2).
c) Exprimer (pk+1 , qk+1 ) en fonction de (pk , qk ), puis pk+1 en fonction de (pk , pk−1 ).
d) Déduire la valeur de pk , puis la loi de T . Que vaut IP (T = ∞) ?
Exercice no 4.3 Un marchand de journaux a X clients par jour, X étant une v.a. entière
intégrable, de loi supposée connue. Il gagne a par journal vendu, perd b par journal invendu,
et perd c par client insatisfait. Quel est le nombre n de journaux qu’il doit commander par
jour pour optimiser son gain moyen ?
Z ∞
o
Exercice n 4.4 Montrer que pour toute v.a.r. Z ≥ 0, on a IE(Z) = IP (Z > s) ds .
0
Particulariser au cas où Z prend ses valeurs dans IN .
Définition 4.0.9 Une variable aléatoire V définie sur un espace de probabilité (Ω, T , IP )
(et à valeurs dans IRd ) admet la densité h lorsque sa loi est donnée par
Z
IE(f ◦ V ) := f (v) h(v) dv , pour toute fonction continue bornée f : IRd → IR .
IRd
La densité h est forcément une fonction intégrable de IRd dans IR+ , d’intégrale égale à 1.
20
Attention, la plupart des variables aléatoires ne sont ni discrètes ni à densité ! Il suffit
de songer à une v.a. V valant une v.a. discrète X avec probabilité 1/2 et une v.a. à densité
Y avec probabilité 1/2 : IPV = (IPX + IPY )/2 . Imaginer par exemple un tir sur cible, avec
probabilité 1/2 de rater la cible, auquel cas la v.a. prend la valeur disons −1, et probabilité
1/2 d’atteindre la cible, auquel cas la v.a. prend ses valeurs dans le disque formé par la
cible, avec par exemple la loi uniforme.
Cela dit, les lois usuelles, celles qu’on rencontre le plus souvent, sont discrètes ou à
densité (on dit aussi : absolument continues).
Définition 4.0.10 Une v.a. V (définie sur un espace de probabilité (Ω, T , IP )) est dite
de carré intégrable ou dans L2 lorsque IE(kV k2 ) < ∞. Elle est alors nécessairement
intégrable.
La variance d’une v.a.r. V de carré intégrable est :
h i
Var(V ) := IE |V − IE(V )| = IE(V 2 ) − IE(V )2 .
2
Proposition 4.0.11 La covariance est bilinéaire, symétrique, positive, et Var(V ) est nulle
ssi V est p.s. constante. En outre Var(λV + V 0 ) = λ2 Var(V ) + 2 λ Cov(V, V 0 ) + Var(V 0 ).
21
Corollaire 4.0.12 (Inégalité de Schwarz) La covariance est majorée par le produit des
écart-types : |Cov(V, V 0 )| ≤ σ(V )σ(V 0 ) , où l’écart-type de la v.a.r. V est σ(V ) :=
Cov(V, V 0 )
Var(V ) . De sorte que le coefficient de corrélation linéaire %(V, V 0 ) :=
p
σ(V )σ(V 0 )
(défini pour V et V 0 v.a.r. de carré intégrable et non p.s. constantes) appartient à [−1, 1].
Il vaut ±1 ssi V = aV 0 + b (presque sûrement, pour a, b réels fixes).
Exercice no 4.6 a) Vérifier que KV = IE( t V V )− tIE(V )IE(V ) = Cov(Vi , Vj ) .
1≤i,j≤d
Proposition 4.0.13 (Inégalité de Jensen) Pour toute v.a.r. intégrable V et toute fonc-
tion convexe ψ de IR dans IR, telle que ψ ◦ V soit positive ou intégrable, on a
IE[ψ ◦ V ] ≥ ψ(IE[V ]) .
5 Lois usuelles
5.1 Lois usuelles discrètes
Définition 5.1.1 La loi uniforme sur un espace de probabilité fini est celle qui attribue
la même valeur à tous les singletons.
Corollaire 5.1.2 Si IP est uniforme sur Ω fini, alors IP (A) = Card(A)/Card(Ω) pour
toute partie A de Ω.
22
Exercice no 5.1.1 Calculer l’espérance et la variance d’une v.a. uniforme sur un intervalle
de Z.
Définition 5.1.3 La loi de Bernoulli de paramètre p , notée B(p), est sur l’espace {0, 1}
la loi (de probabilité) qui attribue la valeur p au singleton {1}. Ici 0 ≤ p ≤ 1.
Définition 5.1.4 La loi binômiale de paramètres n et p , notée B(n, p), est sur l’espace
{0, . . . , n} la loi (de probabilité) qui attribue la valeur Cnk pk (1 − p)n−k au singleton {k}.
Ici n ∈ IN ∗ et 0 ≤ p ≤ 1.
Remarque 5.1.5 C’est la loi de la somme de n v.a. indépendantes de même loi B(p).
La formule du binôme est exactement équivalente au fait que la somme de ces probabilités
Cnk pk (1 − p)n−k vaut bien 1.
Exercice no 5.1.2 Montrer que l’espérance et la variance d’une v.a. de loi B(n, p) valent
respectivement np et np(1 − p).
Remarque 5.1.7 C’est la loi du nombre d’éléments possédant un caractère donné K dans
un échantillon de taille n, prélevé au hasard, uniformément parmi les parties de cardinal
n, dans un ensemble de cardinal N , dont une proportion p possède le caractère K.
Cela s’applique aussi bien à des pièces défectueuses dans une production industrielle, qu’aux
individus malades dans une population, etc. . .
Exercice no 5.1.3 a) Montrer que l’espérance d’une v.a. de loi H(N, n, p) vaut np .
b) Calculer sa variance. c) Vérifier que lim H(N, n, p)(k) = B(n, p)(k), pour n, p, k fixés.
N →∞
Définition 5.1.8 La loi géométrique de paramètre p , notée G(p), est sur l’espace IN ∗ la
loi (de probabilité) qui attribue la valeur (1 − p)n−1 p au singleton {n}. Ici 0 < p < 1.
23
1 1−p .
Exercice no 5.1.5 Montrer que l’esp. et la variance d’une v.a. de loi G(p) valent p
et p2
Exercice no 5.1.6 Au cours d’un jeu illimité de pile ou face avec IP (pile)= p , on note
Xk le rang de la k-ième apparition de “pile”. Calculer la
loi de Xk , son espérance et sa
variance. Pour n ∈ IN ∗ , calculer IP (∃ k ∈ IN ∗ ) Xk = n .
Définition 5.1.10 La loi de Poisson de paramètre λ , notée P(λ), est sur l’espace IN la
n
−λ λ
loi (probabilité) qui attribue la valeur e au singleton {n}. Ici λ > 0.
n!
Exercice no 5.1.7 a) Montrer que l’esp. et la variance d’une v.a. de loi P(λ) valent λ.
b) Vérifier que lim B(n, p)({k}) = P(λ)({k}), pour λ > 0, k ∈ IN fixés et n → ∞ .
np→λ
Exercice no 5.1.8 Quelle est la valeur la plus probable pour une variable aléatoire pois-
sonnienne de paramètre λ ?
Exercice no 5.1.9 Un trousseau de n clefs contient une seule clef ouvrant une serrure
donnée. On les essaie l’une après l’autre au hasard. Calculer la loi, l’espérance et la
variance du nombre d’essais nécessaires. Même question si on réessaie à chaque fois une
clef au hasard sans avoir écarté la précédente.
24
d’énergie e1 parmi n1 états, . . . , kd particules d’énergie ed parmi nd états ; tandis que nN
est le nombre total de répartitions des N particules parmi les n états.
Ici IP est uniforme sur l’ensemble Ω des fonctions de {1, . . . , N } dans {1, . . . , n}.
Notons que cela montre du même coup la généralisation de la formule du binôme :
X N!
×z k1 . . . zdkd = (z1 +. . .+zd )N , pour tous z1 , . . . , zd ∈ C ,
k1 ! . . . kd ! 1
{(k1 ,...,kd )∈IN d | k1 +...+kd =N }
N!
= dN pour tous N, d ∈ IN ∗ .
P
et en particulier : k1 !...kd !
{(k1 ,...,kd )∈IN d | k1 +...+kd =N }
Exercice no 5.2.1 Calculer l’esp. et la variance d’une v.a. uniforme sur un intervalle de IR.
Exercice no 5.2.2 (Aiguille de Buffon) Sur un sol plat sont tracées 2 droites parallèles D
et D0 , distantes de L ≥ 1 . On laisse tomber entre D et D0 une aiguille de longueur 1, puis
on note x la distance du centre de l’aiguille à D, et θ l’angle que fait l’aiguille avec D. On
suppose que la v.a. (x, θ) est uniforme sur [0, L] × [0, π/2]. Vérifier que la probabilité que
l’aiguille intersecte D ou D0 vaut 2/(πL). Qu’en est-il si 0 < L < 1 ?
Définition 5.2.2 La loi exponentielle de paramètre λ , notée E(λ), est la loi admettant
sur IR+ la densité t 7→ λ e−λ t . Ici λ > 0.
Définition 5.2.3 Une variable aléatoire réelle est dite gaussienne centrée réduite ou
normale centrée réduite ou gaussienne standard lorsqu’elle admet (sur IR) la densité :
√
t 7−→ exp(−t2 /2)/ 2π . Une variable aléatoire réelle X est dite gaussienne ou normale
lorsqu’il existe m ∈ IR et σ > 0 tels que (X − m)/σ soit normale centrée réduite. On dit
alors que la loi de X est N (m, σ 2 ).
25
2 −x2 /2 R∞ 2 −x2 /2
b) Vérifier que A(A2e+1) x ≤ x e−t /2 dt ≤ e x sur [A, ∞[ , pour tout A > 0. Donner un
équivalent de IP (X > x) quand x → +∞.
√
c) Montrer que la densité de X est t 7−→ exp[−(t − m)2 /2σ 2 ]/σ 2π .
Nota Bene (i) La courbe de la densité gaussienne est la célèbre “courbe en cloche”.
(ii) Valeurs numériques à connaı̂tre :
N (0, 1) ] − ∞ , 1,65 ] ≈ 0, 95 , et N (0, 1) ] − ∞ , 1,96 ] ≈ 0, 975 .
Exercice no 5.2.6 Pour être en cours à 8h, un étudiant en voiture a le choix entre un
trajet sur petite route, dont la durée (en minutes) X suit la loi normale de moyenne 35,2
et de variance 25, et un trajet sur autoroute, dont la durée Y suit la loi normale de moyenne
40 et de variance 4. Il désire arriver à l’heure. Quel trajet doit-il préférer s’il part à 7h15 ?
Et s’il part à 7h30 ?
Définition 5.2.4 Une variable aléatoire V à valeurs dans IRd est dite gaussienne ou
normale lorsque u · V = tu V est une v.a.r. normale ou p.s. constante pour tout u ∈ IRd .
On note N (m, K) la loi d’un vecteur gaussien d’espérance m et de matrice de covariance
K. Une probabilité (resp. une densité) est dite gaussienne lorsqu’elle est la loi (resp. la
densité) d’un vecteur gaussien.
Exercice no 5.2.7 a) Vérifier que si V est un vecteur gaussien de IRd et si A est une
application affine de IRd dans IRn , alors AV est un vecteur gaussien.
b) Montrer que si V est un vecteur gaussien, alors ses coordonnées dans n’importe quelle
base sont gaussiennes (ou p.s. constantes).
26
Z
t (M −1 (v−m))×(M −1 (v−m))/2
= f (v) (2π)−d/2 e− |det (M −1 )| dv
IRd
Z
= f (v) (2π)−d/2 (det K)−1/2 exp − 1 t
2
(v − m)K −1 (v − m) dv .
IRd
Exercice no 5.2.8 : Simulation Soit F une fonction de répartition sur IR . Pour tout p ∈
[0, 1] , posons G(p) := inf{x ∈ IR | F (x) ≥ p}. (Nota Bene : inf IR = −∞ et inf ∅ = +∞ .)
a) Justifier l’existence dans IR de G(p) si p ∈]0, 1[ . b) Montrer que (∀x ∈ IR) G(F (x)) ≤ x.
c) Montrer que si G(p) ∈ IR, alors F (G(p)) ≥ p . d) Montrer que G(p) ≤ x ⇔ F (x) ≥ p .
e) Montrer que si U est une variable aléatoire de loi uniforme sur [0, 1], alors G ◦ U admet
F pour fonction de répartition. Nota Bene : Ceci est utilisé pour simuler des variables
aléatoires.
f) Que vaut G lorsque F est bijective de IR sur ]0, 1[ ? Comment simuler la loi E(λ) ?
6 Lemmes de Borel-Cantelli
Ces fameux lemmes, quoique simples, illustrent bien l’hypothèse d’additivité dénombrable
faite sur les probabilités. Ils sont très utiles, et ont des conséquences qui frappent
l’imagination.
T S
Pour toute suite d’ensembles {An | n ∈ IN }, lim sup An := Am est l’ensemble des
n n m≥n
éléments qui appartiennent à une infinité d’ensembles An . De même, lim inf An :=
S T n
Am est l’ensemble des éléments qui appartiennent à tous les ensembles An sauf
n m≥n
au plus un nombre fini. On a aussitôt : (lim sup An )c = lim inf Acn . Et lim sup An et
n n n
lim inf An sont des événements si les An en sont.
n
Proposition 6.0.7 (lemmes de Borel-Cantelli) Soit {An |n ∈ IN} une suite d’événements.
P
1) Si IP (An ) < ∞ , alors IP lim sup An = 0 .
n n
P
2) Si IP (An ) = ∞ et si les An sont indépendants, alors IP lim sup An = 1 .
n n
T S P
Preuve 1) IP Am ≤ IP (Am ) → 0 .
n m≥n m≥n
T S S T T
Acm Acm IP (Acm )
Q
2) 1 − IP Am = IP = lim ↑ IP = lim
n m≥n n m≥n n m≥n n m≥n
Q P
= lim (1 − IP (Am )) ≤ lim exp − IP (Am ) = 0 .
n m≥n n m≥n
27
Exemples 1) Un singe tapant sur un clavier d’ordinateur au hasard et indéfiniment
tapera presque sûrement à un certain moment les œuvres complètes de Victor Hugo sans
erreur (et même une infinité de fois). Mais ce résultat ne fournit aucun majorant du temps
qu’il faudra attendre pour voir ceci se réaliser une première fois !
2) Si l’univers est infini, il y a une infinité de planètes habitées par des êtres vivant.
3) Une utilisation typique du premier lemme de Borel-Cantelli : records.
Considérons une v.a.r. X1 ≥ 0 , pour laquelle
.
(∃ c > 0) (∃ % ∈ ]0, 1[ ) lim IP (X1 > x) %x = c .
x→+∞
C’est le cas des variables exponentielles et géométriques, par exemple. Considérons une
suite i.i.d. de telles v.a.r. : {X1 , . . . , Xn , . . .}, et posons Yn := max{X1 , . . . , Xn }, pour tout
n ∈ IN ∗ . Nous voulons évaluer la valeur du “record” Yn lorsque n est grand.
a) Fixons ε > 0 . Pour n suffisament grand, nous avons :
h log n i h log n in h log n in
IP Yn ≤ (1−ε) = IP X1 ≤ (1−ε) = 1−IP X1 > (1−ε)
log(1/%) log(1/%) log(1/%)
h log n i c log n
(1−ε) log(1/%)
c ε
≤ exp − n IP X1 > (1 − ε) ≤ exp − n × % = exp − n ,
log(1/%) 2 2
P h log n
i
de sorte que IP Yn ≤ (1 − ε) log(1/%) < ∞ , et donc que selon le premier lemme de
n
Yn 1−ε
Borel-Cantelli, nous avons presque sûrement : log n
> log(1/%)
pour tout n > n1 (ω).
b) Pour tout β > 0 , nous avons :
h β log n i h β log n i
IP Ynβ > (1 + ε) ≤ nβ IP X1 > (1 + ε) ≤ 2c nβ × n−β(1+ε) = 2c n−β ε ,
log(1/%) log(1/%)
P h log nβ
i
de sorte qu’en fixant β = 2/ε , nous obtenons : IP Ynβ > (1 + ε) log(1/%) < ∞ . Donc
n
1+ε Y
selon le premier lemme de Borel-Cantelli, nous avons presque sûrement : lognnββ ≤ log(1/%)
pour tout n > n2 (ω). Cela entraı̂ne que pour tout k > n2 (ω)β , si n := [k 1/β ], alors
nβ ≤ k < (n + 1)β , et par croissance de la suite (Yn ), nous avons presque sûrement, pour
tout entier k suffisament grand :
1−ε Yk Y(n+1)β 1+ε log(n + 1) 1 + 2ε
< ≤ ≤ × < .
log(1/%) log k log nβ log(1/%) log n log(1/%)
Yn 1
Ceci démontre précisément que presque sûrement : lim = .
n→∞ log n log(1/%)
Exercice no 6.1 kYn k22
P
Montrer que si une suite de v.a. {Yn | n ∈ IN } est telle que
n
converge, alors cette suite converge presque sûrement vers 0.
28
Exercice no 6.2 a) Montrer que si Y est une v.a.r. ≥ 0 , alors IE(Y )2 ≤ IE(Y 2 )×IP (Y > 0).
b) Déduire que si {A1 , . . . , An } sont des événements non tous négligeables, alors
n
[ n
X n
2 .h X X i
IP Aj ≥ IP (Aj ) IP (Aj ) + 2 IP (Ai ∩ Aj ) .
j=1 j=1 j=1 1≤i<j≤n
29
3) Les v.a. discrètes V1 , . . . , Vn , . . . sont indépendantes ssi pour tous v1 , . . . , vn , . . . les
événements {V1 = v1 }, . . . , {Vn = vn }, . . . sont indépendants.
Exemples : les résultats de différents dés, de lancers successifs d’une pièce, de tirages
successifs (roulette, . . . ), les durées de vie de différents atomes fissiles (en l’absence de
toute réaction en chaı̂ne), etc...
Exercice no 7.1 a) Soient U1 , U2 , U3 trois v.a. indépendantes, uniformes sur [0, 1]. Mon-
trer qu’elles sont p.s. 2 à 2 distinctes. On les réordonne en V1 < V2 < V3 . Montrer que
(V1 , V2 , V3 ) admet la densité 6 × 1{0<v1 <v2 <v3 <1} , et en déduire les densités de V1 , V2 , V3 .
b) Soient U1 , .., Un des v.a. indépendantes, uniformes sur [0, 1], et Jn := min{U1 , .., Un },
Mn := max{U1 , . . . , Un }. Calculer IP (x < Jn , Mn < y), et en déduire la loi (conjointe) de
(Jn , Mn ). c) Que vaut lim IP (Jn < x < y < Mn ) ?
n→∞
30
b) Calculer IE(U −1/2 V −1 ) .
Exercice no 7.8 Trois clients A, B, C arrivent au même temps 0 à la poste, où 2 guichets
sont ouverts, qu’occupent A et B tout de suite. C remplace le premier des 2 qui a terminé.
On admet que les temps de service X, Y, Z requis par ces 3 clients sont des v.a.r.i.i.d. de
même loi E(λ).
a) Quelle est la loi du temps d’attente T de C ? b) Calculer la probabilité que C
termine (et parte) le dernier. c) Calculer la loi du temps du dernier départ.
Exercice no 7.9 Quand la somme de 2 variables aléatoires binômiales indépendantes est-
elle binômiale ?
Exercice no 7.10 On effectue n tirages indépendants avec remise dans une urne contenant
une proportion pj de boules marquées j, pour 1 ≤ j ≤ r , r > 1 étant fixé. On note Nj le
nombre de boules marquées j qu’on tire ainsi. Préciser la loi du vecteur N := (N1 , .., Nr ) ,
et calculer l’espérance et la variance de Nj , la covariance de Nj et Nk , et le nombre moyen
de j tels que Nj = 0 .
31
Exercice no 7.15 Un joueur va au casino avec une fortune initiale a ∈ IN ∗ . À chaque
partie, il gagne 1 avec probabilité p et perd 1 avec probabilité q = 1 − p. Les parties sont
supposées indépendantes.
1) Fixons un entier b > a, et notons Pb (a) la probabilité qu’a le joueur d’atteindre la
fortune b avant d’être ruiné.
a) Montrer que Pb (a) = p Pb (a + 1) + q Pb (a − 1). b) Déduire la valeur de Pb (a).
2) Autorisons le joueur à s’endetter, notons T le premier instant où sa fortune vaut a + 1,
puis, pour n ∈ IN , gn := IP (T = n), et enfin g la fonction génératrice de T .
a) Montrer que gn+2 = q (g1 gn + .. + gn g1 ). b) Déduire que g(s) − ps = qs g 2 (s).
c) Calculer g , IP (T < ∞), et IE(T ).
Définition 8.0.13 On dit que la suite {Xn | n ∈ IN } de variables aléatoires à valeurs dans
IRd converge en loi vers X (à valeurs dans IRd ) lorsque IE(f ◦ Xn ) tend vers IE(f ◦ X),
pour toute fonction f continue à support compact (ou continue bornée) de IRd dans IR .
32
Proposition 8.0.14 La convergence en probabilité entraı̂ne la convergence en loi.
Proposition 8.0.16 La convergence en loi d’une suite de v.a.r. {Xn | n ∈ IN ∗ } vers une
v.a.r. X équivaut à la convergence simple de Fn vers F en chaque point de continuité de
F ; Fn désignant la fonction de répartition de Xn , et F celle de X.
Exercice no 8.3 Soit {Xn | n ∈ IN } une suite de v.a.r. de fonction de répartition commune
F , telle que lim x (1 − F (x)) = lim x F (−x) = 0 . Posons Mn := max{X1 , . . . , Xn }, et
x→∞ x→∞
Mn mn
mn := min{X1 , . . . , Xn }. Montrer que n
et n
convergent en probabilité vers 0.
Théorème 9.0.18 (Loi forte des grands nombres) Soit {Xn | n ∈ IN ∗ } une suite de v.a.
indépendantes et intégrables, de même loi. Alors la suite des moyennes de Césaro
X 1 + · · · + Xn
converge presque sûrement vers IE(X1 ).
n
33
Remarque 9.0.19 La réciproque suivante de la loi des grands nombres est vraie :
Si {Xn | n ∈ IN ∗ } est une suite de v.a.r indépendantes et de même loi telle que la suite
des moyennes de Césaro X1 +···+X
n
n
converge p.s., alors X1 est intégrable.
Preuve Remarquons Xn
Pqu’alors n =
X1 +..+Xn
n
− X1 +..+X
n−1
n−1
× n−1
n
doit converger p.s. vers
0. Donc IE(|X1 |) ≤ IP (|Xn | > n) est finie d’après le deuxième lemme de Borel-Cantelli.
n
Nota Bene Le TCL évalue les fluctuations d’une somme de v.a.i.i.d. (de carré intégrable)
autour du terme (déterministe) dominant (donné par la LGN) ; en dimension 1 (pour
simplifier) on peut en effet le réécrire (sous forme d’égalité en loi) :
L √ √
X1 + · · · + Xn = n IE(X1 ) + n σ(X1 ) N (0, 1) + o( n ).
Exercice no 10.1 (Surlocation) Une agence de voyage dispose de 160 places à louer pour
une destination donnée. Elle sait que les locations sont honorées par ses clients avec une
probabilité fixe p. Elle vend N = 160α > 160 places. Pour quelles valeurs de α la
probabilité de ne pas louer trop de places vaut-elle 0, 95 ; 0, 975 ?
Rappel Valeurs numériques à connaı̂tre :
N (0, 1) ] − ∞ , 1,65 ] ≈ 0, 95 , et N (0, 1) ] − ∞ , 1,96 ] ≈ 0, 975 .
Exercice no 10.2 Le prix Sn d’une action au jour n est modélisé ainsi : S0 = s > 0 est
fixe, et Sn+1 = (1 + r + σεn+1 ) Sn , où r > 0 est un taux fixe, σ ∈]0, 1 + r[ est une
volatilité fixe, et {εn | n ∈ IN } est une suite i.i.d. de loi de Bernoulli B(±1, 1/2) .
a) Étudier le comportement des suites (log Sn )/n√et Sn .
b) Étudier le comportement de la suite (log Sn )/ n . √
√ [1/ n ]
c) Étudier le comportement de la suite [(1 + r)2 − σ 2 ](− n /2) × Sn .
Exercice no 10.3 Notons {Xn , Yn , Zn | n ∈ IN ∗ } une famille de v.a.i.i.d. de loi commune
B(±1, 1/2) . Posons pour tout n ∈ IN :
n
P n
P Pn
Rn := Xk Yk , Sn := Yk Zk , Tn := Zk Xk , puis Vn := (Rn , Sn , Tn ) .
k=1 k=1 k=1
34
a) Rn , Sn , Tn sont-elles indépendantes 2 à 2 ? indépendantes ?
b) Quelle est la loi de Rn ? c) Calculer la transformée
√ de Fourier de Vn .
d) Étudier la convergence de Vn /n , puis de Vn / n .
Exercice no 10.4 3016 mathématiciens sont invités à un colloque ; en moyenne un sur 4
répondra favorablement, et les réponses sont supposées indépendantes les unes des autres.
Combien les organisateurs doivent-ils prévoir de places, afin que la probabilité de ne pas
en manquer soit ≥ 0, 99 ?
Exercice no 10.5 Une compagnie assure 10000 clients sur la vie, qui payent chacun une
prime annuelle de A euros. On estime que chaque client a une probabilité de décès au
cours d’une année égale à 6/1000, indépendamment les uns des autres. La prime de décès
est de B euros.
a) Quelle est la loi du nombre annuel des décès ? Comment peut-on l’approcher ?
b) Si B = 1000, pour quels A la compagnie a-t-elle une probabilité < 1/100 d’être en
déficit ? c) Si A = 15, pour quels B la compagnie a-t-elle une probabilité > 0, 7 de faire
un bénéfice annuel > 50000 euros ?
Exercice no 10.6 Soit {Xn | n ∈ IN } une suite de v.a.i.i.d. de loi commune B(p) . Posons
Yn := Xn Xn+1 et Sn := (Y1 + · · · + Yn )/n , pour tout n ∈ IN .
Calculer la loi et l’espérance de Yn , puis la covariance de Yn et de Yn+k , l’espérance de Sn2 ,
et enfin montrer que Sn converge en probabilité vers p2 .
35
Un caractère est donc une application χ d’un ensemble fini Ω (la population) dans un
ensemble E (l’ensemble des valeurs du caractère), qui associe à chaque individu ω ∈ Ω
la valeur χ(ω) que prend ce caractère sur ω . La suite des valeurs χ(ω) prises par χ
constitue les données brutes. C’est une suite finie (χ1 , χ2 , . . . , χN ) ∈ E N .
On peut considérer des caractères qualitatifs (comme : profession, adresse, situation
de famille, sexe, etc. . . ) et des caractères quantitatifs, dont la détermination produit un
nombre ou une suite de nombres. Cela dit, les caractères qualitatifs peuvent toujours être
transformés en caractères quantitatifs par simple codage. C’est ce qui se fait le plus souvent,
quoiqu’un tel codage soit purement conventionnel et n’ait pas de vrai sens quantitatif.
Ces distributions statistiques sont qualifiées de discrètes. Lorsque le nombre des valeurs
atteintes est important, on préfère regrouper les valeurs en classes pour rendre la statistique
plus lisible. On partage alors l’ensemble C des valeurs du caractère en classes ]ai , ai+1 ] telles
que ai < ai+1 ; les deux classes extrêmes pouvant s’étendre jusquà l’infini.
On parle alors de statistique groupée ou continue, et on nomme successivement :
- effectif de la classe ]ai , ai+1 ] : le nombre ni des valeurs prises par χ qui se trouvent dans
la classe ]ai , ai+1 ], c’est-à-dire ni := Card[χ−1 ( ]ai , ai+1 ])] ;
- effectif cumulé en ai : le nombre de valeurs prises par χ qui se trouvent dans la classe
] − ∞, ai ] ;
ni
- fréquence de la classe ]ai , ai+1 ] : le rapport fi := N
;
36
0.2
6
5
0.15
0.1
3
2
0.05
0 2 4 6 8 10
0 2 4 6 8 10
i
P
- fréquence cumulée en ai : la somme partielle cumulée fj des fréquences.
j=1
La famille (xi , ni )i=1,...,n ou (xi , fi )i=1,...,n est encore appelée distribution statistique
discrète. De même, la famille ( ]ai , ai+1 ], ni )i=1,...,n ou ( ]ai , ai+1 ], fi )i=1,...,n est encore ap-
pelée distribution statistique groupée (ou continue).
(1, 1); (2, 3), (3, 4); (4, 2); (5, 5); (6, 6); (7, 2); (8, 3); (9, 1); (10, 1)
Le polygone des fréquences (resp. des effectifs) est obtenu à partir du diagramme
en bâtons des fréquences (resp. des effectifs) en joignant par un segment les sommets
des bâtons voisins. Le graphique de la figure 2 superpose le polygone des effectifs et le
diagramme en bâtons des effectifs de l’exemple précédent.
En remplaçant les fréquences (resp. les effectifs) par les fréquences cumulées (resp. les
effectifs cumulés) on obtient le diagramme en bâtons et le polygone des fréquences cumulées
(resp. des effectifs cumulés). La figure 3 donne le diagramme en bâtons et le polygone des
effectifs cumulés de l’exemple précédent.
37
25
20
15
10
0 2 4 6 8 10
0.35
0.3
25
0.25
20
0.2
15
0.15
10
0.1
0.05
5
0 2 4 6 8 10 12
0 2 4 6 8 10 12
On représente la distribution par des rectangles dont les cotés horizontaux sont les
classes et dont les aires sont proportionnelles aux effectifs ou aux fréquences.
En figure 4 nous donnons l’histogramme de la distribution suivante
(]1, 3], 4); (]3, 4], 8); (]4, 11
2
], 10); (] 11
2
, 6], 14); (]6, 8], 20); (]8, 10], 12); (]10, 11], 9); (]11, 25
2
], 3).
38
1
0.8
0.6
0.4
0.2
0 2 4 6 8 10 12
i−1
P i
P
sur l’intervalle ]ai , ai+1 ]. En particulier ai 7→ fj ou bien ai+1 7→ fj , et le polygone
j=1 j=1
est déduit de ces valeurs particulières par simple interpolation affine. La fonction ainsi
définie est proportionnelle à la primitive nulle en a0 de la fonction en escalier représentée
par l’histogamme de la figure 4. Pour l’exemple précédent nous obtenons le graphique de
la figure 6.
On nomme valeur modale ou mode d’une distribution statistique discrète (xi , fi )i=1,...,p
toute valeur x1 , x2 , . . . , xp dont la fréquence est maximale. La distribution est unimodale
si elle a un seul mode, plurimodale (bimodale, trimodale, . . . ) sinon. On visualise aisément
les modes sur les représentations graphiques. Pour une distribution statistique groupée,
on nomme de manière analogue classe modale toute classe de fréquence maximale.
La médiane d’une distribution statistique discrète (xi , fi )i=1,...,p est la plus petite des
valeurs xi pour laquelle la fréquence cumulée est supérieure ou égale à 0,5. On la note
Q0.5 . On peut la déterminer aisément à partir du diagramme en bâtons des fréquences
39
cumulées. En gros, la moitié de la population présente une valeur du caractère inférieure
à la médiane, l’autre moitié une valeur supérieure.
Pour une distribution statistique groupée, la médiane est définie comme le nombre réel
x pour lequel le polygone des fréquences cumulées atteint la valeur 0,5.
Plus généralement, si α est un nombre réel strictement compris entre 0 et 1, le quantile
d’ordre α, noté Qα , est la plus petite des valeurs xi pour laquelle la fréquence cumulée
est supérieure à α . En dehors de la médiane, les quantiles les plus souvent utilisés sont
les quartiles (α = 0, 25 ; 0, 5 ; 0, 75) et les déciles (α = 0, 1 ; 0, 2 ; . . . ; 0, 9).
11.2.3 Moyenne
La moyenne d’une distribution statistique discrète χ = (xi , fi )i=1,...,p est le nombre réel
m défini par
p p
X X
m = m(χ) := N1 n i xi = f i xi .
i=1 i=1
où N est l’effectif total de la population. On peut aussi la calculer directement à partir
des données brutes par
N
X
1
m(χ) = N χj ,
j=1
c’est-à-dire en calculant le rapport entre la somme de toutes les valeurs relevées (avec
répétitions éventuelles) et l’effectif total de la population.
Pour une statistique groupée ( ]ai , ai+1 ], fi )i=1,...,p la moyenne se calcule par
p
X ai + ai+1
m := fi .
i=1
2
Cela revient à faire une hypothèse d’homogénéité en considérant les valeurs équidistribuées
à l’intérieur d’une classe ou, au contraire, à supposer que toute la fréquence est concentrée
au centre de la classe (ce qui revient au même : on remplace la distribution à l’intérieur de
la classe par son barycentre).
Ce sont des paramètres qui mesurent de différentes façons la dispersion d’une distribu-
tion statistique discrète χ = (xi , fi )i=1,...,p .
On nomme successivement :
- étendue la différence (xp − x1 ) entre la plus grande et la plus petite des valeurs prises ;
- intervalle interquartile la différence (Q0,75 − Q0,25 ) ;
40
p p
fi (xi − m)2 = fi x2i − m2 ;
P P
- variance la quantité Var(χ) :=
i=1 i=1
p
- écart-type la quantité σ(χ) := Var(χ) ;
p N
- moment d’ordre k (pour k ∈ IN ∗ ) la quantité mk (χ) := fi xki = 1
χkj ;
P P
N
i=1 j=1
p
- moment centré d’ordre k (pour k ∈ IN ∗ ) la quantité m0k (χ) := fi (xi − m)k .
P
i=1
La variance est ainsi le moment centré d’ordre 2. On la note souvent σ 2 .
Preuve Sur l’ensemble {i | |xi − m| ≥ ε}, le nombre positif (xi − m)2 est minoré par ε2 ;
on a donc
p
X X X
2
σ = (xi − m)2 fi ≥ (xi − m)2 fi ≥ ε2 fi ,
i=1 {i | |xi −m|≥ε} {i | |xi −m|≥ε}
Remarque 11.2.7 Pour les distributions statistiques groupées, on définit les mêmes no-
tions en supposant que toutes les valeurs d’une classe sont concentrées au centre de la
classe :
p 2 p k
√
X ai+1 + ai X ai+1 + ai
Var := fi − m ; σ = Var ; mk := fi .
i=1
2 i=1
2
ai+1 +ai
En remplaçant xi par 2
, les remarques 11.2.5 et 11.2.6 restent valables pour ces
distributions.
41
12 Régression linéaire
12.1 Problématique
Étant donnée une statistique double ou statistique bivariée (de données réelles)
X = (X1 , . . . , Xn ), Y = (Y1 , . . . , Yn ) , on cherche une relation linéaire : Y = aX + b .
Bien entendu elle ne peut être exacte sauf cas exceptionnel. Aussi cherche-t-on les co-
efficients (a, b) de façon que cette relation soit le plus près possible d’être vérifiée. La
notion de proximité qu’on retient est celle qui conduit au calcul le plus simple : on
cherche à minimiser la somme des carrés. (a, b) sera donc le couple de réels minimisant
n
(Yj − aXj − b)2 . La droite DY /X d’équation Y = aX + b correspondante est la
P
j=1
droite de régression au sens des moindres carrés (ou droite de régression ou
droite d’ajustement) de Y par rapport à X.
12.2 Moments
Exactement analogues aux quantités intervenant dans le cadre probabiliste sont :
n n
les moyennes empiriques X̄ := n1 Xj , Ȳ := n1
P P
Yj , puis les variances empiriques
j=1 j=1
n n n
1 1 1
Xj2 − X̄ 2 , Vy := Yj2 − Ȳ 2 , et la covariance empirique κ :=
P P P
Vx := n n n
Xj Yj − X̄ Ȳ .
j=1 j=1 j=1
√ p
Les écarts-type sont σx := Vx et σy := Vy , et le coefficient de corrélation linéaire est
% := κ/(σx σy ).
12.3 Solution
Nous avons simplement :
n n
1X 2 1 X 2
(Yj − aXj − b) = (Yj − Ȳ ) − a(Xj − X̄) + (Ȳ − aX̄ − b)
n j=1 n j=1
42
Elle est nulle lorsque qu’existe une relation linéaire entre les statistiques X et Y , et faible
en cas de relation quasi-linéaire. Notons que la droite de régression passe par le centre de
gravité (X̄, Ȳ ) du nuage formé par les n points (Xj , Yj ).
De même qu’on a la droite DY /X de régression de Y par rapport à X, on a la droite
DX/Y de régression de X par rapport à Y , d’équation X = a0 Y + b0 , avec
a0 = κ/Vy , b0 = X̄ − a0 Ȳ .
Les deux droites DY /X et DX/Y passant toutes deux par le centre de gravité (X̄, Ȳ ) du
nuage, elles sont confondues si et seulement si aa0 = 1 , id est si et seulement si κ2 = Vx Vy ,
ou encore si et seulement si % = ±1 , et d’autant plus proches l’une de l’autre que |%| est
proche de 1. Cela explique la dénomination de % .
12.4 Utilisation
Il est naturel d’utiliser la droite DY /X pour prédire une valeur supplémentaire Yn+1 de
la statistique Y , connaissant une valeur supplémentaire Xn+1 de la statistique X : Yn+1 =
aXn+1 + b .
La qualité d’une telle prédiction (qui a priori n’a vraiment de sens que pour Xn+1 proche
de l’intervalle [min X, max X]) dépend de la valeur de σ 2 = Vy − κ2 /Vx , qui est la variance
empirique de la statistique Y − aX − b . On peut déterminer une bande de confiance
(on parle plutôt d’intervalle de confiance, voir la section 13.5 ci-dessous) par sa largeur
autour de la droite de régression, de la façon suivante : pour p ∈ ]0, 1[ fixé, soit r un réel
n
> 0 tel que p ≈ n1
P
1{|Yj −aXj −b|≤r} . Pensant au théorème central limite, il est naturel
j=1
d’approcher la loi empirique des (Yj − aXj − b) par une gaussienne, nécessairement centrée
et de variance σ 2 . De sorte qu’on doit avoir p ≈ IP (|G| ≤ r/σ) , pour G gaussienne centrée
réduite. On peut ainsi estimer que pour Xn+1 proche de l’intervalle [min X, max X], on
doit avoir
h par exemple 95% de chance de trouver iYn+1 dans l’intervalle (de confiance à
95%) aXn+1 + b − (1, 96)σ , aXn+1 + b + (1, 96)σ .
43
Si l’on recherche une relation fonctionnelle comportant plus de deux paramètres, on peut
de nouveau minimiser la somme des carrés des différences (comme avec 2 paramètres),
cette fois en commençant par annuler les dérivées partielles. Par exemple dans le cas
d
αk X k : on cherchera la (les) valeur(s) du paramètre
P
d’une relation polynômiale Y ≈
k=0
n h d i2
(α0 , . . . , αd ) ∈ IRd+1 qui minimise(nt) δ = δ(α0 , . . . , αd ) := αk Xjk .
P P
Yj −
j=1 k=0
n n
1X 1X
(Ŷj − Ȳ )2 = (a[Xj − X̄])2 = a2 Vx = %2 Vy .
n j=1 n j=1
44
X = (X1 , . . . , Xn ), Y = (Y1 , . . . , Yn ) peut aussi bien bien être présentée sous la forme
alternative de nuage de points pondérés : (xi , yj ); nij , où nij figure l’effectif
1≤i≤p , 1≤j≤q
du point de coordonnées (xi , yj ), id est le nombre de fois qu’il figure dans la statistique
double considérée (X, Y ).
Noter que l’on peut (ou non) considérer que (x1 , . . . , xp ) est la liste strictement crois-
sante des différentes valeurs de X, et que (y1 , . . . , yq ) est la liste strictement croissante
des différentes valeurs de Y , quitte à admettre des effectifs éventuellement nuls. Mais cela
n’importe guère.
P
L’effectif total est alors bien sûr n = nij . La fréquence du point de coordonnées (xi , yj )
i,j
est fij := nij /n . Les distributions marginales, et fréquences marginales, exactement
analogues aux lois marginales probabilistes, sont données par :
q p q p
X X X X
ni· := nij ; n·j := nij ; fi· := fij = ni· /n ; f·j := fij = n·j /n .
j=1 i=1 j=1 i=1
Notons que l’indépendance probabiliste trouve ici son pendant dans la relation suivante,
qu’on peut nommer “indépendance statistique” : fij = fi· × f·j (∀ 1 ≤ i ≤ p , 1 ≤ j ≤ q).
Les moments du paragraphe 12.2 se calculent évidemment aussi bien sous cette forme
de donnée que sous la forme précédente. Nous avons en effet :
p q
1X 1X 1X 1X
X̄ = ni· xi = nij xi ; Ȳ = n·j yj = nij yj ;
n i=1 n ij n j=1 n ij
p q
1X 1X 1X
Vx = ni· x2i − X̄ 2 ; Vy = n·j yj2 − Ȳ 2 ; κ= nij xi yj − X̄ Ȳ .
n i=1 n j=1 n ij
Exercice no 12.2 Vérifier les formules ci-dessus, et en donner d’autres formes alternatives.
13 Vraisemblance et estimation
13.1 Maximum de vraisemblance
Il s’agit d’estimer un paramètre inconnu θ d’une loi de probabilité µ = IPθ , sur la base
d’une suite de réalisations, ou d’observations, effectuées suivant cette loi. Le paramètre
θ varie a priori dans un certain ensemble Θ ⊂ IRd (dont le choix peut appartenir au
statisticien).
Notons X une v.a. dont la loi est µ , et x1 , . . . , xn une suite d’observations, nommée
échantillon ou statistique (ou échantillon statistique), représentant des réalisations de X,
qu’on suppose indépendantes. On considère les 2 cas les plus usuels : soit µ est discrète, soit
45
elle admet une densité g = gθ . La fonction de vraisemblance associée à θ et à x1 , . . . , xn
est :
n
Q
f (x1 , . . . , xn | θ) := IPθ ({xj }) lorsque µ est discrète, et
j=1
n
Q
f (x1 , . . . , xn | θ) := gθ (xj ) lorsque IPθ admet la densité gθ .
j=1
k n−k
Z
N dt
Z
N dt h p i h 1−p i
≈ − = log − log ,
0 p−t 0 1−p−t p − Nk 1 − p − n−k
N
dont la nullité équivaut à :
p 1−p k
k
= n−k
⇔ p= .
p− N 1−p− N n
46
Notons que c’est la valeur qu’on obtient trivialement en imposant, au lieu du maximum de
vraisemblance, simplement que la moyenne np soit égale à la valeur k obtenue au tirage.
Exercice no 13.1.1 Soit {Xj | j ∈ IN ∗ } une suite de v.a.i.i.d. de loi E(λ). On appelle
“processus de Poisson” d’intensité λ le processus (t 7→ Nt ) défini pour tout t ∈ IR+ par
Nt := max{n ∈ IN | X1 + · · · + Xn ≤ t}. X1 + · · · + Xn est le temps auquel survient le
n-ième événement décompté par (Nt ) (comme des arrivées successives de trams à un arrêt,
de clients à un guichet, etc...). On montre que (pour tous s, t ≥ 0) Ns+t − Ns a pour loi
IP (λt), et est indépendante de toutes les variables {Ns0 | 0 ≤ s0 ≤ s}.
Supposons qu’un processus de Poisson d’intensité inconnue λ est observé : a) jusqu’à un
temps fixe T ; b) jusqu’à la survenue du n-ième événement. Dans chacun de ces deux
cas, quel est l’estimateur du maximum de vraisemblance pour λ ?
qui est égal à sa variance s’il n’est pas biaisé. Il n’y a généralement pas d’estimateur dont
le risque soit minimal uniformément (c’est-à-dire pour tous les θ dans Θ), même parmi
les estimateurs sans biais. Il peut y avoir des estimateurs biaisés meilleurs (c’est-à-dire de
risque moindre pour tout θ ∈ Θ) que les estimateurs sans biais.
Exemples 1)Soit A une sous-population en proportion p dans une population Ω.
n
L’estimateur “proportion empirique” p̂ = p̂(x1 , . . . , xn ) := n1
P
1A (xj ) de p est sans
j=1
biais, de risque R(p̂, p) = p(1 − p)/n . Ici IPp = B(p).
2) µθ = E(1/θ), comme dans l’exemple 1 de la section 13.1 ci-dessus : notons θ̂1 (x) := x1 ,
qui est sans biais, de même que l’estimateur θ̂ = (x1 + . . . + xn )/n du maximum de
vraisemblance. On a aussitôt : R(θ̂1 , θ) = θ2 > R(θ̂, θ) = θ2 /n .
De même, si on considère une moyenne quelconque : θ̂λ = λ1 x1 + . . . + λn xn , avec
λ1 , . . . , λn ≥ 0 tels que λ1 + . . . + λn = 1 , on trouve encore un estimateur sans biais,
de risque R(θ̂λ , θ) = λ21 + . . . + λ2n , qui est minimal pour θ̂λ = θ̂ .
On a plus généralement le résultat suivant, valable dès que les v.a.r.i.i.d. Xj sont de
carré intégrable. Bien entendu, cet énoncé ne traite pas tous les cas.
47
Proposition 13.2.1 1) Parmi tous les estimateurs sans biais de IE(X1 ) qui sont des
n
fonctions linéaires de (X1 , . . . , Xn ), la moyenne empirique X̄n := n1
P
Xj est de risque
j=1
minimal.
2) Parmi tous les estimateurs sans biais de Var(X1 ) qui sont des fonctions quadratiques
n
1
(Xj − X̄n )2 est de risque minimal.
P
de (X1 , . . . , Xn ), la déviation standard Vn := n−1
j=1
48
13.4 Statistique exhaustive
Définition 13.4.1 Une statistique exhaustive des v.a.i.i.d. X1 , . . . , Xn est une fonction
(déterministe et indépendante de θ) τn = τ (X1 , . . . , Xn ) qui permet de factoriser la fonction
de vraisemblance sous la forme : f (X1 , . . . , Xn | θ) = hn (τn , θ) × kn (X1 , . . . , Xn ), pour une
fonction kn indépendante de θ .
Corollaire 13.4.3 En présence d’une statistique exhaustive τ , les estimateurs sans biais
ne sont à rechercher que parmi les fonctions de τ .
Lorsqu’il n’existe qu’un seul estimateur sans biais fonction d’une statistique exhaustive,
alors il est optimal parmi les estimateurs sans biais.
n
P
Exemple Reprenons l’exemple 3 vu plus haut : µ = P(λ). La statistique X̄ := Xj /n
j=1
est exhaustive, et optimale pour l’estimation (sans biais) de λ . En effet, f (X̄) est sans biais
X (λn)x x
λn
ssi λe = f pour tout λ > 0, ce qui, par injectivité de la transformation
x∈IN
x! n
de Laplace, impose que f = Id est la seule solution.
Cherchons un estimateur optimal pour θ = e−λ , en observant que l’estimateur élémentaire
1{X1 =0} est sans biais. La statistique X̄ est encore exhaustive, et donc IP X1 = 0 X̄
49
Exercice no 13.4.2 Soient X1 , . . . , Xn , Y1 , . . . , Yn des v.a.r. indépendantes, les Xj de
loi E(λ), et les Yj de loi E(λ0 ). Trouver une statistique exhaustive pour (λ, λ0 ), et les
estimateurs du maximum de vraisemblance pour λ et λ0 . Ont-ils un biais ?
On peut souvent obtenir un tel intervalle de confiance sans trop de mal, du moins
lorsque la loi de l’estimateur θ̂n est accessible : on détermine pour cela d’abord un intervalle
symétrique (la symétrie étant facultative) [θ − an (θ) , θ + an (θ)] tel que pour tout θ ∈ Θ
IPθ θ − an (θ) < θ̂n < θ + an (θ) = 1 − α ;
puis on résoud autant que possible : θ − an (θ) < θ̂n < θ + an (θ) ⇐⇒ bn (θ̂n ) < θ < b0n (θ̂n ).
C’est souvent aisé, du moins pour les exemples simples, car les bornes θ ±an (θ) se trouvent
souvent être des fonctions continues strictement croissantes de θ .
La qualité (précision) d’un intervalle de confiance sera d’autant meilleure que l’esti-
mateur utilisé sera bon et que la taille n de l’échantillon sera grande.
Nous avons vu que dans ce cas la moyenne empirique est le meilleur des estimateurs
qu’il faut utiliser. Sa loi est N (m, σ 2 /n). Nous avons alors
(sans biais) : c’est donc x̄n √
aussitôt an (m) = qα/2 × σ/ n , notant qp le quantile d’ordre (1 − p) de la loi N (0, 1).
En effet, notant Φ la fonction de répartition gaussienne standard, nous avons : d’une part
√ √ √
n n n
1−α = IPθ m−an (m) < x̄n < m+an (m) = IPθ − σ an (m) < σ (x̄n −m) < σ an (m)
√ √
n n
= 2 N (0, 1) [0, σ an (m)] = 2 Φ σ an (m) − 1 ,
et d’autre part 2 Φ(qα/2 ) − 1 = 2 (1 − α/2) − 1 = 1 − α .
Donc un intervalle de confiance de niveau 1 − α pour la moyenne m de N (m, σ 2 ) est
i √ √ h
J = Jn (x̄n ) = x̄n − qα/2 × σ/ n , x̄n + qα/2 × σ/ n .
50
2
√ √
En particulier : N (m, σ ) x̄n − (1, 96) σ/ n < m < x̄n + (1, 96) σ/ n ≈ 0, 95 ,
√ √
et N (m, σ 2 ) x̄n − (1, 65) σ/ n < m < x̄n + (1, 65) σ/ n ≈ 0, 90 .
Supposons ici seulement que n soit assez grand, et que la loi µm , de moyenne inconnue
m , admette un second moment. Notons σ son écart-type. Nous savons que la moyenne
empirique x̄n est un bon estimateur de m (et qu’il converge p.s. vers m).
Appliquons le théorème central limite :
√ √
(m − x̄n ) n /σ = (nm − x1 − · · · − xn )/(σ n ) doit être proche d’une v.a. G de loi N (0, 1).
51
√ √ √
Posant α := (a −√x̄n ) n /σ et β := (b − x̄n ) n /σ , ce qui équivaut à a = x̄n + α σ/ n
et b = x̄n + β σ/ n , on obtient :
√
IP (m ∈ J ≡ [a, b]) = IP α ≤ (m − x̄n ) n /σ ≤ β ≈ IP (G ∈ [α, β]).
On choisit ordinairement (mais ce n’est pas une obligation) l’intervalle [α, β] centré, et
de sorte que IP (G ∈ [α, β]) vaille (le plus souvent) 0, 9 ou 0, 95 . On obtient par exemple :
√ √
IP x̄n − (1, 96) σ/ n ≤ m ≤ x̄n + (1, 96) σ/ n ≈ 0, 95 .
√ √
Donc J = [x̄n − (1, 96) σ/ n , x̄n +(1, 96) σ/ n ] est (presque !) un intervalle de confiance
à 95% pour m .
Il est généralement irréaliste de supposer l’écart-type σ connu. Comme dans l’exemple
2 ci-dessus, on peut le remplacer par l’estimateur (voir la proposition 13.2.1 ci-dessus) :
p
σ ≈ σ̂ = σ̂(x1 , . . . , xn ) = Vn .
h p p i
L’intervalle J = x̄n + α Vn /n , x̄n + β Vn /n est alors réellement fonction seulement
de l’échantillon (x1 , . . . , xn ) et de n . Mais son niveau n’est plus nécessairement le même.
52
a) Vous envisagez de ne considérer l’affirmation comme confirmée que si cet intervalle
à 90% basé sur le groupe des personnes interrogées est inclus dans [54%; 56%]. Est-ce
raisonnable ?
b) Découragé(e) par la réponse obtenue en a), vous vous contentez d’un échantillon de
50 personnes. Si la proportion de oui est de 53% parmi les 50 réponses, déterminez un
intervalle de confiance à 90% .
14 Tests
Au lieu d’estimer le paramètre inconnu θ de la loi IPθ , on cherche ici à savoir s’il
vérifie une hypothèse statistique notée H0 , identifiée à une partie de Θ, et nommée aussi
hypothèse nulle. Pour cela on emploie un test. Par exemple H0 = {θ < 7}, et le test
est une règle devant permettre de trancher ou de parier, en fonction d’un échantillon
statistique relatif à IPθ , si l’hypothèse nulle H0 doit être acceptée ou bien rejetée. Dans le
cas le plus général, on considère une hypothèse alternative H1 , contre laquelle on teste H0 ,
conditionnellement à H0 ∪ H1 . Ici on a choisi simplement H1 = (H0 )c = Θ \ H0 .
Bien entendu, l’acceptation ou le rejet de l’hypothèse ne peut pas être une décision
déterministe : il y a toujours en pratique une probabilité non nulle que la décision arrêtée
soit erronée. Il faut donc décider a priori un seuil de confiance, dit aussi niveau de test,
c’est-à-dire une probabilité de rejet à tort. La plupart du temps, on fixe ce niveau à 5%.
On voit sur ces deux exemples : d’une part que la décision prise peut être très lourde
de conséquences, et d’autre part que les deux types de risque ne revêtent pas le même
ordre de gravité. Dans le premier exemple, on prendra pour H0 le sous-ensemble de Θ
correspondant au déclenchement de l’explosion (et donc le rejet de H0 se traduira par
la non-évacuation), et dans le second, le sous-ensemble de Θ correspondant à la maladie
53
(et donc le rejet de H0 se traduira par le classement parmi les individus sains et le non-
traitement). Il est en effet tout indiqué de fixer un seuil bas (5%, voire encore moins) pour
le risque le plus grave, soit le rejet de H0 à tort, dit risque de première espèce.
Quant au risque de deuxième espèce, soit l’acceptation de H0 à tort, il est contrôlé
par la quantité
inf IPθ (W ) = inf IPθ (rejeter H0 ) ,
θ∈H1 θ∈H1
qu’on nomme puissance du test, et qu’on souhaite la plus grande possible (dans les 2
exemples ci-dessus, cela signifie minimiser le risque de décision d’évacuer Basse-Terre alors
qu’il n’y a pas d’explosion, comme celle de C. Allègre contre l’avis de H. Tazieff en 1976,
ou bien de décision de traiter un individu sain).
54
14.1.2 Exemple 1 : Test de la moyenne d’une loi normale N (m, σ 2 )
√ n
h P i
Nous avons dans ce cas f (x | m) = (σ 2π )−n exp − (xj − m)2 /(2σ 2 ) , et donc
j=1
selon la proposition 14.1.1, le meilleur choix de test est :
nX n h i o
σ2
W= (xj − m1 )2 − (xj − m0 )2 ≤ 2σ 2 log kα = {(x̄n − m0 +m1
2
)(m0 − m1 ) ≤ n
log kα}.
j=1
Considérons le cas m0 < m1 (le cas contraire se traite de la même façon). Alors
n o
m0 +m1 σ 2 log kα
W = x̄n ≥ 2 − n(m1 −m0 ) =: λ , avec kα (ou λ) déterminé par (notant Φ la fonction
de répartition gaussienne centrée réduite) : α = IPm0 (X̄n ≥ λ) = 1 − Φ λ−m√ 0 , id est
σ/ n
√
λ = m0 + (σ/ n ) qα .
Nous aboutissons à la règle de décision du test, en fonction de la variable de décision
x̄n (la moyenne empirique, qui est ici l’estimateur optimal) : on accepte la valeur m0 pour
la moyenne si x̄n < λ , et on accepte la valeur m1 sinon.
m1 −m
Notons que la puissance de ce test est IPm1 (X̄n ≥ λ) = 1 − Φ[ λ−m
√ 1 ] = 1 − Φ[qα −
σ/ n
√ 0 ].
σ/ n
Comme dans la section 13.5, il est préférable de ne pas supposer l’écart-type σ connu,
et pour
n cela, recourant
o au corollaire 13.3.2, d’utiliser la loi de Student. Nous avons toujours
W = x̄n ≥ λ , avec cette fois λ déterminé par :
p
α = IPm0 (X̄n ≥ λ) = IP Tn−1 ≥ (λ − m0 ) n/vn , où Tn−1 suit la loi de Student à (n−1)
degrés de liberté, et où vn désigne
p la déviation standard relative à l’échantillon (x1 , . . . , xn ).
De sorte que λ = m0 + zn−1,α vn /n , où zn−1,α désigne le quantile d’ordre α de la loi
de Student à (n − 1) degrés de liberté.
Nous aboutissons donc à une règle de décision du test identique à celle de l’exemple
précédent, pour une valeur de λ différente, et indépendante de l’écart-type σ .
p
La puissance de ce test est IPm1 (X̄n ≥ λ) = IP Tn−1 ≥ zn−1,α − (m1 − m0 ) n/vn .
n o n n
X o
(x | σ0 )
W = x ff (x
1 −2 −2 2
| σ1 )
≤ kα = x [σ
2 1 − σ0 ] (x j − m) ≤ log kα − n log(σ1 /σ0 ) .
j=1
55
n
1
Alors utilisant comme variable de décision la variance empirique σ̂n2 = (xj − m)2 (qui
P
n
j=1
est un bon estimateur, lorsque la moyenne m est connue), et considérant le cas σ0 > σ1
(le cas contraire se traite de la même façon), nous avons :
n . o
1 −2 −2
W = x σ̂n ≤ 2 [ n log kα − log(σ1 /σ0 )] [σ1 − σ0 ] =: {σ̂n ≤ s}.
Puisque n σ̂n2 /σ02 suit sous IPσ0 la loi χ2n , la valeur kα est déterminée par :
h i
2 −2 2 2σ12
α = IPσ0 [W ] = IP [χn ≤ n s σ0 ] = IP χn ≤ σ2 −σ2 [log kα − n log(σ1 /σ0 )] .
0 1
h i
2σ 2
La puissance du test est IPσ1 [W ] = IP [χ2n ≤ n s σ1−2 ] = IP χ2n ≤ σ2 −σ0 2 [log kα − n log( σσ10 )] .
0 1
Comme dans la section 13.5, il est naturel d’utiliser ici (dans le cas d’une moyenne
inconnue) comme variable de décision le bon estimateur Vn (de déviation standard, voir la
proposition 13.2.1). La proposition 14.1.1 (de Neyman-Pearson) ne s’applique pas directe-
ment, mais les exemples précédents conduisent à choisir (toujours dans le cas σ0 > σ1 ) une
région critique du même type : W = {Vn ≤ v}. Puisque (n − 1)Vn /σ02 suit sous IPσ0 la
loi χ2n−1 , la valeur v est déterminée par :
α = IPσ0 [W ] = IP [χ2n−1 ≤ (n − 1)v σ0−2 ].
La puissance du test est IPσ1 [W ] = IP [χ2n−1 ≤ (n − 1)v σ1−2 ].
En conclusion, on accepte la valeur σ1 si Vn ≤ v , et on accepte la valeur σ0 sinon.
Pour√n grand, si σ est supposé connu, recourant au théorème central limite, on assi-
milera n (X̄n − a)/σ à une variable gaussienne centrée réduite G , de sorte que a0 doit
vérifier :
√ √ √
0 0 0
0, 05 = IPa (X̄n > a ) = IPa n (X̄n − a)/σ > n (a − a)/σ ≈ IP G > n (a − a)/σ ,
56
√ √
ce qui donne n (a0 − a)/σ ≈ 1, 65 , id est a0 ≈ a + (1, 65) σ/ n .
Toutefois, comme déjà dit dans la section 13.5, il est généralement irréaliste de supposer
l’écart-type σ connu. Comme dans les exemples vus plus haut, on peut recourir à des tests
plus sophistiqués, ou estimer la variance via la déviation standard...
Exemples 1) IPθ = E(1/θ) . Via le changement de variable s1 = x1 , . . . , sn = x1 + · · · + xn :
Z Z
x +···+x
0 −( 1 a n )
1
IPa (X̄n < a ) = an e dx1 . . . dxn = 0
e−(x1 +···+xn ) dx1 . . . dxn
x1 +···+xn
n
<a0 x1 +···+xn <n aa
Z Z na0 /a Z
−sn
= e ds1 . . . dsn = ds1 . . . dsn−1 e−sn dsn
{0<s1 <···<sn <na0 /a} 0 {0<s1 <···<sn−1 <sn }
na0 /a n−1
sn−1 (na0 /a)j X (na0 /a)j
Z
0 0
X
= e−s ds = 1 − e−na /a = e−na /a .
0 (n − 1)! j=0
j! j≥n
j!
Il est assez légitime d’approcher la loi P(na0 /a) par une loi normale, id est N (na0 /a, na0 /a).
Ce qui donne (pour une variable gaussienne centrée réduite G) :
√ p p
0, 05 = IPa⊗n (X̄n > a0 ) = P(na0 /a)([0, n[) ≈ IP G > n ( a0 /a − a/a0 ) ,
√
et donc a0 /a ≈ 1 + (1, 65)/(2 n ).
X (na)j
2) IPθ = P(θ) . Alors IPa (X̄n > a0 ) = P(na)[{j | j > na0 }] = e−na .
j>na0
j!
Il est légitime d’approcher la loi P(na) par une loi normale, id est N (na, na). Ce qui
donne (pour une variable gaussienne centrée réduite G) :
p
0, 05 = IPa (X̄n > a0 ) ≈ IP G > n/a (a0 − a) ,
p
et donc a0 ≈ a + (1, 65) a/n .
Exercice no 14.1 Deux associés A et B se partagent les tâches d’un cabinet commun de
conseil. L’associé A pense qu’il traite moins de 30% des dossiers. Pour vérifier cela, il
décide de choisir au hasard un échantillon de 100 dossiers (traités soit par lui-même, soit
par l’associé B), sur lesquels il prévoit d’effectuer deux tests, avec le même risque de rejet
à tort de 5%, en prenant successivement comme hypothèse nulle
i) H0 : p ≤ 30% ii) H00 : p ≥ 30% , p étant la proportion réelle des dossiers traités par A.
a) Pour combien de dossiers traités par A (au plus) l’hypothèse H0 est-elle acceptée ?
b) Pour combien de dossiers traités par A H00 est-elle rejetée ? acceptée ?
c) Déterminer la probabilité d’accepter l’hypothèse H0 si la proportion réelle de dossiers
traités par A est de 40%.
d) Déterminer la probabilité d’accepter l’hypothèse H00 si la proportion réelle de dossiers
traités par A est de 40%.
57
14.3 Analyse de la variance (à un facteur)
Il s’agit ici de l’une des procédures les plus utilisées dans la pratique. Il s’agit de
comparer les moyennes de plusieurs variables gaussiennes de même variance fixe, et de
tester en particulier leur égalité.
La donnée typique est ici une suite de variables aléatoires gaussiennes supposées indé-
pendantes Yij , doublement indexées par (i, j) ∈ {1, . . . , I} × {1, . . . , J}, dont on se donne
a priori les lois : IPYij = N (mi , σ 2 ), qui ne peuvent différer que par leur moyenne
m1 , . . . , mI . Le facteur (ici monodimensionnel) dont on recherche l’impact (l’incidence)
éventuel(le) sur la statistique est l’indice i . Voyons précisément comment tester l’hypo-
thèse nulle H0 := {m1 = . . . = mI } contre H1 := H0c .
Le principe de ce test (dû à Fisher) est de comparer les dispersions des moyennes
observées à la dispersion globale. Posons pour cela :
J
X I X
X J I
X J
X I X
X J
ȳi := 1
J
yij ; ȳ := 1
IJ
yij = 1
I
ȳi ; σi2 := 1
J
2
|yij −ȳi | ; σ :=2 1
IJ
|yij −ȳ|2 .
j=1 i=1 j=1 i=1 j=1 i=1 j=1
Lemme 14.3.1 La variance globale est la somme de la variance des moyennes (variance
VF due au facteur) et de la moyenne des variances (variance résiduelle VR ) :
I
X I
X
2 2
σ = 1
I
(ȳi − ȳ) + 1
I
σi2 =: VF + VR .
i=1 i=1
(Noter la ressemblance avec la section 12.6 sur les variations expliquée et inexpliquée.)
Si l’hypothèse nulle H0 = {m1 = . . . = mI } est correcte, alors VF doit être petite par
rapport à VR . Pour les comparer précisément, on les normalise par leurs degrés de liberté,
de sorte qu’on considère :
I
- la variance corrigée due au facteur : SF := I−1
VF ; et
J
- la variance résiduelle corrigée : SR := J−1
VR ;
- une région critique du type W = {ϕ := SF /SR ≥ c}.
Dans le cas où H0 est vraie, la loi de ϕ := SF /SR est celle du rapport de deux variables χ2
indépendantes, qu’on nomme loi de Fisher, et qui est tabulée. On obtient ainsi c ≈ 4, 066
pour que IPH0 [ϕ ≥ c] = 0, 05 , et on accepte H1 si ϕ ≥ c , et H0 sinon.
58
Exemple : Études de la stabilité dans le temps de l’hydrophilie d’éponges artificielles.
éponge no après indice d’hydrophilie
1 3 mois 43
2 3 mois 40
3 3 mois 41
4 6 mois 36
5 6 mois 40
6 6 mois 39
7 12 mois 28
8 12 mois 24
9 12 mois 33
10 24 mois 32
11 24 mois 29
12 24 mois 32
Nous avons alors successivement :
I = 4 ; J = 3 ; ȳ1 = 41, 33 ; ȳ2 = 38, 33 ; ȳ3 = 28, 33 ; ȳ4 = 31 ;
σ 2 = 32, 85 ; σ12 = 1, 56 ; σ22 = 2, 89 ; σ32 = 13, 56 ; σ42 = 2 ;
VF = 27, 85 ; VR = 5 ; SF = 37, 13 ; SR = 7, 5 ; ϕ ≈ 4, 95 > 4, 066 .
De sorte qu’il convient ici de rejeter l’hypothèse de stabilité dans le temps de l’hydrophilie.
BIBLIOGRAPHIE
FOATA D., FUCHS A. Calcul des probabilités. Dunod, Paris 1998, 2003.
GOLDFARB B., PARDOUX C. Introduction à la méthode statistique. Dunod, 2004.
LESIGNE É. Une introduction aux théorèmes limites du calcul des probabilités.
Ellipses, Paris 1997.
59
Table de la loi normale centrée réduite : [105 Φ(x)]
x ,.0 ,.1 ,.2 ,.3 ,.4 ,.5 ,.6 ,.7 ,.8 ,.9
0,0 50000 50399 50798 51197 51595 51994 52392 52790 53188 53586
0,1 53983 54380 54776 55172 55567 55962 56356 56749 57142 57535
0,2 57926 58317 58706 59095 59483 59871 60257 60642 61026 61409
0,3 61791 62172 62552 62930 63307 63683 64058 64431 64803 65173
0,4 65542 65910 66276 66640 67003 67364 67724 68082 68439 68793
0,5 69146 69497 69847 70194 70540 70884 71226 71566 71904 72240
0,6 72575 72907 73237 73565 73891 74215 74537 74857 75175 75490
0,7 75804 76115 76424 76730 77035 77337 77637 77935 78230 78524
0,8 78814 79103 79389 79673 79955 80234 80511 80785 81057 81327
0,9 81594 81859 82121 82381 82639 82894 83147 83398 83646 83891
1,0 84134 84375 84614 84849 85083 85314 85543 85769 85993 86214
1,1 86433 86650 86864 87076 87286 87493 87698 87900 88100 88298
1,2 88493 88686 88877 89065 89251 89435 89617 89796 89973 90147
1,3 90320 90490 90658 90824 90988 91149 91309 91466 91621 91774
1,4 91924 92073 92220 92364 92507 92647 92785 92922 93056 93189
1,5 93319 93448 93574 93699 93822 93943 94062 94179 94295 94408
1,6 94520 94630 94738 94845 94950 95053 95154 95254 95352 95449
1,7 95543 95637 95728 95818 95907 95994 96080 96164 96246 96327
1,8 96407 96485 96562 96638 96712 96784 96856 96926 96995 97062
1,9 97128 97193 97257 97320 97381 97441 97500 97558 97615 97670
2,0 97725 97778 97831 97882 97932 97982 98030 98077 98124 98169
2,1 98214 98257 98300 98341 98382 98422 98461 98500 98537 98574
2,2 98610 98645 98679 98713 98745 98778 98809 98840 98870 98899
2,3 98928 98956 98983 99010 99036 99061 99086 99111 99134 99158
2,4 99180 99202 99224 99245 99266 99286 99305 99324 99343 99361
2,5 99379 99396 99413 99430 99446 99461 99477 99492 99506 99520
2,6 99534 99547 99560 99573 99585 99598 99609 99621 99632 99643
2,7 99653 99664 99674 99683 99693 99702 99711 99720 99728 99736
2,8 99744 99752 99760 99767 99774 99781 99788 99795 99801 99807
2,9 99813 99819 99825 99831 99836 99841 99846 99851 99856 99861
3,0 99865 99869 99874 99878 99882 99886 99889 99893 99896 99900
3,1 99903 99906 99910 99913 99916 99918 99921 99924 99926 99929
3,2 99931 99934 99936 99938 99940 99942 99944 99946 99948 99950
3,3 99952 99953 99955 99957 99958 99960 99961 99962 99964 99965
3,4 99966 99968 99969 99970 99971 99972 99973 99974 99975 99976
3,5 99977 99978 99978 99979 99980 99981 99981 99982 99983 99983
3,6 99984 99985 99985 99986 99986 99987 99987 99988 99988 99989
3,7 99989 99990 99990 99990 99991 99991 99992 99992 99992 99992
3,8 99993 99993 99993 99994 99994 99994 99994 99995 99995 99995
3,9 99995 99995 99996 99996 99996 99996 99996 99996 99997 99997
4,0 99997 99997 99997 99997 99997 99997 99998 99998 99998 99998
4,1 99998 99998 99998 99998 99998 99998 99998 99998 99999 99999
La table donne les valeurs de 105 Φ(x) pour les valeurs positives de x , de 0 jusqu’à 4,19, avec
un pas de 0,01. Ces valeurs sont arrondies à l’unité la plus proche. Cette table est à double
entrée, l’entrée en ligne donnant les deux premiers chiffres de x et l’entrée en colonne le chiffre
des centièmes. Exemples : Φ(0, 71) ' 0, 76115 ; Φ(2, 48) ' 0, 99343 .
60