Notes 2016
Notes 2016
Licence de biologie
2015–2016
Jürgen Angst
Notes de cours
[Link]
2
Table des matières
2 Indépendance et conditionnement 19
2.1 Probabilité conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2 La notion d’indépendance . . . . . . . . . . . . . . . . . . . . . . . . 23
3 Variables aléatoires 25
3.1 Variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.2 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.3 Moments d’une variable aléatoire . . . . . . . . . . . . . . . . . . . . 33
II Éléments de statistiques 53
5 Estimation et intervalle de confiance 55
5.1 Estimation paramétrique . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.2 Intervalles de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . 60
6 Tests statistiques 63
6.1 Tests d’hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
6.2 Test du χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
7 Régression linéaire 73
7.1 Régression linéaire simple . . . . . . . . . . . . . . . . . . . . . . . . 74
7.2 Statisitique de la régression . . . . . . . . . . . . . . . . . . . . . . . 75
7.3 Au dela du cas linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . 76
4 TABLE DES MATIÈRES
TABLE DES MATIÈRES i
Introduction au cours
L’objectif de ce cours est de comprendre le fonctionnement / justifier la perti-
nence de tests statistiques couramment utilisés dans la vie de tous les jours et en
particulier en biologie et en médecine. Afin d’illustrer notre propos, considérons les
deux exemples suivants.
Les données représentées dans le tableau ci-dessous proviennent du “National Vital
Statistics Report” et concernent les naissances aux USA en 1997. Elles donnent le
nombre de naissances suivant le type de jour dans la semaine (jours ouvrables ou
week-end) et suivant le mode d’accouchement (naturel ou par césarienne).
Naissances Naturelles César. Total Naissances Naturelles César. Total
J.O. 2331536 663540 2995076 J.O. 60.6% 17.3% 77.9%
W.E. 715085 135493 850578 W.E. 18.6% 3.5% 22.1%
Total 3046621 799033 3845654 Total 79.2% 20.8% 100.0%
Contenu du cours
Le langage dans lequel est exprimée la théorie statistique des tests est celui de la
théorie des probabilités. Ainsi, le début du cours (chapitres 1 à 3) sera consacré à des
rappels de probabilités de base (notion d’espace de probabilité, lois usuelles, notion
d’indépendance, variables aléatoires). Au chapitre 4, nous donnerons ensuite les deux
théorèmes principaux du cours (loi des grands nombres (LGN) et théorème limite
central (TLC)). Viendront ensuite quelques rappels de statistique de base (chapitre
5), et nous verrons enfin comment la LGN et le TLC permettent effectivement de
comprendre comment fonctionnent les tests usuels (test du chi2 d’adéquation, test
d’indépendance etc.).
Première partie
A B A∪B A∩B
Plus généralement, étant donnés des ensembles (Ai )i∈I indexés par un ensemble
d’indice I, on note ∪i∈I Ai l’ensemble des éléments qui appartiennent à l’un des Ai
et ∩i∈I Ai l’ensemble des éléments qui appartiennent à tous les Ai , de sorte que
S
— x ∈ i∈I Ai signifie que x appartient à l’un des ensembles Ai ;
T
— x ∈ i∈I Ai signifie que x appartient à tous les ensembles Ai .
Soient trois ensembles A, B et Ω tels que A ⊂ Ω et B ⊂ Ω . On appelle complémen-
taire de A (dans Ω) et on note Ac l’ensemble des éléments de Ω qui ne sont pas dans
A. On désigne par B privé de A et on note B\A, l’ensemble des éléments de B qui
ne sont pas dans A, c’est-à-dire B ∩ Ac .
Si (Ai )i∈I est une famille d’ensembles inclus dans Ω, on a alors les relations :
!c !c
[ \ \ [
Ai = Aci , Ai = Aci .
i∈I i∈I i∈I i∈I
1.1. ESPACE DE PROBABILITÉ 5
Par exemple, si l’on considère les ensembles G et A des germanophones et des an-
glophones dans la population francaise, le complémentaire de G ∩ A est Gc ∪ Ac ,
i.e. le contraire de “parler allemand et anglais” et “ne pas parler allemand ou ne pas
parler anglais.
On appelle cardinal de A et on note Card(A) ou encore #A le nombre d’éléments
qu’il contient. Si A et B sont des ensembles finis, on a la relation
Étant donné un ensemble Ω, on désigne par P(Ω) l’ensemble de ses parties. Par
exemple, si Ω = {0, 1}, alors P(Ω) = {∅, {0}, {1}, {0, 1}}. Si l’ensemble Ω est fini de
cardinal n, alors on a Card(P(Ω)) = 2n .
On rappelle les notations usuelles concernant les sommes et les produits, si a1 , a2 , . . . , an
sont des nombres réels :
n
X n
Y
ai = a1 + a2 + . . . + an , ai = a1 × a2 × . . . × an .
i=1 i=1
Rappels de combinatoire
Soit A un ensemble à n éléments. Le nombre de permutations des éléments de
A est appelé factorielle n, que l’on note n!. Ce nombre est égal à
n! := n × (n − 1) × (n − 2) × · · · × 2 × 1.
Remarque 1.1.1. Tous les élements sont ici supposés distinguables et on tient
compte de l’ordre des éléments.
R∞
On peut aussi définir la factorielle grâce à la fonction Γ : Γ(x) = 0 ux−1 e−u du qui a
les propriétés suivantes : Γ(n+1) = n! pour n entier et Γ(x+1) = xΓ(x). La formule
de Stirling permet de construire une estimation asymptotique de la factorielle
√ 1 1
n! ≈ nn e−n 2πn(1 + + + . . .).
12n 288n2
Le nombre de façons de choisir p éléments de A parmi les n est appelé arrangement
de p objets parmi n. Il est souvent noté Apn et vaut :
n!
Apn := = n × (n − 1) × (n − 2) × · · · × (n − p + 1).
(n − p)!
Ensuite, on peut permuter les personnes au sein d’une même nationalité, au total il
y a donc N = 6 × 4! × 3! × 3! configurations.
Exercice 3 :
Combien existe-t-il d’arrangements différents avec les lettres des mots suivants : a)
pinte ; b) proposition ; c) Mississipi ; d) arrangement ?
Correction : Dans le mot "pinte" chaque lettre apparaît une seule fois, le nombre
d’arrangements de lettres distincts que l’on peut former est donc 5! = 120. Dans le
mot "proposition", il y a 11 lettres dont 2 "p", 3 "o", 2 "i". Pour ne pas compter
plusieurs fois le même arrangement (par exemple, si on ne regarde que les "p",
"pproosition" apparaît deux fois, si on ne regarde que les "o", "oooprpsitin" apparaît
3! = 6 fois...) on est amené à diviser le nombre des permutations possibles des lettres
par 2! × 3! × 2! = 24. Le nombre d’arrangements distincts est donc
11!
N= = 1663200.
2! × 3! × 2!
De même pour "Mississipi", il y a 10 lettres dont 4 "i" et 4 "s", le nombre de
10!
possibilités est alors N = 4!×4! = 6300. Pour "arrangement", on trouve
11!
N= = 2494800.
2! × 2! × 2! × 2!
Exercice 4 :
On veut former un comité de 7 personnes, constitué de 2 démocrates, 2 républi-
cains, et 3 indépendants. On a le choix parmi 6 démocrates, 5 républicains, et 4
indépendants. Combien de choix sont possibles ?
Correction : On détermine le nombre de possibilités dans chacune des 3 obédiences,
le nombre total de choix possibles est alors le produit de ces trois nombres. Pour les
démocrates, on a C62 choix, pour les républicains C52 , et pour les indépendants C43 .
Le nombre comités distincts que l’ont peut ainsi former est :
Définition 1.1.3. Étant donnée une expérience aléatoire, on appelle univers des
possibles, et l’on note souvent Ω, l’ensemble des résultats possibles de l’expérience.
Exemple 1.1.4. Voici quelques expériences aléatoires et les ensembles des possibles
correspondants :
1. On jette un dé. L’ensemble Ω est alors l’ensemble {1, 2, 3, 4, 5, 6} à 6 éléments.
Ici, l’élément ω = 2 ∈ Ω signifie que la face visible du dé après le lancer est
2.
2. On jette deux dés. L’ensemble Ω est alors l’ensemble {1, 2, 3, 4, 5, 6}2 c’est-à-
dire Ω = {(i, j), i, j ∈ {1, 2, 3, 4, 5, 6}} = {(1, 1), (2, 1), (3, 6), . . .}. L’élément
ω = (3, 5) ∈ Ω correspond à un lancer où le premier dé donne 3 et le second
dé donne 5 ;
3. On joue dix fois à pile ou face. On a alors Ω = {pile, face}10 . On peut aussi
choisir pour ensemble des possibles Ω0 = {pile, face, tranche}10 si l’on veut
tenir compte du fait que la pièce peut tomber sur la tranche ;
4. On fait un sondage auprès de 1000 personnes à la sortie d’un référendum. On
a alors Ω = {oui, non, blanc}1000 ;
5. On distribue une main au poker. L’ensemble des possibles correspondant
à cette expérience est alors Ω = {choix de 5 cartes parmi 52} qui a pour
cardinal le coefficient binomial 52
5
.
Remarque 1.1.5. Il n’est pas toujours possible de décrire de façon rigoureuse l’uni-
vers des possibles. On peut penser par exemple à l’expérience aléatoire de la météo
du lendemain ! Néanmoins, dans les cas simples que nous envisagerons dans la suite,
on peut la plupart du temps décrire explicitement l’ensemble Ω.
1.1. ESPACE DE PROBABILITÉ 9
Définition 1.1.8. Soit Ω un ensemble et F un sous-ensemble de parties de Ω, i.e. F ⊂ P(Ω). On dit que F est une
tribu si elle vérifie les 3 conditions suivantes :
1. Ω ∈ F ;
2. si A appartient à F , alors son complémentaire Ac appartient aussi à F ;
3. si (An )n∈N est une suite d’éléments de F , alors ∞
S
n=0 An appartient à F .
On vérifie sans problème à partir des trois axiomes ci-dessus que toute tribu F contient l’ensemble vide ∅, est stable
par union finie, intersection finie ou dénombrable. Ainsi, on retiendra qu’une tribu est stable par combinaisons au
plus dénombrables d’opérations usuelles sur les ensembles, bref par toutes les manipulations classiques.
Exemple 1.1.10. On jette deux dés discernables. L’ensemble des résultats possibles est alors
La tribu engendrée par le singleton {(1, 1)} est composée des quatre évènements {∅, (1, 1), Ω\(1, 1), Ω}. Si on choisit
la tribu pleine F = P(Ω), l’évènement “la somme des deux dés est supérieure ou égale à dix” correspond à l’ensemble
{(5, 5), (5, 6), (6, 5)} ; si on introduit les deux ensembles
alors A ∩ B correspond à l’évènement {(2, 4), (4, 2), (2, 6), (6, 2), (4, 6), (6, 4)}.
En pratique, lorsque Ω est fini ou dénombrable, on considère donc en général la tribu pleine P(Ω). En revanche, si
Ω n’est pas dénombrable, comme c’est le cas dans l’exemple d’une suite infinie de lancers (Ω = {pile, face}N ), on
ne considérera pas la tribu F = P(Ω), mais une tribu plus petite.
Le couple (Ω, F) est appelée espace mesurable ou encore espace probabilisable. Pour
compléter la description de la notion d’espace de probabilité, il nous reste à intro-
duire la notion de mesure de probabilité. C’est l’objet du prochain paragraphe.
10 CHAPITRE 1. LE FORMALISME DE LA THÉORIE DES PROBABILITÉS
1.1.4 Probabilité
Une fois fixés un univers Ω et une tribu F, on peut définir proprement ce qu’est
une probabilité P sur (Ω, F) et par suite un espace de probabilité (Ω, F, P) : à chaque
évènement, on associe un nombre positif compris entre 0 et 1, sa probabilité.
Exercice 2 :
Un sac contient des billes noires et rouges, portant une marque ou non. La probabilité
d’observer une bille rouge et marquée est de 2/10, une bille marquée de 3/10 et une
bille noire de 7/10. Quelle est la probabilité d’observer une bille rouge ou marquée ?
Correction : On note R pour rouge, N pour noire, M pour marquée et M c pour
non marquée. On cherche la probabilité de l’évènement R ∪ M . On a
3 3 2 4
P(R ∪ M ) = P(R) + P(M ) − P(R ∩ M ) = + − = .
10 10 10 10
Exercice 3 :
Lors d’une loterie de Noël, 300 billets sont vendus aux parents d’élèves d’une école ;
4 billets sont gagnants. J’achète 10 billets, quelle est la probabilité pour que je gagne
au moins un lot ?
Correction : L’univers des possibles est ici l’ensemble des combinaisons de 10 billets
parmi les 300 ; il y en a 300
10
. Je ne 10 gagne rien si les 10 billets achetés se trouvent
parmi les 296 billets perdants, ceci arrive avec la probabilité :
296
10
q= 300 .
10
Proposition 1.1.14. Soit (An )n∈N une Fsuite d’évènements qui constituent une par-
tition de l’ensemble Ω c’est-à-dire Ω = n∈N An . Alors pour tout B ∈ F, on a
X
P(B) = P(B ∩ An ).
n
Note 0 1 2 3 4 5 6 7 8 9 10
Proba 1/11 0 0 1/11 1/11 2/11 2/11 2/11 1/11 1/11 0
On note B l’évèment “il valide son module” et Ai l’évèment “il obtient la note i. Les
Ai forment une partition de l’ensemble des notes possibles et l’on a donc :
10
X 10
X
P(B) = P(B ∩ Ai ) = 0 + P(Ai ) = 8/11.
i=0 i=5
Remarque 1.1.16. Étant donné un espace probabilisable (Ω, F), le choix de la pro-
babilité P n’est bien sûr pas unique. Ce choix doit se faire en accord avec l’expérience
aléatoire que l’on souhaite modéliser. Par exemple, si on joue à pile ou face et que
l’on précise que la pièce est équilibrée, on choisira naturellement P de sorte que
En revanche, si l’on précise que la pièce est truquée, on préférera choisir P de sorte
que P(pile) 6= P(face).
14 CHAPITRE 1. LE FORMALISME DE LA THÉORIE DES PROBABILITÉS
Remarque 1.1.17. Au risque de se répéter, insistons sur le fait que dans la modé-
lisation d’une expérience aléatoire, l’espace de probabilité (Ω, F, P) avec lequel on
travaille n’est a priori pas unique. Il résulte d’un choix, et que ce choix doit pouvoir
être justifié :
— le choix de l’ensemble des possibles Ω n’est pas unique, pensez au jeu de
pile ou face avec Ω1 = {pile, face} et Ω2 = {pile, face, tranche} ;
— le choix de la tribu n’est pas unique, on peut choisir la tribu pleine, la tribu
engendrée par un évènement, etc. ;
— le choix de la probabilité P n’est pas unique comme indiqué dans la re-
marque précédente.
L’exemple suivant est caractéristique. L’énoncé est n’est pas assez précis, de sorte
que plusieurs choix de modélisations sont possibles et donc plusieurs réponses à la
question posée sont envisageables. Il n’y a pas une réponse meilleure que l’autre :
elles répondent à des questions différentes !
Exemple 1.1.18. On tire une corde au hasard dans un disque de rayon R. Quelle
est la probabilité que la longueur ` de la corde soit supérieure à R ?
Figure 1.6 – Dans les trois exemples, on tire uniformément selon la longueur, la
distance au centre, le milieu de la corde.
où la notation “i, ωi ∈ A” signifie que la somme est effectuée sur l’ensemble des
indices i pour lesquels ωi appartient à A.
Exemple 1.2.2. On lance 3 fois de suite une pièce équilibrée et on compte le nombre
de fois où pile est apparu. On a donc Ω = {0, 1, 2, 3}, mais il n’y a pas équiprobabilité
puisque les probabilités élémentaires sont (1/8, 3/8, 3/8, 1/8).
Exemple 1.2.3. On lance deux dés équilibrés et on note S la somme des deux
lancers. L’ensemble des valeurs possibles pour S est Ω = {2, 3, . . . , 11, 12}. Les
probabilités pour les valeurs possibles de S sont alors :
k 2 3 4 5 6 7 8 9 10 11 12
P(S = k) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36
ce qui est en contradiction avec la condition P(N) = 1. Une façon de construire une
probabilité sur (N, P(N)) est de généraliser le procédé que l’on vient de voir pour les
ensembles
P finis : considérer une suite (pn )n>0 de nombres positifs telle que la série
n>0 pn soit convergente et de somme 1. Comme précédemment, on définit alors
pour tout événement A ∈ P(N) :
X
P(A) = pn .
n,n∈A
Exemple 1.2.4. On lance une pièce équilibrée jusqu’ à ce que pile apparaisse (tou-
jours en excluant le cas improbable où pile n’apparaît jamais). On a donc Ω =
{1, 2, . . .} = N∗ . On a clairement p1 = P({1}) = 1/2, p2 = P({2}) = 1/4 et de
façon générale pn = P({n}) = 1/2n . On reconnaît dans les pn les termes d’une suite
géométrique dont la somme vaut bien 1 :
X
2−n = 1.
n>1
1.2. EXEMPLES D’ESPACES DE PROBABILITÉS 17
Supposons que l’on dispose d’une fonction positive f définie sur l’intervalle [a, b] et
telle que Z b
f (x)dx = 1.
a
On peut alors définir une probabilité P sur F de la façon suivante : pour tout
intervalle A = [c, d[ dans [a, b]
Z Z d
P(A) = f (x)dx = f (x)dx.
A c
f(x)
a c d b x
Exemple 1.2.5 (Probabilité uniforme continue). Un bus est censé passer toutes les
dix minutes à République pour se rendre à Beaulieu. Un passager arrive à l’arrêt
de bus. On cherche à modéliser son temps d’attente T . A priori, on peut supposer
que ce temps d’attente est dans l’intervalle Ω = [0, 10]. On munit cet ensemble de
la tribu borélienne. N’ayant pas d’information sur l’heure théorique de passage du
bus et l’heure d’arrivée du passager, on peut supposer que le temps d’attente est
uniforme, i.e. pour tout 0 < c < d < 10 :
Z d
1
P(T ∈ [c, d[) = |d − c| = f (x)dx
10 c
R 10 la fonction f est constante égale à 1/10 sur l’intervalle [0, 10] de sorte que
où
0
f (x)dx = 1.
18 CHAPITRE 1. LE FORMALISME DE LA THÉORIE DES PROBABILITÉS
Indépendance et conditionnement
2.1.1 Définition
Dans tout ce qui suit, (Ω, F, P) est un espace de probabilité arbitraire et tous
les ensembles considérés sont des évènements de la tribu F. Nous commençons par
définir la probabilité conditionnelle sachant un évènement.
Définition 2.1.1 (Probabilité conditionnelle). Soit A un évènement tel que P(A) > 0.
Pour tout évènement B, on définit la probabilité de B sachant A par :
P(B ∩ A)
P(B|A) := .
P(A)
On définit ainsi une nouvelle probabilité sur (Ω, F), notée P(.|A) ou encore PA (.),
et appelée probabilité conditionnelle sachant A.
La vérification que P(.|A) est bien une probabilité, i.e. vérifie bien les critères de la
définition 1.1.11 est laissée en exercice.
20 CHAPITRE 2. INDÉPENDANCE ET CONDITIONNEMENT
Exemple 2.1.2. Une urne contient 90 boules noires, 9 boules blanches et 1 boule
rouge. On tire une boule au hasard : quelle est la probabilité qu’elle soit blanche ? La
réponse est bien sûr P(B) = 9/100, donc une probabilité faible. On tire une boule
au hasard : quelle est la probabilité qu’elle soit blanche, sachant que la boule tirée
n’est pas noire ? Si on note A l’évènement “La boule tirée n’est pas noire”, on a donc
P(A) = 1/10 et la réponse à la question est :
P(B ∩ A)
P(B|A) = = 9/10,
P(A)
P(B)
P(B|A) = P(A|B) × .
P(A)
Démonstration. On commence par noter que tous les conditionnements sont justifiés
puisque par monotonie :
Remarque 2.1.5. On peut se servir de ce résultat comme d’une poupée russe : soit à
calculer P(An ), on introduit une suite croissante d’évènements A0 ⊂ A1 ⊂ . . . ⊂ An
et la formule devient tout simplement :
Exemple 2.1.11. Le quart d’une population est vacciné contre le choléra. Au cours
d’une épidémie, on constate qu’il y a parmi les malades un vacciné pour 4 non-
vaccinés, et qu’il y a un malade sur 12 parmi les vaccinés. Quelle est la probabilité
qu’un non-vacciné tombe malade ?
On note V pour vacciné, N V pour non vacciné, M pour malade, S pour sain. D’après
les hypothèses,
1 1 4 1
P(V ) = , P(V | M ) = , P(N V | M ) = , P(M | V ) = .
4 5 5 12
Par définition, on a
P(N V ∩ M ) P(N V | M )P(M ) 16
P(M | N V ) = = = P(M ).
P(N V ) 1 − P(V ) 15
Or
P(V ∩ M ) P(V ∩ M ) 1
P(M | V ) = = = donc P(V ∩ M ) = 1/48.
P(V ) 1/4 12
2.2. LA NOTION D’INDÉPENDANCE 23
P(V ∩ M ) 5
P(V | M ) = = 1/5 donc P(M ) =
P(M ) 48
Finalement
16 5 1
P(M | N V ) = × = .
15 48 9
P(A ∩ B) = P(A)P(B).
Si A est tel que P(A) > 0, l’indépendance de A et B s’écrit encore P(B|A) = P(B)
et on retrouve la notion intuitive d’indépendance : le fait que A se soit réalisé ne
change rien quant à la probabilité que B se réalise.
Exemple 2.2.2. Voici quelques exemples d’évènements indépendants ou non :
1. On lance un dé deux fois de suite. Soit A l’évènement : “Le premier lancer
donne un nombre pair” et B l’évènement : “Le second lancer donne un nombre
pair”. L’univers naturel est Ω = {(i, j), 1 6 i, j 6 6}, ensemble à 36 éléments
muni de la probabilité uniforme. Il est clair que P(A) = P(B) = 18/36 = 1/2
et que :
P(A ∩ B) = 9/36 = 1/4 = P(A)P(B),
donc A et B sont indépendants.
2. On tire une carte au hasard d’un jeu de 32 cartes. Soit A l’évènement : “La
carte tirée est un 7” et B l’évènement : “La carte tirée est un pique”. On a
P(A) = 1/8 et P(B) = 1/4. L’évènement A ∩ B correspond au tirage du sept
de pique P(A ∩ B) = 1/32. Ainsi on a
P(A ∩ B) = P(A)P(B),
P(A ∩ B ∩ C) = P(A)P(B)P(C).
Exemple 2.2.6. On reprend l’exemple des deux lancers successifs d’un dé et on note
C l’évènement : “La somme des deux lancers est paire”. On a donc P(C) = 1/2. On
vérifie que les évènements (A, B, C) sont 2 à 2 indépendants, mais que :
Définition 3.1.1. Une variable aléatoire X (réelle) est une application “mesurable”
d’un espace de probabilité (Ω,F,P) dans l’ensemble R des nombres réels.
Exemple 3.1.3. Considérons un jeu de pile ou face avec une pièce équilibrée, que
l’on modélise par un triplet (Ω,F,P) où Ω = {pile, face}, F = P(Ω), et P uniforme.
Si on tombe sur pile, on gagne 10 euros, si on tombe sur face on perd 10 euros. Le
gain G est une variable aléatoire. En effet, c’est une fonction définie sur l’ensemble
Ω et à valeurs dans l’ensemble {−10, 10} ⊂ R, avec
Exemple 3.1.4. Considérons le jet de deux dés, que l’on modélise par un triplet
(Ω,F,P) où Ω = {1, 2, 3, 4, 5, 6}2 = {ω = (ω1 , ω2 ), ω1 , ω2 ∈ {1, 2, 3, 4, 5, 6}}, F est
la tribu des parties F = P(Ω), et P uniforme. On note S la somme des deux dés.
26 CHAPITRE 3. VARIABLES ALÉATOIRES
Alors S est une variable aléatoire. C’est une fonction définie sur l’ensemble Ω et à
valeurs dans l’ensemble {2, 3, . . . , 12} ⊂ R, avec
S(ω) = S(ω1 , ω2 ) := ω1 + ω2 .
Exemple 3.1.6. Considérons le jeu de pile ou face précédent où l’on gagne ou perd
10 euros selon que la pièce tombe sur pile ou face. Comme ci-dessus, on note G
le gain après le lancer. La variable G définit une probabilité sur les gains possibles
G(Ω) = {−10, 10} ⊂ R :
Si l’on répète un jeu de pile ou face, la loi géométrique est la loi du temps d’apparition
du premier pile.
Loi géométrique bis : on dit qu’une variable aléatoire X suit une loi géométrique
de paramètres p et on note X ∼ G(p), si X est à valeurs dans l’ensemble {0, 1, 2, . . .}
et
PX ({k}) = P(X = k) = p(1 − p)k , k ∈ {0, 1, 2, . . .}.
28 CHAPITRE 3. VARIABLES ALÉATOIRES
Loi de Poisson : on dit qu’une variable aléatoire X suit une loi de Poisson de
paramètres λ et on note X ∼ P(λ), si X est à valeurs dans l’ensemble {0, 1, 2, . . .}
et
e−λ λk
PX ({k}) = P(X = k) = , k ∈ {0, 1, 2, . . .}.
k!
La loi de Poisson peut être vue comme un cas limite de loi binomiale. En effet, on
montre qu’une loi de Poisson est la limite d’une B(n, p) pour laquelle on a n → ∞
et p → 0 et np → λ 6= ∞.
Remarque 3.1.10. Si X est une variable continue et admet une densité f , alors
pour tout x0 ∈ X(Ω), on a PX ({x0 }) = P(X = x0 ) = 0. Autrement, la variable
X a une probabilité nulle de tomber sur un point donné de l’intervalle X(Ω). En
revanche, on a une chance non nulle de tomber dans un petit intervalle autour de
x0 : Z x0 +h
P([x0 − h, x0 + h]) = P(X = [x0 − h, x0 + h]) = f (x)dx > 0.
x0 −h
f (x)
x0 + h
x0 − h
a x0 b
(x−µ)2
autrement dit, X a pour densité f (x) = √ 1 e− 2σ 2 sur R.
2πσ
Loi exponentielle : on dit qu’une variable aléatoire X suit une loi exponentielle
de paramètre λ et on note X ∼ E(λ) si X est à valeurs dans [0, +∞[ et pour tout
intervalle [a, b] ⊂ R :
Z b
−λa −λb
PX ([a, b]) = P(X ∈ [a, b]) = e −e = λe−λx dx,
a
Loi gamma : on dit qu’une variable aléatoire X suit une loi gamma de paramètres
(a, b) et on note X ∼ Γ(a, b) si X est à valeurs dans [0, +∞[ et pour tout intervalle
[c, d] ⊂ R :
Z d
ba
PX ([c, d]) = P(X ∈ [c, d]) = xa−1 e−bx dx,
Γ(a) c
ba
autrement dit, X a pour densité f (x) = Γ(a)
xa−1 e−bx sur R+ .
Être continu à droite signifie que si la fonction “saute”, sa valeur au point de saut
est la valeur à droite de celui-ci, i.e. les points gris sur la figure ci-après.
FX (x)
i=k
X
FX (x) = pi ,
i=1
où k est l’indice tel que xk 6 x < xk+1 . La fonction x 7→ FX (x) est alors une fonction
constante par morceaux, dont le graphe a l’allure ci-dessous.
FX (x)
0 1
FS (x)
1/36
0
Exemple 3.2.6. Soit X une variable de loi géométrique sur {1, 2, . . .}, i.e. telle que
P(X = k) = p(1 − p)k−1 . Alors, pour tout entier m > 1, on a
+∞
X
P(X 6 m) = 1 − P(X > m) = 1 − p(1 − p)k−1 = 1 − (1 − p)m .
k=m+1
FX (x)
0
].
Exemple 3.2.7. Considérons le cas d’une variable X de loi uniforme sur l’intervalle
[0, 1]. Sa densité fX est constante sur l’intervalle [0, 1] et vaut zéro ailleurs. On en
déduit que FX vaut zéro sur ] − ∞, 0], vaut 1 sur [1, +∞[ et :
Z x Z x
FX (x) = f (u)du = 1 × du = x, pour x ∈ [0, 1].
−∞ 0
3.3. MOMENTS D’UNE VARIABLE ALÉATOIRE 33
FX (x)
0 1
FX (x)
Définition 3.3.1. Soit X une variable aléatoire discrète à valeurs dans un ensemble
au plus dénombrable {x1 , . . . , xn , . . .}. On note pi := P(X = xi ). Alors l’espérance
de X, que l’on note E[X], est donnée par la formule :
∞
X ∞
X ∞
X
E[X] := xi p i = xi PX ({xi }) = xi P(X = xi ).
i=1 i=1 i=1
Exemple 3.3.2. Par exemple, si X suit une loi de Bernoulli B(p) sur {0, 1}, alors
l’espérance de X vaut
Exemple 3.3.3. Par exemple, si X suit une loi uniforme sur {1, 2, . . . , n}, alors
l’espérance de X vaut
E[X] = 1 × P(X = 1) + 2 × P(X = 2) + . . . + n × P(X = n)
Exemple 3.3.5. Par exemple, si X suit une loi uniforme sur l’intervalle [0, 1], i.e.
X admet la densité f ≡ 1 sur l’intervalle [0, 1], alors l’espérance de X vaut
1 1 1
x2
Z Z
E[X] = xf (x)dx = xdx = = 1/2.
0 0 2 0
1 1 1
x3
Z Z
2 2 2
E[X ] = x f (x)dx = x dx = = 1/3.
0 0 3 0
+∞
−e−λx
1
= = .
λ 0 λ
+∞ +∞
|x|
Z Z
x
E[|X|] = dx = 2 dx = +∞.
−∞ π(1 + x2 ) 0 π(1 + x2 )
Propriétés de l’espérance
Nous donnons maintenant quelques propriétés de l’espérance, qui sont vérifiées que
l’on se place dans le cas discret ou continu.
X ∞
X ∞
X
m
E[X ] := xm
i pi = xm
i PX ({xi }) = xm
i P(X = xi ).
i i=1 i=1
Exemple 3.3.11. Dans les exemples ci-dessus, on a vu que la loi uniforme sur [0, 1]
admet un moment d’ordre deux puisque E[X 2 ] = 1/3 < +∞. En revanche, la loi
1
de Cauchy de densité f (x) = π(1+x 2 ) n’admet pas de moment d’ordre un puisque
E[|X|] = +∞.
Définition 3.3.12. Soient X une variable aléatoire qui admet des moments d’ordre
un et deux, i.e. E[|X|] < +∞, E[|X|2 ] < +∞. On appelle variance de X et on note
var(X) la quantité
Exemple 3.3.14. Par exemple, si X suit une loi de Bernoulli B(p) sur {0, 1}, on a
vu que l’espérance de X vaut
Exemple 3.3.15. Dans l’exemple de la loi uniforme sur l’intervalle [0, 1], on a vu
que E[X] = 1/2 et E[X 2 ] = 1/3, on a donc var(X) = 1/3 − 1/4 = 1/12.
E[X] = +∞
P k−1
P+∞ k−1
k=1 k × p(1 − p) = p × k=0 k × (1 − p)
+∞
!0 0
X
k −1
=p× ×(1 − p) =p× = 1/p.
k=0
p
λ`
−λ
P+∞
=λ× e `=0 `! = λ.
P+∞ k P+∞ k
E[X 2 ] = k=0 k 2 × e−λ λk! = k=0 (k(k − 1) + k) × e−λ λk!
P P
+∞ −λ λk−2 +∞ −λ λk−1
= λ2 k=2 e (k−2)!
+ λ k=1 e (k−1)!
= λ2 + λ.
L’objet de ce chapitre est d’énoncer les deux théorèmes limite qui sont à la
base de la théorie des probabilités et des statistiques à savoir, la loi des grands
nombres et le théorème limite central. Pour se faire, nous généralisons tout d’abord la
notion d’indépendance des évènements aux variables aléatoires, puis nous définissons
différents modes de convergence qui vont nous permettre de traduire le fait qu’une
suite de variables aléatoires converge vers une variable aléatoire limite.
On peut se limiter à une famille d’évènements bien choisis et ainsi utiliser les fonc-
tions de répartition. En outre, on peut envisager une définition utilisant l’espérance
mathématique définie au chapitre précédent.
40 CHAPITRE 4. THÉORÈMES LIMITE FONDAMENTAUX
Exemple 4.1.3. On considère le jet de deux dés modélisé par Ω = {1, . . . , 6}2 ,
F = P(Ω), et P uniforme. On note X le résultat du premier dé et Y le résultat
du second. Alors X et Y sont des variables aléatoires indépendantes, pour tout
(k, `) ∈ Ω :
P(X = k et Y = `) = P(X = k)P(Y = `).
Coefficient de corrélation
La dépendance / relation entre deux variables aléatoires peut être quantifiée par la
covariance comme vue précédemment. Cependant, à l’image de la moyenne et de la
variance, la covariance est un moment donc possède une dimension ce qui la rend
plus difficile à interpréter. C’est pourquoi on utilise plus généralement le coefficient
de corrélation, indicateur sans dimension, défini par
cov(X, Y )
ρ(X, Y ) = p .
var(X)var(Y )
Exemple 4.1.8. On place au hasard deux billes dans deux boîtes A et B. On note
X la variable aléatoire “nombre de billes dans la boîte A” et Y la variable aléatoire
“nombre de boîtes vides”. Les lois, espérances et variances de X, Y et XY sont :
Convergence en probabilités
Définition 4.2.1 (convergence en probabilités). Soit (Xn )n∈N une suite de variables
aléatoires définie sur un espace de probabilité (Ω, F, P). On dit que la suite (Xn )
P
converge en probabilité vers une variable aléatoire X, et on note Xn → X si pour
tout ε > 0 :
lim P [|Xn − X| > ε] = 0,
n→+∞
ou de manière équivalente :
lim P [|Xn − X| 6 ε] = 1.
n→+∞
Exemple 4.2.2. Soit (Xn ) une suite de variables indépendantes à valeurs dans l’en-
semble {0, 1} et telles que P(Xn = 0) = 1/n, et donc P(Xn = 1) = 1 − 1/n. Alors la
suite (Xn ) converge en probabilité vers la variable “aléatoire” constante égale à un.
En effet, fixons 0 < ε < 1. Lorsque n tend vers l’infini, on a
P(|Xn − 1| > ε) = P(Xn = 0) = 1/n −→ 0.
Exemple 4.2.3. Soit (Xn ) une suite de variables aléatoires indépendantes telles que
P(Xn = 2 − 1/n) = 1/3 et P(Xn = 2 + 1/n) = 2/3. Alors la suite (Xn ) converge en
probabilité vers la variable “aléatoire” constante égale à 2. En effet, fixons 0 < ε < 1.
On a toujours |Xn − 2| = 1/n de sorte que pour n > 1/ε :
P(|Xn − 2| > ε) = 0.
Exemple 4.2.4. Considérons une variable aléatoire X à valeurs dans {0, 1} et telle
que P(X = 0) = P(X = 1) = 1/2. Pour tout entier n > 1, on définit la variable Xn
de la façon suivante : si X vaut 1, alors X vaut 1 ; si X vaut zéro, alors Xn vaut
1/n. Alors, n tend vers l’infini, la suite Xn converge en probabilité vers X. En effet,
on a toujours |Xn − X| = 1/n. Pour ε > 0 fixé, dès que n > 1/ε, on a alors :
P(|Xn − X| > ε) = 0.
Exemple 4.2.5. Soit (Xn )n∈N une suite de variables aléatoires indépendantes de loi
uniforme sur l’intervalle [0, 1]. Alors, losque n tend vers l’infini, la suite de variables
aléatoires Yn := max(X1 , . . . , Xn ) converge en probabilité vers la constante 1. En
effet, soit 0 < ε < 1, on a
P(|Yn − 1| > ε) = P(max(X1 , . . . , Xn ) < 1 − ε)
Il existe une notion de convergence qui est plus forte que la convergence en proba-
bilité, c’est la convergence presque sûre : toute suite qui converge presque sûrement
converge en probabilité.
Définition 4.2.6 (convergence presque sûre). Soit (Xn )n∈N une suite de variables
aléatoires définie sur un espace de probabilité (Ω, F, P). On dit que la suite (Xn )
p.s.
converge presque sûrement vers une variable aléatoire X, et on note Xn −→ X, si
il existe un sous ensemble A de Ω avec P(A) = 1 et pour tout ω ∈ A :
Xn (ω) → X(ω).
Exemple 4.2.8. On reprend l’exemple 4.1.8. À la variable XY qui est à valeurs dans
Ω = {0, 1, 2}, on associe la suite Zn définie par la formule :
n
(XY − 1)2
Zn = 1 − .
2
Lorsque XY vaut 0 ou 2, on a Zn = 1/2n qui converge vers zéro lorsque n tend
vers l’infini. Lorsque XY vaut 1, ce qui arrive avec probabilité P(XY = 1) = 0, Zn
vaut 1. On peut donc affirmer que presque sûrement la suite de variables aléatoires
converge presque sûrement vers zéro.
Nous définissons enfin un dernier mode de convergence, plus faible que les deux
précédents, dont l’importance sera mise en évidence dans l’énoncé du théorème limite
central.
Convergence en loi
Définition 4.2.9 (convergence en loi). Soit (Xn )n∈N une suite de variables aléatoires
définie sur un espace de probabilité (Ω, F, P). On dit que la suite (Xn ) converge en
L
loi vers une variable aléatoire X, et on note Xn −→ X, si la suite des fonctions de
répartition FXn converge vers FX en tout point de continuité de FX , i.e. lorsque n
tend vers l’infini, pour tout x où FX ne “saute” pas :
Alors la suite (Xn ) converge en loi vers la variable aléatoire X de loi uniforme
sur l’intervalle [0, 1]. En effet, soit x ∈ [0, 1] alors pour tout n il existe kn tel que
kn /2n 6 x < (kn + 1)/2n et donc kn /2n → x. Dès lors,
kn
P(Xn 6 x) = → x = FX (x).
2n
FX (x)
FXn (x)
0 1
Exemple 4.2.11. Les variables exponentielles sont caractérisées par leur fonction de
−λx
répartititon : si X ∼ E(λ)
P+∞alors P(X > x) = e . Soient (an ) une suite de nombres
réels positifs tels que 1 an = 2, et (Xn ) des variables indépendantes de loi E(an ).
Alors la suite Yn = min(X1 , . . . , Xn ) converge en loi vers une variable de loi E(2).
En effet, on a
P(Yn > x) = P(X1 > x, X2 > x, . . . , Xn > x) = P(X1 > x) . . . P(Xn > x)
Remarque 4.3.2. La loi des grands nombres justifie la démarche intuitive suivante :
pour connaître le résultat moyen d’une expérience aléatoire, on refait un grand
nombre de fois l’expérience et on considère la moyenne arithmétique des résultats
obtenus. En y réfléchissant bien, il n’est pas du tout clair a priori que la moyenne
arithmétique des résultats soit une bonne approximation du résultat moyen. La loi
des grands nombres justifie rigoureusement ce résultat intuitif.
difficile à trancher. Pour ce faire, on a besoin d’un résultat plus fin que la loi des
grands nombres.
√
Sn (X1 − m) + . . . + (Xn − m) loi
n× − m := √ −→ N (0, σ 2 ),
n n
ou de manière équivalente :
√
n Sn (X1 − m) + . . . + (Xn − m) loi
× − m := √ −→ N (0, 1).
σ n σ× n
Remarque 4.3.4. Le théorème limite central exprime le fait que dans la loi des
grands
√ nombres, les fluctuations autour de la moyenne limite sont de l’ordre de
1/ n et que la loi de ces fluctuations est universelle : elle est gaussienne et ne
dépend pas la loi initiale des variables Xi :
√ √
Sn = n × m + σ × n N (0, 1) + o( n),
Sn σ
i.e. = m + √ N (0, 1).
n n
L’universalité des fluctuations explique pourquoi la loi normale est omniprésente
dans la modélisation de phénomènes aléatoires.
48 CHAPITRE 4. THÉORÈMES LIMITE FONDAMENTAUX
Soit x0 = 1.961 de sorte que P(|N (0, 1)| > x0 ) 6 5%. Lorsque n tend vers l’infini,
on a alors,
" √ #
n Sn
P p × − p > x0 −→ P(|N (0, 1)| > x0 ) 6 5%.
p(1 − p) n
Autrement dit,
" r r #!
Sn p(1 − p) Sn p(1 − p)
P p∈/ − x0 , + x0 −→ P(|N (0, 1)| > x0 ) 6 5/%.
n n n n
Comme on a toujours p(1 − p) < 1/4, on conclut que lorsque n tend vers l’infini :
Sn x0 Sn x0
P p∈ / − √ , + √ 6 5%.
n 2 n n 2 n
Pour n assez grand, on peut donc affirmer qu’avec une probabilité supérieure à 95%,
le taux de mutation moyen p appartient à l’intervalle
Sn x0 S n x0
In := − √ , + √ .
n 2 n n 2 n
Soit x0 = 2.5759 de sorte que P(|N (0, 1)| > x0 ) < 1%. Lorsque n tend vers l’infini,
on a alors,
r
n Sn
P × − λ > x0 −→ P(|N (0, 1)| > x0 ) < 1%.
λ n
Autrement dit,
" r r #!
Sn λ Sn λ
P λ∈ / − × x0 , + × x0 −→ P(|N (0, 1)| > x0 ) < 1/%.
n n n n
On peut montrer que la convergence a encore lieu lorsque l’on remplace la variance
λ par Sn /n, i.e.
" r r #!
Sn Sn Sn Sn
P λ∈
/ − × x0 , + × x0 6 1%.
n n2 n n2
Pour n assez grand, on peut donc affirmer qu’avec une probabilité supérieure à 99%,
le nombre moyen d’accidents λ appartient à l’intervalle
" r r #
Sn Sn Sn Sn
In = − × x0 , + × x0 .
n n2 n n2
Sn X1 + . . . + Xn P
:= →
− E[X1 ] = 2p − 1 = 0.
n n
Le théorème limite central précise :
√ Sn loi
2 n× −→ N (0, 1).
n
Pour tout intervalle [a, b] ∈ R, on a donc
2Sn
P √ ∈ [a, b] −→ P(N (0, 1) ∈ [a, b]) > 0.
n
√
Autrement dit, la gain normalisé Sn / n visite n’importe quel intervalle avec une
probabilité strictement positive.
50 CHAPITRE 4. THÉORÈMES LIMITE FONDAMENTAUX
m = 21 log(1 + r + σ) + 12 log(1 + r − σ)
Il s’agit ici naturellement d’utiliser la loi des grands nombres et le théorème limite
central.
4.3. LES THÉORÈMES LIMITES 51
1. Les variables Yi satisfont aux hypothèses de la loi des grands nombres, d’après
le théorème 4.3.1 on peut affirmer que lorsque n tend vers l’infini :
n
log(Sn ) log s 1 X P
= + Yi −→ m = E[Y1 ].
n n n i=1
Sn = exp (n × m + oP (n)) .
c’est-à-dire :
√
log(Sn ) loi
√ −m× n −→ N (0, σ 2 ),
n
et en prenant l’exponentielle :
√ loi
log(Sn )
exp −m × n −→ exp N (0, σ 2 ) ,
exp √
n
ou encore
√ √ √ √
2 (−1/(2 n)) loi
Sn1/ n e−m n Sn1/ n 2
−→ exp N (0, σ 2 ) .
= × (1 + r) − σ
52 CHAPITRE 4. THÉORÈMES LIMITE FONDAMENTAUX
Deuxième partie
Éléments de statistiques
Chapitre 5
Définition 5.1.2 (estimateur). On appelle estimateur de θ toute quantité θbn qui est
une fonction des données (x1 , . . . , xn ) = (X1 (ω), . . . , Xn (ω)).
56 CHAPITRE 5. ESTIMATION ET INTERVALLE DE CONFIANCE
Remarque 5.1.3. Attention, un estimateur est une fonction des seules données
connues (x1 , . . . , xn ), mais il ne doit pas, par définition, dépendre du paramètre
inconnu que l’on souhaite estimer.
Il faut maintenant préciser ce que l’on entend par “être une bonne approximation
du paramètre inconnu θ”. La notion de biais prend en compte le fait qu’en moyenne,
l’estimateur θbn est proche de la valeur théorique inconnue :
Définition 5.1.4 (estimateur sans biais). Le biais est d’un estimateur θbn de θ est la
différence : θ − E[θbn ]. Si E[θbn ] = θ, on dira que l’estimateur θbn est sans biais. Si
limn→∞ E[θbn ] = θ, on dira que l’estimateur θbn est asymptotiquement sans biais.
Sn X1 + . . . + Xn
pbn := = .
n n
En effet, pbn (ω) = (x1 + . . . + xn )/n est bien une fonction des seules variables
(x1 , . . . , xn ). Par ailleurs, c’est un estimateur sans biais puisque :
X 1 + . . . + Xn P
pbn := →
− E[X1 ] = p.
n
On peut considérer de nombreux autres estimateurs de la quantité p, l’important
est de garder à l’esprit que ce que l’on souhaite est approcher au mieux le paramètre
p. Par exemple, pen = X1 est bien une fonction des seules données. C’est donc un
estimateur de p, et on peut ajouter qu’il est sans biais puisque si X1 ∼ B(p), on
a E[X1 ] = p et donc E[e pn ] = p. En revanche, pen n’est pas consistant puisqu’il ne
dépend pas du nombre n de données. Au contraire, l’estimateur
X1 + . . . + X n
ṗn :=
n+1
possède un biais de p − E[ṗn ] = p/(n + 1). Il est donc asymptotiquement sans biais,
et d’après la loi des grands nombres, il est consistant.
5.1. ESTIMATION PARAMÉTRIQUE 57
Si les variables Xi de loi inconnue admettent des moments d’ordre un et deux, alors
la loi des grands nombres assure que la moyenne et la variance empirique sont des
estimateurs consistants de la moyenne m et de la variance σ 2 théoriques. En effet,
d’après la loi des grands nombres, on a
X1 + . . . + Xn P
m
bn = →
− E[X1 ] = m,
n
et
X12 + . . . + Xn2 P
− E[X12 ],
→
n
d’où
bn2 →
− E[X12 ] − E[X1 ]2 = σ 2 .
P
σ
Exemple 5.1.9. On recueille des données (x1 , . . . , xn ) dont on fait l’hypothèse qu’elles
sont des réalisations indépendantes de variables Xi de loi uniforme sur un intervalle
[0, θ] où θ est à déterminer. On a vu en cours et en TD que l’espérance d’une telle
loi est m = E[Xi ] = θ/2, autrement dit θ = 2E[X]. Alors un estimateur naturel de
θ est donné par
2(x1 + . . . + xn )
θbn = = 2mb n.
n
En effet, d’après la loi des grands nombres, lorsque n tend vers l’infini, on a alors
P
θbn →
− 2E[X] = θ.
P
bn → 1
λ − = λ.
E[X]
ou de manière équivalente
n
X
arg max log (fθ (xi )) .
θ
i=1
5.1. ESTIMATION PARAMÉTRIQUE 59
où m
b n est la moyenne empirique. En prenant le logarithme, on obtient :
n
X
log (fθ (xi )) = n log(θ) − nθm
b n.
i=1
Exemple 5.1.12. On reprend l’exemple des variables uniforme sur l’intervalle [0, θ]
où θ est à déterminer. La densité d’une telle variable est la fonction fθ (x) = 1/θ si
x ∈ [0, θ] et zéro ailleurs. Dès lors,
V (θ) := ni=1 fθ (xi ) = θ−n si pour tout i 0 6 xi 6 θ, et zéro ailleurs
Q
Remarque 5.1.13. Dans certains cas simples comme celui de l’estimation du para-
mètre d’une loi exponentielle envisagé ci-dessus, l’estimateur obtenu via la méthode
du maximum de vraisemblance coïncide avec l’estimateur empirique. Ce n’est pas
le cas en général comme en atteste le dernier exemple concernant la loi uniforme.
Dans les cas où la maximisation de la vraisemblance est explicitement possible, et
lorsqu’il diffère de l’estimateur empirique, on préfèrera l’estimateur du maximum de
vraisemblance dont on peut montrer qu’il possède en général de meilleures propriétés
asymptotiques.
60 CHAPITRE 5. ESTIMATION ET INTERVALLE DE CONFIANCE
Définition 5.2.1. Soit α ∈]0, 1[. On dit qu’un intervalle I = I(X1 , . . . , Xn ) qui
s’exprime en fonction de l’echantillon est un intervalle de confiance pour θ de niveau
1 − α si
P(θ ∈ I(X1 , . . . , Xn )) = 1 − α.
Lorsque P(θ ∈ I(X1 , . . . , Xn )) > 1 − α, on parle d’intervalle de confiance de niveau
1 − α par excès.
Remarque 5.2.2. Les niveaux usuels sont 90%, 95% et 99% et correspondent respec-
tivement à α = 10%, α = 5% et α = 1%. Pour obtenir le maximum d’information,
il faut s’efforcer de construire l’intervalle de confiance le moins large possible qui
satisfait la condition de minoration donnée dans la définition.
P(|Z| 6 β) = 1 − α,
c’est-à-dire
β
bn − √ , Xbn + √β
P µ∈ X = 1 − α,
n n
bn − β/√n, X
autrement dit, I = [X bn + β/√n] est un intervalle de confiance de niveau
α pour le paramètre θ.
Exemple 5.2.5. On reprend les exemples du chapitre précédent sur les théorèmes
limites fondamentaux. Dans le cas du taux de mutation d’un gène, d’après la loi des
grands nombres, la moyenne empirique pbn = Sn /n est un estimateur consistant du
paramètre inconnu p. Soit x0 = 1.96 de sorte que P(|N (0, 1)| > x0 ) = 5%. D’après
le théorème limite central, lorsque n tend vers l’infini, un intervalle de confiance
asymptotique pour p de niveau 95% est donné par :
x0 x0
In := pbn − √ , pbn + √ .
2 n 2 n
Exemple 5.2.6. Un sondage auprès d’un échantillon de n personnes sur leur in-
tention de vote au second tour d’une élection indique que 46% des sondés veulent
voter pour A et 54% pour B. On veut donner un intervalle de confiance asympto-
tique de niveau 95% de la proportion p des français qui souhaitent voter pour A.
On peut modéliser les réponses des sondés (pris au hasard dans la population) par
des variables aléatoires Xi de loi de Bernoulli B(p) : Xi = 1 si la i−ème personne
interrogée vote pour A, Xi = 0 si la i−ème personne interrogée vote pour B. D’après
l’énoncé, la proportion de personne ayant l’intention de voter pour A, c’est-à-dire
la moyenne empirique X bn vaut 46%. Comme dans le cas du taux de mutation, si
x0 = 1.96 de sorte que P(|N (0, 1)| > x0 ) = 5%, on montre qu’un intervalle de
confiance asymptotique pour la proportion p est donné par :
x 0
bn − √ , X x
bn + √ . 0
In := X
2 n 2 n
Tests statistiques
L’objectif d’un test d’hypothèses est de répondre à une question que l’on forma-
lise de la manière suivante : au vu de l’observation d’un échantillon (X1 , . . . , Xn ),
le paramètre θ du modèle est-il ou non dans un sous-ensemble de Θ appelé hypo-
thèse nulle et noté H0 ? Par exemple, si on s’intéresse au changement climatique, on
peut par exemple travailler sur les données de température moyenne au mois d’août
à Paris. Sur l’ensemble du vingtième siècle, ces températures moyennes en degrés
Celsius sont bien décrites par une loi gaussienne N (20, 1). Sur les dix dernières
années, on a observé les températures moyennes suivantes : x = (x1 , . . . , x10 ) =
(22, 19, 21, 23, 20, 22, 24, 18, 20, 25), de sorte que x
b10 = 21.4 et σ
b10 = 2.22.
6.1.1 Définitions
Ayant introduit la partition (H0 , H1 ) de l’ensemble Θ des paramètres, nous pou-
vons à présent introduire la notion de test d’hypothèses qui consiste à construire à
partir des données une règle de décision pour savoir si le paramètre inconnu θ de la
loi est dans H0 ou dans H1 .
Exemple 6.1.5. Commençons par un exemple très simple. On suppose que l’on
observe une seule donnée x1 = 2, 165, réalisation d’une variable aléatoire X1 de loi
N (µ, 1) où la moyenne µ appartient à l’ensemble à deux éléments {0, 5}. Au vu de
cette observation, on souhaite construire un test pour décider, avec un niveau de
sécurité de α, si µ = 0 ou si µ = 5. On privilégie la première hypothèse, et on pose
donc H0 = {µ = 0} et H1 = {µ = 5}.
— Considérons tout d’abord le cas où α = 5%. Soit β5% = 1.64 de sorte que
6.1. TESTS D’HYPOTHÈSES 65
P(N (0, 1) > β5% ) = 0.05. On définit la région de rejet W5% = {X1 > β5% } de
sorte que P0 (W5% ) = 0.05. Cette zone de rejet W5% fournit un test de niveau
5% de H0 contre H1 . Dans notre exemple, on a x1 = 2, 165 > 1.64, on rejette
donc l’hypothèse H0 = {µ = 0} au niveau 5%.
x = (x1 , . . . , x10 ) = (22, 19, 21, 23, 20, 22, 24, 18, 20, 25)
Soit a = 2.33 de sorte que P(Z > a) 6 0.01. La zone de rejet W = {ξn > 2.33}
fournit alors un test de H0 contre H1 de niveau 99%.
√
Si on applique ce test aux données recueillies, on trouve ξ10 = 10 × (b
√ x10 − µ0 ) =
10 × (21, 4 − 20) ≈ 4.33. On a donc ξ10 > a = 2.33 et on rejette l’hypothèse H0 .
66 CHAPITRE 6. TESTS STATISTIQUES
En fait on a P(Z > 4.33) ≈ 4.7 × 10−6 , et on rejette l’hypothèse H0 pour tous les
niveaux α > 4.7 × 10−6 , c’est-à-dire à tous les niveaux usuels. Ainsi on peut conclure
à l’augmentation des températures sur les dix dernières années.
6.2 Test du χ2
Nous introduisons maintenant une classe de tests très utilisés en pratique : les
tests du χ2 (on lit khi − deux). Ces tests sont basés sur la loi du χ2 qui comme la
loi gaussienne centrée réduite est tabulée. On donne la table des quantiles de la loi
χ2 pour différents degrés de liberté en fin de chapitre.
Définition 6.2.1. On dit qu’une variable aléatoire X suit une loi du χ2 à n degrés
de liberté et on note X ∼ χ2 (n) si X est à valeurs dans R+ et X admet la densité
fX suivante :
xn/2−1 e−x/2
fX (x) = n/2 .
2 Γ(n/2)
Si X1 , X2 , . . . Xn sont des variables aléatoires indépendantes de loi N (0, 1), alors la
variable Z = X12 + X22 + . . . + Xn2 suit une loi χ2 (n). En particulier, si Z ∼ χ2 (n),
on a :
E[Z] = n, et var(Z) = n.
Ci-dessous, on donne l’allure de la densité fX pour différents degrés de liberté, c’est-
à-dire pour différentes valeurs du paramètre n.
Figure 6.1 – Allure des densités des lois χ2 (k) pour différentes valeurs de k.
Exemple 6.2.2. Dans le cas du dé à six faces évoqué plus haut, A = {1, . . . , 6} et
p0 = (1/6, . . . , 1/6). Tester H0 = {p = p0 } contre H1 = {p 6= p0 } revient à tester si
le dé est pipé ou non.
Voici comment
1
Pnon met en oeuvre le test d’adéquation. Pour j ∈ {1, . . . , k}, on
note pbj := n i=1 1Xi =aj la fréquence empirique de aj . Le vecteur des fréquences
empiriques est alors pb = (b
p1 , . . . , pbk ). L’idée qui est à la base du test est bien sûr que
le vecteur pb est plus proche de p0 sous l’hypothèse nulle H0 que sous l’hypothèse
alternative H1 . Afin de quantifier la “proximite”, on utilise la pseudo-distance du χ2 :
k
X pj − p0j )2
(b
ξn := n × 0
.
j=1
p j
Étant donné un niveau α (par exemple α = 5%) et un réel a tel que P(Z > a) = α,
la zone de rejet Wn = {ξn > a} fournit alors un test de niveau asymptotique α de
H0 = {p = p0 } contre H1 = {p 6= p0 }.
68 CHAPITRE 6. TESTS STATISTIQUES
Exemple 6.2.5. Lors de cent lancers d’un dé à six faces, on observe les résultats
suivants :
x 1 2 3 4 5 6
N (x) 20 13 17 12 23 15
On veut tester au niveau de confiance 95% l’hypothèse H0 := {le dé n’est pas pipé}
contre l’hypothèse H1 := {le dé est pipé}. D’après les tables, si Z ∼ χ2 (5), on a
P(Z > 11, 07) = 5%, autrement dit la zone de rejet est ici de la forme {ξn > 11.07}.
Dans notre exemple, les fréquences observées sont :
x 1 2 3 4 5 6
pbx 0.2 0.13 0.17 0.12 0.23 0.15
On applique le test d’adéquation à la loi uniforme p0 = (1/6, . . . , 1/6). La statistique
de test vaut
6 6
X pj − 1/6)2
(b X
ξ100 = 100 × = 600 × pj − 1/6)2 ≈ 5.36.
(b
j=1
1/6 j=1
Comme 5.36 < 11.07, on ne rejette pas au niveau de confiance 95% l’hypothèse H0 .
La statistique de test
pjl − qbj rbl )2
X (b
ξn = n
j,l
qbj rbl
6.2. TEST DU χ2 69
mesure la distance entre la matrice pb des fréquences des couples (Aj , Bl ) et la matrice
qbrb∗ produit des fréquences marginales.
Étant donné un niveau α (par exemple α = 5%) et un réel a tel que P(Z > a) = α,
la zone de rejet Wn = {ξn > a} fournit alors un test de niveau asymptotique α de
H0 = {X et Y indépendantes} contre H1 = {X et Y non indépendantes}.
Si on note G pour guéri et M pour non guéri, les fréquences marginales observées
sont ici : pbG = 130/226, pbM = 96/226, et pb1 = 60/226, pb2 = 77/226, pb3 = 89/226.
D’autre part, on a pbG1 = 30/226, pbG2 = 42/226 et pbG3 = 58/226, pbM 1 = 30/226,
pbM 2 = 35/226 et pbM 3 = 31/226. La statistique du χ2 est donnée par :
3 3
!
X pGj − pbG pbj )2 X (b
(b pM j − pbM pbj )2
ξ226 = 226 + .
j=1
p
b G p
b j j=1
p
b M p
b j
obs
Avec nos données, on trouve ξ226 = 3.80. Le nombre de degrés de liberté est ici
k = (3 − 1) × (2 − 1) = 2 et l’on a P(χ2 (2) > 5.99) = 5%. Autrement dit, l’ensemble
W := {ξ226 > 5.99} est une zone de rejet pour le test de H0 contre H1 au niveau
obs
5%. On a ici ξ226 ∈
/ W de sorte que l’on accepte l’hypothèse d’indépendance de la
dose et de la guérison au niveau 5%.
6.2. TEST DU χ2 71
Quantiles de la loi du χ2
Soit Xn ∼ χ2 (n). On pose :
+∞
y n/2−1 e−y/2
Z
α = P(Xn > x) = dy.
x 2n/2 Γ(n/2)
Régression linéaire
L’objectif est double ici : il s’agit dans un premier temps d’expliquer les données
Yi en fonction des données Xi , et d’autre part d’essayer de prédire la valeur d’une
nouvelle réalisation de la variable Y à partir d’une nouvelle réalisation de la variable
X. Bien entendu, sauf cas exceptionnel, la relation Y = f (X) ne peut être exacte.
Aussi cherche-t-on la fonction f de sorte que la relation Y = f (X) soit le plus près
possible d’être vérifiée.
74 CHAPITRE 7. RÉGRESSION LINÉAIRE
7.1.1 La problématique
La notion de proximité qu’on retient est celle qui conduit au calcul le plus simple :
on cherche à minimiser la somme des carrés des distances à la droite, autrement dit
on cherche le couple (b
an , bbn ), fonction des données (Xi , Yi ), qui minimise la fonction
2 2
σ = σ (a, b) :
Xn
2 2
σ = σ (a, b) := (Yi − aXi − b)2 .
i=1
7.1.2 La solution
Pour résoudre le problème de minimisation, on rappelle quelques notations in-
troduites dans les chapitres précédents. On considère ainsi les moyennes et variances
empiriques suivantes :
n n
bn := 1 1X
X
X Xi , Ybn := Yi ,
n i=1 n i=1
n n
1X 2 1X 2 b
bnX :=
σ b 2,
X −X bnY :=
σ Y − Yn .
n i=1 i n
n i=1 i
La covariance empirique κXY
n et la coefficient de corrélation linéaire ρXY
n sont alors
donnés par les formules :
n
1X κXY
n
κXY
n := Xi Yi − X
bn Ybn , ρXY
n := p .
n i=1 bnX σ
σ bnY
bn − b)2 + a2 σ
= (Ybn − aX bnX − 2aκXY bnX ,
+σ
n
de sorte que, dès lors que la statistique X n’est pas constante i.e. σnX 6= 0, il existe
un unique couple (ban , bbn ) qui minimise la la fonction (a, b) 7→ σ 2 (a, b). Ce couple est
7.2. STATISITIQUE DE LA RÉGRESSION 75
donné par :
κXY
n bbn := Ybn − b
an := , an X
bn .
bnX
b
σ
En fonction de (b
an , bbn ), l’erreur quadratique s’écrit encore :
n
X
σ2 = bnY − κXY
(Yi − aXi − b)2 = σ σnX = (1 − |ρXY
n /b
2
σnY .
n | )b
i=1
Elle est nulle lorsque qu’existe une relation linéaire entre les statistiques X et Y , et
faible en cas de relation quasi-linéaire. Notons que la droite de régression passe par
le centre de gravité du nuage formé par les n points (Xi , Yi ).
Yi = aXi + b + εi ,
où les (εi )i=1...n sont indépendantes avec E[Xi ] = 0, var(Xi ) = 1. Les coefficients de
régression (b an , bbn ) fournissent alors des estimateurs des quantités a et b.
Comme les εi sont centrées, on a bien E[b an ] = a. De la même façon, on vérifie que
E[bn ] = E[Yn ] − E[b
b b an ]Xn = E[Y ] − aXn = b, autrement dit, b
b b an et bbn sont sans
biais. Par ailleurs, d’après la loi des grands nombres, lorsque n tend vers l’infini,
on a les convergence en probabilité Ybn → E[Y ], X bn → E[X], κXY → cov(X, Y ) et
n
X
bn → var(X). On en déduit les dernières convergences
σ
n
κXY
n cov(X, Y ) bn = b + 1
X
an = → = a, bbn = Ybn − b bn ≈ Ybn − aX
an X εi → b,
bnX
b
σ var(X) n i=1
élémentaire. Par exemple dans la cas suivant, on peut intuiter que la relation est
de la forme Y = beaX . On se ramène au cas linéaire en considérant les données
(Xi , log Yi ).