Modélisation et estimation en statistique
Modélisation et estimation en statistique
L. Rouvière
[Link]@[Link]
Septembre 2021
I La modélisation statistique 2
1 Un exemple de modèle 2
3 Modèle statistique 8
5 Bibliographie 13
II Théorie de l’estimation 14
1 Modèle - estimateur 14
4 Information de Fisher 21
6 Bibliographie 24
3 Bibliographie 37
1
IV Critères de performance asymptotiques, intervalles de confiance et estimation
multivariée 38
1 Critères asymptotiques 38
3 Estimation multivariée 45
3.1 Biais, variance, risque quadratique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.2 Critères asymptotiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.3 Borne de Cramer-Rao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2 Le modèle de régression 57
2.1 Approche paramétrique : le modèle de régression linéaire . . . . . . . . . . . . . . . . . . . . . . . . . 58
2.2 Approche non paramétrique : l’estimateur à noyau . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3 Bibliographie 64
Présentation
— Objectifs : Comprendre le problème de la modélisation statistique et acquérir les premières notions fondamen-
tales de la théorie de l’estimation.
— Pré-requis : théorie des probabilités, variables aléatoires discrètes et continues.
— Enseignant : Laurent Rouvière [Link]@[Link]
— Recherche : statistique non paramétrique, apprentissage statistique
— Enseignements : statistique et probabilités (Université, école d’ingénieur et de commerce, formation
continue).
— Consulting : energie, finance, marketing, sport.
Programme
— 40h : 20h CM + 20h TD.
— Matériel : slides + feuilles d’exercices. Disponible à l’url : https: // lrouviere. github. io/ doc_ cours/
— 5 parties :
1. La modélisation
2. Théorie de l’estimation
3. Convergences stochastiques
4. Critères de performance asymptotique et estimation par intervalles
5. Introduction à l’approche non paramétrique
Première partie
La modélisation statistique
1 Un exemple de modèle
Statistique (version Wikipedia)
2
La statistique est l’étude de la collecte de données, leur analyse, leur traitement, l’interprétation des résultats et
leur présentation afin de rendre les données compréhensibles par tous.
Conséquence
Plusieurs étapes :
1. Collecte des données
2. Analyse et vérification des données (statistiques descriptives)
3. Traitement (modélisation)
4. Interprétation des résultats (ou du modèle)
5. Présentation des résultats (visualisation)
> data(iris)
> head(iris)
[Link] [Link] [Link] [Link] Species
1 5.1 3.5 1.4 0.2 setosa
2 4.9 3.0 1.4 0.2 setosa
3 4.7 3.2 1.3 0.2 setosa
4 4.6 3.1 1.5 0.2 setosa
5 5.0 3.6 1.4 0.2 setosa
6 5.4 3.9 1.7 0.4 setosa
> summary(iris)
[Link] [Link] [Link] [Link] Species
Min. :4.300 Min. :2.000 Min. :1.000 Min. :0.100 setosa :50
1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.300 versicolor:50
Median :5.800 Median :3.000 Median :4.350 Median :1.300 virginica :50
Mean :5.843 Mean :3.057 Mean :3.758 Mean :1.199
3rd Qu.:6.400 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800
Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500
Statistiques descriptives
— Indicateurs numériques et graphiques permettant de mieux comprendre le problème.
> library(ggplot2)
> ggplot(iris)+aes(x=Species,y=[Link])+geom_boxplot()
> ggplot(iris)+aes(x=[Link],color=Species)+geom_density()
> ggplot(iris)+aes(x=[Link],y=[Link],color=Species)+geom_point()
Modélisation
— Modéliser = créer un objet qui permette d’expliquer l’espèce à partir des 4 variables quantitatives.
— On utilise ici un arbre de classification
3
2.5 ● ●●
● ●
●●●● ● ● ● ●
● ● ●
6
●●●● ● ●
2 2.0 ●●●● ● ●
●● ● ●
●● ● ●● ● ● ●
● ●
● ● ● ●
[Link]
[Link]
● ● ●●● ●
density
setosa ● setosa
4 ● ●●●●●●●
versicolor ● versicolor
●● ● ● ●
virginica ● virginica
● ●●
1
1.0 ● ● ● ●●
2 0.5 ●
●
● ●●● ●
●●● ●
● ●●●●●● ●
●
● 0 ● ●●
0.0
setosa versicolor virginica 2 4 6 2 4 6
Species [Link] [Link]
setosa
setosa
versicolor
.33 .33 .33
virginica
100%
yes [Link] < 2.5 no
versicolor
.00 .50 .50
67%
[Link] < 1.8
> library(rpart)
> model <- rpart(Species~.,data=iris)
Prévisions
— On dispose de 5 nouveaux iris sur lesquels on a mesuré les longueurs et largeurs de pétales et sépales.
> iris_prev
[Link] [Link] [Link] [Link]
5.0 3.6 1.4 0.2
5.5 2.4 3.7 1.0
5.8 2.7 5.1 1.9
5.1 3.5 1.4 0.3
6.3 2.9 5.6 1.8
— Chacune de ces étapes est primordiale pour le succés d’une étude statistique.
Dans ce cours
— On va s’intéresser à la phase de modélisation mathématique d’un problème.
— On supposera les données collectées (c’est en grande partie une affaire de praticien). Elles seront souvent
notées x1 , . . . , xn .
— Les phases d’interprétation et de visualisation des résultats seront abordées plus tard.
4
40
30
count
20
10
5 10 15
X
60
40
count
20
16 20 24
X
Question
Comment utiliser au mieux ces données pour gérer le feu ?
Quantité d’intérêt
— Il serait intéressant d’avoir de l’information sur la loi de probabilité du nombre de voitures arrêtées au feu à
ce créneau.
— On dispose juste de mesures, cette loi est donc inconnue.
— Le travail statistique va donc consister à essayer de reconstruire au mieux cette loi (discrète) à partir des
mesures effectuées.
Question
Comment utiliser au mieux ces données pour gérer mon heure de départ ?
Quantité d’intérêt
— Il serait intéressant d’avoir de l’information sur la loi de probabilité de la durée de trajet domicile/travail.
— On dispose juste de mesures, cette loi est donc inconnue.
— Le travail statistique va donc consister à essayer de reconstruire au mieux cette loi (continue) à partir des
mesures effectuées.
5
0.05
0.04
unemploy/pop
0.03
0.02
Séries temporelles
— On s’intéresse au taux de chomage d’une population entre deux dates t0 et t1 . On souhaite prédire le taux de
chomage futur.
— Expérience : on mesure le taux de chomage entre les deux dates
> head(economics)
# A tibble: 6 x 6
date pce pop psavert uempmed unemploy
<date> <dbl> <int> <dbl> <dbl> <int>
1 1967-07-01 507.4 198712 12.5 4.5 2944
2 1967-08-01 510.5 198911 12.5 4.7 2945
3 1967-09-01 516.3 199113 11.7 4.6 2958
4 1967-10-01 512.9 199311 12.5 4.9 3143
5 1967-11-01 518.1 199498 12.5 4.7 3066
6 1967-12-01 525.8 199657 12.1 4.8 3018
Question
Comment utiliser au mieux ces données pour prédire le taux de chomage en 2012 ?
Quantité d’intérêt
— Il serait intéressant d’avoir de l’information sur la loi de probabilité du taux de chomage à l’instant t sachant
le taux de chomage avant t.
— On dispose juste de mesures, cette loi est donc inconnue.
— Le travail statistique va donc consister à essayer de reconstruire au mieux cette loi (continue) à partir des
mesures effectuées.
Prévision ozone
— On s’intéresse à la prévision de la concentration en ozone dans l’air.
— Expérience : on mesure la concentration en ozone dans l’air ainsi d’autres variable (météo) qui pourraient
potentiellement expliquer cette quantité.
> head(ozone)
maxO3 T9 T12 T15 Ne9 Ne12 Ne15 Vx9 Vx12 Vx15 maxO3v vent pluie
20010601 87 15.6 18.5 18.4 4 4 8 0.6946 -1.7101 -0.6946 84 Nord Sec
20010602 82 17.0 18.4 17.7 5 5 7 -4.3301 -4.0000 -3.0000 87 Nord Sec
20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec
20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec
20010605 94 17.4 20.5 20.4 8 8 7 -0.5000 -2.9544 -4.3301 114 Ouest Sec
20010606 80 17.7 19.8 18.3 6 6 7 -5.6382 -5.0000 -6.0000 94 Ouest Pluie
> ggplot(ozone)+aes(x=T12,y=maxO3)+geom_point()
> ggplot(ozone)+aes(x=vent,y=maxO3)+geom_boxplot()
Question
Comment utiliser au mieux ces données pour prédire la concentration en ozone sachant les variables météo ?
Quantité d’intérêt
— Il serait intéressant d’avoir de l’information sur la loi conditionnelle de probabilité de la concentration en
ozone sachant les variables météo.
6
● ●
160 ●
●
● 160 ●
● ●
● ●
● ● ●
● ●
● ●
● ●
● ●
120 120
●
● ●
● ●
● ●
●
●
●
maxO3
maxO3
●
● ●
● ● ●
●
●
● ●
●
●
●
●
● ●
●
● ● ●
●
● ● ●
● ● ● ●
●
●● ●
80 ● ● ●
● 80
● ●
● ● ●●
● ● ● ●
●
●
● ● ● ●
●●● ● ●
● ● ● ●
● ●
●
● ● ● ●
● ●
● ●
● ●●
● ●
● ●
●
●
●
●
● ●
●
40 40
20
15 g
aa
ao
value
dcl
iy
sh
10
0 100 200
X
Reconnaissance de la voix
— On souhaite développer une procédure automatique permettant de reconnaitre un son.
— Expérience : on prononce 5 sons un certain nombre de fois et on considère la courbe temporelle associé au
son dans la base de Fourier.
— On dispose de n = 4509 courbes, chacune étant associée à un son.
Question
Comment utiliser au mieux ces données pour identifier un son à partir d’une courbe ?
Quantité d’intérêt
— Il serait intéressant d’avoir de l’information sur la loi conditionnelle de probabilité de la variable son sachant
la courbe.
Bilan
— Pour chacun de ces problèmes on cherche à reconstruire (ou estimer) des probabilités (ou plus généralement
des lois de probabilité).
— Les probabilités sont cependant différentes : la nature des quantités qui interviennent diffèrent
— discrètes (voitures)
— continues (durée de trajet)
— conditionnelles (ozone, phonèmes)
— Les objets mesurés sont également de nature différente (entiers, réel, vecteurs, courbes...).
Conséquence importante
Il va être primordial d’introduire un formalisme (mathématique) précis pour représenter (modéliser) ces problèmes.
— Ces problèmes peuvent être appréhendés à l’aide d’un modèle statistique.
Modèle statistique
— Définition avec des mots : vision simplifiée de la réalité.
— Définition mathématique : triplet (F, H, {P, P ∈ P}) où
— F est un ensemble (l’espace des observations)
— H est une tribu sur F
— {P, P ∈ P} est une famille de lois de probabilité.
Question importante
Quel est le lien entre ces deux définitions ?
7
3 Modèle statistique
— On suppose que des données ont été collectées.
— Ces données sont le résultat d’une expérience répétée n fois.
— On va les noter x1 , . . . , xn .
— x1 = 20.87, x2 = 22.12 . . .
Hasard, aléa...
Question
— Sur les n = 100 trajet, on obtient une moyenne de 20.02 minutes.
— Peut-on en conclure que le durée moyenne du trajet domicile/travail est de 20.02 minutes ?
— Le résultat dépend des conditions de l’expérience.
— Si on re-mesure 100 fois le trajet, il est fort possible qu’on n’obtienne pas la même durée moyenne.
Conséquence
— Nécessité de prendre en compte que le résultat observé dépend des conditions expérimentales.
— Ces dernières vont être difficiles à caractériser précisément.
— On dit souvent que le hasard ou l’aléa intervient dans ces conditions.
Variable aléatoire
Un outil spécifique
L’outil mathématique permettant de prendre en compte l’aléa dans l’expérience est la variable aléatoire.
Définition
Une variable aléatoire réelle (v.a.r.) est une application X : Ω → R et une réalisation de X est une valeur X(ω)
pour une éventualité ω ∈ Ω.
— Remarque : la définition d’une v.a. est étrange et ne présente un intérêt que si on comprend son utilité dans
la modélisation.
V.a. et modélisation
— x1 , . . . , xn représentent le résultat de l’expérience. On suppose que xi ∈ R, i = 1, . . . , n.
— Pour prendre en compte l’aléa de l’expérience, on va considérer des variables aléatoires réelles (v.a.r.).
Lien observation/v.a.r.
Les xi sont dés réalisations de v.a.r. Xi . C’est-à-dire
∀i = 1, . . . , n ∃ ωi ∈ Ω tel que xi = Xi (ωi ).
Question
Que représentent les ωi ?
Réponse
— ωi représente les conditions expérimentales associées à la ie mesure, c’est-a-dire toutes les conditions qui
permettent "d’expliquer" qu’on a obtenu xi .
— Cette quantité n’est généralement pas caractérisable (on sait qu’elle existe mais on ne peut pas en dire plus).
8
Exemple : durée de trajet
— x1 = 20.87, x2 = 22.12, x3 = 20.90, x4 = 21.33, x5 = 17.73, . . .
— X1 , . . . , Xn définies sur Ω, n v.a.r. telles que Xi (ωi ) = xi .
Interprétation
— On dit que Xi est la v.a.r. représentant le ie temps de trajet.
— L’ensemble Ω contient toutes les conditions expérimentales possibles... C’est-à-dire tout ce qui peut se produire
sur le trajet (feux, passant qui traverse, vitesse à laquelle on roule...).
— ωi correspondant à ce qui s’est produit sur le ie trajet.
— Par exemple ω1 représente tout ce qui s’est passé sur le trajet permettant d’expliquer qu’on a mis 20.87
minutes.
Remarque
On voit bien sur cet exemple qu’il est difficile de caractériser mathématiquement Ω et les ωi , i = 1, . . . , n.
Récapitulatif
— n observations x1 , . . . , xn telles que xi ∈ R.
— Les n valeurs observées x1 , . . . , xn sont des réalisations de variables aléatoires X1 , . . . , Xn à valeurs dans R.
Attention
Xi est une variable aléatoire, c’est-à-dire une fonction, et xi est une réalisation de cette variable, c’est-à-dire une
quantité déterministe.
Remarque
— Les v.a. X1 , . . . , Xn n’ont pas forcément un grand intérêt dans la modélisation.
— La quantité qui va nous intéresser est la loi de probabilité associée à ces v.a.
— C’est cette loi qui nous permettra d’apporter des réponses au problème posé.
Loi de probabilité
Loi de probabilité
La loi de probabilité d’une v.a.r. est représentée par les probabilités P(X ∈ [a, b]) avec a ≤ b.
Intérêt
— La loi de probabilité permet de mesurer tous les évènements dans l’espace d’arrivé.
— C’est elle qui va nous intéresser pour comprendre le phénomène qui nous intéresse.
Définition
Soit X une v.a.r. On appelle fonction de répartition de X la fonction FX : R → [0, 1] définie par
Propriété
La fonction de répartition FX d’une v.a.r. X satisfait les propriétés suivantes :
1. ∀x ∈ R, 0 ≤ FX (x) ≤ 1 ;
9
2. FX est une fonction croissante, continue à droite en tout point x ∈ R ;
3. limx→−∞ FX (x) = 0 et limx→+∞ FX (x) = 1.
Propriété
La fonction de répartition caractérise la loi de probabilité d’une variable aléatoire réelle.
— FX permet de caractériser la loi de n’importe quelle v.a.r.
— Il existe d’autres outils pour caractériser les lois qui peuvent dépendre de la nature de la variable.
— Cas discret : fonction de masse.
— Cas continu : densité.
Cas discret
Définition
— On dit qu’une v.a.r X est discrète si son support SX est fini ou dénombrable.
— La fonction de masse définie par
πX : SX → [0, 1]
x 7→ P(X = x)
Cas continu
— Généralement pour des v.a.r qui prennent leurs valeurs sur un intervalle de R ou une réunion d’intervalles
de R.
Définition
Une v.a.r X est dite de loi à densité si il existe une densité fX : R → R+ telle que pour tous a, b avec a ≤ b
on a Z b
P(a ≤ X ≤ b) = fX (x) dx.
a
Quelques propriétés
— Toute fonction f positive, continue et qui intègre à 1 est une densité.
0
— Lien fonction de répartition densité : fX = FX sur l’ensemble où FX est dérivable.
— Une v.a.r n’est pas forcément discrète ou continue, ça peut aussi être un mélange des deux...
Interprétation
— L’espérance revient à intégrer les valeurs de la v.a.r. X pour chaque évènement ω pondéré par la mesure de
probabilité P.
— D’où l’interprétation de valeur moyenne prise par X.
— Problème : l’espérance dépend de Ω que l’on ne peut généralement pas caractériser !
— Le théorème de transfert permet de pallier à cette difficulté.
10
Calcul en pratique
— On déduit du théorème de transfert un moyen "simple" pour calculer l’espérance dans les cas discret et
continu.
Propriété
— Cas discret : X
E[X] = xπx (x).
x∈SX
— Cas continu : Z
E[X] = xfX (x) dλ(x).
R
=⇒ l’espérance s’obtient en calculant une somme ou une intégrale.
Variance
Définition
— Le moment centré d’ordre 2 de X est appelé la variance de X et est noté V[X] :
V[X] = E (X − E[X])2 = E[X 2 ] − (E[X])2 .
Interprétion
— La variance est un réel positif.
— Elle mesure l’écart entre les valeurs prises par X et l’espérance (moyenne) de X =⇒ interprétation en terme
de dispersion.
Exemples
1. Loi de Bernoulli B(p) : V[X] = p(1 − p) ;
2. Loi uniforme sur [0, 1] : V[X] = 1/12 ;
3. Loi uniforme sur [1/4, 3/4] : V[X] = 1/48.
Quelques propriétés
Espérance
1. ∀(a, b) ∈ R2 , E[aX + b] = aE[X] + b ;
2. E[X1 + X2 ] = E[X1 ] + E[X2 ]
3. Jensen : soit X à valeurs dans ]a, b[ et ϕ une fonction réelle convexe sur ]a, b[
ϕ(E[X]) ≤ E[ϕ(X)].
Variance
1. ∀α ∈ R, V[αX] = α2 V[X] ;
2. ∀a ∈ R, V[a + X] = V[X] ;
3. V[X] = 0 si et seulement si X est une v.a.r. presque sûrement constante (X = E[X] p.s.).
Bienaymé-Chebychev
Si E[X 2 ] < +∞, alors on a pour tout réel a > 0
V[X]
P(|X − E[X]| > a) ≤ .
a2
11
4.2 Vecteurs aléatoires
— On se restreindra à la notion de couple aléatoire.
Définitions
— Un couple de v.a.r. est une application :
(X, Y ) : Ω → R2
ω 7→ (X(ω), Y (ω))
Exemple
— Fonction de répartition :
FX,Y (x, y) = P(X ≤ x, Y ≤ y).
— Densité (si elle existe) : fonction fX,Y : R2 → R+ telle que
Z bZ d
P((X, Y ) ∈ [a, b] × [c, d]) = fX,Y (x, y) dy dx.
a c
Calcul d’espérance
— Question : étant donné un couple (X, Y ) et une fonction g : R2 → R, que vaut E[g(X, Y )] ?
Théorème de transfert
R
Si R2 |g(x, y)|fX,Y (x, y) dx dy < +∞ alors g(X, Y ) est intégrable et
Z
E[g(X, Y )] = g(x, y)fX,Y (x, y) dx dy.
R2
Covariance
Définitions
— Covariance entre X et Y :
cov(X, Y ) = E([X − E[X])(Y − E[Y ]) = E[XY ] − E[X]E[Y ].
Propriétés
— cov(X, Y ) = cov(Y, X) ;
— cov(aX + b, Y ) = acov(X, Y ) ;
— V[aX + bY ] = a2 V[X] + b2 V[Y ] + 2abcov(X, Y ).
12
Indépendance
Définition
Soit (X, Y ) un couple aléatoire. X et Y sont indépendantes si pour tous a ≤ b et c ≤ d on a
En pratique
Si (X, Y ) admet pour densité fX,Y alors X et Y sont indépendantes si et seulement si
Propriété
Soient X et Y 2 v.a.r indépendantes. Alors
1. E[XY ] = E[X]E[Y ] et donc cov(X, Y ) = 0
2. V[X + Y ] = V[X] + V[Y ].
5 Bibliographie
Références
Biblio1
[Jacod and Protter, 2003] Jacod, J. and Protter, P. (2003). L’essentiel en théorie des probabilités. Cassini.
[Lejeune, 2004] Lejeune, M. (2004). Statistique. La théorie et ses applications. Springer.
[Rouvière, 2015] Rouvière, L. (2015). Probabilités générales. Polycopié de cours, https ://[Link]-
[Link]/[Link].
13
Deuxième partie
Théorie de l’estimation
Rappels
— n observations x1 , . . . , xn .
— Ces observations sont des réalisations de variables aléatoires X1 , . . . , Xn =⇒ ∃ωi tel que
Xi (ωi ) = xi , i = 1, . . . , n.
Hypothèse
— On va supposer que les variables Xi sont indépendantes et de même loi de probabilité (inconnue) P.
Le problème de l’estimation
Il consiste à trouver (estimer) la loi P à partir de l’échantillon X1 , . . . , Xn .
1 Modèle - estimateur
— Poser un modèle revient à supposer que la loi de probabilité inconnue P appartient à une famille de lois P.
Définition
On appelle modèle statistique tout triplet (H, A, P) où
— H est l’espace des observations (l’ensemble dans lequel les observations prennent valeurs) ;
— A est une tribu sur H ;
— P est une famille de probabilités définies sur (H, A).
Remarque
— H et A ne sont généralement pas difficile à caractériser.
— Le statisticien ou le praticien doit par contre choisir une famille de loi de probabilité susceptible de contenir
la loi inconnue P.
Exemple
— On souhaite tester l’efficacité d’un nouveau traitement à l’aide d’un essai clinique.
— On traite n = 100 patients atteints de la pathologie.
— A l’issue de l’étude, 72 patients sont guéris.
Modélisation
— On note xi = 1 si le ième patient a guéri, 0 sinon.
— On suppose que xi est la réalisation d’une variable aléatoire Xi de loi de bernoulli de paramètre inconnu
p ∈ [0, 1].
— Si les individus sont choisis de manière indépendante et ont tous la même probabilité de guérir (ce qui peut
revenir à dire qu’ils en sont au même stade de la pathologie), il est alors raisonnable de supposer que les
variables aléatoires X1 , . . . , Xn sont indépendantes.
Spécification du triplet
Le triplet pour l’exemple
— H : pas le choix H = {0, 1}.
— A : pas le choix A = ensemble des parties de {0, 1}.
— P = {lois de Bernoulli de paramètre p ∈ [0, 1]} = {B(p) : p ∈ [0, 1]}.
— A travers ce modèle, on suppose que la variable aléatoire Xi qui représente la réaction du ie patient au
traitement suit une loi de Bernoulli de paramètre inconnu p ∈ [0, 1].
— Le problème statistique : reconstruire ou estimer ce paramètre à l’aide de l’échantillon X1 , . . . , Xn .
14
Autres exemples
— Exemple 1 : Traitement.
— Exemple 2 : Nombre de voitures au feu rouge.
— Exemple 3 : Durée de trajet domicile/travail.
H A P
2 types d’erreur
— Poser un modèle = choisir une famille de lois P candidates pour P.
P
P̂
Conséquence
— Le travail du statisticien consistera toujours à essayer de trouver le meilleur compromis entre ces deux erreurs.
— Dans ce cours, nous étudierons essentiellement l’erreur d’estimation dans les modèles paramétriques.
15
Le problème de régression
— Données : (x1 , y1 ), . . . , (xn , yn ). On veut expliquer les sorties yi ∈ R par les entrées xi ∈ Rp .
— Les données sont des réalisations de variables aléatoires (X1 , Y1 ), . . . , (Xn , Yn ) telles qu’il existe une fonction
inconnue m : Rp → R vérifiant
Yi = m(Xi ) + εi , i = 1, . . . , n
où les εi sont i.i.d de loi N (0, σ 2 ).
Le problème statistique
Il consiste à estimer la fonction inconnue m à l’aide de l’échantillon (X1 , Y1 ), . . . , (Xn , Yn ).
Objectifs
Estimer...
Etant donné un modèle (H, A, P) :
— Trouver des procédures (automatiques) permettant de sélectionner une loi P̂ dans P à partir d’un n-échantillon
X1 , . . . , Xn .
— Etudier les performances des lois choisies.
Paramétrique
— Dans la suite, on va considérer uniquement des modèles paramétriques P = {Pθ , θ ∈ Θ} avec Θ de dimension
finie (typiquement Rp ).
— Choisir une loi reviendra donc à choisir un paramètre θ̂ à partir de l’échantillon X1 , . . . , Xn .
— Les modèles que nous allons considérer auront pour espace d’observations un ensemble dénombrable Ω ou Rd
et seront munis des tribus P(Ω) ou B(Rd ).
— Dans la suite, on se donne un modèle M = (H, P = {Pθ , θ ∈ Θ}).
Echantillon
Un échantillon de taille n est une suite X1 , . . . , Xn de n variables aléatoires indépendantes et de même loi Pθ , pour
θ ∈ Θ.
Identifiabilité
— Si θ 7→ Pθ est injective, le modèle est dit identifiable.
— L’identifiabilité implique
— 2 paramètres différents correspondent à deux lois différentes.
— 2 lois identiques correspondent à deux paramètres identiques.
— Elle permet donc d’identifier une loi à un unique paramètre et est capitale pour savoir ce que l’on doit estimer.
16
La démarche statistique
1. On récolte n observations (n valeurs) x1 , . . . , xn qui sont les résultats de n expériences aléatoires indépen-
dantes.
2. Modélisation : on suppose que les n valeurs sont des réalisations de n variables aléatoires indépendantes
X1 , . . . , Xn et de même loi Pθ . Ce qui nous amène à définir le modèle M = (H, {Pθ }, θ ∈ Θ}).
3. Estimation : chercher dans le modèle une loi Pθ̂ qui soit la plus proche possible de Pθ =⇒ chercher un
estimateur θ̂ de θ.
Estimateurs
Définitions
— Une statistique est une application (mesurable) définie sur Hn .
— Un estimateur (de θ) est une fonction (mesurable) de (X1 , . . . , Xn ) indépendante de θ à valeurs dans un
sur-ensemble de Θ.
Remarque
— Un estimateur θ̂ = θ̂(X1 , . . . , Xn ) : c’est une variable aléatoire.
— Démarche :
1. Chercher le "meilleur" estimateur θ̂(X1 , . . . , Xn ).
2. A la fin, calculer l’estimation θ̂(x1 , . . . , xn ) (renvoyé par le logiciel).
Estimateurs vs estimation...
— Donner une bonne réponse au problème posé nécessite de se placer dans un premier temps dans un cadre
abstrait.
— On cherche alors la meilleure fonction θ̂(X1 , . . . , Xn ) vis à vis de critères à définir.
— Une fois cette fonction trouvée, il faut donner une réponse (qui ne doit pas être abstraite !)... On applique la
fonction trouvée aux données observées θ̂(x1 , . . . , xn ).
Abus de notation
Malheureusement on note souvent de la même façon l’estimateur et l’estimation :
— on écrit θ̂ pour l’estimateur θ̂(X1 , . . . , Xn ) ;
— on écrit θ̂ pour l’estimation θ̂(x1 , . . . , xn ) ;
— Il est donc nécessaire de faire soi-même la distinction entre ces deux objets lorsque on lit ou écrit θ̂.
— Estimation :
n
1X 3
p̂ = p̂(x1 , . . . , xn ) = xi = .
n i=1 8
17
Non biaisé Biaisé
0.4
0.3
0.2
0.1
0.0
θ θ
— Un estimateur est donc une variable aléatoire. Il va donc (le plus souvent) posséder
— une loi de probabilité
— une espérance
— une variance...
Commentaires
— L’estimateur de gauche semble être préférable à celui de droite.
— Sa loi de probabilité est en effet centrée sur le paramètre inconnu =⇒ E[θ̂] ≈ θ.
Définition
Soit θ̂ un estimateur d’ordre 1 (l’espérance existe).
1. Le biais de θ̂ en θ est E(θ̂) − θ.
2. θ̂ est sans biais lorsque son biais est nul.
3. θ̂ est asymptotiquement sans biais si limn→∞ E(θ̂) = θ.
Exemple 1
Les estimateurs p̂1 et p̂2 sont sans biais.
18
Var faible Var forte
0.8
0.6
0.4
0.2
0.0
θ θ
Risque quadratique
— Objectif : trouver des estimateurs ayant un biais et une variance faibles.
— Le risque quadratique prend en compte simultanément ces deux critères.
Définition
Soit θ̂ un estimateur d’ordre 2.
1. Le risque quadratique de θ̂ de θ ∈ R :
R(θ, θ̂) = E(θ̂ − θ)2
2. Soit θ̂0 un autre estimateur d’ordre 2. On dit que θ̂ est préférable à θ̂0 si
Exemple (Bernoulli)
p̂2 est préférable à p̂1 .
Estimateur VUMSB
Propriété décomposition biais variance
Si θ̂ est d’ordre 2, on a la décomposition
Définition
Si θ̂ est sans biais, on dit qu’il est de variance uniformément minimum parmi les estimateurs sans biais (VUMSB)
si il est préférable à tout autre estimateur sans biais d’ordre 2 :
E[θ̂] = θ
θ̂ VUMSB ⇐⇒
∀θ̃ tel que E[θ̂] = θ, V[θ̂] ≤ V[θ̃]
Exemple
Dans le modèle de Bernoulli B(p) nous montrerons que p̂2 est VUMSB.
Question
Comment construire un estimateur (que l’on espère) performant ?
Construction d’estimateurs
— Il existe des procédures automatiques qui permettent de construire des estimateurs.
— Nous présentons dans cette partie la méthode des moments et du maximum de vraisemblance.
19
Bernoulli B(p) p̂m = X̄n
Définition
L’estimateur des moments θ̂m , si il existe, est la solution en θ de l’équation
n
1X
Xi = E[X1 ].
n i=1
Remarque
— L’estimateur des moments n’existe pas toujours.
— Même lorsqu’il existe, il n’est pas toujours performant (voir TD).
Idée
1. La quantité L(x1 , . . . , xn ; p) = P(X1 = x1 , . . . , Xn = xn ) peut être vue comme une mesure de la probabilité
d’observer les données observées.
2. Choisir le paramètre p qui maximise cette probabilité.
Notion de vraisemblance
— L(x1 , . . . , xn ; p) est appelée vraisemblance (elle mesure la vraisemblance des réalisations x1 , . . . , xn sous la
loi Pp ).
— L’approche consiste à choisir p qui "rend ces réalisations les plus vraisemblables possible".
20
Bernoulli B(p) p̂M V = X̄n
Poisson P(λ) λ̂M V = X̄n
Uniforme U[0,θ] θ̂M V = max1≤i≤n Xi
Vraisemblance
Cas discret
La vraisemblance du paramètre θ pour la réalisation (x1 , . . . , xn ) est l’application L : Hn × Θ définie par
n
Y
L(x1 , . . . , xn ; θ) = P(X1 = x1 , . . . , XN = xn ) = P(Xi = xi ).
i=1
Exemples
4 Information de Fisher
— X1 , . . . , Xn i.i.d de loi Pθ avec θ inconnu dans R.
Objectif
Montrer que sous certaines hypothèses de régularité l’EMV est asymptotiquement VUMSB :
1. θ̂ est asymptotiquement sans biais.
2. il existe une fonction r(n, θ) telle que pour tout estimateur T sans biais de θ, on a V(T ) ≥ r(n, θ).
3. la variance asymptotique de l’EMV vaut r(n, θ).
Information de Fisher
— Considérons pour l’instant 1 seule observation X de loi Pθ .
— On désigne par L1 (.; θ) la vraisemblance associée.
Définition
Si elle existe (c’est-à-dire si la dérivée par rapport à θ de la log-vraisemblance est de carré intégrable), l’information
de Fisher associée à l’observation X est définie par :
I : Θ → R+
" 2 #
∂
θ 7→ E log(L(X, θ))
∂θ
Interprétation
L’information de Fisher peut s’interpréter comme :
21
— la quantité d’information apportée par l’observation X pour estimer le paramètre inconnu.
— une mesure du pouvoir de discrimination du modèle entre deux valeurs proches du paramètre θ :
— I(θ) grand : il sera "facile" d’identifier quel paramètre est le meilleur.
— I(θ) petit : l’identification sera plus difficile.
Propriété
— Si elle existe, l’information de Fisher vérifie
2
∂ ∂
I(θ) = −E log(L(X, θ)) = V log(L(X, θ)) .
∂θ2 ∂θ
— On a de plus
I(θ) ≥ 0 et I(θ) = 0 ⇔ f (x, θ) = f (x).
Exemple
— On considère le modèle de Bernoulli : X ∼ B(p).
— On a alors
L(x, p) = px (1 − p)1−x
et
∂2 x 1−x
log(L(x, p)) = − 2 − .
∂p2 p (1 − p)2
— D’où
X 1−X 1
I(p) = −E − 2 − = .
p (1 − p)2 p(1 − p)
Définition
Si elle existe (c’est-à-dire si la dérivée par rapport à θ de la log-vraisemblance est de carré intégrable), l’information
de Fisher associée à l’échantillon X1 , . . . , Xn est définie par :
In : Θ → R+
" 2 #
∂
θ 7→ Eθ log(L(X1 , . . . , Xn , θ))
∂θ
Propriété d’additivité
L’information de Fisher est additive :
In (θ) = nI(θ).
Modèle de Bernoulli
— X1 , . . . , Xn i.i.d de loi de Bernoulli B(p).
— On a
n
In (p) = .
p(1 − p)
22
Cramér-Rao
Proposition
Soit θ̂ un estimateur de θ de biais b(θ) = Eθ [θ̂] − θ. Alors sous certaines hypothèses de régularité (voir
[Guyader, 2017]), on a
(1 + b0 (θ))2
R(θ, θ̂) = E[(θ̂ − θ)2 ] ≥ b(θ)2 + .
In (θ)
1
— La quantité In (θ) est appelée borne de Cramer-Rao.
— Si un estimateur sans biais θ̂ atteint la borne de Cramer-Rao, il est VUMSB. On dit aussi qu’il est efficace.
pour tout x ∈ R.
— La plupart des lois standards appartiennent à la famille exponentielle.
Exemples
— Loi de Bernoulli B(p) :
x 1−x p
f (x, p) = p (1 − p) = (1 − p) exp x log .
1−p
— Loi de Poisson P(λ) :
λx exp(−λ) 1
f (x, λ) = = exp(−λ) exp(x log λ).
x! x!
Mais aussi
Lois exponentielle, normale, gamma...
— Il est possible de montrer que les lois de la famille exponentielle possèdent de bonnes propriétés.
— Ces propriétés seront étudiés au S2, on pourra aussi consulter [Lejeune, 2004].
23
6 Bibliographie
Références
Biblio2
[Cadre and Vial, 2012] Cadre, B. and Vial, C. (2012). Statistique mathématique, cours et exercices corrigés. El-
lipses.
[Guyader, 2017] Guyader, A. (2017). Statistique mathématique. Polycopié de cours,
http ://[Link]/guyader/[Link].
[Lejeune, 2004] Lejeune, M. (2004). Statistique. La théorie et ses applications. Springer.
24
Troisième partie
Convergences stochastiques
Motivations
— X1 , . . . , Xn i.i.d. de loi Pθ avec θ inconnu dans Θ.
— Un estimateur : une fonction θ̂(X1 , . . . , Xn ).
— Le paramètre n représente souvent le nombre de mesures que l’on peut voir d’une certaine façon comme une
quantité d’information à disposition pour bien estimer θ.
Conséquence
— Plus on a d’information, plus on doit être précis.
— Plus n est grand, plus θ̂(X1 , . . . , Xn ) doit être proche de θ.
— On a donc envie de traduire cela par limn→∞ θ̂(X1 , . . . , Xn ) = θ.
Problème
Que signifie cette notion de limite ?
Première idée
— Une variable aléatoire réelle est une fonction qui va de Ω dans R.
— Utiliser les modes de convergence réservés aux fonctions.
Exemple
On pourrait dire que (Xn )n converge simplement vers X si pour tout ω ∈ Ω la suite réelle (Xn (ω))n converge vers
X(ω) :
∀ω ∈ Ω, lim Xn (ω) = X(ω).
n→∞
— Bien que naturelle, cette définition est, de manière surprenante, à peu près inutile en probabilités.
X1 (ω) + . . . + Xn (ω) 1
lim = .
n→∞ n 2
— Ceci est pourtant faux, si on utilise la définition précédente : il suffit de considérer l’évènement ω0 =
{f, f, f, f, f, ....} (obtenir que des faces)
X1 (ω0 ) + . . . + Xn (ω0 )
lim = 1.
n→∞ n
— Il est donc nécessaire de définir des modes de convergence spécifiques aux v.a..
25
1 Les différents modes de convergence
1.1 Convergence presque sûre ou convergence forte
— Conclusion : l’ensemble des évènements où la convergence ne se produit pas est de probabilité nulle. On parle
de convergence presque sûre.
Définition
On dit que (Xn )n converge presque sûrement vers une variable aléatoire X si l’ensemble N des ω tels que la suite
numérique (Xn (ω))n ne converge pas vers X(ω) est négligeable (c’est-à-dire vérifie P(N ) = 0). On note
p.s.
lim Xn = X p.s. ou Xn → X.
n→∞
Remarque
p.s.
On peut aussi dire que Xn → X si et seulement si
n o
P ω ∈ Ω : lim Xn (ω) 6= X(ω) =0
n→∞
ou encore n o
P ω ∈ Ω : lim Xn (ω) = X(ω) = 1.
n→∞
Conclusion
Les opérations classiques sur les limites sont conservées par la convergence presque sûre.
Théorème
La suite de v.a.r. (Xn )n converge presque sûrement vers X si et seulement si pour tout ε > 0,
Lemme de Borel-Cantelli
Si pour tout ε > 0, X
P(|Xn − X| > ε) < +∞
n∈N
p.s.
alors Xn → X.
26
Exemple
— (Xn )n suite de v.a.r. i.i.d telle que P(Xn = 1) = P(Xn = −1) = 21 .
— Question : est-ce que
n
1 X p.s.
Xi → 0 ?
n2 i=1
— On a d’après B.T. !
n
1 X 1
P Xi > ε ≤ 3 2 .
n2 i=1 n ε
— On a donc
n
1 X p.s.
Xi → 0.
n2 i=1
Définition
On dit que (Xn )n∈N converge en probabilité vers X si pour tout ε > 0, on a
P
On note Xn → X.
Exemple
2
PnX1 , . . . , Xn , n ≥ 1 des v.a.r. indépendantes telles que E[Xn ] = 0 et V(Xn ) = σ . On note X̄n =
— Soit
1
n X
i=1 i .
— D’après Bienaymé-Tchebytchev, on a
n
!
1 X σ2
P(|X̄n | > ε) ≤ 2 2 V Xi = .
n ε i=1
nε2
P
— On a donc X̄n → 0.
Exemple
— Soit (Xn )n∈N une suite de variables aléatoires dont la loi est définie par
√ 1 1
P(Xn = n) = et P(Xn = 0) = 1 − .
n n
— On a pour ε > 0 fixé,
√
P(|Xn | > ε) =P(|Xn | > ε ∩ Xn = n) + P(|Xn | > ε ∩ Xn = 0)
√
=P(|Xn | > ε ∩ Xn = n).
√
— Or, pour n assez grand, {|Xn | > ε} = {Xn = n}, donc
P
— On déduit Xn → 0.
— Les opérations sur les limites présentées pour la convergence presque sûre sont également vraies pour la
convergence en probabilité.
27
P P
2. Si Xn → X et Yn → Y alors
P
— pour tout réels a et b, aXn + bYn → aX + bY ;
P
— Xn Yn → XY .
P
— Xn /Yn → X/Y si P(Y = 0) = 0.
Théorème
p.s. P
Si Xn → X alors Xn → X.
— Attention : la réciproque est fausse ! Une contre exemple est donné dans [Jacod and Protter, 2003], page 152.
Définition
Soit p > 0. On dit que (Xn )n∈N converge en moyenne d’ordre p (ou dans Lp ) vers X si les Xn et X sont dans Lp
(E[|Xn |p ] < +∞ et E[|X|p ] < +∞), et si on a
Lp
On note Xn → X.
— Les cas les plus importants sont p = 1 (convergence en moyenne) et p = 2 (convergence en moyenne quadra-
tique).
L
— Convergence en moyenne (dans L1 ) : si Xn →1 X, alors
Convergence dans L2
— Il est facile de voir que
E[(Xn − a)2 ] = (E[Xn ] − a)2 + V[Xn ].
— On déduit
L2 limn→∞ E[Xn ] = a
Xn → a ⇐⇒
limn→∞ V[Xn ] = 0
Application en statistique
L
Si θ̂n →2 θ alors
— le biais de θ̂n tend vers 0.
— la variance tend vers 0.
Propriété
L L
Xn →2 X =⇒ Xn →1 X.
Théorème
Lp P
Si Xn → X alors Xn → X.
— Attention : la réciproque est fausse !
— On peut comme contre-exemple utiliser pour p = 2 la suite de v.a.r. de loi
√ 1 1
P(Xn = n) = et P(Xn = 0) = 1 − .
n n
28
1.4 La convergence en loi
— Bien que différent, les trois modes de convergence vus précédemment sont de même nature et peuvent être
abordés comme des variantes de la convergence habituelle.
— Il existe un autre mode de convergence, différent des précédents mais très utile en probabilité : la convergence
en loi, ou convergence faible ou encore convergence étroite.
— Dans cette partie, nous donnons la définition ainsi que les principales propriétés de ce nouveau mode
de convergence. Pour plus de détails, ainsi que pour les preuves des résultats, on pourra consulter
[Jacod and Protter, 2003].
L’idée
— La loi de Xn se rapproche de la loi de X lorsque n est grand.
— Définir la convergence en loi par quelque chose du genre
pour n grand L(Xn ) ≈ L(X)
ou
L
Xn → X ⇐⇒ ∀A ∈ B(R), limn→∞ P(Xn ∈ A) = P(X ∈ A) (1)
ou
∀x ∈ R, limn→∞ FXn (x) = FX (x)
Mais...
Cette définition n’est cependant pas totalement satisfaisante.
(Contre) exemple
— (Xn )n de loi uniforme sur ] − 1/n; 1/n[ et X = 0 p.s.
Cv p.s., proba, Lp
— On a pour tout ε > 0
P
— Conclusion : Xn → X (mais aussi p.s. et dans Lp ).
Remarque
— Cependant
1
P(Xn ≤ 0) = 2 6= 1 = P(X ≤ 0)
1
P(Xn > 0) = 2 6= 0 = P(X > 0)
— Conséquence : (Xn )n ne converge pas en loi vers X au sens de la définition (1).
Remarque
— Pour tout intervalle [a, b] avec a 6= 0 et b 6= 0, on a
29
Convergence en loi
Définition
On dit que la suite (Xn )n∈N converge en loi vers X si, en tout point de continuité de FX , on a limn→∞ FXn (x) =
L
FX (x). On note Xn → X.
Exemple
— Sur l’exemple précédent on a
0 si x ≤ −1/n
FXn (x) = n/2(x + 1/n) si − 1/n < x ≤ 1/n
1 si x > 1/n.
— Ainsi,
limn→∞ FXn (x) = 0 si x < 0
limn→∞ FXn (x) = 1 si x > 0.
L
— Comme FX est discontinue en 0, on conclut que Xn → X.
Attention
Remarque
— Les opérations conservées par les cv en probabilités et presque sure ne le sont pas forcément par la convergence
en loi !
L
— Par exemple, Xn → X n’implique pas
— P(Xn ∈ A) → P(X ∈ A), ∀A (déjà vu) ;
1
— E[Xn ] → E[X]. Il suffit de prendre L(Xn ) = n δ{n} + (1 − 1/n)δ{0} ;
L
— Xn − X → 0. Il suffit de prendre L(X) = N (0, 1) et Xn = (−1)n X.
Fonctions caractéristiques
— Très souvent utilisées pour montrer des convergences en loi.
Définition
On appelle fonction caractéristique de X la fonction ϕX : R → C définie comme la transformée de Fourier de sa
loi de probabilité
ϕX (t) = E[eitX ].
Calcul en pratique
— Si X est discrète de support S et de fonction de masse πX alors
X
ϕX (t) = πX (x)eitx .
x∈S
30
Loi Fonction caractéristique
Bernoulli B(p) peit + (1 − p)
Binomiale B(n, p) (peit + (1 − p))n
it−1
Poisson P(λ) eλ(e )
Géométrique G(p) peit /(1 − (1 − p)eit )
Uniforme U([−a, a]) sin(at)/(at)
Exponentielle ξ(λ) λ/(λ − it)
2 2
Gaussienne (m, σ 2 ) eim e−σ t /2
Exemple
Proposition
1. ϕX est définie et continue pour tout nombre réel t ;
2. ϕX est bornée et ∀t |ϕX (t)| ≤ 1 ;
3. ∀(a, b) ∈ R2 , ϕaX+b (t) = eibt ϕX (at) ;
4. Si la loi de X est symétrique alors ϕX est une fonction réelle paire ;
5. ϕX caractérise la loi de X.
Proposition
Si X et Y sont deux v.a.r. indépendantes alors on a pour tout t
— Exercice : calculer la fonction caractéristique de la loi Binomiale B(n, p) en utilisant la propriété précédente.
Théorème
Si il existe n ∈ N? tel que E[|X|n ] < ∞, alors
1. ϕX est continument dérivable jusqu’à l’ordre n inclu ;
(k)
2. ∀k = 0, 1, . . . , n, ϕX (0) = ik E[X k ].
3. On a le développement
n
X (it)k
ϕX (t) = E[X k ] + o(|t|n )
k!
k=0
lorsque t → 0.
Théorème
Les trois assertions suivantes sont équivalentes :
L
1. Xn → X ;
2. Pour toute fonction f : R → R continue bornée, on a limn→∞ E[f (Xn )] = E[f (X)].
3. Pour tout t ∈ R, on a limn→∞ ϕXn (t) = ϕX (t).
— La dernière assertion est une conséquence directe du théorème de Paul Levy (voir [Jacod and Protter, 2003]).
31
Exemples
Binomiale vers Poisson
1. Soit (Xn )n∈N une suite de variable aléatoire de loi B(n, pn ) telle npn → λ lorsque n → ∞. On a lorsque
n → ∞ (faire un DL)
n it
ϕXn (t) = [pn eit + (1 − pn )]n ∼ 1 + (eit − 1)pn → eλ(e −1) .
L L
2. On déduit Xn → X avec X qui suit une loi de Poisson de paramètre λ. On note Xn → P(λ).
Théorème
L
1. Soit Xn et X des v.a.r. à valeurs dans un espace E fini ou dénombrable. Alors Xn → X si et seulement si
2. Soit Xn et X des v.a.r. dont les lois admettent pour densité (par rapport à la mesure de Lebesgue) fn et f .
L
Si pour (presque) tout x de R on a limn→∞ fn (x) = f (x), alors Xn → X.
Théorème (Slutsky)
Soit (Xn )n∈N et (Yn )n∈N deux suites de v.a.r., X une v.a.r. et a un réel. On a :
L L
1. Si Xn → X et Yn → a alors
L L Xn L X
Xn + Yn → X + a, Xn Yn → aX et → (si a 6= 0).
Yn a
L
2. Si g : R → R est continue en tout point de R alors g(Xn ) → g(X).
— Attention : les résultats ne sont plus vraies si Yn converge vers une variable aléatoire Y .
— On peut résumer les relations entre les différents modes de convergence par le diagramme suivant :
32
Lp Proba Loi
p.s.
doit se "rapprocher" de µ.
— Les lois des grands nombres et le théorème central limite permettent de préciser rigoureusement ce rapproche-
ment.
— On pourra consulter [Foata and Fuchs, 2003], chapitre 17, pour la preuve de ces résultats.
33
Loi forte des grands nombres
— Elle s’obtient en supposant l’indépendance mutuelle.
Loi forte des grands nombres
Soit (Xn )n∈N une suite de v.a.r. indépendantes, de même loi et qui admettent une espérance. On note E[X1 ] = µ.
On a
n
1X p.s.
Xi → µ.
n i=1
Application
— X1 , . . . , Xn i.i.d de loi E(λ) avec λ > 0 (inconnu).
p.s.
— LFGN =⇒ X̄n → 1/λ.
p.s.
— Opérations sur les convergences p.s. : 1/X̄n → λ.
Méthode de Monte-Carlo
R1
— Soit f :]0, 1[→ R intégrable. On cherche à approcher I = 0 f (x) dx.
— Pour X de loi uniforme sur [0, 1], on a
Z 1
I= f (x) dx = E[f (X)].
0
— LFGN : Soit (Xn )n une suite de v.a.r i.i.d de loi uniforme sur [0, 1]. Alors (f (Xn ))n une suite de v.a.r i.i.d
et on a
n
1X p.s.
f (Xi ) → E[f (X)] = I.
n i=1
Algorithme de Monte-Carlo
1. Générer n (grand) observations suivant une loi uniforme sur [0, 1] ;
Pn
2. Approcher I par n1 i=1 f (Xi ).
Le TCL
Théorème Central Limite (TCL)
2
Soit (Xn )n∈N une suite de variables
Pnaléatoires indépendantes, de même loi, et telles que E[Xi ] < +∞. On note
2 1
E[Xi ] = µ, V[Xi ] = σ et X̄n = n i=1 Xi . On a alors
√ X̄n − µ L
n → N (0, 1) quand n → ∞.
σ
— Les hypothèses sont faibles : on demande juste des v.a.r i.i.d. qui admettent une variance.
— Conséquence : si n est suffisamment grand, on pourra approcher la loi de X̄n par la loi N (µ, σ 2 /n).
— On pourra écrire L(X̄n ) ≈ N (µ, σ 2 /n) mais pas
L
L(X̄n ) → N (µ, σ 2 /n).
34
Eléments de preuve
— Bien que ce résultat soit impressionnant, on peut voir la preuve comme un "simple" exercice sur les fonctions
caractéristiques (voir [Jacod and Protter, 2003] pour des compléments.
— On note ϕ la fonction caractéristique des variables aléatoires Xi − µ et
√ X̄n − µ
Yn = n .
σ
— On obtient des propriétés de la fonction caractéristique
n
t
ϕYn (t) = ϕ √ .
σ n
— De plus
ϕ(0) = 1, ϕ0 (0) = 0 et ϕ00 (0) = −σ 2 .
— On déduit
σ 2 u2
ϕ(u) = 1 − + o(u2 )
2
et
ϕYn (t) = exp n log(1 − t2 /2n + o(1/n)) .
— Par conséquent
lim ϕYn (t) = exp(−t2 /2)
n→∞
√ X̄n − p L
np → N (0, 1) quand n → ∞.
p(1 − p)
Illustration
Slutsky
— Par continuité, on a q
P p
(X̄n )(1 − X̄n ) → p(1 − p),
et donc p
p(1 − p) P
p → 1.
(X̄n )(1 − X̄n )
— On obtient donc d’après Slutsky
p
√ X̄n − p √ X̄n − p p(1 − p) L
np = np ×p → N (0, 1).
X̄n (1 − X̄n ) p(1 − p) (X̄n )(1 − X̄n )
Remarque importante
Ce type de raisonnement est très souvent utilisé pour trouver des intervalles de confiance asymptotique.
35
20 20
15 15
10 10
5 5
0 0
0.3 0.4 0.5 0.6 0.7 0.3 0.4 0.5 0.6 0.7
20 20
15 15
10 10
5 5
0 0
0.3 0.4 0.5 0.6 0.7 0.3 0.4 0.5 0.6 0.7
Figure 1 – Approximation TCL pour le modèle de Bernoulli B(1/2) avec n = 50, 100, 200, 500.
p.s. 1 1 p.s.
X̄n → et → λ quand n → ∞
λ X̄n
et d’après le théorème central limite
√ X̄n − 1/λ L
n → N (0, 1) quand n → ∞.
1/λ
Problème
— Comment obtenir un TCL pour 1/X̄n ?
— La delta méthode permet d’y parvenir.
Delta méthode
— Elle permet (notamment) d’étendre le TCL à des estimateurs g(X̄n ) qui s’écrivent comme une fonction de la
moyenne empirique.
36
Application : loi exponentielle
— Pour le modèle exponentiel, on a montré grâce au TCL
√
L 1
n(X̄n − 1/λ) → N 0, 2 quand n → ∞.
λ
√
1 L
− λ → N 0, λ2
n quand n → ∞,
X̄n
ou encore √
n 1 L
− λ → N (0, 1) quand n → ∞.
λ X̄n
3 Bibliographie
Références
Biblio3
[Foata and Fuchs, 2003] Foata, D. and Fuchs, A. (2003). Calcul des probabilités. Dunod, 2e edition.
[Jacod and Protter, 2003] Jacod, J. and Protter, P. (2003). L’essentiel en théorie des probabilités. Cassini.
[Rouvière, 2015] Rouvière, L. (2015). Probabilités générales. Polycopié de cours, https ://[Link]-
[Link]/[Link].
37
Quatrième partie
Critères de performance asymptotiques, intervalles
de confiance et estimation multivariée
Rappel
— X1 , . . . , Xn i.i.d de loi Pθ avec θ ∈ Θ univarié.
— Estimation multivariée (θ ∈ Rp ).
1 Critères asymptotiques
Pourquoi ?
Postulat
On veut définir des estimateurs qui soient de plus en plus précis lorsque la quantité d’information augmente.
— La quantité d’information à disposition du statisticien peut être représentée par le nombre d’observations n.
— On cherche donc des estimateurs de plus en plus précis lorsque n augmente.
— Mathématiquement, on va donc chercher des estimateurs θ̂n qui convergent (en probabilité, presque sûrement,
en loi...) vers θ.
Consistance
Définition
P
On dit que l’estimateur θ̂n est consistant (ou convergent) si θ̂ → θ, c’est-à-dire
Définition
Soit (vn )n une suite de réels positifs telle que vn → ∞. On dit que θ̂n est asymptotiquent normal, de vitesse vn si
L
vn (θ̂n − θ) → N (0, σθ )
où σθ est positif.
Outils consistance
— Bienaymé-Tchebychev.
— Loi forte des grands nombres.
— Opérations sur les convergences en probabilité.
Exemple
— Modèle de Bernoulli : p̂n = X̄n est consistant.
— Modèle exponentiel : λ̂n = 1/X̄n est consistant.
38
Outils normalité asymptotique
— Théorème central limite.
— Delta méthode.
Exemple
√
— Modèle de Bernoulli : p̂n = X̄n est asymptotiquement normal à la vitesse n:
√ L
n(p̂n − p) → N (0, p(1 − p)).
√
— Modèle exponentiel : λ̂n = 1/X̄n est asymptotiquement normal à la vitesse n:
√ L
n(λ̂n − λ) → N (0, λ2 ).
— Exemple : on traite 100 patients à l’aide d’un traitement. 72 guérissent. Affirmer que la performance est de
72% lorsque on prend le traitement (alors qu’on ne l’a testé que sur 100 athlètes) est un peu fort.
— Il peut parfois être plus raisonnable de donner une réponse dans le genre, la performance se trouve dans
l’intervalle [70%, 74%] avec une confiance de 90%.
Intervalle de confiance
— X1 , . . . , Xn un échantillon i.i.d. de loi Pθ avec θ ∈ Θ inconnu.
Définition
Soit α ∈]0, 1[. On appelle intervalle de confiance pour θ tout intervalle de la forme [An , Bn ], où An et Bn sont des
fonctions telles que :
P(θ ∈ [An , Bn ]) = 1 − α.
Si limn→∞ P(θ ∈ [An , Bn ]) = 1 − α, on dit que [An , Bn ] est un intervalle de confiance asymptotique pour θ au
niveau 1 − α.
Remarque importante
— An = An (X1 , . . . , Xn ) et Bn = Bn (X1 , . . . , Xn ) sont aléatoires !
— Les logiciels renverront les réels an = An (x1 , . . . , xn ) et bn = Bn (x1 , . . . , xn ).
Construction d’un IC
— Inégalité de Bienaymé-Tchebychev (intervalle de confiance par excés) :
P(θ ∈ [An , Bn ]) ≥ 1 − α.
— Utilisation d’une fonction pivotable pour le paramètre θ : fonction mesurable des observations et du
paramètre inconnu mais dont la loi ne dépend pas de θ.
Méthode
1. se donner un niveau 1 − α.
2. trouver un estimateur θ̂n de θ dont on connait la loi afin de construire une fonction pivotable.
39
Construction d’IC
— Un intervalle de confiance pour un paramètre inconnu θ se construit généralement à partir d’un estimateur
de θ dont on connait la loi.
P(θ ∈ [An , Bn ]) = 1 − α.
Remarque
A priori, plus α est petit, plus l’intervalle aura un grande amplitude.
Exemple
— X1 , . . . , Xn i.i.d. de loi normale N (µ, 1).
— On suppose la variance connue et on cherche un IC pour µ.
Construction de l’IC
— Estimateur : µ̂ = X̄n .
— Loi de l’estimateur : L(µ̂) = N (µ, 1/n).
— On déduit
1 1
P µ̂ − q1−α/2 √ ≤ µ ≤ µ̂ + q1−α/2 √ = 1 − α.
n n
— Un intervalle de confiance de niveau 1 − α est donc donné par
1 1
µ̂ − q1−α/2 √ , µ̂ + q1−α/2 √ .
n n
Quantiles
— q1−α/2 désigne le quantile d’ordre 1 − α/2 de la loi normale N (0, 1) défini par
α
P X ≤ q1−α/2 = 1 − .
2
Définition
Plus généralement, le quantile d’ordre α d’une variable aléatoire X est défini par le réel qα vérifiant
Exemple
— n = 50 observations issues d’une loi N (µ, 1) :
> head(X)
[1] 3.79 5.28 6.08 2.65 5.43 5.51
— Estimation de µ :
> mean(X)
[1] 4.55
40
> binf <- mean(X)-qnorm(0.975)*1/sqrt(50)
> bsup <- mean(X)+qnorm(0.975)*1/sqrt(50)
> c(binf,bsup)
[1] 4.269766 4.824128
Construction de l’IC
— Estimateur : p̂n = X̄n .
— Loi asymptotique de l’estimateur :
√ L
n(p̂n − p) → N (0, p(1 − p)).
— On déduit r r !
p(1 − p) p(1 − p)
P p̂n − q1−α/2 ≤ µ ≤ p̂n + q1−α/2 → 1 − α.
n n
Conclusion
Un intervalle de confiance asymptotique de niveau 1 − α est donné par
" r r #
p̂n (1 − p̂n ) p̂n (1 − p̂n )
p̂n − q1−α/2 , p̂n + q1−α/2 .
n n
Fonction [Link]
On peut récupérer un IC plus précis à l’aide de la fonction [Link] :
> [Link](sum(X),n,correct=FALSE)$[Link]
[1] 0.7164952 0.7916011
attr(,"[Link]")
[1] 0.95
41
Loi normale (cas réel)
— X1 , . . . , Xn i.i.d de loi N (µ, σ 2 ).
— On a vu qu’un IC pour µ est donné par
σ σ
µ̂ − q1−α/2 √ , µ̂ + q1−α/2 √ .
n n
Problème
— Dans la vraie vie, σ est inconnu !
— L’intervalle de confiance n’est donc pas calculable.
Idée
1. Estimer σ 2 par
n
c2 = 1
X
σ (Xi − X̄n )2
n i=1
2. Et considérer l’IC :
σ σ
µ̂ − q1−α/2 √ , µ̂ + q1−α/2 √ .
b b
(2)
n n
Problème
— On a bien
√ X̄n − µ
L n = N (0, 1)
σ
— mais
√ X̄n − µ
L n 6= N (0, 1)
σ
b
(x − µ)2
1
f (x) = √ exp − .
2πσ 2σ 2
Propriétés
— E[X] = µ et V[X] = σ 2 .
— Si X ∼ N (µ, σ 2 ) alors
X −µ
∼ N (0, 1).
σ
42
Loi du χ2
Définition
— Soit X1 , . . . , Xn n variables aléatoires réelles indépendantes de loi N (0, 1). La variable Y = X12 + . . . + Xn2
suit une loi duChi-Deux à n degrés de liberté. Elle est notée χ2 (n).
— E[Y ] = n et V[Y ] = 2n.
3 ddl 10 ddl
0.25
0.20
0.15
0.10
0.05
0.00
0 10 20 30 0 10 20 30
Loi de Student
Définition
— Soient X et Y deux v.a.r. indépendantes de loi N (0, 1) et χ2 (n). Alors la v.a.r.
X
T =p
Y /n
suit une loi de student à n degrés de liberté. On note T (n).
— E[T ] = 0 et V[T ] = n/(n − 2).
— Lorsque n est grand la loi de student à n degrés de liberté peut être approchée par la loi N (0, 1).
2 ddl 5 ddl
0.4
0.3
0.2
0.1
0.0
0.3
0.2
0.1
0.0
−4 −2 0 2 4 −4 −2 0 2 4
Légende
Densités des lois de student à 2, 5, 10 et 100 degrés de liberté (bleu) et densité de la loi N (0, 1) (rouge).
Loi de Fisher
Définition
— Soient X et Y deux v.a.r indépendantes de lois χ2 (m) et χ2 (n). Alors la v.a.r
X/m
F =
Y /n
suit une loi de Fisher à m et n degrés de liberté. On note F(m, n).
— Si F ∼ F(m, n) alors 1/F ∼ F(n, m).
43
(5,2) ddl (10,4) ddl
0.6
0.4
0.2
0.0
0.0 2.5 5.0 7.5 10.0 0.0 2.5 5.0 7.5 10.0
Théorème de Cochran
— X1 , . . . , Xn i.i.d. de loi N (µ, σ 2 ).
— On note
n
1 X
S2 = (Xi − X̄n )2 .
n − 1 i=1
Théorème de Cochran
On a alors
2
1. (n − 1) Sσ2 ∼ χ2 (n − 1).
2. X̄n et S 2 sont indépendantes.
3. On déduit
√ X̄n − µ
n ∼ T (n − 1).
S
Remarque
Les résultats 1 et 3 sont très importants pour construire des IC.
IC pour σ 2
Un IC de niveau 1 − α pour σ 2 est donné par
(n − 1)S 2 (n − 1)S 2
,
χ1−α/2 χα/2
où χ1−α/2 et χα/2 sont les quantiles d’ordre 1 − α/2 et α/2 de loi χ2 (n − 1).
— Estimation de µ :
> mean(X)
[1] 4.55
— Estimation de σ 2 :
44
> S <- var(X)
> S
[1] 0.783302
(n − 1)S 2 (n − 1)S 2
,
χ1−α/2 χα/2
3 Estimation multivariée
Jusqu’à présent
— X1 , . . . , Xn i.i.d de loi Pθ avec θ ∈ R.
Cadre
— Pour simplifier on se place dans le cas d’un paramètre bivarié.
— X1 , . . . , Xn i.i.d de loi Pθ avec θ = (θ1 , θ2 ) inconnu dans R2 .
Estimateur
Un estimateur θ̂ = (θ̂1 , θ̂2 ) est une fonction mesurable de X1 , . . . , Xn indépendante de θ à valeurs dans R2 .
45
3.1 Biais, variance, risque quadratique
— Pour le biais, on travaille composante par composante :
E[θ̂1 ] b(θ̂1 )
E[θ̂] = et b(θ̂) = E[θ̂] − θ = .
E[θ̂2 ] b(θ̂2 )
— θ̂ = (θ̂1 , θ̂2 ) est un vecteur aléatoire ! Il ne va donc pas posséder de variance mais une matrice de variance
covariance :
V[θ̂1 ] cov(θ̂1 , θ̂2 )
Σθ̂ = .
cov(θ̂2 , θ̂1 ) V[θ̂2 ]
Risque quadratique
— Il existe également un risque quadratique en estimation multivariée.
Définition
On appelle risque quadratique de θ̂ = (θ̂1 , θ̂2 ) le réel positif
Propriété
R(θ, θ̂) = kEθ (θ̂) − θk2 + Eθ kθ̂ − Eθ θ̂k2 .
Normalité asymptotique
Définition
Soit (vn )n une suite de réels positifs telle que vn → ∞. On dit que θ̂ = (θ̂1 , θ̂2 ) est asymptotiquent normal, de
vitesse vn si
L
vn (θ̂ − θ) → N (0, Σθ )
où Σθ est une matrice symétrique 2 × 2 définie positive.
— La loi limite est une loi gaussienne multivariée.
— Il existe une version multivariée du TCL et de la delta méthode. Ce sont les principaux outils pour montrer
la normalité asymptotique d’estimateurs multivariés.
46
Vecteurs gaussiens (rappels)
Définition
— X = (X1 , X2 ) est un vecteur aléatoire gaussien si toute combinaison linéaire de ses marginales α1 X1 + α2 X2
est une variable aléatoire réelle gaussienne.
— On note X ∼ N (µ, Σ) où µ ∈ R2 est l’espérance de X et Σ est la matrice (2 × 2) de variance covariance de
X.
Propriété
Soit X un vecteur gaussien de loi N (µ, Σ). Alors X admet une densité si et seulement si det(Σ) 6= 0. Elle est donnée
par
1 1
f (x) = p exp − (x − µ)0 Σ−1 (x − µ) .
2π det(Σ) 2
Delta méthode
L
Si vn (θ̂ − θ) → X ∼ N (0, Σ) et si h : Rd → Rm admet des dérivées partielles au point θ, alors
L
vn (h(θ̂) − h(θ)) → Dhθ X
∂hi
où Dhθ est la matrice m × d de terme (Dhθ )ij = ∂θj (θ).
Inégalité de Cramér-Rao
Si θ̂ est un estimateur sans biais de θ alors
1
Vθ [θ̂] ≥
nI(θ)
où " 2 #
∂
I(θ) = Eθ log(L(X, θ)) .
∂θ
47
Matrice d’information de Fisher
Définition
La matrice d’information de Fisher (si elle existe) au point θ est la matrice de dimension 2 × 2 de terme général
∂ ∂
I(θ)i,j =Eθ log(L(X, θ)) log(L(X, θ))
∂θi ∂θj
2
∂
= − Eθ log(L(X, θ))
∂θi ∂θj
avec 1 ≤ i, j ≤ 2.
Exemple
Pour le modèle gaussien, la matrice d’information de Fisher est donnée par
1
0
I(θ) = σ 2
avec θ = (µ, σ 2 ).
0 2σ1 4
Retour à l’emv
— L’emv possède, sous certaines hypothèses, de bonnes propriétés.
"Propriété"
Sous certaines hypothèses de régularité sur la loi Pθ , l’emv θ̂M V de θ est
— consistant ;
— asymptotiquement normal :
√ L
n(θ̂M V − θ) → N (0, I(θ)−1 ).
En pratique...
— Les hypothèses de ce résultat sont techniques et généralement difficiles à vérifier.
— Il est souvent plus simple d’obtenir ce résultat en travaillant sur l’emv (c’est ce qu’il faudra faire).
48
Cinquième partie
Approche paramétrique vs non paramétrique pour
les modèles de densité et de régression
Dans ce chapitre
— Nous étudions deux problèmes classiques de la théorie de l’estimation : la densité et la régression.
— A travers ces deux problèmes, nous étudions le compromis entre les erreurs d’estimation et d’approximation.
— Ce compromis sera notamment étudié en confrontant l’approche paramétrique à l’approche non paramétrique.
L’estimation de densité.
— Les données x1 , . . . , xn telles que xi ∈ R.
— L’échantillon : X1 , . . . , Xn i.i.d. de loi P inconnue.
— On suppose que P admet une densité f (qui est donc inconnue).
Le problème
Estimer f .
Exemple
X1 X2
0.6
0.4
0.2
0.0 ● ●
● ●● ●●●
●●●
●●●● ●
●
● ●●
●●
●●●●
●●●●
●
●●
● ●●
● ● ●● ● ●● ● ●
●●●
●●●
●●
●●
●●
●●
●●●
●
●●
●●●
●●
●●
●●●
●●●
●
●●
●
●●
●
X3 X4
0.6
0.4
0.2
0.0 ●
●
●●
●●●
●
●
●●
●●
●●●
●●
●●
●
●●
●●●●
●●
●
● ●●
●
●●
●●● ● ● ● ● ● ●●●●●●
●● ●
●●
●●●
●●●
●
●● ●●
●●●
●
●●●
●●●
●●●
●
●●●● ● ●
−2 0 2 4 −2 0 2 4
49
X1 X2
0.6
0.4
0.2
0.0 ●● ●●
●●
●●
●
●●
●●
●●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●
●●
●
●
●●
●
●
●
●●
●●
●
●
●
●●
●
●
●
●●
●
●
●
●●
●
●
●
●●
●
●
●●
●
●
●●
●
●
●
●●
●
●
●●
●
●
●●
●
●●
●
●
●
●●
●
●
●●
●
●
●
●●
●
●
●●
●
●
●
●●
●
●
●
●●
●
●
●
●●
●
●
●
●●
●
●
●
●●
●
●
●
●●
●
●
●●
●
●
●
●●
●
●●
●
●
●
●●
●
●
●
●●
●
●
●●
●
●
●
●●
●
●
●
●●
●
●
●●
●
●
●●
●
●●
●
●
●●●
●
●
●
●●
●
●
●
●●
●
●
●
●●
●
●●
●
●
●●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●●
●
●
●●
●
●●
●
●●●
●
●●
●●●●● ● ●
●● ●
●
●
●
●●
●
●
●
●●
●
●
●
●●
●
●
●
●●
●●
●
●
●
●●
●●
●●
●
●
●
●●
●
●
●●
●
●
●
●●
●
●
●
●●
●
●●
●
●
●●
●
●
●●
●●
●
●●
●
●
●
●●
●
●
●
●●
●
●
●●
●
●●
●
●●
●
●
●●
●
●
●●
●
●
●
●●
●
●
●
●●
●
●
●
●●
●
●
●
●●
●
●
●
●●
●
●●
●
●
●●
●●
●
●
●●
●
●●
●●
●●
●
●
●
●●
●
●
●
●●
●
●
●
●●
●
●
X3 X4
0.6
0.4
0.2
0.0 ●
●●
●
●
●●
●●
●
●
●
●
●●
●●
●
●
●●
●
●
●
●
●●
●
●
●●
●
●
●
●●
●
●
●●
●
●
●●
●
●●
●
●
●●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●●
●
●
●●
●
●
●●
●
●●
●
●
●●
●
●
●●
●
●
●
●
●●
●
●
●●●
●
●
●
●
●●
●●
●
●
●●
●
●
●
●●
●
●
●
●●
●
●
●●
●
●
●
●●
●
●
●
●●
●
●
●
●●
●
●
●
●●
●
●
●●
●
●
●
●●
●
●
●●
●●
●
●
●●
●
●
●
●●
●
●
●●
●
●
●●
●
●●
●
●●
●
●●
●●
●
●
●●
●●
●
●●
●
●
●●
●●●
●
●●●
●
●●
●●●● ●
● ●
●● ●
●●●●
●
●●
●●
●●
●
●●
●
●●
●
●●
●
●●●●
●
●
●●
●
●
●●
●
●
●●
●
●
●
●●
●
●
●●
●
●
●
●●
●
●
●●
●
●
●
●●
●
●
●●
●
●
●
●●
●
●
●●
●
●
●●
●
●
●
●●
●
●
●●
●
●
●
●
●●
●
●
●●
●
●
●
●●
●
●●
●
●
●●
●
●
●
●
●●
●
●
●
●
●●
●
●●
●
●●
●
●●
●
●
●●
●
●
●●
●
●●
●
●●
●
●
●●
●
●
●
●●
●●●
●
●
●●
●●
●
●
●
●●
●
●
●●
●
●
●
●●
●
●●
●
●●
●●
●
●
●●
●
●
●●
●
●
●
●●
●
●
●
●●
●
●
●●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●●
●●
●
●●●
●
●
●●●
●
●●●
●
●●●
−2 0 2 4 −2 0 2 4
Le problème de la régression
— Données : (x1 , y1 ), . . . , (xn , yn ). On veut expliquer les sorties yi ∈ R par les entrées xi ∈ Rp .
— Les données sont des réalisations de v.a. (X1 , Y1 ), . . . , (Xn , Yn ) i.i.d. telles qu’il existe une fonction inconnue
m : Rp → R vérifiant
Yi = m(Xi ) + εi , i = 1, . . . , n
où les εi sont i.i.d de loi N (0, σ 2 ).
Le problème
Estimer m.
Exemple
Y1 Y2
●
●●
● ●● ● ●
2 ●
● ●
● ●● ●
●
● ●
● ●● ●
● ● ●
● ●●● ●
● ●
● ● ● ●●●
● ● ● ●
● ● ● ●
●
1 ● ●● ●● ● ● ● ●
●●
● ●
● ● ●
●
●●
●
● ● ● ● ● ●● ● ● ●●
●● ● ●●● ● ● ● ●● ●
●●
● ● ● ●●
● ● ● ●
● ● ●
●
● ●●● ●
●●
● ● ●
●
●●● ● ●
● ● ●
● ● ● ● ●
● ● ● ● ●● ●
0 ● ●●● ● ●
● ● ● ● ●
● ● ●
● ● ●
● ● ●
● ● ●●
● ● ● ●
●● ●
● ● ●
● ●
● ● ● ●
●
● ● ●● ●●
● ●
● ●●
−1 ●
●●
● ●●
● ●
● ●
●
−2
Y3 Y4
●
● ●
●
● ● ● ●
2 ●
●
●
●
● ●
●
●
● ● ●
●● ●● ● ●
●● ● ●
●
● ● ● ●
● ● ●
● ●● ● ●
● ● ●
●●● ●● ●
● ● ● ●● ● ●● ●●
●●
● ● ●● ● ● ● ● ● ●
1 ●● ● ● ● ●● ●●●●
●● ● ●
●
● ● ● ●
●
● ●
● ● ●
● ● ● ● ● ●
●● ● ●● ● ● ●
●●
● ● ●● ● ●
●
● ●●● ●
● ● ● ● ● ● ● ●●
● ● ● ● ●● ● ●●
● ●
● ● ● ●
● ●
● ●
● ●
0 ●● ● ● ● ●●● ● ●
●
● ● ●
● ● ● ●
● ● ●
●●● ●
●
●
●
−1 ●●
●●
●
●
●
●
●
●
−2
−4 0 4 −4 0 4
50
Y1 Y2
●
●●
● ●● ● ●
2 ●
● ●
● ●● ●
●
● ●
● ●● ●
● ● ●
● ●●● ●
● ●
● ● ● ●●●
● ● ● ●
● ● ● ●
●● ● ● ● ● ●
●●
● ●
1 ● ●●
●
●● ● ●
●
●
● ● ●● ● ●● ● ● ●●
●● ● ●●● ● ● ● ●● ●
●●
● ● ● ●●
● ● ● ●
● ● ●
●
● ●●● ●
●●
● ● ●
●
●●● ● ●
● ● ●
● ● ● ● ●
● ● ● ● ●● ●
0 ● ●● ● ● ●
● ● ● ● ●
● ● ●
● ● ●
● ● ●
● ● ●●
● ● ● ●
●● ●
● ● ●
● ●
● ● ● ●
●
● ● ●● ● ●
● ●
● ●●
−1 ●
●●
● ●●
● ●
● ●
●
−2
Y3 Y4
●
● ●
●
● ● ● ●
2 ●
●
●
●
● ●
●
●
● ● ●
●● ●● ● ●
●● ● ●
●
● ● ● ●
● ● ●
● ●● ● ●
● ● ●
●●● ●● ●
● ● ● ●● ● ●● ●●
●●
● ● ●● ● ● ● ● ● ●
1 ●● ● ● ● ●● ●●●●
●● ● ●
●
● ● ● ●
●
● ● ● ●
● ● ● ● ● ●
●● ● ●● ● ● ● ●
●●
● ● ●● ● ●
●
● ●●● ●
● ● ● ● ● ● ● ●●
● ● ● ● ●● ● ●●
● ●
● ● ● ●
● ●
● ●
● ●
0 ●● ● ● ● ●●● ● ●
●
● ● ●
● ● ● ●
● ● ●
●●● ●
●
●
●
−1 ●●
●●
●
●
●
●
●
●
−2
−4 0 4 −4 0 4
Y1 Y2
●
●●
● ●● ● ●
2 ●
● ●
● ●● ●
●
● ●
● ●● ●
● ● ●
● ●●● ●
● ●
● ● ● ●●●
● ● ● ●
● ● ● ●
●● ● ● ● ● ●
●●
● ●
1 ● ●●
●
●● ● ●
●
●
● ● ●● ● ●● ● ● ●●
●● ● ●●● ● ● ● ●● ●
●●
● ● ● ●●
● ● ● ●
● ● ●
●
● ●●● ●
●●
● ● ●
●
●●● ● ●
● ● ●
● ● ● ● ●
● ● ● ● ●● ●
0 ● ●● ● ● ●
● ● ● ● ●
● ● ●
● ● ●
● ● ●
● ● ●●
● ● ● ●
●● ●
● ● ●
● ●
● ● ● ●
●
● ● ●● ● ●
● ●
● ●●
−1 ●
●●
● ●●
● ●
● ●
●
−2
Y3 Y4
●
● ●
●
● ● ● ●
2 ●
●
●
●
● ●
●
●
● ● ●
●● ●● ● ●
●● ● ●
●
● ● ● ●
● ● ●
● ●● ● ●
● ● ●
●●● ●● ●
● ● ● ●● ● ●● ●●
●●
● ● ●● ● ● ● ● ● ●
1 ●● ● ● ● ●● ●●●●
●● ● ●
●
● ● ● ●
●
● ● ● ●
● ● ● ● ● ●
●● ● ●● ● ● ● ●
●●
● ● ●● ● ●
●
● ●●● ●
● ● ● ● ● ● ● ●●
● ● ● ● ●● ● ●●
● ●
● ● ● ●
● ●
● ●
● ●
0 ●● ● ● ● ●●● ● ●
●
● ● ●
● ● ● ●
● ● ●
●●● ●
●
●
●
−1 ●●
●●
●
●
●
●
●
●
−2
−4 0 4 −4 0 4
Définition
— Si F est de dimension finie, le modèle est paramétrique.
— Si F est de dimension infinie, le modèle est non paramétrique.
A priori
— Non paramétrique : plus flexible mais précision d’estimation plus faible.
— Paramétrique : meilleure précision d’estimation mais plus rigide.
51
F
fˆ
— Erreur d’estimation : erreur commise par le choix d’une loi dans P par rapport au meilleur choix.
— Erreur d’approximation : erreur commise par le choix de P.
Commentaire
Ces deux termes varient généralement en sens inverse.
1 Le modèle de densité
1.1 Approche paramétrique : le modèle Gaussien
— X1 , . . . , Xn i.i.d. de densité f inconnue.
— On suppose que f ∈ F = {fθ , θ ∈ Θ} avec Θ de dimension finie.
Remarque
1/n est la vitesse paramétrique classique pour l’erreur quadratique.
Exemple
> df <- [Link](X=rnorm(100))
> ggplot(df)+aes(x=X,y=0)+geom_point()+theme_bw()
0.50
0.25
0.00 ● ● ● ● ●●
●● ●●
●●
●●
●●●●
●
●●●●●
● ●
● ●
●●●
●● ●
●
●●●
●
●●
●●
●●
●●●●
●● ●
●
●
●●
●● ●
●●
●● ● ● ●
●
● ●
● ●●●●
●
● ●
●● ●● ●
●● ●
● ●● ● ●● ● ● ●● ● ●
−0.25
−0.50
−2 −1 0 1 2
— On estime µ et σ 2 :
52
> theta <- c(mean(df$X),var(X))
> theta
[1] -0.1567617 1.0088300
0.4
0.3
fonction
value
0.2 dens
est
0.1
0.0
−2 0 2
x
L’histogramme
— P = {I1 , . . . , IK } une partition de R en K intervalles.
— L’histogramme est défini par
n
1 X
f (x) =
b 1X ∈I(x) ,
nλ(I(x)) i=1 i
où I(x) désigne l’intervalle qui contient x et λ(I) la longueur de l’intervalle I.
Exemple
> ggplot(df)+aes(x=X,y=..density..)+geom_histogram(bins=20,fill="blue")+
geom_line(data=df1,aes(x=x,y=dens),color="red",size=2)+theme_bw()
0.4
0.3
..density..
0.2
0.1
0.0
−2 0 2
X
53
Estimateurs à noyau
— L’histogramme n’est pas continu.
x−h x x+h
Remarque
L’utilisateur doit choisir deux paramètres : un réel positif h et un noyau K
Exemples de noyau
Les noyaux suivants sont les plus utilisés :
— Uniforme :
1
K(u) = 1[−1,1](u) .
2
— Gaussien : 2
1 u
K(u) = √ exp − .
2π 2
— Epanechnikov :
3
K(u) = (1 − u2 )1[−1,1](u) .
4
54
> X <- rnorm(500)
> df <- [Link](X)
> ggplot(df)+aes(X)+geom_density(kernel=c("gaussian"),color="blue",size=1)+
geom_density(kernel=c("rectangular"),color="red",size=1)+
geom_density(kernel=c("epanechnikov"),color="black",size=1)+theme_classic()
0.4
0.3
density
0.2
0.1
0.0
−2 0 2
X
Conclusion
Le choix du noyau n’est généralement pas primordial sur la performance de l’estimateur.
0.8
0.6
density
0.4
0.2
0.0
−2 0 2
X
Conclusion
Le choix de la fenêtre h est crucial sur la performance de l’estimateur.
Choix de h
— h grand : fenêtre grande =⇒ beaucoup d’observations dans les fenêtres =⇒ densités proches ∀x =⇒ biais fort,
variance faible.
— h petit : fenêtre petite =⇒ peu d’observations dans les fenêtres =⇒ densités instables ∀x =⇒ biais faible,
variance forte.
Conclusion
— Le paramètre h régule le compromis biais/variance de l’estimateur à noyau.
— On sait le quantifier mathématiquement.
Contrôle de la variance
Théorème
On suppose que :
— f est bornée.
K(u)2 du < +∞.
R R R
— K est tel que K(u) du = 1, uK(u) du = 0 et
55
Modèle param non-param
4
−1
Vitesse n n− 5
On a alors ∀x ∈ R, ∀h > 0 et ∀n ≥ 1
1
V[fˆ(x)] = O .
nh
Remarque
On retrouve bien que la variance est faible lorsque h est grand et réciproquement.
Contrôle du biais
— Pour le terme de biais, il faut supposer un peu de régularité sur la densité à estimer.
Théorème
On suppose que
— la densité f est dérivable et que sa dérivée est Lipschitzienne :
Remarque
On retrouve bien le biais est faible lorsque h est petit et réciproquement.
Risque quadratique
Corollaire (convergence L2 )
Sous les hypothèse des deux théorèmes précédents, on déduit que si h → 0 et nh → +∞ alors le risque quadratique
de fˆ(x) tend vers 0 (convergence en moyenne d’ordre 2).
Corollaire (choix de h)
Le h? qui minimise l’erreur quadratique vérifie
1
h? = Cn− 5 .
Remarque importante
0.0100
0.0075
modele
vitesse
param
0.0050 non_param
0.0025
0.0000
Conclusion
— La convergence est moins rapide dans les modèles non-paramétrique.
— C’est le prix à payer pour plus de flexibilité.
56
— La théorie nous dit que le h optimal est
1
h? = Cn− 5 .
— En pratique, il existe un grand nombre de procédures automatiques (plus ou moins performantes selon les cas)
permettant de sélectionner h.
2 Le modèle de régression
Présentation du modèle
— Les données : (x1 , y1 ), . . . , (xn , yn ) où yi ∈ R et xi ∈ R (pour simplifier).
— L’échantillon (x1 , Y1 ) . . . , (xn , Yn ) i.i.d. (on suppose que les xi sont déterministes).
— Le problème : expliquer les sorties Yi par les entrées Xi .
— La fonction de régression : c’est la fonction m : R → R telle que
Yi = m(xi ) + εi
Exemples
Y1 Y2
●
●●
● ●● ● ●
2 ●
● ●
● ●● ●
●
● ●
● ●● ●
● ● ●
● ●●● ●
● ●
● ● ● ●●●
● ● ● ●
● ● ● ●
●● ● ● ● ● ●
●●
● ●
1 ● ●●
●
●● ● ●
●
●
● ● ●● ● ●● ● ● ●●
●● ● ●●● ● ● ● ●● ●
●●
● ● ● ●●
● ● ● ●
● ● ●
●
● ●●● ●
●●
● ● ●
●
●●● ● ●
● ● ●
● ● ● ● ●
● ● ● ● ●● ●
0 ● ●● ● ● ●
● ● ● ● ●
● ● ●
● ● ●
● ● ●
● ● ●●
● ● ● ●
●● ●
● ● ●
● ●
● ● ● ●
●
● ● ●● ● ●
● ●
● ●●
−1 ●
●●
● ●●
● ●
● ●
●
−2
Y3 Y4
●
● ●
●
● ● ● ●
2 ●
●
●
●
● ●
●
●
● ● ●
●● ●● ● ●
●● ● ●
●
● ● ● ●
● ● ●
● ●● ● ●
● ● ●
●●● ●● ●
● ● ● ●● ● ●● ●●
●●
● ● ●● ● ● ● ● ● ●
1 ●● ● ● ● ●● ●●●●
●● ● ●
●
● ● ● ●
●
● ● ● ●
● ● ● ● ● ●
●● ● ●● ● ● ● ●
●●
● ● ●● ● ●
●
● ●●● ●
● ● ● ● ● ● ● ●●
● ● ● ● ●● ● ●●
● ●
● ● ● ●
● ●
● ●
● ●
0 ●● ● ● ● ●●● ● ●
●
● ● ●
● ● ● ●
● ● ●
●●● ●
●
●
●
−1 ●●
●●
●
●
●
●
●
●
−2
−4 0 4 −4 0 4
Un exemple concret
— On souhaite expliquer la concentration en ozone par la température à 12h.
— n = 112 observations :
> ozone %>% select(maxO3,T12) %>% head()
maxO3 T12
20010601 87 18.5
20010602 82 18.4
20010603 92 17.6
20010604 114 19.7
20010605 94 20.5
20010606 80 19.8
Représentation du nuage
57
> ggplot(ozone)+aes(x=T12,y=maxO3)+geom_point()+theme_classic()
160 ●
●
●
●
●
● ●
● ●
●
● ●
120
●
● ●
● ●
● ●
●
●
●
maxO3
●
● ●
● ● ●
●
●
● ●
●
●
●
●
● ●
●
● ● ●
●
● ● ●
● ● ● ●
●
●● ●
80 ● ● ●
●
● ●
● ● ●●
● ● ● ●
●
●
● ● ● ●
●●● ● ●
● ● ● ●
● ●
●
● ● ● ●
● ●
● ●
● ●●
● ●
● ●
●
●
●
●
●
●
40
15 20 25 30
T12
Le modèle linéaire
— On fait l’hypothèse que la fonction de régression est linéaire :
m(x) = β0 + β1 x, β0 ∈ R, β1 ∈ R.
●
●
●
●
● ●
3 ●
Y
● ●
●
2
●
●
●
●
● ●
1
●
●
●
●
● ●
3 ●
Y
● ●
●
2
●
●
●
●
● ●
1
58
●
●
●
●
●
● ●
3 ●
Y
●
● ●
●
2
●
●
●
●
● ●
1
●
●
●
●
● ●
3 ●
Y
● ●
●
2
●
●
●
●
● ●
1
Le problème
Trouver la droite qui ajuste au mieux le nuage de points.
— On cherche y = β0 + β1 x qui ajuste au mieux le nuage des points.
— Toutes les observations mesurées ne se trouvent pas sur une droite :
yi = β0 + β1 xi + εi .
●
●
●
●
● ●
3 ●
Y
● ●
●
2
●
●
●
●
● ●
1
Idée
Chercher à minimiser les erreurs ou les bruits εi .
Solution
La solution est donnée par : Pn
(y − ȳ)(xi − x̄)
β̂0 = ȳ − β̂1 x̄ et β̂1 = Pn i
i=1
2
i=1 (xi − x̄)
à condition que tous les xi ne soient pas égaux.
Application à l’ozone
59
> [Link] <- lm(maxO3~T12,data=ozone)
> [Link]
Coefficients:
(Intercept) T12
-27.420 5.469
> ggplot(ozone)+aes(x=T12,y=maxO3)+geom_point()+theme_classic()+
geom_smooth(method="lm")
160 ●
●
●
●
●
● ●
● ●
●
● ●
120
●
● ●
● ●
● ●
●
●
●
maxO3
●
● ●
● ● ●
●
●
● ●
●
●
●
●
● ●
●
● ● ●
●
● ● ●
● ● ● ●
●
●● ●
80 ● ● ●
●
● ●
● ● ●●
● ● ● ●
●
●
● ● ● ●
●●● ● ●
● ● ● ●
● ●
●
● ● ● ●
● ●
● ●
● ●●
● ●
● ●
●
●
●
●
●
●
40
15 20 25 30
T12
Propriétés
— Biais : E[β̂0 ] = β0 et E[β̂1 ] = β1 .
— Variance : Pn
x2 σ2
V(β̂0 ) = σ 2 Pn i=1 i 2 et V(β̂1 ) = Pn 2
.
n i=1 (xi − x̄) i=1 (xi − x̄)
Quelques remarques
— Les estimateurs des MCO sont sans biais.
— Sous des hypothèses peu contraignantes, on montre que leur variance est en 1/n. On déduit
1 1
R(β̂0 ) = O et R(β̂1 ) = O .
n n
Conclusion
Les estimateurs des MCO atteignent la vitesse paramétrique classique en 1/n.
— On peut également obtenir la loi des estimateurs β̂0 et β̂1 .
— On déduit de cette loi des intervalles de confiance et des procédures de tests statistiques.
60
— Tests statistique :
> summary([Link])$coefficients
Estimate Std. Error t value Pr(>|t|)
(Intercept) -27.419636 9.0334940 -3.03533 2.999431e-03
T12 5.468685 0.4124939 13.25761 1.512025e-24
— Les méthodes non paramétriques consistent donc à définir des voisinages et à faire des moyennes locales à
l’intérieur des voisinages :
n
X
mb n (x) = Wni (x)Yi
i=1
— Nous illustrons ce principe à travers l’estimateur de Nadaraya Watson [Nadaraya, 1964, Watson, 1964] (on
aurait aussi pu faire l’algorithme des plus proches voisins).
La méthode
— (x1 , Y1 ), . . . , (xn , Yn ) i.i.d.
— But : estimer m tel que Y = m(x) + ε.
61
x−h x x+h
x−h x x+h
— L’estimateur s’écrit
n
X n
X
1x−h≤Xi ≤x+h Yi 1| Xi −x |≤1 Yi
h
i=1 i=1
m̂n (x) = n = n .
X X
1x−h≤Xi ≤x+h 1| Xi −x |≤1
h
i=1 i=1
Définition
Soit h > 0 et K : R → R+ . L’estimateur à noyau de fenêtre h et de noyau K est défini par
n
X Xi − x
K Yi
i=1
h
m̂n (x) = n .
X Xi − x
K
i=1
h
Noyau et fenêtre
— Noyau usuel :
1. Uniforme : K(x) = 1|x|≤1 ;
2. Gaussien : K(x) = exp(−|x|2 ) ;
3. Epanechnikov : K(x) = 34 (1 − x2 )1|x|≤1 .
— Le choix de h est crucial pour la qualité de l’estimation :
1. h grand : estimateur « constant », variance faible, biais fort ;
2. h petit : « interpolation », variance forte, biais faible ;
Un exemple
— On génère un échantillon (XI , YI ), i = 1, . . . , n = 200 selon
Yi = sin(Xi ) + εi , i = 1, . . . , n
avec Xi uniforme sur [−2π, 2π], εi de loi gaussienne N (0, 0.22 ).
62
●
●
●
● ● ●
●
●
● ● ●
● ●
1.0 ● ●
●●●
●
●●
● ● ● ● ●● ● ●
● ●
● ●●
● ● ●
● ● ●
●
●
> n <- 200; [Link](1234) ●
●
●
●●
●
●
●
●
● ●
● ●
●
● ●
● ●
●
●
●
●
● ●
● ● ●
> [Link](5678) ●
● ●
●
●
●● ●
● ● ● ●
●
●
●
● ●
y
● ●
●
●
●
●
● ●
> x <- seq(-2*pi,2*pi,by=0.01) ●
●●
●
●
●
●
●
●
● ●
● ● ●
●
> df1 <- [Link](x=x,y=sin(x)) −0.5
●
●
● ●
●
●
●
●
●
> ggplot(df1)+aes(x=x,y=y)+ ●● ● ●
●
●
●
●
●●
● ● ●●● ●
●●
geom_line(size=1)+ ●●
● ●
●●●
●●
●
●●
●●
●
●
●● ●
geom_point(data=df,aes(x=X,y=Y)) −1.0
●
●
●
●
●
●
●
●
● ●●
● ●
● ●
●
−1.5
−4 0 4
x
1.0
> h1 <- 0.5;h2 <- 3;h3 <- 0.01
> fx1 <-locpoly(X,Y,bandwidth=h1)
> fx2 <-locpoly(X,Y,bandwidth=h2)
> fx3 <-locpoly(X,Y,bandwidth=h3) 0.5
y
"H0.01"=fx3$y) H3
H0.01
> df22 <- melt(df2,[Link]=1)
> names(df22)[2:3] <- c("fenêtre", −0.5
"y")
> ggplot(df22)+aes(x=x,y=y)+
geom_line(aes(color=fenêtre,
−1.0
lty=fenêtre))+geom_line
(data=df1,aes(x=x,y=y),size=1)
−1.5
−4 0 4
x
Théorème
Sous les hypothèses ci-dessus, on a
1
|b(m̂n (x))| = O(h2 ) et V[m̂n (x)] = O .
nh
— Toutes les remarques faites pour l’estimateur à noyau de la densité sont valables pour l’estimateur de Nadaraya
Watson.
— Le h optimal est de l’ordre de n−1/5 . Pour cette valeur de h, le risque quadratique est de l’ordre de n−4/5 .
— On obtient donc une vitesse de convergence plus lente que pour les estimateurs paramétriques.
Retour à l’ozone
63
Paramétrique (linéaire)
Non paramétrique
> ggplot(ozone)+aes(x=T12,y=maxO3)+
> ggplot(ozone)+aes(x=T12,y=maxO3)+ geom_point()+
geom_point()+ geom_smooth(,size=1)+
geom_smooth(method="lm",size=1)+ theme_classic()
theme_classic()
●
●
●
● ●
160 ●
●
●
●
●
●
150 ● ●
●
● ●
●
● ●
● ● ●
●
● ●
●
●
● ●
● ●
● ●
● ●
● ●
● ● ●
●
120 ●
●
maxO3
● ● ●
● ●
● ●
● ●
● ● ●●
● 100 ●
●
● ● ●
●
maxO3
● ●
● ● ●
●
● ●
●
● ●● ● ● ●
● ●
●
● ● ● ● ●
● ● ● ● ●
● ●
● ●● ●
●
● ● ● ●
● ● ● ●
● ● ●●
● ● ● ● ●
●
● ● ● ●
● ● ● ●●
●●● ● ●
● ● ● ●
● ● ● ● ●
● ● ● ● ●
● ● ● ● ●
●● ● ● ●
● ●
80 ● ● ●
●
● ●●
● ●
● ● ●● ● ●
● ● ● ● ● ●
●
● ●
●
● ● ●● ●
●●● ● ● ●
● ● ● ●
● ●
● 50
● ● ● ●
● ●
● ●
● ●● ●
● ● ●
● ●
●
●
●
●
●
● 15 20 25 30
40
T12
15 20 25 30
T12
3 Bibliographie
Références
Biblio5
[Nadaraya, 1964] Nadaraya, E. A. (1964). On estimating regression. Theory of Probability and its Applications, 9.
[Parzen, 1962] Parzen, E. (1962). On estimation of a probability density function and mode. Ann. Math. Stat.,
33 :1065–1076.
[Watson, 1964] Watson, G. S. (1964). Smooth regression analysis. Sankhya : The Indian Journal of Statistics,
Series A, 26 :359–372.
64