0% ont trouvé ce document utile (0 vote)
45 vues64 pages

Modélisation et estimation en statistique

Transféré par

psychostatanalyse
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
45 vues64 pages

Modélisation et estimation en statistique

Transféré par

psychostatanalyse
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Statistique

L. Rouvière
[Link]@[Link]
Septembre 2021

Table des matières

I La modélisation statistique 2
1 Un exemple de modèle 2

2 Quelques exemples de problèmes statistiques 5

3 Modèle statistique 8

4 Quelques rappels de probabilités 9


4.1 Variable aléatoire réelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
4.2 Vecteurs aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

5 Bibliographie 13

II Théorie de l’estimation 14
1 Modèle - estimateur 14

2 Biais, variance, risque quadratique 18

3 Quelques méthodes d’estimation 19


3.1 La méthode des moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.2 La méthode du maximum de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

4 Information de Fisher 21

5 Annexe : La famille exponentielle 23

6 Bibliographie 24

III Convergences stochastiques 25


1 Les différents modes de convergence 26
1.1 Convergence presque sûre ou convergence forte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.2 La convergence en probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.3 La convergence en moyenne d’ordre p . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
1.4 La convergence en loi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

2 Lois des grands nombres et Théorème Central Limite 33


2.1 Lois des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.2 Le théorème central limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

3 Bibliographie 37

1
IV Critères de performance asymptotiques, intervalles de confiance et estimation
multivariée 38
1 Critères asymptotiques 38

2 Estimation par intervalles 39

3 Estimation multivariée 45
3.1 Biais, variance, risque quadratique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.2 Critères asymptotiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.3 Borne de Cramer-Rao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

V Approche paramétrique vs non paramétrique pour les modèles de densité et


de régression 49
1 Le modèle de densité 52
1.1 Approche paramétrique : le modèle Gaussien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
1.2 Approche non paramétrique : l’estimateur à noyau . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

2 Le modèle de régression 57
2.1 Approche paramétrique : le modèle de régression linéaire . . . . . . . . . . . . . . . . . . . . . . . . . 58
2.2 Approche non paramétrique : l’estimateur à noyau . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

3 Bibliographie 64

Présentation
— Objectifs : Comprendre le problème de la modélisation statistique et acquérir les premières notions fondamen-
tales de la théorie de l’estimation.
— Pré-requis : théorie des probabilités, variables aléatoires discrètes et continues.
— Enseignant : Laurent Rouvière [Link]@[Link]
— Recherche : statistique non paramétrique, apprentissage statistique
— Enseignements : statistique et probabilités (Université, école d’ingénieur et de commerce, formation
continue).
— Consulting : energie, finance, marketing, sport.

Programme
— 40h : 20h CM + 20h TD.
— Matériel : slides + feuilles d’exercices. Disponible à l’url : https: // lrouviere. github. io/ doc_ cours/

— 5 parties :
1. La modélisation
2. Théorie de l’estimation
3. Convergences stochastiques
4. Critères de performance asymptotique et estimation par intervalles
5. Introduction à l’approche non paramétrique

Première partie
La modélisation statistique
1 Un exemple de modèle
Statistique (version Wikipedia)

2
La statistique est l’étude de la collecte de données, leur analyse, leur traitement, l’interprétation des résultats et
leur présentation afin de rendre les données compréhensibles par tous.

Conséquence
Plusieurs étapes :
1. Collecte des données
2. Analyse et vérification des données (statistiques descriptives)
3. Traitement (modélisation)
4. Interprétation des résultats (ou du modèle)
5. Présentation des résultats (visualisation)

Un exemple célèbre : les iris de Fisher


Question
Pour 3 espèces d’iris différentes, est-il possible d’expliquer (ou de prédire) l’appartenance à une des espèces connais-
sant les longueurs et largeurs de sépales ?

Collecte des données


— On a mesuré sur n = 150 iris les quantités d’intérêts.

> data(iris)
> head(iris)
[Link] [Link] [Link] [Link] Species
1 5.1 3.5 1.4 0.2 setosa
2 4.9 3.0 1.4 0.2 setosa
3 4.7 3.2 1.3 0.2 setosa
4 4.6 3.1 1.5 0.2 setosa
5 5.0 3.6 1.4 0.2 setosa
6 5.4 3.9 1.7 0.4 setosa

> summary(iris)
[Link] [Link] [Link] [Link] Species
Min. :4.300 Min. :2.000 Min. :1.000 Min. :0.100 setosa :50
1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.300 versicolor:50
Median :5.800 Median :3.000 Median :4.350 Median :1.300 virginica :50
Mean :5.843 Mean :3.057 Mean :3.758 Mean :1.199
3rd Qu.:6.400 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800
Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500

Statistiques descriptives
— Indicateurs numériques et graphiques permettant de mieux comprendre le problème.

> library(ggplot2)
> ggplot(iris)+aes(x=Species,y=[Link])+geom_boxplot()
> ggplot(iris)+aes(x=[Link],color=Species)+geom_density()
> ggplot(iris)+aes(x=[Link],y=[Link],color=Species)+geom_point()

Modélisation
— Modéliser = créer un objet qui permette d’expliquer l’espèce à partir des 4 variables quantitatives.
— On utilise ici un arbre de classification

3
2.5 ● ●●

● ●

●●●● ● ● ● ●

● ● ●

6
●●●● ● ●

2 2.0 ●●●● ● ●

●● ● ●

●● ● ●● ● ● ●

● ●

● ● ● ●

1.5 ● ●●● ●●●


Species Species

[Link]

[Link]
● ● ●●● ●

density
setosa ● setosa
4 ● ●●●●●●●
versicolor ● versicolor
●● ● ● ●
virginica ● virginica
● ●●

1
1.0 ● ● ● ●●

2 0.5 ●

● ●●● ●

●●● ●

● ●●●●●● ●

● 0 ● ●●

0.0
setosa versicolor virginica 2 4 6 2 4 6
Species [Link] [Link]

setosa
setosa
versicolor
.33 .33 .33
virginica
100%
yes [Link] < 2.5 no

versicolor
.00 .50 .50
67%
[Link] < 1.8

setosa versicolor virginica


1.00 .00 .00 .00 .91 .09 .00 .02 .98
33% 36% 31%

> library(rpart)
> model <- rpart(Species~.,data=iris)

— que l’on peut visualiser


> library([Link])
> [Link](model)

Prévisions
— On dispose de 5 nouveaux iris sur lesquels on a mesuré les longueurs et largeurs de pétales et sépales.
> iris_prev
[Link] [Link] [Link] [Link]
5.0 3.6 1.4 0.2
5.5 2.4 3.7 1.0
5.8 2.7 5.1 1.9
5.1 3.5 1.4 0.3
6.3 2.9 5.6 1.8

— On souhaite connaitre (prédire, estimer...) l’espèce de chacun.


— On utilise le modèle (l’arbre) pour faire ces prévisions.
— Prévisions des probabilités d’appartenance aux espèces :
> predict(model,newdata=iris_prev)
setosa versicolor virginica
1 0.000 0.000
0 0.907 0.093
0 0.022 0.978
1 0.000 0.000
0 0.022 0.978

— Prévisions des espèces :


> predict(model,newdata=iris_prev,type="class")
setosa versicolor virginica setosa virginica
Levels: setosa versicolor virginica

— Chacune de ces étapes est primordiale pour le succés d’une étude statistique.
Dans ce cours
— On va s’intéresser à la phase de modélisation mathématique d’un problème.
— On supposera les données collectées (c’est en grande partie une affaire de praticien). Elles seront souvent
notées x1 , . . . , xn .
— Les phases d’interprétation et de visualisation des résultats seront abordées plus tard.

4
40

30

count
20

10

5 10 15
X

60

40
count

20

16 20 24
X

2 Quelques exemples de problèmes statistiques


Nombre de voitures à un feu rouge
— Afin de mieux gérer la circulation, on s’intéresse au nombre de voitures à un feu rouge sur un créneau donné.
— Expérience : on compte le nombre de voitures dans la file d’attente à chaque fois que le feu passe au vert.
— On récolte n = 250 observations
5 9 9 9 11 9

Question
Comment utiliser au mieux ces données pour gérer le feu ?

Quantité d’intérêt
— Il serait intéressant d’avoir de l’information sur la loi de probabilité du nombre de voitures arrêtées au feu à
ce créneau.
— On dispose juste de mesures, cette loi est donc inconnue.
— Le travail statistique va donc consister à essayer de reconstruire au mieux cette loi (discrète) à partir des
mesures effectuées.

Durée d’un trajet


— J’ai une réunion à mon travail à 8h, à quelle heure dois-je partir pour "avoir de grandes chances" d’être à
l’heure ?
— Expérience : je mesure la durée de trajet domicile/travail pendant plusieurs jours.
— Je récolte n = 100 observations
20.87 22.12 20.90 21.33 17.73

Question
Comment utiliser au mieux ces données pour gérer mon heure de départ ?

Quantité d’intérêt
— Il serait intéressant d’avoir de l’information sur la loi de probabilité de la durée de trajet domicile/travail.
— On dispose juste de mesures, cette loi est donc inconnue.
— Le travail statistique va donc consister à essayer de reconstruire au mieux cette loi (continue) à partir des
mesures effectuées.

5
0.05

0.04

unemploy/pop
0.03

0.02

1970 1980 1990 2000 2010


date

Séries temporelles
— On s’intéresse au taux de chomage d’une population entre deux dates t0 et t1 . On souhaite prédire le taux de
chomage futur.
— Expérience : on mesure le taux de chomage entre les deux dates
> head(economics)
# A tibble: 6 x 6
date pce pop psavert uempmed unemploy
<date> <dbl> <int> <dbl> <dbl> <int>
1 1967-07-01 507.4 198712 12.5 4.5 2944
2 1967-08-01 510.5 198911 12.5 4.7 2945
3 1967-09-01 516.3 199113 11.7 4.6 2958
4 1967-10-01 512.9 199311 12.5 4.9 3143
5 1967-11-01 518.1 199498 12.5 4.7 3066
6 1967-12-01 525.8 199657 12.1 4.8 3018

Question
Comment utiliser au mieux ces données pour prédire le taux de chomage en 2012 ?

Quantité d’intérêt
— Il serait intéressant d’avoir de l’information sur la loi de probabilité du taux de chomage à l’instant t sachant
le taux de chomage avant t.
— On dispose juste de mesures, cette loi est donc inconnue.
— Le travail statistique va donc consister à essayer de reconstruire au mieux cette loi (continue) à partir des
mesures effectuées.

Prévision ozone
— On s’intéresse à la prévision de la concentration en ozone dans l’air.

— Expérience : on mesure la concentration en ozone dans l’air ainsi d’autres variable (météo) qui pourraient
potentiellement expliquer cette quantité.

> head(ozone)
maxO3 T9 T12 T15 Ne9 Ne12 Ne15 Vx9 Vx12 Vx15 maxO3v vent pluie
20010601 87 15.6 18.5 18.4 4 4 8 0.6946 -1.7101 -0.6946 84 Nord Sec
20010602 82 17.0 18.4 17.7 5 5 7 -4.3301 -4.0000 -3.0000 87 Nord Sec
20010603 92 15.3 17.6 19.5 2 5 4 2.9544 1.8794 0.5209 82 Est Sec
20010604 114 16.2 19.7 22.5 1 1 0 0.9848 0.3473 -0.1736 92 Nord Sec
20010605 94 17.4 20.5 20.4 8 8 7 -0.5000 -2.9544 -4.3301 114 Ouest Sec
20010606 80 17.7 19.8 18.3 6 6 7 -5.6382 -5.0000 -6.0000 94 Ouest Pluie

> ggplot(ozone)+aes(x=T12,y=maxO3)+geom_point()
> ggplot(ozone)+aes(x=vent,y=maxO3)+geom_boxplot()

Question
Comment utiliser au mieux ces données pour prédire la concentration en ozone sachant les variables météo ?

Quantité d’intérêt
— Il serait intéressant d’avoir de l’information sur la loi conditionnelle de probabilité de la concentration en
ozone sachant les variables météo.

6
● ●

160 ●

● 160 ●
● ●
● ●

● ● ●
● ●
● ●

● ●

● ●
120 120

● ●
● ●
● ●


maxO3
maxO3

● ●

● ● ●


● ●




● ●

● ● ●

● ● ●
● ● ● ●

●● ●
80 ● ● ●
● 80
● ●
● ● ●●
● ● ● ●


● ● ● ●
●●● ● ●
● ● ● ●
● ●

● ● ● ●
● ●
● ●
● ●●
● ●
● ●



● ●

40 40

15 20 25 30 Est Nord Ouest Sud


T12 vent

20

15 g
aa
ao
value

dcl
iy
sh

10

0 100 200
X

Reconnaissance de la voix
— On souhaite développer une procédure automatique permettant de reconnaitre un son.
— Expérience : on prononce 5 sons un certain nombre de fois et on considère la courbe temporelle associé au
son dans la base de Fourier.
— On dispose de n = 4509 courbes, chacune étant associée à un son.
Question
Comment utiliser au mieux ces données pour identifier un son à partir d’une courbe ?

Quantité d’intérêt
— Il serait intéressant d’avoir de l’information sur la loi conditionnelle de probabilité de la variable son sachant
la courbe.

Bilan
— Pour chacun de ces problèmes on cherche à reconstruire (ou estimer) des probabilités (ou plus généralement
des lois de probabilité).
— Les probabilités sont cependant différentes : la nature des quantités qui interviennent diffèrent
— discrètes (voitures)
— continues (durée de trajet)
— conditionnelles (ozone, phonèmes)
— Les objets mesurés sont également de nature différente (entiers, réel, vecteurs, courbes...).
Conséquence importante
Il va être primordial d’introduire un formalisme (mathématique) précis pour représenter (modéliser) ces problèmes.
— Ces problèmes peuvent être appréhendés à l’aide d’un modèle statistique.
Modèle statistique
— Définition avec des mots : vision simplifiée de la réalité.
— Définition mathématique : triplet (F, H, {P, P ∈ P}) où
— F est un ensemble (l’espace des observations)
— H est une tribu sur F
— {P, P ∈ P} est une famille de lois de probabilité.

Question importante
Quel est le lien entre ces deux définitions ?

7
3 Modèle statistique
— On suppose que des données ont été collectées.
— Ces données sont le résultat d’une expérience répétée n fois.
— On va les noter x1 , . . . , xn .

Exemple des durées de trajet


— Données :
20.87 22.12 20.90 21.33 17.73

— x1 = 20.87, x2 = 22.12 . . .

Hasard, aléa...
Question
— Sur les n = 100 trajet, on obtient une moyenne de 20.02 minutes.
— Peut-on en conclure que le durée moyenne du trajet domicile/travail est de 20.02 minutes ?
— Le résultat dépend des conditions de l’expérience.
— Si on re-mesure 100 fois le trajet, il est fort possible qu’on n’obtienne pas la même durée moyenne.

Conséquence
— Nécessité de prendre en compte que le résultat observé dépend des conditions expérimentales.
— Ces dernières vont être difficiles à caractériser précisément.
— On dit souvent que le hasard ou l’aléa intervient dans ces conditions.

Variable aléatoire
Un outil spécifique
L’outil mathématique permettant de prendre en compte l’aléa dans l’expérience est la variable aléatoire.

Définition
Une variable aléatoire réelle (v.a.r.) est une application X : Ω → R et une réalisation de X est une valeur X(ω)
pour une éventualité ω ∈ Ω.
— Remarque : la définition d’une v.a. est étrange et ne présente un intérêt que si on comprend son utilité dans
la modélisation.

V.a. et modélisation
— x1 , . . . , xn représentent le résultat de l’expérience. On suppose que xi ∈ R, i = 1, . . . , n.
— Pour prendre en compte l’aléa de l’expérience, on va considérer des variables aléatoires réelles (v.a.r.).

Lien observation/v.a.r.
Les xi sont dés réalisations de v.a.r. Xi . C’est-à-dire
∀i = 1, . . . , n ∃ ωi ∈ Ω tel que xi = Xi (ωi ).

— On suppose donc qu’il existe n v.a.r. X1 , . . . , Xn et des éléments ω1 , . . . , ωn tels que


x1 = X1 (ω1 ), . . . , xn = Xn (ωn ).

Question
Que représentent les ωi ?

Réponse
— ωi représente les conditions expérimentales associées à la ie mesure, c’est-a-dire toutes les conditions qui
permettent "d’expliquer" qu’on a obtenu xi .
— Cette quantité n’est généralement pas caractérisable (on sait qu’elle existe mais on ne peut pas en dire plus).

8
Exemple : durée de trajet
— x1 = 20.87, x2 = 22.12, x3 = 20.90, x4 = 21.33, x5 = 17.73, . . .
— X1 , . . . , Xn définies sur Ω, n v.a.r. telles que Xi (ωi ) = xi .

Interprétation
— On dit que Xi est la v.a.r. représentant le ie temps de trajet.
— L’ensemble Ω contient toutes les conditions expérimentales possibles... C’est-à-dire tout ce qui peut se produire
sur le trajet (feux, passant qui traverse, vitesse à laquelle on roule...).
— ωi correspondant à ce qui s’est produit sur le ie trajet.
— Par exemple ω1 représente tout ce qui s’est passé sur le trajet permettant d’expliquer qu’on a mis 20.87
minutes.

Remarque
On voit bien sur cet exemple qu’il est difficile de caractériser mathématiquement Ω et les ωi , i = 1, . . . , n.

Récapitulatif
— n observations x1 , . . . , xn telles que xi ∈ R.
— Les n valeurs observées x1 , . . . , xn sont des réalisations de variables aléatoires X1 , . . . , Xn à valeurs dans R.

Attention
Xi est une variable aléatoire, c’est-à-dire une fonction, et xi est une réalisation de cette variable, c’est-à-dire une
quantité déterministe.

Remarque
— Les v.a. X1 , . . . , Xn n’ont pas forcément un grand intérêt dans la modélisation.
— La quantité qui va nous intéresser est la loi de probabilité associée à ces v.a.
— C’est cette loi qui nous permettra d’apporter des réponses au problème posé.

Loi de probabilité
Loi de probabilité
La loi de probabilité d’une v.a.r. est représentée par les probabilités P(X ∈ [a, b]) avec a ≤ b.

Intérêt
— La loi de probabilité permet de mesurer tous les évènements dans l’espace d’arrivé.
— C’est elle qui va nous intéresser pour comprendre le phénomène qui nous intéresse.

4 Quelques rappels de probabilités


4.1 Variable aléatoire réelle
Fonction de répartition
— La loi de probabilité telle qu’elle est définie précédemment n’est pas facile à manipuler.
— Nécessité de trouver des outils mathématiques qui permettent de la caractériser ou de l’identifier.

Définition
Soit X une v.a.r. On appelle fonction de répartition de X la fonction FX : R → [0, 1] définie par

FX (x) = P(X ≤ x).

Propriété
La fonction de répartition FX d’une v.a.r. X satisfait les propriétés suivantes :
1. ∀x ∈ R, 0 ≤ FX (x) ≤ 1 ;

9
2. FX est une fonction croissante, continue à droite en tout point x ∈ R ;
3. limx→−∞ FX (x) = 0 et limx→+∞ FX (x) = 1.

Propriété
La fonction de répartition caractérise la loi de probabilité d’une variable aléatoire réelle.
— FX permet de caractériser la loi de n’importe quelle v.a.r.

— Il existe d’autres outils pour caractériser les lois qui peuvent dépendre de la nature de la variable.
— Cas discret : fonction de masse.
— Cas continu : densité.

Cas discret
Définition
— On dit qu’une v.a.r X est discrète si son support SX est fini ou dénombrable.
— La fonction de masse définie par
πX : SX → [0, 1]
x 7→ P(X = x)

— Exemples : Bernoulli, binomiale, Poisson...


Propriété
La fonction de masse caractérise la loi de probabilité d’une v.a.r discrète.

Cas continu
— Généralement pour des v.a.r qui prennent leurs valeurs sur un intervalle de R ou une réunion d’intervalles
de R.
Définition
Une v.a.r X est dite de loi à densité si il existe une densité fX : R → R+ telle que pour tous a, b avec a ≤ b
on a Z b
P(a ≤ X ≤ b) = fX (x) dx.
a

— Exemples : Gaussienne, exponentielle...


Propriété
La densité caractérise la loi de probabilité d’une v.a.r continue.

Quelques propriétés
— Toute fonction f positive, continue et qui intègre à 1 est une densité.
0
— Lien fonction de répartition densité : fX = FX sur l’ensemble où FX est dérivable.
— Une v.a.r n’est pas forcément discrète ou continue, ça peut aussi être un mélange des deux...

Espérance d’un v.a.r.


Définition
Soit X une v.a.r. P-intégrable. On appelle espérance mathématique de X, notée E[X] l’intégrale de X par rapport
àP: Z Z
E[X] = X dP = X(ω) dP(ω).

Interprétation
— L’espérance revient à intégrer les valeurs de la v.a.r. X pour chaque évènement ω pondéré par la mesure de
probabilité P.
— D’où l’interprétation de valeur moyenne prise par X.
— Problème : l’espérance dépend de Ω que l’on ne peut généralement pas caractériser !
— Le théorème de transfert permet de pallier à cette difficulté.

10
Calcul en pratique
— On déduit du théorème de transfert un moyen "simple" pour calculer l’espérance dans les cas discret et
continu.
Propriété
— Cas discret : X
E[X] = xπx (x).
x∈SX

— Cas continu : Z
E[X] = xfX (x) dλ(x).
R
=⇒ l’espérance s’obtient en calculant une somme ou une intégrale.

Variance
Définition
— Le moment centré d’ordre 2 de X est appelé la variance de X et est noté V[X] :
V[X] = E (X − E[X])2 = E[X 2 ] − (E[X])2 .
 

— Sa racine carrée positive est appelée l’écart-type de X, noté σ[X].

Interprétion
— La variance est un réel positif.
— Elle mesure l’écart entre les valeurs prises par X et l’espérance (moyenne) de X =⇒ interprétation en terme
de dispersion.

Exemples
1. Loi de Bernoulli B(p) : V[X] = p(1 − p) ;
2. Loi uniforme sur [0, 1] : V[X] = 1/12 ;
3. Loi uniforme sur [1/4, 3/4] : V[X] = 1/48.

Quelques propriétés
Espérance
1. ∀(a, b) ∈ R2 , E[aX + b] = aE[X] + b ;
2. E[X1 + X2 ] = E[X1 ] + E[X2 ]
3. Jensen : soit X à valeurs dans ]a, b[ et ϕ une fonction réelle convexe sur ]a, b[
ϕ(E[X]) ≤ E[ϕ(X)].

Variance
1. ∀α ∈ R, V[αX] = α2 V[X] ;
2. ∀a ∈ R, V[a + X] = V[X] ;
3. V[X] = 0 si et seulement si X est une v.a.r. presque sûrement constante (X = E[X] p.s.).

Inégalités sur les moments


Markov
Si X est une v.a.r. positive, on a pour tout réel a > 0
E[X]
P(X ≥ a) ≤ .
a

Bienaymé-Chebychev
Si E[X 2 ] < +∞, alors on a pour tout réel a > 0
V[X]
P(|X − E[X]| > a) ≤ .
a2

11
4.2 Vecteurs aléatoires
— On se restreindra à la notion de couple aléatoire.

Définitions
— Un couple de v.a.r. est une application :
(X, Y ) : Ω → R2
ω 7→ (X(ω), Y (ω))

— La loi de (X, Y ) est représentée par les probabilités


P((X, Y ) ∈ [a, b] × [c, d]) = P(X ∈ [a, b] et Y ∈ [c, d])
pour tous a ≤ b et c ≤ d.
— Les v.a.r. X et Y sont les marginales du couple (X, Y ).
— Les notions vues pour les v.a.r. se généralisent aux couples aléatoires.

Exemple
— Fonction de répartition :
FX,Y (x, y) = P(X ≤ x, Y ≤ y).
— Densité (si elle existe) : fonction fX,Y : R2 → R+ telle que
Z bZ d
P((X, Y ) ∈ [a, b] × [c, d]) = fX,Y (x, y) dy dx.
a c

— Densités marginales (si elles existent) :


Z Z
fX (x) = fX,Y (x, y) dy et fY (y) = fX,Y (x, y) dx.
R R

Calcul d’espérance
— Question : étant donné un couple (X, Y ) et une fonction g : R2 → R, que vaut E[g(X, Y )] ?
Théorème de transfert
R
Si R2 |g(x, y)|fX,Y (x, y) dx dy < +∞ alors g(X, Y ) est intégrable et
Z
E[g(X, Y )] = g(x, y)fX,Y (x, y) dx dy.
R2

— On déduit la linéarité de l’espérance : soient a et b dans R alors


E[aX + bY ] = aE[X] + bE[Y ].

Covariance
Définitions
— Covariance entre X et Y :
cov(X, Y ) = E([X − E[X])(Y − E[Y ]) = E[XY ] − E[X]E[Y ].

— Matrice de variance covariance : matrice 2 × 2


 
V[X] cov(X, Y )
ΣX,Y =
cov(Y, X) V[Y ]

Propriétés
— cov(X, Y ) = cov(Y, X) ;
— cov(aX + b, Y ) = acov(X, Y ) ;
— V[aX + bY ] = a2 V[X] + b2 V[Y ] + 2abcov(X, Y ).

12
Indépendance
Définition
Soit (X, Y ) un couple aléatoire. X et Y sont indépendantes si pour tous a ≤ b et c ≤ d on a

P(a ≤ X ≤ b, c ≤ Y ≤ d) = P(a ≤ X ≤ b)P(c ≤ Y ≤ d).

En pratique
Si (X, Y ) admet pour densité fX,Y alors X et Y sont indépendantes si et seulement si

fX,Y (x, y) = fX (x)fY (x) pour tous x, y ∈ R.

Propriété
Soient X et Y 2 v.a.r indépendantes. Alors
1. E[XY ] = E[X]E[Y ] et donc cov(X, Y ) = 0
2. V[X + Y ] = V[X] + V[Y ].

— Attention : les réciproques sont fausses !

5 Bibliographie
Références

Biblio1

[Jacod and Protter, 2003] Jacod, J. and Protter, P. (2003). L’essentiel en théorie des probabilités. Cassini.
[Lejeune, 2004] Lejeune, M. (2004). Statistique. La théorie et ses applications. Springer.
[Rouvière, 2015] Rouvière, L. (2015). Probabilités générales. Polycopié de cours, https ://[Link]-
[Link]/[Link].

13
Deuxième partie
Théorie de l’estimation
Rappels
— n observations x1 , . . . , xn .
— Ces observations sont des réalisations de variables aléatoires X1 , . . . , Xn =⇒ ∃ωi tel que

Xi (ωi ) = xi , i = 1, . . . , n.

Hypothèse
— On va supposer que les variables Xi sont indépendantes et de même loi de probabilité (inconnue) P.

Le problème de l’estimation
Il consiste à trouver (estimer) la loi P à partir de l’échantillon X1 , . . . , Xn .

1 Modèle - estimateur
— Poser un modèle revient à supposer que la loi de probabilité inconnue P appartient à une famille de lois P.

Définition
On appelle modèle statistique tout triplet (H, A, P) où
— H est l’espace des observations (l’ensemble dans lequel les observations prennent valeurs) ;
— A est une tribu sur H ;
— P est une famille de probabilités définies sur (H, A).

Remarque
— H et A ne sont généralement pas difficile à caractériser.
— Le statisticien ou le praticien doit par contre choisir une famille de loi de probabilité susceptible de contenir
la loi inconnue P.

Exemple
— On souhaite tester l’efficacité d’un nouveau traitement à l’aide d’un essai clinique.
— On traite n = 100 patients atteints de la pathologie.
— A l’issue de l’étude, 72 patients sont guéris.

Modélisation
— On note xi = 1 si le ième patient a guéri, 0 sinon.
— On suppose que xi est la réalisation d’une variable aléatoire Xi de loi de bernoulli de paramètre inconnu
p ∈ [0, 1].
— Si les individus sont choisis de manière indépendante et ont tous la même probabilité de guérir (ce qui peut
revenir à dire qu’ils en sont au même stade de la pathologie), il est alors raisonnable de supposer que les
variables aléatoires X1 , . . . , Xn sont indépendantes.

Spécification du triplet
Le triplet pour l’exemple
— H : pas le choix H = {0, 1}.
— A : pas le choix A = ensemble des parties de {0, 1}.
— P = {lois de Bernoulli de paramètre p ∈ [0, 1]} = {B(p) : p ∈ [0, 1]}.

— A travers ce modèle, on suppose que la variable aléatoire Xi qui représente la réaction du ie patient au
traitement suit une loi de Bernoulli de paramètre inconnu p ∈ [0, 1].
— Le problème statistique : reconstruire ou estimer ce paramètre à l’aide de l’échantillon X1 , . . . , Xn .

14
Autres exemples
— Exemple 1 : Traitement.
— Exemple 2 : Nombre de voitures au feu rouge.
— Exemple 3 : Durée de trajet domicile/travail.
H A P

Exemple 1 {0, 1} P({0, 1}) {B(p), p ∈ [0 , 1 ]}

Exemple 2 N P(N) {P(λ), λ > 0 }

Exemple 3 R B(R) {N (µ, σ 2 ), µ ∈ R, σ ∈ R+ }

2 types d’erreur
— Poser un modèle = choisir une famille de lois P candidates pour P.
P

On distingue deux types d’erreurs :


— Erreur d’estimation : erreur commise par le choix d’une loi dans P par rapport au meilleur choix.
— Erreur d’approximation : erreur commise par le choix de P.
— Ces deux termes évoluent généralement en sens inverse.

Exemple des durées de trajet


— M1 : P = {N (µ, σ 2 ), µ ∈ R, σ ∈ R+ }.
— M2 : P = {Lois à densités continues}.
— M2 est plus flexible que M1 . On a même M1 ⊂ M2 .
— La théorie montrera qu’il est plus difficile de bien estimer dans M2 que dans M1 .

Conséquence
— Le travail du statisticien consistera toujours à essayer de trouver le meilleur compromis entre ces deux erreurs.
— Dans ce cours, nous étudierons essentiellement l’erreur d’estimation dans les modèles paramétriques.

Paramétrique versus non paramétrique


Définition
— Si P = {Pθ , θ ∈ Θ} où Θ ∈ Rd alors on parle de modèle paramétrique et Θ est l’espace des paramètres.
— Si P = {P, P ∈ F} où F est de dimension infinie, on parle de modèle non paramétrique.

Exemple : modèle de densité


— P = {N (µ, σ 2 ), (µ, σ 2 ) ∈ R × R+ } est un modèle paramétrique.
— P = {densités f 2 fois dérivables} est un modèle non paramétrique.
Le problème statistique sera d’estimer (µ, σ 2 ) ou f à partir de l’échantillon X1 , . . . , Xn .

15
Le problème de régression
— Données : (x1 , y1 ), . . . , (xn , yn ). On veut expliquer les sorties yi ∈ R par les entrées xi ∈ Rp .
— Les données sont des réalisations de variables aléatoires (X1 , Y1 ), . . . , (Xn , Yn ) telles qu’il existe une fonction
inconnue m : Rp → R vérifiant
Yi = m(Xi ) + εi , i = 1, . . . , n
où les εi sont i.i.d de loi N (0, σ 2 ).

Le problème statistique
Il consiste à estimer la fonction inconnue m à l’aide de l’échantillon (X1 , Y1 ), . . . , (Xn , Yn ).

Régression paramétrique vs non paramétrique


Modèle linéaire (paramétrique)
— On suppose m(x) = β0 + β1 x1 + . . . + βp xp .
— Le problème est d’estimer β = (β0 , . . . , βp ) ∈ Rp+1 à l’aide de (X1 , Y1 ), . . . , (Xn , Yn ).
— Paramètre à estimer de dimension finie =⇒ modèle paramétrique.

Un modèle non paramétrique


— On suppose que m : Rp → R est une fonction continue.
— Le problème est d’estimer m à l’aide de (X1 , Y1 ), . . . , (Xn , Yn ).
— Paramètre à estimer de dimension infinie =⇒ modèle non paramétrique.

Objectifs
Estimer...
Etant donné un modèle (H, A, P) :
— Trouver des procédures (automatiques) permettant de sélectionner une loi P̂ dans P à partir d’un n-échantillon
X1 , . . . , Xn .
— Etudier les performances des lois choisies.

Paramétrique
— Dans la suite, on va considérer uniquement des modèles paramétriques P = {Pθ , θ ∈ Θ} avec Θ de dimension
finie (typiquement Rp ).
— Choisir une loi reviendra donc à choisir un paramètre θ̂ à partir de l’échantillon X1 , . . . , Xn .

— Les modèles que nous allons considérer auront pour espace d’observations un ensemble dénombrable Ω ou Rd
et seront munis des tribus P(Ω) ou B(Rd ).
— Dans la suite, on se donne un modèle M = (H, P = {Pθ , θ ∈ Θ}).

Echantillon
Un échantillon de taille n est une suite X1 , . . . , Xn de n variables aléatoires indépendantes et de même loi Pθ , pour
θ ∈ Θ.

Identifiabilité
— Si θ 7→ Pθ est injective, le modèle est dit identifiable.
— L’identifiabilité implique
— 2 paramètres différents correspondent à deux lois différentes.
— 2 lois identiques correspondent à deux paramètres identiques.
— Elle permet donc d’identifier une loi à un unique paramètre et est capitale pour savoir ce que l’on doit estimer.

16
La démarche statistique
1. On récolte n observations (n valeurs) x1 , . . . , xn qui sont les résultats de n expériences aléatoires indépen-
dantes.

2. Modélisation : on suppose que les n valeurs sont des réalisations de n variables aléatoires indépendantes
X1 , . . . , Xn et de même loi Pθ . Ce qui nous amène à définir le modèle M = (H, {Pθ }, θ ∈ Θ}).

3. Estimation : chercher dans le modèle une loi Pθ̂ qui soit la plus proche possible de Pθ =⇒ chercher un
estimateur θ̂ de θ.

Estimateurs
Définitions
— Une statistique est une application (mesurable) définie sur Hn .

— Un estimateur (de θ) est une fonction (mesurable) de (X1 , . . . , Xn ) indépendante de θ à valeurs dans un
sur-ensemble de Θ.

Exemple 1 (modèle de Bernoulli) Pn


1
Les variables aléatoires p̂1 = X1 et p̂2 = X̄n = n i=1 Xi sont des estimateurs de p.

Remarque
— Un estimateur θ̂ = θ̂(X1 , . . . , Xn ) : c’est une variable aléatoire.
— Démarche :
1. Chercher le "meilleur" estimateur θ̂(X1 , . . . , Xn ).
2. A la fin, calculer l’estimation θ̂(x1 , . . . , xn ) (renvoyé par le logiciel).

Estimateurs vs estimation...
— Donner une bonne réponse au problème posé nécessite de se placer dans un premier temps dans un cadre
abstrait.
— On cherche alors la meilleure fonction θ̂(X1 , . . . , Xn ) vis à vis de critères à définir.
— Une fois cette fonction trouvée, il faut donner une réponse (qui ne doit pas être abstraite !)... On applique la
fonction trouvée aux données observées θ̂(x1 , . . . , xn ).

Abus de notation
Malheureusement on note souvent de la même façon l’estimateur et l’estimation :
— on écrit θ̂ pour l’estimateur θ̂(X1 , . . . , Xn ) ;
— on écrit θ̂ pour l’estimation θ̂(x1 , . . . , xn ) ;
— Il est donc nécessaire de faire soi-même la distinction entre ces deux objets lorsque on lit ou écrit θ̂.

Exemple : réponse à un traitement


— Les données
x1 x2 x3 x4 x5 x6 x7 x8
1 0 0 0 1 0 1 0
— Modèle : les xi sont des réalisations de v.a. Xi indépendantes et de loi de Bernoulli de paramètre p (inconnu).
— Problème statistique : estimer p.
— Estimateur :
n
1X
p̂ = p̂(X1 , . . . , Xn ) = Xi .
n i=1

— Estimation :
n
1X 3
p̂ = p̂(x1 , . . . , xn ) = xi = .
n i=1 8

17
Non biaisé Biaisé

0.4

0.3

0.2

0.1

0.0

θ θ

2 Biais, variance, risque quadratique


— X1 , . . . , Xn i.i.d de loi Pθ avec θ ∈ Θ inconnu.

— On cherche un estimateur θ̂ = θ̂(X1 , . . . , Xn ).

— Un estimateur est donc une variable aléatoire. Il va donc (le plus souvent) posséder
— une loi de probabilité
— une espérance
— une variance...

Espérance d’une estimateur


— On représente ci-dessous les lois de probabilité de 2 estimateurs de θ.

Commentaires
— L’estimateur de gauche semble être préférable à celui de droite.
— Sa loi de probabilité est en effet centrée sur le paramètre inconnu =⇒ E[θ̂] ≈ θ.

Biais d’un estimateur


— Dans la suite, pour un modèle de famille de loi {Pθ , θ ∈ Θ}, on désigne par E et V les variables sous la loi
Pθ .

Définition
Soit θ̂ un estimateur d’ordre 1 (l’espérance existe).
1. Le biais de θ̂ en θ est E(θ̂) − θ.
2. θ̂ est sans biais lorsque son biais est nul.
3. θ̂ est asymptotiquement sans biais si limn→∞ E(θ̂) = θ.

Exemple 1
Les estimateurs p̂1 et p̂2 sont sans biais.

Variance d’un estimateur


— Mesurer le biais n’est pas suffisant, il faut également mesurer la dispersion des estimateurs.

— Les deux estimateurs sont sans biais.


— L’estimateur de gauche semble être préférable à celui de droite.
— Sa variance est plus faible : =⇒ V[θ̂1 ] ≤ V[θ̂2 ].

18
Var faible Var forte

0.8

0.6

0.4

0.2

0.0

θ θ

Risque quadratique
— Objectif : trouver des estimateurs ayant un biais et une variance faibles.
— Le risque quadratique prend en compte simultanément ces deux critères.

Définition
Soit θ̂ un estimateur d’ordre 2.
1. Le risque quadratique de θ̂ de θ ∈ R :
R(θ, θ̂) = E(θ̂ − θ)2

2. Soit θ̂0 un autre estimateur d’ordre 2. On dit que θ̂ est préférable à θ̂0 si

R(θ, θ̂) ≤ R(θ, θ̂0 ) ∀θ ∈ Θ.

Exemple (Bernoulli)
p̂2 est préférable à p̂1 .

Estimateur VUMSB
Propriété décomposition biais variance
Si θ̂ est d’ordre 2, on a la décomposition

R(θ, θ̂) = (E[θ̂] − θ)2 + E(θ̂ − E[θ̂])2 = b2 (θ̂) + V[θ̂].

Définition
Si θ̂ est sans biais, on dit qu’il est de variance uniformément minimum parmi les estimateurs sans biais (VUMSB)
si il est préférable à tout autre estimateur sans biais d’ordre 2 :

E[θ̂] = θ
θ̂ VUMSB ⇐⇒
∀θ̃ tel que E[θ̂] = θ, V[θ̂] ≤ V[θ̃]

Exemple
Dans le modèle de Bernoulli B(p) nous montrerons que p̂2 est VUMSB.

3 Quelques méthodes d’estimation


— X1 , . . . , Xn i.i.d de loi Pθ avec θ ∈ Θ inconnu.
— Le biais et la variance permettent de mesurer la performance d’un estimateur θ̂.

Question
Comment construire un estimateur (que l’on espère) performant ?

Construction d’estimateurs
— Il existe des procédures automatiques qui permettent de construire des estimateurs.
— Nous présentons dans cette partie la méthode des moments et du maximum de vraisemblance.

19
Bernoulli B(p) p̂m = X̄n

Poisson P(λ) λ̂m = X̄n

Uniforme U[0,θ] θ̂m = 2X̄n

Exponentielle E(λ) λ̂m = 1/X̄n

3.1 La méthode des moments


— C’est une approche intuitive qui repose sur le fait que pour de nombreux modèles les moments empiriques
doivent être proches des moments théoriques.
— En effet, on a d’après la LFGN que pour de nombreux modèles :
n
1X
X̄n = Xi ≈ E[X1 ].
n i=1

Définition
L’estimateur des moments θ̂m , si il existe, est la solution en θ de l’équation
n
1X
Xi = E[X1 ].
n i=1

Remarque
— L’estimateur des moments n’existe pas toujours.
— Même lorsqu’il existe, il n’est pas toujours performant (voir TD).

3.2 La méthode du maximum de vraisemblance


Retour à l’exemple 1
— X1 , . . . , Xn i.i.d. X1 ∼ B(p).
— x1 , . . . , xn réalisations de X1 , . . . , Xn .

Idée
1. La quantité L(x1 , . . . , xn ; p) = P(X1 = x1 , . . . , Xn = xn ) peut être vue comme une mesure de la probabilité
d’observer les données observées.
2. Choisir le paramètre p qui maximise cette probabilité.

Notion de vraisemblance
— L(x1 , . . . , xn ; p) est appelée vraisemblance (elle mesure la vraisemblance des réalisations x1 , . . . , xn sous la
loi Pp ).
— L’approche consiste à choisir p qui "rend ces réalisations les plus vraisemblables possible".

20
Bernoulli B(p) p̂M V = X̄n
Poisson P(λ) λ̂M V = X̄n
Uniforme U[0,θ] θ̂M V = max1≤i≤n Xi

Vraisemblance
Cas discret
La vraisemblance du paramètre θ pour la réalisation (x1 , . . . , xn ) est l’application L : Hn × Θ définie par
n
Y
L(x1 , . . . , xn ; θ) = P(X1 = x1 , . . . , XN = xn ) = P(Xi = xi ).
i=1

Cas absolument continu


Soit f (., θ) la densité associé à Pθ . La vraisemblance du paramètre θ pour la réalisation (x1 , . . . , xn ) est l’appli-
cation L : Hn × Θ définie par
n
Y
L(x1 , . . . , xn ; θ) = f (xi , θ).
i=1

L’estimateur du maximum de vraisemblance


Définition
Un estimateur du maximum de vraisemblance (EMV) est une statistique g qui maximise la vraisemblance,
c’est-à-dire ∀(x1 , . . . , xn ) ∈ Hn
L(x1 , . . . , xn ; g(x1 , . . . , xn )) = sup L(x1 , . . . , xn ; θ).
θ∈Θ

L’EMV s’écrit alors θ̂ = g(X1 , . . . , Xn ).

Exemples

4 Information de Fisher
— X1 , . . . , Xn i.i.d de loi Pθ avec θ inconnu dans R.

Objectif
Montrer que sous certaines hypothèses de régularité l’EMV est asymptotiquement VUMSB :
1. θ̂ est asymptotiquement sans biais.
2. il existe une fonction r(n, θ) telle que pour tout estimateur T sans biais de θ, on a V(T ) ≥ r(n, θ).
3. la variance asymptotique de l’EMV vaut r(n, θ).

Information de Fisher
— Considérons pour l’instant 1 seule observation X de loi Pθ .
— On désigne par L1 (.; θ) la vraisemblance associée.

Définition
Si elle existe (c’est-à-dire si la dérivée par rapport à θ de la log-vraisemblance est de carré intégrable), l’information
de Fisher associée à l’observation X est définie par :
I : Θ → R+
" 2 #

θ 7→ E log(L(X, θ))
∂θ

Interprétation
L’information de Fisher peut s’interpréter comme :

21
— la quantité d’information apportée par l’observation X pour estimer le paramètre inconnu.
— une mesure du pouvoir de discrimination du modèle entre deux valeurs proches du paramètre θ :
— I(θ) grand : il sera "facile" d’identifier quel paramètre est le meilleur.
— I(θ) petit : l’identification sera plus difficile.

Propriété
— Si elle existe, l’information de Fisher vérifie
 2   
∂ ∂
I(θ) = −E log(L(X, θ)) = V log(L(X, θ)) .
∂θ2 ∂θ

— On a de plus
I(θ) ≥ 0 et I(θ) = 0 ⇔ f (x, θ) = f (x).

Exemple
— On considère le modèle de Bernoulli : X ∼ B(p).
— On a alors
L(x, p) = px (1 − p)1−x
et
∂2 x 1−x
log(L(x, p)) = − 2 − .
∂p2 p (1 − p)2
— D’où  
X 1−X 1
I(p) = −E − 2 − = .
p (1 − p)2 p(1 − p)

Fisher pour n observations


— On considère maintenant n observations X1 , . . . , Xn de loi Pθ .
— On désigne par L1 (.; θ) la vraisemblance associée.

Définition
Si elle existe (c’est-à-dire si la dérivée par rapport à θ de la log-vraisemblance est de carré intégrable), l’information
de Fisher associée à l’échantillon X1 , . . . , Xn est définie par :

In : Θ → R+
" 2 #

θ 7→ Eθ log(L(X1 , . . . , Xn , θ))
∂θ

Propriété d’additivité
L’information de Fisher est additive :
In (θ) = nI(θ).

Modèle de Bernoulli
— X1 , . . . , Xn i.i.d de loi de Bernoulli B(p).
— On a
n
In (p) = .
p(1 − p)

22
Cramér-Rao
Proposition
Soit θ̂ un estimateur de θ de biais b(θ) = Eθ [θ̂] − θ. Alors sous certaines hypothèses de régularité (voir
[Guyader, 2017]), on a
(1 + b0 (θ))2
R(θ, θ̂) = E[(θ̂ − θ)2 ] ≥ b(θ)2 + .
In (θ)

Corollaire : Inégalité de Cramér-Rao


On déduit que si θ̂ est un estimateur sans biais de θ alors
1
V[θ̂] ≥ .
nI(θ)

1
— La quantité In (θ) est appelée borne de Cramer-Rao.
— Si un estimateur sans biais θ̂ atteint la borne de Cramer-Rao, il est VUMSB. On dit aussi qu’il est efficace.

Exemple : modèle de Bernoulli


— X1 , . . . , Xn i.i.d. de loi de Bernoulli B(p).
n p(1−p)
— On a vu que In (p) = p(1−p) .
La borne de Cramér-Rao vaut donc n .
Pn
— On considère l’estimateur p̂ = X̄ = n1 i=1 Xi .
— Il est facile de voir que
p(1 − p)
E[p̂] = p et V[p̂] = .
n
— On conclut donc que p̂ est VUMSB ou efficace.

5 Annexe : La famille exponentielle


La classe exponentielle
Définition
Soit un famille de lois admettant des densités (cas continu) ou des fonctions de masse (cas discret) {f (x, θ), θ ∈
Θ ⊆ R}. On dit qu’elle appartient à la famille ou classe exponentielle de lois si f (x, θ) peut s’écrire

f (x, θ) = a(θ)b(x) exp(c(θ)d(x))

pour tout x ∈ R.
— La plupart des lois standards appartiennent à la famille exponentielle.

Exemples
— Loi de Bernoulli B(p) :  
x 1−x p
f (x, p) = p (1 − p) = (1 − p) exp x log .
1−p
— Loi de Poisson P(λ) :
λx exp(−λ) 1
f (x, λ) = = exp(−λ) exp(x log λ).
x! x!

Mais aussi
Lois exponentielle, normale, gamma...
— Il est possible de montrer que les lois de la famille exponentielle possèdent de bonnes propriétés.

— Notamment pour l’estimateur du maximum de vraisemblance.

— Ces propriétés seront étudiés au S2, on pourra aussi consulter [Lejeune, 2004].

23
6 Bibliographie
Références

Biblio2

[Cadre and Vial, 2012] Cadre, B. and Vial, C. (2012). Statistique mathématique, cours et exercices corrigés. El-
lipses.
[Guyader, 2017] Guyader, A. (2017). Statistique mathématique. Polycopié de cours,
http ://[Link]/guyader/[Link].
[Lejeune, 2004] Lejeune, M. (2004). Statistique. La théorie et ses applications. Springer.

24
Troisième partie
Convergences stochastiques
Motivations
— X1 , . . . , Xn i.i.d. de loi Pθ avec θ inconnu dans Θ.
— Un estimateur : une fonction θ̂(X1 , . . . , Xn ).
— Le paramètre n représente souvent le nombre de mesures que l’on peut voir d’une certaine façon comme une
quantité d’information à disposition pour bien estimer θ.

Conséquence
— Plus on a d’information, plus on doit être précis.
— Plus n est grand, plus θ̂(X1 , . . . , Xn ) doit être proche de θ.
— On a donc envie de traduire cela par limn→∞ θ̂(X1 , . . . , Xn ) = θ.

Problème
Que signifie cette notion de limite ?

Retour vers les probabilités


— Cadre : (Xn )n une suite de variables aléatoires réelles et X une variable aléatoire réelle.
— On cherche à définir la notion de limite : limn→∞ Xn = X.

Première idée
— Une variable aléatoire réelle est une fonction qui va de Ω dans R.
— Utiliser les modes de convergence réservés aux fonctions.

Exemple
On pourrait dire que (Xn )n converge simplement vers X si pour tout ω ∈ Ω la suite réelle (Xn (ω))n converge vers
X(ω) :
∀ω ∈ Ω, lim Xn (ω) = X(ω).
n→∞

— Bien que naturelle, cette définition est, de manière surprenante, à peu près inutile en probabilités.

Exemple du pile ou face


— On joue n fois à pile ou face avec une pièce équilibrée.
— Xi : v.a.r. qui vaut 1 si face au ie jet, 0 sinon. Xi ∼ B(1/2).
— Lorsque n est grand, la proportion de faces après n lancers "doit" tendre vers 1/2. On a donc envie d’écrire

X1 (ω) + . . . + Xn (ω) 1
lim = .
n→∞ n 2
— Ceci est pourtant faux, si on utilise la définition précédente : il suffit de considérer l’évènement ω0 =
{f, f, f, f, f, ....} (obtenir que des faces)

X1 (ω0 ) + . . . + Xn (ω0 )
lim = 1.
n→∞ n

— Il est donc nécessaire de définir des modes de convergence spécifiques aux v.a..

25
1 Les différents modes de convergence
1.1 Convergence presque sûre ou convergence forte

Exemple du pile ou face (retour)


— Il est facile de voir que l’évènement ω0 est assez invraisemblable lorsque n est grand. En effet P({ω0 }) = 1/2n .
— On peut même montrer qu’il en est de même pour tous les évènements où on n’a pas convergence, on a donc
( n
)!
1X 1
P ω : lim Xi (ω) = = 1.
n→∞ n 2
i=1

— Conclusion : l’ensemble des évènements où la convergence ne se produit pas est de probabilité nulle. On parle
de convergence presque sûre.

Définition
On dit que (Xn )n converge presque sûrement vers une variable aléatoire X si l’ensemble N des ω tels que la suite
numérique (Xn (ω))n ne converge pas vers X(ω) est négligeable (c’est-à-dire vérifie P(N ) = 0). On note
p.s.
lim Xn = X p.s. ou Xn → X.
n→∞

Remarque
p.s.
On peut aussi dire que Xn → X si et seulement si
n o
P ω ∈ Ω : lim Xn (ω) 6= X(ω) =0
n→∞

ou encore n o
P ω ∈ Ω : lim Xn (ω) = X(ω) = 1.
n→∞

Proposition : opérations sur la cv ps


p.s. p.s.
1. Si Xn → X et si ϕ : R → R est une fonction continue sur R alors ϕ(Xn ) → ϕ(X).
p.s. p.s.
2. Si Xn → X et Yn → Y alors
p.s.
— pour tout réels a et b, aXn + bYn → aX + bY ;
p.s.
— Xn Yn → XY .
p.s.
— Xn /Yn → X/Y si P(Y = 0) = 0.

Conclusion
Les opérations classiques sur les limites sont conservées par la convergence presque sûre.

Comment montrer une convergence ps


— On utilise rarement la définition pour montrer la convergence presque sûre. On a souvent recourt à l’un des
critères suivants.

Théorème
La suite de v.a.r. (Xn )n converge presque sûrement vers X si et seulement si pour tout ε > 0,

lim P( sup |Xm − X| > ε) = 0.


n→∞ m≥n

Lemme de Borel-Cantelli
Si pour tout ε > 0, X
P(|Xn − X| > ε) < +∞
n∈N
p.s.
alors Xn → X.

26
Exemple
— (Xn )n suite de v.a.r. i.i.d telle que P(Xn = 1) = P(Xn = −1) = 21 .
— Question : est-ce que
n
1 X p.s.
Xi → 0 ?
n2 i=1

— On a d’après B.T. !
n
1 X 1
P Xi > ε ≤ 3 2 .
n2 i=1 n ε

— On a donc
n
1 X p.s.
Xi → 0.
n2 i=1

1.2 La convergence en probabilité

Définition
On dit que (Xn )n∈N converge en probabilité vers X si pour tout ε > 0, on a

lim P(|Xn − X| > ε) = 0.


n→∞

P
On note Xn → X.

Exemple
2
PnX1 , . . . , Xn , n ≥ 1 des v.a.r. indépendantes telles que E[Xn ] = 0 et V(Xn ) = σ . On note X̄n =
— Soit
1
n X
i=1 i .
— D’après Bienaymé-Tchebytchev, on a
n
!
1 X σ2
P(|X̄n | > ε) ≤ 2 2 V Xi = .
n ε i=1
nε2

P
— On a donc X̄n → 0.

Exemple
— Soit (Xn )n∈N une suite de variables aléatoires dont la loi est définie par
√ 1 1
P(Xn = n) = et P(Xn = 0) = 1 − .
n n
— On a pour ε > 0 fixé,

P(|Xn | > ε) =P(|Xn | > ε ∩ Xn = n) + P(|Xn | > ε ∩ Xn = 0)

=P(|Xn | > ε ∩ Xn = n).

— Or, pour n assez grand, {|Xn | > ε} = {Xn = n}, donc

lim P(|Xn | > ε) = lim 1/n = 0.


n→∞ n→∞

P
— On déduit Xn → 0.
— Les opérations sur les limites présentées pour la convergence presque sûre sont également vraies pour la
convergence en probabilité.

Proposition : opérations sur la cv en proba


P P
1. Si Xn → X et si ϕ : R → R est une fonction continue sur R alors ϕ(Xn ) → ϕ(X).

27
P P
2. Si Xn → X et Yn → Y alors
P
— pour tout réels a et b, aXn + bYn → aX + bY ;
P
— Xn Yn → XY .
P
— Xn /Yn → X/Y si P(Y = 0) = 0.

Théorème
p.s. P
Si Xn → X alors Xn → X.
— Attention : la réciproque est fausse ! Une contre exemple est donné dans [Jacod and Protter, 2003], page 152.

1.3 La convergence en moyenne d’ordre p

Définition
Soit p > 0. On dit que (Xn )n∈N converge en moyenne d’ordre p (ou dans Lp ) vers X si les Xn et X sont dans Lp
(E[|Xn |p ] < +∞ et E[|X|p ] < +∞), et si on a

lim E[|Xn − X|p ] = 0.


n→∞

Lp
On note Xn → X.
— Les cas les plus importants sont p = 1 (convergence en moyenne) et p = 2 (convergence en moyenne quadra-
tique).
L
— Convergence en moyenne (dans L1 ) : si Xn →1 X, alors

lim E[Xn ] = E[X] et lim E[|Xn |] = E[|X|].


n→∞ n→∞

Convergence dans L2
— Il est facile de voir que
E[(Xn − a)2 ] = (E[Xn ] − a)2 + V[Xn ].
— On déduit 
L2 limn→∞ E[Xn ] = a
Xn → a ⇐⇒
limn→∞ V[Xn ] = 0

Application en statistique
L
Si θ̂n →2 θ alors
— le biais de θ̂n tend vers 0.
— la variance tend vers 0.

— On a d’après l’inégalité de Jensen


p p
E|Xn − X| = E (Xn − X)2 ≤ E|Xn − X|2 .

— On déduit la propriété suivante.

Propriété
L L
Xn →2 X =⇒ Xn →1 X.

Théorème
Lp P
Si Xn → X alors Xn → X.
— Attention : la réciproque est fausse !
— On peut comme contre-exemple utiliser pour p = 2 la suite de v.a.r. de loi
√ 1 1
P(Xn = n) = et P(Xn = 0) = 1 − .
n n

28
1.4 La convergence en loi
— Bien que différent, les trois modes de convergence vus précédemment sont de même nature et peuvent être
abordés comme des variantes de la convergence habituelle.

— Il existe un autre mode de convergence, différent des précédents mais très utile en probabilité : la convergence
en loi, ou convergence faible ou encore convergence étroite.

— Dans cette partie, nous donnons la définition ainsi que les principales propriétés de ce nouveau mode
de convergence. Pour plus de détails, ainsi que pour les preuves des résultats, on pourra consulter
[Jacod and Protter, 2003].

L’idée
— La loi de Xn se rapproche de la loi de X lorsque n est grand.
— Définir la convergence en loi par quelque chose du genre


 pour n grand L(Xn ) ≈ L(X)
 ou


L
Xn → X ⇐⇒ ∀A ∈ B(R), limn→∞ P(Xn ∈ A) = P(X ∈ A) (1)
ou




∀x ∈ R, limn→∞ FXn (x) = FX (x)

Mais...
Cette définition n’est cependant pas totalement satisfaisante.

(Contre) exemple
— (Xn )n de loi uniforme sur ] − 1/n; 1/n[ et X = 0 p.s.

Cv p.s., proba, Lp
— On a pour tout ε > 0

P(|Xn | > ε) =1 − P(−ε < Xn < ε)


    
n 1 1
=1 − min , ε − max − , −ε
2 n n
=0 pour n assez grand.

P
— Conclusion : Xn → X (mais aussi p.s. et dans Lp ).

Remarque
— Cependant
1

P(Xn ≤ 0) = 2 6= 1 = P(X ≤ 0)
1
P(Xn > 0) = 2 6= 0 = P(X > 0)
— Conséquence : (Xn )n ne converge pas en loi vers X au sens de la définition (1).

Remarque
— Pour tout intervalle [a, b] avec a 6= 0 et b 6= 0, on a

lim P(Xn ∈ [a, b]) = P(X ∈ [a, b]).


n→∞

— On a également pour x 6= 0 limn→∞ FXn (x) = Fx (x).


— Les problèmes de la définition (1) se situent lorsque x = 0, c’est-à-dire en l’unique point de discontinuité de
la fonction de répartition de FX .

29
Convergence en loi
Définition
On dit que la suite (Xn )n∈N converge en loi vers X si, en tout point de continuité de FX , on a limn→∞ FXn (x) =
L
FX (x). On note Xn → X.

Exemple
— Sur l’exemple précédent on a

 0 si x ≤ −1/n
FXn (x) = n/2(x + 1/n) si − 1/n < x ≤ 1/n
1 si x > 1/n.

— Ainsi, 
limn→∞ FXn (x) = 0 si x < 0
limn→∞ FXn (x) = 1 si x > 0.
L
— Comme FX est discontinue en 0, on conclut que Xn → X.

Attention
Remarque
— Les opérations conservées par les cv en probabilités et presque sure ne le sont pas forcément par la convergence
en loi !
L
— Par exemple, Xn → X n’implique pas
— P(Xn ∈ A) → P(X ∈ A), ∀A (déjà vu) ;
1
— E[Xn ] → E[X]. Il suffit de prendre L(Xn ) = n δ{n} + (1 − 1/n)δ{0} ;
L
— Xn − X → 0. Il suffit de prendre L(X) = N (0, 1) et Xn = (−1)n X.

Fonctions caractéristiques
— Très souvent utilisées pour montrer des convergences en loi.

Définition
On appelle fonction caractéristique de X la fonction ϕX : R → C définie comme la transformée de Fourier de sa
loi de probabilité
ϕX (t) = E[eitX ].

Calcul en pratique
— Si X est discrète de support S et de fonction de masse πX alors
X
ϕX (t) = πX (x)eitx .
x∈S

— Si X est absolument continue de densité fX alors


Z
ϕX (t) = eitx fX (x) dx.
R

30
Loi Fonction caractéristique
Bernoulli B(p) peit + (1 − p)
Binomiale B(n, p) (peit + (1 − p))n
it−1
Poisson P(λ) eλ(e )
Géométrique G(p) peit /(1 − (1 − p)eit )
Uniforme U([−a, a]) sin(at)/(at)
Exponentielle ξ(λ) λ/(λ − it)
2 2
Gaussienne (m, σ 2 ) eim e−σ t /2

Exemple
Proposition
1. ϕX est définie et continue pour tout nombre réel t ;
2. ϕX est bornée et ∀t |ϕX (t)| ≤ 1 ;
3. ∀(a, b) ∈ R2 , ϕaX+b (t) = eibt ϕX (at) ;
4. Si la loi de X est symétrique alors ϕX est une fonction réelle paire ;
5. ϕX caractérise la loi de X.

Proposition
Si X et Y sont deux v.a.r. indépendantes alors on a pour tout t

ϕX+Y (t) = ϕX (t)ϕY (t).

— Exercice : calculer la fonction caractéristique de la loi Binomiale B(n, p) en utilisant la propriété précédente.

Fonction caractéristique et moments


— En plus de caractériser la loi, la fonction caractéristique permet de calculer les moments d’une v.a.r. (lorsqu’ils
existent).

Théorème
Si il existe n ∈ N? tel que E[|X|n ] < ∞, alors
1. ϕX est continument dérivable jusqu’à l’ordre n inclu ;
(k)
2. ∀k = 0, 1, . . . , n, ϕX (0) = ik E[X k ].
3. On a le développement
n
X (it)k
ϕX (t) = E[X k ] + o(|t|n )
k!
k=0

lorsque t → 0.

Retour à la convergence en loi


— La fonction caractéristique est très souvent utilisée pour montrer des convergences en loi grâce au théorème
suivant.

Théorème
Les trois assertions suivantes sont équivalentes :
L
1. Xn → X ;
2. Pour toute fonction f : R → R continue bornée, on a limn→∞ E[f (Xn )] = E[f (X)].
3. Pour tout t ∈ R, on a limn→∞ ϕXn (t) = ϕX (t).

— La dernière assertion est une conséquence directe du théorème de Paul Levy (voir [Jacod and Protter, 2003]).

31
Exemples
Binomiale vers Poisson
1. Soit (Xn )n∈N une suite de variable aléatoire de loi B(n, pn ) telle npn → λ lorsque n → ∞. On a lorsque
n → ∞ (faire un DL)
n it
ϕXn (t) = [pn eit + (1 − pn )]n ∼ 1 + (eit − 1)pn → eλ(e −1) .

L L
2. On déduit Xn → X avec X qui suit une loi de Poisson de paramètre λ. On note Xn → P(λ).

Poisson vers normale


— Soit (Xn )n∈N une suite de variables aléatoires de loi de Poisson de paramètre λn avec λn → ∞ lorsque
n → ∞.
— De la même manière que dans l’exemple précédent on montre que
Xn − λn L
√ → N (0, 1).
λn

Convergence en loi et densités


— Dans les cas discret et absolument continue, la convergence en loi peut également se montrer à partir des
fonctions de masse et de densité.

Théorème
L
1. Soit Xn et X des v.a.r. à valeurs dans un espace E fini ou dénombrable. Alors Xn → X si et seulement si

∀j ∈ E, lim P(Xn = j) = P(X = j).


n→∞

2. Soit Xn et X des v.a.r. dont les lois admettent pour densité (par rapport à la mesure de Lebesgue) fn et f .
L
Si pour (presque) tout x de R on a limn→∞ fn (x) = f (x), alors Xn → X.

— La convergence en loi est préservée par certaines opérations arithmétiques.

Théorème (Slutsky)
Soit (Xn )n∈N et (Yn )n∈N deux suites de v.a.r., X une v.a.r. et a un réel. On a :
L L
1. Si Xn → X et Yn → a alors

L L Xn L X
Xn + Yn → X + a, Xn Yn → aX et → (si a 6= 0).
Yn a

L
2. Si g : R → R est continue en tout point de R alors g(Xn ) → g(X).

— Attention : les résultats ne sont plus vraies si Yn converge vers une variable aléatoire Y .

Relation entre les convergences


Théorème
P L
Si Xn → X alors Xn → X.
— Réciproque fausse : il suffit de prendre X ∼ N (0, 1) et Xn = (−1)n X.
— La réciproque devient vraie lorsque Xn converge en loi vers une variable constante a. On a
L P
Xn → a ⇐⇒ Xn → a.

— On peut résumer les relations entre les différents modes de convergence par le diagramme suivant :

32
Lp Proba Loi

p.s.

2 Lois des grands nombres et Théorème Central Limite


Présentation
— X1 , . . . , Xn i.i.d. admettant une espérance µ = E[X1 ].

— Intuitivement, lorsque n augmente la moyenne empirique


n
1X
X̄n = Xi
n i=1

doit se "rapprocher" de µ.

— Les lois des grands nombres et le théorème central limite permettent de préciser rigoureusement ce rapproche-
ment.

2.1 Lois des grands nombres


Un exemple
— Soit X1 , . . . , Xn n v.a.r. indépendantes de loi Bernoulli de paramètre p.
— Question : est-ce que X̄n converge en probabilité vers p ?
— On a d’après Bienaymé-Chebychev ∀ε > 0
 p(1 − p)
P X̄n − p ≥ ε ≤ →0 quand n → ∞.
nε2
P
— Réponse : X̄n → p.

Lois faibles et fortes


— Les lois des grands nombres permettent de généraliser ce type de résultats à d’autres lois que la loi de
Bernoulli.
— On parle de lois faibles des grands nombres pour des convergences en probabilité. Pour des convergences
presque sûre, on parlera de lois fortes des grands nombres.

2 lois faibles des grands nombres


Loi faible dans L1
Soit (Xn )n∈N une suite de v.a.r. 2 à 2 indépendantes, de même loi et qui admettent une espérance. On note
E[X1 ] = µ. On a
n
1X L
Xi →1 µ.
n i=1

Loi faible dans L2


Soit (Xn )n∈N une suite de v.a.r. 2 à 2 non corrélées, de même loi et qui admettent une variance. On note E[X1 ] = µ.
On a
n
1X L
Xi →2 µ.
n i=1

— On pourra consulter [Foata and Fuchs, 2003], chapitre 17, pour la preuve de ces résultats.

33
Loi forte des grands nombres
— Elle s’obtient en supposant l’indépendance mutuelle.
Loi forte des grands nombres
Soit (Xn )n∈N une suite de v.a.r. indépendantes, de même loi et qui admettent une espérance. On note E[X1 ] = µ.
On a
n
1X p.s.
Xi → µ.
n i=1

Application
— X1 , . . . , Xn i.i.d de loi E(λ) avec λ > 0 (inconnu).
p.s.
— LFGN =⇒ X̄n → 1/λ.
p.s.
— Opérations sur les convergences p.s. : 1/X̄n → λ.

Méthode de Monte-Carlo
R1
— Soit f :]0, 1[→ R intégrable. On cherche à approcher I = 0 f (x) dx.
— Pour X de loi uniforme sur [0, 1], on a
Z 1
I= f (x) dx = E[f (X)].
0

— LFGN : Soit (Xn )n une suite de v.a.r i.i.d de loi uniforme sur [0, 1]. Alors (f (Xn ))n une suite de v.a.r i.i.d
et on a
n
1X p.s.
f (Xi ) → E[f (X)] = I.
n i=1

Algorithme de Monte-Carlo
1. Générer n (grand) observations suivant une loi uniforme sur [0, 1] ;
Pn
2. Approcher I par n1 i=1 f (Xi ).

2.2 Le théorème central limite


Présentation
— Soit (Xn )n∈N une suite de v.a.r. indépendantes et de même loi N (µ, σ 2 ).
— On rappelle que
√ X̄n − µ
n ∼ N (0, 1).
σ
— Interprétation : L(X̄n ) = N (µ, σ 2 /n).
Approche TCL
— Le théorème central limite stipule que, sous des hypothèses très faibles, on peut étendre ce résultat (pour n
grand) à "n’importe quelle” suite de variables aléatoires indépendantes.
— C’est l’un des résultats les plus impressionnants et les plus utilisés en probabilités et statistique.

Le TCL
Théorème Central Limite (TCL)
2
Soit (Xn )n∈N une suite de variables
Pnaléatoires indépendantes, de même loi, et telles que E[Xi ] < +∞. On note
2 1
E[Xi ] = µ, V[Xi ] = σ et X̄n = n i=1 Xi . On a alors
√ X̄n − µ L
n → N (0, 1) quand n → ∞.
σ
— Les hypothèses sont faibles : on demande juste des v.a.r i.i.d. qui admettent une variance.
— Conséquence : si n est suffisamment grand, on pourra approcher la loi de X̄n par la loi N (µ, σ 2 /n).
— On pourra écrire L(X̄n ) ≈ N (µ, σ 2 /n) mais pas
L
L(X̄n ) → N (µ, σ 2 /n).

34
Eléments de preuve
— Bien que ce résultat soit impressionnant, on peut voir la preuve comme un "simple" exercice sur les fonctions
caractéristiques (voir [Jacod and Protter, 2003] pour des compléments.
— On note ϕ la fonction caractéristique des variables aléatoires Xi − µ et

√ X̄n − µ
Yn = n .
σ
— On obtient des propriétés de la fonction caractéristique
  n
t
ϕYn (t) = ϕ √ .
σ n

— De plus
ϕ(0) = 1, ϕ0 (0) = 0 et ϕ00 (0) = −σ 2 .
— On déduit
σ 2 u2
ϕ(u) = 1 − + o(u2 )
2
et
ϕYn (t) = exp n log(1 − t2 /2n + o(1/n)) .


— Par conséquent
lim ϕYn (t) = exp(−t2 /2)
n→∞

et t 7→ exp(−t2 /2) est la fonction caractéristique de la loi N (0, 1).


L
— D’après le théorème de Paul Levy, on conclut Yn → N (0, 1).

Exemple : loi de Bernoulli


— Soit (Xn )n∈N une suite de v.a.r. i.i.d. de loi de Bernoulli de paramètre p ∈]0, 1[.
— On a d’après la loi forte des grands nombres
p.s.
X̄n → p quand n → ∞

et d’après le théorème central limite

√ X̄n − p L
np → N (0, 1) quand n → ∞.
p(1 − p)

Illustration

Slutsky
— Par continuité, on a q
P p
(X̄n )(1 − X̄n ) → p(1 − p),
et donc p
p(1 − p) P
p → 1.
(X̄n )(1 − X̄n )
— On obtient donc d’après Slutsky
p
√ X̄n − p √ X̄n − p p(1 − p) L
np = np ×p → N (0, 1).
X̄n (1 − X̄n ) p(1 − p) (X̄n )(1 − X̄n )

Remarque importante
Ce type de raisonnement est très souvent utilisé pour trouver des intervalles de confiance asymptotique.

35
20 20

15 15

10 10

5 5

0 0
0.3 0.4 0.5 0.6 0.7 0.3 0.4 0.5 0.6 0.7

20 20

15 15

10 10

5 5

0 0
0.3 0.4 0.5 0.6 0.7 0.3 0.4 0.5 0.6 0.7

Figure 1 – Approximation TCL pour le modèle de Bernoulli B(1/2) avec n = 50, 100, 200, 500.

Exemple : loi exponentielle


— Soit (Xn )n∈N une suite de v.a.r. i.i.d. de loi exponentielle de paramètre λ > 0.
— On a d’après la loi forte des grands nombres

p.s. 1 1 p.s.
X̄n → et → λ quand n → ∞
λ X̄n
et d’après le théorème central limite

√ X̄n − 1/λ L
n → N (0, 1) quand n → ∞.
1/λ

Problème
— Comment obtenir un TCL pour 1/X̄n ?
— La delta méthode permet d’y parvenir.

Delta méthode
— Elle permet (notamment) d’étendre le TCL à des estimateurs g(X̄n ) qui s’écrivent comme une fonction de la
moyenne empirique.

Théorème (Delta méthode)


Soit (Xn )n une suite de v.a.r. et (vn ) une suite de réels qui tend vers +∞. On suppose qu’il existe un réel a et une
variable X tels que
L
vn (Xn − a) → X.
Si g est une fonction dérivable au point a, alors
L
vn (g(Xn ) − g(a)) → g 0 (a)X.

En particulier, si X ∼ N (0, σ 2 ) et g 0 (a) 6= 0, alors


L
vn (g(Xn ) − g(a)) → N (0, (σg 0 (a))2 ).

36
Application : loi exponentielle
— Pour le modèle exponentiel, on a montré grâce au TCL

 
L 1
n(X̄n − 1/λ) → N 0, 2 quand n → ∞.
λ

— On applique la delta méthode avec g(u) = 1/u :


 
1 L
− λ → N 0, λ2

n quand n → ∞,
X̄n
ou encore √  
n 1 L
− λ → N (0, 1) quand n → ∞.
λ X̄n

— Donc, en note λ̂ = 1/X̄n , d’après Slutsky,


√ 
n 
L
λ̂ − λ → N (0, 1) quand n → ∞.
λ̂

3 Bibliographie
Références

Biblio3

[Foata and Fuchs, 2003] Foata, D. and Fuchs, A. (2003). Calcul des probabilités. Dunod, 2e edition.
[Jacod and Protter, 2003] Jacod, J. and Protter, P. (2003). L’essentiel en théorie des probabilités. Cassini.
[Rouvière, 2015] Rouvière, L. (2015). Probabilités générales. Polycopié de cours, https ://[Link]-
[Link]/[Link].

37
Quatrième partie
Critères de performance asymptotiques, intervalles
de confiance et estimation multivariée
Rappel
— X1 , . . . , Xn i.i.d de loi Pθ avec θ ∈ Θ univarié.

— θ̂ = θ̂(X1 , . . . , Xn ) = θ̂n un estimateur de θ.

— Critère de performance pour θ̂n : biais, variance, risque quadratique, VUMSB...

Dans cette partie


— Critères de performance asymptotiques ;

— Estimation par intervalles ;

— Estimation multivariée (θ ∈ Rp ).

1 Critères asymptotiques
Pourquoi ?
Postulat
On veut définir des estimateurs qui soient de plus en plus précis lorsque la quantité d’information augmente.
— La quantité d’information à disposition du statisticien peut être représentée par le nombre d’observations n.
— On cherche donc des estimateurs de plus en plus précis lorsque n augmente.
— Mathématiquement, on va donc chercher des estimateurs θ̂n qui convergent (en probabilité, presque sûrement,
en loi...) vers θ.

Consistance
Définition
P
On dit que l’estimateur θ̂n est consistant (ou convergent) si θ̂ → θ, c’est-à-dire

∀ε > 0 lim Pθ (|θ̂n − θ| ≥ ε) = 0.


n→∞

Définition
Soit (vn )n une suite de réels positifs telle que vn → ∞. On dit que θ̂n est asymptotiquent normal, de vitesse vn si
L
vn (θ̂n − θ) → N (0, σθ )

où σθ est positif.

Outils consistance
— Bienaymé-Tchebychev.
— Loi forte des grands nombres.
— Opérations sur les convergences en probabilité.

Exemple
— Modèle de Bernoulli : p̂n = X̄n est consistant.
— Modèle exponentiel : λ̂n = 1/X̄n est consistant.

38
Outils normalité asymptotique
— Théorème central limite.
— Delta méthode.

Exemple

— Modèle de Bernoulli : p̂n = X̄n est asymptotiquement normal à la vitesse n:
√ L
n(p̂n − p) → N (0, p(1 − p)).

— Modèle exponentiel : λ̂n = 1/X̄n est asymptotiquement normal à la vitesse n:
√ L
n(λ̂n − λ) → N (0, λ2 ).

2 Estimation par intervalles


Motivations
— Donner une seule valeur pour estimer un paramètre peut se révéler trop ambitieux.

— Exemple : on traite 100 patients à l’aide d’un traitement. 72 guérissent. Affirmer que la performance est de
72% lorsque on prend le traitement (alors qu’on ne l’a testé que sur 100 athlètes) est un peu fort.

— Il peut parfois être plus raisonnable de donner une réponse dans le genre, la performance se trouve dans
l’intervalle [70%, 74%] avec une confiance de 90%.

Intervalle de confiance
— X1 , . . . , Xn un échantillon i.i.d. de loi Pθ avec θ ∈ Θ inconnu.

Définition
Soit α ∈]0, 1[. On appelle intervalle de confiance pour θ tout intervalle de la forme [An , Bn ], où An et Bn sont des
fonctions telles que :
P(θ ∈ [An , Bn ]) = 1 − α.
Si limn→∞ P(θ ∈ [An , Bn ]) = 1 − α, on dit que [An , Bn ] est un intervalle de confiance asymptotique pour θ au
niveau 1 − α.

Remarque importante
— An = An (X1 , . . . , Xn ) et Bn = Bn (X1 , . . . , Xn ) sont aléatoires !
— Les logiciels renverront les réels an = An (x1 , . . . , xn ) et bn = Bn (x1 , . . . , xn ).

Construction d’un IC
— Inégalité de Bienaymé-Tchebychev (intervalle de confiance par excés) :

P(θ ∈ [An , Bn ]) ≥ 1 − α.

— Utilisation d’une fonction pivotable pour le paramètre θ : fonction mesurable des observations et du
paramètre inconnu mais dont la loi ne dépend pas de θ.
Méthode
1. se donner un niveau 1 − α.
2. trouver un estimateur θ̂n de θ dont on connait la loi afin de construire une fonction pivotable.

39
Construction d’IC
— Un intervalle de confiance pour un paramètre inconnu θ se construit généralement à partir d’un estimateur
de θ dont on connait la loi.

— A partir de la loi de θ̂, on cherche deux bornes An et Bn telles que

P(θ ∈ [An , Bn ]) = 1 − α.

Remarque
A priori, plus α est petit, plus l’intervalle aura un grande amplitude.

Exemple
— X1 , . . . , Xn i.i.d. de loi normale N (µ, 1).
— On suppose la variance connue et on cherche un IC pour µ.

Construction de l’IC
— Estimateur : µ̂ = X̄n .
— Loi de l’estimateur : L(µ̂) = N (µ, 1/n).
— On déduit  
1 1
P µ̂ − q1−α/2 √ ≤ µ ≤ µ̂ + q1−α/2 √ = 1 − α.
n n
— Un intervalle de confiance de niveau 1 − α est donc donné par
 
1 1
µ̂ − q1−α/2 √ , µ̂ + q1−α/2 √ .
n n

Quantiles
— q1−α/2 désigne le quantile d’ordre 1 − α/2 de la loi normale N (0, 1) défini par
 α
P X ≤ q1−α/2 = 1 − .
2

Définition
Plus généralement, le quantile d’ordre α d’une variable aléatoire X est défini par le réel qα vérifiant

qα = inf {x : F (x) ≥ α}.


x

— Les quantiles sont généralement renvoyés par les logiciels statistique :


> c(qnorm(0.975),qnorm(0.95),qnorm(0.5))
[1] 1.959964 1.644854 0

Exemple
— n = 50 observations issues d’une loi N (µ, 1) :
> head(X)
[1] 3.79 5.28 6.08 2.65 5.43 5.51

— Estimation de µ :
> mean(X)
[1] 4.55

— Intervalle de confiance de niveau 95% :

40
> binf <- mean(X)-qnorm(0.975)*1/sqrt(50)
> bsup <- mean(X)+qnorm(0.975)*1/sqrt(50)
> c(binf,bsup)
[1] 4.269766 4.824128

Intervalle de confiance pour une proportion


— X1 , . . . , Xn i.i.d. de loi B(p).
— On cherche un intervalle de confiance asymptotique pour p.

Construction de l’IC
— Estimateur : p̂n = X̄n .
— Loi asymptotique de l’estimateur :
√ L
n(p̂n − p) → N (0, p(1 − p)).
— On déduit r r !
p(1 − p) p(1 − p)
P p̂n − q1−α/2 ≤ µ ≤ p̂n + q1−α/2 → 1 − α.
n n

Première version de l’IC


— Un intervalle de confiance asymptotique de niveau 1 − α est donc donné par
" r r #
p(1 − p) p(1 − p)
p̂n − q1−α/2 , p̂n + q1−α/2 .
n n

— Problème : l’IC dépend de p qui est inconnu !


— Solution : Slutsky =⇒
√ p̂n − p L
np → N (0, 1).
p̂n (1 − p̂n )

Conclusion
Un intervalle de confiance asymptotique de niveau 1 − α est donné par
" r r #
p̂n (1 − p̂n ) p̂n (1 − p̂n )
p̂n − q1−α/2 , p̂n + q1−α/2 .
n n

— n = 500 observations issues d’une loi B(p).


— Estimation de p :
> phat <- mean(X)
> phat
[1] 0.756

— Intervalle de confiance asymptotique de niveau 95% :


> binf <- phat-qnorm(0.975)*sqrt(phat*(1-phat)/n)
> bsup <- phat+qnorm(0.975)*sqrt(phat*(1-phat)/n)
> c(binf,bsup)
[1] 0.718354 0.793646

Fonction [Link]
On peut récupérer un IC plus précis à l’aide de la fonction [Link] :
> [Link](sum(X),n,correct=FALSE)$[Link]
[1] 0.7164952 0.7916011
attr(,"[Link]")
[1] 0.95

41
Loi normale (cas réel)
— X1 , . . . , Xn i.i.d de loi N (µ, σ 2 ).
— On a vu qu’un IC pour µ est donné par
 
σ σ
µ̂ − q1−α/2 √ , µ̂ + q1−α/2 √ .
n n

Problème
— Dans la vraie vie, σ est inconnu !
— L’intervalle de confiance n’est donc pas calculable.

Idée
1. Estimer σ 2 par
n
c2 = 1
X
σ (Xi − X̄n )2
n i=1

2. Et considérer l’IC :  
σ σ
µ̂ − q1−α/2 √ , µ̂ + q1−α/2 √ .
b b
(2)
n n

Problème
— On a bien
√ X̄n − µ
 
L n = N (0, 1)
σ
— mais
√ X̄n − µ
 
L n 6= N (0, 1)
σ
b

— Pour avoir la loi de


√ X̄n − µ
n 6= N (0, 1)
σ
b
avec
n
c2 = 1
X
σ (Xi − X̄n )2
n i=1

— il faut définir d’autres lois de probabilité.

La loi normale (Rappel)


Définition
— Une v.a.r X suit une loi normale de paramètres µ ∈ R et σ 2 > 0 admet pour densité

(x − µ)2
 
1
f (x) = √ exp − .
2πσ 2σ 2

Propriétés
— E[X] = µ et V[X] = σ 2 .
— Si X ∼ N (µ, σ 2 ) alors
X −µ
∼ N (0, 1).
σ

42
Loi du χ2
Définition
— Soit X1 , . . . , Xn n variables aléatoires réelles indépendantes de loi N (0, 1). La variable Y = X12 + . . . + Xn2
suit une loi duChi-Deux à n degrés de liberté. Elle est notée χ2 (n).
— E[Y ] = n et V[Y ] = 2n.
3 ddl 10 ddl
0.25

0.20

0.15

0.10

0.05

0.00

0 10 20 30 0 10 20 30

Loi de Student
Définition
— Soient X et Y deux v.a.r. indépendantes de loi N (0, 1) et χ2 (n). Alors la v.a.r.
X
T =p
Y /n
suit une loi de student à n degrés de liberté. On note T (n).
— E[T ] = 0 et V[T ] = n/(n − 2).
— Lorsque n est grand la loi de student à n degrés de liberté peut être approchée par la loi N (0, 1).
2 ddl 5 ddl
0.4

0.3

0.2

0.1

0.0

10 ddl 100 ddl


0.4

0.3

0.2

0.1

0.0
−4 −2 0 2 4 −4 −2 0 2 4

Légende
Densités des lois de student à 2, 5, 10 et 100 degrés de liberté (bleu) et densité de la loi N (0, 1) (rouge).

Loi de Fisher
Définition
— Soient X et Y deux v.a.r indépendantes de lois χ2 (m) et χ2 (n). Alors la v.a.r
X/m
F =
Y /n
suit une loi de Fisher à m et n degrés de liberté. On note F(m, n).
— Si F ∼ F(m, n) alors 1/F ∼ F(n, m).

43
(5,2) ddl (10,4) ddl

0.6

0.4

0.2

0.0

0.0 2.5 5.0 7.5 10.0 0.0 2.5 5.0 7.5 10.0

Figure 2 – Densités F(5, 2) et F(10, 4)

Théorème de Cochran
— X1 , . . . , Xn i.i.d. de loi N (µ, σ 2 ).
— On note
n
1 X
S2 = (Xi − X̄n )2 .
n − 1 i=1

Théorème de Cochran
On a alors
2
1. (n − 1) Sσ2 ∼ χ2 (n − 1).
2. X̄n et S 2 sont indépendantes.
3. On déduit
√ X̄n − µ
n ∼ T (n − 1).
S

Remarque
Les résultats 1 et 3 sont très importants pour construire des IC.

IC pour la loi gaussienne


IC pour µ
On déduit du résultat précédent qu’un IC de niveau 1 − α pour µ est donné par
 
S S
X̄n − t1−α/2 √ , X̄n + t1−α/2 √ ,
n n

où t1−α/2 est le quantile d’ordre 1 − α/2 de la loi de Student à n − 1 ddl.

IC pour σ 2
Un IC de niveau 1 − α pour σ 2 est donné par

(n − 1)S 2 (n − 1)S 2
 
,
χ1−α/2 χα/2

où χ1−α/2 et χα/2 sont les quantiles d’ordre 1 − α/2 et α/2 de loi χ2 (n − 1).

Exemple : modèle Gaussien - IC pour µ


— n = 50 observations issues d’une loi N (µ, σ 2 ) :
> head(X)
[1] 3.79 5.28 6.08 2.65 5.43 5.51

— Estimation de µ :
> mean(X)
[1] 4.55

— Estimation de σ 2 :

44
> S <- var(X)
> S
[1] 0.783302

— Intervalle de confiance de niveau 95% :


> binf <- mean(X)-qt(0.975,49)*sqrt(S)/sqrt(50)
> bsup <- mean(X)+qt(0.975,49)*sqrt(S)/sqrt(50)
> c(binf,bsup)
[1] 4.295420 4.798474

— On peut obtenir directement l’intervalle de confiance à l’aide de la fonction [Link]


> [Link](X)$[Link]
[1] 4.295420 4.798474
attr(,"[Link]")
[1] 0.95

Exemple : modèle gaussien - IC pour σ 2


— On obtient l’IC pour σ 2 à l’aide de la formule

(n − 1)S 2 (n − 1)S 2
 
,
χ1−α/2 χα/2

— On peut donc le calculer sur R :


> binf <- 49*S/qchisq(0.975,49)
> bsup <- 49*S/qchisq(0.025,49)
> c(binf,bsup)
[1] 0.5465748 1.2163492

3 Estimation multivariée
Jusqu’à présent
— X1 , . . . , Xn i.i.d de loi Pθ avec θ ∈ R.

— La loi Pθ dépend donc d’un seul paramètre (à estimer).

— Dans de nombreux problèmes concrets, les choses sont plus complexes.

— Il faut donc envisager le cas où on dispose de plus d’un paramètre.

Cadre
— Pour simplifier on se place dans le cas d’un paramètre bivarié.
— X1 , . . . , Xn i.i.d de loi Pθ avec θ = (θ1 , θ2 ) inconnu dans R2 .

Estimateur
Un estimateur θ̂ = (θ̂1 , θ̂2 ) est une fonction mesurable de X1 , . . . , Xn indépendante de θ à valeurs dans R2 .

Exemple : le modèle gaussien


— θ = (µ, σ 2 )
— θ̂ = (µ̂, S 2 ) tels que
n
1 X
µ̂ = X̄n et S 2 = (Xi − X̄n )2 .
n − 1 i=1

45
3.1 Biais, variance, risque quadratique
— Pour le biais, on travaille composante par composante :
   
E[θ̂1 ] b(θ̂1 )
E[θ̂] = et b(θ̂) = E[θ̂] − θ = .
E[θ̂2 ] b(θ̂2 )

— θ̂ = (θ̂1 , θ̂2 ) est un vecteur aléatoire ! Il ne va donc pas posséder de variance mais une matrice de variance
covariance :  
V[θ̂1 ] cov(θ̂1 , θ̂2 )
Σθ̂ = .
cov(θ̂2 , θ̂1 ) V[θ̂2 ]

Exemple : le modèle gaussien


— θ = (µ, σ 2 ) et θ̂ = (X̄n , S 2 ).

— On a b(θ̂) = (0, 0).


— D’après Cochran, on déduit !
σ2
n 0
Σθ̂ = 2σ 4 .
0 n−1

Risque quadratique
— Il existe également un risque quadratique en estimation multivariée.

Définition
On appelle risque quadratique de θ̂ = (θ̂1 , θ̂2 ) le réel positif

R(θ, θ̂) = Eθ kθ̂ − θk2

Propriété
R(θ, θ̂) = kEθ (θ̂) − θk2 + Eθ kθ̂ − Eθ θ̂k2 .

— On a toujours une décomposition "biais/variance".

3.2 Critères asymptotiques


Consistance
Définition
P
On dit que l’estimateur θ̂ est consistant (ou convergent) si θ̂ → θ, c’est-à-dire

∀ε > 0 lim Pθ (kθ̂ − θk ≥ ε) = 0.


n→∞

— La valeur absolue est juste remplacée par la norme euclidienne.


P P P
— En pratique, ce n’est pas difficile : en effet θ̂ → θ si et seulement si θ̂1 → θ1 et θ̂2 → θ2 .

Exemple : le modèle gaussien


θ̂ = (X̄n , S 2 ) est consistant.

Normalité asymptotique
Définition
Soit (vn )n une suite de réels positifs telle que vn → ∞. On dit que θ̂ = (θ̂1 , θ̂2 ) est asymptotiquent normal, de
vitesse vn si
L
vn (θ̂ − θ) → N (0, Σθ )
où Σθ est une matrice symétrique 2 × 2 définie positive.
— La loi limite est une loi gaussienne multivariée.
— Il existe une version multivariée du TCL et de la delta méthode. Ce sont les principaux outils pour montrer
la normalité asymptotique d’estimateurs multivariés.

46
Vecteurs gaussiens (rappels)
Définition
— X = (X1 , X2 ) est un vecteur aléatoire gaussien si toute combinaison linéaire de ses marginales α1 X1 + α2 X2
est une variable aléatoire réelle gaussienne.
— On note X ∼ N (µ, Σ) où µ ∈ R2 est l’espérance de X et Σ est la matrice (2 × 2) de variance covariance de
X.

Propriété
Soit X un vecteur gaussien de loi N (µ, Σ). Alors X admet une densité si et seulement si det(Σ) 6= 0. Elle est donnée
par  
1 1
f (x) = p exp − (x − µ)0 Σ−1 (x − µ) .
2π det(Σ) 2

TCL et delta méthode multivariés


TCL
Soit (Xn )n une suite de vecteurs aléatoires i.i.d. d’espérance µ ∈ R2 et de matrice de variance covariance (2 × 2)
Σ, alors
√ L
n(X̄n − µ) → N (0, Σ).

Delta méthode
L
Si vn (θ̂ − θ) → X ∼ N (0, Σ) et si h : Rd → Rm admet des dérivées partielles au point θ, alors
L
vn (h(θ̂) − h(θ)) → Dhθ X
∂hi
où Dhθ est la matrice m × d de terme (Dhθ )ij = ∂θj (θ).

3.3 Borne de Cramer-Rao


Rappels - cas univarié
— X1 , . . . , Xn i.i.d de loi Pθ avec θ ∈ R.

Inégalité de Cramér-Rao
Si θ̂ est un estimateur sans biais de θ alors
1
Vθ [θ̂] ≥
nI(θ)
où " 2 #

I(θ) = Eθ log(L(X, θ)) .
∂θ

Retour au cas multivarié


— X1 , . . . , Xn i.i.d de loi Pθ avec θ = (θ1 , θ2 ) ∈ R2 .

— On désigne par L(x, θ) la vraisemblance de θ pour une observation x.

Exemple : le modèle gaussien


— θ = (µ, σ 2 ).
— La vraisemblance est
(x − µ)2
 
2 1
L(x, µ, σ ) = √ exp − .
2πσ 2 2σ 2

47
Matrice d’information de Fisher
Définition
La matrice d’information de Fisher (si elle existe) au point θ est la matrice de dimension 2 × 2 de terme général
 
∂ ∂
I(θ)i,j =Eθ log(L(X, θ)) log(L(X, θ))
∂θi ∂θj
2
 

= − Eθ log(L(X, θ))
∂θi ∂θj
avec 1 ≤ i, j ≤ 2.

Exemple
Pour le modèle gaussien, la matrice d’information de Fisher est donnée par
1 
0
I(θ) = σ 2
avec θ = (µ, σ 2 ).
0 2σ1 4

Borne de Cramer Rao


— X1 , . . . , Xn i.i.d de loi Pθ avec θ = (θ1 , θ2 ) ∈ R2 .
Théorème
Si elle existe, la borne de Cramer-Rao du modèle précédent est n1 I(θ)−1 . C’est-à-dire que pour tout estimateur sans
biais θ̂ de θ, on a
1
Σθ̂ ≥sdp I(θ)−1 .
n
Remarques
— L’inégalité est à prendre au sens des matrices semi définies positives :
 
2 0 0 1 −1
∀u ∈ R , u Σθ̂ u ≥ u I(θ) u.
n
— Interprétation similaire au cas univarié : la BCR vue comme une matrice de variance covariance optimale
pour un estimateur sans biais.

Retour au modèle gaussien


— θ̂ = (X̄n , Sn2 ) est sans biais.
— Sa matrice de variance covariance est donnée par
!
σ2
n 0
Σθ̂ = 2σ 4 .
0 n−1

— La BCR vaut −1 !


1 σ2

1 1 0 0
I(θ)−1 = σ2
1 = n
2σ 4
.
n n 0 2σ 4 0 n

— Conclusion : θ̂ n’est pas VUMSB (mais il n’est pas loin).

Retour à l’emv
— L’emv possède, sous certaines hypothèses, de bonnes propriétés.
"Propriété"
Sous certaines hypothèses de régularité sur la loi Pθ , l’emv θ̂M V de θ est
— consistant ;
— asymptotiquement normal :
√ L
n(θ̂M V − θ) → N (0, I(θ)−1 ).

En pratique...
— Les hypothèses de ce résultat sont techniques et généralement difficiles à vérifier.
— Il est souvent plus simple d’obtenir ce résultat en travaillant sur l’emv (c’est ce qu’il faudra faire).

48
Cinquième partie
Approche paramétrique vs non paramétrique pour
les modèles de densité et de régression
Dans ce chapitre
— Nous étudions deux problèmes classiques de la théorie de l’estimation : la densité et la régression.
— A travers ces deux problèmes, nous étudions le compromis entre les erreurs d’estimation et d’approximation.
— Ce compromis sera notamment étudié en confrontant l’approche paramétrique à l’approche non paramétrique.

L’estimation de densité.
— Les données x1 , . . . , xn telles que xi ∈ R.
— L’échantillon : X1 , . . . , Xn i.i.d. de loi P inconnue.
— On suppose que P admet une densité f (qui est donc inconnue).

Le problème
Estimer f .

Performance d’un estimateur


On mesurera la performance d’un estimateur fˆ(.) = fˆ(., X1 , . . . , Xn ) par son risque quadratique ponctuel :

R(fˆ(x)) = E((fˆ(x) − f (x))2 ) = b2 (fˆ(x)) + V(fˆ(x)).

Exemple

X1 X2

0.6

0.4

0.2

0.0 ● ●
● ●● ●●●
●●●
●●●● ●

● ●●
●●
●●●●
●●●●

●●
● ●●
● ● ●● ● ●● ● ●
●●●
●●●
●●
●●
●●
●●
●●●

●●
●●●
●●
●●
●●●
●●●

●●

●●

X3 X4

0.6

0.4

0.2

0.0 ●

●●
●●●


●●
●●
●●●
●●
●●

●●
●●●●
●●

● ●●

●●
●●● ● ● ● ● ● ●●●●●●
●● ●
●●
●●●
●●●

●● ●●
●●●

●●●
●●●
●●●

●●●● ● ●

−2 0 2 4 −2 0 2 4

49
X1 X2

0.6

0.4

0.2

0.0 ●● ●●
●●
●●

●●
●●
●●●

●●

●●

●●

●●

●●

●●


●●


●●



●●
●●



●●



●●



●●



●●


●●


●●



●●


●●


●●

●●



●●


●●



●●


●●



●●



●●



●●



●●



●●



●●


●●



●●

●●



●●



●●


●●



●●



●●


●●


●●

●●


●●●



●●



●●



●●

●●


●●

●●


●●


●●


●●


●●


●●

●●


●●

●●

●●●

●●
●●●●● ● ●
●● ●



●●



●●



●●



●●
●●



●●
●●
●●



●●


●●



●●



●●

●●


●●


●●
●●

●●



●●



●●


●●

●●

●●


●●


●●



●●



●●



●●



●●



●●

●●


●●
●●


●●

●●
●●
●●



●●



●●



●●

X3 X4

0.6

0.4

0.2

0.0 ●
●●


●●
●●




●●
●●


●●




●●


●●



●●


●●


●●

●●


●●




●●




●●



●●


●●


●●

●●


●●


●●




●●


●●●




●●
●●


●●



●●



●●


●●



●●



●●



●●



●●


●●



●●


●●
●●


●●



●●


●●


●●

●●

●●

●●
●●


●●
●●

●●


●●
●●●

●●●

●●
●●●● ●
● ●
●● ●
●●●●

●●
●●
●●

●●

●●

●●

●●●●


●●


●●


●●



●●


●●



●●


●●



●●


●●



●●


●●


●●



●●


●●




●●


●●



●●

●●


●●




●●




●●

●●

●●

●●


●●


●●

●●

●●


●●



●●
●●●


●●
●●



●●


●●



●●

●●

●●
●●


●●


●●



●●



●●


●●

●●


●●


●●


●●



●●


●●


●●


●●


●●


●●

●●
●●

●●●


●●●

●●●

●●●

−2 0 2 4 −2 0 2 4

Le problème de la régression
— Données : (x1 , y1 ), . . . , (xn , yn ). On veut expliquer les sorties yi ∈ R par les entrées xi ∈ Rp .
— Les données sont des réalisations de v.a. (X1 , Y1 ), . . . , (Xn , Yn ) i.i.d. telles qu’il existe une fonction inconnue
m : Rp → R vérifiant
Yi = m(Xi ) + εi , i = 1, . . . , n
où les εi sont i.i.d de loi N (0, σ 2 ).

Le problème
Estimer m.

Performance d’un estimateur


On mesurera la performance d’un estimateur m̂(.) = m̂(., X1 , . . . , Xn ) par son risque quadratique ponctuel :

R(m̂(x)) = E((m̂(x) − m(x))2 ) = b2 (m̂(x)) + V(m̂(x)).

Exemple

Y1 Y2


●●
● ●● ● ●
2 ●
● ●
● ●● ●

● ●
● ●● ●
● ● ●
● ●●● ●
● ●
● ● ● ●●●
● ● ● ●
● ● ● ●

1 ● ●● ●● ● ● ● ●
●●
● ●
● ● ●

●●

● ● ● ● ● ●● ● ● ●●
●● ● ●●● ● ● ● ●● ●
●●
● ● ● ●●
● ● ● ●
● ● ●

● ●●● ●
●●
● ● ●

●●● ● ●
● ● ●
● ● ● ● ●
● ● ● ● ●● ●
0 ● ●●● ● ●
● ● ● ● ●
● ● ●
● ● ●
● ● ●
● ● ●●
● ● ● ●
●● ●
● ● ●
● ●
● ● ● ●

● ● ●● ●●
● ●
● ●●
−1 ●
●●
● ●●
● ●
● ●

−2

Y3 Y4

● ●

● ● ● ●
2 ●



● ●


● ● ●
●● ●● ● ●
●● ● ●

● ● ● ●
● ● ●
● ●● ● ●
● ● ●
●●● ●● ●
● ● ● ●● ● ●● ●●
●●
● ● ●● ● ● ● ● ● ●
1 ●● ● ● ● ●● ●●●●
●● ● ●

● ● ● ●

● ●
● ● ●
● ● ● ● ● ●
●● ● ●● ● ● ●
●●
● ● ●● ● ●

● ●●● ●
● ● ● ● ● ● ● ●●
● ● ● ● ●● ● ●●
● ●
● ● ● ●
● ●
● ●
● ●
0 ●● ● ● ● ●●● ● ●

● ● ●
● ● ● ●
● ● ●
●●● ●



−1 ●●
●●





−2
−4 0 4 −4 0 4

50
Y1 Y2


●●
● ●● ● ●
2 ●
● ●
● ●● ●

● ●
● ●● ●
● ● ●
● ●●● ●
● ●
● ● ● ●●●
● ● ● ●
● ● ● ●
●● ● ● ● ● ●
●●
● ●
1 ● ●●

●● ● ●


● ● ●● ● ●● ● ● ●●
●● ● ●●● ● ● ● ●● ●
●●
● ● ● ●●
● ● ● ●
● ● ●

● ●●● ●
●●
● ● ●

●●● ● ●
● ● ●
● ● ● ● ●
● ● ● ● ●● ●
0 ● ●● ● ● ●
● ● ● ● ●
● ● ●
● ● ●
● ● ●
● ● ●●
● ● ● ●
●● ●
● ● ●
● ●
● ● ● ●

● ● ●● ● ●
● ●
● ●●
−1 ●
●●
● ●●
● ●
● ●

−2

Y3 Y4

● ●

● ● ● ●
2 ●



● ●


● ● ●
●● ●● ● ●
●● ● ●

● ● ● ●
● ● ●
● ●● ● ●
● ● ●
●●● ●● ●
● ● ● ●● ● ●● ●●
●●
● ● ●● ● ● ● ● ● ●
1 ●● ● ● ● ●● ●●●●
●● ● ●

● ● ● ●

● ● ● ●
● ● ● ● ● ●
●● ● ●● ● ● ● ●
●●
● ● ●● ● ●

● ●●● ●
● ● ● ● ● ● ● ●●
● ● ● ● ●● ● ●●
● ●
● ● ● ●
● ●
● ●
● ●
0 ●● ● ● ● ●●● ● ●

● ● ●
● ● ● ●
● ● ●
●●● ●



−1 ●●
●●





−2
−4 0 4 −4 0 4

Y1 Y2


●●
● ●● ● ●
2 ●
● ●
● ●● ●

● ●
● ●● ●
● ● ●
● ●●● ●
● ●
● ● ● ●●●
● ● ● ●
● ● ● ●
●● ● ● ● ● ●
●●
● ●
1 ● ●●

●● ● ●


● ● ●● ● ●● ● ● ●●
●● ● ●●● ● ● ● ●● ●
●●
● ● ● ●●
● ● ● ●
● ● ●

● ●●● ●
●●
● ● ●

●●● ● ●
● ● ●
● ● ● ● ●
● ● ● ● ●● ●
0 ● ●● ● ● ●
● ● ● ● ●
● ● ●
● ● ●
● ● ●
● ● ●●
● ● ● ●
●● ●
● ● ●
● ●
● ● ● ●

● ● ●● ● ●
● ●
● ●●
−1 ●
●●
● ●●
● ●
● ●

−2

Y3 Y4

● ●

● ● ● ●
2 ●



● ●


● ● ●
●● ●● ● ●
●● ● ●

● ● ● ●
● ● ●
● ●● ● ●
● ● ●
●●● ●● ●
● ● ● ●● ● ●● ●●
●●
● ● ●● ● ● ● ● ● ●
1 ●● ● ● ● ●● ●●●●
●● ● ●

● ● ● ●

● ● ● ●
● ● ● ● ● ●
●● ● ●● ● ● ● ●
●●
● ● ●● ● ●

● ●●● ●
● ● ● ● ● ● ● ●●
● ● ● ● ●● ● ●●
● ●
● ● ● ●
● ●
● ●
● ●
0 ●● ● ● ● ●●● ● ●

● ● ●
● ● ● ●
● ● ●
●●● ●



−1 ●●
●●





−2
−4 0 4 −4 0 4

— Dans les deux cas, le problème est d’estimer une fonction.


— Poser un modèle revient à supposer que cette fonction appartient à un certain espace F.

Définition
— Si F est de dimension finie, le modèle est paramétrique.
— Si F est de dimension infinie, le modèle est non paramétrique.

A priori
— Non paramétrique : plus flexible mais précision d’estimation plus faible.
— Paramétrique : meilleure précision d’estimation mais plus rigide.

51
F

— Erreur d’estimation : erreur commise par le choix d’une loi dans P par rapport au meilleur choix.
— Erreur d’approximation : erreur commise par le choix de P.

Commentaire
Ces deux termes varient généralement en sens inverse.

1 Le modèle de densité
1.1 Approche paramétrique : le modèle Gaussien
— X1 , . . . , Xn i.i.d. de densité f inconnue.
— On suppose que f ∈ F = {fθ , θ ∈ Θ} avec Θ de dimension finie.

Exemple : le modèle Gaussien


— On suppose f ∈ F = {fµ,σ2 , µ ∈ R, σ 2 > 0}.
— Le problème : estimer µ et σ 2 .

— On peut estimer ces paramètres par maximum de vraisemblance :


n
c2 = 1
X
µ
b = X̄n et σ (Xi − X̄n )2 .
n i=1

— On montre "facilement" que


   
1 2 c2 − σ 2 )2 ] = O 1
µ − µ) ] = O
E[(b et E[(σ .
n n

— En notant θ = (µ, σ 2 ), on déduit  


1
E[kθb − θk2 ] = O .
n

Remarque
1/n est la vitesse paramétrique classique pour l’erreur quadratique.

Exemple
> df <- [Link](X=rnorm(100))
> ggplot(df)+aes(x=X,y=0)+geom_point()+theme_bw()

0.50

0.25

0.00 ● ● ● ● ●●
●● ●●
●●
●●
●●●●

●●●●●
● ●
● ●
●●●
●● ●

●●●

●●
●●
●●
●●●●
●● ●


●●
●● ●
●●
●● ● ● ●

● ●
● ●●●●

● ●
●● ●● ●
●● ●
● ●● ● ●● ● ● ●● ● ●

−0.25

−0.50
−2 −1 0 1 2

— On estime µ et σ 2 :

52
> theta <- c(mean(df$X),var(X))
> theta
[1] -0.1567617 1.0088300

— On trace l’estimateur et on le compare à la densité à estimer :

> x <- seq(-3.5,3.5,by=0.01); dens <- dnorm(x,mean=0,sd=1)


> est <- dnorm(x,mean=theta[1],sd=sqrt(theta[2]))
> df1 <- [Link](x,dens,est); df2 <- melt(df1,[Link]="x")
> names(df2)[2] <- "fonction"
> ggplot(df2)+aes(x=x,y=value,color=fonction)+geom_line(size=1)+theme_bw()

0.4

0.3

fonction
value

0.2 dens
est

0.1

0.0

−2 0 2
x

1.2 Approche non paramétrique : l’estimateur à noyau


Des moyennes locales
— En l’absence d’hypothèse paramétrique forte, on se base sur ce qui se passe au voisinage de x pour estimer
f (x).
— L’histogramme est un estimateur non paramétrique bien connu.

L’histogramme
— P = {I1 , . . . , IK } une partition de R en K intervalles.
— L’histogramme est défini par
n
1 X
f (x) =
b 1X ∈I(x) ,
nλ(I(x)) i=1 i
où I(x) désigne l’intervalle qui contient x et λ(I) la longueur de l’intervalle I.

Exemple
> ggplot(df)+aes(x=X,y=..density..)+geom_histogram(bins=20,fill="blue")+
geom_line(data=df1,aes(x=x,y=dens),color="red",size=2)+theme_bw()

0.4

0.3
..density..

0.2

0.1

0.0

−2 0 2
X

53
Estimateurs à noyau
— L’histogramme n’est pas continu.

— L’estimateur à noyau permet de pallier à ce problème en ne fixant pas de partition.

— L’idée est d’utiliser une fenêtre glissante.


— n = 20 observations.
— On veut estimer la densité en x.
— On considère une fenêtre [x − h, x + h].

x−h x x+h

— On fait comme pour l’histogramme


n
1 X
fˆ(x) = 1X ∈[x−h,x+h] .
2nh i=1 i

— On peut réécrire cet estimateur


n n
1 X 1 X1
fˆ(x) = 1Xi ∈[x−h,x+h] = 1 x−Xi
2nh i=1 nh i=1 2 −1≤ h ≤1
n  
1 X x − Xi
= K
nh i=1 h

avec K(u) = 12 1[−1,1] (u).

Estimateur à noyau de la densité


Définition [Parzen, 1962] R
Etant donné h > 0 et K : R → R intégrable et tel que K(u) du = 1, l’estimateur à noyau de la densité est défini
par
n  
1 X x − Xi
fˆ(x) = K .
nh i=1 h

Remarque
L’utilisateur doit choisir deux paramètres : un réel positif h et un noyau K

Exemples de noyau
Les noyaux suivants sont les plus utilisés :
— Uniforme :
1
K(u) = 1[−1,1](u) .
2
— Gaussien :  2
1 u
K(u) = √ exp − .
2π 2
— Epanechnikov :
3
K(u) = (1 − u2 )1[−1,1](u) .
4

54
> X <- rnorm(500)
> df <- [Link](X)
> ggplot(df)+aes(X)+geom_density(kernel=c("gaussian"),color="blue",size=1)+
geom_density(kernel=c("rectangular"),color="red",size=1)+
geom_density(kernel=c("epanechnikov"),color="black",size=1)+theme_classic()

0.4

0.3

density
0.2

0.1

0.0

−2 0 2
X

Conclusion
Le choix du noyau n’est généralement pas primordial sur la performance de l’estimateur.

> X <- rnorm(500)


> df <- [Link](X)
> ggplot(df)+aes(X)+geom_density(bw=0.4,color="blue",size=1)+
geom_density(bw=0.01,color="red",size=1)+
geom_density(bw=3,color="magenta",size=1)+theme_classic()

0.8

0.6
density

0.4

0.2

0.0

−2 0 2
X

Conclusion
Le choix de la fenêtre h est crucial sur la performance de l’estimateur.

Choix de h
— h grand : fenêtre grande =⇒ beaucoup d’observations dans les fenêtres =⇒ densités proches ∀x =⇒ biais fort,
variance faible.
— h petit : fenêtre petite =⇒ peu d’observations dans les fenêtres =⇒ densités instables ∀x =⇒ biais faible,
variance forte.

Conclusion
— Le paramètre h régule le compromis biais/variance de l’estimateur à noyau.
— On sait le quantifier mathématiquement.

Contrôle de la variance
Théorème
On suppose que :
— f est bornée.
K(u)2 du < +∞.
R R R
— K est tel que K(u) du = 1, uK(u) du = 0 et

55
Modèle param non-param
4
−1
Vitesse n n− 5

On a alors ∀x ∈ R, ∀h > 0 et ∀n ≥ 1  
1
V[fˆ(x)] = O .
nh

Remarque
On retrouve bien que la variance est faible lorsque h est grand et réciproquement.

Contrôle du biais
— Pour le terme de biais, il faut supposer un peu de régularité sur la densité à estimer.

Théorème
On suppose que
— la densité f est dérivable et que sa dérivée est Lipschitzienne :

|f 0 (x) − f 0 (y)| ≤ L|x − y|, ∀x, y ∈ R ;

u2 K(u) du < +∞.


R
— K est tel que
On a alors ∀x ∈ R
|b(fˆ(x))| = O(h2 ).

Remarque
On retrouve bien le biais est faible lorsque h est petit et réciproquement.

Risque quadratique
Corollaire (convergence L2 )
Sous les hypothèse des deux théorèmes précédents, on déduit que si h → 0 et nh → +∞ alors le risque quadratique
de fˆ(x) tend vers 0 (convergence en moyenne d’ordre 2).

Corollaire (choix de h)
Le h? qui minimise l’erreur quadratique vérifie
1
h? = Cn− 5 .

Pour cette valeur de h, on a  4


R(fˆ(x)) = E[(fˆ(x) − f (x))2 ] = O n− 5 .

Remarque importante

0.0100

0.0075

modele
vitesse

param
0.0050 non_param

0.0025

0.0000

0 2500 5000 7500 10000


n

Conclusion
— La convergence est moins rapide dans les modèles non-paramétrique.
— C’est le prix à payer pour plus de flexibilité.

56
— La théorie nous dit que le h optimal est
1
h? = Cn− 5 .

— Ce résultat n’est quasiment d’aucune utilité pratique.

— En pratique, il existe un grand nombre de procédures automatiques (plus ou moins performantes selon les cas)
permettant de sélectionner h.

2 Le modèle de régression
Présentation du modèle
— Les données : (x1 , y1 ), . . . , (xn , yn ) où yi ∈ R et xi ∈ R (pour simplifier).
— L’échantillon (x1 , Y1 ) . . . , (xn , Yn ) i.i.d. (on suppose que les xi sont déterministes).
— Le problème : expliquer les sorties Yi par les entrées Xi .
— La fonction de régression : c’est la fonction m : R → R telle que

Yi = m(xi ) + εi

où les termes d’erreurs εi sont i.i.d. de loi N (0, σ 2 ).


— Le problème statistique : estimer m.

Exemples

Y1 Y2


●●
● ●● ● ●
2 ●
● ●
● ●● ●

● ●
● ●● ●
● ● ●
● ●●● ●
● ●
● ● ● ●●●
● ● ● ●
● ● ● ●
●● ● ● ● ● ●
●●
● ●
1 ● ●●

●● ● ●


● ● ●● ● ●● ● ● ●●
●● ● ●●● ● ● ● ●● ●
●●
● ● ● ●●
● ● ● ●
● ● ●

● ●●● ●
●●
● ● ●

●●● ● ●
● ● ●
● ● ● ● ●
● ● ● ● ●● ●
0 ● ●● ● ● ●
● ● ● ● ●
● ● ●
● ● ●
● ● ●
● ● ●●
● ● ● ●
●● ●
● ● ●
● ●
● ● ● ●

● ● ●● ● ●
● ●
● ●●
−1 ●
●●
● ●●
● ●
● ●

−2

Y3 Y4

● ●

● ● ● ●
2 ●



● ●


● ● ●
●● ●● ● ●
●● ● ●

● ● ● ●
● ● ●
● ●● ● ●
● ● ●
●●● ●● ●
● ● ● ●● ● ●● ●●
●●
● ● ●● ● ● ● ● ● ●
1 ●● ● ● ● ●● ●●●●
●● ● ●

● ● ● ●

● ● ● ●
● ● ● ● ● ●
●● ● ●● ● ● ● ●
●●
● ● ●● ● ●

● ●●● ●
● ● ● ● ● ● ● ●●
● ● ● ● ●● ● ●●
● ●
● ● ● ●
● ●
● ●
● ●
0 ●● ● ● ● ●●● ● ●

● ● ●
● ● ● ●
● ● ●
●●● ●



−1 ●●
●●





−2
−4 0 4 −4 0 4

Un exemple concret
— On souhaite expliquer la concentration en ozone par la température à 12h.
— n = 112 observations :
> ozone %>% select(maxO3,T12) %>% head()
maxO3 T12
20010601 87 18.5
20010602 82 18.4
20010603 92 17.6
20010604 114 19.7
20010605 94 20.5
20010606 80 19.8

Représentation du nuage

57
> ggplot(ozone)+aes(x=T12,y=maxO3)+geom_point()+theme_classic()

160 ●



● ●
● ●

● ●
120

● ●
● ●
● ●


maxO3

● ●

● ● ●


● ●




● ●

● ● ●

● ● ●
● ● ● ●

●● ●
80 ● ● ●

● ●
● ● ●●
● ● ● ●


● ● ● ●
●●● ● ●
● ● ● ●
● ●

● ● ● ●
● ●
● ●
● ●●
● ●
● ●





40

15 20 25 30
T12

2.1 Approche paramétrique : le modèle de régression linéaire

Le modèle linéaire
— On fait l’hypothèse que la fonction de régression est linéaire :

m(x) = β0 + β1 x, β0 ∈ R, β1 ∈ R.

— Paramètres inconnus à estimer : β = (β0 , β1 ) ∈ R2 =⇒ modèle paramétrique.

Ajustement linéaire d’un nuage de points


Notations
— n observations y1 , . . . , yn de la variable à expliquer (maxO3).
— n observations x1 , . . . , xn de la variable explicative (T12).



● ●
3 ●
Y

● ●


2



● ●
1

0.00 0.25 0.50 0.75 1.00


X



● ●
3 ●
Y

● ●


2



● ●
1

0.00 0.25 0.50 0.75 1.00


X

58



● ●
3 ●

Y

● ●


2



● ●
1

0.00 0.25 0.50 0.75 1.00


X



● ●
3 ●
Y

● ●


2



● ●
1

0.00 0.25 0.50 0.75 1.00


X

Le problème
Trouver la droite qui ajuste au mieux le nuage de points.
— On cherche y = β0 + β1 x qui ajuste au mieux le nuage des points.
— Toutes les observations mesurées ne se trouvent pas sur une droite :

yi = β0 + β1 xi + εi .



● ●
3 ●
Y

● ●


2



● ●
1

0.00 0.25 0.50 0.75 1.00


X

Idée
Chercher à minimiser les erreurs ou les bruits εi .

Le critère des moindres carrés


Critère des MC
On cherche β = (β0 , β1 ) qui minimise
n
X n
X
ε2i = (yi − β0 − β1 xi )2 .
i=1 i=1

Solution
La solution est donnée par : Pn
(y − ȳ)(xi − x̄)
β̂0 = ȳ − β̂1 x̄ et β̂1 = Pn i
i=1
2
i=1 (xi − x̄)
à condition que tous les xi ne soient pas égaux.

Application à l’ozone

59
> [Link] <- lm(maxO3~T12,data=ozone)
> [Link]
Coefficients:
(Intercept) T12
-27.420 5.469
> ggplot(ozone)+aes(x=T12,y=maxO3)+geom_point()+theme_classic()+
geom_smooth(method="lm")

160 ●



● ●
● ●

● ●
120

● ●
● ●
● ●



maxO3

● ●

● ● ●


● ●




● ●

● ● ●

● ● ●
● ● ● ●

●● ●
80 ● ● ●

● ●
● ● ●●
● ● ● ●


● ● ● ●
●●● ● ●
● ● ● ●
● ●

● ● ● ●
● ●
● ●
● ●●
● ●
● ●





40

15 20 25 30
T12

Les estimateurs des MCO


Rappels
— Le modèle
Yi = β0 + β1 xi + εi , i = 1, . . . , n,
2
où les εi sont i.i.d. de loi N (0, σ ).
— Les estimateurs des MCO :
Pn
(Y − Ȳ )(xi − x̄)
β̂0 = Ȳ − β̂1 x̄ et β̂1 = Pn i
i=1
2
.
i=1 (xi − x̄)

Propriétés
— Biais : E[β̂0 ] = β0 et E[β̂1 ] = β1 .
— Variance : Pn
x2 σ2
V(β̂0 ) = σ 2 Pn i=1 i 2 et V(β̂1 ) = Pn 2
.
n i=1 (xi − x̄) i=1 (xi − x̄)

Quelques remarques
— Les estimateurs des MCO sont sans biais.
— Sous des hypothèses peu contraignantes, on montre que leur variance est en 1/n. On déduit
   
1 1
R(β̂0 ) = O et R(β̂1 ) = O .
n n

Conclusion
Les estimateurs des MCO atteignent la vitesse paramétrique classique en 1/n.
— On peut également obtenir la loi des estimateurs β̂0 et β̂1 .
— On déduit de cette loi des intervalles de confiance et des procédures de tests statistiques.

IC et tests pour l’ozone


— Intervalles de confiance :
> confint([Link])
2.5 % 97.5 %
(Intercept) -45.321901 -9.517371
T12 4.651219 6.286151

60
— Tests statistique :
> summary([Link])$coefficients
Estimate Std. Error t value Pr(>|t|)
(Intercept) -27.419636 9.0334940 -3.03533 2.999431e-03
T12 5.468685 0.4124939 13.25761 1.512025e-24

2.2 Approche non paramétrique : l’estimateur à noyau


— En l’absence d’hypothèse paramétrique (forte), on regarde ce qui se passe au voisinage du point où on cherche
à estimer la fonction de régression.

— Les méthodes non paramétriques consistent donc à définir des voisinages et à faire des moyennes locales à
l’intérieur des voisinages :
n
X
mb n (x) = Wni (x)Yi
i=1

où Wni (x) représente le poids à accorder à la ième observation pour estimer m en x.

— Nous illustrons ce principe à travers l’estimateur de Nadaraya Watson [Nadaraya, 1964, Watson, 1964] (on
aurait aussi pu faire l’algorithme des plus proches voisins).

La méthode
— (x1 , Y1 ), . . . , (xn , Yn ) i.i.d.
— But : estimer m tel que Y = m(x) + ε.

61
x−h x x+h

x−h x x+h

— L’estimateur s’écrit
n
X n
X
1x−h≤Xi ≤x+h Yi 1| Xi −x |≤1 Yi
h
i=1 i=1
m̂n (x) = n = n .
X X
1x−h≤Xi ≤x+h 1| Xi −x |≤1
h
i=1 i=1

Définition
Soit h > 0 et K : R → R+ . L’estimateur à noyau de fenêtre h et de noyau K est défini par
n  
X Xi − x
K Yi
i=1
h
m̂n (x) = n .
X  Xi − x 
K
i=1
h

Noyau et fenêtre
— Noyau usuel :
1. Uniforme : K(x) = 1|x|≤1 ;
2. Gaussien : K(x) = exp(−|x|2 ) ;
3. Epanechnikov : K(x) = 34 (1 − x2 )1|x|≤1 .
— Le choix de h est crucial pour la qualité de l’estimation :
1. h grand : estimateur « constant », variance faible, biais fort ;
2. h petit : « interpolation », variance forte, biais faible ;

Un exemple
— On génère un échantillon (XI , YI ), i = 1, . . . , n = 200 selon
Yi = sin(Xi ) + εi , i = 1, . . . , n
avec Xi uniforme sur [−2π, 2π], εi de loi gaussienne N (0, 0.22 ).

62



● ● ●


● ● ●
● ●
1.0 ● ●
●●●

●●
● ● ● ● ●● ● ●
● ●
● ●●
● ● ●
● ● ●


> n <- 200; [Link](1234) ●



●●


● ●
● ●

● ●

> X <- runif(n,-2*pi,2*pi) 0.5 ●


● ●




● ●

● ● ●

> [Link](5678) ●
● ●


●● ●

● ● ● ●

> eps <- rnorm(n,0,0.2) ●


● ● ●



● ●

> Y <- sin(X)+eps 0.0



● ● ●

●● ●



y
● ●

> df <- [Link](X=X,Y=Y) ●




● ●




● ●
> x <- seq(-2*pi,2*pi,by=0.01) ●
●●





● ●

● ● ●

> df1 <- [Link](x=x,y=sin(x)) −0.5


● ●




> ggplot(df1)+aes(x=x,y=y)+ ●● ● ●



●●
● ● ●●● ●
●●
geom_line(size=1)+ ●●
● ●
●●●
●●

●●
●●


●● ●

geom_point(data=df,aes(x=X,y=Y)) −1.0








● ●●
● ●
● ●


−1.5

−4 0 4
x

— La fonction locpoly du package kernSmooth permet de construire des estimateurs à noyau.

1.0
> h1 <- 0.5;h2 <- 3;h3 <- 0.01
> fx1 <-locpoly(X,Y,bandwidth=h1)
> fx2 <-locpoly(X,Y,bandwidth=h2)
> fx3 <-locpoly(X,Y,bandwidth=h3) 0.5

> df1 <- [Link](x=x,y=sin(x))


> df2 <- [Link](x=fx1$x, fenêtre
"H0.5"=fx1$y,"H3"=fx2$y, 0.0 H0.5

y
"H0.01"=fx3$y) H3
H0.01
> df22 <- melt(df2,[Link]=1)
> names(df22)[2:3] <- c("fenêtre", −0.5
"y")
> ggplot(df22)+aes(x=x,y=y)+
geom_line(aes(color=fenêtre,
−1.0
lty=fenêtre))+geom_line
(data=df1,aes(x=x,y=y),size=1)

−1.5

−4 0 4
x

Propriétés des estimateurs


— Là encore, on peut quantifier le compromis biais/variance.
— On considère le noyau uniforme et on suppose que m est dérivable et que sa dérivée est Lipschitzienne :

|m0 (x) − m0 (y)| ≤ L|x − y], ∀x, ∀y ∈ R.

Théorème
Sous les hypothèses ci-dessus, on a
 
1
|b(m̂n (x))| = O(h2 ) et V[m̂n (x)] = O .
nh

— Toutes les remarques faites pour l’estimateur à noyau de la densité sont valables pour l’estimateur de Nadaraya
Watson.

— Le h optimal est de l’ordre de n−1/5 . Pour cette valeur de h, le risque quadratique est de l’ordre de n−4/5 .

— On obtient donc une vitesse de convergence plus lente que pour les estimateurs paramétriques.

— C’est le prix à payer pour un modèle plus flexible.

Retour à l’ozone

63
Paramétrique (linéaire)
Non paramétrique

> ggplot(ozone)+aes(x=T12,y=maxO3)+
> ggplot(ozone)+aes(x=T12,y=maxO3)+ geom_point()+
geom_point()+ geom_smooth(,size=1)+
geom_smooth(method="lm",size=1)+ theme_classic()
theme_classic()




● ●
160 ●





150 ● ●

● ●

● ●
● ● ●

● ●



● ●

● ●
● ●
● ●
● ●
● ● ●

120 ●

maxO3
● ● ●
● ●
● ●
● ●
● ● ●●
● 100 ●

● ● ●

maxO3

● ●
● ● ●

● ●

● ●● ● ● ●
● ●

● ● ● ● ●
● ● ● ● ●
● ●
● ●● ●

● ● ● ●
● ● ● ●
● ● ●●
● ● ● ● ●

● ● ● ●
● ● ● ●●
●●● ● ●
● ● ● ●
● ● ● ● ●
● ● ● ● ●
● ● ● ● ●
●● ● ● ●
● ●
80 ● ● ●

● ●●
● ●
● ● ●● ● ●
● ● ● ● ● ●

● ●

● ● ●● ●
●●● ● ● ●
● ● ● ●
● ●
● 50
● ● ● ●
● ●
● ●
● ●● ●

● ● ●
● ●




● 15 20 25 30
40
T12
15 20 25 30
T12

3 Bibliographie
Références

Biblio5

[Nadaraya, 1964] Nadaraya, E. A. (1964). On estimating regression. Theory of Probability and its Applications, 9.
[Parzen, 1962] Parzen, E. (1962). On estimation of a probability density function and mode. Ann. Math. Stat.,
33 :1065–1076.
[Watson, 1964] Watson, G. S. (1964). Smooth regression analysis. Sankhya : The Indian Journal of Statistics,
Series A, 26 :359–372.

64

Vous aimerez peut-être aussi