0% ont trouvé ce document utile (0 vote)
30 vues3 pages

Introduction Au Bootstrap

Le document présente le principe du bootstrap, une méthode de rééchantillonnage utilisée pour estimer la distribution d'un estimateur lorsque la loi de l'échantillon est inconnue. Il décrit comment la loi empirique est utilisée pour créer des échantillons bootstrap et comment ces échantillons permettent d'estimer des paramètres tels que la moyenne, l'écart-type et le biais. Enfin, il souligne l'importance des propriétés asymptotiques du bootstrap pour justifier son utilisation dans les estimations statistiques.

Transféré par

LI LILI
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
30 vues3 pages

Introduction Au Bootstrap

Le document présente le principe du bootstrap, une méthode de rééchantillonnage utilisée pour estimer la distribution d'un estimateur lorsque la loi de l'échantillon est inconnue. Il décrit comment la loi empirique est utilisée pour créer des échantillons bootstrap et comment ces échantillons permettent d'estimer des paramètres tels que la moyenne, l'écart-type et le biais. Enfin, il souligne l'importance des propriétés asymptotiques du bootstrap pour justifier son utilisation dans les estimations statistiques.

Transféré par

LI LILI
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

1 Introduction au bootstrap

1.1 Principe du plug-in


Introduction au bootstrap
Soit x = {x1 , . . . , xn } un échantillon de taille n issue d’une loi incon-
nue F sur (Ω, A). On appelle loi empirique Fb la loi discrète des singletons
Résumé (x1 , . . . , xn ) affectés des poids 1/n :

Présentation succincte du principe du bootstrap. n


X
Fb = δxi .
Retour au plan du cours i=1

1 Introduction Soit A ∈ A, PF (A) est estimée par :

Xn
La motivation du bootstrap 1 (Efron, 1982 ; Efron et Tibshirani, 1993) est b(P )F (A) = P b (A) = 1
δxi (A) = Cardxi ∈ A.
d’approcher par simulation (Monte Carlo) la distribution d’un estimateur F n
i=1
lorsque l’on ne connaît pas la loi de l’échantillon ou, plus souvent lorsque
l’on ne peut pas supposer qu’elle est gaussienne. L’objectif est de remplacer De manière plus générale, soit θ un paramètre dont on suppose que c’est une
des hypothèses probabilistes pas toujours vérifiées ou même invérifiables par fonction de la loi F . on écrit donc θ = t(F ). Par exemple, µ = E(F ) est un
des simulations et donc beaucoup de calcul. paramètre de F suivant ce modèle. Une statistique est une fonction (mesurable)
Le principe fondamental de cette technique de ré-échantillonnage est de sub- de l’échantillon. Avec le même exemple :
stituer à la distribution de probabilité inconnue F , dont est issu l’échantillon n
d’apprentissage, la distribution empirique Fb qui donne un poids 1/n à chaque 1X
b=x=
µ xi
réalisation. Ainsi on obtient un échantillon de taille n dit échantillon bootstrap n i=1
selon la distribution empirique Fb par n tirages aléatoires avec remise parmi les
n observations initiales. et x est la statistique qui estime µ. On dit que c’est un estimateur “plug-in” et,
Il est facile de construire un grand nombre d’échantillons bootstrap sur plus généralement,
lesquels calculer l’estimateur concerné. La loi simulée de cet estimateur est
une approximation asymptotiquement convergente sous des hypothèses rai- D ÉFINITION 1. — On appelle estimateur plug-in d’un paramètre θ de F , l’es-
sonnables 2 de la loi de l’estimateur. Cette approximation fournit ainsi des es- timateur obtenu en remplaçant la loi F par la loi empirique :
timations du biais, de la variance, donc d’un risque quadratique, et même des
intervalles de confiance de l’estimateur sans hypothèse (normalité) sur la vraie θb = t(Fb ).
loi.
b = E(Fb ) = x.
comme dans le cas de l’estimation de µ : µ

1. Cette appellation est inspirée du baron de Münchhausen (Rudolph Erich Raspe) qui se sortit 1.2 Estimation de l’écart-type de la moyenne
de sables mouvants par traction sur ses tirants de bottes. En France “bootstrap” est parfois traduit
par à la Cyrano (acte III, scène 13) en référence à ce héros qui prévoyait d’atteindre la lune en se Soit X une variable aléatoire réelle de loi F . On pose :
plaçant sur une plaque de fer et en itérant le jet d’un aimant.
2. Échantillon indépendant de même loi et estimateur indépendant de l’ordre des observations. µF = EF (X), et σF2 = VarF (X) = EF [(X − µF )2 ];
2 Introduction au bootstrap

Ce qui s’écrit : suivant la loi Fb ; x∗ est un ré-échantillon de x avec remise.


X∼ (µF , σF2 ).
2.2 Estimation d’un écart-type
Soit (XP
1 , . . . , Xn ) n variables aléatoires i.i.d. suivant aussi la loi F . Posons
n
X = n1 i=1 Xi . Cette variable aléatoire a pour espérance µF et pour variance D ÉFINITION 3. — On appelle estimation bootstrap de l’écart-type σc b
F (θ) de
σF /n. On dit aussi que la statistique
2
b b
θ, son estimation plug-in : σFb (θ).
X ∼ (µF , σF2 /n). Mais, à part dans le cas très élémentaire où, comme dans l’exemple ci-dessus,
Remarquons qu’en moyennant plusieurs valeurs ou observations, on réduit la θ est une moyenne, il n’y a pas de formule explicite de cet estimateur. Une ap-
b
variance inhérente à une observation. De plus, sous certaines conditions sur la proximation de l’estimateur bootstrap (ou plug-in) de l’écart-type de θ est ob-
loi F et comme résultat du théorème de la limite centrale, X converge en loi tenue par une simulation (Monte-Carlo) décrite dans l’algorithme ci-dessous.
vers la loi normale. Pour un paramètre θ et un échantillon x donnés, on note θb = s(x) l’esti-
L’estimateur plug-in de σF est défini par : mation obtenue sur cet échantillon. Une réplication bootstrap de θb est donnée
2
par : θb∗ = s(x∗ ).
b2 = σc
σ F = σF
2
b = Var b
F (X)
n A LGORITHME 1 : Estimation de l’écart-type
1X
= EFb [(X − EFb (X))2 ] = (Xi − X)2 . Soit x un échantillon et θ un paramètre.
n i=1
for b = 1 à B do
L’estimateur plug-in de σF est (légèrement) différent de celui du maximum de Sélectionner 1 échantillon bootstrap x∗b = {x∗b 1 , . . . , xn }. par tirage
∗b

vraisemblance. L’estimateur plug-in est en général biaisé mais il a l’avantage avec remise dans x.
d’être simple et de pouvoir s’appliquer à tout paramètre θ même lorsque l’on Estimer sur cet échantillon : θb∗ (b) = s(x∗b ).
ne peut pas calculer la vraisemblance du modèle. end for
Calculer l’écart-type de l’échantillon ainsi construit :
2 Estimation bootstrap d’un écart-type 1 X b∗
B
bB
σ 2
= (θ (b) − θb∗ (.))2
B−1
Soit θb = s(x) un estimateur quelconque (M.V. ou autre) de θ pour un échan- b=1
B
tillon x donné. On cherche à apprécier la précision de θb et donc à estimer son 1 X b∗
avec θb∗ (.) = (θ (b).
écart-type. B
b=1

2.1 Échantillon bootstrap


bB est l’approximation bootstrap de l’estimation plug-in recherchée de
σ
Avec les mêmes notations, Fb est la distribution empirique d’un échantillon l’écart-type de θ.
b
x = {x1 , . . . , xn }.
2.3 Estimation du biais
D ÉFINITION 2. — On appelle échantillon bootstrap de x un échantillon de
Avec les mêmes notations :
taille n noté
x∗ = {x∗1 , . . . , x∗n } θ = t(F ) et θb = s(x),
3 Introduction au bootstrap

le biais d’un estimateur s’exprime comme Le bootstrap rapidement décrit ici est dit “non-paramétrique” car la loi em-
pirique Fb est une estimation non-paramétrique de F . Dans le cas où F serait
b = EF [s(x)] − t(F ).
BF (θ) connue à un paramètre près, il existe également une version dite paramétrique
du bootstrap.
Un estimateur est sans biais si E[θ] b = θ. Le biais est aussi une mesure de la
précision d’un estimateur et on a vu que, généralement, les estimateurs plug-in Pour des estimateurs plus compliqués (fonctionnels) comme dans le cas de
étaient biaisés. la régression non-paramétrique par noyau ou spline, il est facile de construire
graphiquement une enveloppe bootstrap de l’estimateur à partir de réplications
de l’échantillon. Celle-ci fournit généralement une bonne appréciation de la
D ÉFINITION 4. — On appelle estimateur bootstrap du biais, l’estimateur
qualité de l’estimateur obtenu. Attention, dans le cas de la régression il est
plug-in :
b b en principe plus justifié de répliquer le tirage sur les résidus plutôt que sur les
BcF (θ) = BFb (θ) = EF
b
b [s(x )] − t(F ).

observations. Ce sont les résidus qui sont en effet supposés i.i.d. et qui vérifient
donc les hypothèses nécessaires mais cette approche devient très sensible à
Comme pour l’écart-type, il n’existe généralement pas d’expression analytique
l’hypothèse sur la validité du modèle. Il est finalement d’usage de considérer
et il faut avoir recours à une approximation par simulation.
un échantillon bootstrap issu des données initiales (Efron et Tibshirani) :
A LGORITHME 2 : Estimation bootstrap du biais z∗b = {(x∗b1 , y1 ), . . . , (xn , yn )};
∗b ∗b ∗b

Soit x un échantillon et θ un paramètre.


for b = 1 à B do c’est ce qui a été choisi dans ce document.
Sélectionner 1 échantillon bootstrap x∗b = {x∗b 1 , . . . , x ∗b
n }. par tirage Enfin, l’estimation bootstrap est justifiée par des propriétés asymptotiques
avec remise dans x. (convergence en loi) lorsque le nombre de réplications (B) croit conjointement
Estimer sur cet échantillon la réplication bootstrap de θb : θb∗ (b) = s(x∗b ). avec la taille de l’échantillon (n). Comme la loi empirique Fb converge (en loi)
end for PB vers celle théorique, la distribution du paramètre θb = t(Fb ) converge (en loi)
Approcher EFb [s(x∗ )] par θb∗ (.) = B1 b=1 (θb∗ (b) vers celle théorique de θ = t(Fb ).
L’approximation bootstrap du biais est : Bc b b∗
B (θ) = θ (.) − θ.
b

3 Compléments
En résumé, on peut dire que le bootstrap repose sur une hypothèse très élé-
mentaire : θb∗ se comporte par rapport à θb comme θb par rapport à θ. La connais-
sance de θb∗ (distribution, variance, biais. . . ) renseigne alors sur celle de θ.
b
Beaucoup d’autres compléments sont à rechercher dans la littérature et en
particulier dans Efron et Tibshirani (1993). Il est ainsi possible de définir des
intervalles de confiance bootstrap en considérant la distribution et les quan-
tiles de θb∗ ou même encore des tests à partir des versions bootstrap de leur
statistique.

Vous aimerez peut-être aussi