Bootstrap e jackknife
Cristiano de Carvalho Santos
cristcarvalhosan@[Link]
Departamento de Estatística,
Universidade Federal de Minas Gerais (UFMG)
Introdução
I O bootstrap foi introduzido por Efron em 1979, com mais
desenvolvimentos nos anos seguintes.
I Métodos bootstrap são uma classe métodos Monte Carlo que
estimam a distribuição de uma população por reamostragem e
são frequentemente utilizados quando a distribuição da
população alvo não é especificada e a amostra é a única
informação disponível.
I Eforon deu o nome bootstrap porque ao usar o método parece
estar puxando-se por seu próprio bootstrap.
I Métodos de reamostragem tratam uma amostra observada
como uma população finita e amostras aleatórias são geradas
dela para estimar características populacionais e fazer
inferência sobre a população amostrada.
I Métodos Monte Carlo que envolvem amostragem de uma
distribuição de probabilidade completamente especificada são
algumas vezes chamados de bootstrap paramétrico.
Ideia do bootstrap
I A distribuição da população finita representada pela amostra
pode ser considerada como uma pseudo-população com
características semelhantes à da população verdadeira.
I Ao gerar repetidamente amostras aleatórias a partir dessa
pseudo-população (reamostragem), a distribuição amostral de
uma estatística pode ser estimada.
I Logo, propriedades de um estimador, como viés ou erro
padrão, podem ser estimadas.
As estimativas de Bootstrap de uma distribuição de amostragem
são análogas à ideia de estimativa de densidade:
I Um histograma não é a densidade, mas em um problema não
paramétrico, pode ser visto como uma estimativa razoável da
função de densidade.
I Temos métodos para gerar amostras aleatórias a partir de
densidades completamente especificadas; bootstrap gera
amostras aleatórias a partir da distribuição empírica da
amostra.
Suponha que x = (x1 , . . . , xn )T ∈ Rn é uma amostra aleatória
observada de uma distribuição com fda F (x). Se X ∗ é selecionado
aleatoriamente de x, então
1
P (X ∗ = xi ) = , i = 1, . . . , n.
n
I Reamostragem gera uma amostra aleatória X1∗ , . . . , Xn∗ por
amostrar com reposição de x, logo X ∗ são iid com
distribuição Uniforme no conjunto {x1 , . . . , xn }.
I A fda empírica Fn (x) é um estimador de F (x) e também é a
fda de X ∗ , pois reamostrar de x é equivalente a gerar da
distribuição Fn (x).
Seja θ̃ = g(Fn ) o valor do parâmetro quando Fn é a distribuição,
θ̂ = s(x) uma estimativa de θ = g(F ) obtida com a amostra
observada e θ̂∗ uma estimativa obtida com uma amostra bootstrap
x∗ .
Obs.: Frequentemente θ̃ e θ̂ são iguais, mas podem ser diferentes.
Por exemplo, se θ̂ for a média aparada dos dados e θ̃ for a média
da distribuição Fn .
Métodos bootstrap fazem um ou outra das grandes suposições a
seguir:
A - A fda empírica Fn é uma boa aproximação da fda FX , então a
distribuição de θ̂∗ é similar a distribuição de θ̂.
B - A distribuição de θ̂∗ − θ̃ é similar a distribuição de θ̂ − θ.
I Em ambos os pressupostos, a tarefa de fazer inferências sobre
θ se reduz a aprender sobre a distribuição bootstrap de θ̂∗ .
I Às vezes, os aspectos relevantes da distribuição de bootstrap
podem ser determinados matematicamente, mas, na maioria
dos problemas não-triviais, a distribuição deve ser estimada
usando métodos Monte Carlo.
A estimativa bootstrap da distribuição de θ̂ é obtido por:
1. Para cada réplica bootstrap, indexada por b = 1, . . . , B:
a) Gere uma amostra
x∗(b) = (x∗1 , . . . , x∗n )T
por amostrar com reposição da amostra observada
x = (x1 , . . . , xn )T ∈ Rn .
b) Calcule θ̂(b) com a b-ésima amostra bootstrap.
2. A estimativa bootstrap de Fθ̂ é dada pela distribuição empírica
de θ̂(1) , . . . , θ̂(B) .
Estimação do erro padrão
A estimativa bootstrap do erro padrão de um estimador θ̂ é o
desvio padrão amostral das réplicas bootstrap θ̂(1) , . . . , θ̂(B) . Isto é,
v
u B h
u 1 X i2
ˆ θ̂) =
se( t θ̂(b) − θ̄ ,
B − 1 b=1
B
1
θ̂(b) .
P
em que θ̄ = B
b=1
Obs: De acordo com Efron e Tibshirani, o número de réplicas
necessárias para boas estimativas do erro padrão não é grande,
B = 50 é suficiente usualmente e raramente temos B > 200.
Exemplo
O conjunto de dados da escola de direito no pacote bootstrap é de
Efron e Tibshirani. O quadro de dados contém LSAT (pontuação
média na pontuação do teste de admissão na faculdade de direito)
e GPA (nota média na metade da graduação) para 15 escolas de
direito.
LSAT 576 635 558 578 666 580 555 661 651 605 653 575 545 572 594
GPA 339 330 281 303 344 307 300 343 336 313 312 274 276 288 296
I Este conjunto de dados é uma amostra aleatória do universo
de 82 faculdades de direito (law82 - bootstrap).
I O objetivo é estimar a correlação entre as pontuações LSAT e
GPA e calcular a estimativa de bootstrap do erro padrão da
correlação da amostra.
Estimação do viés
O viés de um estimador θ̂ para θ é
V iés(θ̂) = EF [θ̂ − θ] = EF [s(X)] − g(F ),
Uma estimativa bootstrap do víes é obtida ao substituir F por Fn e
assim
[
V iés(θ̂) = EFn [s(X ∗ )] − g(Fn ) = θ̄ − θ̃,
B
1
θ̂(b) .
P
em que θ̄ = B
b=1
Exemplo
Os dados de Efron e Tibshirani contêm medidas de um certo
hormônio na corrente sanguínea de oito indivíduos após o uso de
um adesivo médico. O parâmetro de interesse é
E(new) − E(old)
θ= .
E(old) − E(placebo)
Se |θ| ≤ 0, 2, isso indica bioequivalência dos adesivos antigo e
novo. A estatística é Ȳ /Z̄.
Desejamos calcular uma estimativa bootstrap de viés na estatística
de razão de bioequivalência.
Jackknife
I É um método de reamostragem proposto por
Quenouille(1949) como uma técnica para redução de viés e
por Tukey para estimar o erro padrão.
I No Jackknife, como em um tipo de validação cruzada, são
consideradas subamostras em que cada xi é omitido.
Seja x = (x1 , . . . , xn )T ∈ Rn é uma amostra aleatória observada
de uma distribuição com fda F (x).
Definimos x[−i] = (x1 , . . . , xi−1 , xi+1 , . . . , xn )T o subconjunto de x
sem a i-ésima observação.
Seja θ̂ = Tn (x) e θ̂[−i] = Tn (x[−i] ), i = 1, . . . , n.
Suponha que
I O parâmetro θ = g(F ) é uma função da distribuição F ;
I Fn é a fda empírica de uma amostra aleatória de F ;
I A estimativa “plug-in” de θ é θ̂ = g(Fn ).
I Um “plug-in” θ̂ é suave no sentido que pequenas mudanças
nos dados correspondem a pequenas mudanças em θ̂.
Jackknife para estimar viés
Se θ̂ é uma estatística suave, então θ̂[−i] = g(Fn−1 (x[−i] )) e a
estimativa jackknife do viés é dada por
[
V iésjack (θ̂) = (n − 1)(θ̄[.] − θ̂),
em que θ̄[.] = n1 ni=1 θ̂[−i] é a média das estimativas obtidas com as
P
amostras com uma observação retirada.
O fator n − 1 aparece para obter estimador jackknife não viesado
para o viés do estimador plug-in da variância populacional.
Então, um estimador jackknife é dado por
n
n−1X
θ̂J = nθ̂ − θ̂[−i] .
n i=1
Jackknife para estimar erro padrão
Uma estimativa jackknife do erro padrão é
v
u n
un − 1 X 2
scejack (θ̂) = θ̂ [−i] − θ̄[.] ,
t
n i=1
para estatísticas suaves θ̂.
O fator n−1
n
ˆ jack seja um estimador não viciado do
faz com que se
erro padrão da média.
Exemplo
Continuação do exemplo dos adesivos com hormônio e exemplo
com a mediana no script!
Intervalos de confiança bootstrap
Existem várias abordagens para obter intervalos de confiança
aproximados para o parâmetro de interesse. Entre eles, os
intervalos de confiança:
I bootstrap normal padrão;
I bootstrap básico;
I bootstrap percentílico;
I bootstrap t.
O intervalo de confiança bootstrap normal padrão
Este intervalo de confiança possui uma abordagem simples, mas
não necessariamente a melhor.
Se θ̂ é uma média amostral e o tamanho amostral é grande, então
o Teorema Central do Limite implica que
θ̂ − E[θ̂]
Z=
se(θ̂)
é aproximadamente normal padrão.
Logo, se θ̂ é um estimador não viesado para θ, um intervalo de
confiança 100(1 − α)% para θ é o intervalo
θ̂ ± zα/2 se(θ̂),
em que zα/2 = Φ−1 (1 − α/2).
Este intervalo é simples, mas faz muitas suposições:
I A distribuição de θ̂ é normal ou θ̂ é a média amostral e o
tamanho amostral é grande.
I θ̂ é um estimador não viciado de θ. O viés pode ser estimado
e usado para centrar a distribuição de Z, mas o estimador é
uma variável aleatória e a variável transformada não tem
distribuição Normal.
I se(θ̂) é tratado como conhecido, mas é estimado.
O intervalo de confiança bootstrap básico
Este intervalo transforma a distribuição das réplicas do estimador
por subtrair o valor observado da estatística.
Suponha que T é um estimador de θ e aα tal que
P (T − θ > aα ) = 1 − α → P (T − aα > θ) = 1 − α.
Disso, o intervalo de confiança 100(1 − 2α)% é
(t − a1−α , t − aα ).
O percentil de ordem α de θ̂∗ − θ̂ pode ser estimado por
b̂α = θ̂α − θ̂.
O limite superior do intervalo aproximado é dado por
θ̂ − b̂α = θ̂ − (θ̂α − θ̂) = 2θ̂ − θ̂α/2
e, similarmente, o limite inferior do intervalo é dado por
2θ̂ − θ̂1−α/2 .
Então, o intervalo de confiança 100(1 − α)% é dado por
(2θ̂ − θ̂1−α/2 , 2θ̂ − θ̂α/2 ).
O intervalo de confiança bootstrap percentílico
I Esta abordagem utiliza a distribuição empírica das réplicas
bootstrap como a distribuição de referência.
Suponha que θ̂(1) , . . . , θ̂(B) são as réplicas bootstrap da estatística
θ̂.
O intervalo é dado por
(θ̂α/2 , θ̂1−α/2 ),
em que θ̂α/2 é o percentil empírico calculado com a amostra
θ̂(1) , . . . , θ̂(B) .
O intervalo de confiança bootstrap t
O bootstrap t não usa distribuição t-Student como referência, mas
usa a distribuição amostral de uma estatística (studentized) gerada
por reamostragem.
O intervalo é dado por
(θ̂ − t∗1−α/2 se(
ˆ θ̂), θ̂ − t∗α/2 se(
ˆ θ̂)),
ˆ θ̂), t∗1−α/2 e t∗α/2 são calculados como a seguir.
em que se(
1. Calcule a estatística observada θ̂.
2. Para cada réplica, indexada por b = 1, . . . , B:
a) Gere uma amostra
x∗(b) = (x∗1 , . . . , x∗n )T
por amostrar com reposição da amostra observada
x = (x1 , . . . , xn )T ∈ Rn .
b) Calcule θ̂(b) com a b-ésima amostra bootstrap.
ˆ θ̂(b) ). (Uma estimativa
c) Calcule ou estime o erro padrão se(
bootstrap por reamostrar da amostra atual x(b) ).
θ̂(b) −θ̂
d) Calcule t(b) = .
ˆ θ̂(b) )
se(
3. Encontre os quantis t∗1−α/2 e t∗α/2 da amostra ordenada de t(b) .
ˆ θ̂) dado pelo desvio padrão das réplicas θ̂(b) .
4. Calcule se(
5. Calcule os limites de confiança dados por
(θ̂ − t∗1−α/2 se(
ˆ θ̂), θ̂ − t∗α/2 se(
ˆ θ̂)).
Uma desvantagem desta abordagem é fazer um bootstrap
ˆ θ̂(b) ). Ou
para cada réplica b com o intuito de estimar se(
seja, são B bootstraps dentro de um bootstrap!
Exemplo
Comparação dos intervalos de confiança para a correlação nos
dados da faculdade de direito.
Melhores intervalos de confiança bootstrap
I O melhor intervalo de confiança do bootstrap é chamado BCa
para “viés corrigido” e “ajustado para aceleração”.
I Intervalos BCa são uma versão modificada de intervalos
percentuais que têm melhores propriedades teóricas e melhor
desempenho na prática.
I Para um intervalo de confiança de 100(1 − α)%, os quantis
habituais α/2 e 1 − α/2 são ajustados por dois fatores: uma
correção para viés e uma correção para assimetria.
I A correção de viés é denotada z0 e o ajuste de assimetria ou
“aceleração” é dado por a.
Um intervalo bootstrap BCa de confiança de 100(1 − α)% é
calculado por
!
−1 ẑ0 + zα/2
α1 = Φ ẑ0 + ,
1 − â(ẑ0 + zα/2 )
!
ẑ0 + z1−α/2
α2 = Φ−1 ẑ0 + ,
1 − â(ẑ0 + z1−α/2 )
em que zα = Φ−1 (α),
B Pn
− θ̂[−i] )3
!
−1 1 X i=1 (θ̄[.]
ẑ0 = Φ I{θ̂(b) < θ̂} e â = Pn .
B b=1 6( i=1 (θ̄[.] − θ̂[−i] )2 )3/2
Os limites sãos quantis empíricos das réplicas bootstrap e o
intervalo BCa é
(θ̂α1 , θ̂α2 ).
Exemplo: Aplicação da metodologia no problema de
bioequivalência no script.
Estruturas mais gerais de dados
I No mundo real, um mecanismo de probabilidade desconhecido
P fornece um conjunto de dados x observado.
I Em aplicações específicas, precisamos definir a regra de
construção dos dados com mais cuidado. O conjunto de dados
x pode não ser mais um único vetor. Ele tem uma forma
dependente da estrutura de dados, por exemplo, x = (z, y)
no problema de duas amostras.
Dois problemas práticos surgem:
(1) Precisamos estimar todo o mecanismo de probabilidade P a
partir dos dados observados x. É fácil de fazer para a maioria
das estruturas de dados familiares. Nenhuma prescrição geral
é possível, mas soluções ad hoc bastante naturais estão
disponíveis.
(2) Precisamos simular os dados de bootstrap de P de acordo com
a estrutura de dados relevante. Este passo é conceitualmente
direto, mas pode requerer algum cuidado na programação se a
eficiência computacional for necessária.
Modelos de Regressão
O conjunto de dados x para um modelo de regressão linear
consiste de n pontos
x1 , . . . , xn ,
em que xi = (ci , yi ), tal que ci = (ci1 , . . . , cip ) é um vetor de
covariáveis, enquanto que yi é a variável resposta.
A suposição chave do modelo linear é que
p
X
µi = E[Yi |ci ] = ci β = cij βj .
j=1
O vetor de parâmetros β = (β1 , . . . , βp )T é desconhecido e objetivo
usual a análise de regressão é fazer inferência sobre β a partir dos
dados observados.
A estrutura de probabilidade do modelo linear é usualmente
expressa como
yi = ci β + i , para i = 1, 2, . . . , n.
Assumimos que os temos de erro i são uma amostra aleatória de
uma distribuição desconhecida F com esperança 0, isto é,
F → (1 , . . . , n ) (E[i ] = 0).
Note que
E[Yi |ci ] = E[ci β + i |ci ] = ci β,
em que usamos o fato de que E[i |ci ] = E[i ] = 0, dado que i é
selecionado independentemente de ci .
Definimos o erro quadrático residual por
n
(yi − ci b)2 .
X
RSE(b) =
i=1
A estimativa de mínimos quadrados de β é o valor que minimiza
RSE(b).
Seja C com a i-ésima linha sendo ci e seja y o vetor (y1 , . . . , yn )T .
Então a estimativa de mínimos quadrados é dada pela solução de
C T C β̂ = C T y
que é dada por
β̂ = (C T C)−1 C T y.
O erro padrão de β̂j é dado por
√
se(β̂j ) = σF Gjj ,
em que Gjj é o j-ésimo elemento da diagonal da matriz inversa
G−1 , tal que G = C T C e σF2 = V arF ().
Na prática, σF2 é estimado por
n
σ̂F2 = (yi − ci β̂)2 /n = RSE(β̂)/n,
X
i=1
ou pela versão com viés corrigido dada por
n
σ̃F2 = (yi − ci β̂)2 /(n − p) = RSE(β̂)/(n − p).
X
i=1
Os correspondentes erros padrão estimados para os componentes
de β̂ são
√ √
ˆ β̂j ) = σ̂F Gjj ou se(
se( ˜ β̂j ) = σ̃F Gjj .
Aplicação do bootstrap
I Nenhum dos cálculos até agora requer o bootstrap.
I No entanto, uma análise de bootstrap para o modelo de
regressão linear pode ser útil para assegurar que o bootstrap
está dando respostas razoáveis.
I Podemos aplicar o bootstrap a modelos de regressão mais
gerais que não têm solução matemática: onde a função de
regressão é não linear nos parâmetros β, e onde usamos
métodos de ajuste diferentes de mínimos quadrados.
O modelo de probabilidade P → x para regressão linear tem duas
componentes,
P = (β, F ),
em que F é a distribuição de probabilidade dos termos de erro.
Temos disponível β̂, mas como podemos estimar F ?
Se β é conhecido, sabemos que i = yi − ci β para i = 1, . . . , n.
Então podemos calcular uma aproximação para os erros
ˆi = yi − ci β̂, para i = 1, . . . , n.
A estimativa para F é a distribuição empírica de ˆi dada por
F̂ : probabilidade 1/n de sair ˆi , i = 1, . . . , n.
Com P̂ = (β̂, F̂ ), sabemos como gerar os conjuntos de dados
bootstrap para o modelo de regressão linear: P̂ → x∗ .
Para gerar x∗ , primeiro selecionamos uma amostra bootstrap dos
erros aleatórios,
F̂ → (∗i , . . . , ∗n ) = ∗ .
Então, as respostas bootstrap yi∗ são geradas de acordo com
yi∗ = ci β̂ + ∗i , para i = 1, . . . , n.
A estimativa de mínimos quadrados bootstrap é dada por
∗
β̂ = (C T C)−1 C T y ∗ .
Neste caso, não precisamos de simulações de Monte Carlo para
descobrir erros padrão de bootstrap,
∗
V ar(β̂ ) = (C T C)−1 V ar(y ∗ )C(C T C)−1
= σ̂F2 (C T C)−1 ,
dado que V ar(y ∗ ) = σ̂F2 I em que I é a matriz identidade. Então,
√
ˆ ∞ (β̂j ) = seF̂ (β̂j∗ ) = σ̂F Gjj ,
se
em que ∞ acima representa B = ∞.
Em outras palavras, a estimativa bootstrap do erro padrão
para βj é igual a estimativa usual!
Bootstrap dos pares vs bootstrap dos resíduos
Existem dois diferentes caminha para implementar um bootstrap
para o modelo de regressão:
1. O método dos pares considera xi = (ci , yi ) de modo que um
conjunto de dados de bootstrap x∗ é da forma
x∗ = {(ci1 , yi1 ), . . . , (cin , yin )}
para i1 , . . . , in sendo uma amostra aleatória dos inteiros de 1 a
n.
2. O método apresentado anteriormente pode ser chamado de
bootstrap dos resíduos. Ele produz conjuntos de dados da
forma
x∗ = {(c1 , c1 β̂ + ˆi1 ), . . . , (cn , cn β̂ + ˆin )}.
Qual método de bootstrap é melhor?
A resposta depende de até que ponto acreditamos no modelo de
regressão linear. Esse modelo assume que os erros tem a mesma
distribuição F para qualquer valor de ci . Esta suposição pode
falhar mesmo se a esperança µi = ci β esteja correta.
1. O bootstrap dos pares é menos sensível as suposições do
modelo. A estimativa de erro padrão obtida por bootstrap dos
pares dá respostas razoáveis, mesmo que as suposições do
modelo de regressão estejam completamente erradas.
I A única suposição por trás deste bootstrap é que os pares
originais xi = (ci , yi ) foram amostrados aleatoriamente a
partir de alguma distribuição F , onde F é uma distribuição
em vetores (c, y) com dimensão (p + 1).
I Mesmo que as suposições do modelo de regressão estejam
corretas, não é um desastre. Pode-se mostrar que as
estimativas obtidas por esse método se aproximam daquelas
dadas pelo bootstrap dos resíduos quando o número de pares
n se torna grande.
2. O argumento inverso também pode ser feito. O modelo de
regressão não precisa se manter perfeito para que os resíduos
possam dar resultados razoáveis. Além disso, as diferenças nas
distribuições de erro podem ser incorporadas no modelo,
levando a uma versão mais apropriada dos resíduos de
bootstrap.
Ponto importante: O bootstrap pode ser implementado de
maneiras diferentes para o mesmo problema, dependendo de como
o modelo de probabilidade é interpretado.
Exemplo: Os dados de sobrevivência de células
Um radiologista realizou um experimento envolvendo 14 placas
bacterianas. As placas foram expostas a várias doses de radiação e
a proporção das células sobreviventes foi medida. Doses maiores
levam a menores proporções de sobrevivência, como seria de se
esperar. O ponto de interrogação após a resposta para a placa 13
reflete alguma incerteza nesse resultado expresso pelo investigador.
O investigador estava interessado em uma análise de regressão,
com variável preditora
dosei = zi i = 1, 2, . . . , 14
e variável resposta
log (proporção de sobrevivênciai ) = yi i = 1, 2, . . . , 14.
Dois modelos teóricos diferentes de dano por radiação estavam
disponíveis, um dos quais previa uma regressão linear,
µi = E[yi |zi ] = β1 zi ,
e outro com regressão quadrática,
µi = E[yi |zi ] = β1 zi + β2 zi2 .
Não existe intercepto por que era conhecido que com uma dose
zero a proporção de sobrevivência era 1, logo y = log 1 = 0.
Seja
M SR(b) = median(yi − ci b)2 .
A estimativa de minima mediana dos quadrados da regressão
(LMS) para β é o valor que minimiza M SR(b), isto é,
M SR(β̂) = min(M SR(b)).
b
Os erros padrão foram obtidos pelos métodos bootstrap.
I Os erros padrão na linha 3 são baseados em bootstrap dos
pares com B = 400 replicações.
I As covariáveis nos dados de sobrevivência celular foram
números fixos, estabelecidos pelo investigador: ela escolheu as
doses
1.175, 1.175, 2.35, . . . , 14.100
para ter um bom experimento para discriminar entre os
modelos de sobrevivência de radiação linear e quadrática. Isso
torna o bootstrap dos resíduos mais interessante.
Olhando para a Figura, podemos ver que a resposta yi é mais
dispersa para valores maiores de z. Como um modelo
aproximadamente apropriado, assumiremos que os erros do modelo
linear aumentam linearmente com a dose z. Isso equivale a
yi = ci β + zi i para i = 1, . . . , 14.
O vetor β foi estimado pelo LMS como β̂ = (−0.83, 0.0114).
Então F foi estimada por F̂ , a distribuição empírica das
quantidades
(yi − ci β̂)/zi , para i = 1, . . . , 14.
A linha 4 da Tabela 9.5 relata erros padrão de bootstrap para as
estimativas de LMS obtidos com B = 200 replicações de bootstrap,
utilizando o bootstrap dos resíduos.
Bootstrap paramétrico
I De fato, a amostragem de bootstrap pode ser realizada de
forma paramétrica.
Quando os dados são modelados por uma distribuição paramétrica,
isto é,
iid
X 1 , . . . , X n ∼ F (x, θ),
uma outra estimativa de F pode ser obtida.
Suponha que os dados observados são usados para estimar θ por θ̂.
No bootstrap paramétrico, Cada pseudo banco de dados X ∗ pode
ser gerado por amostrar tal que
iid
X ∗1 , . . . , X ∗n ∼ F (x, θ̂).
I Quando o modelo é conhecido ou acredita-se ser uma boa
representação da realidade, o bootstrap paramétrico pode ser
uma ferramenta poderosa:
I permitindo inferência em situações de outra forma intratáveis;
I produzindo intervalos de confiança muito mais precisos do
que aqueles produzidos pela teoria assintótica padrão.
I É tentador usar um modelo conveniente, mas inadequado. Se
o modelo não se encaixa bem no mecanismo que gera os
dados, o bootstrap paramétrico pode levar a uma inferência
errônea.
I Há ocasiões que poucas outras ferramentas inferenciais
parecem viáveis.
Teste de hipóteses com o Bootstrap
I Os testes de bootstrap dão resultados semelhantes aos testes
de permutação quando ambos estão disponíveis.
I Os testes de bootstrap são mais amplamente aplicáveis,
embora menos precisos.
O problema de duas amostras
Observamos duas amostras aleatórias independentes z e y de
possivelmente duas diferentes distribuições de probabilidade F e G,
F → z = (z1 , . . . , zn ) independente de
G → y = (y1 , . . . , ym )
e desejamos testar a hipótese nula
H0 : F = G.
Um teste de hipóteses é baseado em uma estatística de teste t(x).
Podemos considerar, por exemplo, t(x) = z̄ − ȳ.
Podemos decidir sobre as hipóteses a partir de
p-valor = PH0 (|t(x∗ )| ≥ |t(x)|).
A quantidade t(x) é o valor observado e a variável aleatória x∗ tem
uma distribuição especificada pela hipótese nula H0 , denotada por
F0 .
Denotamos por x a amostra combinada de z e y. A distribuição
empírica de x, denotada por F̂0 , coloca probabilidade
1/(n + m)
para cada valor de x.
Sob H0 , F̂0 fornece uma estimativa não-paramétrica da população
comum que gerou z e y.
Testes mais precisos podem ser obtidos através do uso de uma
estatística estudentizada. Podemos utilizar
z̄ − ȳ
t(x) = q ,
σ̄ 1/n + 1/m
em que
n m 1/2
2 2
− z̄) + (yj − ȳ)
P P
(zi
i=1 j=1
σ̄ =
.
n+m−2
Algoritmo
1. Gere B amostras de tamanho n + m com reposição de x.
Para cada uma das amostras, denote as primeiras n
observações por z ∗ e as m observações restantes por y∗.
2. Avalie t(·) em cada reamostra, isto é, t(x∗b ).
3. Calcule
B
I{|t(x∗b )| ≥ |tobs |}/B,
X
\ boot =
p-valor
b=1
em que tobs = t(x) é o valor observado da estatística de teste.
O algoritmo acima testa a hipótese nula de que as duas populações
são idênticas, ou seja, F = G. E se quiséssemos testar apenas se
suas médias eram iguais?
Se não estivermos dispostos a assumir que as variâncias nas duas
populações são iguais, poderíamos basear o teste em
z̄ − ȳ
t(x) = q ,
σ̄12 /n + σ̄22 /m
em que
n m
2
(yj − ȳ)2 /(m − 1).
X X
σ̄1 = (zi − z̄) /(n − 1) e σ̄2 =
i=1 j=1
I A suposição de variância igual é atraente para o teste t porque
simplifica a forma da distribuição da estatística de teste.
I Mas ao considerar um teste de hipótese de bootstrap para
comparar as duas médias, não há razão convincente para
assumir variações iguais e, portanto, não fazemos essa
suposição.
Para prosseguir, precisamos de estimativas de F e G que utilizem
apenas a suposição de uma média comum. Seja x̄ a média da
amostra combinada, podemos
1. transladar ambas as amostras de modo que tenham a média x̄;
2. reamostrar de cada população separadamente.
Algoritmo
1. Faça F̂ colocando igual probabilidade nos pontos
z̃i = zi − z̄ + x̄,
para i = 1, . . . , n e Ĝ colocando igual probabilidade nos
pontos
ỹi = yi − ȳ + x̄,
para i = 1, . . . , m, em que z̄ e ȳ são as médias dos grupos e x̄
é a média da amostra combinada.
2. Gere B conjuntos de dados (z ∗ , y ∗ ) em que z ∗ é amostrado
com reposição de z̃1 , . . . , z̃n e y ∗ é amostrado com reposição
de ỹ1 , . . . , ỹm .
3. Para cada banco de dados calcule
z̄ ∗ − ȳ ∗
t(x) = q ,
σ̄1∗2 /n + σ̄2∗2 /m
4. Calcule
B
I{|t(x∗b )| ≥ |tobs |}/B,
X
\ boot =
p-valor
b=1
em que tobs = t(x) é o valor observado da estatística de teste.
Exemplo
Simulação no script!
O problema com uma amostra
Suponha que observamos uma amostra z com distribuição de
probabilidade F , isto é
F → z = (z1 , . . . , zn )
e desejamos testar a hipótese nula
H0 : µZ = µ0 .
Um bootstrap pode ser utilizado considerando a estatística de teste
z̄ − µ0
t(z) = √ .
σ̄/ n
Qual a distribuição da estatística de teste sob H0 ?
I Necessitamos de uma distribuição F̂ que estima da
distribuição F sob H0 .
I Observe primeiro que a distribuição empírica F̂n não é
apropriada estimar para F porque não obedece a H0 . Ou seja,
a média de F não é igual ao valor nulo de µ0 .
Uma maneira simples é transladar a distribuição empírica F̂n para
que tenha a média desejada. Em outras palavras, usamos como
nossa distribuição nula estimada a distribuição empírica nos valores
z̃i = zi − z̄ + µ0 , para i = 1, . . . , n.
Então, amostramos
z̃1∗ , . . . , z̃n∗
com reposição de z̃1 , . . . , z̃n e para cada amostra bootstrap
calculamos a estatística
z̃¯∗ − µ0
t(z ∗ ) = ¯ ∗ √ .
σ̃ / n
Logo,
B
I{|t(z ∗b )| ≥ |tobs |}/B.
X
\ boot =
p-valor
b=1
Existe uma maneira diferente, mas equivalente, de fazer um
bootstrap no problema de uma amostra.
Amostramos com substituição dos dados originais (não
transladados)
z1 , . . . , zn
e calculamos a estatística
z̄ ∗ − z̄
t(z ∗ ) = √ ,
σ∗/ n
em que σ ∗ é o desvio padrão da reamostra.
Esta estatística é igual a anterior pois
z̃¯∗ − µ0 = (z̄ ∗ − z̄ + µ0 ) − µ0 = z̄ ∗ − z̄
e os desvios padrão também são iguais.
Exemplo
Simulação no script!
Testes de permutação
I Testes de permutação são baseados em reamostragem, mas as
amostras são geradas sem reposição.
I Podem ser aplicados para realizar testes não paramétricos de
igualdade de distribuições, independência, entre outros.
Igualdade de distribuições
Suponha duas amostras aleatórias independentes z e y de
possivelmente duas diferentes distribuições de probabilidade F e G,
F → z = (z1 , . . . , zn ) independente de
G → y = (y1 , . . . , ym )
Seja x a amostra agrupada
x = (z1 , . . . , zn , y1 , . . . , yn ),
que é indexada por
v = {1, . . . , n, n + 1, . . . , n + m} = {1, . . . , N }.
Seja X ∗ = (Z ∗ , Y ∗ ) representando uma partição da amostra
agrupada X, em que Z ∗ tem n elementos e Y ∗ tem m = N − n
elementos.
Então, X ∗ é uma permutação π dos inteiros v, em que zi∗ = zπ(i) .
N
O número de possíveis partições é igual a n
e sob
H0 : F = G,
uma amostra aleatória Z ∗ tem probabilidade
1 n!m!
N
=
N!
n
para quaisquer valores possíveis. Isto é, sob H0 todas as
permutações são igualmente prováveis.
I Os grupos podem ser comparados de várias maneiras. Por
exemplo, com médias amostrais, medianas ou médias
aparadas.
I Mais geralmente, pode-se perguntar se as distribuições das
duas variáveis diferem e comparar os grupos por qualquer
estatística que mede a distância entre duas amostras.
Se
θ̂(Z, Y ) = θ̂(X, v)
é uma estatística, então a distribuição de permutação de θ̂∗ é a
distribuição de replicações
( !)
∗ N
{θ̂ } = θ̂(X, πj (v)), j = 1, . . . , .
n
Assim,
!−1 (Nn )
N
p-valor = P (|θ̂∗ | ≥ |θ̂|) = I{|θ̂(j) | ≥ |θ̂|},
X
n j=1
onde θ̂ é o valor calculado com a amostra observada.
Obs: O p-valor pode ser calculado de maneira similar para um teste
unilateral a esquerda ou bilateral.
I Na prática, a menos que o tamanho amostral seja muito
pequeno, avaliar a estatística de teste para todas as
permutações é computacionalmente intensivo.
I Um teste de permutação aproximado é implementado ao
amostrar aleatoriamente um grande número de amostras sem
reposição.
Algoritmo para teste de permutação aproximado
1. Calcule o valor observado θ̂(Z, Y ) = θ̂(X, v) para a
estatística de teste.
2. Para cada réplica, indexada por b = 1, . . . , B:
a) Gere uma permutação aleatória πb = π(v).
b) Calcule a estatística θ̂(b) = θ̂(X, πb )
3. Se grandes valores de θ̂ dão suporte a hipótese alternativa,
calcule
1+ B (b)
≥ θ̂}
P
j=1 I{θ̂
p-valor =
\ .
B+1
\ ≤ α.
4. Rejeite H0 se p-valor
Exemplo
São registrados pesos em gramas, para seis grupos de pintinhos
recém-nascidos alimentados com suplementos diferentes. Existem
seis tipos de suplementos alimentares. Sugere-se que os grupos
soja e linhaça podem ser semelhantes. A distribuição de pesos para
esses dois grupos é comparada.
No script!
Teste de independência
Uma teste de independência de Z e Y dado por
H0 : FZY = FZ FY vs H1 : FZY 6= FZ FY
pode ser implementado como um teste de permutação?
I Se X e Y estão correlacionados/associados, eles são
dependentes
I A hipótese nula é H0 : ρ = 0 onde ρ = cor(Z, Y )
I Diferentes definições de ρ medem diferentes tipos de
associação.
Como podemos usar um teste de permutação para responder a essa
pergunta?
Seja v = (v1 , . . . , vn ) o vetor de permutação que contém os
inteiros {1, . . . , n} em alguma ordem. Esse vetor estará associado
a ordenação de yi .
Existem n! possíveis vetores v.
Se H0 : ρ = 0 é verdadeira, então reordenar yi não afetará a
correlação.
Sob H0 , o vetor v em probabilidade 1/n! de assumir cada um dos
n! possíveis resultados.
Para o teste de H0 : ρ = 0, temos que
Pn!
I{|ρ̂(j) | ≥ |ρ̂|}
j=1
p-valor = .
n!
Quando n! é muito grande utilizamos a aproximação Monte Carlo.