0% acharam este documento útil (0 voto)
48 visualizações74 páginas

Fundamentos da Regressão Linear em Econometria

O documento aborda os conceitos fundamentais de econometria, focando na regressão linear simples e multivariada, incluindo fórmulas para estimativas e variâncias. Ele discute a importância de entender a relação entre variáveis dependentes e independentes, além de apresentar hipóteses necessárias para garantir a validade dos modelos econométricos. Também menciona métodos de estimação e a relevância da análise estatística na inferência dos parâmetros populacionais.

Enviado por

Ernesto libre
Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato PDF, TXT ou leia on-line no Scribd
0% acharam este documento útil (0 voto)
48 visualizações74 páginas

Fundamentos da Regressão Linear em Econometria

O documento aborda os conceitos fundamentais de econometria, focando na regressão linear simples e multivariada, incluindo fórmulas para estimativas e variâncias. Ele discute a importância de entender a relação entre variáveis dependentes e independentes, além de apresentar hipóteses necessárias para garantir a validade dos modelos econométricos. Também menciona métodos de estimação e a relevância da análise estatística na inferência dos parâmetros populacionais.

Enviado por

Ernesto libre
Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato PDF, TXT ou leia on-line no Scribd

Básico de Econometria

EAE 1221 - Econometria I


Zinho

Decoreba
Regressão Linear Simples

Pn
(y − y)(xi − x)
β̂1 = i=1 Pn i 2
; β̂0 = y − β̂1 x
i=1 (xi − x)
Pn
  σ2   σ 2 · i=1 x2i
Var β̂1 = Pn 2 ; Var β̂ 0 = P n 2
i=1 (xi − x) n· (xi − x)
Pn i=1
û2
ŷi = β̂0 + β̂1 xi ; yi = ŷi + ûi ; σ̂ 2 = i=1 i
n−2
X n Xn
2 2
SST ≡ (yi − y) ; SSE ≡ (ŷi − y)
i=1 i=1
n n
X 2
X SSE SSR
SSR ≡ (yi − ŷi ) = û2i ; R2 = =1−
i=1 i=1
SST SST
CLM :H1: Linearidade y = β0 + β1 x + u
H2: Amostra Aleatória {(xi , yi ) : i = 1, 2, . . . , n}
yi = β0 + β1 xi + ui
n
X 2
H3: Há variação em x (xi − x) > 0
i=1
H4: Média Condicional Zero E [u|x] = u
Sob H1-H4 :Não viés E[β̂i |x] = βi
H5: Homocedasticidade Var (ui |xi ) = σ 2
Sob H1-H5 :Gauss-Markov: β̂ é BLUE
H6: Normalidade u ∼ N 0, σ 2

 
Sob H1-H6 : Teste de Hipóteses β̂i − βi /se(β̂i ) ∼ tn−k−1

1
Regressão Linear Multivariada

h i
β̂ = (X’X)−1 X’y; Var β̂|X = σ 2 (X′ X)−1

u’u y’β̂(X’X)−1 β̂ ′ y
σ̂ 2 = ; R2 =
n−k y’y
CLM :H1: Linearidade y = Xβ + u
H2: Posto Completo rank(E [X′ X]) = k + 1
H3: Condição de ortogonalidade populacional
E X′ u = 0
 

Sob H1-H3 :Não viés E[β̂|X] = β


H4: Homocedasticidade Var[u|X] = σ 2 In
Cov[ui , uj ] = 0, ∀i ̸= j
Sob H1-H4 :Gauss-Markov: β̂ é BLUE
H5: Normalidade u ∼ N 0, σ 2

 
Sob H1-H6 : Teste de Hipóteses β̂ − β /se(β̂) ∼ tn−k−1

2
Relembrar é viver

n
X
µX = E [X] (populacional) ≡ xi /n = x (amostral)
i=1
2 2
= E (X − µ)2 = E X 2 − {E [X]} (populacional)
   
σX
Xn
≡ (xi − x)2 /n = Var(x) (amostral)
i
σXY = E [X · Y ] = E X 2 − E [X] · E [Y ] (populacional)
 

Xn
≡ (xi − x)(yi − y)/n = Cov(x, y) (amostral)
i=1
σX,Y Cov(x,y)
ρX,Y = (populacional) ≡ p = corr(x, y)
σX · σY Var(x) · Var(y)
" n # n
X X
E [aX + b] = aE [X] + b; E Xi = E [Xi ]
i=1 i=1
2
Var [aX + b] = a Var [X] ; Var [X ± Y ] = Var [X] + Var [Y ] ± 2Cov [X, Y ]
" n # n
X X X
Var Xi = Var [Xi ] + 2 Cov [Xi , Xj ]
i=1 i i̸=j

3
Introdução: O que é econometria

“A análise de regressão diz respeito ao estudo da dependência de uma


variável, a variável dependente, em relação a uma ou mais variáveis,
as variáveis explanatórias, visando estimar e/ou prever o valor médio
(da população) da primeira em termos dos valores conhecidos ou
fixados (em amostragens repetidas) das segundas.” (Econometria
Básica; Gujarati & Porter; p. 39).

Em outras palavras, a análise da regressão nada mais é que avaliar/estudar


quanto de uma variável y (variável dependente) pode ser explicada em termos
de outra variável x (variável independente), ou seja, quanto x explica y. Para
ser ainda mais preciso, quanto da variação de y pode ser explicado pela variação
de x. Por exemplo, queremos entender quanto da educação explica salários, isto
nada mais é que a clássica equação econométrica minceriana.

4
Quando fazemos uma análise de regressão, por exemplo no caso minceriano,
plotamos em um gráfico os dados de salários no eixo y e educação no eixo x.

Nesse gráfico ao ver a dispersão dos dados queremos colocar uma figura que
melhor explica a trajetória dos dados. Geralmente a melhor figura que faz isso
é uma reta.

É como se a realidade tivesse uma forma funcional sobre uma dada variável, e
o trabalho econométrico é nada mais que tentar estimar a equação mais próxima
dessa forma funcional.

5
Regressão Linear Simples
Vamos aprender agora como estimar uma regressão simples: O modelo econométrico,
genericamente, pode ser escrito da seguinte maneira:

y = β0 + β1 · x + u

Onde

• y é a variável dependente
• x é a variável independente
• β0 é o parâmetro intercepto.

• βi é o parâmetro de inclinação (coeficiente angular)


• u é o termo de erro
A ideia seria assim: acreditamos que parte da variação da nossa variável
dependente y é explicada pela variação de uma variável independente x. Obvi-
amente a variação de x não explica toda a variação de y, pois seria equivalente
dizer que x é a única coisa que causa y, algo muito pouco provável na reali-
dade. Então parte do nosso modelo é explicado endogenamente pelas variáveis
de nossa escolha (ou seja, por x) e o resto a gente joga pro erro u.

y = β0 + β1 · x + |{z}
u
| {z }
endógeno exógeno

Em outras palavras, a aparte endógena do nosso modelo corresponde aquilo


que queremos explicar/entender, e.g., quanto da variação dos salários é resultado
da variação dos anos de estudos do indivı́duo. Já a parte exógeno é aquilo que
optamos por não modelar e portanto, toda a variação de y que não resultado de
variação de x. Note, para isso funcionar essa variação do erro (i.e., a variação
de y causada por variação de fatores que não são x) não pode estar relacionada
com x. Parece óbvio, mas toda a econometria depende dessa hipótese e/ou é
sobre arranjar jeitos cada vez mais engenhosos de fazer essa hipótese valer.

Uma vez tendo nosso modelo especificado (i.e., definimos a forma e as


variáveis da nossa regressão), agora se torna um trabalho de inferência es-
tatı́stica. Vamos usar estimador para inferir a partir de uma amostra os parâmetros
verdadeiros. Para garantir que nossa estimação é crı́vel vamos estimar a in-
certeza dos nossos coeficientes para fazer teste de hipóteses e prover evidências
que de fato estamos capturando algum efeito e não apenas ruı́do nos dados.

Estimação
Queremos estimar os parâmetros β0 e β1 . Mas esses são variáveis populacionais,
i.e., são parâmetros da realidade que o pesquisador não tem acesso direto. Então,

6
cabe pegarmos uma amostra e estimá-los, mas tomando certas hipóteses a modo
de garantir que estamos em média pegando o valor verdadeiro, para qualquer
amostra que usarmos.

A lógica do processo que usaremos na regressão linear é a seguinte: quere-


mos a melhor reta que ajusta aos dados, mas qual reta fazer? Olhemos nosso
exemplo:
Podemos usar a reta 1, a reta 2 ou qualquer outra reta usando qualquer
critério que acharmos adequado para ajustar aos dados. Mas o que temos de
ficar atentos é que nossa estimação sempre vai gerar um erro, afinal nem tudo
é explicando por x, como discutimos acima. Então se estamos capturando o
efeito verdadeiro, o diferencial entre a realização da variavél dependente e o valor
predito para qualquer realização da nossa variável independente representará a
variação de y explicado pelos demais fatores que consideramos exógenos.

7
Para deixar mais claro, essencialmente por que x não explica tudo e, por-
tanto, há variação de y explicada por coisas que não x então espera-se o seguinte:

A variação não explicada pelo nosso modelo é o erro. O que queremos do


nosso estimador é que esse erro seja o menor possı́vel, ou seja,
n
X n
X 2
min u2i = (yi − ŷi )
i=1 i=1

Aqui cabe uma nota sobre notação: Quando colocamos o chapéu estamos deno-

8
tando que essa é a estimativa do parâmetro populacional, i.e., X̂ é a estimativa
do parametro estrutural X. No nosso problema queremos estimar β0 e β1 ,
consequentemente ao final do nosso processo teremos:

ŷi = β̂0 + β̂1 × x


|{z} |{z} |{z}
predito estimado estimado

Vamos minimizar os erro ao quadrado por uma série de motivos que não vem
ao caso, mas o mais importante é simplicidade analı́tica. As contas ficam mais
fáceis e a gente lida só com valores positivos, embora existam outros métodos de
estimação. Além do mais, com o estimador de Mı́nimos Quadrados Ordinários
(MQO ou OLS) você chega ao mesmo resultado usando formas diferentes de
estimação. Usaremos três métodos: Método dos Momentos, Mı́nimos
Quadrados Ordinários e Máxima Verossimilhança.

Antes de mais nada ...


Relembrar é viver: Momentos são medidas quantitativas (ou um conjunto de
parâmetros estatı́sticos) que descrevem as caracterı́sticas especı́ficas de uma dis-
tribuição de probabilidade. O primeiro momento caracteriza a tendência central
(média ou esperança) de uma distribuição, o segundo caracteriza a dispersão
(variância) da distribuição, o terceiro caracteriza a assimetria (skewnesse), o
quarto caracteriza a curtose, e por aı́ vai1 .
Para prosseguir fazemos uma suposição simplificadora (sem perda de gener-
alidade): o valor médio, ou esperado, de u é zero na população:

E [u] = 0

onde E(·) é o operador de valor esperado.


A presença de β0 em
y = β0 + β1 x + u
nos permite assumir E [u] = 0. Se a média de u for diferente de zero, digamos
α0 , apenas ajustamos a interceptação, deixando a inclinação igual:

y = (β0 − α0 ) + β1 x + (u − α0 )

onde α0 = E [u]. O novo erro é u − α0 e a nova interceptação é β0 + α0 . O ponto


importante é que a inclinação β1 não mudou.
1 O n-ésimo momento de uma variável aleatória contı́nua de valor real com função de

densidade f (x) em torno de um valor c é a integral


Z ∞
Mn (X) = (x − c)n f (x)dx
−∞

Ou seja, para uma distribuição centralizada no zero, temos a seguinte fórmula:


Mn (x) = E [(x − E [x])n ]

9
Suposição crucial: Uma suposição que combina bem com nosso tratamento
introdutório envolve a média do termo de erro para cada “fatia” da população
determinada pelos valores de x:

E [u|x] = E [u]

onde E [u|x] significa “o valor esperado de u dado x”. Então dizemos que u é
uma média independente de x.
Um exemplo para fazer sentido:
Suponha que você seja “habilidade” e x sejam anos de educação. Precisamos,
por exemplo,

E [habilidade|x = 8] = E [habilidade|x = 12] = E [habilidade|x = 16]

de modo que a capacidade média seja a mesma nas diferentes parcelas da pop-
ulação com escolaridade de 8ª série, 12ª série e ensino superior de quatro anos.
Note, no nosso exemplo como habilidade e anos de educação são independentes
(i.e., E [habilidade|x] = E [habilidade]) então na média esperamos a mesma dis-
tribuição de habilidades para qualquer realização de anos de estudos. Dado que
as pessoas escolhem nı́veis de educação parcialmente baseados na capacidade,
esta suposição é quase certamente falsa.
Consequentemente, combinando E [u|x] = E [u] (a suposição substantiva)
com E [u] = E [u] = 0 (uma normalização) temos a hipótese de média condi-
cional zero.
E [u|x] = E [u] = 0, ∀x
Como o valor esperado condicional é um operador linear, E [u|x] = 0 implica

E [y|x] = β0 + β1 x

que mostra que a função de regressão populacional (ou a função de ex-


pectativa condicional) é uma função linear de x.
Na figura acima a distribuição condicional de y em três valores diferentes
de x são sobrepostas. para um determinado valor de x, vemos um intervalo
de valores de y: lembre-se, y = β0 + β1 x + u, e u tem uma distribuição na
população. Isso vai ser importante, pois é com a estimação do erro que vamos
fazer os testes de hipóteses.
Agora vamos introduzir dados (amostras) no nosso modelo: Seja

{(xi , yi ) : i = 1, . . . , n}

uma amostra aleatório de tamanho n da população:

yi = β0 + β1 xi + ui

Com nossa hipótese de média condicional do erro e uma amostra aleatória pode-
mos ir aos métodos de estimação.

10
Método dos Momentos
Para essa estimação observamos yi e xi , mas não ui (mas sabemos que ele
existe). Vamos usamor duas restrições populacionais:

E [u|x] = 0
Cov [x, u] = 0

A segunda condições é apenas uma forma mais forte de dizer que u e x não são
correlacionados. Lembrando que

Cov [x, u] = E [(x − E [x]) (u − E [u])]


0
  
= E (x − E [x]) u −  E [u]
*


= E [u · (x − E [x])]
= E [x · u − u · E [x]]
= E [x · u] − E [u · E [x]]
= E [x · u] − E [x] · E [u]

= E [x · u] − E [x] ·  *0
E [u]

= E [x · u]

Ou seja,
Cov [x, u] = E [x · u] = 0

11
Assim nossas duas restrições ficam assim:
E [u] = 0 (1)
E [x · u] = 0 (2)
Basta fazer a seguinte manipulação algébrica:
y = β0 + β1 x + u =⇒ u = y − β0 − β1 x
Com isso em mente, comecemos abrindo a equação (1):
h i
E [u] = E y − β̂0 − β̂1 x
h i h i
= E [y] − E β̂0 − E β̂1 x

= E [y] − β̂0 − β̂1 E [x]


Ou seja,
E [u] = 0 =⇒ E [y] − β̂0 − β̂1 E [x] = 0
E consequentemente, temos que
β̂0 = E [y] − βˆ1 E [x]
O equivalente amostral da esperança é a média amostral, logo

β̂0 = y − βˆ1 x

Temos uma fórmula funcional para a estimação do intercepto, entretanto de-


pende da estimação coeficiente de inclinação. Usaremos agora a equação (2)
utilizando da mesma manipulação algébrica:
h  i
E [x · u] = E x · y − β̂0 − β̂1 x
h i
= E xy − β̂0 x − β̂1 x2
h   i
= E xy − E [y] − β̂1 E [x] x − β̂1 x2
h i
= E xy − xE [y] + β̂1 xE [x] − β̂1 x2
h i
= E x (y − E [y]) + β̂1 x · (E [x] − x)
h i
= E x (y − E [y]) + β̂1 x · (−x + E [x])

= E [x (y − E [y])] − β̂1 E [x · (x − E [x])]


= E [x · y − x · E [y]] − β̂1 E x2 − x · E [x]
 

= E [x · y] − E [x · E [y]] − β̂1 E x2 − E [x · E [x]]


  
   
2
= (E [x · y] − E [x] · E [y]) − β̂1 E x2 − {E [x]}

= Cov(x, y) − β̂1 · Var(x)

12
Ou seja,
E [x · u] = 0 =⇒ Cov(x, y) − β̂1 · Var(x) = 0
E consequentemente, temos que
Cov(x, y)
β̂1 =
Var(x)
O equivalente amostral da esperança é a média amostral, podemos fazer a sim-
ples manipulação seguinte:
Pn Pn
Cov(x, y) (xi − x)(yi − y)/n (x − x)(yi − y)
= i=1
Pn 2
Pn i
= i=1 2
Var(x) i=1 (xi − x) /n i=1 (xi − x)

Portanto Pn
(x − x)(yi − y)
β̂1 = Pn i
i=1
2
i=1 (xi − x)

Mı́nimos Quadrados Ordinários


O resı́duo ou o erro estimado do nosso modelo é definido como:

ûi = yi − ŷi
 
= yi − β̂0 + β̂1 xi

Ou seja,
ûi = yi − β̂0 − β̂1 xi
Como especificado antes, nosso o método requer minimizar a soma erros quadra-
dos, e.g.,
Queremos achar Ŷi = β̂0 + β̂1 Xi . Como os parâmetros ûi é uma função do β
estimado, basta achar o tal β que minimiza a soma dos resı́duos ao quadrado.
n
X   Xn
u2 β̂0 , β̂1 ≤ u2 (b), ∀b ∈ R2
i=1 i=1

Ou seja,
n
X  2
min û2i ≡ yi − β̂0 − β̂1 xi
β̂0 ,β̂1 i=1

C.P.O:
Pn i 
h i ∂ i=1 û2i X 
β̂0 : =2 yi − β̂0 − β̂1 xi (−1) = 0
∂ β̂0 i=1
n
X n
X
= yi − nβ̂0 − β̂1 xi = 0
i=1 i=1

13
Ou seja,
n
X n
X
0= yi − nβ̂0 − β̂1 xi
i=1 i=1
Xn n
X
nβ̂0 = yi − β̂1 xi
i=1 i=1
n n
!
1 X X
β̂0 = yi − β̂1 xi
n i=1 i=1
n n
X yi X xi
= − β̂1
i=1
n i=1
n
= y − β̂1 x

Em suma,
β̂0 = y − β̂1 x

14
Agora estimando β̂1 :
Pn i 
h i ∂ i=1 û2i X 
β̂1 : =2 yi − β̂0 − β̂1 xi (−xi ) = 0
∂ β̂1 i=1
i 
X 
= yi − β̂0 − β̂1 xi (xi ) = 0
i=1
   
i
X
= yi − y − β̂1 x − β̂1 xi  (xi ) = 0
   
| {z }
i=1
β̂0
i 
X 
= yi − y + β̂1 x − β̂1 xi (xi ) = 0
i=1
i 
X 
= [yi − y] − β̂1 [xi − x] (xi ) = 0
i=1
i 
X 
= xi [yi − y] − β̂1 xi [xi − x] = 0
i=1
i
X i
X
= xi [yi − y] − β̂1 · xi [xi − x] = 0
i=1 i=1

Vamos fazer uma transformação algébrica, mas primeiro é presico estar ciente
do seguinte truque:
n
X n
X n
X
(xi − x) = 0 =⇒ a · (xi − x) = a · (xi − x) = 0
i i i

Ou seja
i
X i
X i
X
xi [yi − y] = xi [yi − y] − x · [yi − y]
i=1 i=1 i=1
| {z }
=0
i
X i
X
= xi [yi − y] − x · [yi − y]
i=1 i=1
i
X
= (xi [yi − y] − x · [yi − y])
i=1
i
X
= (xi − x) (yi − y)
i=1

15
Pi
Analogamente com i=1 xi [xi − x], chegamos que
i
X i
X
xi [yi − y] = (xi − x) (yi − y) (3)
i=1 i=1
i
X i
X 2
xi [xi − x] = (xi − x) (4)
i=1 i=1

Substituindo as expressões (3) e (4) em nossa derivação de β̂1 , temos que


i
X i
X
0= xi [yi − y] − β̂1 · xi [xi − x]
i=1 i=1
i
X i
X
β̂1 · xi [xi − x] = xi [yi − y]
i=1 i=1
i
X i
X
2
β̂1 · (xi − x) = (xi − x) (yi − y)
i=1 i=1

E com isso chegamos em


Pi
i=1 (xi − x) (yi − y)
β̂1 = Pn 2
i=1 (xi − x)

Idênticos aos estimadores do Método de Momentos.

Máxima verssomilhança
Agora, para a ultima estimação considere:
• ui são independentes com distribuição N 0, σ 2


• A densidade de uma observação i para o modelo de regressão com erros


normais é:
yi −β0 −β1 xi 2
1
 
2
 − 21
f yi ; β0 , β1 , σ = √ e σ

σ 2π
De yi = β0 + β1 xi + ui temos que E [yi |xi ] = β0 + β1 xi . Assim como
Var [yi |xi ] = σ 2 Temos que
ui ∼ N 0, σ 2


y i | x i ∼ N β0 + β1 x i , σ 2


Basta agora aplicar o método de máxima verossimilhança:


f y1 , y2 , y3 , . . . yn ; β0 , β1 , σ 2 = f (y1 ; ·) × f (y2 ; ·) × f (y3 ; ·) × · · · × f (yn ; ·)

n
Y
f yi ; β0 , β1 , σ 2

=
i=1

16
Podemos chamar essa função da seguinte maneira
n 2
1

yi −β0 −β1 xi
 Y −1
L β0 , β1 , σ 2 = √ e 2 σ

i=1
σ 2π
1 − 2σ12
Pn
i=1 (yi −β0 −β1 xi )
2
= e
σ n2π n/2 
2
 1 − 2σ12
Pn
(yi −β0 −β1 xi )2
ln L β0 , β1 , σ = ln e i=1
σ n 2π n/2
n
n n 1 X 2
= − ln(2π) − ln σ 2 − 2 (yi − β0 − β1 xi )
2 2 2σ i=1

Logo, dado nossa função de verossimilhança propriamente transformada, basta


agora achar o ponto de máximo:

max 2 ln L β0 , β1 , σ 2

β0 ,β1 ,σ

C.P.O:
n
h i ∂ ln L 1 X
β̂0 : =− 2 (yi − β0 − β1 xi ) (−1) = 0
∂ β̂0 2σ 2 i=1
n
X n
X
= yi − nβ0 − β1 xi = 0
i=1 i=1

Dividindo por n:
y − β0 − β1 x = 0
e portanto,
β̂0 = y − β̂1 x

Agora, fazendo o mesmo procedimento para β̂1 :


n
h i ∂ ln L 1 X
β̂1 : =− 2 (yi − β0 − β1 xi ) (−xi ) = 0
∂ β̂1 2σ 2 i=1
n
X
= (yi − y + β1 x − β1 xi ) (xi ) = 0
i=1
Xn n
X
= xi · (yi − y) − β1 xi · (xi − x) = 0
i=1 i=1
Xn n
X 2
= (yi − y) (xi − x) − β1 (xi − x) = 0
i=1 i=1

Em suma,
Pn
(y − y)(xi − x)
Pn i
β̂1 = i=1 2
i=1 (xi − x)

17
Entretanto, diferente dos outros dois métodos que vimos acima, o método de
máxima verossimilhança demanda uma hipótese amais. Tal hipótese diz re-
speito a distribuição do erro e portanto, temos que estimá-lo também dado essa
restrinção:
n
h i ∂ ln L n 1 1 X
β̂1 : = − · + (yi − β0 − β1 xi )2 = 0
∂σ 2 2 σ2 2σ 4 i=1
n
X 2
= −nσ 2 + (yi − β0 − β1 xi ) = 0
i=1

n
X 2
σ2 = (yi − β0 − β1 xi ) /n
i=1

Tendo em vista esse três métodos chegamos na expressão estimada da regressão


linear simples:
ŷi = β̂0 + β̂1 xi

ûi > 0 → superestimamos a relização i
ûi = yi − β̂0 − β̂1 xi =
ûi < 0 → sobrestimamos a relização i

Propriedades do MQO
• PMQO1: A soma e, portanto, a média amostral do resı́duo OLS é zero
n
X
ûi = 0
i=1

• PMQO2: A covariância da amostra entre o regressor e o resı́duo OLS é


zero
Xn
xi ûi = 0
i=1

• PMQO3: O ponto (x, y) está sempre na linha de regressão OLS

y = β̂0 + β̂1 x

Ademais,
Pn 2
• Soma total dos quadrados(SST) ≡ (yi − y) i=1
Pn 2
• Soma explicada dos quadrados(SSE) ≡ i=1 (yˆi − y)
Pn
• Soma residual dos quadrados(SSR) ≡ i=1 ûi 2

SST = SSE + SSR

18
Coeficiente de determinação
Um parâmetro interessante é a importância relativa do tratamento na explicação
do resultado na amostra quando comparado aos resı́duos, que refletem os efeitos
de quaisquer outras caracterı́sticas no resultado. Esse é o chamado adequação
do ajuste, que pode ser julgado pela proporção da variação da amostra no
resultado y, que é explicada pela variação da amostra em x, uma estatı́stica
conhecida como R quadrado (R2 ).
Para obter R2 , vamos reorganizar a equação ûi = yi −(β̂0 −β̂1 xi ) resolvendo-a
para obter o resultado
yi = ŷi − ûi
O que demonstra que o resultado yi para alguma observação i na amostra pode
ser decomposto nos componentes de prediçãoe resı́duo. Pode ser mostrado que
a variância de yi corresponde simplesmente à soma das variâncias desses dois
componentes (porque a covariância entre ui e xi - e portanto ŷi - é zero). For-
malmente,

Var(yi ) = Var (ŷi − ûi )


= Var (ŷi ) + Var (ûi ) − 2 Cov (ŷi , ûi )
| {z }
=0

Portanto,
Var(yi ) = Var (ŷi ) + Var (ûi )
que dividindo por Var(Yi ) na equação acima, temos que
Var(ŷi ) Var(ûi )
1= +
Var(yi ) Var(yi )
| {z }
R2

e portanto,
Var(ûi ) SSR SSE
R2 = 1 − =1− =
Var(yi ) SST SST

R2 próximo de 1 significa que quase 100% da variação do resultado é associada


a variação de uma unidade do tratamento, de modo que outras caracterı́sticas
desempenham um papel menor. R2 próximo de zero (ou 0 por cento) implica
que o tratamento é responsável por pouca variação no resultado em relação a
outras caracterı́sticas capturadas pelos resı́duos.

Hipóteses de Gauss-Markov
Para identificação do parâmetro populacional é preciso que o modelo satisfaça as
seguintes hipóteses, considerando (apenas) o modelo de regressão linear simples:
• Hipótese 1: O modelo é linear nos parâmetros

y = β0 + β1 x 1 + u

19
• Hipótese 2: A amostra é aleatória

{(xi , yi ) : i = 1, 2, . . . , n} yi = β0 + β1 xi + ui

• Hipótese 3: Há variação na váriavel explicativa x


n
X 2
(xi − x) > 0
i=1

• Hipótese 4: média condicional zero

E [u|x] = 0

Sobre hipótese 1-4 temos que: h i


E β̂ = β

Demonstração:
"P #
n
i=1 (xi − x) (yi − y)
h i
E β̂1 | x = E Pn 2 |x
i=1 (xi − x)
"P #
n
i=1 (xi − x) · yi
= E Pn 2 |x
i=1 (xi − x)
"P #
n
i=1 (xi − x) · (β0 + β1 xi + ui )
=E Pn 2 |x
i=1 (xi − x)
"P #
n
i=1 [β 0 · (x i − x) + β 1 x i · (x i − x) + ui · (x i − x)]
=E Pn 2 |x
i=1 (xi − x)
" Pn Pn Pn #
i=1 (xi − x) i=1 xi · (xi − x) i=1 ui · (xi − x)
= E β0 · P n 2 + β1 Pn 2 + Pn 2 |x
i=1 (xi − x) i=1 (xi − x) i=1 (xi − x)
Pn  :0 Pn 2
"P
n
#
i=1
 (x
 i −
 x) i=1 (xi − x) i=1 ui · (xi − x)
= β0 · Pn
 
2 + β1 · Pn 2 +E Pn 2 |x
i=1 (xi − x) i=1 (xi − x) i=1 (xi − x)
Pn
(xi − x) · E [ui | x]
= 0 + β1 · 1 + i=1Pn 2
i=1 (xi − x)
Pn :0
(xi − x) ·  | x]

E [u
i 
= β1 + i=1Pn 2
i=1 (xi − x)
= β1

20
h i
Temos que E β̂1 | x = β1 , então basta abrirmos a fórmula do estimador de β0
para ficar em termos dos parâmetros populacionais

β̂0 = y − β̂1 x
n
X yi
= − β̂1 x
i
n
n  
X β0 + β1 x i + u
= − β̂1 x
i
n
n  
X β0 xi ui
= + β1 · + − β̂1 x
i
n n n
n n n
X β0 X xi X ui
= + β1 · + − β̂1 x
i
n i
n i
n
n
n · β0 X ui
= + β1 · x + − β̂1 x
n i
n
n
  X ui
= β0 + x · β1 − β̂1 +
i
n

Ou seja, chegamos que


n
  X ui
β̂0 = β0 + x · β1 − β̂1 +
i
n

Agora é só aplicar a esperança condicional na expressão acima e utilizar a pro-


priedade das esperanças:
" n
#
h i   X ui
E β̂0 | x = E β0 + x · β1 − β̂1 + |x
i
n
" n #
h  i X ui
= E [β0 | x] + E x · β1 − β̂1 | x + E |x
i
n
n
h i X E [ui | x]
= β0 + x · E β1 − β̂1 | x +
i
n
n
 h i X E [ui | x]
= β0 + x · E [β1 | x] − E β̂1 | x +
i
n
n
X E [ui | x]
= β0 + x · (β1 − β1 ) +
i
n

21
h i
Se E β̂1 | x = β1 , então tem que ser o caso que E [u | x] = 0, logo:

n
h i X E [ui | x]
E β̂0 | x = β0 + x · (β1 − β1 ) +
i
n
  X n :0
| x]

0 E [u
i 
= β0 + x ·  − β1 +
β1  :
 
i
n
n
X 0
= β0 + x · 0 +
i
n
= β0 + 0 + 0
= β0

Em suma, h i
E β̂0 | x = β0

Finalmente, usando a Lei das Expectativas Iteradas:


 
h i  h i
E β̂ = E 
E β̂|X  = E [β] = β

| {z }
β

Em suma, chegamos que


h i
E β̂ = β

22
Para descobrir as variâncias faremos a seguinte transformação em β̂1 :
Pn
(y − y)(xi − x)
β̂1 = i=1 Pn i
(xi − x)2
Pn i=1
i=1 yi · (xi − x)
= P n
(xi − x)2
Pn i=1
(β0 + β1 xi + ui )(xi − x)
= i=1 Pn 2
i=1 (xi − x)
Pn
(β0 · (xi − x) + β1 xi · (xi − x) + ui · (xi − x))
= i=1 Pn 2
i=1 (xi − x)
Pn Pn Pn
i=1 β0 · (xi − x) + β1 Pi=1 xi · (xi − x) + i=1 ui · (xi − x)
= n 2
(xi − x)
Pn Pi=1
n Pn
(x i − x) i=1 xi · (xi − x) i=1 ui · (xi − x)
= β0 · Pni=1 2
+ β 1 P n 2
+ P n 2
i=1 (xi − x) i=1 (xi − x) i=1 (xi − x)
Pn  0
: Pn Pn
i=1
 (x
i − x) i=1 (xi − x)2 i=1 ui · (xi − x)
= β0 · P
n 
2
+ β1 Pn 2
+ P n 2
i=1 (xi − x) i=1 (xi − x) i=1 (xi − x)
hPh n h 2
P n
h− h
i=1 (xi h x)h i=1 ui · (xi − x)
= β0 · 0 + β 1 hPh n h 2 +
P n 2
i=1 (x
h i −
h hx)
h i=1 (xi − x)
Pn
i=1 ui · (xi − x)
= β1 + P n 2
i=1 (xi − x)

Ou seja, Pn
i=1 ui · (xi − x)
β̂1 = β1 + P n 2
(5)
i=1 (xi − x)

Agora, utilizaremos a equação (5) para calcular a variância de β̂1 dado as


hipóteses de Gauss-Markov (aqui será importante a homocedasticidade, i.e.,
Var(ui |xi ) = σ 2 ):
 Pn 
i=1 ui · (xi − x)
h i
Var β̂1 |x = Var β1 + P n 2
|x
i=1 (xi − x)
 Pn 
i=1 ui · (xi − x)
= Var [β1 |x] + Var Pn 2
|x
i=1 (xi − x)

Note β1 é um parâmetro e portanto é uma valor em especı́fico, consequente-


mente não tem variância, i.e. Var [β1 ] = 0 uma vez que é uma constante. En-
quanto isso, β̂1 é um estimador, que busca aproximar do parâmetro verdadeiro.
Com base na amostra podemos ter valores diferentes de β̂1 , deste modo ao cal-
cular a incerteza do nosso estimador. A partir dessa incerteza que faremos nosso
teste de hipótese, para ver se temos evidências que de que estamos pegando o

23
efeito verdadeiro e não um ruı́do qualquer de uma amostra em particular.
 Pn 
i=1 ui · (xi − x)
h i
Var β̂1 |x = Var [β1 |x] +Var P n 2
|x
| {z } i=1 (xi − x)
=0
 2 Xn
1
= Pn 2
· (xi − x)2 Var [ui |x]
i=1 i − x)
(x i=1
 
1
= Pn 2
· Var [ui |x]
i=1 i − x)
(x | {z }
σ2
2
σ
= Pn 2
i=1 i − x)
(x

Portanto,
  σ2
Var β̂1 |x = Pn 2
i=1 (xi − x)

Agora, faremos um processo análogo para β̂0 :

β̂0 = y − β̂1 · x
= (β0 + β1 · x + u) − β̂1 · x
= β0 + β1 · x + u − β̂1 · x
 
= β0 + β1 − β̂1 · x + u

Ou seja,  
β̂0 = β0 + β1 − β̂1 · x + u (6)

Usaremos a equação (6) para chegar em uma forma funcional da variância de


β̂0 :

24
h i h   i
Var β̂0 |x = Var β0 + β1 − β̂1 · x + u|x
h  i
= Var [β0 |x] + Var β1 − β̂1 · x|x + Var [u|x]
 Pn 
i=1 ui
h i
2
= Var [β0 |x] +Var β1 − β̂1 |x · x + Var |x
| {z } n
=0
 
n
h i X 1
= Var [β1 |x] +Var β̂1 |x  · x2 + · Var [ui |x]
| {z }
i=1
n2
0
n
σ2
  X 1
= Pn 2
· x2 + 2
· σ2
i=1 (xi − x) i=1
n
σ2 σ2
 
2
= Pn 2
· x +
i=1 (xi − x) n
2
 
1 x
= σ2 + Pn 2
n i=1 i − x)
(x
 Pn 2
x2

2 i=1 (xi − x)
=σ P n + n P
n· (xi − x)2 i=1 (xi − x)
2
Pn i=12 2 2
(x − 2xi x + x ) + n · x
= σ 2 · i=1 i Pn
n · i=1 (xi − x)2
Pn 2
Pn Pn 2 2
2 i=1 xi − 2x · Pi=1 xi + i=1 x + n · x
=σ · n
n · i=1 (xi − x)2
Pn
x2 − 2n · x2 + n · x2 + n · x2
= σ 2 · i=1 i Pn
n · i=1 (xi − x)2
n
σ2 x2
P
= Pn i=1 i 2
n · i=1 (xi − x)
Portanto,
Pn n
h i σ 2 i=1 x2i X
2
h i
Var β̂0 |x = Pn = (xi /n) · Var β̂ 1 |x
n · i=1 (xi − x)2 i=1

O problema dessas formulas são que elas pressupõe uma variância do erro con-
hecida, algo que não temos acesso nos dados. Para resolver isso temos que esti-
mar σ 2 , para isso usaremos a distribuição dos resı́duos da amostra utilizando a
seguinte fórmula: Pn 2
2 i=1 ûi
σ̂ =
n−k−1
em que k representa o número de parâmetros.

Para chegar nessa fórmula, basta mostrar que a estimativa de σ̂ 2 por máxima
verossimilhança é viesado:

25
E[σ 2 ] ̸= σ 2
Prova:
" n
#
2 1X
E[σ ] = E (Yi − β̂0 + β̂1 xi )2
n i=1
n
1X h 2 i
= E Yi − 2Yi (β̂0 + β̂1 xi ) + (β̂0 + β̂1 xi )2
n i=1
n n n
1 X  2 2 X h i 1X h i
= E Yi − E Yi (β̂0 + β̂1 xi ) + E (β̂0 + β̂1 xi )2
n i=1 n i=1 n i=1
| {z } | {z } | {z }
(1) (2) (3)

Vamos separar em três questões e resolver separadamente:

Equação 1:

n n
1 X  2 1 X
E Yi = V ar(Yi ) + (E [Yi ])2
n i=1 n i=1
n
1 X 2
= σ + (β0 + β1 xi )2
n i=1
n
1 X 2
= σ + β02 + 2β0 β1 xi + β12 x2i
n i=1
n
2
X x2 i
=σ + β02 + 2β0 β1 x̄ + β12
i=1
n

Portanto:
n X x2 n
1 X  2 i
E Yi = σ 2 + β02 + 2β0 β1 x̄ + β12 (7)
n i=1 i=1
n

Equação 2:

n n
2X h i 2X h i
− E Yi (β̂0 + β̂1 xi ) = − E (β0 + β1 xi + ϵi )(β̂0 + β̂1 xi )
n i=1 n i=1
n
2X h i
=− E β0 (β̂0 + β̂1 xi ) + β1 xi (β̂0 + β̂1 xi ) + ϵi (β̂0 + β̂1 xi )
n i=1
n
2X h i
=− E β0 β̂0 + β0 β̂1 xi + β̂0 β1 xi + β1 β̂1 x2i + β̂0 ϵi + β̂1 xi ϵi
n i=1

26
Ou seja,
n
2 Xn h i h i h i h i h i h io
− β0 E β̂0 − β0 xi E β̂1 + β1 xi E β̂0 − β1 x2i E β̂1 + E β̂0 ϵi − xi E β̂1 ϵi
n i=1

Isto é
n
2 Xn 2 h i h io
− β0 + β0 β1 xi + β0 β1 xi + β12 x2i + E β̂0 ϵi + xi E β̂1 ϵi
n i=1

Que é o mesmo que


n n n
X x2 i 2X h i 2X h i
−2β02 − 4β0 β1 x̄ + −2β12 − E β̂0 ϵi − xi E β̂1 ϵi
i=1
n n i=1 n i=1

Vamos abrir com cuidado os últimos termos


n n
" Pn #
2X 2X j=1 (xj − x̄)Yj
h i
− xi E β̂1 ϵi = − xi E Pn ¯ 2 ϵi
n i=1
n i=1
(xi − x) i=1
n n
2X xi X
=− Pn ¯2 · (xj − x̄)E [(β0 + β1 xj + ϵj )ϵi ]
n i=1 i=1 (xi − x) j=1
n n
2X xi X
=− Pn ¯2 · (xj − x̄)E [β0 ϵi + β1 xj ϵi + ϵi ϵj ]
n i=1 i=1 (xi − x) j=1
n n
2X xi X
=− Pn ¯2 · (xj − x̄) (β0 E [ϵi ] + β1 xj E [ϵi ] + E [ϵi ϵj ])
n i=1 i=1 (xi − x) j=1
n n
2 1 X X
=− · Pn ¯2 x i · (xj − x̄)E [ϵi ϵj ]
n i=1 (xi − x) i=1 j=1
n n
2 1 X X
=− · Pn ¯2 x i · (xj − x̄)E [ϵi ϵj ]
n i=1 (xi − x) i=1 j=1

Note
σ 2 , se i = j

E [ϵj ϵi ] =
0, c.c.
Ou seja,
n n
2X h i 2 1 X
− xi E β̂1 ϵi = − · n
P 2
(xi − x̄)2 E [ϵi ϵj ]
n i=1 n (x
i=1 i − x̄) i=j

2σ 2
=−
n
Portanto
n
2X h i 2σ 2
− xi E β̂1 ϵi = −
n i=1 n

27
Pn h i
Note que i=1 E β̂1 ϵi = 0. Agora olhemos para o outro termos
n n
2X h i 2X h i
− E β̂0 ϵi = − E (Ȳ − β̂1 x̄)ϵi
n i=1 n i=1
n
2X h i
=− E Ȳ ϵi − x̄β̂1 ϵi
n i=1
n
2X   h i
=− E Ȳ ϵi − x̄E β̂1 ϵi
n i=1
 
n n
2 X X Yj 
=− E ϵi
n i=1 j=1
n
n n
2 XX
=− E [Yj ϵi ]
n2 i=1 j=1
n n
2 XX
=− 2 E [(β0 + β1 xj + ϵj )ϵi ]
n i=1 j=1
n n
2 XX
=− E [β0 ϵi + β1 xj ϵi + ϵj ϵi ]
n2 i=1 j=1
n n
2 XX
=− (β0 E [ϵi ] + β1 xj E [ϵi ] + E [ϵj ϵi ])
n2 i=1 j=1
n n
2 XX
=− E [ϵj ϵi ]
n2 i=1 j=1

Sabemos que
n
n X
nσ 2 , se i = j
X 
E [ϵj ϵi ] =
0, c.c.
i=1 j=1
Então, temos que
n n n
2X h i 2 XX
− E β̂0 ϵi = − 2 E [ϵj ϵi ]
n i=1 n i=1 j=1
2
=− nσ 2
n2
2
= − σ2
n
Logo
n
2X h i 2
− E β̂0 ϵi = − σ 2
n i=1 n

28
Juntando tudo isso temos que
n n
X x2
2X h i
i 4σ 2
− E Yi (β̂0 + β̂1 xi ) = −2β02 − 4β0 β1 x̄ + −2β12 − (8)
n i=1 i=1
n n

Equação 3:

n n
1X h i 1X h 2 i
E (β̂0 + β̂1 xi )2 = E β̂0 + 2β̂0 β̂1 xi + β̂12 x2i
n i=1 n i=1
n
1 X  h 2i h i h i
= E β̂0 + 2xi E β̂0 β̂1 + x2i E β̂12
n i=1
n n n
1 X h 2i 2 X h i 1X h i
= E β̂0 + xi E β̂0 β̂1 + x2i E β̂12
n i=1 n i=1 n i=1
| {z } | {z } | {z }
(i) (ii) (iii)

Como fizemos antes, vamos quebrar em partes para facilitar a vida:

Item (i)
n n   h i2 
1 X h 2i 1X
E β̂0 = Var(β̂0 ) + E β̂0
n i=1 n i=1
n  Pn 2 2

1X i=1 xi σ 2
= + β0
n i=1 n ni=1 (xi − x̄)2
P
Pn 2 2
i=1 xi σ
= P n + β02
n i=1 (xi − x̄)2

Logo,
n Pn
1 X h 2i x2 σ 2
E β̂0 = Pni=1 i + β02
n i=1 n i=1 (xi − x̄)2

29
Item (ii)
n n
2X h i 2X h i
xi E β̂0 β̂1 = xi E (Ȳ − β̂1 x̄)β̂1
n i=1 n i=1
n
2X h i
= xi E Ȳ β̂1 − β̂12 x̄
n i=1
n
2X  h i h i
= xi E Ȳ β̂1 − x̄E β̂12
n i=1
   
n n   h i2 
2 X  X Yj 
= xi E β̂1 − x̄ Var(β̂1 ) + E β̂1 
n i=1 j=1
n
 
n n
σ2
 
2 X 1 X h i
= xi E Yj β̂1 − x̄ Pn 2
+ β12 
n i=1 n j=1 i=1 (x i − x̄)
 
n n
2 X 1 X h i 2x̄2 σ 2
= xi E (β0 + β1 xj + ϵj )β̂1  − Pn 2
− 2x̄2 β12
n i=1 n j=1 i=1 (xi − x̄)
 
n n
2 X 1 X h i 2x̄2 σ 2
= xi E β0 β̂1 + β1 xj β̂1 + ϵj β̂1  − Pn 2
− 2x̄2 β12
n i=1 n j=1 i=1 (xi − x̄)
n n
2 X X 2
h i 2x̄2 σ 2
= x i β 0 β 1 + β 1 xj + E ϵj β̂ 1 − Pn − 2x̄2 β12
n2 i=1 j=1 i=1 (xi − x̄)
2

2x̄2 σ 2
= 2x̄β0 β1 + 2β12 x̄2 − Pn 2
− 2x̄2 β12
i=1 (x i − x̄)

Logo,
n
2X h i 2x̄2 σ 2
xi E β̂0 β̂1 = 2x̄β0 β1 + 2β12 x̄2 − Pn 2
− 2x̄2 β12
n i=1 (x
i=1 i − x̄)

Item (iii)
n n   h i2 
1 X 2 h 2i 1X 2
x E β̂1 = x Var(β̂1 ) + E β̂1
n i=1 i n i=1 i
n
σ2
 
1X 2 2
= xi Pn 2
+ β 1
n i=1 i=1 (xi − x̄)
Pn n
x2 σ 2 X x2i
= Pni=1 i=1 2 + β12
n i=1 (xi − x̄) i=1
n

30
Ou seja,
n Pn n
1 X 2 h 2i x2 σ 2 X x2i
xi E β̂1 = Pni=1 i + β 2
1
n i=1 n i=1 (xi − x̄)2 i=1
n

Juntando i-ii-iii:
n Pn
x2i σ 2
 
1X h i
E (β̂0 + β̂1 xi )2 = Pn i=1 2
+ β0 +
n i=1 n i=1 (xi − x̄)2
Pn n
!
2 2 2 2 2
 
2x̄ σ x i σ X x i
2x̄β0 β1 + 2β12 x̄2 − Pn 2
− 2x̄2 β12 + Pni=1 + β12
i=1 (xi − x̄) n i=1 (xi − x̄)2 i=1
n

Ou seja,
n Pn
1X h i 2 x2 σ 2 2nx̄2 σ 2
E (β̂0 + β̂1 xi )2 = Pn i=1 i 2
− Pn
n i=1 n i=1 (xi − x̄) n i=1 (xi − x̄)2
n
X x2 i
+ β02 + 2x̄β0 β1 + β12
i=1
n

Mas note
Pn  Pn
2 i=1 x2i σ 2 2nx̄2 σ 2 x2i − nx̄2

2 i=1
Pn − Pn = 2σ Pn
n i=1 (xi − x̄)2 n i=1 (xi − x̄)2 n i=1 (xi − x̄)2
 Pn
2σ 2 (xi − x̄)2

= Pi=1
n 2
n i=1 (xi − x̄)
2σ 2
=
n
Portanto,
n i 2σ 2 X x2 n
1X h i
E (β̂0 + β̂1 xi )2 = + +β02 + 2x̄β0 β1 + β12 (9)
n i=1 n i=1
n

Juntando tudo
Unindo as equações (1), (2) e (3) temos que
n
X x2 i
E[σ 2 ] = σ 2 + β02 + 2β0 β1 x̄ + β12
i=1
n
n
X x2 i 4σ 2
− 2β02 − 4β0 β1 x̄ + −2β12 −
i=1
n n
n
2σ 2 X x2
i
+ + β02 + 2x̄β0 β1 + β12
n i=1
n

31
Portanto,

2σ 2
E σ̂ 2 = σ 2 −
 
 n
n−2
= σ2
n
̸= σ 2

Portanto
   " n
#
n 2 1 X
E σ̂ =E · (Yi − β̂0 − β̂1 xi ) = σ 2
2
n−2 n − 2 i=1

E assim, temos que


Pn n
ûi 1 X
σ̂ 2 = i=1
= (Yi − β̂0 − β̂1 xi )2
n−k−1 n − 2 i=1

Logo,
Pn
h i σ̂ 2 û
d β̂1 |x = Pn
Var 2
= Pn i
i=1
i=1 (xi − x) (n − k − 1) · i=1 (xi − x)2

Com isso, conseguimos estimar o erro padrão:


s Pn
  r   û2
se β̂1 = Var β̂1 =
d Pn i
i=1
(n − k − 1) · i=1 (xi − x)2
s
σ2  
̸= Pn 2
= dp β̂1
i=1 (xi − x)

Como estamos lidando com uma variância estimada (com base numa estimação
da distribuição da variância do erro), então quando cálculamos o desvio padrão
da variância do beta chapéu estimado, justamente chamamos de erro padrão
e não desvio padrão dado que a variância do erro foi estimada. Caso a variância
do erro σ 2 fosse conhecida, aı́ chamariamos de desvio padrão, por isso se(X) ̸=
dP(X).

32
Analogamente,
  r  
se β̂0 = Var
d β̂1
v
u n  
uX
= t (x2i /n) · Var
d β̂1
i=1
v
u n  
uX
̸= t (x2 /n) · Var β̂1
i
i=1
r  
= Var β̂0
 
= dp β̂0

É digno de nota que dado a hipótese de homocedasticidade podemos concluir


que    
Var β̂|x = Var β̂

justamente pelo fato de que a variabilidade do estimador β̂ (ou seja, o quão


distante os diferentes estimadores podem estar da verdadeira população de
parâmetros) é constante, independentemente dos valores especı́ficos da variável
independente.

Teorema de Gauss-Markov
Método de Mı́nimos Quadrados - Modelo Linear
Seja µ(·) uma função definida por µ(x) = β0 + β1 x, ∀x ∈ D ∈ R.
Para cada x ∈ D, seja FYx uma f.d.a. com média igual a µ(x), ou seja, β0 + β1 x
e variância σ 2 .
Seja x1 , . . . , xn um conjunto de n observações D. Para cada xi , seja Yi uma a.a.
de tamanho unitário da f.d.a. FYx ; i = 1, 2, . . . , n. Então,

(Y1 , x1 ) , (Y2 , x2 ) , . . . , (Yn , xn )

é um conjunto de n observações relacionados por

E[Yi ] = β0 + β1 xi e Var(Yi ) = σ 2 , i = 1, 2, . . . , n

Considere o modelo linear simples apresentado anteriormnte e a suposição


de que ε1 , . . . , εn são não correlacionados dois-a-dois. Então, os Estimadores de
Mı́nimos Quadrados de β0 e β1 , dados por
Pn
(Y − Y )(xi − x)
β̂0 = Y − β̂1 x e β̂1 = i=1 Pn i 2
i=1 (xi − x)

33
são BLUE para β0 e β1 , respectivamente.

Prova
(para β1 )
Pn
Seja, β̂1 = j=1 bj Yj . Vamos determinar os constantes bj tais que

(i) E[β̂1 ] = β1
(ii) Var(β̂1 ) é mı́nimo dentre os estimadores satisfazendo (i)

Para que (i) seja satisfeita, devemos ter


   
Xn Xn
β1 = E[β̂1 ] = E  bj Yj  = E  bj (β0 + β1 xj + εj )
j=1 j=1

Pela linearidade das expectativas, temos que


 
Xn n
X n
X
E bj (β0 + β1 xj + εj ) = bj E [β0 + β1 xj + εj ] = bj (β0 + β1 xj )
j=1 j=1 j=1

Portanto, aplicando a distribuitiva

β1 = E[β̂1 ]
Xn
= bj (β0 + β1 xj )
j=1
n
X n
X
= β0 · bj + β 1 · bj xj
j=1 j=1

Ou seja, para a equação igualar temos que impor as seguintes restrinções


n
X n
X
bj = 0 e bj x j = 1
j=1 j=1

34
Além disso, observe que
  h i
Var β̂1 = E (β̂1 − β1 )2
 2 
Xn
= E  bj Yj − β1  
 
j=1
 2 
n
 X
= E  bj (β0 + β1 xj + εj ) − β0  

j=1

0 1 2 
 X n 7 n  X n
X  
= E β b + β b x + b ε − β
   
0
 j=1  j 1 j j j j 1 

j=1 j=1

 2 
n
X
= E β1 + bj εj − β1  
 
j=1
 2 
Xn
= E  bj εj  
 
j=1
 
Xn X
= E b2j ε2j + bi εi · bj εj 
j=1 i̸=j
n
X   X
= b2j E ε2j + bi · bj E [εi · εj ]
j=1
| {z } i̸=j | {z }
σ2 0

Portanto,
  n
X
Var β̂1 = σ 2 b2j
j=1

Como a variância σ 2 é constante, para achar a menor a variância de β̂1 temos


que minimizar b2j sujeito as restrinções impostas:
n
X n
X n
X
min
n
b2j sujeito a bj = 0 e bj x j = 1
{bi }i=1
j=1 j=1 j=1

Montando o Lagrangeano temos que


   
Xn Xn Xn
L= b2j − λ1  bj  − λ 2  bj xj − 1
j=1 j=1 j=1

35
Assim, as Condições de Primeira Ordem são
∂L
= 2b1 − λ1 − λ2 x1 = 0
∂b1
.. ..
. .
∂L
= 2bj − λ1 − λ2 xj = 0
∂bj
.. ..
. .
∂L
= 2bn − λ1 − λ2 xn = 0
∂bn
n
∂L X
=− bj + 1 = 0
∂λ1 j=1
n
∂L X
=− bj xj = 0
∂λ1 j=1

Somando as n primeira equações, temos


n
X
{2bj − λ1 − λ2 xj } = 0
j=1
n
X n
X
2 bj −nλ1 − λ2 xj = 0
j=1 j=1
| {z }
0
−nλ1 − λ2 (n · x) = 0

Portanto,
λ1 = −λ2 x (10)
Multiplicando a j-ésima equação das n primeiros CPOs por xj , temos

2bj xj − λ1 xj − λ2 x2j = 0
n
X
2bj xj − λ1 xj − λ2 x2j = 0

j=1
n
X n
X n
X
2 bj xj −λ1 xj − λ 2 x2j = 0
j=1 j j
| {z }
1
n
X n
X
2 − λ1 xj − λ 2 x2j = 0
j j

36
Portanto  
Pn 2 n
2 j xj 1  X
λ1 = Pn − λ 2 Pn = 2 − λ2 x2j  (11)
j xj j xj n·x j

Substituindo (7) em (8), temos


 
n
1  X
−λ2 · x = 2 − λ2 x2j 
n·x j
n
X
−λ2 · n · x2 = 2 − λ2 x2j
j
 
Xn
λ2  x2j − n · x2  = 2
j

Portanto
2
λ2 = Pn 2
(12)
j (x j − x)

Substituindo (9) em (7)


−2x
λ 1 = Pn 2
(13)
j (x j − x)

Com isso substituiremos (9), (10) na j-ésima equação das n primeiras CPOs:
2bj − λ1 − λ2 xj = 0
! !
2x 2xj
2bj + Pn 2
− Pn 2
· xj = 0
j (xj − x) j (xj − x)
xj x
− Pn 2
+ Pn 2
= −bj
j (x j − x) j (x j − x)

Logo
xj − x
bj = Pn 2
(14)
j (xj − x)

Finalmente, basta substituir agora (11) em β̂1 :


n
X
β̂1 = bj Yj
j=1
n
" #
x −x
Pn j
X
= Yj 2
j=1 j (xj − x)
Pn
j=1 (xj − x)Yj
= P n 2
j (xj − x)
Pn
j=1 (xj − x)(Yj − Y)
= Pn 2
j (xj − x)

37
Em suma,
Pn
j (xj − x)(Yj − Y )
β̂1 = Pn 2
j (xj − x)

(para β0 )
Pn
Seja, β̂0 = j=1 aj Yj . Vamos determinar os constantes aj tais que

(i) E[β̂0 ] = β0
(ii) Var(β̂0 ) é mı́nimo dentre os estimadores satisfazendo (i)

Para que (i) seja satisfeita, devemos ter


   
Xn Xn
β0 = E[β̂0 ] = E  aj Yj  = E  aj (β0 + β1 xj + εj )
j=1 j=1

Pela linearidade das expectativas, temos que


 
Xn n
X n
X
E aj (β0 + β1 xj + εj ) = aj E [β0 + β1 xj + εj ] = aj (β0 + β1 xj )
j=1 j=1 j=1

Portanto, aplicando a distribuitiva

β0 = E[β̂0 ]
Xn
= aj (β0 + β1 xj )
j=1
n
X n
X
= β0 · aj + β1 · aj xj
j=1 j=1

Ou seja, para a equação igualar temos que impor as seguintes restrinções


n
X n
X
aj = 1 e aj xj = 0
j=1 j=1

38
Além disso, observe que
  h i
Var β̂0 = E (β̂0 − β0 )2
 2 
Xn
= E  aj Yj − β0  
 
j=1
 2 
n
 X
= E  aj (β0 + β1 xj + εj ) − β0  

j=1

1 0 2 
 X n  7 n  X n
X  
= E β a + β a x + aj εj − β0 
  
 0 j 1 j j  
  
j=1 j=1 j=1

 2 
Xn
= E β0 + aj εj − β0  
 
j=1
 2 
Xn
= E  aj εj  
 
j=1
 
Xn X
= E a2j ε2j + ai εi · aj εj 
j=1 i̸=j
n
X   X
= a2j E ε2j + ai · aj E [εi · εj ]
j=1
| {z } i̸=j | {z }
σ2 0

Portanto,
  n
X
Var β̂0 = σ 2 a2j
j=1

Como a variância σ 2 é constante, para achar a menor a variância de β̂0 temos


que minimizar a2j sujeito as restrinções impostas:
n
X n
X n
X
min
n
a2j sujeito a aj = 1 e aj xj = 0
{ai }i=1
j=1 j=1 j=1

Montando o Lagrangeano temos que


   
Xn Xn Xn
L= a2j − λ1  aj − 1 − λ2  aj xj 
j=1 j=1 j=1

39
Assim, as Condições de Primeira Ordem são
∂L
= 2a1 − λ1 − λ2 x1 = 0
∂a1
.. ..
. .
∂L
= 2aj − λ1 − λ2 xj = 0
∂aj
.. ..
. .
∂L
= 2an − λ1 − λ2 xn = 0
∂an
n
∂L X
=− aj + 1 = 0
∂λ1 j=1
n
∂L X
=− aj xj = 0
∂λ1 j=1

Somando as n primeira equações, temos


n
X
{2aj − λ1 − λ2 xj } = 0
j=1
n
X n
X
2 aj −nλ1 − λ2 xj = 0
j=1 j=1
| {z }
1
2 − nλ1 − λ2 (n · x) = 0

Portanto
2
− λ2 x
λ1 = (15)
n
Multiplicando a j-ésima equação das n primeiros CPOs por xj , temos

2aj xj − λ1 xj − λ2 x2j = 0
n
X
2aj xj − λ1 xj − λ2 x2j = 0

j=1
n
X n
X n
X
2 aj xj −λ1 xj − λ2 x2j = 0
j=1 j j
| {z }
0
n
X n
X
−λ1 xj − λ2 x2j = 0
j j

40
Portanto Pn
j x2j
λ1 = −λ2 Pn (16)
j xj
Substituindo (13) por (12) temos
Pn 2
2 j xj
− λ2 x = −λ2 Pn
n j xj
Pn 2 !
2 j xj
= λ2 x −
n n·x
Pn !
2 n · x2 − j x2j
= λ2
n n·x
Pn 2 2
!
j xj − n · x
2 = −λ2
x
Pn 2 Pn 2 !
j xj − j x
= −λ2
x
Pn 2
!
j (xj − x)
= −λ2
x

Logo
−2x
λ2 = Pn 2
(17)
j (xj − x)

Substituindo (14) em (13)


Pn
j x2j
λ1 = −λ2
n·x Pn 2
−2x j xj
= −1 · Pn 2
·
j (x j − x) n ·x

Logo Pn
2 j x2j /n
λ1 = Pn 2
(18)
j (xj − x)

Com isso substituiremos (14), (15) na j-ésima equação das n primeiras CPOs:

2aj − λ1 − λ2 xj = 0
Pn 2
! !
2 j xj /n −2x
2aj − Pn − Pn · xj = 0
j (xj − x)2 j (xj − x)
2
Pn
j x2j /n xxj
− Pn + Pn = −aj
j (xj − x)2 j (xj − x)
2

41
Logo Pn 2
j xj /n − xj · x
aj = P n 2
(19)
j (xj − x)

Finalmente, basta substituir agora (16) em β̂0 :


n
X
β̂0 = aj Yj
j=1
n
" Pn #
X x2j /n − xj · x
j
= Yj Pn 2
j=1 j (xj − x)
Pn Pn 2 Pn
j=1 (Yj /n) j xj − x i=1 Yj xj
= Pn 2
j (xj − x)
Pn 2 Pn
Y j xj + (nY x2 − nY x2 ) − x i=1 Yj xj
= Pn 2
j (xj − x)
Pn 2 n
Y · [ j xj − nx2 ] − x · [ i=1 Yj xj − nY x]
P
= Pn 2
j (xj − x)
Pn 2
P n
j (xj − x) j (xj − x)(Yj − Y )
= Y · Pn 2
− x · Pn 2
j (xj − x) j (xj − x)
Pn
j (xj − x)(Yj − Y )
=Y − Pn 2
·x
j (xj − x)
| {z }
β̂1

Em suma,
β̂0 = Y − β̂1 · x
Em suma, os estimadores me mı́nimos quadrados de β0 e β1 dados pelas
fórmulas de β̂0 e β̂1 são BLUE para β0 e β1 respectivamente. C.Q.D

Teste de Hipóteses
Sob as 6 hipóteses do Modelo Linear Clássico (CLM) pode ser demonstrado que
os estimadores de Mı́nimos Quadrados Ordinários (OLS) são os estimadores
não viesados de variância mı́nima, o que significa que os OLS têm a menor
variância entre os estimadores não viesados; não precisamos mais restringir nossa
comparação a estimadores que são lineares em relação aos yi .
Uma forma sucinta de resumir as suposições populacionais do CLM é

y|x ∼ N β0 + β1 x1 + β2 x2 + ... + βk xk , σ 2


onde x representa (x1 , x2 , . . . , xk ). Assim, condicionalmente a x, y tem uma


distribuição normal com uma média linear em x1 , x2 , . . . xk e uma variância

42
Figure 1: A distribuição normal homocedástica com uma única variável explica-
tiva

constante. Para uma única variável independente x, essa situação é mostrada


na seguinte figura:
Ademais, a normalidade do termo de erro se traduz em distribuições amostrais
normais dos estimadores OLS:
   β̂j − βj
β̂j ∼ N βj , Var β̂j   ∼ N (0, 1)
dp β̂j

condicional as variáveis independentes xi

Para uma compreensão completa dos testes de hipóteses, deve-se lembrar que
os βj são caracterı́sticas desconhecidas da população e nunca os conheceremos
com certeza. No entanto, podemos formular hipóteses sobre o valor de βj e
depois usar inferência estatı́stica para testar a nossa hipótese. Para fazer o teste
de hipóteses vamos precisar estimar a variância dos beta chapéis, que por sua
vez demandam estimação da distribuição amostral dos erros. Os estimadores
de OLS seguirãm uma distribuição amostral t para valores padronizados de β̂
usando o erro padrão:
β̂ − β
  ∼ tn−k−1
se β̂

Com base nisso podemos fazer o teste de hipótese:

Suponha o seguinte modelo estimado:

yi = β̂0 + β̂1 xi , R2
(se(β̂0 )) (se(β̂1 ))

Dado esses valores queremos testar se os coeficientes são significativos ou o


efeito é nulo, apenas consequência de ruı́do nessa amostra:

43
Figure 2: Teste de hipótese padrão bicaudal para nı́vel de significância de α

H0 : βj = 0 contra H1 : βj ̸= 0
Uma vez definido nossa hipótese nula (H0 ) e hipótese alternativa (H1 ),
seguimos o seguinte procedimento para nosso teste de hipótese bicaudal :

1. Construa a estatı́stica-t,
β̂j − βj
t βj =  
se β̂j

2. Defina o nı́vel de significância α, sendo os mais comuns 10%, 5% e 1%.

3. Obtenha a tabela de distribuição-t o valor crı́tico (c) correspondente a α


e n − k − 1 graus de liberdade. Vale o macete que se df = n − k − 1 > 120,
então os valores crı́ticos padrões serão o seguinte:

α = 10% =⇒ c0.1 = 1.645


α = 5% =⇒ c0.05 = 1.960
α = 1% =⇒ c0.01 = 2.576

4. Rejeitar H0 se |tβj | > cα


Caso contrário falhamos em rejeitar H0

44
P - valor
Um outro jeito de testar hipóteses é via o p-valor, uma vez que podemo dizer
que o p-valor é o menor nı́vel de signficância sob o qual a hipótese nula seria
rejeitada à luz da amostra observada. Como é um assunto delicado vamos definir
precisamente:
O p-valor é a probabilidade de obter uma estatı́stica de teste tão
ou mais extrema que a observada nos dados, assumindo que a
hipótese nula é verdadeira.
Formalmente, para o caso bicaudal temos que
!
β̂j
p-valor = Pr |T | ≥ βj = 0
se(β̂j )
Aqui chegamos a regra de decisão:
se o p-valor < α, então rejeita-se H0 ao nı́vel de (100 · α)%
É importante destacar a diferença entre o valor estimado especı́fico (β̂j )
e a estatı́stica de teste (T ). Enquanto β̂j é uma estimativa pontual obtida
dos dados observados (um número fixo para aquela amostra), a estatı́stica T
é uma variável aleatória que descreve o comportamento do estimador sob H0 .
O p-valor, portanto, não se refere diretamente ao valor observado de β̂j , mas à
probabilidade associada à estatı́stica T — ou seja, à chance de obter resultados
tão ou mais extremos que o tobs calculado, se H0 for verdadeira. Essa dis-
tinção é fundamental: o p-valor é uma propriedade da distribuição amostral de
T (que existe antes mesmo de coletarmos os dados), não apenas da estimativa
especı́fica que obtivemos.
Importante: P-valores podem indicar o quão incompatı́veis os dados são
com um modelo estatı́stico especificado. P-valor não medem a probabilidade de
que a hipótese estudada seja verdadeira, nem a probabilidade de que os dados
tenham sido gerados apenas por acaso. Um p-valor, ou significância estatı́stica,
não mede o tamanho de um efeito nem a importância de um resultado. Sozinho,
o p-valor não fornece uma boa medida de evidência a favor de um modelo ou
hipótese.

Consistência
Vimos até agora o que é chamado de amostra finita, amostra pequena ou pro-
priedades exatas dos estimadores OLS no modelo populacional:
y = β0 + β1 x1 + β2 x2 + . . . βk xk + u
As propriedades derivadas como o Não-viés ou ”BLUE” se mantem para
amostras de qualquer tamanho. Ou seja, veremos agora as Propriedades
assintóticas ou Propriedade de amostras grandes de estimadores e testes
estatı́sticos. Essas propriedades não são definidas por o tamanho de uma amostra
especı́fica, ao invés, são definidas como o tamanho da amostra que cresce sem
limite.

45
Definição
Um estimador βˆj é dito consistente para um parâmetro populacional βj se:
P (|β̂jn − βj | < ε) → 1, ∀ε > 0 E n → ∞
Notação alternativa (”convergência em probabilidade”):
 
plim β̂jn = βj

Prova:
yi = β0 + β1 xi1 + ui [Hip.1 − 2]
Pn
(xi1 − x1 )yi
β̂1 = Pi=1
n
(xi1 − x1 )2
Pni=1
(xi1 − x1 )(β0 + β1 xi1 + ui )
= i=1 Pn 2
i=1 (xi1 − x1 )
Pn Pn Pn
β0 i=1 (xi1 − x1 ) + β1 i=1 (xi1 − x1 )xi1 + i=1 (xi1 − x1 )ui
= Pn 2
i=1 (xi1 − x1 )
Pn  :0
 Pn Pn
i=1 (xi1
− x 1 ) i=1 (xi1 − x1 )xi1 (xi1 − x1 )ui
= β0 · P · Pi=1

n 2
+ β 1 P n 2
+ n 2
(x
i=1 i1 − x 1 ) (x
i=1 i1 − x 1 ) i=1 (xi1 − x1 )
h n hh n
)2
Ph P
i=1 (xi1h −hx1h i=1 (xi1 − x1 )ui
= β1 · h n hh
h
2
+ P n 2
i=1 (xi1 − x1 )
Ph
i=1 (xi1h −hx1hh)
Pn
(xi1 − x1 )ui
= β1 + Pi=1n 2
i=1 (xi1 − x1 )
Pn
i=1 (xi1 −x1 )ui
n
= β1 + Pn 2
i=1 (xi1 −x1 )
n
Como u = 0 então
Pn Pn
i=1 (xi1 − x1 )ui − x1 )(ui − u)
i=1 (xi1
=
n n
i.e, covariância entre x e u amostral. Assim como,
Pn 2
i=1 (xi1 − x1 )
n
é a variância amostral de x1
Pela Lei dos Grandes Números:
Pn
i=1 (xi1 − x1 )(ui − u) P

→ Cov[x1 , u]
n
Quando n tende ao infinito a covariância amostral tende a covariância popula-
cional. Pn 2
i=1 (xi1 − x1 ) P
−→ Var[x1 ]
n
Como

46
• Hip.4: E[u|x] = 0 =⇒ Cov[u, x] = 0
Pn
• Hip.3 Var[x1 ] = i=1 (xi1 − x1 )2 /n ̸= 0


Então: Pn
i=1 (xi1 −x1 )ui
n P 0
β̂1 = β1 + Pn 2 −
→ β1 +
i=1 (xi1 −x1 ) V ar[x1 ]
n
 
P
plim β̂1 = β1 ou β̂1 −→ β1 ou P(|βˆjn − βj | < ε) → 1, ∀ε > 0 e n → ∞
Ou seja, derivando a consistência dos betas:
!
  Cov(x
d i1 , ui )
plim β̂1 = plim (β1 ) + plim
Var(x
d i1 )

Cov(x
d i1 , ui )
= β1 +
Var(x
d i1 )
= β1
 
∴ plim β̂1 = β1

n n
!
  1X 1X
plim β̂0 = plim yi + β̂1 · xi1
n i=1 n i=1
n
! n
!
1X 1X
= plim yi + plim β̂1 · xi1
n i=1 n i=1
= E[y] − β1 · E[x1 ]
= β0

 
∴ plim β̂0 = β0

Observações:
• Foi necessário assumir: Var[x1 ] < ∞ e Var[u] < ∞
• Não foi necessário assumir Hip.4, e sim sua versão mais fraca Hip.4’:

E[u] = 0, Cov[xj , u] = 0 para j = 1, 2, . . . , k.

47
Normalidade assintótica
Inferência em amostras grandes: Os estimadores de OLS são normais em
amostras grandes mesmo a Hipótese 6.
Sob Hip.1-5:
βˆj − βj a
∼ N ormal(0, 1)
se(βˆj )
Demonstração:
Pn
i=1 ui · (xi1 − x1 )
β̂1 − β1 = P n 2
i=1 (xi1 − x1 )
1
P n
i=1 ui · (xi1 − x1 )
= n1 P n 2
n i=1 (xi1 − x1 )

n
√n 1
P
nn i=1 ui · (xi1 − x1 )
= 1
P n 2
n i=1 (xi1 − x1 )
n
√1
P
√ n i=1 ui · (xi1 − x1 )
n(β̂ − β) = 1
P n 2
n i=1 (xi1 − x1 )

Baseado na expressão que chegamos


Pn
√ √1 ui · (xi1 − x1 )
n i=1
n(β̂1 − β1 ) = 1
Pn
n i=1 (xi1 − x1 ) 2

Podermos demonstrar a normalidade assintótica a partir do teorema central


do limite combinado com as leis dos grandes números.
O teorema central do limite implica que à medida que o tamanho da amostra
n aumenta, a soma de uma variável de média zero amostrada aleatoriamente
converge para uma distribuição normal com média zero e uma variância que
corresponde à variância dessa variável vezes o tamanho da amostra.
Mais formalmente, o TCL vale para qualquer variável aleatoria, daqui em
diante denotada por W, que tem uma média zero (E[W] = 0) e uma variância
limitada, que
n
d
X
Wi −
→ N (0, n · Var(Wi )) ,
i=1
n
1 X d
⇔√ Wi −
→ N (0, Var(Wi ))
n i=1

Agora aplicamos o teorema central do limite definindo Wi como o numerador


ui ·(xi1 −x1 ) . A última expressão é zero na expectativa (i.e., E [ui · (xi1 − x1 )] =
0) por causa de E [ui |xi1 ] = 0 e da lei das expectativas iteradas.

48
Pelo teorema central do limite, esta expressão converge na distribuição para
uma distribuição normal:
n
1 X d
→ N 0, Var(E u2 · (x1 − E[x1 ])2
 
√ ui · (xi1 − x1 ) −
n i=1

Para ver esse resultado, basta notar que

Var(Wi ) = E W2i = E u2i · (xi1 − x1 )2 = E u2 · (x1 − E [x1 ])2


     

Entretanto, para obter a distribuição assintótica da expressão abaixo:


Pn
√1
√ n i=1 ui · (xi1 − x1 )
n(β̂ − β) = 1
P n 2
n i=1 (xi1 − x1 )
Pn
é preciso considerar o limite de probabilidade do denominador n1 i=1 (xi1 −x1 )2 ,
que é Var(x1 ). Assim, pela regra estatı́stica sobre convergência
h de variáveis
i
Wi
aleatórias chamada de Teorema de Slutsky, afirma-se que E Var(x i1 )
= 0,
2
  h i
Wi W
pois E[Wi ] = 0 e Var Var(x i1 )
= E (Var(xii1 ))2 Consequentemente, temos
a seguinte expressão:
 !
√ d E u2 · (x1 − E[x1 ])2
n(β̂1 − β1 ) −
→ N 0,
Var(x1 )2

Demonstramos que n vezes a diferença entre o efeito estimado e o verdadeiro
converge para uma distribuição normal com média zero e uma variância es-
pecı́fica. Isso, por sua vez, implica que a diferença entre a estimativa β̂1 e o
efeito verdadeiro β converge para zero, com uma velocidade ou taxa de con-
vergência de √1n à medida que o tamanho da amostra n aumenta.
Dito de outra forma, a estimativa β̂1 converge para o verdadeiro efeito, β1
com uma taxa de convergência de √1n . Isso fornece uma ideia de quão rápido a
discrepância entre os efeitos estimados e os efeitos reais diminui à medida √
que
o tamanho da amostra aumenta. Este comportamento é conhecido como n-
consistência e corresponde à taxa de convergência mais rápida que qualquer
estimador de efeitos causais pode atingir.
No próximo passo, da expressão
 !
√ d E u2 · (x1 − E[x1 ])2
n(β̂1 − β1 ) −
→ N 0,
(Var(x1 ))2

basta dividirmos por n e adicionar o efeito causal real e obtemos que

E[u2 · (x1 − E[x1 ])2 ]


 
d
β̂ −
→ N β1 ,
n · (Var(x1 ))2

49
Para mostrar a normalidade assintótica de β̂0 , poderı́amos seguir uma estratégia
análoga à de β̂1 . No entanto, consideraremos uma abordagem um pouco menos
tediosa, que se baseia no fato de que β0 = E[y|x1 = 0]. Note

β0 = E[yi ] − β1 E[x1 ]
0
= E[yi |xi1 = 0] − β1 E[
x
1]
*
= E[yi |xi1 = 0]

Para este fim, aplicamos os insights do teorema central do limite na equação


Pn d
√1
n i=1 Wi −→ N (0, Var(Wi )) apenas à subamostra de observações não tratadas
e definimos Wi = yi − β0 . Este último satisfaz E[yi − β0 |xi1 = 0] e, portanto,
tem uma expectativa de zero sob não tratamento. Além disso, vamos denotar
por n0 o tamanho da amostra de observações não tratadas.
A aplicação do teorema central do limite dá
1 X d
√ (yi − β0 ) −
→ N (0, Var(y|x1 = 0))
n0 i:x =0
i1

Ao rearranjar os termos de maneira análoga ao que fizemos com β̂1 , podemos


então demonstrar que β̂0 converge a uma distribuição normal com média β0 e
variância Var(y|x
n0
1 =0)
 
d Var(y|x1 = 0)
β̂0 −
→ N β0 ,
n0
Em amostras grandes:
• A variância da regressão é consistente plim σ̂ 2 = σ 2


• Testes (t e F) são válidos mesmo sem Hip.6

• Ainda precisamos assumir Hip.1-5 e Var[u] < ∞


Sobre a variância dos estimadores em amostras grandes:

σ̂ 2
Vd
ar[β̂j ] =
SSTj (1 − Rj2 )

i.e, é irrelevante ter desvio-padrão ou o erro-padrão na estatı́stica de teste (em


grandes amostras).

50
Como interpretar uma regressão?
Modelo nı́vel-nı́vel
Suponha a seguinte modelo estimado, em que a variável independente educ
denota anos de educação da observação e wage seu salário mensal.

wagei = 0, 830 + 180, 674educ, R2 = 0, 101 n = 161.092


(13,313) (1,339)

Interpretação (nı́vel-nı́vel): Em média, a cada ano adicional de estudo, o


salário aumenta em 180,67 reais.

Vamos testar a significância do estimador de interesse (educ). Primeiro,


vamos calcular os graus de liberdades df = n−k −1 = 161.092−1−1 = 161.090.
Note, como df > 120 podemos utilizar os valores crı́ticos padrões.

Agora, vamos testar para os três nı́veis de significância canônicos (10%, 5%,
e 1%):
180, 674
tβ̂educ = ≈ 134, 932 > 3, 291 = c0.001
1, 339
Rejeita-se a hipótese nula a nı́vel de 0.1%, ou seja, o coeficiente é estatı́sticamente
significativo aos nı́veis padrões.

O coeficiente de determinação R2 indica a proporção da variabilidade na


variável dependente (no caso, o salário mensal) que é explicada pelo modelo de
regressão linear. Neste caso, o valor de R2 = 0, 101 significa que aproximada-
mente 10,1% da variação observada nos salários mensais pode ser explicada
pela variável independente (anos de educação) incluı́da no modelo. Em outras
palavras, o modelo linear de regressão explica uma pequena parte da variabili-
dade total nos salários mensais observados.

Modelo nı́vel-log
Suponha a seguinte modelo estimado, em que a variável independente age de-
nota a idade da observação e wage seu salário mensal.

wagei = −1580, 079 + 890, 037 log(age), R2 = 0, 015 n = 161.554


(65,194) (18,065)

Interpretação (nı́vel-log): A cada ano adicional de estudo, em média, o


prêmio salarial equivale a um aumento de aproximadamente 8,9% no salário
mensal.

51
Vamos testar a significância do estimador de interesse (age). Novamente,
como df > 120 podemos utilizar os valores crı́ticos padrões e os respsectivos
nı́veis de significância estatı́stica.
890, 037
tβ̂educ = ≈ 49.269 > 3, 291 = c0.001
18, 065

Rejeita-se a hipótese nula a nı́vel de 0.1%, ou seja, o coeficiente é estatı́sticamente


significativo aos nı́veis padrões.

O coeficiente de determinação R2 neste modelo de regressão linear logarı́tmica


indica que cerca de 1,5% da variação observada nos salários mensal pode ser ex-
plicada pela variável independente (anos de educação) incluı́da no modelo.

Modelo log-nı́vel
Suponha a seguinte modelo estimado, em que a variável independente educ
denota anos de educação da observação e wage − h seu salário por hora.

log(wage − hi ) = 1, 154 + 0, 089 educ, R2 = 0, 192 n = 151.934


(0,005) (0,0005)

Interpretação (log-nı́vel): A cada ano adicional de estudo, em média, o


prêmio salarial equivale a um aumento de 8,9% no salário por hora trabalhada.

Vamos testar a significância do estimador de interesse (educ). Novamente,


como df > 120 podemos utilizar os valores crı́ticos padrões e os respsectivos
nı́veis de significância estatı́stica.
0, 089
tβ̂educ = ≈ 178 > 3, 291 = c0.001
0, 0005

Rejeita-se a hipótese nula a nı́vel de 0.1%, ou seja, o coeficiente é estatı́sticamente


significativo aos nı́veis padrões.

O coeficiente de determinação R2 neste modelo de regressão linear logarı́tmica


indica que cerca de 19,2% da variação observada nos salários por hora pode ser
explicada pela variável independente (anos de educação) incluı́da no modelo.

Modelo log-log
Suponha a seguinte modelo estimado, em que a variável independente age de-
nota a idade da observação e wage − h seu salário por hora.

log(wage − hi ) = 0.686 + 0.358 log(age), R2 = 0.019 n = 152.359


(0.024) (0.007)

Interpretação (log-log): A elasticidade dos salários por hora em relação à


idade é, em média, de 35,8%.

52
Vamos testar a significância do estimador de interesse (age). Novamente,
como df > 120 podemos utilizar os valores crı́ticos padrões e os respsectivos
nı́veis de significância estatı́stica.
0, 358
tβ̂age = ≈ 51.143 > 3, 291 = c0.001
0, 007

Rejeita-se a hipótese nula a nı́vel de 0.1%, ou seja, o coeficiente é estatı́sticamente


significativo aos nı́veis padrões.

Neste modelo de regressão logarı́tmica, o coeficiente de determinação R2 é


0,019, indicando que aproximadamente 1,9% da variação observada nos salários
por hora pode ser explicada pela variável independente (idade) incluı́da no mod-
elo.

Sumário das interpretações

Variável Variável Interpretação


Modelo dependente independente do β1
Nı́vel-nı́vel y x ∆y = β1 ∆x
Nı́vel-log y log(x) ∆y = (β1 /100)%∆x
Log-nı́vel log(y) x %∆y = (100β1 )∆x
Log-log log(y) log(x) %∆y = β1 %∆x

Nota matemática
A interpretação unitária de variação da variável independente em relação à
variação da variável dependente pode ser facilmente quando derivamos a variável
dependente em termos da variável independente:
∂ ŷi
ŷi = β̂0 + β̂1 xi =⇒ = β̂1
∂xi
Podemos discretizar essa derivada de modo que
∂ ŷi ∆ŷi

∂xi ∆xi
Ademais, a interpretação logarı́tima é fruto de uma manipulação algébrica em
termos da derivada de um logaritimo2 :

∂ log(x) 1
= =⇒ ∂ log(x) = ∂x/x
∂x x
2 O que faremos não é estritamente correto do ponto de vista formal matemático, mas serve

a nós para propositos didáticos

53
Sabemos também que a elasticidade da variável y em relação a variável x pode
ser representada da seguinte maneira:
∂y x
εx,y = ·
∂x y
∂y/y
=
∂x/x
∂ log(y)
=
∂ log(x)

Ou seja,
∂y x ∂ log(y)
εx,y = · =
∂x y ∂ log(x)
Sendo esse o motivo pelo qual o modelo log-log possui a interpretação como
elasticidade!

54
Regressão Linear Multivariada
O modelo econométrico multivariado, genericamente, pode ser escrito da seguinte
maneira:
y = β0 + β1 · x1 + · · · + βk · xk + u
Onde
• y é a variável dependente
• x é a variável independente
• β0 é o parâmetro intercepto.
• βj é o parâmetro de inclinação (coeficiente angular) da variável j,
∀j ∈ {1, 2, . . . , k}
• u é o termo de erro

Estimação matricial
Vamos considerar modelo de regressão linear múltipla com amostra aleatória:
i = ı́ndice para uma observação
n = ı́ndice para número de observações

Modelo de regressão linear com k + 1 parâmetros e n observações:


yi = β0 + β1 x1i + β2 x2i + . . . βk xki + ui ; i = 1, 2, . . . , n
Para cada i temos:
y = xi β + u
onde
⃗xi = [1, x1i , x2i , . . . , x2i ]
1×(k+1)

β′ = [β0 , β1 , β2 , . . . , βk ]′
(k+1)×1

Assim possuimos o seguinte resultado



 y1 = β0 + β1 x11 + β2 x21


+ ... + βk xk1 + u1
 y2 = β0 + β1 x12 + β2 x22

+ ... + βk xk2 + u2
.. .. .. .. .. .. ..


 . . . . . . .

yn = β0 + β1 x1n + β2 x2n + ... + βk xkn + un

que é equivalente em sua forma matricial a seguinte expressão:


      
y1 1 x11 x21 . . . xk1 β0 u1
y2  1 x12 x22 . . . xk2  β1  u2 
 ..  =  .. ..   ..  +  .. 
      
.. .. ..
 .  . . . . .  .   . 
yn 1 x1n x2n . . . xkn βk un

55
Portanto
n×1
z }| {
yn×1 = Xn×(k+1) β(k+1)×1 +un×1
Tendo definido os termos, voltemos a nossa formula de regressão e rearranjando-
a de forma conviniente aos nossos propósitos:

u = y − Xβ

Para estimar essa regressão via OLS temos que somar o quadrado dos resı́duos.
Ou seja  
u1
X   u2 

u2i = u1 u2 . . . un  .  = u′ u
 
 .. 
un
Substituindo a nossa equação rearranjada nessa nova, temos:
X
u2i = u′ u = (y − Xβ)′ (y − Xβ)

Antes de continuar, vamos lembrar das propriedades da transposta:

(A′ )′ = A (20)

(A + B)′ = A′ + B ′ (21)
(AB)′ = B ′ A′ (22)
Portanto aplicando essas propriedades, temos que:
X
u2i = u′ u = y′ y − y′ Xβ − β ′ X′ y + β ′ X′ Xβ

Dando atenção especial ao termo y′ Xβ, temos que:

y′ Xβ = (y)′ (β ′ X′ )′ = B ′ A′ = AB = β ′ X′ y

Para entender a equação acima usamos a propriedade que a transposta de um


escalar é o próprio escalar, portanto nesse caso B ′ A′ = (AB)′ = AB. Voltando
a nossa equação, temos:

u′ u = y′ y − 2β ′ X′ y + β ′ X′ Xβ

Portanto para achar os mı́nimo quadrados temos que derivar a soma dos
resı́duos ao quadrado por β:
∂u′ u ∂(y − Xβ)′ (y − Xβ) ∂(y′ y − 2β ′ X′ y + β ′ X′ Xβ)
= =
∂β ∂β ∂β
Antes de resolver precisamos de alguns conceitos de cálculo matricial:
∂a′ b ∂b′ a
= =a
∂b ∂b

56
quando a e b são vetores K × 1.

Vamos para um exemplo ilustrativo, tome:


   
a1 b
a= e b= 1
a2 b2

Ou seja,
 
 b1
a′ b = a1

a2 = a1 b1 + a2 b2
b2
 
 a1
b′ a = b1

b2 = a1 b1 + a2 b2
a2

Portanto,

∂a′ b ∂
= (a1 b1 + a2 b2 ) = a1
∂b1 ∂b1
∂a′ b ∂
= (a1 b1 + a2 b2 ) = a2
∂b2 ∂b2

Em suma,
∂a′ b
" #
∂a′ b
 
a
= ∂b1
∂a′ b = 1 =a
∂b ∂b2
a2

∂b′ Ab
= 2Ab = 2b′ A
∂b
quando A é qualquer matriz simétrica. Note que você pode escrever a derivada
como 2Ab ou 2b′ A

57
Vamos para um exemplo ilustrativo, tome:
   
β a b
β= 0 e A=
β1 b d

Expandindo a forma quadrática:


  

  a b β0
β Aβ = β0 β1
b d β1
= aβ02 + 2bβ0 β1 + dβ12

Agora para calcular o gradiente, temos que

∂β ′ Aβ ∂
aβ02 + 2bβ0 β1 + dβ12 = 2aβ0 + 2bβ1

=
∂β0 ∂β0
∂β ′ Aβ ∂
aβ02 + 2bβ0 β1 + dβ12 = 2bβ0 + 2dβ1

=
∂β1 ∂β1

Ou seja,

∂β ′ Aβ
 
2aβ0 + 2bβ1
=
∂β 2bβ0 + 2dβ1
  
a b β0
=2
b d β1
= 2Aβ

Consequentemente, aplicando as derivadas que apresentamos acima, temos


que

∂2β ′ X′ y ∂2β ′ (X′ y)


= = 2X′ y
∂β ∂β
e
∂β ′ X′ Xβ ∂β ′ Aβ
= = 2Aβ = 2X′ Xβ
∂β ∂β
quando X′ X é uma matriz simétrica K × K.
Em suma:
∂u’u ∂(y′ y − 2β ′ X′ y + β ′ X′ Xβ)
=
∂β ∂β
∂y′ y ∂β ′ X′ y ∂β ′ X′ Xβ
= −2 +
∂β ∂β ∂β
= 0 − 2X′ y + 2X′ Xβ̂

58
Assim
∂u’u
= −2X′ y + 2X′ Xβ̂ = 0
∂β
2X′ Xβ̂ = 2X′ y
X′ Xβ̂ = X′ y
(X′ X)−1 X′ X β̂ = (X′ X)−1 X′ y
| {z }
In

In · β̂ = (X′ X)−1 X′ y

Em suma,
β̂ = (X′ X)−1 X′ y

Outra maneira de ver a mesma coisa


Lembrando:
y = Xβ + u
Queremos a partir desta fórmula o β̂ OLS que minimiza a soma dos quadrados
dos resı́duos (SSR)
n
X ∂SSR(b)
SSR(b) ≡ (yi − xi b)2 =⇒ = 0 =⇒ β̂
∂b
i=1

Sendo que
n
X n
X
2
SSR(b) = (yi − b0 − b1 x1i − b2 x2i − · · · − bk xki ) = u2i
i=1 n=1

Sendo assim, quando derivamos a expressão acima temos:


 ∂SSR(b) Pn

 ∂b0 = −2 i=1 (yi − b0 − b1 x1i − b2 x2i − · · · − bk xki ) = 0
 ∂SSR(b) = −2 n x1i (yi − b0 − b1 x1i − b2 x2i − · · · − bk xki ) = 0

 P
∂b1 i=1
.. .. ..


 . . .
 ∂SSR(b) Pn
= −2 i=1 xki (yi − b0 − b1 x1i − b2 x2i − · · · − bk xki ) = 0

∂bk

Ou seja,
 Pn
(yi − b0 − b1 x1i − b2 x2i − · · · − bk xki ) = 0
Pn i=1



i=1 x1i (yi − b0 − b1 x1i − b2 x2i − · · · − bk xki ) = 0


.. ..


 . .
 Pn

i=1 xki (yi − b0 − b1 x1i − b2 x2i − · · · − bk xki ) = 0

59
Lembremos que
ui = (yi − b0 − b1 x1i − b2 x2i − · · · − bk xki )
Portanto, podemos rescrever o nosso sistema de equação da seguinte maneira
 Pn

 i=1 ui = 0
 P n
x · u = 0

1i i

i=1
.
.. ..


 .
 Pn

i=1 xki · ui = 0
Abrindo nosso sistema temos


 1 · u1 + 1 · u2 + 1 · u3 + · · · + 1 · un = 0

 x11 · u1 + x12 · u2 + x13 · u3 + · · · + x1n · un

= 0
.. ..


 . .

xk1 · u1 + xk2 · u2 + xk3 · u3 + · · · + xkn · un = 0

Matricialmente, a expressão acima é equivalente a


    
1 1 1 ... 1 u1 0
x11 x12 x13 . . . x1n  u2  0
..   ..  =  .. 
    
 .. .. .. ..
 . . . . .   .  .
xk1 xk2 xk3 ... xkn un 0
| {z } | {z } |{z}
X’ u 0

Ou seja,
X′ u = 0

Como sabemos que u = y − Xβ, então


X′ (y − Xβ̂) = 0
(k+1)×n n×1 (k+1)×1

Aplicando a propriedade distribuitiva temos


0 = X′ y − X′ Xβ̂
X′ Xβ̂ = X′ y
(X′ X)−1 X′ X β̂ = (X′ X)−1 X′ y
| {z }
In

In β̂ = (X′ X)−1 X′ y
β̂ = (X′ X)−1 X′ y

Disso chegaremos na famosa expressão:

β̂ = (X′ X)−1 X′ y

60
Não Viés do estimador OLS
Tomando a expressão dos beta chapeus estimados

β̂ = (X’X)−1 X’y

Substituindo y por Xβ + u, temos o seguinte:

β̂ = (X’X)−1 X’(Xβ + u)

β̂ = (X’X)−1 X’Xβ + (X’X)−1 X’u


β̂ = β + (X’X)−1 X’u
Tirando a expectativa dos dois lados, sabendo pela condição de ortogonalidade
populacional E[X′ u] = 0 temos que:
h i
E β̂|X = β

Finalmente, usando a Lei das Expectativas Iteradas:


h i h h ii
E β̂ = E E β̂|X = Ex [β] = β

Em suma, chegamos que


h i h i
E β̂|X = E β̂ = β

Matriz de variância-covariância do estimador OLS


Derive the conditional variance of the estimator.

Da hipótese de Homocedasticidade, temos que

Var[u|X] = σ 2 In

Sendo In a matriz identidade n × n. Tendo em vista que β̂ = β + (X’X)−1 X’u,


como derivamos na qustão, então se segue o seguinte

Var[β̂|X] = Var[β + (X’X)−1 X’u|X]


= (X’X)−1 X’Var[u|X]X(XX’)−1
= (X’X)−1 X’Var[u|X]X(XX’)−1
= (X’X)−1 X’(σ 2 In )X(XX’)−1
= σ 2 (X’X)−1 X’X(XX’)−1

Consequentemente
Var[β̂ | x] = σ 2 (X′ X)−1

61
Para ilustrar utilidade da forma matricial, olhemos de volta para a regressão
linear simples, mas agora matricialmente:

Y = Xβ + u

Ou seja      
Y1 1 X1 u1
 Y2  1 X2    u 
 β0  2
 ..  =  .. ..  β +  .. 
  
 .  . .  1  . 
Yn 1 Xn un
Vamos utilizar as matrizes para chegar na matriz de variância-covariância:
 
1 X1
1 . . . 1 1 X2 
 
1

X′ X =  .. .. 
X1 X2 . . . Xn  . . 
1 Xn
 Pn 
n Pni=1 X2i
= Pn
i=1 Xi i=1 Xi

Para calcular o inverso temos que calcular o determinante:


 
n P nX̄
det(X′ X) = det n 2
nX̄ i=1 Xi
Xn
=n Xi2 − n2 X̄ 2
i=1
n
!
X
=n Xi2 − nX̄ 2

i=1
n
X
=n (Xi − X̄)2
i=1

Portanto, utilizando esse valor calcular a inversa da matriz X′ X, temos que


Pn 2

1 i=1 Xi −nX̄
(X′ X)−1 = Pn
n i=1 (Xi − X̄)2 −nX̄ n

Ou seja, nossa matriz de variância-covariância para β é


 Pn 
X 2 σ2 2
Pni=1 i − Pn X̄σ
σ 2 (X′ X)−1 =  n i=1X̄σ
(Xi −X̄) 2 2
i=1 (Xi −X̄) 
2 2
− Pn (Xi −X̄)2 Pn σ
i=1 (Xi −X̄)2 i=1

Ou seja, além de chegarmos nas mesmas variâncias que anteriormente também


temos que
σ 2 · X̄
Cov(β̂0 , β̂1 ) = − Pn 2
i=1 (Xi − X̄)

62
Matrix Hat
Com base na matriz de β, os valores preditos da nossa regrssão linear é repre-
sentado pelo seguinte vetor

Ŷ = X(X′ X)−1 X′ Y = HY

Ou seja, H = X(X′ X)−1 X′ e é chamada de matrix Hat (chapéu). Por con-


sequência, os resı́duos equivale ao seguinte vetor

u = Y − HY = (In − H)Y

A matriz H desempenha um papel central na regressão linear, tanto por suas


propriedades algébricas quanto por sua interpretação geométrica. Como ma-
triz idempotente (H2 = H) e simétrica (H′ = H), ela atua como um op-
erador de projeção ortogonal que mapeia o vetor de respostas Y no espaço
coluna da matriz de delineamento X, gerando os valores preditos Ŷ = HY.
Geometricamente, H projeta Y no subespaço gerado pelas colunas de X, en-
quanto sua complementar, In − H, projeta Y no espaço ortogonal, produzindo
os resı́duos u = (In − H)Y. Essa dupla natureza revela a estrutura funda-
mental da regressão: a decomposição de Y em componentes explicada (Ŷ) e
não explicada (u) pelos preditores, onde os resı́duos são ortogonais às colunas
de X, garantindo as propriedades de otimalidade dos estimadores de mı́nimos
quadrados.

Graficamente, H projeta Y em Ŷ sobre o hiperplano gerado por X, enquanto


u é o vetor perpendicular a esse hiperplano. Na figura acima representamos o
modelo linear simples, na qual o vetor de valores preditos é uma reta.
Tomando o modelo linear clássico (i.e., erros são normalmente distribuidos)
sabemos que:
Ŷ = HY
Como Y ∼ Nn (Xβ, σ 2 In ), e H é uma matriz constante (não aleatória),
temos que Ŷ é uma transformação linear de Y. Portanto:

Ŷ ∼ Nn (HE[Y], HVar(Y)H′ )

63
Calculando a média:

E[Ŷ] = HE[Y]
= HXβ
= Xβ

já que HX = X porque H é a matriz de projeção no espaço coluna de X.


Calculando a variância:

Var(Ŷ) = H(σ 2 In )H′


= σ 2 HH′
= σ2 H

pois H é simétrica (H′ = H) e idempotente (HH = H). Portanto:

Ŷ ∼ Nn (Xβ, σ 2 H)

Comparando as duas distribuições:


• Distribuição de Y:
Y ∼ Nn (Xβ, σ 2 In )
Os elementos de Y são independentes com variância constante σ 2 .

• Distribuição de Ŷ:
Ŷ ∼ Nn (Xβ, σ 2 H)
Os elementos de Ŷ são correlacionados (pois H não é diagonal) e têm
variância σ 2 hii , onde hii é o i-ésimo elemento da diagonal de H.
Interpretação: O vetor Y representa os valores observados da variável re-
sposta em seu estado bruto, seguindo uma distribuição normal multivariada com
média Xβ e matriz de covariância σ 2 In . Isso significa que cada observação Yi
tem variância constante σ 2 e é independente das demais observações, refletindo
a estrutura de erros aleatórios não correlacionados do modelo teórico.
Por outro lado, o vetor Ŷ corresponde aos valores preditos pelo modelo
de regressão, obtidos através da projeção ortogonal de Y no espaço gerado
pelas colunas da matriz de delineamento X. Essa projeção introduz duas carac-
terı́sticas importantes: primeiro, os valores preditos tornam-se correlacionados
entre si, pois são combinações lineares dos mesmos dados originais; segundo, as
variâncias dos preditos não são mais constantes - cada Ŷi tem variância σ 2 hii ,
onde hii é o elemento diagonal correspondente da matriz hat H.
Essa diferença nas estruturas de covariância reflete a natureza distinta entre
dados observados e ajustados. Enquanto Y mantém a variabilidade original
dos dados, Ŷ apresenta uma variabilidade modificada pelo processo de ajuste
do modelo, com pontos que podem ter maior ou menor influência no resultado
final, conforme indicado por seus valores de alavancagem hii . Essa distinção é

64
fundamental para compreender como o modelo transforma os dados brutos em
predições e como diferentes observações contribuem para essa transformação.
O elemento hii da diagonal da matriz H é conhecido como alavancagem
(leverage) da i-ésima observação. Ele mede a influência da observação Yi no seu
próprio valor ajustado Ŷi .
Propriedades:

1. 0 ≤ hii ≤ 1.
Pn
2. i=1 hii = p, onde p é o número de parâmetros do modelo (no presente
caso, p = 2: β0 e β1 ).
3. Se hii é grande (próximo de 1), a observação i tem grande influência no
ajuste do modelo (é um ponto de alavancagem).
4. A variância de Ŷi é σ 2 hii , então observações com alta alavancagem têm
valores ajustados mais sensı́veis a pequenas variações nos dados.
Essas propriedades decorrem do fato qye a matriz H é uma matriz de
projeção ortogonal no espaço coluna de X. O elemento hii representa:

hii = x′i (X′ X)−1 xi

em que x′i = [1xi ] é a i-ésima linha de X. Isso mostra que hii é uma forma
quadrática positiva, que a soma é p porque projeta em um espaço p-dimensional
e que valores próximos de 1 indicam que xi está na fronteira do espaço de
projeção
Exemplo prático são: se hii ≈ 1, Ŷi ≈ Yi (o modelo se ajusta quase perfeita-
mente a esse ponto). Se valores altos de hii podem indicar outliers na variável
explicativa xi .
Por tanto, hii mede a alavancagem da i-ésima observação, indicando sua
influência no valor ajustado Ŷi . Valores altos sugerem observações influentes ou
outliers em xi .

Por fim, tomando a seguinte matriz Jn de dimensões n × n:


 
1 1 ··· 1
1 1 · · · 1
Jn =  . . .
 
 .. .. . . ... 

1 1 ··· 1

Podemos chegar na seguinte expressão


   
1 1
Y In − Jn Y = Y H − Jn Y + Y′ (In − H) Y
′ ′
n n

A identidade acima pode ser decomposta da seguinte maneira:

65
• Soma Total dos Quadrados:
  n
′ 1 X
SQT = Y In − Jn Y = (Yi − Ȳ )2
n i=1

Mede a variação total dos dados em torno da média Ȳ .


• Soma dos Quadrados da Regressão
  n
′ 1 X
SQE = Y H − Jn Y = (Ŷi − Ȳ )2 ,
n i=1

pois HY = Ŷ: Valores preditos pelo modelo de regressão e n1 Jn Y = Ȳ 1:


Vetor com todos os elementos iguais a Ȳ . Portanto, H − n1 Jn Y =
Ŷ − Ȳ 1 que é a diferença entre os valores preditos e a média global. Ou
seja, SQR mede a variação explicada pela regressão (quanto o modelo se
desvia da média simples).
• Soma dos Quadrados dos Resı́duos
n
X
SQR = Y′ (In − H) Y = (Yi − Ŷi )2
i=1

Mede a variação não explicada pelo modelo (erros)


Portanto, podemos representar o coeficiente de determinação do nosso mod-
elo na forma matricial da seguinte maneira:
Y′ H − n1 Jn Y

2 Y′ (In − H) Y
R = ′ = 1 −
Y In − n1 Jn Y Y′ In − n1 Jn Y
 

Estimadores OLS são MVLUE


Agora vamos derivar o Teorema de Gauss-Markov: no modelo clássico de regressão
linear, o estimador OLS é o estimador linear de mı́nima variância não viesado
(MVLUE) de β. A propriedade MVLUE é uma subclasse da propriedade
BLUE (Melhor Estimador Linear Não Viesado). Enquanto a MVLUE é um
estimador linear não viesado com a menor variância possı́vel dentro da classe de
estimadores lineares não viesados, a BLUE é um estimador linear não viesado
com a menor variância possı́vel em geral, independentemente de ser linear ou
não. Portanto, pode-se dizer que a MVLUE é uma propriedade mais restritiva
do que a BLUE, pois todos os MVLUEs também são BLUEs, mas nem todos
os BLUEs são necessariamente MVLUEs.

Seja β̃ = CY um estimador linear não viesado de β diferente de β̂OLS .


Vamos provar que a variância de β̃ não é menor do que a variância do estimador
OLS. Se β̃ é não viesado, então
E [CY|X] = E [CXβ + Cu|X] = β (*)

66
A partir das suposições do modelo clássico, (*) implica que CX deve ser
igual a In . A partir da expressão hpara ia variância de β̂OLS que derivamos no
−1
item anterior , podemos obter Var β̃|X substituindo (X’X) X’ por C:
h i
Var β̃|X = σ 2 CC ′ ()
−1
Agora, seja x1 = C − (X’X) X’, de modo que DY = β̃ − β̂OLS . A expressão
() torna-se
h i   ′ 
2 −1 −1
Var β̃|X = σ x1 + (X’X) X’ x1 + (X’X) X’

−1
Mas, CX = DX + (X’X) X’X = In . Portanto, DX deve ser igual a zero.
Portanto:
h i h i h i
−1
Var β̃|X = σ 2 (X’X) + σ 2 DD’ = Var β̂OLS |X + σ 2 DD’ ≥ Var β̂OLS |X

Uma vez que uma forma quadrática em DD’ é q ′ DD’q = z ′ z ≥ 0, a matriz de


covariância condicional de qualquer β̃ é igual à de β̂OLS mais uma matriz não
negativa definida, estabelecendo o resultado.

Teste F
Como calcular a estatı́stica-F:
1. Obter a soma dos quadrados dos resı́duos do modelo irrestrito SSRur
2. Obter a soma dos quadrados dos resı́duos do modelo restrito SSRr
3. Obter a estatı́stica-F:
(SSRr − SSRur )/q
F =
SSRur /(n − k − 1)
onde n − k − 1 são os graus de liberdade da regressão do modelo irrestrito e
q é o número de restrições em H0

Distribuição da estatı́stica-F

(SSRr − SSRur )/q


F = ∼ Fq,n−k−1
SSRur /(n − k − 1)
A estatistica-F também pode ser usada para testar a significância geral da
regressão. Considere o modelo:
y = β0 + β1 xi1 + β2 xi2 + . . . βk xik + u
H0 : β0 = β1 = β2 = · · · = βk = 0 ← H0 é para testar se as variáveis
explicativas não são úteis para explicar y
Nesse caso, é possı́vel mostrar a relação entre estatı́stica-F e o R2 da regressão
completa:
(SSRr − SSRur )/q R2 /k
F = = ∼ Fq,n−k−1
SSRur /(n − k − 1) (1 − R2 )/(n − k − 1)

67
Derivando os vieses
Omissão de variável relevante

X Y

Modelo Verdadeiro:
Y = α + βX + ηZ + ϵ
Modelo Estimado:
Y = α + βX + ε

Cov[X,Y]
β̂ =
Var[X]
E[X· Y] − E[X]E[Y] E[X· Y] E[X]E[Y]
= = −
Var[X] Var[X] Var[X]
E[X · (α + βX + ηZ + ϵ)] E[X]E[α + βX + ηZ + ϵ]
= −
Var[X] Var[X]
E[X] E[X2 ] E[XZ] E[X] E[X]2 E[X] · E[Z]
=α +β +η −α −β −η
Var[X] Var[X] Var[X] Var[X] Var[X] Var[X]
Var[X] Cov[X,Z]
z }| { z }| {
E[X2 ] − E[X]2 E[XZ] − E[X] · E[Z]
=β +η
Var[X] Var[X]
Cov[X,Z]
=β+η
Var[X]

Simultaneidade
Y 1 = α 1 Y 2 + β1 X 1 + ε 1
Y2 = α2 Y1 + β2 X2 + ε2
E portanto,

Y2 = α2 (α1 Y2 + β1 X1 + ε1 ) + β2 X2 + ε2
= α1 α2 Y2 + α2 β1 X1 + α2 ε1 + β2 X2 + ε2
(1 − α1 α2 )Y2 = α2 β1 X1 + β2 X2 + α2 ε1 + ε2

68
Assumindo que α1 α2 ̸= 1, temos que

Mesmo assim x1 é correlacionada com o erro da regressão:

=⇒ Cov[x1 , e1 ] = Cov[x∗1 , e1 ] + Cov[e1 , e1 ] = σe21

=⇒ Cov[x1 , u − β1 e1 ] = −β1 Cov[x1 , e1 ] = −β1 σe21


Consequências do erro de medida na variável explicativa:
• Se o erro de medida for clássico, OLS é enviesado e inconsistente pois viola
Hip. 4 (variável explicativa endógena)
2
σx ∗
• A inconsistência se dá pelo seguinte fator: plimβˆ1 = β1 σ2 1
+σe2
x∗
1 1

• Demonstração (modelo de regressão simples):

Cov[x1 , u − β1 e1 ]
plimβˆ1 = β1 +
Var[x1 ]
β1 σx2∗1
= β1 +
σx2∗ + σe21
1
!
σ2
= β1 1 − 2 e1 2
σx∗ + σe1
1
!
σx2∗1 + σe21 − σe21
= β1
σx2∗ + σe21
1

σx2∗1
= β1 ·
σx2∗ + σe21
1

Ou seja,
σx2∗1
plimβˆ1 = β1
σx2∗ + σe21
1

onde Var[x1 ] = Var[x∗1 ] + Var[e1 ], dado que Cov[x∗1 , e1 ] = 0


• Se o erro de medida for clássico, o viés é de atenuação! Quanto maior a
variância do erro de medida mais próxima de zero estará a estimativa
• Quando o modelo possui mais variáveis explicativas (regressão múltipla),
o erro de medida em x1 , de uma forma geral, gera viés em todos os coefi-
cientes de OLS
• No caso especifico em que, por exemplo, Cov[x∗1 , x2 ] = 0, βˆ2 é consistente,
porem esse caso é raro na pratica

69
Modelos de Escolha Discreta
Remembremos o Linear Probability Model (LPM): Quando a variável de-
pendente (y) toma valor 0 ou 1. Como y pode assumir apenas dois valores, βj
não pode ser interpretado como a mudança em y dado um aumento de uma
unidade em xj , mantendo todos os outros fatores fixos: y ou muda de zero para
um ou de um a zero (ou não muda).
No entanto, βj ainda tem interpretações úteis. Se assumirmos que a su-
posição de média condicional zero é válida, ou seja, E[u|x1 , . . . , xk ] = 0, então
temos, como sempre,

y = β0 + β1 x 1 + · · · + βk x k + u

E[y|x] = β0 + β1 x1 + · · · + βk xk
Assim como,

E[y|x] = 1 · P(y = 1|x) + 0 · P(y = 0|x)


= P(y = 1|x)

Ou seja, o LPM:

P(y = 1|x) = β0 + β1 x1 + · · · + βk xk

A probabilidade de sucesso, digamos, P(x) = P(y = 1|x), é uma função linear


do xj , daı́ o ”linear” no nome.
No LPM, βj mede a mudança na probabilidade de sucesso quando xj muda,
mantendo outros fatores fixos:
∂P(y = 1)
βj =
∂xj

Vantagens do LPM:
• Fácil estimativa e interpretação
• Os efeitos estimados e as previsões são geralmente razoavelmente bons na
prática
• Geralmente funciona bem para valores das variáveis independentes que
estão próximos das médias da amostra.
Desvantagens do LPM:
• As probabilidades previstas podem ser maiores que um ou menores que
zero
• O modelo de probabilidade linear é necessariamente heterocedástico dev-
ido à natureza binária de y

Var[y|x] = P(y = 1|x)[1 − P(y = 1|x)]

70
• Erros padrão consistentes com heteroscedasticidade precisam ser calcula-
dos
Podemos ultrapassar os problemas do LMP usando modelos de escolha discreta,
como Probit e Logit. Portanto, precisamos considere uma classe de modelos de
resposta binária em que a probabilidade de resposta é uma função não linear
de variáveis explicativas

P(y = 1|x) = G(β0 + β1 x1 + · · · + βk xk ) = G(Xβ)

Sendo que G(Xβ) é uma função de distribuição cumulativa 0 < G(z) < 1. A
probabilidade de resposta é, portanto, uma função das variáveis explicativas x

Funções Link (link functions) sugeridas:


Z z
Probit: G(z) = Φ(z) = ϕ(v)dv (distribuição normal)
−∞

exp z
Logit: G(z) = Λ(z) = (função logı́stica)
1 + exp z
Formulação de variaveis latentes do Probit e Logit
Podemos derivar os modelos Probit e Logit assumindo no pano de fundo um
modelo de variáveis latentes. Tomemos y ∗ uma variável não observada (latente)
tal que:
y ∗ = Xβ + ε E y = 1|y ∗ > 0
Assuma que ε é independente de X e que ε tem uma distribuição logı́stica ou uma
distribuição normal padrão. Em ambos os casos, e é distribuı́do simetricamente
em torno de zero, o que significa G(−z) = 1 − G(z)
Podemos derivar a probabilidade de resposta para y:

P(y = 1|x) = P(y ∗ > 0|x) = P(ε > −Xβ) = 1G(−Xβ) = G(Xβ)

Interpretação dos coeficientes em Logit e Probit


Lembremos primeiro o modelo OLS:

y = Xβ + u

Ou seja,
∂y
= β̂i
∂xi
Ou seja, o coeficiente β̂i é quanto varia a variável dependente quando há um
aumento de uma unidade da variável independente i, controlando por demais
fatores.

Agora no modelo Probit ou Logit, temos o seguinte:

P(y = 1|x) = G(Xβ)

71
Ou seja,
∂P(y = 1|x) ∂G(Xβ)
= = G′ (Xβ)βi = g(Xβ)βi
∂xi ∂xi
Isto é
∂P(y = 1|x)
= g(Xβ)βj onde ∂G(z)/∂z ≡ g(z)
∂xj
Portanto diferente no caso de OLS, não sabemos estimar a magnitude da varição
da variável dependente em termos da varição da variável independente. Con-
tudo, consiguimos estimar o sinal do efeito.
Além de que no caso que queiremos saber o efeito relativo entre dois coenfi-
cientes, aı́ neste caso conseguimos estimar a magnitude. Ou seja,

∂P/∂xi g(Xβ)β̂i β̂i


= = ∀i ̸= j
∂P/∂xj g(Xβ)β̂j β̂j

Lembrar :
Efeitos Marginais na média:
∂P(y = 1|x) ∂G(z)
= g(Xβ)βi onde g(z) ≡ >0
∂xi ∂z
Onde X representa o valor atribuı́do ao indivı́duo representativo, que neste caso
é indivı́duo médio.
Efeito Marginal Médio (APE):
n
X ∂G(z)
AP
[ E j = n−1 · g(Xβ)β̂j onde g(z) ≡ >0
i=1
∂z

72
Regressão Linear no R
Primeiro, dado nosso modelo iremos construimos nossas matrizes. Vamos mon-
tar um modelo com 3 variáveis explicativas
c o n s t <− rep ( 1 , n )

X1 <− c ( . . . )

X2 <− c ( . . . )

X3 <− c ( . . . )

Y <− c ( . . . )

matrix . data <− c ( c o n s t , X1 , X2 , X3)

X <− matrix ( matrix . data , nrow = n , ncol = 4 )


k <− dim(X ) [ 2 ]

Y <− matrix (Y, nrow=15 , ncol =1)


n <− dim(Y ) [ 1 ]

Dado a fórmula dos betas matricial β̂ = (X’X)−1 X’y, basta aplicar o seguinte
código:
beta <− solve ( t (X)%∗%X)%∗%t (X)%∗%Y
Agora, vamos calcular o erro-padrão assumindos erros independentes identica-
mente distribuidos (i.i.d.):
u <− Y−X%∗%beta
sigma2 <− as . numeric ( ( t ( u )%∗%u ) / ( n−k ) )

Var beta <− sigma2∗solve ( t (X)%∗%X)

sd beta <− sqrt ( diag ( Var beta ) )


Para o coeficiente de determinação basta fazer as seguintes operações:
SSR <− t (Y)%∗%Y − t ( beta )%∗%t (X)%∗%Y

SST <− t (Y)%∗%Y − n∗mean(Y) ˆ 2

Rsquared <− 1 − SSR/SST


Para calcular a estatı́stica t e o p-valor, devemos primeiro saber o tamanho da
nossa amostra, que é possı́vel pelo seguinte código:
length (X)

73
Dado o tamanho da amostra e portanto os graus de liberdade, se esses forem
> 120 para um teste de hipótese bicaudal com nı́vel de significância de 5%
(padrão na literatura), então o valor crı́tico c que adotamos é de 1.960, i.e.,

> c, rejeitamos a hipótese nula
|Teste t|
≤ c, falhamos em rejeitar a hipótese nula

t c a l c <− beta/sd beta

for ( i in 1 : 4 ) {
i f ( abs ( t c a l c [ i ] ) > 1 . 9 6 0 ) {
print ( ” r e j e i t a H0” )
} else {
print ( ” f a l h a em r e j e i t a r H0” )
}
}
Com relação ao p-valor: A função pt retorna o valor da função densidade cu-
mulativa (cdf) da distribuição t de Student dada uma certa variável aleatória x
e graus de liberdade df.
p v a l o r <− 2 ∗ ( 1 − pt ( q = abs ( t c a l c ) , df = n−k ) )

for ( i in 1 : 4 ) {
i f (p valor [ i ] < 0.05){
print ( ” r e j e i t a H0” )
} else {
print ( ” f a l h a em r e j e i t a r H0” )
}
}
Vale a nota que se falha em rejeitar e nunca aceitamos a hipótese nula à
um dado nı́vel de significância. A razão disso é que estamos assumindo que
a hipótese nula é verdadeira e tentando ver se há evidências contra ela. Con-
sequentemente como diz o aforismo popularizado por Carl Sagan: ”ausência
de evidência não é evidência de ausência”. Portanto, a conclusão deve ser em
termos de rejeição do nulo.

74

Você também pode gostar