0% acharam este documento útil (0 voto)

48 visualizações74 páginas

Fundamentos da Regressão Linear em Econometria

O documento aborda os conceitos fundamentais de econometria, focando na regressão linear simples e multivariada, incluindo fórmulas para estimativas e variâncias. Ele discute a importância de entender a relação entre variáveis dependentes e independentes, além de apresentar hipóteses necessárias para garantir a validade dos modelos econométricos. Também menciona métodos de estimação e a relevância da análise estatística na inferência dos parâmetros populacionais.

Enviado por

Ernesto libre

Direitos autorais

Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.

Formatos disponíveis

Baixe no formato PDF, TXT ou leia on-line no Scribd

0% acharam este documento útil (0 voto)

48 visualizações74 páginas

Fundamentos da Regressão Linear em Econometria

Enviado por

Ernesto libre

Direitos autorais

Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.

Formatos disponíveis

Baixe no formato PDF, TXT ou leia on-line no Scribd

Básico de Econometria

EAE 1221 - Econometria I

Zinho

Decoreba
Regressão Linear Simples

Pn
(y − y)(xi − x)
β̂1 = i=1 Pn i 2
; β̂0 = y − β̂1 x
i=1 (xi − x)
Pn
σ2 σ 2 · i=1 x2i
Var β̂1 = Pn 2 ; Var β̂ 0 = P n 2
i=1 (xi − x) n· (xi − x)
Pn i=1
û2
ŷi = β̂0 + β̂1 xi ; yi = ŷi + ûi ; σ̂ 2 = i=1 i
n−2
X n Xn
2 2
SST ≡ (yi − y) ; SSE ≡ (ŷi − y)
i=1 i=1
n n
X 2
X SSE SSR
SSR ≡ (yi − ŷi ) = û2i ; R2 = =1−
i=1 i=1
SST SST
CLM :H1: Linearidade y = β0 + β1 x + u
H2: Amostra Aleatória {(xi , yi ) : i = 1, 2, . . . , n}
yi = β0 + β1 xi + ui
n
X 2
H3: Há variação em x (xi − x) > 0
i=1
H4: Média Condicional Zero E [u|x] = u
Sob H1-H4 :Não viés E[β̂i |x] = βi
H5: Homocedasticidade Var (ui |xi ) = σ 2
Sob H1-H5 :Gauss-Markov: β̂ é BLUE
H6: Normalidade u ∼ N 0, σ 2

Sob H1-H6 : Teste de Hipóteses β̂i − βi /se(β̂i ) ∼ tn−k−1

1
Regressão Linear Multivariada

h i
β̂ = (X’X)−1 X’y; Var β̂|X = σ 2 (X′ X)−1

u’u y’β̂(X’X)−1 β̂ ′ y
σ̂ 2 = ; R2 =
n−k y’y
CLM :H1: Linearidade y = Xβ + u
H2: Posto Completo rank(E [X′ X]) = k + 1
H3: Condição de ortogonalidade populacional
E X′ u = 0

Sob H1-H3 :Não viés E[β̂|X] = β

H4: Homocedasticidade Var[u|X] = σ 2 In
Cov[ui , uj ] = 0, ∀i ̸= j
Sob H1-H4 :Gauss-Markov: β̂ é BLUE
H5: Normalidade u ∼ N 0, σ 2

Sob H1-H6 : Teste de Hipóteses β̂ − β /se(β̂) ∼ tn−k−1

2
Relembrar é viver

n
X
µX = E [X] (populacional) ≡ xi /n = x (amostral)
i=1
2 2
= E (X − µ)2 = E X 2 − {E [X]} (populacional)

σX
Xn
≡ (xi − x)2 /n = Var(x) (amostral)
i
σXY = E [X · Y ] = E X 2 − E [X] · E [Y ] (populacional)

Xn
≡ (xi − x)(yi − y)/n = Cov(x, y) (amostral)
i=1
σX,Y Cov(x,y)
ρX,Y = (populacional) ≡ p = corr(x, y)
σX · σY Var(x) · Var(y)
" n # n
X X
E [aX + b] = aE [X] + b; E Xi = E [Xi ]
i=1 i=1
2
Var [aX + b] = a Var [X] ; Var [X ± Y ] = Var [X] + Var [Y ] ± 2Cov [X, Y ]
" n # n
X X X
Var Xi = Var [Xi ] + 2 Cov [Xi , Xj ]
i=1 i i̸=j

3
Introdução: O que é econometria

“A análise de regressão diz respeito ao estudo da dependência de uma

variável, a variável dependente, em relação a uma ou mais variáveis,
as variáveis explanatórias, visando estimar e/ou prever o valor médio
(da população) da primeira em termos dos valores conhecidos ou
fixados (em amostragens repetidas) das segundas.” (Econometria
Básica; Gujarati & Porter; p. 39).

Em outras palavras, a análise da regressão nada mais é que avaliar/estudar

quanto de uma variável y (variável dependente) pode ser explicada em termos
de outra variável x (variável independente), ou seja, quanto x explica y. Para
ser ainda mais preciso, quanto da variação de y pode ser explicado pela variação
de x. Por exemplo, queremos entender quanto da educação explica salários, isto
nada mais é que a clássica equação econométrica minceriana.

4
Quando fazemos uma análise de regressão, por exemplo no caso minceriano,
plotamos em um gráfico os dados de salários no eixo y e educação no eixo x.

Nesse gráfico ao ver a dispersão dos dados queremos colocar uma figura que
melhor explica a trajetória dos dados. Geralmente a melhor figura que faz isso
é uma reta.

É como se a realidade tivesse uma forma funcional sobre uma dada variável, e
o trabalho econométrico é nada mais que tentar estimar a equação mais próxima
dessa forma funcional.

5
Regressão Linear Simples
Vamos aprender agora como estimar uma regressão simples: O modelo econométrico,
genericamente, pode ser escrito da seguinte maneira:

y = β0 + β1 · x + u

Onde

• y é a variável dependente
• x é a variável independente
• β0 é o parâmetro intercepto.

• βi é o parâmetro de inclinação (coeficiente angular)

• u é o termo de erro
A ideia seria assim: acreditamos que parte da variação da nossa variável
dependente y é explicada pela variação de uma variável independente x. Obvi-
amente a variação de x não explica toda a variação de y, pois seria equivalente
dizer que x é a única coisa que causa y, algo muito pouco provável na reali-
dade. Então parte do nosso modelo é explicado endogenamente pelas variáveis
de nossa escolha (ou seja, por x) e o resto a gente joga pro erro u.

y = β0 + β1 · x + |{z}
u
| {z }
endógeno exógeno

Em outras palavras, a aparte endógena do nosso modelo corresponde aquilo

que queremos explicar/entender, e.g., quanto da variação dos salários é resultado
da variação dos anos de estudos do indivı́duo. Já a parte exógeno é aquilo que
optamos por não modelar e portanto, toda a variação de y que não resultado de
variação de x. Note, para isso funcionar essa variação do erro (i.e., a variação
de y causada por variação de fatores que não são x) não pode estar relacionada
com x. Parece óbvio, mas toda a econometria depende dessa hipótese e/ou é
sobre arranjar jeitos cada vez mais engenhosos de fazer essa hipótese valer.

Uma vez tendo nosso modelo especificado (i.e., definimos a forma e as

variáveis da nossa regressão), agora se torna um trabalho de inferência es-
tatı́stica. Vamos usar estimador para inferir a partir de uma amostra os parâmetros
verdadeiros. Para garantir que nossa estimação é crı́vel vamos estimar a in-
certeza dos nossos coeficientes para fazer teste de hipóteses e prover evidências
que de fato estamos capturando algum efeito e não apenas ruı́do nos dados.

Estimação
Queremos estimar os parâmetros β0 e β1 . Mas esses são variáveis populacionais,
i.e., são parâmetros da realidade que o pesquisador não tem acesso direto. Então,

6
cabe pegarmos uma amostra e estimá-los, mas tomando certas hipóteses a modo
de garantir que estamos em média pegando o valor verdadeiro, para qualquer
amostra que usarmos.

A lógica do processo que usaremos na regressão linear é a seguinte: quere-

mos a melhor reta que ajusta aos dados, mas qual reta fazer? Olhemos nosso
exemplo:
Podemos usar a reta 1, a reta 2 ou qualquer outra reta usando qualquer
critério que acharmos adequado para ajustar aos dados. Mas o que temos de
ficar atentos é que nossa estimação sempre vai gerar um erro, afinal nem tudo
é explicando por x, como discutimos acima. Então se estamos capturando o
efeito verdadeiro, o diferencial entre a realização da variavél dependente e o valor
predito para qualquer realização da nossa variável independente representará a
variação de y explicado pelos demais fatores que consideramos exógenos.

7
Para deixar mais claro, essencialmente por que x não explica tudo e, por-
tanto, há variação de y explicada por coisas que não x então espera-se o seguinte:

A variação não explicada pelo nosso modelo é o erro. O que queremos do

nosso estimador é que esse erro seja o menor possı́vel, ou seja,
n
X n
X 2
min u2i = (yi − ŷi )
i=1 i=1

Aqui cabe uma nota sobre notação: Quando colocamos o chapéu estamos deno-

8
tando que essa é a estimativa do parâmetro populacional, i.e., X̂ é a estimativa
do parametro estrutural X. No nosso problema queremos estimar β0 e β1 ,
consequentemente ao final do nosso processo teremos:

ŷi = β̂0 + β̂1 × x

|{z} |{z} |{z}
predito estimado estimado

Vamos minimizar os erro ao quadrado por uma série de motivos que não vem
ao caso, mas o mais importante é simplicidade analı́tica. As contas ficam mais
fáceis e a gente lida só com valores positivos, embora existam outros métodos de
estimação. Além do mais, com o estimador de Mı́nimos Quadrados Ordinários
(MQO ou OLS) você chega ao mesmo resultado usando formas diferentes de
estimação. Usaremos três métodos: Método dos Momentos, Mı́nimos
Quadrados Ordinários e Máxima Verossimilhança.

Antes de mais nada ...

Relembrar é viver: Momentos são medidas quantitativas (ou um conjunto de
parâmetros estatı́sticos) que descrevem as caracterı́sticas especı́ficas de uma dis-
tribuição de probabilidade. O primeiro momento caracteriza a tendência central
(média ou esperança) de uma distribuição, o segundo caracteriza a dispersão
(variância) da distribuição, o terceiro caracteriza a assimetria (skewnesse), o
quarto caracteriza a curtose, e por aı́ vai1 .
Para prosseguir fazemos uma suposição simplificadora (sem perda de gener-
alidade): o valor médio, ou esperado, de u é zero na população:

E [u] = 0

onde E(·) é o operador de valor esperado.

A presença de β0 em
y = β0 + β1 x + u
nos permite assumir E [u] = 0. Se a média de u for diferente de zero, digamos
α0 , apenas ajustamos a interceptação, deixando a inclinação igual:

y = (β0 − α0 ) + β1 x + (u − α0 )

onde α0 = E [u]. O novo erro é u − α0 e a nova interceptação é β0 + α0 . O ponto

importante é que a inclinação β1 não mudou.
1 O n-ésimo momento de uma variável aleatória contı́nua de valor real com função de

densidade f (x) em torno de um valor c é a integral

Z ∞
Mn (X) = (x − c)n f (x)dx
−∞

Ou seja, para uma distribuição centralizada no zero, temos a seguinte fórmula:

Mn (x) = E [(x − E [x])n ]

9
Suposição crucial: Uma suposição que combina bem com nosso tratamento
introdutório envolve a média do termo de erro para cada “fatia” da população
determinada pelos valores de x:

E [u|x] = E [u]

onde E [u|x] significa “o valor esperado de u dado x”. Então dizemos que u é
uma média independente de x.
Um exemplo para fazer sentido:
Suponha que você seja “habilidade” e x sejam anos de educação. Precisamos,
por exemplo,

E [habilidade|x = 8] = E [habilidade|x = 12] = E [habilidade|x = 16]

de modo que a capacidade média seja a mesma nas diferentes parcelas da pop-
ulação com escolaridade de 8ª série, 12ª série e ensino superior de quatro anos.
Note, no nosso exemplo como habilidade e anos de educação são independentes
(i.e., E [habilidade|x] = E [habilidade]) então na média esperamos a mesma dis-
tribuição de habilidades para qualquer realização de anos de estudos. Dado que
as pessoas escolhem nı́veis de educação parcialmente baseados na capacidade,
esta suposição é quase certamente falsa.
Consequentemente, combinando E [u|x] = E [u] (a suposição substantiva)
com E [u] = E [u] = 0 (uma normalização) temos a hipótese de média condi-
cional zero.
E [u|x] = E [u] = 0, ∀x
Como o valor esperado condicional é um operador linear, E [u|x] = 0 implica

E [y|x] = β0 + β1 x

que mostra que a função de regressão populacional (ou a função de ex-

pectativa condicional) é uma função linear de x.
Na figura acima a distribuição condicional de y em três valores diferentes
de x são sobrepostas. para um determinado valor de x, vemos um intervalo
de valores de y: lembre-se, y = β0 + β1 x + u, e u tem uma distribuição na
população. Isso vai ser importante, pois é com a estimação do erro que vamos
fazer os testes de hipóteses.
Agora vamos introduzir dados (amostras) no nosso modelo: Seja

{(xi , yi ) : i = 1, . . . , n}

uma amostra aleatório de tamanho n da população:

yi = β0 + β1 xi + ui

Com nossa hipótese de média condicional do erro e uma amostra aleatória pode-
mos ir aos métodos de estimação.

10
Método dos Momentos
Para essa estimação observamos yi e xi , mas não ui (mas sabemos que ele
existe). Vamos usamor duas restrições populacionais:

E [u|x] = 0
Cov [x, u] = 0

A segunda condições é apenas uma forma mais forte de dizer que u e x não são
correlacionados. Lembrando que

Cov [x, u] = E [(x − E [x]) (u − E [u])]

0

= E (x − E [x]) u − E [u]
*

= E [u · (x − E [x])]
= E [x · u − u · E [x]]
= E [x · u] − E [u · E [x]]
= E [x · u] − E [x] · E [u]

= E [x · u] − E [x] · *0
E [u]

= E [x · u]

Ou seja,
Cov [x, u] = E [x · u] = 0

11
Assim nossas duas restrições ficam assim:
E [u] = 0 (1)
E [x · u] = 0 (2)
Basta fazer a seguinte manipulação algébrica:
y = β0 + β1 x + u =⇒ u = y − β0 − β1 x
Com isso em mente, comecemos abrindo a equação (1):
h i
E [u] = E y − β̂0 − β̂1 x
h i h i
= E [y] − E β̂0 − E β̂1 x

= E [y] − β̂0 − β̂1 E [x]

Ou seja,
E [u] = 0 =⇒ E [y] − β̂0 − β̂1 E [x] = 0
E consequentemente, temos que
β̂0 = E [y] − βˆ1 E [x]
O equivalente amostral da esperança é a média amostral, logo

β̂0 = y − βˆ1 x

Temos uma fórmula funcional para a estimação do intercepto, entretanto de-

pende da estimação coeficiente de inclinação. Usaremos agora a equação (2)
utilizando da mesma manipulação algébrica:
h i
E [x · u] = E x · y − β̂0 − β̂1 x
h i
= E xy − β̂0 x − β̂1 x2
h i
= E xy − E [y] − β̂1 E [x] x − β̂1 x2
h i
= E xy − xE [y] + β̂1 xE [x] − β̂1 x2
h i
= E x (y − E [y]) + β̂1 x · (E [x] − x)
h i
= E x (y − E [y]) + β̂1 x · (−x + E [x])

= E [x (y − E [y])] − β̂1 E [x · (x − E [x])]

= E [x · y − x · E [y]] − β̂1 E x2 − x · E [x]

= E [x · y] − E [x · E [y]] − β̂1 E x2 − E [x · E [x]]

2
= (E [x · y] − E [x] · E [y]) − β̂1 E x2 − {E [x]}

= Cov(x, y) − β̂1 · Var(x)

12
Ou seja,
E [x · u] = 0 =⇒ Cov(x, y) − β̂1 · Var(x) = 0
E consequentemente, temos que
Cov(x, y)
β̂1 =
Var(x)
O equivalente amostral da esperança é a média amostral, podemos fazer a sim-
ples manipulação seguinte:
Pn Pn
Cov(x, y) (xi − x)(yi − y)/n (x − x)(yi − y)
= i=1
Pn 2
Pn i
= i=1 2
Var(x) i=1 (xi − x) /n i=1 (xi − x)

Portanto Pn
(x − x)(yi − y)
β̂1 = Pn i
i=1
2
i=1 (xi − x)

Mı́nimos Quadrados Ordinários

O resı́duo ou o erro estimado do nosso modelo é definido como:

ûi = yi − ŷi

= yi − β̂0 + β̂1 xi

Ou seja,
ûi = yi − β̂0 − β̂1 xi
Como especificado antes, nosso o método requer minimizar a soma erros quadra-
dos, e.g.,
Queremos achar Ŷi = β̂0 + β̂1 Xi . Como os parâmetros ûi é uma função do β
estimado, basta achar o tal β que minimiza a soma dos resı́duos ao quadrado.
n
X Xn
u2 β̂0 , β̂1 ≤ u2 (b), ∀b ∈ R2
i=1 i=1

Ou seja,
n
X 2
min û2i ≡ yi − β̂0 − β̂1 xi
β̂0 ,β̂1 i=1

C.P.O:
Pn i
h i ∂ i=1 û2i X
β̂0 : =2 yi − β̂0 − β̂1 xi (−1) = 0
∂ β̂0 i=1
n
X n
X
= yi − nβ̂0 − β̂1 xi = 0
i=1 i=1

13
Ou seja,
n
X n
X
0= yi − nβ̂0 − β̂1 xi
i=1 i=1
Xn n
X
nβ̂0 = yi − β̂1 xi
i=1 i=1
n n
!
1 X X
β̂0 = yi − β̂1 xi
n i=1 i=1
n n
X yi X xi
= − β̂1
i=1
n i=1
n
= y − β̂1 x

Em suma,
β̂0 = y − β̂1 x

14
Agora estimando β̂1 :
Pn i
h i ∂ i=1 û2i X
β̂1 : =2 yi − β̂0 − β̂1 xi (−xi ) = 0
∂ β̂1 i=1
i
X
= yi − β̂0 − β̂1 xi (xi ) = 0
i=1
   
i
X
= yi − y − β̂1 x − β̂1 xi  (xi ) = 0
   
| {z }
i=1
β̂0
i
X
= yi − y + β̂1 x − β̂1 xi (xi ) = 0
i=1
i
X
= [yi − y] − β̂1 [xi − x] (xi ) = 0
i=1
i
X
= xi [yi − y] − β̂1 xi [xi − x] = 0
i=1
i
X i
X
= xi [yi − y] − β̂1 · xi [xi − x] = 0
i=1 i=1

Vamos fazer uma transformação algébrica, mas primeiro é presico estar ciente
do seguinte truque:
n
X n
X n
X
(xi − x) = 0 =⇒ a · (xi − x) = a · (xi − x) = 0
i i i

Ou seja
i
X i
X i
X
xi [yi − y] = xi [yi − y] − x · [yi − y]
i=1 i=1 i=1
| {z }
=0
i
X i
X
= xi [yi − y] − x · [yi − y]
i=1 i=1
i
X
= (xi [yi − y] − x · [yi − y])
i=1
i
X
= (xi − x) (yi − y)
i=1

15
Pi
Analogamente com i=1 xi [xi − x], chegamos que
i
X i
X
xi [yi − y] = (xi − x) (yi − y) (3)
i=1 i=1
i
X i
X 2
xi [xi − x] = (xi − x) (4)
i=1 i=1

Substituindo as expressões (3) e (4) em nossa derivação de β̂1 , temos que

i
X i
X
0= xi [yi − y] − β̂1 · xi [xi − x]
i=1 i=1
i
X i
X
β̂1 · xi [xi − x] = xi [yi − y]
i=1 i=1
i
X i
X
2
β̂1 · (xi − x) = (xi − x) (yi − y)
i=1 i=1

E com isso chegamos em

Pi
i=1 (xi − x) (yi − y)
β̂1 = Pn 2
i=1 (xi − x)

Idênticos aos estimadores do Método de Momentos.

Máxima verssomilhança
Agora, para a ultima estimação considere:
• ui são independentes com distribuição N 0, σ 2

• A densidade de uma observação i para o modelo de regressão com erros

normais é:
yi −β0 −β1 xi 2
1

2
− 21
f yi ; β0 , β1 , σ = √ e σ

σ 2π
De yi = β0 + β1 xi + ui temos que E [yi |xi ] = β0 + β1 xi . Assim como
Var [yi |xi ] = σ 2 Temos que
ui ∼ N 0, σ 2

y i | x i ∼ N β0 + β1 x i , σ 2

Basta agora aplicar o método de máxima verossimilhança:

f y1 , y2 , y3 , . . . yn ; β0 , β1 , σ 2 = f (y1 ; ·) × f (y2 ; ·) × f (y3 ; ·) × · · · × f (yn ; ·)

n
Y
f yi ; β0 , β1 , σ 2

=
i=1

16
Podemos chamar essa função da seguinte maneira
n 2
1

yi −β0 −β1 xi
Y −1
L β0 , β1 , σ 2 = √ e 2 σ

i=1
σ 2π
1 − 2σ12
Pn
i=1 (yi −β0 −β1 xi )
2
= e
σ n2π n/2
2
1 − 2σ12
Pn
(yi −β0 −β1 xi )2
ln L β0 , β1 , σ = ln e i=1
σ n 2π n/2
n
n n 1 X 2
= − ln(2π) − ln σ 2 − 2 (yi − β0 − β1 xi )
2 2 2σ i=1

Logo, dado nossa função de verossimilhança propriamente transformada, basta

agora achar o ponto de máximo:

max 2 ln L β0 , β1 , σ 2

β0 ,β1 ,σ

C.P.O:
n
h i ∂ ln L 1 X
β̂0 : =− 2 (yi − β0 − β1 xi ) (−1) = 0
∂ β̂0 2σ 2 i=1
n
X n
X
= yi − nβ0 − β1 xi = 0
i=1 i=1

Dividindo por n:
y − β0 − β1 x = 0
e portanto,
β̂0 = y − β̂1 x

Agora, fazendo o mesmo procedimento para β̂1 :

n
h i ∂ ln L 1 X
β̂1 : =− 2 (yi − β0 − β1 xi ) (−xi ) = 0
∂ β̂1 2σ 2 i=1
n
X
= (yi − y + β1 x − β1 xi ) (xi ) = 0
i=1
Xn n
X
= xi · (yi − y) − β1 xi · (xi − x) = 0
i=1 i=1
Xn n
X 2
= (yi − y) (xi − x) − β1 (xi − x) = 0
i=1 i=1

Em suma,
Pn
(y − y)(xi − x)
Pn i
β̂1 = i=1 2
i=1 (xi − x)

17
Entretanto, diferente dos outros dois métodos que vimos acima, o método de
máxima verossimilhança demanda uma hipótese amais. Tal hipótese diz re-
speito a distribuição do erro e portanto, temos que estimá-lo também dado essa
restrinção:
n
h i ∂ ln L n 1 1 X
β̂1 : = − · + (yi − β0 − β1 xi )2 = 0
∂σ 2 2 σ2 2σ 4 i=1
n
X 2
= −nσ 2 + (yi − β0 − β1 xi ) = 0
i=1

n
X 2
σ2 = (yi − β0 − β1 xi ) /n
i=1

Tendo em vista esse três métodos chegamos na expressão estimada da regressão

linear simples:
ŷi = β̂0 + β̂1 xi

ûi > 0 → superestimamos a relização i
ûi = yi − β̂0 − β̂1 xi =
ûi < 0 → sobrestimamos a relização i

Propriedades do MQO
• PMQO1: A soma e, portanto, a média amostral do resı́duo OLS é zero
n
X
ûi = 0
i=1

• PMQO2: A covariância da amostra entre o regressor e o resı́duo OLS é

zero
Xn
xi ûi = 0
i=1

• PMQO3: O ponto (x, y) está sempre na linha de regressão OLS

y = β̂0 + β̂1 x

Ademais,
Pn 2
• Soma total dos quadrados(SST) ≡ (yi − y) i=1
Pn 2
• Soma explicada dos quadrados(SSE) ≡ i=1 (yˆi − y)
Pn
• Soma residual dos quadrados(SSR) ≡ i=1 ûi 2

SST = SSE + SSR

18
Coeficiente de determinação
Um parâmetro interessante é a importância relativa do tratamento na explicação
do resultado na amostra quando comparado aos resı́duos, que refletem os efeitos
de quaisquer outras caracterı́sticas no resultado. Esse é o chamado adequação
do ajuste, que pode ser julgado pela proporção da variação da amostra no
resultado y, que é explicada pela variação da amostra em x, uma estatı́stica
conhecida como R quadrado (R2 ).
Para obter R2 , vamos reorganizar a equação ûi = yi −(β̂0 −β̂1 xi ) resolvendo-a
para obter o resultado
yi = ŷi − ûi
O que demonstra que o resultado yi para alguma observação i na amostra pode
ser decomposto nos componentes de prediçãoe resı́duo. Pode ser mostrado que
a variância de yi corresponde simplesmente à soma das variâncias desses dois
componentes (porque a covariância entre ui e xi - e portanto ŷi - é zero). For-
malmente,

Var(yi ) = Var (ŷi − ûi )

= Var (ŷi ) + Var (ûi ) − 2 Cov (ŷi , ûi )
| {z }
=0

Portanto,
Var(yi ) = Var (ŷi ) + Var (ûi )
que dividindo por Var(Yi ) na equação acima, temos que
Var(ŷi ) Var(ûi )
1= +
Var(yi ) Var(yi )
| {z }
R2

e portanto,
Var(ûi ) SSR SSE
R2 = 1 − =1− =
Var(yi ) SST SST

R2 próximo de 1 significa que quase 100% da variação do resultado é associada

a variação de uma unidade do tratamento, de modo que outras caracterı́sticas
desempenham um papel menor. R2 próximo de zero (ou 0 por cento) implica
que o tratamento é responsável por pouca variação no resultado em relação a
outras caracterı́sticas capturadas pelos resı́duos.

Hipóteses de Gauss-Markov
Para identificação do parâmetro populacional é preciso que o modelo satisfaça as
seguintes hipóteses, considerando (apenas) o modelo de regressão linear simples:
• Hipótese 1: O modelo é linear nos parâmetros

y = β0 + β1 x 1 + u

19
• Hipótese 2: A amostra é aleatória

{(xi , yi ) : i = 1, 2, . . . , n} yi = β0 + β1 xi + ui

• Hipótese 3: Há variação na váriavel explicativa x

n
X 2
(xi − x) > 0
i=1

• Hipótese 4: média condicional zero

E [u|x] = 0

Sobre hipótese 1-4 temos que: h i

E β̂ = β

Demonstração:
"P #
n
i=1 (xi − x) (yi − y)
h i
E β̂1 | x = E Pn 2 |x
i=1 (xi − x)
"P #
n
i=1 (xi − x) · yi
= E Pn 2 |x
i=1 (xi − x)
"P #
n
i=1 (xi − x) · (β0 + β1 xi + ui )
=E Pn 2 |x
i=1 (xi − x)
"P #
n
i=1 [β 0 · (x i − x) + β 1 x i · (x i − x) + ui · (x i − x)]
=E Pn 2 |x
i=1 (xi − x)
" Pn Pn Pn #
i=1 (xi − x) i=1 xi · (xi − x) i=1 ui · (xi − x)
= E β0 · P n 2 + β1 Pn 2 + Pn 2 |x
i=1 (xi − x) i=1 (xi − x) i=1 (xi − x)
Pn :0 Pn 2
"P
n
#
i=1
(x
i −
x) i=1 (xi − x) i=1 ui · (xi − x)
= β0 · Pn

2 + β1 · Pn 2 +E Pn 2 |x
i=1 (xi − x) i=1 (xi − x) i=1 (xi − x)
Pn
(xi − x) · E [ui | x]
= 0 + β1 · 1 + i=1Pn 2
i=1 (xi − x)
Pn :0
(xi − x) · | x]

E [u
i
= β1 + i=1Pn 2
i=1 (xi − x)
= β1

20
h i
Temos que E β̂1 | x = β1 , então basta abrirmos a fórmula do estimador de β0
para ficar em termos dos parâmetros populacionais

β̂0 = y − β̂1 x
n
X yi
= − β̂1 x
i
n
n
X β0 + β1 x i + u
= − β̂1 x
i
n
n
X β0 xi ui
= + β1 · + − β̂1 x
i
n n n
n n n
X β0 X xi X ui
= + β1 · + − β̂1 x
i
n i
n i
n
n
n · β0 X ui
= + β1 · x + − β̂1 x
n i
n
n
X ui
= β0 + x · β1 − β̂1 +
i
n

Ou seja, chegamos que

n
X ui
β̂0 = β0 + x · β1 − β̂1 +
i
n

Agora é só aplicar a esperança condicional na expressão acima e utilizar a pro-

21
h i
Se E β̂1 | x = β1 , então tem que ser o caso que E [u | x] = 0, logo:

n
h i X E [ui | x]
E β̂0 | x = β0 + x · (β1 − β1 ) +
i
n
X n :0
| x]

0 E [u
i
= β0 + x · − β1 +
β1 :

i
n
n
X 0
= β0 + x · 0 +
i
n
= β0 + 0 + 0
= β0

Em suma, h i
E β̂0 | x = β0

Finalmente, usando a Lei das Expectativas Iteradas:

 
h i  h i
E β̂ = E 
E β̂|X  = E [β] = β

| {z }
β

Em suma, chegamos que

h i
E β̂ = β

22
Para descobrir as variâncias faremos a seguinte transformação em β̂1 :
Pn
(y − y)(xi − x)
β̂1 = i=1 Pn i
(xi − x)2
Pn i=1
i=1 yi · (xi − x)
= P n
(xi − x)2
Pn i=1
(β0 + β1 xi + ui )(xi − x)
= i=1 Pn 2
i=1 (xi − x)
Pn
(β0 · (xi − x) + β1 xi · (xi − x) + ui · (xi − x))
= i=1 Pn 2
i=1 (xi − x)
Pn Pn Pn
i=1 β0 · (xi − x) + β1 Pi=1 xi · (xi − x) + i=1 ui · (xi − x)
= n 2
(xi − x)
Pn Pi=1
n Pn
(x i − x) i=1 xi · (xi − x) i=1 ui · (xi − x)
= β0 · Pni=1 2
+ β 1 P n 2
+ P n 2
i=1 (xi − x) i=1 (xi − x) i=1 (xi − x)
Pn 0
: Pn Pn
i=1
(x
i − x) i=1 (xi − x)2 i=1 ui · (xi − x)
= β0 · P
n
2
+ β1 Pn 2
+ P n 2
i=1 (xi − x) i=1 (xi − x) i=1 (xi − x)
hPh n h 2
P n
h− h
i=1 (xi h x)h i=1 ui · (xi − x)
= β0 · 0 + β 1 hPh n h 2 +
P n 2
i=1 (x
h i −
h hx)
h i=1 (xi − x)
Pn
i=1 ui · (xi − x)
= β1 + P n 2
i=1 (xi − x)

Ou seja, Pn
i=1 ui · (xi − x)
β̂1 = β1 + P n 2
(5)
i=1 (xi − x)

Agora, utilizaremos a equação (5) para calcular a variância de β̂1 dado as

Note β1 é um parâmetro e portanto é uma valor em especı́fico, consequente-

mente não tem variância, i.e. Var [β1 ] = 0 uma vez que é uma constante. En-
quanto isso, β̂1 é um estimador, que busca aproximar do parâmetro verdadeiro.
Com base na amostra podemos ter valores diferentes de β̂1 , deste modo ao cal-
cular a incerteza do nosso estimador. A partir dessa incerteza que faremos nosso
teste de hipótese, para ver se temos evidências que de que estamos pegando o

23
efeito verdadeiro e não um ruı́do qualquer de uma amostra em particular.
Pn
i=1 ui · (xi − x)
h i
Var β̂1 |x = Var [β1 |x] +Var P n 2
|x
| {z } i=1 (xi − x)
=0
2 Xn
1
= Pn 2
· (xi − x)2 Var [ui |x]
i=1 i − x)
(x i=1

1
= Pn 2
· Var [ui |x]
i=1 i − x)
(x | {z }
σ2
2
σ
= Pn 2
i=1 i − x)
(x

Portanto,
σ2
Var β̂1 |x = Pn 2
i=1 (xi − x)

Agora, faremos um processo análogo para β̂0 :

β̂0 = y − β̂1 · x
= (β0 + β1 · x + u) − β̂1 · x
= β0 + β1 · x + u − β̂1 · x

= β0 + β1 − β̂1 · x + u

Ou seja,
β̂0 = β0 + β1 − β̂1 · x + u (6)

Usaremos a equação (6) para chegar em uma forma funcional da variância de

β̂0 :

24
h i h i
Var β̂0 |x = Var β0 + β1 − β̂1 · x + u|x
h i
= Var [β0 |x] + Var β1 − β̂1 · x|x + Var [u|x]
Pn
i=1 ui
h i
2
= Var [β0 |x] +Var β1 − β̂1 |x · x + Var |x
| {z } n
=0
 
n
h i X 1
= Var [β1 |x] +Var β̂1 |x  · x2 + · Var [ui |x]
| {z }
i=1
n2
0
n
σ2
X 1
= Pn 2
· x2 + 2
· σ2
i=1 (xi − x) i=1
n
σ2 σ2

2
= Pn 2
· x +
i=1 (xi − x) n
2

1 x
= σ2 + Pn 2
n i=1 i − x)
(x
Pn 2
x2

2 i=1 (xi − x)
=σ P n + n P
n· (xi − x)2 i=1 (xi − x)
2
Pn i=12 2 2
(x − 2xi x + x ) + n · x
= σ 2 · i=1 i Pn
n · i=1 (xi − x)2
Pn 2
Pn Pn 2 2
2 i=1 xi − 2x · Pi=1 xi + i=1 x + n · x
=σ · n
n · i=1 (xi − x)2
Pn
x2 − 2n · x2 + n · x2 + n · x2
= σ 2 · i=1 i Pn
n · i=1 (xi − x)2
n
σ2 x2
P
= Pn i=1 i 2
n · i=1 (xi − x)
Portanto,
Pn n
h i σ 2 i=1 x2i X
2
h i
Var β̂0 |x = Pn = (xi /n) · Var β̂ 1 |x
n · i=1 (xi − x)2 i=1

O problema dessas formulas são que elas pressupõe uma variância do erro con-
hecida, algo que não temos acesso nos dados. Para resolver isso temos que esti-
mar σ 2 , para isso usaremos a distribuição dos resı́duos da amostra utilizando a
seguinte fórmula: Pn 2
2 i=1 ûi
σ̂ =
n−k−1
em que k representa o número de parâmetros.

Para chegar nessa fórmula, basta mostrar que a estimativa de σ̂ 2 por máxima
verossimilhança é viesado:

25
E[σ 2 ] ̸= σ 2
Prova:
" n
#
2 1X
E[σ ] = E (Yi − β̂0 + β̂1 xi )2
n i=1
n
1X h 2 i
= E Yi − 2Yi (β̂0 + β̂1 xi ) + (β̂0 + β̂1 xi )2
n i=1
n n n
1 X 2 2 X h i 1X h i
= E Yi − E Yi (β̂0 + β̂1 xi ) + E (β̂0 + β̂1 xi )2
n i=1 n i=1 n i=1
| {z } | {z } | {z }
(1) (2) (3)

Vamos separar em três questões e resolver separadamente:

Equação 1:

n n
1 X 2 1 X
E Yi = V ar(Yi ) + (E [Yi ])2
n i=1 n i=1
n
1 X 2
= σ + (β0 + β1 xi )2
n i=1
n
1 X 2
= σ + β02 + 2β0 β1 xi + β12 x2i
n i=1
n
2
X x2 i
=σ + β02 + 2β0 β1 x̄ + β12
i=1
n

Portanto:
n X x2 n
1 X 2 i
E Yi = σ 2 + β02 + 2β0 β1 x̄ + β12 (7)
n i=1 i=1
n

Equação 2:

n n
2X h i 2X h i
− E Yi (β̂0 + β̂1 xi ) = − E (β0 + β1 xi + ϵi )(β̂0 + β̂1 xi )
n i=1 n i=1
n
2X h i
=− E β0 (β̂0 + β̂1 xi ) + β1 xi (β̂0 + β̂1 xi ) + ϵi (β̂0 + β̂1 xi )
n i=1
n
2X h i
=− E β0 β̂0 + β0 β̂1 xi + β̂0 β1 xi + β1 β̂1 x2i + β̂0 ϵi + β̂1 xi ϵi
n i=1

26
Ou seja,
n
2 Xn h i h i h i h i h i h io
− β0 E β̂0 − β0 xi E β̂1 + β1 xi E β̂0 − β1 x2i E β̂1 + E β̂0 ϵi − xi E β̂1 ϵi
n i=1

Isto é
n
2 Xn 2 h i h io
− β0 + β0 β1 xi + β0 β1 xi + β12 x2i + E β̂0 ϵi + xi E β̂1 ϵi
n i=1

Que é o mesmo que

n n n
X x2 i 2X h i 2X h i
−2β02 − 4β0 β1 x̄ + −2β12 − E β̂0 ϵi − xi E β̂1 ϵi
i=1
n n i=1 n i=1

Vamos abrir com cuidado os últimos termos

n n
" Pn #
2X 2X j=1 (xj − x̄)Yj
h i
− xi E β̂1 ϵi = − xi E Pn ¯ 2 ϵi
n i=1
n i=1
(xi − x) i=1
n n
2X xi X
=− Pn ¯2 · (xj − x̄)E [(β0 + β1 xj + ϵj )ϵi ]
n i=1 i=1 (xi − x) j=1
n n
2X xi X
=− Pn ¯2 · (xj − x̄)E [β0 ϵi + β1 xj ϵi + ϵi ϵj ]
n i=1 i=1 (xi − x) j=1
n n
2X xi X
=− Pn ¯2 · (xj − x̄) (β0 E [ϵi ] + β1 xj E [ϵi ] + E [ϵi ϵj ])
n i=1 i=1 (xi − x) j=1
n n
2 1 X X
=− · Pn ¯2 x i · (xj − x̄)E [ϵi ϵj ]
n i=1 (xi − x) i=1 j=1
n n
2 1 X X
=− · Pn ¯2 x i · (xj − x̄)E [ϵi ϵj ]
n i=1 (xi − x) i=1 j=1

Note
σ 2 , se i = j

E [ϵj ϵi ] =
0, c.c.
Ou seja,
n n
2X h i 2 1 X
− xi E β̂1 ϵi = − · n
P 2
(xi − x̄)2 E [ϵi ϵj ]
n i=1 n (x
i=1 i − x̄) i=j

2σ 2
=−
n
Portanto
n
2X h i 2σ 2
− xi E β̂1 ϵi = −
n i=1 n

27
Pn h i
Note que i=1 E β̂1 ϵi = 0. Agora olhemos para o outro termos
n n
2X h i 2X h i
− E β̂0 ϵi = − E (Ȳ − β̂1 x̄)ϵi
n i=1 n i=1
n
2X h i
=− E Ȳ ϵi − x̄β̂1 ϵi
n i=1
n
2X h i
=− E Ȳ ϵi − x̄E β̂1 ϵi
n i=1
 
n n
2 X X Yj 
=− E ϵi
n i=1 j=1
n
n n
2 XX
=− E [Yj ϵi ]
n2 i=1 j=1
n n
2 XX
=− 2 E [(β0 + β1 xj + ϵj )ϵi ]
n i=1 j=1
n n
2 XX
=− E [β0 ϵi + β1 xj ϵi + ϵj ϵi ]
n2 i=1 j=1
n n
2 XX
=− (β0 E [ϵi ] + β1 xj E [ϵi ] + E [ϵj ϵi ])
n2 i=1 j=1
n n
2 XX
=− E [ϵj ϵi ]
n2 i=1 j=1

Sabemos que
n
n X
nσ 2 , se i = j
X
E [ϵj ϵi ] =
0, c.c.
i=1 j=1
Então, temos que
n n n
2X h i 2 XX
− E β̂0 ϵi = − 2 E [ϵj ϵi ]
n i=1 n i=1 j=1
2
=− nσ 2
n2
2
= − σ2
n
Logo
n
2X h i 2
− E β̂0 ϵi = − σ 2
n i=1 n

28
Juntando tudo isso temos que
n n
X x2
2X h i
i 4σ 2
− E Yi (β̂0 + β̂1 xi ) = −2β02 − 4β0 β1 x̄ + −2β12 − (8)
n i=1 i=1
n n

Equação 3:

n n
1X h i 1X h 2 i
E (β̂0 + β̂1 xi )2 = E β̂0 + 2β̂0 β̂1 xi + β̂12 x2i
n i=1 n i=1
n
1 X h 2i h i h i
= E β̂0 + 2xi E β̂0 β̂1 + x2i E β̂12
n i=1
n n n
1 X h 2i 2 X h i 1X h i
= E β̂0 + xi E β̂0 β̂1 + x2i E β̂12
n i=1 n i=1 n i=1
| {z } | {z } | {z }
(i) (ii) (iii)

Como fizemos antes, vamos quebrar em partes para facilitar a vida:

Item (i)
n n h i2
1 X h 2i 1X
E β̂0 = Var(β̂0 ) + E β̂0
n i=1 n i=1
n Pn 2 2

1X i=1 xi σ 2
= + β0
n i=1 n ni=1 (xi − x̄)2
P
Pn 2 2
i=1 xi σ
= P n + β02
n i=1 (xi − x̄)2

Logo,
n Pn
1 X h 2i x2 σ 2
E β̂0 = Pni=1 i + β02
n i=1 n i=1 (xi − x̄)2

29
Item (ii)
n n
2X h i 2X h i
xi E β̂0 β̂1 = xi E (Ȳ − β̂1 x̄)β̂1
n i=1 n i=1
n
2X h i
= xi E Ȳ β̂1 − β̂12 x̄
n i=1
n
2X h i h i
= xi E Ȳ β̂1 − x̄E β̂12
n i=1
   
n n h i2
2 X  X Yj 
= xi E β̂1 − x̄ Var(β̂1 ) + E β̂1 
n i=1 j=1
n
 
n n
σ2

2 X 1 X h i
= xi E Yj β̂1 − x̄ Pn 2
+ β12 
n i=1 n j=1 i=1 (x i − x̄)
 
n n
2 X 1 X h i 2x̄2 σ 2
= xi E (β0 + β1 xj + ϵj )β̂1  − Pn 2
− 2x̄2 β12
n i=1 n j=1 i=1 (xi − x̄)
 
n n
2 X 1 X h i 2x̄2 σ 2
= xi E β0 β̂1 + β1 xj β̂1 + ϵj β̂1  − Pn 2
− 2x̄2 β12
n i=1 n j=1 i=1 (xi − x̄)
n n
2 X X 2
h i 2x̄2 σ 2
= x i β 0 β 1 + β 1 xj + E ϵj β̂ 1 − Pn − 2x̄2 β12
n2 i=1 j=1 i=1 (xi − x̄)
2

2x̄2 σ 2
= 2x̄β0 β1 + 2β12 x̄2 − Pn 2
− 2x̄2 β12
i=1 (x i − x̄)

Logo,
n
2X h i 2x̄2 σ 2
xi E β̂0 β̂1 = 2x̄β0 β1 + 2β12 x̄2 − Pn 2
− 2x̄2 β12
n i=1 (x
i=1 i − x̄)

Item (iii)
n n h i2
1 X 2 h 2i 1X 2
x E β̂1 = x Var(β̂1 ) + E β̂1
n i=1 i n i=1 i
n
σ2

1X 2 2
= xi Pn 2
+ β 1
n i=1 i=1 (xi − x̄)
Pn n
x2 σ 2 X x2i
= Pni=1 i=1 2 + β12
n i=1 (xi − x̄) i=1
n

30
Ou seja,
n Pn n
1 X 2 h 2i x2 σ 2 X x2i
xi E β̂1 = Pni=1 i + β 2
1
n i=1 n i=1 (xi − x̄)2 i=1
n

Juntando i-ii-iii:
n Pn
x2i σ 2

1X h i
E (β̂0 + β̂1 xi )2 = Pn i=1 2
+ β0 +
n i=1 n i=1 (xi − x̄)2
Pn n
!
2 2 2 2 2

2x̄ σ x i σ X x i
2x̄β0 β1 + 2β12 x̄2 − Pn 2
− 2x̄2 β12 + Pni=1 + β12
i=1 (xi − x̄) n i=1 (xi − x̄)2 i=1
n

Ou seja,
n Pn
1X h i 2 x2 σ 2 2nx̄2 σ 2
E (β̂0 + β̂1 xi )2 = Pn i=1 i 2
− Pn
n i=1 n i=1 (xi − x̄) n i=1 (xi − x̄)2
n
X x2 i
+ β02 + 2x̄β0 β1 + β12
i=1
n

Mas note
Pn Pn
2 i=1 x2i σ 2 2nx̄2 σ 2 x2i − nx̄2

2 i=1
Pn − Pn = 2σ Pn
n i=1 (xi − x̄)2 n i=1 (xi − x̄)2 n i=1 (xi − x̄)2
Pn
2σ 2 (xi − x̄)2

= Pi=1
n 2
n i=1 (xi − x̄)
2σ 2
=
n
Portanto,
n i 2σ 2 X x2 n
1X h i
E (β̂0 + β̂1 xi )2 = + +β02 + 2x̄β0 β1 + β12 (9)
n i=1 n i=1
n

Juntando tudo
Unindo as equações (1), (2) e (3) temos que
n
X x2 i
E[σ 2 ] = σ 2 + β02 + 2β0 β1 x̄ + β12
i=1
n
n
X x2 i 4σ 2
− 2β02 − 4β0 β1 x̄ + −2β12 −
i=1
n n
n
2σ 2 X x2
i
+ + β02 + 2x̄β0 β1 + β12
n i=1
n

31
Portanto,

2σ 2
E σ̂ 2 = σ 2 −

n
n−2
= σ2
n
̸= σ 2

Portanto
" n
#
n 2 1 X
E σ̂ =E · (Yi − β̂0 − β̂1 xi ) = σ 2
2
n−2 n − 2 i=1

E assim, temos que

Pn n
ûi 1 X
σ̂ 2 = i=1
= (Yi − β̂0 − β̂1 xi )2
n−k−1 n − 2 i=1

Logo,
Pn
h i σ̂ 2 û
d β̂1 |x = Pn
Var 2
= Pn i
i=1
i=1 (xi − x) (n − k − 1) · i=1 (xi − x)2

Com isso, conseguimos estimar o erro padrão:

s Pn
r û2
se β̂1 = Var β̂1 =
d Pn i
i=1
(n − k − 1) · i=1 (xi − x)2
s
σ2
̸= Pn 2
= dp β̂1
i=1 (xi − x)

Como estamos lidando com uma variância estimada (com base numa estimação
da distribuição da variância do erro), então quando cálculamos o desvio padrão
da variância do beta chapéu estimado, justamente chamamos de erro padrão
e não desvio padrão dado que a variância do erro foi estimada. Caso a variância
do erro σ 2 fosse conhecida, aı́ chamariamos de desvio padrão, por isso se(X) ̸=
dP(X).

32
Analogamente,
r
se β̂0 = Var
d β̂1
v
u n
uX
= t (x2i /n) · Var
d β̂1
i=1
v
u n
uX
̸= t (x2 /n) · Var β̂1
i
i=1
r
= Var β̂0

= dp β̂0

É digno de nota que dado a hipótese de homocedasticidade podemos concluir

que
Var β̂|x = Var β̂

justamente pelo fato de que a variabilidade do estimador β̂ (ou seja, o quão

distante os diferentes estimadores podem estar da verdadeira população de
parâmetros) é constante, independentemente dos valores especı́ficos da variável
independente.

Teorema de Gauss-Markov
Método de Mı́nimos Quadrados - Modelo Linear
Seja µ(·) uma função definida por µ(x) = β0 + β1 x, ∀x ∈ D ∈ R.
Para cada x ∈ D, seja FYx uma f.d.a. com média igual a µ(x), ou seja, β0 + β1 x
e variância σ 2 .
Seja x1 , . . . , xn um conjunto de n observações D. Para cada xi , seja Yi uma a.a.
de tamanho unitário da f.d.a. FYx ; i = 1, 2, . . . , n. Então,

(Y1 , x1 ) , (Y2 , x2 ) , . . . , (Yn , xn )

é um conjunto de n observações relacionados por

E[Yi ] = β0 + β1 xi e Var(Yi ) = σ 2 , i = 1, 2, . . . , n

Considere o modelo linear simples apresentado anteriormnte e a suposição

de que ε1 , . . . , εn são não correlacionados dois-a-dois. Então, os Estimadores de
Mı́nimos Quadrados de β0 e β1 , dados por
Pn
(Y − Y )(xi − x)
β̂0 = Y − β̂1 x e β̂1 = i=1 Pn i 2
i=1 (xi − x)

33
são BLUE para β0 e β1 , respectivamente.

Prova
(para β1 )
Pn
Seja, β̂1 = j=1 bj Yj . Vamos determinar os constantes bj tais que

(i) E[β̂1 ] = β1
(ii) Var(β̂1 ) é mı́nimo dentre os estimadores satisfazendo (i)

Para que (i) seja satisfeita, devemos ter

   
Xn Xn
β1 = E[β̂1 ] = E  bj Yj  = E  bj (β0 + β1 xj + εj )
j=1 j=1

Pela linearidade das expectativas, temos que

 
Xn n
X n
X
E bj (β0 + β1 xj + εj ) = bj E [β0 + β1 xj + εj ] = bj (β0 + β1 xj )
j=1 j=1 j=1

Portanto, aplicando a distribuitiva

β1 = E[β̂1 ]
Xn
= bj (β0 + β1 xj )
j=1
n
X n
X
= β0 · bj + β 1 · bj xj
j=1 j=1

Ou seja, para a equação igualar temos que impor as seguintes restrinções

n
X n
X
bj = 0 e bj x j = 1
j=1 j=1

34
Além disso, observe que
h i
Var β̂1 = E (β̂1 − β1 )2
 2 
Xn
= E  bj Yj − β1  
 
j=1
 2 
n
 X
= E  bj (β0 + β1 xj + εj ) − β0  

j=1

0 1 2 
 X n 7 n X n
X  
= E β b + β b x + b ε − β
  
0
 j=1 j 1 j j j j 1 

j=1 j=1

 2 
n
X
= E β1 + bj εj − β1  
 
j=1
 2 
Xn
= E  bj εj  
 
j=1
 
Xn X
= E b2j ε2j + bi εi · bj εj 
j=1 i̸=j
n
X X
= b2j E ε2j + bi · bj E [εi · εj ]
j=1
| {z } i̸=j | {z }
σ2 0

Portanto,
n
X
Var β̂1 = σ 2 b2j
j=1

Como a variância σ 2 é constante, para achar a menor a variância de β̂1 temos

que minimizar b2j sujeito as restrinções impostas:
n
X n
X n
X
min
n
b2j sujeito a bj = 0 e bj x j = 1
{bi }i=1
j=1 j=1 j=1

Montando o Lagrangeano temos que

   
Xn Xn Xn
L= b2j − λ1  bj  − λ 2  bj xj − 1
j=1 j=1 j=1

35
Assim, as Condições de Primeira Ordem são
∂L
= 2b1 − λ1 − λ2 x1 = 0
∂b1
.. ..
. .
∂L
= 2bj − λ1 − λ2 xj = 0
∂bj
.. ..
. .
∂L
= 2bn − λ1 − λ2 xn = 0
∂bn
n
∂L X
=− bj + 1 = 0
∂λ1 j=1
n
∂L X
=− bj xj = 0
∂λ1 j=1

Somando as n primeira equações, temos

n
X
{2bj − λ1 − λ2 xj } = 0
j=1
n
X n
X
2 bj −nλ1 − λ2 xj = 0
j=1 j=1
| {z }
0
−nλ1 − λ2 (n · x) = 0

Portanto,
λ1 = −λ2 x (10)
Multiplicando a j-ésima equação das n primeiros CPOs por xj , temos

2bj xj − λ1 xj − λ2 x2j = 0
n
X
2bj xj − λ1 xj − λ2 x2j = 0

j=1
n
X n
X n
X
2 bj xj −λ1 xj − λ 2 x2j = 0
j=1 j j
| {z }
1
n
X n
X
2 − λ1 xj − λ 2 x2j = 0
j j

36
Portanto  
Pn 2 n
2 j xj 1  X
λ1 = Pn − λ 2 Pn = 2 − λ2 x2j  (11)
j xj j xj n·x j

Substituindo (7) em (8), temos

 
n
1  X
−λ2 · x = 2 − λ2 x2j 
n·x j
n
X
−λ2 · n · x2 = 2 − λ2 x2j
j
 
Xn
λ2  x2j − n · x2  = 2
j

Portanto
2
λ2 = Pn 2
(12)
j (x j − x)

Substituindo (9) em (7)

−2x
λ 1 = Pn 2
(13)
j (x j − x)

Com isso substituiremos (9), (10) na j-ésima equação das n primeiras CPOs:
2bj − λ1 − λ2 xj = 0
! !
2x 2xj
2bj + Pn 2
− Pn 2
· xj = 0
j (xj − x) j (xj − x)
xj x
− Pn 2
+ Pn 2
= −bj
j (x j − x) j (x j − x)

Logo
xj − x
bj = Pn 2
(14)
j (xj − x)

Finalmente, basta substituir agora (11) em β̂1 :

n
X
β̂1 = bj Yj
j=1
n
" #
x −x
Pn j
X
= Yj 2
j=1 j (xj − x)
Pn
j=1 (xj − x)Yj
= P n 2
j (xj − x)
Pn
j=1 (xj − x)(Yj − Y)
= Pn 2
j (xj − x)

37
Em suma,
Pn
j (xj − x)(Yj − Y )
β̂1 = Pn 2
j (xj − x)

(para β0 )
Pn
Seja, β̂0 = j=1 aj Yj . Vamos determinar os constantes aj tais que

(i) E[β̂0 ] = β0
(ii) Var(β̂0 ) é mı́nimo dentre os estimadores satisfazendo (i)

Para que (i) seja satisfeita, devemos ter

   
Xn Xn
β0 = E[β̂0 ] = E  aj Yj  = E  aj (β0 + β1 xj + εj )
j=1 j=1

Pela linearidade das expectativas, temos que

 
Xn n
X n
X
E aj (β0 + β1 xj + εj ) = aj E [β0 + β1 xj + εj ] = aj (β0 + β1 xj )
j=1 j=1 j=1

Portanto, aplicando a distribuitiva

β0 = E[β̂0 ]
Xn
= aj (β0 + β1 xj )
j=1
n
X n
X
= β0 · aj + β1 · aj xj
j=1 j=1

Ou seja, para a equação igualar temos que impor as seguintes restrinções

n
X n
X
aj = 1 e aj xj = 0
j=1 j=1

38
Além disso, observe que
h i
Var β̂0 = E (β̂0 − β0 )2
 2 
Xn
= E  aj Yj − β0  
 
j=1
 2 
n
 X
= E  aj (β0 + β1 xj + εj ) − β0  

j=1

1 0 2 
 X n 7 n X n
X  
= E β a + β a x + aj εj − β0 
 
 0 j 1 j j  
 
j=1 j=1 j=1

 2 
Xn
= E β0 + aj εj − β0  
 
j=1
 2 
Xn
= E  aj εj  
 
j=1
 
Xn X
= E a2j ε2j + ai εi · aj εj 
j=1 i̸=j
n
X X
= a2j E ε2j + ai · aj E [εi · εj ]
j=1
| {z } i̸=j | {z }
σ2 0

Portanto,
n
X
Var β̂0 = σ 2 a2j
j=1

Como a variância σ 2 é constante, para achar a menor a variância de β̂0 temos

que minimizar a2j sujeito as restrinções impostas:
n
X n
X n
X
min
n
a2j sujeito a aj = 1 e aj xj = 0
{ai }i=1
j=1 j=1 j=1

Montando o Lagrangeano temos que

   
Xn Xn Xn
L= a2j − λ1  aj − 1 − λ2  aj xj 
j=1 j=1 j=1

39
Assim, as Condições de Primeira Ordem são
∂L
= 2a1 − λ1 − λ2 x1 = 0
∂a1
.. ..
. .
∂L
= 2aj − λ1 − λ2 xj = 0
∂aj
.. ..
. .
∂L
= 2an − λ1 − λ2 xn = 0
∂an
n
∂L X
=− aj + 1 = 0
∂λ1 j=1
n
∂L X
=− aj xj = 0
∂λ1 j=1

Somando as n primeira equações, temos

n
X
{2aj − λ1 − λ2 xj } = 0
j=1
n
X n
X
2 aj −nλ1 − λ2 xj = 0
j=1 j=1
| {z }
1
2 − nλ1 − λ2 (n · x) = 0

Portanto
2
− λ2 x
λ1 = (15)
n
Multiplicando a j-ésima equação das n primeiros CPOs por xj , temos

2aj xj − λ1 xj − λ2 x2j = 0
n
X
2aj xj − λ1 xj − λ2 x2j = 0

j=1
n
X n
X n
X
2 aj xj −λ1 xj − λ2 x2j = 0
j=1 j j
| {z }
0
n
X n
X
−λ1 xj − λ2 x2j = 0
j j

40
Portanto Pn
j x2j
λ1 = −λ2 Pn (16)
j xj
Substituindo (13) por (12) temos
Pn 2
2 j xj
− λ2 x = −λ2 Pn
n j xj
Pn 2 !
2 j xj
= λ2 x −
n n·x
Pn !
2 n · x2 − j x2j
= λ2
n n·x
Pn 2 2
!
j xj − n · x
2 = −λ2
x
Pn 2 Pn 2 !
j xj − j x
= −λ2
x
Pn 2
!
j (xj − x)
= −λ2
x

Logo
−2x
λ2 = Pn 2
(17)
j (xj − x)

Substituindo (14) em (13)

Pn
j x2j
λ1 = −λ2
n·x Pn 2
−2x j xj
= −1 · Pn 2
·
j (x j − x) n ·x

Logo Pn
2 j x2j /n
λ1 = Pn 2
(18)
j (xj − x)

Com isso substituiremos (14), (15) na j-ésima equação das n primeiras CPOs:

2aj − λ1 − λ2 xj = 0
Pn 2
! !
2 j xj /n −2x
2aj − Pn − Pn · xj = 0
j (xj − x)2 j (xj − x)
2
Pn
j x2j /n xxj
− Pn + Pn = −aj
j (xj − x)2 j (xj − x)
2

41
Logo Pn 2
j xj /n − xj · x
aj = P n 2
(19)
j (xj − x)

Finalmente, basta substituir agora (16) em β̂0 :

n
X
β̂0 = aj Yj
j=1
n
" Pn #
X x2j /n − xj · x
j
= Yj Pn 2
j=1 j (xj − x)
Pn Pn 2 Pn
j=1 (Yj /n) j xj − x i=1 Yj xj
= Pn 2
j (xj − x)
Pn 2 Pn
Y j xj + (nY x2 − nY x2 ) − x i=1 Yj xj
= Pn 2
j (xj − x)
Pn 2 n
Y · [ j xj − nx2 ] − x · [ i=1 Yj xj − nY x]
P
= Pn 2
j (xj − x)
Pn 2
P n
j (xj − x) j (xj − x)(Yj − Y )
= Y · Pn 2
− x · Pn 2
j (xj − x) j (xj − x)
Pn
j (xj − x)(Yj − Y )
=Y − Pn 2
·x
j (xj − x)
| {z }
β̂1

Em suma,
β̂0 = Y − β̂1 · x
Em suma, os estimadores me mı́nimos quadrados de β0 e β1 dados pelas
fórmulas de β̂0 e β̂1 são BLUE para β0 e β1 respectivamente. C.Q.D

Teste de Hipóteses
Sob as 6 hipóteses do Modelo Linear Clássico (CLM) pode ser demonstrado que
os estimadores de Mı́nimos Quadrados Ordinários (OLS) são os estimadores
não viesados de variância mı́nima, o que significa que os OLS têm a menor
variância entre os estimadores não viesados; não precisamos mais restringir nossa
comparação a estimadores que são lineares em relação aos yi .
Uma forma sucinta de resumir as suposições populacionais do CLM é

y|x ∼ N β0 + β1 x1 + β2 x2 + ... + βk xk , σ 2

onde x representa (x1 , x2 , . . . , xk ). Assim, condicionalmente a x, y tem uma

distribuição normal com uma média linear em x1 , x2 , . . . xk e uma variância

42
Figure 1: A distribuição normal homocedástica com uma única variável explica-
tiva

constante. Para uma única variável independente x, essa situação é mostrada

na seguinte figura:
Ademais, a normalidade do termo de erro se traduz em distribuições amostrais
normais dos estimadores OLS:
β̂j − βj
β̂j ∼ N βj , Var β̂j ∼ N (0, 1)
dp β̂j

condicional as variáveis independentes xi

Para uma compreensão completa dos testes de hipóteses, deve-se lembrar que
os βj são caracterı́sticas desconhecidas da população e nunca os conheceremos
com certeza. No entanto, podemos formular hipóteses sobre o valor de βj e
depois usar inferência estatı́stica para testar a nossa hipótese. Para fazer o teste
de hipóteses vamos precisar estimar a variância dos beta chapéis, que por sua
vez demandam estimação da distribuição amostral dos erros. Os estimadores
de OLS seguirãm uma distribuição amostral t para valores padronizados de β̂
usando o erro padrão:
β̂ − β
∼ tn−k−1
se β̂

Com base nisso podemos fazer o teste de hipótese:

Suponha o seguinte modelo estimado:

yi = β̂0 + β̂1 xi , R2
(se(β̂0 )) (se(β̂1 ))

Dado esses valores queremos testar se os coeficientes são significativos ou o

efeito é nulo, apenas consequência de ruı́do nessa amostra:

43
Figure 2: Teste de hipótese padrão bicaudal para nı́vel de significância de α

H0 : βj = 0 contra H1 : βj ̸= 0
Uma vez definido nossa hipótese nula (H0 ) e hipótese alternativa (H1 ),
seguimos o seguinte procedimento para nosso teste de hipótese bicaudal :

1. Construa a estatı́stica-t,
β̂j − βj
t βj =
se β̂j

2. Defina o nı́vel de significância α, sendo os mais comuns 10%, 5% e 1%.

3. Obtenha a tabela de distribuição-t o valor crı́tico (c) correspondente a α

e n − k − 1 graus de liberdade. Vale o macete que se df = n − k − 1 > 120,
então os valores crı́ticos padrões serão o seguinte:

α = 10% =⇒ c0.1 = 1.645

α = 5% =⇒ c0.05 = 1.960
α = 1% =⇒ c0.01 = 2.576

4. Rejeitar H0 se |tβj | > cα

Caso contrário falhamos em rejeitar H0

44
P - valor
Um outro jeito de testar hipóteses é via o p-valor, uma vez que podemo dizer
que o p-valor é o menor nı́vel de signficância sob o qual a hipótese nula seria
rejeitada à luz da amostra observada. Como é um assunto delicado vamos definir
precisamente:
O p-valor é a probabilidade de obter uma estatı́stica de teste tão
ou mais extrema que a observada nos dados, assumindo que a
hipótese nula é verdadeira.
Formalmente, para o caso bicaudal temos que
!
β̂j
p-valor = Pr |T | ≥ βj = 0
se(β̂j )
Aqui chegamos a regra de decisão:
se o p-valor < α, então rejeita-se H0 ao nı́vel de (100 · α)%
É importante destacar a diferença entre o valor estimado especı́fico (β̂j )
e a estatı́stica de teste (T ). Enquanto β̂j é uma estimativa pontual obtida
dos dados observados (um número fixo para aquela amostra), a estatı́stica T
é uma variável aleatória que descreve o comportamento do estimador sob H0 .
O p-valor, portanto, não se refere diretamente ao valor observado de β̂j , mas à
probabilidade associada à estatı́stica T — ou seja, à chance de obter resultados
tão ou mais extremos que o tobs calculado, se H0 for verdadeira. Essa dis-
tinção é fundamental: o p-valor é uma propriedade da distribuição amostral de
T (que existe antes mesmo de coletarmos os dados), não apenas da estimativa
especı́fica que obtivemos.
Importante: P-valores podem indicar o quão incompatı́veis os dados são
com um modelo estatı́stico especificado. P-valor não medem a probabilidade de
que a hipótese estudada seja verdadeira, nem a probabilidade de que os dados
tenham sido gerados apenas por acaso. Um p-valor, ou significância estatı́stica,
não mede o tamanho de um efeito nem a importância de um resultado. Sozinho,
o p-valor não fornece uma boa medida de evidência a favor de um modelo ou
hipótese.

Consistência
Vimos até agora o que é chamado de amostra finita, amostra pequena ou pro-
priedades exatas dos estimadores OLS no modelo populacional:
y = β0 + β1 x1 + β2 x2 + . . . βk xk + u
As propriedades derivadas como o Não-viés ou ”BLUE” se mantem para
amostras de qualquer tamanho. Ou seja, veremos agora as Propriedades
assintóticas ou Propriedade de amostras grandes de estimadores e testes
estatı́sticos. Essas propriedades não são definidas por o tamanho de uma amostra
especı́fica, ao invés, são definidas como o tamanho da amostra que cresce sem
limite.

45
Definição
Um estimador βˆj é dito consistente para um parâmetro populacional βj se:
P (|β̂jn − βj | < ε) → 1, ∀ε > 0 E n → ∞
Notação alternativa (”convergência em probabilidade”):

plim β̂jn = βj

Prova:
yi = β0 + β1 xi1 + ui [Hip.1 − 2]
Pn
(xi1 − x1 )yi
β̂1 = Pi=1
n
(xi1 − x1 )2
Pni=1
(xi1 − x1 )(β0 + β1 xi1 + ui )
= i=1 Pn 2
i=1 (xi1 − x1 )
Pn Pn Pn
β0 i=1 (xi1 − x1 ) + β1 i=1 (xi1 − x1 )xi1 + i=1 (xi1 − x1 )ui
= Pn 2
i=1 (xi1 − x1 )
Pn :0
Pn Pn
i=1 (xi1
− x 1 ) i=1 (xi1 − x1 )xi1 (xi1 − x1 )ui
= β0 · P · Pi=1

n 2
+ β 1 P n 2
+ n 2
(x
i=1 i1 − x 1 ) (x
i=1 i1 − x 1 ) i=1 (xi1 − x1 )
h n hh n
)2
Ph P
i=1 (xi1h −hx1h i=1 (xi1 − x1 )ui
= β1 · h n hh
h
2
+ P n 2
i=1 (xi1 − x1 )
Ph
i=1 (xi1h −hx1hh)
Pn
(xi1 − x1 )ui
= β1 + Pi=1n 2
i=1 (xi1 − x1 )
Pn
i=1 (xi1 −x1 )ui
n
= β1 + Pn 2
i=1 (xi1 −x1 )
n
Como u = 0 então
Pn Pn
i=1 (xi1 − x1 )ui − x1 )(ui − u)
i=1 (xi1
=
n n
i.e, covariância entre x e u amostral. Assim como,
Pn 2
i=1 (xi1 − x1 )
n
é a variância amostral de x1
Pela Lei dos Grandes Números:
Pn
i=1 (xi1 − x1 )(ui − u) P
−
→ Cov[x1 , u]
n
Quando n tende ao infinito a covariância amostral tende a covariância popula-
cional. Pn 2
i=1 (xi1 − x1 ) P
−→ Var[x1 ]
n
Como

46
• Hip.4: E[u|x] = 0 =⇒ Cov[u, x] = 0
Pn
• Hip.3 Var[x1 ] = i=1 (xi1 − x1 )2 /n ̸= 0

Então: Pn
i=1 (xi1 −x1 )ui
n P 0
β̂1 = β1 + Pn 2 −
→ β1 +
i=1 (xi1 −x1 ) V ar[x1 ]
n

P
plim β̂1 = β1 ou β̂1 −→ β1 ou P(|βˆjn − βj | < ε) → 1, ∀ε > 0 e n → ∞
Ou seja, derivando a consistência dos betas:
!
Cov(x
d i1 , ui )
plim β̂1 = plim (β1 ) + plim
Var(x
d i1 )

Cov(x
d i1 , ui )
= β1 +
Var(x
d i1 )
= β1

∴ plim β̂1 = β1

n n
!
1X 1X
plim β̂0 = plim yi + β̂1 · xi1
n i=1 n i=1
n
! n
!
1X 1X
= plim yi + plim β̂1 · xi1
n i=1 n i=1
= E[y] − β1 · E[x1 ]
= β0

∴ plim β̂0 = β0

Observações:
• Foi necessário assumir: Var[x1 ] < ∞ e Var[u] < ∞
• Não foi necessário assumir Hip.4, e sim sua versão mais fraca Hip.4’:

E[u] = 0, Cov[xj , u] = 0 para j = 1, 2, . . . , k.

47
Normalidade assintótica
Inferência em amostras grandes: Os estimadores de OLS são normais em
amostras grandes mesmo a Hipótese 6.
Sob Hip.1-5:
βˆj − βj a
∼ N ormal(0, 1)
se(βˆj )
Demonstração:
Pn
i=1 ui · (xi1 − x1 )
β̂1 − β1 = P n 2
i=1 (xi1 − x1 )
1
P n
i=1 ui · (xi1 − x1 )
= n1 P n 2
n i=1 (xi1 − x1 )
√
n
√n 1
P
nn i=1 ui · (xi1 − x1 )
= 1
P n 2
n i=1 (xi1 − x1 )
n
√1
P
√ n i=1 ui · (xi1 − x1 )
n(β̂ − β) = 1
P n 2
n i=1 (xi1 − x1 )

Baseado na expressão que chegamos

Pn
√ √1 ui · (xi1 − x1 )
n i=1
n(β̂1 − β1 ) = 1
Pn
n i=1 (xi1 − x1 ) 2

Podermos demonstrar a normalidade assintótica a partir do teorema central

do limite combinado com as leis dos grandes números.
O teorema central do limite implica que à medida que o tamanho da amostra
n aumenta, a soma de uma variável de média zero amostrada aleatoriamente
converge para uma distribuição normal com média zero e uma variância que
corresponde à variância dessa variável vezes o tamanho da amostra.
Mais formalmente, o TCL vale para qualquer variável aleatoria, daqui em
diante denotada por W, que tem uma média zero (E[W] = 0) e uma variância
limitada, que
n
d
X
Wi −
→ N (0, n · Var(Wi )) ,
i=1
n
1 X d
⇔√ Wi −
→ N (0, Var(Wi ))
n i=1

Agora aplicamos o teorema central do limite definindo Wi como o numerador

ui ·(xi1 −x1 ) . A última expressão é zero na expectativa (i.e., E [ui · (xi1 − x1 )] =
0) por causa de E [ui |xi1 ] = 0 e da lei das expectativas iteradas.

48
Pelo teorema central do limite, esta expressão converge na distribuição para
uma distribuição normal:
n
1 X d
→ N 0, Var(E u2 · (x1 − E[x1 ])2

√ ui · (xi1 − x1 ) −
n i=1

Para ver esse resultado, basta notar que

Var(Wi ) = E W2i = E u2i · (xi1 − x1 )2 = E u2 · (x1 − E [x1 ])2

Entretanto, para obter a distribuição assintótica da expressão abaixo:

Pn
√1
√ n i=1 ui · (xi1 − x1 )
n(β̂ − β) = 1
P n 2
n i=1 (xi1 − x1 )
Pn
é preciso considerar o limite de probabilidade do denominador n1 i=1 (xi1 −x1 )2 ,
que é Var(x1 ). Assim, pela regra estatı́stica sobre convergência
h de variáveis
i
Wi
aleatórias chamada de Teorema de Slutsky, afirma-se que E Var(x i1 )
= 0,
2
h i
Wi W
pois E[Wi ] = 0 e Var Var(x i1 )
= E (Var(xii1 ))2 Consequentemente, temos
a seguinte expressão:
!
√ d E u2 · (x1 − E[x1 ])2
n(β̂1 − β1 ) −
→ N 0,
Var(x1 )2
√
Demonstramos que n vezes a diferença entre o efeito estimado e o verdadeiro
converge para uma distribuição normal com média zero e uma variância es-
pecı́fica. Isso, por sua vez, implica que a diferença entre a estimativa β̂1 e o
efeito verdadeiro β converge para zero, com uma velocidade ou taxa de con-
vergência de √1n à medida que o tamanho da amostra n aumenta.
Dito de outra forma, a estimativa β̂1 converge para o verdadeiro efeito, β1
com uma taxa de convergência de √1n . Isso fornece uma ideia de quão rápido a
discrepância entre os efeitos estimados e os efeitos reais diminui à medida √
que
o tamanho da amostra aumenta. Este comportamento é conhecido como n-
consistência e corresponde à taxa de convergência mais rápida que qualquer
estimador de efeitos causais pode atingir.
No próximo passo, da expressão
!
√ d E u2 · (x1 − E[x1 ])2
n(β̂1 − β1 ) −
→ N 0,
(Var(x1 ))2
√
basta dividirmos por n e adicionar o efeito causal real e obtemos que

E[u2 · (x1 − E[x1 ])2 ]

d
β̂ −
→ N β1 ,
n · (Var(x1 ))2

49
Para mostrar a normalidade assintótica de β̂0 , poderı́amos seguir uma estratégia
análoga à de β̂1 . No entanto, consideraremos uma abordagem um pouco menos
tediosa, que se baseia no fato de que β0 = E[y|x1 = 0]. Note

β0 = E[yi ] − β1 E[x1 ]
0
= E[yi |xi1 = 0] − β1 E[
x
1]
*
= E[yi |xi1 = 0]

Para este fim, aplicamos os insights do teorema central do limite na equação

Pn d
√1
n i=1 Wi −→ N (0, Var(Wi )) apenas à subamostra de observações não tratadas
e definimos Wi = yi − β0 . Este último satisfaz E[yi − β0 |xi1 = 0] e, portanto,
tem uma expectativa de zero sob não tratamento. Além disso, vamos denotar
por n0 o tamanho da amostra de observações não tratadas.
A aplicação do teorema central do limite dá
1 X d
√ (yi − β0 ) −
→ N (0, Var(y|x1 = 0))
n0 i:x =0
i1

Ao rearranjar os termos de maneira análoga ao que fizemos com β̂1 , podemos

então demonstrar que β̂0 converge a uma distribuição normal com média β0 e
variância Var(y|x
n0
1 =0)

d Var(y|x1 = 0)
β̂0 −
→ N β0 ,
n0
Em amostras grandes:
• A variância da regressão é consistente plim σ̂ 2 = σ 2

• Testes (t e F) são válidos mesmo sem Hip.6

• Ainda precisamos assumir Hip.1-5 e Var[u] < ∞

Sobre a variância dos estimadores em amostras grandes:

σ̂ 2
Vd
ar[β̂j ] =
SSTj (1 − Rj2 )

i.e, é irrelevante ter desvio-padrão ou o erro-padrão na estatı́stica de teste (em

grandes amostras).

50
Como interpretar uma regressão?
Modelo nı́vel-nı́vel
Suponha a seguinte modelo estimado, em que a variável independente educ
denota anos de educação da observação e wage seu salário mensal.

wagei = 0, 830 + 180, 674educ, R2 = 0, 101 n = 161.092

(13,313) (1,339)

Interpretação (nı́vel-nı́vel): Em média, a cada ano adicional de estudo, o

salário aumenta em 180,67 reais.

Vamos testar a significância do estimador de interesse (educ). Primeiro,

vamos calcular os graus de liberdades df = n−k −1 = 161.092−1−1 = 161.090.
Note, como df > 120 podemos utilizar os valores crı́ticos padrões.

Agora, vamos testar para os três nı́veis de significância canônicos (10%, 5%,
e 1%):
180, 674
tβ̂educ = ≈ 134, 932 > 3, 291 = c0.001
1, 339
Rejeita-se a hipótese nula a nı́vel de 0.1%, ou seja, o coeficiente é estatı́sticamente
significativo aos nı́veis padrões.

O coeficiente de determinação R2 indica a proporção da variabilidade na

variável dependente (no caso, o salário mensal) que é explicada pelo modelo de
regressão linear. Neste caso, o valor de R2 = 0, 101 significa que aproximada-
mente 10,1% da variação observada nos salários mensais pode ser explicada
pela variável independente (anos de educação) incluı́da no modelo. Em outras
palavras, o modelo linear de regressão explica uma pequena parte da variabili-
dade total nos salários mensais observados.

Modelo nı́vel-log
Suponha a seguinte modelo estimado, em que a variável independente age de-
nota a idade da observação e wage seu salário mensal.

wagei = −1580, 079 + 890, 037 log(age), R2 = 0, 015 n = 161.554

(65,194) (18,065)

Interpretação (nı́vel-log): A cada ano adicional de estudo, em média, o

prêmio salarial equivale a um aumento de aproximadamente 8,9% no salário
mensal.

51
Vamos testar a significância do estimador de interesse (age). Novamente,
como df > 120 podemos utilizar os valores crı́ticos padrões e os respsectivos
nı́veis de significância estatı́stica.
890, 037
tβ̂educ = ≈ 49.269 > 3, 291 = c0.001
18, 065

Rejeita-se a hipótese nula a nı́vel de 0.1%, ou seja, o coeficiente é estatı́sticamente

significativo aos nı́veis padrões.

O coeficiente de determinação R2 neste modelo de regressão linear logarı́tmica

indica que cerca de 1,5% da variação observada nos salários mensal pode ser ex-
plicada pela variável independente (anos de educação) incluı́da no modelo.

Modelo log-nı́vel
Suponha a seguinte modelo estimado, em que a variável independente educ
denota anos de educação da observação e wage − h seu salário por hora.

log(wage − hi ) = 1, 154 + 0, 089 educ, R2 = 0, 192 n = 151.934

(0,005) (0,0005)

Interpretação (log-nı́vel): A cada ano adicional de estudo, em média, o

prêmio salarial equivale a um aumento de 8,9% no salário por hora trabalhada.

Vamos testar a significância do estimador de interesse (educ). Novamente,

como df > 120 podemos utilizar os valores crı́ticos padrões e os respsectivos
nı́veis de significância estatı́stica.
0, 089
tβ̂educ = ≈ 178 > 3, 291 = c0.001
0, 0005

Rejeita-se a hipótese nula a nı́vel de 0.1%, ou seja, o coeficiente é estatı́sticamente

significativo aos nı́veis padrões.

O coeficiente de determinação R2 neste modelo de regressão linear logarı́tmica

indica que cerca de 19,2% da variação observada nos salários por hora pode ser
explicada pela variável independente (anos de educação) incluı́da no modelo.

Modelo log-log
Suponha a seguinte modelo estimado, em que a variável independente age de-
nota a idade da observação e wage − h seu salário por hora.

log(wage − hi ) = 0.686 + 0.358 log(age), R2 = 0.019 n = 152.359

(0.024) (0.007)

Interpretação (log-log): A elasticidade dos salários por hora em relação à

idade é, em média, de 35,8%.

52
Vamos testar a significância do estimador de interesse (age). Novamente,
como df > 120 podemos utilizar os valores crı́ticos padrões e os respsectivos
nı́veis de significância estatı́stica.
0, 358
tβ̂age = ≈ 51.143 > 3, 291 = c0.001
0, 007

Rejeita-se a hipótese nula a nı́vel de 0.1%, ou seja, o coeficiente é estatı́sticamente

significativo aos nı́veis padrões.

Neste modelo de regressão logarı́tmica, o coeficiente de determinação R2 é

0,019, indicando que aproximadamente 1,9% da variação observada nos salários
por hora pode ser explicada pela variável independente (idade) incluı́da no mod-
elo.

Sumário das interpretações

Variável Variável Interpretação

Modelo dependente independente do β1
Nı́vel-nı́vel y x ∆y = β1 ∆x
Nı́vel-log y log(x) ∆y = (β1 /100)%∆x
Log-nı́vel log(y) x %∆y = (100β1 )∆x
Log-log log(y) log(x) %∆y = β1 %∆x

Nota matemática
A interpretação unitária de variação da variável independente em relação à
variação da variável dependente pode ser facilmente quando derivamos a variável
dependente em termos da variável independente:
∂ ŷi
ŷi = β̂0 + β̂1 xi =⇒ = β̂1
∂xi
Podemos discretizar essa derivada de modo que
∂ ŷi ∆ŷi
≈
∂xi ∆xi
Ademais, a interpretação logarı́tima é fruto de uma manipulação algébrica em
termos da derivada de um logaritimo2 :

∂ log(x) 1
= =⇒ ∂ log(x) = ∂x/x
∂x x
2 O que faremos não é estritamente correto do ponto de vista formal matemático, mas serve

a nós para propositos didáticos

53
Sabemos também que a elasticidade da variável y em relação a variável x pode
ser representada da seguinte maneira:
∂y x
εx,y = ·
∂x y
∂y/y
=
∂x/x
∂ log(y)
=
∂ log(x)

Ou seja,
∂y x ∂ log(y)
εx,y = · =
∂x y ∂ log(x)
Sendo esse o motivo pelo qual o modelo log-log possui a interpretação como
elasticidade!

54
Regressão Linear Multivariada
O modelo econométrico multivariado, genericamente, pode ser escrito da seguinte
maneira:
y = β0 + β1 · x1 + · · · + βk · xk + u
Onde
• y é a variável dependente
• x é a variável independente
• β0 é o parâmetro intercepto.
• βj é o parâmetro de inclinação (coeficiente angular) da variável j,
∀j ∈ {1, 2, . . . , k}
• u é o termo de erro

Estimação matricial
Vamos considerar modelo de regressão linear múltipla com amostra aleatória:
i = ı́ndice para uma observação
n = ı́ndice para número de observações

Modelo de regressão linear com k + 1 parâmetros e n observações:

yi = β0 + β1 x1i + β2 x2i + . . . βk xki + ui ; i = 1, 2, . . . , n
Para cada i temos:
y = xi β + u
onde
⃗xi = [1, x1i , x2i , . . . , x2i ]
1×(k+1)

β′ = [β0 , β1 , β2 , . . . , βk ]′
(k+1)×1

Assim possuimos o seguinte resultado


 y1 = β0 + β1 x11 + β2 x21


+ ... + βk xk1 + u1
 y2 = β0 + β1 x12 + β2 x22

+ ... + βk xk2 + u2
.. .. .. .. .. .. ..


 . . . . . . .

yn = β0 + β1 x1n + β2 x2n + ... + βk xkn + un


que é equivalente em sua forma matricial a seguinte expressão:

      
y1 1 x11 x21 . . . xk1 β0 u1
y2  1 x12 x22 . . . xk2  β1  u2 
 ..  =  .. ..   ..  +  .. 
      
.. .. ..
 .  . . . . .  .   . 
yn 1 x1n x2n . . . xkn βk un

55
Portanto
n×1
z }| {
yn×1 = Xn×(k+1) β(k+1)×1 +un×1
Tendo definido os termos, voltemos a nossa formula de regressão e rearranjando-
a de forma conviniente aos nossos propósitos:

u = y − Xβ

Para estimar essa regressão via OLS temos que somar o quadrado dos resı́duos.
Ou seja  
u1
X  u2 

u2i = u1 u2 . . . un  .  = u′ u

 .. 
un
Substituindo a nossa equação rearranjada nessa nova, temos:
X
u2i = u′ u = (y − Xβ)′ (y − Xβ)

Antes de continuar, vamos lembrar das propriedades da transposta:

(A′ )′ = A (20)

(A + B)′ = A′ + B ′ (21)
(AB)′ = B ′ A′ (22)
Portanto aplicando essas propriedades, temos que:
X
u2i = u′ u = y′ y − y′ Xβ − β ′ X′ y + β ′ X′ Xβ

Dando atenção especial ao termo y′ Xβ, temos que:

y′ Xβ = (y)′ (β ′ X′ )′ = B ′ A′ = AB = β ′ X′ y

Para entender a equação acima usamos a propriedade que a transposta de um

escalar é o próprio escalar, portanto nesse caso B ′ A′ = (AB)′ = AB. Voltando
a nossa equação, temos:

u′ u = y′ y − 2β ′ X′ y + β ′ X′ Xβ

Portanto para achar os mı́nimo quadrados temos que derivar a soma dos
resı́duos ao quadrado por β:
∂u′ u ∂(y − Xβ)′ (y − Xβ) ∂(y′ y − 2β ′ X′ y + β ′ X′ Xβ)
= =
∂β ∂β ∂β
Antes de resolver precisamos de alguns conceitos de cálculo matricial:
∂a′ b ∂b′ a
= =a
∂b ∂b

56
quando a e b são vetores K × 1.

Vamos para um exemplo ilustrativo, tome:

a1 b
a= e b= 1
a2 b2

Ou seja,

b1
a′ b = a1

a2 = a1 b1 + a2 b2
b2

a1
b′ a = b1

b2 = a1 b1 + a2 b2
a2

Portanto,

∂a′ b ∂
= (a1 b1 + a2 b2 ) = a1
∂b1 ∂b1
∂a′ b ∂
= (a1 b1 + a2 b2 ) = a2
∂b2 ∂b2

Em suma,
∂a′ b
" #
∂a′ b

a
= ∂b1
∂a′ b = 1 =a
∂b ∂b2
a2

∂b′ Ab
= 2Ab = 2b′ A
∂b
quando A é qualquer matriz simétrica. Note que você pode escrever a derivada
como 2Ab ou 2b′ A

57
Vamos para um exemplo ilustrativo, tome:

β a b
β= 0 e A=
β1 b d

Expandindo a forma quadrática:

′
a b β0
β Aβ = β0 β1
b d β1
= aβ02 + 2bβ0 β1 + dβ12

Agora para calcular o gradiente, temos que

∂β ′ Aβ ∂
aβ02 + 2bβ0 β1 + dβ12 = 2aβ0 + 2bβ1

=
∂β0 ∂β0
∂β ′ Aβ ∂
aβ02 + 2bβ0 β1 + dβ12 = 2bβ0 + 2dβ1

=
∂β1 ∂β1

Ou seja,

∂β ′ Aβ

2aβ0 + 2bβ1
=
∂β 2bβ0 + 2dβ1

a b β0
=2
b d β1
= 2Aβ

Consequentemente, aplicando as derivadas que apresentamos acima, temos

que

∂2β ′ X′ y ∂2β ′ (X′ y)

= = 2X′ y
∂β ∂β
e
∂β ′ X′ Xβ ∂β ′ Aβ
= = 2Aβ = 2X′ Xβ
∂β ∂β
quando X′ X é uma matriz simétrica K × K.
Em suma:
∂u’u ∂(y′ y − 2β ′ X′ y + β ′ X′ Xβ)
=
∂β ∂β
∂y′ y ∂β ′ X′ y ∂β ′ X′ Xβ
= −2 +
∂β ∂β ∂β
= 0 − 2X′ y + 2X′ Xβ̂

58
Assim
∂u’u
= −2X′ y + 2X′ Xβ̂ = 0
∂β
2X′ Xβ̂ = 2X′ y
X′ Xβ̂ = X′ y
(X′ X)−1 X′ X β̂ = (X′ X)−1 X′ y
| {z }
In

In · β̂ = (X′ X)−1 X′ y

Em suma,
β̂ = (X′ X)−1 X′ y

Outra maneira de ver a mesma coisa

Lembrando:
y = Xβ + u
Queremos a partir desta fórmula o β̂ OLS que minimiza a soma dos quadrados
dos resı́duos (SSR)
n
X ∂SSR(b)
SSR(b) ≡ (yi − xi b)2 =⇒ = 0 =⇒ β̂
∂b
i=1

Sendo que
n
X n
X
2
SSR(b) = (yi − b0 − b1 x1i − b2 x2i − · · · − bk xki ) = u2i
i=1 n=1

Sendo assim, quando derivamos a expressão acima temos:

 ∂SSR(b) Pn

 ∂b0 = −2 i=1 (yi − b0 − b1 x1i − b2 x2i − · · · − bk xki ) = 0
 ∂SSR(b) = −2 n x1i (yi − b0 − b1 x1i − b2 x2i − · · · − bk xki ) = 0

 P
∂b1 i=1
.. .. ..


 . . .
 ∂SSR(b) Pn
= −2 i=1 xki (yi − b0 − b1 x1i − b2 x2i − · · · − bk xki ) = 0

∂bk

Ou seja,
 Pn
(yi − b0 − b1 x1i − b2 x2i − · · · − bk xki ) = 0
Pn i=1



i=1 x1i (yi − b0 − b1 x1i − b2 x2i − · · · − bk xki ) = 0


.. ..


 . .
 Pn

i=1 xki (yi − b0 − b1 x1i − b2 x2i − · · · − bk xki ) = 0

59
Lembremos que
ui = (yi − b0 − b1 x1i − b2 x2i − · · · − bk xki )
Portanto, podemos rescrever o nosso sistema de equação da seguinte maneira
 Pn

 i=1 ui = 0
 P n
x · u = 0

1i i

i=1
.
.. ..


 .
 Pn

i=1 xki · ui = 0
Abrindo nosso sistema temos


 1 · u1 + 1 · u2 + 1 · u3 + · · · + 1 · un = 0

 x11 · u1 + x12 · u2 + x13 · u3 + · · · + x1n · un

= 0
.. ..


 . .

xk1 · u1 + xk2 · u2 + xk3 · u3 + · · · + xkn · un = 0


Matricialmente, a expressão acima é equivalente a

    
1 1 1 ... 1 u1 0
x11 x12 x13 . . . x1n  u2  0
..   ..  =  .. 
    
 .. .. .. ..
 . . . . .   .  .
xk1 xk2 xk3 ... xkn un 0
| {z } | {z } |{z}
X’ u 0

Ou seja,
X′ u = 0

Como sabemos que u = y − Xβ, então

X′ (y − Xβ̂) = 0
(k+1)×n n×1 (k+1)×1

Aplicando a propriedade distribuitiva temos

0 = X′ y − X′ Xβ̂
X′ Xβ̂ = X′ y
(X′ X)−1 X′ X β̂ = (X′ X)−1 X′ y
| {z }
In

In β̂ = (X′ X)−1 X′ y
β̂ = (X′ X)−1 X′ y

Disso chegaremos na famosa expressão:

β̂ = (X′ X)−1 X′ y

60
Não Viés do estimador OLS
Tomando a expressão dos beta chapeus estimados

β̂ = (X’X)−1 X’y

Substituindo y por Xβ + u, temos o seguinte:

β̂ = (X’X)−1 X’(Xβ + u)

β̂ = (X’X)−1 X’Xβ + (X’X)−1 X’u

β̂ = β + (X’X)−1 X’u
Tirando a expectativa dos dois lados, sabendo pela condição de ortogonalidade
populacional E[X′ u] = 0 temos que:
h i
E β̂|X = β

Finalmente, usando a Lei das Expectativas Iteradas:

h i h h ii
E β̂ = E E β̂|X = Ex [β] = β

Em suma, chegamos que

h i h i
E β̂|X = E β̂ = β

Matriz de variância-covariância do estimador OLS

Derive the conditional variance of the estimator.

Da hipótese de Homocedasticidade, temos que

Var[u|X] = σ 2 In

Sendo In a matriz identidade n × n. Tendo em vista que β̂ = β + (X’X)−1 X’u,

como derivamos na qustão, então se segue o seguinte

Var[β̂|X] = Var[β + (X’X)−1 X’u|X]

= (X’X)−1 X’Var[u|X]X(XX’)−1
= (X’X)−1 X’Var[u|X]X(XX’)−1
= (X’X)−1 X’(σ 2 In )X(XX’)−1
= σ 2 (X’X)−1 X’X(XX’)−1

Consequentemente
Var[β̂ | x] = σ 2 (X′ X)−1

61
Para ilustrar utilidade da forma matricial, olhemos de volta para a regressão
linear simples, mas agora matricialmente:

Y = Xβ + u

Ou seja      
Y1 1 X1 u1
 Y2  1 X2  u 
 β0  2
 ..  =  .. ..  β +  .. 
  
 .  . .  1  . 
Yn 1 Xn un
Vamos utilizar as matrizes para chegar na matriz de variância-covariância:
 
1 X1
1 . . . 1 1 X2 

1

X′ X =  .. .. 
X1 X2 . . . Xn  . . 
1 Xn
Pn
n Pni=1 X2i
= Pn
i=1 Xi i=1 Xi

Para calcular o inverso temos que calcular o determinante:

n P nX̄
det(X′ X) = det n 2
nX̄ i=1 Xi
Xn
=n Xi2 − n2 X̄ 2
i=1
n
!
X
=n Xi2 − nX̄ 2

i=1
n
X
=n (Xi − X̄)2
i=1

Portanto, utilizando esse valor calcular a inversa da matriz X′ X, temos que

Pn 2

1 i=1 Xi −nX̄
(X′ X)−1 = Pn
n i=1 (Xi − X̄)2 −nX̄ n

Ou seja, nossa matriz de variância-covariância para β é

 Pn 
X 2 σ2 2
Pni=1 i − Pn X̄σ
σ 2 (X′ X)−1 =  n i=1X̄σ
(Xi −X̄) 2 2
i=1 (Xi −X̄) 
2 2
− Pn (Xi −X̄)2 Pn σ
i=1 (Xi −X̄)2 i=1

Ou seja, além de chegarmos nas mesmas variâncias que anteriormente também

temos que
σ 2 · X̄
Cov(β̂0 , β̂1 ) = − Pn 2
i=1 (Xi − X̄)

62
Matrix Hat
Com base na matriz de β, os valores preditos da nossa regrssão linear é repre-
sentado pelo seguinte vetor

Ŷ = X(X′ X)−1 X′ Y = HY

Ou seja, H = X(X′ X)−1 X′ e é chamada de matrix Hat (chapéu). Por con-

sequência, os resı́duos equivale ao seguinte vetor

u = Y − HY = (In − H)Y

A matriz H desempenha um papel central na regressão linear, tanto por suas

propriedades algébricas quanto por sua interpretação geométrica. Como ma-
triz idempotente (H2 = H) e simétrica (H′ = H), ela atua como um op-
erador de projeção ortogonal que mapeia o vetor de respostas Y no espaço
coluna da matriz de delineamento X, gerando os valores preditos Ŷ = HY.
Geometricamente, H projeta Y no subespaço gerado pelas colunas de X, en-
quanto sua complementar, In − H, projeta Y no espaço ortogonal, produzindo
os resı́duos u = (In − H)Y. Essa dupla natureza revela a estrutura funda-
mental da regressão: a decomposição de Y em componentes explicada (Ŷ) e
não explicada (u) pelos preditores, onde os resı́duos são ortogonais às colunas
de X, garantindo as propriedades de otimalidade dos estimadores de mı́nimos
quadrados.

Graficamente, H projeta Y em Ŷ sobre o hiperplano gerado por X, enquanto

u é o vetor perpendicular a esse hiperplano. Na figura acima representamos o
modelo linear simples, na qual o vetor de valores preditos é uma reta.
Tomando o modelo linear clássico (i.e., erros são normalmente distribuidos)
sabemos que:
Ŷ = HY
Como Y ∼ Nn (Xβ, σ 2 In ), e H é uma matriz constante (não aleatória),
temos que Ŷ é uma transformação linear de Y. Portanto:

Ŷ ∼ Nn (HE[Y], HVar(Y)H′ )

63
Calculando a média:

E[Ŷ] = HE[Y]
= HXβ
= Xβ

já que HX = X porque H é a matriz de projeção no espaço coluna de X.

Calculando a variância:

Var(Ŷ) = H(σ 2 In )H′

= σ 2 HH′
= σ2 H

pois H é simétrica (H′ = H) e idempotente (HH = H). Portanto:

Ŷ ∼ Nn (Xβ, σ 2 H)

Comparando as duas distribuições:

• Distribuição de Y:
Y ∼ Nn (Xβ, σ 2 In )
Os elementos de Y são independentes com variância constante σ 2 .

• Distribuição de Ŷ:
Ŷ ∼ Nn (Xβ, σ 2 H)
Os elementos de Ŷ são correlacionados (pois H não é diagonal) e têm
variância σ 2 hii , onde hii é o i-ésimo elemento da diagonal de H.
Interpretação: O vetor Y representa os valores observados da variável re-
sposta em seu estado bruto, seguindo uma distribuição normal multivariada com
média Xβ e matriz de covariância σ 2 In . Isso significa que cada observação Yi
tem variância constante σ 2 e é independente das demais observações, refletindo
a estrutura de erros aleatórios não correlacionados do modelo teórico.
Por outro lado, o vetor Ŷ corresponde aos valores preditos pelo modelo
de regressão, obtidos através da projeção ortogonal de Y no espaço gerado
pelas colunas da matriz de delineamento X. Essa projeção introduz duas carac-
terı́sticas importantes: primeiro, os valores preditos tornam-se correlacionados
entre si, pois são combinações lineares dos mesmos dados originais; segundo, as
variâncias dos preditos não são mais constantes - cada Ŷi tem variância σ 2 hii ,
onde hii é o elemento diagonal correspondente da matriz hat H.
Essa diferença nas estruturas de covariância reflete a natureza distinta entre
dados observados e ajustados. Enquanto Y mantém a variabilidade original
dos dados, Ŷ apresenta uma variabilidade modificada pelo processo de ajuste
do modelo, com pontos que podem ter maior ou menor influência no resultado
final, conforme indicado por seus valores de alavancagem hii . Essa distinção é

64
fundamental para compreender como o modelo transforma os dados brutos em
predições e como diferentes observações contribuem para essa transformação.
O elemento hii da diagonal da matriz H é conhecido como alavancagem
(leverage) da i-ésima observação. Ele mede a influência da observação Yi no seu
próprio valor ajustado Ŷi .
Propriedades:

1. 0 ≤ hii ≤ 1.
Pn
2. i=1 hii = p, onde p é o número de parâmetros do modelo (no presente
caso, p = 2: β0 e β1 ).
3. Se hii é grande (próximo de 1), a observação i tem grande influência no
ajuste do modelo (é um ponto de alavancagem).
4. A variância de Ŷi é σ 2 hii , então observações com alta alavancagem têm
valores ajustados mais sensı́veis a pequenas variações nos dados.
Essas propriedades decorrem do fato qye a matriz H é uma matriz de
projeção ortogonal no espaço coluna de X. O elemento hii representa:

hii = x′i (X′ X)−1 xi

em que x′i = [1xi ] é a i-ésima linha de X. Isso mostra que hii é uma forma
quadrática positiva, que a soma é p porque projeta em um espaço p-dimensional
e que valores próximos de 1 indicam que xi está na fronteira do espaço de
projeção
Exemplo prático são: se hii ≈ 1, Ŷi ≈ Yi (o modelo se ajusta quase perfeita-
mente a esse ponto). Se valores altos de hii podem indicar outliers na variável
explicativa xi .
Por tanto, hii mede a alavancagem da i-ésima observação, indicando sua
influência no valor ajustado Ŷi . Valores altos sugerem observações influentes ou
outliers em xi .

Por fim, tomando a seguinte matriz Jn de dimensões n × n:

 
1 1 ··· 1
1 1 · · · 1
Jn =  . . .
 
 .. .. . . ... 

1 1 ··· 1

Podemos chegar na seguinte expressão

1 1
Y In − Jn Y = Y H − Jn Y + Y′ (In − H) Y
′ ′
n n

A identidade acima pode ser decomposta da seguinte maneira:

65
• Soma Total dos Quadrados:
n
′ 1 X
SQT = Y In − Jn Y = (Yi − Ȳ )2
n i=1

Mede a variação total dos dados em torno da média Ȳ .

• Soma dos Quadrados da Regressão
n
′ 1 X
SQE = Y H − Jn Y = (Ŷi − Ȳ )2 ,
n i=1

pois HY = Ŷ: Valores preditos pelo modelo de regressão e n1 Jn Y = Ȳ 1:

Vetor com todos os elementos iguais a Ȳ . Portanto, H − n1 Jn Y =
Ŷ − Ȳ 1 que é a diferença entre os valores preditos e a média global. Ou
seja, SQR mede a variação explicada pela regressão (quanto o modelo se
desvia da média simples).
• Soma dos Quadrados dos Resı́duos
n
X
SQR = Y′ (In − H) Y = (Yi − Ŷi )2
i=1

Mede a variação não explicada pelo modelo (erros)

Portanto, podemos representar o coeficiente de determinação do nosso mod-
elo na forma matricial da seguinte maneira:
Y′ H − n1 Jn Y

2 Y′ (In − H) Y
R = ′ = 1 −
Y In − n1 Jn Y Y′ In − n1 Jn Y

Estimadores OLS são MVLUE

Agora vamos derivar o Teorema de Gauss-Markov: no modelo clássico de regressão
linear, o estimador OLS é o estimador linear de mı́nima variância não viesado
(MVLUE) de β. A propriedade MVLUE é uma subclasse da propriedade
BLUE (Melhor Estimador Linear Não Viesado). Enquanto a MVLUE é um
estimador linear não viesado com a menor variância possı́vel dentro da classe de
estimadores lineares não viesados, a BLUE é um estimador linear não viesado
com a menor variância possı́vel em geral, independentemente de ser linear ou
não. Portanto, pode-se dizer que a MVLUE é uma propriedade mais restritiva
do que a BLUE, pois todos os MVLUEs também são BLUEs, mas nem todos
os BLUEs são necessariamente MVLUEs.

Seja β̃ = CY um estimador linear não viesado de β diferente de β̂OLS .

Vamos provar que a variância de β̃ não é menor do que a variância do estimador
OLS. Se β̃ é não viesado, então
E [CY|X] = E [CXβ + Cu|X] = β (*)

66
A partir das suposições do modelo clássico, (*) implica que CX deve ser
igual a In . A partir da expressão hpara ia variância de β̂OLS que derivamos no
−1
item anterior , podemos obter Var β̃|X substituindo (X’X) X’ por C:
h i
Var β̃|X = σ 2 CC ′ ()
−1
Agora, seja x1 = C − (X’X) X’, de modo que DY = β̃ − β̂OLS . A expressão
() torna-se
h i ′
2 −1 −1
Var β̃|X = σ x1 + (X’X) X’ x1 + (X’X) X’

−1
Mas, CX = DX + (X’X) X’X = In . Portanto, DX deve ser igual a zero.
Portanto:
h i h i h i
−1
Var β̃|X = σ 2 (X’X) + σ 2 DD’ = Var β̂OLS |X + σ 2 DD’ ≥ Var β̂OLS |X

Uma vez que uma forma quadrática em DD’ é q ′ DD’q = z ′ z ≥ 0, a matriz de

covariância condicional de qualquer β̃ é igual à de β̂OLS mais uma matriz não
negativa definida, estabelecendo o resultado.

Teste F
Como calcular a estatı́stica-F:
1. Obter a soma dos quadrados dos resı́duos do modelo irrestrito SSRur
2. Obter a soma dos quadrados dos resı́duos do modelo restrito SSRr
3. Obter a estatı́stica-F:
(SSRr − SSRur )/q
F =
SSRur /(n − k − 1)
onde n − k − 1 são os graus de liberdade da regressão do modelo irrestrito e
q é o número de restrições em H0

Distribuição da estatı́stica-F

(SSRr − SSRur )/q

F = ∼ Fq,n−k−1
SSRur /(n − k − 1)
A estatistica-F também pode ser usada para testar a significância geral da
regressão. Considere o modelo:
y = β0 + β1 xi1 + β2 xi2 + . . . βk xik + u
H0 : β0 = β1 = β2 = · · · = βk = 0 ← H0 é para testar se as variáveis
explicativas não são úteis para explicar y
Nesse caso, é possı́vel mostrar a relação entre estatı́stica-F e o R2 da regressão
completa:
(SSRr − SSRur )/q R2 /k
F = = ∼ Fq,n−k−1
SSRur /(n − k − 1) (1 − R2 )/(n − k − 1)

67
Derivando os vieses
Omissão de variável relevante

X Y

Modelo Verdadeiro:
Y = α + βX + ηZ + ϵ
Modelo Estimado:
Y = α + βX + ε

Cov[X,Y]
β̂ =
Var[X]
E[X· Y] − E[X]E[Y] E[X· Y] E[X]E[Y]
= = −
Var[X] Var[X] Var[X]
E[X · (α + βX + ηZ + ϵ)] E[X]E[α + βX + ηZ + ϵ]
= −
Var[X] Var[X]
E[X] E[X2 ] E[XZ] E[X] E[X]2 E[X] · E[Z]
=α +β +η −α −β −η
Var[X] Var[X] Var[X] Var[X] Var[X] Var[X]
Var[X] Cov[X,Z]
z }| { z }| {
E[X2 ] − E[X]2 E[XZ] − E[X] · E[Z]
=β +η
Var[X] Var[X]
Cov[X,Z]
=β+η
Var[X]

Simultaneidade
Y 1 = α 1 Y 2 + β1 X 1 + ε 1
Y2 = α2 Y1 + β2 X2 + ε2
E portanto,

Y2 = α2 (α1 Y2 + β1 X1 + ε1 ) + β2 X2 + ε2
= α1 α2 Y2 + α2 β1 X1 + α2 ε1 + β2 X2 + ε2
(1 − α1 α2 )Y2 = α2 β1 X1 + β2 X2 + α2 ε1 + ε2

68
Assumindo que α1 α2 ̸= 1, temos que

Mesmo assim x1 é correlacionada com o erro da regressão:

=⇒ Cov[x1 , e1 ] = Cov[x∗1 , e1 ] + Cov[e1 , e1 ] = σe21

=⇒ Cov[x1 , u − β1 e1 ] = −β1 Cov[x1 , e1 ] = −β1 σe21

Consequências do erro de medida na variável explicativa:
• Se o erro de medida for clássico, OLS é enviesado e inconsistente pois viola
Hip. 4 (variável explicativa endógena)
2
σx ∗
• A inconsistência se dá pelo seguinte fator: plimβˆ1 = β1 σ2 1
+σe2
x∗
1 1

• Demonstração (modelo de regressão simples):

Cov[x1 , u − β1 e1 ]
plimβˆ1 = β1 +
Var[x1 ]
β1 σx2∗1
= β1 +
σx2∗ + σe21
1
!
σ2
= β1 1 − 2 e1 2
σx∗ + σe1
1
!
σx2∗1 + σe21 − σe21
= β1
σx2∗ + σe21
1

σx2∗1
= β1 ·
σx2∗ + σe21
1

Ou seja,
σx2∗1
plimβˆ1 = β1
σx2∗ + σe21
1

onde Var[x1 ] = Var[x∗1 ] + Var[e1 ], dado que Cov[x∗1 , e1 ] = 0

• Se o erro de medida for clássico, o viés é de atenuação! Quanto maior a
variância do erro de medida mais próxima de zero estará a estimativa
• Quando o modelo possui mais variáveis explicativas (regressão múltipla),
o erro de medida em x1 , de uma forma geral, gera viés em todos os coefi-
cientes de OLS
• No caso especifico em que, por exemplo, Cov[x∗1 , x2 ] = 0, βˆ2 é consistente,
porem esse caso é raro na pratica

69
Modelos de Escolha Discreta
Remembremos o Linear Probability Model (LPM): Quando a variável de-
pendente (y) toma valor 0 ou 1. Como y pode assumir apenas dois valores, βj
não pode ser interpretado como a mudança em y dado um aumento de uma
unidade em xj , mantendo todos os outros fatores fixos: y ou muda de zero para
um ou de um a zero (ou não muda).
No entanto, βj ainda tem interpretações úteis. Se assumirmos que a su-
posição de média condicional zero é válida, ou seja, E[u|x1 , . . . , xk ] = 0, então
temos, como sempre,

y = β0 + β1 x 1 + · · · + βk x k + u

E[y|x] = β0 + β1 x1 + · · · + βk xk
Assim como,

E[y|x] = 1 · P(y = 1|x) + 0 · P(y = 0|x)

= P(y = 1|x)

Ou seja, o LPM:

P(y = 1|x) = β0 + β1 x1 + · · · + βk xk

A probabilidade de sucesso, digamos, P(x) = P(y = 1|x), é uma função linear

do xj , daı́ o ”linear” no nome.
No LPM, βj mede a mudança na probabilidade de sucesso quando xj muda,
mantendo outros fatores fixos:
∂P(y = 1)
βj =
∂xj

Vantagens do LPM:
• Fácil estimativa e interpretação
• Os efeitos estimados e as previsões são geralmente razoavelmente bons na
prática
• Geralmente funciona bem para valores das variáveis independentes que
estão próximos das médias da amostra.
Desvantagens do LPM:
• As probabilidades previstas podem ser maiores que um ou menores que
zero
• O modelo de probabilidade linear é necessariamente heterocedástico dev-
ido à natureza binária de y

Var[y|x] = P(y = 1|x)[1 − P(y = 1|x)]

70
• Erros padrão consistentes com heteroscedasticidade precisam ser calcula-
dos
Podemos ultrapassar os problemas do LMP usando modelos de escolha discreta,
como Probit e Logit. Portanto, precisamos considere uma classe de modelos de
resposta binária em que a probabilidade de resposta é uma função não linear
de variáveis explicativas

P(y = 1|x) = G(β0 + β1 x1 + · · · + βk xk ) = G(Xβ)

Sendo que G(Xβ) é uma função de distribuição cumulativa 0 < G(z) < 1. A
probabilidade de resposta é, portanto, uma função das variáveis explicativas x

Funções Link (link functions) sugeridas:

Z z
Probit: G(z) = Φ(z) = ϕ(v)dv (distribuição normal)
−∞

exp z
Logit: G(z) = Λ(z) = (função logı́stica)
1 + exp z
Formulação de variaveis latentes do Probit e Logit
Podemos derivar os modelos Probit e Logit assumindo no pano de fundo um
modelo de variáveis latentes. Tomemos y ∗ uma variável não observada (latente)
tal que:
y ∗ = Xβ + ε E y = 1|y ∗ > 0
Assuma que ε é independente de X e que ε tem uma distribuição logı́stica ou uma
distribuição normal padrão. Em ambos os casos, e é distribuı́do simetricamente
em torno de zero, o que significa G(−z) = 1 − G(z)
Podemos derivar a probabilidade de resposta para y:

P(y = 1|x) = P(y ∗ > 0|x) = P(ε > −Xβ) = 1G(−Xβ) = G(Xβ)

Interpretação dos coeficientes em Logit e Probit

Lembremos primeiro o modelo OLS:

y = Xβ + u

Ou seja,
∂y
= β̂i
∂xi
Ou seja, o coeficiente β̂i é quanto varia a variável dependente quando há um
aumento de uma unidade da variável independente i, controlando por demais
fatores.

Agora no modelo Probit ou Logit, temos o seguinte:

P(y = 1|x) = G(Xβ)

71
Ou seja,
∂P(y = 1|x) ∂G(Xβ)
= = G′ (Xβ)βi = g(Xβ)βi
∂xi ∂xi
Isto é
∂P(y = 1|x)
= g(Xβ)βj onde ∂G(z)/∂z ≡ g(z)
∂xj
Portanto diferente no caso de OLS, não sabemos estimar a magnitude da varição
da variável dependente em termos da varição da variável independente. Con-
tudo, consiguimos estimar o sinal do efeito.
Além de que no caso que queiremos saber o efeito relativo entre dois coenfi-
cientes, aı́ neste caso conseguimos estimar a magnitude. Ou seja,

∂P/∂xi g(Xβ)β̂i β̂i

= = ∀i ̸= j
∂P/∂xj g(Xβ)β̂j β̂j

Lembrar :
Efeitos Marginais na média:
∂P(y = 1|x) ∂G(z)
= g(Xβ)βi onde g(z) ≡ >0
∂xi ∂z
Onde X representa o valor atribuı́do ao indivı́duo representativo, que neste caso
é indivı́duo médio.
Efeito Marginal Médio (APE):
n
X ∂G(z)
AP
[ E j = n−1 · g(Xβ)β̂j onde g(z) ≡ >0
i=1
∂z

72
Regressão Linear no R
Primeiro, dado nosso modelo iremos construimos nossas matrizes. Vamos mon-
tar um modelo com 3 variáveis explicativas
c o n s t <− rep ( 1 , n )

X1 <− c ( . . . )

X2 <− c ( . . . )

X3 <− c ( . . . )

Y <− c ( . . . )

matrix . data <− c ( c o n s t , X1 , X2 , X3)

X <− matrix ( matrix . data , nrow = n , ncol = 4 )

k <− dim(X ) [ 2 ]

Y <− matrix (Y, nrow=15 , ncol =1)

n <− dim(Y ) [ 1 ]

Dado a fórmula dos betas matricial β̂ = (X’X)−1 X’y, basta aplicar o seguinte
código:
beta <− solve ( t (X)%∗%X)%∗%t (X)%∗%Y
Agora, vamos calcular o erro-padrão assumindos erros independentes identica-
mente distribuidos (i.i.d.):
u <− Y−X%∗%beta
sigma2 <− as . numeric ( ( t ( u )%∗%u ) / ( n−k ) )

Var beta <− sigma2∗solve ( t (X)%∗%X)

sd beta <− sqrt ( diag ( Var beta ) )

Para o coeficiente de determinação basta fazer as seguintes operações:
SSR <− t (Y)%∗%Y − t ( beta )%∗%t (X)%∗%Y

SST <− t (Y)%∗%Y − n∗mean(Y) ˆ 2

Rsquared <− 1 − SSR/SST

Para calcular a estatı́stica t e o p-valor, devemos primeiro saber o tamanho da
nossa amostra, que é possı́vel pelo seguinte código:
length (X)

73
Dado o tamanho da amostra e portanto os graus de liberdade, se esses forem
> 120 para um teste de hipótese bicaudal com nı́vel de significância de 5%
(padrão na literatura), então o valor crı́tico c que adotamos é de 1.960, i.e.,

> c, rejeitamos a hipótese nula
|Teste t|
≤ c, falhamos em rejeitar a hipótese nula

t c a l c <− beta/sd beta

for ( i in 1 : 4 ) {
i f ( abs ( t c a l c [ i ] ) > 1 . 9 6 0 ) {
print ( ” r e j e i t a H0” )
} else {
print ( ” f a l h a em r e j e i t a r H0” )
}
}
Com relação ao p-valor: A função pt retorna o valor da função densidade cu-
mulativa (cdf) da distribuição t de Student dada uma certa variável aleatória x
e graus de liberdade df.
p v a l o r <− 2 ∗ ( 1 − pt ( q = abs ( t c a l c ) , df = n−k ) )

for ( i in 1 : 4 ) {
i f (p valor [ i ] < 0.05){
print ( ” r e j e i t a H0” )
} else {
print ( ” f a l h a em r e j e i t a r H0” )
}
}
Vale a nota que se falha em rejeitar e nunca aceitamos a hipótese nula à
um dado nı́vel de significância. A razão disso é que estamos assumindo que
a hipótese nula é verdadeira e tentando ver se há evidências contra ela. Con-
sequentemente como diz o aforismo popularizado por Carl Sagan: ”ausência
de evidência não é evidência de ausência”. Portanto, a conclusão deve ser em
termos de rejeição do nulo.