Fundamentos da Regressão Linear em Econometria
Fundamentos da Regressão Linear em Econometria
Decoreba
Regressão Linear Simples
Pn
(y − y)(xi − x)
β̂1 = i=1 Pn i 2
; β̂0 = y − β̂1 x
i=1 (xi − x)
Pn
σ2 σ 2 · i=1 x2i
Var β̂1 = Pn 2 ; Var β̂ 0 = P n 2
i=1 (xi − x) n· (xi − x)
Pn i=1
û2
ŷi = β̂0 + β̂1 xi ; yi = ŷi + ûi ; σ̂ 2 = i=1 i
n−2
X n Xn
2 2
SST ≡ (yi − y) ; SSE ≡ (ŷi − y)
i=1 i=1
n n
X 2
X SSE SSR
SSR ≡ (yi − ŷi ) = û2i ; R2 = =1−
i=1 i=1
SST SST
CLM :H1: Linearidade y = β0 + β1 x + u
H2: Amostra Aleatória {(xi , yi ) : i = 1, 2, . . . , n}
yi = β0 + β1 xi + ui
n
X 2
H3: Há variação em x (xi − x) > 0
i=1
H4: Média Condicional Zero E [u|x] = u
Sob H1-H4 :Não viés E[β̂i |x] = βi
H5: Homocedasticidade Var (ui |xi ) = σ 2
Sob H1-H5 :Gauss-Markov: β̂ é BLUE
H6: Normalidade u ∼ N 0, σ 2
Sob H1-H6 : Teste de Hipóteses β̂i − βi /se(β̂i ) ∼ tn−k−1
1
Regressão Linear Multivariada
h i
β̂ = (X’X)−1 X’y; Var β̂|X = σ 2 (X′ X)−1
u’u y’β̂(X’X)−1 β̂ ′ y
σ̂ 2 = ; R2 =
n−k y’y
CLM :H1: Linearidade y = Xβ + u
H2: Posto Completo rank(E [X′ X]) = k + 1
H3: Condição de ortogonalidade populacional
E X′ u = 0
2
Relembrar é viver
n
X
µX = E [X] (populacional) ≡ xi /n = x (amostral)
i=1
2 2
= E (X − µ)2 = E X 2 − {E [X]} (populacional)
σX
Xn
≡ (xi − x)2 /n = Var(x) (amostral)
i
σXY = E [X · Y ] = E X 2 − E [X] · E [Y ] (populacional)
Xn
≡ (xi − x)(yi − y)/n = Cov(x, y) (amostral)
i=1
σX,Y Cov(x,y)
ρX,Y = (populacional) ≡ p = corr(x, y)
σX · σY Var(x) · Var(y)
" n # n
X X
E [aX + b] = aE [X] + b; E Xi = E [Xi ]
i=1 i=1
2
Var [aX + b] = a Var [X] ; Var [X ± Y ] = Var [X] + Var [Y ] ± 2Cov [X, Y ]
" n # n
X X X
Var Xi = Var [Xi ] + 2 Cov [Xi , Xj ]
i=1 i i̸=j
3
Introdução: O que é econometria
4
Quando fazemos uma análise de regressão, por exemplo no caso minceriano,
plotamos em um gráfico os dados de salários no eixo y e educação no eixo x.
Nesse gráfico ao ver a dispersão dos dados queremos colocar uma figura que
melhor explica a trajetória dos dados. Geralmente a melhor figura que faz isso
é uma reta.
É como se a realidade tivesse uma forma funcional sobre uma dada variável, e
o trabalho econométrico é nada mais que tentar estimar a equação mais próxima
dessa forma funcional.
5
Regressão Linear Simples
Vamos aprender agora como estimar uma regressão simples: O modelo econométrico,
genericamente, pode ser escrito da seguinte maneira:
y = β0 + β1 · x + u
Onde
• y é a variável dependente
• x é a variável independente
• β0 é o parâmetro intercepto.
y = β0 + β1 · x + |{z}
u
| {z }
endógeno exógeno
Estimação
Queremos estimar os parâmetros β0 e β1 . Mas esses são variáveis populacionais,
i.e., são parâmetros da realidade que o pesquisador não tem acesso direto. Então,
6
cabe pegarmos uma amostra e estimá-los, mas tomando certas hipóteses a modo
de garantir que estamos em média pegando o valor verdadeiro, para qualquer
amostra que usarmos.
7
Para deixar mais claro, essencialmente por que x não explica tudo e, por-
tanto, há variação de y explicada por coisas que não x então espera-se o seguinte:
Aqui cabe uma nota sobre notação: Quando colocamos o chapéu estamos deno-
8
tando que essa é a estimativa do parâmetro populacional, i.e., X̂ é a estimativa
do parametro estrutural X. No nosso problema queremos estimar β0 e β1 ,
consequentemente ao final do nosso processo teremos:
Vamos minimizar os erro ao quadrado por uma série de motivos que não vem
ao caso, mas o mais importante é simplicidade analı́tica. As contas ficam mais
fáceis e a gente lida só com valores positivos, embora existam outros métodos de
estimação. Além do mais, com o estimador de Mı́nimos Quadrados Ordinários
(MQO ou OLS) você chega ao mesmo resultado usando formas diferentes de
estimação. Usaremos três métodos: Método dos Momentos, Mı́nimos
Quadrados Ordinários e Máxima Verossimilhança.
E [u] = 0
y = (β0 − α0 ) + β1 x + (u − α0 )
9
Suposição crucial: Uma suposição que combina bem com nosso tratamento
introdutório envolve a média do termo de erro para cada “fatia” da população
determinada pelos valores de x:
E [u|x] = E [u]
onde E [u|x] significa “o valor esperado de u dado x”. Então dizemos que u é
uma média independente de x.
Um exemplo para fazer sentido:
Suponha que você seja “habilidade” e x sejam anos de educação. Precisamos,
por exemplo,
de modo que a capacidade média seja a mesma nas diferentes parcelas da pop-
ulação com escolaridade de 8ª série, 12ª série e ensino superior de quatro anos.
Note, no nosso exemplo como habilidade e anos de educação são independentes
(i.e., E [habilidade|x] = E [habilidade]) então na média esperamos a mesma dis-
tribuição de habilidades para qualquer realização de anos de estudos. Dado que
as pessoas escolhem nı́veis de educação parcialmente baseados na capacidade,
esta suposição é quase certamente falsa.
Consequentemente, combinando E [u|x] = E [u] (a suposição substantiva)
com E [u] = E [u] = 0 (uma normalização) temos a hipótese de média condi-
cional zero.
E [u|x] = E [u] = 0, ∀x
Como o valor esperado condicional é um operador linear, E [u|x] = 0 implica
E [y|x] = β0 + β1 x
{(xi , yi ) : i = 1, . . . , n}
yi = β0 + β1 xi + ui
Com nossa hipótese de média condicional do erro e uma amostra aleatória pode-
mos ir aos métodos de estimação.
10
Método dos Momentos
Para essa estimação observamos yi e xi , mas não ui (mas sabemos que ele
existe). Vamos usamor duas restrições populacionais:
E [u|x] = 0
Cov [x, u] = 0
A segunda condições é apenas uma forma mais forte de dizer que u e x não são
correlacionados. Lembrando que
= E [u · (x − E [x])]
= E [x · u − u · E [x]]
= E [x · u] − E [u · E [x]]
= E [x · u] − E [x] · E [u]
= E [x · u] − E [x] · *0
E [u]
= E [x · u]
Ou seja,
Cov [x, u] = E [x · u] = 0
11
Assim nossas duas restrições ficam assim:
E [u] = 0 (1)
E [x · u] = 0 (2)
Basta fazer a seguinte manipulação algébrica:
y = β0 + β1 x + u =⇒ u = y − β0 − β1 x
Com isso em mente, comecemos abrindo a equação (1):
h i
E [u] = E y − β̂0 − β̂1 x
h i h i
= E [y] − E β̂0 − E β̂1 x
β̂0 = y − βˆ1 x
12
Ou seja,
E [x · u] = 0 =⇒ Cov(x, y) − β̂1 · Var(x) = 0
E consequentemente, temos que
Cov(x, y)
β̂1 =
Var(x)
O equivalente amostral da esperança é a média amostral, podemos fazer a sim-
ples manipulação seguinte:
Pn Pn
Cov(x, y) (xi − x)(yi − y)/n (x − x)(yi − y)
= i=1
Pn 2
Pn i
= i=1 2
Var(x) i=1 (xi − x) /n i=1 (xi − x)
Portanto Pn
(x − x)(yi − y)
β̂1 = Pn i
i=1
2
i=1 (xi − x)
ûi = yi − ŷi
= yi − β̂0 + β̂1 xi
Ou seja,
ûi = yi − β̂0 − β̂1 xi
Como especificado antes, nosso o método requer minimizar a soma erros quadra-
dos, e.g.,
Queremos achar Ŷi = β̂0 + β̂1 Xi . Como os parâmetros ûi é uma função do β
estimado, basta achar o tal β que minimiza a soma dos resı́duos ao quadrado.
n
X Xn
u2 β̂0 , β̂1 ≤ u2 (b), ∀b ∈ R2
i=1 i=1
Ou seja,
n
X 2
min û2i ≡ yi − β̂0 − β̂1 xi
β̂0 ,β̂1 i=1
C.P.O:
Pn i
h i ∂ i=1 û2i X
β̂0 : =2 yi − β̂0 − β̂1 xi (−1) = 0
∂ β̂0 i=1
n
X n
X
= yi − nβ̂0 − β̂1 xi = 0
i=1 i=1
13
Ou seja,
n
X n
X
0= yi − nβ̂0 − β̂1 xi
i=1 i=1
Xn n
X
nβ̂0 = yi − β̂1 xi
i=1 i=1
n n
!
1 X X
β̂0 = yi − β̂1 xi
n i=1 i=1
n n
X yi X xi
= − β̂1
i=1
n i=1
n
= y − β̂1 x
Em suma,
β̂0 = y − β̂1 x
14
Agora estimando β̂1 :
Pn i
h i ∂ i=1 û2i X
β̂1 : =2 yi − β̂0 − β̂1 xi (−xi ) = 0
∂ β̂1 i=1
i
X
= yi − β̂0 − β̂1 xi (xi ) = 0
i=1
i
X
= yi − y − β̂1 x − β̂1 xi (xi ) = 0
| {z }
i=1
β̂0
i
X
= yi − y + β̂1 x − β̂1 xi (xi ) = 0
i=1
i
X
= [yi − y] − β̂1 [xi − x] (xi ) = 0
i=1
i
X
= xi [yi − y] − β̂1 xi [xi − x] = 0
i=1
i
X i
X
= xi [yi − y] − β̂1 · xi [xi − x] = 0
i=1 i=1
Vamos fazer uma transformação algébrica, mas primeiro é presico estar ciente
do seguinte truque:
n
X n
X n
X
(xi − x) = 0 =⇒ a · (xi − x) = a · (xi − x) = 0
i i i
Ou seja
i
X i
X i
X
xi [yi − y] = xi [yi − y] − x · [yi − y]
i=1 i=1 i=1
| {z }
=0
i
X i
X
= xi [yi − y] − x · [yi − y]
i=1 i=1
i
X
= (xi [yi − y] − x · [yi − y])
i=1
i
X
= (xi − x) (yi − y)
i=1
15
Pi
Analogamente com i=1 xi [xi − x], chegamos que
i
X i
X
xi [yi − y] = (xi − x) (yi − y) (3)
i=1 i=1
i
X i
X 2
xi [xi − x] = (xi − x) (4)
i=1 i=1
Máxima verssomilhança
Agora, para a ultima estimação considere:
• ui são independentes com distribuição N 0, σ 2
σ 2π
De yi = β0 + β1 xi + ui temos que E [yi |xi ] = β0 + β1 xi . Assim como
Var [yi |xi ] = σ 2 Temos que
ui ∼ N 0, σ 2
y i | x i ∼ N β0 + β1 x i , σ 2
16
Podemos chamar essa função da seguinte maneira
n 2
1
yi −β0 −β1 xi
Y −1
L β0 , β1 , σ 2 = √ e 2 σ
i=1
σ 2π
1 − 2σ12
Pn
i=1 (yi −β0 −β1 xi )
2
= e
σ n2π n/2
2
1 − 2σ12
Pn
(yi −β0 −β1 xi )2
ln L β0 , β1 , σ = ln e i=1
σ n 2π n/2
n
n n 1 X 2
= − ln(2π) − ln σ 2 − 2 (yi − β0 − β1 xi )
2 2 2σ i=1
max 2 ln L β0 , β1 , σ 2
β0 ,β1 ,σ
C.P.O:
n
h i ∂ ln L 1 X
β̂0 : =− 2 (yi − β0 − β1 xi ) (−1) = 0
∂ β̂0 2σ 2 i=1
n
X n
X
= yi − nβ0 − β1 xi = 0
i=1 i=1
Dividindo por n:
y − β0 − β1 x = 0
e portanto,
β̂0 = y − β̂1 x
Em suma,
Pn
(y − y)(xi − x)
Pn i
β̂1 = i=1 2
i=1 (xi − x)
17
Entretanto, diferente dos outros dois métodos que vimos acima, o método de
máxima verossimilhança demanda uma hipótese amais. Tal hipótese diz re-
speito a distribuição do erro e portanto, temos que estimá-lo também dado essa
restrinção:
n
h i ∂ ln L n 1 1 X
β̂1 : = − · + (yi − β0 − β1 xi )2 = 0
∂σ 2 2 σ2 2σ 4 i=1
n
X 2
= −nσ 2 + (yi − β0 − β1 xi ) = 0
i=1
n
X 2
σ2 = (yi − β0 − β1 xi ) /n
i=1
Propriedades do MQO
• PMQO1: A soma e, portanto, a média amostral do resı́duo OLS é zero
n
X
ûi = 0
i=1
y = β̂0 + β̂1 x
Ademais,
Pn 2
• Soma total dos quadrados(SST) ≡ (yi − y) i=1
Pn 2
• Soma explicada dos quadrados(SSE) ≡ i=1 (yˆi − y)
Pn
• Soma residual dos quadrados(SSR) ≡ i=1 ûi 2
18
Coeficiente de determinação
Um parâmetro interessante é a importância relativa do tratamento na explicação
do resultado na amostra quando comparado aos resı́duos, que refletem os efeitos
de quaisquer outras caracterı́sticas no resultado. Esse é o chamado adequação
do ajuste, que pode ser julgado pela proporção da variação da amostra no
resultado y, que é explicada pela variação da amostra em x, uma estatı́stica
conhecida como R quadrado (R2 ).
Para obter R2 , vamos reorganizar a equação ûi = yi −(β̂0 −β̂1 xi ) resolvendo-a
para obter o resultado
yi = ŷi − ûi
O que demonstra que o resultado yi para alguma observação i na amostra pode
ser decomposto nos componentes de prediçãoe resı́duo. Pode ser mostrado que
a variância de yi corresponde simplesmente à soma das variâncias desses dois
componentes (porque a covariância entre ui e xi - e portanto ŷi - é zero). For-
malmente,
Portanto,
Var(yi ) = Var (ŷi ) + Var (ûi )
que dividindo por Var(Yi ) na equação acima, temos que
Var(ŷi ) Var(ûi )
1= +
Var(yi ) Var(yi )
| {z }
R2
e portanto,
Var(ûi ) SSR SSE
R2 = 1 − =1− =
Var(yi ) SST SST
Hipóteses de Gauss-Markov
Para identificação do parâmetro populacional é preciso que o modelo satisfaça as
seguintes hipóteses, considerando (apenas) o modelo de regressão linear simples:
• Hipótese 1: O modelo é linear nos parâmetros
y = β0 + β1 x 1 + u
19
• Hipótese 2: A amostra é aleatória
{(xi , yi ) : i = 1, 2, . . . , n} yi = β0 + β1 xi + ui
E [u|x] = 0
Demonstração:
"P #
n
i=1 (xi − x) (yi − y)
h i
E β̂1 | x = E Pn 2 |x
i=1 (xi − x)
"P #
n
i=1 (xi − x) · yi
= E Pn 2 |x
i=1 (xi − x)
"P #
n
i=1 (xi − x) · (β0 + β1 xi + ui )
=E Pn 2 |x
i=1 (xi − x)
"P #
n
i=1 [β 0 · (x i − x) + β 1 x i · (x i − x) + ui · (x i − x)]
=E Pn 2 |x
i=1 (xi − x)
" Pn Pn Pn #
i=1 (xi − x) i=1 xi · (xi − x) i=1 ui · (xi − x)
= E β0 · P n 2 + β1 Pn 2 + Pn 2 |x
i=1 (xi − x) i=1 (xi − x) i=1 (xi − x)
Pn :0 Pn 2
"P
n
#
i=1
(x
i −
x) i=1 (xi − x) i=1 ui · (xi − x)
= β0 · Pn
2 + β1 · Pn 2 +E Pn 2 |x
i=1 (xi − x) i=1 (xi − x) i=1 (xi − x)
Pn
(xi − x) · E [ui | x]
= 0 + β1 · 1 + i=1Pn 2
i=1 (xi − x)
Pn :0
(xi − x) · | x]
E [u
i
= β1 + i=1Pn 2
i=1 (xi − x)
= β1
20
h i
Temos que E β̂1 | x = β1 , então basta abrirmos a fórmula do estimador de β0
para ficar em termos dos parâmetros populacionais
β̂0 = y − β̂1 x
n
X yi
= − β̂1 x
i
n
n
X β0 + β1 x i + u
= − β̂1 x
i
n
n
X β0 xi ui
= + β1 · + − β̂1 x
i
n n n
n n n
X β0 X xi X ui
= + β1 · + − β̂1 x
i
n i
n i
n
n
n · β0 X ui
= + β1 · x + − β̂1 x
n i
n
n
X ui
= β0 + x · β1 − β̂1 +
i
n
21
h i
Se E β̂1 | x = β1 , então tem que ser o caso que E [u | x] = 0, logo:
n
h i X E [ui | x]
E β̂0 | x = β0 + x · (β1 − β1 ) +
i
n
X n :0
| x]
0 E [u
i
= β0 + x · − β1 +
β1 :
i
n
n
X 0
= β0 + x · 0 +
i
n
= β0 + 0 + 0
= β0
Em suma, h i
E β̂0 | x = β0
22
Para descobrir as variâncias faremos a seguinte transformação em β̂1 :
Pn
(y − y)(xi − x)
β̂1 = i=1 Pn i
(xi − x)2
Pn i=1
i=1 yi · (xi − x)
= P n
(xi − x)2
Pn i=1
(β0 + β1 xi + ui )(xi − x)
= i=1 Pn 2
i=1 (xi − x)
Pn
(β0 · (xi − x) + β1 xi · (xi − x) + ui · (xi − x))
= i=1 Pn 2
i=1 (xi − x)
Pn Pn Pn
i=1 β0 · (xi − x) + β1 Pi=1 xi · (xi − x) + i=1 ui · (xi − x)
= n 2
(xi − x)
Pn Pi=1
n Pn
(x i − x) i=1 xi · (xi − x) i=1 ui · (xi − x)
= β0 · Pni=1 2
+ β 1 P n 2
+ P n 2
i=1 (xi − x) i=1 (xi − x) i=1 (xi − x)
Pn 0
: Pn Pn
i=1
(x
i − x) i=1 (xi − x)2 i=1 ui · (xi − x)
= β0 · P
n
2
+ β1 Pn 2
+ P n 2
i=1 (xi − x) i=1 (xi − x) i=1 (xi − x)
hPh n h 2
P n
h− h
i=1 (xi h x)h i=1 ui · (xi − x)
= β0 · 0 + β 1 hPh n h 2 +
P n 2
i=1 (x
h i −
h hx)
h i=1 (xi − x)
Pn
i=1 ui · (xi − x)
= β1 + P n 2
i=1 (xi − x)
Ou seja, Pn
i=1 ui · (xi − x)
β̂1 = β1 + P n 2
(5)
i=1 (xi − x)
23
efeito verdadeiro e não um ruı́do qualquer de uma amostra em particular.
Pn
i=1 ui · (xi − x)
h i
Var β̂1 |x = Var [β1 |x] +Var P n 2
|x
| {z } i=1 (xi − x)
=0
2 Xn
1
= Pn 2
· (xi − x)2 Var [ui |x]
i=1 i − x)
(x i=1
1
= Pn 2
· Var [ui |x]
i=1 i − x)
(x | {z }
σ2
2
σ
= Pn 2
i=1 i − x)
(x
Portanto,
σ2
Var β̂1 |x = Pn 2
i=1 (xi − x)
β̂0 = y − β̂1 · x
= (β0 + β1 · x + u) − β̂1 · x
= β0 + β1 · x + u − β̂1 · x
= β0 + β1 − β̂1 · x + u
Ou seja,
β̂0 = β0 + β1 − β̂1 · x + u (6)
24
h i h i
Var β̂0 |x = Var β0 + β1 − β̂1 · x + u|x
h i
= Var [β0 |x] + Var β1 − β̂1 · x|x + Var [u|x]
Pn
i=1 ui
h i
2
= Var [β0 |x] +Var β1 − β̂1 |x · x + Var |x
| {z } n
=0
n
h i X 1
= Var [β1 |x] +Var β̂1 |x · x2 + · Var [ui |x]
| {z }
i=1
n2
0
n
σ2
X 1
= Pn 2
· x2 + 2
· σ2
i=1 (xi − x) i=1
n
σ2 σ2
2
= Pn 2
· x +
i=1 (xi − x) n
2
1 x
= σ2 + Pn 2
n i=1 i − x)
(x
Pn 2
x2
2 i=1 (xi − x)
=σ P n + n P
n· (xi − x)2 i=1 (xi − x)
2
Pn i=12 2 2
(x − 2xi x + x ) + n · x
= σ 2 · i=1 i Pn
n · i=1 (xi − x)2
Pn 2
Pn Pn 2 2
2 i=1 xi − 2x · Pi=1 xi + i=1 x + n · x
=σ · n
n · i=1 (xi − x)2
Pn
x2 − 2n · x2 + n · x2 + n · x2
= σ 2 · i=1 i Pn
n · i=1 (xi − x)2
n
σ2 x2
P
= Pn i=1 i 2
n · i=1 (xi − x)
Portanto,
Pn n
h i σ 2 i=1 x2i X
2
h i
Var β̂0 |x = Pn = (xi /n) · Var β̂ 1 |x
n · i=1 (xi − x)2 i=1
O problema dessas formulas são que elas pressupõe uma variância do erro con-
hecida, algo que não temos acesso nos dados. Para resolver isso temos que esti-
mar σ 2 , para isso usaremos a distribuição dos resı́duos da amostra utilizando a
seguinte fórmula: Pn 2
2 i=1 ûi
σ̂ =
n−k−1
em que k representa o número de parâmetros.
Para chegar nessa fórmula, basta mostrar que a estimativa de σ̂ 2 por máxima
verossimilhança é viesado:
25
E[σ 2 ] ̸= σ 2
Prova:
" n
#
2 1X
E[σ ] = E (Yi − β̂0 + β̂1 xi )2
n i=1
n
1X h 2 i
= E Yi − 2Yi (β̂0 + β̂1 xi ) + (β̂0 + β̂1 xi )2
n i=1
n n n
1 X 2 2 X h i 1X h i
= E Yi − E Yi (β̂0 + β̂1 xi ) + E (β̂0 + β̂1 xi )2
n i=1 n i=1 n i=1
| {z } | {z } | {z }
(1) (2) (3)
Equação 1:
n n
1 X 2 1 X
E Yi = V ar(Yi ) + (E [Yi ])2
n i=1 n i=1
n
1 X 2
= σ + (β0 + β1 xi )2
n i=1
n
1 X 2
= σ + β02 + 2β0 β1 xi + β12 x2i
n i=1
n
2
X x2 i
=σ + β02 + 2β0 β1 x̄ + β12
i=1
n
Portanto:
n X x2 n
1 X 2 i
E Yi = σ 2 + β02 + 2β0 β1 x̄ + β12 (7)
n i=1 i=1
n
Equação 2:
n n
2X h i 2X h i
− E Yi (β̂0 + β̂1 xi ) = − E (β0 + β1 xi + ϵi )(β̂0 + β̂1 xi )
n i=1 n i=1
n
2X h i
=− E β0 (β̂0 + β̂1 xi ) + β1 xi (β̂0 + β̂1 xi ) + ϵi (β̂0 + β̂1 xi )
n i=1
n
2X h i
=− E β0 β̂0 + β0 β̂1 xi + β̂0 β1 xi + β1 β̂1 x2i + β̂0 ϵi + β̂1 xi ϵi
n i=1
26
Ou seja,
n
2 Xn h i h i h i h i h i h io
− β0 E β̂0 − β0 xi E β̂1 + β1 xi E β̂0 − β1 x2i E β̂1 + E β̂0 ϵi − xi E β̂1 ϵi
n i=1
Isto é
n
2 Xn 2 h i h io
− β0 + β0 β1 xi + β0 β1 xi + β12 x2i + E β̂0 ϵi + xi E β̂1 ϵi
n i=1
Note
σ 2 , se i = j
E [ϵj ϵi ] =
0, c.c.
Ou seja,
n n
2X h i 2 1 X
− xi E β̂1 ϵi = − · n
P 2
(xi − x̄)2 E [ϵi ϵj ]
n i=1 n (x
i=1 i − x̄) i=j
2σ 2
=−
n
Portanto
n
2X h i 2σ 2
− xi E β̂1 ϵi = −
n i=1 n
27
Pn h i
Note que i=1 E β̂1 ϵi = 0. Agora olhemos para o outro termos
n n
2X h i 2X h i
− E β̂0 ϵi = − E (Ȳ − β̂1 x̄)ϵi
n i=1 n i=1
n
2X h i
=− E Ȳ ϵi − x̄β̂1 ϵi
n i=1
n
2X h i
=− E Ȳ ϵi − x̄E β̂1 ϵi
n i=1
n n
2 X X Yj
=− E ϵi
n i=1 j=1
n
n n
2 XX
=− E [Yj ϵi ]
n2 i=1 j=1
n n
2 XX
=− 2 E [(β0 + β1 xj + ϵj )ϵi ]
n i=1 j=1
n n
2 XX
=− E [β0 ϵi + β1 xj ϵi + ϵj ϵi ]
n2 i=1 j=1
n n
2 XX
=− (β0 E [ϵi ] + β1 xj E [ϵi ] + E [ϵj ϵi ])
n2 i=1 j=1
n n
2 XX
=− E [ϵj ϵi ]
n2 i=1 j=1
Sabemos que
n
n X
nσ 2 , se i = j
X
E [ϵj ϵi ] =
0, c.c.
i=1 j=1
Então, temos que
n n n
2X h i 2 XX
− E β̂0 ϵi = − 2 E [ϵj ϵi ]
n i=1 n i=1 j=1
2
=− nσ 2
n2
2
= − σ2
n
Logo
n
2X h i 2
− E β̂0 ϵi = − σ 2
n i=1 n
28
Juntando tudo isso temos que
n n
X x2
2X h i
i 4σ 2
− E Yi (β̂0 + β̂1 xi ) = −2β02 − 4β0 β1 x̄ + −2β12 − (8)
n i=1 i=1
n n
Equação 3:
n n
1X h i 1X h 2 i
E (β̂0 + β̂1 xi )2 = E β̂0 + 2β̂0 β̂1 xi + β̂12 x2i
n i=1 n i=1
n
1 X h 2i h i h i
= E β̂0 + 2xi E β̂0 β̂1 + x2i E β̂12
n i=1
n n n
1 X h 2i 2 X h i 1X h i
= E β̂0 + xi E β̂0 β̂1 + x2i E β̂12
n i=1 n i=1 n i=1
| {z } | {z } | {z }
(i) (ii) (iii)
Item (i)
n n h i2
1 X h 2i 1X
E β̂0 = Var(β̂0 ) + E β̂0
n i=1 n i=1
n Pn 2 2
1X i=1 xi σ 2
= + β0
n i=1 n ni=1 (xi − x̄)2
P
Pn 2 2
i=1 xi σ
= P n + β02
n i=1 (xi − x̄)2
Logo,
n Pn
1 X h 2i x2 σ 2
E β̂0 = Pni=1 i + β02
n i=1 n i=1 (xi − x̄)2
29
Item (ii)
n n
2X h i 2X h i
xi E β̂0 β̂1 = xi E (Ȳ − β̂1 x̄)β̂1
n i=1 n i=1
n
2X h i
= xi E Ȳ β̂1 − β̂12 x̄
n i=1
n
2X h i h i
= xi E Ȳ β̂1 − x̄E β̂12
n i=1
n n h i2
2 X X Yj
= xi E β̂1 − x̄ Var(β̂1 ) + E β̂1
n i=1 j=1
n
n n
σ2
2 X 1 X h i
= xi E Yj β̂1 − x̄ Pn 2
+ β12
n i=1 n j=1 i=1 (x i − x̄)
n n
2 X 1 X h i 2x̄2 σ 2
= xi E (β0 + β1 xj + ϵj )β̂1 − Pn 2
− 2x̄2 β12
n i=1 n j=1 i=1 (xi − x̄)
n n
2 X 1 X h i 2x̄2 σ 2
= xi E β0 β̂1 + β1 xj β̂1 + ϵj β̂1 − Pn 2
− 2x̄2 β12
n i=1 n j=1 i=1 (xi − x̄)
n n
2 X X 2
h i 2x̄2 σ 2
= x i β 0 β 1 + β 1 xj + E ϵj β̂ 1 − Pn − 2x̄2 β12
n2 i=1 j=1 i=1 (xi − x̄)
2
2x̄2 σ 2
= 2x̄β0 β1 + 2β12 x̄2 − Pn 2
− 2x̄2 β12
i=1 (x i − x̄)
Logo,
n
2X h i 2x̄2 σ 2
xi E β̂0 β̂1 = 2x̄β0 β1 + 2β12 x̄2 − Pn 2
− 2x̄2 β12
n i=1 (x
i=1 i − x̄)
Item (iii)
n n h i2
1 X 2 h 2i 1X 2
x E β̂1 = x Var(β̂1 ) + E β̂1
n i=1 i n i=1 i
n
σ2
1X 2 2
= xi Pn 2
+ β 1
n i=1 i=1 (xi − x̄)
Pn n
x2 σ 2 X x2i
= Pni=1 i=1 2 + β12
n i=1 (xi − x̄) i=1
n
30
Ou seja,
n Pn n
1 X 2 h 2i x2 σ 2 X x2i
xi E β̂1 = Pni=1 i + β 2
1
n i=1 n i=1 (xi − x̄)2 i=1
n
Juntando i-ii-iii:
n Pn
x2i σ 2
1X h i
E (β̂0 + β̂1 xi )2 = Pn i=1 2
+ β0 +
n i=1 n i=1 (xi − x̄)2
Pn n
!
2 2 2 2 2
2x̄ σ x i σ X x i
2x̄β0 β1 + 2β12 x̄2 − Pn 2
− 2x̄2 β12 + Pni=1 + β12
i=1 (xi − x̄) n i=1 (xi − x̄)2 i=1
n
Ou seja,
n Pn
1X h i 2 x2 σ 2 2nx̄2 σ 2
E (β̂0 + β̂1 xi )2 = Pn i=1 i 2
− Pn
n i=1 n i=1 (xi − x̄) n i=1 (xi − x̄)2
n
X x2 i
+ β02 + 2x̄β0 β1 + β12
i=1
n
Mas note
Pn Pn
2 i=1 x2i σ 2 2nx̄2 σ 2 x2i − nx̄2
2 i=1
Pn − Pn = 2σ Pn
n i=1 (xi − x̄)2 n i=1 (xi − x̄)2 n i=1 (xi − x̄)2
Pn
2σ 2 (xi − x̄)2
= Pi=1
n 2
n i=1 (xi − x̄)
2σ 2
=
n
Portanto,
n i 2σ 2 X x2 n
1X h i
E (β̂0 + β̂1 xi )2 = + +β02 + 2x̄β0 β1 + β12 (9)
n i=1 n i=1
n
Juntando tudo
Unindo as equações (1), (2) e (3) temos que
n
X x2 i
E[σ 2 ] = σ 2 + β02 + 2β0 β1 x̄ + β12
i=1
n
n
X x2 i 4σ 2
− 2β02 − 4β0 β1 x̄ + −2β12 −
i=1
n n
n
2σ 2 X x2
i
+ + β02 + 2x̄β0 β1 + β12
n i=1
n
31
Portanto,
2σ 2
E σ̂ 2 = σ 2 −
n
n−2
= σ2
n
̸= σ 2
Portanto
" n
#
n 2 1 X
E σ̂ =E · (Yi − β̂0 − β̂1 xi ) = σ 2
2
n−2 n − 2 i=1
Logo,
Pn
h i σ̂ 2 û
d β̂1 |x = Pn
Var 2
= Pn i
i=1
i=1 (xi − x) (n − k − 1) · i=1 (xi − x)2
Como estamos lidando com uma variância estimada (com base numa estimação
da distribuição da variância do erro), então quando cálculamos o desvio padrão
da variância do beta chapéu estimado, justamente chamamos de erro padrão
e não desvio padrão dado que a variância do erro foi estimada. Caso a variância
do erro σ 2 fosse conhecida, aı́ chamariamos de desvio padrão, por isso se(X) ̸=
dP(X).
32
Analogamente,
r
se β̂0 = Var
d β̂1
v
u n
uX
= t (x2i /n) · Var
d β̂1
i=1
v
u n
uX
̸= t (x2 /n) · Var β̂1
i
i=1
r
= Var β̂0
= dp β̂0
Teorema de Gauss-Markov
Método de Mı́nimos Quadrados - Modelo Linear
Seja µ(·) uma função definida por µ(x) = β0 + β1 x, ∀x ∈ D ∈ R.
Para cada x ∈ D, seja FYx uma f.d.a. com média igual a µ(x), ou seja, β0 + β1 x
e variância σ 2 .
Seja x1 , . . . , xn um conjunto de n observações D. Para cada xi , seja Yi uma a.a.
de tamanho unitário da f.d.a. FYx ; i = 1, 2, . . . , n. Então,
E[Yi ] = β0 + β1 xi e Var(Yi ) = σ 2 , i = 1, 2, . . . , n
33
são BLUE para β0 e β1 , respectivamente.
Prova
(para β1 )
Pn
Seja, β̂1 = j=1 bj Yj . Vamos determinar os constantes bj tais que
(i) E[β̂1 ] = β1
(ii) Var(β̂1 ) é mı́nimo dentre os estimadores satisfazendo (i)
β1 = E[β̂1 ]
Xn
= bj (β0 + β1 xj )
j=1
n
X n
X
= β0 · bj + β 1 · bj xj
j=1 j=1
34
Além disso, observe que
h i
Var β̂1 = E (β̂1 − β1 )2
2
Xn
= E bj Yj − β1
j=1
2
n
X
= E bj (β0 + β1 xj + εj ) − β0
j=1
0 1 2
X n 7 n X n
X
= E β b + β b x + b ε − β
0
j=1 j 1 j j j j 1
j=1 j=1
2
n
X
= E β1 + bj εj − β1
j=1
2
Xn
= E bj εj
j=1
Xn X
= E b2j ε2j + bi εi · bj εj
j=1 i̸=j
n
X X
= b2j E ε2j + bi · bj E [εi · εj ]
j=1
| {z } i̸=j | {z }
σ2 0
Portanto,
n
X
Var β̂1 = σ 2 b2j
j=1
35
Assim, as Condições de Primeira Ordem são
∂L
= 2b1 − λ1 − λ2 x1 = 0
∂b1
.. ..
. .
∂L
= 2bj − λ1 − λ2 xj = 0
∂bj
.. ..
. .
∂L
= 2bn − λ1 − λ2 xn = 0
∂bn
n
∂L X
=− bj + 1 = 0
∂λ1 j=1
n
∂L X
=− bj xj = 0
∂λ1 j=1
Portanto,
λ1 = −λ2 x (10)
Multiplicando a j-ésima equação das n primeiros CPOs por xj , temos
2bj xj − λ1 xj − λ2 x2j = 0
n
X
2bj xj − λ1 xj − λ2 x2j = 0
j=1
n
X n
X n
X
2 bj xj −λ1 xj − λ 2 x2j = 0
j=1 j j
| {z }
1
n
X n
X
2 − λ1 xj − λ 2 x2j = 0
j j
36
Portanto
Pn 2 n
2 j xj 1 X
λ1 = Pn − λ 2 Pn = 2 − λ2 x2j (11)
j xj j xj n·x j
Portanto
2
λ2 = Pn 2
(12)
j (x j − x)
Com isso substituiremos (9), (10) na j-ésima equação das n primeiras CPOs:
2bj − λ1 − λ2 xj = 0
! !
2x 2xj
2bj + Pn 2
− Pn 2
· xj = 0
j (xj − x) j (xj − x)
xj x
− Pn 2
+ Pn 2
= −bj
j (x j − x) j (x j − x)
Logo
xj − x
bj = Pn 2
(14)
j (xj − x)
37
Em suma,
Pn
j (xj − x)(Yj − Y )
β̂1 = Pn 2
j (xj − x)
(para β0 )
Pn
Seja, β̂0 = j=1 aj Yj . Vamos determinar os constantes aj tais que
(i) E[β̂0 ] = β0
(ii) Var(β̂0 ) é mı́nimo dentre os estimadores satisfazendo (i)
β0 = E[β̂0 ]
Xn
= aj (β0 + β1 xj )
j=1
n
X n
X
= β0 · aj + β1 · aj xj
j=1 j=1
38
Além disso, observe que
h i
Var β̂0 = E (β̂0 − β0 )2
2
Xn
= E aj Yj − β0
j=1
2
n
X
= E aj (β0 + β1 xj + εj ) − β0
j=1
1 0 2
X n 7 n X n
X
= E β a + β a x + aj εj − β0
0 j 1 j j
j=1 j=1 j=1
2
Xn
= E β0 + aj εj − β0
j=1
2
Xn
= E aj εj
j=1
Xn X
= E a2j ε2j + ai εi · aj εj
j=1 i̸=j
n
X X
= a2j E ε2j + ai · aj E [εi · εj ]
j=1
| {z } i̸=j | {z }
σ2 0
Portanto,
n
X
Var β̂0 = σ 2 a2j
j=1
39
Assim, as Condições de Primeira Ordem são
∂L
= 2a1 − λ1 − λ2 x1 = 0
∂a1
.. ..
. .
∂L
= 2aj − λ1 − λ2 xj = 0
∂aj
.. ..
. .
∂L
= 2an − λ1 − λ2 xn = 0
∂an
n
∂L X
=− aj + 1 = 0
∂λ1 j=1
n
∂L X
=− aj xj = 0
∂λ1 j=1
Portanto
2
− λ2 x
λ1 = (15)
n
Multiplicando a j-ésima equação das n primeiros CPOs por xj , temos
2aj xj − λ1 xj − λ2 x2j = 0
n
X
2aj xj − λ1 xj − λ2 x2j = 0
j=1
n
X n
X n
X
2 aj xj −λ1 xj − λ2 x2j = 0
j=1 j j
| {z }
0
n
X n
X
−λ1 xj − λ2 x2j = 0
j j
40
Portanto Pn
j x2j
λ1 = −λ2 Pn (16)
j xj
Substituindo (13) por (12) temos
Pn 2
2 j xj
− λ2 x = −λ2 Pn
n j xj
Pn 2 !
2 j xj
= λ2 x −
n n·x
Pn !
2 n · x2 − j x2j
= λ2
n n·x
Pn 2 2
!
j xj − n · x
2 = −λ2
x
Pn 2 Pn 2 !
j xj − j x
= −λ2
x
Pn 2
!
j (xj − x)
= −λ2
x
Logo
−2x
λ2 = Pn 2
(17)
j (xj − x)
Logo Pn
2 j x2j /n
λ1 = Pn 2
(18)
j (xj − x)
Com isso substituiremos (14), (15) na j-ésima equação das n primeiras CPOs:
2aj − λ1 − λ2 xj = 0
Pn 2
! !
2 j xj /n −2x
2aj − Pn − Pn · xj = 0
j (xj − x)2 j (xj − x)
2
Pn
j x2j /n xxj
− Pn + Pn = −aj
j (xj − x)2 j (xj − x)
2
41
Logo Pn 2
j xj /n − xj · x
aj = P n 2
(19)
j (xj − x)
Em suma,
β̂0 = Y − β̂1 · x
Em suma, os estimadores me mı́nimos quadrados de β0 e β1 dados pelas
fórmulas de β̂0 e β̂1 são BLUE para β0 e β1 respectivamente. C.Q.D
Teste de Hipóteses
Sob as 6 hipóteses do Modelo Linear Clássico (CLM) pode ser demonstrado que
os estimadores de Mı́nimos Quadrados Ordinários (OLS) são os estimadores
não viesados de variância mı́nima, o que significa que os OLS têm a menor
variância entre os estimadores não viesados; não precisamos mais restringir nossa
comparação a estimadores que são lineares em relação aos yi .
Uma forma sucinta de resumir as suposições populacionais do CLM é
y|x ∼ N β0 + β1 x1 + β2 x2 + ... + βk xk , σ 2
42
Figure 1: A distribuição normal homocedástica com uma única variável explica-
tiva
Para uma compreensão completa dos testes de hipóteses, deve-se lembrar que
os βj são caracterı́sticas desconhecidas da população e nunca os conheceremos
com certeza. No entanto, podemos formular hipóteses sobre o valor de βj e
depois usar inferência estatı́stica para testar a nossa hipótese. Para fazer o teste
de hipóteses vamos precisar estimar a variância dos beta chapéis, que por sua
vez demandam estimação da distribuição amostral dos erros. Os estimadores
de OLS seguirãm uma distribuição amostral t para valores padronizados de β̂
usando o erro padrão:
β̂ − β
∼ tn−k−1
se β̂
yi = β̂0 + β̂1 xi , R2
(se(β̂0 )) (se(β̂1 ))
43
Figure 2: Teste de hipótese padrão bicaudal para nı́vel de significância de α
H0 : βj = 0 contra H1 : βj ̸= 0
Uma vez definido nossa hipótese nula (H0 ) e hipótese alternativa (H1 ),
seguimos o seguinte procedimento para nosso teste de hipótese bicaudal :
1. Construa a estatı́stica-t,
β̂j − βj
t βj =
se β̂j
44
P - valor
Um outro jeito de testar hipóteses é via o p-valor, uma vez que podemo dizer
que o p-valor é o menor nı́vel de signficância sob o qual a hipótese nula seria
rejeitada à luz da amostra observada. Como é um assunto delicado vamos definir
precisamente:
O p-valor é a probabilidade de obter uma estatı́stica de teste tão
ou mais extrema que a observada nos dados, assumindo que a
hipótese nula é verdadeira.
Formalmente, para o caso bicaudal temos que
!
β̂j
p-valor = Pr |T | ≥ βj = 0
se(β̂j )
Aqui chegamos a regra de decisão:
se o p-valor < α, então rejeita-se H0 ao nı́vel de (100 · α)%
É importante destacar a diferença entre o valor estimado especı́fico (β̂j )
e a estatı́stica de teste (T ). Enquanto β̂j é uma estimativa pontual obtida
dos dados observados (um número fixo para aquela amostra), a estatı́stica T
é uma variável aleatória que descreve o comportamento do estimador sob H0 .
O p-valor, portanto, não se refere diretamente ao valor observado de β̂j , mas à
probabilidade associada à estatı́stica T — ou seja, à chance de obter resultados
tão ou mais extremos que o tobs calculado, se H0 for verdadeira. Essa dis-
tinção é fundamental: o p-valor é uma propriedade da distribuição amostral de
T (que existe antes mesmo de coletarmos os dados), não apenas da estimativa
especı́fica que obtivemos.
Importante: P-valores podem indicar o quão incompatı́veis os dados são
com um modelo estatı́stico especificado. P-valor não medem a probabilidade de
que a hipótese estudada seja verdadeira, nem a probabilidade de que os dados
tenham sido gerados apenas por acaso. Um p-valor, ou significância estatı́stica,
não mede o tamanho de um efeito nem a importância de um resultado. Sozinho,
o p-valor não fornece uma boa medida de evidência a favor de um modelo ou
hipótese.
Consistência
Vimos até agora o que é chamado de amostra finita, amostra pequena ou pro-
priedades exatas dos estimadores OLS no modelo populacional:
y = β0 + β1 x1 + β2 x2 + . . . βk xk + u
As propriedades derivadas como o Não-viés ou ”BLUE” se mantem para
amostras de qualquer tamanho. Ou seja, veremos agora as Propriedades
assintóticas ou Propriedade de amostras grandes de estimadores e testes
estatı́sticos. Essas propriedades não são definidas por o tamanho de uma amostra
especı́fica, ao invés, são definidas como o tamanho da amostra que cresce sem
limite.
45
Definição
Um estimador βˆj é dito consistente para um parâmetro populacional βj se:
P (|β̂jn − βj | < ε) → 1, ∀ε > 0 E n → ∞
Notação alternativa (”convergência em probabilidade”):
plim β̂jn = βj
Prova:
yi = β0 + β1 xi1 + ui [Hip.1 − 2]
Pn
(xi1 − x1 )yi
β̂1 = Pi=1
n
(xi1 − x1 )2
Pni=1
(xi1 − x1 )(β0 + β1 xi1 + ui )
= i=1 Pn 2
i=1 (xi1 − x1 )
Pn Pn Pn
β0 i=1 (xi1 − x1 ) + β1 i=1 (xi1 − x1 )xi1 + i=1 (xi1 − x1 )ui
= Pn 2
i=1 (xi1 − x1 )
Pn :0
Pn Pn
i=1 (xi1
− x 1 ) i=1 (xi1 − x1 )xi1 (xi1 − x1 )ui
= β0 · P · Pi=1
n 2
+ β 1 P n 2
+ n 2
(x
i=1 i1 − x 1 ) (x
i=1 i1 − x 1 ) i=1 (xi1 − x1 )
h n hh n
)2
Ph P
i=1 (xi1h −hx1h i=1 (xi1 − x1 )ui
= β1 · h n hh
h
2
+ P n 2
i=1 (xi1 − x1 )
Ph
i=1 (xi1h −hx1hh)
Pn
(xi1 − x1 )ui
= β1 + Pi=1n 2
i=1 (xi1 − x1 )
Pn
i=1 (xi1 −x1 )ui
n
= β1 + Pn 2
i=1 (xi1 −x1 )
n
Como u = 0 então
Pn Pn
i=1 (xi1 − x1 )ui − x1 )(ui − u)
i=1 (xi1
=
n n
i.e, covariância entre x e u amostral. Assim como,
Pn 2
i=1 (xi1 − x1 )
n
é a variância amostral de x1
Pela Lei dos Grandes Números:
Pn
i=1 (xi1 − x1 )(ui − u) P
−
→ Cov[x1 , u]
n
Quando n tende ao infinito a covariância amostral tende a covariância popula-
cional. Pn 2
i=1 (xi1 − x1 ) P
−→ Var[x1 ]
n
Como
46
• Hip.4: E[u|x] = 0 =⇒ Cov[u, x] = 0
Pn
• Hip.3 Var[x1 ] = i=1 (xi1 − x1 )2 /n ̸= 0
Então: Pn
i=1 (xi1 −x1 )ui
n P 0
β̂1 = β1 + Pn 2 −
→ β1 +
i=1 (xi1 −x1 ) V ar[x1 ]
n
P
plim β̂1 = β1 ou β̂1 −→ β1 ou P(|βˆjn − βj | < ε) → 1, ∀ε > 0 e n → ∞
Ou seja, derivando a consistência dos betas:
!
Cov(x
d i1 , ui )
plim β̂1 = plim (β1 ) + plim
Var(x
d i1 )
Cov(x
d i1 , ui )
= β1 +
Var(x
d i1 )
= β1
∴ plim β̂1 = β1
n n
!
1X 1X
plim β̂0 = plim yi + β̂1 · xi1
n i=1 n i=1
n
! n
!
1X 1X
= plim yi + plim β̂1 · xi1
n i=1 n i=1
= E[y] − β1 · E[x1 ]
= β0
∴ plim β̂0 = β0
Observações:
• Foi necessário assumir: Var[x1 ] < ∞ e Var[u] < ∞
• Não foi necessário assumir Hip.4, e sim sua versão mais fraca Hip.4’:
47
Normalidade assintótica
Inferência em amostras grandes: Os estimadores de OLS são normais em
amostras grandes mesmo a Hipótese 6.
Sob Hip.1-5:
βˆj − βj a
∼ N ormal(0, 1)
se(βˆj )
Demonstração:
Pn
i=1 ui · (xi1 − x1 )
β̂1 − β1 = P n 2
i=1 (xi1 − x1 )
1
P n
i=1 ui · (xi1 − x1 )
= n1 P n 2
n i=1 (xi1 − x1 )
√
n
√n 1
P
nn i=1 ui · (xi1 − x1 )
= 1
P n 2
n i=1 (xi1 − x1 )
n
√1
P
√ n i=1 ui · (xi1 − x1 )
n(β̂ − β) = 1
P n 2
n i=1 (xi1 − x1 )
48
Pelo teorema central do limite, esta expressão converge na distribuição para
uma distribuição normal:
n
1 X d
→ N 0, Var(E u2 · (x1 − E[x1 ])2
√ ui · (xi1 − x1 ) −
n i=1
49
Para mostrar a normalidade assintótica de β̂0 , poderı́amos seguir uma estratégia
análoga à de β̂1 . No entanto, consideraremos uma abordagem um pouco menos
tediosa, que se baseia no fato de que β0 = E[y|x1 = 0]. Note
β0 = E[yi ] − β1 E[x1 ]
0
= E[yi |xi1 = 0] − β1 E[
x
1]
*
= E[yi |xi1 = 0]
σ̂ 2
Vd
ar[β̂j ] =
SSTj (1 − Rj2 )
50
Como interpretar uma regressão?
Modelo nı́vel-nı́vel
Suponha a seguinte modelo estimado, em que a variável independente educ
denota anos de educação da observação e wage seu salário mensal.
Agora, vamos testar para os três nı́veis de significância canônicos (10%, 5%,
e 1%):
180, 674
tβ̂educ = ≈ 134, 932 > 3, 291 = c0.001
1, 339
Rejeita-se a hipótese nula a nı́vel de 0.1%, ou seja, o coeficiente é estatı́sticamente
significativo aos nı́veis padrões.
Modelo nı́vel-log
Suponha a seguinte modelo estimado, em que a variável independente age de-
nota a idade da observação e wage seu salário mensal.
51
Vamos testar a significância do estimador de interesse (age). Novamente,
como df > 120 podemos utilizar os valores crı́ticos padrões e os respsectivos
nı́veis de significância estatı́stica.
890, 037
tβ̂educ = ≈ 49.269 > 3, 291 = c0.001
18, 065
Modelo log-nı́vel
Suponha a seguinte modelo estimado, em que a variável independente educ
denota anos de educação da observação e wage − h seu salário por hora.
Modelo log-log
Suponha a seguinte modelo estimado, em que a variável independente age de-
nota a idade da observação e wage − h seu salário por hora.
52
Vamos testar a significância do estimador de interesse (age). Novamente,
como df > 120 podemos utilizar os valores crı́ticos padrões e os respsectivos
nı́veis de significância estatı́stica.
0, 358
tβ̂age = ≈ 51.143 > 3, 291 = c0.001
0, 007
Nota matemática
A interpretação unitária de variação da variável independente em relação à
variação da variável dependente pode ser facilmente quando derivamos a variável
dependente em termos da variável independente:
∂ ŷi
ŷi = β̂0 + β̂1 xi =⇒ = β̂1
∂xi
Podemos discretizar essa derivada de modo que
∂ ŷi ∆ŷi
≈
∂xi ∆xi
Ademais, a interpretação logarı́tima é fruto de uma manipulação algébrica em
termos da derivada de um logaritimo2 :
∂ log(x) 1
= =⇒ ∂ log(x) = ∂x/x
∂x x
2 O que faremos não é estritamente correto do ponto de vista formal matemático, mas serve
53
Sabemos também que a elasticidade da variável y em relação a variável x pode
ser representada da seguinte maneira:
∂y x
εx,y = ·
∂x y
∂y/y
=
∂x/x
∂ log(y)
=
∂ log(x)
Ou seja,
∂y x ∂ log(y)
εx,y = · =
∂x y ∂ log(x)
Sendo esse o motivo pelo qual o modelo log-log possui a interpretação como
elasticidade!
54
Regressão Linear Multivariada
O modelo econométrico multivariado, genericamente, pode ser escrito da seguinte
maneira:
y = β0 + β1 · x1 + · · · + βk · xk + u
Onde
• y é a variável dependente
• x é a variável independente
• β0 é o parâmetro intercepto.
• βj é o parâmetro de inclinação (coeficiente angular) da variável j,
∀j ∈ {1, 2, . . . , k}
• u é o termo de erro
Estimação matricial
Vamos considerar modelo de regressão linear múltipla com amostra aleatória:
i = ı́ndice para uma observação
n = ı́ndice para número de observações
β′ = [β0 , β1 , β2 , . . . , βk ]′
(k+1)×1
55
Portanto
n×1
z }| {
yn×1 = Xn×(k+1) β(k+1)×1 +un×1
Tendo definido os termos, voltemos a nossa formula de regressão e rearranjando-
a de forma conviniente aos nossos propósitos:
u = y − Xβ
Para estimar essa regressão via OLS temos que somar o quadrado dos resı́duos.
Ou seja
u1
X u2
u2i = u1 u2 . . . un . = u′ u
..
un
Substituindo a nossa equação rearranjada nessa nova, temos:
X
u2i = u′ u = (y − Xβ)′ (y − Xβ)
(A′ )′ = A (20)
(A + B)′ = A′ + B ′ (21)
(AB)′ = B ′ A′ (22)
Portanto aplicando essas propriedades, temos que:
X
u2i = u′ u = y′ y − y′ Xβ − β ′ X′ y + β ′ X′ Xβ
y′ Xβ = (y)′ (β ′ X′ )′ = B ′ A′ = AB = β ′ X′ y
u′ u = y′ y − 2β ′ X′ y + β ′ X′ Xβ
Portanto para achar os mı́nimo quadrados temos que derivar a soma dos
resı́duos ao quadrado por β:
∂u′ u ∂(y − Xβ)′ (y − Xβ) ∂(y′ y − 2β ′ X′ y + β ′ X′ Xβ)
= =
∂β ∂β ∂β
Antes de resolver precisamos de alguns conceitos de cálculo matricial:
∂a′ b ∂b′ a
= =a
∂b ∂b
56
quando a e b são vetores K × 1.
Ou seja,
b1
a′ b = a1
a2 = a1 b1 + a2 b2
b2
a1
b′ a = b1
b2 = a1 b1 + a2 b2
a2
Portanto,
∂a′ b ∂
= (a1 b1 + a2 b2 ) = a1
∂b1 ∂b1
∂a′ b ∂
= (a1 b1 + a2 b2 ) = a2
∂b2 ∂b2
Em suma,
∂a′ b
" #
∂a′ b
a
= ∂b1
∂a′ b = 1 =a
∂b ∂b2
a2
∂b′ Ab
= 2Ab = 2b′ A
∂b
quando A é qualquer matriz simétrica. Note que você pode escrever a derivada
como 2Ab ou 2b′ A
57
Vamos para um exemplo ilustrativo, tome:
β a b
β= 0 e A=
β1 b d
∂β ′ Aβ ∂
aβ02 + 2bβ0 β1 + dβ12 = 2aβ0 + 2bβ1
=
∂β0 ∂β0
∂β ′ Aβ ∂
aβ02 + 2bβ0 β1 + dβ12 = 2bβ0 + 2dβ1
=
∂β1 ∂β1
Ou seja,
∂β ′ Aβ
2aβ0 + 2bβ1
=
∂β 2bβ0 + 2dβ1
a b β0
=2
b d β1
= 2Aβ
58
Assim
∂u’u
= −2X′ y + 2X′ Xβ̂ = 0
∂β
2X′ Xβ̂ = 2X′ y
X′ Xβ̂ = X′ y
(X′ X)−1 X′ X β̂ = (X′ X)−1 X′ y
| {z }
In
In · β̂ = (X′ X)−1 X′ y
Em suma,
β̂ = (X′ X)−1 X′ y
Sendo que
n
X n
X
2
SSR(b) = (yi − b0 − b1 x1i − b2 x2i − · · · − bk xki ) = u2i
i=1 n=1
Ou seja,
Pn
(yi − b0 − b1 x1i − b2 x2i − · · · − bk xki ) = 0
Pn i=1
i=1 x1i (yi − b0 − b1 x1i − b2 x2i − · · · − bk xki ) = 0
.. ..
. .
Pn
i=1 xki (yi − b0 − b1 x1i − b2 x2i − · · · − bk xki ) = 0
59
Lembremos que
ui = (yi − b0 − b1 x1i − b2 x2i − · · · − bk xki )
Portanto, podemos rescrever o nosso sistema de equação da seguinte maneira
Pn
i=1 ui = 0
P n
x · u = 0
1i i
i=1
.
.. ..
.
Pn
i=1 xki · ui = 0
Abrindo nosso sistema temos
1 · u1 + 1 · u2 + 1 · u3 + · · · + 1 · un = 0
x11 · u1 + x12 · u2 + x13 · u3 + · · · + x1n · un
= 0
.. ..
. .
xk1 · u1 + xk2 · u2 + xk3 · u3 + · · · + xkn · un = 0
Ou seja,
X′ u = 0
In β̂ = (X′ X)−1 X′ y
β̂ = (X′ X)−1 X′ y
β̂ = (X′ X)−1 X′ y
60
Não Viés do estimador OLS
Tomando a expressão dos beta chapeus estimados
β̂ = (X’X)−1 X’y
β̂ = (X’X)−1 X’(Xβ + u)
Var[u|X] = σ 2 In
Consequentemente
Var[β̂ | x] = σ 2 (X′ X)−1
61
Para ilustrar utilidade da forma matricial, olhemos de volta para a regressão
linear simples, mas agora matricialmente:
Y = Xβ + u
Ou seja
Y1 1 X1 u1
Y2 1 X2 u
β0 2
.. = .. .. β + ..
. . . 1 .
Yn 1 Xn un
Vamos utilizar as matrizes para chegar na matriz de variância-covariância:
1 X1
1 . . . 1 1 X2
1
X′ X = .. ..
X1 X2 . . . Xn . .
1 Xn
Pn
n Pni=1 X2i
= Pn
i=1 Xi i=1 Xi
i=1
n
X
=n (Xi − X̄)2
i=1
62
Matrix Hat
Com base na matriz de β, os valores preditos da nossa regrssão linear é repre-
sentado pelo seguinte vetor
Ŷ = X(X′ X)−1 X′ Y = HY
u = Y − HY = (In − H)Y
Ŷ ∼ Nn (HE[Y], HVar(Y)H′ )
63
Calculando a média:
E[Ŷ] = HE[Y]
= HXβ
= Xβ
Ŷ ∼ Nn (Xβ, σ 2 H)
• Distribuição de Ŷ:
Ŷ ∼ Nn (Xβ, σ 2 H)
Os elementos de Ŷ são correlacionados (pois H não é diagonal) e têm
variância σ 2 hii , onde hii é o i-ésimo elemento da diagonal de H.
Interpretação: O vetor Y representa os valores observados da variável re-
sposta em seu estado bruto, seguindo uma distribuição normal multivariada com
média Xβ e matriz de covariância σ 2 In . Isso significa que cada observação Yi
tem variância constante σ 2 e é independente das demais observações, refletindo
a estrutura de erros aleatórios não correlacionados do modelo teórico.
Por outro lado, o vetor Ŷ corresponde aos valores preditos pelo modelo
de regressão, obtidos através da projeção ortogonal de Y no espaço gerado
pelas colunas da matriz de delineamento X. Essa projeção introduz duas carac-
terı́sticas importantes: primeiro, os valores preditos tornam-se correlacionados
entre si, pois são combinações lineares dos mesmos dados originais; segundo, as
variâncias dos preditos não são mais constantes - cada Ŷi tem variância σ 2 hii ,
onde hii é o elemento diagonal correspondente da matriz hat H.
Essa diferença nas estruturas de covariância reflete a natureza distinta entre
dados observados e ajustados. Enquanto Y mantém a variabilidade original
dos dados, Ŷ apresenta uma variabilidade modificada pelo processo de ajuste
do modelo, com pontos que podem ter maior ou menor influência no resultado
final, conforme indicado por seus valores de alavancagem hii . Essa distinção é
64
fundamental para compreender como o modelo transforma os dados brutos em
predições e como diferentes observações contribuem para essa transformação.
O elemento hii da diagonal da matriz H é conhecido como alavancagem
(leverage) da i-ésima observação. Ele mede a influência da observação Yi no seu
próprio valor ajustado Ŷi .
Propriedades:
1. 0 ≤ hii ≤ 1.
Pn
2. i=1 hii = p, onde p é o número de parâmetros do modelo (no presente
caso, p = 2: β0 e β1 ).
3. Se hii é grande (próximo de 1), a observação i tem grande influência no
ajuste do modelo (é um ponto de alavancagem).
4. A variância de Ŷi é σ 2 hii , então observações com alta alavancagem têm
valores ajustados mais sensı́veis a pequenas variações nos dados.
Essas propriedades decorrem do fato qye a matriz H é uma matriz de
projeção ortogonal no espaço coluna de X. O elemento hii representa:
em que x′i = [1xi ] é a i-ésima linha de X. Isso mostra que hii é uma forma
quadrática positiva, que a soma é p porque projeta em um espaço p-dimensional
e que valores próximos de 1 indicam que xi está na fronteira do espaço de
projeção
Exemplo prático são: se hii ≈ 1, Ŷi ≈ Yi (o modelo se ajusta quase perfeita-
mente a esse ponto). Se valores altos de hii podem indicar outliers na variável
explicativa xi .
Por tanto, hii mede a alavancagem da i-ésima observação, indicando sua
influência no valor ajustado Ŷi . Valores altos sugerem observações influentes ou
outliers em xi .
65
• Soma Total dos Quadrados:
n
′ 1 X
SQT = Y In − Jn Y = (Yi − Ȳ )2
n i=1
66
A partir das suposições do modelo clássico, (*) implica que CX deve ser
igual a In . A partir da expressão hpara ia variância de β̂OLS que derivamos no
−1
item anterior , podemos obter Var β̃|X substituindo (X’X) X’ por C:
h i
Var β̃|X = σ 2 CC ′ ()
−1
Agora, seja x1 = C − (X’X) X’, de modo que DY = β̃ − β̂OLS . A expressão
() torna-se
h i ′
2 −1 −1
Var β̃|X = σ x1 + (X’X) X’ x1 + (X’X) X’
−1
Mas, CX = DX + (X’X) X’X = In . Portanto, DX deve ser igual a zero.
Portanto:
h i h i h i
−1
Var β̃|X = σ 2 (X’X) + σ 2 DD’ = Var β̂OLS |X + σ 2 DD’ ≥ Var β̂OLS |X
Teste F
Como calcular a estatı́stica-F:
1. Obter a soma dos quadrados dos resı́duos do modelo irrestrito SSRur
2. Obter a soma dos quadrados dos resı́duos do modelo restrito SSRr
3. Obter a estatı́stica-F:
(SSRr − SSRur )/q
F =
SSRur /(n − k − 1)
onde n − k − 1 são os graus de liberdade da regressão do modelo irrestrito e
q é o número de restrições em H0
Distribuição da estatı́stica-F
67
Derivando os vieses
Omissão de variável relevante
X Y
Modelo Verdadeiro:
Y = α + βX + ηZ + ϵ
Modelo Estimado:
Y = α + βX + ε
Cov[X,Y]
β̂ =
Var[X]
E[X· Y] − E[X]E[Y] E[X· Y] E[X]E[Y]
= = −
Var[X] Var[X] Var[X]
E[X · (α + βX + ηZ + ϵ)] E[X]E[α + βX + ηZ + ϵ]
= −
Var[X] Var[X]
E[X] E[X2 ] E[XZ] E[X] E[X]2 E[X] · E[Z]
=α +β +η −α −β −η
Var[X] Var[X] Var[X] Var[X] Var[X] Var[X]
Var[X] Cov[X,Z]
z }| { z }| {
E[X2 ] − E[X]2 E[XZ] − E[X] · E[Z]
=β +η
Var[X] Var[X]
Cov[X,Z]
=β+η
Var[X]
Simultaneidade
Y 1 = α 1 Y 2 + β1 X 1 + ε 1
Y2 = α2 Y1 + β2 X2 + ε2
E portanto,
Y2 = α2 (α1 Y2 + β1 X1 + ε1 ) + β2 X2 + ε2
= α1 α2 Y2 + α2 β1 X1 + α2 ε1 + β2 X2 + ε2
(1 − α1 α2 )Y2 = α2 β1 X1 + β2 X2 + α2 ε1 + ε2
68
Assumindo que α1 α2 ̸= 1, temos que
Cov[x1 , u − β1 e1 ]
plimβˆ1 = β1 +
Var[x1 ]
β1 σx2∗1
= β1 +
σx2∗ + σe21
1
!
σ2
= β1 1 − 2 e1 2
σx∗ + σe1
1
!
σx2∗1 + σe21 − σe21
= β1
σx2∗ + σe21
1
σx2∗1
= β1 ·
σx2∗ + σe21
1
Ou seja,
σx2∗1
plimβˆ1 = β1
σx2∗ + σe21
1
69
Modelos de Escolha Discreta
Remembremos o Linear Probability Model (LPM): Quando a variável de-
pendente (y) toma valor 0 ou 1. Como y pode assumir apenas dois valores, βj
não pode ser interpretado como a mudança em y dado um aumento de uma
unidade em xj , mantendo todos os outros fatores fixos: y ou muda de zero para
um ou de um a zero (ou não muda).
No entanto, βj ainda tem interpretações úteis. Se assumirmos que a su-
posição de média condicional zero é válida, ou seja, E[u|x1 , . . . , xk ] = 0, então
temos, como sempre,
y = β0 + β1 x 1 + · · · + βk x k + u
E[y|x] = β0 + β1 x1 + · · · + βk xk
Assim como,
Ou seja, o LPM:
P(y = 1|x) = β0 + β1 x1 + · · · + βk xk
Vantagens do LPM:
• Fácil estimativa e interpretação
• Os efeitos estimados e as previsões são geralmente razoavelmente bons na
prática
• Geralmente funciona bem para valores das variáveis independentes que
estão próximos das médias da amostra.
Desvantagens do LPM:
• As probabilidades previstas podem ser maiores que um ou menores que
zero
• O modelo de probabilidade linear é necessariamente heterocedástico dev-
ido à natureza binária de y
70
• Erros padrão consistentes com heteroscedasticidade precisam ser calcula-
dos
Podemos ultrapassar os problemas do LMP usando modelos de escolha discreta,
como Probit e Logit. Portanto, precisamos considere uma classe de modelos de
resposta binária em que a probabilidade de resposta é uma função não linear
de variáveis explicativas
Sendo que G(Xβ) é uma função de distribuição cumulativa 0 < G(z) < 1. A
probabilidade de resposta é, portanto, uma função das variáveis explicativas x
exp z
Logit: G(z) = Λ(z) = (função logı́stica)
1 + exp z
Formulação de variaveis latentes do Probit e Logit
Podemos derivar os modelos Probit e Logit assumindo no pano de fundo um
modelo de variáveis latentes. Tomemos y ∗ uma variável não observada (latente)
tal que:
y ∗ = Xβ + ε E y = 1|y ∗ > 0
Assuma que ε é independente de X e que ε tem uma distribuição logı́stica ou uma
distribuição normal padrão. Em ambos os casos, e é distribuı́do simetricamente
em torno de zero, o que significa G(−z) = 1 − G(z)
Podemos derivar a probabilidade de resposta para y:
P(y = 1|x) = P(y ∗ > 0|x) = P(ε > −Xβ) = 1G(−Xβ) = G(Xβ)
y = Xβ + u
Ou seja,
∂y
= β̂i
∂xi
Ou seja, o coeficiente β̂i é quanto varia a variável dependente quando há um
aumento de uma unidade da variável independente i, controlando por demais
fatores.
71
Ou seja,
∂P(y = 1|x) ∂G(Xβ)
= = G′ (Xβ)βi = g(Xβ)βi
∂xi ∂xi
Isto é
∂P(y = 1|x)
= g(Xβ)βj onde ∂G(z)/∂z ≡ g(z)
∂xj
Portanto diferente no caso de OLS, não sabemos estimar a magnitude da varição
da variável dependente em termos da varição da variável independente. Con-
tudo, consiguimos estimar o sinal do efeito.
Além de que no caso que queiremos saber o efeito relativo entre dois coenfi-
cientes, aı́ neste caso conseguimos estimar a magnitude. Ou seja,
Lembrar :
Efeitos Marginais na média:
∂P(y = 1|x) ∂G(z)
= g(Xβ)βi onde g(z) ≡ >0
∂xi ∂z
Onde X representa o valor atribuı́do ao indivı́duo representativo, que neste caso
é indivı́duo médio.
Efeito Marginal Médio (APE):
n
X ∂G(z)
AP
[ E j = n−1 · g(Xβ)β̂j onde g(z) ≡ >0
i=1
∂z
72
Regressão Linear no R
Primeiro, dado nosso modelo iremos construimos nossas matrizes. Vamos mon-
tar um modelo com 3 variáveis explicativas
c o n s t <− rep ( 1 , n )
X1 <− c ( . . . )
X2 <− c ( . . . )
X3 <− c ( . . . )
Y <− c ( . . . )
Dado a fórmula dos betas matricial β̂ = (X’X)−1 X’y, basta aplicar o seguinte
código:
beta <− solve ( t (X)%∗%X)%∗%t (X)%∗%Y
Agora, vamos calcular o erro-padrão assumindos erros independentes identica-
mente distribuidos (i.i.d.):
u <− Y−X%∗%beta
sigma2 <− as . numeric ( ( t ( u )%∗%u ) / ( n−k ) )
73
Dado o tamanho da amostra e portanto os graus de liberdade, se esses forem
> 120 para um teste de hipótese bicaudal com nı́vel de significância de 5%
(padrão na literatura), então o valor crı́tico c que adotamos é de 1.960, i.e.,
> c, rejeitamos a hipótese nula
|Teste t|
≤ c, falhamos em rejeitar a hipótese nula
for ( i in 1 : 4 ) {
i f ( abs ( t c a l c [ i ] ) > 1 . 9 6 0 ) {
print ( ” r e j e i t a H0” )
} else {
print ( ” f a l h a em r e j e i t a r H0” )
}
}
Com relação ao p-valor: A função pt retorna o valor da função densidade cu-
mulativa (cdf) da distribuição t de Student dada uma certa variável aleatória x
e graus de liberdade df.
p v a l o r <− 2 ∗ ( 1 − pt ( q = abs ( t c a l c ) , df = n−k ) )
for ( i in 1 : 4 ) {
i f (p valor [ i ] < 0.05){
print ( ” r e j e i t a H0” )
} else {
print ( ” f a l h a em r e j e i t a r H0” )
}
}
Vale a nota que se falha em rejeitar e nunca aceitamos a hipótese nula à
um dado nı́vel de significância. A razão disso é que estamos assumindo que
a hipótese nula é verdadeira e tentando ver se há evidências contra ela. Con-
sequentemente como diz o aforismo popularizado por Carl Sagan: ”ausência
de evidência não é evidência de ausência”. Portanto, a conclusão deve ser em
termos de rejeição do nulo.
74