Econometria
prof. Danielle Carusi Machado
Aula 4
14 de abril
1o. Semestre de 2025
Matrizes de projeção
Propriedade de simetria
Propriedade de indepotência
Teorema Firsch-Waugh-Lovell (FWL)
Econometria
Transformações lineares
- Aplicação: coeficiente beta padronizado
Transformações lineares dos dados
Como uma transformação linear pode afetar os
resultados derivados do MQO?
Com base em X, b = (X′X)-1X’y.
Os coeficientes de y regredidos em Z (=XP) são:
c = (P′X’ XP)-1 P′X’ y = P-1(X′X)-1X’ y
c = P -1 b
“Valor predito” é Zc = XPP-1b = Xb. O mesmo!!
Resíduos: y - Zc = y - Xb . Os mesmos!!
Soma quadrado dos resíduos – idêntica
y-Xb = e = y-Zc.
R2 será igual pois R2 = 1 - e′e/y’M0y (!!).
Transformação Linear
Xb é a projeção de y no espaço coluna de X. Zc é a projeção de
y no espaço coluna de Z. Mas, como as colunas de Z são
simplesmente combinações lineares das de X, o espaço coluna de
Z deve ser idêntico ao de X. Consequentemente, a projeção de y
em Z será igual a em X.
Quais implicações práticas deste resultado?
Transformação não afeta o ajuste do modelo.
Transformação afeta as “estimativas.” Se b é uma estimativa
de β, c não pode ser a estimativa de β - será a estimativa de
P-1β.
Exemplo
Preço dos quadros de Monet num leilão
dependem da largura (W) e da altura (H):
= + + +
= + + +
Exemplo
Imagine que o que importa é a superfície e a
razão entre largura e altura, ou seja:
= + + ln( ) +
= + + +
Exemplo
= = + = +
= ln = − = −
1 0 0
z=xP ; onde 0 1 1 =
0 1 −1
P
Unidades de medida
Exemplo 2.3 Salários de diretores executivos e
retornos de ações (Wooldridge, página 31)
salaryi = β 0 + β [Link] + ui
Salário anual em milhares de dólares
Retorno médio (3 anos) da ação sobre o patrimônio
líquido da empresa que ele trabalha (%)
E se usássemos o sálário em dólares?? Sem dividir
por 1000…? O que mudaria?
11
Unidades de medida salário em dólares
(*1000)
Modelo 1: Estimativas OLS usando as 209 observações 1-209
Variável dependente: sdolar
Variável Coeficiente Erro Padrão estatística-t p-valor
const 963191 213240 4,5169 0,00001 ***
roe 18501,2 11123,3 1,6633 0,09777 *
Média da variável dependente = 1,28112e+006
Desvio padrão da variável dependente = 1,37235e+006
Soma dos resíduos quadrados = 3,86567e+014
Erro padrão dos resíduos = 1,36655e+006
R2 não-ajustado = 0,0131886
R2 ajustado = 0,00842142
Graus de liberdade = 207
Verosimilhança-Logarítmica = -3248,26
Critério de informação de Akaike = 6500,53
Critério Bayesiano de Schwarz = 6507,21
Critério de Hannan-Quinn = 6503,23
12
Unidades de medida
Unidade de medida de y
Se a variável dependente y é multiplicada por uma
constante c, as estimativas de intercepto e
inclinação também são multiplicadas por c.
Unidade de medida da variável independente x
Se a variável independente é dividida ou multiplicada
por alguma constante c , o coeficiente estimado da
inclinação é multiplicado ou dividido por c,
respectivamente.
13
Unidades de medida (roenova=roe*100)
Modelo 2: Estimativas OLS usando as 209 observações 1-209
Variável dependente: salary
Variável Coeficiente Erro Padrão estatística-t p-valor
const 963,191 213,24 4,5169 0,00001 ***
roenova 0,185012 0,111233 1,6633 0,09777 *
Média da variável dependente = 1281,12
Desvio padrão da variável dependente = 1372,35
Soma dos resíduos quadrados = 3,86567e+008
Erro padrão dos resíduos = 1366,55
R2 não-ajustado = 0,0131886
R2 ajustado = 0,00842142
Graus de liberdade = 207
Verosimilhança-Logarítmica = -1804,54
Critério de informação de Akaike = 3613,09
Critério Bayesiano de Schwarz = 3619,77
Critério de Hannan-Quinn = 3615,79
14
Exemplo
pesônas = βˆ 0 + βˆ[Link] + βˆ 2 .rendfam
VD é
pesônas βˆ βˆ βˆ
= 0 + 1 .cigs + 2 .rendfam dividida por
16 16 16 16 16
cigs ˆ
pesônas = β 0 + 20.β1.
ˆ ˆ + β 2 .rendfam
20
Uma VI é
dividida por
cigs 20
maços =
20
pesônas = βˆ 0 + 20.βˆ[Link]ços + βˆ 2 .rendfam 15
Exemplo
Variável (1) pesonasc (2) pesonasclb (3) pesonasc
dependente
Variáveis
independentes
Cigs -0,4634 -0,0289 -
(0,0916) (0,0057)
Maços - - -9,268
(1,832)
Rendfam 0,0927 0,0058 0,0927
(0,0292) (0,0018) (0,0292)
Intercepto 116,974 7,3109 116,974
(1,049) (0,0656) (1,049)
Obs. 1388 1388 1388
R-quadrado 0,0298 0,0298 0,0298
SQR 557485,51 2177,6778 557485,51
EPR 20,063 1,2539 20,063
Coeficientes beta ou
padronizados
A idéia é substituir y e cada x por suas versões
padronizadas, ou seja, subtraída da média e
dividida pelo desvio-padrão (comparamos com
a população)
Eles mostram quantos desvios-padrão y varia
para cada variação de um desvio-padrão em x.
17
Coeficientes beta ou padronizados
Como padronizo uma variável?
Uma variável é padronizada em uma amostra
pela subtração da sua média e dividindo o
resultado por seu desvio padrão.
A transformação z de cada variável da amostra é
computada.
X−X
z=
DP( X )
18
Coeficientes beta ou padronizados
yi = βˆ0 + βˆ1.xi1 + βˆ2 .xi 2 + ... + βˆk .xik + uˆi
yi − y σˆ1 ˆ ( xi1 − x1 ) σˆ 2 ˆ ( xi 2 − x2 )
= β1. + β 2 . + ...
σˆ y σˆ y σˆ1 σˆ y σˆ 2
σˆ k ˆ ( xik − xk ) uˆi
............... +
σˆ y β k . σˆ +
σˆ y
k
z y = bˆ1.z1 + bˆ2 .z 2 + ... + bˆk .z k + erro
σˆ j ˆ
b j = ˆ y β j , é o coeficiente padronizado
ˆ
σ
19
Coeficientes beta ou padronizados
Qual o significado de um coeficiente beta?
Se xi aumentar em um desvio padrão, o y
estimado, então será alterado em b1 desvios-
padrão.
Os efeitos não são medidos em termos das
unidades originais de y e x, mas em unidades de
desvios-padrão.
Algumas considerações
Parâmetros, estimativas e estimadores
Estimadores – uma estatística, função de
valores da amostra para estimar um parâmetro
de interesse.
Estimativas – cálculo para uma amostra
particular.
Algumas considerações
Propriedades de um estimador:
Estimador é uma variável aleatória;
Estimador tem uma distribuição amostral.
Propriedades de “Amostras Finitas”
Propriedades “assintóticas” ou de “grandes
amostras”.
Algumas considerações
Resultados de Amostras finitas:
Não viés
Distribuição precisa de algumas estatísticas de
testes.
Hipóteses fortes necessárias: regressores não
estocásticos e distúrbios normalmente distribuídos.
Algumas considerações
Resultado médio do estimador: exato e
quando aumenta o tamanho da amostra.
Temos que ter uma medida da
confiabilidade ou da precisão dos
estimadores.
A precisão de uma estimativa é dada pelo erro
padrão (raiz quadrada da variância estimada).
MQO
b = ( X'X )−1 X'y
vetor = ( X'X ) −1 X'(Xβ + ε) = β + ( X'X ) −1 X'ε
Also
i=1 x i yi
−1 −1 n
b = ( X'X ) X'y= ( X'X ) Ver fig1
−1 n
= β + ( X'X ) i=1
x i εi
=β + i=1 ( X'X )−1 x iεi
n
Vi
= β + i=1 v iεi (Influence functions)
n
Derivando as Propriedades
Desta forma, b = um vetor de parâmetros + uma
combinação linear de distúrbios, cada um vezes
um vetor.
b é um vetor de variáveis aleatórias.
A análise é feita condicional a X, ou seja, os
resultados não dependem de um X particular.
O resultado é geral, independente de X.
Propriedades do estimador de MQO
b não é viesado!
Valor esperado de b:
E[b|X] = E[β + (X′X)-1X′ε|X]
= β + (X′X)-1X′E[ε|X]
=β+0
E[b] = EX{E[b|X]}
= E[b].
(Lei das expectativas iteradas!!!)
Propriedades do Estimador MQO
Um resultado importante sobre especificação
Omissão de variáveis:
y = X1β1 + X2β2 + ε (modelo verdadeiro)
Dois conjuntos de variáveis. O que acontece se o
segundo conjunto de variáveis é excluído da
minha regressão?
Propriedades do Estimador MQO
Qual a esperança do estimador desta regressão
menor? (reg de Y em X1 )
b1 = (X1′X1)-1X1′y =
= (X1′X1)-1X1′(X1β1 + X2β2 + ε)
E[b1|(y = X1β1 + X2β2 + ε)]
E[b1] = β1 + (X1′X1)-1X1′X2β2
O estimador é viesado.
Propriedades do Estimador MQO
Um resultado importante sobre especificação (inclusão de
uma variável irrelevante):
y = X1β1 + X2β2 + ε (modelo verdadeiro, mas β2 é
igual a 0).
O que acontece se a regressão for computada usando X1 e
X2? O estimador neste caso é b1.2
E[b1.2| β2 = 0] = β1
O estimador não será viesado. Contudo, perde-se
eficiência.
Erros de especificação
Omitindo variáveis relevantes: Suponha que o modelo
correto é
y = X1β1 + X2β2 + ε.
Computar MQO omitindo X2. Temos que: Var[b1] é
menor que a Var[b1.2].
Temos uma menor variância quando omitimos X2.
(Omitindo X2 , β2 = 0 posso usar mais informação
extra para estimação). Mesmo que a informação não
seja correta, reduz a variância.
Erro de especificação
(Não há almoço grátis!!) E[b1] = β1 + (X1′X1)-1X1′X2β2 ≠
β1. Desta forma, b1 é viesado.(!!!)
O viés pode reverter até o sinal do coeficiente.
b1 deve ser mais preciso
A variância é menor contudo o viés existirá.
Se o viés é pequeno, a tendência é ficarmos com a
regressão mais simples.
Suponha X1′X2 = 0. Viés vai embora
A informação é irrelevante.
b1 é igual a b1.2.
Outro exemplo prático
Determinar os efeitos que fumar durante a gravidez
exerce sobre a saúde do recém-nascido. A medida de
saúde do recém nascido é o peso de nascimento
(bwght). Como outros fatores que afetam o peso de
nascimento, além de fumar, estão provavelmente
correlacionados com o fumo, devemos levar em
consideração tais fatores. Por exemplo, uma renda
maior geralmente permite acesso a pré-natais
melhores, bem como uma melhor nutrição da mulher.
Considere o modelo:
bwght = β 0 + β[Link] + β 2 . fa min c + u
Outro exemplo prático
Modelo 1: Estimativas OLS usando as 1388 observações 1-1388
Variável dependente: bwght
Variável Coeficiente Erro Padrão estatística-t p-valor
const 116,974 1,04898 111,5118 <0,00001 ***
cigs -0,463408 0,0915768 -5,0603 <0,00001 ***
faminc 0,0927647 0,0291879 3,1782 0,00151 ***
Média da variável dependente = 118,7
Desvio padrão da variável dependente = 20,354
Soma dos resíduos quadrados = 557486
Erro padrão dos resíduos = 20,0628
R2 não-ajustado = 0,0298048
R2 ajustado = 0,0284038
Estatística-F (2, 1385) = 21,2739 (p-valor < 0,0000
36
Outro exemplo prático
Modelo 2: Estimativas OLS usando as 1388 observações 1-1388
Variável dependente: bwght
Variável Coeficiente Erro Padrão estatística-t p-valor
const 119,772 0,572341 209,2668 <0,00001 ***
cigs -0,513772 0,0904909 -5,6776 <0,00001 ***
Média da variável dependente = 118,7
Desvio padrão da variável dependente = 20,354
Soma dos resíduos quadrados = 561551
Erro padrão dos resíduos = 20,1286
R2 não-ajustado = 0,0227291
R2 ajustado = 0,022024
Graus de liberdade = 1386
37
Equações estimadas
bwghtest = 116,97 − 0,[Link] + 0,093. fa min c
n = 1388 R 2 = 0,030
bwghtest = 119,77 − 0,[Link]
n = 1388 R 2 = 0,023
38
Resultados
O efeito de fumar é relativamente menor quando a
renda familiar é adicionada na regressão, mas a
diferença não é grande.
Isto decorre do fato de faminc e cigs não serem muito
correlacionados e do coeficente de faminc ser
praticamente pequeno. (A variável faminc está em
milhares, logo, R$10,000 a mais aumenta o peso de
nascimento somente em 0,93 quilos).
Corr(faminc, cigs)=-0,173
39
Viés de variável omitida
A variável omitida é faminc
Espera-se que o efeito de faminc sobre o peso
de nascimento seja positivo (β2>0)
Corr(faminc, cigs)=-0,173
O coeficiente passou de -0,463 para -0,513.
cov( x1, x2 )
E (b1 ) = β1 + .β 2
var( x1 )
40
Direção do viés
Corr(x1, x2) > 0 Corr(x1, x2) < 0
β2 > 0 Viés positivo Viés negativo
β2 < 0 Viés negativo Viés positivo
41
Outro exemplo prático
Suponha que o modelo verdadeiro seja dado por
lwage = β 0 + β1educ + β 2 IQ + u , mas que
~ ~
estimamos lwage = β 0 + β1educ + v
~
Onde da regressão de IQ em educ, achamos δ1 :
~ ~
IQ = δ 0 + δ1educ
42
Outro exemplo prático
Modelo 1: Estimativas OLS usando as 935 observações 1-935
Variável dependente: IQ
Variável Coeficiente Erro Padrão estatística-t p-valor
const 53,6872 2,62293 20,4684 <0,00001 ***
educ 3,53383 0,19221 18,3853 <0,00001 ***
Média da variável dependente = 101,282
Desvio padrão da variável dependente = 15,0526
Soma dos resíduos quadrados = 155347
Erro padrão dos resíduos = 12,9036
~
R2 não-ajustado = 0,265943
R2 ajustado = 0,265157 δ1
Graus de liberdade = 933
43
Outro exemplo prático
Modelo 3: Estimativas OLS usando as 935 observações 1-935
Variável dependente: lwage
Variável Coeficiente Erro Padrão estatística-t p-valor
const 5,97306 0,0813737 73,4029 <0,00001 ***
educ 0,0598392 0,00596309 10,0349 <0,00001 ***
Média da variável dependente = 6,779
Desvio padrão da variável dependente = 0,421144
Soma dos resíduos quadrados = 149,519
Erro padrão dos resíduos = 0,40032
R2 não-ajustado = 0,0974168 ~
R2 ajustado = 0,0964494
Graus de liberdade = 933
β1
44
Outro exemplo prático
Modelo 4: Estimativas OLS usando as 935 observações 1-935
Variável dependente: lwage
Variável Coeficiente Erro Padrão estatística-t p-valor
const 5,65829 0,0962408 58,7930 <0,00001 ***
educ 0,0391199 0,00683821 5,7208 <0,00001 ***
IQ 0,00586313 0,00099791 5,8754 <0,00001 ***
Média da variável dependente = 6,779
Desvio padrão da variável dependente = 0,421144
Soma dos resíduos quadrados = 144,178
Erro padrão dos resíduos = 0,393316
R2 não-ajustado = 0,129654
R2 ajustado = 0,127786
Estatística-F (2, 932) = 69,4191 (p-valor < 0,00001)
45
Direção do viés
Corr(x1, x2) > 0 Corr(x1, x2) < 0
β2 > 0 Viés positivo Viés negativo
β2 < 0 Viés negativo Viés positivo
46
Precisão ou erros-padrão das
EMQO
Temos que ter uma medida da confiabilidade ou da
precisão dos estimadores.
A precisão de uma estimativa é dada pelo erro
padrão (raiz quadrada da variância estimada).
47
Variância do Estimador MQO
Hipóteses sobres os distúrbios:
εi tem média zero e não é correlacionado com
qualquer outro elemento εj
Var[εi|X] = σ2. A variância de εi não depende
do dado da amostra. Não depende de X.
ε1 σ 2 0 ... 0
ε2 0 σ2 ... 0
Var |X = = σ2I
... 0 0 O 0
2
ε n 0 0 ... σ
Variância do Estimador MQO
ε1 σ2 0 ...0
ε 0 σ2 ... 0
Var 2 | X = = σ2I
... 0 0 O 0
2
ε n 0 0 ... σ
ε1 ε1 ε1
ε ε ε
Var 2 = E Var 2 | X + Var E 2 | X
... ... ...
ε n ε n ε n
0
0
= E {σ 2I} + Var = σ 2I.
...
0
Variância do Estimador MQO
b = ( X'X ) −1 X'y − = ′"
= ( X'X ) −1 X'(Xβ + ε) = β + ( X'X )−1 X'ε
E[b|X]=β + ( X'X) −1 X'E[ε | X] = β as E[ε | X] = 0
Var[b | X ] = E[(b − β)(b − β) ' | X]
= ( X'X )−1 X'E[εε ' | X] X ( X'X ) −1
= ( X'X ) −1 X'σ2I X ( X'X) −1
= σ2 ( X'X ) −1 X'I X ( X'X ) −1
= σ2 ( X'X ) −1 X'X ( X'X ) −1
= σ2 ( X'X ) −1
Variância do Estimador MQO
Fizemos a análise da variância condicionando nos dados
observados X: #$% & ' = ( (' ')
Podemos achar o resultado incondicional, para qualquer X,
tirando a média em torno de X, ou seja, fazendo a
decomposição da variância:
#$%(&) = )* [#$% & ' ] + #$%* [) & ' ]
= )* [( (' ') ]+#$%* [ ]=
=( )* [(' ') ]
A variância não condicional depende do comportamento
médio de X. Ou seja, dependerá de hipóteses que faremos
sobre variâncias e covariâncias dos regressores.
Propriedades estatísticas dos
estimadores
Estimador é eficiente: tem uma dispersão menor
do que outros estimadores comparáveis (não
viesados).
Uma variância maior significa um estimador menos
preciso (existem muitos valores que estão muito
distantes do valor verdadeiro do parâmetro
populacional).
Conceito de eficiência de um
estimador
Exemplo:
Matriz definida positiva: se todas as raízes
características da matriz forem positivas
Propriedades estatísticas dos
estimadores
Qual a medida de dispersão do estimador de MQO?
#$% & ' = ( (' ')
Vem da hipótese de
homocedasticidade – var do
termo de erro é constante
(
#$% &, ' =
-./, (1 − 0, )
O que afeta a variância do
estimador?
São 3 fatores que afetam a variância do
estimador:
1. Variância do termo de erro: ( = #$% '
2. Variância amostral total da variável explicativa
correspondente (SQTj): ∑2 2, − ,̅
3. Das relações lineares entre as variáveis
independentes. (0 , )
Variância do termo de erro
4=' +
Quanto maior a variância do termo de erro (ou
seja, quanto maior for ( , mais ruído se terá na
equação.
Mais difícil é estimar o efeito parcial de qualquer
variável explicativa sobre Y. Maior seria a
variância do estimador (menos preciso).
Variação da variável explicativa de
interesse
Se estamos olhando para #$%(&|'), temos que
ter variabilidade na variável , .
Quanto maior a variabilidade de , ,igual a
-./, = ∑829 ( 2, − 7, ) menor será a #$%(&:|'),
ou seja, mais preciso o estimador.
Para melhorar a variabilidade de , , podemos
aumentar o tamanho da amostra.
Relações lineares entre as
variáveis independentes
0 ,
é obtido de uma regressão da variável xj
sobre todas demais variáveis explicativas.
Ele explica a relação entre as variáveis
explicativas.
Corresponde a proporção da variação total de
xj que pode ser explicada pelas outras variáveis
explicativas.
Um grau alto de relação entre as variáveis
explicativas leva a variância dos estimadores de
inclinação aumentar (menos precisão).
Relações lineares entre as
variáveis independentes
Quando 0 ,
= 1, há uma relação linear exata
entre as variáveis explicativas.
Pela hipótese de inexistência de relação linear
exata, nunca teremos 0 , = 1.
Contudo, 0 ,
pode ser próximo de 1. Neste
caso, ;<= > → ∞. Ou seja, muita
imprecisão.
Temos um problema de multicolinearidade
quase exata.
Teorema de Gauss-Markov
O EMQO é o melhor estimador linear dentro da classe de
estimadores lineares não viesados.
n
1. Estimador linear = β + vε
i=1 i i
2. Não viesado: E[b|X] = β
Teorema: Var[b*|X] – Var[b|X] é uma matriz definida
não negativa para qualquer outro estimador linear não
viesado b* que não seja igual a b.
Definição: b é eficiente na classe de estimadores.
Estimação da Variância do estimador de MQO
Contexto
A variância verdadeira de b é σ2(X′X)-1
Como usamos os dados da amostra para estimar
esta matriz?
Como queremos formar intervalos de confiança
das estimativas da regressão bem como
formular hipóteses, temos que ter estimativas
da variabilidade da distribuição.
Estimando σ2
Usaremos os resíduos ao invés dos distúrbios:
Análogo amostral: e′e/n para ε′ε/n
Observação imperfeita de εi = ei - (β - b)′xi
Viés para baixo de e′e/n. Ver fig2
E[e′e] = (n-K)σ2
Estimando σ2
O estimador não viesado é s2 = e′e/(n-K).
s2 = e′e/(n-K) = ε′Mε/(n-K).
Est [Var (b/X)] = s2 (X′X)-1
“Erro padrão” de coeficiente individual é a raiz
quadrada do elemento da diagonal.
X’X
(X’X)-1
s2(X’X)-1
----------------------------------------------------------------------
Ordinary least squares regression ........
LHS=G Mean = 226.09444
Standard deviation = 50.59182
Number of observs. = 36
Model size Parameters = 7
Degrees of freedom = 29
Residuals Sum of squares = 778.70227
Standard error of e = 5.18187 <= sqr[778.70227/(36 – 7)]
Fit R-squared = .99131
Adjusted R-squared = .98951
--------+-------------------------------------------------------------
Variable| Coefficient Standard Error t-ratio P[|T|>t] Mean of X
--------+-------------------------------------------------------------
Constant| -7.73975 49.95915 -.155 .8780
PG| -15.3008*** 2.42171 -6.318 .0000 2.31661
Y| .02365*** .00779 3.037 .0050 9232.86
TREND| 4.14359** 1.91513 2.164 .0389 17.5000
PNC| 15.4387 15.21899 1.014 .3188 1.67078
PUC| -5.63438 5.02666 -1.121 .2715 2.34364
PPT| -12.4378** 5.20697 -2.389 .0236 2.74486
--------+-------------------------------------------------------------
Erro padrão
Erro padrão da regressão: s (raiz quadrada de
s2).
Raiz quadrada do k-ésimo elemento da diagonal
da matriz s2 (X′X)-1 é o erro padrão do
estimador bk:
{[s2 (X′X)-1]kk}1/2