0% acharam este documento útil (0 voto)
40 visualizações98 páginas

Introdução à Econometria e Dados Econômicos

Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato PDF, TXT ou leia on-line no Scribd

Tópicos abordados

  • Heterocedasticidade,
  • Econometria,
  • Variáveis Dummy,
  • Modelos Estatísticos,
  • Análise de Regressão,
  • Teste de Hipóteses,
  • Inferência Estatística
0% acharam este documento útil (0 voto)
40 visualizações98 páginas

Introdução à Econometria e Dados Econômicos

Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato PDF, TXT ou leia on-line no Scribd

Tópicos abordados

  • Heterocedasticidade,
  • Econometria,
  • Variáveis Dummy,
  • Modelos Estatísticos,
  • Análise de Regressão,
  • Teste de Hipóteses,
  • Inferência Estatística

Resumo

INTRODUÇÃO À ECONOMETRIA
Jeffrey M. Wooldridge 4a Edição

Prof. Cleiton Guollo Taufemback

Departamento de Estatı́stica, IME-UFGRS, e-mail: [Link]@[Link]

1
2 Prof. Cleiton Guollo Taufemback
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 3

1 A Natureza da Econometria e dos Dados Econômicos

1.1 O que é Econometria?

A econometria é baseada no desenvolvimento de métodos estatı́sticos para estimar relações econômicas, testar
teorias, avaliar e implementar polı́ticas de governo e de negócios. A aplicação mais comum da econometria é a
previsão de importantes variáveis macroeconômicas, tais como taxas de juros, taxas de inflação e produto interno
bruto (PIB). Ainda que as previsões de indicadores econômicos sejam bastante visı́veis e, muitas vezes, exten-
samente publicadas, os métodos econométricos podem ser usados em áreas econômicas que não têm nada a ver
com previsões macroeconômicas. Por exemplo, estudaremos os efeitos de gastos em campanhas polı́ticas sobre
os resultados de eleições. No campo da educação, consideraremos o efeito de gastos públicos com escolas sobre
o desempenho de estudantes. Além disso, aprenderemos como usar métodos econométricos para prever séries de
tempo econômicas.

1.2 Passos na Análise Econômica Empı́rica

Em alguns casos, especialmente aqueles que envolvem o teste de teorias econômicas, constrói-se um modelo
econômico formal. Um modelo econômico consiste em equações matemáticas que descrevem várias relações. Os
economistas são conhecidos por suas construções de modelos os quais descrevem um amplo leque de comporta-
mentos.

Treinamento e Produtividade do Trabalhador

Um economista especializado em trabalho gostaria de examinar os efeitos do treinamento sobre a pro-


dutividade do trabalhador. Nesse caso, há pouca necessidade de teoria econômica formal. Um entendimento
econômico básico é suficiente para perceber que fatores tais como educação, experiência e treinamento influ-
enciam a produtividade do trabalhador. Os economistas também estão bem cientes de que os trabalhadores
são pagos de acordo com sua produtividade. Esse raciocı́nio simples leva a um modelo tal que

salarioh = f (educ, exper,treina), (1.1)

em que salarioh é o salário-hora, educ representa os anos de educação formal, exper refere-se aos anos de
experiência no mercado de trabalho e treina corresponde a semanas ocupadas em treinamento. Novamente,
outros fatores geralmente influenciam a taxa de salário, mas (7.2) captura a essência do problema.

Um modelo econométrico completo para o exemplo acima poderia ser

salarioh = β0 + β1 edu + β2 exper + β3treina + u


em que o termo u contém fatores tais como “aptidão inata”, qualidade da educação, formação da famı́lia e uma
mirı́ade de outros fatores que podem influenciar o salário de uma pessoa. Se estivermos especialmente interessados
nos efeitos do treinamento de trabalho, então β3 é o parâmetro de interesse.

1.3 A Estrutura dos Dados Econômicos

Dados de Corte Transversal

Um conjunto de dados de corte transversal consiste em uma amostra de indivı́duos, consumidores, empresas,
cidades, estados, paı́ses ou uma variedade de outras unidades, tomada em um determinado ponto no tempo. Às
vezes, os dados de todas as unidades não correspondem precisamente ao mesmo perı́odo. Por exemplo, muitas
famı́lias podem ser pesquisadas durante diferentes semanas de um ano. Em uma análise pura de dados de corte
transversal, ignorarı́amos, na coleta de dados, quaisquer diferenças de tempo não importantes. Se o conjunto de
4 Prof. Cleiton Guollo Taufemback

famı́lias fosse pesquisado durante diferentes semanas do mesmo ano, ainda verı́amos isso como um conjunto de
dados de corte transversal.
Os dados de corte transversal são amplamente usados em economia e em outras ciências sociais. Em economia, a
análise de dados de corte transversal está intimamente alinhada com campos da microeconomia aplicada, tais como
economia do trabalho, finanças públicas estaduais e locais, organização industrial, economia urbana, demografia e
economia da saúde. Dados sobre indivı́duos, famı́lias, empresas e cidades em um determinado ponto do tempo são
importantes para testar hipóteses microeconômicas e avaliar polı́ticas governamentais.
Exemplo:
obs sálario educ exper feminino casado
1 3, 10 11 2 1 0
2 3, 15 11 2 1 1
3 3, 24 12 22 1 1
4 3, 00 11 2 0 0
5 6, 00 8 44 0 1
6 5, 30 12 7 0 1
.. .. .. .. .. ..
. . . . . .
525 11, 56 16 5 0 1
526 3, 50 14 5 1 0

Nota: A variável obs é o número da observação atribuı́do a cada indivı́duo na amostra.

Dados de Séries de Tempo

Um conjunto de dados de séries de tempo consiste em observações sobre uma variável ou muitas variáveis ao longo
do tempo. Exemplos de dados de séries temporais incluem preços de ações, oferta de moeda, ı́ndice de preços ao
consumidor, produto interno bruto, taxas anuais de homicı́dios e números de vendas de automóveis. Como even-
tos passados podem influenciar eventos futuros, e como, nas ciências sociais, as defasagens do comportamento
são prevalecentes, o tempo é uma dimensão importante em um conjunto de dados de séries de tempo. Diferente-
mente do arranjo dos dados de corte transversal, a ordenação cronológica das observações em uma série de tempo
transmite informações potencialmente importantes.
Outra caracterı́stica dos dados de séries de tempo que pode requerer atenção especial é a frequência dos dados,
na qual eles são coletados. Em economia, as frequências mais comuns são: diária, semanal, mensal, trimestral e
anual.
Exemplo:
nobsa ano minmed cobmed desemp pnb
1 1950 0, 20 20, 1 15, 4 878, 7
2 1951 0, 21 20, 7 16, 0 925, 0
3 1952 0, 23 22, 6 14, 8 1.015, 9
.. .. .. .. .. ..
. . . . . .
37 1986 3, 35 58, 1 18, 9 4.281, 6
38 1987 3, 35 58, 2 16, 8 4.496, 7

Nota: A variável minmed se refere ao salário mı́nimo médio no ano, cobmed é a taxa de cobertura média (o percentual de trabalhadores
cobertos pela lei de salário mı́nimo), desemp é a taxa de desemprego e pnb é o produto nacional bruto. Usaremos esses dados mais
adiante em uma análise de séries de tempo do efeito do salário mı́nimo sobre o emprego.

Dados de Painel ou Longitudinais

Um conjunto de dados de painel (ou dados longitudinais) consiste em uma série de tempo para membro do corte
transversal do conjunto de dados. A caracterı́stica essencial dos dados de painel que os distingue dos dados de corte
transversal agrupado é o fato de que as mesmas unidades do corte transversal (indivı́duos, empresas ou municı́pios
nos exemplos anteriores) são acompanhadas ao longo de um determinado perı́odo.
Exemplo:
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 5

nobsc cidade ano homicds populacao desemp policia


1 1 1986 5 350.000 8, 7 440
2 1 1990 8 359.000 7, 2 471
3 2 1986 2 64.300 5, 4 475
4 2 1990 1 65.100 5, 5 486
. . . . . . .
298 148 1986 10 240.000 9, 8 334
297 149 1990 10 245.000 9, 8 334
299 150 1986 25 543.000 4, 3 520
300 150 1990 32 546.200 5, 2 493

1.4 A Causalidade e a Noção de Ceteris Paribus na Análise Econométrica

Em muitos testes de teoria econômica, e certamente para avaliar polı́ticas públicas, o objetivo do economista é
inferir que uma variável (tal como a educação) tem um efeito causal sobre outra variável (tal como a produtividade
do trabalhador). Encontrar simplesmente uma associação entre duas ou mais variáveis pode ser sugestivo, mas, a
não ser que se possa estabelecer uma causalidade, raramente ela é convincente.
A noção de ceteris paribus - que significa “outros fatores (relevantes) permanecendo iguais” - desempenha um
papel importante na análise causal. Essa ideia esteve implı́cita em algumas de nossas discussões anteriores mas até
agora não a mencionamos explicitamente.
A questão fundamental na maioria dos estudos empı́ricos é: foram mantidos fixos em número suficiente outros
fatores, para que se possa inferir a causalidade? Raramente avalia-se um estudo econométrico sem levantar essa
questão.

Medindo o Retomo da Educação

Os economistas especializados em trabalho e os formuladores de polı́ticas públicas há muito se interessam


pelo “retorno da educação”. De modo um tanto informal, a questão é colocada da seguinte maneira: se uma
pessoa é escolhida de uma população, e recebe um ano a mais de educação, em quanto aumentará seu salário?
Assim como nos exemplos anteriores, essa é uma questão ceteris paribus, que implica que todos os outros
fatores são mantidos fixos enquanto a pessoa recebe um ano a mais de educação. Podemos imaginar um
planejador social esquematizando um experimento para estudar essa questão. Escolha um grupo de pessoas,
dê aleatoriamente a cada pessoa uma quantidade de educação (algumas pessoas recebem alguns anos de
estudo que equivalem ao ensino fundamental, a outras é dado uma educação que equivale ao ensino médio
etc.), e, em seguida, mensure seus salários (assumindo que cada uma delas no momento trabalha). Mas
podemos usar pessoas como experimento?

Embora dados experimentais não possam ser obtidos para medir o retorno da educação, podemos certamente
coletar dados não-experimentais sobre nı́veis de educação e salários para um grupo grande, fazendo amostras
aleatórias da população de trabalhadores. Tais dados estão disponı́veis em uma variedade de pesquisas usadas em
economia do trabalho, mas esses conjuntos de dados têm uma caracterı́stica que torna difı́cil estimar o retorno
ceteris paribus da educação.
As pessoas escolhem seus próprios nı́veis de educação; portanto, os nı́veis de educação não são, provavelmente,
determinados independentemente de todos os outros fatores que afetam os salários. Esse problema é uma carac-
terı́stica compartilhada de muitos conjuntos de dados não-experimentais.

O Efeito do cumprimento da Lei sobre os Nı́veis de Criminalidade das Cidades

Uma indagação especialmente importante sobre esse aspecto é: a presença de mais policiais nas ruas
detém a criminalidade?
A questão ceterı́s parı́bus é fácil de formular. Se uma cidade fosse escolhida aleatoriamente e recebesse,
por exemplo, dez policiais a mais, em quanto suas taxas de criminalidade cairiam? Outra maneira de formular
a questão é: se duas cidades fossem, em todos os aspectos, iguais, exceto que a cidade A tivesse dez policiais
a mais que a cidade B, em quanto difeririam as taxas de criminalidade das duas cidades? Porém, seria
6 Prof. Cleiton Guollo Taufemback

virtualmente impossı́vel encontrar pares de comunidades idênticas em todos os aspectos, exceto no que
respeita ao tamanho de suas forças policiais.
Embora os policiais possam ser usados para produzir um efeito sobre o tamanho das forças policiais,
certamente não podemos dizer a cada cidade quantos policiais ela deve empregar. Se, como é provável, a
decisão de uma cidade sobre quantos policiais empregar estiver correlacionada com outros fatores relativos
às cidades que afetam a criminalidade, os dados deverão ser vistos como não experimentais. De fato, um
modo de ver esse problema é observar que as escolhas de uma cidade relativamente ao tamanho da força
policial e a quantidade de crimes são simultaneamente determinadas.
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 7

Propriedades da Esperança Matemática

Nas seguintes propriedades, {X,Y } são variáveis aleatórias, a, b, c são constantes.

E(a) = a
E(a + X) = a + E(X)
E(bX) = bE(X)
E(a + bX) = a + bE(X)
E(X +Y ) = E(X) + E(Y )
E(a + bX + cY ) = a + bE(X) + cE(Y )

No caso de variâncias,

Var(X) = E X 2 − [E(X)]2 = σx2




Var(cX) = c2 Var(X)
Var(c + X) = Var(X)
Var(X ±Y ) = Var(X) + Var(Y ) ± 2Cov(X,Y )
No caso geral, temos que a esperança do produto,

E[XY ] ̸= E[X]E[Y ]
mas no caso particular de X e Y serem variáveis aleatórias independentes, temos que:

E[XY ] = E[X]E[Y ]
Suponha que o modelo abaixo seja o modelo populacional,

E (y | x1 , x2 , z) = β0 + β1 x1 + β2 x2 + β3 z
porém z é não observável. Temos então que

E (y | x1 , x2 ) = E (β0 + β1 x1 + β2 x2 + β3 z | x1 , x2 )
= β0 + β1 x1 + β2 x2 + β3 E (z | x1 , x2 ) .

Assumindo que
E (z | x1 , x2 ) = δ0 + δ1 x1 + δ2 x2
então
E (y | x1 , x2 ) = β0 + β1 x1 + β2 x2 + β3 (δ0 + δ1 x1 + δ2 x2 )
= (β0 + β3 δ0 ) + (β1 + β3 δ1 ) x1 + (β2 + β3 δ2 ) x2
Assuma agora que há uma interação entre x1 e z, ou seja,

E (y | x1 , x2 , z) = β0 + β1 x1 + β2 x2 + β3 z + β4 x1 z

então temos que

E (y | x1 , x2 ) = β0 + β1 x1 + β2 x2 + β3 E (z | x1 , x2 ) + β4 x1 E (z | x1 , x2 )
8 Prof. Cleiton Guollo Taufemback
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 9

2 O Modelo de Regressão Simples

O modelo de regressão simples pode ser usado para estudar a relação entre duas variáveis. Por razões que veremos
adiante, o modelo de regressão simples tem limitações enquanto ferramenta geral para a análise empı́rica. No
entanto, às vezes ele é apropriado como ferramenta empı́rica. Aprender como interpretar o modelo de regressão
simples é uma boa prática para estudar a regressão múltipla, o que faremos nos capı́tulos subsequentes.

2.1 Definição do Modelo de Regressão Simples

Grande parte da análise econométrica começa com a seguinte premissa: y e x são duas variáveis, representando
alguma população, e estamos interessados em “explicar y em termos de x”, ou em “estudar como y varia com
variações em x”.
Ao escrever um modelo que “explicará y em termos de x”, defrontamo-nos com três questões. Primeira, como
nunca há uma relação exata entre duas variáveis, como consideramos outros fatores que afetam y? Segunda, qual
é a relação funcional entre y e x? E terceira, como podemos estar certos de que estamos capturando uma relação
ceteris paribus entre y e x (se esse for um objetivo desejado)?
Podemos resolver essas ambiguidades escrevendo uma equação que relaciona y a x, por exemplo,

y = β0 + β1 x + u (2.1)

A equação (2.1), que supostamente é válida para a população de interesse, define o modelo de regressão linear
simples. Ela também é chamada modelo de regressão linear de duas variáveis ou modelo de regressão linear
bivariada, pois relaciona as duas variáveis x e y.

y x
Variável Dependente Variável Independente
Variável Explicada Variável Explicativa
Variável de Resposta Variável Explicativa
Variável Prevista Variável Previsora
Regressando Regressor
A variável u, chamada de termo erro ou perturbação da relação, representa outros fatores, além de x, que afetam
y. Uma análise de regressão simples trata, efetivamente, todos os fatores, além de x, que afetam y como não-
observados. Podemos pensar em u, convenientemente, como representando o “não-observado”.
A equação (2.1) também trata da questão da relação funcional entre y e x. Se os outros fatores em u são mantidos
fixos, de modo que a variação em u é zero, ∆ u = 0, então x tem um efeito linear sobre y:

∆ y = β1 ∆ x se ∆ u = 0 (2.2)

Isso significa que β1 é o parâmetro de inclinação da relação entre y e x, mantendo fixos os outros fatores em u;
ele é de interesse fundamental em economia aplicada. O parâmetro de intercepto β0 representa o valor de y quando
x é igual a zero.

Produção de Soja e Fertilizantes

Suponha que a produção de soja seja determinada pelo modelo

producao = β0 + β1 f ertilizante + u (2.3)

de modo que y = produção e x = fertilizantes. O pesquisador agrı́cola está interessado no efeito dos fer-
tilizantes sobre a produção, mantendo outros fatores fixos. Esse efeito é dado por β1 . O termo u contém
fatores como qualidade da terra, chuva etc. O coeficiente β1 mede o efeito dos fertilizantes sobre a produção,
mantendo outros fatores fixos: ∆ produção = ∆ fertilizante.

A linearidade de (2.1) implica que uma variação de uma unidade em x tem o mesmo efeito sobre y, indepen-
dentemente do valor inicial de x. Isso é irrealista para muitas aplicações econômicas.
10 Prof. Cleiton Guollo Taufemback

Antes de expormos a hipótese crucial de como x e u são relacionados, podemos sempre fazer uma hipótese
sobre u. Se o intercepto β0 está incluı́do na equação, nada se perde ao assumir que o valor médio de u na população
é zero. Matematicamente,
E(u) = 0 (2.4)
A hipótese (2.4) não diz nada sobre a relação entre u e x; ela simplesmente faz uma afirmação sobre a
distribuição dos fatores não-observáveis na população.
Agora, vamos voltar à hipótese crucial concernente à u e x como são relacionados. Uma medida natural de
associação entre duas variáveis aleatórias é o coeficiente de correlação. Se u e x são não-correlacionados, logo,
enquanto variáveis aleatórias, não são linearmente relacionados. A hipótese crucial é que o valor médio de u não
depende do valor de x. Podemos escrever isso como

E(u|x) = E(u) = 0 (2.5)

Questão

Suponha que a nota de um exame final (nota) dependa da frequência às aulas (freq) e de fatores não-
observados que afetam o desempenho dos estudantes (tal como a aptidão). Então:

nota = β0 + β1 f req + u

Em que situação você esperaria que esse modelo satisfaça (2.5)?

A hipótese (2.5) dá a β1 outra interpretação que é, frequentemente, útil. Considerando o valor esperado de (2.1)
condicionado a x e usando E(u|x) = 0, obtém-se

E(y|x) = β0 + β1 x (2.6)

A equação (2.6) mostra que a função de regressão populacional (FRP), E(y|x), é uma função linear de x. A linea-
ridade significa que o aumento de uma unidade em x faz com que o valor esperado de y varie segundo a magnitude
de β1 . Para qualquer valor dado de x, a distribuição de y está centrada ao redor de E(y|x), como ilustrado na Figura
1.

Figura 1 E[y|x] como função linear de x.


Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 11

2.2 Derivação das Estimativas de Mı́nimos Quadrados Ordinários

Vamos considerar {(xi , yi ) : i = 1, . . . , n} como uma amostra aleatória de tamanho n da população. Visto que esses
dados vêm de (2.1), podemos escrever
yi = β0 + β1 xi + ui
para cada i. Aqui, u, é o termo erro para a observação i, uma vez que ele contém todos os fatores, além de xi , que
afetam yi . Exemplo: xi poderia ser a renda anual e yi a poupança anual para a famı́lia i durante um determinado
ano, veja Figura 2.

Figura 2 Gráfico da dispersão de poupança e renda de 15 famı́lias e a regressão populacional E[poup|renda] = β0 + β1 renda.

Obtendo βb0 e βb1 :


1. Somando todos os valores de yi = β0 + β1 xi + ui , i = 1, . . . , n e dividindo por n temos

ȳ = βb0 + βb1 x̄

onde
∑ni=1 yi ∑n xi
ȳ =, x̄ = i=1 .
n n
(Obs: quando somamos todos os erros temos que , ∑ni=1 ui = 0, pois E[u] = 0.) Logo, essa equação nos permite
escrever βb0 em termos de βb1 , ȳ, e x̄:
βb0 = ȳ − βb1 x̄. (2.7)
2. Note que,
12 Prof. Cleiton Guollo Taufemback

E(xu) = 0,

E [x (y − β0 − β1 x)] = 0,
n h   i
∑ xi yi − ȳ − βb1 x̄ − βb1 xi = 0,
i=1

n n (2.8)
∑ xi (yi − ȳ) = βb1 ∑ xi (xi − x̄i ) ,
i=1 i=1

n
∑ (xi − x̄) (yi − ȳ)
i=1
βb1 = n .
∑ (xi − x̄)2
i=1

Obs:
n n n n
∑ xi (xi − x̄) = ∑ (xi − x̄)2 e ∑ xi (yi − ȳ) = ∑ (xi − x̄) (yi − ȳ) .
i=1 i=1 i=1 i=1

As estimativas dadas em (2.7) e (2.8) são chamadas de estimativas de mı́nimos quadrados ordinários (MQO) de
β0 e β1 .

Exemplo de como calcular β0 e β1

Suponha o seguinte banco de dados:


obs y x
1 1,1 1
2 1,7 2
3 3,2 3

Começamos calculando a média de x e y: x̄ = (∑ni=1 xi )/n = (1 + 2 + 3)/3 = 2 e ȳ = (1, 1 + 1, 7 + 3, 2)/3 =


2. Em seguida calculamos as somas intermediárias:
n
∑ (xi − x̄) (yi − ȳ) = (1 − 2) × (1, 1 − 2) + (2 − 2) × (1, 7 − 2) + (3 − 2) × (3, 2 − 2)
i=1

= (−1) × (−0, 9) + 0 + (1) × (1, 2)

= 0, 9 + 1, 2 = 2, 1.
n
∑ (xi − x̄)2 = (1 − 2)2 + (2 − 2)2 + (3 − 2)2
i=1

= (−1)2 + 0 + (1)2 = 2.

logo,
2, 1
βb1 = = 1, 05 e βb0 = 2 − 1, 05 × 2 = 2 − 2, 1 = −0, 1.
2

Minimizando a Soma dos Resı́duos Quadrados

Formalmente, o problema é caracterizar as soluções β0 e β1 para o problema de minimização


n
min Q(b0 , b1 ) = min ∑ (yi − b0 − b1 xi )2
b0 ,b1 b0 ,b1 i=1
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 13

onde b0 e b1 são argumentos para o problema de otimização. Uma condição necessária para βb0 e βb1 resolve-
rem o problema de minimização é que as derivadas
  Q (b0, b1 ) em relação a b0 e b1 devem ser zero
parciais de
quando avaliadas com β0 e β1 : ∂ Q β0 , β1 /∂ b0 = 0 e ∂ Q βb0 , βb1 /∂ b1 = 0. Usando a regra da cadeia do
b b b
cálculo, essas duas equações tornam-se
 
∂ Q β0 , βb1 n  
: −2 ∑ yi − βb0 − βb1 xi = 0
∂ b0 i=1
 
∂ Q β0 , βb1 n  
: −2 ∑ xi yi − βb0 − βb1 xi = 0
∂ b1 i=1

Essas duas equações são iguais as que vimos anteriormente, porém multiplicadas por −2n, portanto, são
solucionadas pelos mesmos βb0 e βbl .

O resı́duo para a observação i é a diferença entre o valor verdadeiro de yi e seu valor estimado:

ubi = yi − ybi = yi − βb0 − βb1 xi

Os valores estimados e os resı́duos estão indicados na Figura (3).

Figura 3 Valores e resı́duos.

Exemplo: Salários e Educação

Para a população de pessoas na força de trabalho em 1976, seja y = salarioh, em que salarioh é mensurado
em dólares por hora. Assim, para uma determinada pessoa, se salarioh = 6, 75, o salário-hora é $6, 75 Vamos
chamar anos de escolaridade formal de x = educ; por exemplo, educ = 12 corresponde ao ensino médio
completo (nos Estados Unidos). O salário horário médio na amostra é $5, 90, o que equivale, de acordo com
o ı́ndice de preços ao consumidor dos Estados Unidos, a $16, 64 em dólares de 1997
14 Prof. Cleiton Guollo Taufemback

Usando os dados do arquivo WAGE1, em que n = 526 indivı́duos, obtemos a seguinte reta de regressão
de MQO (ou função de regresso amostral):

salarioh = −0, 90 + 0, 54educ. (2.9)

Devemos interpretar essa equação com cautela. O intercepto de -0,90 significa, literalmente, que uma pessoa
sem nenhuma educação formal tem um salário-hora previsto de -90 centavos de dólar por hora. Isso, eviden-
temente, é tolice. Ocorre que apenas 18 pessoas na amostra de 526 têm menos que oito anos de educação
formal. Consequentemente, não é surpreendente que a reta de regressão não faça boas previsões para nı́veis
de educação formal muito baixos. Para uma pessoa com oito anos de educação formal, o salário previsto é
salarioh =-0,90+0,54(8)=3,42, ou $ 3,42 por hora (em dólares de 1976).
A inclinação estimada em (2.9) implica que um ano a mais de educação formal aumenta o salário horário
em 54 centavos de dólar por hora. Portanto, quatro anos a mais de educação formal aumentam salário horário
previsto previsto em 4(0, 54) = 2, 16, ou $2, 16 por hora. Esses efeitos são razoavelmente grandes. Devido à
natureza linear de (2.27), outro ano de educação formal aumenta o salário na mesma quantidade, indepen-
dentemente do nı́vel inicial de educação.

Como rodar esse exemplo no R:


[Link]("wooldridge") # Instala o pacote de dados do Wooldridge
library(wooldridge) # Chama o pacote para ser usado nessa sessão
data(’wage1’) # Define o conjuto de dados a ser usado
# Executa a regressão linear E[wage|educ]
linearModelVar <- lm(formula = wage ˜ educ, data = wage1)
linearModelVar # Mostra os resultados de forma simples
summary(linearModelVar) # Resultados completos
como resultado temos
> linearModelVar
Call:
lm(formula = wage ˜ educ, data = wage1)

Coefficients:
(Intercept) educ
-0.9049 0.5414
> summary(linearModelVar)

Call:
lm(formula = wage ˜ educ, data = wage1)

Residuals:
Min 1Q Median 3Q Max
-5.3396 -2.1501 -0.9674 1.1921 16.6085

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.90485 0.68497 -1.321 0.187
educ 0.54136 0.05325 10.167 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 3.378 on 524 degrees of freedom


Multiple R-squared: 0.1648,Adjusted R-squared: 0.1632
F-statistic: 103.4 on 1 and 524 DF, p-value: < 2.2e-16
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 15

2.3 Mecânica do Método MQO

Valores Estimados e Resı́duos

Assumimos que as estimativas de intercepto e de inclinação, βb0 e βb1 , foram obtidas de uma dada amostra de dados.
Dados βb0 e βb1 , podemos obter o valor estimado ybi para cada observação. Por definição, cada valor estimado de ybi
está sobre a reta de regressão de MQO. O resı́duo de MQO associado a cada observação i, ubi , é e diferença entre yi
e seu valor estimado. Se ubi é positivo, a reta subestima yi , se ubi é negativo, a reta superestima yi . O caso ideal para
a observação i é quando ubi = 0, mas na maior parte dos casos todos os resı́duos são diferentes de zero. Em outras
palavras, nenhum dos pontos dos dados deve, realmente, estar sobre a reta de MQO.

Propriedades Algébricas das Estatı́sticas de MQO

Ao escrever cada yi como o seu valor estimado mais seu resı́duo, temos outro modo de interpretar uma regressão
de MQO. Para cada i, escreva
yi = ybi + ubi
Defina a soma dos quadrados total (SQT), a soma dos quadrados explicada (SQE) e a soma dos quadrados dos
resı́duos (SQR) (também conhecida como a soma dos resı́duos quadrados), como a seguir:
n
SQT ≡ ∑ (yi − ȳ)2
i=1

n
yi − ȳ)2
SQE ≡ ∑ (b
i=1
n
SQR = ∑ ub2i
i=1

A variação total em y pode sempre ser expressa como a soma da variação explicada e da variação não-explicada
SQR. Assim,
SQT = SQE + SQR (2.10)
Provar (2.10) não é difı́cil, note que
n n
∑ (yi − ȳ)2 = ∑ [(yi − ybi ) + (byi − ȳ)]2
i=1 i=1
n
= ∑ [b yi − ȳ)]2
ui + (b
i=1
n n n
= ∑ ub2i + 2 ∑ ubi (b yi − ȳ)2
yi − ȳ) + ∑ (b
i=1 i=1 i=1
n
yi − ȳ) + SQE
= SQR +2 ∑ ubi (b
i=1

Exercı́cio: Mostre que


n
∑ ubi (byi − ȳ) = 0
i=1

Grau de ajuste

Muitas vezes, é útil calcular um número que resume o quão bem a reta de regressão de MQO se ajusta aos dados. Na
discussão seguinte, lembre-se de que assumimos estimar o intercepto com a inclinação. Ao assumirmos que a soma
dos quadrados total, SQT, não é igual a zero - o que é verdadeiro, a não ser no evento muito improvável de todos
16 Prof. Cleiton Guollo Taufemback

os yi serem iguais a um mesmo valor-, podemos dividir (2.10) por SQT para obter 1 = SQE/SQT + SQR/SQT . O
R-quadrado da regressão, algumas vezes chamado coeficiente de determinação, é definido como

R2 = SQE/SQT = 1 − SQR/SQT

R2 é a razão entre a variação explicada e a variação total, assim, ele é interpretado como a fração da variação
amostral em y que é explicada por x.
De (2.10), o valor de R2 está sempre entre zero e um, visto que SQE não pode ser maior que SQT. Quando
interpretamos R2 , usualmente o multiplicamos por 100 para transformá-lo em percentual: 100×R2 é a percentagem
da variação amostral em y que é explicada por x.

2.4 Unidades de Medida e Forma Funcional

Incorporação de Não-Linearidades na Regressão Simples

Ao ler trabalhos aplicados nas ciências sociais, com frequência você encontrará equações de regressão em que a
variável dependente aparece na forma logarı́tmica. Por que isso é feito? Lembre-se do exemplo salários-educação,
em que regredimos o salário-hora sobre os anos de educação formal. Obtivemos uma estimativa da inclinação de
0,54, o que significa dizer que, para cada ano adicional de educação, é previsto um aumento de 54 centavos de
dólar no salário-hora. Devido à natureza linear de (2.9), 54 centavos de dólar é o aumento tanto para o primeiro
ano de educação quanto para o vigésimo ano; isso pode não ser razoável.
Suponha, em vez disso, que o aumento percentual no salário é o mesmo, dado um ano a mais de educação
formal. O modelo (2.9) não implica um aumento percentual constante: o aumento depende do salário inicial. Um
modelo que gera (aproximadamente) um efeito percentual constante é

log(salarioh) = β0 + β1 educ + u

em que log(·) é o logaritmo natural. Em particular, se E[u] = 0, então

%∆ salarioh ≈ (100 · β1 ) ∆ educ

Note que,
log (x1 ) − log (x0 ) ≈ (x1 − x0 ) /x0 = ∆ x/x0 (2.11)
para pequenas mudanças em x. Se multiplicarmos (2.11) por 100 e escrevermos ∆ log(x) = log(x1 ) − log(x0 ), então

100 · ∆ log(x) ≃ %∆ x. (2.12)

Porquê usamos log?

Por que devemos aproximar a alteração percentual usando (2.12) quando a alteração percentual exata é
tão fácil de calcular? Para chegar à resposta, primeiro definimos a elasticidade de y em relação a x como

∆ y x %∆ y
· =
∆ x y %∆ x
Em outras palavras, a elasticidade de y em relação a x é a variação percentual em y, quando x aumenta em
1%. Essa noção deve ser familiar da economia introdutória. Se y é uma função linear de x, y = β0 + β1 x, a
elasticidade é
∆y x x x
· = β1 · = β1 ·
∆x y y β0 + β1 x
o que depende claramente do valor de x. Se usarmos a aproximação (2.12) para x e y, a elasticidade é
aproximadamente igual a ∆ log(y)/∆ log(x). Assim, um modelo de elasticidade constante é aproximado pela
equação
log(y) = β0 + β1 log(x)
e β1 é a elasticidade de y em relação a x (assumindo que x, y > 0).
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 17

Uma Equação do Logaritmo dos Salários-Hora

Utilizando os mesmos dados do exemplo apresentado anteriormente, mas usando log(salarioh) como a
variável dependente, obtemos a seguinte relação:

\
log(salario) = 0, 584 + 0, 083educ, n = 526, R2 = 0, 186. (2.13)

O coeficiente de educ tem uma interpretação percentual quando ele é multiplicado por 100: para cada ano
adicional de educação formal, salarioh aumenta 8,3%. Isso é o que os economistas querem dizer quando se
referem ao “retorno de um ano adicional de educação formal”.
Em R:
library(wooldridge) # Chama o pacote para ser usado nessa sessão
data(’wage1’) # Define o conjuto de dados a ser usado
# Executa a regressão linear E[log(wage)|educ]
linearModelVar <- lm(formula = log(wage) ˜ educ, data = wage1)
linearModelVar
summary(linearModelVar)
como resultado temos
Call:
lm(formula = log(wage) ˜ educ, data = wage1)

Coefficients:
(Intercept) educ
0.58377 0.08274

> summary(linearModelVar)

Call:
lm(formula = log(wage) ˜ educ, data = wage1)

Residuals:
Min 1Q Median 3Q Max
-2.21158 -0.36393 -0.07263 0.29712 1.52339

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.583773 0.097336 5.998 3.74e-09 ***
educ 0.082744 0.007567 10.935 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.4801 on 524 degrees of freedom


Multiple R-squared: 0.1858,Adjusted R-squared: 0.1843
F-statistic: 119.6 on 1 and 524 DF, p-value: < 2.2e-16

Finalizamos esta subseção resumindo quatro combinações de formas funcionais construı́das a partir da variável
original ou de seu logaritmo natural. Na Tabela 1, x e y representam as variáveis em suas formas originais. O
modelo com y como a variável dependente e x como a variável independente é chamado modelo nı́vel-nı́vel, pois
cada variável aparece em sua forma de nı́vel. O modelo com log(y) como a variável dependente e x como a
variável independente é chamado modelo log-nı́vel. Não discutiremos aqui, explicitamente, o modelo nı́vel-log,
pois ele aparece menos frequentemente na prática. De qualquer forma, veremos exemplos desse modelo em outros
capı́tulos.
A última coluna na Tabela 1 mostra a interpretação de β1 . No modelo log-nı́vel, 100 · β1 é algumas vezes
chamado semi-elasticidade de y em relação a x. Como mencionamos no Exemplo 2.11, no modelo log-log β1 é
a elasticidade de y em relação a x. A Tabela 2.3 requer um estudo cuidadoso, já que vamos, com frequência, nos
referir a ela no restante do texto.
18 Prof. Cleiton Guollo Taufemback

Tabela 1 Resumo das Formas Funcionais Envolvendo Logaritmos


Modelo Variável Dependente Variável Independente Interpretação de β1
nı́vel-nı́vel y x ∆ y = β1 ∆ x
nı́vel-log y log(x) ∆ y = β1 %∆ x/100
log-nı́vel log(y) x %∆ y = 100 · β1 ∆ x
log-log log(y) log(x) %∆ y = β1 %∆ x

Embora a mecânica da regressão simples não dependa de como y e x são definidos, a interpretação dos coefici-
entes depende, realmente, de suas definições.

O Significado da Regressão “Linear”

O modelo de regressão simples que estudamos neste capı́tulo também é chamado modelo de regressão linear
simples. No entanto, como acabamos de ver, o modelo geral também permite certas relações não-lineares. Portanto,
o que significa “linear” aqui? Você pode observar, ao olhar a equação (2.1), que y = β0 + β1 x + u. O importante é
que essa equação é linear nos parâmetros, β0 e β1 . Não há restrições de como y e x se relacionam com as variáveis
explicada e explicativa originais de interesse.

2.5 Valores Esperados e Variâncias dos Estimadores de MQO

Retomamos agora ao modelo populacional e estudaremos as propriedades estatı́sticas da estimação de MQO.


Em outras palavras, veremos agora βb0 e βb1 como estimadores dos parâmetros β0 e β1 que aparecem no modelo
populacional. Isso significa que estudaremos as propriedades das distribuições de β0 e β1 de diferentes amostras
aleatórias da população.

Inexistência de Viés em MQO

Vamos iniciar estabelecendo a inexistência de viés do método MQO sob um conjunto simples de hipóteses. Para
referências futuras, é útil numerar essas hipóteses usando o prefixo “RLS” para regressão linear simples. A primeira
hipótese define o modelo populacional.

HIPÓTESE RLS.1 (LINEAR NOS PARÂMETROS)

No modelo populacional, a variável dependente y está relacionada à variável independente x e ao erro (ou
perturbação) u como
y = β0 + β1 x + u (2.14)
em que β0 e β1 são os parâmetros de intercepto e de inclinação populacionais, respectivamente.

HIPÓTESE RLS.2 (AMOSTRAGEM ALEATÓRIA)

A amostra aleatória de tamanho n, {(xi , yi ) : i = 1, 2, . . . , n}, é proveniente de um modelo populacional.

Podemos escrever (2.14), em termos da amostra aleatória como

yi = β0 + β1 xi + ui , i = 1, 2, . . . , n (2.15)

em que ui é o erro ou perturbação da observação i (por exemplo, pessoa i, empresa i, cidade i etc. ). Assim,
ui contém os fatores não-observáveis da observação i que afetam yi . Os ui , não devem ser confundidos com os
resı́duos, ubi .
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 19

HIPÓTESE RLS.3 (MÉDIA CONDICIONAL ZERO)

E[u|x] = 0.

HIPÓTESE RLS.4 (VARIAÇÃO AMOSTRAL NA VARIÁVEL INDEPENDENTE)

Na amostra, as variáveis independentes xi , i = 1, 2, . . . , n, não são todas iguais a uma mesma constante. Isso
exige alguma variação em x na população.

Encontramos a hipótese RLS.4 quando derivamos as fórmulas dos estimadores de MQO; ela é equivalente a
2
∑ni=1 (xi − x̄) > 0. Da equação (2.8) vemos que se RLS.4 não vale, então temos um caso de divisão por zero!

TEOREMA 2.1 (INEXISTÊNCIA DE VIÉS EM MQO)

Usando as hipóteses RLS.1 a RLS.4,


   
E βb0 = β0 e E βb1 = β1 (2.16)

para quaisquer valores de β0 e β1 . Em outras palavras, βb0 é não-viesado para β0 , e βb1 é não-viesado para
β1 .
Prova: Para simplificar assumimos ∑ni=1 xi = 0, ou seja x̄ = 0, logo temos
 n   n 
∑i=1 xi yi ∑i=1 xi (β0 + β1 xi + ui )
E[βb1 ] = E = E
∑ni=1 xi xi ∑ni=1 xi xi

∑ni=1 xi ∑n xi xi ∑ni=1 xi E [ui ] (2.17)


= β0 n + β1 i=1 +
∑i=1 xi xi ∑ni=1 xi xi ∑ni=1 xi xi

= 0 + β1 + 0.

Para β0 temos que  


βb0 = ȳ − βb1 x̄ = β0 + β1 x̄ + ū − βb1 x̄ = β0 + β1 − βb1 x̄ + ū

Então, condicional aos valores de xi ,


  h  i h i
E βb 0 = β0 + E β 1 − βb 1 x + E(u) = β 0 + E β 1 − βb 1 x̄ = β0

Note que, a inexistência de viés não é válida se qualquer uma das nossas quatro hipóteses não for válida. Isso
significa que é importante pensar na veracidade de cada hipótese em uma aplicação particular.

Desempenho em Matemática de Estudantes e o Programa de Merenda Escolar

Seja mate10 a percentagem de alunos do primeiro ano do ensino médio aprovados em um exame de ma-
temática. Suponha que desejamos estimar o efeito do programa de merenda escolar financiado pelo governo
sobre o desempenho dos alunos. Esperamos que o programa de merenda tenha um efeito ceteris paribus
positivo sobre o desempenho: todos os outros fatores permanecendo iguais, se um estudante, bastante pobre
para ter regularmente refeições, torna-se qualificado para o programa de merenda escolar, seu desempenho
deveria melhorar. Seja lnchprg a percentagem de estudantes que estão aptos para participar do programa de
merenda escolar. Portanto, o modelo de regressão simples é
20 Prof. Cleiton Guollo Taufemback

mate10 = β0 + β1 lnchprg + u (2.18)

em que u contém caracterı́sticas da escola e do estudante que afetam o desempenho escolar total. Usando os
dados do arquivo de MEAP93 de 408 escolas de Michigan no ano escolar 1992-1993, obtemos

mate10 = 32, 14 − 0, 319lnchprg


(2.19)
n = 408, R2 = 0, 171

Essa equação prevê que se a participação dos estudantes no programa de merenda escolar aumenta em dez
pontos percentuais, a percentagem de estudantes que passa no exame de matemática cai cerca de 3,2 pontos
percentuais. Realmente devemos acreditar que a participação maior no programa de merenda escolar causa,
de fato, um desempenho pior? Muito provavelmente não. Uma explicação melhor é que o termo erro u está
correlacionado com lnchprg.
Em R:
library(wooldridge) # Chama o pacote para ser usado nessa sessão
data(’meap93’) # Define o conjuto de dados a ser usado
# Executa a regressão linear E[math10|lnchprg]
linearModelVar <- lm(formula = math10 ˜ lnchprg, data = meap93)
summary(linearModelVar)
como resultado temos
> summary(linearModelVar)

Call:
lm(formula = math10 ˜ lnchprg, data = meap93)

Residuals:
Min 1Q Median 3Q Max
-24.386 -5.979 -1.207 4.865 45.845

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 32.14271 0.99758 32.221 <2e-16 ***
lnchprg -0.31886 0.03484 -9.152 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 9.566 on 406 degrees of freedom


Multiple R-squared: 0.171,Adjusted R-squared: 0.169
F-statistic: 83.77 on 1 and 406 DF, p-value: < 2.2e-16

Variâncias dos Estimadores de MQO

HIPÓTESE RLS.5 (HOMOSCEDASTICIDADE)

Var(u|x) = σ 2

Adicionamos a hipótese RLS.5 pois ela simplifica os cálculos da variância de β0 e β1 e porque ela im-
plica que
 o método de mı́nimos quadrados ordinários tenha certas propriedades de eficiência. Como Var(u|x) =
E u2 |x − [E(u|x)]2 e E(u|x) = 0, σ 2 = E u2 |x , o que significa que σ 2 também é a esperança não-condicional


de u2 . Portanto, σ 2 = E u2 , pois E(u) = 0. Em outras palavras, σ 2 é ea variância não-condicional de u, e por


isso σ 2 é frequentemente chamado de variância do erro ou variância da perturbação. A raiz quadrada de σ 2 , σ , é
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 21

o desvio-padrão do erro. Um σ grande significa que a distribuição dos fatores não-observáveis que afetam y mais
dispersa.
Frequentemente, é útil escrever as hipóteses RLS.3 e RLS.5 em termos da média condicional e da variância
condicional de y:

E(y|x) = β0 + β1 x

Var(y|x) = σ 2
Em outras palavras, a esperança condicional de y, dado x, é linear em x, mas a variância de y, dado x, é constante.
Essa situação está ilustrada na Figura 4, em que β0 > 0 e β1 > 0.

Figura 4 O modelo de regressão simples sob homoscedasticidade.

Heteroscedasticidade em uma Equação de Salários

A fim de obter um estimador não-viesado do efeito ceteris paribus de educ sobre salarioh, devemos
assumir que E(u|educ) = 0, e isso implica E(salarioh|educ) = β0 + β1 educ. Se também usarmos a hipótese
de homoscedasticidade, então Var(u|educ) = σ 2 não depende do nı́vel de educação formal, que é o mesmo
que assumir que Var(salarioh|educ) = σ 2 . Assim, enquanto se deixa o salário-hora médio aumentar com o
nı́vel de educação formal - é essa taxa de crescimento que estamos interessados em descrever - assume-se que
a variabilidade no salário horário em torno de sua média é constante através de todos os nı́veis de educação
formal: isso pode não ser realista. Um engenheiro e um professor de letras tem o mesmo número de anos de
estudo, mas o primeiro recebe, em geral, mais que o segundo. Já profissionais com pouco estudo tendem a
receber apenas o salário mı́nimo. Essa situação é mostrada na Figura 2.9.
22 Prof. Cleiton Guollo Taufemback

Figura 5 Var(salarioh|educ) crescendo com a educação.

TEOREMA 2.2 (VARIÂNCIAS AMOSTRAIS EM MQO)

Usando as hipóteses RLS.1 a RLS.5,


  σ2
Var βb1 = 2
= σ 2 /SQTx
∑ni=1 (xi − x̄)
e !
  1 x̄2
Var βb0 = σ 2 + n
n ∑i=1 (xi − x̄)2

as quais estão condicionadas aos valores amostrais {x1 , . . . , xn }·


Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 23

TEOREMA 2.2 (VARIÂNCIAS AMOSTRAIS EM MQO)

Prova: Temos que !


n 2
∑ (xi − x̄) ui
Var(βb1 ) = Var β1 + i=1 2
∑ni=1 (xi − x̄)

2
∑ni=1 (xi − x̄) Var(ui )
= 0+  2
2
∑ni=1 (xi − x̄)

σ2
= 2
∑ni=1 (xi − x̄)
e  
Var(βb0 ) = Var ȳ − βb1 x̄

= Var(ȳ) + Var(βb1 ) · x̄2 − 2Cov(ȳβb1 x̄)

1 n 2 σ2 nσ 2 2 σ2
= ∑ Var (y i ) + x̄ 2
= + x̄ 2
n2 i=1 ∑ni=1 (xi − x̄) n2 ∑ni=1 (xi − x̄)
!
2 1 x̄2
=σ + n
n ∑i=1 (xi − x̄)2

Obs: para chegarmos a fórmula de Var(βb0 ) apresentada por Wooldridge temos que considerar que
n 2 n 2 2

∑i=1 (xi − x̄) = ∑i=1 xi − x̄ .

Estimação da Variância do Erro

As fórmulas de Var(βb0 ) e Var(βb1 ) são desconhecidas, exceto no caso extremamente raro em que σ 2 é conhecido.
Não obstante, podemos usar os dados para estimar σ 2 , o qual consequentemente nos permite estimar Var(βb0 ) e
Var(βb1 ).
Este é um bom momento para enfatizar a diferença entre os erros (ou perturbações) e os resı́duos. Note que,

ubi = yi − βb0 − βb1 xi = (β0 − β1 xi + ui ) − βb0 − βb1 xi


   
ubi = ui − βb0 − β0 − βb1 − β1 xi

Embora o valor esperado de βb0 iguale-se a β0 , e similarmente para βb1 , ubi não é o mesmo que ui . A diferença
entre eles tem, de fato, um valor esperado igual a zero.
Se ui fosse conhecido, um estimador natural de σ 2 seria n−1 ∑ni=1 u2i . Se usarmos ub e estimarmos σ 2 por
−1
n ∑ni=1 ub2i , estaremos estimando de forma viesada a variância. Porque essa fórmula não explica a razão de duas
restrições que devem ser satisfeitas pelos resı́duos de MQO. Essas restrições são dadas pelas duas condições de
primeira ordem de MQO:
n n
∑ ubi = 0, ∑ xi · ubi = 0
i=1 i=1

O estimador não-viesado de σ 2 que utilizaremos faz um ajustamento dos graus de liberdade:


n
1
b2 =
σ ∑ ub2 = SQR /(n − 2)
(n − 2) i=1 i
24 Prof. Cleiton Guollo Taufemback

TEOREMA 2.3 (ESTIMAÇÃO NÃO-VIESADA DE σ 2 )

Usando as hipóteses RLS.1 a RLS.5,


b2 = σ 2.

E σ
Prova: Ver Wooldridge, pag. 56-57.

Regressão através da Origem

Em raros casos, desejamos impor a restrição de que, quando x = 0, o valor esperado de y é zero. Há certas relações
para as quais isso é razoável. Por exemplo, se a renda (x) for zero, então os gastos com o imposto de renda (y)
devem ser zero. Além disso, há problemas quando um modelo que originalmente tem um intercepto diferente de
zero é transformado em um modelo sem um intercepto.
Nesse caso temos:
yi = β1 xi + ui
Daı́, podemos resolver para βb1 :
∑n xi yi
βb1 = i=1 .
∑ni=1 xi2
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 25

3 Análise de Regressão Múltipla: Estimação

A análise de regressão múltipla é mais receptiva à análise ceteris paribus, pois ela nos permite controlar explici-
tamente muitos outros fatores que, de maneira simultânea, afetam a variável dependente. Isso é importante tanto
para testar teorias econômicas quanto para avaliar efeitos da polı́tica governamental quando devemos nos basear
em dados não-experimentais. Como os modelos de regressão múltipla podem acomodar muitas variáveis explicati-
vas que podem estar correlacionadas, podemos esperar inferir causalidade nos casos em que a análise de regressão
simples seria enganosa.
Naturalmente, se adicionarmos ao nosso modelo mais fatores que são úteis para explicar y, então mais da
variação de y poderá ser explicada. Assim, a análise de regressão múltipla pode ser usada para construir modelos
melhores para prever a variável dependente.

3.1 Funcionalidade da Regressão Múltipla

Modelo com k Variáveis Independentes

O modelo de regressão linear múltipla pode ser escrito, na população, como

y = β0 + β1 x1 + β2 x2 + β3 x3 + . . . + βk xk + u (3.1)

onde β0 é o intercepto, β1 é o parâmetro associado a x1 , β2 é o parâmetro associado a x2 , e assim por diante.


Como há k variáveis independentes e um intercepto, a equação (3.1) contém k + 1 parâmetros (desconhecidos)
populacionais. Para simplificar, algumas vezes vamos nos referir aos outros parâmetros que não o intercepto como
parâmetros de inclinação, ainda que, literalmente, nem sempre eles tenham esse significado.
A terminologia da regressão múltipla é similar àquela da regressão simples e é apresentada na Sessão anterior.
Exatamente como na regressão simples, a variável u é o termo de erro ou perturbação. Ele contém outros fatores,
além de x1 , x2 , . . . , xk , que afetam y. Não importa quantas variáveis explicativas incluı́mos em nosso modelo, pois
sempre haverá fatores que não podemos incluir, e eles estão contidos, coletivamente, em u.

y x1 , x2 , . . . , xk
Variável Dependente Variáveis Independentes
Variável Explicada Variáveis Explicativas
Variável de Resposta Variáveis de Controle
Variável Prevista Variáveis Previsoras
Regressando Regressores

3.2 Mecânica e Interpretação dos Mı́nimos Quadrados Ordinários

Obtenção das Estimativas de MQO

O método de mı́nimos quadrados ordinários escolhe as estimativas que minimizam a soma dos resı́duos quadrados.
Isto é, dadas n observações de y, x1 , . . . , xk as estimativas de β0 , β1 , . . . , βk são escolhidas, simultaneamente, para
fazer com que a soma dos quadrados dos resı́duos sejam mı́nimos, ou seja
n n
min ∑ e2i =
b0 ,b1 ,...,bk ∈R i=1
min ∑ (yi − b0 − b1 x1 − · · · − bk xk )2 .
b0 ,b1 ,...,bk i=1
(3.2)

Derivando (3.2) em respeito a β0 , β1 , . . . , βk , temos as seguinte condições de primeira ordem:


26 Prof. Cleiton Guollo Taufemback
 
∑ni=1 yi − βb0 − βb1 xi1 − . . . − βbk xik = 0
 
∑ni=1 xi1 yi − βb0 − βb1 xi1 − . . . − βbk xik = 0
 
∑ni=1 xi2 yi − βb0 − βb1 xi1 − . . . − βbk xik = 0
(3.3)
..
.
 
∑ni=1 xik yi − βb0 − βb1 xi1 − . . . − βbk xik = 0

Estimadores de MQO podem ser facilmente encontrados considerando a notação matricial dos dados, que é de
fácil manipulação. Desta forma, o modelo de Regressão Linear Múltipla pode ser escrito como

Y = Xβ + u (3.4)

onde        
y1 1 x11 x12 ... x1k β0 u1
 y2   1 x21 x22 ... x2k   β1   u2 
Y =  . , X =. . ..  , β =  ..  e u= . 
       
.. ..
 ..   .. .. . . .   .   .. 
yn 1 xn1 xn2 . . . xnk βk un
| {z } | {z } | {z } | {z }
n×1 n×(k+1) (k+1)×1 n×1

Fazendo uso de técnicas matriciais em (3.4) obtemos


−1 ′
βb = X ′ X XY (3.5)

Interpretação da Equação de Regressão de MQO

Tão importante quanto os detalhes subjacentes à computação dos βbj é a interpretação da equação estimada. Inici-
aremos com o caso de duas variáveis independentes:

yb = βb0 + βb1 x1 + βb2 x2 (3.6)

O intercepto βb0 na equação (3.6) é o valor previsto de y quando x1 = 0 e x2 = 0. Às vezes, colocar x1 e x2 iguais
a zero é um cenário interessante; em outros casos, isso não fará sentido. Não obstante, para obter uma previsão de
y a partir da reta de regressão de MQO, o intercepto sempre é necessário, como (3.6) deixa claro.
As estimativas βb1 e βb2 têm interpretações de efeito parcial, ou ceteris paribus. Da equação (3.6), temos

∆ yb = βb1 ∆ x1 + βb2 ∆ x2

de modo que podemos obter a variação prevista em y dadas as variações em x1 e x2 . (Observe que o intercepto não
tem nada a ver com as variações em y.) Em particular, quando x2 é mantido fixo, de modo que ∆ x2 = 0, então

∆ yb = βb1 ∆ x1

mantendo x2 fixo. O ponto fundamental é que, ao incluir x2 no nosso modelo, obtemos um coeficiente de x1 com
uma interpretação ceteris paribus.

Equação do Salário Horário

Usando as 526 observações de trabalhadores do arquivo WAGE1, incluı́mos educ (anos de educação
formal), exper (anos de experiência no mercado de trabalho) e perm (anos com o empregador atual) na
equação que explica log(salarioh). A equação estimada é

log(salarioh) = 0, 284 + 0, 092educ + 0, 0041exper + 0, 022perm.


Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 27

Como no caso da regressão simples, os coeficientes têm uma interpretação de percentagem. A única
diferença é que eles também têm uma interpretação ceteris paribus. O coeficiente 0,092 significa que, man-
tendo exper e perm fixos, um ano a mais de educação formal aumenta o valor esperado de log(salárioh) em
0,092, o que se traduz em um aumento aproximado de 9,2% em salárioh. Alternativamente, se considerar-
mos duas pessoas com os mesmos nı́veis de experiência e permanência no trabalho, o coeficiente de educ é
a diferença proporcional no salário horário previsto quando seus nı́veis de educação diferem em um ano.

Comparação das Estimativas das Regressões Simples e Múltipla

Há dois casos especiais em que tanto a regressão simples de y sobre x1 como a regressão de y sobre x1 e x2
produzirão a mesma estimativa de MQO de x1 . Para maior precisão, escreva a regressão simples de y sobre x1
como
ỹ = β̃0 + β̃1 x1 ,
e escreva a regressão múltipla como
yb = βb0 + βb1 x1 + βb2 x2 .
Sabemos que o coeficiente da regressão simples β̃1 não se iguala, geralmente, ao coeficiente da regressão múltipla
βb1 . Acontece que há uma relação simples entre βb1 e βb1 , que permite comparações interessantes entre as regressões
simples e múltipla:
β̃1 = βb1 + βb2 δ̃1 (3.7)
em que δ̃1 é o coeficiente de inclinação da regressão simples de xi2 sobre xi1 , i = 1, . . . , n (x1 = δ0 + δ1 x2 + e). Essa
equação mostra como βb1 difere do efeito parcial de x1 sobre yb. O termo que pode causar confusão é o efeito parcial
de x2 sobre yb multiplicado pela inclinação da regressão amostral de x2 sobre x1 .
Temos que βb1 e β̃1 são iguais se:
1. O efeito parcial de x2 sobre y é zero na amostra, isto é, β2 = 0.
2. Ou, se x1 e x2 são não-correlacionados na amostra, isto é, δ1 = 0.

Grau de Ajuste

Assim como na regressão simples, podemos definir a Soma dos Quadrados Total (SQT), a Soma dos Quadrados
Explicada (SQE) e a Soma dos Quadrados dos Resı́duos ou Soma dos Resı́duos Quadrados (SQR) como
n
SQT = ∑ (yi − ȳ)2
i=1

n
yi − ȳ)2
SQE = ∑ (b
i=1
n
SQR = ∑ ub2i
i=1

Usando o mesmo argumento utilizado no caso da regressão simples, podemos mostrar que

SQT = SQE + SQR.

Exatamente como no caso da regressão simples, o R-quadrado é definido como

R2 = SQE/SQT = 1 − SQR/SQT,

e é interpretado como a proporção da variação amostral em yi que é explicada pela reta de regressão de MQO. Por
definição, R2 é um número entre zero e um.
Um fato importante sobre R2 é que ele nunca diminui, e geralmente aumenta, quando outra variável indepen-
dente é adicionada à regressão. Esse fato algébrico ocorre por definição, pois a soma dos resı́duos quadrados
nunca aumenta quando regressares adicionais são acrescentados ao modelo. O fato de que R2 nunca diminui
28 Prof. Cleiton Guollo Taufemback

quando qualquer variável for adicionada a uma regressão faz dele um instrumento fraco para decidir se
uma variável ou diversas variáveis deveriam ser adicionadas ao modelo. O fator que deve determinar se uma
variável explicativa pertence a um modelo é se a variável explicativa tem, na população, um efeito parcial sobre y
diferente de zero.
Obs: Algumas vezes, uma teoria econômica, ou o senso comum, sugere que β0 deveria ser zero, e por isso
devemos mencionar, brevemente, a estimação de MQO quando o intercepto é zero. Porém se o modelo real possui
intercepto e regressemos sem este, teremos um viés na nossa estimação.

Regressão múltipla no R

O arquivo CRIME1 contém dados de prisões durante o ano de 1986 e outras informações sobre 2.725
homens nascidos em 1960 ou 1961 na Califórnia. Cada homem na amostra foi preso pelo menos uma vez
antes de 1986. A variável narr86 é o número de vezes que determinado homem foi preso em 1986: ela é
zero para muitos homens da amostra (72,29%), e varia de 0 a 12. (A percentagem de homens presos uma vez
em 1986 foi de 20,51 %.) A variável pcnv é a proporção (não a percentagem) de prisões anteriores a 1986
que levaram à condenação, avgsen é a duração média da sentença cumprida por condenação prévia (zero
para muitas pessoas), ptime86 são os meses passados na prisão em 1986 e qemp86 é o número de trimestres
durante o qual determinado homem ficou empregado em 1986 (de zero a quatro).
Um modelo linear que explica as detenções é

narr86 = β0 + β1 pcnv + β2 avgsen + β3 ptime86 + β4 qemp86 + u

onde pcnv é um proxy para a probabilidade de ser condenado por um crime e avgsen é uma medida da
severidade esperada da punição, se condenado. A variável ptime86 captura os efeitos do crime no encar-
ceramento: se um indivı́duo está preso, não pode ser preso por um crime fora da prisão. Oportunidades no
mercado de trabalho são capturadas de forma grosseira pelo qemp86.
Primeiro, estimamos o modelo sem a variável avgsen. Nós obtemos
library(wooldridge) # Chama o pacote para ser usado nessa sessão
data(’crime1’) # Define o conjuto de dados a ser usado

# Executa a regressão linear


linearModelVar <- lm(formula = narr86 ˜ pcnv + ptime86 + qemp86 ,
data = crime1)
summary(linearModelVar)

Call:
lm(formula = narr86 ˜ pcnv + ptime86 + qemp86, data = crime1)

Residuals:
Min 1Q Median 3Q Max
-0.7118 -0.4031 -0.2953 0.3452 11.4358

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.711772 0.033007 21.565 < 2e-16 ***
pcnv -0.149927 0.040865 -3.669 0.000248 ***
ptime86 -0.034420 0.008591 -4.007 6.33e-05 ***
qemp86 -0.104113 0.010388 -10.023 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.8416 on 2721 degrees of freedom


Multiple R-squared: 0.04132,Adjusted R-squared: 0.04027
F-statistic: 39.1 on 3 and 2721 DF, p-value: < 2.2e-16
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 29

Essa equação diz que, como um grupo, as três variáveis pcnv, ptime86, and qemp86 explicam cerca de 4,1
% da variação em narr86.
Cada um dos coeficientes de inclinação de MQO tem o sinal esperado. Um aumento na proporção de
condenações diminui o número previsto de prisões. Se aumentarmos pcnv em 0,50 (um aumento grande na
probabilidade de condenação), então, mantendo os outros fatores fixos, ∆ narr86 = −.150(.50) = −.075.
Isso pode parecer pouco usual, porque uma prisão não pode ser uma fração. No entanto, podemos usar esse
valor para obter a variação prevista das prisões esperadas de um grande grupo de homens. Por exemplo,
entre cem homens, a queda esperada de prisões quando pcnv aumenta em 0,50 é -7,5. Semelhantemente, um
perı́odo de prisão mais longo leva a um número previsto menor de prisões. De fato, se ptime86 aumenta de
0 para 12, as prisões previstas para um determinado homem diminuem em 0,034(12) = 0,408. Um trimestre
a mais no qual o emprego legal é informado diminui as prisões esperadas em 0,104, o que significaria 10,4
prisões entre cem homens.
Se avgsen for adicionado ao modelo, sabemos que R2 aumentará. A equação estimada é
# Executa a regressão linear
linearModelVar <- lm(formula = narr86 ˜ pcnv + avgsen + ptime86 + qemp86 ,
data = crime1)
summary(linearModelVar)

Call:
lm(formula = narr86 ˜ pcnv + avgsen + ptime86 + qemp86, data = crime1)

Residuals:
Min 1Q Median 3Q Max
-0.9330 -0.4247 -0.2934 0.3506 11.4403

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.706756 0.033151 21.319 < 2e-16 ***
pcnv -0.150832 0.040858 -3.692 0.000227 ***
avgsen 0.007443 0.004734 1.572 0.115993
ptime86 -0.037391 0.008794 -4.252 2.19e-05 ***
qemp86 -0.103341 0.010396 -9.940 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.8414 on 2720 degrees of freedom


Multiple R-squared: 0.04219,Adjusted R-squared: 0.04079
F-statistic: 29.96 on 4 and 2720 DF, p-value: < 2.2e-16
Assim, adicionar a variável de sentença média aumenta R2 de 0,0413 para 0,0422, um efeito praticamente
pequeno. O sinal do coeficiente no avgsen também é inesperado: ele diz que uma pena média mais longa
aumenta a atividade criminosa.
O fato de as quatro variáveis explicativas incluı́das na segunda regressão explicarem somente 4,2% da
variação em narr86 não necessariamente significa que a equação é inútil. Ainda que, coletivamente, essas
variáveis não expliquem muito da variação nas prisões, é possı́vel que as estimativas de MQO sejam esti-
mativas confiáveis dos efeitos ceteris paribus de cada variável independente sobre npre86. Como veremos,
se esse for o caso, isso não depende, diretamente, do tamanho do R2 . Em geral, um R2 baixo indica que é
difı́cil prever resultados individuais sobre y com muita precisão, algo que estudaremos com mais detalhes no
Capı́tulo 6. No exemplo da prisão, o R2 pequeno reflete algo sobre o qual suspeitamos nas ciências sociais:
geralmente, é muito difı́cil prever o comportamento individual.
30 Prof. Cleiton Guollo Taufemback

3.3 O Valor Esperado dos Estimadores de MQO

Nesta seção, derivamos o valor esperado dos estimadores de MQO. Também obtemos explicitamente o viés em
MQO, quando uma variável importante for omitida da regressão. Você deve lembrar que propriedades estatı́sticas
não têm nada a ver com uma amostra particular, mas sim, mais precisamente, com a propriedade dos estimadores
quando a amostragem aleatória é feita repetidamente.
A primeira hipótese que vamos fazer define, simplesmente, o modelo de regressão linear múltipla (RLM).

HIPÓTESE RLM.1 (LINEAR NOS PARÂMETROS)

O modelo na população pode ser escrito como

y = β0 + β1 x1 + β2 x2 + . . . + βk xk + u (3.8)

em que β0 , β1 , . . . , βk são os parâmetros desconhecidos (constantes) de interesse, e u é um erro aleatório


não-observável ou um termo de perturbação aleatória.

HIPÓTESE RLM.2 (AMOSTRAGEM ALEATÓRIA)

Temos uma amostra aleatória de n observações, {(x1 , x2 , . . . , xk , yi ) : i = 1, 2, . . . , n}, do modelo populacio-


nal descrito por (3.8).

HIPÓTESE RLM.3 (MÉDIA CONDICIONAL ZERO)

O erro u tem um valor esperado igual a zero, dados quaisquer valores das variáveis independentes. Em
outras palavras,
E (u|x1 , x2 , . . . , xk ) = 0

HIPÓTESE RLM.4 (COLINEARIDADE NÃO PERFEITA)

Na amostra (e, portanto, na população), nenhuma das variáveis independentes é constante, e não há relações
lineares exatas entre as variáveis independentes.

Note que se x1 = a1 + a2 x2 + a3 x3 + · · · + ak xk , com pelo menos um ai , i = 1, . . . , k, diferente de zero, temos que


a inversa de (X ′ X), ver equação (3.5), não existe. Suponha que x1 = cx2 , então
   
1 x11 x12 . . . x1k 1 cx12 x12 . . . x1k
 1 x21 x22 . . . x2k   1 cx22 x22 . . . x2k 
X =. . . . . =. .
   
.. . . .. 
 .. .. .. . . ..   .. .. . . . 
1 xn1 xn2 . . . xnk 1 cxn2 xn2 . . . xnk

agora multiplicando a coluna 3 por c e diminuindo da coluna 2, temos


 
  1 1 ... 1
1 0 x12 . . . x1k
 1 0 x22 . . . x2k 
 0
 0 ... 0 
X =. . . .

.

com X ′ =  x12
 x22 ... xn2 
 .. .. .. . . .. 
 
 .. .. .. .. 
 . . . . 
1 0 xn2 . . . xnk
x1k x2k . . . xnk
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 31

logo em X ′ X haverá uma linha e coluna iguais a zero, o que resulta em um determinante igual a 0.

TEOREMA 3.1 (INEXISTÊNCIA DE VIÉS DE MQO)

Sob as hipóteses RLM.1 a RLM.4,


E(βbi ) = βi , i = 0, . . . , k,
para qualquer valor do parâmetro populacional βi . Em outras palavras, os estimadores de MQO são esti-
madores não-viesados dos parâmetros da população.

Viés de Variável Omitida

Suponha agora que, em vez de incluir uma variável irrelevante, omitimos uma variável que, realmente, pertence ao
modelo verdadeiro (ou populacional). Isso é frequentemente chamado problema de excluir uma variável relevante
ou de subespecificar o modelo.
Por exemplo, suponha que o modelo populacional

y = β0 + β1 x1 + β2 x2 + β3 x3 + u

satisfaça as hipóteses RLM.1 a RLM.4. No entanto, omitimos x3 e estimamos o modelo como

ỹ = β̃0 + β̃1 x1 + β̃2 x2

Agora suponha que x2 e x3 sejam não-correlacionados, mas que x1 é correlacionado com x3 . Em outras palavras,
x1 é correlacionado com a variável omitida, mas x2 não é. É tentador pensar que, embora provavelmente β̃1 seja
viesado com base na derivação da subseção anterior, β̃2 seja não-viesado, e pois x2 é não-correlacionado com x3 .
Infelizmente, esse não é, geralmente, o caso: normalmente, tanto β̃1 como β̃2 serão viesados. A única exceção a
isso ocorre quando x1 e x2 também são não-correlacionados.
Se assumirmos que x1 e x2 são não correlacionados, podemos estudar o viés em β̃1 como se x2 estivesse ausente
dos modelos populacional e estimado. De fato, quando x1 e x2 são não-correlacionados, pode-se mostrar que

∑n (xi1 − x̄1 ) xi3


 
E β̃1 = β1 + β3 i=1 2
∑ni=1 (xi1 − x̄1 )

Viés de Variável Omitida: Casos mais Gerais

Por exemplo, suponha que tenhamos o seguinte modelo

E (y|x1 , x2 , z) = β0 + β1 x1 + β2 x2 + β3 z

onde z é uma variável não observável. Logo,

E (y|x1 , x2 ) = E (β0 + β1 x1 + β2 x2 + β3 z|x1 , x2 )


(3.9)
= β0 + β1 x1 + β2 x2 + β3 E (z|x1 , x2 )

Agora, se fizermos uma suposição sobre E(z|x1 , x2 ), por exemplo, que é linear em x1 e x2 ,

E (z|x1 , x2 ) = δ0 + δ1 x1 + δ2 x2

então podemos usar isso na equação (3.9) e reorganizar:

E (y|x1 , x2 ) = β0 + β1 x1 + β2 x2 + β3 (δ0 + δ1 x1 + δ2 x2 )
.
= (β0 + β3 δ0 ) + (β1 + β3 δ1 ) x1 + (β2 + β3 δ2 ) x2
32 Prof. Cleiton Guollo Taufemback

3.4 A Variância dos Estimadores de MQO

Obteremos, agora, a variância dos estimadores de MQO, de modo que, além de conhecermos as tendências centrais
dos beta j , também teremos uma medida da dispersão de sua distribuição amostral.

HIPÓTESE RLM.5 (HOMOSCEDASTICIDADE)

Var(u|x1 , . . . , xk ) = σ 2 .

As hipóteses RLM. l a RLM.5 são, em conjunto, conhecidas como as hipóteses de Gauss-Markov (para a re-
gressão de corte transversal). Podemos obter, agora, as variâncias dos beta j , que uma vez mais, estão condicionadas
aos valores amostrais das variáveis independentes.

TEOREMA 3.2 (VARIÂNCIAS AMOSTRAIS DOS ESTIMADORES DE INCLINAÇÃO DE MQO)

Sob as hipóteses RLM.1 a RLM.5, condicionadas aos valores amostrais das variáveis independentes,
        
b 2 βb0
σ d βb0 , βb1 Cov
Cov d βb0 , βb2 . . . Cov
d βb0 , βbk
        
 Cov β1 , β0
d b b b 2 βb1
σ Cov d βb1 , βbk 
d βb1 , βb2 . . . Cov 
d βb) = 
Cov( 
 .. .. .. .. .. 

 .  .  .  . .  

d βk , β0 Cov
Cov b b d βk , β1 Cov
b b d βk , β2 . . . σ
b b 2
b βk b

d βb) é uma matriz (k + 1) × (k + 1), sendo k o número de variáveis explicativas do modelo.


em que Cov(

Estimação de σ 2 : Os Erros-Padrão dos Estimadores de MQO

Como σ 2 = E u2 , um ”estimador”não-viesado de σ 2 é é a média amostral dos erros quadrados: n−1 ∑n u2i . Infe-


lizmente, esse não é um estimador verdadeiro, pois não observamos os ui . Não obstante, lembre-se de que os erros
podem ser escritos como ui = yi − β0 − β1 xi1 − β2 xi2 − . . . − βk xik , e a razão real de não observarmos os ui é que
não conhecemos os β j . Quando substituı́mos cada β j por seu estimador de MQO, obtemos os resı́duos de MQO:

ubi = yi − βb0 − βb1 xi1 − βbz xi2 − . . . − βbk xik

Parece natural estimar σ 2 ao substituir ui por ubi . No caso da regressão simples, vimos que isso leva a um estimador
viesado. O estimador não-viesado de σ 2 no caso geral da regressão múltipla é
!
n
σb 2 = ∑ ub2i /(n − k − 1) = SQR /(n − k − 1)
i=1

O termo n − k − 1 representa os graus de liberdade (gl) do problema geral de MQO com n observações e k
variáveis independentes. Como há k + 1 parâmetros em um modelo de regressão com k variáveis independentes e
um intercepto, podemos escrever

gl = n − (k + 1)
= ( número de observaçöes ) − (número de parâmetros estimados)
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 33

TEOREMA 3.3 (ESTIMADOR NÃO-VIESADO DE σ 2 )

b2) = σ 2.
Sob as hipóteses de Gauss-Markov RLM.1 a RLM.5, E(σ

3.5 Eficiência de MQO: O Teorema de Gauss-Markov

TEOREMA 3.4 (TEOREMA DE GAUSS-MARKOV)

Sob as hipóteses RLM.1 a RLM.5, βb0 , βb1 , . . . , βbk são os melhores estimadores lineares não-viesados
(BLUEs) de β0 , β1 , . . . , βk , respectivamente.

A importância do Teorema de Gauss-Markov é que, quando um conjunto padrão de hipóteses se mantém, não
necessitamos procurar por estimadores não-viesados alternativos, pois nenhum será melhor que MQO. Equivalen-
temente, se somos apresentados a um estimador que é tanto linear como não-viesado, então sabemos que a variância
desse estimador é pelo menos tão grande quanto a variância de MQO. Nenhum cálculo adicional é necessário para
mostrar isso.
34 Prof. Cleiton Guollo Taufemback
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 35

4 Análise de Regressão Múltipla: Inferência

Vamos nos voltar agora para o problema de testar hipóteses sobre os parâmetros do modelo da regressão popula-
cional. Iniciaremos encontrando as distribuições dos estimadores de MQO sob a hipótese adicional de que o erro
populacional é normalmente distribuı́do.

4.1 Distribuições Amostrais dos Estimadores de MQO

Até este ponto, construı́mos um conjunto de hipóteses sob as quais o método MQO é não-viesado; também deriva-
mos e discutimos o viés causado por variáveis omitidas. Conhecer o valor esperado e a variância dos estimadores
de MQO é útil para descrever sua precisão. Entretanto, para a inferência estatı́stica necessitamos conhecer mais do
que apenas os dois primeiros momentos de βbj precisamos conhecer a distribuição amostral completa de βbj . Mesmo
sob as hipóteses de Gauss-Markov, a distribuição de βbj pode ter, virtualmente, qualquer forma.
Para tornar as distribuições amostrais de βbj passı́veis de tratamento, vamos assumir agora que o erro não-
observado é normalmente distribuı́do na população. Chamamos isso de hipótese da normalidade.

HIPÓTESE RLM.6 (NORMALIDADE)

O erro populacional u é independente das variáveis explicativas x1 , x2 , . . . , xk e é normalmente distribuı́do,


com média zero e variância σ 2 : u ∼ Normal(0, σ 2 ).

Nas aplicações da regressão de corte transversal, as hipóteses RLM.1 a RLM.6 são chamadas hipóteses do
modelo linear clássico (MLC). Assim, vamos nos referir ao modelo sob essas seis hipóteses como o modelo linear
clássico. É melhor pensar as hipóteses do MLC como contendo todas as hipóteses de Gauss-Markov mais a hipótese
de um termo erro normalmente distribuı́do.
Uma maneira sucinta de resumir as hipóteses do MLC na população é

y|x ∼ Normal β0 + β1 x1 + β2 x2 + . . . + βk xk , σ 2


Em qualquer aplicação, saber se a normalidade de u pode ser assumida é uma questão empı́rica. Por exemplo,
não há teorema dizendo que salarioh condicionado a educ, exper e perm é normalmente distribuı́do. De qualquer
modo, o simples raciocı́nio sugere que o oposto é verdadeiro: visto que o salário por hora nunca pode ser menor
que zero, ele não pode, estritamente falando, ter uma distribuição normal. Além disso, visto que há leis de salário
mı́nimo, alguma fração da população ganha exatamente o salário mı́nimo, o que viola a hipótese de normalidade.
Contudo, como uma questão prática, podemos perguntar se a distribuição condicional do salário está “próxima” de
ser normal. A evidência empı́rica passada sugere que normalidade não é uma boa hipótese para os salários.
A normalidade do termo erro traduz-se nas distribuições normais amostrais dos estimadores de MQO:

TEOREMA 4.1 (DISTRIBUIÇÕES AMOSTRAIS NORMAIS)

Sob as hipóteses do MLC, RLM.1 a RLM.6, condicional aos valores amostrais das variáveis independentes,
h  i
βbj ∼ Normal β j , Var βbj ,

onde Var(βbj ) foi estudada anteriormente. Portanto,


   
βbj − β j /dp βbj ∼ Normal (0, 1).

Obs: d p significa desvio padrão. Porém é muito mais comum encontrar nos livros o termo std, de standard
deviation, em vez de db.
36 Prof. Cleiton Guollo Taufemback

4.2 Testes de Hipóteses sobre um único Parâmetro Populacional: O Teste t

Esta seção cobre o importante tópico de testar hipóteses sobre um único parâmetro da função de regressão popula-
cional. O modelo populacional pode ser escrito como

y = β0 + β1 x1 + . . . + βk xk + u

e assumimos que ele satisfaz as hipóteses do MLC. Sabemos que MQO produz estimadores não-viesados de β j .
Nesta seção, estudaremos como testar hipóteses sobre um particular β j . Para um entendimento completo dos testes
de hipóteses, devemos recordar que os β j são caracterı́sticas desconhecidas da população, e nunca os conheceremos
com certeza. No entanto, podemos fazer hipóteses sobre o valor de β j e, em seguida, utilizar inferência estatı́stica
para testar nossa hipótese.
A fim de construir os testes de hipóteses, precisamos do seguinte resultado:

TEOREMA 4.2 (A DISTRIBUIÇAO t PARA OS ESTIMADORES PADRONIZADOS)

Sob as hipóteses do MLC, RLM.1 a RLM.6,


   
βbj − β j /ep βbj ∼ tn−k−1

em que k + 1 é o número de parâmetros desconhecidos do modelo populacional y = β0 + β1 x1 + . . . +


+βk xk + u ( k parâmetros de inclinação mais o intercepto β0 ).

O Teorema 4.2 é importante porque ele nos permite testar hipóteses que envolvem os β j . Na maioria das
aplicações, nosso principal interesse é testar a hipótese nula

H0 : β j = 0

em que j corresponde a qualquer uma das k variáveis independentes. Como um exemplo, considere a equação do
salário
log(salarioh) = β0 + β1 educ + β2 exper + β3 perm + u
A hipótese nula H0 : β2 = 0 significa que, uma vez que a educação formal e a permanência foram consideradas,
o número de anos no mercado de trabalho (exper) não tem nenhum efeito sobre o salário horário. Essa é uma
hipótese economicamente interessante. Se ela é verdadeira, ela implica que o histórico de trabalho de uma pessoa,
anterior ao emprego atual, não afeta o salário. Se β2 > 0, então a experiência prévia de trabalho contribui para a
produtividade e, portanto, para o salário.
A estatı́stica t de βbj é simples de calcular, dados βbj e seu erro-padrão. De fato, a maioria dos programas de
regressão faz a divisão automaticamente e informa a estatı́stica t juntamente com cada coeficiente e seu erro-
padrão.

Teste contra Hipóteses Alternativas Unilaterais

A fim de determinar uma regra para rejeitar H0 , precisamos decidir sobre a hipótese alternativa relevante. Primeiro,
considere uma hipótese alternativa unilateral do tipo

H1 : β j > 0

Isso significa que não nos preocupamos com alternativas de H0 do tipo H1 : β j < 0; por alguma razão, talvez
tomando como base a introspecção ou a teoria econômica, estamos excluindo os valores populacionais de β j
menores que zero. (Outra maneira de pensar a respeito é que a hipótese nula é realmente H0 : β j ≤ O; em qualquer
caso, a estatı́stica tβb ; é usada como a estatı́stica de teste.)
j
Como devemos escolher uma regra de rejeição? Em primeiro lugar, devemos decidir sobre um nı́vel de signi-
ficância ou uma probabilidade de rejeitar H0 quando ela é, de fato, verdadeira. Em termos mais concretos, suponha
que decidimos por um nı́vel de significância de 5%, já que esta é a escolha mais comum. Assim, estamos dispostos
a rejeitar erroneamente H0 , quando ela é verdadeira 5% das vezes. Agora, embora tβb tenha uma distribuição t sob
j
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 37

H0 - de modo que ele tem média igual a zero -, sob a hipótese alternativa β j > 0, o valor esperado de tβb é positivo.
j
Assim, estamos procurando um valor positivo “suficientemente grande” de tβb a fim de rejeitar H0 : β j = 0 em
1
favor de H1 : β j > 0. Valores negativos de tβb não fornecem evidência em favor de H1 .
1
A definição de “suficientemente grande”, com um nı́vel de significância de 5%, é o 95o percentil de uma
distribuição t com n − k − 1 graus de liberdade; denominemos esse ponto de c. Em outras palavras, a regra de
rejeição é que H0 é rejeitada em favor de H1 ao nı́vel de significância de 5%, se

tβb > c5%, unilateral direita , tβb < c5%, unilateral esquerda
j j

Exemplo: Equação do Salário Horário

Usando os dados do arquivo WAGE1, obtemos a equação estimada

log(salarioh) = 0, 284+ 0, 092educ+ 0, 0041exper+ 0, 022perm


(0, 104) (0, 007) (0, 0017) (0, 003)
n = 526, R2 = 0, 316

em que os erros-padrão aparecem em parênteses abaixo dos coeficientes estimados. Seguiremos essa
convenção ao longo do livro. Essa equação pode ser usada para testar se o retorno de exper, controlando
educ e perm, é zero na população, contra a hipótese alternativa de que ele é positivo. Para tanto, escreva
H0 : βexper = 0 vs H1 : βexper > 0.

Lembre-se de que βexper representa o parâmetro populacional desconhecido. Não faz sentido algum
escrever βbexper = 0 ou H0 : 0, 0041 = 0.

Como temos 522 graus de liberdade, podemos usar os valores crı́ticos da distribuição normal padronizada.
O valor critico a 5% é 1, 645, e o valor crı́tico a 1% é 2, 326. A estatı́stica t para βbexper

tβb = 0, 0041/0, 0017 ≈ 2, 41


exper

e portanto βbexper ou exper, é estatisticamente significante mesmo ao nı́vel de 1%. Também dizemos que
βbexper é estatisticamente maior que zero ao nı́vel de significância de 1%.

Exemplo: Teste unilateral para a esquerda

Suponha que
y = 0, 3+ 0, 23x1 −0, 12x2 + 0, 32x3
(0, 10) (0, 07) (0, 055) (0, 03)
n = 526, R2 = 0, 61
e queremos testar H0 : βx2 = 0 vs H1 : βx2 < 0. Como temos 522 graus de liberdade, podemos usar os valores
crı́ticos da distribuição normal padronizada. O valor critico a 5% é −1, 645, e o valor crı́tico a 1% é −2, 326.
A estatı́stica t para βbexper
tβb = −0, 12/0, 055 = −2, 18
x2

e portanto podemos rejeitar a hipótese de que βbx2 seja estatisticamente igual a 0 a 5%, mas não a 1%.

Teste contra Hipóteses Alternativas Bilaterais

Nas aplicações, é comum testar a hipótese nula H0 : β j = 0 contra uma hipótese alternativa bilateral, ou seja,

H1 : β j ̸= 0 (4.1)
38 Prof. Cleiton Guollo Taufemback

Quando a alternativa é bilateral, estamos interessados no valor absoluto da estatı́stica t. A regra de rejeição para
H0 : β j = 0 contra (4.1) é
tβb, > c

Se H0 é rejeitada em favor de (4.1) ao nı́vel de 5%, em geral dizemos que βbj é estatisticamente significante, ou
estatisticamente diferente de zero, ao nı́vel de 5%. Se H0 não é rejeitada, dizemos que βbj é estatisticamente não
significante ao nı́vel de 5%.

Testes de outras Hipóteses sobre β j

Embora H0 : β j = 0 seja a hipótese mais comum, algumas vezes queremos testar se β j é igual a alguma outra
constante dada. Dois exemplos comuns são β j = 1 e β j = −1. Em geral, se a hipótese nula é expressa como

H0 : β j = a j

em que a j é o nosso valor hipotético de β j , então a estatı́stica t apropriada é


   
t = βbj − a j /ep βbj

Assim como antes, t mede quantos desvios-padrão estimados βbj está distante do valor hipotético de β j . A estatı́stica
t geral é usualmente escrita como

(estimativa − valor hipotético)


t= ∼ tn−k−1
erro-padrão

Exemplo: Preços de Casas e Poluição do Ar

Usando os dados do arquivo HPRICE2, o modelo estimado é

log(preco) = 11, 08 −0, 954 log(oxn) −0, 134 log(dist) +0, 255comods −0, 052razestud
(0, 32) (0, 117) (0, 043) (0, 019) (0, 006)
n = 506, R2 = 0, 581

Queremos
 testar H0: β1= −1 contra a hipótese alternativa H1 : β1 ̸= −1. A estatı́stica t para fazer esse teste
é t = β1 + 1 /ep βb1 . A hipótese nula de interesse é H0 : β1 = −1, com a estatı́stica t correspondente
b
(−0, 954 + 1)/0, 117 = 0, 393. Quando a estatı́stica t é pequena como essa, há pouca necessidade de olhar
a tabela t de um valor critico: a elasticidade estimada não é estatisticamente de −1, mesmo a nı́veis de
significância bastante altos. Controlando fatores que incluı́mos, há pouca evidência de que a elasticidade
seja diferente de −1.

Cálculos dos p-valores dos Testes t

Até agora, falamos sobre como testar hipóteses ao usar uma abordagem clássica: após formular a hipótese alter-
nativa, escolhemos um nı́vel de significância, que então determina um valor crı́tico. Uma vez que o valor crı́tico
tenha sido identificado, o valor da estatı́stica t é comparado com o valor crı́tico, e a hipótese nula é rejeitada ou
não, ao nı́vel de significância dado.
Em vez de fazer o teste a diferentes nı́veis de significância, é mais informativo responder à seguinte questão:
dado o valor observado da estatı́stica t, qual é o menor nı́vel de significância ao qual a hipótese nula seria rejeitada?
Esse nı́vel é conhecido como o p-valor do teste.
Como um p-valor é uma probabilidade, seu valor está sempre entre zero e um. A fim de calcular os p-valores,
precisamos de tabelas impressas extremamente detalhadas da distribuição t - o que não é muito prático - ou um
programa de computador que calcule as áreas sob a função densidade de probabilidade da distribuição t. O p-valor,
nesse caso, é
P(|T | > |t|)
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 39

em que T representa uma variável aleatória com distribuição t, com n − k − 1 graus de liberdade, e t é o valor
numérico da estatı́stica de teste. No exemplo com gl = 40 e t = 1, 85, o p-valor é calculado como

p -valor = P(|T | > 1, 85) = 2P(T > 1, 85) = 2(0, 0359) = 0, 0718

Figura 6 Obtendo o p-valor contra uma alternativa bilateral quando t = 1.85 e gl = 40.

Sobre o p-valor

O valor do p-valor corresponde a área além do ponto designado pela estatı́stica do teste t. Logo quanto
maior for a estatı́stica do teste t, menor será o p-valor, e vice-versa. Assim, um p-valor com valor abaixo de
0,05 nos indica que, dado o teste t, rejeitamos a hipótese nula, H0 , a 5% de significância.

p-valor ↑ então t ↓, p-valor ↓ então t ↑ .

Questão: Suponha que você tenha estimado um modelo de regressão e obteve β1 = 0, 56 e p-valor = 0,086
para testar H0 : β1 = 0 contra H1 : β1 ̸= 0. Qual é o p-valor para testar H0 : β1 = 0 contra H1 : β1 > 0?

4.3 Intervalos de Confiança

Sob as hipóteses do modelo linear clássico, podemos


 facilmente
  construir
 um intervalo de confiança (IC) para o
parâmetro populacional β j · Usando o fato de que βbj − βb /ep βbj tem uma distribuição t com n − k − 1 graus
de liberdade, uma simples manipulação algébrica leva a um IC do β j desconhecido. Um intervalo de confiança de
95%, é dado por  
βbj ± c · ep βbj
40 Prof. Cleiton Guollo Taufemback

em que a constante e é o 97,5o percentil de uma distribuição tn−k−1 . Mais precisamente, os limites inferiores e
superiores do intervalo de confiança são dados por
 
β j− ≡ βbj − c · ep βbj

e  
β j+ ≡ βbj + c · ep βbj

respectivamente.

O significado de um intervalo de significância

Se as amostras aleatórias fossem obtidas repetidas vezes, com β j− e β j+ calculados a cada vez, então o
valor populacional (desconhecido) β j estaria dentro do intervalo (β j− , β j+ ) em 95% das amostras. Infeliz-
mente, para a única amostra que usamos para construir o IC, não sabemos se β j está, realmente, contido no
intervalo. Esperamos que tenhamos obtido uma amostra que seja uma das 95% de todas as amostras em que
a estimativa de intervalo contém β j mas não temos essa garantia.

4.4 Testes de Hipóteses sobre uma Combinação Linear dos Parâmetros

Para ilustrar a abordagem geral, consideraremos um modelo simples para comparar os retornos da educação de
cursos superiores profissionalizantes de dois anos (junior colleges) e de cursos superiores de quatro anos (four-
year colleges); por simplicidade, vamos nos referir ao último como “universidades”. A população inclui as pessoas
com o ensino médio completo que trabalham, e o modelo é

log(salario) = β0 + β1CP + β2 univ + β3 exper + u

em que cp é o número de anos frequentados em um curso superior profissionalizante de dois anos e univ é o
número de anos frequentados em um curso superior de quatro anos. Note que qualquer combinação de curso
profissionalizante e curso de quatro anos é permitida, incluindo cp = 0 e univ = 0.
A hipótese de interesse é se um ano no curso profissionalizante é equivalente a um ano na universidade: isso é
expresso como
H0 : β1 = β2
Sob H0 , um ano a mais no curso profissionalizante e um ano a mais na universidade levam ao mesmo aumento
percentual ceteris paribus em salário. Na maioria dos casos, a alternativa de interesse é unilateral: um ano no curso
profissionalizante é menos valioso do que um ano na universidade. Isso é expresso como

H1 : β1 < β2

e testamos usando
βb − βb2
t= 1 .
ep βb1 − βb2

Note que        
Var βb 1 − βb 2 = Var βb 1 + Var βb 2 − 2 Cov βb 1 , βb2 ,

logo
  h  i2 h  i2 1/2
ep β1 − β2 = ep β1
b b b + ep β2
b − 2s12 .

Vamos sugerir uma outra rota que é mais simples de calcular, menos  provável
 de levar a erro e prontamente
aplicável a uma variedade de problemas. Em vez de tentar calcular ep βb1 − βb2 , é muito mais fácil estimar um
modelo diferente que produz, diretamente, o erro-padrão de interesse. Defina um novo parâmetro como a diferença
entre β1 e β2 : θ1 = β1 − β2 . Então, queremos testar
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 41

H0 : θ1 = 0 contra H1 : θ1 < 0

Inserindo em θ1 = β1 − β2 e rearranjando, resulta a equação

log(salario) = β0 + (θ1 + β2 ) cp + β2 univ + β3 exper + u


= β0 + θ1 cp + β2 (cp + univ) + β3 exper + u

agora defina totgrad = cp + univ e escreva

log(salario) = β0 + θ1 cp + β2totgrad + β3 exper + u.

Teste Wald para múltiplos parâmetros

O teste de Wald pode ser usado para testar uma única hipótese com vários parâmetros, bem como para
testar conjuntamente várias hipóteses em parâmetros únicos / múltiplos. Seja θbn seja nosso estimador de
amostra de parâmetros (k + 1) (ou seja, θbn é um vetor (k + 1) × 1, que deve seguir assintoticamente uma
√ D
distribuição normal com a matriz de covariância V , n(θbn − θ )−
→N(0,V ). O teste das q hipóteses nos (k +1)
parâmetros é expresso com uma matriz R, q × (k + 1):

H0 : Rθ = r
H1 : Rθ ̸= r

A estatı́stica do teste é dada por:


′ ′ D
(Rθbn − r) [R(Vbn /n)R ]−1 (Rθbn − r) −
→ χq2

Exemplo: No caso anterior temos θbn = (βb0 , βb1 , βb2 , βb3 )′ e querı́amos testar se β1 = β2 . Logo temos

R = [0, 1, −1, 0] , r = 0.

Como resultado teremos,


      −1
(β1 − β2 )′ Var βb 1 + Var βb 2 − 2 Cov βb 1 , βb2 (β1 − β2 )

se aplicarmos a raiz quadrada teremos o nosso teste t usual.


Obs: Isto não está no Wooldridge, mas é a forma mais comum de fazer os testes entre parâmetros na
prática.

4.5 Testes de Restrições Lineares Múltiplas: O Teste F

Até agora, somente cobrimos hipóteses que envolvem uma única restrição. Frequentemente, desejamos testar
hipóteses múltiplas sobre os parâmetros subjacentes β0 , βb1 , . . . , βbk . Vamos começar com o caso de testar se um
conjunto de variáveis independentes não tem efeito parcial sobre uma variável dependente.

Teste de Restrições de Exclusão

Vamos considerar o seguinte modelo que explica os salários dos jogadores da principal liga de beisebol dos Estados
Unidos:
log(salario) = β0 + β1 anos + β2 jogosano + β3 rebmed+
(4.2)
β4 hrunano + β5 rebrunano + u
em que salario é o salário total do jogador em 1993, anos corresponde aos anos do jogador na liga, jogosano é
a média de partidas jogadas por ano, rebmed é a média de rebatidas na carreira do jogador, hrunano corresponde
42 Prof. Cleiton Guollo Taufemback

a rebatidas que resultaram em pontos (volta completa por todas as bases) por ano, e rebrunano corresponde a
rebatidas que redundaram cm corrida até a próxima base por ano.
Suponha que queiramos testar a hipótese nula de que, uma vez que anos na liga e jogos por ano foram contro-
lados, as estatı́sticas que medem o desempenho - rebmed, hrunano e rebrunano - não têm efeito sobre o salário.
Essencialmente, a hipótese nula expressa que a produtividade, medida pelas estatı́sticas do beisebol, não tem efeito
sobre o salário. Ou seja,
H0 : β3 = 0, β4 = 0, β5 = 0
e a hipótese alternativa é simplesmente
H1 : H0 não é verdadeira.
Esse é um exemplo de conjunto de restrições múltiplas porque estamos colocando mais de uma restrição sobre
os parâmetros. Um teste de restrições múltiplas é chamado teste de hipóteses múltiplas ou o teste de hipóteses
conjuntas.
Usar estatı́sticas t separadas para testar uma hipótese múltipla pode ser muito enganoso. Precisamos de uma
maneira para testar as restrições de exclusão conjuntamente. Para ilustrar, estimamos a equação (4.2) usando os
dados do arquivo MLBl. Obtemos

log(salario) = 11, 10 +0, 0689anos +0, 0126 jogosano


(0, 29) (0, 0121) (0, 0026)
+0, 00098rebmed +0, 0144hrunano +0, 0108rebrunano
(0, 00110) (0, 0161) (0, 0072)
n = 353, SQR = 183, 186, R2 = 0, 6278

em que SQR é a soma dos resı́duos quadrados.


Lembre-se de que, como as estimativas de MQO são escolhidas para minimizar a soma dos resı́duos quadrados,
o SQR sempre aumenta quando variáveis são retiradas do modelo; esse é um fato algébrico. A questão é saber se
esse aumento é suficientemente grande, relativamente ao SQR do modelo com todas as variáveis, para garantir a
rejeição da hipótese nula.
O modelo estimado sem as três variáveis em questão é simplesmente

log(salario) = 11, 22 +0, 0713anos +0, 0202 jogosano


(0, 11) (0, 0125) (0, 0013)
n = 353, SQR = 198, 311, R2 = 0, 5971

Agora, precisamos de uma maneira de combinar as informações dos dois SQRs para obter uma estatı́stica de
teste com uma distribuição conhecida sob H0 . De uma forma geral, temos o modelo irrestrito dado por

y = β0 + β1 x1 + . . . βk xk + u (4.3)

O número de parâmetros no modelo irrestrito é k + 1. Suponha que temos q restrições de exclusão para testar:
isto é, a hipótese nula afirma que q variáveis em (4.3) têm coeficientes zero. Por simplicidade notacional, as-
suma que sejam as q últimas variáveis da lista de variáveis independentes: xk−1+1 , . . . , xk . (A ordem das variáveis,
evidentemente, é arbitrária e não importa.) A hipótese nula é formulada como

H0 : βk−q+1 = 0, . . . , βk = 0

Quando impomos as restrições sob H0 . ficamos com o modelo restrito:

y = β0 + β1 x1 + . . . + βk−q xk−q + u

Se o aumento relativo em SQR quando nos movemos do modelo irrestrito para o restrito for significativo,
devemos rejeitar H0 . Para tal, usamos a estatı́stica F definida como

(SQRr − SQRir ) /q
F≡ ∼ Fq,n−k−1 . (4.4)
SQRir /(n − k − 1)

em que SQRr é a soma dos resı́duos quadrados do modelo restrito, e SQRir é a soma dos resı́duos quadrados do
modelo irrestrito.
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 43

Você deveria observar imediatamente que, como SQRr não pode ser menor que SQRir a estatı́stica F é sempre
não-negativa (e quase sempre estritamente positiva). Assim, se você calcular uma estatı́stica F negativa, algo está
errado; em geral, a ordem dos SQRs no numerador de F é equivocadamente invertida.
Voltando ao exemplo, temos

(198, 311 − 183, 186)/3


F= ≈ 9, 55 > cF3,347 = 3.881.
183, 186/347

Esse número está bem acima do valor crı́tico de 1% da distribuição F com 3 e 347 graus de liberdade e, portanto,
rejeitamos completamente a hipótese de que rebmed, hrunano e rebrunano não têm efeito sobre o salário.
O resultado do teste conjunto pode parecer surpreendente à luz das estatı́sticas t não significantes das três
variáveis. O que está acontece é que as variáveis hrunano e rebnmano são altamente correlacionadas, e essa multi-
colinearidade torna difı́cil descobrir o efeito parcial de cada variável; isso é refletido nas estatı́sticas t individuais.
A estatı́stica F testa se essas variáveis (incluindo rebmed) são conjuntamente significantes, e a multicolinearidade
entre hrunano e rebrunano é muito menos relevante para testar essa hipótese . No Problema 4.16, pediremos que
você estime novamente o modelo retirando rebrunano, caso em que hrunano torna-se muito significante. O mesmo
é verdadeiro para rebrunano quando hrunano é retirado do modelo.

Agora usando o R

Exemplo utilizando o conjunto de dados MLBl do Wooldridge.


library(wooldridge) # Chama o pacote para ser usado nessa sessão
library(car) # Chama o pacote car, para realizar o teste F
data(’mlb1’) # Define o conjuto de dados a ser usado

# Executa a regressão linear


model <- lm(formula = log(salary) ˜ years + gamesyr + bavg
+ hrunsyr + rbisyr , data = mlb1)
summary(model)

# Teste F
linearHypothesis(model, c("bavg=0", "hrunsyr=0", "rbisyr=0"))

# Mesma regressão, porém sem a variável rbisyr


model <- lm(formula = log(salary) ˜ years + gamesyr + bavg
+ hrunsyr , data = mlb1)
summary(model)
como resultado temos
# Executa a regressão linear
Call:
lm(formula = log(salary) ˜ years + gamesyr + bavg + hrunsyr +
rbisyr, data = mlb1)

Residuals:
Min 1Q Median 3Q Max
-3.02508 -0.45034 -0.04013 0.47014 2.68924

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.119e+01 2.888e-01 38.752 < 2e-16 ***
years 6.886e-02 1.211e-02 5.684 2.79e-08 ***
gamesyr 1.255e-02 2.647e-03 4.742 3.09e-06 ***
bavg 9.786e-04 1.104e-03 0.887 0.376
hrunsyr 1.443e-02 1.606e-02 0.899 0.369
rbisyr 1.077e-02 7.175e-03 1.500 0.134
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
44 Prof. Cleiton Guollo Taufemback

Residual standard error: 0.7266 on 347 degrees of freedom


Multiple R-squared: 0.6278,Adjusted R-squared: 0.6224
F-statistic: 117.1 on 5 and 347 DF, p-value: < 2.2e-16

# Teste F

Hypothesis:
bavg = 0
hrunsyr = 0
rbisyr = 0

Model 1: restricted model


Model 2: log(salary) ˜ years + gamesyr + bavg + hrunsyr + rbisyr

[Link] RSS Df Sum of Sq F Pr(>F)


1 350 198.31
2 347 183.19 3 15.125 9.5503 4.474e-06 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

# Mesma regressão, porém sem a variável rbisyr

Call:
lm(formula = log(salary) ˜ years + gamesyr + bavg + hrunsyr,
data = mlb1)

Residuals:
Min 1Q Median 3Q Max
-3.0642 -0.4614 -0.0271 0.4654 2.7216

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 11.020913 0.265719 41.476 < 2e-16 ***
years 0.067732 0.012113 5.592 4.55e-08 ***
gamesyr 0.015759 0.001564 10.079 < 2e-16 ***
bavg 0.001419 0.001066 1.331 0.184
hrunsyr 0.035943 0.007241 4.964 1.08e-06 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.7279 on 348 degrees of freedom


Multiple R-squared: 0.6254,Adjusted R-squared: 0.6211
F-statistic: 145.2 on 4 and 348 DF, p-value: < 2.2e-16
Obs: o “F-statistic” apresentado pelo “summary(model)” representa o teste que os coeficientes das k
variáveis, com a exceção do intercepto, são iguais a zero.

A Forma R-quadrado da Estatı́stica F

Usando o fato de que SQRr = SQT 1 − R2r e SQRir = SQT 1 − R2ir , podemos substituir esses termos em ( 4.4)
 

para obter
R2i − R2r /q

F≡ 
1 − R2i /(n − k − 1)
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 45

Isso se chama a forma R-quadrado da estatı́stica F.

A Estatı́stica F para a Significância Geral de uma Regressão

Um conjunto especial de restrições de exclusão é rotineiramente testado por muitos programas de regressão. Essas
restrições têm a mesma interpretação, independentemente do modelo. No modelo com k variáveis independentes,
podemos escrever a hipótese nula como

H0 : x1 , x2 , . . . , xk não ajudam a explicar y

Essa hipótese nula é, de certa maneira, muito pessimista. Ela afirma que nenhuma das variáveis explicativas tem
um efeito sobre y. Expressa em termos dos parâmetros, a hipótese nula é que todos os parâmetros de inclinação
são zero:
H0 : β1 = β2 = . . . = βk = 0 (4.5)
e a hipótese alternativa é que pelo menos um dos β j seja diferente de zero.
Portanto, a estatı́stica F para testar (4.5) pode ser escrita como

R2 /k
(4.6)
(1 − R2 ) /(n − k − 1)

em que R2 é exatamente o R-quadrado usual da regressão de y sobre x1 , x2 , . . . , xk .

Cálculo dos p-Valores para Testes F

No contexto do teste F, o p-valor é definido como

p -valor = P(F > F)

em que, para enfatizar, F representa uma variável aleatória F com(q, n − k − 1) graus de liberdade, e F é o valor
real da estatı́stica de teste. O p-valor ainda tem a mesma interpretação que ele tinha para a estatı́stica t: ele é a
probabilidade de observarmos um valor de F pelo menos tão grande quanto aquele que encontramos, dado que a
hipótese nula é verdadeira. Um p-valor pequeno é evidência contra H0 .

Teste de Restrições Lineares Gerais

Como um exemplo, considere a seguinte equação:

log (preco) = β0 + β1 log(aval) + β2 log(tamterr)


(4.7)
+ β3 log(arquad)) + β4 qtdorm + u

em que preco é o preço das casas, aval é o valor avaliado das casas (antes de elas serem vendidas), tamterr é o
tamanho dos terrenos, em pés quadrados, arquad é a área da casa em m2 e qtdorm é o número de quartos. Agora,
suponha que gostarı́amos de testar se o preço de avaliação elas casas é uma avaliação racional. Nesse caso, uma
variação de 1% em aval deve estar associada a uma variação de 1% em preço; isto é, β1 = 1. Além disso, tamterr,
arquad, e qtdorm não devem ajudar a explicar log(preco), uma vez que o valor de avaliação tenha sido controlado.
Juntas essas hipóteses podem ser expressas como

H0 : β1 = 1, β2 = 0, β3 = 0, β4 = 0

Como podemos utilizar o teste F agora? Primeiro, estimamos o modelo irrestrito (4.7) e obtemos o SQRir .
Depois aplicamos as restrições, de tal forma que agora temos

log (price) = β0 + log(assess) + u

assumindo z = log (price) − log(assess), temos agora

z = β0 + u (4.8)
46 Prof. Cleiton Guollo Taufemback

onde (4.8) é o nosso modelo restrito. Note que podemos fazer essas manipulações sempre que o modelo restrito
seja um caso especial do modelo irrestrito.

Agora usando o R

Exemplo utilizando o conjunto de dados HPRICE1 do Wooldridge.


library(wooldridge) # Chama o pacote para ser usado nessa sessão
library(car) # Chama o pacote car, para realizar o teste F
data(’hprice1’) # Define o conjuto de dados a ser usado

# Executa a regressão linear


model <- lm(formula = log(price) ˜ log(assess) + log(lotsize) + log(sqrft)
+ bdrms , data = hprice1)
summary(model)

# Teste F
linearHypothesis(model, c("log(assess)=1", "log(lotsize)=0",
"log(sqrft)=0", "bdrms=0"))
como resultado temos
Call:
lm(formula = log(price) ˜ log(assess) + log(lotsize) + log(sqrft) +
bdrms, data = hprice1)

Residuals:
Min 1Q Median 3Q Max
-0.53337 -0.06333 0.00686 0.07836 0.60825

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.263743 0.569665 0.463 0.645
log(assess) 1.043066 0.151446 6.887 1.01e-09 ***
log(lotsize) 0.007438 0.038561 0.193 0.848
log(sqrft) -0.103239 0.138430 -0.746 0.458
bdrms 0.033839 0.022098 1.531 0.129
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.1481 on 83 degrees of freedom


Multiple R-squared: 0.7728,Adjusted R-squared: 0.7619
F-statistic: 70.58 on 4 and 83 DF, p-value: < 2.2e-16

# Teste F

Hypothesis:
log(assess) = 1
log(lotsize) = 0
log(sqrft) = 0
bdrms = 0

Model 1: restricted model


Model 2: log(price) ˜ log(assess) + log(lotsize) + log(sqrft) + bdrms

[Link] RSS Df Sum of Sq F Pr(>F)


1 87 1.8801
2 83 1.8215 4 0.05862 0.6678 0.6162

Dado o p-valor, 0,6162, não há, evidência contra a hipótese de que os valores de avaliação sejam racionais.
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 47

5 Análise de Regressão Múltipla: MQO Assimptótico

Não iremos abortar as caracterı́sticas assintóticas dos estimadores nessa disciplina. Vocês verão um pouco sobre
esse assunto nos semestres seguintes.
48 Prof. Cleiton Guollo Taufemback
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 49

6 Análise de Regressão Múltipla: Problemas Adicionais

6.1 Efeitos da Dimensão dos Dados nas Estatı́sticas MQO

Começamos com uma equação relacionando o peso dos recém-nascidos com o hábito de fumar e a renda familiar:

ˆ = βb0 + βb1 cigs + βb2 rend f am


peso

onde peso é o peso dos recém-nascidos, em gramas, cigs é o número médio de cigarros que a mãe fumou por dia
durante a gravidez, e rendfam é a renda anual familiar, em milhares de dólares. Agora, suponha que decidimos
medir o peso dos recém-nascidos em quilos, em vez de onças. Façamos pesoKg = peso/1000 ser o peso dos recém-
nascidos em quilogramas. O que acontece com nossas estatı́sticas MQO se usarmos essa variável dependente em
nossa equação? É fácil verificar o efeito no coeficiente da estimativa pela simples manipulação da equação acima.
Divida a equação inteira por 16:
   
peso/1000 = βb0 /1000 + βb1 /1000 cigs + βb2 /1000 rend f am.

E quanto à significância estatı́stica? Como esperado, a alteração da variável dependente de gramas para quilos
não tem efeito sobre o quanto são estatisticamente importantes as variáveis independentes. Os erros-padrão são
agora 1000 vezes menores que antes. Alguns cálculos rápidos mostram que as estatı́sticas t continuam idênticas.
Os pontos extremos dos intervalos de confiança são exatamente os pontos extremos anteriores divididos por 1000.
Isso ocorre porque os ICs mudam pelos mesmos fatores dos erros-padrão. Em termos de grau de ajuste, os R-
quadrados das duas regressões são idênticos, como esperado.
Continuando, retomemos à unidade de medida original da variável dependente: pesonas é medido em onças.
Vamos alterar a unidade de medida de uma das variáveis independentes, cigs. Defina maços como sendo a quanti-
dade de maços de cigarros fumados por dia. Assim, macos = cigs/20. Agora, o que acontece com os coeficientes e
outras estatı́sticas MQO? Dessa forma, podemos escrever
   
ˆ = βb0 + 20βb1 (cigs/20) + βb2 rend f am = βb0 + 20βb1 maços + βb2 rend f am.
peso

Portanto, o intercepto e o coeficiente de inclinação de rendfam não se alteraram, mas o coeficiente de maços é 20
vezes o de cigs.

Os Coeficientes Beta

Algumas vezes, em aplicações econométricas, uma variável-chave é medida em uma dimensão de difı́cil interpretação.
Economistas especializados na área de trabalho frequentemente incluem a pontuação de testes de conhecimen-
tos em equações salariais, e a dimensão em que tais testes são registrados muitas vezes é arbitrária e de difı́cil
interpretação. Em quase todos os casos estamos interessados em saber como a pontuação de um indivı́duo em
particular se compara com a população. Assim, em lugar de perguntarmos a respeito do efeito sobre o salário por
hora se, digamos, a pontuação do teste for dez pontos mais alta, faz mais sentido perguntar o que acontece quando
a pontuação do teste for um desvio-padrão mais alto.
Por que a padronização é útil? É mais fácil começarmos com a equação MQO original, com as variáveis em
suas formas originais:
yi = βb0 + βb1 xi1 + βb2 xi2 + . . . + βbk xik + ub (6.1)
Incluı́mos o subscrito de observação i para enfatizar que nossa padronização é aplicada a todos os valores da
amostra. Agora, se ao calcularmos a média de (6.1), usarmos o fato de que ubi tem uma média de amostra zero, e
subtrairmos o resultado de (6.1), temos

yi − ȳ = βb1 (xi1 − x̄1 ) + βb2 (xi2 − x̄2 ) + . . . + βbk (xik − x̄k ) + ubi

Em seguida, definamos σby como o desvio-padrão da amostra da variável dependente, σ b1 como o dp da amostra
da x1 , σ
b2 como o dp da amostra de x2 , e sucessivamente. Agora, um pouco de álgebra produz a equação

(yi − ȳ) /σ
by = (σ b1 /σby ) βb1 [(xi1 − x̄1 ) /σ
b1 ] + . . .
(6.2)
+ (σ by ) βk [(xik − x̄k ) /σ
bk /σ b bk ] + (b
ui /σby )
50 Prof. Cleiton Guollo Taufemback

Cada variável em ( 6.2)) foi padronizada pela substituição de suas médias por seus valores de z, e isso resultou
em novos coeficientes de inclinação. Por exemplo, o coeficiente de inclinação de (xi1 − x̄1 ) /σ
b1 é (σ
b1 /σ
by ) βb1 . Isso
é simplesmente o coeficiente original, βb1 , multiplicado pela razão do desvio-padrão de x1 sobre o desvio-padrão
de y. O intercepto simplesmente desapareceu.
E útil reescrever ( 6.2), eliminando o subscrito i, como

zy = b
b1 z1 + b
b2 z2 + . . . + b
bk zk + erro

onde zy é o valor de z de y, z1 é o valor de z de x1 , e assim por diante. Os novos coeficientes são

b j = (σb j /σ
b by ) βbj para j = 1, . . . , k

Esses b
b j são tradicionalmente chamados de coeficientes padronizados ou coeficientes beta.

Efeitos da Poluição sobre os Preços de Imóveis

Utilizamos os dados do arquivo HPRICE2 para ilustrar o uso de coeficientes beta. Lembre-se de que a
principal variável independente é oxn, uma medida do óxido nitroso no ar em cada comunidade. A equação
populacional é o modelo nı́vel-nı́vel

preco = β0 + β1 oxn + β2 crime + β3 comods + β4 dist + β5 razestud + u

Os coeficientes beta aparecem na seguinte equação

zpreco = −0, 340zoxn − 0, 143zcrime + 0, 514zcomods − 0, 235zdist − 0, 270zrazestud.

O uso de variáveis padronizadas ou não padronizadas não afetará a significância estatı́stica: as estatı́sticas
t serão as mesmas, em ambos os casos.

6.2 Um pouco mais sobre a Forma Funcional

Em vários dos exemplos anteriores, encontramos o artifı́cio mais comum em econometria para permitir relações
não lineares entre a variável explicada e as variáveis explicativas: o uso de logaritmos das variáveis dependentes
ou independentes. Também vimos modelos contendo os quadrados de algumas variáveis explicativas, mas ainda
precisamos discorrer sobre um tratamento sistemático desses tópicos. Nesta seção, trataremos de algumas variações
e extensões sobre formas funcionais que surgem frequentemente em trabalhos aplicados.

Um pouco mais sobre o Uso de Formas Funcionais Logarı́tmicas

O uso de logs normalmente estreita a amplitude dos valores das variáveis, em alguns casos em quantidade consi-
derável. Isso toma as estimativas menos sensı́veis a observações dı́spares (ou extremas) na variável dependente ou
nas variáveis independentes. Abordaremos a questão das observações extremas no Capı́tulo 9.
Existem algumas regras práticas padronizadas para o uso de logs, embora nenhuma definitiva. Quando a variável
é um valor monetário positivo, ele frequentemente é transformado em log. Temos visto isso para variáveis como
salários, vendas de empresas e valores de mercado das empresas. Variáveis como população, número total de em-
pregados e matrı́culas escolares frequentemente aparecem em forma logarı́tmica; elas têm a caracterı́stica comum
de serem grandes valores inteiros.
Variáveis que são medidas em anos - como educação, experiência, tempo de permanência, idade etc. - nor-
malmente aparecem em sua forma original. Uma variável que seja uma proporção ou uma percentagem - como
a taxa de desemprego, a taxa de participação em planos de aposentadoria, a taxa de estudantes aprovados em um
exame padronizado e a taxa de detenção sobre crimes registrados - pode aparecer tanto em sua forma original
como logarı́tmica, embora haja uma tendência em usá-la em forma de nı́vel. Isso se deve ao fato de que quaisquer
coeficientes de regressão envolvendo a variável original - seja ela a variável dependente ou independente - terão
uma interpretação de mudança de pontos percentuais.
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 51

No Capı́tulo 2 vimos que se temos um modelo log-nı́vel, ou seja, a variável dependente é log(y) e a independente
x, tı́nhamos que %∆ y = 100 · β1 ∆ x. Porém isso é apenas uma aproximação. Uma aproximação que só é boa para
pequenos valores de β . Felizmente, existe um cálculo simples para computar a percentagem exata de mudança. O
uso de simples propriedades algébricas das funções exponenciais e logarı́tmicas produz a percentagem exata de
mudança no y estimado como
      
y1 y1 β1 ∆ x
 y1 y0  
log = β1 ∆ x1 ⇒ = e ⇒ 100 − = 100 eβ1 ∆ x − 1 ⇒ %∆ y = 100(eβ1 ∆ x − 1).
y0 y0 y0 y0

Ou seja, para ∆ log(y) = βb∆ x temos que


h   i
%∆by = 100 · exp βb∆ x − 1

Modelos com Funções Quadráticas

As funções quadráticas também são usadas com bastante frequência em economia aplicada para capturar efeitos
marginais crescentes ou decrescentes. No caso mais simples, y depende de um único fator observado x, mas de
uma forma quadrática:
y = β0 + β1 x + β2 x2 + u
É importante lembrar que β1 não mede a mudança em y em relação a x; não faz sentido manter x2 fixo quando
se altera x. Se escrevermos a equação estimada como

yb = βb0 + βb1 x + βb2 x2

teremos a aproximação  
∆ yb ≈ βb1 + 2βb2 x ∆ x, e assim ∆ yb/∆ x ≈ βb1 + 2βb2 x.

Obs: derive a primeira equação em respeito a x para obter a segunda.


Em muitas aplicações, β1 é positivo, e β2 é negativo. Por exemplo, utilizando os dados de salários contidos no
arquivo WAGEI, obtemos
salarioh = 3, 73 +0, 298exper −0, 0061exper2
(0, 35) (0, 041) (0, 0009)
2
n = 526, R = 0, 093
Quando o coeficiente de x é positivo e o coeficiente de x2 é negativo, a função quadrática tem um formato
parabólico. Sempre existe um valor positivo de x, no qual o efeito de x sobre y é zero; antes desse ponto, x tem um
efeito positivo sobre y; após esse ponto, x tem um efeito negativo sobre y. Na prática, pode ser importante saber
onde fica esse ponto crı́tico. Para isso iguale ∆ y a 0 e encontramos:
 
x∗ = βb1 / 2βb2

Efeitos da Poluição sobre os Preços de Imóveis

Seja o modelo,
log (preco) =β0 + β1 log(oxn) + β2 log(dist) + β3 comods

+ β4 comods2 + β5 razestud + u
O modelo estimado utilizando os dados contidos no arquivo HPRICE2 é

preco) =
log(\ 13, 39 −0, 902 log(oxn) −0, 087 log(dist)
(0, 57) (0, 115) (0, 043)

−0, 545comods +0, 062comods2 −0, 48razestud


(0, 165) (0, 013) (0, 006)
n = 506, R2 = 0, 603.
52 Prof. Cleiton Guollo Taufemback

Como o coeficiente de comods é negativo e o coeficiente de comods2 é positivo, a equação literalmente


sugere que, com valores baixos de comods, um cômodo adicional tem um efeito negativo sobre log(preço).
Em algum ponto, o efeito se torna positivo, e a forma quadrática significa que a semi-elasticidade de preço
em relação a comods cresce na mesma proporção do crescimento de comods.
O valor do ponto crı́tico de comods é comods∗ = 0, 545/[2(0, 062)] ≈ 4, 4. Será que podemos acreditar
que se iniciarmos com três cômodos e aumentarmos para quatro isso efetivamente reduzirá o valor esperado
do imóvel? Provavelmente não. Acontece que somente cinco das 506 comunidades na amostra possuem
imóveis com média de 4,4 cômodos ou menos, cerca de 1% da amostragem. Isso é tão pequeno que a função
quadrática à esquerda de 4,4 pode, para fins práticos, ser ignorada.

Existem muitas outras possibilidades de usar funções quadráticas juntamente com logaritmos. Por exemplo,
seja
log(preco) =β0 + β1 log(oxn) + β2 [log(oxn)]2
+ β3 crime + β4 comods + β5 comods2 + β6 razestud + u,
podemos combinar os argumentos dos efeitos parciais nos modelos quadrático e logarı́tmico para mostrar que

%∆ preco ≈ [β1 + 2β2 log(oxn)] %∆ oxn

portanto, a elasticidade do preço em relação a oxn é β1 + 2β2 log(oxn), de forma que ela depende de log(oxn).

Modelos com Termos de Interação

Algumas vezes, é natural que o efeito parcial, a elasticidade, ou a semi-elasticidade da variável dependente, em
relação a uma variável explicativa, dependa da magnitude de outra variável explicativa. Por exemplo, no modelo

preco = β0 + β1 arquad + β2 qtdorm + β3 arquad · qtdorm + β4 banhos + u

o efeito parcial de qtdorm sobre preço (mantendo fixas todas as outras variáveis) é

∆ preco
= β2 + β3 arquad.
∆ qtdorm
Em outras palavras, existe um efeito de interação entre a área do imóvel e o número de quartos.

6.3 Um pouco mais sobre o Grau de Ajuste e a Seleção de Regressores

O R-Quadrado Ajustado

A maioria dos programas econométricos registra, juntamente com o R-quadrado, uma estatı́stica chamada R-
quadrado ajustado. Como o R-quadrado ajustado é descrito em muitos trabalhos aplicados, e como ele tem algumas
caracterı́sticas úteis, trataremos dele nesta subseção.
O R2 estima σu2 por SQR/n, que sabemos ser viesado. Então, por que não substituir SQR/n por SQR /(n − k −
1)? Além disso, podemos usar SQT /(n − 1) em lugar de SQT /n, já que o primeiro é estimador não-viesado de σy2 .
Usando esses estimadores, chegamos ao R -quadrado ajustado:

R̄2 = 1 − [SQR/(n − k − 1)]/[SQT/(n − 1)]


b 2 /[SQT/(n − 1)]
= 1−σ

b 2 = SQR/(n − k − 1).
já que σ
O R-quadrado ajustado algumas vezes é chamado de R-quadrado corrigido, mas esse não é um bom nome, pois
sugere que R2 é de alguma forma melhor que R2 como um estimador do R -quadrado da população. Infelizmente,
R̄2 não é reconhecido, de forma geral, como un melhor estimador. É tentador imaginar que R̄2 corrige o viés de R2
na estimativa do R -quadrado da população, mas ele não faz isso: a razão de dois estimadores não-viesados não é
um estimador não-viesado.
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 53

O ponto mais atraente do R̄2 é que ele impõe uma penalidade à inclusão de variáveis independentes adicionais
em um modelo. Sabemos que R2 nunca pode diminuir quando uma nova variável independente eb incluı́da em uma
equação de regressão: isso ocorre porque SQR nunca aumenta (e normalmente diminui quando novas variáveis
independentes são adicionadas. Mas a fórmula do R̄2 mostra que ele depende explicitamente de k, o número
de variáveis independentes. Se uma variável independente for adicionada a uma regressão, SQR diminui, mas o
mesmo acontece com os gl na regressão, n − k − 1. Portanto, SQR/(n − k − 1) pode aumentar ou diminuir quando
uma nova variável independente é adicionada a uma regressão.
Um fato algébrico interessante é o seguinte: se adicionarmos uma nova variável independente a uma equação de
regressão, R̄2 aumenta se, e somente se, a estatı́stica t da nova variável for maior que um em valor absoluto. (Uma
extensão disto é que R̄2 aumenta quando um grupo de variáveis é adicionado a uma regressão se, e somente se, a
estatı́stica F da significância conjunta das novas variáveis for maior que a unidade.) Assim, vemos imediatamente
que usar o R̄2 para decidir se determinada variável independente (ou conjunto de variáveis) pertence a um modelo
nos fornece uma resposta diferente daquelas fornecidas pelos testes usuais t ou F (já que uma estatı́stica t ou F
igual à unidade não é estatisticamente significante aos nı́veis tradicionais de significância).
Algumas vezes é útil termos uma fórmula do R̄2 em termos de R2 . A álgebra simples mostra que

R̄2 = 1 − 1 − R2 (n − 1)/(n − k − 1)


O Uso do R-quadrado Ajustado para a Escolha entre Modelos Não-Aninhados

Seja lzrunano e rebrunano duas variáveis altamente correlacionadas, de modo que podemos querer optar entre os
modelos
log(salario) = β0 + β1 anos + β2 jogosano + β3 rebmed + β4 lzrunano + u
e
log(salario) = β0 + β1 anos + β2 jogosano + β3 rebmed + β4 rebrunano + u .
Esses dois exemplos são modelos não-aninhados, pois nenhuma equação é um caso especial da outra. A
estatı́stica F, que estudamos no Capı́tulo 4, nos permite testar somente modelos aninhados: um modelo (o modelo
restrito) é um caso especial do outro modelo (o modelo sem restrições).
Na regressão dos salários dos jogadores de beisebol, o R̄2 da regressão contendo lzrunano é 0,6211 e o R̄2 da
regressão contendo rebrunano é 0,6226. Portanto, com base no R-quadrado ajustado, existe uma preferência muito
pequena para o modelo com rebrunano.

6.4 Previsão e Análise de Resı́duos

As previsões certamente são úteis, mas estão sujeitas à variação amostral, já que elas são obtidas com o uso dos
estimadores MQO. Assim, nesta seção, mostramos como obter intervalos de confiança de previsões da linha de
regressão MQO.

Intervalos de Confiança de Previsões

Suponha que tenhamos estimado a equação

yb = βb0 + βb1 x1 + βb2 x2 + . . . + βbk xk

Quando inserimos valores especı́ficos das variáveis independentes nessa equação, obtemos uma previsão de y, que é
uma estimativa do valor esperado de y, dados os valores especı́ficos das variáveis explicativas. Para enfatizar, sejam
c1 , c2 , . . . , ck valores particulares de cada uma das k variáveis independentes; elas poderão ou não corresponder a
um ponto efetivo dos dados em nossa amostra. O parâmetro que gostarı́amos de estimar é

θ0 = β0 + β1 c1 + β2 c2 + . . . + βk ck
= E (y|x1 = c1 , x2 = c2 , . . . , xk = ck )

O estimador de θ0 é
θb0 = βb0 + βb1 c1 + βb2 c2 + . . . + βbk ck
54 Prof. Cleiton Guollo Taufemback

Mas qual o intervalo de confiança de θb0 ? Escreva β0 = θ0 − β1 c1 − . . . − βk ck , logo

y = θ0 + β1 (x1 − c1 ) + β2 (x2 − c2 ) + . . . + βk (xk − ck ) + u (6.3)

O valor previsto por θb0 e, mais importante, seu erro-padrão, são obtidos do intercepto (ou constante) na regressão
(6.3).

(Intervalo de Confiança de nmgrad Previsto)

Utilizando os dados contidos no arquivo GPA2, obtemos a seguinte equação para prever nmgrad:

grad = 1, 493
nmb +0, 00149sat −0, 01386emperc
(0, 075) (0, 00007) (0, 00056)
−0, 06088tamclas +0, 00546tamclas2
(0, 1650) (0, 00227)
n = 4.137, R2 = 0, 278, R̄2 = 0, 277, σb = 0, 560

Qual a previsão, e o intervalo de confiança, de nmgrad quando sat = 1.200, emperc = 30 e tamclas = 5?
Defina sat0 = sat −1.200, emperc0 = emperc−30, tamclas0 = tamclas−5 e tamclasquad0 = tamclas2 −25.
Quando fazemos a regressão de nmgrad sobre essas novas variáveis independentes, obtemos

grad = 2, 700
nmb +0, 00149sat 0 −0, 01386emperc0
(0, 020) (0, 00007) (0, 00056)
−0, 06088tamclas0 +0, 00546tamcla20
(0, 1650) (0, 00227)
n = 4.137, R2 = 0, 278, R̄2 = 0, 277, σ
b = 0, 560

A única diferença entre a primeira e a segunda regressão é o intercepto, que é a previsão que queremos,
juntamente com seu erro-padrão, 0,020. Não é por acidente que os coeficientes de inclinação, seus erros-
padrão, R-quadrado etc. são os mesmos de antes; esse fato fornece uma maneira de verificarmos se foram
feitas as transformações adequadas. Podemos construir com facilidade um intervalo de confiança de 95% da
nota média esperada:
IC(θ0 , 95%) = 2, 70 ± 1, 96(0, 020), ou [2, 66, 2, 74].

Entretanto, um intervalo de confiança da média pessoal na subpopulação não é a mesma coisa que um intervalo
de confiança de uma unidade particular (indivı́duo, famı́lia, empresa etc.) da população. Na formação de um inter-
valo de confiança de um resultado desconhecido de y, devemos avaliar outra fonte muito importante de variação:
a variância no erro não observado, que registra nosso desconhecimento dos fatores não observados que afetam y.
Seja y0 o valor para o qual gostarı́amos de construir um intervalo de confiança, que algumas vezes chamamos de
intervalo de previsão. Por exemplo, y0 poderia representar uma pessoa ou uma empresa que não esteja em nossa
amostra original. Façamos x10 . . . , xk0 serem os novos valores das variáveis independentes, que assumimos observar,
e u0 ser o erro não observado. Portanto, temos

y0 = β0 + β1 x10 + β2 x20 + . . . + βk xk0 + u0 .

Como antes, nossa melhor previsão de y0 é o valor esperado de y0 , dadas as variáveis explicativas que estimamos
da linha de regressão MQO: yb0 = βb0 + βb1 x10 + βb2 x20 + . . . + βbk xk0 . O erro de previsão com o uso de yb0 para prever y0

eb0 = y0 − yb0 = β0 + β1 x10 + . . . + βk xk0 + u0 − yb0


A variância do erro de previsão (condicional a todos os valores das variáveis independentes incluı́das na amos-
tra) é a soma das variâncias:
Var eb0 = Var yb0 + Var u0 = Var yb0 + σ 2
   

onde σ 2 = Var u0 é a variância do erro. Note que u0 é não-correlacionado com cada βb, porque u0 é não correla-


cionado com os erros na amostra usada para a obtenção de βbj . Com o uso desses estimadores, podemos definir o
erro-padrão de eb0 como
 n 2 o1/2
ep eb0 = ep yb0 + σ b2
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 55

e obtemos um intervalo de previsão de 95% para y0 :

IC(y0 , 95%) = yb0 ± t0,025 · ep eb0




(Intervalo de Confiança de nmgrad Previsto, Ex. 6.5)

Utilizando os dados contidos no arquivo GPA2, obtemos a seguinte equação para prever nmgrad:

grad =
nmb 1, 493 +0, 00149sat −0, 01386 emperc
(0, 075) (0, 00007) (0, 00056)
−0, 06088tamclas +0, 00546 tamclas 2
(0, 1650) (0, 00227)
n = 4.137, R2 = 0, 278, R̄2 = 0, 277, σ
b = 0, 560,

onde apresentamos as estimativas com várias casas decimais para reduzir o erro de arredondamento. Qual
a previsão de nmgrad quando sat = 1.200, emperc = 30 e tamclas = 5 (o que significaria 500 )? Isso é
fácil de ser obtido, incorporando esses valores na equação acima: nmgiad = 2, 70 (arredondado para duas
casas decimais). Definindo um novo conjunto de variáveis independentes: sat0 = sat − 1.200 , emperc0 =
emperc − 30, tamclas0 = tamclas − 5 e tamclasquad0 = tamclas2 − 25. Quando fazemos a regressão de
nmgrad sobre essas novas variáveis independentes, obtemos

grad =
nmb 2, 700 +0, 00149sat 0 −0, 01386emperc0
(0, 020) (0, 00007) (0, 00056)
−0, 06088tamclas0 +0, 00546tamclasquad 0
(0, 1650) (0, 00227)
n = 4.137, R2 = 0, 278, R̄2 = 0, 277, σ
b = 0, 560
A única diferença entre esta regressão e a anterior é o intercepto, que é a previsão que queremos, junta-
mente com seu erro-padrão, 0, 020. Não é por acidente que os coeficientes de inclinação, seus erros-padrão,
R-quadrado etc, são os mesmos de antes; esse fato fornece uma maneira de verificarmos se foram feitas
as transformações adequadas. Podemos construir com facilidade um intervalo de confiança de 95% da nota
média esperada: 2, 70 ± 1, 96(0, 020) ou em torno de 2,66 a 2, 74. Este intervalo de confiança é suficiente-
mente estreito devido ao tamanho bastante grande da amostra.

(Intervalo de Confiança de Notas Médias Futuras, Ex. 6.6)

Suponha que desejamos um IC de 95% de nmgrad futuro de um aluno do ensino médio com sat = 1.200,
emperc = 30 e tamclas = 5. No Exemplo anterior obtivemos um intervalo de confiança de 95% da média
da nota média entre todos os alunos com as caracterı́sticas particulares sat = 1.200, emperc = 30 e tamclas
= 5. Agora, queremos um intervalo de confiança de 95% de qualquer aluno que especificamente tenha essas
caracterı́sticas. O intervalo de previsão de 95% deve registrar a variação na caracterı́stica individual, não-
observada, que afeta o desempenho universitário. Temos tudo que é preciso para obter um IC de nmgrad.
1/2
y0 = 0, 020 eσb = 0, 560 e, portanto, de (6, 36), ep eb0 = (0, 020)2 + (0, 560)2
  
Sabemos que ep b ≈
0 0
0, 560. Observe o quanto ep yb é pequeno em relação a σ : virtualmente, toda a variação em eb vem da
b
variação em u0 . O IC de 95% é 2, 70 ± 1, 96(0, 560) ou está entre 1,60 e 3, 80. Este é um intervalo de
confiança enorme, e mostra que, com base nos fatores que incluı́mos na regressão, não podemos definir com
clareza a futura nota de graduação de determinado individuo. (Em certo sentido, isso é bom, por significar
que a classificação no curso médio e o desempenho no teste de aptidão acadêmica não predeterminam o
desempenho de alguém na faculdade.) Evidentemente, as caracterı́sticas não observadas variam amplamente
de um indivı́duo para o outro com as mesmas notas no teste de aptidão acadêmica e na classificação no curso
médio observadas.

Previsão de y quando a Variável Dependente é log(y)

Dados os estimadores MQO, sabemos como prever log(y) para qualquer valor das variáveis independentes:
56 Prof. Cleiton Guollo Taufemback

log(y)
c = βb0 + βb1 x1 + βb2 x2 + . . . + βbk xk

Agora, como o exponencial desfaz o log, nossa primeira suposição para prever y é simplesmente exponenciar o
valor previsto de log(y) : yb = elog yb. Isso não funciona; aliás, isso sistematicamente subestimará o valor esperado de
y. De fato, se o modelo obedecer às hipóteses do modelo linear clássico RLM. l até RLM.6, pode ser demonstrado
que
E(y|x) = exp σ 2 /2 · exp (β0 + β1 x1 + β2 x2 + . . . + βk xk )


onde x representa as variáveis independentes e σ 2 é a variância de u. [ Se u ∼ Normal 0, σ 2 , o valor esperado de




exp(u) será exp( σ 2 /2 ) ]. Esta equação mostra que um ajuste simples é necessário para prevermos y :

b 2 /2 exp(log(y))

yb = exp σ c (6.4)

A previsão em (6.4) não é não-viesada, mas consistente. Não existem previsões não-viesadas de y, mas em
muitos casos (6.4) funciona bem. Porém, ela depende da normalidade do termo erro, u. Portanto, é vantajoso ter
uma previsão que não dependa da normalidade. Se simplesmente assumirmos que u é independente das variáveis
explicativas, teremos
E(y|x) = α0 exp (β0 + β1 x1 + β2 x2 + . . . + βk xk )
onde α0 é o valor esperado de exp(u), que deve ser maior que a unidade. Dada uma estimativa de α0 , podemos
prever y como
yb = α
b0 exp(log(y)).
c

Logo, para obtermos α


b0 temos:
(i) Obtenha os valores estimados log(y),
c da regressão
  de log(y) sobre x1 , . . . , xk ;
b i = exp log(y)
(ii) Para cada observação i, crie m c ;
(iii) Agora, faça a regressão de y sobre a variável única m
b sem um intercepto; isto é, faça uma regressão simples
passando pela origem. O coeficiente de m, b o único coeficiente que existe, a estimativa de α0 .
O resultado é que um estimador consistente de α
b0 , porém viesado.

(Consistente vs Viesado)

É possı́vel termos estimadores consistentes porém viesados, como visto anteriormente, e vice-versa. O
viés é a diferença entre o valor esperado e o valor que gostarı́amos de obter. Se a diferença for 0, dizemos
que o estimador não é viesado. Algo é consistente se quando o número de observações vai ao infinito, nós
obtemos o valor desejado mesmo que o estimador não se aproxime do valor verdadeiro até n for muito
grande.
Em geral se algo é consistente, também é não-viesado. Um exemplo simples de algo consistente mas
viesado é o estimador de variância dado por

1 n 2
σ̃ 2 = ∑ (Xi − X̄)
n i=1

n−1 2
o valor esperado de σ̃ 2 é E σ̃ 2 =

n σ . Mas quando n vai ao infinito temos que

n→∞ 1
σ̃ 2 = σ 2 − σ 2 = σ 2 + ( algo que tende a 0)
n
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 57

7 Análise de Regressão Múltipla com Informações Qualitativas:Variáveis Binárias (ou


Dummy)

Nos capı́tulos anteriores, as variáveis dependentes e independentes em nossos modelos de regressão múltipla ti-
nham significado quantitativo. No trabalho empı́rico também devemos incorporar fatores qualitativos nos modelos
de regressão. O sexo ou raça de um indivı́duo, o ramo de atividade de uma empresa (fabricante, varejista, etc.) e a
região onde uma cidade está localizada (sul, norte, oeste etc.) são todos considerados fatores qualitativos.

7.1 A Descrição das Informações Qualitativas

Fatores qualitativos frequentemente aparecem na forma de informação binária: uma pessoa é do sexo feminino ou
masculino; alguém possui ou não um computador pessoal, etc. Em todos esses exemplos, a informação relevante
pode ser capturada pela definição de uma variável binária (também chamada de dummy) ou uma variável zero-um.
Ao definirmos uma variável dummy, precisamos decidir a qual evento será atribuı́do o valor um e a qual será
atribuı́do o valor zero. Mas por que usamos os valores 0 e 1 para descrever informações qualitativas? Em certo
sentido, esses valores são arbitrários: quaisquer dois valores diferentes serviriam. O benefı́cio real de capturar
informação qualitativa usando variáveis zero-um é que elas levam a modelos de regressão nos quais os parâmetros
têm interpretações bastante naturais, como veremos agora.
A tabela a seguir fornece uma listagem parcial de um possı́vel conjunto de dados sobre salários:

pessoa salário educ exper feminino casado


1 3.10 11 2 1 0
2 3.24 12 22 1 1
3 3.00 12 2 0 0
4 6.00 8 44 0 1
5 5.30 12 7 0 1
. . . . . .
. . . . . .
525 11.56 16 5 0 1
526 3.50 14 5 1 0

Vemos que a Pessoa 1 é do sexo feminino e não é casada, a Pessoa 2 é do sexo feminino e é casada, a Pessoa 3
é do sexo masculino e não é casada, e assim por diante.

7.2 Uma Única Variável Dummy Independente

Por exemplo, considere o seguinte modelo simples de determinação de salários por hora:

salarioh = β0 + δ0 f eminino + β1 educ + u (7.1)

No modelo (7.1), somente dois fatores observados afetam os salários: gênero e educação. Com feminino = 1
quando a pessoa é mulher e feminino = 0 quando a pessoa é homem, o parâmetro δ0 tem a seguinte interpretação:
δ0 é a diferença no salário por hora entre mulheres e homens, dado o mesmo grau de educação (e o mesmo termo
erro u).
Mas como incorporamos informações binárias em modelos de regressão? No caso mais simples, com somente
uma variável dummy explicativa, simplesmente adicionamos a variável à equação como uma variável indepen-
dente, como foi feito no modelo acima. A situação pode ser descrita graficamente como um deslocamento de
intercepto entre as linhas que representam homens e mulheres. A diferença não depende do nı́vel de educação, e
isso explica a razão de os perfis salário-educação das mulheres e dos homens serem paralelos.
58 Prof. Cleiton Guollo Taufemback

Figura 7 Gráfico de salarioh = β0 + δ0 f eminino + β1 educ para δ0 ¡ 0.

Exemplo 7.1 (Equação dos Salários por Hora)

salarioh = −1, 57 −1, 81 f eminino +0, 572 educ


(0, 72) (0, 26) (0, 049)
+0, 025exper +0, 141perm
(0, 012) (0, 021)
n = 526, R2 = 0, 364
O intercepto negativo - para os homens, neste caso - não é muito significativo, já que ninguém na amostra
tem anos de educ, exper e perm próximos de zero. O coeficiente de feminino é interessante pois registra
a diferença média no salário por hora entre uma mulher e um homem, dados os mesmos nı́veis de educ,
exper e perm. Se compararmos uma mulher e um homem com os mesmos nı́veis de educação, experiência e
permanência, a mulher ganha, em média, 1.81 dólares por hora a menos que o homem.

salarioh = 7, 10 −2, 51 f eminino


(0, 21) (0, 30)
n = 526, R2 = 0, 116

Os coeficientes acima têm uma interpretação simples. O intercepto é o salário-hora médio dos homens na
amostra ( f eminino = 0), de modo que os homens ganham, em média, 7.1 dólares por hora. O coeficiente de
feminino é a diferença no salário médio entre homens e mulheres. Assim, o salário médio das mulheres, na
amostra, é 7.10 - 2.51 = 4.59, ou 4.59 dólares por hora.
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 59

A Interpretação dos Coeficientes de Variáveis Dummy Explicativas quando a Variável Dependente é


Expressa como log(y)

De forma geral, se βb1 for o coeficiente de uma variável dummy, digamos, x1 , quando log(y) é a variável dependente,
a diferença percentual exata em y, %∆by, previsto quando x1 = 1 versus quando x1 = 0 é

100 · [exp(βb1 ) − 1].

O coeficiente βb1 estimado pode ser positivo ou negativo, e é importante preservar seu sinal ao computar.

7.3 Variáveis Dummy para Categorias Múltiplas

Podemos usar diversas variáveis dummy independentes na mesma equação. Por exemplo, estimemos um modelo
que considere diferenças salariais entre quatro grupos: homens casados, mulheres casadas, homens solteiros e
mulheres solteiras.
Para fazermos isso temos que selecionar um grupo base; escolhemos homens solteiros. Então, devemos defi-
nir as variáveis dummy para cada um dos demais grupos. Vamos chamá-los hcasados, mcasadas e msolteiras.
Colocando essas três variáveis na equação (e eliminando f eminino, já que agora ela é redundante) temos que:

Exemplo 7.6 (Equação do Log do Salário-Hora)

ario) =
log(salb 0, 321 −0, 213hcasados −0.198mcasadas +0, 017msolteiras
(0, 100) (0, 055) (0, 058) (0, 056)
+0, 079educ +0, 027exper −0, 00054perm +0, 029exper2
(0, 007) (0, 005) (0, 00011) (0, 007)
+0, 00053perm2
(0, 00023)

n = 526, R2 = 0, 461
Todos os coeficientes, exceto o de msolteiras, têm estatı́sticas t bem acima de dois, em valores absolutos.
A estatı́stica t de msolteiras está em torno de −1, 96, que é significante apenas ao nı́vel de 5% contra uma
alternativa bilateral. Para interpretar os coeficientes das variáveis dummy, devemos nos lembrar de que o
grupo base é o de homens solteiros.
Assim, as estimativas das três variáveis dummy medem a diferença proporcional nos salários relativamente
aos homens solteiros. Por exemplo, estima-se que os homens casados ganhem cerca de 21,3% mais que os
homens solteiros, mantendo fixas educação, experiência e permanência. Uma mulher casada, no entanto,
deve ganhar 19,8% menos que um homem solteiro com os mesmos nı́veis das outras variáveis

O exemplo anterior ilustra um princı́pio geral para a inclusão de variáveis dummy que indicam grupos diferentes:
se o modelo de regressão deve ter diferentes interceptos para, digamos, g grupos ou categorias, precisamos incluir
g − 1 variáveis dummy no modelo, juntamente com um intercepto. O intercepto do grupo base é o intercepto global
no modelo, e o coeficiente da variável dummy de um determinado grupo representa a diferença estimada nos
interceptos entre aquele grupo e o grupo base. A inclusão de g variáveis dummy juntamente com um intercepto
resultará na armadilha da variável dummy. Uma alternativa é incluir g variáveis dummy e excluir um intercepto
global. Isso não é recomendável, pois o teste de diferenças relativas a um grupo base se tornará difı́cil, e alguns
programas de regressão alteram a maneira como o R2 é computado quando a regressão não contém um intercepto.

Obs: ao incluir as g variáveis dummy teremos multicolinearidade perfeita entre o intercepto e a soma das g
dummies.
60 Prof. Cleiton Guollo Taufemback

Incorporação de Informações Ordinais com o Uso de Variáveis Dummy

Suponha que gostarı́amos de estimar o efeito do risco de crédito das cidades sobre as taxas de juros dos tı́tulos
públicos municipais (T PM). Suponha ainda que a classificação varie de zero a quatro, na qual zero é o pior risco
de crédito e quatro, o melhor. Este é um exemplo de uma variável ordinal, a qual chamaremos de CR.

T PM = β0 + β1CR + outros f atores,


onde deliberadamente não mostramos quais são os outros fatores. Neste caso, β1 é a mudança em pontos percen-
tuais em T PM quando CR aumenta uma unidade, mantendo fixos todos os outros fatores. Infelizmente, é bastante
difı́cil interpretar um aumento de uma unidade em CR. Sabemos o significado quantitativo de mais um ano de
educação, ou de um dólar a mais gasto por aluno, mas fatores como risco de crédito, em geral, têm apenas signifi-
cado ordinal. Sabemos que um CR igual a quatro é melhor que um CR igual a três, mas será que a diferença entre
quatro e três é a mesma que a diferença entre um e zero? Se não, não fará sentido assumir que um aumento de uma
unidade em CR terá um efeito constante sobre T PM.
Uma abordagem melhor que podemos implementar - pois CR assume relativamente poucos valores - é definir
variáveis dummy para cada valor de CR. Assim, definimos CR1 = 1 se CR = 1, e, caso contrário, CR1 = 0, CR2 = 1
se CR = 2 e, caso contrário, CR2 = 0, e assim por [Link] realidade, levamos em conta o risco de crédito e o
transformamos em cinco categorias. Desta forma podemos estimar o seguinte modelo:

T PM = β0 + δ1CR1 + δ2CR2 + δ3CR3 + δ4CR4 + outros f atores.


Seguimos nossa regra sobre inclusão de variáveis dummy em um modelo, incluindo quatro, já que temos
cinco categorias. Omitiu-se a categoria risco de crédito zero, pois ela é o grupo base. Os coeficientes são de fácil
interpretação: δ1 é a diferença em T PM entre uma cidade com risco de crédito um e outra com risco de crédito
zero: δ2 é a diferença em T PM entre uma cidade com um risco de crédito dois e outra com risco de crédito zero; e
assim por diante.

7.4 Interações envolvendo Variáveis Dummy

Assim como as variáveis com significados quantitativos podem interagir em modelos de regressão, as variáveis
dummy também podem. Vimos uma ilustração disso no Exemplo (7.6), no qual definimos quatro categorias com
base em estado civil e gênero. Podemos reformular aquele modelo adicionando um termo de interação entre femi-
nino e casado, onde essas variáveis apareçam separadamente. Isso possibilita que o prêmio por ser casado dependa
do gênero. Com o propósito de comparação, o modelo estimado com o termo de interação feminino-casado é:

ario) = 0, 321 −0, 110 f eminino +0, 213casado


log (salb
(0, 100) (0, 056) (0, 055)
+0, 301 f eminino · casado + ...
(0, 072)
onde o restante da regressão será necessariamente idêntico ao Exemplo (7.6). A equação acima mostra que existe
uma interação estatisticamente significante entre gênero e estado civil. Este modelo também permite obter o di-
ferencial estimado de salários entre todos os quatro grupos, mas aqui devemos ter o cuidado de inserir a correta
combinação de valores zero e um.
A definição f eminino = 0 e casado = 0 corresponde ao grupo de homens solteiros, que é o grupo base, já que
isso elimina f eminino, casado, e f eminino · casado. Podemos encontrar o intercepto de homens casados definindo
f eminino = 0 e casado = 1 na regressão; isso produz um intercepto de 0, 321 + 0, 213 = 0, 534, e assim por diante.

Verificação de Diferenças nas Funções de Regressão entre Grupos

Suponha que queiramos testar se o mesmo modelo de regressão descreve a nota média no curso superior de atletas
universitários masculinos e femininos. A equação é

nmgradac = β0 + β1 sat + β2 emperc + β3tothrs + u


Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 61

onde sat é a nota obtida no exame de ingresso em curso superior, emperc é o percentil da classificação no ensino
médio, e totlzrs é o total de horas do curso superior. Se, agora, estivermos interessados em verificar se existe
qualquer diferença entre homens e mulheres, então devemos admitir um modelo no qual o intercepto e todas as
inclinações possam ser diferentes entre os grupos:

nmgradac = β0 + δ0 feminino + β1 sat + δ1 feminino · sat + β2 emperc


+δ2 feminino · emperc + β3 tothrs + δ3 feminino · tothrs + u.

O parâmetro δ0 é a diferença nos interceptos entre mulheres e homens, δ1 é a diferença de inclinações em


relação a sat entre mulheres e homens, e assim por diante. A hipótese nula de que nmgradac segue o mesmo
modelo para homens e mulheres é escrita como

H0 : δ0 = 0, δ1 = 0, δ2 = 0, δ3 = 0

No modelo geral com k variáveis explicativas e um intercepto, suponha que temos dois grupos, que chamaremos
de g = 1 e g = 2.
y = βg,0 + βg,1 x1 + βg,2 x2 + ... + βg,k xk + u
para g = 1 e g = 2. A hipótese de que cada beta é o mesmo nos dois grupos envolve k + 1 restrições (no exemplo
de nmgradac, k + 1 = 4). O modelo sem restrições, que pode ser entendido como tendo uma variável dummy de
grupo e k termos de interação, além do intercepto e das próprias variáveis, tem n − 2(k + 1) graus de liberdade.
A percepção básica é que a soma dos resı́duos quadrados do modelo sem restrições pode ser obtida de duas
regressões separadas, uma para cada grupo. Seja SQR1 a soma dos resı́duos quadrados obtida ao estimar para o
primeiro grupo; isso envolve n1 observações (ex.: apenas mulheres).Seja SQR2 a soma dos resı́duos quadrados
obtida ao estimar o modelo usando o segundo grupo com n2 observações (ex.: apenas homens). Agora, a soma
dos resı́duos quadrados do modelo sem restrições é simplesmente SQRir = SQR1 + SQR2 . A soma dos resı́duos
quadrados restrita é somente a SQR do agrupamento dos grupos (ex.: sem restrição se é homem ou mulher) e da
estimativa de uma única equação, digamos SQR p .
Uma vez calculados esses termos, computamos a estatı́stica F da forma habitual:

[SQR p − (SQR1 + SQR2 )] [n − 2(k + 1)]


F= ·
(SQR1 + SQR2 ) k+1

onde n é o número total de observações e é distribuı́da como Fk+1,n−2(k+1) Esta estatı́stica F especı́fica é usualmente
chamada em econometria de estatı́stica de Chow. Como o teste de Chow é apenas um teste F, ele só é válido sob
homoscedasticidade. Em particular, sob a hipótese nula, as variâncias dos erros dos dois grupos devem ser iguais.
Para aplicarmos a estatı́stica de Chow no exemplo de nmgradac, precisamos da SQR da regressão que reuniu os
grupos: ela é SQR p = 85, 515. A SQR das 90 mulheres na amostra é SQR1 = 19, 603 e a SQR dos homens é SQR2 =
58, 752. Portanto, SQRir = 19, 603 + 58, 752 = 78, 355. A estatı́stica F é [(85, 515 − 78, 355)/78, 355)(358/4) ≈
8, 18. Com um valor crı́tico de 2,40, usando um F4,358 e α = 0, 05, nós rejeitamos H0 de que não há diferenças
entre homens e mulheres nas notas média no curso superior de atletas universitários, nmgradac.
62 Prof. Cleiton Guollo Taufemback
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 63

8 Heteroscedasticidade

Resumo organizado por Helen Benaduce.

A hipótese de homoscedasticidade, apresentada no Capı́tulo 3 para a regressão múltipla, significa que a variância
do erro não observável, u, condicional nas variáveis explicativas, é constante. Por exemplo, em uma equação de
poupança, a heteroscedasticidade está presente se a variância dos fatores não-observados que afetam a poupança
aumenta com a renda.
Nos Capı́tulos 4 e 5, vimos que a homoscedasticidade é necessária para justificar os habituais testes t e F,
bem como os intervalos de confiança da estimação MQO do modelo de regressão linear, mesmo com amostras de
tamanhos grandes.

8.1 Consequências da heterocedasticidade para o método MQO

Considere o modelo de regressão linear múltipla:

y = β0 + β2 x2 + . . . + βk xk + u.
No Capı́tulo 3, provamos a inexistência de viés dos estimadores de MQO βb0 , βb1 , βb2 , . . . , βbk sob as quatro pri-
meiras hipóteses de Gauss-Markov, RLM.l a RLM.4. A hipótese de homoscedasticidade RLM.5, estabelecida em
termos da variância do erro como Var(u|x1 , x2 , . . . , xk ) = σ 2 , não é usada para mostrar se os estimadores MQO são
não-viesados ou consistentes. É importante lembrar que a heteroscedasticidade não provoca viés ou inconsistência
nos estimadores MQO de β j enquanto algo como a omissão de uma variável importante teria esse efeito.
A interpretação de medidas dos graus-de-ajuste, R2 e R̄2 , também não é afetada pela presença de heteroscedas-
ticidade. Lembre-se de que na Seção 6.3 temos a construção dessas medidas e concluı́mos que ambos estimadores
são consistentes do R-quadrado da população mantendo-se ou não a hipótese de homoscedasticidade.

Se a heteroscedasticidade não provoca viés ou inconsistência nos estimadores MQO, por que a
introduzimos como uma das hipóteses de Gauss-Markov?

Os estimadores de variâncias, Var(βbj ), são viesados sem a hipótese de homocedasticidade, vimos isto no Capı́tulo
3. Como os erros-padrão dos estimadores MQO são baseados diretamente nessas variâncias, eles não mais são
válidos para construirmos intervalos de confiança e estatı́sticas t. De maneira semelhante, as estatı́sticas F não têm
distribuição F, e a estatı́stica LM não tem uma distribuição qui-quadrado, χ 2 , assimptótica. Ou seja,as estatı́sticas
que usamos para testar hipóteses sob as hipóteses de Gauss-Markov não são válidas na presença de heteroscedas-
ticidade.
Também sabemos que o teorema de Gauss-Markov, que diz que os estimadores MQO são os melhores estima-
dores lineares não-viesados (BLUE). Se Var(u|x) não for constante, os estimadores MQO não mais serão BLUE.

8.2 Inferência robusta em relação à heteroscedasticidade após a estimação MQO

Nas últimas duas décadas, os econometristas aprenderam como ajustar erros-padrão, estatı́sticas t, F e LM de forma
a torná-las válidas na presença de heteroscedasticidade de forma desconhecida. Isto é muito conveniente, pois sig-
nifica que podemos descrever novas estatı́sticas que funcionam independentemente do tipo de heteroscedasticidade
presente na população.
Diremos que um procedimento é robusto em relação à heterocedasticidade quando esse procedimento for
válido, pelo menos em amostras grandes, tendo Var(u|x) constante ou não, e não precisando saber qual caso
estamos tratando.
Primeiro, considere o modelo com uma única variável independente, na qual incluı́mos um subscrito i por
ênfase:
yi = β0 + β1 xi + ui .
Assumimos que as primeiras quatro hipóteses de Gauss-Markov se sustentam. Se os erros contiverem heteros-
cedasticidade, então
64 Prof. Cleiton Guollo Taufemback

Var(ui |xi ) = σi2


onde colocamos o subscrito i em σ 2 para indicar que a variância do erro depende do valor particular de xi .
Escreva o estimador MQO como
∑n (xi − x̄) ui
βb1 = β1 + i=1 2
∑ni=1 (xi − x̄)

Sob as hipóteses RLM.1 a RLM.4 (isto é, sem a hipótese de homoscedasticidade), e condicionado aos valores de
xi na amostra, podemos usar os mesmos argumentos do Capı́tulo 2 para mostrar que

2
∑n (xi − x̄) σi2
 
Var βb1 = i=1 (8.1)
SQT2x

onde SQTx = ∑ni=1 (xi − x̄)2 é a soma dos quadrados total de xi . Quando σi2 = σ 2 para todo i, essa fórmula se reduz
à forma habitual, σ 2 / SQTx . Porém, observando a Equação 8.1, a fórmula de variância derivada sob homoscedas-
ticidade não mais é válida quando a heteroscedasticidade está presente.
White (1980) mostrou como estimar a equação (8.1) quando a heterocedasticidade está presente. Façamos ubi
representar os resı́duos MQO da regressão inicial de y sobre x. Então, um estimador válido de Var(βb1 ), para a
heteroscedasticidade de qualquer forma (inclusive homoscedasticidade), é
2
∑ni=1 (xi − x̄) ub2i
(8.2)
SQT2x
que é facilmente calculado após a regressão MQO.
Em que sentido a expressão 8.2 é um estimador válido de Var(βb1 )? Pode-se mostrar que quando a expressão
(8.2) é multiplicada pelo tamanho da amostra, n, ela converge em probabilidade para E[(xi − µx )2 u2i ]/(σx2 )2 , que
é o limite de probabilidade de n vezes (8.1). Em última análise, isso é o necessário para justificar o uso de erros-
padrão para construir intervalos de confiança e estatı́sticas t. A lei dos grandes números e o teorema do limite
central desempenham papéis importantes no estabelecimento dessas convergências.
Uma fórmula semelhante funciona no modelo geral de regressão múltipla

y = β0 + β1 x1 + . . . + βk xk + u,

Pode ser mostrado que um estimador válido de Var(βbj ), sob as hipóteses RLM.1 a RLM.4, é
  ∑n b 2 b2
i=1 ri j u i
Var βbj = 2
(8.3)
SQR j

onde b ri j representa o i-ésimo resı́duo da regressão de x j sobre todas as outras variáveis independentes, e SQR j
é a soma dos resı́duos quadrados dessa regressão. A raiz quadrada de (8.3) é chamada de erro-padrão robusto
em relação à heteroscedasticidade de βbj · Em econometria, esses erros-padrão robustos são em geral atribuı́dos a
White (1980).
Algumas vezes, como uma correção de graus de liberdade, a Equação 8.3 é multiplicada por n/(n − k − 1)
antes de extrairmos a raiz quadrada. O raciocı́nio para esse ajuste é que, se os resı́duos quadrados MQO ub2i fossem
os mesmos para todas as observações i - a forma mais forte possı́vel de homoscedasticidade em uma amostra -
obterı́amos os erros-padrão habituais MQO.
Uma vez que os erros-padrão robustos em relação à heteroscedasticidade tenham sido obtidos, é fácil construir
uma estatı́stica t robusta em relação à heteroscedasticidade. Lembre-se de que a forma geral da estatı́stica t é

(estimativa − valor hipotético)


trobusto =
erro-padrão robusto

Como ainda estamos usando as estimativas MQO e escolhemos o valor hipotético antecipadamente, a única
diferença entre a estatı́stica t usual de MQO e a estatı́stica t robusta em relação à heteroscedasticidade é como o
erro-padrão é calculado.
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 65

Exemplo: Equação do Log dos Salários com Erros-Padrão Robustos em Relação à Heterocedasti-
cidade

Suponha que

\ =
log(salario) 0, 321 +0, 213hcasados −0, 198mcasadas −0, 110msolteiras
(0, 100) (0, 055) (0, 058) (0, 056)
[0, 109] [0, 057] [0, 058] [0, 057]
+0, 0789educ +0, 0268exper −0, 00054exper2
(0, 0067) (0, 0055) (0, 00011)
[0, 0074] [0, 0051] [0, 00011]
+0, 0291perm −0, 00053perm2
(0, 0068) (0, 00023)
[0, 0069] [0, 00024]
n = 526, R2 = 0, 461
Os erros-padrão usuais de MQO estão entre parênteses, ( ), abaixo das estimativas MQO correspondentes,
e os erros-padrão robustos em relação à heteroscedasticidade estão entre colchetes, [ ]. Os números entre
colchetes são as únicas novidades, já que a equação ainda é estimada por MQO.
Observe que, nesta aplicação particular, qualquer variável que era estatisticamente significante com o uso
da estatı́stica t habitual, continua estatisticamente significante com o uso da estatı́stica t robusta em relação
à heteroscedasticidade.

Devemos enfatizar que não sabemos, neste ponto, sequer se a heteroscedasticidade está presente no modelo
populacional básico da equação do Log do Salários. Tudo que fizemos foi descrever, juntamente com os erros-
padrão usuais, aqueles que são válidos (assimptoticamente) haja ou não presença de heteroscedasticidade. Podemos
ver que nenhuma conclusão importante é destruı́da pelo uso dos erros-padrão robustos neste exemplo. Isso acontece
com frequência em trabalhos aplicados, mas, em outros casos, as diferenças entre os erros-padrão usuais e os
robustos são muito maiores.

Se os erros-padrão robustos em relação à heteroscedasticidade são válidos com maior frequência que os
erros-padrão usuais MQO, por que nos preocuparmos com os erros-padrão usuais, afinal?

Uma das razões para eles ainda serem usados em trabalhos de corte transversal é que, se a hipótese de homoscedas-
ticidade se mantiver e os erros forem normalmente distribuı́dos, as estatı́sticas t usuais têm distribuições t exatas,
independentemente do tamanho da amostra. Os erros-padrão robustos e as estatı́sticas t robustas são justificadas
somente quando o tamanho da amostra se torna grande. Com amostras de tamanho pequeno, as estatı́sticas
t robustas podem ter distribuições que não sejam muito próximas da distribuição t, e isso pode ofuscar nossa
inferência. Também é possı́vel obter estatı́sticas F e LM que sejam robustas em relação à heteroscedasticidade
de forma desconhecida, e mesmo arbitrária. A estatı́stica F robusta em relação à heteroscedasticidade (ou uma
transformação simples dela) também é chamada de estatı́stica de Wald robusta em relação à heteroscedasticidade.

Estatı́stica F Robusta em relação à heterocedasticidade

Como a heterocedasticidade afeta a estimação da variância, as estatı́sticas associadas ao teste F, SQR e SQT, não
são confiáveis. Caso necessitarmos testar uma hipótese múltipla, tal qual,

H0 : β1 = β2 = 0 vs H1 : H0 é falsa

onde o modelo é dado por


y = β0 + x1 β1 + x2 β2 + x3 β3 + ε
Podemos reescrever a hipótese nula H0 : β1 = β2 = 0 como H0 : Rβ − r = 0 onde - R é uma matriz q × k, sendo q
o número de restrições e k o número de parâmetris. Por fim, r é um vetor k × 1. Para a hipótese nula em questão
temos,
66 Prof. Cleiton Guollo Taufemback
   
0100 0
R= ,q =
0010 0
Há vários métodos para estimar a matriz de covariância robusta, Σ robusta , porém está fora do escopo dessa
disciplina abordá-los. Logo, o teste F robusto a heterocedasticidade, ou teste de Wald, é dado por

(Rβ̂ − r)′ (RΣ̂ robusta R′ )−1 (Rβ̂ − r)


F= ∼ F(q, n − k)
q

Exemplo: Estatı́stica F Robusta em relação à heterocedasticidade

Utilizando os dados para o semestre da primavera contidos no arquivo GPA3, estimamos a seguinte
equação:

nmgradac = 1, 47 +0, 00114sat −0, 00857emperc +0, 00250tothrs


(0, 23) (0, 00018) (0, 00124) (0, 00073)
[0, 22] [0, 00019] [0, 00140] [0, 00073]
+0, 303 f eminino −0, 128negro −0, 059branco (8.4)
(0, 059) (0, 147) (0, 141)
[0, 059] [0, 118] [0, 110]
n = 366, R2 = 0, 4006, R̄2 = 0, 3905

Novamente, as diferenças entre os erros-padrão usuais e os erros-padrão robustos em relação à heterosce-


dasticidade não são muito grandes e o uso da estatı́stica t robusta não altera a significância estatı́stica de
qualquer variável independente.
Suponha que queiramos testar a hipótese nula de que, depois de termos todos os outros fatores controlados,
não haja diferenças em nmgradac por raça. Isso é escrito como H0 : βnegro = 0, βbarnco = 0. A estatı́stica F
habitual é facilmente obtida, uma vez que tenhamos o R-quadrado do modelo restrito; o cálculo resulta em
0,3983. A estatı́stica F então é [(0, 4006 − 0, 3983)/(1 − 0, 4006)](359/2) ≈ 0, 69. Se houver presença de
heteroscedasticidade, essa versão do teste não é válida. A versão robusta em relação à heteroscedasticidade
não tem uma forma simples, mas pode ser computada utilizando-se certos programas estatı́sticos. O valor
da estatı́stica F robusta em relação à heteroscedasticidade é de 0,75, diferenciando-se apenas levemente do
valor da versão não robusta. O p-valor do teste robusto é 0,474, que não está próximo dos nı́veis padrão de
significância. Não é possı́vel rejeitar a hipótese nula usando qualquer um dos testes.

Como rodar esse exemplo no R:


library(wooldridge) # Chama o pacote para ser usado nessa sessão
library(lmtest) # Para a regressão linear
library(car) # Para os erros robustos
library(sandwich) # Para o test F
library(dplyr) # Para manipulaçãoo de dados
library(magrittr) # Para usar o operador pipe %>%
data(’gpa3’) # Define o conjuto de dados a ser usado

#Como o exemplo restringe os dados somente para o perı́odo da primavera,


#categoria da variável term, devemos criar uma partição do banco.
#Note que nmgradac em português = cumgpa em inglês

gpa3spring<-gpa3 %>%
select(cumgpa, sat, hsperc, tothrs, female, black, white,term) %>%
filter(term == "2")

# Executa a regressão linear


modelos_unres <- lm(cumgpa ˜ sat + hsperc + tothrs + female + black
+ white, data = gpa3spring)
summary(modelos_unres)
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 67

#Para obtermos os erros-padrão robustos em relação à heteroscedasticidade,


#ajustamos o modelo para o periodo da primavera irrestrito através da função
#coeftest
coeftest(model_unres, vcov = vcovHC(model_unres, type = "HC0"))

#Suponha que queiramos testar a hipótese nula de que, depois de termos todos
#os outros fatores controlados, não haja diferenças em nmgradac por raça.
# Se beta_white=0, beta_black=0
modelos_res <- lm(cumgpa ˜ sat + hsperc + tothrs + female, data = gpa3spring)
summary(modelos_res)

#Estatı́stica F

# Estatı́stica F usual
anova(model_unres, model_res)

#Estatı́stica F robusta em relação à heteroscedasticidade


waldtest(model_res, model_unres, vcov = vcovHC(model_unres, type = "HC0"))

8.3 O teste da existência de heterocedasticidade

Boas razões para fazermos os testes para detectar a presença de heterocedasticidade

1. As estatı́sticas t habituais têm distribuições t exatas sob as hipóteses do modelo linear clássico (RLM.1 a
RLM.5 ). Atendendo a hipótese de homocedasticidade (RLM.5), muitos economistas preferem utilizar os
erros-padrão MQO usuais e testar as estatı́sticas informadas.
2. MQO continua não tendencioso e consistente, mas os erros-padrão dos coeficientes estimados serão viesados
se há heterocedasticidade. Se os erros-padrão são viesados, não podemos utilizar as estatı́sticas t, F e LM
usuais.
3. Se houver a presença de heterocedasticidade, o estimador MQO não mais será BLUE.
A seguir,nos restringiremos a testes que detectam os tipos de heterocedasticidade que invalidam as estatı́sticas
MQO habituais.
Como sempre, iniciamos com o modelo linear

y = β0 + β1 x1 + β2 x2 + β3 x3 + . . . + βk xk + u (8.5)

onde as hipóteses RLM.1 a RLM.4 são mantidas nesta seção. Particularmente, assumimos que E(u|x1 , x2 , . . . , xk ) =
0, de forma que o MQO seja não-viesado e consistente.
Considere como hipótese nula que a hipótese RLM.5 é verdadeira:

H0 : Var(u|x1 , x2 , . . . , xk ) = σ 2 . (8.6)

Ou seja, assumimos que a hipótese ideal de homoscedasticidade se mantém, e precisamos que os dados nos
informem se isso é adequado ou não. Se não pudermos rejeitar (8.6) em um nı́vel de significância suficientemente
pequeno, normalmente concluı́mos que a heteroscedasticidade não será um problema. Porém, lembre-se de que
nunca aceitamos H0 ; simplesmente não podemos rejeitá-la.
Como estamos assumindo que u tem uma esperança condicional zero, Var(u|x) = E(u2 |x), e assim a hipótese
nula de homoscedasticidade é equivalente a

H0 : E(u2 |x1 , x2 , . . . , xk ) = E(u2 ) = σ 2 . (8.7)


68 Prof. Cleiton Guollo Taufemback

Isso mostra que, para testar a violação da hipótese de homoscedasticidade, queremos verificar se u2 está rela-
cionado (em valor esperado) a uma ou mais das variáveis explicativas. Se H0 for falsa, o valor esperado de u2 ,
dadas as variáveis independentes, pode ser virtualmente qualquer função de x1 . Um método simples é assumir uma
função linear:

u2 = δ0 + δ1 x1 + δ2 x2 + . . . + δk xk + v
onde v é um termo erro com média zero, dados xi . Preste bastante atenção na variável dependente nesta equação:
ela é o quadrado do erro na equação de regressão original, (8.5). Note, que não observamos os erros u da equação
(8.5), mas podemos utilizar suas estimativas: os resı́duos da regressão por MQO.
Nunca conheceremos os erros efetivos no modelo populacional, mas temos estimativas deles: o resı́duo MQO,
ubi é uma estimativa do erro ui para a observação i. Assim, podemos estimar a equação

ub2 = δ0 + δ1 x1 + δ2 x2 + . . . + δk xk + erro (8.8)


e calcular as estatı́sticas F ou LM da significância conjunta de x1 , . . . , xk . Ambas as estatı́sticas F e LM dependem
do R-quadrado da regressão (8.8); chamemos isso de R2ub2 para distingui-lo do R-quadrado na estimação da equação
(8.5). Então, a estatı́stica F será

R2ub2 /k
F=   ,
1 − R2ub2 /(n − k − 1

onde k é o número de regressores em (8.8).


A estatı́stica LM para a heteroscedasticidade é simplesmente o tamanho da amostra multiplicado pelo R-
quadrado de (8.8):

LM = nR2ub2
Sob a hipótese nula, a estatı́stica F tem ( assimptoticamente) uma distribuição Fk,n−k−1 e a estatı́stica LM é
distribuı́da assimptoticamente como χk2 .
A versão LM do teste é geralmente chamada teste de Breusch-Pagan da heteroscedasticidade.

O Teste de BREUSCH-PAGAN da Heteroscedasticidade

1. Estime o modelo (8.5) por MQO, como usual. Obtenha os resı́duos quadrados MQO, ub2 (um para cada
observação).
2. Compute a regressão (8.8). Guarde o R-quadrado desta regressão, R2ub2 .
3. Construa a estatı́stica F ou a estatı́stica LM e calcule o p-valor (usando a distribuição Fk,n−k−1 e a distribuição
χk2 , respectivamente). Se o p-valor for suficientemente pequeno, isto é, abaixo do nı́vel de significância seleci-
onado, então rejeitamos a hipótese nula de homoscedasticidade.

Se suspeitarmos que a heteroscedasticidade depende somente de certas variáveis independentes, podemos, com
facilidade, modificar o teste de Breusch-Pagan: simplesmente fazemos a regressão de ub2 sobre quaisquer variáveis
independentes que escolhamos e aplicamos o teste F ou LM apropriado. Lembre-se de que os graus de liberdade
apropriados dependem do número de variáveis independentes na regressão com ub2 como variável dependente; o
número de variáveis independentes que aparece na equação (8.5) é irrelevante.
Se os resı́duos quadrados forem regredidos somente sobre uma única variável independente, o teste de heterosce-
dasticidade será a estatı́stica t habitual da variável. Uma estatı́stica t significativa sugere que a heteroscedasticidade
é um problema.

O Teste de White para a Heteroscedasticidade

O teste é explicitamente destinado a testar formas de heteroscedasticidade que invalidem os erros-padrão e as


estatı́sticas de testes habituais, estimados por MQO. O teste de White pode ser visto como uma extensão do teste
Breusch-Pagan. Para criar o teste, usa-se os quadrados e os produtos cruzados das variáveis independentes. Uma
sugestão é usar os valores estimados MQO para verificar a existência de heteroscedasticidade.
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 69

Os valores estimados são apenas funções lineares das variáveis independentes. Se eles forem elevados ao qua-
drado, obteremos uma função particular de todos os quadrados e produtos cruzados das variáveis independentes.
Isso sugere testar a heteroscedasticidade estimando a equação

ub2 = δ0 + δ1 yb+ δ2 yb2 + erro. (8.9)


onde yb representa os valores estimados. É importante não confundir yb com y nesta equação. Usamos os valores
estimados porque eles são funções das variáveis independentes (e dos parâmetros estimados); o uso de y em (8.9)
não produz um teste válido para a heteroscedasticidade.
Para executar o teste basta seguir os passos:
1. Estime o modelo (8.5) por MQO, da maneira habitual. Obtenha os resı́duos ub e os valores estimados yb do
MQO. Calcule os resı́duos quadrados ub2 e os quadrados dos valores estimados yb2 do MQO.
2. Compute a regressão da equação (8.9). Guarde o R-quadrado desta regressão, R2ub2 .
3. Construa as estatı́sticas F ou LM e calcule o p-valor (usando a distribuição F2,n−3 no primeiro caso e a
distribuição χ22 no último).
Temos interpretado uma rejeição usando um dos testes de heteroscedasticidade como evidência de heterosce-
dastı́cidade. Isso está correto desde que mantenhamos as hipóteses RLM.l a RLM.4. Mas se RLM.3 for violada —
especialmente se a forma funcional de E(y|x) estiver mal-especificada — então um teste de heteroscedasticidade
pode rejeitar H0 , mesmo se Var(y|x) for constante. Por exemplo, se omitirmos um ou mais termos quadráticos em
um modelo de regressão ou usarmos o modelo em nı́vel quando deverı́amos usar em log, um teste de heterosce-
dasticidade pode ser significante. Isso tem levado alguns economistas a verem os testes de heteroscedasticidade
como testes generalizados de má especificação. Porém, existem testes melhores e mais diretos para testar a má
especificação de formas funcionais. É melhor usar, primeiro, testes especı́ficos de formas funcionais, já que a má
especificação da forma funcional é mais importante que a heteroscedasticidade. Em seguida, uma vez que esteja-
mos satisfeitos com a forma funcional, podemos fazer o teste para verificar a existência de heteroscedasticidade.

8.4 Estimação de mı́nimos quadrados ponderados

Antes do desenvolvimento das estatı́sticas robustas em relação à heteroscedasticidade, a resposta à descoberta de


heteroscedasticidade era modelar e estimar sua forma especı́fica. Como veremos, isso leva a um estimador mais
eficiente que o MQO, e produz estatı́sticas t e F que têm distribuições t e F. Embora isso pareça atraente, requer
mais trabalho de nossa parte, pois temos de ser muito especı́ficos sobre a natureza de qualquer heteroscedasticidade.

A Heteroscedasticidade é percebida como uma Constante Multiplicativa

Considere que x representa todas as variáveis explicativas na equação (8.5) e assuma que

Var(u|x) = σ 2 h(x) (8.10)

onde h(x) é alguma função das variáveis explicativas que determina a heteroscedasticidade. Como variâncias de-
vem ser positivas, h(x) > 0 para todos os valores possı́veis das variáveis independentes.
Levando em conta a equação original,

yi = β0 + β1 xi1 + β2 xi2 + . . . + βk xik + ui (8.11)

que contém erros heteroscedásticos, e a transformamos em uma equação que não contenha tais erros (e satisfaça
as outras hipóteses de Gauss-Markov). √
Como hi é apenas uma função de xi , ui / hi tem √ zero como valor esperado condicional em xi . Além disso, como
Var(ui /xi ) = E(u2i /xi ) = σ 2 hi a variância de ui / hi (condicional em xi ) é a σ 2 :
 p  
2
= E u2i /hi = σ 2 hi /hi = σ 2
 
E ui / hi


onde suprimimos a condicionalidade em xi , por simplicidade. Podemos dividir a equação (8.24) por hi para obter.
70 Prof. Cleiton Guollo Taufemback
p p  p   p 
yi / hi =β0 / hi + β1 xi1 / hi + β2 xi2 / hi + . . .
 p   p  (8.12)
+ βk xik / hi + ui hi
ou

y∗i = β0 xi0
∗ ∗
+ β1 xi1 ∗
+ . . . + βk xik + u∗i (8.13)

∗ = 1/ h e as outras variáveis sobrescritas com * representam as variáveis originais correspondentes
onde xi0 √ i
divididas por hi .
A equação (8.13) parece um pouco peculiar, mas o importante a ser lembrado é que a derivamos para podermos
obter os estimadores de β j que tenham propriedades de eficiência melhores que MQO. É bom lembrarmos que na
interpretação dos parâmetros e do modelo, sempre queremos retomar à equação original (8.11).
A equação (8.13) é linear em seus parâmetros (portanto satisfaz RLM.1), e a hipótese de amostragem aleatória
não se alterou. Além disso, u∗i tem uma média zero e uma variância constante (σ 2 ), condicional em xi∗ . Isso significa
que se a equação original satisfizer as quatro primeiras hipóteses de Gauss-Markov, então a equação transformada
(8.13) satisfará todas as cinco hipóteses de GaussMarkov. Além disso, se ui tiver uma distribuição normal, então
u∗i terá uma distribuição normal com variância σ 2 . Portanto, a equação transformada satisfará as hipóteses do
modelo linear clássico (RLM. l a RLM.6), se o modelo original também o fizer, com exceção da hipótese de
homoscedasticidade.
Como sabemos que o MQO tem propriedades atraentes (BLUE, por exemplo) sob as hipóteses de Gauss-
Markov, estimamos os parâmetros da equação (8.13)por mı́nimos quadrados ordinários. Esses estimadores, β0∗ , β1∗ ,
. . . , βk∗ , serão diferentes dos estimadores MQO na equação original. Os β j∗ são exemplos de estimadores de
mı́nimos quadrados generalizados (MQG). Além disso, os estimadores MQG, por serem os melhores estimadores
lineares não-viesados de β j , são necessariamente mais eficientes que os estimadores MQO βbj obtidos da equação
não transformada.
Os estimadores MQG para a correção da heteroscedasticidade são chamados de estimadores de mı́nimos qua-
drados ponderados (MQP). Esse nome advém do fato de que β j∗ minimiza a soma ponderada dos quadrados dos
resı́duos, onde cada resı́duo quadrado é ponderado por l/hi . A idéia é colocar menos peso nas observações com
uma variância de erro mais alta; o método MQO dá a cada observação o mesmo peso, pois isso é melhor quando a
variância do erro é idêntica para todas as partições da população.

A Necessidade de Estimar a Função de Heteroscedasticidade: O MQG Factı́vel

Na maioria dos casos, a forma exata de heteroscedasticidade não é óbvia. Isto quer dizer que é difı́cil encontrar
a função h(xi ) da seção anterior. Contudo, em muitos casos podemos modelar a função h. Isso resulta em uma
estimativa de cada hi , indicada por b hi . O uso de b
hi em lugar de hi na transformação MQG produz um estimador
chamado estimador MQG factı́vel (MQGF). O MQG factı́vel algumas vezes é chamado de MQG estimado ou
MQGE.
Existem várias maneiras de modelar a heteroscedasticidade, mas estudaremos um método particular razoavel-
mente flexı́vel. Assuma que

Var(u|x) = σ 2 exp (δ0 + δ1 x1 + δ2 x2 + . . . + δk xk ) (8.14)

onde x1 , x2 , . . . , xk são variáveis independentes e δ j são parâmetros desconhecidos. Na notação da subseção anterior,
h(x) = exp (δ0 + δ1 x1 + δ2 x2 + . . . + δk xk ). Aqui usamos a função exponencial da equação (8.14) para garantir que
nossas variâncias estimadas sejam positivas para podermos usar o método MQP.
Usa-se, então, os dados para estimar os parâmetros, e então utilizar essas estimativas para construir os pesos.
Basicamente, transformaremos essa equação em uma forma linear que, com pequenas modificações, poderá ser
estimada por MQO.
Podemos escrever
u2 = σ 2 exp (δ0 + δ1 x1 + δ2 x2 + . . . + δk xk )
onde u tem uma média igual à unidade, condicional em x1 , x2 , . . . , xk . Se assumirmos que u é realmente indepen-
dente de x, podemos escrever

log u2 = α0 + δ1 x1 + δ2 x2 + . . . + δk xk + e

(8.15)
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 71

onde e tem média zero e é independente de x; o intercepto nessa equação é diferente de δ0 , mas isso não é
importante. A variável dependente é o log do erro quadrado.
Como (8.15) satisfaz as hipóteses de Gauss-Markov, podemos obter estimadores não-viesados de utilizando
MQO.
Como sempre, devemos substituir o u não-observado pelos resı́duos MQO. Portanto, computamos a regressão
de
u2 ) sobre x1 , x2 , . . . , xk
log(b (8.16)
Na realidade, o que necessitamos dessa regressão são os valores estimados; vamos chamá-los de gbi . Então, as
estimativas de hi serão simplesmente

hi = exp(b
b gi ). (8.17)
Façamos um resumo dos passos.
1. Execute a regressão de y sobre x1 , x2 , . . . , xk e obtenha os resı́duos ub.
2. u2 ) primeiramente elevando ao quadrado os resı́duos MQO e depois calculando seu log natural.
Crie log(b
3. Execute a regressão na equação (8.16) e obtenha os valores estimados, gb.
4. Calcule o exponencial dos valores estimados a partir de b h = exp(bg)
5. Estime a equação q q  q   q 
hi =β0 / b
yi / b hi + β1 xi1 / b
hi + β2 xi2 / b
hi + . . .
 q   q 
+ βk xik / bhi + ui b hi .
72 Prof. Cleiton Guollo Taufemback
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 73

9 Problemas Adicionais de Especificação e de Dados

Neste capı́tulo, voltamos ao problema muito mais sério de correlação entre o erro, u, e uma ou mais das variáveis
explicativas. Se u, por qualquer motivo, estiver correlacionado com a variável explicativa x j , então dizemos que x j
é uma variável explicativa endógena.

9.1 Erro de especificação de forma funcional

Suponha que a equação log(salario) seja definida corretamente por

log(salario) =β0 + β1 educ + β2 exper + β3 exper2


+ β4 f eminino + β5 f eminino · educ + u

onde feminino é uma variável binária. Se omitimos o termo de interação, f eminino · educ, então estamos espe-
cificando incorretamente a forma funcional. Em geral, não obteremos estimadores não-viesados de nenhum dos
outros parâmetros e, como o retorno à educação depende do gênero, não está claro que retorno estimarı́amos se
omitirmos o termo de interação.
Omitir funções de variáveis independentes não é a única maneira de um modelo sofrer de forma funcional
especificada incorretamente. Por exemplo, se o modelo verdadeiro que satisfaz as quatro primeiras premissas
de Gauss-Markov, mas usamos salário em vez de log salario como variável dependente, então não obteremos
estimadores não-viesados ou consistentes dos efeitos parciais. Os testes a seguir têm alguma capacidade de detectar
esse tipo de problema de forma funcional, mas há testes melhores que mencionaremos na subseção sobre testes
com alternativas não aninhadas.

RESET como teste geral para especificação incorreta de forma funcional

A ideia por trás do RESET é bastante simples. Se o modelo original

y = β0 + β1 x1 + . . . + βk xk + u (9.1)

satisfaz a RML.4, então nenhuma função não linear das variáveis independentes deve ser significativa quando
adicionada à equação (9.1). Por exemplo, podemos adicionar valores quadráticos das variáveis e testar se são
significativas. Embora isso frequentemente detecte problemas de forma funcional, tem a desvantagem de usar
muitos graus de liberdade se houver muitas variáveis explicativas no modelo original. Além disso, certos tipos de
não linearidades negligenciadas não serão capturadas adicionando termos quadráticos. O teste RESET adiciona
polinômios nos valores ajustados do MQO à equação (9.1) para detectar tipos gerais de falta de especificação da
forma funcional.
Seja yb os valores ajustados via MQO a partir da estimativa (9.1). Considere agora a equação expandida

y = β0 + β1 x1 + . . . + βk xk + δ1 yb2 + δ2 yb3 + · · · + δq ybq+1 + erro. (9.2)

Essa equação parece um pouco estranha, porque as funções dos valores ajustados da estimativa inicial agora apa-
recem como variáveis explicativas. De fato, não estaremos interessados nos parâmetros estimados de (9.2); usa-
mos apenas esta equação para testar se em (9.1) faltou não-linearidades importantes. É importante lembrar que
yb2 , . . . , ybq+1 são apenas funções não lineares de x j .
A hipótese nula é que (9.1) está especificado corretamente. Assim, RESET é a estatı́stica F para testar H0 : δ1 =
δ2 = · · · = δq = 0 no modelo expandido (9.2). Uma estatı́stica F significativa sugere algum tipo de problema de
forma funcional. A distribuição da estatı́stica F é aproximadamente F(q, n − k − 1 − q) em amostras grandes sob a
hipótese nula (e as suposições de Gauss-Markov).

Testes contra alternativas não aninhadas

Obter testes para outros tipos de erros de especificação da forma funcional - por exemplo, tentar decidir se uma
variável independente deve aparecer em nı́vel ou em forma logarı́tmica - nos leva para fora do domı́nio do teste
clássico de hipóteses. É possı́vel testar o modelo
74 Prof. Cleiton Guollo Taufemback

y = β0 + β1 x1 + β2 x2 + u (9.3)

contra o modelo
y = β0 + β1 log (x1 ) + β2 log (x2 ) + u (9.4)
e vice versa. No entanto, esses são modelos não aninhados e, portanto, não podemos simplesmente usar um teste F
padrão. Duas abordagens diferentes foram sugeridas. O primeiro é construir um modelo abrangente que contenha
cada modelo como um caso especial e, em seguida, testar as restrições que levaram a cada um dos modelos. No
exemplo atual, o modelo abrangente é

y = γ0 + γ1 x1 + γ2 x2 + γ3 log (x1 ) + γ4 log (x2 ) + u

Podemos primeiro testar H0 : γ1 = 0, γ2 = 0 como um teste contra (9.3). Também podemos testar H0 : γ3 = 0, γ4 = 0
como um teste contra (9.4).
Outra abordagem foi sugerida por Davidson e MacKinnon (1981). O teste de Davidson-MacKinnon é obtido a
partir da estatı́stica t em y̌ na equação auxiliar.

y = β0 + β1 x1 + β2 x2 + θ1 y̌ + error

Como y̌ são funções não lineares de x1 e x2 , ela deve ser insignificantes se (9.3) for o modelo médio condicional
correto. Portanto, uma estatı́stica t significativa (contra uma alternativa bilateral) é uma rejeição de (9.3).
Da mesma forma, se yb denota os valores ajustados da estimativa (9.3), o teste de (9.4) é a estatı́stica t em yb no
modelo
y = β0 + β1 log (x1 ) + β2 log (x2 ) + θ1 yb+ error
uma estatı́stica t significativa é uma evidência contra (9.4). Os mesmos dois testes podem ser usados par a testar
quaisquer dois modelos não aninhados com a mesma variável dependente.
Existem alguns problemas com esses testes. Primeiro, um modelo vencedor pode não surgir. Ambos os modelos
podem ser rejeitados ou nenhum dos modelos pode ser rejeitado. O segundo problema é que rejeitar (9.3) usando,
digamos, o teste de Davidson-MacKinnon, não significa que (9.4) seja o modelo correto. O modelo (9.3) pode ser
rejeitado por diversas formas funcionais especificações erradas.

9.2 Usando variáveis proxy para variáveis explicativas não observadas

Um problema mais difı́cil surge quando um modelo exclui uma variável-chave, geralmente devido à indisponibili-
dade de dados. Considere uma equação salarial que reconheça explicitamente que a capacidade (habilidade) afeta
log(salario):
log(salario) = β0 + β1 educ + β2 exper + β3 habilidade + u (9.5)
Este modelo mostra explicitamente que queremos manter habilidade fixa ao medir o retorno ao ensino e à ex-
periência. Se, digamos, educ estiver correlacionado com habilidade, colocar habilidade no termo de erro fará com
que o estimador MQO de β1 (e talvez β2 ) seja viesado.
Como podemos resolver, ou pelo menos mitigar, o viés das variáveis omitidas em uma equação como (9.5)?
Uma possibilidade é obter uma variável proxy para a variável omitida. Em termos gerais, uma variável proxy é
algo relacionado à variável não observada que gostarı́amos de controlar em nossa análise. Na equação salarial,
uma possibilidade é usar o quociente de inteligência, ou QI, como proxy de habilidade. Isso não exige que o QI
seja a mesma coisa que habilidade; o que precisamos é que o QI seja correlacionado com habilidade, algo que
esclarecemos na discussão a seguir.
Todas as ideias-chave podem ser ilustradas em um modelo com três variáveis independentes, duas das quais são
observadas:
y = β0 + β1 x1 + β2 x2 + β3 x3∗ + u (9.6)
Seja x3 a variável proxy de x3∗ . O que devemos esperar dela? No mı́nimo, deve ter alguma relação com x3∗ . Isso
é capturado pela equação de regressão simples

x3∗ = δ0 + δ3 x3 + v3 (9.7)

em que v3 é um erro devido ao fato de que x3∗ e x3 não estão exatamente relacionados. O parâmetro δ3 mede a
relação entre x3∗ e x3 .
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 75

As suposições necessárias para fornecer estimadores consistentes de β1 e β2 podem ser divididas em suposições
sobre u e v3 :
(1) O erro u não está correlacionado com x1 , x2 e x3∗ , que é apenas a suposição padrão no modelo (9.6). Além
disso, u não está correlacionado com x3 .
(2) O erro v3 não está correlacionado com x1 , x2 e x3 . Supondo que a v3 não esteja correlacionada com x1 e x2 ,
exige que x3 seja uma boa proxy para x3∗ . Ou seja,

E (x3∗ |x1 , x2 , x3 ) = E (x3∗ |x3 ) = δ0 + δ3 x3 (9.8)

Na equação salarial (9.5), onde QI é o proxy da habilidade, a condição (9.8) se torna

E(habilidade|educ, exper,QI) = E(habilidade|QI) = δ0 + δ3 QI (9.9)

Se ligarmos a equação (9.7) à equação (9.6) e fizermos álgebra simples, obtemos

y = (β0 + β3 δ0 ) + β1 x1 + β2 x2 + β3 δ3 x3 + u + β3 v3

Chame o erro composto nesta equação e = u + β3 v3 ; que é dependente do erro no modelo de interesse (9.6) e do
erro na equação da variável proxy, v3 . Como u e v3 têm média zero e cada um não é correlacionado com x1 , x2 e
x3 , o erro e também possui zero média e não é correlacionado com x1 , x2 e x3 . Então temos,

y = α0 + β1 x1 + β2 x2 + α3 x3 + e (9.10)

onde α0 = (β0 + β3 δ0 ) é o novo intercepto e α3 = β3 δ3 é o parâmetro de inclinação na variável de proxy x3 . Como


aludimos anteriormente, quando executamos a regressão em (9.10), não obteremos estimadores imparciais de β0 e
β3 ; em vez disso, obteremos estimadores imparciais (ou pelo menos consistentes) de α0 , β1 , β2 e α3 . O importante
é que tenhamos boas estimativas dos parâmetros β1 e β2 .
É fácil ver como o uso de uma variável proxy ainda pode levar a viés, se a variável proxy não atender às
suposições anteriores. Suponha que, em vez de (9.7), a variável não observada, x3∗ , esteja relacionada a todas as
variáveis observadas por
x3∗ = δ0 + δ1 x1 + δ2 x2 + δ3 x3 + v3 (9.11)
em que v3 tem média zero e não está correlacionado com x1 , x2 e x3 . A equação (9.7) assume que δ1 e δ2 são zero.
Ao conectar a equação (9.11) em (9.6), obtemos

y = (β0 + β3 δ0 ) + (β1 + β3 δ1 ) x1 + (β2 + β3 δ2 ) x2


+ β3 δ3 x3 + u + β3 v3

Porém, podemos ter alguma esperança de que esse viés será menor do que se ignorarmos totalmente o problema
da variável omitida.

Usando variáveis dependentes atrasadas como variáveis de proxy

O uso de uma variável dependente defasada em uma regressão de dados transversal aumenta os requisitos de dados,
mas também fornece uma maneira simples de explicar fatores históricos que causam diferenças atuais na variável
dependente que são difı́ceis de serem explicadas de outras maneiras. Por exemplo, algumas cidades tiveram altas
taxas de criminalidade no passado. Muitos dos mesmos fatores não observados contribuem para altas taxas de
criminalidade atual e passada. Da mesma forma, algumas universidades são tradicionalmente melhores em termos
acadêmicos do que outras. Efeitos inerciais também são capturados ao se colocar lags de y.
Considere uma equação simples para explicar as taxas de criminalidade na cidade:

crime = β0 + β1 desemprego + β2 gasto + β3 crime−1 + u

onde o crime é uma medida do crime per capita, desemprego é a taxa de desemprego da cidade, gasto é o gasto per
capita na aplicação da lei e o crime−1 indica a taxa de criminalidade medida em algum ano anterior (esse poderia
ser o ano passado ou vários anos atrás).
76 Prof. Cleiton Guollo Taufemback

9.3 Propriedades do Método MQO quando há Erros de Medida

Algumas vezes, em aplicações econômicas, não podemos coletar dados da variável que verdadeiramente afetam o
comportamento econômico. Quando utilizamos uma medida imprecisa de uma variável econômica em um modelo
de regressão, nosso modelo conterá um erro de medida. Nesta seção derivamos as consequências do erro de medida
para a estimação dos mı́nimos quadrados ordinários. O método MQO será coerente sob certas hipóteses, mas
existem outras sob as quais ele será inconsistente. Em alguns desses casos, podemos inferir o tamanho do viés
assimptótico.

9.3.1 Erro de Medida em uma Variável Explicativa

Comecemos com o modelo de regressão simples

y = β0 + β1 x1∗ + u (9.12)

supondo que ele satisfaz pelo menos as primeiras quatro hipóteses de Gauss-Markov. Isso significa que a estimação
de (9.12) por MQO produziria estimadores de β0 e β , não viesados e consistentes. O problema é que x1∗ não é
observado. Em vez disso, temos uma medida de x1∗ , que pode ser chamada de x1 . Por exemplo, x1∗ poderia ser a
verdadeira renda e x1 poderia ser a renda registrada.
O erro de medida na população é simplesmente

e1 = x1 − x1∗

e pode ser positivo, negativo ou zero. Presumimos que o erro de medida médio na população é zero: E (e1 ) = 0.
Isso é natural e, de qualquer forma, não afeta a importante conclusão a seguir. Uma suposição sustentada no que
segue é que u é não correlacionado com x1∗ e x1 . Em termos de expectativa condicional, podemos escrevê-la como
E (y | x1∗ , x1 ) = E (y | x1∗ ) , que apenas diz que x1 não afeta y após ter-se controlado x1∗ . Usamos a mesma suposição
no caso da variável proxy e isso não é controverso; ela se mantém quase que por definição.
A primeira hipótese é que e, é não correlacionado com a medida observada, x1 , i.e., Cov (x1 , e1 ) = 0. Logo,

y = β0 + β1 x1 + (u − β1 e1 ) (9.13)
Em consequência, a estimação de MQO com x1 em lugar de x1∗ produz um estimador consistente de β1 (e
também de β0 ). Como u é não correlacionado com e1 , a variância do erro em (9.13 é Var (u − β1 e1 ) = σu2 + β12 σe21 .
Assim, exceto quando β1 = 0, o erro de medida aumenta a variância do erro. Porém, isso não afeta quaisquer
das propriedades de MQO (exceto pelo fato de que as variâncias de βbi serão maiores do que se observarmos x∗
diretamente).
A hipótese de que e, é não correlacionada com x, é análoga à hipótese da variável proxy que fizemos na passada.
Como esta hipótese significa que o método MQO tem todas as suas propriedades perfeitas, não é isso o que os
econometristas têm em mente quando se referem ao erro de medida em uma variável explicativa. A suposição de
erro clássico nas variáveis (CEV) é que o erro de medida é não correlacionado com a variável explicativa não
observada:

Cov (x1∗ , e1 ) = 0 (9.14)


Se a hipótese (9.14) for válida, então x1 e e1 devem ser correlacionadas:

Cov (x1 , e1 ) = E (x1 e1 ) = E (x1∗ e1 ) + E e21 = 0 + σe2 = σe2



(9.15)

Assim, a covariância entre x, e e, é igual à variância do erro de medida sob a hipótese CEV. Assim, no caso CEV,
a regressão de MQO de y sobre x1 , produz um estimador viesado e inconsistente. O limite de probabilidade de βb,
é β , mais a razão da covariância entre x1 e u − β1 e1 e a variância de x1 :
  Cov (x1 , u − β1 e1 )
plim βb1 = β1 +
Var (x1 )
2
σx∗
! (9.16)
1
= β1
σx2∗ + σe21
1
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 77

Se a variância de x1∗ for grande, em relação à variância no erro de medida, então a inconsistência no MQO será
pequena. Isso é em razão do fato de Var (x1∗ ) / Var (x1 ) ficar próximo da unidade, quando σx22 for muito maior do
1
que σe21 . Portanto, dependendo do volume de variação em x1∗ , com relação a e1 , o erro de medida não causará,
necessariamente, grandes vieses.
As coisas se complicam quando adicionamos mais variáveis explicativas. O viés de atenuação ao se estimar β1
pode ser demonstrado que
σr2∗
!
 
1
plim β1 = β1
b (9.17)
σr2∗ + σe21
1

em que r1∗ é o erro populacional na equação x1∗ = α0 + α1 x2 + α2 x3 + r1∗ . A fórmula (9.17) também funciona no
caso da variável geral k, quando x, for a única variável medida erroneamente.
As coisas são menos nı́tidas ao se estimar β j , nas variáveis não medidas com erro. No caso especial em que x∗
é não correlacionado com x2 e x3 , βb2 e βb3 são consistentes. Entretanto, na prática isso é raro. Geralmente, o erro de
medida em uma única variável provoca inconsistência em todos os estimadores. Infelizmente, os tamanhos, e até
mesmo as direções dos vieses, não são facilmente derivados.

9.4 Dados ausentes, amostras não aleatórias e outliers

Dados ausentes

O problema de dados ausentes pode surgir de várias formas. Frequentemente, coletamos uma amostra aleatória de
pessoas, escolas, cidades e assim por diante, e depois descobrimos que faltam informações em algumas variáveis-
chave para várias unidades da amostra.
Se estiverem faltando dados para uma observação na variável dependente ou em uma das variáveis indepen-
dentes, a observação não poderá ser usada em uma análise de regressão múltipla padrão. De fato, desde que os
dados ausentes tenham sido indicados corretamente, todos os pacotes de regressão modernos mantêm o controle
dos dados ausentes e simplesmente ignoram as observações ao calcular uma regressão.
Além de reduzir o tamanho da amostra, existem consequências estatı́sticas do uso do estimador MQO e da
ignorância dos dados ausentes? Se os dados estiverem faltando completamente aleatoriamente, os dados ausentes
não causarão problemas estatı́sticos.

Amostras não aleatórias

Para ilustrar dados exogenamente ausentes, suponha que estamos estimando uma função de poupança, em que
a economia anual depende de renda, idade, tamanho da famı́lia e alguns fatores não observados, u. Um modelo
simples é
poupanca = β0 + β1 renda + β2 idade + β3tamanho f + u (9.18)
Suponha que nosso conjunto de dados tenha sido baseado em uma pesquisa de pessoas com mais de 35 anos de
idade, deixando assim uma amostra não aleatória de todos os adultos.
Embora isso não seja o ideal, ainda podemos obter estimadores imparciais e consistentes dos parâmetros no
modelo populacional (9.18), usando a amostra não aleatória. Desde que haja variação suficiente nas variáveis
independentes na subpopulação, a seleção com base nas variáveis independentes não é um problema sério, exceto
que resulta em tamanhos de amostra menores.
Outro exemplo, suponha que desejemos estimar a relação entre a riqueza individual e vários outros fatores na
população de todos os adultos:

riqueza = β0 + β1 educ + β2 exper + β3 idade + u (9.19)

Suponha que apenas pessoas com riqueza abaixo de R$ 100.000 sejam incluı́das na amostra. Esta é uma amostra
não aleatória da população de interesse e é baseada no valor da variável dependente. O uso de uma amostra em pes-
soas com riqueza abaixo de R$ 100.000 resultará em estimadores tendenciosos e inconsistentes. Resumidamente,
isso ocorre porque a regressão populacional E[riqueza|educ, exper, idade] não é a mesma que o valor esperado,
dependendo da riqueza ser inferior a R$ 100.000
78 Prof. Cleiton Guollo Taufemback

Outliers

A definição do que é um outlier é um pouco vaga, porque requer a comparação dos valores das variáveis para uma
observação com os da amostra restante. No entanto, é preciso estar atento a observações “incomuns” porque elas
podem afetar muito as estimativas do MQO.

Figura 8 Gráfico de dispersão da intensidade de P&D em relação às vendas firmes.

O MQO é suscetı́vel a observações externas, porque minimiza a soma dos resı́duos quadráticos: os resı́duos
grandes (positivos ou negativos) recebem muito peso no problema de minimização dos mı́nimos quadrados. Se as
estimativas mudarem em uma quantidade praticamente grande quando modificamos ligeiramente nossa amostra,
devemos nos preocupar.

9.5 Normalidade dos resı́duos

Obs: esse material não está no Wooldridge, mas consta no plano de ensino.
Os resı́duos contém informação sobre o motivo do modelo ter ou não se ajustado bem aos dados. Com eles é
possı́vel indicar se uma ou mais suposições do modelo foram violadas. Uma das hipóteses é que os erros são identi-
camente distribuı́dos com distribuição N(0, σ 2 ). Ou seja, todos erros ei foram gerados de uma mesma distribuição
Normal, com mesma média e variância.
Observe que a premissa de normalidade não é essencial se o objetivo for apenas estimar o modelo. Os estima-
dores de MQO são os melhores estimadores lineares não viesados quer os resı́duos sejam normais ou não. Porém,
desvios da normalidade afetam os intervalos de confiança e consequentemente os testes t, F e χ 2 não serão válidos.
Para testar se os resı́duos são normalmente distribuı́dos, três técnicas são mais empregadas:
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 79

(i) Histograma:
• No eixo horizontal dividimos os valores dos resı́duos em intervalos;
• A altura é a frequência dessas classes;
• O gráfico deve ser simétrico, em forma de sino e em torno de zero.
• Histogramas de dados não-normais e dados normais podem ser encontrados nas figuras 9 e 10, respecti-
vamente.

20
Frequência

15

10

0
0 25 50 75 100
x

Figura 9 Histograma de dados não-Normalmente distribuı́dos.

20

15
Frequência

10

0
−3 −2 −1 0 1 2 3
x

Figura 10 Histograma de dados Normalmente distribuı́dos.

(ii) Gráfico de Probabilidade Normal (QQplot):


• No eixo horizontal temos os quantis teóricos de uma distribuição Normal;
• No eixo vertical temos os quantis obtidos da amostra;
• Se o resı́duo for normalmente distribuı́do, o gráfico tomará a forma de uma reta;
• Visualmente é mais fácil de detectar a não-normalidade dos dados que o método do histograma.
• QQplots de dados não-normais e dados normais podem ser encontrados nas figuras 9 e 10, respectiva-
mente.
(iii) Testes de normalidade:
80 Prof. Cleiton Guollo Taufemback

200
Quantis amostrias

100

−100

−2 −1 0 1 2
Quantis teóricos

Figura 11 QQplot de dados não-Normalmente distribuı́dos.


Quantis amostrias

−2

−3 −2 −1 0 1 2 3
Quantis teóricos

Figura 12 QQplot de dados Normalmente distribuı́dos.

• A hipótese nula, H0 , é de que os dados provêm de uma distribuição Normal;


• A hipótese alternativa é que os dados não são Normais;
• H0 deverá ser rejeitada se o p-valor for pequeno (menor que o nı́vel de significância adotado, normalmente
0.05). Na Tabela 2, vemos o resultado de testes para dois conjuntos de dados. Assumindo α = 0.05,
rejeitamos H0 para o primeiro conjunto e não rejeitamos para o segundo.
• Alguns desses testes são: Qui-quadrado, Jarque-Bera, Kolmogorov-Smirnov, Liliefors, Shapiro-wilk,
Doornik-Hansen, ...

Tabela 2 Testes de Normalidade de resı́duos, dados Normais e não-Normais.


Dados não-Normais
Estatı́stica do teste p-valor
Shapiro-Wilk normality test 0.8139 0.0000
One-sample Kolmogorov-Smirnov test 0.1991 0.0016
Jarque Bera Test (gl = 2) 11.4400 0.0033

Dados Normais
Estatı́stica do teste p-valor
Shapiro-Wilk normality test 0.9914 0.2790
One-sample Kolmogorov-Smirnov test 0.0586 0.4976
Jarque Bera Test (gl = 2) 1.2947 0.5234
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 81

Das três técnicas, a mais indicada é o emprego dos testes de Normalidade. Infelizmente, humanos possuem
um viés cognitivo para detecção de padrões, o que coloca em xeque afirmações feitas apenas sobre gráficos.
É sempre aconselhado o uso de mais de um teste, pois o resultado é mais substancioso se mais de um método
aponta para a mesma conclusão.

9.5.1 Medidas Corretivas

É possı́vel demonstrar que mesmo se os resı́duos não forem normais, mas forem homocedásticos, os estimadores
de MQO seguem distribuição assintaticamente normal. Se a amostra for grande os habituais procedimentos de
inferência ainda serão válidos. Porém, não existe um valor de indique o quão grande uma amostra deve ser para
que a normalidade assintótica seja válida. Uma alternativa muito utilizada é a transformação nas variáveis. As mais
utilizadas são a transformação logarı́tmica, log(y) e a raiz quadrada, y1/2 .
82 Prof. Cleiton Guollo Taufemback
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 83

10 O Básico da Análise de Regressão com Dados de Séries Temporais

Neste capı́tulo, voltamos nossa atenção para as propriedades de amostra finita dos estimadores MQO e declaramos
as premissas de Gauss-Markov e as premissas clássicas do modelo linear para regressão de séries temporais.
Embora essas premissas tenham caracterı́sticas em comum com as do caso transversal, elas também apresentam
algumas diferenças significativas que precisaremos destacar.

10.1 Exemplos de Modelos de Regressão de Séries Temporais

Nesta seção, discutimos dois exemplos de modelos de séries temporais que são úteis na análise empı́rica de séries
temporais e que são facilmente estimados por mı́nimos quadrados comuns.

Modelos Estáticos

Suponha que temos dados de séries temporais disponı́veis em duas variáveis, digamos y e z, em que yt e zt são
datados contemporaneamente. Um modelo estático relacionado a z é

yt = β0 + β1 zt + ut ,t = 1, 2, . . . , n

O nome “modelo estático” vem do fato de estarmos modelando uma relação contemporânea entre y e z. Ge-
ralmente, um modelo estático é postulado quando se acredita que uma mudança em z no tempo t tenha um efeito
imediato em y: ∆ yt = β1 ∆ zt , quando ∆ ut = 0. Os modelos de regressão estática também são usados quando esta-
mos interessados em conhecer a troca entre y e z.
Um exemplo de modelo estático é a curva estática de Phillips, dada por

in ft = β0 + β1 unemt + ut

onde in ft é a taxa de inflação anual e unemt é a taxa de desemprego anual. Essa forma da curva de Phillips assume
uma taxa natural constante de desemprego e expectativas inflacionárias constantes, e pode ser usada para estudar
o tradeoff contemporâneo entre inflação e desemprego.

Modelos de Defasagens Distributivas Finitas

Em um modelo de atraso distribuı́do finito, permitimos que uma ou mais variáveis afetem y com um atraso. Por
exemplo, para observações anuais, considere o modelo

g f rt = α0 + δ0 pet + δ1 pet−1 + δ2 pet−2 + ut (10.1)

onde g f rt é a taxa geral de fertilidade (crianças nascidas por 1.000 mulheres em idade fértil) e pet é o valor real
em dólar da isenção tributária pessoal. A ideia é verificar se, no total, a decisão de ter filhos está ligada ao valor
tributário de ter um filho. A equação (10.1) reconhece que, por razões biológicas e comportamentais, as decisões
de ter filhos não resultariam imediatamente de mudanças na isenção pessoal.
A equação (10.1) é um exemplo do modelo

yt = α0 + δ0 zt + δ1 zt−1 + δ2 zt−2 + ut (10.2)

que é um Defasagens Distributivas Finitas de ordem dois. Para interpretar os coeficientes em (10.2), suponha que
z seja uma constante, igual a c, em todos os perı́odos anteriores ao tempo t. No tempo t, z aumenta em uma
unidade para c + 1 e depois volta ao nı́vel anterior no tempo t + 1. (Ou seja, o aumento em z é temporário.) Mais
precisamente,
. . . , zt−2 = c, zt−1 = c, zt = c + 1, zt+1 = c, zt+2 = c, . . .
Para focar no efeito ceteris paribus de z em y, definimos o termo de erro em cada perı́odo como zero. Então,
84 Prof. Cleiton Guollo Taufemback

yt−1 = α0 + δ0 c + δ1 c + δ2 c
yt = α0 + δ0 (c + 1) + δ1 c + δ2 c
yt+1 = α0 + δ0 c + δ1 (c + 1) + δ2 c
yt+2 = α0 + δ0 c + δ1 c + δ2 (c + 1)
yt+3 = α0 + δ0 c + δ1 c + δ2 c

e assim por diante. Das duas primeiras equações, yt − yt−1 = δ0 , que mostra que δ0 é a mudança imediata em
y devido ao aumento de uma unidade em z no tempo t. δ0 é geralmente chamado de propensão ao impacto ou
multiplicador de impacto.

Figura 13 Uma distribuição de lag com duas defasagens diferentes de zero. O efeito máximo ocorre na primeira defasagem.

Felizmente, o Capı́tulo 15, Estimação de Variáveis Instrumentais e Mı́nimos Quadrados de dois Estágios, mos-
tra como, sob certas hipóteses, como os parâmetros podem ser consistentemente estimados na presença de erros
gerais de medida. Tais medidas serão vistas em semestres posteriores.

10.2 Propriedades de Amostra Finita do MQO sob as Hipóteses Clássicas

Nesta seção, fornecemos uma lista completa para amostras finita de propriedades de MQO sob suposições padrão.
Prestamos atenção especial em como as suposições devem ser alteradas em nossa análise transversal para cobrir
regressões de séries temporais.

Inexistência de Viés do MQO

A primeira suposição simplesmente afirma que o processo de série temporal segue um modelo que é linear em seus
parâmetros.
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 85

HIPÓTESE ST.1 (Linear nos parâmetros)

O processo estocástico {(xt1 , xt2 , . . . , xtk , yt ) : t = 1, 2, . . . , n} segue o modelo linear

yt = β0 + β1 xt1 + . . . + βk xtk + ut

em que {ut : t = 1, 2, . . . , n} é a sequência de erros ou perturbações. Aqui, n é o número de observações


(perı́odos de tempo).

Naturalmente, como acontece com a regressão transversal, precisamos descartar a colinearidade perfeita entre
os regressores.

HIPÓTESE ST.2 (Inexistência de colinearidade perfeita)

Na amostra (e portanto no processo subjacente da série temporal), nenhuma variável independente é cons-
tante ou é uma combinação linear perfeita das outras.

A suposição final para a imparcialidade de MQO é o análogo de série temporal da Suposição RLM.4, e também
elimina a necessidade de amostragem aleatória na Suposição RLM.2.

HIPÓTESE ST.3 (Média condicional zero)

Para cada t, o valor esperado do erro ut , dadas as variáveis explicativas de todos os periodos de tempo, é
zero. Matematicamente,
E (ut | X) = 0,t = 1, 2, . . . , n.

Esta é uma suposição crucial e precisamos ter uma compreensão intuitiva de seu significado. Como no caso da
seção transversal, é mais fácil ver essa suposição em termos de não correlação: a suposição ST.3 implica que o
erro no tempo t, ut , não está correlacionado com cada variável explicativa em cada perı́odo de tempo. O fato de
isso ser declarado em termos da expectativa condicional significa que também devemos especificar corretamente
a relação funcional entre yt e as variáveis explicativas. Se ut for independente de X e E(ut ) = 0, então a hipótese
ST.3 é válida automaticamente.
Dado ST.1 até ST.3 temos,

Teorema 10.1 (INEXISTÊNCIA DE VIESS DO MQO)

Sob as Hipóteses ST.1, ST.2 e ST.3 os estimadores de MQO são não viesados condicionados em X e,
portanto, também incondicionalmente: E(βb ) = β j , j = 0, 1, . . . , k.

A prova desse teorema é essencialmente a mesma que para o Teorema 3.1 no Capı́tulo 3, portanto, nós o omi-
timos. Ao comparar o Teorema 10.1 com o Teorema 3.1, somos capazes de descartar a suposição de amostragem
aleatória assumindo que, para cada t, ut tem média zero dadas as variáveis explicativas em todos os perı́odos de
tempo. Se essa suposição não for válida, MQO não pode ser mostrado como imparcial.

As Variâncias dos Estimadores MQO e o Teorema de Gauss-Markov

Precisamos adicionar duas suposições para completar as suposições de Gauss-Markov para regressões de séries
temporais. O primeiro é conhecido pela análise transversal.
86 Prof. Cleiton Guollo Taufemback

HIPÓTESE ST.4 (Homoscedasticidade)

Condicional em X, a variância de ut é a mesma para todo t : Var (ut | X) = Var (ut ) = σ 2 ,t = 1, 2, . . . , n

A suposição final de Gauss-Markov para a análise de séries temporais é nova.

HIPÓTESE ST.5 (Inexistência de Correlação Serial)

Condicional em X, os erros em dois perı́odos de tempo diferentes são não correlacionados:


Cor (ut , us | X) = 0, para todo t ̸= s

A maneira mais fácil de pensar sobre essa suposição é ignorar o condicionamento em X. Então, a suposição
ST.5 é simplesmente
Corr (ut , us ) = 0, para todo t ̸= s.
Estamos principalmente interessados em aplicar as suposições de Gauss-Markov a problemas de regressão de
séries temporais. Mas antes veremos como ficam a variância dos estimadores e a estimação da variância do erro,
dado as hipóteses ST.1 a ST.5

Teorema 10.2 (VARIÂNCIAS AMOSTRAIS DO MQO)

Sob as hipóteses de séries temporais ST.1 a ST.5 de Gauss-Markov, a variância de βbj , condicional em X, é
 
Var βbj | X = σ 2 / SQTx j 1 − R2j , j = 1, . . . , k
 

em que SQTx j é a soma dos quadrados total de xt, j e R2j é o R -quadrado da regressão de x j sobre as outras
variáveis independentes.

Teorema 10.3 (ESTIMAÇÃO NÃO VIESADA DE σ 2 )

b 2 = SQR/gl é um estimador não viesado de σ 2 , em que


Sob as Hipóteses ST.1 a ST.5, o estimador σ
gl = n − k − 1

Por fim,

Teorema 10.4 (TEOREMA DE GAUSS-MARKOV)

Sob as Hipóteses ST.1 a ST.5, os estimadores MQO são os melhores estimadores lineares não viesados
condicionais em X.

O ponto principal aqui é que MQO tem as mesmas propriedades de amostra finitas desejáveis sob ST.1 a ST.5
que tem sob RLM.1 a RLM.5.

Inferência sob as Hipóteses do Modelo Linear Clássico

Para usar os erros-padrão usuais de MQO, as estatı́sticas t e as estatı́sticas F, precisamos adicionar uma suposição
final que seja análoga à suposição de normalidade que usamos para a análise transversal.
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 87

HIPÓTESE ST.6 (Normalidade)

Os erros ut são independentes de X e são idêntica e independentemente distribuı́dos como Normal 0, σ 2




A suposição ST.6 implica ST.3, ST.4 e ST.5, mas é mais forte por causa das suposições de independência e
normalidade.

Teorema 10.5 (DISTRIBUIÇÕES AMOSTRAIS NORMAIS)

Sob as Hipóteses ST.1 a ST.6, as hipóteses MLC para as séries temporais, os estimadores MQO são nor-
malmente distribuı́dos, condicionais em X. Além disso, sob a hipótese nula, cada estatı́stica t tem uma
distribuição t, e cada estatı́stica F tem uma distribuição F. A construção habitual de intervalos de confiança
também é válida.

As implicações do Teorema 10.5 são de extrema importância. Isso implica que, quando as premissas ST.1 a ST.6
são válidas, tudo o que aprendemos sobre estimativa e inferência para regressões transversais se aplica diretamente
às regressões de série temporal. Assim, a estatı́stica t pode ser usada para testar a significância estatı́stica de
variáveis explicativas individuais, e a estatı́stica F pode ser usada para testar a significância conjunta.

Curva de Phillips Estática

Para determinar se existe uma relação, em média, entre desemprego e inflação, podemos testar H0 : β1 = 0
contra H1 : β1 < 0 na equação (10.2). Se as hipóteses do modelo linear clássico se mantiverem, podemos
usar a estatı́stica t usual do MQO.
Usamos o arquivo PHILLIPS para estimar a equação (10.2), nos restringindo a usar os dados de até
1996. (Em exercı́cios posteriores, por exemplo, Exercı́cio em computador C12 e C 10 , do Capı́tulo 11 ,
será solicitado usar todos os anos até 2003 . No Capı́tulo 18 usamos os anos de 1997 até 2003 em vários
exercı́cios de previsões). As estimativas da regressão simples são

in
d ft = 1, 42 +0, 468unemt
(1, 72) (0, 289)
n = 49, R2 = 0, 053, R̄2 = 0, 033

Esta equação não sugere uma relação de substituição entre unem e in f , pois βb1 > 0. A estatı́stica t de
β1 está em torno de 1, 62, o que dá um p -valor contra a alternativa bilateral de cerca de 0, 11. Portanto, na
b
verdade, existe um relacionamento positivo entre inflação e desemprego.
Existem alguns problemas com esta análise que não podemos avaliar em detalhes agora. No Capı́tulo
12 veremos que as hipóteses MQO não permanecem. Além disso, a curva de Phillips estática talvez não
seja o melhor modelo para determinar se existe uma relação de substituição de curto prazo entre inflação e
desemprego. Os macroeconomistas geralmente preferem a curva de Phillips de expectativas aumentadas.

Caracterização de Séries Temporais com Tendência

Muitas séries de tempo econômicas têm uma tendência comum de crescimento ao longo do tempo. Devemos
reconhecer que algumas séries contêm uma tendência temporal a fim de traçar inferência causal usando dados de
séries temporais. Ignorar o fato de que duas sequências estão tendendo na mesma direção ou em direções opostas
pode nos levar a concluir erroneamente que as mudanças em uma variável são na verdade causadas por mudanças
em outra variável. Em muitos casos, dois processos de série temporal parecem estar correlacionados apenas porque
ambos estão tendendo ao longo do tempo por razões relacionadas a outros fatores não observados.
Que tipo de modelo estatı́stico captura adequadamente o comportamento das tendências? Uma formulação
popular é escrever a série yt como
yt = α0 + α1t + et , t = 1, 2, . . .
88 Prof. Cleiton Guollo Taufemback

onde, no caso mais simples, et é uma sequência independente e identicamente distribuı́da (i.i.d.) com E(et ) = 0 e
Var(et ) = σe2 . Observe como o parâmetro α1 multiplica o tempo, t, resultando em uma tendência de tempo linear.
Na prática, uma tendência exponencial em uma série temporal é capturada modelando o logaritmo natural da
série como uma tendência linear (assumindo que yt > 0):

log (yt ) = β0 + β1t + et , t = 1, 2, . . .

para pequenas mudanças em yt , ∆ yt pequeno, β1 é aproximadamente a taxa média de crescimento por perı́odo em
yt .
Embora as tendências lineares e exponenciais sejam as mais comuns, as tendências de tempo podem ser mais
complicadas. Por exemplo, em vez do modelo de tendência linear abaixo, podemos ter uma tendência de tempo
quadrática:
yt = α0 + α1t + α2t 2 + et
Se α1 e α2 forem positivos, então a inclinação da tendência está aumentando, como é facilmente visto pelo
cálculo da inclinação aproximada (mantendo et fixo):

∆ yt
≈ α1 + 2α2t
∆t

Uso de Variáveis com Tendência na Análise de Regressão

Considere um modelo onde dois fatores observados, xt1 e xt2 , afetam yt . Além disso, existem fatores não observados
que estão sistematicamente crescendo ou diminuindo ao longo do tempo. Um modelo que captura isso é

yt = β0 + β1 xt1 + β2 x12 + β3t + ut

Isso se encaixa na estrutura de regressão linear múltipla com xt3 = t. Permitir a tendência nesta equação reco-
nhece explicitamente que yt pode estar crescendo (β3 > 0) ou encolhendo (β3 < 0) ao longo do tempo por razões
essencialmente não relacionadas a xt1 e xt2 . Se a regressão acima satisfaz as suposições ST. 1, ST. 2, e ST.3,
então omitindo t da regressão e regredindo yt em xt1 , xt2 produzirá estimadores viesados de β1 e β2 : pois de fato
omitimos uma variável importante, t, da regressão.

Investimento imobiliário e preços de imóveis

Os dados contidos no arquivo HSEINV são observações anuais sobre investimento imobiliário e um ı́ndice
de preços de imóveis nos Estados Unidos de 1947 a 1988 . Sejam invpc o investimento imobiliário real per
capita (em milhares de dólares) e preço (price) um ı́ndice de preço de imóveis (igual a 1 em 1982 ). Uma
regressão simples na forma de elasticidade constante, que pode ser vista como uma equação de oferta do
estoque de imóveis, fornece o seguinte resultado:

\ = − 0, 550 + 1, 241 log(price)


log(invpc)
(0, 043) (0, 382)
n =42, R2 = 0, 208, R̄2 = 0, 189

A elasticidade do investimento per capita em relação ao preço é muito grande e estatisticamente significante;
porém, ela não é estatisticamente diferente de um. Devemos ter cuidado com isso. Tanto invpc como price
apresentam tendência crescente. Particularmente, se fizermos a regressão de log(invpc) sobre t, obteremos
um coeficiente da tendência igual a 0,0081 (erro padrão = 0, 0018 ); a regressão de log (price) sobre t gera
um coeficiente de t igual a 0,0044 (desvio padrão = 0, 0004 ). Embora os erros padrão dos coeficientes
não sejam necessariamente confiáveis - essas regressões tendem a conter correlação serial substancial - as
estimativas dos coeficientes revelam tendência crescente.
Para explicar o comportamento de tendência das variáveis, adicionamos uma tendência temporal ao mo-
delo:
\ = −0, 913 −0, 381 log(price) +0, 0098t
log(invpc)
(1, 36) (0, 679) (0, 00352)
n = 42, R2 = 0, 341, R̄2 = 0, 307
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 89

A história agora é muito diferente: a elasticidade estimada do preço é negativa e não é estatisticamente
diferente de zero. A tendência temporal é estatisticamente significante, e seu coeficiente indica um cresci-
mento de aproximadamente 1% em invpc ao ano, em média. Desta análise, não podemos concluir que o
investimento imobiliário real per capita não seja influenciado pelo preço. Existem outros fatores, captados
na tendência temporal, que afetam invpc e price, mas nós não os modelamos. Os resultados da primeira
regressão mostram uma relação espúria entre invpc e price em razão do fato de que o preço também tem
tendência crescente ao longo do tempo.

Sazonalidade

Se uma série temporal for observada em intervalos mensais ou trimestrais (ou mesmo semanais ou diários), ela
pode apresentar sazonalidade. Embora muitas séries de dados mensais e trimestrais exibam padrões sazonais, nem
todas o fazem. Por exemplo, não há um padrão sazonal perceptı́vel nas taxas de juros mensais ou nas taxas de
inflação. Além disso, as séries que exibem padrões sazonais costumam ser ajustadas sazonalmente antes de serem
divulgadas para uso público. Uma série com ajuste sazonal é aquela que, em princı́pio, teve os fatores sazonais
removidos. O ajuste sazonal pode ser feito de várias maneiras, e uma discussão cuidadosa está além do escopo
deste texto.
Às vezes, trabalhamos com dados sazonalmente não ajustados e é útil saber que métodos simples estão dis-
ponı́veis para lidar com a sazonalidade em modelos de regressão. Geralmente, podemos incluir um conjunto de
variáveis dummy sazonais para contabilizar a sazonalidade na variável dependente, nas variáveis independentes ou
em ambas.
Um modelo geral para dados mensais que capturam esses fenômenos é

yt =β0 + δ1 f evt + δ2 mart + δ3 abrt + . . . + δ11 dezt


+ β1 xt1 + . . . + βk xtk + ut

onde f evt , mart , . . . , dezt são variáveis dummy que indicam se o perı́odo de tempo t corresponde ao mês apropriado.
Nesta formulação, janeiro é o mês base e beta0 é a interceptação de janeiro. Se não houver sazonalidade em yt ,
uma vez que xt j tenham sido controlados, então delta1 até delta11 são todos zero. Isso é facilmente testado por
meio de um teste F.
90 Prof. Cleiton Guollo Taufemback
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 91

11 Questões Adicionais quanto ao Uso do MQO com Dados de Séries Temporais


92 Prof. Cleiton Guollo Taufemback
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 93

12 Correlação Serial e Heteroscedasticidade em Regressões de Séries Temporais

Neste capı́tulo, discutiremos o problema crı́tico da correlação serial no termo de erro de um modelo de regressão
múltipla. Vimos antes que uma das hipóteses era que os erros eram não serialmente correlacionados. Assim, um
teste para verificar correlação serial pode ser usado para detectar a má-especificação dinâmica. Além disso, mode-
los estáticos e de defasagens distribuı́das finitas muitas vezes possuem erros serialmente correlacionados, mesmo
se não houver má-especificação básica do modelo. Portanto, é importante conhecer as consequências e as soluções
da correlação serial dessas úteis classes de modelos.

12.1 As Propriedades do MQO com Erros Serialmente Correlacionados

Inexistência de Viés e Consistência

No Capı́tulo 10, provamos a inexistência de viés do estimador do MQO sob as três primeiras hipóteses de Gauss-
Markov para regressões de series temporais (ST.1 a ST.3). Particularmente, o Teorema 10.1 nada considerava sobre
a correlação serial nos erros. Por conseguinte, desde que as variáveis explicativas sejam estritamente exógenas, os
βbj serão não viesados, a despeito do grau de correlação nos erros. Isso é análogo à observação de que a heterosce-
dasticidade nos erros não causa viés em βbj

Eficiência e Inferência

Como o teorema de Gauss-Markov (Teorema 10.4) exige tanto a homoscedasticidade como os erros sem correlação
serial, o MQO não é mais BLUE na presença de correlação serial. Mais importante ainda, os habituais erros padrão
do MQO e testes estatı́sticos não são válidos, mesmo assimptoticamente. Podemos verificar isso calculando a
variância do estimador do MQO sob as quatro primeiras hipóteses de Gauss-Markov e o modelo de correlação
serial AR(1) para o termo de erro. Mais precisamente, presumimos que

ut = ρut−1 + et , t = 1, 2, . . . , n (12.1)

|ρ| < 1 (12.2)


em que os et são variáveis aleatórias não correlacionadas com média zero e variância σe2 ; a hipótese |ρ| < 1 é a
condição de estabilidade. Consideramos a variância do estimador de inclinação do MQO no modelo simples de
regressão
yt = β0 + β1 xt + ut
e, apenas para simplificar a fórmula, presumimos que a média amostral de x, é zero (x̄ = 0). Então, o estimador de
MQO βb1 de β1 pode ser escrito como
n
βb1 = β1 + SQT−1
x ∑ xt ut
t=1
n
em que SQTx = ∑t=1 xt2 . Agora, ao calcular a variância de βb1 (condicional em X ), devemos levar em conta a
correlação serial em ut
!
  n
Var βb1 = SQT−2
x Var ∑ xt ut
t=1
!
n n−1 n−t
= SQT−2
x ∑ xt2 Var (ut ) + 2 ∑ ∑ xt xt+ j E (ut ut+ j ) (12.3)
t=1 t=1 j=1

 n−1 n−t
= σ 2 /SQTx + 2 σ 2 /SQT2x ∑ ∑ ρ j xt xt+ j
t=1 j=1

em que σ 2 = Var (ut ) e utilizamos o fato de que E (ut ut+ j ) = Cov (ut , ut+ j ) = ρ j σ 2 . O primeiro termo na equação
(12.3), σ 2 /SQTx , é a variância de βb, quando ρ = 0, que é a variância familiar do MQO sob as hipóteses de
Gauss-Markov. Se ignorarmos a correlação serial e estimarmos a variância de maneira habitual, o estimador da
94 Prof. Cleiton Guollo Taufemback

variância será usualmente viesado quando ρ ̸= 0, pois ele ignora o segundo termo em (12.3). Como veremos mais
tarde, em outros exemplos, ρ > 0 é mais comum, caso em que ρ j > 0 para todos os j. Além disso, as variáveis
independentes em modelos de regressão, em geral são positivamente correlacionadas ao longo do tempo, de forma
que xr xt+ j é positivo para a maioria dos pares t e t + j. Portanto, na maioria das aplicações econômicas, o termo
n−1 n−t
∑t=1 ∑i=1 ρxr xt+ j é positivo e, assim, a fórmula usual da variância do MQO, σ 2 /SQTx , subestima a verdadeira
variância do estimador MQO. Se ρ for grande ou x, tiver um alto grau de correlação serial positiva - caso comum
o viés no estimador de variância usual do MQO pode ser substancial. Tenderemos a pensar que o estimador de
inclinação do MQO seja mais preciso do que na realidade é.
Quando ρ < 0, ρ ′ é negativo quandoj é ı́mpar, e positivo quando j é par e, portanto, é difı́cil determinar o
n−1 n−t
sinal de ∑t=1 ∑ j=1 ρxt xt+ j . De fato, é possivel que a fórmula usual da variância do MQO efetivamente exagere a
verdadeira variância de βb1 . Em qualquer caso, o estimador usual da variância será viesado para Var(βb1 ) na presença
de correlação serial.

A Correlação Serial na Presença da Variável Dependente Defasada

Iniciantes em econometria são com frequência alertados sobre os perigos de erros serialmente correlacionados
na presença da variável dependente defasada. Quase todos os manuais de econometria contêm alguma forma da
afirmação “o MQO é inconsistente na presença da variável dependente defasada e de erros serialmente correlacio-
nados”. Infelizmente, como declaração generalizada essa afirmação é falsa. Existe uma versão da afirmação que é
correta, mas é importante que seja bem precisa.
Para ilustrar, suponha que o valor esperado de yt , dado yt−1 , seja linear:

E (yt | yt−1 ) = β0 + β1 yt−1 (12.4)

em que presumimos estabilidade, |β1 | < 1. Sabemos que sempre podemos escrever essa equação com um termo
de erro como
yt = β0 + β1 yt−1 + ut (12.5)
E (ut | yt−1 ) = 0 (12.6)
Por construção, este modelo satisfaz a hipótese crucial ST.3 da consistência do MQO; portanto, os estimadores
de MQO, βb0 e βb1 , são consistentes. E importante verificar que, sem hipóteses adicionais, os erros {ui } podem ser
serialmente correlacionados. A condição (12.6) garante que u, ε não correlacionado com yt−1 , mas u, eyt−2 podem
ser correlacionados. Portanto, como u f −1 = yt−1 −β0 −β1 yt−2 , a covariância entre ut ut−1 ∈ −β1 cov (ut , yt−2 ) , que
não é necessariamente zero. Assim, os erros exibem correlação serial e o modelo contém uma variável dependente
defasada, mas o MQO estima consistentemente β0 e β1 porque esses são os parâmetros na expectativa condicional
(12.4). A correlação serial nos erros fará com que as estatı́sticas usuais de MQO não sejam válidas para a finalidade
de testes, mas não afetará a consistência.
Então, o MQO será inconsistente se os erros forem serialmente correlacionados e a regressão contiver uma
variável dependente defasada. Isso acontece quando escrevemos o modelo em forma de erro, exatamente como em
(12.5), mas presumimos que {ut } segue um modelo AR(1) estável, como em (12.1) e (12.2), em que

E (et | ut−1 , ut−2 , . . .) = E (et | yt−1 , yt−2 , . . .) = 0

Como et é não correlacionado com yt−1 por hipótese, Cov (yt−1 , ut ) = ρ Cov (yt−1 , ut−1 ) que não é zero, a menos
que ρ = 0. Isso faz com que os estimadores MQO de β0 e β1 da regressão de yt sobre yt−1 sejam inconsistentes.

12.2 O Teste da Correlação Serial

Nesta seção, discutimos vários métodos de testar a correlação serial nos erros, no modelo de regressão linear
múltipla
yt = β0 + β1 xn + . . . + βk xk + ur
Primeiro, consideramos o caso em que os regressores são estritamente exógenos. Lembre-se de que isso requer
que o erro, ut , seja não correlacionado com os regressores em todos os perı́odos de tempo, e, assim, entre outras
coisas, ele exclui modelos com a variável dependente defasada.
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 95

O Teste t de Correlação Serial AR(1) com Regressores

Embora haja numerosas maneiras de os termos de erros em um modelo de regressão múltipla poderem ser serial-
mente correlacionados, o modelo mais popular - e o mais simples de trabalhar − é o modelo AR(1) nas equações
(12.1) e (12.2). Na seção anterior, explicamos as implicações de executar o MQO quando os erros são, de forma
geral, serialmente correlacionados, e derivamos a variância do estimador de inclinação MQO em um modelo sim-
ples de regressão com erros AR(1). Agora mostramos como fazer o teste para verificar a presença de correlação
serial AR(1). A hipótese nula é a de que não há correlação serial. Portanto, assim como nos testes da heteroscedas-
ticidade, presumimos o melhor e exigimos que os dados forneçam evidência razoavelmente forte de que a hipótese
ideal de não existir correlação serial seja violada.
Primeiro, derivamos um teste de amostra grande, sob a hipótese de que as variáveis explicativas são estritamente
exógenas: o valor esperado de ut , dado o histórico completo das variáveis independentes, é zero. Alem disso, em
(12.1) devemos considerar
E (et | ut−1 , ut−2 , . . .) = 0 (12.7)
e
Var (et | ut−1 ) = Var (et ) = σe2 (12.8)
Essas são hipóteses padrão no modelo AR(1) (que decorrem quando {et } é uma sequência i.i.d.). Assim como
no teste de heteroscedasticidade, a hipótese nula é a de que a hipótese apropriada de Gauss-Markov é verdadeira.
No modelo AR(1), a hipótese nula de que os erros são serialmente correlacionados

H0 : ρ = 0

Como podemos testar essa hipótese? Se os u, fossem observados, sob (12.7) e (12.8), terı́amos

ut = ρut−1 + et , t = 2, . . . , n.

Sob a hipótese nula ρ = 0, {ut } é, sem dúvida, fracamente dependente. Em outras palavras, poderı́amos estimar
ρ da regressão de ut sobre ut−1 , para todos os t = 2, . . . , n sem um intercepto, e usar a estatı́stica t usual para
ρb Isso não funciona porque os erros ut não são observados. Mesmo assim, como no caso do teste de heterosce-
dasticidade, podemos substituir ut pelo correspondente resı́duo de MQO, ubt , Como ubt depende dos estimadores
MQO, βb0 , βb1 , . . . , βbk , não é óbvio que o uso de ubi em lugar de ut na regressão não tenha efeito na distribuição da
estatı́stica t. Felizmente, constata-se que, em razão da hipótese de exogeneidade estrita, a distribuição de amostra
grande da estatı́stica t não é afetada pelo uso dos resı́duos de MQO em lugar dos erros. Uma prova disso está muito
além do escopo deste texto, mas deriva do trabalho de Wooldridge (1991b).
Podemos resumir o teste assimptótico de AR(1) em correlação serial de maneira muito simples:

O teste AR(1) da correlação serial com regressores estritamente exógenos:


(i) Execute a regressão MQO de y, sobre x11 , . . . , x1k e obtenha os resı́duos do MQO, ubt , para todo t = 1, 2, . . . , n
(ii) Execute a regressão de
ubt sobre ubt−1 , para todo t = 2, . . . , n (12.9)
obtendo o coeficiente ρb de ubt−1 e sua estatı́stica t pb. (Essa regressão pode ou não conter um intercepto; a
estatı́stica t de ρb será levemente afetada, mas ela é assimptoticamente válida de qualquer maneira.)
(iii) Use tρb para testar H0 : ρ = 0 contra H1 : ρ ̸= 0, de maneira habitual. Na realidade, como ρ > 0 é frequente-
mente esperado a priori, a alternativa pode ser H1 : ρ > 0). Geralmente, concluı́mos que a correlação serial é
um problema a ser tratado somente se H0 for rejeitada no nı́vel de 5%. Como sempre, é melhor descrever o
p -valor do teste.

O teste de Durbin-Watson, é um teste conhecido porém já em desuso, sua fórmula é dada por
T
∑t=2 (et − et−1 )2
d= T
,
∑t=1 et2

onde T é o número de observações. Como d é aproximadamente igual a 2(1 − ρb), onde ρb é a autocorrelação de
amostra dos resı́duos, d = 2 indica que não há autocorrelação. O valor de d sempre está entre 0 e 4. Se a estatı́stica
Durbin – Watson for substancialmente menor que 2, há evidência de correlação serial positiva. Como regra geral,
se Durbin – Watson for menor que 1,0, pode haver motivo para alarme. Valores pequenos de d indicam que os
96 Prof. Cleiton Guollo Taufemback

termos de erro estão positivamente correlacionados. Se d > 2, os termos de erro sucessivos são correlacionados
negativamente. Em regressões, isso pode implicar uma subestimação do nı́vel de significância estatı́stica.
Em resumo, o teste de Durbin-Watson, por não possuir uma distribuição bem definida, não tem valores crı́ticos
e necessita da experiência do pesquisador para realizar o teste. Todavia, é um teste desenvolvido em 1950 e tem
importância histórica.

O teste da AR(1) em correlação serial no Capitulo 10 na curva de Phillips

No Capı́tulo 10, estimamos uma curva de Phillips estática que explicava a relação entre inflação e desem-
prego nos Estados Unidos (veja Exemplo 10.1). Agora, testamos o termo de erro em cada equação para verifi-
car a existência de correlação serial. Como a curva das expectativas aumentadas utiliza ∆ inf t = inft − inft−1
como variável dependente, temos algumas observações a fazer.
Para a curva de Phillips estática, a regressão em (12.9) produz ρb = 0, 573,t = 4,93 e p -valor = 0, 000
(com 48 observações durante o ano de 1996 ). Isso é uma evidência muito forte de correlação serial positiva,
de primeira ordem. Uma consequência disso é que os erros padrão e as estatı́sticas t do Capı́tulo 10 não
são válidos. Em contraposição, o teste para verificar correlação serial em AR(1) na curva de expectativas
aumentadas produz ρb = −0, 036,t = −0, 287 e p− valor = 0, 775 (com 47 observações): não existe evidência
de correlação serial em AR(1) na curva das expectativas aumentadas de Phillips.

O teste da correlação serial com regressores gerais:


(i) Execute a regressão MQO de yt sobre xt1 , . . . , xtk e obtenha os resı́duos MQO, ubt , para todo t = 1, 2, . . . , n
(ii) Execute a regressão de
ubt sobre xt1 , xt2 , . . . , xtk , ubt−1 , para todo t = 2, . . . , n (12.10)
para obter o coeficiente ρb de ubt−1 e sua estatı́stica, tρb
(iii) Utilize tρb para testar H0 : ρ = 0 contra H1 : ρ ̸= 0, de maneira habitual (ou use uma alternativa unilateral).
Assim, testamos não só a presença de correlação serial como de exogeneidade dos regressores.

O teste da correlação serial de ordem mais elevada

O teste a partir de (12.10) é facilmente estendido para ordens mais elevadas de correlação serial. Por exemplo,
suponha que queiramos testar
H0 : ρ1 = 0, ρ2 = 0 (12.11)
no modelo AR(2)
ut = ρ1 ut−1 + ρ2 ut−2 + er
O modelo alternativo de correlação serial permite testar correlação serial de segunda ordem. Como sempre, esti-
mamos o modelo por MQO e obtemos os resı́duos do MQO, ubr , Então, podemos executar a regressão de

ubt sobre xt1 , x2 , . . . , xtk , ubt−1 e ubt−2 , para todo t = 3, . . . , n

para obter o teste F da significância conjunta de ubt−1 e ubt−2 . Se essas duas defasagens forem conjuntamente
significantes em nı́vel suficientemente pequeno, digamos 5% então, rejeitamos (12.11) e concluı́mos que os erros
são serialmente correlacionados.

12.3 A correção da correlação serial com regressores estritamente exógenos

Se detectarmos correlação serial após aplicarmos um dos testes da Seção 12.2, teremos de fazer algo a respeito. Se
nossa meta for estimar um modelo com dinâmica completa, precisaremos reespecificar o modelo. Em aplicações
nas quais nossa meta não seja estimar um modelo totalmente dinâmico, teremos de encontrar um meio de realizar
inferência estatı́stica: como vimos na Seção 12.1, as estatı́sticas habituais de testes do MQO não mais são válidas.
Nesta Seção, começamos com o importante caso de correlação serial AR(1). A abordagem tradicional para esse
problema considera regressores fixos. O que na realidade é necessário é usar regressores estritamente exógenos.
Portanto, no mı́nimo, não devemos usar essas correções quando as variáveis explicativas incluı́rem variáveis de-
pendentes defasadas.
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 97

A Obtenção do Melhor Estimador Linear Não-Viesado no Modelo AR(1)

Consideramos as Hipóteses ST.1 a ST.4 de Gauss-Markov, mas relaxamos a Hipótese ST.5. Em particular, assumi-
mos que os erros seguem o modelo AR(1)

ut = ρut−1 + et , para todo t = 1, 2, . . .

Lembre-se de que a Hipótese ST.3 implica ut tendo média condicional zero sobre X. Na análise seguinte, permiti-
mos que a condicionalidade sobre X esteja implı́cita, para simplificar a notação. Assim, escrevemos a variância de
ut como
Var (ut ) = σe2 / 1 − ρ 2

(12.12)
Para simplificar, considere o caso com uma única variável explicativa:

yt = β0 + β1 xt + ut , para todo t = 1, 2, . . . , n

Como o problema nessa equação é a correlação serial em ut , faz sentido transformar a equação para eliminar a
correlação serial. Para t ≥ 2, escrevemos

yt−1 = β0 + β1 xt−1 + ut−1


yt = β0 + β1 xt + ut

Agora, se multiplicarmos a primeira equação por ρ, subtraindo o resultado da segunda equação, teremos

yt − ρyt−1 = (1 − ρ)β0 + β1 (xt − ρxt−1 ) + et , t ≥2

em que usamos o fato de que et = ut − ρut−1 . Podemos escrever isso como

ỹt = (1 − ρ)β0 + β1 x̃t + et , t ≥2 (12.13)

em que
ỹt = yt − ρyt−1 , x̃t = xt − ρxt−1
são chamados de dados quase diferenciados. (Se ρ = 1, eles serão dados diferenciados, mas lembre-se de que
estamos considerando |ρ| < 1. ) Os termos de erro em (12.13) são serialmente não correlacionados; de fato, essa
equação satisfaz todas as hipóteses de Gauss-Markov. Isso significa que, se conhecêssemos ρ, poderı́amos estimar
β0 e β1 regredindo ỹ, sobre x̃n , desde que tivéssemos dividido o intercepto estimado por (1 − ρ)
Os estimadores MQO de (12.13) não são exatamente BLUE porque eles não usam o primeiro perı́odo de tempo.
Isso pode ser facilmente corrigido escrevendo-se a equação para t = 1, como

y1 = β0 + β1 x1 + u1 (12.14)

Como cada et é não correlacionado com u1 , podemos adicionar (12.14) em (12.13) e ainda assim ter erros
serialmente não correlacionados. Contudo, usando ( 12.12 ), Var (u1 ) = σ 2 / 1 − ρ 2 > σe2 = Var (et ) .[ A equação


(12.12) claramente não se sustenta quando |ρ| ≥ 1 razão pela qual consideramos a condição de estabilidade.]
1/2
Assim, temos de multiplicar (12.14) por 1 − ρ 2 para obter erros com a mesma variância:
1/2 1/2 1/2 1/2
1 − ρ2 y1 = 1 − ρ 2 β0 + β1 1 − ρ 2 x1 + 1 − ρ 2 u1

ou 1/2
ỹ1 = 1 − ρ 2 β0 + β1 x̃1 + ũ1 (12.15)
1/2 1/2
em que ũ1 = 1 − ρ 2 u1 , ỹ1 = 1 − ρ 2 y1 , e assim por diante. O erro em (12.15) tem variância Var (ũ1 ) =
1 − ρ 2 Var (u1 ) = σe2 , e assim podemos usar (12.15) com (12.13) em uma regressão MQO. Isso fornece esti-
madores BLUE de β0 e β1 sob as Hipóteses ST.1 a ST.4 e o modelo AR(1) de ut . Esse é outro exemplo de um
estimador de mı́nimos quadrados generalizados (ou MQG). Vimos outros estimadores MQG no contexto da hete-
roscedasticidade, no Capı́tulo 8. A adição de mais regressores muda pouca coisa. Para t ≥ 2, usamos a equação

yet = (1 − ρ)β0 + β1 xet1 + . . . + βk xetk + et (12.16)


98 Prof. Cleiton Guollo Taufemback
1/2 1/2 1/2
em que x̃t j = xt j −ρxt−1, j , Para t = 1, temos ỹ1 = 1 − ρ 2 y1 , x̃1 j = 1 − ρ 2 x1 j e o intercepto 1 − ρ 2 β0 .
Para um determinado ρ, é muito fácil transformar os dados e executar o MQO. A menos que ρ = 0, o estimador
MQG, isto é, MQO sobre os dados transformados, será, em geral, diferente do estimador MQO original. O esti-
mador MQG acaba sendo BLUE, e, como os erros na equação transformada são serialmente não correlacionados
e homoscedásticos, as estatı́sticas t e F da equação transformada são válidas (pelo menos assimptoticamente e, de
maneira exata, se os erros et forem normalmente distribuı́dos).

A Estimação MQG Factı́vel com Erros AR(1)

O problema com o estimador MQG é que ρ, raramente, é conhecido na prática. Contudo, já sabemos como obter um
estimador consistente de ρ : apenas regredimos os resı́duos de MQO sobre seus equivalentes defasados, exatamente
como na equação (12.9). Em seguida, usamos essa estimativa, ρ b no lugar de ρ para obter as variáveis quase
diferenciadas. Usamos, então, MQO na equação

yet = β0 xet0 + β1 xet1 + . . . + βk xetk + errot (12.17)


1/2
em que x̃t0 = (1 − ρb) para t ≥ 2 e x̃10 = 1 − ρb2 . Isso resulta no estimador MQG factivel (MQGF) de β j . O
termo de erro em (12.17) contem et e também os termos que envolvem o erro de estimação em ρb. Felizmente, o
erro de estimação em ρb não afeta a distribuição assimptótica dos estimadores MQGF.

A estimação do MQG factivel no modelo AR(1):


(i) Execute a regressio MQO de yt sobre xt1 , . . . , xtk e obtenha os resı́duos do MQO, ubt , t = 1, 2, . . . , n.
(ii) Execute a regressão na equação (12.9) e obtenha ρb.
(iii) Aplique o MQO à equação (12.17) para estimar β0 , β1 , . . . , βk , Os erros padrão, estatı́sticas t e estatı́sticas F
usuais são assimptoticamente válidas.

O custo de usar ρb em lugar de ρ é que o estimador MQGF factı́vel não tem propriedades de amostra finita
passı́veis de tratamento. Em particular, ele não é não-viesado, embora seja consistente quando os dados são fraca-
mente dependentes. Além disso, mesmo se et em (12.16) for normalmente distribuı́do, as estatı́sticas t e F serão
apenas aproximadamente distribuı́das como t e F, em razão do erro de estimação em ρb. Isso é bom para a maioria
dos propósitos, embora devamos ser cuidadosos com amostras de tamanhos pequenos.
Como o estimador MQGF não é não-viesado, certamente não podemos dizer que ele seja BLUE. No entanto,
ele será assimptoticamente mais eficiente que o estimador MQO quando o modelo AR(1) para correlação serial
for válido (e as variáveis explicativas forem estritamente exógenas). Mais uma vez, essa afirmação presume que as
séries temporais sejam fracamente dependentes.

Você também pode gostar