0% acharam este documento útil (0 voto)

40 visualizações98 páginas

Introdução à Econometria e Dados Econômicos

Enviado por

João Pedro S. Prunes

Direitos autorais

Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.

Formatos disponíveis

Baixe no formato PDF, TXT ou leia on-line no Scribd

Tópicos abordados

Heterocedasticidade,
Econometria,
Variáveis Dummy,
Modelos Estatísticos,
Análise de Regressão,
Teste de Hipóteses,
Inferência Estatística

0% acharam este documento útil (0 voto)

40 visualizações98 páginas

Introdução à Econometria e Dados Econômicos

Enviado por

João Pedro S. Prunes

Direitos autorais

Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.

Formatos disponíveis

Baixe no formato PDF, TXT ou leia on-line no Scribd

Tópicos abordados

Heterocedasticidade,
Econometria,
Variáveis Dummy,
Modelos Estatísticos,
Análise de Regressão,
Teste de Hipóteses,
Inferência Estatística

Resumo

INTRODUÇÃO À ECONOMETRIA
Jeffrey M. Wooldridge 4a Edição

Prof. Cleiton Guollo Taufemback

Departamento de Estatı́stica, IME-UFGRS, e-mail: [Link]@[Link]

1
2 Prof. Cleiton Guollo Taufemback
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 3

1 A Natureza da Econometria e dos Dados Econômicos

1.1 O que é Econometria?

A econometria é baseada no desenvolvimento de métodos estatı́sticos para estimar relações econômicas, testar
teorias, avaliar e implementar polı́ticas de governo e de negócios. A aplicação mais comum da econometria é a
previsão de importantes variáveis macroeconômicas, tais como taxas de juros, taxas de inflação e produto interno
bruto (PIB). Ainda que as previsões de indicadores econômicos sejam bastante visı́veis e, muitas vezes, exten-
samente publicadas, os métodos econométricos podem ser usados em áreas econômicas que não têm nada a ver
com previsões macroeconômicas. Por exemplo, estudaremos os efeitos de gastos em campanhas polı́ticas sobre
os resultados de eleições. No campo da educação, consideraremos o efeito de gastos públicos com escolas sobre
o desempenho de estudantes. Além disso, aprenderemos como usar métodos econométricos para prever séries de
tempo econômicas.

1.2 Passos na Análise Econômica Empı́rica

Em alguns casos, especialmente aqueles que envolvem o teste de teorias econômicas, constrói-se um modelo
econômico formal. Um modelo econômico consiste em equações matemáticas que descrevem várias relações. Os
economistas são conhecidos por suas construções de modelos os quais descrevem um amplo leque de comporta-
mentos.

Treinamento e Produtividade do Trabalhador

Um economista especializado em trabalho gostaria de examinar os efeitos do treinamento sobre a pro-

dutividade do trabalhador. Nesse caso, há pouca necessidade de teoria econômica formal. Um entendimento
econômico básico é suficiente para perceber que fatores tais como educação, experiência e treinamento influ-
enciam a produtividade do trabalhador. Os economistas também estão bem cientes de que os trabalhadores
são pagos de acordo com sua produtividade. Esse raciocı́nio simples leva a um modelo tal que

salarioh = f (educ, exper,treina), (1.1)

em que salarioh é o salário-hora, educ representa os anos de educação formal, exper refere-se aos anos de
experiência no mercado de trabalho e treina corresponde a semanas ocupadas em treinamento. Novamente,
outros fatores geralmente influenciam a taxa de salário, mas (7.2) captura a essência do problema.

Um modelo econométrico completo para o exemplo acima poderia ser

salarioh = β0 + β1 edu + β2 exper + β3treina + u

em que o termo u contém fatores tais como “aptidão inata”, qualidade da educação, formação da famı́lia e uma
mirı́ade de outros fatores que podem influenciar o salário de uma pessoa. Se estivermos especialmente interessados
nos efeitos do treinamento de trabalho, então β3 é o parâmetro de interesse.

1.3 A Estrutura dos Dados Econômicos

Dados de Corte Transversal

Um conjunto de dados de corte transversal consiste em uma amostra de indivı́duos, consumidores, empresas,
cidades, estados, paı́ses ou uma variedade de outras unidades, tomada em um determinado ponto no tempo. Às
vezes, os dados de todas as unidades não correspondem precisamente ao mesmo perı́odo. Por exemplo, muitas
famı́lias podem ser pesquisadas durante diferentes semanas de um ano. Em uma análise pura de dados de corte
transversal, ignorarı́amos, na coleta de dados, quaisquer diferenças de tempo não importantes. Se o conjunto de
4 Prof. Cleiton Guollo Taufemback

famı́lias fosse pesquisado durante diferentes semanas do mesmo ano, ainda verı́amos isso como um conjunto de
dados de corte transversal.
Os dados de corte transversal são amplamente usados em economia e em outras ciências sociais. Em economia, a
análise de dados de corte transversal está intimamente alinhada com campos da microeconomia aplicada, tais como
economia do trabalho, finanças públicas estaduais e locais, organização industrial, economia urbana, demografia e
economia da saúde. Dados sobre indivı́duos, famı́lias, empresas e cidades em um determinado ponto do tempo são
importantes para testar hipóteses microeconômicas e avaliar polı́ticas governamentais.
Exemplo:
obs sálario educ exper feminino casado
1 3, 10 11 2 1 0
2 3, 15 11 2 1 1
3 3, 24 12 22 1 1
4 3, 00 11 2 0 0
5 6, 00 8 44 0 1
6 5, 30 12 7 0 1
.. .. .. .. .. ..
. . . . . .
525 11, 56 16 5 0 1
526 3, 50 14 5 1 0

Nota: A variável obs é o número da observação atribuı́do a cada indivı́duo na amostra.

Dados de Séries de Tempo

Um conjunto de dados de séries de tempo consiste em observações sobre uma variável ou muitas variáveis ao longo
do tempo. Exemplos de dados de séries temporais incluem preços de ações, oferta de moeda, ı́ndice de preços ao
consumidor, produto interno bruto, taxas anuais de homicı́dios e números de vendas de automóveis. Como even-
tos passados podem influenciar eventos futuros, e como, nas ciências sociais, as defasagens do comportamento
são prevalecentes, o tempo é uma dimensão importante em um conjunto de dados de séries de tempo. Diferente-
mente do arranjo dos dados de corte transversal, a ordenação cronológica das observações em uma série de tempo
transmite informações potencialmente importantes.
Outra caracterı́stica dos dados de séries de tempo que pode requerer atenção especial é a frequência dos dados,
na qual eles são coletados. Em economia, as frequências mais comuns são: diária, semanal, mensal, trimestral e
anual.
Exemplo:
nobsa ano minmed cobmed desemp pnb
1 1950 0, 20 20, 1 15, 4 878, 7
2 1951 0, 21 20, 7 16, 0 925, 0
3 1952 0, 23 22, 6 14, 8 1.015, 9
.. .. .. .. .. ..
. . . . . .
37 1986 3, 35 58, 1 18, 9 4.281, 6
38 1987 3, 35 58, 2 16, 8 4.496, 7

Nota: A variável minmed se refere ao salário mı́nimo médio no ano, cobmed é a taxa de cobertura média (o percentual de trabalhadores
cobertos pela lei de salário mı́nimo), desemp é a taxa de desemprego e pnb é o produto nacional bruto. Usaremos esses dados mais
adiante em uma análise de séries de tempo do efeito do salário mı́nimo sobre o emprego.

Dados de Painel ou Longitudinais

Um conjunto de dados de painel (ou dados longitudinais) consiste em uma série de tempo para membro do corte
transversal do conjunto de dados. A caracterı́stica essencial dos dados de painel que os distingue dos dados de corte
transversal agrupado é o fato de que as mesmas unidades do corte transversal (indivı́duos, empresas ou municı́pios
nos exemplos anteriores) são acompanhadas ao longo de um determinado perı́odo.
Exemplo:
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 5

nobsc cidade ano homicds populacao desemp policia

1 1 1986 5 350.000 8, 7 440
2 1 1990 8 359.000 7, 2 471
3 2 1986 2 64.300 5, 4 475
4 2 1990 1 65.100 5, 5 486
. . . . . . .
298 148 1986 10 240.000 9, 8 334
297 149 1990 10 245.000 9, 8 334
299 150 1986 25 543.000 4, 3 520
300 150 1990 32 546.200 5, 2 493

1.4 A Causalidade e a Noção de Ceteris Paribus na Análise Econométrica

Em muitos testes de teoria econômica, e certamente para avaliar polı́ticas públicas, o objetivo do economista é
inferir que uma variável (tal como a educação) tem um efeito causal sobre outra variável (tal como a produtividade
do trabalhador). Encontrar simplesmente uma associação entre duas ou mais variáveis pode ser sugestivo, mas, a
não ser que se possa estabelecer uma causalidade, raramente ela é convincente.
A noção de ceteris paribus - que significa “outros fatores (relevantes) permanecendo iguais” - desempenha um
papel importante na análise causal. Essa ideia esteve implı́cita em algumas de nossas discussões anteriores mas até
agora não a mencionamos explicitamente.
A questão fundamental na maioria dos estudos empı́ricos é: foram mantidos fixos em número suficiente outros
fatores, para que se possa inferir a causalidade? Raramente avalia-se um estudo econométrico sem levantar essa
questão.

Medindo o Retomo da Educação

Os economistas especializados em trabalho e os formuladores de polı́ticas públicas há muito se interessam

pelo “retorno da educação”. De modo um tanto informal, a questão é colocada da seguinte maneira: se uma
pessoa é escolhida de uma população, e recebe um ano a mais de educação, em quanto aumentará seu salário?
Assim como nos exemplos anteriores, essa é uma questão ceteris paribus, que implica que todos os outros
fatores são mantidos fixos enquanto a pessoa recebe um ano a mais de educação. Podemos imaginar um
planejador social esquematizando um experimento para estudar essa questão. Escolha um grupo de pessoas,
dê aleatoriamente a cada pessoa uma quantidade de educação (algumas pessoas recebem alguns anos de
estudo que equivalem ao ensino fundamental, a outras é dado uma educação que equivale ao ensino médio
etc.), e, em seguida, mensure seus salários (assumindo que cada uma delas no momento trabalha). Mas
podemos usar pessoas como experimento?

Embora dados experimentais não possam ser obtidos para medir o retorno da educação, podemos certamente
coletar dados não-experimentais sobre nı́veis de educação e salários para um grupo grande, fazendo amostras
aleatórias da população de trabalhadores. Tais dados estão disponı́veis em uma variedade de pesquisas usadas em
economia do trabalho, mas esses conjuntos de dados têm uma caracterı́stica que torna difı́cil estimar o retorno
ceteris paribus da educação.
As pessoas escolhem seus próprios nı́veis de educação; portanto, os nı́veis de educação não são, provavelmente,
determinados independentemente de todos os outros fatores que afetam os salários. Esse problema é uma carac-
terı́stica compartilhada de muitos conjuntos de dados não-experimentais.

O Efeito do cumprimento da Lei sobre os Nı́veis de Criminalidade das Cidades

Uma indagação especialmente importante sobre esse aspecto é: a presença de mais policiais nas ruas
detém a criminalidade?
A questão ceterı́s parı́bus é fácil de formular. Se uma cidade fosse escolhida aleatoriamente e recebesse,
por exemplo, dez policiais a mais, em quanto suas taxas de criminalidade cairiam? Outra maneira de formular
a questão é: se duas cidades fossem, em todos os aspectos, iguais, exceto que a cidade A tivesse dez policiais
a mais que a cidade B, em quanto difeririam as taxas de criminalidade das duas cidades? Porém, seria
6 Prof. Cleiton Guollo Taufemback

virtualmente impossı́vel encontrar pares de comunidades idênticas em todos os aspectos, exceto no que
respeita ao tamanho de suas forças policiais.
Embora os policiais possam ser usados para produzir um efeito sobre o tamanho das forças policiais,
certamente não podemos dizer a cada cidade quantos policiais ela deve empregar. Se, como é provável, a
decisão de uma cidade sobre quantos policiais empregar estiver correlacionada com outros fatores relativos
às cidades que afetam a criminalidade, os dados deverão ser vistos como não experimentais. De fato, um
modo de ver esse problema é observar que as escolhas de uma cidade relativamente ao tamanho da força
policial e a quantidade de crimes são simultaneamente determinadas.
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 7

Propriedades da Esperança Matemática

Nas seguintes propriedades, {X,Y } são variáveis aleatórias, a, b, c são constantes.

E(a) = a
E(a + X) = a + E(X)
E(bX) = bE(X)
E(a + bX) = a + bE(X)
E(X +Y ) = E(X) + E(Y )
E(a + bX + cY ) = a + bE(X) + cE(Y )

No caso de variâncias,

Var(X) = E X 2 − [E(X)]2 = σx2

Var(cX) = c2 Var(X)
Var(c + X) = Var(X)
Var(X ±Y ) = Var(X) + Var(Y ) ± 2Cov(X,Y )
No caso geral, temos que a esperança do produto,

E[XY ] ̸= E[X]E[Y ]
mas no caso particular de X e Y serem variáveis aleatórias independentes, temos que:

E[XY ] = E[X]E[Y ]
Suponha que o modelo abaixo seja o modelo populacional,

E (y | x1 , x2 , z) = β0 + β1 x1 + β2 x2 + β3 z
porém z é não observável. Temos então que

E (y | x1 , x2 ) = E (β0 + β1 x1 + β2 x2 + β3 z | x1 , x2 )
= β0 + β1 x1 + β2 x2 + β3 E (z | x1 , x2 ) .

Assumindo que
E (z | x1 , x2 ) = δ0 + δ1 x1 + δ2 x2
então
E (y | x1 , x2 ) = β0 + β1 x1 + β2 x2 + β3 (δ0 + δ1 x1 + δ2 x2 )
= (β0 + β3 δ0 ) + (β1 + β3 δ1 ) x1 + (β2 + β3 δ2 ) x2
Assuma agora que há uma interação entre x1 e z, ou seja,

E (y | x1 , x2 , z) = β0 + β1 x1 + β2 x2 + β3 z + β4 x1 z

então temos que

E (y | x1 , x2 ) = β0 + β1 x1 + β2 x2 + β3 E (z | x1 , x2 ) + β4 x1 E (z | x1 , x2 )
8 Prof. Cleiton Guollo Taufemback
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 9

2 O Modelo de Regressão Simples

O modelo de regressão simples pode ser usado para estudar a relação entre duas variáveis. Por razões que veremos
adiante, o modelo de regressão simples tem limitações enquanto ferramenta geral para a análise empı́rica. No
entanto, às vezes ele é apropriado como ferramenta empı́rica. Aprender como interpretar o modelo de regressão
simples é uma boa prática para estudar a regressão múltipla, o que faremos nos capı́tulos subsequentes.

2.1 Definição do Modelo de Regressão Simples

Grande parte da análise econométrica começa com a seguinte premissa: y e x são duas variáveis, representando
alguma população, e estamos interessados em “explicar y em termos de x”, ou em “estudar como y varia com
variações em x”.
Ao escrever um modelo que “explicará y em termos de x”, defrontamo-nos com três questões. Primeira, como
nunca há uma relação exata entre duas variáveis, como consideramos outros fatores que afetam y? Segunda, qual
é a relação funcional entre y e x? E terceira, como podemos estar certos de que estamos capturando uma relação
ceteris paribus entre y e x (se esse for um objetivo desejado)?
Podemos resolver essas ambiguidades escrevendo uma equação que relaciona y a x, por exemplo,

y = β0 + β1 x + u (2.1)

A equação (2.1), que supostamente é válida para a população de interesse, define o modelo de regressão linear
simples. Ela também é chamada modelo de regressão linear de duas variáveis ou modelo de regressão linear
bivariada, pois relaciona as duas variáveis x e y.

y x
Variável Dependente Variável Independente
Variável Explicada Variável Explicativa
Variável de Resposta Variável Explicativa
Variável Prevista Variável Previsora
Regressando Regressor
A variável u, chamada de termo erro ou perturbação da relação, representa outros fatores, além de x, que afetam
y. Uma análise de regressão simples trata, efetivamente, todos os fatores, além de x, que afetam y como não-
observados. Podemos pensar em u, convenientemente, como representando o “não-observado”.
A equação (2.1) também trata da questão da relação funcional entre y e x. Se os outros fatores em u são mantidos
fixos, de modo que a variação em u é zero, ∆ u = 0, então x tem um efeito linear sobre y:

∆ y = β1 ∆ x se ∆ u = 0 (2.2)

Isso significa que β1 é o parâmetro de inclinação da relação entre y e x, mantendo fixos os outros fatores em u;
ele é de interesse fundamental em economia aplicada. O parâmetro de intercepto β0 representa o valor de y quando
x é igual a zero.

Produção de Soja e Fertilizantes

Suponha que a produção de soja seja determinada pelo modelo

producao = β0 + β1 f ertilizante + u (2.3)

de modo que y = produção e x = fertilizantes. O pesquisador agrı́cola está interessado no efeito dos fer-
tilizantes sobre a produção, mantendo outros fatores fixos. Esse efeito é dado por β1 . O termo u contém
fatores como qualidade da terra, chuva etc. O coeficiente β1 mede o efeito dos fertilizantes sobre a produção,
mantendo outros fatores fixos: ∆ produção = ∆ fertilizante.

A linearidade de (2.1) implica que uma variação de uma unidade em x tem o mesmo efeito sobre y, indepen-
dentemente do valor inicial de x. Isso é irrealista para muitas aplicações econômicas.
10 Prof. Cleiton Guollo Taufemback

Antes de expormos a hipótese crucial de como x e u são relacionados, podemos sempre fazer uma hipótese
sobre u. Se o intercepto β0 está incluı́do na equação, nada se perde ao assumir que o valor médio de u na população
é zero. Matematicamente,
E(u) = 0 (2.4)
A hipótese (2.4) não diz nada sobre a relação entre u e x; ela simplesmente faz uma afirmação sobre a
distribuição dos fatores não-observáveis na população.
Agora, vamos voltar à hipótese crucial concernente à u e x como são relacionados. Uma medida natural de
associação entre duas variáveis aleatórias é o coeficiente de correlação. Se u e x são não-correlacionados, logo,
enquanto variáveis aleatórias, não são linearmente relacionados. A hipótese crucial é que o valor médio de u não
depende do valor de x. Podemos escrever isso como

E(u|x) = E(u) = 0 (2.5)

Questão

Suponha que a nota de um exame final (nota) dependa da frequência às aulas (freq) e de fatores não-
observados que afetam o desempenho dos estudantes (tal como a aptidão). Então:

nota = β0 + β1 f req + u

Em que situação você esperaria que esse modelo satisfaça (2.5)?

A hipótese (2.5) dá a β1 outra interpretação que é, frequentemente, útil. Considerando o valor esperado de (2.1)
condicionado a x e usando E(u|x) = 0, obtém-se

E(y|x) = β0 + β1 x (2.6)

A equação (2.6) mostra que a função de regressão populacional (FRP), E(y|x), é uma função linear de x. A linea-
ridade significa que o aumento de uma unidade em x faz com que o valor esperado de y varie segundo a magnitude
de β1 . Para qualquer valor dado de x, a distribuição de y está centrada ao redor de E(y|x), como ilustrado na Figura
1.

Figura 1 E[y|x] como função linear de x.

Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 11

2.2 Derivação das Estimativas de Mı́nimos Quadrados Ordinários

Vamos considerar {(xi , yi ) : i = 1, . . . , n} como uma amostra aleatória de tamanho n da população. Visto que esses
dados vêm de (2.1), podemos escrever
yi = β0 + β1 xi + ui
para cada i. Aqui, u, é o termo erro para a observação i, uma vez que ele contém todos os fatores, além de xi , que
afetam yi . Exemplo: xi poderia ser a renda anual e yi a poupança anual para a famı́lia i durante um determinado
ano, veja Figura 2.

Figura 2 Gráfico da dispersão de poupança e renda de 15 famı́lias e a regressão populacional E[poup|renda] = β0 + β1 renda.

Obtendo βb0 e βb1 :

1. Somando todos os valores de yi = β0 + β1 xi + ui , i = 1, . . . , n e dividindo por n temos

ȳ = βb0 + βb1 x̄

onde
∑ni=1 yi ∑n xi
ȳ =, x̄ = i=1 .
n n
(Obs: quando somamos todos os erros temos que , ∑ni=1 ui = 0, pois E[u] = 0.) Logo, essa equação nos permite
escrever βb0 em termos de βb1 , ȳ, e x̄:
βb0 = ȳ − βb1 x̄. (2.7)
2. Note que,
12 Prof. Cleiton Guollo Taufemback

E(xu) = 0,

E [x (y − β0 − β1 x)] = 0,
n h i
∑ xi yi − ȳ − βb1 x̄ − βb1 xi = 0,
i=1

n n (2.8)
∑ xi (yi − ȳ) = βb1 ∑ xi (xi − x̄i ) ,
i=1 i=1

n
∑ (xi − x̄) (yi − ȳ)
i=1
βb1 = n .
∑ (xi − x̄)2
i=1

Obs:
n n n n
∑ xi (xi − x̄) = ∑ (xi − x̄)2 e ∑ xi (yi − ȳ) = ∑ (xi − x̄) (yi − ȳ) .
i=1 i=1 i=1 i=1

As estimativas dadas em (2.7) e (2.8) são chamadas de estimativas de mı́nimos quadrados ordinários (MQO) de
β0 e β1 .

Exemplo de como calcular β0 e β1

Suponha o seguinte banco de dados:

obs y x
1 1,1 1
2 1,7 2
3 3,2 3

Começamos calculando a média de x e y: x̄ = (∑ni=1 xi )/n = (1 + 2 + 3)/3 = 2 e ȳ = (1, 1 + 1, 7 + 3, 2)/3 =

2. Em seguida calculamos as somas intermediárias:
n
∑ (xi − x̄) (yi − ȳ) = (1 − 2) × (1, 1 − 2) + (2 − 2) × (1, 7 − 2) + (3 − 2) × (3, 2 − 2)
i=1

= (−1) × (−0, 9) + 0 + (1) × (1, 2)

= 0, 9 + 1, 2 = 2, 1.
n
∑ (xi − x̄)2 = (1 − 2)2 + (2 − 2)2 + (3 − 2)2
i=1

= (−1)2 + 0 + (1)2 = 2.

logo,
2, 1
βb1 = = 1, 05 e βb0 = 2 − 1, 05 × 2 = 2 − 2, 1 = −0, 1.
2

Minimizando a Soma dos Resı́duos Quadrados

Formalmente, o problema é caracterizar as soluções β0 e β1 para o problema de minimização

n
min Q(b0 , b1 ) = min ∑ (yi − b0 − b1 xi )2
b0 ,b1 b0 ,b1 i=1
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 13

onde b0 e b1 são argumentos para o problema de otimização. Uma condição necessária para βb0 e βb1 resolve-
rem o problema de minimização é que as derivadas
Q (b0, b1 ) em relação a b0 e b1 devem ser zero
parciais de
quando avaliadas com β0 e β1 : ∂ Q β0 , β1 /∂ b0 = 0 e ∂ Q βb0 , βb1 /∂ b1 = 0. Usando a regra da cadeia do
b b b
cálculo, essas duas equações tornam-se

∂ Q β0 , βb1 n
: −2 ∑ yi − βb0 − βb1 xi = 0
∂ b0 i=1

∂ Q β0 , βb1 n
: −2 ∑ xi yi − βb0 − βb1 xi = 0
∂ b1 i=1

Essas duas equações são iguais as que vimos anteriormente, porém multiplicadas por −2n, portanto, são
solucionadas pelos mesmos βb0 e βbl .

O resı́duo para a observação i é a diferença entre o valor verdadeiro de yi e seu valor estimado:

ubi = yi − ybi = yi − βb0 − βb1 xi

Os valores estimados e os resı́duos estão indicados na Figura (3).

Figura 3 Valores e resı́duos.

Exemplo: Salários e Educação

Para a população de pessoas na força de trabalho em 1976, seja y = salarioh, em que salarioh é mensurado
em dólares por hora. Assim, para uma determinada pessoa, se salarioh = 6, 75, o salário-hora é $6, 75 Vamos
chamar anos de escolaridade formal de x = educ; por exemplo, educ = 12 corresponde ao ensino médio
completo (nos Estados Unidos). O salário horário médio na amostra é $5, 90, o que equivale, de acordo com
o ı́ndice de preços ao consumidor dos Estados Unidos, a $16, 64 em dólares de 1997
14 Prof. Cleiton Guollo Taufemback

Usando os dados do arquivo WAGE1, em que n = 526 indivı́duos, obtemos a seguinte reta de regressão
de MQO (ou função de regresso amostral):

salarioh = −0, 90 + 0, 54educ. (2.9)

Devemos interpretar essa equação com cautela. O intercepto de -0,90 significa, literalmente, que uma pessoa
sem nenhuma educação formal tem um salário-hora previsto de -90 centavos de dólar por hora. Isso, eviden-
temente, é tolice. Ocorre que apenas 18 pessoas na amostra de 526 têm menos que oito anos de educação
formal. Consequentemente, não é surpreendente que a reta de regressão não faça boas previsões para nı́veis
de educação formal muito baixos. Para uma pessoa com oito anos de educação formal, o salário previsto é
salarioh =-0,90+0,54(8)=3,42, ou $ 3,42 por hora (em dólares de 1976).
A inclinação estimada em (2.9) implica que um ano a mais de educação formal aumenta o salário horário
em 54 centavos de dólar por hora. Portanto, quatro anos a mais de educação formal aumentam salário horário
previsto previsto em 4(0, 54) = 2, 16, ou $2, 16 por hora. Esses efeitos são razoavelmente grandes. Devido à
natureza linear de (2.27), outro ano de educação formal aumenta o salário na mesma quantidade, indepen-
dentemente do nı́vel inicial de educação.

Como rodar esse exemplo no R:

[Link]("wooldridge") # Instala o pacote de dados do Wooldridge
library(wooldridge) # Chama o pacote para ser usado nessa sessão
data(’wage1’) # Define o conjuto de dados a ser usado
# Executa a regressão linear E[wage|educ]
linearModelVar <- lm(formula = wage ˜ educ, data = wage1)
linearModelVar # Mostra os resultados de forma simples
summary(linearModelVar) # Resultados completos
como resultado temos
> linearModelVar
Call:
lm(formula = wage ˜ educ, data = wage1)

Coefficients:
(Intercept) educ
-0.9049 0.5414
> summary(linearModelVar)

Call:
lm(formula = wage ˜ educ, data = wage1)

Residuals:
Min 1Q Median 3Q Max
-5.3396 -2.1501 -0.9674 1.1921 16.6085

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.90485 0.68497 -1.321 0.187
educ 0.54136 0.05325 10.167 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 3.378 on 524 degrees of freedom

Multiple R-squared: 0.1648,Adjusted R-squared: 0.1632
F-statistic: 103.4 on 1 and 524 DF, p-value: < 2.2e-16
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 15

2.3 Mecânica do Método MQO

Valores Estimados e Resı́duos

Assumimos que as estimativas de intercepto e de inclinação, βb0 e βb1 , foram obtidas de uma dada amostra de dados.
Dados βb0 e βb1 , podemos obter o valor estimado ybi para cada observação. Por definição, cada valor estimado de ybi
está sobre a reta de regressão de MQO. O resı́duo de MQO associado a cada observação i, ubi , é e diferença entre yi
e seu valor estimado. Se ubi é positivo, a reta subestima yi , se ubi é negativo, a reta superestima yi . O caso ideal para
a observação i é quando ubi = 0, mas na maior parte dos casos todos os resı́duos são diferentes de zero. Em outras
palavras, nenhum dos pontos dos dados deve, realmente, estar sobre a reta de MQO.

Propriedades Algébricas das Estatı́sticas de MQO

Ao escrever cada yi como o seu valor estimado mais seu resı́duo, temos outro modo de interpretar uma regressão
de MQO. Para cada i, escreva
yi = ybi + ubi
Defina a soma dos quadrados total (SQT), a soma dos quadrados explicada (SQE) e a soma dos quadrados dos
resı́duos (SQR) (também conhecida como a soma dos resı́duos quadrados), como a seguir:
n
SQT ≡ ∑ (yi − ȳ)2
i=1

n
yi − ȳ)2
SQE ≡ ∑ (b
i=1
n
SQR = ∑ ub2i
i=1

A variação total em y pode sempre ser expressa como a soma da variação explicada e da variação não-explicada
SQR. Assim,
SQT = SQE + SQR (2.10)
Provar (2.10) não é difı́cil, note que
n n
∑ (yi − ȳ)2 = ∑ [(yi − ybi ) + (byi − ȳ)]2
i=1 i=1
n
= ∑ [b yi − ȳ)]2
ui + (b
i=1
n n n
= ∑ ub2i + 2 ∑ ubi (b yi − ȳ)2
yi − ȳ) + ∑ (b
i=1 i=1 i=1
n
yi − ȳ) + SQE
= SQR +2 ∑ ubi (b
i=1

Exercı́cio: Mostre que

n
∑ ubi (byi − ȳ) = 0
i=1

Grau de ajuste

Muitas vezes, é útil calcular um número que resume o quão bem a reta de regressão de MQO se ajusta aos dados. Na
discussão seguinte, lembre-se de que assumimos estimar o intercepto com a inclinação. Ao assumirmos que a soma
dos quadrados total, SQT, não é igual a zero - o que é verdadeiro, a não ser no evento muito improvável de todos
16 Prof. Cleiton Guollo Taufemback

os yi serem iguais a um mesmo valor-, podemos dividir (2.10) por SQT para obter 1 = SQE/SQT + SQR/SQT . O
R-quadrado da regressão, algumas vezes chamado coeficiente de determinação, é definido como

R2 = SQE/SQT = 1 − SQR/SQT

R2 é a razão entre a variação explicada e a variação total, assim, ele é interpretado como a fração da variação
amostral em y que é explicada por x.
De (2.10), o valor de R2 está sempre entre zero e um, visto que SQE não pode ser maior que SQT. Quando
interpretamos R2 , usualmente o multiplicamos por 100 para transformá-lo em percentual: 100×R2 é a percentagem
da variação amostral em y que é explicada por x.

2.4 Unidades de Medida e Forma Funcional

Incorporação de Não-Linearidades na Regressão Simples

Ao ler trabalhos aplicados nas ciências sociais, com frequência você encontrará equações de regressão em que a
variável dependente aparece na forma logarı́tmica. Por que isso é feito? Lembre-se do exemplo salários-educação,
em que regredimos o salário-hora sobre os anos de educação formal. Obtivemos uma estimativa da inclinação de
0,54, o que significa dizer que, para cada ano adicional de educação, é previsto um aumento de 54 centavos de
dólar no salário-hora. Devido à natureza linear de (2.9), 54 centavos de dólar é o aumento tanto para o primeiro
ano de educação quanto para o vigésimo ano; isso pode não ser razoável.
Suponha, em vez disso, que o aumento percentual no salário é o mesmo, dado um ano a mais de educação
formal. O modelo (2.9) não implica um aumento percentual constante: o aumento depende do salário inicial. Um
modelo que gera (aproximadamente) um efeito percentual constante é

log(salarioh) = β0 + β1 educ + u

em que log(·) é o logaritmo natural. Em particular, se E[u] = 0, então

%∆ salarioh ≈ (100 · β1 ) ∆ educ

Note que,
log (x1 ) − log (x0 ) ≈ (x1 − x0 ) /x0 = ∆ x/x0 (2.11)
para pequenas mudanças em x. Se multiplicarmos (2.11) por 100 e escrevermos ∆ log(x) = log(x1 ) − log(x0 ), então

100 · ∆ log(x) ≃ %∆ x. (2.12)

Porquê usamos log?

Por que devemos aproximar a alteração percentual usando (2.12) quando a alteração percentual exata é
tão fácil de calcular? Para chegar à resposta, primeiro definimos a elasticidade de y em relação a x como

∆ y x %∆ y
· =
∆ x y %∆ x
Em outras palavras, a elasticidade de y em relação a x é a variação percentual em y, quando x aumenta em
1%. Essa noção deve ser familiar da economia introdutória. Se y é uma função linear de x, y = β0 + β1 x, a
elasticidade é
∆y x x x
· = β1 · = β1 ·
∆x y y β0 + β1 x
o que depende claramente do valor de x. Se usarmos a aproximação (2.12) para x e y, a elasticidade é
aproximadamente igual a ∆ log(y)/∆ log(x). Assim, um modelo de elasticidade constante é aproximado pela
equação
log(y) = β0 + β1 log(x)
e β1 é a elasticidade de y em relação a x (assumindo que x, y > 0).
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 17

Uma Equação do Logaritmo dos Salários-Hora

Utilizando os mesmos dados do exemplo apresentado anteriormente, mas usando log(salarioh) como a
variável dependente, obtemos a seguinte relação:

\
log(salario) = 0, 584 + 0, 083educ, n = 526, R2 = 0, 186. (2.13)

O coeficiente de educ tem uma interpretação percentual quando ele é multiplicado por 100: para cada ano
adicional de educação formal, salarioh aumenta 8,3%. Isso é o que os economistas querem dizer quando se
referem ao “retorno de um ano adicional de educação formal”.
Em R:
library(wooldridge) # Chama o pacote para ser usado nessa sessão
data(’wage1’) # Define o conjuto de dados a ser usado
# Executa a regressão linear E[log(wage)|educ]
linearModelVar <- lm(formula = log(wage) ˜ educ, data = wage1)
linearModelVar
summary(linearModelVar)
como resultado temos
Call:
lm(formula = log(wage) ˜ educ, data = wage1)

Coefficients:
(Intercept) educ
0.58377 0.08274

> summary(linearModelVar)

Call:
lm(formula = log(wage) ˜ educ, data = wage1)

Residuals:
Min 1Q Median 3Q Max
-2.21158 -0.36393 -0.07263 0.29712 1.52339

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.583773 0.097336 5.998 3.74e-09 ***
educ 0.082744 0.007567 10.935 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.4801 on 524 degrees of freedom

Multiple R-squared: 0.1858,Adjusted R-squared: 0.1843
F-statistic: 119.6 on 1 and 524 DF, p-value: < 2.2e-16

Finalizamos esta subseção resumindo quatro combinações de formas funcionais construı́das a partir da variável
original ou de seu logaritmo natural. Na Tabela 1, x e y representam as variáveis em suas formas originais. O
modelo com y como a variável dependente e x como a variável independente é chamado modelo nı́vel-nı́vel, pois
cada variável aparece em sua forma de nı́vel. O modelo com log(y) como a variável dependente e x como a
variável independente é chamado modelo log-nı́vel. Não discutiremos aqui, explicitamente, o modelo nı́vel-log,
pois ele aparece menos frequentemente na prática. De qualquer forma, veremos exemplos desse modelo em outros
capı́tulos.
A última coluna na Tabela 1 mostra a interpretação de β1 . No modelo log-nı́vel, 100 · β1 é algumas vezes
chamado semi-elasticidade de y em relação a x. Como mencionamos no Exemplo 2.11, no modelo log-log β1 é
a elasticidade de y em relação a x. A Tabela 2.3 requer um estudo cuidadoso, já que vamos, com frequência, nos
referir a ela no restante do texto.
18 Prof. Cleiton Guollo Taufemback

Tabela 1 Resumo das Formas Funcionais Envolvendo Logaritmos

Modelo Variável Dependente Variável Independente Interpretação de β1
nı́vel-nı́vel y x ∆ y = β1 ∆ x
nı́vel-log y log(x) ∆ y = β1 %∆ x/100
log-nı́vel log(y) x %∆ y = 100 · β1 ∆ x
log-log log(y) log(x) %∆ y = β1 %∆ x

Embora a mecânica da regressão simples não dependa de como y e x são definidos, a interpretação dos coefici-
entes depende, realmente, de suas definições.

O Significado da Regressão “Linear”

O modelo de regressão simples que estudamos neste capı́tulo também é chamado modelo de regressão linear
simples. No entanto, como acabamos de ver, o modelo geral também permite certas relações não-lineares. Portanto,
o que significa “linear” aqui? Você pode observar, ao olhar a equação (2.1), que y = β0 + β1 x + u. O importante é
que essa equação é linear nos parâmetros, β0 e β1 . Não há restrições de como y e x se relacionam com as variáveis
explicada e explicativa originais de interesse.

2.5 Valores Esperados e Variâncias dos Estimadores de MQO

Retomamos agora ao modelo populacional e estudaremos as propriedades estatı́sticas da estimação de MQO.

Em outras palavras, veremos agora βb0 e βb1 como estimadores dos parâmetros β0 e β1 que aparecem no modelo
populacional. Isso significa que estudaremos as propriedades das distribuições de β0 e β1 de diferentes amostras
aleatórias da população.

Inexistência de Viés em MQO

Vamos iniciar estabelecendo a inexistência de viés do método MQO sob um conjunto simples de hipóteses. Para
referências futuras, é útil numerar essas hipóteses usando o prefixo “RLS” para regressão linear simples. A primeira
hipótese define o modelo populacional.

HIPÓTESE RLS.1 (LINEAR NOS PARÂMETROS)

No modelo populacional, a variável dependente y está relacionada à variável independente x e ao erro (ou
perturbação) u como
y = β0 + β1 x + u (2.14)
em que β0 e β1 são os parâmetros de intercepto e de inclinação populacionais, respectivamente.

HIPÓTESE RLS.2 (AMOSTRAGEM ALEATÓRIA)

A amostra aleatória de tamanho n, {(xi , yi ) : i = 1, 2, . . . , n}, é proveniente de um modelo populacional.

Podemos escrever (2.14), em termos da amostra aleatória como

yi = β0 + β1 xi + ui , i = 1, 2, . . . , n (2.15)

em que ui é o erro ou perturbação da observação i (por exemplo, pessoa i, empresa i, cidade i etc. ). Assim,
ui contém os fatores não-observáveis da observação i que afetam yi . Os ui , não devem ser confundidos com os
resı́duos, ubi .
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 19

HIPÓTESE RLS.3 (MÉDIA CONDICIONAL ZERO)

E[u|x] = 0.

HIPÓTESE RLS.4 (VARIAÇÃO AMOSTRAL NA VARIÁVEL INDEPENDENTE)

Na amostra, as variáveis independentes xi , i = 1, 2, . . . , n, não são todas iguais a uma mesma constante. Isso
exige alguma variação em x na população.

Encontramos a hipótese RLS.4 quando derivamos as fórmulas dos estimadores de MQO; ela é equivalente a
2
∑ni=1 (xi − x̄) > 0. Da equação (2.8) vemos que se RLS.4 não vale, então temos um caso de divisão por zero!

TEOREMA 2.1 (INEXISTÊNCIA DE VIÉS EM MQO)

Usando as hipóteses RLS.1 a RLS.4,

E βb0 = β0 e E βb1 = β1 (2.16)

para quaisquer valores de β0 e β1 . Em outras palavras, βb0 é não-viesado para β0 , e βb1 é não-viesado para
β1 .
Prova: Para simplificar assumimos ∑ni=1 xi = 0, ou seja x̄ = 0, logo temos
n n
∑i=1 xi yi ∑i=1 xi (β0 + β1 xi + ui )
E[βb1 ] = E = E
∑ni=1 xi xi ∑ni=1 xi xi

∑ni=1 xi ∑n xi xi ∑ni=1 xi E [ui ] (2.17)

= β0 n + β1 i=1 +
∑i=1 xi xi ∑ni=1 xi xi ∑ni=1 xi xi

= 0 + β1 + 0.

Para β0 temos que

βb0 = ȳ − βb1 x̄ = β0 + β1 x̄ + ū − βb1 x̄ = β0 + β1 − βb1 x̄ + ū

Então, condicional aos valores de xi ,

h i h i
E βb 0 = β0 + E β 1 − βb 1 x + E(u) = β 0 + E β 1 − βb 1 x̄ = β0

Note que, a inexistência de viés não é válida se qualquer uma das nossas quatro hipóteses não for válida. Isso
significa que é importante pensar na veracidade de cada hipótese em uma aplicação particular.

Desempenho em Matemática de Estudantes e o Programa de Merenda Escolar

Seja mate10 a percentagem de alunos do primeiro ano do ensino médio aprovados em um exame de ma-
temática. Suponha que desejamos estimar o efeito do programa de merenda escolar financiado pelo governo
sobre o desempenho dos alunos. Esperamos que o programa de merenda tenha um efeito ceteris paribus
positivo sobre o desempenho: todos os outros fatores permanecendo iguais, se um estudante, bastante pobre
para ter regularmente refeições, torna-se qualificado para o programa de merenda escolar, seu desempenho
deveria melhorar. Seja lnchprg a percentagem de estudantes que estão aptos para participar do programa de
merenda escolar. Portanto, o modelo de regressão simples é
20 Prof. Cleiton Guollo Taufemback

mate10 = β0 + β1 lnchprg + u (2.18)

em que u contém caracterı́sticas da escola e do estudante que afetam o desempenho escolar total. Usando os
dados do arquivo de MEAP93 de 408 escolas de Michigan no ano escolar 1992-1993, obtemos

mate10 = 32, 14 − 0, 319lnchprg

(2.19)
n = 408, R2 = 0, 171

Essa equação prevê que se a participação dos estudantes no programa de merenda escolar aumenta em dez
pontos percentuais, a percentagem de estudantes que passa no exame de matemática cai cerca de 3,2 pontos
percentuais. Realmente devemos acreditar que a participação maior no programa de merenda escolar causa,
de fato, um desempenho pior? Muito provavelmente não. Uma explicação melhor é que o termo erro u está
correlacionado com lnchprg.
Em R:
library(wooldridge) # Chama o pacote para ser usado nessa sessão
data(’meap93’) # Define o conjuto de dados a ser usado
# Executa a regressão linear E[math10|lnchprg]
linearModelVar <- lm(formula = math10 ˜ lnchprg, data = meap93)
summary(linearModelVar)
como resultado temos
> summary(linearModelVar)

Call:
lm(formula = math10 ˜ lnchprg, data = meap93)

Residuals:
Min 1Q Median 3Q Max
-24.386 -5.979 -1.207 4.865 45.845

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 32.14271 0.99758 32.221 <2e-16 ***
lnchprg -0.31886 0.03484 -9.152 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 9.566 on 406 degrees of freedom

Multiple R-squared: 0.171,Adjusted R-squared: 0.169
F-statistic: 83.77 on 1 and 406 DF, p-value: < 2.2e-16

Variâncias dos Estimadores de MQO

HIPÓTESE RLS.5 (HOMOSCEDASTICIDADE)

Var(u|x) = σ 2

Adicionamos a hipótese RLS.5 pois ela simplifica os cálculos da variância de β0 e β1 e porque ela im-
plica que
o método de mı́nimos quadrados ordinários tenha certas propriedades de eficiência. Como Var(u|x) =
E u2 |x − [E(u|x)]2 e E(u|x) = 0, σ 2 = E u2 |x , o que significa que σ 2 também é a esperança não-condicional

de u2 . Portanto, σ 2 = E u2 , pois E(u) = 0. Em outras palavras, σ 2 é ea variância não-condicional de u, e por

isso σ 2 é frequentemente chamado de variância do erro ou variância da perturbação. A raiz quadrada de σ 2 , σ , é
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 21

o desvio-padrão do erro. Um σ grande significa que a distribuição dos fatores não-observáveis que afetam y mais
dispersa.
Frequentemente, é útil escrever as hipóteses RLS.3 e RLS.5 em termos da média condicional e da variância
condicional de y:

E(y|x) = β0 + β1 x

Var(y|x) = σ 2
Em outras palavras, a esperança condicional de y, dado x, é linear em x, mas a variância de y, dado x, é constante.
Essa situação está ilustrada na Figura 4, em que β0 > 0 e β1 > 0.

Figura 4 O modelo de regressão simples sob homoscedasticidade.

Heteroscedasticidade em uma Equação de Salários

A fim de obter um estimador não-viesado do efeito ceteris paribus de educ sobre salarioh, devemos
assumir que E(u|educ) = 0, e isso implica E(salarioh|educ) = β0 + β1 educ. Se também usarmos a hipótese
de homoscedasticidade, então Var(u|educ) = σ 2 não depende do nı́vel de educação formal, que é o mesmo
que assumir que Var(salarioh|educ) = σ 2 . Assim, enquanto se deixa o salário-hora médio aumentar com o
nı́vel de educação formal - é essa taxa de crescimento que estamos interessados em descrever - assume-se que
a variabilidade no salário horário em torno de sua média é constante através de todos os nı́veis de educação
formal: isso pode não ser realista. Um engenheiro e um professor de letras tem o mesmo número de anos de
estudo, mas o primeiro recebe, em geral, mais que o segundo. Já profissionais com pouco estudo tendem a
receber apenas o salário mı́nimo. Essa situação é mostrada na Figura 2.9.
22 Prof. Cleiton Guollo Taufemback

Figura 5 Var(salarioh|educ) crescendo com a educação.

TEOREMA 2.2 (VARIÂNCIAS AMOSTRAIS EM MQO)

Usando as hipóteses RLS.1 a RLS.5,

σ2
Var βb1 = 2
= σ 2 /SQTx
∑ni=1 (xi − x̄)
e !
1 x̄2
Var βb0 = σ 2 + n
n ∑i=1 (xi − x̄)2

as quais estão condicionadas aos valores amostrais {x1 , . . . , xn }·

Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 23

TEOREMA 2.2 (VARIÂNCIAS AMOSTRAIS EM MQO)

Prova: Temos que !

n 2
∑ (xi − x̄) ui
Var(βb1 ) = Var β1 + i=1 2
∑ni=1 (xi − x̄)

2
∑ni=1 (xi − x̄) Var(ui )
= 0+ 2
2
∑ni=1 (xi − x̄)

σ2
= 2
∑ni=1 (xi − x̄)
e
Var(βb0 ) = Var ȳ − βb1 x̄

= Var(ȳ) + Var(βb1 ) · x̄2 − 2Cov(ȳβb1 x̄)

1 n 2 σ2 nσ 2 2 σ2
= ∑ Var (y i ) + x̄ 2
= + x̄ 2
n2 i=1 ∑ni=1 (xi − x̄) n2 ∑ni=1 (xi − x̄)
!
2 1 x̄2
=σ + n
n ∑i=1 (xi − x̄)2

Obs: para chegarmos a fórmula de Var(βb0 ) apresentada por Wooldridge temos que considerar que
n 2 n 2 2

∑i=1 (xi − x̄) = ∑i=1 xi − x̄ .

Estimação da Variância do Erro

As fórmulas de Var(βb0 ) e Var(βb1 ) são desconhecidas, exceto no caso extremamente raro em que σ 2 é conhecido.
Não obstante, podemos usar os dados para estimar σ 2 , o qual consequentemente nos permite estimar Var(βb0 ) e
Var(βb1 ).
Este é um bom momento para enfatizar a diferença entre os erros (ou perturbações) e os resı́duos. Note que,

ubi = yi − βb0 − βb1 xi = (β0 − β1 xi + ui ) − βb0 − βb1 xi

ubi = ui − βb0 − β0 − βb1 − β1 xi

Embora o valor esperado de βb0 iguale-se a β0 , e similarmente para βb1 , ubi não é o mesmo que ui . A diferença
entre eles tem, de fato, um valor esperado igual a zero.
Se ui fosse conhecido, um estimador natural de σ 2 seria n−1 ∑ni=1 u2i . Se usarmos ub e estimarmos σ 2 por
−1
n ∑ni=1 ub2i , estaremos estimando de forma viesada a variância. Porque essa fórmula não explica a razão de duas
restrições que devem ser satisfeitas pelos resı́duos de MQO. Essas restrições são dadas pelas duas condições de
primeira ordem de MQO:
n n
∑ ubi = 0, ∑ xi · ubi = 0
i=1 i=1

O estimador não-viesado de σ 2 que utilizaremos faz um ajustamento dos graus de liberdade:

n
1
b2 =
σ ∑ ub2 = SQR /(n − 2)
(n − 2) i=1 i
24 Prof. Cleiton Guollo Taufemback

TEOREMA 2.3 (ESTIMAÇÃO NÃO-VIESADA DE σ 2 )

Usando as hipóteses RLS.1 a RLS.5,

b2 = σ 2.

E σ
Prova: Ver Wooldridge, pag. 56-57.

Regressão através da Origem

Em raros casos, desejamos impor a restrição de que, quando x = 0, o valor esperado de y é zero. Há certas relações
para as quais isso é razoável. Por exemplo, se a renda (x) for zero, então os gastos com o imposto de renda (y)
devem ser zero. Além disso, há problemas quando um modelo que originalmente tem um intercepto diferente de
zero é transformado em um modelo sem um intercepto.
Nesse caso temos:
yi = β1 xi + ui
Daı́, podemos resolver para βb1 :
∑n xi yi
βb1 = i=1 .
∑ni=1 xi2
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 25

3 Análise de Regressão Múltipla: Estimação

A análise de regressão múltipla é mais receptiva à análise ceteris paribus, pois ela nos permite controlar explici-
tamente muitos outros fatores que, de maneira simultânea, afetam a variável dependente. Isso é importante tanto
para testar teorias econômicas quanto para avaliar efeitos da polı́tica governamental quando devemos nos basear
em dados não-experimentais. Como os modelos de regressão múltipla podem acomodar muitas variáveis explicati-
vas que podem estar correlacionadas, podemos esperar inferir causalidade nos casos em que a análise de regressão
simples seria enganosa.
Naturalmente, se adicionarmos ao nosso modelo mais fatores que são úteis para explicar y, então mais da
variação de y poderá ser explicada. Assim, a análise de regressão múltipla pode ser usada para construir modelos
melhores para prever a variável dependente.

3.1 Funcionalidade da Regressão Múltipla

Modelo com k Variáveis Independentes

O modelo de regressão linear múltipla pode ser escrito, na população, como

y = β0 + β1 x1 + β2 x2 + β3 x3 + . . . + βk xk + u (3.1)

onde β0 é o intercepto, β1 é o parâmetro associado a x1 , β2 é o parâmetro associado a x2 , e assim por diante.

Como há k variáveis independentes e um intercepto, a equação (3.1) contém k + 1 parâmetros (desconhecidos)
populacionais. Para simplificar, algumas vezes vamos nos referir aos outros parâmetros que não o intercepto como
parâmetros de inclinação, ainda que, literalmente, nem sempre eles tenham esse significado.
A terminologia da regressão múltipla é similar àquela da regressão simples e é apresentada na Sessão anterior.
Exatamente como na regressão simples, a variável u é o termo de erro ou perturbação. Ele contém outros fatores,
além de x1 , x2 , . . . , xk , que afetam y. Não importa quantas variáveis explicativas incluı́mos em nosso modelo, pois
sempre haverá fatores que não podemos incluir, e eles estão contidos, coletivamente, em u.

y x1 , x2 , . . . , xk
Variável Dependente Variáveis Independentes
Variável Explicada Variáveis Explicativas
Variável de Resposta Variáveis de Controle
Variável Prevista Variáveis Previsoras
Regressando Regressores

3.2 Mecânica e Interpretação dos Mı́nimos Quadrados Ordinários

Obtenção das Estimativas de MQO

O método de mı́nimos quadrados ordinários escolhe as estimativas que minimizam a soma dos resı́duos quadrados.
Isto é, dadas n observações de y, x1 , . . . , xk as estimativas de β0 , β1 , . . . , βk são escolhidas, simultaneamente, para
fazer com que a soma dos quadrados dos resı́duos sejam mı́nimos, ou seja
n n
min ∑ e2i =
b0 ,b1 ,...,bk ∈R i=1
min ∑ (yi − b0 − b1 x1 − · · · − bk xk )2 .
b0 ,b1 ,...,bk i=1
(3.2)

Derivando (3.2) em respeito a β0 , β1 , . . . , βk , temos as seguinte condições de primeira ordem:

26 Prof. Cleiton Guollo Taufemback

∑ni=1 yi − βb0 − βb1 xi1 − . . . − βbk xik = 0

∑ni=1 xi1 yi − βb0 − βb1 xi1 − . . . − βbk xik = 0

∑ni=1 xi2 yi − βb0 − βb1 xi1 − . . . − βbk xik = 0
(3.3)
..
.

∑ni=1 xik yi − βb0 − βb1 xi1 − . . . − βbk xik = 0

Estimadores de MQO podem ser facilmente encontrados considerando a notação matricial dos dados, que é de
fácil manipulação. Desta forma, o modelo de Regressão Linear Múltipla pode ser escrito como

Y = Xβ + u (3.4)

onde        
y1 1 x11 x12 ... x1k β0 u1
 y2   1 x21 x22 ... x2k   β1   u2 
Y =  . , X =. . ..  , β =  ..  e u= . 
       
.. ..
 ..   .. .. . . .   .   .. 
yn 1 xn1 xn2 . . . xnk βk un
| {z } | {z } | {z } | {z }
n×1 n×(k+1) (k+1)×1 n×1

Fazendo uso de técnicas matriciais em (3.4) obtemos

−1 ′
βb = X ′ X XY (3.5)

Interpretação da Equação de Regressão de MQO

Tão importante quanto os detalhes subjacentes à computação dos βbj é a interpretação da equação estimada. Inici-
aremos com o caso de duas variáveis independentes:

yb = βb0 + βb1 x1 + βb2 x2 (3.6)

O intercepto βb0 na equação (3.6) é o valor previsto de y quando x1 = 0 e x2 = 0. Às vezes, colocar x1 e x2 iguais
a zero é um cenário interessante; em outros casos, isso não fará sentido. Não obstante, para obter uma previsão de
y a partir da reta de regressão de MQO, o intercepto sempre é necessário, como (3.6) deixa claro.
As estimativas βb1 e βb2 têm interpretações de efeito parcial, ou ceteris paribus. Da equação (3.6), temos

∆ yb = βb1 ∆ x1 + βb2 ∆ x2

de modo que podemos obter a variação prevista em y dadas as variações em x1 e x2 . (Observe que o intercepto não
tem nada a ver com as variações em y.) Em particular, quando x2 é mantido fixo, de modo que ∆ x2 = 0, então

∆ yb = βb1 ∆ x1

mantendo x2 fixo. O ponto fundamental é que, ao incluir x2 no nosso modelo, obtemos um coeficiente de x1 com
uma interpretação ceteris paribus.

Equação do Salário Horário

Usando as 526 observações de trabalhadores do arquivo WAGE1, incluı́mos educ (anos de educação
formal), exper (anos de experiência no mercado de trabalho) e perm (anos com o empregador atual) na
equação que explica log(salarioh). A equação estimada é

log(salarioh) = 0, 284 + 0, 092educ + 0, 0041exper + 0, 022perm.

Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 27

Como no caso da regressão simples, os coeficientes têm uma interpretação de percentagem. A única
diferença é que eles também têm uma interpretação ceteris paribus. O coeficiente 0,092 significa que, man-
tendo exper e perm fixos, um ano a mais de educação formal aumenta o valor esperado de log(salárioh) em
0,092, o que se traduz em um aumento aproximado de 9,2% em salárioh. Alternativamente, se considerar-
mos duas pessoas com os mesmos nı́veis de experiência e permanência no trabalho, o coeficiente de educ é
a diferença proporcional no salário horário previsto quando seus nı́veis de educação diferem em um ano.

Comparação das Estimativas das Regressões Simples e Múltipla

Há dois casos especiais em que tanto a regressão simples de y sobre x1 como a regressão de y sobre x1 e x2
produzirão a mesma estimativa de MQO de x1 . Para maior precisão, escreva a regressão simples de y sobre x1
como
ỹ = β̃0 + β̃1 x1 ,
e escreva a regressão múltipla como
yb = βb0 + βb1 x1 + βb2 x2 .
Sabemos que o coeficiente da regressão simples β̃1 não se iguala, geralmente, ao coeficiente da regressão múltipla
βb1 . Acontece que há uma relação simples entre βb1 e βb1 , que permite comparações interessantes entre as regressões
simples e múltipla:
β̃1 = βb1 + βb2 δ̃1 (3.7)
em que δ̃1 é o coeficiente de inclinação da regressão simples de xi2 sobre xi1 , i = 1, . . . , n (x1 = δ0 + δ1 x2 + e). Essa
equação mostra como βb1 difere do efeito parcial de x1 sobre yb. O termo que pode causar confusão é o efeito parcial
de x2 sobre yb multiplicado pela inclinação da regressão amostral de x2 sobre x1 .
Temos que βb1 e β̃1 são iguais se:
1. O efeito parcial de x2 sobre y é zero na amostra, isto é, β2 = 0.
2. Ou, se x1 e x2 são não-correlacionados na amostra, isto é, δ1 = 0.

Grau de Ajuste

Assim como na regressão simples, podemos definir a Soma dos Quadrados Total (SQT), a Soma dos Quadrados
Explicada (SQE) e a Soma dos Quadrados dos Resı́duos ou Soma dos Resı́duos Quadrados (SQR) como
n
SQT = ∑ (yi − ȳ)2
i=1

n
yi − ȳ)2
SQE = ∑ (b
i=1
n
SQR = ∑ ub2i
i=1

Usando o mesmo argumento utilizado no caso da regressão simples, podemos mostrar que

SQT = SQE + SQR.

Exatamente como no caso da regressão simples, o R-quadrado é definido como

R2 = SQE/SQT = 1 − SQR/SQT,

e é interpretado como a proporção da variação amostral em yi que é explicada pela reta de regressão de MQO. Por
definição, R2 é um número entre zero e um.
Um fato importante sobre R2 é que ele nunca diminui, e geralmente aumenta, quando outra variável indepen-
dente é adicionada à regressão. Esse fato algébrico ocorre por definição, pois a soma dos resı́duos quadrados
nunca aumenta quando regressares adicionais são acrescentados ao modelo. O fato de que R2 nunca diminui
28 Prof. Cleiton Guollo Taufemback

quando qualquer variável for adicionada a uma regressão faz dele um instrumento fraco para decidir se
uma variável ou diversas variáveis deveriam ser adicionadas ao modelo. O fator que deve determinar se uma
variável explicativa pertence a um modelo é se a variável explicativa tem, na população, um efeito parcial sobre y
diferente de zero.
Obs: Algumas vezes, uma teoria econômica, ou o senso comum, sugere que β0 deveria ser zero, e por isso
devemos mencionar, brevemente, a estimação de MQO quando o intercepto é zero. Porém se o modelo real possui
intercepto e regressemos sem este, teremos um viés na nossa estimação.
—

Regressão múltipla no R

O arquivo CRIME1 contém dados de prisões durante o ano de 1986 e outras informações sobre 2.725
homens nascidos em 1960 ou 1961 na Califórnia. Cada homem na amostra foi preso pelo menos uma vez
antes de 1986. A variável narr86 é o número de vezes que determinado homem foi preso em 1986: ela é
zero para muitos homens da amostra (72,29%), e varia de 0 a 12. (A percentagem de homens presos uma vez
em 1986 foi de 20,51 %.) A variável pcnv é a proporção (não a percentagem) de prisões anteriores a 1986
que levaram à condenação, avgsen é a duração média da sentença cumprida por condenação prévia (zero
para muitas pessoas), ptime86 são os meses passados na prisão em 1986 e qemp86 é o número de trimestres
durante o qual determinado homem ficou empregado em 1986 (de zero a quatro).
Um modelo linear que explica as detenções é

narr86 = β0 + β1 pcnv + β2 avgsen + β3 ptime86 + β4 qemp86 + u

onde pcnv é um proxy para a probabilidade de ser condenado por um crime e avgsen é uma medida da
severidade esperada da punição, se condenado. A variável ptime86 captura os efeitos do crime no encar-
ceramento: se um indivı́duo está preso, não pode ser preso por um crime fora da prisão. Oportunidades no
mercado de trabalho são capturadas de forma grosseira pelo qemp86.
Primeiro, estimamos o modelo sem a variável avgsen. Nós obtemos
library(wooldridge) # Chama o pacote para ser usado nessa sessão
data(’crime1’) # Define o conjuto de dados a ser usado

# Executa a regressão linear

linearModelVar <- lm(formula = narr86 ˜ pcnv + ptime86 + qemp86 ,
data = crime1)
summary(linearModelVar)

Call:
lm(formula = narr86 ˜ pcnv + ptime86 + qemp86, data = crime1)

Residuals:
Min 1Q Median 3Q Max
-0.7118 -0.4031 -0.2953 0.3452 11.4358

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.711772 0.033007 21.565 < 2e-16 ***
pcnv -0.149927 0.040865 -3.669 0.000248 ***
ptime86 -0.034420 0.008591 -4.007 6.33e-05 ***
qemp86 -0.104113 0.010388 -10.023 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.8416 on 2721 degrees of freedom

Multiple R-squared: 0.04132,Adjusted R-squared: 0.04027
F-statistic: 39.1 on 3 and 2721 DF, p-value: < 2.2e-16
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 29

Essa equação diz que, como um grupo, as três variáveis pcnv, ptime86, and qemp86 explicam cerca de 4,1
% da variação em narr86.
Cada um dos coeficientes de inclinação de MQO tem o sinal esperado. Um aumento na proporção de
condenações diminui o número previsto de prisões. Se aumentarmos pcnv em 0,50 (um aumento grande na
probabilidade de condenação), então, mantendo os outros fatores fixos, ∆ narr86 = −.150(.50) = −.075.
Isso pode parecer pouco usual, porque uma prisão não pode ser uma fração. No entanto, podemos usar esse
valor para obter a variação prevista das prisões esperadas de um grande grupo de homens. Por exemplo,
entre cem homens, a queda esperada de prisões quando pcnv aumenta em 0,50 é -7,5. Semelhantemente, um
perı́odo de prisão mais longo leva a um número previsto menor de prisões. De fato, se ptime86 aumenta de
0 para 12, as prisões previstas para um determinado homem diminuem em 0,034(12) = 0,408. Um trimestre
a mais no qual o emprego legal é informado diminui as prisões esperadas em 0,104, o que significaria 10,4
prisões entre cem homens.
Se avgsen for adicionado ao modelo, sabemos que R2 aumentará. A equação estimada é
# Executa a regressão linear
linearModelVar <- lm(formula = narr86 ˜ pcnv + avgsen + ptime86 + qemp86 ,
data = crime1)
summary(linearModelVar)

Call:
lm(formula = narr86 ˜ pcnv + avgsen + ptime86 + qemp86, data = crime1)

Residuals:
Min 1Q Median 3Q Max
-0.9330 -0.4247 -0.2934 0.3506 11.4403

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.706756 0.033151 21.319 < 2e-16 ***
pcnv -0.150832 0.040858 -3.692 0.000227 ***
avgsen 0.007443 0.004734 1.572 0.115993
ptime86 -0.037391 0.008794 -4.252 2.19e-05 ***
qemp86 -0.103341 0.010396 -9.940 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.8414 on 2720 degrees of freedom

Multiple R-squared: 0.04219,Adjusted R-squared: 0.04079
F-statistic: 29.96 on 4 and 2720 DF, p-value: < 2.2e-16
Assim, adicionar a variável de sentença média aumenta R2 de 0,0413 para 0,0422, um efeito praticamente
pequeno. O sinal do coeficiente no avgsen também é inesperado: ele diz que uma pena média mais longa
aumenta a atividade criminosa.
O fato de as quatro variáveis explicativas incluı́das na segunda regressão explicarem somente 4,2% da
variação em narr86 não necessariamente significa que a equação é inútil. Ainda que, coletivamente, essas
variáveis não expliquem muito da variação nas prisões, é possı́vel que as estimativas de MQO sejam esti-
mativas confiáveis dos efeitos ceteris paribus de cada variável independente sobre npre86. Como veremos,
se esse for o caso, isso não depende, diretamente, do tamanho do R2 . Em geral, um R2 baixo indica que é
difı́cil prever resultados individuais sobre y com muita precisão, algo que estudaremos com mais detalhes no
Capı́tulo 6. No exemplo da prisão, o R2 pequeno reflete algo sobre o qual suspeitamos nas ciências sociais:
geralmente, é muito difı́cil prever o comportamento individual.
30 Prof. Cleiton Guollo Taufemback

3.3 O Valor Esperado dos Estimadores de MQO

Nesta seção, derivamos o valor esperado dos estimadores de MQO. Também obtemos explicitamente o viés em
MQO, quando uma variável importante for omitida da regressão. Você deve lembrar que propriedades estatı́sticas
não têm nada a ver com uma amostra particular, mas sim, mais precisamente, com a propriedade dos estimadores
quando a amostragem aleatória é feita repetidamente.
A primeira hipótese que vamos fazer define, simplesmente, o modelo de regressão linear múltipla (RLM).

HIPÓTESE RLM.1 (LINEAR NOS PARÂMETROS)

O modelo na população pode ser escrito como

y = β0 + β1 x1 + β2 x2 + . . . + βk xk + u (3.8)

em que β0 , β1 , . . . , βk são os parâmetros desconhecidos (constantes) de interesse, e u é um erro aleatório

não-observável ou um termo de perturbação aleatória.

HIPÓTESE RLM.2 (AMOSTRAGEM ALEATÓRIA)

Temos uma amostra aleatória de n observações, {(x1 , x2 , . . . , xk , yi ) : i = 1, 2, . . . , n}, do modelo populacio-

nal descrito por (3.8).

HIPÓTESE RLM.3 (MÉDIA CONDICIONAL ZERO)

O erro u tem um valor esperado igual a zero, dados quaisquer valores das variáveis independentes. Em
outras palavras,
E (u|x1 , x2 , . . . , xk ) = 0

HIPÓTESE RLM.4 (COLINEARIDADE NÃO PERFEITA)

Na amostra (e, portanto, na população), nenhuma das variáveis independentes é constante, e não há relações
lineares exatas entre as variáveis independentes.

Note que se x1 = a1 + a2 x2 + a3 x3 + · · · + ak xk , com pelo menos um ai , i = 1, . . . , k, diferente de zero, temos que

a inversa de (X ′ X), ver equação (3.5), não existe. Suponha que x1 = cx2 , então
   
1 x11 x12 . . . x1k 1 cx12 x12 . . . x1k
 1 x21 x22 . . . x2k   1 cx22 x22 . . . x2k 
X =. . . . . =. .
   
.. . . .. 
 .. .. .. . . ..   .. .. . . . 
1 xn1 xn2 . . . xnk 1 cxn2 xn2 . . . xnk

agora multiplicando a coluna 3 por c e diminuindo da coluna 2, temos

 
  1 1 ... 1
1 0 x12 . . . x1k
 1 0 x22 . . . x2k 
 0
 0 ... 0 
X =. . . .

.

com X ′ =  x12
 x22 ... xn2 
 .. .. .. . . .. 
 
 .. .. .. .. 
 . . . . 
1 0 xn2 . . . xnk
x1k x2k . . . xnk
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 31

logo em X ′ X haverá uma linha e coluna iguais a zero, o que resulta em um determinante igual a 0.

TEOREMA 3.1 (INEXISTÊNCIA DE VIÉS DE MQO)

Sob as hipóteses RLM.1 a RLM.4,

E(βbi ) = βi , i = 0, . . . , k,
para qualquer valor do parâmetro populacional βi . Em outras palavras, os estimadores de MQO são esti-
madores não-viesados dos parâmetros da população.

Viés de Variável Omitida

Suponha agora que, em vez de incluir uma variável irrelevante, omitimos uma variável que, realmente, pertence ao
modelo verdadeiro (ou populacional). Isso é frequentemente chamado problema de excluir uma variável relevante
ou de subespecificar o modelo.
Por exemplo, suponha que o modelo populacional

y = β0 + β1 x1 + β2 x2 + β3 x3 + u

satisfaça as hipóteses RLM.1 a RLM.4. No entanto, omitimos x3 e estimamos o modelo como

ỹ = β̃0 + β̃1 x1 + β̃2 x2

Agora suponha que x2 e x3 sejam não-correlacionados, mas que x1 é correlacionado com x3 . Em outras palavras,
x1 é correlacionado com a variável omitida, mas x2 não é. É tentador pensar que, embora provavelmente β̃1 seja
viesado com base na derivação da subseção anterior, β̃2 seja não-viesado, e pois x2 é não-correlacionado com x3 .
Infelizmente, esse não é, geralmente, o caso: normalmente, tanto β̃1 como β̃2 serão viesados. A única exceção a
isso ocorre quando x1 e x2 também são não-correlacionados.
Se assumirmos que x1 e x2 são não correlacionados, podemos estudar o viés em β̃1 como se x2 estivesse ausente
dos modelos populacional e estimado. De fato, quando x1 e x2 são não-correlacionados, pode-se mostrar que

∑n (xi1 − x̄1 ) xi3

E β̃1 = β1 + β3 i=1 2
∑ni=1 (xi1 − x̄1 )

Viés de Variável Omitida: Casos mais Gerais

Por exemplo, suponha que tenhamos o seguinte modelo

E (y|x1 , x2 , z) = β0 + β1 x1 + β2 x2 + β3 z

onde z é uma variável não observável. Logo,

E (y|x1 , x2 ) = E (β0 + β1 x1 + β2 x2 + β3 z|x1 , x2 )

(3.9)
= β0 + β1 x1 + β2 x2 + β3 E (z|x1 , x2 )

Agora, se fizermos uma suposição sobre E(z|x1 , x2 ), por exemplo, que é linear em x1 e x2 ,

E (z|x1 , x2 ) = δ0 + δ1 x1 + δ2 x2

então podemos usar isso na equação (3.9) e reorganizar:

E (y|x1 , x2 ) = β0 + β1 x1 + β2 x2 + β3 (δ0 + δ1 x1 + δ2 x2 )
.
= (β0 + β3 δ0 ) + (β1 + β3 δ1 ) x1 + (β2 + β3 δ2 ) x2
32 Prof. Cleiton Guollo Taufemback

3.4 A Variância dos Estimadores de MQO

Obteremos, agora, a variância dos estimadores de MQO, de modo que, além de conhecermos as tendências centrais
dos beta j , também teremos uma medida da dispersão de sua distribuição amostral.

HIPÓTESE RLM.5 (HOMOSCEDASTICIDADE)

Var(u|x1 , . . . , xk ) = σ 2 .

As hipóteses RLM. l a RLM.5 são, em conjunto, conhecidas como as hipóteses de Gauss-Markov (para a re-
gressão de corte transversal). Podemos obter, agora, as variâncias dos beta j , que uma vez mais, estão condicionadas
aos valores amostrais das variáveis independentes.

TEOREMA 3.2 (VARIÂNCIAS AMOSTRAIS DOS ESTIMADORES DE INCLINAÇÃO DE MQO)

Sob as hipóteses RLM.1 a RLM.5, condicionadas aos valores amostrais das variáveis independentes,
 
b 2 βb0
σ d βb0 , βb1 Cov
Cov d βb0 , βb2 . . . Cov
d βb0 , βbk
 
 Cov β1 , β0
d b b b 2 βb1
σ Cov d βb1 , βbk 
d βb1 , βb2 . . . Cov 
d βb) = 
Cov( 
 .. .. .. .. .. 

 . . . . . 

d βk , β0 Cov
Cov b b d βk , β1 Cov
b b d βk , β2 . . . σ
b b 2
b βk b

d βb) é uma matriz (k + 1) × (k + 1), sendo k o número de variáveis explicativas do modelo.

em que Cov(

Estimação de σ 2 : Os Erros-Padrão dos Estimadores de MQO

Como σ 2 = E u2 , um ”estimador”não-viesado de σ 2 é é a média amostral dos erros quadrados: n−1 ∑n u2i . Infe-

lizmente, esse não é um estimador verdadeiro, pois não observamos os ui . Não obstante, lembre-se de que os erros
podem ser escritos como ui = yi − β0 − β1 xi1 − β2 xi2 − . . . − βk xik , e a razão real de não observarmos os ui é que
não conhecemos os β j . Quando substituı́mos cada β j por seu estimador de MQO, obtemos os resı́duos de MQO:

ubi = yi − βb0 − βb1 xi1 − βbz xi2 − . . . − βbk xik

Parece natural estimar σ 2 ao substituir ui por ubi . No caso da regressão simples, vimos que isso leva a um estimador
viesado. O estimador não-viesado de σ 2 no caso geral da regressão múltipla é
!
n
σb 2 = ∑ ub2i /(n − k − 1) = SQR /(n − k − 1)
i=1

O termo n − k − 1 representa os graus de liberdade (gl) do problema geral de MQO com n observações e k
variáveis independentes. Como há k + 1 parâmetros em um modelo de regressão com k variáveis independentes e
um intercepto, podemos escrever

gl = n − (k + 1)
= ( número de observaçöes ) − (número de parâmetros estimados)
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 33

TEOREMA 3.3 (ESTIMADOR NÃO-VIESADO DE σ 2 )

b2) = σ 2.
Sob as hipóteses de Gauss-Markov RLM.1 a RLM.5, E(σ

3.5 Eficiência de MQO: O Teorema de Gauss-Markov

TEOREMA 3.4 (TEOREMA DE GAUSS-MARKOV)

Sob as hipóteses RLM.1 a RLM.5, βb0 , βb1 , . . . , βbk são os melhores estimadores lineares não-viesados
(BLUEs) de β0 , β1 , . . . , βk , respectivamente.

A importância do Teorema de Gauss-Markov é que, quando um conjunto padrão de hipóteses se mantém, não
necessitamos procurar por estimadores não-viesados alternativos, pois nenhum será melhor que MQO. Equivalen-
temente, se somos apresentados a um estimador que é tanto linear como não-viesado, então sabemos que a variância
desse estimador é pelo menos tão grande quanto a variância de MQO. Nenhum cálculo adicional é necessário para
mostrar isso.
34 Prof. Cleiton Guollo Taufemback
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 35

4 Análise de Regressão Múltipla: Inferência

Vamos nos voltar agora para o problema de testar hipóteses sobre os parâmetros do modelo da regressão popula-
cional. Iniciaremos encontrando as distribuições dos estimadores de MQO sob a hipótese adicional de que o erro
populacional é normalmente distribuı́do.

4.1 Distribuições Amostrais dos Estimadores de MQO

Até este ponto, construı́mos um conjunto de hipóteses sob as quais o método MQO é não-viesado; também deriva-
mos e discutimos o viés causado por variáveis omitidas. Conhecer o valor esperado e a variância dos estimadores
de MQO é útil para descrever sua precisão. Entretanto, para a inferência estatı́stica necessitamos conhecer mais do
que apenas os dois primeiros momentos de βbj precisamos conhecer a distribuição amostral completa de βbj . Mesmo
sob as hipóteses de Gauss-Markov, a distribuição de βbj pode ter, virtualmente, qualquer forma.
Para tornar as distribuições amostrais de βbj passı́veis de tratamento, vamos assumir agora que o erro não-
observado é normalmente distribuı́do na população. Chamamos isso de hipótese da normalidade.

HIPÓTESE RLM.6 (NORMALIDADE)

O erro populacional u é independente das variáveis explicativas x1 , x2 , . . . , xk e é normalmente distribuı́do,

com média zero e variância σ 2 : u ∼ Normal(0, σ 2 ).

Nas aplicações da regressão de corte transversal, as hipóteses RLM.1 a RLM.6 são chamadas hipóteses do
modelo linear clássico (MLC). Assim, vamos nos referir ao modelo sob essas seis hipóteses como o modelo linear
clássico. É melhor pensar as hipóteses do MLC como contendo todas as hipóteses de Gauss-Markov mais a hipótese
de um termo erro normalmente distribuı́do.
Uma maneira sucinta de resumir as hipóteses do MLC na população é

y|x ∼ Normal β0 + β1 x1 + β2 x2 + . . . + βk xk , σ 2

Em qualquer aplicação, saber se a normalidade de u pode ser assumida é uma questão empı́rica. Por exemplo,
não há teorema dizendo que salarioh condicionado a educ, exper e perm é normalmente distribuı́do. De qualquer
modo, o simples raciocı́nio sugere que o oposto é verdadeiro: visto que o salário por hora nunca pode ser menor
que zero, ele não pode, estritamente falando, ter uma distribuição normal. Além disso, visto que há leis de salário
mı́nimo, alguma fração da população ganha exatamente o salário mı́nimo, o que viola a hipótese de normalidade.
Contudo, como uma questão prática, podemos perguntar se a distribuição condicional do salário está “próxima” de
ser normal. A evidência empı́rica passada sugere que normalidade não é uma boa hipótese para os salários.
A normalidade do termo erro traduz-se nas distribuições normais amostrais dos estimadores de MQO:

TEOREMA 4.1 (DISTRIBUIÇÕES AMOSTRAIS NORMAIS)

Sob as hipóteses do MLC, RLM.1 a RLM.6, condicional aos valores amostrais das variáveis independentes,
h i
βbj ∼ Normal β j , Var βbj ,

onde Var(βbj ) foi estudada anteriormente. Portanto,

βbj − β j /dp βbj ∼ Normal (0, 1).

Obs: d p significa desvio padrão. Porém é muito mais comum encontrar nos livros o termo std, de standard
deviation, em vez de db.
36 Prof. Cleiton Guollo Taufemback

4.2 Testes de Hipóteses sobre um único Parâmetro Populacional: O Teste t

Esta seção cobre o importante tópico de testar hipóteses sobre um único parâmetro da função de regressão popula-
cional. O modelo populacional pode ser escrito como

y = β0 + β1 x1 + . . . + βk xk + u

e assumimos que ele satisfaz as hipóteses do MLC. Sabemos que MQO produz estimadores não-viesados de β j .
Nesta seção, estudaremos como testar hipóteses sobre um particular β j . Para um entendimento completo dos testes
de hipóteses, devemos recordar que os β j são caracterı́sticas desconhecidas da população, e nunca os conheceremos
com certeza. No entanto, podemos fazer hipóteses sobre o valor de β j e, em seguida, utilizar inferência estatı́stica
para testar nossa hipótese.
A fim de construir os testes de hipóteses, precisamos do seguinte resultado:

TEOREMA 4.2 (A DISTRIBUIÇAO t PARA OS ESTIMADORES PADRONIZADOS)

Sob as hipóteses do MLC, RLM.1 a RLM.6,

βbj − β j /ep βbj ∼ tn−k−1

em que k + 1 é o número de parâmetros desconhecidos do modelo populacional y = β0 + β1 x1 + . . . +

+βk xk + u ( k parâmetros de inclinação mais o intercepto β0 ).

O Teorema 4.2 é importante porque ele nos permite testar hipóteses que envolvem os β j . Na maioria das
aplicações, nosso principal interesse é testar a hipótese nula

H0 : β j = 0

em que j corresponde a qualquer uma das k variáveis independentes. Como um exemplo, considere a equação do
salário
log(salarioh) = β0 + β1 educ + β2 exper + β3 perm + u
A hipótese nula H0 : β2 = 0 significa que, uma vez que a educação formal e a permanência foram consideradas,
o número de anos no mercado de trabalho (exper) não tem nenhum efeito sobre o salário horário. Essa é uma
hipótese economicamente interessante. Se ela é verdadeira, ela implica que o histórico de trabalho de uma pessoa,
anterior ao emprego atual, não afeta o salário. Se β2 > 0, então a experiência prévia de trabalho contribui para a
produtividade e, portanto, para o salário.
A estatı́stica t de βbj é simples de calcular, dados βbj e seu erro-padrão. De fato, a maioria dos programas de
regressão faz a divisão automaticamente e informa a estatı́stica t juntamente com cada coeficiente e seu erro-
padrão.

Teste contra Hipóteses Alternativas Unilaterais

A fim de determinar uma regra para rejeitar H0 , precisamos decidir sobre a hipótese alternativa relevante. Primeiro,
considere uma hipótese alternativa unilateral do tipo

H1 : β j > 0

Isso significa que não nos preocupamos com alternativas de H0 do tipo H1 : β j < 0; por alguma razão, talvez
tomando como base a introspecção ou a teoria econômica, estamos excluindo os valores populacionais de β j
menores que zero. (Outra maneira de pensar a respeito é que a hipótese nula é realmente H0 : β j ≤ O; em qualquer
caso, a estatı́stica tβb ; é usada como a estatı́stica de teste.)
j
Como devemos escolher uma regra de rejeição? Em primeiro lugar, devemos decidir sobre um nı́vel de signi-
ficância ou uma probabilidade de rejeitar H0 quando ela é, de fato, verdadeira. Em termos mais concretos, suponha
que decidimos por um nı́vel de significância de 5%, já que esta é a escolha mais comum. Assim, estamos dispostos
a rejeitar erroneamente H0 , quando ela é verdadeira 5% das vezes. Agora, embora tβb tenha uma distribuição t sob
j
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 37

H0 - de modo que ele tem média igual a zero -, sob a hipótese alternativa β j > 0, o valor esperado de tβb é positivo.
j
Assim, estamos procurando um valor positivo “suficientemente grande” de tβb a fim de rejeitar H0 : β j = 0 em
1
favor de H1 : β j > 0. Valores negativos de tβb não fornecem evidência em favor de H1 .
1
A definição de “suficientemente grande”, com um nı́vel de significância de 5%, é o 95o percentil de uma
distribuição t com n − k − 1 graus de liberdade; denominemos esse ponto de c. Em outras palavras, a regra de
rejeição é que H0 é rejeitada em favor de H1 ao nı́vel de significância de 5%, se

tβb > c5%, unilateral direita , tβb < c5%, unilateral esquerda
j j

Exemplo: Equação do Salário Horário

Usando os dados do arquivo WAGE1, obtemos a equação estimada

log(salarioh) = 0, 284+ 0, 092educ+ 0, 0041exper+ 0, 022perm

(0, 104) (0, 007) (0, 0017) (0, 003)
n = 526, R2 = 0, 316

em que os erros-padrão aparecem em parênteses abaixo dos coeficientes estimados. Seguiremos essa
convenção ao longo do livro. Essa equação pode ser usada para testar se o retorno de exper, controlando
educ e perm, é zero na população, contra a hipótese alternativa de que ele é positivo. Para tanto, escreva
H0 : βexper = 0 vs H1 : βexper > 0.

Lembre-se de que βexper representa o parâmetro populacional desconhecido. Não faz sentido algum
escrever βbexper = 0 ou H0 : 0, 0041 = 0.

Como temos 522 graus de liberdade, podemos usar os valores crı́ticos da distribuição normal padronizada.
O valor critico a 5% é 1, 645, e o valor crı́tico a 1% é 2, 326. A estatı́stica t para βbexper

tβb = 0, 0041/0, 0017 ≈ 2, 41

exper

e portanto βbexper ou exper, é estatisticamente significante mesmo ao nı́vel de 1%. Também dizemos que
βbexper é estatisticamente maior que zero ao nı́vel de significância de 1%.

Exemplo: Teste unilateral para a esquerda

Suponha que
y = 0, 3+ 0, 23x1 −0, 12x2 + 0, 32x3
(0, 10) (0, 07) (0, 055) (0, 03)
n = 526, R2 = 0, 61
e queremos testar H0 : βx2 = 0 vs H1 : βx2 < 0. Como temos 522 graus de liberdade, podemos usar os valores
crı́ticos da distribuição normal padronizada. O valor critico a 5% é −1, 645, e o valor crı́tico a 1% é −2, 326.
A estatı́stica t para βbexper
tβb = −0, 12/0, 055 = −2, 18
x2

e portanto podemos rejeitar a hipótese de que βbx2 seja estatisticamente igual a 0 a 5%, mas não a 1%.

Teste contra Hipóteses Alternativas Bilaterais

Nas aplicações, é comum testar a hipótese nula H0 : β j = 0 contra uma hipótese alternativa bilateral, ou seja,

H1 : β j ̸= 0 (4.1)
38 Prof. Cleiton Guollo Taufemback

Quando a alternativa é bilateral, estamos interessados no valor absoluto da estatı́stica t. A regra de rejeição para
H0 : β j = 0 contra (4.1) é
tβb, > c

Se H0 é rejeitada em favor de (4.1) ao nı́vel de 5%, em geral dizemos que βbj é estatisticamente significante, ou
estatisticamente diferente de zero, ao nı́vel de 5%. Se H0 não é rejeitada, dizemos que βbj é estatisticamente não
significante ao nı́vel de 5%.

Testes de outras Hipóteses sobre β j

Embora H0 : β j = 0 seja a hipótese mais comum, algumas vezes queremos testar se β j é igual a alguma outra
constante dada. Dois exemplos comuns são β j = 1 e β j = −1. Em geral, se a hipótese nula é expressa como

H0 : β j = a j

em que a j é o nosso valor hipotético de β j , então a estatı́stica t apropriada é

t = βbj − a j /ep βbj

Assim como antes, t mede quantos desvios-padrão estimados βbj está distante do valor hipotético de β j . A estatı́stica
t geral é usualmente escrita como

(estimativa − valor hipotético)

t= ∼ tn−k−1
erro-padrão

Exemplo: Preços de Casas e Poluição do Ar

Usando os dados do arquivo HPRICE2, o modelo estimado é

log(preco) = 11, 08 −0, 954 log(oxn) −0, 134 log(dist) +0, 255comods −0, 052razestud
(0, 32) (0, 117) (0, 043) (0, 019) (0, 006)
n = 506, R2 = 0, 581

Queremos
testar H0: β1= −1 contra a hipótese alternativa H1 : β1 ̸= −1. A estatı́stica t para fazer esse teste
é t = β1 + 1 /ep βb1 . A hipótese nula de interesse é H0 : β1 = −1, com a estatı́stica t correspondente
b
(−0, 954 + 1)/0, 117 = 0, 393. Quando a estatı́stica t é pequena como essa, há pouca necessidade de olhar
a tabela t de um valor critico: a elasticidade estimada não é estatisticamente de −1, mesmo a nı́veis de
significância bastante altos. Controlando fatores que incluı́mos, há pouca evidência de que a elasticidade
seja diferente de −1.

Cálculos dos p-valores dos Testes t

Até agora, falamos sobre como testar hipóteses ao usar uma abordagem clássica: após formular a hipótese alter-
nativa, escolhemos um nı́vel de significância, que então determina um valor crı́tico. Uma vez que o valor crı́tico
tenha sido identificado, o valor da estatı́stica t é comparado com o valor crı́tico, e a hipótese nula é rejeitada ou
não, ao nı́vel de significância dado.
Em vez de fazer o teste a diferentes nı́veis de significância, é mais informativo responder à seguinte questão:
dado o valor observado da estatı́stica t, qual é o menor nı́vel de significância ao qual a hipótese nula seria rejeitada?
Esse nı́vel é conhecido como o p-valor do teste.
Como um p-valor é uma probabilidade, seu valor está sempre entre zero e um. A fim de calcular os p-valores,
precisamos de tabelas impressas extremamente detalhadas da distribuição t - o que não é muito prático - ou um
programa de computador que calcule as áreas sob a função densidade de probabilidade da distribuição t. O p-valor,
nesse caso, é
P(|T | > |t|)
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 39

em que T representa uma variável aleatória com distribuição t, com n − k − 1 graus de liberdade, e t é o valor
numérico da estatı́stica de teste. No exemplo com gl = 40 e t = 1, 85, o p-valor é calculado como

p -valor = P(|T | > 1, 85) = 2P(T > 1, 85) = 2(0, 0359) = 0, 0718

Figura 6 Obtendo o p-valor contra uma alternativa bilateral quando t = 1.85 e gl = 40.

Sobre o p-valor

O valor do p-valor corresponde a área além do ponto designado pela estatı́stica do teste t. Logo quanto
maior for a estatı́stica do teste t, menor será o p-valor, e vice-versa. Assim, um p-valor com valor abaixo de
0,05 nos indica que, dado o teste t, rejeitamos a hipótese nula, H0 , a 5% de significância.

p-valor ↑ então t ↓, p-valor ↓ então t ↑ .

Questão: Suponha que você tenha estimado um modelo de regressão e obteve β1 = 0, 56 e p-valor = 0,086
para testar H0 : β1 = 0 contra H1 : β1 ̸= 0. Qual é o p-valor para testar H0 : β1 = 0 contra H1 : β1 > 0?

4.3 Intervalos de Confiança

Sob as hipóteses do modelo linear clássico, podemos

facilmente
construir
um intervalo de confiança (IC) para o
parâmetro populacional β j · Usando o fato de que βbj − βb /ep βbj tem uma distribuição t com n − k − 1 graus
de liberdade, uma simples manipulação algébrica leva a um IC do β j desconhecido. Um intervalo de confiança de
95%, é dado por
βbj ± c · ep βbj
40 Prof. Cleiton Guollo Taufemback

em que a constante e é o 97,5o percentil de uma distribuição tn−k−1 . Mais precisamente, os limites inferiores e
superiores do intervalo de confiança são dados por

β j− ≡ βbj − c · ep βbj

e
β j+ ≡ βbj + c · ep βbj

respectivamente.

O significado de um intervalo de significância

Se as amostras aleatórias fossem obtidas repetidas vezes, com β j− e β j+ calculados a cada vez, então o
valor populacional (desconhecido) β j estaria dentro do intervalo (β j− , β j+ ) em 95% das amostras. Infeliz-
mente, para a única amostra que usamos para construir o IC, não sabemos se β j está, realmente, contido no
intervalo. Esperamos que tenhamos obtido uma amostra que seja uma das 95% de todas as amostras em que
a estimativa de intervalo contém β j mas não temos essa garantia.

4.4 Testes de Hipóteses sobre uma Combinação Linear dos Parâmetros

Para ilustrar a abordagem geral, consideraremos um modelo simples para comparar os retornos da educação de
cursos superiores profissionalizantes de dois anos (junior colleges) e de cursos superiores de quatro anos (four-
year colleges); por simplicidade, vamos nos referir ao último como “universidades”. A população inclui as pessoas
com o ensino médio completo que trabalham, e o modelo é

log(salario) = β0 + β1CP + β2 univ + β3 exper + u

em que cp é o número de anos frequentados em um curso superior profissionalizante de dois anos e univ é o
número de anos frequentados em um curso superior de quatro anos. Note que qualquer combinação de curso
profissionalizante e curso de quatro anos é permitida, incluindo cp = 0 e univ = 0.
A hipótese de interesse é se um ano no curso profissionalizante é equivalente a um ano na universidade: isso é
expresso como
H0 : β1 = β2
Sob H0 , um ano a mais no curso profissionalizante e um ano a mais na universidade levam ao mesmo aumento
percentual ceteris paribus em salário. Na maioria dos casos, a alternativa de interesse é unilateral: um ano no curso
profissionalizante é menos valioso do que um ano na universidade. Isso é expresso como

H1 : β1 < β2

e testamos usando
βb − βb2
t= 1 .
ep βb1 − βb2

Note que
Var βb 1 − βb 2 = Var βb 1 + Var βb 2 − 2 Cov βb 1 , βb2 ,

logo
h i2 h i2 1/2
ep β1 − β2 = ep β1
b b b + ep β2
b − 2s12 .

Vamos sugerir uma outra rota que é mais simples de calcular, menos provável
de levar a erro e prontamente
aplicável a uma variedade de problemas. Em vez de tentar calcular ep βb1 − βb2 , é muito mais fácil estimar um
modelo diferente que produz, diretamente, o erro-padrão de interesse. Defina um novo parâmetro como a diferença
entre β1 e β2 : θ1 = β1 − β2 . Então, queremos testar
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 41

H0 : θ1 = 0 contra H1 : θ1 < 0

Inserindo em θ1 = β1 − β2 e rearranjando, resulta a equação

log(salario) = β0 + (θ1 + β2 ) cp + β2 univ + β3 exper + u

= β0 + θ1 cp + β2 (cp + univ) + β3 exper + u

agora defina totgrad = cp + univ e escreva

log(salario) = β0 + θ1 cp + β2totgrad + β3 exper + u.

Teste Wald para múltiplos parâmetros

O teste de Wald pode ser usado para testar uma única hipótese com vários parâmetros, bem como para
testar conjuntamente várias hipóteses em parâmetros únicos / múltiplos. Seja θbn seja nosso estimador de
amostra de parâmetros (k + 1) (ou seja, θbn é um vetor (k + 1) × 1, que deve seguir assintoticamente uma
√ D
distribuição normal com a matriz de covariância V , n(θbn − θ )−
→N(0,V ). O teste das q hipóteses nos (k +1)
parâmetros é expresso com uma matriz R, q × (k + 1):

H0 : Rθ = r
H1 : Rθ ̸= r

A estatı́stica do teste é dada por:

′ ′ D
(Rθbn − r) [R(Vbn /n)R ]−1 (Rθbn − r) −
→ χq2

Exemplo: No caso anterior temos θbn = (βb0 , βb1 , βb2 , βb3 )′ e querı́amos testar se β1 = β2 . Logo temos

R = [0, 1, −1, 0] , r = 0.

Como resultado teremos,

−1
(β1 − β2 )′ Var βb 1 + Var βb 2 − 2 Cov βb 1 , βb2 (β1 − β2 )

se aplicarmos a raiz quadrada teremos o nosso teste t usual.

Obs: Isto não está no Wooldridge, mas é a forma mais comum de fazer os testes entre parâmetros na
prática.

4.5 Testes de Restrições Lineares Múltiplas: O Teste F

Até agora, somente cobrimos hipóteses que envolvem uma única restrição. Frequentemente, desejamos testar
hipóteses múltiplas sobre os parâmetros subjacentes β0 , βb1 , . . . , βbk . Vamos começar com o caso de testar se um
conjunto de variáveis independentes não tem efeito parcial sobre uma variável dependente.

Teste de Restrições de Exclusão

Vamos considerar o seguinte modelo que explica os salários dos jogadores da principal liga de beisebol dos Estados
Unidos:
log(salario) = β0 + β1 anos + β2 jogosano + β3 rebmed+
(4.2)
β4 hrunano + β5 rebrunano + u
em que salario é o salário total do jogador em 1993, anos corresponde aos anos do jogador na liga, jogosano é
a média de partidas jogadas por ano, rebmed é a média de rebatidas na carreira do jogador, hrunano corresponde
42 Prof. Cleiton Guollo Taufemback

a rebatidas que resultaram em pontos (volta completa por todas as bases) por ano, e rebrunano corresponde a
rebatidas que redundaram cm corrida até a próxima base por ano.
Suponha que queiramos testar a hipótese nula de que, uma vez que anos na liga e jogos por ano foram contro-
lados, as estatı́sticas que medem o desempenho - rebmed, hrunano e rebrunano - não têm efeito sobre o salário.
Essencialmente, a hipótese nula expressa que a produtividade, medida pelas estatı́sticas do beisebol, não tem efeito
sobre o salário. Ou seja,
H0 : β3 = 0, β4 = 0, β5 = 0
e a hipótese alternativa é simplesmente
H1 : H0 não é verdadeira.
Esse é um exemplo de conjunto de restrições múltiplas porque estamos colocando mais de uma restrição sobre
os parâmetros. Um teste de restrições múltiplas é chamado teste de hipóteses múltiplas ou o teste de hipóteses
conjuntas.
Usar estatı́sticas t separadas para testar uma hipótese múltipla pode ser muito enganoso. Precisamos de uma
maneira para testar as restrições de exclusão conjuntamente. Para ilustrar, estimamos a equação (4.2) usando os
dados do arquivo MLBl. Obtemos

log(salario) = 11, 10 +0, 0689anos +0, 0126 jogosano

(0, 29) (0, 0121) (0, 0026)
+0, 00098rebmed +0, 0144hrunano +0, 0108rebrunano
(0, 00110) (0, 0161) (0, 0072)
n = 353, SQR = 183, 186, R2 = 0, 6278

em que SQR é a soma dos resı́duos quadrados.

Lembre-se de que, como as estimativas de MQO são escolhidas para minimizar a soma dos resı́duos quadrados,
o SQR sempre aumenta quando variáveis são retiradas do modelo; esse é um fato algébrico. A questão é saber se
esse aumento é suficientemente grande, relativamente ao SQR do modelo com todas as variáveis, para garantir a
rejeição da hipótese nula.
O modelo estimado sem as três variáveis em questão é simplesmente

log(salario) = 11, 22 +0, 0713anos +0, 0202 jogosano

(0, 11) (0, 0125) (0, 0013)
n = 353, SQR = 198, 311, R2 = 0, 5971

Agora, precisamos de uma maneira de combinar as informações dos dois SQRs para obter uma estatı́stica de
teste com uma distribuição conhecida sob H0 . De uma forma geral, temos o modelo irrestrito dado por

y = β0 + β1 x1 + . . . βk xk + u (4.3)

O número de parâmetros no modelo irrestrito é k + 1. Suponha que temos q restrições de exclusão para testar:
isto é, a hipótese nula afirma que q variáveis em (4.3) têm coeficientes zero. Por simplicidade notacional, as-
suma que sejam as q últimas variáveis da lista de variáveis independentes: xk−1+1 , . . . , xk . (A ordem das variáveis,
evidentemente, é arbitrária e não importa.) A hipótese nula é formulada como

H0 : βk−q+1 = 0, . . . , βk = 0

Quando impomos as restrições sob H0 . ficamos com o modelo restrito:

y = β0 + β1 x1 + . . . + βk−q xk−q + u

Se o aumento relativo em SQR quando nos movemos do modelo irrestrito para o restrito for significativo,
devemos rejeitar H0 . Para tal, usamos a estatı́stica F definida como

(SQRr − SQRir ) /q
F≡ ∼ Fq,n−k−1 . (4.4)
SQRir /(n − k − 1)

em que SQRr é a soma dos resı́duos quadrados do modelo restrito, e SQRir é a soma dos resı́duos quadrados do
modelo irrestrito.
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 43

Você deveria observar imediatamente que, como SQRr não pode ser menor que SQRir a estatı́stica F é sempre
não-negativa (e quase sempre estritamente positiva). Assim, se você calcular uma estatı́stica F negativa, algo está
errado; em geral, a ordem dos SQRs no numerador de F é equivocadamente invertida.
Voltando ao exemplo, temos

(198, 311 − 183, 186)/3

F= ≈ 9, 55 > cF3,347 = 3.881.
183, 186/347

Esse número está bem acima do valor crı́tico de 1% da distribuição F com 3 e 347 graus de liberdade e, portanto,
rejeitamos completamente a hipótese de que rebmed, hrunano e rebrunano não têm efeito sobre o salário.
O resultado do teste conjunto pode parecer surpreendente à luz das estatı́sticas t não significantes das três
variáveis. O que está acontece é que as variáveis hrunano e rebnmano são altamente correlacionadas, e essa multi-
colinearidade torna difı́cil descobrir o efeito parcial de cada variável; isso é refletido nas estatı́sticas t individuais.
A estatı́stica F testa se essas variáveis (incluindo rebmed) são conjuntamente significantes, e a multicolinearidade
entre hrunano e rebrunano é muito menos relevante para testar essa hipótese . No Problema 4.16, pediremos que
você estime novamente o modelo retirando rebrunano, caso em que hrunano torna-se muito significante. O mesmo
é verdadeiro para rebrunano quando hrunano é retirado do modelo.

Agora usando o R

Exemplo utilizando o conjunto de dados MLBl do Wooldridge.

library(wooldridge) # Chama o pacote para ser usado nessa sessão
library(car) # Chama o pacote car, para realizar o teste F
data(’mlb1’) # Define o conjuto de dados a ser usado

# Executa a regressão linear

model <- lm(formula = log(salary) ˜ years + gamesyr + bavg
+ hrunsyr + rbisyr , data = mlb1)
summary(model)

# Teste F
linearHypothesis(model, c("bavg=0", "hrunsyr=0", "rbisyr=0"))

# Mesma regressão, porém sem a variável rbisyr

model <- lm(formula = log(salary) ˜ years + gamesyr + bavg
+ hrunsyr , data = mlb1)
summary(model)
como resultado temos
# Executa a regressão linear
Call:
lm(formula = log(salary) ˜ years + gamesyr + bavg + hrunsyr +
rbisyr, data = mlb1)

Residuals:
Min 1Q Median 3Q Max
-3.02508 -0.45034 -0.04013 0.47014 2.68924

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.119e+01 2.888e-01 38.752 < 2e-16 ***
years 6.886e-02 1.211e-02 5.684 2.79e-08 ***
gamesyr 1.255e-02 2.647e-03 4.742 3.09e-06 ***
bavg 9.786e-04 1.104e-03 0.887 0.376
hrunsyr 1.443e-02 1.606e-02 0.899 0.369
rbisyr 1.077e-02 7.175e-03 1.500 0.134
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
44 Prof. Cleiton Guollo Taufemback

Residual standard error: 0.7266 on 347 degrees of freedom

Multiple R-squared: 0.6278,Adjusted R-squared: 0.6224
F-statistic: 117.1 on 5 and 347 DF, p-value: < 2.2e-16

# Teste F

Hypothesis:
bavg = 0
hrunsyr = 0
rbisyr = 0

Model 1: restricted model

Model 2: log(salary) ˜ years + gamesyr + bavg + hrunsyr + rbisyr

[Link] RSS Df Sum of Sq F Pr(>F)

1 350 198.31
2 347 183.19 3 15.125 9.5503 4.474e-06 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

# Mesma regressão, porém sem a variável rbisyr

Call:
lm(formula = log(salary) ˜ years + gamesyr + bavg + hrunsyr,
data = mlb1)

Residuals:
Min 1Q Median 3Q Max
-3.0642 -0.4614 -0.0271 0.4654 2.7216

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 11.020913 0.265719 41.476 < 2e-16 ***
years 0.067732 0.012113 5.592 4.55e-08 ***
gamesyr 0.015759 0.001564 10.079 < 2e-16 ***
bavg 0.001419 0.001066 1.331 0.184
hrunsyr 0.035943 0.007241 4.964 1.08e-06 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.7279 on 348 degrees of freedom

Multiple R-squared: 0.6254,Adjusted R-squared: 0.6211
F-statistic: 145.2 on 4 and 348 DF, p-value: < 2.2e-16
Obs: o “F-statistic” apresentado pelo “summary(model)” representa o teste que os coeficientes das k
variáveis, com a exceção do intercepto, são iguais a zero.

A Forma R-quadrado da Estatı́stica F

Usando o fato de que SQRr = SQT 1 − R2r e SQRir = SQT 1 − R2ir , podemos substituir esses termos em ( 4.4)

para obter
R2i − R2r /q

F≡
1 − R2i /(n − k − 1)
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 45

Isso se chama a forma R-quadrado da estatı́stica F.

A Estatı́stica F para a Significância Geral de uma Regressão

Um conjunto especial de restrições de exclusão é rotineiramente testado por muitos programas de regressão. Essas
restrições têm a mesma interpretação, independentemente do modelo. No modelo com k variáveis independentes,
podemos escrever a hipótese nula como

H0 : x1 , x2 , . . . , xk não ajudam a explicar y

Essa hipótese nula é, de certa maneira, muito pessimista. Ela afirma que nenhuma das variáveis explicativas tem
um efeito sobre y. Expressa em termos dos parâmetros, a hipótese nula é que todos os parâmetros de inclinação
são zero:
H0 : β1 = β2 = . . . = βk = 0 (4.5)
e a hipótese alternativa é que pelo menos um dos β j seja diferente de zero.
Portanto, a estatı́stica F para testar (4.5) pode ser escrita como

R2 /k
(4.6)
(1 − R2 ) /(n − k − 1)

em que R2 é exatamente o R-quadrado usual da regressão de y sobre x1 , x2 , . . . , xk .

Cálculo dos p-Valores para Testes F

No contexto do teste F, o p-valor é definido como

p -valor = P(F > F)

em que, para enfatizar, F representa uma variável aleatória F com(q, n − k − 1) graus de liberdade, e F é o valor
real da estatı́stica de teste. O p-valor ainda tem a mesma interpretação que ele tinha para a estatı́stica t: ele é a
probabilidade de observarmos um valor de F pelo menos tão grande quanto aquele que encontramos, dado que a
hipótese nula é verdadeira. Um p-valor pequeno é evidência contra H0 .

Teste de Restrições Lineares Gerais

Como um exemplo, considere a seguinte equação:

log (preco) = β0 + β1 log(aval) + β2 log(tamterr)

(4.7)
+ β3 log(arquad)) + β4 qtdorm + u

em que preco é o preço das casas, aval é o valor avaliado das casas (antes de elas serem vendidas), tamterr é o
tamanho dos terrenos, em pés quadrados, arquad é a área da casa em m2 e qtdorm é o número de quartos. Agora,
suponha que gostarı́amos de testar se o preço de avaliação elas casas é uma avaliação racional. Nesse caso, uma
variação de 1% em aval deve estar associada a uma variação de 1% em preço; isto é, β1 = 1. Além disso, tamterr,
arquad, e qtdorm não devem ajudar a explicar log(preco), uma vez que o valor de avaliação tenha sido controlado.
Juntas essas hipóteses podem ser expressas como

H0 : β1 = 1, β2 = 0, β3 = 0, β4 = 0

Como podemos utilizar o teste F agora? Primeiro, estimamos o modelo irrestrito (4.7) e obtemos o SQRir .
Depois aplicamos as restrições, de tal forma que agora temos

log (price) = β0 + log(assess) + u

assumindo z = log (price) − log(assess), temos agora

z = β0 + u (4.8)
46 Prof. Cleiton Guollo Taufemback

onde (4.8) é o nosso modelo restrito. Note que podemos fazer essas manipulações sempre que o modelo restrito
seja um caso especial do modelo irrestrito.

Agora usando o R

Exemplo utilizando o conjunto de dados HPRICE1 do Wooldridge.

library(wooldridge) # Chama o pacote para ser usado nessa sessão
library(car) # Chama o pacote car, para realizar o teste F
data(’hprice1’) # Define o conjuto de dados a ser usado

# Executa a regressão linear

model <- lm(formula = log(price) ˜ log(assess) + log(lotsize) + log(sqrft)
+ bdrms , data = hprice1)
summary(model)

# Teste F
linearHypothesis(model, c("log(assess)=1", "log(lotsize)=0",
"log(sqrft)=0", "bdrms=0"))
como resultado temos
Call:
lm(formula = log(price) ˜ log(assess) + log(lotsize) + log(sqrft) +
bdrms, data = hprice1)

Residuals:
Min 1Q Median 3Q Max
-0.53337 -0.06333 0.00686 0.07836 0.60825

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.263743 0.569665 0.463 0.645
log(assess) 1.043066 0.151446 6.887 1.01e-09 ***
log(lotsize) 0.007438 0.038561 0.193 0.848
log(sqrft) -0.103239 0.138430 -0.746 0.458
bdrms 0.033839 0.022098 1.531 0.129
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.1481 on 83 degrees of freedom

Multiple R-squared: 0.7728,Adjusted R-squared: 0.7619
F-statistic: 70.58 on 4 and 83 DF, p-value: < 2.2e-16

# Teste F

Hypothesis:
log(assess) = 1
log(lotsize) = 0
log(sqrft) = 0
bdrms = 0

Model 1: restricted model

Model 2: log(price) ˜ log(assess) + log(lotsize) + log(sqrft) + bdrms

[Link] RSS Df Sum of Sq F Pr(>F)

1 87 1.8801
2 83 1.8215 4 0.05862 0.6678 0.6162

Dado o p-valor, 0,6162, não há, evidência contra a hipótese de que os valores de avaliação sejam racionais.
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 47

5 Análise de Regressão Múltipla: MQO Assimptótico

Não iremos abortar as caracterı́sticas assintóticas dos estimadores nessa disciplina. Vocês verão um pouco sobre
esse assunto nos semestres seguintes.
48 Prof. Cleiton Guollo Taufemback
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 49

6 Análise de Regressão Múltipla: Problemas Adicionais

6.1 Efeitos da Dimensão dos Dados nas Estatı́sticas MQO

Começamos com uma equação relacionando o peso dos recém-nascidos com o hábito de fumar e a renda familiar:

ˆ = βb0 + βb1 cigs + βb2 rend f am

peso

onde peso é o peso dos recém-nascidos, em gramas, cigs é o número médio de cigarros que a mãe fumou por dia
durante a gravidez, e rendfam é a renda anual familiar, em milhares de dólares. Agora, suponha que decidimos
medir o peso dos recém-nascidos em quilos, em vez de onças. Façamos pesoKg = peso/1000 ser o peso dos recém-
nascidos em quilogramas. O que acontece com nossas estatı́sticas MQO se usarmos essa variável dependente em
nossa equação? É fácil verificar o efeito no coeficiente da estimativa pela simples manipulação da equação acima.
Divida a equação inteira por 16:

peso/1000 = βb0 /1000 + βb1 /1000 cigs + βb2 /1000 rend f am.

E quanto à significância estatı́stica? Como esperado, a alteração da variável dependente de gramas para quilos
não tem efeito sobre o quanto são estatisticamente importantes as variáveis independentes. Os erros-padrão são
agora 1000 vezes menores que antes. Alguns cálculos rápidos mostram que as estatı́sticas t continuam idênticas.
Os pontos extremos dos intervalos de confiança são exatamente os pontos extremos anteriores divididos por 1000.
Isso ocorre porque os ICs mudam pelos mesmos fatores dos erros-padrão. Em termos de grau de ajuste, os R-
quadrados das duas regressões são idênticos, como esperado.
Continuando, retomemos à unidade de medida original da variável dependente: pesonas é medido em onças.
Vamos alterar a unidade de medida de uma das variáveis independentes, cigs. Defina maços como sendo a quanti-
dade de maços de cigarros fumados por dia. Assim, macos = cigs/20. Agora, o que acontece com os coeficientes e
outras estatı́sticas MQO? Dessa forma, podemos escrever

ˆ = βb0 + 20βb1 (cigs/20) + βb2 rend f am = βb0 + 20βb1 maços + βb2 rend f am.
peso

Portanto, o intercepto e o coeficiente de inclinação de rendfam não se alteraram, mas o coeficiente de maços é 20
vezes o de cigs.

Os Coeficientes Beta

Algumas vezes, em aplicações econométricas, uma variável-chave é medida em uma dimensão de difı́cil interpretação.
Economistas especializados na área de trabalho frequentemente incluem a pontuação de testes de conhecimen-
tos em equações salariais, e a dimensão em que tais testes são registrados muitas vezes é arbitrária e de difı́cil
interpretação. Em quase todos os casos estamos interessados em saber como a pontuação de um indivı́duo em
particular se compara com a população. Assim, em lugar de perguntarmos a respeito do efeito sobre o salário por
hora se, digamos, a pontuação do teste for dez pontos mais alta, faz mais sentido perguntar o que acontece quando
a pontuação do teste for um desvio-padrão mais alto.
Por que a padronização é útil? É mais fácil começarmos com a equação MQO original, com as variáveis em
suas formas originais:
yi = βb0 + βb1 xi1 + βb2 xi2 + . . . + βbk xik + ub (6.1)
Incluı́mos o subscrito de observação i para enfatizar que nossa padronização é aplicada a todos os valores da
amostra. Agora, se ao calcularmos a média de (6.1), usarmos o fato de que ubi tem uma média de amostra zero, e
subtrairmos o resultado de (6.1), temos

yi − ȳ = βb1 (xi1 − x̄1 ) + βb2 (xi2 − x̄2 ) + . . . + βbk (xik − x̄k ) + ubi

Em seguida, definamos σby como o desvio-padrão da amostra da variável dependente, σ b1 como o dp da amostra
da x1 , σ
b2 como o dp da amostra de x2 , e sucessivamente. Agora, um pouco de álgebra produz a equação

(yi − ȳ) /σ
by = (σ b1 /σby ) βb1 [(xi1 − x̄1 ) /σ
b1 ] + . . .
(6.2)
+ (σ by ) βk [(xik − x̄k ) /σ
bk /σ b bk ] + (b
ui /σby )
50 Prof. Cleiton Guollo Taufemback

Cada variável em ( 6.2)) foi padronizada pela substituição de suas médias por seus valores de z, e isso resultou
em novos coeficientes de inclinação. Por exemplo, o coeficiente de inclinação de (xi1 − x̄1 ) /σ
b1 é (σ
b1 /σ
by ) βb1 . Isso
é simplesmente o coeficiente original, βb1 , multiplicado pela razão do desvio-padrão de x1 sobre o desvio-padrão
de y. O intercepto simplesmente desapareceu.
E útil reescrever ( 6.2), eliminando o subscrito i, como

zy = b
b1 z1 + b
b2 z2 + . . . + b
bk zk + erro

onde zy é o valor de z de y, z1 é o valor de z de x1 , e assim por diante. Os novos coeficientes são

b j = (σb j /σ
b by ) βbj para j = 1, . . . , k

Esses b
b j são tradicionalmente chamados de coeficientes padronizados ou coeficientes beta.

Efeitos da Poluição sobre os Preços de Imóveis

Utilizamos os dados do arquivo HPRICE2 para ilustrar o uso de coeficientes beta. Lembre-se de que a
principal variável independente é oxn, uma medida do óxido nitroso no ar em cada comunidade. A equação
populacional é o modelo nı́vel-nı́vel

preco = β0 + β1 oxn + β2 crime + β3 comods + β4 dist + β5 razestud + u

Os coeficientes beta aparecem na seguinte equação

zpreco = −0, 340zoxn − 0, 143zcrime + 0, 514zcomods − 0, 235zdist − 0, 270zrazestud.

O uso de variáveis padronizadas ou não padronizadas não afetará a significância estatı́stica: as estatı́sticas
t serão as mesmas, em ambos os casos.

6.2 Um pouco mais sobre a Forma Funcional

Em vários dos exemplos anteriores, encontramos o artifı́cio mais comum em econometria para permitir relações
não lineares entre a variável explicada e as variáveis explicativas: o uso de logaritmos das variáveis dependentes
ou independentes. Também vimos modelos contendo os quadrados de algumas variáveis explicativas, mas ainda
precisamos discorrer sobre um tratamento sistemático desses tópicos. Nesta seção, trataremos de algumas variações
e extensões sobre formas funcionais que surgem frequentemente em trabalhos aplicados.

Um pouco mais sobre o Uso de Formas Funcionais Logarı́tmicas

O uso de logs normalmente estreita a amplitude dos valores das variáveis, em alguns casos em quantidade consi-
derável. Isso toma as estimativas menos sensı́veis a observações dı́spares (ou extremas) na variável dependente ou
nas variáveis independentes. Abordaremos a questão das observações extremas no Capı́tulo 9.
Existem algumas regras práticas padronizadas para o uso de logs, embora nenhuma definitiva. Quando a variável
é um valor monetário positivo, ele frequentemente é transformado em log. Temos visto isso para variáveis como
salários, vendas de empresas e valores de mercado das empresas. Variáveis como população, número total de em-
pregados e matrı́culas escolares frequentemente aparecem em forma logarı́tmica; elas têm a caracterı́stica comum
de serem grandes valores inteiros.
Variáveis que são medidas em anos - como educação, experiência, tempo de permanência, idade etc. - nor-
malmente aparecem em sua forma original. Uma variável que seja uma proporção ou uma percentagem - como
a taxa de desemprego, a taxa de participação em planos de aposentadoria, a taxa de estudantes aprovados em um
exame padronizado e a taxa de detenção sobre crimes registrados - pode aparecer tanto em sua forma original
como logarı́tmica, embora haja uma tendência em usá-la em forma de nı́vel. Isso se deve ao fato de que quaisquer
coeficientes de regressão envolvendo a variável original - seja ela a variável dependente ou independente - terão
uma interpretação de mudança de pontos percentuais.
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 51

No Capı́tulo 2 vimos que se temos um modelo log-nı́vel, ou seja, a variável dependente é log(y) e a independente
x, tı́nhamos que %∆ y = 100 · β1 ∆ x. Porém isso é apenas uma aproximação. Uma aproximação que só é boa para
pequenos valores de β . Felizmente, existe um cálculo simples para computar a percentagem exata de mudança. O
uso de simples propriedades algébricas das funções exponenciais e logarı́tmicas produz a percentagem exata de
mudança no y estimado como

y1 y1 β1 ∆ x
y1 y0
log = β1 ∆ x1 ⇒ = e ⇒ 100 − = 100 eβ1 ∆ x − 1 ⇒ %∆ y = 100(eβ1 ∆ x − 1).
y0 y0 y0 y0

Ou seja, para ∆ log(y) = βb∆ x temos que

h i
%∆by = 100 · exp βb∆ x − 1

Modelos com Funções Quadráticas

As funções quadráticas também são usadas com bastante frequência em economia aplicada para capturar efeitos
marginais crescentes ou decrescentes. No caso mais simples, y depende de um único fator observado x, mas de
uma forma quadrática:
y = β0 + β1 x + β2 x2 + u
É importante lembrar que β1 não mede a mudança em y em relação a x; não faz sentido manter x2 fixo quando
se altera x. Se escrevermos a equação estimada como

yb = βb0 + βb1 x + βb2 x2

teremos a aproximação
∆ yb ≈ βb1 + 2βb2 x ∆ x, e assim ∆ yb/∆ x ≈ βb1 + 2βb2 x.

Obs: derive a primeira equação em respeito a x para obter a segunda.

Em muitas aplicações, β1 é positivo, e β2 é negativo. Por exemplo, utilizando os dados de salários contidos no
arquivo WAGEI, obtemos
salarioh = 3, 73 +0, 298exper −0, 0061exper2
(0, 35) (0, 041) (0, 0009)
2
n = 526, R = 0, 093
Quando o coeficiente de x é positivo e o coeficiente de x2 é negativo, a função quadrática tem um formato
parabólico. Sempre existe um valor positivo de x, no qual o efeito de x sobre y é zero; antes desse ponto, x tem um
efeito positivo sobre y; após esse ponto, x tem um efeito negativo sobre y. Na prática, pode ser importante saber
onde fica esse ponto crı́tico. Para isso iguale ∆ y a 0 e encontramos:

x∗ = βb1 / 2βb2

Efeitos da Poluição sobre os Preços de Imóveis

Seja o modelo,
log (preco) =β0 + β1 log(oxn) + β2 log(dist) + β3 comods

+ β4 comods2 + β5 razestud + u
O modelo estimado utilizando os dados contidos no arquivo HPRICE2 é

preco) =
log(\ 13, 39 −0, 902 log(oxn) −0, 087 log(dist)
(0, 57) (0, 115) (0, 043)

−0, 545comods +0, 062comods2 −0, 48razestud

(0, 165) (0, 013) (0, 006)
n = 506, R2 = 0, 603.
52 Prof. Cleiton Guollo Taufemback

Como o coeficiente de comods é negativo e o coeficiente de comods2 é positivo, a equação literalmente

sugere que, com valores baixos de comods, um cômodo adicional tem um efeito negativo sobre log(preço).
Em algum ponto, o efeito se torna positivo, e a forma quadrática significa que a semi-elasticidade de preço
em relação a comods cresce na mesma proporção do crescimento de comods.
O valor do ponto crı́tico de comods é comods∗ = 0, 545/[2(0, 062)] ≈ 4, 4. Será que podemos acreditar
que se iniciarmos com três cômodos e aumentarmos para quatro isso efetivamente reduzirá o valor esperado
do imóvel? Provavelmente não. Acontece que somente cinco das 506 comunidades na amostra possuem
imóveis com média de 4,4 cômodos ou menos, cerca de 1% da amostragem. Isso é tão pequeno que a função
quadrática à esquerda de 4,4 pode, para fins práticos, ser ignorada.

Existem muitas outras possibilidades de usar funções quadráticas juntamente com logaritmos. Por exemplo,
seja
log(preco) =β0 + β1 log(oxn) + β2 [log(oxn)]2
+ β3 crime + β4 comods + β5 comods2 + β6 razestud + u,
podemos combinar os argumentos dos efeitos parciais nos modelos quadrático e logarı́tmico para mostrar que

%∆ preco ≈ [β1 + 2β2 log(oxn)] %∆ oxn

portanto, a elasticidade do preço em relação a oxn é β1 + 2β2 log(oxn), de forma que ela depende de log(oxn).

Modelos com Termos de Interação

Algumas vezes, é natural que o efeito parcial, a elasticidade, ou a semi-elasticidade da variável dependente, em
relação a uma variável explicativa, dependa da magnitude de outra variável explicativa. Por exemplo, no modelo

preco = β0 + β1 arquad + β2 qtdorm + β3 arquad · qtdorm + β4 banhos + u

o efeito parcial de qtdorm sobre preço (mantendo fixas todas as outras variáveis) é

∆ preco
= β2 + β3 arquad.
∆ qtdorm
Em outras palavras, existe um efeito de interação entre a área do imóvel e o número de quartos.

6.3 Um pouco mais sobre o Grau de Ajuste e a Seleção de Regressores

O R-Quadrado Ajustado

A maioria dos programas econométricos registra, juntamente com o R-quadrado, uma estatı́stica chamada R-
quadrado ajustado. Como o R-quadrado ajustado é descrito em muitos trabalhos aplicados, e como ele tem algumas
caracterı́sticas úteis, trataremos dele nesta subseção.
O R2 estima σu2 por SQR/n, que sabemos ser viesado. Então, por que não substituir SQR/n por SQR /(n − k −
1)? Além disso, podemos usar SQT /(n − 1) em lugar de SQT /n, já que o primeiro é estimador não-viesado de σy2 .
Usando esses estimadores, chegamos ao R -quadrado ajustado:

R̄2 = 1 − [SQR/(n − k − 1)]/[SQT/(n − 1)]

b 2 /[SQT/(n − 1)]
= 1−σ

b 2 = SQR/(n − k − 1).
já que σ
O R-quadrado ajustado algumas vezes é chamado de R-quadrado corrigido, mas esse não é um bom nome, pois
sugere que R2 é de alguma forma melhor que R2 como um estimador do R -quadrado da população. Infelizmente,
R̄2 não é reconhecido, de forma geral, como un melhor estimador. É tentador imaginar que R̄2 corrige o viés de R2
na estimativa do R -quadrado da população, mas ele não faz isso: a razão de dois estimadores não-viesados não é
um estimador não-viesado.
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 53

O ponto mais atraente do R̄2 é que ele impõe uma penalidade à inclusão de variáveis independentes adicionais
em um modelo. Sabemos que R2 nunca pode diminuir quando uma nova variável independente eb incluı́da em uma
equação de regressão: isso ocorre porque SQR nunca aumenta (e normalmente diminui quando novas variáveis
independentes são adicionadas. Mas a fórmula do R̄2 mostra que ele depende explicitamente de k, o número
de variáveis independentes. Se uma variável independente for adicionada a uma regressão, SQR diminui, mas o
mesmo acontece com os gl na regressão, n − k − 1. Portanto, SQR/(n − k − 1) pode aumentar ou diminuir quando
uma nova variável independente é adicionada a uma regressão.
Um fato algébrico interessante é o seguinte: se adicionarmos uma nova variável independente a uma equação de
regressão, R̄2 aumenta se, e somente se, a estatı́stica t da nova variável for maior que um em valor absoluto. (Uma
extensão disto é que R̄2 aumenta quando um grupo de variáveis é adicionado a uma regressão se, e somente se, a
estatı́stica F da significância conjunta das novas variáveis for maior que a unidade.) Assim, vemos imediatamente
que usar o R̄2 para decidir se determinada variável independente (ou conjunto de variáveis) pertence a um modelo
nos fornece uma resposta diferente daquelas fornecidas pelos testes usuais t ou F (já que uma estatı́stica t ou F
igual à unidade não é estatisticamente significante aos nı́veis tradicionais de significância).
Algumas vezes é útil termos uma fórmula do R̄2 em termos de R2 . A álgebra simples mostra que

R̄2 = 1 − 1 − R2 (n − 1)/(n − k − 1)

O Uso do R-quadrado Ajustado para a Escolha entre Modelos Não-Aninhados

Seja lzrunano e rebrunano duas variáveis altamente correlacionadas, de modo que podemos querer optar entre os
modelos
log(salario) = β0 + β1 anos + β2 jogosano + β3 rebmed + β4 lzrunano + u
e
log(salario) = β0 + β1 anos + β2 jogosano + β3 rebmed + β4 rebrunano + u .
Esses dois exemplos são modelos não-aninhados, pois nenhuma equação é um caso especial da outra. A
estatı́stica F, que estudamos no Capı́tulo 4, nos permite testar somente modelos aninhados: um modelo (o modelo
restrito) é um caso especial do outro modelo (o modelo sem restrições).
Na regressão dos salários dos jogadores de beisebol, o R̄2 da regressão contendo lzrunano é 0,6211 e o R̄2 da
regressão contendo rebrunano é 0,6226. Portanto, com base no R-quadrado ajustado, existe uma preferência muito
pequena para o modelo com rebrunano.

6.4 Previsão e Análise de Resı́duos

As previsões certamente são úteis, mas estão sujeitas à variação amostral, já que elas são obtidas com o uso dos
estimadores MQO. Assim, nesta seção, mostramos como obter intervalos de confiança de previsões da linha de
regressão MQO.

Intervalos de Confiança de Previsões

Suponha que tenhamos estimado a equação

yb = βb0 + βb1 x1 + βb2 x2 + . . . + βbk xk

Quando inserimos valores especı́ficos das variáveis independentes nessa equação, obtemos uma previsão de y, que é
uma estimativa do valor esperado de y, dados os valores especı́ficos das variáveis explicativas. Para enfatizar, sejam
c1 , c2 , . . . , ck valores particulares de cada uma das k variáveis independentes; elas poderão ou não corresponder a
um ponto efetivo dos dados em nossa amostra. O parâmetro que gostarı́amos de estimar é

θ0 = β0 + β1 c1 + β2 c2 + . . . + βk ck
= E (y|x1 = c1 , x2 = c2 , . . . , xk = ck )

O estimador de θ0 é
θb0 = βb0 + βb1 c1 + βb2 c2 + . . . + βbk ck
54 Prof. Cleiton Guollo Taufemback

Mas qual o intervalo de confiança de θb0 ? Escreva β0 = θ0 − β1 c1 − . . . − βk ck , logo

y = θ0 + β1 (x1 − c1 ) + β2 (x2 − c2 ) + . . . + βk (xk − ck ) + u (6.3)

O valor previsto por θb0 e, mais importante, seu erro-padrão, são obtidos do intercepto (ou constante) na regressão
(6.3).

(Intervalo de Confiança de nmgrad Previsto)

Utilizando os dados contidos no arquivo GPA2, obtemos a seguinte equação para prever nmgrad:

grad = 1, 493
nmb +0, 00149sat −0, 01386emperc
(0, 075) (0, 00007) (0, 00056)
−0, 06088tamclas +0, 00546tamclas2
(0, 1650) (0, 00227)
n = 4.137, R2 = 0, 278, R̄2 = 0, 277, σb = 0, 560

Qual a previsão, e o intervalo de confiança, de nmgrad quando sat = 1.200, emperc = 30 e tamclas = 5?
Defina sat0 = sat −1.200, emperc0 = emperc−30, tamclas0 = tamclas−5 e tamclasquad0 = tamclas2 −25.
Quando fazemos a regressão de nmgrad sobre essas novas variáveis independentes, obtemos

grad = 2, 700
nmb +0, 00149sat 0 −0, 01386emperc0
(0, 020) (0, 00007) (0, 00056)
−0, 06088tamclas0 +0, 00546tamcla20
(0, 1650) (0, 00227)
n = 4.137, R2 = 0, 278, R̄2 = 0, 277, σ
b = 0, 560

A única diferença entre a primeira e a segunda regressão é o intercepto, que é a previsão que queremos,
juntamente com seu erro-padrão, 0,020. Não é por acidente que os coeficientes de inclinação, seus erros-
padrão, R-quadrado etc. são os mesmos de antes; esse fato fornece uma maneira de verificarmos se foram
feitas as transformações adequadas. Podemos construir com facilidade um intervalo de confiança de 95% da
nota média esperada:
IC(θ0 , 95%) = 2, 70 ± 1, 96(0, 020), ou [2, 66, 2, 74].

Entretanto, um intervalo de confiança da média pessoal na subpopulação não é a mesma coisa que um intervalo
de confiança de uma unidade particular (indivı́duo, famı́lia, empresa etc.) da população. Na formação de um inter-
valo de confiança de um resultado desconhecido de y, devemos avaliar outra fonte muito importante de variação:
a variância no erro não observado, que registra nosso desconhecimento dos fatores não observados que afetam y.
Seja y0 o valor para o qual gostarı́amos de construir um intervalo de confiança, que algumas vezes chamamos de
intervalo de previsão. Por exemplo, y0 poderia representar uma pessoa ou uma empresa que não esteja em nossa
amostra original. Façamos x10 . . . , xk0 serem os novos valores das variáveis independentes, que assumimos observar,
e u0 ser o erro não observado. Portanto, temos

y0 = β0 + β1 x10 + β2 x20 + . . . + βk xk0 + u0 .

Como antes, nossa melhor previsão de y0 é o valor esperado de y0 , dadas as variáveis explicativas que estimamos
da linha de regressão MQO: yb0 = βb0 + βb1 x10 + βb2 x20 + . . . + βbk xk0 . O erro de previsão com o uso de yb0 para prever y0
é
eb0 = y0 − yb0 = β0 + β1 x10 + . . . + βk xk0 + u0 − yb0

A variância do erro de previsão (condicional a todos os valores das variáveis independentes incluı́das na amos-
tra) é a soma das variâncias:
Var eb0 = Var yb0 + Var u0 = Var yb0 + σ 2

onde σ 2 = Var u0 é a variância do erro. Note que u0 é não-correlacionado com cada βb, porque u0 é não correla-

cionado com os erros na amostra usada para a obtenção de βbj . Com o uso desses estimadores, podemos definir o
erro-padrão de eb0 como
n 2 o1/2
ep eb0 = ep yb0 + σ b2
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 55

e obtemos um intervalo de previsão de 95% para y0 :

IC(y0 , 95%) = yb0 ± t0,025 · ep eb0

(Intervalo de Confiança de nmgrad Previsto, Ex. 6.5)

Utilizando os dados contidos no arquivo GPA2, obtemos a seguinte equação para prever nmgrad:

grad =
nmb 1, 493 +0, 00149sat −0, 01386 emperc
(0, 075) (0, 00007) (0, 00056)
−0, 06088tamclas +0, 00546 tamclas 2
(0, 1650) (0, 00227)
n = 4.137, R2 = 0, 278, R̄2 = 0, 277, σ
b = 0, 560,

onde apresentamos as estimativas com várias casas decimais para reduzir o erro de arredondamento. Qual
a previsão de nmgrad quando sat = 1.200, emperc = 30 e tamclas = 5 (o que significaria 500 )? Isso é
fácil de ser obtido, incorporando esses valores na equação acima: nmgiad = 2, 70 (arredondado para duas
casas decimais). Definindo um novo conjunto de variáveis independentes: sat0 = sat − 1.200 , emperc0 =
emperc − 30, tamclas0 = tamclas − 5 e tamclasquad0 = tamclas2 − 25. Quando fazemos a regressão de
nmgrad sobre essas novas variáveis independentes, obtemos

grad =
nmb 2, 700 +0, 00149sat 0 −0, 01386emperc0
(0, 020) (0, 00007) (0, 00056)
−0, 06088tamclas0 +0, 00546tamclasquad 0
(0, 1650) (0, 00227)
n = 4.137, R2 = 0, 278, R̄2 = 0, 277, σ
b = 0, 560
A única diferença entre esta regressão e a anterior é o intercepto, que é a previsão que queremos, junta-
mente com seu erro-padrão, 0, 020. Não é por acidente que os coeficientes de inclinação, seus erros-padrão,
R-quadrado etc, são os mesmos de antes; esse fato fornece uma maneira de verificarmos se foram feitas
as transformações adequadas. Podemos construir com facilidade um intervalo de confiança de 95% da nota
média esperada: 2, 70 ± 1, 96(0, 020) ou em torno de 2,66 a 2, 74. Este intervalo de confiança é suficiente-
mente estreito devido ao tamanho bastante grande da amostra.

(Intervalo de Confiança de Notas Médias Futuras, Ex. 6.6)

Suponha que desejamos um IC de 95% de nmgrad futuro de um aluno do ensino médio com sat = 1.200,
emperc = 30 e tamclas = 5. No Exemplo anterior obtivemos um intervalo de confiança de 95% da média
da nota média entre todos os alunos com as caracterı́sticas particulares sat = 1.200, emperc = 30 e tamclas
= 5. Agora, queremos um intervalo de confiança de 95% de qualquer aluno que especificamente tenha essas
caracterı́sticas. O intervalo de previsão de 95% deve registrar a variação na caracterı́stica individual, não-
observada, que afeta o desempenho universitário. Temos tudo que é preciso para obter um IC de nmgrad.
1/2
y0 = 0, 020 eσb = 0, 560 e, portanto, de (6, 36), ep eb0 = (0, 020)2 + (0, 560)2

Sabemos que ep b ≈
0 0
0, 560. Observe o quanto ep yb é pequeno em relação a σ : virtualmente, toda a variação em eb vem da
b
variação em u0 . O IC de 95% é 2, 70 ± 1, 96(0, 560) ou está entre 1,60 e 3, 80. Este é um intervalo de
confiança enorme, e mostra que, com base nos fatores que incluı́mos na regressão, não podemos definir com
clareza a futura nota de graduação de determinado individuo. (Em certo sentido, isso é bom, por significar
que a classificação no curso médio e o desempenho no teste de aptidão acadêmica não predeterminam o
desempenho de alguém na faculdade.) Evidentemente, as caracterı́sticas não observadas variam amplamente
de um indivı́duo para o outro com as mesmas notas no teste de aptidão acadêmica e na classificação no curso
médio observadas.

Previsão de y quando a Variável Dependente é log(y)

Dados os estimadores MQO, sabemos como prever log(y) para qualquer valor das variáveis independentes:
56 Prof. Cleiton Guollo Taufemback

log(y)
c = βb0 + βb1 x1 + βb2 x2 + . . . + βbk xk

Agora, como o exponencial desfaz o log, nossa primeira suposição para prever y é simplesmente exponenciar o
valor previsto de log(y) : yb = elog yb. Isso não funciona; aliás, isso sistematicamente subestimará o valor esperado de
y. De fato, se o modelo obedecer às hipóteses do modelo linear clássico RLM. l até RLM.6, pode ser demonstrado
que
E(y|x) = exp σ 2 /2 · exp (β0 + β1 x1 + β2 x2 + . . . + βk xk )

onde x representa as variáveis independentes e σ 2 é a variância de u. [ Se u ∼ Normal 0, σ 2 , o valor esperado de

exp(u) será exp( σ 2 /2 ) ]. Esta equação mostra que um ajuste simples é necessário para prevermos y :

b 2 /2 exp(log(y))

yb = exp σ c (6.4)

A previsão em (6.4) não é não-viesada, mas consistente. Não existem previsões não-viesadas de y, mas em
muitos casos (6.4) funciona bem. Porém, ela depende da normalidade do termo erro, u. Portanto, é vantajoso ter
uma previsão que não dependa da normalidade. Se simplesmente assumirmos que u é independente das variáveis
explicativas, teremos
E(y|x) = α0 exp (β0 + β1 x1 + β2 x2 + . . . + βk xk )
onde α0 é o valor esperado de exp(u), que deve ser maior que a unidade. Dada uma estimativa de α0 , podemos
prever y como
yb = α
b0 exp(log(y)).
c

Logo, para obtermos α

b0 temos:
(i) Obtenha os valores estimados log(y),
c da regressão
de log(y) sobre x1 , . . . , xk ;
b i = exp log(y)
(ii) Para cada observação i, crie m c ;
(iii) Agora, faça a regressão de y sobre a variável única m
b sem um intercepto; isto é, faça uma regressão simples
passando pela origem. O coeficiente de m, b o único coeficiente que existe, a estimativa de α0 .
O resultado é que um estimador consistente de α
b0 , porém viesado.

(Consistente vs Viesado)

É possı́vel termos estimadores consistentes porém viesados, como visto anteriormente, e vice-versa. O
viés é a diferença entre o valor esperado e o valor que gostarı́amos de obter. Se a diferença for 0, dizemos
que o estimador não é viesado. Algo é consistente se quando o número de observações vai ao infinito, nós
obtemos o valor desejado mesmo que o estimador não se aproxime do valor verdadeiro até n for muito
grande.
Em geral se algo é consistente, também é não-viesado. Um exemplo simples de algo consistente mas
viesado é o estimador de variância dado por

1 n 2
σ̃ 2 = ∑ (Xi − X̄)
n i=1

n−1 2
o valor esperado de σ̃ 2 é E σ̃ 2 =

n σ . Mas quando n vai ao infinito temos que

n→∞ 1
σ̃ 2 = σ 2 − σ 2 = σ 2 + ( algo que tende a 0)
n
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 57

7 Análise de Regressão Múltipla com Informações Qualitativas:Variáveis Binárias (ou

Dummy)

Nos capı́tulos anteriores, as variáveis dependentes e independentes em nossos modelos de regressão múltipla ti-
nham significado quantitativo. No trabalho empı́rico também devemos incorporar fatores qualitativos nos modelos
de regressão. O sexo ou raça de um indivı́duo, o ramo de atividade de uma empresa (fabricante, varejista, etc.) e a
região onde uma cidade está localizada (sul, norte, oeste etc.) são todos considerados fatores qualitativos.

7.1 A Descrição das Informações Qualitativas

Fatores qualitativos frequentemente aparecem na forma de informação binária: uma pessoa é do sexo feminino ou
masculino; alguém possui ou não um computador pessoal, etc. Em todos esses exemplos, a informação relevante
pode ser capturada pela definição de uma variável binária (também chamada de dummy) ou uma variável zero-um.
Ao definirmos uma variável dummy, precisamos decidir a qual evento será atribuı́do o valor um e a qual será
atribuı́do o valor zero. Mas por que usamos os valores 0 e 1 para descrever informações qualitativas? Em certo
sentido, esses valores são arbitrários: quaisquer dois valores diferentes serviriam. O benefı́cio real de capturar
informação qualitativa usando variáveis zero-um é que elas levam a modelos de regressão nos quais os parâmetros
têm interpretações bastante naturais, como veremos agora.
A tabela a seguir fornece uma listagem parcial de um possı́vel conjunto de dados sobre salários:

pessoa salário educ exper feminino casado

1 3.10 11 2 1 0
2 3.24 12 22 1 1
3 3.00 12 2 0 0
4 6.00 8 44 0 1
5 5.30 12 7 0 1
. . . . . .
. . . . . .
525 11.56 16 5 0 1
526 3.50 14 5 1 0

Vemos que a Pessoa 1 é do sexo feminino e não é casada, a Pessoa 2 é do sexo feminino e é casada, a Pessoa 3
é do sexo masculino e não é casada, e assim por diante.

7.2 Uma Única Variável Dummy Independente

Por exemplo, considere o seguinte modelo simples de determinação de salários por hora:

salarioh = β0 + δ0 f eminino + β1 educ + u (7.1)

No modelo (7.1), somente dois fatores observados afetam os salários: gênero e educação. Com feminino = 1
quando a pessoa é mulher e feminino = 0 quando a pessoa é homem, o parâmetro δ0 tem a seguinte interpretação:
δ0 é a diferença no salário por hora entre mulheres e homens, dado o mesmo grau de educação (e o mesmo termo
erro u).
Mas como incorporamos informações binárias em modelos de regressão? No caso mais simples, com somente
uma variável dummy explicativa, simplesmente adicionamos a variável à equação como uma variável indepen-
dente, como foi feito no modelo acima. A situação pode ser descrita graficamente como um deslocamento de
intercepto entre as linhas que representam homens e mulheres. A diferença não depende do nı́vel de educação, e
isso explica a razão de os perfis salário-educação das mulheres e dos homens serem paralelos.
58 Prof. Cleiton Guollo Taufemback

Figura 7 Gráfico de salarioh = β0 + δ0 f eminino + β1 educ para δ0 ¡ 0.

Exemplo 7.1 (Equação dos Salários por Hora)

salarioh = −1, 57 −1, 81 f eminino +0, 572 educ

(0, 72) (0, 26) (0, 049)
+0, 025exper +0, 141perm
(0, 012) (0, 021)
n = 526, R2 = 0, 364
O intercepto negativo - para os homens, neste caso - não é muito significativo, já que ninguém na amostra
tem anos de educ, exper e perm próximos de zero. O coeficiente de feminino é interessante pois registra
a diferença média no salário por hora entre uma mulher e um homem, dados os mesmos nı́veis de educ,
exper e perm. Se compararmos uma mulher e um homem com os mesmos nı́veis de educação, experiência e
permanência, a mulher ganha, em média, 1.81 dólares por hora a menos que o homem.

salarioh = 7, 10 −2, 51 f eminino

(0, 21) (0, 30)
n = 526, R2 = 0, 116

Os coeficientes acima têm uma interpretação simples. O intercepto é o salário-hora médio dos homens na
amostra ( f eminino = 0), de modo que os homens ganham, em média, 7.1 dólares por hora. O coeficiente de
feminino é a diferença no salário médio entre homens e mulheres. Assim, o salário médio das mulheres, na
amostra, é 7.10 - 2.51 = 4.59, ou 4.59 dólares por hora.
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 59

A Interpretação dos Coeficientes de Variáveis Dummy Explicativas quando a Variável Dependente é

Expressa como log(y)

De forma geral, se βb1 for o coeficiente de uma variável dummy, digamos, x1 , quando log(y) é a variável dependente,
a diferença percentual exata em y, %∆by, previsto quando x1 = 1 versus quando x1 = 0 é

100 · [exp(βb1 ) − 1].

O coeficiente βb1 estimado pode ser positivo ou negativo, e é importante preservar seu sinal ao computar.

7.3 Variáveis Dummy para Categorias Múltiplas

Podemos usar diversas variáveis dummy independentes na mesma equação. Por exemplo, estimemos um modelo
que considere diferenças salariais entre quatro grupos: homens casados, mulheres casadas, homens solteiros e
mulheres solteiras.
Para fazermos isso temos que selecionar um grupo base; escolhemos homens solteiros. Então, devemos defi-
nir as variáveis dummy para cada um dos demais grupos. Vamos chamá-los hcasados, mcasadas e msolteiras.
Colocando essas três variáveis na equação (e eliminando f eminino, já que agora ela é redundante) temos que:

Exemplo 7.6 (Equação do Log do Salário-Hora)

ario) =
log(salb 0, 321 −0, 213hcasados −0.198mcasadas +0, 017msolteiras
(0, 100) (0, 055) (0, 058) (0, 056)
+0, 079educ +0, 027exper −0, 00054perm +0, 029exper2
(0, 007) (0, 005) (0, 00011) (0, 007)
+0, 00053perm2
(0, 00023)

n = 526, R2 = 0, 461
Todos os coeficientes, exceto o de msolteiras, têm estatı́sticas t bem acima de dois, em valores absolutos.
A estatı́stica t de msolteiras está em torno de −1, 96, que é significante apenas ao nı́vel de 5% contra uma
alternativa bilateral. Para interpretar os coeficientes das variáveis dummy, devemos nos lembrar de que o
grupo base é o de homens solteiros.
Assim, as estimativas das três variáveis dummy medem a diferença proporcional nos salários relativamente
aos homens solteiros. Por exemplo, estima-se que os homens casados ganhem cerca de 21,3% mais que os
homens solteiros, mantendo fixas educação, experiência e permanência. Uma mulher casada, no entanto,
deve ganhar 19,8% menos que um homem solteiro com os mesmos nı́veis das outras variáveis

O exemplo anterior ilustra um princı́pio geral para a inclusão de variáveis dummy que indicam grupos diferentes:
se o modelo de regressão deve ter diferentes interceptos para, digamos, g grupos ou categorias, precisamos incluir
g − 1 variáveis dummy no modelo, juntamente com um intercepto. O intercepto do grupo base é o intercepto global
no modelo, e o coeficiente da variável dummy de um determinado grupo representa a diferença estimada nos
interceptos entre aquele grupo e o grupo base. A inclusão de g variáveis dummy juntamente com um intercepto
resultará na armadilha da variável dummy. Uma alternativa é incluir g variáveis dummy e excluir um intercepto
global. Isso não é recomendável, pois o teste de diferenças relativas a um grupo base se tornará difı́cil, e alguns
programas de regressão alteram a maneira como o R2 é computado quando a regressão não contém um intercepto.

Obs: ao incluir as g variáveis dummy teremos multicolinearidade perfeita entre o intercepto e a soma das g
dummies.
60 Prof. Cleiton Guollo Taufemback

Incorporação de Informações Ordinais com o Uso de Variáveis Dummy

Suponha que gostarı́amos de estimar o efeito do risco de crédito das cidades sobre as taxas de juros dos tı́tulos
públicos municipais (T PM). Suponha ainda que a classificação varie de zero a quatro, na qual zero é o pior risco
de crédito e quatro, o melhor. Este é um exemplo de uma variável ordinal, a qual chamaremos de CR.

T PM = β0 + β1CR + outros f atores,

onde deliberadamente não mostramos quais são os outros fatores. Neste caso, β1 é a mudança em pontos percen-
tuais em T PM quando CR aumenta uma unidade, mantendo fixos todos os outros fatores. Infelizmente, é bastante
difı́cil interpretar um aumento de uma unidade em CR. Sabemos o significado quantitativo de mais um ano de
educação, ou de um dólar a mais gasto por aluno, mas fatores como risco de crédito, em geral, têm apenas signifi-
cado ordinal. Sabemos que um CR igual a quatro é melhor que um CR igual a três, mas será que a diferença entre
quatro e três é a mesma que a diferença entre um e zero? Se não, não fará sentido assumir que um aumento de uma
unidade em CR terá um efeito constante sobre T PM.
Uma abordagem melhor que podemos implementar - pois CR assume relativamente poucos valores - é definir
variáveis dummy para cada valor de CR. Assim, definimos CR1 = 1 se CR = 1, e, caso contrário, CR1 = 0, CR2 = 1
se CR = 2 e, caso contrário, CR2 = 0, e assim por [Link] realidade, levamos em conta o risco de crédito e o
transformamos em cinco categorias. Desta forma podemos estimar o seguinte modelo:

T PM = β0 + δ1CR1 + δ2CR2 + δ3CR3 + δ4CR4 + outros f atores.

Seguimos nossa regra sobre inclusão de variáveis dummy em um modelo, incluindo quatro, já que temos
cinco categorias. Omitiu-se a categoria risco de crédito zero, pois ela é o grupo base. Os coeficientes são de fácil
interpretação: δ1 é a diferença em T PM entre uma cidade com risco de crédito um e outra com risco de crédito
zero: δ2 é a diferença em T PM entre uma cidade com um risco de crédito dois e outra com risco de crédito zero; e
assim por diante.

7.4 Interações envolvendo Variáveis Dummy

Assim como as variáveis com significados quantitativos podem interagir em modelos de regressão, as variáveis
dummy também podem. Vimos uma ilustração disso no Exemplo (7.6), no qual definimos quatro categorias com
base em estado civil e gênero. Podemos reformular aquele modelo adicionando um termo de interação entre femi-
nino e casado, onde essas variáveis apareçam separadamente. Isso possibilita que o prêmio por ser casado dependa
do gênero. Com o propósito de comparação, o modelo estimado com o termo de interação feminino-casado é:

ario) = 0, 321 −0, 110 f eminino +0, 213casado

log (salb
(0, 100) (0, 056) (0, 055)
+0, 301 f eminino · casado + ...
(0, 072)
onde o restante da regressão será necessariamente idêntico ao Exemplo (7.6). A equação acima mostra que existe
uma interação estatisticamente significante entre gênero e estado civil. Este modelo também permite obter o di-
ferencial estimado de salários entre todos os quatro grupos, mas aqui devemos ter o cuidado de inserir a correta
combinação de valores zero e um.
A definição f eminino = 0 e casado = 0 corresponde ao grupo de homens solteiros, que é o grupo base, já que
isso elimina f eminino, casado, e f eminino · casado. Podemos encontrar o intercepto de homens casados definindo
f eminino = 0 e casado = 1 na regressão; isso produz um intercepto de 0, 321 + 0, 213 = 0, 534, e assim por diante.

Verificação de Diferenças nas Funções de Regressão entre Grupos

Suponha que queiramos testar se o mesmo modelo de regressão descreve a nota média no curso superior de atletas
universitários masculinos e femininos. A equação é

nmgradac = β0 + β1 sat + β2 emperc + β3tothrs + u

Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 61

onde sat é a nota obtida no exame de ingresso em curso superior, emperc é o percentil da classificação no ensino
médio, e totlzrs é o total de horas do curso superior. Se, agora, estivermos interessados em verificar se existe
qualquer diferença entre homens e mulheres, então devemos admitir um modelo no qual o intercepto e todas as
inclinações possam ser diferentes entre os grupos:

nmgradac = β0 + δ0 feminino + β1 sat + δ1 feminino · sat + β2 emperc

+δ2 feminino · emperc + β3 tothrs + δ3 feminino · tothrs + u.

O parâmetro δ0 é a diferença nos interceptos entre mulheres e homens, δ1 é a diferença de inclinações em

relação a sat entre mulheres e homens, e assim por diante. A hipótese nula de que nmgradac segue o mesmo
modelo para homens e mulheres é escrita como

H0 : δ0 = 0, δ1 = 0, δ2 = 0, δ3 = 0

No modelo geral com k variáveis explicativas e um intercepto, suponha que temos dois grupos, que chamaremos
de g = 1 e g = 2.
y = βg,0 + βg,1 x1 + βg,2 x2 + ... + βg,k xk + u
para g = 1 e g = 2. A hipótese de que cada beta é o mesmo nos dois grupos envolve k + 1 restrições (no exemplo
de nmgradac, k + 1 = 4). O modelo sem restrições, que pode ser entendido como tendo uma variável dummy de
grupo e k termos de interação, além do intercepto e das próprias variáveis, tem n − 2(k + 1) graus de liberdade.
A percepção básica é que a soma dos resı́duos quadrados do modelo sem restrições pode ser obtida de duas
regressões separadas, uma para cada grupo. Seja SQR1 a soma dos resı́duos quadrados obtida ao estimar para o
primeiro grupo; isso envolve n1 observações (ex.: apenas mulheres).Seja SQR2 a soma dos resı́duos quadrados
obtida ao estimar o modelo usando o segundo grupo com n2 observações (ex.: apenas homens). Agora, a soma
dos resı́duos quadrados do modelo sem restrições é simplesmente SQRir = SQR1 + SQR2 . A soma dos resı́duos
quadrados restrita é somente a SQR do agrupamento dos grupos (ex.: sem restrição se é homem ou mulher) e da
estimativa de uma única equação, digamos SQR p .
Uma vez calculados esses termos, computamos a estatı́stica F da forma habitual:

[SQR p − (SQR1 + SQR2 )] [n − 2(k + 1)]

F= ·
(SQR1 + SQR2 ) k+1

onde n é o número total de observações e é distribuı́da como Fk+1,n−2(k+1) Esta estatı́stica F especı́fica é usualmente
chamada em econometria de estatı́stica de Chow. Como o teste de Chow é apenas um teste F, ele só é válido sob
homoscedasticidade. Em particular, sob a hipótese nula, as variâncias dos erros dos dois grupos devem ser iguais.
Para aplicarmos a estatı́stica de Chow no exemplo de nmgradac, precisamos da SQR da regressão que reuniu os
grupos: ela é SQR p = 85, 515. A SQR das 90 mulheres na amostra é SQR1 = 19, 603 e a SQR dos homens é SQR2 =
58, 752. Portanto, SQRir = 19, 603 + 58, 752 = 78, 355. A estatı́stica F é [(85, 515 − 78, 355)/78, 355)(358/4) ≈
8, 18. Com um valor crı́tico de 2,40, usando um F4,358 e α = 0, 05, nós rejeitamos H0 de que não há diferenças
entre homens e mulheres nas notas média no curso superior de atletas universitários, nmgradac.
62 Prof. Cleiton Guollo Taufemback
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 63

8 Heteroscedasticidade

Resumo organizado por Helen Benaduce.

A hipótese de homoscedasticidade, apresentada no Capı́tulo 3 para a regressão múltipla, significa que a variância
do erro não observável, u, condicional nas variáveis explicativas, é constante. Por exemplo, em uma equação de
poupança, a heteroscedasticidade está presente se a variância dos fatores não-observados que afetam a poupança
aumenta com a renda.
Nos Capı́tulos 4 e 5, vimos que a homoscedasticidade é necessária para justificar os habituais testes t e F,
bem como os intervalos de confiança da estimação MQO do modelo de regressão linear, mesmo com amostras de
tamanhos grandes.

8.1 Consequências da heterocedasticidade para o método MQO

Considere o modelo de regressão linear múltipla:

y = β0 + β2 x2 + . . . + βk xk + u.
No Capı́tulo 3, provamos a inexistência de viés dos estimadores de MQO βb0 , βb1 , βb2 , . . . , βbk sob as quatro pri-
meiras hipóteses de Gauss-Markov, RLM.l a RLM.4. A hipótese de homoscedasticidade RLM.5, estabelecida em
termos da variância do erro como Var(u|x1 , x2 , . . . , xk ) = σ 2 , não é usada para mostrar se os estimadores MQO são
não-viesados ou consistentes. É importante lembrar que a heteroscedasticidade não provoca viés ou inconsistência
nos estimadores MQO de β j enquanto algo como a omissão de uma variável importante teria esse efeito.
A interpretação de medidas dos graus-de-ajuste, R2 e R̄2 , também não é afetada pela presença de heteroscedas-
ticidade. Lembre-se de que na Seção 6.3 temos a construção dessas medidas e concluı́mos que ambos estimadores
são consistentes do R-quadrado da população mantendo-se ou não a hipótese de homoscedasticidade.

Se a heteroscedasticidade não provoca viés ou inconsistência nos estimadores MQO, por que a
introduzimos como uma das hipóteses de Gauss-Markov?

Os estimadores de variâncias, Var(βbj ), são viesados sem a hipótese de homocedasticidade, vimos isto no Capı́tulo
3. Como os erros-padrão dos estimadores MQO são baseados diretamente nessas variâncias, eles não mais são
válidos para construirmos intervalos de confiança e estatı́sticas t. De maneira semelhante, as estatı́sticas F não têm
distribuição F, e a estatı́stica LM não tem uma distribuição qui-quadrado, χ 2 , assimptótica. Ou seja,as estatı́sticas
que usamos para testar hipóteses sob as hipóteses de Gauss-Markov não são válidas na presença de heteroscedas-
ticidade.
Também sabemos que o teorema de Gauss-Markov, que diz que os estimadores MQO são os melhores estima-
dores lineares não-viesados (BLUE). Se Var(u|x) não for constante, os estimadores MQO não mais serão BLUE.

8.2 Inferência robusta em relação à heteroscedasticidade após a estimação MQO

Nas últimas duas décadas, os econometristas aprenderam como ajustar erros-padrão, estatı́sticas t, F e LM de forma
a torná-las válidas na presença de heteroscedasticidade de forma desconhecida. Isto é muito conveniente, pois sig-
nifica que podemos descrever novas estatı́sticas que funcionam independentemente do tipo de heteroscedasticidade
presente na população.
Diremos que um procedimento é robusto em relação à heterocedasticidade quando esse procedimento for
válido, pelo menos em amostras grandes, tendo Var(u|x) constante ou não, e não precisando saber qual caso
estamos tratando.
Primeiro, considere o modelo com uma única variável independente, na qual incluı́mos um subscrito i por
ênfase:
yi = β0 + β1 xi + ui .
Assumimos que as primeiras quatro hipóteses de Gauss-Markov se sustentam. Se os erros contiverem heteros-
cedasticidade, então
64 Prof. Cleiton Guollo Taufemback

Var(ui |xi ) = σi2

onde colocamos o subscrito i em σ 2 para indicar que a variância do erro depende do valor particular de xi .
Escreva o estimador MQO como
∑n (xi − x̄) ui
βb1 = β1 + i=1 2
∑ni=1 (xi − x̄)

Sob as hipóteses RLM.1 a RLM.4 (isto é, sem a hipótese de homoscedasticidade), e condicionado aos valores de
xi na amostra, podemos usar os mesmos argumentos do Capı́tulo 2 para mostrar que

2
∑n (xi − x̄) σi2

Var βb1 = i=1 (8.1)
SQT2x

onde SQTx = ∑ni=1 (xi − x̄)2 é a soma dos quadrados total de xi . Quando σi2 = σ 2 para todo i, essa fórmula se reduz
à forma habitual, σ 2 / SQTx . Porém, observando a Equação 8.1, a fórmula de variância derivada sob homoscedas-
ticidade não mais é válida quando a heteroscedasticidade está presente.
White (1980) mostrou como estimar a equação (8.1) quando a heterocedasticidade está presente. Façamos ubi
representar os resı́duos MQO da regressão inicial de y sobre x. Então, um estimador válido de Var(βb1 ), para a
heteroscedasticidade de qualquer forma (inclusive homoscedasticidade), é
2
∑ni=1 (xi − x̄) ub2i
(8.2)
SQT2x
que é facilmente calculado após a regressão MQO.
Em que sentido a expressão 8.2 é um estimador válido de Var(βb1 )? Pode-se mostrar que quando a expressão
(8.2) é multiplicada pelo tamanho da amostra, n, ela converge em probabilidade para E[(xi − µx )2 u2i ]/(σx2 )2 , que
é o limite de probabilidade de n vezes (8.1). Em última análise, isso é o necessário para justificar o uso de erros-
padrão para construir intervalos de confiança e estatı́sticas t. A lei dos grandes números e o teorema do limite
central desempenham papéis importantes no estabelecimento dessas convergências.
Uma fórmula semelhante funciona no modelo geral de regressão múltipla

y = β0 + β1 x1 + . . . + βk xk + u,

Pode ser mostrado que um estimador válido de Var(βbj ), sob as hipóteses RLM.1 a RLM.4, é
∑n b 2 b2
i=1 ri j u i
Var βbj = 2
(8.3)
SQR j

onde b ri j representa o i-ésimo resı́duo da regressão de x j sobre todas as outras variáveis independentes, e SQR j
é a soma dos resı́duos quadrados dessa regressão. A raiz quadrada de (8.3) é chamada de erro-padrão robusto
em relação à heteroscedasticidade de βbj · Em econometria, esses erros-padrão robustos são em geral atribuı́dos a
White (1980).
Algumas vezes, como uma correção de graus de liberdade, a Equação 8.3 é multiplicada por n/(n − k − 1)
antes de extrairmos a raiz quadrada. O raciocı́nio para esse ajuste é que, se os resı́duos quadrados MQO ub2i fossem
os mesmos para todas as observações i - a forma mais forte possı́vel de homoscedasticidade em uma amostra -
obterı́amos os erros-padrão habituais MQO.
Uma vez que os erros-padrão robustos em relação à heteroscedasticidade tenham sido obtidos, é fácil construir
uma estatı́stica t robusta em relação à heteroscedasticidade. Lembre-se de que a forma geral da estatı́stica t é

(estimativa − valor hipotético)

trobusto =
erro-padrão robusto

Como ainda estamos usando as estimativas MQO e escolhemos o valor hipotético antecipadamente, a única
diferença entre a estatı́stica t usual de MQO e a estatı́stica t robusta em relação à heteroscedasticidade é como o
erro-padrão é calculado.
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 65

Exemplo: Equação do Log dos Salários com Erros-Padrão Robustos em Relação à Heterocedasti-
cidade

Suponha que

\ =
log(salario) 0, 321 +0, 213hcasados −0, 198mcasadas −0, 110msolteiras
(0, 100) (0, 055) (0, 058) (0, 056)
[0, 109] [0, 057] [0, 058] [0, 057]
+0, 0789educ +0, 0268exper −0, 00054exper2
(0, 0067) (0, 0055) (0, 00011)
[0, 0074] [0, 0051] [0, 00011]
+0, 0291perm −0, 00053perm2
(0, 0068) (0, 00023)
[0, 0069] [0, 00024]
n = 526, R2 = 0, 461
Os erros-padrão usuais de MQO estão entre parênteses, ( ), abaixo das estimativas MQO correspondentes,
e os erros-padrão robustos em relação à heteroscedasticidade estão entre colchetes, [ ]. Os números entre
colchetes são as únicas novidades, já que a equação ainda é estimada por MQO.
Observe que, nesta aplicação particular, qualquer variável que era estatisticamente significante com o uso
da estatı́stica t habitual, continua estatisticamente significante com o uso da estatı́stica t robusta em relação
à heteroscedasticidade.

Devemos enfatizar que não sabemos, neste ponto, sequer se a heteroscedasticidade está presente no modelo
populacional básico da equação do Log do Salários. Tudo que fizemos foi descrever, juntamente com os erros-
padrão usuais, aqueles que são válidos (assimptoticamente) haja ou não presença de heteroscedasticidade. Podemos
ver que nenhuma conclusão importante é destruı́da pelo uso dos erros-padrão robustos neste exemplo. Isso acontece
com frequência em trabalhos aplicados, mas, em outros casos, as diferenças entre os erros-padrão usuais e os
robustos são muito maiores.

Se os erros-padrão robustos em relação à heteroscedasticidade são válidos com maior frequência que os
erros-padrão usuais MQO, por que nos preocuparmos com os erros-padrão usuais, afinal?

Uma das razões para eles ainda serem usados em trabalhos de corte transversal é que, se a hipótese de homoscedas-
ticidade se mantiver e os erros forem normalmente distribuı́dos, as estatı́sticas t usuais têm distribuições t exatas,
independentemente do tamanho da amostra. Os erros-padrão robustos e as estatı́sticas t robustas são justificadas
somente quando o tamanho da amostra se torna grande. Com amostras de tamanho pequeno, as estatı́sticas
t robustas podem ter distribuições que não sejam muito próximas da distribuição t, e isso pode ofuscar nossa
inferência. Também é possı́vel obter estatı́sticas F e LM que sejam robustas em relação à heteroscedasticidade
de forma desconhecida, e mesmo arbitrária. A estatı́stica F robusta em relação à heteroscedasticidade (ou uma
transformação simples dela) também é chamada de estatı́stica de Wald robusta em relação à heteroscedasticidade.

Estatı́stica F Robusta em relação à heterocedasticidade

Como a heterocedasticidade afeta a estimação da variância, as estatı́sticas associadas ao teste F, SQR e SQT, não
são confiáveis. Caso necessitarmos testar uma hipótese múltipla, tal qual,

H0 : β1 = β2 = 0 vs H1 : H0 é falsa

onde o modelo é dado por

y = β0 + x1 β1 + x2 β2 + x3 β3 + ε
Podemos reescrever a hipótese nula H0 : β1 = β2 = 0 como H0 : Rβ − r = 0 onde - R é uma matriz q × k, sendo q
o número de restrições e k o número de parâmetris. Por fim, r é um vetor k × 1. Para a hipótese nula em questão
temos,
66 Prof. Cleiton Guollo Taufemback

0100 0
R= ,q =
0010 0
Há vários métodos para estimar a matriz de covariância robusta, Σ robusta , porém está fora do escopo dessa
disciplina abordá-los. Logo, o teste F robusto a heterocedasticidade, ou teste de Wald, é dado por

(Rβ̂ − r)′ (RΣ̂ robusta R′ )−1 (Rβ̂ − r)

F= ∼ F(q, n − k)
q

Exemplo: Estatı́stica F Robusta em relação à heterocedasticidade

Utilizando os dados para o semestre da primavera contidos no arquivo GPA3, estimamos a seguinte
equação:

nmgradac = 1, 47 +0, 00114sat −0, 00857emperc +0, 00250tothrs

(0, 23) (0, 00018) (0, 00124) (0, 00073)
[0, 22] [0, 00019] [0, 00140] [0, 00073]
+0, 303 f eminino −0, 128negro −0, 059branco (8.4)
(0, 059) (0, 147) (0, 141)
[0, 059] [0, 118] [0, 110]
n = 366, R2 = 0, 4006, R̄2 = 0, 3905

Novamente, as diferenças entre os erros-padrão usuais e os erros-padrão robustos em relação à heterosce-

dasticidade não são muito grandes e o uso da estatı́stica t robusta não altera a significância estatı́stica de
qualquer variável independente.
Suponha que queiramos testar a hipótese nula de que, depois de termos todos os outros fatores controlados,
não haja diferenças em nmgradac por raça. Isso é escrito como H0 : βnegro = 0, βbarnco = 0. A estatı́stica F
habitual é facilmente obtida, uma vez que tenhamos o R-quadrado do modelo restrito; o cálculo resulta em
0,3983. A estatı́stica F então é [(0, 4006 − 0, 3983)/(1 − 0, 4006)](359/2) ≈ 0, 69. Se houver presença de
heteroscedasticidade, essa versão do teste não é válida. A versão robusta em relação à heteroscedasticidade
não tem uma forma simples, mas pode ser computada utilizando-se certos programas estatı́sticos. O valor
da estatı́stica F robusta em relação à heteroscedasticidade é de 0,75, diferenciando-se apenas levemente do
valor da versão não robusta. O p-valor do teste robusto é 0,474, que não está próximo dos nı́veis padrão de
significância. Não é possı́vel rejeitar a hipótese nula usando qualquer um dos testes.

Como rodar esse exemplo no R:

library(wooldridge) # Chama o pacote para ser usado nessa sessão
library(lmtest) # Para a regressão linear
library(car) # Para os erros robustos
library(sandwich) # Para o test F
library(dplyr) # Para manipulaçãoo de dados
library(magrittr) # Para usar o operador pipe %>%
data(’gpa3’) # Define o conjuto de dados a ser usado

#Como o exemplo restringe os dados somente para o perı́odo da primavera,

#categoria da variável term, devemos criar uma partição do banco.
#Note que nmgradac em português = cumgpa em inglês

gpa3spring<-gpa3 %>%
select(cumgpa, sat, hsperc, tothrs, female, black, white,term) %>%
filter(term == "2")

# Executa a regressão linear

modelos_unres <- lm(cumgpa ˜ sat + hsperc + tothrs + female + black
+ white, data = gpa3spring)
summary(modelos_unres)
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 67

#Para obtermos os erros-padrão robustos em relação à heteroscedasticidade,

#ajustamos o modelo para o periodo da primavera irrestrito através da função
#coeftest
coeftest(model_unres, vcov = vcovHC(model_unres, type = "HC0"))

#Suponha que queiramos testar a hipótese nula de que, depois de termos todos
#os outros fatores controlados, não haja diferenças em nmgradac por raça.
# Se beta_white=0, beta_black=0
modelos_res <- lm(cumgpa ˜ sat + hsperc + tothrs + female, data = gpa3spring)
summary(modelos_res)

#Estatı́stica F

# Estatı́stica F usual
anova(model_unres, model_res)

#Estatı́stica F robusta em relação à heteroscedasticidade

waldtest(model_res, model_unres, vcov = vcovHC(model_unres, type = "HC0"))

8.3 O teste da existência de heterocedasticidade

Boas razões para fazermos os testes para detectar a presença de heterocedasticidade

1. As estatı́sticas t habituais têm distribuições t exatas sob as hipóteses do modelo linear clássico (RLM.1 a
RLM.5 ). Atendendo a hipótese de homocedasticidade (RLM.5), muitos economistas preferem utilizar os
erros-padrão MQO usuais e testar as estatı́sticas informadas.
2. MQO continua não tendencioso e consistente, mas os erros-padrão dos coeficientes estimados serão viesados
se há heterocedasticidade. Se os erros-padrão são viesados, não podemos utilizar as estatı́sticas t, F e LM
usuais.
3. Se houver a presença de heterocedasticidade, o estimador MQO não mais será BLUE.
A seguir,nos restringiremos a testes que detectam os tipos de heterocedasticidade que invalidam as estatı́sticas
MQO habituais.
Como sempre, iniciamos com o modelo linear

y = β0 + β1 x1 + β2 x2 + β3 x3 + . . . + βk xk + u (8.5)

onde as hipóteses RLM.1 a RLM.4 são mantidas nesta seção. Particularmente, assumimos que E(u|x1 , x2 , . . . , xk ) =
0, de forma que o MQO seja não-viesado e consistente.
Considere como hipótese nula que a hipótese RLM.5 é verdadeira:

H0 : Var(u|x1 , x2 , . . . , xk ) = σ 2 . (8.6)

Ou seja, assumimos que a hipótese ideal de homoscedasticidade se mantém, e precisamos que os dados nos
informem se isso é adequado ou não. Se não pudermos rejeitar (8.6) em um nı́vel de significância suficientemente
pequeno, normalmente concluı́mos que a heteroscedasticidade não será um problema. Porém, lembre-se de que
nunca aceitamos H0 ; simplesmente não podemos rejeitá-la.
Como estamos assumindo que u tem uma esperança condicional zero, Var(u|x) = E(u2 |x), e assim a hipótese
nula de homoscedasticidade é equivalente a

H0 : E(u2 |x1 , x2 , . . . , xk ) = E(u2 ) = σ 2 . (8.7)

68 Prof. Cleiton Guollo Taufemback

Isso mostra que, para testar a violação da hipótese de homoscedasticidade, queremos verificar se u2 está rela-
cionado (em valor esperado) a uma ou mais das variáveis explicativas. Se H0 for falsa, o valor esperado de u2 ,
dadas as variáveis independentes, pode ser virtualmente qualquer função de x1 . Um método simples é assumir uma
função linear:

u2 = δ0 + δ1 x1 + δ2 x2 + . . . + δk xk + v
onde v é um termo erro com média zero, dados xi . Preste bastante atenção na variável dependente nesta equação:
ela é o quadrado do erro na equação de regressão original, (8.5). Note, que não observamos os erros u da equação
(8.5), mas podemos utilizar suas estimativas: os resı́duos da regressão por MQO.
Nunca conheceremos os erros efetivos no modelo populacional, mas temos estimativas deles: o resı́duo MQO,
ubi é uma estimativa do erro ui para a observação i. Assim, podemos estimar a equação

ub2 = δ0 + δ1 x1 + δ2 x2 + . . . + δk xk + erro (8.8)

e calcular as estatı́sticas F ou LM da significância conjunta de x1 , . . . , xk . Ambas as estatı́sticas F e LM dependem
do R-quadrado da regressão (8.8); chamemos isso de R2ub2 para distingui-lo do R-quadrado na estimação da equação
(8.5). Então, a estatı́stica F será

R2ub2 /k
F= ,
1 − R2ub2 /(n − k − 1

onde k é o número de regressores em (8.8).

A estatı́stica LM para a heteroscedasticidade é simplesmente o tamanho da amostra multiplicado pelo R-
quadrado de (8.8):

LM = nR2ub2
Sob a hipótese nula, a estatı́stica F tem ( assimptoticamente) uma distribuição Fk,n−k−1 e a estatı́stica LM é
distribuı́da assimptoticamente como χk2 .
A versão LM do teste é geralmente chamada teste de Breusch-Pagan da heteroscedasticidade.

O Teste de BREUSCH-PAGAN da Heteroscedasticidade

1. Estime o modelo (8.5) por MQO, como usual. Obtenha os resı́duos quadrados MQO, ub2 (um para cada
observação).
2. Compute a regressão (8.8). Guarde o R-quadrado desta regressão, R2ub2 .
3. Construa a estatı́stica F ou a estatı́stica LM e calcule o p-valor (usando a distribuição Fk,n−k−1 e a distribuição
χk2 , respectivamente). Se o p-valor for suficientemente pequeno, isto é, abaixo do nı́vel de significância seleci-
onado, então rejeitamos a hipótese nula de homoscedasticidade.

Se suspeitarmos que a heteroscedasticidade depende somente de certas variáveis independentes, podemos, com
facilidade, modificar o teste de Breusch-Pagan: simplesmente fazemos a regressão de ub2 sobre quaisquer variáveis
independentes que escolhamos e aplicamos o teste F ou LM apropriado. Lembre-se de que os graus de liberdade
apropriados dependem do número de variáveis independentes na regressão com ub2 como variável dependente; o
número de variáveis independentes que aparece na equação (8.5) é irrelevante.
Se os resı́duos quadrados forem regredidos somente sobre uma única variável independente, o teste de heterosce-
dasticidade será a estatı́stica t habitual da variável. Uma estatı́stica t significativa sugere que a heteroscedasticidade
é um problema.

O Teste de White para a Heteroscedasticidade

O teste é explicitamente destinado a testar formas de heteroscedasticidade que invalidem os erros-padrão e as

estatı́sticas de testes habituais, estimados por MQO. O teste de White pode ser visto como uma extensão do teste
Breusch-Pagan. Para criar o teste, usa-se os quadrados e os produtos cruzados das variáveis independentes. Uma
sugestão é usar os valores estimados MQO para verificar a existência de heteroscedasticidade.
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 69

Os valores estimados são apenas funções lineares das variáveis independentes. Se eles forem elevados ao qua-
drado, obteremos uma função particular de todos os quadrados e produtos cruzados das variáveis independentes.
Isso sugere testar a heteroscedasticidade estimando a equação

ub2 = δ0 + δ1 yb+ δ2 yb2 + erro. (8.9)

onde yb representa os valores estimados. É importante não confundir yb com y nesta equação. Usamos os valores
estimados porque eles são funções das variáveis independentes (e dos parâmetros estimados); o uso de y em (8.9)
não produz um teste válido para a heteroscedasticidade.
Para executar o teste basta seguir os passos:
1. Estime o modelo (8.5) por MQO, da maneira habitual. Obtenha os resı́duos ub e os valores estimados yb do
MQO. Calcule os resı́duos quadrados ub2 e os quadrados dos valores estimados yb2 do MQO.
2. Compute a regressão da equação (8.9). Guarde o R-quadrado desta regressão, R2ub2 .
3. Construa as estatı́sticas F ou LM e calcule o p-valor (usando a distribuição F2,n−3 no primeiro caso e a
distribuição χ22 no último).
Temos interpretado uma rejeição usando um dos testes de heteroscedasticidade como evidência de heterosce-
dastı́cidade. Isso está correto desde que mantenhamos as hipóteses RLM.l a RLM.4. Mas se RLM.3 for violada —
especialmente se a forma funcional de E(y|x) estiver mal-especificada — então um teste de heteroscedasticidade
pode rejeitar H0 , mesmo se Var(y|x) for constante. Por exemplo, se omitirmos um ou mais termos quadráticos em
um modelo de regressão ou usarmos o modelo em nı́vel quando deverı́amos usar em log, um teste de heterosce-
dasticidade pode ser significante. Isso tem levado alguns economistas a verem os testes de heteroscedasticidade
como testes generalizados de má especificação. Porém, existem testes melhores e mais diretos para testar a má
especificação de formas funcionais. É melhor usar, primeiro, testes especı́ficos de formas funcionais, já que a má
especificação da forma funcional é mais importante que a heteroscedasticidade. Em seguida, uma vez que esteja-
mos satisfeitos com a forma funcional, podemos fazer o teste para verificar a existência de heteroscedasticidade.

8.4 Estimação de mı́nimos quadrados ponderados

Antes do desenvolvimento das estatı́sticas robustas em relação à heteroscedasticidade, a resposta à descoberta de

heteroscedasticidade era modelar e estimar sua forma especı́fica. Como veremos, isso leva a um estimador mais
eficiente que o MQO, e produz estatı́sticas t e F que têm distribuições t e F. Embora isso pareça atraente, requer
mais trabalho de nossa parte, pois temos de ser muito especı́ficos sobre a natureza de qualquer heteroscedasticidade.

A Heteroscedasticidade é percebida como uma Constante Multiplicativa

Considere que x representa todas as variáveis explicativas na equação (8.5) e assuma que

Var(u|x) = σ 2 h(x) (8.10)

onde h(x) é alguma função das variáveis explicativas que determina a heteroscedasticidade. Como variâncias de-
vem ser positivas, h(x) > 0 para todos os valores possı́veis das variáveis independentes.
Levando em conta a equação original,

yi = β0 + β1 xi1 + β2 xi2 + . . . + βk xik + ui (8.11)

que contém erros heteroscedásticos, e a transformamos em uma equação que não contenha tais erros (e satisfaça
as outras hipóteses de Gauss-Markov). √
Como hi é apenas uma função de xi , ui / hi tem √ zero como valor esperado condicional em xi . Além disso, como
Var(ui /xi ) = E(u2i /xi ) = σ 2 hi a variância de ui / hi (condicional em xi ) é a σ 2 :
p
2
= E u2i /hi = σ 2 hi /hi = σ 2

E ui / hi

√
onde suprimimos a condicionalidade em xi , por simplicidade. Podemos dividir a equação (8.24) por hi para obter.
70 Prof. Cleiton Guollo Taufemback
p p p p
yi / hi =β0 / hi + β1 xi1 / hi + β2 xi2 / hi + . . .
p p (8.12)
+ βk xik / hi + ui hi
ou

y∗i = β0 xi0
∗ ∗
+ β1 xi1 ∗
+ . . . + βk xik + u∗i (8.13)
√
∗ = 1/ h e as outras variáveis sobrescritas com * representam as variáveis originais correspondentes
onde xi0 √ i
divididas por hi .
A equação (8.13) parece um pouco peculiar, mas o importante a ser lembrado é que a derivamos para podermos
obter os estimadores de β j que tenham propriedades de eficiência melhores que MQO. É bom lembrarmos que na
interpretação dos parâmetros e do modelo, sempre queremos retomar à equação original (8.11).
A equação (8.13) é linear em seus parâmetros (portanto satisfaz RLM.1), e a hipótese de amostragem aleatória
não se alterou. Além disso, u∗i tem uma média zero e uma variância constante (σ 2 ), condicional em xi∗ . Isso significa
que se a equação original satisfizer as quatro primeiras hipóteses de Gauss-Markov, então a equação transformada
(8.13) satisfará todas as cinco hipóteses de GaussMarkov. Além disso, se ui tiver uma distribuição normal, então
u∗i terá uma distribuição normal com variância σ 2 . Portanto, a equação transformada satisfará as hipóteses do
modelo linear clássico (RLM. l a RLM.6), se o modelo original também o fizer, com exceção da hipótese de
homoscedasticidade.
Como sabemos que o MQO tem propriedades atraentes (BLUE, por exemplo) sob as hipóteses de Gauss-
Markov, estimamos os parâmetros da equação (8.13)por mı́nimos quadrados ordinários. Esses estimadores, β0∗ , β1∗ ,
. . . , βk∗ , serão diferentes dos estimadores MQO na equação original. Os β j∗ são exemplos de estimadores de
mı́nimos quadrados generalizados (MQG). Além disso, os estimadores MQG, por serem os melhores estimadores
lineares não-viesados de β j , são necessariamente mais eficientes que os estimadores MQO βbj obtidos da equação
não transformada.
Os estimadores MQG para a correção da heteroscedasticidade são chamados de estimadores de mı́nimos qua-
drados ponderados (MQP). Esse nome advém do fato de que β j∗ minimiza a soma ponderada dos quadrados dos
resı́duos, onde cada resı́duo quadrado é ponderado por l/hi . A idéia é colocar menos peso nas observações com
uma variância de erro mais alta; o método MQO dá a cada observação o mesmo peso, pois isso é melhor quando a
variância do erro é idêntica para todas as partições da população.

A Necessidade de Estimar a Função de Heteroscedasticidade: O MQG Factı́vel

Na maioria dos casos, a forma exata de heteroscedasticidade não é óbvia. Isto quer dizer que é difı́cil encontrar
a função h(xi ) da seção anterior. Contudo, em muitos casos podemos modelar a função h. Isso resulta em uma
estimativa de cada hi , indicada por b hi . O uso de b
hi em lugar de hi na transformação MQG produz um estimador
chamado estimador MQG factı́vel (MQGF). O MQG factı́vel algumas vezes é chamado de MQG estimado ou
MQGE.
Existem várias maneiras de modelar a heteroscedasticidade, mas estudaremos um método particular razoavel-
mente flexı́vel. Assuma que

Var(u|x) = σ 2 exp (δ0 + δ1 x1 + δ2 x2 + . . . + δk xk ) (8.14)

onde x1 , x2 , . . . , xk são variáveis independentes e δ j são parâmetros desconhecidos. Na notação da subseção anterior,
h(x) = exp (δ0 + δ1 x1 + δ2 x2 + . . . + δk xk ). Aqui usamos a função exponencial da equação (8.14) para garantir que
nossas variâncias estimadas sejam positivas para podermos usar o método MQP.
Usa-se, então, os dados para estimar os parâmetros, e então utilizar essas estimativas para construir os pesos.
Basicamente, transformaremos essa equação em uma forma linear que, com pequenas modificações, poderá ser
estimada por MQO.
Podemos escrever
u2 = σ 2 exp (δ0 + δ1 x1 + δ2 x2 + . . . + δk xk )
onde u tem uma média igual à unidade, condicional em x1 , x2 , . . . , xk . Se assumirmos que u é realmente indepen-
dente de x, podemos escrever

log u2 = α0 + δ1 x1 + δ2 x2 + . . . + δk xk + e

(8.15)
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 71

onde e tem média zero e é independente de x; o intercepto nessa equação é diferente de δ0 , mas isso não é
importante. A variável dependente é o log do erro quadrado.
Como (8.15) satisfaz as hipóteses de Gauss-Markov, podemos obter estimadores não-viesados de utilizando
MQO.
Como sempre, devemos substituir o u não-observado pelos resı́duos MQO. Portanto, computamos a regressão
de
u2 ) sobre x1 , x2 , . . . , xk
log(b (8.16)
Na realidade, o que necessitamos dessa regressão são os valores estimados; vamos chamá-los de gbi . Então, as
estimativas de hi serão simplesmente

hi = exp(b
b gi ). (8.17)
Façamos um resumo dos passos.
1. Execute a regressão de y sobre x1 , x2 , . . . , xk e obtenha os resı́duos ub.
2. u2 ) primeiramente elevando ao quadrado os resı́duos MQO e depois calculando seu log natural.
Crie log(b
3. Execute a regressão na equação (8.16) e obtenha os valores estimados, gb.
4. Calcule o exponencial dos valores estimados a partir de b h = exp(bg)
5. Estime a equação q q q q
hi =β0 / b
yi / b hi + β1 xi1 / b
hi + β2 xi2 / b
hi + . . .
q q
+ βk xik / bhi + ui b hi .
72 Prof. Cleiton Guollo Taufemback
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 73

9 Problemas Adicionais de Especificação e de Dados

Neste capı́tulo, voltamos ao problema muito mais sério de correlação entre o erro, u, e uma ou mais das variáveis
explicativas. Se u, por qualquer motivo, estiver correlacionado com a variável explicativa x j , então dizemos que x j
é uma variável explicativa endógena.

9.1 Erro de especificação de forma funcional

Suponha que a equação log(salario) seja definida corretamente por

log(salario) =β0 + β1 educ + β2 exper + β3 exper2

+ β4 f eminino + β5 f eminino · educ + u

onde feminino é uma variável binária. Se omitimos o termo de interação, f eminino · educ, então estamos espe-
cificando incorretamente a forma funcional. Em geral, não obteremos estimadores não-viesados de nenhum dos
outros parâmetros e, como o retorno à educação depende do gênero, não está claro que retorno estimarı́amos se
omitirmos o termo de interação.
Omitir funções de variáveis independentes não é a única maneira de um modelo sofrer de forma funcional
especificada incorretamente. Por exemplo, se o modelo verdadeiro que satisfaz as quatro primeiras premissas
de Gauss-Markov, mas usamos salário em vez de log salario como variável dependente, então não obteremos
estimadores não-viesados ou consistentes dos efeitos parciais. Os testes a seguir têm alguma capacidade de detectar
esse tipo de problema de forma funcional, mas há testes melhores que mencionaremos na subseção sobre testes
com alternativas não aninhadas.

RESET como teste geral para especificação incorreta de forma funcional

A ideia por trás do RESET é bastante simples. Se o modelo original

y = β0 + β1 x1 + . . . + βk xk + u (9.1)

satisfaz a RML.4, então nenhuma função não linear das variáveis independentes deve ser significativa quando
adicionada à equação (9.1). Por exemplo, podemos adicionar valores quadráticos das variáveis e testar se são
significativas. Embora isso frequentemente detecte problemas de forma funcional, tem a desvantagem de usar
muitos graus de liberdade se houver muitas variáveis explicativas no modelo original. Além disso, certos tipos de
não linearidades negligenciadas não serão capturadas adicionando termos quadráticos. O teste RESET adiciona
polinômios nos valores ajustados do MQO à equação (9.1) para detectar tipos gerais de falta de especificação da
forma funcional.
Seja yb os valores ajustados via MQO a partir da estimativa (9.1). Considere agora a equação expandida

y = β0 + β1 x1 + . . . + βk xk + δ1 yb2 + δ2 yb3 + · · · + δq ybq+1 + erro. (9.2)

Essa equação parece um pouco estranha, porque as funções dos valores ajustados da estimativa inicial agora apa-
recem como variáveis explicativas. De fato, não estaremos interessados nos parâmetros estimados de (9.2); usa-
mos apenas esta equação para testar se em (9.1) faltou não-linearidades importantes. É importante lembrar que
yb2 , . . . , ybq+1 são apenas funções não lineares de x j .
A hipótese nula é que (9.1) está especificado corretamente. Assim, RESET é a estatı́stica F para testar H0 : δ1 =
δ2 = · · · = δq = 0 no modelo expandido (9.2). Uma estatı́stica F significativa sugere algum tipo de problema de
forma funcional. A distribuição da estatı́stica F é aproximadamente F(q, n − k − 1 − q) em amostras grandes sob a
hipótese nula (e as suposições de Gauss-Markov).

Testes contra alternativas não aninhadas

Obter testes para outros tipos de erros de especificação da forma funcional - por exemplo, tentar decidir se uma
variável independente deve aparecer em nı́vel ou em forma logarı́tmica - nos leva para fora do domı́nio do teste
clássico de hipóteses. É possı́vel testar o modelo
74 Prof. Cleiton Guollo Taufemback

y = β0 + β1 x1 + β2 x2 + u (9.3)

contra o modelo
y = β0 + β1 log (x1 ) + β2 log (x2 ) + u (9.4)
e vice versa. No entanto, esses são modelos não aninhados e, portanto, não podemos simplesmente usar um teste F
padrão. Duas abordagens diferentes foram sugeridas. O primeiro é construir um modelo abrangente que contenha
cada modelo como um caso especial e, em seguida, testar as restrições que levaram a cada um dos modelos. No
exemplo atual, o modelo abrangente é

y = γ0 + γ1 x1 + γ2 x2 + γ3 log (x1 ) + γ4 log (x2 ) + u

Podemos primeiro testar H0 : γ1 = 0, γ2 = 0 como um teste contra (9.3). Também podemos testar H0 : γ3 = 0, γ4 = 0
como um teste contra (9.4).
Outra abordagem foi sugerida por Davidson e MacKinnon (1981). O teste de Davidson-MacKinnon é obtido a
partir da estatı́stica t em y̌ na equação auxiliar.

y = β0 + β1 x1 + β2 x2 + θ1 y̌ + error

Como y̌ são funções não lineares de x1 e x2 , ela deve ser insignificantes se (9.3) for o modelo médio condicional
correto. Portanto, uma estatı́stica t significativa (contra uma alternativa bilateral) é uma rejeição de (9.3).
Da mesma forma, se yb denota os valores ajustados da estimativa (9.3), o teste de (9.4) é a estatı́stica t em yb no
modelo
y = β0 + β1 log (x1 ) + β2 log (x2 ) + θ1 yb+ error
uma estatı́stica t significativa é uma evidência contra (9.4). Os mesmos dois testes podem ser usados par a testar
quaisquer dois modelos não aninhados com a mesma variável dependente.
Existem alguns problemas com esses testes. Primeiro, um modelo vencedor pode não surgir. Ambos os modelos
podem ser rejeitados ou nenhum dos modelos pode ser rejeitado. O segundo problema é que rejeitar (9.3) usando,
digamos, o teste de Davidson-MacKinnon, não significa que (9.4) seja o modelo correto. O modelo (9.3) pode ser
rejeitado por diversas formas funcionais especificações erradas.

9.2 Usando variáveis proxy para variáveis explicativas não observadas

Um problema mais difı́cil surge quando um modelo exclui uma variável-chave, geralmente devido à indisponibili-
dade de dados. Considere uma equação salarial que reconheça explicitamente que a capacidade (habilidade) afeta
log(salario):
log(salario) = β0 + β1 educ + β2 exper + β3 habilidade + u (9.5)
Este modelo mostra explicitamente que queremos manter habilidade fixa ao medir o retorno ao ensino e à ex-
periência. Se, digamos, educ estiver correlacionado com habilidade, colocar habilidade no termo de erro fará com
que o estimador MQO de β1 (e talvez β2 ) seja viesado.
Como podemos resolver, ou pelo menos mitigar, o viés das variáveis omitidas em uma equação como (9.5)?
Uma possibilidade é obter uma variável proxy para a variável omitida. Em termos gerais, uma variável proxy é
algo relacionado à variável não observada que gostarı́amos de controlar em nossa análise. Na equação salarial,
uma possibilidade é usar o quociente de inteligência, ou QI, como proxy de habilidade. Isso não exige que o QI
seja a mesma coisa que habilidade; o que precisamos é que o QI seja correlacionado com habilidade, algo que
esclarecemos na discussão a seguir.
Todas as ideias-chave podem ser ilustradas em um modelo com três variáveis independentes, duas das quais são
observadas:
y = β0 + β1 x1 + β2 x2 + β3 x3∗ + u (9.6)
Seja x3 a variável proxy de x3∗ . O que devemos esperar dela? No mı́nimo, deve ter alguma relação com x3∗ . Isso
é capturado pela equação de regressão simples

x3∗ = δ0 + δ3 x3 + v3 (9.7)

em que v3 é um erro devido ao fato de que x3∗ e x3 não estão exatamente relacionados. O parâmetro δ3 mede a
relação entre x3∗ e x3 .
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 75

As suposições necessárias para fornecer estimadores consistentes de β1 e β2 podem ser divididas em suposições
sobre u e v3 :
(1) O erro u não está correlacionado com x1 , x2 e x3∗ , que é apenas a suposição padrão no modelo (9.6). Além
disso, u não está correlacionado com x3 .
(2) O erro v3 não está correlacionado com x1 , x2 e x3 . Supondo que a v3 não esteja correlacionada com x1 e x2 ,
exige que x3 seja uma boa proxy para x3∗ . Ou seja,

E (x3∗ |x1 , x2 , x3 ) = E (x3∗ |x3 ) = δ0 + δ3 x3 (9.8)

Na equação salarial (9.5), onde QI é o proxy da habilidade, a condição (9.8) se torna

E(habilidade|educ, exper,QI) = E(habilidade|QI) = δ0 + δ3 QI (9.9)

Se ligarmos a equação (9.7) à equação (9.6) e fizermos álgebra simples, obtemos

y = (β0 + β3 δ0 ) + β1 x1 + β2 x2 + β3 δ3 x3 + u + β3 v3

Chame o erro composto nesta equação e = u + β3 v3 ; que é dependente do erro no modelo de interesse (9.6) e do
erro na equação da variável proxy, v3 . Como u e v3 têm média zero e cada um não é correlacionado com x1 , x2 e
x3 , o erro e também possui zero média e não é correlacionado com x1 , x2 e x3 . Então temos,

y = α0 + β1 x1 + β2 x2 + α3 x3 + e (9.10)

onde α0 = (β0 + β3 δ0 ) é o novo intercepto e α3 = β3 δ3 é o parâmetro de inclinação na variável de proxy x3 . Como

aludimos anteriormente, quando executamos a regressão em (9.10), não obteremos estimadores imparciais de β0 e
β3 ; em vez disso, obteremos estimadores imparciais (ou pelo menos consistentes) de α0 , β1 , β2 e α3 . O importante
é que tenhamos boas estimativas dos parâmetros β1 e β2 .
É fácil ver como o uso de uma variável proxy ainda pode levar a viés, se a variável proxy não atender às
suposições anteriores. Suponha que, em vez de (9.7), a variável não observada, x3∗ , esteja relacionada a todas as
variáveis observadas por
x3∗ = δ0 + δ1 x1 + δ2 x2 + δ3 x3 + v3 (9.11)
em que v3 tem média zero e não está correlacionado com x1 , x2 e x3 . A equação (9.7) assume que δ1 e δ2 são zero.
Ao conectar a equação (9.11) em (9.6), obtemos

y = (β0 + β3 δ0 ) + (β1 + β3 δ1 ) x1 + (β2 + β3 δ2 ) x2

+ β3 δ3 x3 + u + β3 v3

Porém, podemos ter alguma esperança de que esse viés será menor do que se ignorarmos totalmente o problema
da variável omitida.

Usando variáveis dependentes atrasadas como variáveis de proxy

O uso de uma variável dependente defasada em uma regressão de dados transversal aumenta os requisitos de dados,
mas também fornece uma maneira simples de explicar fatores históricos que causam diferenças atuais na variável
dependente que são difı́ceis de serem explicadas de outras maneiras. Por exemplo, algumas cidades tiveram altas
taxas de criminalidade no passado. Muitos dos mesmos fatores não observados contribuem para altas taxas de
criminalidade atual e passada. Da mesma forma, algumas universidades são tradicionalmente melhores em termos
acadêmicos do que outras. Efeitos inerciais também são capturados ao se colocar lags de y.
Considere uma equação simples para explicar as taxas de criminalidade na cidade:

crime = β0 + β1 desemprego + β2 gasto + β3 crime−1 + u

onde o crime é uma medida do crime per capita, desemprego é a taxa de desemprego da cidade, gasto é o gasto per
capita na aplicação da lei e o crime−1 indica a taxa de criminalidade medida em algum ano anterior (esse poderia
ser o ano passado ou vários anos atrás).
76 Prof. Cleiton Guollo Taufemback

9.3 Propriedades do Método MQO quando há Erros de Medida

Algumas vezes, em aplicações econômicas, não podemos coletar dados da variável que verdadeiramente afetam o
comportamento econômico. Quando utilizamos uma medida imprecisa de uma variável econômica em um modelo
de regressão, nosso modelo conterá um erro de medida. Nesta seção derivamos as consequências do erro de medida
para a estimação dos mı́nimos quadrados ordinários. O método MQO será coerente sob certas hipóteses, mas
existem outras sob as quais ele será inconsistente. Em alguns desses casos, podemos inferir o tamanho do viés
assimptótico.

9.3.1 Erro de Medida em uma Variável Explicativa

Comecemos com o modelo de regressão simples

y = β0 + β1 x1∗ + u (9.12)

supondo que ele satisfaz pelo menos as primeiras quatro hipóteses de Gauss-Markov. Isso significa que a estimação
de (9.12) por MQO produziria estimadores de β0 e β , não viesados e consistentes. O problema é que x1∗ não é
observado. Em vez disso, temos uma medida de x1∗ , que pode ser chamada de x1 . Por exemplo, x1∗ poderia ser a
verdadeira renda e x1 poderia ser a renda registrada.
O erro de medida na população é simplesmente

e1 = x1 − x1∗

e pode ser positivo, negativo ou zero. Presumimos que o erro de medida médio na população é zero: E (e1 ) = 0.
Isso é natural e, de qualquer forma, não afeta a importante conclusão a seguir. Uma suposição sustentada no que
segue é que u é não correlacionado com x1∗ e x1 . Em termos de expectativa condicional, podemos escrevê-la como
E (y | x1∗ , x1 ) = E (y | x1∗ ) , que apenas diz que x1 não afeta y após ter-se controlado x1∗ . Usamos a mesma suposição
no caso da variável proxy e isso não é controverso; ela se mantém quase que por definição.
A primeira hipótese é que e, é não correlacionado com a medida observada, x1 , i.e., Cov (x1 , e1 ) = 0. Logo,

y = β0 + β1 x1 + (u − β1 e1 ) (9.13)
Em consequência, a estimação de MQO com x1 em lugar de x1∗ produz um estimador consistente de β1 (e
também de β0 ). Como u é não correlacionado com e1 , a variância do erro em (9.13 é Var (u − β1 e1 ) = σu2 + β12 σe21 .
Assim, exceto quando β1 = 0, o erro de medida aumenta a variância do erro. Porém, isso não afeta quaisquer
das propriedades de MQO (exceto pelo fato de que as variâncias de βbi serão maiores do que se observarmos x∗
diretamente).
A hipótese de que e, é não correlacionada com x, é análoga à hipótese da variável proxy que fizemos na passada.
Como esta hipótese significa que o método MQO tem todas as suas propriedades perfeitas, não é isso o que os
econometristas têm em mente quando se referem ao erro de medida em uma variável explicativa. A suposição de
erro clássico nas variáveis (CEV) é que o erro de medida é não correlacionado com a variável explicativa não
observada:

Cov (x1∗ , e1 ) = 0 (9.14)

Se a hipótese (9.14) for válida, então x1 e e1 devem ser correlacionadas:

Cov (x1 , e1 ) = E (x1 e1 ) = E (x1∗ e1 ) + E e21 = 0 + σe2 = σe2

(9.15)

Assim, a covariância entre x, e e, é igual à variância do erro de medida sob a hipótese CEV. Assim, no caso CEV,
a regressão de MQO de y sobre x1 , produz um estimador viesado e inconsistente. O limite de probabilidade de βb,
é β , mais a razão da covariância entre x1 e u − β1 e1 e a variância de x1 :
Cov (x1 , u − β1 e1 )
plim βb1 = β1 +
Var (x1 )
2
σx∗
! (9.16)
1
= β1
σx2∗ + σe21
1
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 77

Se a variância de x1∗ for grande, em relação à variância no erro de medida, então a inconsistência no MQO será
pequena. Isso é em razão do fato de Var (x1∗ ) / Var (x1 ) ficar próximo da unidade, quando σx22 for muito maior do
1
que σe21 . Portanto, dependendo do volume de variação em x1∗ , com relação a e1 , o erro de medida não causará,
necessariamente, grandes vieses.
As coisas se complicam quando adicionamos mais variáveis explicativas. O viés de atenuação ao se estimar β1
pode ser demonstrado que
σr2∗
!

1
plim β1 = β1
b (9.17)
σr2∗ + σe21
1

em que r1∗ é o erro populacional na equação x1∗ = α0 + α1 x2 + α2 x3 + r1∗ . A fórmula (9.17) também funciona no
caso da variável geral k, quando x, for a única variável medida erroneamente.
As coisas são menos nı́tidas ao se estimar β j , nas variáveis não medidas com erro. No caso especial em que x∗
é não correlacionado com x2 e x3 , βb2 e βb3 são consistentes. Entretanto, na prática isso é raro. Geralmente, o erro de
medida em uma única variável provoca inconsistência em todos os estimadores. Infelizmente, os tamanhos, e até
mesmo as direções dos vieses, não são facilmente derivados.

9.4 Dados ausentes, amostras não aleatórias e outliers

Dados ausentes

O problema de dados ausentes pode surgir de várias formas. Frequentemente, coletamos uma amostra aleatória de
pessoas, escolas, cidades e assim por diante, e depois descobrimos que faltam informações em algumas variáveis-
chave para várias unidades da amostra.
Se estiverem faltando dados para uma observação na variável dependente ou em uma das variáveis indepen-
dentes, a observação não poderá ser usada em uma análise de regressão múltipla padrão. De fato, desde que os
dados ausentes tenham sido indicados corretamente, todos os pacotes de regressão modernos mantêm o controle
dos dados ausentes e simplesmente ignoram as observações ao calcular uma regressão.
Além de reduzir o tamanho da amostra, existem consequências estatı́sticas do uso do estimador MQO e da
ignorância dos dados ausentes? Se os dados estiverem faltando completamente aleatoriamente, os dados ausentes
não causarão problemas estatı́sticos.

Amostras não aleatórias

Para ilustrar dados exogenamente ausentes, suponha que estamos estimando uma função de poupança, em que
a economia anual depende de renda, idade, tamanho da famı́lia e alguns fatores não observados, u. Um modelo
simples é
poupanca = β0 + β1 renda + β2 idade + β3tamanho f + u (9.18)
Suponha que nosso conjunto de dados tenha sido baseado em uma pesquisa de pessoas com mais de 35 anos de
idade, deixando assim uma amostra não aleatória de todos os adultos.
Embora isso não seja o ideal, ainda podemos obter estimadores imparciais e consistentes dos parâmetros no
modelo populacional (9.18), usando a amostra não aleatória. Desde que haja variação suficiente nas variáveis
independentes na subpopulação, a seleção com base nas variáveis independentes não é um problema sério, exceto
que resulta em tamanhos de amostra menores.
Outro exemplo, suponha que desejemos estimar a relação entre a riqueza individual e vários outros fatores na
população de todos os adultos:

riqueza = β0 + β1 educ + β2 exper + β3 idade + u (9.19)

Suponha que apenas pessoas com riqueza abaixo de R$ 100.000 sejam incluı́das na amostra. Esta é uma amostra
não aleatória da população de interesse e é baseada no valor da variável dependente. O uso de uma amostra em pes-
soas com riqueza abaixo de R$ 100.000 resultará em estimadores tendenciosos e inconsistentes. Resumidamente,
isso ocorre porque a regressão populacional E[riqueza|educ, exper, idade] não é a mesma que o valor esperado,
dependendo da riqueza ser inferior a R$ 100.000
78 Prof. Cleiton Guollo Taufemback

Outliers

A definição do que é um outlier é um pouco vaga, porque requer a comparação dos valores das variáveis para uma
observação com os da amostra restante. No entanto, é preciso estar atento a observações “incomuns” porque elas
podem afetar muito as estimativas do MQO.

Figura 8 Gráfico de dispersão da intensidade de P&D em relação às vendas firmes.

O MQO é suscetı́vel a observações externas, porque minimiza a soma dos resı́duos quadráticos: os resı́duos
grandes (positivos ou negativos) recebem muito peso no problema de minimização dos mı́nimos quadrados. Se as
estimativas mudarem em uma quantidade praticamente grande quando modificamos ligeiramente nossa amostra,
devemos nos preocupar.

9.5 Normalidade dos resı́duos

Obs: esse material não está no Wooldridge, mas consta no plano de ensino.
Os resı́duos contém informação sobre o motivo do modelo ter ou não se ajustado bem aos dados. Com eles é
possı́vel indicar se uma ou mais suposições do modelo foram violadas. Uma das hipóteses é que os erros são identi-
camente distribuı́dos com distribuição N(0, σ 2 ). Ou seja, todos erros ei foram gerados de uma mesma distribuição
Normal, com mesma média e variância.
Observe que a premissa de normalidade não é essencial se o objetivo for apenas estimar o modelo. Os estima-
dores de MQO são os melhores estimadores lineares não viesados quer os resı́duos sejam normais ou não. Porém,
desvios da normalidade afetam os intervalos de confiança e consequentemente os testes t, F e χ 2 não serão válidos.
Para testar se os resı́duos são normalmente distribuı́dos, três técnicas são mais empregadas:
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 79

(i) Histograma:
• No eixo horizontal dividimos os valores dos resı́duos em intervalos;
• A altura é a frequência dessas classes;
• O gráfico deve ser simétrico, em forma de sino e em torno de zero.
• Histogramas de dados não-normais e dados normais podem ser encontrados nas figuras 9 e 10, respecti-
vamente.

20
Frequência

0
0 25 50 75 100
x

Figura 9 Histograma de dados não-Normalmente distribuı́dos.

15
Frequência

0
−3 −2 −1 0 1 2 3
x

Figura 10 Histograma de dados Normalmente distribuı́dos.

(ii) Gráfico de Probabilidade Normal (QQplot):

• No eixo horizontal temos os quantis teóricos de uma distribuição Normal;
• No eixo vertical temos os quantis obtidos da amostra;
• Se o resı́duo for normalmente distribuı́do, o gráfico tomará a forma de uma reta;
• Visualmente é mais fácil de detectar a não-normalidade dos dados que o método do histograma.
• QQplots de dados não-normais e dados normais podem ser encontrados nas figuras 9 e 10, respectiva-
mente.
(iii) Testes de normalidade:
80 Prof. Cleiton Guollo Taufemback

200
Quantis amostrias

100

−100

−2 −1 0 1 2
Quantis teóricos

Figura 11 QQplot de dados não-Normalmente distribuı́dos.

Quantis amostrias

−2

−3 −2 −1 0 1 2 3
Quantis teóricos

Figura 12 QQplot de dados Normalmente distribuı́dos.

• A hipótese nula, H0 , é de que os dados provêm de uma distribuição Normal;

• A hipótese alternativa é que os dados não são Normais;
• H0 deverá ser rejeitada se o p-valor for pequeno (menor que o nı́vel de significância adotado, normalmente
0.05). Na Tabela 2, vemos o resultado de testes para dois conjuntos de dados. Assumindo α = 0.05,
rejeitamos H0 para o primeiro conjunto e não rejeitamos para o segundo.
• Alguns desses testes são: Qui-quadrado, Jarque-Bera, Kolmogorov-Smirnov, Liliefors, Shapiro-wilk,
Doornik-Hansen, ...

Tabela 2 Testes de Normalidade de resı́duos, dados Normais e não-Normais.

Dados não-Normais
Estatı́stica do teste p-valor
Shapiro-Wilk normality test 0.8139 0.0000
One-sample Kolmogorov-Smirnov test 0.1991 0.0016
Jarque Bera Test (gl = 2) 11.4400 0.0033

Dados Normais
Estatı́stica do teste p-valor
Shapiro-Wilk normality test 0.9914 0.2790
One-sample Kolmogorov-Smirnov test 0.0586 0.4976
Jarque Bera Test (gl = 2) 1.2947 0.5234
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 81

Das três técnicas, a mais indicada é o emprego dos testes de Normalidade. Infelizmente, humanos possuem
um viés cognitivo para detecção de padrões, o que coloca em xeque afirmações feitas apenas sobre gráficos.
É sempre aconselhado o uso de mais de um teste, pois o resultado é mais substancioso se mais de um método
aponta para a mesma conclusão.

9.5.1 Medidas Corretivas

É possı́vel demonstrar que mesmo se os resı́duos não forem normais, mas forem homocedásticos, os estimadores
de MQO seguem distribuição assintaticamente normal. Se a amostra for grande os habituais procedimentos de
inferência ainda serão válidos. Porém, não existe um valor de indique o quão grande uma amostra deve ser para
que a normalidade assintótica seja válida. Uma alternativa muito utilizada é a transformação nas variáveis. As mais
utilizadas são a transformação logarı́tmica, log(y) e a raiz quadrada, y1/2 .
82 Prof. Cleiton Guollo Taufemback
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 83

10 O Básico da Análise de Regressão com Dados de Séries Temporais

Neste capı́tulo, voltamos nossa atenção para as propriedades de amostra finita dos estimadores MQO e declaramos
as premissas de Gauss-Markov e as premissas clássicas do modelo linear para regressão de séries temporais.
Embora essas premissas tenham caracterı́sticas em comum com as do caso transversal, elas também apresentam
algumas diferenças significativas que precisaremos destacar.

10.1 Exemplos de Modelos de Regressão de Séries Temporais

Nesta seção, discutimos dois exemplos de modelos de séries temporais que são úteis na análise empı́rica de séries
temporais e que são facilmente estimados por mı́nimos quadrados comuns.

Modelos Estáticos

Suponha que temos dados de séries temporais disponı́veis em duas variáveis, digamos y e z, em que yt e zt são
datados contemporaneamente. Um modelo estático relacionado a z é

yt = β0 + β1 zt + ut ,t = 1, 2, . . . , n

O nome “modelo estático” vem do fato de estarmos modelando uma relação contemporânea entre y e z. Ge-
ralmente, um modelo estático é postulado quando se acredita que uma mudança em z no tempo t tenha um efeito
imediato em y: ∆ yt = β1 ∆ zt , quando ∆ ut = 0. Os modelos de regressão estática também são usados quando esta-
mos interessados em conhecer a troca entre y e z.
Um exemplo de modelo estático é a curva estática de Phillips, dada por

in ft = β0 + β1 unemt + ut

onde in ft é a taxa de inflação anual e unemt é a taxa de desemprego anual. Essa forma da curva de Phillips assume
uma taxa natural constante de desemprego e expectativas inflacionárias constantes, e pode ser usada para estudar
o tradeoff contemporâneo entre inflação e desemprego.

Modelos de Defasagens Distributivas Finitas

Em um modelo de atraso distribuı́do finito, permitimos que uma ou mais variáveis afetem y com um atraso. Por
exemplo, para observações anuais, considere o modelo

g f rt = α0 + δ0 pet + δ1 pet−1 + δ2 pet−2 + ut (10.1)

onde g f rt é a taxa geral de fertilidade (crianças nascidas por 1.000 mulheres em idade fértil) e pet é o valor real
em dólar da isenção tributária pessoal. A ideia é verificar se, no total, a decisão de ter filhos está ligada ao valor
tributário de ter um filho. A equação (10.1) reconhece que, por razões biológicas e comportamentais, as decisões
de ter filhos não resultariam imediatamente de mudanças na isenção pessoal.
A equação (10.1) é um exemplo do modelo

yt = α0 + δ0 zt + δ1 zt−1 + δ2 zt−2 + ut (10.2)

que é um Defasagens Distributivas Finitas de ordem dois. Para interpretar os coeficientes em (10.2), suponha que
z seja uma constante, igual a c, em todos os perı́odos anteriores ao tempo t. No tempo t, z aumenta em uma
unidade para c + 1 e depois volta ao nı́vel anterior no tempo t + 1. (Ou seja, o aumento em z é temporário.) Mais
precisamente,
. . . , zt−2 = c, zt−1 = c, zt = c + 1, zt+1 = c, zt+2 = c, . . .
Para focar no efeito ceteris paribus de z em y, definimos o termo de erro em cada perı́odo como zero. Então,
84 Prof. Cleiton Guollo Taufemback

yt−1 = α0 + δ0 c + δ1 c + δ2 c
yt = α0 + δ0 (c + 1) + δ1 c + δ2 c
yt+1 = α0 + δ0 c + δ1 (c + 1) + δ2 c
yt+2 = α0 + δ0 c + δ1 c + δ2 (c + 1)
yt+3 = α0 + δ0 c + δ1 c + δ2 c

e assim por diante. Das duas primeiras equações, yt − yt−1 = δ0 , que mostra que δ0 é a mudança imediata em
y devido ao aumento de uma unidade em z no tempo t. δ0 é geralmente chamado de propensão ao impacto ou
multiplicador de impacto.

Figura 13 Uma distribuição de lag com duas defasagens diferentes de zero. O efeito máximo ocorre na primeira defasagem.

Felizmente, o Capı́tulo 15, Estimação de Variáveis Instrumentais e Mı́nimos Quadrados de dois Estágios, mos-
tra como, sob certas hipóteses, como os parâmetros podem ser consistentemente estimados na presença de erros
gerais de medida. Tais medidas serão vistas em semestres posteriores.

10.2 Propriedades de Amostra Finita do MQO sob as Hipóteses Clássicas

Nesta seção, fornecemos uma lista completa para amostras finita de propriedades de MQO sob suposições padrão.
Prestamos atenção especial em como as suposições devem ser alteradas em nossa análise transversal para cobrir
regressões de séries temporais.

Inexistência de Viés do MQO

A primeira suposição simplesmente afirma que o processo de série temporal segue um modelo que é linear em seus
parâmetros.
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 85

HIPÓTESE ST.1 (Linear nos parâmetros)

O processo estocástico {(xt1 , xt2 , . . . , xtk , yt ) : t = 1, 2, . . . , n} segue o modelo linear

yt = β0 + β1 xt1 + . . . + βk xtk + ut

em que {ut : t = 1, 2, . . . , n} é a sequência de erros ou perturbações. Aqui, n é o número de observações

(perı́odos de tempo).

Naturalmente, como acontece com a regressão transversal, precisamos descartar a colinearidade perfeita entre
os regressores.

HIPÓTESE ST.2 (Inexistência de colinearidade perfeita)

Na amostra (e portanto no processo subjacente da série temporal), nenhuma variável independente é cons-
tante ou é uma combinação linear perfeita das outras.

A suposição final para a imparcialidade de MQO é o análogo de série temporal da Suposição RLM.4, e também
elimina a necessidade de amostragem aleatória na Suposição RLM.2.

HIPÓTESE ST.3 (Média condicional zero)

Para cada t, o valor esperado do erro ut , dadas as variáveis explicativas de todos os periodos de tempo, é
zero. Matematicamente,
E (ut | X) = 0,t = 1, 2, . . . , n.

Esta é uma suposição crucial e precisamos ter uma compreensão intuitiva de seu significado. Como no caso da
seção transversal, é mais fácil ver essa suposição em termos de não correlação: a suposição ST.3 implica que o
erro no tempo t, ut , não está correlacionado com cada variável explicativa em cada perı́odo de tempo. O fato de
isso ser declarado em termos da expectativa condicional significa que também devemos especificar corretamente
a relação funcional entre yt e as variáveis explicativas. Se ut for independente de X e E(ut ) = 0, então a hipótese
ST.3 é válida automaticamente.
Dado ST.1 até ST.3 temos,

Teorema 10.1 (INEXISTÊNCIA DE VIESS DO MQO)

Sob as Hipóteses ST.1, ST.2 e ST.3 os estimadores de MQO são não viesados condicionados em X e,
portanto, também incondicionalmente: E(βb ) = β j , j = 0, 1, . . . , k.

A prova desse teorema é essencialmente a mesma que para o Teorema 3.1 no Capı́tulo 3, portanto, nós o omi-
timos. Ao comparar o Teorema 10.1 com o Teorema 3.1, somos capazes de descartar a suposição de amostragem
aleatória assumindo que, para cada t, ut tem média zero dadas as variáveis explicativas em todos os perı́odos de
tempo. Se essa suposição não for válida, MQO não pode ser mostrado como imparcial.

As Variâncias dos Estimadores MQO e o Teorema de Gauss-Markov

Precisamos adicionar duas suposições para completar as suposições de Gauss-Markov para regressões de séries
temporais. O primeiro é conhecido pela análise transversal.
86 Prof. Cleiton Guollo Taufemback

HIPÓTESE ST.4 (Homoscedasticidade)

Condicional em X, a variância de ut é a mesma para todo t : Var (ut | X) = Var (ut ) = σ 2 ,t = 1, 2, . . . , n

A suposição final de Gauss-Markov para a análise de séries temporais é nova.

HIPÓTESE ST.5 (Inexistência de Correlação Serial)

Condicional em X, os erros em dois perı́odos de tempo diferentes são não correlacionados:

Cor (ut , us | X) = 0, para todo t ̸= s

A maneira mais fácil de pensar sobre essa suposição é ignorar o condicionamento em X. Então, a suposição
ST.5 é simplesmente
Corr (ut , us ) = 0, para todo t ̸= s.
Estamos principalmente interessados em aplicar as suposições de Gauss-Markov a problemas de regressão de
séries temporais. Mas antes veremos como ficam a variância dos estimadores e a estimação da variância do erro,
dado as hipóteses ST.1 a ST.5

Teorema 10.2 (VARIÂNCIAS AMOSTRAIS DO MQO)

Sob as hipóteses de séries temporais ST.1 a ST.5 de Gauss-Markov, a variância de βbj , condicional em X, é

Var βbj | X = σ 2 / SQTx j 1 − R2j , j = 1, . . . , k

em que SQTx j é a soma dos quadrados total de xt, j e R2j é o R -quadrado da regressão de x j sobre as outras
variáveis independentes.

Teorema 10.3 (ESTIMAÇÃO NÃO VIESADA DE σ 2 )

b 2 = SQR/gl é um estimador não viesado de σ 2 , em que

Sob as Hipóteses ST.1 a ST.5, o estimador σ
gl = n − k − 1

Por fim,

Teorema 10.4 (TEOREMA DE GAUSS-MARKOV)

Sob as Hipóteses ST.1 a ST.5, os estimadores MQO são os melhores estimadores lineares não viesados
condicionais em X.

O ponto principal aqui é que MQO tem as mesmas propriedades de amostra finitas desejáveis sob ST.1 a ST.5
que tem sob RLM.1 a RLM.5.

Inferência sob as Hipóteses do Modelo Linear Clássico

Para usar os erros-padrão usuais de MQO, as estatı́sticas t e as estatı́sticas F, precisamos adicionar uma suposição
final que seja análoga à suposição de normalidade que usamos para a análise transversal.
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 87

HIPÓTESE ST.6 (Normalidade)

Os erros ut são independentes de X e são idêntica e independentemente distribuı́dos como Normal 0, σ 2

A suposição ST.6 implica ST.3, ST.4 e ST.5, mas é mais forte por causa das suposições de independência e
normalidade.

Teorema 10.5 (DISTRIBUIÇÕES AMOSTRAIS NORMAIS)

Sob as Hipóteses ST.1 a ST.6, as hipóteses MLC para as séries temporais, os estimadores MQO são nor-
malmente distribuı́dos, condicionais em X. Além disso, sob a hipótese nula, cada estatı́stica t tem uma
distribuição t, e cada estatı́stica F tem uma distribuição F. A construção habitual de intervalos de confiança
também é válida.

As implicações do Teorema 10.5 são de extrema importância. Isso implica que, quando as premissas ST.1 a ST.6
são válidas, tudo o que aprendemos sobre estimativa e inferência para regressões transversais se aplica diretamente
às regressões de série temporal. Assim, a estatı́stica t pode ser usada para testar a significância estatı́stica de
variáveis explicativas individuais, e a estatı́stica F pode ser usada para testar a significância conjunta.

Curva de Phillips Estática

Para determinar se existe uma relação, em média, entre desemprego e inflação, podemos testar H0 : β1 = 0
contra H1 : β1 < 0 na equação (10.2). Se as hipóteses do modelo linear clássico se mantiverem, podemos
usar a estatı́stica t usual do MQO.
Usamos o arquivo PHILLIPS para estimar a equação (10.2), nos restringindo a usar os dados de até
1996. (Em exercı́cios posteriores, por exemplo, Exercı́cio em computador C12 e C 10 , do Capı́tulo 11 ,
será solicitado usar todos os anos até 2003 . No Capı́tulo 18 usamos os anos de 1997 até 2003 em vários
exercı́cios de previsões). As estimativas da regressão simples são

in
d ft = 1, 42 +0, 468unemt
(1, 72) (0, 289)
n = 49, R2 = 0, 053, R̄2 = 0, 033

Esta equação não sugere uma relação de substituição entre unem e in f , pois βb1 > 0. A estatı́stica t de
β1 está em torno de 1, 62, o que dá um p -valor contra a alternativa bilateral de cerca de 0, 11. Portanto, na
b
verdade, existe um relacionamento positivo entre inflação e desemprego.
Existem alguns problemas com esta análise que não podemos avaliar em detalhes agora. No Capı́tulo
12 veremos que as hipóteses MQO não permanecem. Além disso, a curva de Phillips estática talvez não
seja o melhor modelo para determinar se existe uma relação de substituição de curto prazo entre inflação e
desemprego. Os macroeconomistas geralmente preferem a curva de Phillips de expectativas aumentadas.

Caracterização de Séries Temporais com Tendência

Muitas séries de tempo econômicas têm uma tendência comum de crescimento ao longo do tempo. Devemos
reconhecer que algumas séries contêm uma tendência temporal a fim de traçar inferência causal usando dados de
séries temporais. Ignorar o fato de que duas sequências estão tendendo na mesma direção ou em direções opostas
pode nos levar a concluir erroneamente que as mudanças em uma variável são na verdade causadas por mudanças
em outra variável. Em muitos casos, dois processos de série temporal parecem estar correlacionados apenas porque
ambos estão tendendo ao longo do tempo por razões relacionadas a outros fatores não observados.
Que tipo de modelo estatı́stico captura adequadamente o comportamento das tendências? Uma formulação
popular é escrever a série yt como
yt = α0 + α1t + et , t = 1, 2, . . .
88 Prof. Cleiton Guollo Taufemback

onde, no caso mais simples, et é uma sequência independente e identicamente distribuı́da (i.i.d.) com E(et ) = 0 e
Var(et ) = σe2 . Observe como o parâmetro α1 multiplica o tempo, t, resultando em uma tendência de tempo linear.
Na prática, uma tendência exponencial em uma série temporal é capturada modelando o logaritmo natural da
série como uma tendência linear (assumindo que yt > 0):

log (yt ) = β0 + β1t + et , t = 1, 2, . . .

para pequenas mudanças em yt , ∆ yt pequeno, β1 é aproximadamente a taxa média de crescimento por perı́odo em
yt .
Embora as tendências lineares e exponenciais sejam as mais comuns, as tendências de tempo podem ser mais
complicadas. Por exemplo, em vez do modelo de tendência linear abaixo, podemos ter uma tendência de tempo
quadrática:
yt = α0 + α1t + α2t 2 + et
Se α1 e α2 forem positivos, então a inclinação da tendência está aumentando, como é facilmente visto pelo
cálculo da inclinação aproximada (mantendo et fixo):

∆ yt
≈ α1 + 2α2t
∆t

Uso de Variáveis com Tendência na Análise de Regressão

Considere um modelo onde dois fatores observados, xt1 e xt2 , afetam yt . Além disso, existem fatores não observados
que estão sistematicamente crescendo ou diminuindo ao longo do tempo. Um modelo que captura isso é

yt = β0 + β1 xt1 + β2 x12 + β3t + ut

Isso se encaixa na estrutura de regressão linear múltipla com xt3 = t. Permitir a tendência nesta equação reco-
nhece explicitamente que yt pode estar crescendo (β3 > 0) ou encolhendo (β3 < 0) ao longo do tempo por razões
essencialmente não relacionadas a xt1 e xt2 . Se a regressão acima satisfaz as suposições ST. 1, ST. 2, e ST.3,
então omitindo t da regressão e regredindo yt em xt1 , xt2 produzirá estimadores viesados de β1 e β2 : pois de fato
omitimos uma variável importante, t, da regressão.

Investimento imobiliário e preços de imóveis

Os dados contidos no arquivo HSEINV são observações anuais sobre investimento imobiliário e um ı́ndice
de preços de imóveis nos Estados Unidos de 1947 a 1988 . Sejam invpc o investimento imobiliário real per
capita (em milhares de dólares) e preço (price) um ı́ndice de preço de imóveis (igual a 1 em 1982 ). Uma
regressão simples na forma de elasticidade constante, que pode ser vista como uma equação de oferta do
estoque de imóveis, fornece o seguinte resultado:

\ = − 0, 550 + 1, 241 log(price)

log(invpc)
(0, 043) (0, 382)
n =42, R2 = 0, 208, R̄2 = 0, 189

A elasticidade do investimento per capita em relação ao preço é muito grande e estatisticamente significante;
porém, ela não é estatisticamente diferente de um. Devemos ter cuidado com isso. Tanto invpc como price
apresentam tendência crescente. Particularmente, se fizermos a regressão de log(invpc) sobre t, obteremos
um coeficiente da tendência igual a 0,0081 (erro padrão = 0, 0018 ); a regressão de log (price) sobre t gera
um coeficiente de t igual a 0,0044 (desvio padrão = 0, 0004 ). Embora os erros padrão dos coeficientes
não sejam necessariamente confiáveis - essas regressões tendem a conter correlação serial substancial - as
estimativas dos coeficientes revelam tendência crescente.
Para explicar o comportamento de tendência das variáveis, adicionamos uma tendência temporal ao mo-
delo:
\ = −0, 913 −0, 381 log(price) +0, 0098t
log(invpc)
(1, 36) (0, 679) (0, 00352)
n = 42, R2 = 0, 341, R̄2 = 0, 307
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 89

A história agora é muito diferente: a elasticidade estimada do preço é negativa e não é estatisticamente
diferente de zero. A tendência temporal é estatisticamente significante, e seu coeficiente indica um cresci-
mento de aproximadamente 1% em invpc ao ano, em média. Desta análise, não podemos concluir que o
investimento imobiliário real per capita não seja influenciado pelo preço. Existem outros fatores, captados
na tendência temporal, que afetam invpc e price, mas nós não os modelamos. Os resultados da primeira
regressão mostram uma relação espúria entre invpc e price em razão do fato de que o preço também tem
tendência crescente ao longo do tempo.

Sazonalidade

Se uma série temporal for observada em intervalos mensais ou trimestrais (ou mesmo semanais ou diários), ela
pode apresentar sazonalidade. Embora muitas séries de dados mensais e trimestrais exibam padrões sazonais, nem
todas o fazem. Por exemplo, não há um padrão sazonal perceptı́vel nas taxas de juros mensais ou nas taxas de
inflação. Além disso, as séries que exibem padrões sazonais costumam ser ajustadas sazonalmente antes de serem
divulgadas para uso público. Uma série com ajuste sazonal é aquela que, em princı́pio, teve os fatores sazonais
removidos. O ajuste sazonal pode ser feito de várias maneiras, e uma discussão cuidadosa está além do escopo
deste texto.
Às vezes, trabalhamos com dados sazonalmente não ajustados e é útil saber que métodos simples estão dis-
ponı́veis para lidar com a sazonalidade em modelos de regressão. Geralmente, podemos incluir um conjunto de
variáveis dummy sazonais para contabilizar a sazonalidade na variável dependente, nas variáveis independentes ou
em ambas.
Um modelo geral para dados mensais que capturam esses fenômenos é

yt =β0 + δ1 f evt + δ2 mart + δ3 abrt + . . . + δ11 dezt

+ β1 xt1 + . . . + βk xtk + ut

onde f evt , mart , . . . , dezt são variáveis dummy que indicam se o perı́odo de tempo t corresponde ao mês apropriado.
Nesta formulação, janeiro é o mês base e beta0 é a interceptação de janeiro. Se não houver sazonalidade em yt ,
uma vez que xt j tenham sido controlados, então delta1 até delta11 são todos zero. Isso é facilmente testado por
meio de um teste F.
90 Prof. Cleiton Guollo Taufemback
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 91

11 Questões Adicionais quanto ao Uso do MQO com Dados de Séries Temporais

92 Prof. Cleiton Guollo Taufemback
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 93

12 Correlação Serial e Heteroscedasticidade em Regressões de Séries Temporais

Neste capı́tulo, discutiremos o problema crı́tico da correlação serial no termo de erro de um modelo de regressão
múltipla. Vimos antes que uma das hipóteses era que os erros eram não serialmente correlacionados. Assim, um
teste para verificar correlação serial pode ser usado para detectar a má-especificação dinâmica. Além disso, mode-
los estáticos e de defasagens distribuı́das finitas muitas vezes possuem erros serialmente correlacionados, mesmo
se não houver má-especificação básica do modelo. Portanto, é importante conhecer as consequências e as soluções
da correlação serial dessas úteis classes de modelos.

12.1 As Propriedades do MQO com Erros Serialmente Correlacionados

Inexistência de Viés e Consistência

No Capı́tulo 10, provamos a inexistência de viés do estimador do MQO sob as três primeiras hipóteses de Gauss-
Markov para regressões de series temporais (ST.1 a ST.3). Particularmente, o Teorema 10.1 nada considerava sobre
a correlação serial nos erros. Por conseguinte, desde que as variáveis explicativas sejam estritamente exógenas, os
βbj serão não viesados, a despeito do grau de correlação nos erros. Isso é análogo à observação de que a heterosce-
dasticidade nos erros não causa viés em βbj

Eficiência e Inferência

Como o teorema de Gauss-Markov (Teorema 10.4) exige tanto a homoscedasticidade como os erros sem correlação
serial, o MQO não é mais BLUE na presença de correlação serial. Mais importante ainda, os habituais erros padrão
do MQO e testes estatı́sticos não são válidos, mesmo assimptoticamente. Podemos verificar isso calculando a
variância do estimador do MQO sob as quatro primeiras hipóteses de Gauss-Markov e o modelo de correlação
serial AR(1) para o termo de erro. Mais precisamente, presumimos que

ut = ρut−1 + et , t = 1, 2, . . . , n (12.1)

|ρ| < 1 (12.2)

em que os et são variáveis aleatórias não correlacionadas com média zero e variância σe2 ; a hipótese |ρ| < 1 é a
condição de estabilidade. Consideramos a variância do estimador de inclinação do MQO no modelo simples de
regressão
yt = β0 + β1 xt + ut
e, apenas para simplificar a fórmula, presumimos que a média amostral de x, é zero (x̄ = 0). Então, o estimador de
MQO βb1 de β1 pode ser escrito como
n
βb1 = β1 + SQT−1
x ∑ xt ut
t=1
n
em que SQTx = ∑t=1 xt2 . Agora, ao calcular a variância de βb1 (condicional em X ), devemos levar em conta a
correlação serial em ut
!
n
Var βb1 = SQT−2
x Var ∑ xt ut
t=1
!
n n−1 n−t
= SQT−2
x ∑ xt2 Var (ut ) + 2 ∑ ∑ xt xt+ j E (ut ut+ j ) (12.3)
t=1 t=1 j=1

n−1 n−t
= σ 2 /SQTx + 2 σ 2 /SQT2x ∑ ∑ ρ j xt xt+ j
t=1 j=1

em que σ 2 = Var (ut ) e utilizamos o fato de que E (ut ut+ j ) = Cov (ut , ut+ j ) = ρ j σ 2 . O primeiro termo na equação
(12.3), σ 2 /SQTx , é a variância de βb, quando ρ = 0, que é a variância familiar do MQO sob as hipóteses de
Gauss-Markov. Se ignorarmos a correlação serial e estimarmos a variância de maneira habitual, o estimador da
94 Prof. Cleiton Guollo Taufemback

variância será usualmente viesado quando ρ ̸= 0, pois ele ignora o segundo termo em (12.3). Como veremos mais
tarde, em outros exemplos, ρ > 0 é mais comum, caso em que ρ j > 0 para todos os j. Além disso, as variáveis
independentes em modelos de regressão, em geral são positivamente correlacionadas ao longo do tempo, de forma
que xr xt+ j é positivo para a maioria dos pares t e t + j. Portanto, na maioria das aplicações econômicas, o termo
n−1 n−t
∑t=1 ∑i=1 ρxr xt+ j é positivo e, assim, a fórmula usual da variância do MQO, σ 2 /SQTx , subestima a verdadeira
variância do estimador MQO. Se ρ for grande ou x, tiver um alto grau de correlação serial positiva - caso comum
o viés no estimador de variância usual do MQO pode ser substancial. Tenderemos a pensar que o estimador de
inclinação do MQO seja mais preciso do que na realidade é.
Quando ρ < 0, ρ ′ é negativo quandoj é ı́mpar, e positivo quando j é par e, portanto, é difı́cil determinar o
n−1 n−t
sinal de ∑t=1 ∑ j=1 ρxt xt+ j . De fato, é possivel que a fórmula usual da variância do MQO efetivamente exagere a
verdadeira variância de βb1 . Em qualquer caso, o estimador usual da variância será viesado para Var(βb1 ) na presença
de correlação serial.

A Correlação Serial na Presença da Variável Dependente Defasada

Iniciantes em econometria são com frequência alertados sobre os perigos de erros serialmente correlacionados
na presença da variável dependente defasada. Quase todos os manuais de econometria contêm alguma forma da
afirmação “o MQO é inconsistente na presença da variável dependente defasada e de erros serialmente correlacio-
nados”. Infelizmente, como declaração generalizada essa afirmação é falsa. Existe uma versão da afirmação que é
correta, mas é importante que seja bem precisa.
Para ilustrar, suponha que o valor esperado de yt , dado yt−1 , seja linear:

E (yt | yt−1 ) = β0 + β1 yt−1 (12.4)

em que presumimos estabilidade, |β1 | < 1. Sabemos que sempre podemos escrever essa equação com um termo
de erro como
yt = β0 + β1 yt−1 + ut (12.5)
E (ut | yt−1 ) = 0 (12.6)
Por construção, este modelo satisfaz a hipótese crucial ST.3 da consistência do MQO; portanto, os estimadores
de MQO, βb0 e βb1 , são consistentes. E importante verificar que, sem hipóteses adicionais, os erros {ui } podem ser
serialmente correlacionados. A condição (12.6) garante que u, ε não correlacionado com yt−1 , mas u, eyt−2 podem
ser correlacionados. Portanto, como u f −1 = yt−1 −β0 −β1 yt−2 , a covariância entre ut ut−1 ∈ −β1 cov (ut , yt−2 ) , que
não é necessariamente zero. Assim, os erros exibem correlação serial e o modelo contém uma variável dependente
defasada, mas o MQO estima consistentemente β0 e β1 porque esses são os parâmetros na expectativa condicional
(12.4). A correlação serial nos erros fará com que as estatı́sticas usuais de MQO não sejam válidas para a finalidade
de testes, mas não afetará a consistência.
Então, o MQO será inconsistente se os erros forem serialmente correlacionados e a regressão contiver uma
variável dependente defasada. Isso acontece quando escrevemos o modelo em forma de erro, exatamente como em
(12.5), mas presumimos que {ut } segue um modelo AR(1) estável, como em (12.1) e (12.2), em que

E (et | ut−1 , ut−2 , . . .) = E (et | yt−1 , yt−2 , . . .) = 0

Como et é não correlacionado com yt−1 por hipótese, Cov (yt−1 , ut ) = ρ Cov (yt−1 , ut−1 ) que não é zero, a menos
que ρ = 0. Isso faz com que os estimadores MQO de β0 e β1 da regressão de yt sobre yt−1 sejam inconsistentes.

12.2 O Teste da Correlação Serial

Nesta seção, discutimos vários métodos de testar a correlação serial nos erros, no modelo de regressão linear
múltipla
yt = β0 + β1 xn + . . . + βk xk + ur
Primeiro, consideramos o caso em que os regressores são estritamente exógenos. Lembre-se de que isso requer
que o erro, ut , seja não correlacionado com os regressores em todos os perı́odos de tempo, e, assim, entre outras
coisas, ele exclui modelos com a variável dependente defasada.
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 95

O Teste t de Correlação Serial AR(1) com Regressores

Embora haja numerosas maneiras de os termos de erros em um modelo de regressão múltipla poderem ser serial-
mente correlacionados, o modelo mais popular - e o mais simples de trabalhar − é o modelo AR(1) nas equações
(12.1) e (12.2). Na seção anterior, explicamos as implicações de executar o MQO quando os erros são, de forma
geral, serialmente correlacionados, e derivamos a variância do estimador de inclinação MQO em um modelo sim-
ples de regressão com erros AR(1). Agora mostramos como fazer o teste para verificar a presença de correlação
serial AR(1). A hipótese nula é a de que não há correlação serial. Portanto, assim como nos testes da heteroscedas-
ticidade, presumimos o melhor e exigimos que os dados forneçam evidência razoavelmente forte de que a hipótese
ideal de não existir correlação serial seja violada.
Primeiro, derivamos um teste de amostra grande, sob a hipótese de que as variáveis explicativas são estritamente
exógenas: o valor esperado de ut , dado o histórico completo das variáveis independentes, é zero. Alem disso, em
(12.1) devemos considerar
E (et | ut−1 , ut−2 , . . .) = 0 (12.7)
e
Var (et | ut−1 ) = Var (et ) = σe2 (12.8)
Essas são hipóteses padrão no modelo AR(1) (que decorrem quando {et } é uma sequência i.i.d.). Assim como
no teste de heteroscedasticidade, a hipótese nula é a de que a hipótese apropriada de Gauss-Markov é verdadeira.
No modelo AR(1), a hipótese nula de que os erros são serialmente correlacionados

H0 : ρ = 0

Como podemos testar essa hipótese? Se os u, fossem observados, sob (12.7) e (12.8), terı́amos

ut = ρut−1 + et , t = 2, . . . , n.

Sob a hipótese nula ρ = 0, {ut } é, sem dúvida, fracamente dependente. Em outras palavras, poderı́amos estimar
ρ da regressão de ut sobre ut−1 , para todos os t = 2, . . . , n sem um intercepto, e usar a estatı́stica t usual para
ρb Isso não funciona porque os erros ut não são observados. Mesmo assim, como no caso do teste de heterosce-
dasticidade, podemos substituir ut pelo correspondente resı́duo de MQO, ubt , Como ubt depende dos estimadores
MQO, βb0 , βb1 , . . . , βbk , não é óbvio que o uso de ubi em lugar de ut na regressão não tenha efeito na distribuição da
estatı́stica t. Felizmente, constata-se que, em razão da hipótese de exogeneidade estrita, a distribuição de amostra
grande da estatı́stica t não é afetada pelo uso dos resı́duos de MQO em lugar dos erros. Uma prova disso está muito
além do escopo deste texto, mas deriva do trabalho de Wooldridge (1991b).
Podemos resumir o teste assimptótico de AR(1) em correlação serial de maneira muito simples:

O teste AR(1) da correlação serial com regressores estritamente exógenos:

(i) Execute a regressão MQO de y, sobre x11 , . . . , x1k e obtenha os resı́duos do MQO, ubt , para todo t = 1, 2, . . . , n
(ii) Execute a regressão de
ubt sobre ubt−1 , para todo t = 2, . . . , n (12.9)
obtendo o coeficiente ρb de ubt−1 e sua estatı́stica t pb. (Essa regressão pode ou não conter um intercepto; a
estatı́stica t de ρb será levemente afetada, mas ela é assimptoticamente válida de qualquer maneira.)
(iii) Use tρb para testar H0 : ρ = 0 contra H1 : ρ ̸= 0, de maneira habitual. Na realidade, como ρ > 0 é frequente-
mente esperado a priori, a alternativa pode ser H1 : ρ > 0). Geralmente, concluı́mos que a correlação serial é
um problema a ser tratado somente se H0 for rejeitada no nı́vel de 5%. Como sempre, é melhor descrever o
p -valor do teste.

O teste de Durbin-Watson, é um teste conhecido porém já em desuso, sua fórmula é dada por
T
∑t=2 (et − et−1 )2
d= T
,
∑t=1 et2

onde T é o número de observações. Como d é aproximadamente igual a 2(1 − ρb), onde ρb é a autocorrelação de
amostra dos resı́duos, d = 2 indica que não há autocorrelação. O valor de d sempre está entre 0 e 4. Se a estatı́stica
Durbin – Watson for substancialmente menor que 2, há evidência de correlação serial positiva. Como regra geral,
se Durbin – Watson for menor que 1,0, pode haver motivo para alarme. Valores pequenos de d indicam que os
96 Prof. Cleiton Guollo Taufemback

termos de erro estão positivamente correlacionados. Se d > 2, os termos de erro sucessivos são correlacionados
negativamente. Em regressões, isso pode implicar uma subestimação do nı́vel de significância estatı́stica.
Em resumo, o teste de Durbin-Watson, por não possuir uma distribuição bem definida, não tem valores crı́ticos
e necessita da experiência do pesquisador para realizar o teste. Todavia, é um teste desenvolvido em 1950 e tem
importância histórica.

O teste da AR(1) em correlação serial no Capitulo 10 na curva de Phillips

No Capı́tulo 10, estimamos uma curva de Phillips estática que explicava a relação entre inflação e desem-
prego nos Estados Unidos (veja Exemplo 10.1). Agora, testamos o termo de erro em cada equação para verifi-
car a existência de correlação serial. Como a curva das expectativas aumentadas utiliza ∆ inf t = inft − inft−1
como variável dependente, temos algumas observações a fazer.
Para a curva de Phillips estática, a regressão em (12.9) produz ρb = 0, 573,t = 4,93 e p -valor = 0, 000
(com 48 observações durante o ano de 1996 ). Isso é uma evidência muito forte de correlação serial positiva,
de primeira ordem. Uma consequência disso é que os erros padrão e as estatı́sticas t do Capı́tulo 10 não
são válidos. Em contraposição, o teste para verificar correlação serial em AR(1) na curva de expectativas
aumentadas produz ρb = −0, 036,t = −0, 287 e p− valor = 0, 775 (com 47 observações): não existe evidência
de correlação serial em AR(1) na curva das expectativas aumentadas de Phillips.

O teste da correlação serial com regressores gerais:

(i) Execute a regressão MQO de yt sobre xt1 , . . . , xtk e obtenha os resı́duos MQO, ubt , para todo t = 1, 2, . . . , n
(ii) Execute a regressão de
ubt sobre xt1 , xt2 , . . . , xtk , ubt−1 , para todo t = 2, . . . , n (12.10)
para obter o coeficiente ρb de ubt−1 e sua estatı́stica, tρb
(iii) Utilize tρb para testar H0 : ρ = 0 contra H1 : ρ ̸= 0, de maneira habitual (ou use uma alternativa unilateral).
Assim, testamos não só a presença de correlação serial como de exogeneidade dos regressores.

O teste da correlação serial de ordem mais elevada

O teste a partir de (12.10) é facilmente estendido para ordens mais elevadas de correlação serial. Por exemplo,
suponha que queiramos testar
H0 : ρ1 = 0, ρ2 = 0 (12.11)
no modelo AR(2)
ut = ρ1 ut−1 + ρ2 ut−2 + er
O modelo alternativo de correlação serial permite testar correlação serial de segunda ordem. Como sempre, esti-
mamos o modelo por MQO e obtemos os resı́duos do MQO, ubr , Então, podemos executar a regressão de

ubt sobre xt1 , x2 , . . . , xtk , ubt−1 e ubt−2 , para todo t = 3, . . . , n

para obter o teste F da significância conjunta de ubt−1 e ubt−2 . Se essas duas defasagens forem conjuntamente
significantes em nı́vel suficientemente pequeno, digamos 5% então, rejeitamos (12.11) e concluı́mos que os erros
são serialmente correlacionados.

12.3 A correção da correlação serial com regressores estritamente exógenos

Se detectarmos correlação serial após aplicarmos um dos testes da Seção 12.2, teremos de fazer algo a respeito. Se
nossa meta for estimar um modelo com dinâmica completa, precisaremos reespecificar o modelo. Em aplicações
nas quais nossa meta não seja estimar um modelo totalmente dinâmico, teremos de encontrar um meio de realizar
inferência estatı́stica: como vimos na Seção 12.1, as estatı́sticas habituais de testes do MQO não mais são válidas.
Nesta Seção, começamos com o importante caso de correlação serial AR(1). A abordagem tradicional para esse
problema considera regressores fixos. O que na realidade é necessário é usar regressores estritamente exógenos.
Portanto, no mı́nimo, não devemos usar essas correções quando as variáveis explicativas incluı́rem variáveis de-
pendentes defasadas.
Resumo INTRODUÇÃO À ECONOMETRIA Jeffrey M. Wooldridge 4a Edição 97

A Obtenção do Melhor Estimador Linear Não-Viesado no Modelo AR(1)

Consideramos as Hipóteses ST.1 a ST.4 de Gauss-Markov, mas relaxamos a Hipótese ST.5. Em particular, assumi-
mos que os erros seguem o modelo AR(1)

ut = ρut−1 + et , para todo t = 1, 2, . . .

Lembre-se de que a Hipótese ST.3 implica ut tendo média condicional zero sobre X. Na análise seguinte, permiti-
mos que a condicionalidade sobre X esteja implı́cita, para simplificar a notação. Assim, escrevemos a variância de
ut como
Var (ut ) = σe2 / 1 − ρ 2

(12.12)
Para simplificar, considere o caso com uma única variável explicativa:

yt = β0 + β1 xt + ut , para todo t = 1, 2, . . . , n

Como o problema nessa equação é a correlação serial em ut , faz sentido transformar a equação para eliminar a
correlação serial. Para t ≥ 2, escrevemos

yt−1 = β0 + β1 xt−1 + ut−1

yt = β0 + β1 xt + ut

Agora, se multiplicarmos a primeira equação por ρ, subtraindo o resultado da segunda equação, teremos

yt − ρyt−1 = (1 − ρ)β0 + β1 (xt − ρxt−1 ) + et , t ≥2

em que usamos o fato de que et = ut − ρut−1 . Podemos escrever isso como

ỹt = (1 − ρ)β0 + β1 x̃t + et , t ≥2 (12.13)

em que
ỹt = yt − ρyt−1 , x̃t = xt − ρxt−1
são chamados de dados quase diferenciados. (Se ρ = 1, eles serão dados diferenciados, mas lembre-se de que
estamos considerando |ρ| < 1. ) Os termos de erro em (12.13) são serialmente não correlacionados; de fato, essa
equação satisfaz todas as hipóteses de Gauss-Markov. Isso significa que, se conhecêssemos ρ, poderı́amos estimar
β0 e β1 regredindo ỹ, sobre x̃n , desde que tivéssemos dividido o intercepto estimado por (1 − ρ)
Os estimadores MQO de (12.13) não são exatamente BLUE porque eles não usam o primeiro perı́odo de tempo.
Isso pode ser facilmente corrigido escrevendo-se a equação para t = 1, como

y1 = β0 + β1 x1 + u1 (12.14)

Como cada et é não correlacionado com u1 , podemos adicionar (12.14) em (12.13) e ainda assim ter erros
serialmente não correlacionados. Contudo, usando ( 12.12 ), Var (u1 ) = σ 2 / 1 − ρ 2 > σe2 = Var (et ) .[ A equação

(12.12) claramente não se sustenta quando |ρ| ≥ 1 razão pela qual consideramos a condição de estabilidade.]
1/2
Assim, temos de multiplicar (12.14) por 1 − ρ 2 para obter erros com a mesma variância:
1/2 1/2 1/2 1/2
1 − ρ2 y1 = 1 − ρ 2 β0 + β1 1 − ρ 2 x1 + 1 − ρ 2 u1

ou 1/2
ỹ1 = 1 − ρ 2 β0 + β1 x̃1 + ũ1 (12.15)
1/2 1/2
em que ũ1 = 1 − ρ 2 u1 , ỹ1 = 1 − ρ 2 y1 , e assim por diante. O erro em (12.15) tem variância Var (ũ1 ) =
1 − ρ 2 Var (u1 ) = σe2 , e assim podemos usar (12.15) com (12.13) em uma regressão MQO. Isso fornece esti-
madores BLUE de β0 e β1 sob as Hipóteses ST.1 a ST.4 e o modelo AR(1) de ut . Esse é outro exemplo de um
estimador de mı́nimos quadrados generalizados (ou MQG). Vimos outros estimadores MQG no contexto da hete-
roscedasticidade, no Capı́tulo 8. A adição de mais regressores muda pouca coisa. Para t ≥ 2, usamos a equação

yet = (1 − ρ)β0 + β1 xet1 + . . . + βk xetk + et (12.16)

98 Prof. Cleiton Guollo Taufemback
1/2 1/2 1/2
em que x̃t j = xt j −ρxt−1, j , Para t = 1, temos ỹ1 = 1 − ρ 2 y1 , x̃1 j = 1 − ρ 2 x1 j e o intercepto 1 − ρ 2 β0 .
Para um determinado ρ, é muito fácil transformar os dados e executar o MQO. A menos que ρ = 0, o estimador
MQG, isto é, MQO sobre os dados transformados, será, em geral, diferente do estimador MQO original. O esti-
mador MQG acaba sendo BLUE, e, como os erros na equação transformada são serialmente não correlacionados
e homoscedásticos, as estatı́sticas t e F da equação transformada são válidas (pelo menos assimptoticamente e, de
maneira exata, se os erros et forem normalmente distribuı́dos).

A Estimação MQG Factı́vel com Erros AR(1)

O problema com o estimador MQG é que ρ, raramente, é conhecido na prática. Contudo, já sabemos como obter um
estimador consistente de ρ : apenas regredimos os resı́duos de MQO sobre seus equivalentes defasados, exatamente
como na equação (12.9). Em seguida, usamos essa estimativa, ρ b no lugar de ρ para obter as variáveis quase
diferenciadas. Usamos, então, MQO na equação

yet = β0 xet0 + β1 xet1 + . . . + βk xetk + errot (12.17)

1/2
em que x̃t0 = (1 − ρb) para t ≥ 2 e x̃10 = 1 − ρb2 . Isso resulta no estimador MQG factivel (MQGF) de β j . O
termo de erro em (12.17) contem et e também os termos que envolvem o erro de estimação em ρb. Felizmente, o
erro de estimação em ρb não afeta a distribuição assimptótica dos estimadores MQGF.

A estimação do MQG factivel no modelo AR(1):

(i) Execute a regressio MQO de yt sobre xt1 , . . . , xtk e obtenha os resı́duos do MQO, ubt , t = 1, 2, . . . , n.
(ii) Execute a regressão na equação (12.9) e obtenha ρb.
(iii) Aplique o MQO à equação (12.17) para estimar β0 , β1 , . . . , βk , Os erros padrão, estatı́sticas t e estatı́sticas F
usuais são assimptoticamente válidas.

O custo de usar ρb em lugar de ρ é que o estimador MQGF factı́vel não tem propriedades de amostra finita
passı́veis de tratamento. Em particular, ele não é não-viesado, embora seja consistente quando os dados são fraca-
mente dependentes. Além disso, mesmo se et em (12.16) for normalmente distribuı́do, as estatı́sticas t e F serão
apenas aproximadamente distribuı́das como t e F, em razão do erro de estimação em ρb. Isso é bom para a maioria
dos propósitos, embora devamos ser cuidadosos com amostras de tamanhos pequenos.
Como o estimador MQGF não é não-viesado, certamente não podemos dizer que ele seja BLUE. No entanto,
ele será assimptoticamente mais eficiente que o estimador MQO quando o modelo AR(1) para correlação serial
for válido (e as variáveis explicativas forem estritamente exógenas). Mais uma vez, essa afirmação presume que as
séries temporais sejam fracamente dependentes.

Introdução à Econometria e Dados Econômicos

Enviado por

Introdução à Econometria e Dados Econômicos

Enviado por

Resumo

Prof. Cleiton Guollo Taufemback

Departamento de Estatı́stica, IME-UFGRS, e-mail: [Link]@[Link]

1 A Natureza da Econometria e dos Dados Econômicos

1.1 O que é Econometria?

1.2 Passos na Análise Econômica Empı́rica

Treinamento e Produtividade do Trabalhador

Um economista especializado em trabalho gostaria de examinar os efeitos do treinamento sobre a pro-

salarioh = f (educ, exper,treina), (1.1)

Um modelo econométrico completo para o exemplo acima poderia ser

salarioh = β0 + β1 edu + β2 exper + β3treina + u

1.3 A Estrutura dos Dados Econômicos

Dados de Corte Transversal

Nota: A variável obs é o número da observação atribuı́do a cada indivı́duo na amostra.

Dados de Séries de Tempo

Dados de Painel ou Longitudinais

nobsc cidade ano homicds populacao desemp policia

1.4 A Causalidade e a Noção de Ceteris Paribus na Análise Econométrica

Medindo o Retomo da Educação

Os economistas especializados em trabalho e os formuladores de polı́ticas públicas há muito se interessam

O Efeito do cumprimento da Lei sobre os Nı́veis de Criminalidade das Cidades

Propriedades da Esperança Matemática

Nas seguintes propriedades, {X,Y } são variáveis aleatórias, a, b, c são constantes.

Var(X) = E X 2 − [E(X)]2 = σx2

então temos que

2 O Modelo de Regressão Simples

2.1 Definição do Modelo de Regressão Simples

Produção de Soja e Fertilizantes

Suponha que a produção de soja seja determinada pelo modelo

producao = β0 + β1 f ertilizante + u (2.3)

E(u|x) = E(u) = 0 (2.5)

Em que situação você esperaria que esse modelo satisfaça (2.5)?

Figura 1 E[y|x] como função linear de x.

2.2 Derivação das Estimativas de Mı́nimos Quadrados Ordinários

Obtendo βb0 e βb1 :

Exemplo de como calcular β0 e β1

Suponha o seguinte banco de dados:

Começamos calculando a média de x e y: x̄ = (∑ni=1 xi )/n = (1 + 2 + 3)/3 = 2 e ȳ = (1, 1 + 1, 7 + 3, 2)/3 =

= (−1) × (−0, 9) + 0 + (1) × (1, 2)

Minimizando a Soma dos Resı́duos Quadrados

Formalmente, o problema é caracterizar as soluções β0 e β1 para o problema de minimização

ubi = yi − ybi = yi − βb0 − βb1 xi

Os valores estimados e os resı́duos estão indicados na Figura (3).

Figura 3 Valores e resı́duos.

Exemplo: Salários e Educação

salarioh = −0, 90 + 0, 54educ. (2.9)

Como rodar esse exemplo no R:

Residual standard error: 3.378 on 524 degrees of freedom

2.3 Mecânica do Método MQO

Valores Estimados e Resı́duos

Propriedades Algébricas das Estatı́sticas de MQO

Exercı́cio: Mostre que

2.4 Unidades de Medida e Forma Funcional

Incorporação de Não-Linearidades na Regressão Simples

em que log(·) é o logaritmo natural. Em particular, se E[u] = 0, então

%∆ salarioh ≈ (100 · β1 ) ∆ educ

100 · ∆ log(x) ≃ %∆ x. (2.12)

Porquê usamos log?

Uma Equação do Logaritmo dos Salários-Hora

Residual standard error: 0.4801 on 524 degrees of freedom

Tabela 1 Resumo das Formas Funcionais Envolvendo Logaritmos

O Significado da Regressão “Linear”

2.5 Valores Esperados e Variâncias dos Estimadores de MQO

Retomamos agora ao modelo populacional e estudaremos as propriedades estatı́sticas da estimação de MQO.

Inexistência de Viés em MQO

HIPÓTESE RLS.1 (LINEAR NOS PARÂMETROS)

HIPÓTESE RLS.2 (AMOSTRAGEM ALEATÓRIA)

A amostra aleatória de tamanho n, {(xi , yi ) : i = 1, 2, . . . , n}, é proveniente de um modelo populacional.

Podemos escrever (2.14), em termos da amostra aleatória como

HIPÓTESE RLS.3 (MÉDIA CONDICIONAL ZERO)

HIPÓTESE RLS.4 (VARIAÇÃO AMOSTRAL NA VARIÁVEL INDEPENDENTE)

TEOREMA 2.1 (INEXISTÊNCIA DE VIÉS EM MQO)

Usando as hipóteses RLS.1 a RLS.4,

∑ni=1 xi ∑n xi xi ∑ni=1 xi E [ui ] (2.17)

Para β0 temos que  

Então, condicional aos valores de xi ,

Para β0 temos que