0% acharam este documento útil (0 voto)
14 visualizações54 páginas

IND2515 Aula9

O documento aborda métodos de estimação paramétrica e aplicações de modelos de regressão linear, destacando a importância da escolha de parâmetros que minimizem o erro. Utiliza exemplos práticos para ilustrar a estimação de coeficientes por meio do Método de Mínimos Quadrados Ordinários (MQO) e discute a extensão para modelos de regressão linear múltipla. Além disso, apresenta conceitos como análise de variância, testes de hipóteses e coeficiente de determinação (R²) para avaliar a qualidade do ajuste dos modelos.

Enviado por

ISRAEL BRANDÃO
Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato PDF, TXT ou leia on-line no Scribd
0% acharam este documento útil (0 voto)
14 visualizações54 páginas

IND2515 Aula9

O documento aborda métodos de estimação paramétrica e aplicações de modelos de regressão linear, destacando a importância da escolha de parâmetros que minimizem o erro. Utiliza exemplos práticos para ilustrar a estimação de coeficientes por meio do Método de Mínimos Quadrados Ordinários (MQO) e discute a extensão para modelos de regressão linear múltipla. Além disso, apresenta conceitos como análise de variância, testes de hipóteses e coeficiente de determinação (R²) para avaliar a qualidade do ajuste dos modelos.

Enviado por

ISRAEL BRANDÃO
Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato PDF, TXT ou leia on-line no Scribd

IND2515– Métodos Probabilísticos

Mestrado Profissional em Logística

Aula 9
Estimação paramétrica, Métricas
e Aplicações dos Modelos de Regressão Linear

Prof. Paula Maçaira - [email protected]


Prof. Igor Peres – [email protected]
Estimação dos coeficientes

✓ Recordando a Função de Regressão Populacional de duas


variáveis:

✓ Como observamos a Função de Regressão Amostral, temos que


estimá-la a partir da Populacional. Assim, temos:

✓ Reescrevendo:

Como estimar os
coeficientes?!

IND2515 – Métodos Probabilísticos


Prof. Paula Maçaira & Igor Peres 2
Estimação dos coeficientes

✓ Estimar estes parâmetros equivale a escolher a reta que será


ajustada em torno dos pontos. Qual reta escolher?

✓ Vamos escolher os parâmetros que tornem o erro mínimo!


✓ Usar o Método de Mínimos Quadrados Ordinários (MQO)

IND2515 – Métodos Probabilísticos


Prof. Paula Maçaira & Igor Peres 3
Estimação dos coeficientes

IND2515 – Métodos Probabilísticos


Prof. Paula Maçaira & Igor Peres 4
Estimação dos coeficientes

IND2515 – Métodos Probabilísticos


Prof. Paula Maçaira & Igor Peres 5
Estimação dos coeficientes

IND2515 – Métodos Probabilísticos


Prof. Paula Maçaira & Igor Peres 6
Exemplo modelo de regressão linear simples
O gerente de uma empresa varejista está interessado em obter uma
equação que sintetize a relação entre o investimento em propaganda (X) e
o volume de vendas (Y) da empresa, com a finalidade de projetar o nível
de vendas em função do investimento no programa de marketing da
empresa.

Histórico (dados anuais) Diagrama de dispersão

Relação linear
entre as variáveis

N = 10 observações
Exemplo modelo de regressão linear simples
Modelo de regressão linear Y = b + b X + 
0 1
Estimação dos coeficientes por mínimos quadrados

N N N
N  X iYi −  X i  Yi
10  11016 − 265  379
bˆ1 = i =1 i =1 i =1
= = 0,97916 Equação de projeção
N
 N 
2
10  8019 − 265 2

N  X −  Xi 
i
2
Yˆ = 12,0382 + 0,9792 X
i =1  i =1 
bˆ0 = Y − bˆ1 X = 37,9 − 0,975916  26,5 = 12,03823
Exemplo modelo de regressão linear simples
Cálculo das somas dos quadrados total (SQT), da regressão (SQR) e dos
erros (SQE)
resíduos

Soma dos
Yˆ = 12,0382 + 0,9792 X quadrados Soma dos Soma dos
dos resíduos quadrados quadrados
SQE explicados pela totais SQT
regressão SQR
Exemplo modelo de regressão linear simples
Tabela da análise da variância (ANOVA)

Soma dos Graus de Quadrado


Fonte de
quadrados liberdade médio F
variação
(A) (B) (C=A/B)
Regressão SSR 1 949,08 949,08 / 38,98=24,35
949,08
Resíduo SSE N-2=8 38,98
311,82
Total SST N-1=9
1260,90

1 variável
explicativa 2 coeficientes O quadrado médio do
estimados  0 e  1 resíduo é uma estimativa
Coeficiente de Por isso N - 2 da variância do erro

ˆ 2
determinação R2

SSR 949.08
R2 = = = 0,75
SST 1260.90
Exemplo modelo de regressão linear simples
Testes de hipóteses
Inferência do modelo
Teste t: Testa a significância do coeficiente de regressão linear associado com
uma determinada variável explicativa.

H0 : b1 = 0 ( ausência do efeito ) 1
H1 : b1  0 ( presença do efeito )
Distribuição t
1) Estatística teste 2) Distribuição da
bˆ estatística testes sob H0
t=
̂ b bˆ
t= ~ tN −2
ˆ b
3) Valor da estatística
teste na amostra 4) t crítico ao nível de
observada (tcalculado) significância de 5% = 2,31
=INV.T(0,025;8) no Excel
0.9792
t= = 4,9354 5) Conclusão
0,0391
t > tcrítico logo rejeita H0
Exemplo modelo de regressão linear simples
Inferência do modelo

Intervalos de confiança com 95% de confiança

bˆi − bi
− t N − 2 (2,5% )   t N − 2 (2,5% )
Distribuição t

ˆ bi

K = número de variáveis independentes 95%


N = tamanho da amostra

12,0382 − b0
− 2,31   2,31  −0,8766  b0  24,9531
5,6

0,9792 − b1
− 2,31   2,31  0,5198  1  1,4320
0,1978
0 1
Modelo de regressão linear múltipla
O modelo de regressão linear simples pode ser facilmente estendido para o caso
multivariado, em que a variável dependente é explicada por um conjunto de duas
ou mais variáveis independentes.

Retomando o exemplo da empresa varejista, poderíamos explicar o faturamento


das vendas (y) em função do nível de investimento em propaganda (x1) e da renda
média familiar (x2) e descrever a relação entre estas variáveis por meio do
seguinte modelo linear:

y = b0 + b1 x1 + b2 x2 + 
A equação acima define um plano. Neste
caso, a estimação dos coeficientes de
regressão b por mínimos quadrados
consiste em ajustar um plano à nuvem de
pontos observados, de tal forma que seja
mínima a soma dos quadrados dos desvios
entre os pontos e plano de regressão.
Estimador de mínimos quadrados
Considere a seguinte especificação de um modelo de regressão linear
múltipla, cujos coeficientes são estimados a partir dos dados contidos
em uma amostra com N elementos, cada um caracterizado por uma
variável dependente e K variáveis independentes.

Yi = b0 + b1 X 1,i + b2 X 2 ,i +  + bk X K ,i +  i i=1,N

Onde b1, b2, b3,..., bk, são coeficientes a serem estimados

Em notação matricial Y = Xb + 
Dados da amostra
 Y1  1 X 11  X k1   1  b0 
Y  1 X 12 Xk2    b 
Y= 
2
X =   = 2 b =  1
       
       
YN  1 X 1N X kN   N  bk 
Estimador de mínimos quadrados
Estimador de Mínimos Quadrados

b = ( X ' X ) X 'Y
ˆ −1

onde

 N N N
  N 
 N  X 1,i  X 2 ,i   X K ,i    i  y
 N i =1
N N
i =1
N
i =1
  Ni =1 
 X 1,i X k ,i 
 X X   x1,i yi 

2
X 1,i X 2 ,i
i =1 i =1
1,i
i =1
1,i
i =1
  i =1 

X'X = N N N N  X 'Y =  N 
  X 2 ,i X 1,i X 2 ,i X 2
2 ,i  X 2 ,i X k ,i    x2,i yi 
 i =1 i =1 i =1 i =1   i =1 
      
N N N N   N

  X K ,i X X  X K ,i   xK ,i yi 
2
1,i X K ,i 2 ,i X K ,i
 i =1 i =1 i =1 i =1   i =1 
Estimador de mínimos quadrados
Propriedades do estimador de mínimos quadrados

()
E bˆ = b Estimador não tendencioso

 (bˆ ) =  (X ' X )
2 −1
Matriz de covariância dos estimadores

SQ Re síduos
ˆ =2

N −k
2
(
b ~ N K +1 b ,  ( X ' X )
ˆ −1
) O vetor de estimadores tem
distribuição normal multivariada

Se as hipóteses H1 até H6 forem satisfeitas, o estimador de mínimos


quadrados é o melhor estimador linear não tendencioso (Teorema de
Gauss Markov)
Modelo de regressão linear múltipla

Hipóteses

▪ Mesmas hipóteses assumidas na regressão linear simples.

▪ As variáveis explicativas não devem ser fortemente correlacionadas

Problemas de especificação

▪ Que variáveis explicativas X devem ser consideradas no modelo

▪ Qual a função matemática que relaciona a variável explicada Y


com as variáveis explicativas X.
Modelo de regressão linear múltipla
O modelo de regressão linear múltipla usa duas ou mais variáveis
independentes na previsão de uma variável dependente.

Expande o modelo de regressão linear simples acrescentando variáveis


independentes que tenham o maior poder preditivo adicional.

No exemplo dos cartões de crédito especificamos o seguinte modelo de


regressão linear simples:
nº de cartões = b0 + b1 tamanho da família + 

Podemos melhorar nossa previsão sobre o nº de cartões com a inclusão


da renda familiar como variável independente.
nº de cartões = b0 + b1 tamanho da família + b2 renda familiar + 

número de cartões de tamanho da renda familiar (milhares número de automóveis da


crédito usados (Y) família (X1) US$) (X2) família (X3)
número de cartões de 1,000
crédito usados (Y)
tamanho da família (X1) 0,866 1,000
renda familiar (milhares
0,829 0,673 1,000
US$) (X2)
número de automóveis da
0,342 0,192 0,301 1,000
família (X3)
Exemplo para ilustração dos princípios básicos envolvidos
Amostra de famílias:

identificação da número de cartões de tamanho da renda familiar número de automóveis da


família crédito usados (Y) família (X1) (milhares US$) (X2) família (X3)
1 4 2 14 1
2 6 2 16 2
3 6 4 14 2
4 7 4 17 1
5 8 5 18 3
6 7 5 21 2
7 8 6 17 1
8 10 6 25 2

Estimador de
mínimos
quadrados

Estimativas dos coeficientes de regressão linear

Y = 0,482 + 0,63X1 + 0,216 X 2


Exemplo para ilustração dos princípios básicos envolvidos
Equação de previsão:Yˆ = 0,482 + 0,63 X 1 + 0,216 X 2

Soma dos quadrados dos erros (SQE) = 3,05

Soma dos quadrados totais (SQT) = 22 , esta quantidade permanece constante


para qualquer número de variáveis independentes.

Soma dos quadrados explicados pela regressão (SQR) = 22 – 3,05 = 18,95

Coeficiente de determinação (R2) = 18,95 / 22 = 0,86 ou 86 %

Na regressão linear simples: A inclusão de mais uma variável


nº de cartões = b0 + b1 tamanho da família +  melhora a qualidade do ajuste
SSE = 5,49 conforme indicado pela comparação
R2 = 0,75 com a regressão linear simples
Exemplo para ilustração dos princípios básicos envolvidos
Incluindo mais uma variável explicativa: o número de automóveis
Yˆ = 0,286 + 0,635 X1 + 0,1995 X 2 + 0,2716 X 3

Soma dos quadrados dos resíduos (SQE) = 2,81


Soma dos quadrados totais (SQT) = 22
Soma dos quadrados explicados pela regressão (SQR) = 22 – 2,81 = 19,19

Coeficiente de determinação (R2) = 19,19 / 22 = 0,87 ou 87 %

A inclusão da terceira variável independente aumentou o R2 em apenas 1%.

Quando construímos um modelo de regressão devemos buscar o equilíbrio entre


parcimônia e qualidade do ajuste.

O modelo com duas variáveis independentes é mais parcimonioso que o modelo com três
variáveis independentes e neste caso a adição da terceira variável não melhorou
efetivamente a qualidade do ajuste, logo é melhor empregar o modelo com apenas duas
variáveis explicativas.
Interpretação dos coeficientes de regressão
Equação de regressão linear múltipla

Yi = b0 + b1 X 1,i + b2 X 2 ,i +  + bk X K ,i +  i
Onde b1, b2, b3,..., bk, são coeficientes a serem estimados

Em notação matricial b0 


b 
Yi = 1 X i ,1  X i , K   1
+ i

 
bk 
Os coeficientes de regressão b1, b2,...,, bk fornecem uma estimativa da
mudança na variável dependente associada com o incremento de uma
unidade na variável independente correspondente, mantendo as demais
variáveis independentes constantes.
Exemplo modelo de regressão linear múltipla
Uma empresa de artigos infantis opera em 21 cidades de médio porte. A empresa
está analisando a possibilidade de expansão em outras cidades de médio porte e
para isso deseja investigar se a vendas (Y) em uma localidade podem ser preditas
com base no número de pessoas com até 16 anos de idades (X1) e a renda per
capita na localidade (X2).

Atualmente a empresa está presente em 21 localidades (N = 21), cujos dados são


apresentados na tabela abaixo:
X1 X2 Y
68,5 16,7 174,4 300 300

45,2 16,8 164,4 250 250

91,3 18,2 244,2


200
47,8 16,3 154,6 200

46,9 17,3 181,6


Y

Y
150 150

66,1 18,2 207,5 100


100

49,5 15,9 152,8


50

52 17,2 163,2 50

48,9 16,6 145,4 0


30 40 50 60 70 80 90 100
0
15 16 17 18 19 20

38,4 16 137,2 X1
X2
87,9 18,3 241,9
72,8 17,1 191,1
88,4 17,4 232
42,9 15,8 145,3
52,5 17,8 161,1 Modelo de regressão linear múltipla a ser estimado
85,7 18,4 209,7
41,3 16,5 146,4
51,7
89,6
82,7
16,3
18,1
19,1
144
232,6
224,1
Y = b0 + bX 1 + b2 X 2 + 
52,3 16 166,5
Exemplo modelo de regressão linear múltipla
Os dados das 21 localidades podem ser dispostos em um gráfico, onde cada
localidade é representada por um ponto.

A equação de regressão E(Yi X1 , X 2 ) = b0 + b1 X1 + b2 X 2 define um plano

passando pelo meio da nuvem de pontos. Este plano representa o valor esperado
das vendas em função da renda e da população abaixo de 16 anos em uma
localidade
Exemplo modelo de regressão linear múltipla
Modelo de regressão linear Yi = b0 + bX 1, i + b2 X 2, i +  i
Estimação dos coeficientes de regressão por mínimos quadrados

Dados 21,00 1.302,40 360,00


X X=
T 1.302,40
360,00
87.707,94
22.609,19
22.609,19
6.190,26
174,4 1 68,5 16,7
164,4 1 45,2 16,8

(X X )
244,2 1 91,3 18,2
−1 29,7289 0,0722 -1,9926
=
154,6 1 47,8 16,3 T 0,0722 0,0004 -0,0055
181,6 1 46,9 17,3
-1,9926 -0,0055 0,1363
207,5 1 66,1 18,2
152,8 1 49,5 15,9
163,2 1 52 17,2 3.820,00

Y=
145,4
137,2
X=
1
1
48,9
38,4
16,6
16 X Y=
T
249.643,35
66.072,75
241,9 1 87,9 18,3
191,1 1 72,8 17,1

232
145,3
161,1
1
1
1
88,4
42,9
52,5
17,4
15,8
17,8
b = XTX ( )−1
X TY
209,7
 bˆ0   − 68,8571
1 85,7 18,4
146,4
  
1 41,3 16,5
144 1 51,7 16,3
ˆ 
232,6 1 89,6 18,1  b1  =  1,4546 
224,1
166,5
1 82,7 19,1
 ˆ   
   
1 52,3 16 b2 9 ,3655
Exemplo modelo de regressão linear múltipla
Cálculo da soma dos quadrados totais (SST), da regressão (SSR) e do erro (SSE)

Valores estimados
pela regressão
SSE SSR
Yˆi = −68,8571 + 1,4546 X1i + 9,3655 X 2i
SST
Exemplo modelo de regressão linear múltipla
Tabela da análise da variância (ANOVA)

Soma dos Graus de Quadrado


Fonte de
quadrados liberdade médio F
variação
(A) (B) (C=A/B)
Regressão SSR 2 12007,64 12007,64 / 121.1626 =
24015,28 99,1035
Resíduo SSE N-3=18 121,1626
2180,93
Total SST N-1=20
26196,21

2 variáveis
explicativas 3 coeficientes O quadrado médio do
estimados resíduo é uma estimativa
Coeficiente de Por isso N – 3 da variância do erro

ˆ 2
determinação R2
SSR 24015.28
R =
2
= = 0,917
SST 26196,21
Exemplo modelo de regressão linear múltipla
Inferência do modelo
Teste F: Testa o efeito conjunto das variáveis explicativas sobre a variável
dependente.
H0 : b1 = b2 = 0 ( não há regressão de Y em X1 e X2)
H1 : b1  0 ou b2  0 ( presença do efeito )

1) Estatística teste 2) Distribuição da


SSR estatística testes sob H0
F= K SSR
SSE K ~ FK , N −( K +1)
N − (K + 1)
SSE Distribuição F
N − (K + 1)

3) Valor da estatística 4) F crítico ao nível de


teste na amostra significância de 5% = 3,5546
observada (Fcalculado) =FINV(0,05;2;18) no Excel
12.007,64
F= 2 = 99,1035
5) Conclusão
121,1626
Fcalculado > Fcrítico logo rejeita H0
21 − (2 + 1)
Exemplo modelo de regressão linear múltipla
Inferência do modelo
Teste t: Testa a significância do coeficiente de regressão linear associado com
uma determinada variável explicativa.

H0 : b1 = 0 ( ausência do efeito )
H1 : b1  0 ( presença do efeito )

1) Estatística teste 2) Distribuição da


estatística testes sob H0 Distribuição t
bˆ1
t= bˆ1
ˆ ˆ ~ t N −3
1 ˆ ˆ
1

3) Valor da estatística 4) t crítico ao nível de


teste na amostra significância de 5% = 2,1
observada (tcalculado) =TINV(0,05;18) no Excel

1,4546 5) Conclusão
t= = 6,8682
0,2118 tcalculado > tcrítico logo rejeita H0
Exemplo modelo de regressão linear múltipla
Inferência do modelo
Teste t: Testa a significância do coeficiente de regressão linear associado com
uma determinada variável explicativa.
H0 : b2 = 0 ( ausência do efeito )
H1 : b2  0 ( presença do efeito )

1) Estatística teste 2) Distribuição da


estatística testes sob H0 Distribuição t
bˆ2
t= bˆ2
ˆ ˆ ~ t N −3
2 ˆ ˆ
2

3) Valor da estatística 4) t crítico ao nível de


teste na amostra significância de 5% = 2,1
observada (tcalculado) =TINV(0,05;18) no Excel

9,3655 5) Conclusão
t= = 2,3045
4,0640 tcalculado > tcrítico logo rejeita H0
Exemplo modelo de regressão linear múltipla
Inferência do modelo
Intervalos 95% de confiança para os coeficientes da equação de regressão

bˆi − bi Distribuição t
− t N − ( K +1) (2,5% )   t N −( K +1) (2,5% )
ˆ bi
K = número de variáveis independentes
95%
N = tamanho da amostra

− 68,8571 − b0
− 2,1   2,1  −194,948  b0  57,2339
60,0170

1,4546 − b1
− 2,1   2,1  1,0096  b1  1,8995
0,2118
9,3655 − b2
− 2,1   2,1  0,8274  b2  17,9036
4,0640
R2 ajustado
Problema com a estatística R2 : sempre aumenta a medida que novas variáveis
são incluídas no modelo de regressão linear múltipla, independentemente da
variável adicionada.

No entanto cada variável adicionada ao modelo tem um custo, pois mais um


coeficiente deve ser estimado. Então é interessante ter uma medida que permita
avaliar o benefício para melhoria do modelo com a adição de uma nova variável
explicativa em relação ao custo de estimar mais um coeficiente. PARCIMÔNIA!

Esta medida é o R2 ajustado

n −1
R 2
ajustado = 1−
n−k
(1− R )
2

Onde
n é o tamanho da amostra
K é o número de parâmetros da equação de regressão.

O R2 ajustado é útil quando desejamos comparar dois modelos diferentes ou


comparar um mesmo modelo com tamanhos de amostras diferentes
Detectando problemas no modelo

Violações nas premissas básicas do modelo de regressão linear:

• Multicolinearidade (redundânca entre varáveis explicativas)

• Heterocedasticidade (a variância do erro não é uma constante)

• Autocorrelação: os erros são autocorrelacionados

Na literatura estatística, sobretudo na econometria, são encontrados


diversos procedimentos (gráficos e teste de hipóteses) que permitem
detectar as eventuais violações das premissas básicas do modelo de
regressão linear.

Uma vez detectada a presença de violações das premissas, a solução


consiste na reformulação da especificação do modelo e/ou aplicação
de mínimos quadrados generalizados.
Variável dummy
 Variável explicativa que assume apenas dois valores: 0 e 1 (variável indicadora)

 Indica a ocorrência ou não de um evento ou a presença ou não de uma condição

 Permite inserir variáveis qualitativas no modelo de regressão: estado civil, sexo.


nível de escolaridade (1º grau, 2º grau e superior)

Dummy = 1 se sexo masculino , Dummy = 0 se sexo feminino

 Permite distinguir o comportamento de um fenômeno em períodos de tempo


com características diversas (Séries Cronológicas – sazonalidade, mudanças de
política econômica) ou em distintas unidades de observação (Cross-Section -
como localidade)

Dummy = 1 se após plano real


Dummy = 0 se antes do plano real

Dummy1 = 1 se verão Dummy2 = 1 se outono Dummy3 = 1 se primavera


Dummy1 = 0 se não é verão Duumy2 = 0 se não é outono Dummy3 = 0 se não é primavera

▪ Se há K categorias K-1 dummies são suficientes


Variável dummy
Exemplo: Modelo da demanda por energia elétrica com dados anuais

Qi =  0 +  1Ti +  2Yi +  3 Di + ui

Qt = demanda de energia elétrica no ano t


Tt = tarifa média no ano t
Yt = renda agregada no ano t
Dt = variável dummy:
0 – se ano t não tem horário de verão
1 – se ano t tem horário de verão

E (Qi ) =  0 +  1Ti +  2Yi Para ano sem horário de verão

E (Qi ) = ( 0 + 3 ) + 1Ti +  2Yi Para ano com horário de verão


Variável dummy
Exemplo: Modelo da demanda por energia elétrica com dados anuais
Séries das variáveis consideradas no modelo
Ano 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990
Q 69 76 81 90 94 100 103 108 113 115
T 143 134 117 111 109 100 137 122 85 90
Y 84 85 82 86 93 100 104 104 137 102
D 0 0 0 0 1 1 1 1 1 1

 69  1 143 84 0
 76  1
   134 85 0

 81  1 117 82 0
   
 90  1 111 86 0
 94  1 109 93 1
Y =   X =  
100  1 100 100 1
103 1
  137 104 1
 
108 1 122 104 1
113 1
  85 137 1
 

115  1
1 90 102 
Exemplo 2
Previsão de vendas trimestrais com modelo de regressão linear

3000

2500

2000
Vendas ($)

1500

1000

500

0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
trimestres

A série apresenta tendência e sazonalidade


Exemplo 2

Vendast =  0 + 1t +  2 t 2 +  3 D1t +  4 D2 t +  5 D3t + ut t = contador de


trimestres

tendência sazonalidade No histórico t


vai de 1 até 20

4 trimestres, logo a sazonalidade é representada por 3 dummies

1 Se primeiro trimestre
D1t 
0 Se não é primeiro trimestre

1 Se segundo trimestre
D2 t 
0 Se não é segundo trimestre

1 Se terceiro trimestre
D3t 
0 Se não é terceiro trimestre
Exemplo 2

Vendast =  0 + 1t +  2 t 2 +  3 D1t +  4 D2 t +  5 D3t + ut

Vendas esperadas

E (Vendast ) =  0 + 1t +  2 t 2 +  3 primeiro trimestre

E (Vendast ) =  0 + 1t +  2 t 2 +  4 segundo trimestre

E (Vendast ) =  0 + 1t +  2 t 2 +  5 terceiro trimestre

E (Vendast ) =  0 + 1t +  2 t 2 quarto trimestre


Exemplo 2

Histórico

Objetivo: com base no histório


1998 – 2002 gerar previsões
trimestrais para 2003
Exemplo 2
Valores maiores que o nível de significância usual
5%, logo aceito as hipótese nulas  1 =0 e  3 =0
RESUMO DOS RESULTADOS
Menor que os nívei de
Estatística de regressão significância usual 5%, logo
R múltiplo 0,992741
rejeito a hipótese nula
R-Quadrado 0,985534 R2
R-quadrado ajustado0,980368 (H0: 1=  2 =  3 =  4 =  5 = 0)
Erro padrão 82,19265
Observações 20

ANOVA
gl SQ MQ F F de significação
Regressão 5 6443613,818 1288723 190,7628 2,31527E-12
Resíduo 14 94578,83513 6755,631
Total 19 6538192,653

Coeficientes Erro padrão Stat t valor-P 95% inferiores 95% superiores


Interseção 824,4727 71,38844455 11,54911 1,53E-08 671,3595927 977,5858361
Period 17,31886 13,43309658 1,289268 0,2182 -11,49229666 46,13000806
Time^2 3,485476 0,620679918 5,615577 6,37E-05 2,154248511 4,81670293
1 -86,805 52,88906781 -1,64127 0,123007 -200,2408838 26,63085515
2 -424,737 52,40244365 -8,10528 1,18E-06 -537,1289039 -312,3445769
3 -123,453 52,09941535 -2,36957 0,032719 -235,1955882 -11,71112443

Modelo completo, mesmo com as variáveis não significativas!

Vendast = 824, 47 + 17 ,31t + 3, 46 t 2 − 86,81D1t − 424,74 D 2 t − 123, 45 D 3


Exemplo 2
3000

2500

2000
vendas

previsto
1500
observado

1000

500

0
0 5 10 15 20 25
trimestres
Exemplo 2
Previsão de vendas para o trimestre t

Vendast = 824,47 + 17,31t + 3,46t 2 − 86,81D1t − 424,74 D2 t − 123,45 D3t

Previsão de vendas para o primeiro trimestre de 2003 (t=21)


Vendas21 = 824,47 + 17,31 21 + 3,46  212 − 86,81 = 2527,03

Previsão de vendas para o segundo trimestre de 2003 (t=22)


Vendas22 = 824,47 + 17,31 22 + 3,46  222 − 424,74 = 2455,19

Previsão de vendas para o terceiro trimestre de 2003 (t=23)


Vendas23 = 824,47 + 17,31 23 + 3,46  232 − 123,45 = 2929,49

Previsão de vendas para o quarto trimestre de 2003 (t=24)

Vendas24 = 824,47 + 17,31 24 + 3,46  242 = 3109,42


Métricas de Avaliação

❑ Akaike Information Criterion

❑ Schwarz Criterion

❑ Durbin-Watson statistic

❑ MAPE (Mean Absolute Percentual Error)

❑ RMSE (Root Mean Square Error)

❑ MAD (Mean Absolute Deviation)

❑ RMSE (Root Mean Square Error)

IND2515 – Métodos Probabilísticos


Prof. Paula Maçaira & Igor Peres 44
Entendendo o Erro do modelo (ruído)

Yi =  0 + 1 X i
Akaike Information Criterion

✓ O AIC (Akaike Information Criterion) é usado na seleção de modelos:

onde k é o número de parâmetros estimados, n é o número de


observações e l é o valor do log da verossimilhança usando os k
parâmetros estimados
Schwarz Criterion

✓ O SC (Schwarz Criterion) é uma alternativa ao AIC. A penalidade pelo


número de coeficientes adicionais é maior:

O modelo com o menor AIC (SC) é considerado o melhor entre os


modelos comparados.
Durbin-Watson statistic

✓ A estatística DW (The Durbin-Watson statistic) mede a correlação


serial nos resíduos;
✓ E dada por:

Como “regra de bolso”, se o DW é menor que 2, existe evidencia de


correlação serial positiva. Se o DW é próximo de 1, está indicando a
presença de autocorrelação serial nos resíduos.
MAPE (Mean Absolute Percentual Error)

✓ Calculado através da diferença entre os valores estimados e reais


e equivale as previsões 1 passo à frente;

✓ Formalmente:
^

N
Y (t ) − Y (t )

t =1 Y (t )
x100
MAPE =
N
Y(t) é o valor da série temporal no período (t);
^
Y (t ) é o valor ajustado da série temporal para o período (t);
N – total de observações;
OBS: quanto menor o MAPE, melhor.
MAD (Mean Absolute Deviation)

✓ Também calculado através da diferença entre os valores


estimados e reais e equivale as previsões 1 passo à frente;

✓ No entanto, não pode ser lido em termos percentuais, e sim na


unidade de medida da variável de interesse;

✓ Formalmente:
N ^
 Y (t ) − Y (t )
MAD = t =1
N

OBS: quanto menor o MAD, melhor.


RMSE (Root Mean Square Error)

✓ Também calculado através da diferença entre os valores estimados


e reais e equivale as previsões 1 passo à frente;

✓ No entanto, é feito um calculo da raiz do erro quadrático (muito


próximo do MAD);

✓ Formalmente:

2
 N ^

 

Y (t ) − Y ( t ) 

RMSE = t =1
N

OBS: quanto menor o RMSE, melhor.


Mais Exemplos
código Descrição
• Engenharia
preco Valor de Avaliações:
do imóvel em R$ preço do imóvel
area tamanho do imóvel em m2
cob É cobertura?
cond Valor do condomínio em R$
quarto Número de quartos
homicídio Nível de homicídio na região
praia Prédio fica no quarteirão da praia
suites Número de suítes do apartamento
vista Vista é boa?
metro Perto do metro?
vagas Número de vagas na garagem
varanda Há varanda?
52
Mais Exemplos
• Engenharia de Avaliações: preço do imóvel
– Transformar variáveis qualitativas em quantitativas. Como fazer isso?
✓ Variáveis Dummies;
! Cuidado: Multicolinearidade
– Transformar variáveis qualitativas em quantitativas.
✓ Variáveis Dummies;
✓ cob (se sim; 1; caso contrário=0); praia (se sim; 1; caso
contrário=0); suites (se sim; 1; caso contrário=0); vista
(se sim; 1; caso contrário=0); metro (se sim; 1; caso
contrário=0); varanda (se sim; 1; caso contrário=0);
✓ Nova Dummy: d_preco (se > média_preço; 1; caso
contrário=0);
– Qual é o “sinal esperado” das variáveis?

53
Dúvidas?!
• Próxima aula:
• Introdução a Séries Temporais e Modelos de
Previsão.

Você também pode gostar