0% acharam este documento útil (0 voto)
21 visualizações61 páginas

Regressao FIA

O documento aborda a análise multivariada e regressão, destacando a importância da estatística em decisões financeiras e previsões em ambientes de incerteza. Ele descreve os objetivos das técnicas de regressão, a relação entre variáveis dependentes e independentes, e os passos para realizar uma análise de regressão linear. Exemplos práticos são apresentados, ilustrando como a análise pode ser utilizada para prever vendas com base em variáveis como preço e experiência do gerente.

Enviado por

dfavero
Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato PDF, TXT ou leia on-line no Scribd
0% acharam este documento útil (0 voto)
21 visualizações61 páginas

Regressao FIA

O documento aborda a análise multivariada e regressão, destacando a importância da estatística em decisões financeiras e previsões em ambientes de incerteza. Ele descreve os objetivos das técnicas de regressão, a relação entre variáveis dependentes e independentes, e os passos para realizar uma análise de regressão linear. Exemplos práticos são apresentados, ilustrando como a análise pode ser utilizada para prever vendas com base em variáveis como preço e experiência do gerente.

Enviado por

dfavero
Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato PDF, TXT ou leia on-line no Scribd

Análise Multivariada e Regressão

Pós-Graduação em Engenharia Financeira


Prof. Prof. Daniel Bergmann
Prof. Daniel Bergmann
Professor Doutor do Departamento de Administração
da FEA-USP,
Treinamento na FIA, Saint Paul Escola de Negócios,
Hospital Albert Einsten e Poli-USP.
Head em Data Science na Epistemics Inteligência de
Dados Ltda.
Consultor de Projetos no IBEVAR-FIA.
Foi Diretor Técnico no Instituto de Previdência do
Municipio de São Paulo (IPREM-SP).
Contato: [email protected]
Porque estudar estatística no ambiente de
negócios?
Estatística

• Tomar decisões financeiras ou prever preços,


taxas, índices etc num ambiente de incertezas
• Qual será o nível de vendas da empresa no
próximo ano?
• Qual será o retorno esperado da ação da
Petrobrás amanhã?
• Os gastos com propaganda provocam um
significativo aumento no nível de vendas?
Objetivos das técnicas de
regressão
• Investigação de dependência entre variáveis;
• Avaliação da importância relativa das variáveis para:
• Explicação de um fenômeno;
• Elaboração de previsões.

http://tbn0.google.com/images?q=tbn:bxYQMZckDtDn0M:http://www.astrobrasil.com.br/site/wp-content/uploads/previsoes.jpg
Relação funcional entre
as variáveis

• Variável dependente (y)


• Será expressa em função de uma ou mais
variáveis
• independentes
• Serão projetados os seus valores futuros
• Variável(is) independente(s) ou explicativas
• Utilizadas para compreensão do
comportamento da variável dependente
Análise de regressão linear

• Passos da análise de regressão


• Seleção de variáveis independentes com alta
correlação com y
• Relação de causa e efeito entre x e y
• Estimação dos parâmetros do modelo
• Testes de significância do modelo
RELAÇÃO FUNCIONAL ENTRE
AS VARIÁVEIS
◼ Variável dependente

• Será expressa em função de uma ou mais


variáveis independentes
• Serão projetados os seus valores futuros

◼ Variável(is) independente(s) ou explicativas

• Utilizadas para compreensão do comportamento


da variável dependente
RELAÇÃO FUNCIONAL ENTRE
AS VARIÁVEIS
◼ Relação de causa e efeito

• Variável(is) independentes(s): causa(s)


• Variável dependente: efeito

◼ Coeficiente de correlação de Pearson

• Medida do grau de relacionamento entre 2 variáveis


• Escala das variáveis: quantitativa
• Natureza da relação entre as variáveis: sinal e
magnitude
COEFICIENTE DE CORRELAÇÃO DE PEARSON
Y Y

X X
Forte relação positiva Ausência de relação

Y Y

X X
Fraca relação negativa Relação linear perfeita
CUIDADOS NA INTERPRETAÇÃO DE r

◼ Correlação não implica necessariamente relação de


causa e efeito

◼ Então, por que existe correlação?

◼ Há três possíveis explicações:

• Existe, de fato, relação de causa e efeito;


• Ambas as variáveis estão relacionadas com uma
terceira; ou
• A correlação deve-se ao acaso.
RELAÇÃO LINEAR ENTRE AS VARIÁVEIS
2500
Forte Correlação Linear Positiva entre as Variáveis
2000
Vendas de Caixas

1500

1000

500

0
0 20 40 60 80 100 120 140
Gasto com Mídia

Coeficiente de Correlação Linear: r = 0,978

O coeficiente de correlação é uma medida descritiva da força da


associação linear entre duas variáveis. Os valores do coeficiente de
correlação estão sempre entre –1 e 1.
RELAÇÃO LINEAR ENTRE AS VARIÁVEIS
Forte Correlação Linear Negativa entre as Variáveis
45
40
35
30
Lucro

25
20
15
10
5
0
0 5 10 15 20 25 30
Custo

Coeficiente de correlação: -0,98


RELAÇÃO LINEAR ENTRE AS VARIÁVEIS
Fraca Correlação Linear Negativa entre as Variáveis

40
35
30
25
Lucro

20
15
10
5
0
0 5 10 15 20 25 30
Custo

Coeficiente de correlação: -0,55


RELAÇÃO LINEAR ENTRE AS VARIÁVEIS
Praticamente não existe Correlação Linear entre as variáveis

30

25

20

15

10
0 5 10 15 20 25 30

Coeficiente de correlação: -0,08


COEFICIENTE DE CORRELAÇÃO
r : Coeficiente de correlação linear entre duas variáveis

-1 < r < 1
r = 0 não existe correlação linear entre as variáveis
r = 1 existe correlação linear positiva perfeita entre as variáveis
r = - 1 existe correlação linear negativa perfeita entre as
variáveis

l r l > 0,70 existe uma forte correlação linear entre as variáveis


l r l < 0,70 existe uma fraca correlação entre as variáveis
ANÁLISE DE REGRESSÃO LINEAR

◼ Passos da análise de regressão

• Seleção de variáveis independentes com alta


correlação com y

• Relação de causa e efeito entre y e x

• Estimação dos parâmetros do modelo

• Testes de significância do modelo


REGRESSÃO LINEAR
SIMPLES
Exemplo 1 – A empresa Previpeças S.A., fabricante de autopeças,
deseja projetar as quantidades de peças a serem vendidas no próximo
ano. Como a empresa entende que a quantidade de peças vendidas
pode ser explicada por seu preço, pretende definir um modelo que
relacione essas variáveis.

Anos Quantidade (q) (1.000 un.) Preço (p) ($ 1.000)


1 2 4
2 1 6
3 3 3
4 1 5
5 4 1
6 3 2

Arquivo “Previpeças.xls”
R2: COEFICIENTE DE EXPLICAÇÃO OU DETERMINAÇÃO (AJUSTE)

◼Reflete o poder explicativo do modelo e a qualidade


do ajuste

◼Indica a proporção da variação total da variável


dependente y explicada pela equação de regressão

0  R 1 2
• Análise de dados com EXCEL
• Análise de dados com EXCEL
Coeficiente de Correlação
RESUMO DOS RESULTADOS Linear de Pearson
Estatística de regressão Coeficiente de Determinação:
R múltiplo 0,971008312 nesse exemplo 94,28% da
R-Quadrado 0,942857143
variação de y é explicada pela
R-quadrado ajustado 0,928571429
variação de x.
Erro padrão 0,323669437
Observações 6
Coeficiente de Determinação
que leva em conta a
quantidade de variáveis e
observações
Número de Observações

Erro de estimativa da média


TESTE t-STUDENT
◼ Significância dos parâmetros
◼ Hipóteses:

H 0 :  = 0 x H1 :   0
H 0 : i = 0 x H1 : i  0
◼ Nível significância do teste: 5%, em geral

Coeficientes Erro padrão Stat t valor-P


Interseção 4,533333333 0,3013198 15,04492108 0,000113738
Preço (p) ($ 1.000) -0,628571429 0,0773718 -8,124038405 0,001248593

Coeficientes do Modelo Valor do teste de Hipótese que analisa se a


Quantidade = 4,53 – 0,63 Preço interseção e a variável independente são
significativas
Objetivo: Valor menor que 0,05.
TESTE F-SNEDECOR (ANOVA)
◼ Significância geral do modelo
◼ Hipóteses:

H 0 : 1 =  2 =..... =  k = 0
H 1 : existe pelo menos um  i  0
◼ Nível significância do teste: 5%, em geral

ANOVA: Testa a hipótese de que existe relação linear entre as variáveis.


Quando o F de significação for menor que 0,05, existe relação linear entre
as variáveis.
ANOVA
gl SQ MQ F F de significação
Regressão 1 6,914285714 6,914285714 66 0,001248593
Resíduo 4 0,419047619 0,104761905
Total 5 7,333333333
Valor do teste de Hipótese que analisa se o modelo é
significativo (existe relação linear entre as variáveis)
Objetivo: Valor menor que 0,05.
Exemplo 2: Estimar as vendas anuais com base no tempo de experiência do
gerente

Tempo de Vendas Anuais


Gerente Experiência (Anos) (R$ 1.000)
1 1 80
2 3 97 Arquivo “Vendas
3 4 92 x Tempo de Experiência.xls”
4 4 102
5 6 103
6 8 111
7 10 119
8 10 123
9 11 117
10 13 136
Vendas anuais X Tempo de experiência do gerente

160
140
120
Vendas Anuais

100
80
60
40
20
0
0 2 4 6 8 10 12 14
Anos de Experiência

Vendas anuais: variável dependente


Anos de experiência: variável independente

Coeficiente de Correlação Linear : r = 0,964


ANÁLISE DE REGRESSÃO LINEAR - EXCEL
ANÁLISE DE REGRESSÃO LINEAR - EXCEL
ANÁLISE DE REGRESSÃO LINEAR - EXCEL
ANÁLISE DE REGRESSÃO LINEAR - EXCEL

RESUMO DOS RESULTADOS

Estatística de regressão
R múltiplo 0,964564633
R-Quadrado 0,93038493
R-quadrado ajustado 0,921683047
Erro padrão 4,609772229
Observações 10

ANOVA
gl SQ MQ F F de significação
Regressão 1 2272 2272 106,9176471 6,60903E-06
Resíduo 8 170 21,25
Total 9 2442

Coeficientes Erro padrão Stat t valor-P 95% inferiores 95% superiores


Interseção 80 3,075344937 26,01334 5,12002E-09 72,90823727 87,09176273
Tempo de Experiência (Anos) 4 0,386843492 10,3401 6,60903E-06 3,107936731 4,892063269
ANÁLISE DE REGRESSÃO LINEAR - EXCEL
RESUMO DOS RESULTADOS

Estatística de regressão Coeficiente de Correlação Linear de Pearson


R múltiplo 0.964564633
R-Quadrado 0.93038493 Coeficiente de Determinação : Neste exemplo, 93 % da variabilidade
R-quadrado ajustado 0.921683047 da variável das vendas é explicada pelo modelo
Erro padrão 4.609772229
Observações 10 Número de observações utilizadas no cálculo dos coeficientes do modelo
de regressão
ANOVA
gl SQ MQ F F de significação Testa a hipótese de que existe
Regressão 1 2272 2272 106.9176471 6.60903E-06 relação linear entre as variáveis.
Resíduo 8 170 21.25 Quando este valor for < 0,05,
concluímos que existe relação
Total 9 2442
linear entre as variáveis

Coeficientes Erro padrão Stat t valor-P 95% inferiores 95% superiores


Interseção 80 3.075344937 26.01334 5.12002E-09 72.90823727 87.09176273
Tempo de Experiência (Anos) 4 0.386843492 10.3401 6.60903E-06 3.107936731 4.892063269
Quando esse valor for menor do que 0,05, a constante
Coeficientes do modelo
deve fazer parte do modelo.
Vendas = 80 + 4.(anos de experiência)

Valor = 0,000006609 Quando esse valor for menor do que 0,05, existe relação linear entre as variáveis
 (Y − Y ) =  (Y − Ŷ ) +  (Ŷ − Y )
N N N
2 2 2
i i i i
i =1 i =1 i =1

2442 = 170 + 2272

Soma de Quadrado dos Resíduos

• Quanto menores forem os resíduos, melhor o ajuste do modelo.

• Quanto menores forem os resíduos, menor a soma de quadrado dos resíduos.

Coeficiente de ajuste:

Soma de Quadrado da Re gressão 2272


R2 = = = 0,93
Soma de Quadrado Total 2442

R2 - Determina o quanto da variabilidade das vendas é explicada por meio da


experiência dos gerentes.
INTERPRETAÇÃO DOS PARÂMETROS

Vendas anuais = 80 + 4.(anos de experiência)

80: venda anual obtida para um gerente que não possui


nem um ano de experiência.

4: acréscimo na venda anual a cada variação de um ano


no tempo de experiência do gerente.
PREVISÃO
160
140
120
Vendas Anuais

100
80
60
40
20
0
0 2 4 6 8 10 12 14
Anos de Experiência

Qual a venda anual estimada para um vendedor com 6


anos de experiência ?
PREVISÃO

Vendas anuais = 80 + 4.(anos de experiência)

A venda anual é de 80 + 4.(6) = 104 mil reais


• Por que motivo duas variáveis explicativas
conseguem, em modelos isolados, prever o
comportamento de uma variável dependente, e
não fornecem uma previsão adequada da
variação dessa mesma variável quando
consideradas em um modelo conjunto?

Multicolinearidade
CIF HMOD HM
CIF 1
HMOD 0,882914 1
HM 0,919862 0,845405 1

Há auto grau de relacionamento entre as


variáveis independentes HMOD e HM.
• Output da função q = f(p; DI; DD)
RESUMO DOS RESULTADOS

Estatística de regressão
R múltiplo 0,997374
R-Quadrado 0,994755
R-quadrado ajustado 0,993182
Erro padrão 1,238817
Observações 14

ANOVA
gl SQ MQ F F de significação
Regressão 3 2910,653 970,2178 632,2005 1,07E-11
Resíduo 10 15,34668 1,534668
Total 13 2926

CoeficientesErro padrão Stat t valor-P 95% inferiores


95% superiores
Inferior 95,0%
Superior 95,0%
Interseção -29,7394 5,294853 -5,61665 0,000222 -41,537 -17,9417 -41,537 -17,9417
(p) 162,862 5,995694 27,16316 1,06E-10 149,5028 176,2212 149,5028 176,2212
DI -309,261 54,54992 -5,66931 0,000207 -430,805 -187,716 -430,805 -187,716
DD.P 287,138 57,65867 4,979962 0,000553 158,6665 415,6095 158,6665 415,6095
Exemplo: Relação entre
Renda e Gastos com Cartão
de Crédito
12
Renda (dividida por 1000)

10

8
6
4

2
0
0 5 10 15 20
Gastos com Cartão de Crédito (dividido por 100)
Exemplos de aplicação em finanças

• Credit scoring
• Partindo de informações corporativas como: receitas,despesas, ativos,passivos, etc;
um comitê de crédito de um credor pode elaborar uma regra que permitirá classificar
um novo tomador de crédito, antes mesmo de a operação de crédito ser
concretizada

43
Exemplos de aplicação em finanças

• Insurance rating
• Pode-se usar análise discriminante para prever a classificação de risco (baixo,médio
ou alto) de um novo cliente de uma seguradora. Informações como: tempo que já
dirige, número de vezes em que se envolveu em acidentes de trânsito, estado civil,
nível educacional,.....podem ser usadas como variáveis dependentes.

44
Exemplo de aplicação

• Suponha um banco de varejo, que tem como estratégia a ampliação de


sua atuação no segmento de varejo. Para otimizar seus esforços de
marketing necessita identificar, a priori, que característica tem o cliente
de varejo que oferece melhores margens de contribuição (PV-CV).
Assim, toma-se uma amostra aleatória de 20 observações pertencentes
a dois grupos (Grupo 1 = margem satisfatória e Grupo 2 = margem não-
satisfatória) e dados correspondentes das variáveis renda e número de
dependentes. Com base nos dados disponíveis na planilha exemplo#1,
encontre a função discriminante que identifica o perfil de um novo
cliente.
Observação Grupo Renda Dependentes
1 1 3400 3
2 1 2400 2
3 1 2700 2
.. .. .. ..
. . . .
. . . .
Exemplo de aplicação

Renda média dos


indivíduos listados nos
Grupos 1 e 2

Número médio de
dependentes dos indivíduos
listados nos Grupos 1 e 2
Exemplo de aplicação

Coordenadas do centroide do
Grupo 1 = (3130;2,90)

Coordenadas do centroide do
Grupo 1 = (1840;3,40)
Diagrama de dispersão dos
grupos 1 e 2
Diagrama de dispersão dos grupos 1 e 2

Se admitirmos que os pontos


de observação gravitam em
torno de seus respectivos
pontos centroides, poderemos
dividi-los pelo traçado de uma
reta que separe os dois
grupos.
Definindo a Regra de classificação...

• Nossa regra de classificação poderia agora ser a seguinte: as coordenadas da nova


observação determinarem um ponto acima da reta esta pertencerá ao Grupo 2; se abaixo
da reta, pertencerá ao Grupo 1;
• Isso sugere que problemas de análise discriminante podem ser resolvidos por regressão
linear (que será chamada, nesse caso, de função discriminante).
Diagrama de dispersão dos grupos 1 e 2

Reta da função discriminante


Estimando a função discriminante

53
Estimando a função discriminante

54
Estimando a função discriminante

RESUMO DOS RESULTADOS

Estatística de regressão
R múltiplo 0,79107278
R-Quadrado 0,625796144
R-quadrado ajustado 0,581772161
Erro padrão 0,331752856
Observações 20

ANOVA
gl SQ MQ F F de significação
Regressão 2 3,128980719 1,564490359 14,21489152 0,000235191
Resíduo 17 1,871019281 0,110059958
Total 19 5

Coeficientes Erro padrão Stat t valor-P 95% inferiores 95% superiores


Interseção 1,672058423 0,213251584 7,840778436 4,79387E-07 1,222136913 2,121979934
Renda -0,000387728 7,50573E-05 -5,165768841 7,75778E-05 -0,000546085 -0,000229371
Dependentes 0,251252931 0,067243373 3,736471259 0,001642472 0,109381816 0,393124046

Z = 1,67208 – 0,000388.Renda + 0,251253.Dependentes


Função discriminante estimada

Z = 1,67208 – 0,000388.Renda + 0,251253.Dependentes

Os escores determinantes obtidos


para um elemento devem ser
comparados com um ponto de corte,
para então procedermos à identificação
Escore discriminante do grupo ao qual pertencem.
de cada elemento
Nessa oportunidade será possível
verificar qual o nível de acurácia da
classificação será proporcionado pelo
modelo (função discriminante).
Ponto de corte para discriminação

• A classificação de cada observação em cada grupo será


conforme o escore discriminante em confronto com o ponto
de corte, que é a média das médias dos escores
discriminante de cada grupo...
Ponto de corte para discriminação

(1,19 + 1,81)/2 = 1,50


Resultado da função discriminante
Observação Grupo Renda Dependentes Escore Discriminante Grupo predito Classificação incorreta
1 1 3400 3 1,106617 1
2 1 2400 2 1,243364 1
3 1 2700 2 1,126964 1
4 1 2300 2 1,282164 1
5 1 3100 1 0,720511 1
6 1 2200 2 1,320964 1
7 1 4900 5 1,027123 1
8 1 2700 3 1,378217 1
9 1 3400 4 1,35787 1
10 1 4200 5 1,298723 1
11 2 3800 5 1,453923 1 ***
12 2 3400 5 1,609123 2
13 2 2000 3 1,649817 2
14 2 1100 3 1,999017 2
15 2 1800 3 1,727417 2
16 2 1100 2 1,747764 2
17 2 1000 2 1,786564 2
18 2 2600 4 1,66827 2
19 2 600 2 1,941764 2
20 2 1000 5 2,540323 2
Grupo 1 1,1862517
Grupo 2 1,8123982
Ponto de corte 1,49932495
Resultado da função discriminante
Observação Grupo Renda Dependentes Escore Discriminante Grupo predito Classificação incorreta
1 1 3400 3 1,106617 1
2 1 2400 2 1,243364 1
3 1 2700 2 1,126964 1
4 1 2300 2 1,282164 1
5 1 3100 1 0,720511 1
6 1 2200 2 1,320964 1
7 1 4900 5 1,027123 1
8 1 2700 3 1,378217 1
9 1 3400 4 1,35787 1
10 1 4200 5 1,298723 1
11 2 3800 5 1,453923 1 ***
12 2 3400 5 1,609123 2
13 2 2000 3 1,649817 2
14 2 1100 3 1,999017 2
15 2 1800 3 1,727417 2
16 2 1100 2 1,747764 2
17 2 1000 2 1,786564 2
18Apenas 1
2 das 20
2600 observações
4 classificadas
1,66827 2
19recebeu 2discriminação
600 equivocada,
2 ou1,941764
seja, 2
20
95 %2de acerto.
1000 5
Recomenda-se uma 2,540323 2
Grupo 1 1,1862517
Grupo 2 amostra diferente para validar a acurácia
1,8123982
da função discriminante.
Ponto de corte 1,49932495
REFERÊNCIAS E SUGESTÕES BIBLIOGRÁFICAS

• CORRAR. L.J; THEOPHILO, C. R. (coord) Pesquisa Operacional para


Adminstração e Contabilidade. 2. ed. São Paulo: Atlas, 2010.

• JOHNSON, R.; WICKERN, D. Applied multivariate statistical analysis. 6. ed.


Upper Saddle River: Pearson Education, 2007.

• VASCONCELLOS, M. A. S.; ALVES, D. (Coord.). Manual de econometria. São


Paulo: Atlas, 2000.

Você também pode gostar