Análise Multivariada e Regressão
Pós-Graduação em Engenharia Financeira
Prof. Prof. Daniel Bergmann
Prof. Daniel Bergmann
Professor Doutor do Departamento de Administração
da FEA-USP,
Treinamento na FIA, Saint Paul Escola de Negócios,
Hospital Albert Einsten e Poli-USP.
Head em Data Science na Epistemics Inteligência de
Dados Ltda.
Consultor de Projetos no IBEVAR-FIA.
Foi Diretor Técnico no Instituto de Previdência do
Municipio de São Paulo (IPREM-SP).
Contato:
[email protected]Porque estudar estatística no ambiente de
negócios?
Estatística
• Tomar decisões financeiras ou prever preços,
taxas, índices etc num ambiente de incertezas
• Qual será o nível de vendas da empresa no
próximo ano?
• Qual será o retorno esperado da ação da
Petrobrás amanhã?
• Os gastos com propaganda provocam um
significativo aumento no nível de vendas?
Objetivos das técnicas de
regressão
• Investigação de dependência entre variáveis;
• Avaliação da importância relativa das variáveis para:
• Explicação de um fenômeno;
• Elaboração de previsões.
http://tbn0.google.com/images?q=tbn:bxYQMZckDtDn0M:http://www.astrobrasil.com.br/site/wp-content/uploads/previsoes.jpg
Relação funcional entre
as variáveis
• Variável dependente (y)
• Será expressa em função de uma ou mais
variáveis
• independentes
• Serão projetados os seus valores futuros
• Variável(is) independente(s) ou explicativas
• Utilizadas para compreensão do
comportamento da variável dependente
Análise de regressão linear
• Passos da análise de regressão
• Seleção de variáveis independentes com alta
correlação com y
• Relação de causa e efeito entre x e y
• Estimação dos parâmetros do modelo
• Testes de significância do modelo
RELAÇÃO FUNCIONAL ENTRE
AS VARIÁVEIS
◼ Variável dependente
• Será expressa em função de uma ou mais
variáveis independentes
• Serão projetados os seus valores futuros
◼ Variável(is) independente(s) ou explicativas
• Utilizadas para compreensão do comportamento
da variável dependente
RELAÇÃO FUNCIONAL ENTRE
AS VARIÁVEIS
◼ Relação de causa e efeito
• Variável(is) independentes(s): causa(s)
• Variável dependente: efeito
◼ Coeficiente de correlação de Pearson
• Medida do grau de relacionamento entre 2 variáveis
• Escala das variáveis: quantitativa
• Natureza da relação entre as variáveis: sinal e
magnitude
COEFICIENTE DE CORRELAÇÃO DE PEARSON
Y Y
X X
Forte relação positiva Ausência de relação
Y Y
X X
Fraca relação negativa Relação linear perfeita
CUIDADOS NA INTERPRETAÇÃO DE r
◼ Correlação não implica necessariamente relação de
causa e efeito
◼ Então, por que existe correlação?
◼ Há três possíveis explicações:
• Existe, de fato, relação de causa e efeito;
• Ambas as variáveis estão relacionadas com uma
terceira; ou
• A correlação deve-se ao acaso.
RELAÇÃO LINEAR ENTRE AS VARIÁVEIS
2500
Forte Correlação Linear Positiva entre as Variáveis
2000
Vendas de Caixas
1500
1000
500
0
0 20 40 60 80 100 120 140
Gasto com Mídia
Coeficiente de Correlação Linear: r = 0,978
O coeficiente de correlação é uma medida descritiva da força da
associação linear entre duas variáveis. Os valores do coeficiente de
correlação estão sempre entre –1 e 1.
RELAÇÃO LINEAR ENTRE AS VARIÁVEIS
Forte Correlação Linear Negativa entre as Variáveis
45
40
35
30
Lucro
25
20
15
10
5
0
0 5 10 15 20 25 30
Custo
Coeficiente de correlação: -0,98
RELAÇÃO LINEAR ENTRE AS VARIÁVEIS
Fraca Correlação Linear Negativa entre as Variáveis
40
35
30
25
Lucro
20
15
10
5
0
0 5 10 15 20 25 30
Custo
Coeficiente de correlação: -0,55
RELAÇÃO LINEAR ENTRE AS VARIÁVEIS
Praticamente não existe Correlação Linear entre as variáveis
30
25
20
15
10
0 5 10 15 20 25 30
Coeficiente de correlação: -0,08
COEFICIENTE DE CORRELAÇÃO
r : Coeficiente de correlação linear entre duas variáveis
-1 < r < 1
r = 0 não existe correlação linear entre as variáveis
r = 1 existe correlação linear positiva perfeita entre as variáveis
r = - 1 existe correlação linear negativa perfeita entre as
variáveis
l r l > 0,70 existe uma forte correlação linear entre as variáveis
l r l < 0,70 existe uma fraca correlação entre as variáveis
ANÁLISE DE REGRESSÃO LINEAR
◼ Passos da análise de regressão
• Seleção de variáveis independentes com alta
correlação com y
• Relação de causa e efeito entre y e x
• Estimação dos parâmetros do modelo
• Testes de significância do modelo
REGRESSÃO LINEAR
SIMPLES
Exemplo 1 – A empresa Previpeças S.A., fabricante de autopeças,
deseja projetar as quantidades de peças a serem vendidas no próximo
ano. Como a empresa entende que a quantidade de peças vendidas
pode ser explicada por seu preço, pretende definir um modelo que
relacione essas variáveis.
Anos Quantidade (q) (1.000 un.) Preço (p) ($ 1.000)
1 2 4
2 1 6
3 3 3
4 1 5
5 4 1
6 3 2
Arquivo “Previpeças.xls”
R2: COEFICIENTE DE EXPLICAÇÃO OU DETERMINAÇÃO (AJUSTE)
◼Reflete o poder explicativo do modelo e a qualidade
do ajuste
◼Indica a proporção da variação total da variável
dependente y explicada pela equação de regressão
0 R 1 2
• Análise de dados com EXCEL
• Análise de dados com EXCEL
Coeficiente de Correlação
RESUMO DOS RESULTADOS Linear de Pearson
Estatística de regressão Coeficiente de Determinação:
R múltiplo 0,971008312 nesse exemplo 94,28% da
R-Quadrado 0,942857143
variação de y é explicada pela
R-quadrado ajustado 0,928571429
variação de x.
Erro padrão 0,323669437
Observações 6
Coeficiente de Determinação
que leva em conta a
quantidade de variáveis e
observações
Número de Observações
Erro de estimativa da média
TESTE t-STUDENT
◼ Significância dos parâmetros
◼ Hipóteses:
H 0 : = 0 x H1 : 0
H 0 : i = 0 x H1 : i 0
◼ Nível significância do teste: 5%, em geral
Coeficientes Erro padrão Stat t valor-P
Interseção 4,533333333 0,3013198 15,04492108 0,000113738
Preço (p) ($ 1.000) -0,628571429 0,0773718 -8,124038405 0,001248593
Coeficientes do Modelo Valor do teste de Hipótese que analisa se a
Quantidade = 4,53 – 0,63 Preço interseção e a variável independente são
significativas
Objetivo: Valor menor que 0,05.
TESTE F-SNEDECOR (ANOVA)
◼ Significância geral do modelo
◼ Hipóteses:
H 0 : 1 = 2 =..... = k = 0
H 1 : existe pelo menos um i 0
◼ Nível significância do teste: 5%, em geral
ANOVA: Testa a hipótese de que existe relação linear entre as variáveis.
Quando o F de significação for menor que 0,05, existe relação linear entre
as variáveis.
ANOVA
gl SQ MQ F F de significação
Regressão 1 6,914285714 6,914285714 66 0,001248593
Resíduo 4 0,419047619 0,104761905
Total 5 7,333333333
Valor do teste de Hipótese que analisa se o modelo é
significativo (existe relação linear entre as variáveis)
Objetivo: Valor menor que 0,05.
Exemplo 2: Estimar as vendas anuais com base no tempo de experiência do
gerente
Tempo de Vendas Anuais
Gerente Experiência (Anos) (R$ 1.000)
1 1 80
2 3 97 Arquivo “Vendas
3 4 92 x Tempo de Experiência.xls”
4 4 102
5 6 103
6 8 111
7 10 119
8 10 123
9 11 117
10 13 136
Vendas anuais X Tempo de experiência do gerente
160
140
120
Vendas Anuais
100
80
60
40
20
0
0 2 4 6 8 10 12 14
Anos de Experiência
Vendas anuais: variável dependente
Anos de experiência: variável independente
Coeficiente de Correlação Linear : r = 0,964
ANÁLISE DE REGRESSÃO LINEAR - EXCEL
ANÁLISE DE REGRESSÃO LINEAR - EXCEL
ANÁLISE DE REGRESSÃO LINEAR - EXCEL
ANÁLISE DE REGRESSÃO LINEAR - EXCEL
RESUMO DOS RESULTADOS
Estatística de regressão
R múltiplo 0,964564633
R-Quadrado 0,93038493
R-quadrado ajustado 0,921683047
Erro padrão 4,609772229
Observações 10
ANOVA
gl SQ MQ F F de significação
Regressão 1 2272 2272 106,9176471 6,60903E-06
Resíduo 8 170 21,25
Total 9 2442
Coeficientes Erro padrão Stat t valor-P 95% inferiores 95% superiores
Interseção 80 3,075344937 26,01334 5,12002E-09 72,90823727 87,09176273
Tempo de Experiência (Anos) 4 0,386843492 10,3401 6,60903E-06 3,107936731 4,892063269
ANÁLISE DE REGRESSÃO LINEAR - EXCEL
RESUMO DOS RESULTADOS
Estatística de regressão Coeficiente de Correlação Linear de Pearson
R múltiplo 0.964564633
R-Quadrado 0.93038493 Coeficiente de Determinação : Neste exemplo, 93 % da variabilidade
R-quadrado ajustado 0.921683047 da variável das vendas é explicada pelo modelo
Erro padrão 4.609772229
Observações 10 Número de observações utilizadas no cálculo dos coeficientes do modelo
de regressão
ANOVA
gl SQ MQ F F de significação Testa a hipótese de que existe
Regressão 1 2272 2272 106.9176471 6.60903E-06 relação linear entre as variáveis.
Resíduo 8 170 21.25 Quando este valor for < 0,05,
concluímos que existe relação
Total 9 2442
linear entre as variáveis
Coeficientes Erro padrão Stat t valor-P 95% inferiores 95% superiores
Interseção 80 3.075344937 26.01334 5.12002E-09 72.90823727 87.09176273
Tempo de Experiência (Anos) 4 0.386843492 10.3401 6.60903E-06 3.107936731 4.892063269
Quando esse valor for menor do que 0,05, a constante
Coeficientes do modelo
deve fazer parte do modelo.
Vendas = 80 + 4.(anos de experiência)
Valor = 0,000006609 Quando esse valor for menor do que 0,05, existe relação linear entre as variáveis
(Y − Y ) = (Y − Ŷ ) + (Ŷ − Y )
N N N
2 2 2
i i i i
i =1 i =1 i =1
2442 = 170 + 2272
Soma de Quadrado dos Resíduos
• Quanto menores forem os resíduos, melhor o ajuste do modelo.
• Quanto menores forem os resíduos, menor a soma de quadrado dos resíduos.
Coeficiente de ajuste:
Soma de Quadrado da Re gressão 2272
R2 = = = 0,93
Soma de Quadrado Total 2442
R2 - Determina o quanto da variabilidade das vendas é explicada por meio da
experiência dos gerentes.
INTERPRETAÇÃO DOS PARÂMETROS
Vendas anuais = 80 + 4.(anos de experiência)
80: venda anual obtida para um gerente que não possui
nem um ano de experiência.
4: acréscimo na venda anual a cada variação de um ano
no tempo de experiência do gerente.
PREVISÃO
160
140
120
Vendas Anuais
100
80
60
40
20
0
0 2 4 6 8 10 12 14
Anos de Experiência
Qual a venda anual estimada para um vendedor com 6
anos de experiência ?
PREVISÃO
Vendas anuais = 80 + 4.(anos de experiência)
A venda anual é de 80 + 4.(6) = 104 mil reais
• Por que motivo duas variáveis explicativas
conseguem, em modelos isolados, prever o
comportamento de uma variável dependente, e
não fornecem uma previsão adequada da
variação dessa mesma variável quando
consideradas em um modelo conjunto?
Multicolinearidade
CIF HMOD HM
CIF 1
HMOD 0,882914 1
HM 0,919862 0,845405 1
Há auto grau de relacionamento entre as
variáveis independentes HMOD e HM.
• Output da função q = f(p; DI; DD)
RESUMO DOS RESULTADOS
Estatística de regressão
R múltiplo 0,997374
R-Quadrado 0,994755
R-quadrado ajustado 0,993182
Erro padrão 1,238817
Observações 14
ANOVA
gl SQ MQ F F de significação
Regressão 3 2910,653 970,2178 632,2005 1,07E-11
Resíduo 10 15,34668 1,534668
Total 13 2926
CoeficientesErro padrão Stat t valor-P 95% inferiores
95% superiores
Inferior 95,0%
Superior 95,0%
Interseção -29,7394 5,294853 -5,61665 0,000222 -41,537 -17,9417 -41,537 -17,9417
(p) 162,862 5,995694 27,16316 1,06E-10 149,5028 176,2212 149,5028 176,2212
DI -309,261 54,54992 -5,66931 0,000207 -430,805 -187,716 -430,805 -187,716
DD.P 287,138 57,65867 4,979962 0,000553 158,6665 415,6095 158,6665 415,6095
Exemplo: Relação entre
Renda e Gastos com Cartão
de Crédito
12
Renda (dividida por 1000)
10
8
6
4
2
0
0 5 10 15 20
Gastos com Cartão de Crédito (dividido por 100)
Exemplos de aplicação em finanças
• Credit scoring
• Partindo de informações corporativas como: receitas,despesas, ativos,passivos, etc;
um comitê de crédito de um credor pode elaborar uma regra que permitirá classificar
um novo tomador de crédito, antes mesmo de a operação de crédito ser
concretizada
43
Exemplos de aplicação em finanças
• Insurance rating
• Pode-se usar análise discriminante para prever a classificação de risco (baixo,médio
ou alto) de um novo cliente de uma seguradora. Informações como: tempo que já
dirige, número de vezes em que se envolveu em acidentes de trânsito, estado civil,
nível educacional,.....podem ser usadas como variáveis dependentes.
44
Exemplo de aplicação
• Suponha um banco de varejo, que tem como estratégia a ampliação de
sua atuação no segmento de varejo. Para otimizar seus esforços de
marketing necessita identificar, a priori, que característica tem o cliente
de varejo que oferece melhores margens de contribuição (PV-CV).
Assim, toma-se uma amostra aleatória de 20 observações pertencentes
a dois grupos (Grupo 1 = margem satisfatória e Grupo 2 = margem não-
satisfatória) e dados correspondentes das variáveis renda e número de
dependentes. Com base nos dados disponíveis na planilha exemplo#1,
encontre a função discriminante que identifica o perfil de um novo
cliente.
Observação Grupo Renda Dependentes
1 1 3400 3
2 1 2400 2
3 1 2700 2
.. .. .. ..
. . . .
. . . .
Exemplo de aplicação
Renda média dos
indivíduos listados nos
Grupos 1 e 2
Número médio de
dependentes dos indivíduos
listados nos Grupos 1 e 2
Exemplo de aplicação
Coordenadas do centroide do
Grupo 1 = (3130;2,90)
Coordenadas do centroide do
Grupo 1 = (1840;3,40)
Diagrama de dispersão dos
grupos 1 e 2
Diagrama de dispersão dos grupos 1 e 2
Se admitirmos que os pontos
de observação gravitam em
torno de seus respectivos
pontos centroides, poderemos
dividi-los pelo traçado de uma
reta que separe os dois
grupos.
Definindo a Regra de classificação...
• Nossa regra de classificação poderia agora ser a seguinte: as coordenadas da nova
observação determinarem um ponto acima da reta esta pertencerá ao Grupo 2; se abaixo
da reta, pertencerá ao Grupo 1;
• Isso sugere que problemas de análise discriminante podem ser resolvidos por regressão
linear (que será chamada, nesse caso, de função discriminante).
Diagrama de dispersão dos grupos 1 e 2
Reta da função discriminante
Estimando a função discriminante
53
Estimando a função discriminante
54
Estimando a função discriminante
RESUMO DOS RESULTADOS
Estatística de regressão
R múltiplo 0,79107278
R-Quadrado 0,625796144
R-quadrado ajustado 0,581772161
Erro padrão 0,331752856
Observações 20
ANOVA
gl SQ MQ F F de significação
Regressão 2 3,128980719 1,564490359 14,21489152 0,000235191
Resíduo 17 1,871019281 0,110059958
Total 19 5
Coeficientes Erro padrão Stat t valor-P 95% inferiores 95% superiores
Interseção 1,672058423 0,213251584 7,840778436 4,79387E-07 1,222136913 2,121979934
Renda -0,000387728 7,50573E-05 -5,165768841 7,75778E-05 -0,000546085 -0,000229371
Dependentes 0,251252931 0,067243373 3,736471259 0,001642472 0,109381816 0,393124046
Z = 1,67208 – 0,000388.Renda + 0,251253.Dependentes
Função discriminante estimada
Z = 1,67208 – 0,000388.Renda + 0,251253.Dependentes
Os escores determinantes obtidos
para um elemento devem ser
comparados com um ponto de corte,
para então procedermos à identificação
Escore discriminante do grupo ao qual pertencem.
de cada elemento
Nessa oportunidade será possível
verificar qual o nível de acurácia da
classificação será proporcionado pelo
modelo (função discriminante).
Ponto de corte para discriminação
• A classificação de cada observação em cada grupo será
conforme o escore discriminante em confronto com o ponto
de corte, que é a média das médias dos escores
discriminante de cada grupo...
Ponto de corte para discriminação
(1,19 + 1,81)/2 = 1,50
Resultado da função discriminante
Observação Grupo Renda Dependentes Escore Discriminante Grupo predito Classificação incorreta
1 1 3400 3 1,106617 1
2 1 2400 2 1,243364 1
3 1 2700 2 1,126964 1
4 1 2300 2 1,282164 1
5 1 3100 1 0,720511 1
6 1 2200 2 1,320964 1
7 1 4900 5 1,027123 1
8 1 2700 3 1,378217 1
9 1 3400 4 1,35787 1
10 1 4200 5 1,298723 1
11 2 3800 5 1,453923 1 ***
12 2 3400 5 1,609123 2
13 2 2000 3 1,649817 2
14 2 1100 3 1,999017 2
15 2 1800 3 1,727417 2
16 2 1100 2 1,747764 2
17 2 1000 2 1,786564 2
18 2 2600 4 1,66827 2
19 2 600 2 1,941764 2
20 2 1000 5 2,540323 2
Grupo 1 1,1862517
Grupo 2 1,8123982
Ponto de corte 1,49932495
Resultado da função discriminante
Observação Grupo Renda Dependentes Escore Discriminante Grupo predito Classificação incorreta
1 1 3400 3 1,106617 1
2 1 2400 2 1,243364 1
3 1 2700 2 1,126964 1
4 1 2300 2 1,282164 1
5 1 3100 1 0,720511 1
6 1 2200 2 1,320964 1
7 1 4900 5 1,027123 1
8 1 2700 3 1,378217 1
9 1 3400 4 1,35787 1
10 1 4200 5 1,298723 1
11 2 3800 5 1,453923 1 ***
12 2 3400 5 1,609123 2
13 2 2000 3 1,649817 2
14 2 1100 3 1,999017 2
15 2 1800 3 1,727417 2
16 2 1100 2 1,747764 2
17 2 1000 2 1,786564 2
18Apenas 1
2 das 20
2600 observações
4 classificadas
1,66827 2
19recebeu 2discriminação
600 equivocada,
2 ou1,941764
seja, 2
20
95 %2de acerto.
1000 5
Recomenda-se uma 2,540323 2
Grupo 1 1,1862517
Grupo 2 amostra diferente para validar a acurácia
1,8123982
da função discriminante.
Ponto de corte 1,49932495
REFERÊNCIAS E SUGESTÕES BIBLIOGRÁFICAS
• CORRAR. L.J; THEOPHILO, C. R. (coord) Pesquisa Operacional para
Adminstração e Contabilidade. 2. ed. São Paulo: Atlas, 2010.
• JOHNSON, R.; WICKERN, D. Applied multivariate statistical analysis. 6. ed.
Upper Saddle River: Pearson Education, 2007.
• VASCONCELLOS, M. A. S.; ALVES, D. (Coord.). Manual de econometria. São
Paulo: Atlas, 2000.