Correlação e Regressão
Vamos começar com um exemplo:
Temos abaixo uma amostra do tempo de serviço de 10
funcionários de uma companhia de seguros e o número
de clientes que cada um possui.
Será que existe uma relação entre a variável número
de clientes e tempo de serviço?
Anos de serviço 2 3 4 5 4 6 7 8 8 10
Nº de clientes 48 50 56 52 43 60 62 58 64 72
1
Vamos fazer um diagrama de dispersão
80
70
60
número de clientes
50
40
30
20
10
0
0 2 4 6 8 10 12
Tempo de serviço
Parece haver uma relação linear entre número de clientes (y)
e tempo de serviço (x).
Correlação: Existe uma correlação entre duas
variáveis quando uma delas está relacionada
com a outra.
Hipóteses:
Amostra aleatória de pares de dados (x,y).
Os pares (x,y) tem uma distribuição normal
bivariada.
2
Coeficiente de correlação
Coeficiente de correlação (r): Mede o grau de
relacionamento linear entre valores emparelhados x e y
(x x)(y y)
de uma amostra.
S xy
(x x) (y y)
r
2 2 S xx S yy
Que também pode ser escrito como:
n xy x y xy nxy
n x x n y y x nx y ny
r
2 2 2 2 2 2 2 2
Onde n é o número de pares (x,y)
3
r : calculado para dados amostrais, ou seja, é
uma estatística amostral.
r : coeficiente de correlação populacional, ou
seja, se tivéssemos todos os valores (x,y) da
população.
Propriedades do coeficiente de Correlação Linear r
1. O valor de r é limitado entre -1 e 1, isto é,
-1 ≤ r ≤ 1
2. O valor de r não varia se todos os valores de qualquer
das variáveis são convertidos para uma escala
diferente.
3. O valor de r não é afetado pela escolha da variável
nomeada x ou y.
4. r mede a intensidade de um relacionamento linear. Não
serve para medir a intensidade de um relacionamento
não-linear, ou melhor, um valor pequeno de r não
descarta uma relação não linear.
4
Coeficiente de correlação de Pearson
Procedimento para estudo:
1. Exploração dos dados: Diagrama de dispersão.
2. Cálculo do coeficiente de correlação linear: r
S xy
r
S xx S yy
3. Realizar o teste de hipótese para correlação:
H0 : ρ 0 Estatística teste: t teste
r
H1 : ρ 0 1 r2
n 2
Valores críticos na tabela da distribuição de Student com gl = n-2.
Correlação linear positiva
y y y
x x x
(a) Correlação (b) Forte correlação (c) Correlação
positiva entre x e y Positiva entre x e y positiva perfeita
entre x e y
Diagrama de dispersão
5
Correlação linear negativa
y y y
x x x
(d) Correlação linear (e) Forte correlação linear (f) Correlação linear
negativa entre x e y negativa entre x e y negativa perfeita entre
xey
(g) Não há correlação (h) Correlação não linear
6
Correlação
Conjuntos de pontos (x,y) com o coeficiente de correlação
linear de Pearson (fonte Wikipedia).
Correlação
A correlação não implica causalidade!
Exemplo: (Box, Hunter & Hunter, Statistics for Experimenters, p.8) O
gráfico mostra a população de Oldemberg, Alemanha, no fim de cada
um dos 7 anos (Y) contra o número de cegonhas (pássaros) naquele
ano (X).
Interpretação: existe associação entre X e
Y.
Freqüentemente, quando duas v. X e Y
parecem estar fortemente associadas,
pode ser porque X e Y estão, de fato,
associadas com uma terceira variável, W.
No exemplo, X e Y aumentam com W =
tempo.
7
E se os pares (x,y) não tem uma
distribuição normal bivariada???
Use uma versão não-paramétrica
baseada em postos.
Equação de regressão linear
Dada uma coleção de dados AMOSTRAIS emparelhados, a equação
de regressão linear é dada por
A equação de regressão expressa uma relação entre x
(chamada de variável independente, variável explicativa) e y
(chamada de variável dependente, ou variável explicada)
O gráfico da equação de regressão é chamado reta de regressão
(ou reta de melhor ajuste, ou reta de mínimos quadrados).
β̂ 0 é chamado intercepto (valor de y no qual x=0)
β̂1 é o coeficiente angular
8
Notação para a equação de regressão
Parâmetro Estatísticas
populacional amostral
Intecepto y da equação 0 β̂ 0
de regressão
Coeficiente angular
da equação de regressão
1 β̂1
Equação da reta de y = 0 + 1x
regressão
Melhor ajuste: método dos mínimos quadrados:
minimiza se a soma das distâncias vertical entre um
(y β̂
n n
ponto amostral e a reta procurada : (y i ŷ i ) 2 i 0 β̂1 x i )
2
i 1 i 1
Solução:
9
Pressupostos
1. Estamos considerando apenas relações lineares.
2. Para cada valor de x, y é uma variável aleatória com
distribuição normal.
2. Todas as distribuições de y tem mesma variância.
3. Para um dado x, a distribuição dos valores de y tem
uma média sobre a reta de regressão.
Os parâmetros β̂ 0 e β̂1 são desconhecidos (da população)
devem ser estimados a partir dos dados amostrais pelas
estatísticas b 0 e b1
(5) e1 , e 2 ,..., e n erros aleatórios independentes e normalmente
distribuidos com média zero e desvio- padrão desconhecido
10
Previsões usando a equação de regressão.
Quando estimar um valor de y para um dado valor de x..
1. Se não há correlação linear significativa, não utilize a equação de
regressão para fazer predições.
2. Se existe correlação linear significativa, o melhor valor estimado
para y é obtido substituindo-se x na equação de regressão.
3. Ao aplicar a equação de regressão para predições, mantenha-se
dentro do intervalo dos dados amostrais.
4. Não devemos fazer estimativas sobre uma população diferente
daquela de onde provém os dados.
5. Uma equação de regressão baseada em dados passados não é
necessariamente válida hoje ou no futuro.
Estimativa do valor de uma variável
Início
Calcule r e teste a
Hipótese que r = 0
Use a equação
SIM de regressão
Existe correlação linear para fazer predições.
Significativa ?
NÂO
Dado um valor arbitrário de
uma variável, O melhor
predito da outra é sua
média amostral.
11
Exemplo: Novamente a amostra do tempo de serviço de
10 funcionários de uma companhia de seguros e o
número de clientes que cada um possui.
Será que existe uma relação entre a variável número
de clientes e tempo de serviço?
Anos de serviço 2 3 4 5 4 6 7 8 8 10
Nº de clientes 48 50 56 52 43 60 62 58 64 72
r = 0,88
β̂1 = 2,95
β̂ 0 = 39,67
80
y = 39,67 + 2,95 x
70
60
50
40
30
20
10
0
0 2 4 6 8 10 12
12
Para x = 7,5 anos de serviço, qual a estimativa de clientes?
Temos que testar se r =0,88 é significativo.
Ho: r = 0
H1: r ≠ 0
r 0,88
tteste 5,24
1 r2 1 0,882
n2 10 2
Para a = 0,05 e gl = n-2=10-2=8 temos: tc = ± 2,31
Rejeitamos Ho. Logo a correlação é significativa.
Portanto, podemos usar a equação de regressão para
estimar o número de clientes. Temos
y = 39,67 + 0,88 . 7,5 = 46,27
RESÍDUO : é a diferença (y - yˆ ) entre um valor amostral y
e um valor estimado yˆ a partir da equação de regressão.
Desvio total (em relação a média) : y-y
Desvio explicado : ŷ - y
Desvio não explicado (resíduos e i ) : y - ŷ
y i
onde y i
n
13
Exemplo:
y
(5, 19)
•
20
19
18
17 Desvio não explicado
16 ^)
(y - y
15 Desvio (5, 13)
total
•
14
13
12 (y - y ) Desvio explicado
^
11 (y - y)
•
10
9
8
7 (5, 9) y=9
6
5
4 y^ = 3 + 2x
3
2
x
1
0
0 1 2 3 4 5 6 7 8 9
Considere nosso exemplo inicial
75
y = 2.9518x + 39.675
72
70
65
64
62
60 60
58
56
55
52
50 50
y 56.5
48
45
43
40
0 2 4 6 8 10 12
14
para x = 6 temos:
y 60 (ponto amostral)
ŷ 39,67 2,95.(6) 57,37 (valor estimado)
y
y 56,5
n
Desvio total : (y - y) 60 - 56,5 3,5
Desvio explicado : (ŷ - y) 57,37 - 56,5 0,87
Desvio não explicado (resíduo) : (y - ŷ) 60 - 57,37 2,63
Para um ponto (x,y) particular temos:
(desvio total) = (desvio explicado) + (desvio não explicado)
(y y) (ŷ - y) (y - ŷ)
A variação total será obtida da soma dos quadrados do desvio total,
a variação explicada da soma dos quadrados do desvio explicado e
a variação não explicada da soma dos quadrados dos resíduos.
(variação total) = (variação explicada) + (variação não explicada)
(y y) 2
(yˆ - y) 2
(y - yˆ ) 2
15
Coeficiente de deteminação (r2): Valor da
variação de y que é explicado pela reta de
regressão
(ŷ y) 2
(y y)
variação explicada
R r
2 2
2 variação total
Que é simplesmente o coeficiente de correlação ao
quadrado.
Para nosso exemplo inicial temos r = 0,88, e
r2 = (0,88)2 = 0,7744
ou seja, 77,44% da variação total de y é explicada
pela reta de regressão. Decorre que 22,66% da
variação total de y permanece não explicado.
16
Soma dos quadrados dos erros (Sum of Square due Errors)
Erro padrão da estimativa é uma medida de
quanto os pontos amostrais se afastam da reta de
regressão (desvio-padrão)
SSE
s
n 2
Inferência em regressão
(1) Coeficiente angular
Degrees of freedom
Estimador: (graus de liberdade)
Erro padrão da estimativa:
Distribuição amostral: student
Intervalo de (1-α)% de confiança par β1:
Teste de hipótese para β1: Não necessariamente zero
Estatística teste: student
17
(2) Intercepto
Estimador:
Erro padrão da estimativa:
Distribuição amostral: student
Intervalo de (1-α)% de confiança para β0:
Teste de hipótese para βo: H 0 : β 0 β 00
0
Estatística Teste:
(3) Resposta média esperada de y (média de y) para um dado
valor de x = x*: E(Y/x*) =
Estimador: ŷ
Erro padrão da estimativa:
Intervalo de (1-α)% de confiança para E(Y/x*) :
ŷ
18
(4) Previsão para a resposta de um y para um dado
valor de x = x*
Estimador: ŷ
Erro padrão da estimativa:
Valor esperado para resposta única y:
ŷ
Tabela ANOVA para regressão: a qualidade da regressão estimada pode ser
Analisada por meio de uma análise de variância (ANOVA)
SSR: Sum of Squared due Regression (explicada)
SSE: Sum os equare due Errors (resíduos)
SST= SSR+SSE (Total)
Rejeite Ho ao nível de significância se
Ho: 1 = 0
H1: 1 0
Onde o valor crítico ou valor p é obtido
da distribuição-F
19
Voltemos ao exemplo inicial
Resultados do excel: nível de confiança = 95%, =0,05
Estatísticas t
0
1
y = 2.9518x + 39.675
Soma dos quadrados média da soma dos quadrados
SSR
SSE
SST
SSR/1 SSE/(n-2)
20
Alguns modelos não lineares podem ser linearizados por meio
de transformações das variáveis. E o modelo de regressão
linear pode ser aplicado às variáveis transformadas.
Variáveis transformadas são facilmente obtidas com softwares.
Todos os procedimentos de inferência no modelo de
regressão dependem das hipóteses sob o qual o modelo
é construído, ou seja:
(1) Relação linear
(2) Independência dos erros
(3) Variância constante
(4) Distribuição normal
Adequação do modelo estatístico: examinar os
Resíduos é importante pois ajuda a detectar
inconsistências entre os dados e as hipóteses do
modelo.
21
Faça um histograma, diagrama de pontos, ou um
Normal-score gráfico dos resíduos para verificar normalidade:
O modelo assume distribuição normal
Deve ser investigado
Score-normal plot dos resíduos: deve ser aproximadamente linear
score normal resíduos (ei)
6
1 -1.50 -5
2 -1.11 -3
4
3 -0.84 -2
4 -0.62 -2 2
5 -0.43 -1
resíduos (ei)
6 -0.25 -1 0
-2.00 -1.50 -1.00 -0.50 0.00 0.50 1.00 1.50 2.00
7 -0.08 0
-2
8 0.08 0
9 0.25 0
-4
10 0.43 1
11 0.62 2 -6
12 0.84 3 Score_normal
13 1.11 3
14 1.50 5
22
Gráfico: resíduos ( ê i ) x valores previstos ( ŷ i )
Aleatóriamente distribuido
em torno de ŷ com
i
variância constante: OK
Variância não constante:
Hipótese do modelo violada
Padrão sistemático: talvez
Um modelo não linear seja
mais adequado
Gráfico: resíduos ( ê i ) x tempo ( t i )
Importante para observações coletadas numa
ordem temporal (série temporal)
Padrão indica a a violação de independência
23
ê i
Maior incidência de valores nos
extremos indicando uma possível
violação da hipótese de
normalidade dos resíduos.
Outliers: são pontos distantes da nuvem da maioria dos pontos.
outlier
Na figura, observa-se que
sem o outlier não existe relação y
entre x e y.
Se os valores estimados mudam
significativamente quando um
outlier é removido, ele é chamado
um ponto influente.
x
Nem todo outlier é influente.
resíduos
Sugestão: verifique se os
valores discrepantes não são erros
de medida.
24
Alavancas (leverage points): têm valor não usual da variável
explicativa. Tem potencial de ser influentes
Nem toda alavanca é influente.
Mas um ponto influente é um outlier e/ou uma alavanca.
alavanca
x
Ponto influente
y
25
exemplo:
com outliers
intensidade luminosa sem outliers
e temperatura de superfície
no cluster de estrelas
CYG OBI
melhor estudar
os grupos separadamente
Atenção:
• Esteja atento aos dados que você está analisando:
Amostra aleatória, amostra não aleatória, população.
• Inferência estatística e os valores p resultantes não tem
sentido se os dados correspondem a população.
• Se a amostra não é aleatória, os resultados não são
confiáveis.
26