Correlação linear
Definição
De acordo com Larson (2010, p.395), Uma correlação é uma relação entre duas
variaveis. Os dados podem ser representados por paresv ordenados (x,y), onde x é a
variavel independente ou explanatoria e y é a variavel dependente ou resposta.
Coeficiente de Correlação
Significado do coeficiente de correlação de pearson
Larson (2010, p.398), Interpretar a correlação usando o diagrama de dispersão
pode ser subjectivo. Uma maneira mais precisa de se medir o tipo e a forca de uma
correlação linear entre as duas variáveis é calcular o coeficiente de correlação. Embora
a fórmula para o coeficiente de correlação amostral seja dada, é mais conveniente usar
uma ferramenta tecnológica para esse valor.
Existe uma medida para o grau de correlação linear entre duas variáveis numéricas. Essa
medida é o coeficiente de correlação de Pearson, que se representa por r e é definido
pela fórmula:
( ∑ x i ) (∑ yi )
∑ x i y i−
n
r xy =
√ √
2 2
2 (∑ xi ) 2 (∑ yi )
∑ xi − ∑ yi −
n n
Análise do Diagrama de Dispersão
De acordo com Larson (2010, p.395), O diagrama de dispersão mostrará que a
correlação será tanto mais forte quanto mais próximo estiver o coeficiente de –1 ou +1,
e será tanto mais fraca quanto mais próximo o coeficiente estiver de zero.
a) Correlação perfeita negativa (rxy = -1): Quando os pontos estiverem perfeitamente
alinhados, mas em sentido contrário, a correlação é denominada perfeita negativa.
b) Correlação negativa (-1 < rxy < 0): A correlação é considerada negativa quando
valores crescentes da variável X estiverem associados a valores decrescentes da variável
Y, ou valores decrescentes de X associados a valores crescentes de Y.
c) Correlação nula (rxy = 0): Quando não houver relação entre as variáveis X e Y, ou
seja, quando os valores de X e Y ocorrerem independentemente, não existe correlação
entre elas.
d) Correlação positiva (0 < rxy < 1): Será considerada positiva se os valores
crescentes de X estiverem associados a valores crescentes de Y.
e) Correlação perfeita positiva (rxy = 1): A correlação linear perfeita positiva
corresponde ao caso anterior, só que os pontos (X, Y) estão perfeitamente alinhados.
f) Correlação espúria: Quando duas variáveis X e Y forem independentes, o
coeficiente de correlação será nulo. Entretanto, algumas vezes, isto não ocorre,
podendo, assim mesmo, o coeficiente apresentar um valor próximo de –1 ou +1. Neste
caso a correlação é espúria.
Algumas situações que podem se apresentar os diagramas de dispersão
Testes do Coeficiente de Correlação – Significância de r xy
Expressão matemática para o cálculo de t calculado
r √ n−2
t cal=
√1−r 2
Onde r: e o coeficiente de correlação de person
n-2: graus de liberdade
1º Passo
H 0 : ρ XY =0 (não há correlação linear significativa entre as horas de uso e o custo de
manutenção mensal)
H 1 : ρ XY ≠ 0 (há correlação linear significativa entre as horas de uso e o custo de
manutenção mensal).
r √ n−2
2º Passo: α =5 % ; k =n−2; t cal=
√1−r 2
t tab=t
3º Passo: ( α2 ; n−2 )
RRHo
RRHo
RAHo
-a +a
Regressão
De acordo com (Bussab, Morettin, 1986, p.10), Uma vez constatado que existe
correlação linear entre duas variáveis, pode-se tentar prever o comportamento de uma
delas em função da variação da outra. Para tanto será suposto que existem apenas duas
variáveis. A variável X (denominada variável controlada, explicativa ou independente)
com valores observados X1, X2, ..., Xn e a variável Y (denominada variável dependente
ou explicada) com valores Y1, Y2, ..., Yn.
De acordo com (Bussab, Morettin, 1986, p.10), Os valores de Y são aleatórios, pois eles
dependem não apenas de X, mas também de outras variáveis que não estão sendo
representadas no modelo. Estas variáveis são consideradas no modelo através de um
termo aleatório denominado “erro”. A variável X pode ser aleatória ou então controlada.
Definição
De acordo com Larson (2010, p.409), Uma linha de regressão, tambem chamada de
linha de melhor ajuste, é a linha para a qual a soma dos quadrados dos residuos é um
minimo.
Equação de uma recta de regressão
A equação de uma recta de regressao para uma variavel independente x e uma variavel
dependente y.
^y =mx+b
Onde ^y e o valor y previsto para um dado valor x. a inclinacao m e a intersecao yb são
dados por :
n ∑ xy−( ∑ x )( ∑ y )
m= 2
n ∑ x − (∑ x )
2
b= y−m x
Onde:
^y e a media dos valores y no conjunto de dados e x é a media dos valores x
Recta de regressão linear
Se um diagrama de dispersão sugere uma relação linear, é de interesse
representar este padrão através de uma reta. Usa-se o método dos mínimos quadrados
para ajustar uma reta de regressão ao conjunto de pontos do diagrama
A reta de regressão descreve como uma variável resposta (dependente) y varia em
relação a uma variável explanatória (independente) x
Oque mostra um diagrama de dispersão
kleibaum, David G., kupper, Lawrence L.(1987), Um diagrama de dispersão mostra a
relação entre duas variáveis quantitativas, medidas sobre os mesmos indivíduos. Os
valores de uma variável aparecem no eixo horizontal, e os da outra, no eixo vertical.
Comumente, coloca-se no eixo x um parâmetro. Cada indivíduo aparece como o ponto
do gráfico definido pelos valores de ambas as variáveis para aquele indivíduo.
Problemas da Análise Gráfica
kleibaum, David G., kupper, Lawrence L.(1987), Nossos olhos podem ser enganados
por uma mudança de escalas, ou pela quantidade de espaço em branco em torno do
aglomerado dos pontos. Deve-se, então, utilizar uma medida numérica para suplementar
o gráfico. Coeficiente de Correlação Linear ( r)
dia g ra ma de dispersÃo
Total de medicos existentes na medicina-Y
Linear (Total de medicos existentes na medicina-Y)
7
total de medicos existentes na medicina
6
5
4 f(x) = 0.559701492537313 x + 0.805970149253731
3
2
1
0
2.5 3 3.5 4 4.5 5 5.5 6 6.5 7 7.5
TOTAL DE obitos registados na medicina
Finalidade da correlação linear
I. Determinar o grau de relacionamento entre duas variaveis.
Exemplo de variaveis correlacionadas
I. Numero total de abandono de pacientes e dias totais de internamento;
II. Tempo medio de espera de pacientes nas consultas externas de medicina e
Numero total de medicos;
III. Atrasos a hora da chegada dos medicos e numero total de pacientes atendidos;
IV. Indice de massa corporal de um paciente e o seu peso;
V. Tempo de servico de uma enfermeira e a produtividade em horas de trabalho.
Exercicio pratico: O chefe do departamento da medicina pretende estudar o grau de
associacao num periodo de nove meses do ano de 2023, entre o numero total de obitos
registados na medicina e total de medicos existentes na mesma enfermaria no hospital
Central de Quelimane, sabendo que o nivel de significancia e de 5% comprove se a CL
existente e significativa ou não.
O departamento dispoe de seguintes dados:
Total de Total de
obitos medicos
Meses
registados na existentes na
Medicina-X medicina-Y
Janeiro 4 2
Fevereir
o 3 4
Março 5 3
Abril 5 4
Maio 4 3
Junho 7 6
Julho 6 5
Agosto 5 2
Setembr
o 7 4
Resolucao
Total de
Total de medicos
obitos existentes
Meses X2 Y2 XY
registados na na
Medicina-X medicina-
Y
Janeiro 4 2 16 4 8
Fevereir
o 3 4 9 16 12
Março 5 3 25 9 15
Abril 5 4 25 16 20
Maio 4 3 16 9 12
Junho 7 6 49 36 42
Julho 6 5 36 25 30
Agosto 5 2 25 4 10
Setembr
o 7 4 49 16 28
TOTAL 46 33 250 135 177
( ∑ x i ) (∑ yi )
∑ x i y i−
n
r xy =
√ √
2 2
2 (∑ xi ) 2 (∑ yi )
∑ xi − ∑ yi −
n n
46 × 36
177−
9
r xy =
√ √
2 2
46 33
250− 135−
9 9
8,333
r xy =
√14,889 √14
8,333
r xy =
3,85863 ×3,74166
r xy =0,577170
r xy ≅ 0 , 6
Teste de significância
1º Passo
H 0 : ρ XY =0 (não há correlação linear significativa entre Total de obitos registados na
Medicina-X e Total de medicos existentes na medicina-Y)
H 1 : ρ XY ≠ 0 (há correlação linear significativa entre Total de obitos registados na
Medicina-X e Total de medicos existentes na medicina-Y).
2º Passo: α =5 % ;9−2=7 ;
r √ n−2
t cal=
√1−r 2
t tab=t =t 0,025;7 ¿=2,365
3º Passo: ( α2 ; n−2 )
0 , 6 √ 9−2
t cal=
√1−0 ,6 2
0 , 6 √7
t cal=
√1−0 , 62
0 ,6 √ 7
t cal=
√1−0 , 36
0 , 6 √7
t cal=
√ 0 ,64
0 , 6 √7
t cal=
√ 0 ,64
t cal=1,98431348
t tab=t =t 0,025;7 ¿=2,365
3º Passo: ( α2 ; n−2 )
RRHo
RRHo
RAHo
-2,365 2,365
Conclusão
Interpretação: Num nível de significância de 5% conclui-se que H 0 : ρ XY =0 (não há
correlação linear significativa entre Total de obitos registados na Medicina-X e Total de
medicos existentes na medicina-Y), porque o t-calculado é menor que o t-tabelado.
Referencias bibliograficas
Ron Larson, Betsy Farber.(2010). Estatistica aplicada, 4 edicao, Sao Paulo.
Bussab, Wilton O, Morettin, Pedro A. (1986). Estatística Básica. 3a ed. São Paulo,
Atual.
kleibaum, David G., kupper, Lawrence L.(1987). Applied Regression Analysis and
Other Multivariable Methods. North Scituate, Massachusetts: Duxbury Press.