0% acharam este documento útil (0 voto)

27 visualizações9 páginas

Correlacao e Regressao

O documento aborda a correlação linear entre duas variáveis, definindo o coeficiente de correlação de Pearson e sua interpretação através de diagramas de dispersão. Além disso, discute a regressão linear como uma forma de prever o comportamento de uma variável em função da outra, apresentando a equação da reta de regressão. O texto também inclui um exemplo prático de análise de dados sobre óbitos e médicos, aplicando testes de significância para verificar a correlação entre as variáveis.

Enviado por

Guidione Julio Januario

Direitos autorais

Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.

Formatos disponíveis

Baixe no formato DOCX, PDF, TXT ou leia on-line no Scribd

0% acharam este documento útil (0 voto)

27 visualizações9 páginas

Correlacao e Regressao

Enviado por

Guidione Julio Januario

Direitos autorais

Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.

Formatos disponíveis

Baixe no formato DOCX, PDF, TXT ou leia on-line no Scribd

Correlação linear

Definição
De acordo com Larson (2010, p.395), Uma correlação é uma relação entre duas
variaveis. Os dados podem ser representados por paresv ordenados (x,y), onde x é a
variavel independente ou explanatoria e y é a variavel dependente ou resposta.

Coeficiente de Correlação

Significado do coeficiente de correlação de pearson

Larson (2010, p.398), Interpretar a correlação usando o diagrama de dispersão

pode ser subjectivo. Uma maneira mais precisa de se medir o tipo e a forca de uma
correlação linear entre as duas variáveis é calcular o coeficiente de correlação. Embora
a fórmula para o coeficiente de correlação amostral seja dada, é mais conveniente usar
uma ferramenta tecnológica para esse valor.

Existe uma medida para o grau de correlação linear entre duas variáveis numéricas. Essa
medida é o coeficiente de correlação de Pearson, que se representa por r e é definido
pela fórmula:

( ∑ x i ) (∑ yi )
∑ x i y i−
n
r xy =

√ √
2 2
2 (∑ xi ) 2 (∑ yi )
∑ xi − ∑ yi −
n n

Análise do Diagrama de Dispersão

De acordo com Larson (2010, p.395), O diagrama de dispersão mostrará que a
correlação será tanto mais forte quanto mais próximo estiver o coeficiente de –1 ou +1,
e será tanto mais fraca quanto mais próximo o coeficiente estiver de zero.

a) Correlação perfeita negativa (rxy = -1): Quando os pontos estiverem perfeitamente

alinhados, mas em sentido contrário, a correlação é denominada perfeita negativa.

b) Correlação negativa (-1 < rxy < 0): A correlação é considerada negativa quando
valores crescentes da variável X estiverem associados a valores decrescentes da variável
Y, ou valores decrescentes de X associados a valores crescentes de Y.
c) Correlação nula (rxy = 0): Quando não houver relação entre as variáveis X e Y, ou
seja, quando os valores de X e Y ocorrerem independentemente, não existe correlação
entre elas.

d) Correlação positiva (0 < rxy < 1): Será considerada positiva se os valores
crescentes de X estiverem associados a valores crescentes de Y.

e) Correlação perfeita positiva (rxy = 1): A correlação linear perfeita positiva

corresponde ao caso anterior, só que os pontos (X, Y) estão perfeitamente alinhados.

f) Correlação espúria: Quando duas variáveis X e Y forem independentes, o

coeficiente de correlação será nulo. Entretanto, algumas vezes, isto não ocorre,
podendo, assim mesmo, o coeficiente apresentar um valor próximo de –1 ou +1. Neste
caso a correlação é espúria.

Algumas situações que podem se apresentar os diagramas de dispersão

Testes do Coeficiente de Correlação – Significância de r xy

Expressão matemática para o cálculo de t calculado

r √ n−2
t cal=
√1−r 2
Onde r: e o coeficiente de correlação de person
n-2: graus de liberdade

1º Passo

H 0 : ρ XY =0 (não há correlação linear significativa entre as horas de uso e o custo de

manutenção mensal)

H 1 : ρ XY ≠ 0 (há correlação linear significativa entre as horas de uso e o custo de

manutenção mensal).

r √ n−2
2º Passo: α =5 % ; k =n−2; t cal=
√1−r 2
t tab=t
3º Passo: ( α2 ; n−2 )
RRHo
RRHo
RAHo

-a +a

Regressão

De acordo com (Bussab, Morettin, 1986, p.10), Uma vez constatado que existe
correlação linear entre duas variáveis, pode-se tentar prever o comportamento de uma
delas em função da variação da outra. Para tanto será suposto que existem apenas duas
variáveis. A variável X (denominada variável controlada, explicativa ou independente)
com valores observados X1, X2, ..., Xn e a variável Y (denominada variável dependente
ou explicada) com valores Y1, Y2, ..., Yn.

De acordo com (Bussab, Morettin, 1986, p.10), Os valores de Y são aleatórios, pois eles
dependem não apenas de X, mas também de outras variáveis que não estão sendo
representadas no modelo. Estas variáveis são consideradas no modelo através de um
termo aleatório denominado “erro”. A variável X pode ser aleatória ou então controlada.

Definição
De acordo com Larson (2010, p.409), Uma linha de regressão, tambem chamada de
linha de melhor ajuste, é a linha para a qual a soma dos quadrados dos residuos é um
minimo.

Equação de uma recta de regressão

A equação de uma recta de regressao para uma variavel independente x e uma variavel
dependente y.

^y =mx+b

Onde ^y e o valor y previsto para um dado valor x. a inclinacao m e a intersecao yb são

dados por :

n ∑ xy−( ∑ x )( ∑ y )
m= 2
n ∑ x − (∑ x )
2

b= y−m x

Onde:

^y e a media dos valores y no conjunto de dados e x é a media dos valores x

Recta de regressão linear

Se um diagrama de dispersão sugere uma relação linear, é de interesse

representar este padrão através de uma reta. Usa-se o método dos mínimos quadrados
para ajustar uma reta de regressão ao conjunto de pontos do diagrama

A reta de regressão descreve como uma variável resposta (dependente) y varia em

relação a uma variável explanatória (independente) x

Oque mostra um diagrama de dispersão

kleibaum, David G., kupper, Lawrence L.(1987), Um diagrama de dispersão mostra a

relação entre duas variáveis quantitativas, medidas sobre os mesmos indivíduos. Os
valores de uma variável aparecem no eixo horizontal, e os da outra, no eixo vertical.
Comumente, coloca-se no eixo x um parâmetro. Cada indivíduo aparece como o ponto
do gráfico definido pelos valores de ambas as variáveis para aquele indivíduo.

Problemas da Análise Gráfica

kleibaum, David G., kupper, Lawrence L.(1987), Nossos olhos podem ser enganados
por uma mudança de escalas, ou pela quantidade de espaço em branco em torno do
aglomerado dos pontos. Deve-se, então, utilizar uma medida numérica para suplementar
o gráfico. Coeficiente de Correlação Linear ( r)

dia g ra ma de dispersÃo
Total de medicos existentes na medicina-Y
Linear (Total de medicos existentes na medicina-Y)
7
total de medicos existentes na medicina

6
5
4 f(x) = 0.559701492537313 x + 0.805970149253731
3
2
1
0
2.5 3 3.5 4 4.5 5 5.5 6 6.5 7 7.5
TOTAL DE obitos registados na medicina

Finalidade da correlação linear

I. Determinar o grau de relacionamento entre duas variaveis.

Exemplo de variaveis correlacionadas

I. Numero total de abandono de pacientes e dias totais de internamento;
II. Tempo medio de espera de pacientes nas consultas externas de medicina e
Numero total de medicos;
III. Atrasos a hora da chegada dos medicos e numero total de pacientes atendidos;
IV. Indice de massa corporal de um paciente e o seu peso;
V. Tempo de servico de uma enfermeira e a produtividade em horas de trabalho.

Exercicio pratico: O chefe do departamento da medicina pretende estudar o grau de

associacao num periodo de nove meses do ano de 2023, entre o numero total de obitos
registados na medicina e total de medicos existentes na mesma enfermaria no hospital
Central de Quelimane, sabendo que o nivel de significancia e de 5% comprove se a CL
existente e significativa ou não.
O departamento dispoe de seguintes dados:

Total de Total de
obitos medicos
Meses
registados na existentes na
Medicina-X medicina-Y
Janeiro 4 2
Fevereir
o 3 4
Março 5 3
Abril 5 4
Maio 4 3
Junho 7 6
Julho 6 5
Agosto 5 2
Setembr
o 7 4

Resolucao

Total de
Total de medicos
obitos existentes
Meses X2 Y2 XY
registados na na
Medicina-X medicina-
Y
Janeiro 4 2 16 4 8
Fevereir
o 3 4 9 16 12
Março 5 3 25 9 15
Abril 5 4 25 16 20
Maio 4 3 16 9 12
Junho 7 6 49 36 42
Julho 6 5 36 25 30
Agosto 5 2 25 4 10
Setembr
o 7 4 49 16 28
TOTAL 46 33 250 135 177
( ∑ x i ) (∑ yi )
∑ x i y i−
n
r xy =

√ √
2 2
2 (∑ xi ) 2 (∑ yi )
∑ xi − ∑ yi −
n n
46 × 36
177−
9
r xy =

√ √
2 2
46 33
250− 135−
9 9

8,333
r xy =
√14,889 √14
8,333
r xy =
3,85863 ×3,74166
r xy =0,577170
r xy ≅ 0 , 6

Teste de significância

1º Passo

H 0 : ρ XY =0 (não há correlação linear significativa entre Total de obitos registados na

Medicina-X e Total de medicos existentes na medicina-Y)

H 1 : ρ XY ≠ 0 (há correlação linear significativa entre Total de obitos registados na

Medicina-X e Total de medicos existentes na medicina-Y).

2º Passo: α =5 % ;9−2=7 ;

r √ n−2
t cal=
√1−r 2
t tab=t =t 0,025;7 ¿=2,365
3º Passo: ( α2 ; n−2 )
0 , 6 √ 9−2
t cal=
√1−0 ,6 2
0 , 6 √7
t cal=
√1−0 , 62
0 ,6 √ 7
t cal=
√1−0 , 36
0 , 6 √7
t cal=
√ 0 ,64
0 , 6 √7
t cal=
√ 0 ,64
t cal=1,98431348

t tab=t =t 0,025;7 ¿=2,365

3º Passo: ( α2 ; n−2 )
RRHo
RRHo
RAHo

-2,365 2,365

Conclusão

Interpretação: Num nível de significância de 5% conclui-se que H 0 : ρ XY =0 (não há

correlação linear significativa entre Total de obitos registados na Medicina-X e Total de
medicos existentes na medicina-Y), porque o t-calculado é menor que o t-tabelado.
Referencias bibliograficas

Ron Larson, Betsy Farber.(2010). Estatistica aplicada, 4 edicao, Sao Paulo.

Bussab, Wilton O, Morettin, Pedro A. (1986). Estatística Básica. 3a ed. São Paulo,
Atual.

kleibaum, David G., kupper, Lawrence L.(1987). Applied Regression Analysis and
Other Multivariable Methods. North Scituate, Massachusetts: Duxbury Press.