0% encontró este documento útil (0 votos)
15 vistas15 páginas

Correlación y regresión en bioestadística

tema 6

Cargado por

lauraa.zp79
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
15 vistas15 páginas

Correlación y regresión en bioestadística

tema 6

Cargado por

lauraa.zp79
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Tema-6-bien.

pdf

Atheris

Bioestadística

1º Grado en Medicina

Facultad de Medicina
Universidad de Lleida

Reservados todos los derechos.


No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6068074

Correlación y regresión
Correlación no es causalidad

1. Ideas clave
• Correlación
o Correlación no paramétrica
• Regresión lineal
o Regresión no lineal
• Plots
o Scatterplot
o Heatmap
o Regression line

2. ¿Siguen tus datos una distribución normal?


Hay diferentes formas de ver si los datos siguen una distribución normal, uno de ellos
es, por ejemplo, mediante métodos visuales

Todo esto se debe comprobar para poder aplicar tests paramétricos: diferencias de
medias, diferencias de probabilidades, etc.
Otras maneras de comprobar si sigue una distribución normal es realizar un test de
Normalidad: Shapiro – Wilk’s es un método recomendado para comprobar que
estamos ante una variable normal, es más fiable que el test normal de Kolmogorov –
Smirnov. Está basado en la correlación entre los datos y su correspondiente valor
normal. Para ello necesitamos realizar la hipótesis nula y de esta forma obtener el
valor p, el cual si es mayor que 0,05 implica que la distribución de los datos no es
significativamente diferente de una distribución normal, luego, podemos asumir que
sea una distribución normal. Hay que añadir que el test es muy sensible a la medida
de la muestra. Muestras pequeñas suelen pasar el test de normalidad. Por ello, es
importante combinar los dos métodos: el visual y el test mencionado, para poder
tomar la decisión adecuada.
En R se hace de la siguiente forma:

Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6068074

Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
3. ¿Tienen tus variables una relación lineal?
Para poder hacer esta comprobación podemos empezar a partir de una representación
gráfica que bien puede hacerse a partir de un gráfico de dispersión normal o un
bubbleplot

4. Relación entre dos variables continuas.


1) Asociación  Una asociación entre dos variables continuas X e Y significa que los
valores de una variable, por ejemplo Y, tenderá a aumentar (o disminuir) cuando
los valores de la otra variable hacen lo propio. Si se da el caso en el que aumentan
lo mismo o disminuyen lo mismo hablamos de correlación
2) Predicción  Predice el valor de la variable Y siempre y cuando tengamos los
valores de X porque sabemos que existe una relación  Regresión

5. Correlación lineal o Correlación de Pearson.


• Utilizada para medir el grado de asociación lineal entre los puntos
• Puede tomar valores entre -1 y 1. Estos valores absolutos los toma cuando
todos los puntos están alineados. Positivo si son crecientes y negativo si son
decrecientes.
• Cuanto más esparcidos estén los puntos en el gráfico, más cercano a 0 será el
valor de correlación lineal.

• Por otro lado, se puede expresar mediante dos fórmulas distintas:

Plan Turbo - Eliminar los vídeos + 10 descargas sin publicidad por sólo 0,99€ / mes - Oferta limitada
Bioestadística
Banco de apuntes de la
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6068074

Donde p representa a la población, r es para las muestras. La segunda fórmula


está expresada en términos de covariancia.

Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
5.1. Ejemplo.
Peso y altura dependiendo de la edad en niños.

En R:

5.2. Limitaciones
o Correlación no significa que exista una relación causal.
o El coeficiente puede variar mucho de una muestra a otra.
o Asumimos que se trata de distribución normal puesto que en otro tipo
de distribución no se puede aplicar.
o Si la muestra consta de diferentes subgrupos, la correlación para cada
subgrupo puede variar respecto a la correlación global.
5.3. Ejemplos donde no se puede usar este tipo de coeficiente de correlación.
Cuando la gráfica no es lineal (siendo r > 0), cuando la relación entre x e y
no es lineal (parábola, siendo r = 0) o por la aparición de outlayers (puntos
extremos, que desviarán el valor del coeficiente hacia sí mismo: r < 0).

Plan Turbo - Eliminar los vídeos + 10 descargas sin publicidad por sólo 0,99€ / mes - Oferta limitada
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6068074

6. Correlación de Spearman.
Sirven como solución a los casos mencionados
con anterioridad donde no podemos utilizar el
test de Pearson.
• Es un test no paramétrico, por lo que no
es necesario que las variables tengan una
distribución normal ni que tengan una
dependencia lineal.
• En vez de trabajar con los valores de las
variables, lo hacemos con los rangos de
datos, es decir, es algo similar al cuantil
de la posición de los datos.
• La interpretación es la misma que para el
coeficiente de correlación de Pearson.
En R:

7. Correlograma.
Si existen múltiples correlaciones existen gráficos que ayudan a representar este tipo
de variables, son los que denominamos correlogramas.

Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6068074

Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Cuando solo representamos colores lo denominamos Heatmap.
Produce una matriz de alta calidad y ofrece herramientas estadísticas para normalizar
datos.

8. Regresión lineal
El modelo de regresión lineal predice la relación entre los datos mediante la siguiente

fórmula:
• El último elemento, Ei es el término error o residual. Indica lo mucho
que el valor observado se desvía de los esperado o del valor predicho,
de acuerdo con el modelo de regresión.
• Los coeficientes B0 y B1 son estimados utilizando los mínimos
cuadrados o el método de máxima verosimilitud.
8.1. Relación lineal entre dos variables cuantitativas

8.2. Mínimos cuadrados

Plan Turbo - Eliminar los vídeos + 10 descargas sin publicidad por sólo 0,99€ / mes - Oferta limitada
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6068074

Consiste en minimizar la suma de los cuadrados de las distancias verticales


(residuales) que existen respecto a la línea observada.

Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
8.3. En R

8.4. Asunciones del modelo de regresión lineal


Para poder usar correctamente el modelo de regresión lineal deben
tomarse en cuenta tres asunciones:
• La variable Y tiene que tener una distribución normal
obligatoriamente respecto a los valores de la variable X.
• La variabilidad (variancia) de la variable Y tiene que ser similar
para diferentes valores de la variable X.
• La relación entre X e Y tiene que ser lineal.

8.5. ¿Podemos incluir variables cualitativas?


Si, los modelos lineales nos permiten capturar y representar diversos tipos
de eventos.
De tal forma, que para incluir una variable de este tipo, podríamos seguir
el mismo ejemplo que con las otras variables:
• El valor esperado para cada una de las observaciones es µ.

Plan Turbo - Eliminar los vídeos + 10 descargas sin publicidad por sólo 0,99€ / mes - Oferta limitada
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6068074

• La distribución de cada residual explica la variación en cuanto a la


media.

• Fórmula:
8.6. Ejemplo de interpretación del modelo lineal con variables cualitativas
Se toma el género como una variable que afecta los niveles de colesterol.

Donde: yij  Nivel de colesterol del individuo j del grupo i


µ  Media
αi  Grupo del efecto i
épsilon  Variabilidad del individuo j del grupo i

Donde: El efecto del género es aditivo, la dispersión de los datos es similar


en hombres y mujeres y la dispersión del modelo es simétrico.
Por otro lado, los niveles de colesterol también cambian con la edad y el
género.

Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6068074

Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Conclusiones:
• El nivel de colesterol muestra un aumento lineal con la
edad.
• Las diferencias entre hombre y mujer se mantienen
constantes con la edad.
• Para cada edad, hombre y mujer muestras valores de
dispersión del colesterol similares.
Interacción entre el género y la edad:

Conclusiones:
• Los niveles de colesterol muestran un aumento lineal con la edad
• Este efecto es mayor en hombres.
• En una edad dada, los efectos del género serán diferentes.
• Para cada edad, hombre y mujer muestran valores de dispersión
del colesterol similares.
Los niveles de colesterol cambian con el género, pero no con la edad. (Son
independientes):

Plan Turbo - Eliminar los vídeos + 10 descargas sin publicidad por sólo 0,99€ / mes - Oferta limitada
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6068074

Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Conclusiones:
• Los niveles de colesterol son independientes respecto a la edad
• El efecto del género es constante con la edad. La media de
colesterol en hombres es mayor que en mujeres.
• Para cada edad, hombre y mujer muestran valores de dispersión
del colesterol similares.
8.7. Ideas clave
• El comportamiento estadístico de una variable puede ser explicada
por el efecto de diferentes factores y una variabilidad intrínseca.
• Los modelos lineales pueden explicar y predecir algunas
situaciones.
• Analizando los parámetros estimados, podemos decir que factores
son importantes para explicar la variabilidad de nuestras variables.
8.8. Subgrupos

8.8.1. Regresión lineal sin interacción (+)

Plan Turbo - Eliminar los vídeos + 10 descargas sin publicidad por sólo 0,99€ / mes - Oferta limitada
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6068074

8.8.2. Regresión lineal con interacción (*)

8.9. Comparación de modelos


Cor.test  dos variables cuantitativas
T.test  diferencias de medias
RRS  suma de residuales al cuadrado  un residual es la diferencia entre
la observación y la predicción elevada al cuadrado para que salga positiva
y lo sumo todo.  Derivar para minimizar
ANOVA  permite comparar los modelos

8.10. Evaluación del modelo: CI y Residuales


Prima los intervalos de confianza por encima del valor p  en el fondo son
los que están dando la medida, por eso son más importantes. Es más
importante saber entre que números varía.

Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6068074

Plan Turbo - Eliminar los vídeos + 10 descargas sin publicidad por sólo 0,99€ / mes - Oferta limitada
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.

También podría gustarte