Regresión Simple
Y Múltiple
Desarrollo
Modelo de regresión lineal simple
Es un modelo de regresión lineal entre dos variables:
Es un modelo probabilístico, que también se puede escribir:
A la variable Y se la denomina variable dependiente y a X independiente.
En el modelo I de regresión lineal se asume que
1) X no es una variable aleatoria.
2) Para cada valor xi de X existe
una v.a. Y|xi cuya media está dada
por el modelo.
3) todas las variables Y|xi son
normales, independientes y con
igual varianza.
Ejemplo 1: Se quiere estudiar la asociación entre consumo de sal y tensión
arterial. A una serie de voluntarios se les administra distintas dosis de sal en su
dieta y se mide su tensión arterial un tiempo después.
Variable X: gr. de sal diarios (no aleatoria)
Variable Y: presión arterial en mm. de Hg
Asumimos que para cada valor de X, Y no está determinada, sino que
a0 presión arterial media de los que no toman nada de sal.
a1 cambio de la media de presión arterial por aumentar 1 gr el consumo de sal,
asumiendo que es constante. Si fuera 0, quiere decir que la presión no cambia con
el consumo de sal, por tanto ambas variables son independientes, un valor distinto
de cero indica que están correlacionadas y su magnitud mide la fuerza de la
asociación.
A partir de una muestra aleatoria, la teoría estadística permite:
1) estimar los coeficientes a i del modelo (hay dos procedimientos: mínimos
cuadrados y máxima verosimilitud que dan el mismo resultado).
2) estimar la varianza de las variables Y|xi llamada cuadrados medios del error y
representada por s2 o MSE. A su raíz cuadrada se le llama error estándar de la
estimación.
3) conocer la distribución muestral de los coeficientes estimados, tanto su forma (t)
como su error estándar, que permite hacer estimación por intervalos como
contrastes de hipótesis sobre ellos.
Ejemplo 2 : Para el diseño del ejemplo 1 una muestra produce los siguientes
datos:
X (sal) Y (Presión)
1,8 100
2,2 98
3,5 110
4,0 110
4,3 112
5,0 120
La "salida" de un paquete estadístico es:
86,371 presión arterial media sin nada de sal.
6,335 aumento de presión por cada gr de sal; como es distinto de 0 indica
correlación. La pregunta es ¿podría ser 0 en la población? En términos de
contrastes de hipótesis
H0 : a1 = 0
H1 : a1 ¹ 0
Según 3
aquí t=7,546 con un valor p=0,002
Se rechaza H0.
Para hacer estimación por intervalos de la fuerza de la asociación o el efecto
En este ejemplo para a 1 al 95%
6,335 ± 2,776x0,840 = (4,004 8,666)
y del mismo modo se ha calculado en la salida anterior, aunque en general tiene
menos interés, para a0
Interpretación del contraste a1 = 0
Si no se puede rechazar esta hipótesis, puede ocurrir que:
1) El modelo sea inapropiado, bien porque las variables son independientes, bien
porque la dependencia no sea lineal. Hay que investigar otros modelos.
2) Se cometa error tipo II, el modelo es adecuado, pero el tamaño de la muestra
es insuficiente. Hay que calcular la potencia.
Si se rechaza la hipótesis puede ocurrir que:
1) El modelo es adecuado.
2) Se cometa error tipo I.
3) Exista una relación no lineal, pero los datos son compatibles con un modelo
lineal. Análisis de residuos.
Inferencias sobre la regresión
A veces interesa hacer inferencias sobre la propia regresión, es decir
sobre mY|xi para cualquier valor de xi. Si a los valores xi de la muestra se les aplica
la ecuación estimada, se obtiene una estimación demY|xi
Cuya distribución muestral también es conocida. A veces se representan los
intervalos de confianza para la regresión en la denominada banda de confianza de
la regresión. En la figura se presenta la banda de confianza para los datos
del ejemplo 2
Análisis de la varianza de la regresión
Es un modo alternativo de hacer contrastes sobre el coeficiente a1. Consiste en
descomponer la variación de la variable Y de dos componentes: uno la variación
de Y alrededor de los valores predichos por la regresión y otro con la variación de
los valores predichos alrededor de la media. Si no existe correlación ambos
estimadores estimarían la varianza de Y y si la hay, no. Comparando ambos
estimadores con la prueba de la F se contrasta la existencia de correlación. Para
el ejemplo 3
Obsérvese que el valor de p es igual que antes (son contrastes equivalentes) y el
valor de F es el cuadrado del de t.
Ejemplo 3: Se quiere investigar el efecto de la ingestión masiva de vitamina C
sobre el hígado de las cobayas. Se eligen dos grupos de 4 cobayas, a uno se le
administra y al otro no. Se sacrifica a los animales y se mide la concentración de
lípidos en el hígado.
Grupo control Tratado
(=0) (=1)
23,8 13,8
15,4 9,3
21,7 17,2
18,0 15,1
¿Hay diferencia entre ambos grupos?
Se podría plantear un contraste sobre medias con la t de Student.
También se puede plantear un modelo de regresión entre la variable grupo (X=0
control y X=1 tratado) y la variable lípido (Y)
Propiedades del coeficiente de correlación
1) Número sin dimensiones entre -1 y 1.
2) Si las variables son independientes r=0. La inversa no es necesariamente
cierta, aunque si las variables son normales bivariantes, sí.
3) Si las variables estuvieran relacionadas linealmente r=1
Un contraste que interesa realizar en un modelo II es H0: r=0. Como:
Este contraste es totalmente equivalente al realizado sobre dicho coeficiente,
aunque también hay tablas basadas en que una cierta transformación (de Fisher)
de r se distribuye aproximadamente como una normal.
¿Qué mide r?
Se puede demostrar una relación algebraica entre r y el análisis de la varianza de
la regresión de tal modo que su cuadrado (coeficiente de determinación) es la
proporción de variación de la variable Y debida a la regresión. En este
sentido, r2 mide el poder explicatorio del modelo lineal.
¿Qué no mide r?
- no mide la magnitud de la pendiente ("fuerza de la asociación")
- tampoco mide lo apropiado del modelo lineal
Potencia de los contrastes en regresión
Los contrastes se realizan en base al conocimiento de la distribución muestral del
estadístico usado. En el caso de la regresión, las distribuciones usadas son la
normal (para r) y la t de Student (para los coeficientes). Sólo para la normal es fácil
el cálculo de la potencia, pero sabemos que la t tiende asintóticamente (para
muestras grandes (>30 en la práctica) a la normal. Usaremos esto.
1- b = p(rechazar Ho| Ho falsa)
Supongamos que:
Asumamos normalidad ¿qué potencia tiene el contraste si a1 fuera 5 (recordar que
se necesita concretar H1)?
¿Cuándo rechazamos H0 al 95%?
Cuando:
En nuestro caso mayor que 4,92. Como no lo es, no rechazamos H0. Hay que
calcular la probabilidad de encontrar
Si a1 fuera 5. Calculamos:
Y lo miramos en la tabla de la normal 1- b =0,512=51,2%.
Modelo de regresión lineal múltiple
Las variables biológicas suelen presentar multicorrelaciones. P.e. para estudiar el
efecto del consumo de grasas saturadas en el nivel del colesterol en sangre, se
puede plantear un modelo de RLS, sin embargo el nivel de colesterol puede
depender también de otras variables: consumo de otras substancias, ejercicio
realizado, edad, factores metabólicos genéticos, etc.
Si, para cada valor del consumo de grasas, las demás variables se distribuyen
aleatoriamente, la estimación por RLS es adecuada y la variación "debida" a las
otras variables estaría incluida en la variación aleatoria alrededor de la regresión,
pero en caso contrario la estimación sería incorrecta, si p.e., las costumbres
dietéticas variaran con la edad y ésta influyera en el colesterol, una parte no
cuantificada de la variación del colesterol que el modelo atribuye al consumo de
grasas sería "debida" a la edad.
La regresión lineal múltiple (RLM) es un modelo que permite estudiar estos
efectos. El modelo es
a0: media de Y cuando todas las Xi son cero (cuando no tiene sentido Xi=0, p.e.
edad, se interpreta como la media de Y que no depende de las Xi).
ai: cambio en la media de Y cuando Xi aumenta una unidad permaneciendo
constantes las demás.
Las asunciones del modelo son una generalización de las de RLS y dado el
resultado de RLS no vamos a distinguir entre modelo I y II.
La estimación de los coeficientes también se hace por mínimos cuadrados o
máxima verosimilitud y se obtienen los mismos resultados. Estos resultados,
usando notación matricial, son (incluyen como caso particular la RLS):
Siendo la matriz columna de coeficientes estimados, Y la matriz columna de
observaciones de la variable dependiente y X la denominada matriz de diseño
Es decir la matriz de datos con una primera columna de 1's. Estos coeficientes se
distribuyen como una normal multivariante cuya matriz de medias son los
verdaderos coeficientes y matriz de varianzas-covarianzas.
Un buen estimador de s2 es:
Que se distribuye como una c2 con n - (k+1) grados de libertad.
Estas fórmulas ponen de manifiesto unas limitaciones al resolver estos modelos.
Para ello hay que invertir una matriz y no todas las matrices pueden invertirse
(singulares). En dos situaciones no se puede:
1. El número de observaciones (n), es menor o igual que el número de
variables independientes (k).
2. Una variable independiente es combinación lineal de otra(s) o constante
(colinealidad ).
Estimación y contrastes de hipótesis:
Usando la teoría resumida en el apartado anterior, los intervalos de confianza para
los coeficientes se construyen igual que en RLS.
Y los contrastes de hipótesis:
H0: aI = 0
H1: ai ¹ 0
Se realizan con el estadístico:
Veamos el siguiente ejercicio para demostrar lo planteado anteriormente
Dada una muestra hipotética de 20 pacientes en los que se ha recogido los
siguientes datos: nivel de colesterol en plasma sanguíneo (en mg/100 ml), edad
(en años), consumo de grasas saturadas (en gr/semana) y nivel de ejercicio
(cuantificado como 0: ningún ejercicio, 1: ejercicio moderado y 2: ejercicio intenso),
realizar el ajuste a un modelo lineal entre el nivel de colesterol y las demás
variables.
Tabla de datos
Paciente Colesterol Edad Grasas Ejerci.
1 350 80 35 0
2 190 30 40 2
3 263 42 15 1
4 320 50 20 0
5 280 45 35 0
6 198 35 50 1
7 232 18 70 1
8 320 32 40 0
9 303 49 45 0
10 220 35 35 0
11 405 50 50 0
12 190 20 15 2
13 230 40 20 1
14 227 30 35 0
15 440 30 80 1
16 318 23 40 2
17 212 35 40 1
18 340 18 80 0
19 195 22 15 0
20 223 41 34 0
La salida del programa de ordenador es:
Análisis de la varianza de la regresión
De un modo similar a RLS se puede descomponer la variación de la variable Y de
dos componentes: uno la variación de Y alrededor de los valores predichos por la
regresión y otro con la variación de los valores predichos alrededor de la media. Si
el modelo lineal no es adecuado, ambos estimadores estimarían la varianza de Y y
si es adecuado no. Comparando ambos estimadores con la prueba de la F se
contrasta lo adecuado del modelo. Para el ejemplo 5
Obsérvese que, a diferencia de la RLS, este contraste no es equivalente al
realizado sobre los coeficientes.
Se define también el coeficiente de determinación como el cociente entre la suma
de cuadrados de la regresión y la suma de cuadrados total (R2 = SSR/SST) y a su
raíz cuadrada (R) se le denomina coeficiente de correlación múltiple.
Además de esta prueba global del modelo basado en el análisis de la varianza, se
pueden plantear pruebas parciales sobre si una variable, o un grupo de variables,
añadidas a un modelo previo lo mejoran.
Se tiene un modelo:
Y se añade una nueva variable X*, con el primer modelo se tiene una
SSR(Y,X1,...,Xk) y con el nuevo otra SSR(Y,X1,...,Xk,X*), la diferencia entre ambas
será lo que ha mejorado la suma de cuadrados por añadir la variable X* y tendrá 1
grado de libertad.
SSR(Y,X*|X1,...,Xk) = SSR(Y,X1,...,Xk,X*) - SSR(Y,X1,...,Xk) = SSE(Y,X1,...,Xk) -
SSE(Y,X1,...,Xk,X*)
Y el cociente:
Llamado F parcial, tendrá una distribución F con 1 y n-(k+2) grados de libertad en
la hipótesis nula de que la nueva variable X* no mejore el modelo. Evidentemente
este contraste es totalmente equivalente a contrastar que el coeficiente a* de la
nueva variable es cero con la prueba basada en la t.
Del mismo modo, si al modelo original se le añaden p variables X1*,...,Xp*, se
puede definir
SSR(Y,X1*,...,Xp*|X1,...,Xk) = SSR(Y,X1,...,Xk,X1*,...,Xp*) - SSR(Y,X1,...,Xk) =
SSE(Y,X1,...,Xk) - SSE(Y,X1,...,Xk,X1*,...,Xp*)
Que tiene p grados de libertad, y el cociente:
Se distribuye como una Fp,n-(k+p+1) en la hipótesis nula de que las
nuevas p variables X1*, ..., Xp* no mejoren el modelo con respecto a las k variables
originales y permite contrastar dicha hipótesis.
Tomando los datos del ejercicio anterior, realizar el contraste de la F parcial para
añadir la variable ejercicio a un modelo que sólo contenga la edad y las grasas
consumidas.
La tabla de anova correspondiente al modelo con EDAD y GRASAS es
Por lo tanto, comparando esta tabla con la del modelo completo
SSR(COLEST,EJERC|GRASAS,EDAD) =
SSR(COLEST,GRASAS,EDAD,EJERC) - SSR(COLEST,GRASAS,EDAD) =
49275,94 - 48940,18 = 335,76
Por tanto Fpar=335,76/3381,83=0,099
Que se distribuye como una F1,16. Como F0,05(1,16) = 4,49 no se puede rechazar la
hipótesis de que EJERC no mejora el modelo. Obsérvese que esta F par es
exactamente el cuadrado del valor de t correspondiente al coeficiente de
EJERC en el modelo con las tres variables independientes.
Conclusión
El modelo de pronóstico de regresión lineal permite hallar el valor esperado de una
variable aleatoria a cuando b toma un valor específico. La aplicación de este
método implica un supuesto de linealidad cuando la demanda presenta un
comportamiento creciente o decreciente, por tal razón, se hace indispensable que
previo a la selección de este método exista un análisis de regresión que determine
la intensidad de las relaciones entre las variables que componen el modelo.
El objetivo de un análisis de regresión es determinar la relación que existe entre
una variable dependiente y una o más variables independientes.
Para poder realizar esta relación, se debe postular una relación funcional entre las
variables. Cuando se trata de una variable independiente, la forma funcional que
más se utiliza en la práctica es la relación lineal. El análisis de regresión entonces
determina la intensidad entre las variables a través de los coeficientes de
correlación y determinación, siendo estos valores fundamental para la toma de
decisiones y verificar lo factible que pueda ser la implementación de un proyecto.
Por lo tanto la regresión lineal múltiple es una metodología matemática en la se
que estiman los coeficientes en una ecuación lineal, con una o más variables
independientes, que mejor prediga el valor de la variable dependiente. La
diferencia de la regresión lineal múltiple es que en esta existen varias variables
independientes que se relaciona o influyen con una variable de respuesta Y , y en
la simple solo se tiene una variable