10.
ANÁLISIS MULTIDIMENSIONAL
10.1 El modelo de regresión múltiple
En el modelo de regresión múltiple, se supone que existe una relación lineal entre
alguna variable Y, a la cual se da el nombre de variable dependiente, y k variables
independientes, X1, X2, . . . Xk. A veces, las variables independientes se conocen como
variables explicativas debido a que se utilizan para explicar la variación en Y, y como
variables de predicción, por su uso en predecir Y.
y j 0 1 x1 j 2 x2 j ... k xkj e j
Donde
yj es un valor típico de una de las subpoblaciones de los valores de Y,
βi se conocen como coeficientes de regresión, x1j, x2j, . . . , xkj son, respectivamente, los
valores particulares de las variables independientes X1, X2, . . . , Xk, y
ej es una variable aleatoria con media de 0 y variancia σ2, que es la variancia común de
las subpoblaciones de los valores de Y.
10.2 Obtención de la ecuación de regresión múltiple
Las estimaciones b0, b1, b2, ... , bk de los coeficientes de regresión se obtienen
resolviendo la siguiente serie de ecuaciones normales:
nb0 b1 x1 j b2 x2 j ... bk xkj yi
b0 x1 j b1 x1 j b2 x1 j x2 j ... bk x1 j xkj x1 j yi
2
b0 x2 j b1 x1 j x2 j b2 x2 j ... b1 x2 j xkj x2 j yi
2
b0 xkj b1 xkj x1 j b2 xkj x2 j ... bk xkj x2 j yi
2
Cuando tenemos dos variables independientes se genera el siguiente conjunto de
ecuaciones normales.
nb0 b1 x1 j b2 x2 j yi
b0 x1 j b1 x1 j b2 x1 j x2 j x1 j yi
2
b0 x2 j b1 x1 j x2 j b2 x2 j x2 j yi
Si
b0' 0 , se tiene que
b0 y b1 x1 b2 x2
Las tres ecuaciones normales se condensan en las siguientes:
b1 x1'2j b2 x1' j x2' j x1' j y 'j
b1 x1' j x2' j b1 x2'2j x2' j y 'j
x '2
1j ( x1 j x1 ) 2 x12j ( x1 j )2 n
x '2
2j ( x2 j x2 ) 2 x22 j ( x2 j )2 n
x ' '
1j 2 jx ( x1 j x1 )( x2 j x2 ) x1 j x2 j x1 j x2 j n
x '
1j y 'j ( x1 j x1 )( y j y ) x1 j y j x1 j y j n
x '
2j y 'j ( x2 j x2 )( y j y ) x2 j y j x2 j y j n
10.3 Aplicaciones de la regresión múltiple
Ejemplo 9.3.1
En un estudio de la duración de la hospitalización para los pacientes que estaban en un
hospital de enfermedades crónicas, un investigador deseaba saber cómo podría predecir
la duración del internado (Y), dadas las variables independientes, número de admisiones
previas (X1) y edad (X2). Los datos de la tabla 9.3.1 se obtuvieron de una muestra de n =
15 pacientes.
Para obtener la ecuación de los mínimos cuadrados, deben resolverse las siguientes
ecuaciones normales para los coeficientes de regresión de la muestra:
nb0 b1 x1 j b2 x2 j yi
b0 x1 j b1 x1 j b2 x1 j x2 j x1 j yi
2
Tabla 9.3.1 Duración de la hospitalización
b0 x2 j b1 x1 j x2 j b2 x2 j x2 j yi
2
en días, edad en años y número de
admisiones previas de 15 pacientes admitidos a un hospital de enfermedades crónicas.
Número de
Duración de la
admisiones Edad
hospitalización
previas (X2)
(Y)
(X1)
15 0 21
15 0 18
21 0 22
28 1 24
30 1 25
35 1 25
40 1 26
35 2 34
30 2 25
45 2 38
50 3 44
60 3 51
45 4 39
60 4 54
50 5 55
Reducción a un conjunto de dos ecuaciones transformando cada valor en una desviación
respecto de su media.
b1 x1'2j b2 x1' j x2' j x1' j y 'j
b1 x1' j x2' j b1 x2'2j x2' j y 'j
Utilizando los datos de la tabla 9.3.2, se calcula lo siguiente:
yj x1 j x2 j ( x1 j x2 j ) ( x1 j y j ) ( x2 j y j ) x12j x 22 j y 2j
15 0 21 0 0 315 0 441 225
15 0 18 0 0 270 0 324 225
21 0 22 0 0 462 0 484 441
28 1 24 24 28 672 1 576 784
30 1 25 25 30 750 1 625 900
35 1 25 25 35 875 1 625 1225
40 1 26 26 40 1040 1 676 1600
35 2 34 68 70 1190 4 1156 1225
30 2 25 50 60 750 4 625 900
45 2 38 76 90 1710 4 1444 2025
50 3 44 132 150 2200 9 1936 2500
60 3 51 153 180 3060 9 2601 3600
45 4 39 156 180 1755 16 1521 2025
60 4 54 216 240 3240 16 2916 3600
50 5 55 275 250 2750 25 3025 2500
Totales 559 29 501 1226 1353 21039 91 18975 23775
Media 37.266666 1.9333333
s 7 3 33.4
x '2
1j ( x1 j x1 ) 2 x12j ( x1 j ) 2 n 91 292 15 34.93
x '2
2j ( x2 j x2 )2 x22 j ( x2 j ) 2 n 18975 5012 15 2241.60
x '
1j x2' j ( x1 j x1 )( x2 j x2 ) x1 j x2 j x1 j x2 j n 1226 (29)(501) 15 257.40
x '
1j y 'j ( x1 j x1 )( y j y ) x1 j y j x1 j y j n 1353 (29)(501) 15 272.27
x '
2j y 'j ( x2 j x2 )( y j y ) x2 j y j x2 j y j n 21039 (501)(559) 15 2368.40
Cuando se sustituyen estos valores en las ecuaciones
b1 x1'2j b2 x1' j x2' j x1' j y 'j
b1 x1' j x2' j b2 x2'2j x2' j y 'j
Se obtiene que
34.93b1 257.40b2 272.27
257.40b1 2241.60b2 2368.40
Luego de resolver las ecuaciones, se obtienen:
b1 0.06
b2 1.05
b0 se obtiene a partir de la relación:
b0 y b1 x1 b2 x2
b0 37.27 (0.06)(1.93) (1.05)(33.40) 2.08
La ecuación de regresión múltiple de la muestra es entonces:
y j 0 1 x1 j 2 x2 j e j
y j b0 b1 x1 j b2 x2 j
y j 2.08 0.06 x1 j 1.05 x2 j
Ry2;1,2,3,..,k
10.4 Coeficiente de determinación múltiple
(yi y)2 (yc y)2 (y j yc ) 2
SCTOTAL SCEXPLIDACA SC INEXPLICADA
SCTOTAL (yi y) 2 y 2j ( y j )2 n
SCEXPLICADA (yc y) 2 b1 x1' j y 'j b2 x2' j y 'j ... bk xkj' y 'j
SCINEXPLICADA SCTOTAL SC EXPLICADA
Reemplazar datos en
SCTOTAL y 2j ( y j ) 2 n 23775 559 2 15 2942.93
SCEXPLICADA b1 x1' j y 'j b2 x2' j y 'j (0.06)(272.27) (1.05)(2368.40) 2503.16
SCINEXPLICADA SCTOTAL SCEXPLICADA 2942.93 2503.16 439.77
Ry2;1,2,3,..,k
(y y)
c
2
(y y)
i
2
2503.16
Ry2;1,2 0.85
2942.93
Se dice que el 85% de la variación toral en los valores Y es explicada por el plano de
regresión ajustado.
ANOVA
Para determinar si la regresión en conjunto es significativa, puede llevarse a cabo un
análisis de varianza.
Hipótesis
H 0 : 1 2 0
H1 : i 0 para al menos una j
Es decir que ninguna variable independientemente tiene valor al explicar la variación en
los totales de Y.
Tabla. ANOVA para la regresión múltiple.
Fuente g.l. SC CM R.V. = F
Debida a la k SCEXPLICADO CMR= SCEXPLICADO/k CMR/ CME
regresión
En torno a la n-k-1 SCINEXPLICADO CME= SCINEXPLICADO/n-k-1
regresión=error
Total n-1 SCTOTAL
Fuente g.l. SC CM R.V. = F
Debida a la 2 2503.16 1251.58 34.15
regresión
En torno a la 12 439.77 36.65
regresión
Total 14 2942.93
Gráfica de distribución
F, df1=2, df2=12
1.0
0.8
Densidad
0.6
0.4
0.2
0.05
0.0
0 3.885
X
Cuando se consulta la tabla de la distribución F con 2 y 12 grados de libertad, se
encuentra que la F calculada de 34.15 es significativa al nivel de .005 (es decir, p <
0.005). Por lo tanto, se concluye que la regresión explica una proporción significativa de
la variación total en Y.
Salida de Minitab
Análisis de regresión: (Yj) vs. (X1), (X2)
Análisis de Varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Regresión 2 2502.39 1251.20 34.08 0.000
(X1) 1 0.02 0.02 0.00 0.983
(X2) 1 380.37 380.37 10.36 0.007
Error 12 440.54 36.71
Falta de ajuste 11 428.04 38.91 3.11 0.418
Error puro 1 12.50 12.50
Total 14 2942.93
Resumen del modelo
R-cuad. R-cuad.
S R-cuad. (ajustado) (pred)
6.05904 85.03% 82.54% 75.61%
Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Constante 2.09 6.74 0.31 0.762
(X1) 0.06 2.61 0.02 0.983 6.50
(X2) 1.050 0.326 3.22 0.007 6.50
Ecuación de regresión
(Yj) = 2.09 + 0.06 (X1) + 1.050 (X2)
Ajustes y diagnósticos para observaciones poco comunes
Resid
Obs (Yj) Ajuste Resid est.
15 50.00 60.12 -10.12 -2.05 R
Residuo grande R
10.5 Análisis de los coeficientes:
Pruebas de los coeficientes de regresión individuales
H0 : j 0
H1 : j 0
Para el ejemplo:
H 0 : 1 0 H1 : 1 0
H0 : 2 0 H1 : 2 0
H : 0
Para X1: No se rechaza la 0 1 . Se concluye entonces que puede no haber una
relación lineal significativa entre Y y X1 cuando X2 permanece constante. En otras
palabras, los datos de la presente muestra no proporcionan evidencia suficiente que
indique que el número de admisiones previas, cuando se utiliza en una ecuación de
regresión junto con la edad, es una variable útil para predecir la duración de la
hospitalización.
H : 0
Para X2: Se rechaza la 0 2 . Se concluye que existe una relación lineal entre X2
y Y cuando X1 permanece constante, y que la edad, utilizada de esta manera, es una
variable útil para predecir la duración de la hospitalización.
10.6 Estimación de los coeficientes por el método matricial
Y 1 X 0 X 11 X 21 X k 1 0 1
Yn X X X X
0 1n 2 n kn k n
Y X
X ' X ˆ X 'Y
ˆ ( X ' X )1 X ' Y
X’=
X’X=
X= Y=
(X’X)-1= (X’Y)= ˆ =
ˆ ( X ' X ) 1 X ' Y
ˆ0
2.086
1 ˆ 0.057
ˆ ˆ
ˆ
2 1.050
De esta manera podemos obtener los coeficientes de regresión.