UNIVERSIDAD NACIONAL SAN LUIS GONZAGA
LINEAL MLTIPLE
REGRESIN
NDICE
Presentacin
Dedicatoria
Modelo de regresin lineal mltiple
Pruebas de significacin de los coeficientes de regresin.
9
Anlisis de varianza
Prueba t
13
Coeficiente de determinacin mltiple
17
Modelo de regresin lineal mediante matrices
20
Prueba de Durban Watson.
23
Modelo de correlacin polinomial
28
PRESENTACIN
El origen de la estadstica est ligado a Pdos ramas del inters
humano muy diferentes: los juegos de azar y la ciencia poltica.
FACULTAD DE INGENIERIA CIVIL
Pgina 1
UNIVERSIDAD NACIONAL SAN LUIS GONZAGA
LINEAL MLTIPLE
REGRESIN
Los estudios hechos sobre probabilidades condujeron a la teora
matemtica de los errores en las medidas y las leyes de los errores
derivadas de ella fueron la base de lo que hoy es la estadstica
matemtica. En el mismo ciclo, el anlisis de las unidades polticas
fue el punto de partida de la estadstica descriptiva. Al principio este
se limitaba simplemente a la presentacin de datos a la introduccin
de
datos
posteriormente
amplio
sus
objetivos
al
considerar
descripciones numricas.
Hay pocas actividades en que el impacto del reciente progreso
de la estadstica se haya dejado sentir con ms fuerza que en la
ingeniera y la direccin industrial.la estadstica se ha convertido en
una herramienta vital para el ingeniero.
FACULTAD DE INGENIERIA CIVIL
Pgina 2
UNIVERSIDAD NACIONAL SAN LUIS GONZAGA
LINEAL MLTIPLE
REGRESIN
DEDICATORIA
Este trabajo est dedicado a
nuestros padres por el esfuerzo
que hacen al
Ayudar que nuestra educacin
sea posible.
FACULTAD DE INGENIERIA CIVIL
Pgina 3
UNIVERSIDAD NACIONAL SAN LUIS GONZAGA
LINEAL MLTIPLE
REGRESIN
REGRESIN LINEAL MLTIPLE.
1.-MODELO DE REGRESIN LINEAL MLTIPLE
El anlisis de regresin mltiple es una tcnica estadstica que
consiste
en
la
extensin
del
anlisis
de
regresin
simple
aplicaciones que implican dos o ms variables independientes
Xl,X2,...,Xk
(k>2)
para
pronosticar
el
valor
de
la
variable
dependiente Y. Es una tcnica muy til empleada en diversas
disciplinas, como por ejemplo, en economa y finanzas. Con la
aplicacin de paquetes de cmputo se hace posible la solucin de
problemas en las que intervienen un gran nmero de variables.
En el modelo de la regresin lineal mltiple para k variables
independientes Xx,X2,..., Xk la media de Y se expresa por la ecuacin :
y/X1,X2.,Xk = o + 1 X1 + 2 X2 + + k Xk
En donde: 0, 1, k
son los coeficientes de regresin
poblacional.
La estimacin de la ecuacin de regresin poblacional es la ecuacin
de regresin lineal mltiple muestral cuya expresin es:
Y bo b1 X 1 b2 X 2 ... bk X k
En donde: bo, b1, , bk son los coeficientes de regresin
muestral.
Cada coeficiente de regresin poblacional i se estima mediante el
respectivo coeficiente de regresin muestral bi, utilizando el mtodo
de mnimos cuadrados.
Para k - 2 la grfica de la ecuacin de regresin es un plano que
intercepta a Y en 0. Los dems coeficientes de regresin parcial 0,
son las pendientes de la lnea de regresin de Y con la variable X i
mientras las otras variables independientes se mantienen constantes.
FACULTAD DE INGENIERIA CIVIL
Pgina 4
UNIVERSIDAD NACIONAL SAN LUIS GONZAGA
LINEAL MLTIPLE
REGRESIN
Estas pendientes indican el cambio promedio de Y correspondiente a
un incremento unitario en Xi cuando las dems X permanecen
constantes.
Para k variables independientes (k > 2), la grfica de la
ecuacin de regresin poblacional es un hiperplano en el espacio de k
+ 1 dimensiones.
Los supuestos en el anlisis de regresin mltiple son similares
a las del caso de regresin lineal simple.
Determinacin de la ecuacin de regresin muestral
Los coeficientes de regresin muestral b0,b1 ,...,bk se calculan a partir
de los datos de una muestra aleatoria. Los datos de la muestra
aleatoria de tamao n se pueden recopilar en la forma:
(x1.x2i,...,xki, yi),
i = 1,2,...,n
y n>k
En donde yi es la respuesta observada (valor de la variable
dependiente Y) para los valores x 1. x2i,...,xki de las k variables
independientes respectivas Xl, X2,...,Xk.
Para cada i = l, 2,...,n los datos de la muestra satisfacen la ecuacin
de regresin poblacional:
yi = o + 1 X1i + 2 X2i + + k Xki + i
Donde, ei, el trmino error, es una variable aleatoria que se
supone tiene media 0 y varianza 2.
Los datos de la muestra
satisfacen tambin, la ecuacin de
regresin
muestral:
yi = b0 + b1x2i + b2 x2i +... + bk xki + ei
ei = yi yi es el trmino residual.
Los coeficientes de regresin muestral b0, bx, b2,..., bk se
calculan por el mtodo de mnimos cuadrados. Este mtodo consiste
FACULTAD DE INGENIERIA CIVIL
Pgina 5
UNIVERSIDAD NACIONAL SAN LUIS GONZAGA
LINEAL MLTIPLE
REGRESIN
en determinar los coeficientes de manera que hagan mnima la suma
de los cuadrados de los residuales (SCE) expresada por:
n
SCE e ( yi y ) yi b0 b1 X 2i ... bk X ki ) 2
i 1
2
i
i 1
i 1
Derivando SCE cada vez con respecto a b 0 , b 1 , b 2 ,...,b k
igualando a cero, se obtienen las siguientes k +1 ecuaciones
normales:
nb0 b1 x1 b2 x2 bk xk y
b0 x1 b2 x12 b2 x1 x2 .... bk x1 xk x1 y
b0 x2 b1 x1 x2 b2 x22 .... bk x2 xk
b0 xk b1 xk x1 b2 xk x2 .... bk xk2
Donde,
x j x ji , para j = 1,2, , k.
i 1
Estas ecuaciones pueden ser resueltas para b0, bx, b2, ..., bk por
cualquier mtodo apropiado para resolver sistemas de ecuaciones
lineales. Sin embargo hay muchos paquetes de cmputo disponibles
para llevar a cabo estos clculos, como por ejemplo el paquete
estadstico didctico MCEST elaborado por el autor de este texto.
NOTA. En el modelo de regresin lineal mltiple, las variables
independientes pueden incluir variables cualitativas (o categricas),
como por ejemplo, sexo. En este caso, los valores de la variable
llamada tambin variable indicadora, deben ser codificados. La
codificacin de la variable sexo por ejemplo, puede ser 0 = mujer, l =
hombre (o viceversa).
EJEMPLO
FACULTAD DE INGENIERIA CIVIL
Pgina 6
UNIVERSIDAD NACIONAL SAN LUIS GONZAGA
LINEAL MLTIPLE
REGRESIN
Se realiza un estudio de asociacin entre las siguientes variables:
Y: Gastos mensuales expresados en cientos de dlares
X1: Ingreso mensual familiar en miles de dlares
X2: Tamao de la familia.
En una muestra de 10 familias escogidas al azar se han encontrado los
datos que presentan en la tabla que sigue:
Y
45
40
38
35
32
30
28
27
25
22
X1
10
9
8
7
7
6
6
4
3
2
X2
8
8
6
6
5
4
3
2
2
1
a) Determine la ecuacin de regresin muestral de los gastos
mensuales con respecto a las dos variables: Ingreso mensual y
nmero de hijos.
b) Estime el gasto mensual para una familia de 8 hijos y cuyo ingreso
mensual es $7,000.
SOLUCIN.
a) La ecuacin de regresin mltiple muestral a determinar es:
Y = b0 + b1 X1 + b2 X2.
De los datos de la muestra, resultan:
n = 10, x1 = 62, x2 = 45, x1 x2 = 335, x21 = 444, x22 =
259, y = 322, x1y = 2158, x2y = 1608.
El sistema de ecuaciones normales de mnimos cuadrados es:
10b0 + 62b1 + 45b2 = 322
62b0 + 444b1 + 335b2 = 2158
45b0 + 335b1 + 259b2 = 1608
FACULTAD DE INGENIERIA CIVIL
Pgina 7
UNIVERSIDAD NACIONAL SAN LUIS GONZAGA
LINEAL MLTIPLE
REGRESIN
Las soluciones nicas de este sistema son:
b0 = 17.8,
b1 = 0.978, b2 = 1.844
Por tanto, la ecuacin de regresin mltiple muestral es:
Y = 17.8 + 0.978 X1 + 1.844 X2
b) Si una familia tiene 8 hijos y si su ingreso mensual es $ 7,000,
esto es, si X1 = 7, X2 = 8, entonces, sus gasto mensual estimado es:
y = 17.8 + 0.978 (7) + 1.844 (8) = 39.4 o $ 3,940.
Nota
Un mtodo prctico para convertir el sistema de 3 ecuaciones aun
sistema de dos ecuaciones. Consiste en escribir:
b1 Sx1x1 + b Sx2x2 = Sxiy
b1 Sx1x2 + b2 Sx2x2 = Sx2y
En donde:
n x1 ,
Sx1x1 =
Sx1x2 =
x x
2
1
Sx2y =
n x1 x 2 ,
Sx2x2 =
2
2
n x 2 ,
Sx1x2 =
x y n x y ,
1
y n x 2 y ,
Del sistema reducido se obtienen b1 y b2 y luego se obtiene,
bo y b1 x1 b2 x 2
FACULTAD DE INGENIERIA CIVIL
Pgina 8
UNIVERSIDAD NACIONAL SAN LUIS GONZAGA
LINEAL MLTIPLE
REGRESIN
2.-PRUEBAS DE SIGNIFICACIN DE LOS COEFICIENTES
DE REGRESIN
Una
vez determinada la ecuacin
de
regresin
muestral
debemos de terminar si los coeficientes de esa ecuacin de regresin
son significativos o
coeficientes de
no.
Es decir,
se debe determinar si
los
regresin calculados a partir de la muestra implican
que los correspondientes coeficientes de regresin poblacional son o
no son distintos de cero.
Si todos los coeficientes de regresin poblacional son iguales a
cero no podremos predecir Y, es decir no habra regresin lineal. Si
slo uno de ellos igual a cero, por ejemplo,
2 = 0 ; podemos concluir
que no hay regresin de Y en X2.
El anlisis de la regresin debera comenzar con una prueba de
lignificacin global de los coeficientes de regresin muestral mediante
un Anlisis de varianza. Si se acepta que no todos los coeficientes de
regresin poblacional son iguales a cero, entonces, se debe analizar la
significacin
di
los
coeficientes
de
regresin
muestral
individualmente.
El proceso es el siguiente:
i) Anlisis de varianza
El anlisis de varianza se utiliza en este caso para determinar si
existe o no regresin lineal en la poblacin de la variable dependiente
Y con todas las variables independientes en conjunto (anlisis de
regresin lineal global de los coeficientes de regresin). La hiptesis
nula y alternativa de la prueba es respectivamente:
H0 = 1 = 2 = = k = 0
FACULTAD DE INGENIERIA CIVIL
Pgina 9
UNIVERSIDAD NACIONAL SAN LUIS GONZAGA
LINEAL MLTIPLE
REGRESIN
H1: al menos una de las 1 es distinto de cero
La estadstica F de la prueba de la hiptesis nula H0 contra H0 se
obtiene de la particin de varianza de Y en varianza residual (no
explicada) y varianza explicada por la regresin lineal, cuyas sumas
de cuadrados respectivos son:
n
(y
i 1
y i ) 2 ( y1 y ) 2 y i y ) 2
i 1
i 1
SCT = SCE + SCR
Donde, SCT es la suma de cuadrados total, SCE es la suma de
cuadrados de errores o residuales (varianza no explicada) y SCR es la
suma de cuadrados de la regresin (varianza explicada por la
regresin).
Los grados de libertad respectivos de las sumas de cuadrados son:
n- 1 = (n k - l) + k
Por otro lado, la estadstica
SCR/2, se distribuye segn una chi-
cuadrado con k grados de libertad, esto es:
SCR/ 2 ~X2 (K)
Tambin, la estadstica
SCR/ 2 ~X2 (n k 1) + k
Estas estadsticas son independientes. Por tanto, el cociente de
las dos chi2 divididos entre sus respectivos grados de libertad, tiene
distribucin F con grados de libertad k y n k 1, esto es:
( SCR / 2 ) / K
SCR / K
CMR
~ F ( K , n k 1)
2
( SCE / )(n k 1) SCE ( n k 1) CME
En donde:
FACULTAD DE INGENIERIA CIVIL
Pgina 10
UNIVERSIDAD NACIONAL SAN LUIS GONZAGA
LINEAL MLTIPLE
REGRESIN
CMR = SCR/k y CME = (n k 1)
Son
los
cuadros
medios
de
regresin
de
error
respectivamente.
Dado el nivel de significacin , para los grados de libertad k y
n k 1, en la tabla F se encuentra el valor crtico c = F1-,k,n-k-1 .
La regin de decisin es: rechazar H0 : 1 = 2 = = k = 0, si el
valor calculado de F es mayor que el valor crtico c. No rechazar H 0 en
caso contrario.
La prueba de hiptesis de anlisis global se resume en la siguiente
tabla anlisis de varianza (ANVA):
Fuente
de Suma de Grados
variacin
Cuadrados medios
F calculada
cuadrado de
s
libertad
Regresin
SCR
CMR = SCR/k
Error
SCE
nk1
CME = SCE/(n k 1)
Total
SCT
n-1
Las sumas de cuadrados
CMR
CME
SCT, SCR y SCE se calculan utilizando
las siguientes expresiones:
n
i 1
i 1
SCT ( y1 y ) 2 y12 n( y ) 2
n
SCT ( y1 y ) 2 b1 Sx1 y b2 Sx2 y
i 1
Donde Sx1y =
x y n( x)( y ), y Sx
i 1
x2 y n( x 2 )( y )
i 1
SCE = SCT SCR
FACULTAD DE INGENIERIA CIVIL
Pgina 11
UNIVERSIDAD NACIONAL SAN LUIS GONZAGA
LINEAL MLTIPLE
REGRESIN
EJEMPLO
Con los datos mustrales del ejemplo 13.10
y utilizando el
nivel de Dignificacin = 0.05, analice la existencia de regresin
mltiple global en la poblacin:
SOLUCIN.
La hiptesis nula y alternativa de esta prueba son:
H0:1=2=0
H1 : al menos una de las i es distinto de cero
De los datos del ejemplo 13.10, resultan:
n
SCT =
y
i 0
2
1
n ( y ) 2 = 10,840 -10(32.2)2 = 471.6
SX1Y =
x y n (x
i 0
SX2Y =
x
i 0
) ( y ) = 2158 -10 (6.2) (32.2) = 161.6
y n ( x 2 ) ( y ) = 1.068 10 (4.5) (32.2) = 159
SCR = b1Sx1y + b2Sx2y = 0.978 (161.6) + 1.844 (159) = 451.342
SCE = SCT SCR = 471.6 451.342 = 20.258
Los grados de libertad de SCT, SCE y SCR son respectivamente, 9, 2 y
7
FACULTAD DE INGENIERIA CIVIL
Pgina 12
UNIVERSIDAD NACIONAL SAN LUIS GONZAGA
LINEAL MLTIPLE
CMR
451.342
225.671
2
CME
20.258
2.894,
7
REGRESIN
225.671
77.979
2.894
Las sumas de cuadrados, los grados de libertad, los cuadrados
medios y la estadstica F se resumen en la siguiente tabla de anlisis
de varianza.
ANVA para H0: 1 = 2 = 0
Fuente
de
Suma de
Grados
de
Cuadrados
variacin
cuadrado
libertad
medios
Calculada
Regresin
s451.342
225.671
Error
Total
20.258
471.600
7
9
2.894
=77.979
Al nivel de significacin 5%, y con los grados de libertad 2 y 7,
en la tabla de probabilidades de la F se encuentra el valor crtico F095, 2,
7
= 4.74. Dado que el valor calculado F = 77.53 > 4.74, no se debe
aceptar H0: 1 = 2 = 0. En consecuencia se puede afirmar que existe
regresin lineal poblacional global de Y con X1 y X2.
NOTA. Si se decide aceptar la hiptesis nula H0, se concluye que no
hay regresin de Y globalmente con X1 y X2 y el anlisis termina. Pero
si se rechaza H0 y aceptamos H1 (al menos una de las i es distinto
FACULTAD DE INGENIERIA CIVIL
Pgina 13
UNIVERSIDAD NACIONAL SAN LUIS GONZAGA
LINEAL MLTIPLE
REGRESIN
de cero) se debe continuar con el anlisis, determinando las variables
independientes que influyen en la regresin.
ii) Prueba t.
Hiptesis de contraste o nula Ho: u1-u2 = 0
Nivel de significacin del contraste: = 0,05
Muestra estadstica N1 que son los controles con los cuales se
obtuvieron
los
distintos
estadsticos
para
el
intervalo
de
aceptacin, grfico de control:
N
fech
UREA
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
a
20/1
21/1
22/1
23/1
24/1
28/1
30/1
31/1
3/2
4/2
5/2
6/2
7/2
10/2
11/2
12/2
[g/l]
0,22
0,21
0,23
0,22
0,21
0,22
0,20
0,21
0,18
0,18
0,21
0,24
0,22
0,18
0,23
0,21
FACULTAD DE INGENIERIA CIVIL
Pgina 14
UNIVERSIDAD NACIONAL SAN LUIS GONZAGA
LINEAL MLTIPLE
17
18
19
20
13/2
14/2
17/2
18/2
REGRESIN
0,23
0,27
0,22
0,21
Muestra estadstica N2, que corresponden a los valores de los
controles graficados y que estn desplazados:
N de
fech
UREA [g/l]
control
1
2
3
4
5
6
7
8
9
10
11
12
13
14
a
19/2
20/2
21/2
24/2
25/2
25/2
27/2
28/2
28/2
4/3
5/3
6/3
7/3
7/3
0,24
0,25
0,22
0,34
0,27
0,25
0,30
0,26
0,24
0,25
0,24
0,25
0,27
0,24
FACULTAD DE INGENIERIA CIVIL
Pgina 15
UNIVERSIDAD NACIONAL SAN LUIS GONZAGA
LINEAL MLTIPLE
REGRESIN
Prueba t:
Estadsticos
Media
Varianza
Observaciones
Estadstico t
P(T<=t)
Valor crtico de t
test t student
valores muestra
1
0,22
0,00045
20
muestra 2
0,26
0,00091
14
-4,67
0,0001
-2,07
Como el valor t = -4,67 est fuera del rango +/-2,07, entonces
RECHAZAMOS LA HIPTESIS u1=u2 a un nivel de significacin =
0,05 ya que la diferencia entre las medias es estadsticamente
significativa.
Continuamos con la fase de bsqueda y deteccin de la
fuente de error:
1) Estado del instrumental: ANALIZADOR CLNICO, Bao Mara,
micropipetas: Ok.
2) Limpieza y estado del material de vidrio involucrado, es decir
tubos de Kahn, pipetas, etc.: Ok.
3) Estado de los reactivos: revisando la tabla de ingreso de los
controles, se encontr la anotacin que justo el da 19 de febrero
se reemplaz la UREASA por un frasco nuevo. Deducimos que no
es la ureasa nueva la fuente de error, sino lo que ocurri es que la
ureasa anterior tena una actividad menor a la debida por
envejecimiento, entonces al reemplazar sta por una nueva con
mayor actividad es lgico que todos los valores de concentracin
de urea fueran un poco mas elevados.
FACULTAD DE INGENIERIA CIVIL
Pgina 16
UNIVERSIDAD NACIONAL SAN LUIS GONZAGA
LINEAL MLTIPLE
REGRESIN
4) Factores externos tales como la temp. ambiente, humedad
excesiva, problemas con el personal tcnico, molestias de diversos
tipos hacia el operador que realizo la corrida, etc., Ok.
5) Operador: Ok.
Es por esta razn que hubo un desplazamiento en los controles
y el test de student confirma este cambio estadsticamente
significativo.
Adicionalmente hacemos la Prueba T, contrastando el t obtenido,
de 6.9647 con el valor crtico para n=18 (porque restamos 2 grados
de libertad), con una significacin de 5% e incluso de 1%.
El valor crtico arrojado es 2.101 y 2.878 respectivamente, ambos
mejores que el t obtenido. Por ende, rechazamos nuevamente la H 0 y
adoptamos el modelo de regresin planteado.
iii) Anlisis del Coeficiente de Determinacin (R2)
Como podemos apreciar en los datos mostrados arriba, el R 2
tiene un valor de 0.7294, por ende, consideramos que el modelo es
de buena calidad, ya que la variable independiente "Fertilizante" tiene
una capacidad explicativa de 72% del fenmeno.
Anlisis de los Residuos
Ahora procederemos al anlisis de los Residuos, para evaluar la
presencia
de
observaciones
inusuales
en
la
muestra
para
comprobar la validez de las hiptesis fundamentales del modelo,
como son: independencia, normalidad de las observaciones e
igualdad de varianzas de los errores ei (Homoescedasticidad).
Coeficiente De Determinacin Mltiple
Una
vez
hallada
la
ecuacin
de
regresin
muestral
debera
interesarnos conocer la bondad de ajuste a los datos de la muestra.
Para k = 2 variables independientes el plano ajustado a los puntos de
FACULTAD DE INGENIERIA CIVIL
Pgina 17
UNIVERSIDAD NACIONAL SAN LUIS GONZAGA
LINEAL MLTIPLE
la muestra
REGRESIN
que sea horizontal y pase por la media
y, x1 , x2
puede
considerarse como un plano bsico con respecto al cual se mide la
mejora introducida por la regresin.
= b0 +b1 Xl + b2 X2
De la particin de la suma total de cuadrados en suma de
cuadrados no explicada y suma de cuadrados explicada por la
regresin, se obtiene el c o e fi c i e n t e de determinacin mltiple que
2
se denota por R2 o R y ,12... k ...k donde k es el nmero de variables
independientes.
El coeficiente de determinacin mltiple se define en forma
similar al
Coeficiente de determinacin simple, por ejemplo,
para
k = 2
variables independientes, se define por:
RY2.12 1
SCE
SCT
La suma total de cuadrados contienen las desviaciones de los
puntos Observados Y de un plano que se ajusta a estos puntos y que
es horizontal Y Miando por el punto
y, x1 , x2
y a partir del cual se
mide el mejoramiento producido por la regresin.
Al igual que el coeficiente de determinacin R2, el coeficiente
de determinacin mltiple mide el porcentaje de la varianza de Y que
queda explicada al conocer dos o ms variables independientes.
Cuanto mayor es el valor de RY2.12 menor es la dispersin y mayor el
ajuste del plano de regresin a los datos.
Por ejemplo, para los datos del ejemplo 13.10 el coeficiente de
determinacin mltiple es:
FACULTAD DE INGENIERIA CIVIL
Pgina 18
UNIVERSIDAD NACIONAL SAN LUIS GONZAGA
LINEAL MLTIPLE
RY2.12 1
REGRESIN
SCE
20.6
1
0.96
SCT
471.6
Esto indica que el 96% de la varianza de los gastos mensuales
(Y) queda estadsticamente explicado por los ingresos familiares (X1) y
por el nmero de hijos de las familias (X2).
Cuando el tamao n de la muestra es pequeo, el ndice de
determinacin mltiple RY2.12 tiende a estar positivamente sesgada.
Para corregir este sesgo se utiliza el coeficiente o ndice de
determinacin mltiple corregido (o ajustado) que se denota por R2 o
por RY2.12 y se define por:
RY2.12 1
Aplicando
los
datos
del
CME
CMT
ejemplo
13.10
el coeficiente
de
determinacin mltiple corregido es:
RY2.12 1
CME
2.91
1
1 0.056 0.944
CMT
52.4
La raz cuadrada positiva del coeficiente de determinacin
mltiple se denomina coeficiente de correlacin mltiple que
denotamos por R o RY.12. Este nmero mide la relacin entre las
variables independientes consideradas como grupo y la variable
dependiente Y.
La prueba de la significacin del coeficiente correlacin
mltiple poblacional es la misma prueba F que se utiliza para
determinar si existe regresin global de Y con respecto a todas las
variables independientes en conjunto.
Es decir, si se acepta H0 : 1 = 2 =... = k = 0, entonces, se
concluye que no existe correlacin mltiple de Y con todas las
variables independientes Xl, X2,..., Xk.
FACULTAD DE INGENIERIA CIVIL
Pgina 19
UNIVERSIDAD NACIONAL SAN LUIS GONZAGA
LINEAL MLTIPLE
REGRESIN
Por ejemplo, el coeficiente de correlacin mltiple de Y con Xx y X2
para los datos del ejemplo 13.10 es:
RY ,12
0.96 0.98
Dado que el anlisis de varianza se encuentra que es
significativa la regresin global de Y con X 1 y X2, se concluye que
existe correlacin lineal mltiple en la poblacin.
3.-MATRIZ
DE
REGRESIN
LINEAL
MEDIANTE
MATRICES
Supngase que se tiene k variables independientes X 1, X2,, XK
y una variable dependiente Y, y que adems la muestra aleatoria de
tamao n: (X1i, X2i,, XKi, yi), i = 1, 2, . . . , n y n > k, satisface la
ecuacin de regresin poblacional:
yi: 0 + 1x1i + 2x2i + + xki + i
Con la notacin matricial estas n ecuaciones se pueden escribir
como el modelo poblacional.
Y = X +
Donde,
FACULTAD DE INGENIERIA CIVIL
Pgina 20
UNIVERSIDAD NACIONAL SAN LUIS GONZAGA
LINEAL MLTIPLE
REGRESIN
y1 1 1 21. xxx k1 0 1
y 1 . xxx
2 12 2 k2 1 2
. .... . .
Y , X , , ,
. .... . .
. .... .
yn 1 1n 2n. xxx kn k n
FACULTAD DE INGENIERIA CIVIL
Pgina 21
UNIVERSIDAD NACIONAL SAN LUIS GONZAGA
LINEAL MLTIPLE
0
1
El vector de parmetros
.
.
.
k
REGRESIN
b0
b
1
, se estima por
.
b
.
.
bk
, el
valor de coeficiente de regresin muestral.
El vector b se encuentra por el mtodo de mnimos cuadrados,
para lo cual se minimiza la suma de cuadrados de errores:
SCE = (Y Xb) (Y - Xb)
El sistema de ecuaciones normales se obtiene de la ecuacin de
derivadas en vectores:
( SCE ) 0
b
No se presentaran aqu los detalles del mtodo de mnimo
cuadrados para llegar a la ecuacin normal en forma vectorial. En las
aplicaciones nos interesa saber que el vector b es la solucin de la
ecuacin en matrices:
(XX) b = XY
FACULTAD DE INGENIERIA CIVIL
Pgina 22
UNIVERSIDAD NACIONAL SAN LUIS GONZAGA
LINEAL MLTIPLE
REGRESIN
n
n x1i x2i . . xki y1
i1 i1 i1 i1
n n 2 n n n
x1i x1i x1i x2i. . x1i xki x1i y1
i1 i1 i1 i1 i1
X ' X . . . . , X 'Y .
. . . . .
. . . . .
n n n n n
x x x x x . . x2 x y
i1 ki i1 ki 1i i1 ki 2i i1 ko i1 ki i
n
Si la matriz XX es no singular, se puede escribir la solucin para
los coeficientes de regresin como:
b = (XX)-1 XY
Las tcnicas para invertir la matriz XX de orden k + 1 por k +
1 se explican en la mayor parte de los libros textos sobre
determinantes y matrices elementales. Hay muchos paquetes de
computadora para problemas de regresin mltiple entre ellos el
MCEST, paquete que no slo proporcionan los coeficientes de
regresin muestral sino que proporciona abundante informacin sobre
inferencias relativas a la ecuacin de regresin poblacional.
FACULTAD DE INGENIERIA CIVIL
Pgina 23
UNIVERSIDAD NACIONAL SAN LUIS GONZAGA
LINEAL MLTIPLE
REGRESIN
EJEMPLO
Se realiz un estudio de las relaciones entre las notas obtenidas en 4
materias
por
10
estudiantes
de
administracin
de
empresas
seleccionados aleatoriamente. Las 3 variables independientes X 1, X2,
X3 y la variable dependiente Y son:
Y = notas en estadsticas aplicada
X1 = nota de matemtica bsica
X2 = nota en lgica
X3 = nota en economa general
Los datos son los siguientes
Y
13
X1
12
X2
10
X3
18
15
14
12
15
17
16
10
18
16
15
11
20
13
11
13
15
17
15
16
18
16
16
10
19
14
14
14
16
18
17
13
15
11
11
11
13
a) Determine las ecuaciones normales (XX) b = XY
b) Determine b = (XX)-1 XY
c) Estime el modelo de regresin lineal mltiple
Solucin
Utilizando el paquete estadstico didctico MCEST se tiene:
a) Las ecuaciones normales (XX)b = XY cuya expresin es:
FACULTAD DE INGENIERIA CIVIL
Pgina 24
UNIVERSIDAD NACIONAL SAN LUIS GONZAGA
LINEAL MLTIPLE
REGRESIN
10 141 120 167 b0 153
141 2029 1694 2375 b 2 03
1
120 1694 1476 19 5 b2 1838
167 2375 19 5 283 b3 2584
b) La solucin de la ecuacin vectorial es b = (XX)-1 XY, donde,
FACULTAD DE INGENIERIA CIVIL
Pgina 25
UNIVERSIDAD NACIONAL SAN LUIS GONZAGA
LINEAL MLTIPLE
REGRESIN
b0 3.1 809 0.120 0.430 0.41 153 2.91069
b 0.120 0. 3 0. 06 0. 16 2 03 1.01726
1
b2 0.430 0. 06 0. 30 0. 09 183 0. 4826
b 3 0.41 0. 16 0. 09 0. 32 2584 0.196 0
De donde resulta
b0 = -2.91069, b1 = 1.01726, b2 = 0.04826, b3=0.19690,
La ecuacin de regresin muestral es:
y 2.91069 1.01726 X 1 0.04826 X 2 0.1969 X 3
4.-PRUEBA DE DURBIN WATSON
En el modelo de regresin mltiple:
k
yi j x ji i , i 1,2,..., n,
j 0
FACULTAD DE INGENIERIA CIVIL
Pgina 26
UNIVERSIDAD NACIONAL SAN LUIS GONZAGA
LINEAL MLTIPLE
Se
ha
supuesto
que
los
REGRESIN
son
variables
aleatorias
independientes. En esta variable se incluye todos los efectos ajenos a
Xi que estn presentes en la funcin de regresin.
La
prueba
de
Durbin
Watson
nos
proporciona
un
procedimiento para determinar si los i estn correlacionados en serie.
El mtodo consiste en calcular a partir de los datos de la muestra, la
estadstica d definida por:
n
(e
i 2
ei 1 ) 2
(e )
i 1
Donde ei = Yi Yi, luego comparar el valor de d con valores
crticos dL y dU que se pueden encontrar en las tablas preparadas por
Durbin y Watson para los niveles de confianza del 5%, 2.5% y 1% .
Las hiptesis nula y alternativa son respectivamente:
H0 : No existe correlacin positiva en serie
H1 : Existe correlacin positiva en serie
La regla de decisin es:
Rechazar H0 si d < dL
No rechazar H0 si d > dU
Si dL < d < dU la prueba no es concluyente
Aplicando a los datos del ejemplo 13.12 la estadstica de Durbin
Watson es d = 2.488. De la tabla de Durbin Watson para n = 15
observaciones, K = 2 variables independiente y un nivel de confianza
del 5%, se encuentran los valores crticos dL = 0.95 y dU = 1.54.
Dado que d = 2.5 > dU = 1.54., concluimos que no hay
autocorrelacin en serie.
Matriz de correlaciones
La matriz de correlacin de k variables X1, X2,, Xk es:
FACULTAD DE INGENIERIA CIVIL
Pgina 27
UNIVERSIDAD NACIONAL SAN LUIS GONZAGA
LINEAL MLTIPLE
r11 r12 . .
r r ..
21 22
r1k 1
r2k r21
R
. . . . . . . . ...
r k1 rk 2 . . rkk rk1
REGRESIN
r12 ... r1k
1 ... r2k
...
... ...
rk 2 ...
Donde rij son los coeficientes de correlacin simple o de orden
cero que se definen:
n
rij
Cov ( X i , X j )
Si S j
(x
k 1
ik
x i )( x jk x j )
( xik x) 2
k 1
(x
k 1
ik
x j )2
Adems, para probar la significacin de los coeficientes de correlacin
rij se utiliza la estadstica:
t rij
nk 2
1 rij2
Que tiene t-Student con n k 2 grados de libertad. Donde k es
el nmero de variables, y n el nmero de casos.
Para ejecutar esta prueba objetiva sobre la independencia de
los errores se asume que las observaciones y as los residuales tienen
un orden natural tal como el tiempo o espacio. La prueba de DurbinWatson tiene como estadstica de prueba
Se puede demostrar que:
FACULTAD DE INGENIERIA CIVIL
Pgina 28
UNIVERSIDAD NACIONAL SAN LUIS GONZAGA
LINEAL MLTIPLE
REGRESIN
1. El valor de esta siempre en el intervalo
2. Si los residuales son positivamente correlacionados, entonces
ser cercano a y los residuales tienden a ser parecidos.
3. Si los residuales son negativamente correlacionados, entonces
ser cercano a
y as
ser cercano a
. Adems los residuales
tienden a ser muy diferentes.
4. La distribucin de es simtrica alrededor de .
Cmo aplicar la prueba?
. Obtenga el valor calculado con los residuales.
2. Aplique la regla de decisin comparando el valor de
con los
valores crticos dados en la tabla 1. Esta regla depende del tipo de
hiptesis a plantear asi:
Hiptesis
Regla
de Decisin
Conclusin
decisin
vs
Si
FACULTAD DE INGENIERIA CIVIL
Rechace
al
Hay
correlacin
Pgina 29
UNIVERSIDAD NACIONAL SAN LUIS GONZAGA
LINEAL MLTIPLE
Si
REGRESIN
nivel
No rechace
al nivel
No
se
concluye
vs
Si
Rechace
Si
S
al
nivel
No rechace
entre errores
No existe indicio de
una
correlacin
serial
.
Es
posible
correlacin
una
serial
positiva
al nivel
No
se
concluye
vs
Si
Rechace
Si
S
al
nivel
No rechace
al nivel
No
se
concluye
Es
posible
correlacin
una
serial
negativa
No existe indicio de
una
correlacin
serial
No
se
puede
concluir nada
Para evitar los casos inconclusos, se hace una prueba mdificada,
aunque con ello se pierde potencia
Prueba simplificada de una cola:
s
rechace
al nivel
en otro caso no rechace
Prueba simplificada de una cola:
si
rechace
al nivel
FACULTAD DE INGENIERIA CIVIL
en otro caso no rechace
Pgina 30
UNIVERSIDAD NACIONAL SAN LUIS GONZAGA
LINEAL MLTIPLE
REGRESIN
Prueba simplificada de dos colas :
s
rechace
Tabla 1. Puntos significativos de
1%
al nivel
en otro caso no rechace
y
2.5%
5%
15
0.8
1.0
0.9
1.2
1.0
1.3
20
1
0.9
7
1.1
5
1.0
3
1.2
8
1.2
6
1.4
25
5
1.0
5
1.2
8
1.1
8
1.3
0
1.2
1
1.4
30
5
1.1
1
1.2
8
1.2
4
1.3
9
1.3
5
1.4
40
3
1.2
6
1.3
5
1.3
8
1.4
5
1.4
9
1.5
50
5
1.3
4
1.4
5
1.4
5
1.5
4
1.5
4
1.5
70
2
1.4
0
1.4
2
1.5
0
1.5
0
1.5
9
1.6
10
3
1.5
9
1.5
1
1.5
7
1.6
8
1.6
4
1.6
0
15
2
1.6
6
1.6
9
___
3
___
5
1.7
9
1.7
0
20
1
1.6
4
1.6
___
2
1.7
5
1.7
___
5.-MODELO DE CORRELACIN POLINOMIAL
Modelo poblacional:
y / x 0 1 x 2 X 2 ... r X r
FACULTAD DE INGENIERIA CIVIL
Pgina 31
UNIVERSIDAD NACIONAL SAN LUIS GONZAGA
LINEAL MLTIPLE
REGRESIN
Modelo muestral:
= b0 + b1 X2 + br Xr
EJEMPLO
Se llevo a cabo un experimento para determinar la distancia de
frenado a diferentes velocidades de un modelo nuevo de automvil, se
registraron los siguientes datos:
Velocidad X (Km./h)
Distancia de frenado
30
15
40
25
50
35
60
65
(metros)
70
10
80
15
a) Estime la ecuacin de regresin cuadrtica.
Y 0 1 x 2 X 2
b) Estimar la distancia de frenado cuando el vehculo viaja a la
velocidad de 80 Km/h Y/80.
c) Solucin si el modelo propuesto es el adecuado.
Solucin
a) Se va a determinar la ecuacin muestral:
Y 0 1 x 2 X 2
De los daros, utilizando el paquete MCEST, se obtiene las ecuaciones
normales:
6b0 + 33b1 + 199000b2 = 390
330b0 + 19900b1 + 1287000b2 = 26100
19900b0 + 1287000b1 + 87550000b2 = 1825000
Las soluciones nicas de este sistema son:
b0 = 65.28434,
b1 = -3.23570, b2 = 0.05357
Luego, el polinomio es:
FACULTAD DE INGENIERIA CIVIL
Pgina 32
UNIVERSIDAD NACIONAL SAN LUIS GONZAGA
LINEAL MLTIPLE
REGRESIN
Y 65.28434 3.23570 X 0.05357 X 2
b) si X = 90, entonces y/80 = 207.99 metros
c) Utilizando la prueba t para la significacin de coeficientes se
tiene:
Pruebas t de ka hiptesis: 1 = 0, 2 = 0
Modelo
Coeficient
Error
es
estndar
Significaci
n
bilateral
b0
65.284
b1
-3.236
0.516
-6.276
0.011
b2
0.054
0.005
11.530
0.001
Se concluye que el modelo es adecuado.
Regresin polinomial
Supongamos que se conocen los datos
(xo, yo),(x1, y1),..(xn, yn) con x0, x1, .., xn
nmeros reales distintos, y se desea encontrar un polinomio
Pm(x) = a0 + a1x + a2x2 + .. + am xm,
con m<n
Tal que:
Sea mnima.
P1) El grado m del polinomio p m(x) se puede escoger previamente
con base en algn resultado terico, alguna expectativa o por la
aplicacin que se le pretenda dar al polinomio. En cualquier caso
FACULTAD DE INGENIERIA CIVIL
Pgina 33
UNIVERSIDAD NACIONAL SAN LUIS GONZAGA
LINEAL MLTIPLE
REGRESIN
estamos libres de elegir el grado que parezca mejor. En muchos
casos el grado ser uno y el polinomio obtenido se llamar la recta
que mejor se ajusta o la recta de mnimos cuadrados para la tabla de
datos.
P2) Volviendo a la funcin S(a0, a1, .., am), una condicin necesaria
para la existencia de un mnimo relativo de esta funcin es que las
derivadas parciales de S(a0, a1, .., am) con respecto a aj, j = 0, 1, 2,
,m sean cero.
Resultan entonces las siguientes m+1 ecuaciones lineales en las
incgnitas a0, a1, .., am :
P3) Si en las ecuaciones anteriores cancelamos el 2, desarrollamos
los parntesis y usamos que
, obtenemos:
FACULTAD DE INGENIERIA CIVIL
Pgina 34
UNIVERSIDAD NACIONAL SAN LUIS GONZAGA
LINEAL MLTIPLE
REGRESIN
P4) Este es un SEL de m+1 ecuaciones lineales en las m+1
incgnitas a0, a1, .., am, que se llama Sistema de Ecuaciones
Normales. Este sistema de ecuaciones normales se puede escribir en
forma simplificada como sigue:
P5) Estas ecuaciones se pueden reproducir a partir de:
P6) Multiplicando a ambos lados por
, j = 0, 1, , m,
P7) Sumando sobre k
Regresin Polinomial Utilizando las IMSL
Las rutinas de las IMSL de Fortran proveen de varias funciones
de
aproximacin
polinomial.
Con
respecto
la
aproximacin
utilizando el mtodo de los mnimos cuadrados, dicha librera tiene las
funciones RCURVE y DRCURV (tanto para precisin sencilla como
FACULTAD DE INGENIERIA CIVIL
Pgina 35
UNIVERSIDAD NACIONAL SAN LUIS GONZAGA
LINEAL MLTIPLE
REGRESIN
doble) para obtener los coeficientes del polinomio que se pretende
evaluar. Para este caso, slo nos limitaremos al caso de datos de
precisin sencilla.
La forma de llamar a dicha funcin es la siguiente:
CALL RCURV (NOBS, XDATA, YDATA, NDEG, B, SSPOLY, STAT)
Los argumentos que dicha funcin requiere son los siguientes:
NOBS Nmero de observaciones. (Dato de entrada)
XDATA Vector de longitud NOBS que contiene los valores de X (Dato
de entrada).
YDATA - Vector de longitud NOBS que contiene los valores de Y (Dato
de entrada).
NDEG Grado del polinomio que se requiere probar. (Dato de
entrada)
B - Vector de longitud NDEG + 1 que contiene los coeficientes del
polinomio (Dato de salida)
SSPOLY - Vector de longitud NDEG + 1 que contiene las sumas
secuenciales de los cuadrados de los datos (Dato de salida).
SSPOLY (1)- contiene la suma de los cuadrados atribuidos a la media.
Desde i = 1, 2, , NDEG,
SSPOLY (i + 1) -contiene la suma de los cuadrados atribuidos a xi
ajustados a la media,
x, x2, y xi-1.
STAT - Vector de longitud 10 que contiene los resultados estadsticos
siguientes (Dato de salida):
STAT (1) = La media de los datos X
STAT (2) = La media de los datos Y
STAT (3) =Varianza muestral de X
STAT (4) = Varianza muestral de Y
STAT (5) = R-cuadrada (en porcentaje)
FACULTAD DE INGENIERIA CIVIL
Pgina 36
UNIVERSIDAD NACIONAL SAN LUIS GONZAGA
LINEAL MLTIPLE
REGRESIN
STAT (6) = Grados de libertad de la regresin
STAT (7) = Suma de los cuadrados de la regresin
STAT (8) = Grados de libertad del error de la regresin
STAT (9) = Suma de los cuadrados del error de la regresin
STAT (10) = Nmero de puntos (x, y) que contienen valores NaN (not
a number) para x e y
Si al programa se le alimentan los datos del ejemplo de la
aproximacin spiline (
) y pidindole que lo aproxime a un
polinomio de grado 3, estos seran los coeficientes de dicho
polinomio:
COEFICIENTES DEL POLINOMIO:
1) 2.3264945E-02
2) 1.922223
3) -1.065270
4) 0.2241328
El polinomio resultante sera el siguiente:
F(X) = 0.2241328X3 -1.065270X2 +1.922223X +0.0232649
FACULTAD DE INGENIERIA CIVIL
Pgina 37
UNIVERSIDAD NACIONAL SAN LUIS GONZAGA
LINEAL MLTIPLE
La
siguiente
tabla
muestra
cmo
se
REGRESIN
comporta
el
programa,
comparado con los resultados arrojados por una hoja de clculo:
PROGRAMA
X
YAPRO
(Excel)
YREAL DIFEREN
0.000
X
0.023
0.000
CIA
0.0233
0
0.062
3
0.139
0
0.250
0.1107
5
0.125
3
0.247
0
0.353
0.1062
0
0.187
3
0.347
6
0.433
0.0853
5
0.250
7
0.440
0
0.500
0.0593
0
0.312
7
0.526
0
0.559
0.0322
5
0.375
8
0.606
0
0.612
0.0063
0
0.437
1
0.679
4
0.661
0.0177
5
0.500
1
0.746
4
0.707
0.0390
0
1.750
1
1.326
1
1.322
0.0031
0
1.812
0
1.342
9
1.346
0.0040
5
1.875
3
1.359
3
1.369
0.0095
0
1.937
8
1.378
3
1.391
0.0131
5
2.000
8
1.399
9
1.414
0.0145
FACULTAD DE INGENIERIA CIVIL
Pgina 38
UNIVERSIDAD NACIONAL SAN LUIS GONZAGA
LINEAL MLTIPLE
REGRESIN
2.062
1.422
1.436
0.0134
5
2.125
8
1.448
1
1.457
0.0094
0
2.187
3
1.476
7
1.479
0.0023
5
2.250
8
1.508
0
1.500
0.0083
La siguiente grfica muestra como se aproximan los datos
predichos por el polinomio de 3er grado a los datos a interpolar del
ejemplo usado en el caso de la aproximacin spline:
Figura: Representacin de la funcin
. Los cuadros con la lnea
continua representan los valores tabulados utilizando el
polinomio
obtenido por el programa y las cruces son los datos interpolados
mediante una funcin del ejemplo
FACULTAD DE INGENIERIA CIVIL
Pgina 39
UNIVERSIDAD NACIONAL SAN LUIS GONZAGA
LINEAL MLTIPLE
REGRESIN
BIBLIOGRAFA
Taro yamane estadstica
Spiegel Murcay Probabilidad y estadstica Mc. Graw Hill
Estadstica inferencial Manual Cordova Zamora
Manual de estadstica
http://www.monografias.com/trabajos21/regresionlineal/regresion-lineal.shtml#prueba
www.virtual.unal.edu.co/cursos/ciencias/2007315/lecciones_htm
l/capitulo_2/leccion4/indepen.html-32k
http://www.ingenieria.uady.mx/weblioteca/CompApp/aproximaci
on/poli/Regresionpolinomial.htm.
FACULTAD DE INGENIERIA CIVIL
Pgina 40