Prctica 5.2. Problema resuelto de regresin lineal mltiple.
Problema 5. 4. Una desea estimar los
gastos en alimentacin de una familia en base a la informacin que proporcionan las variables regresoras X =ingresos mensuales y X =nmero de miembros de la familia. Para ello se recoge una muestra aleatoria simple de 15 familias cuyos resultados son los de la tabla adjunta (El gasto e ingreso est dado en cientos de miles de pesetas)
1 2
Gasto Ingres Tama Gasto Ingres Tama o o o o 0 43
'
21
'
3 4 5 4 4
1 29
'
89
'
3 2 4 3 2
0 31
'
11
'
0 35
'
24
'
0 32
'
09
'
0 35
'
12
'
0 46
'
16
'
0 78
'
47
'
1 25
'
62
'
0 43
'
35
'
0 44
'
23
'
3 6 5
0 47
'
29
'
3 4
0 52
'
18
'
0 38
'
14
'
0 29
'
10
'
Datos del problema [ASCII] [spss-10] [sgplus-5]
Solucin Problema 5.4.
Los datos en forma matricial:
Con estos datos se obtiene
Por tanto
De donde
El modelo de regresin lineal que se obtiene es: A partir de esta ecuacin se obtienen las predicciones y los residuos asociados a las observaciones muestrales. Para la primera observacin se obtiene
Razonando as en todos los puntos muestrales se obtiene
Calculo de scR
Tambin se puede calcular la scR de la siguiente forma
0 i 1 i 1i 2 i 2i ' ' ' '
yyx yx = 70 - 0 149 . 32 063 - 0 077 . 28 960 Se calculan los intervalos de confianza de
los parmetros del modelo al 90%, Para la varianza,
2
~ 5 2253 < 0 0034 <
' '
2 12
< 21 0298 < 0 0138
' '
La varianza de los estimadores del modelo es
de donde se deduce que
= 0 00816 = 0 000099 = 0 00040
' ' '
= 0 0903 = 0 0099 = 0 0201
' ' ' 0 '
.
12
Intervalo de confianza para
0 0903 <-0 160 - < t - 0 321 < < 0 001
' 0 ' 0 ' ' ' 1
12
0 0903
' 1
.
12
. 0 0099 < 0 149 - < t 0 0099 0 1314 < < 0 1666 Contrate H = 0, la variable ingreso no influye (contraste individual de la t)
12 ' ' 1 ' 0 1
Intervalo de confianza para
(ingreso)
.
12
. 0 0201 < 0 077 - < t 0 0201 0 0412 < < 0 1128 Contrate H = 0, la variable tamao no influye (contraste individual de la t)
' ' 2 12 ' ' 2 ' 0 2
Intervalo de confianza para
(tamao)
Tabla Anova, de donde
Tabla ANOVA Fuentes de Variacin scE (por el Suma de Grados de
Varianz as
Cuadrad liberta os d 1 3595
'
2 12 14
modelo)
scR (Residual) scG (Global) 0 0721
'
= 0 6797
e 2
'
= 0 0060
R 2
'
1 4316
'
= 0 1023
2 y
'
Con estos datos se obtiene el siguiente contraste conjunto de la F
El contraste conjunto de la F indica claramente la influencia del modelo en la variable respuesta. Por tanto, de los contrastes individuales y del conjunto se deduce la influencia de cada una de las dos variables regresoras y la influencia conjunta del modelo. Ahora se calcula el contraste individual de la F respecto a la variable x =tamao, contraste que es equivalente al contraste individual de la t. Para ello, se obtiene la regresin de la variable gasto respecto a la variable ingreso,
2
la tabla ANOVA de este modelo es
Tabla ANOVA Fuentes de Variacin scE (ingreso Suma de Grados Varianzas de Cuadrad libertad os 1 2716
'
= 1 2716
'
scR (Residu
0 1600
'
13 14
2 y
al)
scG (Global) 1 4316
'
= 0 0123
R 2
'
= 0 1022
'
La variabilidad incremental debida a la variable dimetro es este valor indica lo que aumenta la variabilidad explicada por el modelo al introducir la variable tamao. Para contrastar la influencia o no de esta variable se utiliza el estadstico
que da el mismo p-valor que en el contraste individual de la t (hay pequeas diferencias por los resondeos). Clculo de los coeficientes de correlacin: El coeficiente de determinacin,
El coeficiente de correlacin mltiple El coeficiente de determinacin corregido por el nmero de grados de libertad.
El coeficiente de correlacin simple entre las variables gasto e ingreso, Este coeficiente es una medida de la relacin lineal existente entre las variables gasto e ingreso. Tambin se puede calcular a partir del coeficiente de determinacin de la siguiente regresin La tabla ANOVA del modelo es
Tabla ANOVA
Fuentes de Variacin scE (ingreso
Suma de Grados Varianzas de Cuadrad libertad os 1 2716
'
1 13 14
= 1 2716
'
)
scR (Residu 0 1600
'
al)
scG (Global) 1 4316
'
= 0 0123
R 2
'
2 y
= 0 1022
'
Anlogamente, el coeficiente de correlacin simple entre las variables gasto y tamao es, Coeficiente de correlacin parcial entre las variables gasto e ingreso.
r
2
= = 0 9496 = 0 974.
' '
Otra forma ms compleja de calcular
este coeficiente es la siguiente: se obtienen las siguientes regresiones y se guardan los residuos, 0 6713 - 0 0363 tamao + e . 5 5923 - 07615 tamao + e . Ahora el coeficiente de correlacin parcial entre las variables gasto e ingreso se obtiene como el coeficiente de correlacin simple entre las variables e ye
' ' [Link] ' [Link] [Link] [Link]
= = 0 9740,
'
este coeficiente mide la relacin entre las variables gasto e ingreso libres de la influencia de la variable tamao. Anlogamente se obtiene que
Estimacin de la media condicionada.
Estimar el gasto medio en alimentacin de una familia con unos ingresos de x =
1
3 0 y un tamao de x = 4. Esto
' 2
es
Aplicando el modelo de regresin Se calcula el valor de influencia asociado al dato = =
h
= 0 07649
'
La varianza del estimador es Y un intervalo de confianza para m al 90% es
h
Prediccin de una observacin.
La familia Prez que tiene unos ingresos de x = 3 0 y un tamao de x = 4. Esto
1 ' 2
es tendr?.
qu gasto en alimentacin
Aplicando el modelo de regresin estimado La varianza de la prediccin es
'
= 0 0060 = 0 0803
'
= 0 0065
'
Y un intervalo de prdiccin al 90% es Algunos grficos de inters que ayudan a resolver el problema son los siguientes:
Grficos parciales de las componentes
Grficos de residuos,
.- INTRODUCCIN Como la Estadstica Inferencial nos permite trabajar con una variable a nivel de intervalo o razn, as tambin se puede comprender la relacin de dos o ms variables y nos permitir relacionar mediante ecuaciones, una variable en relacin de la otra variable llamndose Regresin Lineal y una variable en relacin a otras variables llamndose Regresin mltiple. Casi constantemente en la practica de la investigacin estadstica, se encuentran variables que de alguna manera estn relacionados entre si, por lo que es posible que una de las variables puedan relacionarse matemticamente en funcin de otra u otras variables. II.- MARCO TEORICO [Link] define como un procedimiento mediante el cual se trata de determinar si existe o no relacin de dependencia entre dos o ms variables. Es decir, conociendo los valores de una variable independiente, se trata de estimar los valores, de una o ms variables dependientes. La regresin en forma grafica, trata de lograr que una dispersin de las frecuencias sea ajustada a una lnea recta o curva. Clases de Regresin
La regresin puede ser Lineal y Curvilnea o no lineal, ambos tipos de regresin pueden ser a su vez: a. Esta regresin se utiliza con mayor frecuencia en las ciencias econmicas, y sus disciplinas tecnolgicas. Cualquier funcin no lineal, es linealizada para su estudio y efectos prcticos en las ciencias econmicas, modelos no lineales y lineales multiecuacionales. Objetivo: Se utiliza la regresin lineal simple para: 1.- Determinar la relacin de dependencia que tiene una variable respecto a otra. 2.- Ajustar la distribucin de frecuencias de una lnea, es decir, determinar la forma de la lnea de regresin. 3.- Predecir un dato desconocido de una variable partiendo de los datos conocidos de otra variable. Por ejemplo: Podra ser una regresin de tipo lineal: En una empresa de servicio de Internet busca relacionar las ganancias que obtiene cada computadora con el numero de usuarios que ingresan a dicha cabina diariamente. En la tabla representa Y (Ganancias S/.) e X (Numero de usuarios) Y 100 98 99 102 102 111 97 104 102 96 X 116 96 110 105 99 106 100 109 98 108 Coeficiente de Regresin
Indica el nmero de unidades en que se modifica la variable dependiente "Y" por efecto del cambio de la variable independiente "X" o viceversa en una unidad de medida. Clases de coeficiente de Regresin: El coeficiente de regresin puede ser: Positivo, Negativo y Nulo. Es positivo cuando las variaciones de la variable independiente X son directamente proporcionales a las variaciones de la variable dependiente "Y" Es negativo, cuando las variaciones de la variable independiente "X" son inversamente proporcionales a las variaciones de las variables dependientes "Y" Es nulo o cero, cuando entre las variables dependientes "Y" e independientes "X" no existen relacin alguna.
Procedimiento para hallar el Coeficiente de Regresin Para determinar el valor del coeficiente de regresin de una manera fcil y exacta es utilizando el mtodo de los Mnimos Cuadrados de dos maneras: 1.- Forma Directa De la ecuacin de la recta: Si y , se obtienen a partir de las ecuaciones normales:
Aplicando normales Y sobre X tenemos:
El Coeficiente de Regresin es De la misma manera la recta de regresin de "X" sobre "Y" ser dada de la siguiente manera: Donde: y normales: se obtienen a partir de las ecuaciones
Aplicando normales X sobre Y tenemos:
2.- Forma Indirecta del Mtodo de los Mnimos Cuadrados.
El fundamento de este mtodo es de las desviaciones de X respecto a su media aritmtica. X
Ecuacin de y sobre x Ecuacin de y sobre x Donde:
x, y = desviaciones X = media aritmtica Y = media aritmtica b. Regresin Simple: Este tipo se presenta cuando una variable independiente ejerce influencia sobre otra variable dependiente. Ejemplo: Y = f(x) c. Regresin Mltiple: Este tipo se presenta cuando dos o ms variables independientes influyen sobre una variable dependiente. Ejemplo: Y = f(x, w, z). Por ejemplo: Podra ser una regresin de tipo mltiple: Una Empresa de desarrollo de software establece relacionar sus Ventas en funcin del numero de pedidos de los tipos de software que desarrolla (Sistemas, Educativos y Automatizaciones Empresariales), para atender 10 proyectos en el presente ao.
En la Tabla representa Y (Ventas miles de S/.) e X (N pedidos de sistemas), W (N de pedidos de Aplicaciones Educativas) y Z (N de pedidos de Automatizaciones empresariales). Y 440 455 470 510 506 480 460 500 490 450 X 50 40 35 45 51 55 53 48 38 44 W 105 140 110 130 125 115 100 103 118 98 Z 75 68 70 64 67 72 70 73 69 74 Objetivo: Se presentara primero el anlisis de regresin mltiple al desarrollar y explicar el uso de la ecuacin de regresin mltiple, as como el error estndar mltiple de estimacin. Despus se medir la fuerza de la relacin entre las variables independientes, utilizando los coeficientes mltiples de determinacin. Anlisis de Regresin Mltiple Dispone de una ecuacin con dos variables independientes adicionales:
Se puede ampliar para cualquier nmero "m" de variables independientes:
Para poder resolver y obtener y en una ecuacin de regresin mltiple el clculo se presenta muy tediosa
porque se tiene atender 3 ecuaciones que se generan por el mtodo de mnimo de cuadrados:
Para poder resolver se puede utilizar programas informticos como AD+, SPSS y Minitab y Excel. El error estndar de la regresin mltiple Es una medida de dispersin la estimacin se hace ms precisa conforme el grado de dispersin alrededor del plano de regresin se hace mas pequeo. Para medirla se utiliza la formula:
Y : Valores observados en la muestra : Valores estimados a partir a partir de la ecuacin de regresin n : Nmero de datos m : Nmero de variables independientes El coeficiente de determinacin mltiple
Mide la tasa porcentual de los cambios de Y que pueden ser explicados por , y simultneamente.
III.- APLICACION DE REGRESION MULTIPLE Mediante el siguiente problema podremos ilustrar la aplicacin de Regresin Multiple: En la Facultad de Ingeniera de Sistemas y Computo de la Universidad "Inca Garcilaso de la Vega" se quiere entender los factores de aprendizaje de los alumnos que cursan la asignatura de PHP, para lo cual se escoge al azar una muestra de 15 alumnos y ellos registran notas promedios en las asignaturas de Algoritmos, Base de Datos y Programacin como se muestran en el siguiente cuadro. Base de Alumno PHP Algoritmos Datos Programacin 1 13 15 15 13 2 13 14 13 12 3 13 16 13 14 4 15 20 14 16 5 16 18 18 17 6 15 16 17 15 7 12 13 15 11 8 13 16 14 15 9 13 15 14 13
10 11 12 13 14 15
13 11 14 15 15 15
14 12 16 17 19 13
13 12 11 16 14 15
10 10 14 15 16 10
Lo que buscamos es construir un modelo para determinar la dependencia que exista de aprendizaje reflejada en las notas de la asignatura de PHP, conociendo las notas de las asignaturas Algoritmos, Base de Datos y Programacin. Se presentara la siguiente ecuacin a resolver: Utilizando las formulas de las ecuaciones normales a los datos obtendremos los coeficientes de regresin o utilizando Regresin de Anlisis de datos, en la Hoja de Calculo de Excel podemos calcular tambin los coeficientes de regresin:
Por lo tanto podemos construir la ecuacin de regresin que buscamos:
El Error Estndar de Regresin Mltiple Mediante esta medida de dispersin se hace ms preciso el grado de dispersin alrededor del plano de regresin, se hace ms pequeo. Para calcularla se utiliza la formula siguiente:
En los resultados de Excel se llama error tpico y para explicar la relacin del aprendizaje de PHP que se viene desarrollando es de 0.861 El coeficiente de determinacin mltiple (r2) Utilizaremos para determinar la tasa porcentual de Y para ser explicados las variables mltiples, utilizando la si siguiente formula:
IV.- CONCLUSIONES
El 69.70% del aprendizaje del Curso de PHP puede ser explicado mediante las notas obtenidas por las asignaturas de Algoritmos, Base de Datos y Programacin.
Leer ms: [Link]