0% encontró este documento útil (0 votos)
40 vistas16 páginas

Regresión Multiple

Este documento describe el modelo de regresión múltiple, donde se estudia la relación entre una variable dependiente Y y múltiples variables independientes X1, X2, etc. Explica cómo determinar los coeficientes del modelo usando el método de mínimos cuadrados ordinarios y proporciona un ejemplo numérico para ilustrar el proceso.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
40 vistas16 páginas

Regresión Multiple

Este documento describe el modelo de regresión múltiple, donde se estudia la relación entre una variable dependiente Y y múltiples variables independientes X1, X2, etc. Explica cómo determinar los coeficientes del modelo usando el método de mínimos cuadrados ordinarios y proporciona un ejemplo numérico para ilustrar el proceso.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

TEMA NRO 4

REGRESIÓN MULTIPLE
En la regresión múltiple estudia la relación entre Y y diversas variables explicativas X 1,
X2,…, Xn
El modelo supuesto es

Y1¿ β 0 + β 1x1i+ β 2x2i+…+ β kxki +ei i=1,2,…,n


1.- E(ei)=0
2.- V(ei)=σ 2

3.- ei y ej son independientes para toda i≠j


4.- ei y xj son independientes para todo i y j
5.- ei tiene una distribución normal para toda i
Donde
e^ i= y i−¿ + ^β 2 x 2)

Siendo e^ i un estimador insesgado de ei

Tambien se debe considerar que:

1
E(ei)=0 ( )∑e^ i= 0 o ∑e^ i= 0
n
1
cov(ei,x1)=0 ( )∑x1ie^ i= 0 o ∑x1ie^ i= 0
n
1
cov(ei,x2)=0 ( )∑x2ie^ i= 0 o ∑2ie^ i= 0
n

Regresión Lineal Para Dos variables explicativas o independientes


Para obtener el modelo de regresión

^y = β^ 0 + β^ 1 x 1+ ^β 2 x 2

Donde se tiene que determinar el valor de cada coeficiente ^β 0 , β^ 1, ^β 2 se emplea el


método de mínimos cuadrados para determinar las ecuaciones normales donde las
ecuaciones normales se definen de la siguiente manera.

∑ y= ^β 0 n+ ¿ ^β 1 ∑ x 1 +¿ ^β 2 ∑ x 2
∑ x 1 y= ^β 0 ∑ x1 + ^β 1 ∑ x 12+ ^β 2 ∑ x 1 x2
∑ x 2 y= ^β 0 ∑ x2 + ^β 1 ∑ x 1 x2+ ^β 2 ∑ x 22

TEOREMA. - Sea AX=B Un Sistema De n Ecuaciones Con n Variables. Si La Matriz De


Coeficientes De Coeficientes Es Invertible Entonces El Sistema Tiene Única Solución Y
Esta Definido Por:
X=A-1B
Propiedades de la inversa
Teorema. - Sea A una matriz invertible y K un escalar distinto de cero entonces
1.- (A-1 )-1=A
2.- K A-1=(1/K)* A-1
3.- (At)-1=(A-1)t
Ecuaciones normales en su forma matricial

[ ]
n ∑ x1 ∑ x2
A= ∑ x1 ∑ x 1 ∑ x 1∗x 2
2

∑ x2 ∑ x 1∗x 2 ∑ x 22

[ ]
∑y
B= ∑ x1 y
∑ x2 y

[]

0
X = β^ 1
β^ 2

[]

0
^β =¿A-1*B
1

2
EJEMPLO DE ESTUDIANTES DE LA MATERIA DE CALCULO

NRO Y(NOTAS) X1(CANTIDAD DE X2(TIEMPO DE


LIBROS QUE LEE) ESTUDIO QUE
REALIZA)
1 30 1 4
2 60 2 6
3 51 2 5
4 20 0 1

[ ]
^β =16.8
0
^β =17.8 =¿A-1*B
1
^β =0.3
2

^y =16.8+ 17.8 x 1+0.3 x 2

Otra forma de calcular el valor de cada coeficiente del modelo por medio del método
de los mínimos cuadrados ordinarios se procede de la siguiente manera.

El método de mínimos cuadrados indica que se deberán elegir los estimadores ^β 0, ^β 1 y


^β 2 de ^β 0, ^β 1 y ^β 2 a fin de reducir al mínimo.

Q=∑(yi - ^β 0- ^β 1x1i - ^β 2x2i)2

Al derivar Q con respecto de ^β 0, ^β 1 y ^β 2 , e igualar las derivadas a cero se obtiene

c^ Q =0 ∑ 2(yi - ^ - 1x1i - 2x2i )(-1)=0


β 0 ^β ^β
c^ β^ 0

∂Q
=0 ∑ 2(yi - ^β 0 - ^β 1x1i - ^β 2x2i )(-x1i)=0
∂ ^β1
∂Q
=0 ∑ 2(yi - ^β 0 - ^β 1 x1i - ^β 2x2i )(-x2i)=0
∂ ^β2

Como se mencionó antes, estas tres ecuaciones se conocen como “ecuaciones


normales”. Es posible simplificarlas de la forma siguiente. La ecuación puede escribirse
como

∑ yi = n ^β 0 + ^β 1 ∑ x1i +¿ + β^ 2 ∑ x2i

y = ^β 0 + ^β 1 x 1 +¿ + β^ 2 x 1
Donde
1 1 1
y= ∑y x 1= ∑x1i x 2= ∑x2i
n i n n
Es posible simplificar y determinar algunas ecuaciones

S11 =∑ x 1i −n x1
2 2
S1 y =∑ x 1 i y i−n x 1 y

S12=∑ x 1 i x 2 i−n x 1 x 2 S2 y =∑ x 2 i y i−n x 2 y

S22=∑ x 2 i−n x 2
2 2

S yy =∑ y i −n y
2 2

La ecuación S1 y y S2 y se pueden calcular como:

S1 y = β^ 1 S11 + ^β 2 S12

S2 y = β^ 1 S12 + ^β 2 S22

Ahora es posible calcular ^β 1 y ^β 2


S 22 S1 y −S12 S 2 y
^β =
1

S 11 S 2 y −S12 S1 y
^β =
2

Donde:
∆=S11 S22- S212

Y para obtener ^β 0
^β = y − ^β x − ^β x
0 1 1 2 2

La regresión lineal de una variable dependiente ¨Y¨ con respecto ha ¨X1, X2,… Xn¨
consiste en determinar una ecuación lineal:

^y = β^ 0 + β^ 1 x 1+…+ ^β n x n

Calculo del coeficiente de correlación múltiple r (dos variables explicadas)


^β S + β^ S
. 1 1y 2 2y
Ry x x =
1 2
S yy
Cálculo del coeficiente de determinación múltiple r2

2 β^ 1 S 1 y + ^β2 S 2 y
Ry x x =
1 2
S yy

Mismo que mide la proporción o porcentaje de variación total de la variable explicada


y por parte de las variables explicativas x1 , x2

EJMPLO
DETERMINAR LOS COEFICIENTES DEL MODELO USANDO EL SEGUNDO METODO
MEDIANTE R-STUDIO

NRO Y(NOTAS) X1(CANTIDAD DE X2(TIEMPO DE


LIBROS QUE LEE) ESTUDIO QUE
REALIZA)
1 30 1 4
2 60 2 6
3 51 2 5
4 20 0 1

Interpretación de los coeficientes de regresión


En la ecuación de regresión múltiple con dos variables explicativas x1, x2 es posible
hablar del efecto de conjunto x1, x2 y del efecto parcial de x1 o de x2 sobre y.

El efecto parcial de x1 se mide por ^β 1 y el efecto parcial de x2 por ^β 2. Con efecto parcial
queremos decir mantener constante la otra variable o bien después de eliminar el
efecto de la otra variable. Por lo tanto ^β 1 se debe interpretar como una medición de
efecto de x1 sobre la variable y después de eliminar el efecto de x2 sobre x1. Del mismo
modo, se debe interpretar ^β 2 como una medición de efecto de x2 sobre la variable y
después de eliminar el efecto de x1 sobre x2 Interpretación de los coeficientes de
correlación y determinación. -
Si se está trabajando con modelo

^y = β^ 0 + β^ 1 x 1+ ^β 2 x 2

Entonces:
Existen las diferentes medidas: Coeficiente de correlación simple, coeficiente de
correlación parcial, coeficiente de correlación múltiple, coeficiente de determinación
simple, coeficiente de determinación parcial y coeficiente de determinación múltiple.
Coeficiente de correlación simple
.
r y x : Mide La relación de y con x 1
1

.
r y x : Mide La relación de y con x 2
2

Coeficiente de correlación parcial


.
r y x x : Mide La relación de y con x 2 después de incluir x 1
1. 2

.
r y x x : Mide La relación de y con x 1depues de incluir x 2
2. 1

Coeficiente de correlación multiple


.
Ry x x 1 2

Coeficiente de determinación
2
r y x : Mide la proporción de variación total(varianza) en y explica por x 1
1

2
r y x : Mide la proporción de variación total(varianza) en y explica por x 2
2

Coeficiente de determinación parcial


Si nos interesaría saber ¿Qué tanto explica x2 después de incluir x1?
2
r y x x : Mide la proporción de variación total(varianza) en y explicada por x 2 después de
1. 2

incluir x 1

Si nos interesaría saber ¿Qué tanto explica x1 después de incluir x2?


2
r y x x : Mide la proporción de variación total(varianza) en y explicada por x 1 después de
2. 1

incluir x 2

Coeficiente de determinación múltiple


2
Ry x x 1 2

Importancia sobre el coeficiente de determinación parcial


El caso sobre el coeficiente de determinación parcial es muy importante para decidir si
se incluye o no mas variables explicativas.
2 2
Suponiendo r y x es muy elevada aproximadamente a 1 pero que r y x x es baja
2 2. 1

aproximadamente a 0 lo que significa es que, si solo se utiliza X 2 para explicar y, es


posible efectuar un buen trabajo. Pero si después de incluir x 1 y x2 ya que no ayuda a
explicar y; es decir, x1 hace el trabajo de x2. En este caso no tiene sentido incluir a x2
A esta situación se considera como multicolinealidad
Análisis de varianza y prueba de hipótesis
Si se está trabajando con modelo

^y = β^ 0 + β^ 1 x 1+ ^β 2 x 2
Se debe calcular el estadístico F de Fisher para probar la hipótesis con respecto a β 1 y
β 2. Una expresión alternativa para esta prueba se define de la siguiente manera.
2
R
(k −1)
F calculado= 2
1−R
n−k
Donde k: número de parámetros,

Donde F critico se define de la siguiente manera


F critico=¿ ((k-1),(n-k)) con un nivel de confianza del 0.95

Se debe hacer el contraste de las hipótesis


H 0: β 1= β 2
H1: β 1≠ β 2
Si F calculado > F critico entonces se rechaza H0

Si se rechaza H0 significaría que todas las variables explicativas x 1 , x 2 influyen(aportan)


significativa mente en el modelo, es decir están lineal mente correlacionados con la
variable y

Si se hubiera aceptado H0 significaba que las variables x 1 , x 2 influyen no influyen


significativa mente (no aportan) al modelo, es decir la ecuación de regresión no es útil
Análisis de varianza

FUENTE VARIACION SUMA DE GRADOS MEDIA DE F0


CUADRADO DE CUADRADOS
LIBERTAD
REGRESIÓN (ENTRE R2Syy k 2
R S yy MS1
MS 1= F calculada=
VARIABLES k MS2
EXPLICATIVAS)
RESIDUO O ERROR (1- R2) Syy n-k-1 2
(1−R ) S yy
(ENTRE LAS MS 2=
n−k−1
OBSERVACIONES)
TOTAL SST n-1

Donde
S yy =∑ y i −n y
2 2

Colinealidad
Es la existencia de una relación perfecta exacta entre dos variables explicativas de un
modelo de regresión. Si existe relaciones perfectas o exactas entre varias variables
explicativas significa que existe multicolinealidad para un modelo de regresión.
Homocedasticidad
Uno de los supuestos del modelo de regresión lineal es que la varianza de los errores ei
condicionada a los valores seleccionados de las variables explicativas es algún número
constante igual a σ 2. Este es el supuesto de homocedasticidad donde homo(igual)
cedasticidad(dispersión) es decir igual varianza simbólicamente.

E ( e2i ) =σ 2 i=1 ,2 , … , n

Caso contrario se estaría hablando de que el modelo lineal tiene varianzas distintas
siendo Heterocedasticidad (varianza de los errores distintos)
Una forma para solucionar el problema de heteroscedasticidad es aplicando logaritmo
a cada variable o estandarizarlos.
Detección de la heterocedasticidad.
Se usa la prueba de White
En la prueba de White se debe regresiones (existencia de 2 variables explicativas) de
2 2 2
e i sobre X 1 , X 2 , X 1 , X 2 , X 1∗X 2

Autocorrelación
El termino de autocorrelación se puede definir como la correlación existente entre
miembros de una observación obtenida a través del tiempo
Como se detecta la autocorrelación
El método grafico puede sustituirse por un método más analítico el cual es el método
de Durbin Watson o el calculo del estadístico de Durbin Watson

∑ (e t−et −1)2
d= i=2 n

∑ e2i
i=1

1.5 ≤ d ≤ 2.5
No existe autocorrelación
Con el grafico y la matriz de correlación se debe ver si existe autocorrelación en las
variables explicativas.
EJEMPLO
Con el programa R-STUDIO Y LA BASE DE DATOS BASE1 ,
a.-) DETERMINE UN MODELO LINEAL ENTRE LAS VARIABLES NOTAS, HORAS,
MATERIAS
BASEE=[Link](BASE$nota,BASE$horas,BASE$materias)

b.-) Realizar la correlación simple entre dos variables y la matriz de correlación

c.-) PLANTE UNA HIPOTESIS PARA VER SI NUESTRO MODELO ES ACEPTADO O


RECHAZADO, SI LAS VARIABLES INDEPENDIENTES APORTAN SIGNIFICATIVAMENTE Y
ESTAN LINEALMENTE CORRELACIONADAS CON LA VARIBLE NOTAS
d.-) Coeficiente de determinación ajustado
el poder explicativo que se tiene sobre la variable dependiente
es el q mas se usa en el caso de modelos múltiples Adjusted R-squared: 0.7496
e.-) interpretación y estimaciones

d.-)grafico de dispersión
a.-) DETERMINE UN MODELO LINEAL ENTRE LAS VARIABLES NOTAS, HORAS,
MATERIAS
SOLUCIÓN

DONDE EL MODELO ESTIMADO ES ^y = β^ 0 + β^ 1 x 1+ ^β 2 x 2


NOTAS=58.537+11.153 (HORAS)-4.688¿)

b.-) Realice la interpretación de los coeficientes obtenidos y determine el grado de


efecto que tiene hacia el modelo
SOLUCIÓN

^β =58.537 NO TIENE INTERPRETACIÓN


0

^β =11.153 :Si el estudiante aumenta una hora de estudio entonces su calificación o


1
nota aumentara en 11.153 . Por lo tanto por cada unidad que se incremente en la
variable hora existirá un incremento en la variable nota.
^β =-4.688 :Si el estudiante aumenta una materia entonces su calificación o nota
2
disminuirá en 4.688 . Por lo tanto por cada unidad que se incremente en la variable
materias existirá un disminución de una unidad en la variable nota.
EFECTO
El efecto de cada variable independiente que aporta al modelo será en función al valor
que obtenga el coeficiente de regresión es decir la variable horas aporta con 11.153
Mientras que la variable materias resta el efecto al modelo por el valor que tiene de -
4.688
Conclusión :
Se recomienda retirar del modelo la variable materias o realizar alguna transformación
b.-) Realizar la correlación simple, múltiple y la matriz de correlación y realizar el
análisis respectivo.
r=correlación (notas, horas )=0.8572788
la relación entre la variable notas y horas es elevada y positiva
r2=Coeficiente de determinación (notas, horas )= 0.734927
La proporción que se le da de explicación por parte de la horas a la variable notas es de
0.7349
r= correlación (notas, materias )= -0.6603302
la relación entre la variable notas y materias no es muy elevada y es negativa
r2= Coeficiente de determinación (notas, materias) = 0.436036
La proporción que se le da de explicación por parte de la variable materias a la variable
notas es de 0.436036
Coeficiente de Correlación múltiple
Cuando se trabaja en un modelo a varias variables se recomienda usar el coeficiente
de regresión ajustado

Siendo más efectivo la relación existente entre las variables explicativas hacia la
variable explicada es de 0.7496
MATRIZ DE CORRELACIÓN

La matriz de correlación nos ayudara a determinar la relación que existe entre las
variables. Al también nos ayudará determinar si existe autocorrelación mismo se
reflejará en la correlaciones perfectas entre las variables independientes. Por eso es
necesario la redundancia de variables que en nuestro caso no se puede visualizar.
c.-) PLANTE UNA HIPOTESIS PARA VER SI NUESTRO MODELO ES ACEPTADO O
RECHAZADO, SI LAS VARIABLES INDEPENDIENTES ósea horas y materias APORTAN
SIGNIFICATIVAMENTE Y ESTAN LINEALMENTE CORRELACIONADAS CON LA VARIBLE
NOTAS
H 0: β 1= β 2
H1: β 1≠ β 2
SI P-VALUE < 0.05 Entonces se rechaza la hipótesis nula las variables horas y materias
están correlacionadas con la variable notas aportan significativamente al modelo
Por lo tanto en nuestro ejemplo el P-value

Siendo menor a 0.05 por lo tanto se rechaza la hipótesis nula


También podemos determinar si se rechaza o se acepta la hipótesis nula calculando el
f estadístico de Fisher
En nuestro ejemplo
SI F-statistic: 123.8> Fcritico se rechaza la hipótesis nula
SI F-statistic: 123.8>Fcritico = ((k-1),(n-k))= ((3-1),(83-3)) =(2,80)=3.11
Fcalculado= 123.8>Fcritico=3.11
Por lo tanto se rechaza la hipótesis nula
Donde k: número de parámetros,

Donde F critico se define de la siguiente manera


F critico=¿ ((k-1),(n-k)) con un nivel de confianza del 0.95

Se debe hacer el contraste de las hipótesis


H 0: β 1= β 2
H1: β 1≠ β 2

Si F calculado > F critico entonces se rechaza H0

Si se rechaza H0 significaría que todas las variables explicativas horas y materias


influyen(aportan) significativa mente al modelo, es decir están lineal mente
correlacionados con la variable notas
Si se hubiera aceptado H0 significaba que las variables horas y materias no influyen
significativa mente (no aportan) al modelo, es decir la ecuación de regresión no es útil

d.-) Determine el Coeficiente de determinación ajustado


En nuestro ejemplo el cálculo se realizara elevando al cuadrado el coeficiente de
correlación ajustado donde el valor corresponde a 0.7496 entonces el poder
explicativo por parte de las variables horas y materias es de Adjusted R-squared 2:
0.7496
e.-) Determine una nube de puntos entre la variable notas y horas. Analice su
comportamiento.
Como se puede ver el grafico los datos tienen una tendencia lineal
f.-) Determine una nube de puntos entre la variable notas y materias. Analice su
comportamiento.
g.-) Usando la prueba de Durbin -Watson determine si existe autocorrelación

1.5 ≤ 2.3293≤ 2.5


Como se puede ver , existe Autocorrelación por lo tanto se tendrá corregir o retirar del
modelo la variable la variable que presente mayor indicios de autocorrelación o no
aporte al modelo
h.-) Estime con el modelo obtenido algunos valores
si horas= 3 y materias = 3
NOTAS=58.537+11.153 (HORAS)-4.688¿)
NOTAS=58.537+11.153(3)-4.688¿)

NOTAS=77.932
Si un estudiante estudia 3 horas y programa 3 materias se estima que el estudiante
obtendrá la calificación de 77.932

También podría gustarte