0% encontró este documento útil (0 votos)
98 vistas51 páginas

REGRESION

El documento describe el modelo de regresión lineal, incluyendo su introducción, el modelo de regresión lineal simple, la estimación de los parámetros del modelo, y un ejemplo sobre la relación entre la inversión en publicidad y las ventas.

Cargado por

Andrés Muggi
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
98 vistas51 páginas

REGRESION

El documento describe el modelo de regresión lineal, incluyendo su introducción, el modelo de regresión lineal simple, la estimación de los parámetros del modelo, y un ejemplo sobre la relación entre la inversión en publicidad y las ventas.

Cargado por

Andrés Muggi
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Modelo de regresión lineal

Modelo de regresión lineal

Carlos Véliz C.

December 1, 2020

Carlos Véliz C. Modelo de regresión lineal December 1, 2020 1 / 51


Modelo de regresión lineal
Outline

Carlos Véliz C. Modelo de regresión lineal December 1, 2020 2 / 51


Modelo de regresión lineal

El modelo de regresión lineal.

Introducción
.
El modelo de regresión lineal es uno de los modelos estadı́sticos más elegantes y usados. Este
modelo fue introducido por Laplace (1749 - 1827) y Gauss (1777 - 1855).
.
El modelo estadı́stico de regresión lineal se usa para estudiar la relación lineal que pueda existir
entre una variable llamada dependiente y un grupo de variables llamadas independientes o
predictoras.
.
.
Si el modelo solo tiene solo una variable independiente se tiene un modelo de regresión lineal
simple, en otro caso se tiene un modelo de regresión lineal múltiple.
.
Un modelo de regresión lineal simple se puede usar, por ejemplo, para estimar el efecto de la
inversión total en publicidad X , en las ventas Y o para predecir el valor de las ventas cuando se
conoce un valor de la inversión total en publicidad.

Carlos Véliz C. Modelo de regresión lineal December 1, 2020 3 / 51


Modelo de regresión lineal

El modelo de regresión lineal simple


.
El modelo de regresión lineal simple se aplica a los valores de las variables numéricas X e Y .
.
En adelante X será llamada independiente o explicativa e Y será llamada dependiente
.
Seguiremos el siguiente proceso:
1 Estudio previo de los los datos
2 Presentación del modelo y = β0 + β1 x + 
.
con  ∼ N(0, σ 2 )
3 Estimación de los parámetros del modelo Los parámetros del modelo son: β0 , β1 y σ 2 .
.
A los estimadores correspondientes los denotaremos con β̂0 , β̂1 y σ̂ 2 .
4 Adecuación del modelo:
.
a) A los datos de la muestra.
b) A toda la población.
5 Utilización del modelo.
.
a) Para estimar la media de los valores de y cuando se conoce un valor x0
b) Para estimar un valor individual de y cuando se conoce un valor de x0 .

Carlos Véliz C. Modelo de regresión lineal December 1, 2020 4 / 51


Modelo de regresión lineal

1. Los datos
.
Para X e Y recogemos n datos de manera conjunta y los gráficamos en el plano X − Y . El
gráfico se llama diagramas de dispersión

Figure: Izquierda: Datos. Derecha: Diagrama de dispersión.

Para medir la fuerza de la relación lineal entre X e Y se usa el ı́ndice de correlación lineal de
Pearson
.
Se define como
Pn
(xi − x̄)(yi − ȳ )/(n − 1) Covarianza(X , Y ) Cov (X , Y )
r = ri=1 rP = =
P n (x −x̄)2 n (y −ȳ )2 (desv .stand de X )(desv .stand de Y ) sX sY
i=1 i i=1 i
n−1 n−1

Carlos Véliz C. Modelo de regresión lineal December 1, 2020 5 / 51


Modelo de regresión lineal

Propiedad

−1 ≤ r ≤ 1

Figure: Diagramas de dispersión.

2. El modelo
.
El modelo de regresión lineal simple relaciona los valores x e y de las variables numéricas X e Y ,
respectivamente y tiene la siguiente forma

Y = β0 + β1 X + 
Y se llama variable dependiente, X se denomina variable independiente o predictora y  es una
variable aleatoria que es la diferencia entre la parte estructural β0 + β1 X y el valor
correspondiente Y .
Carlos Véliz C. Modelo de regresión lineal December 1, 2020 6 / 51
Modelo de regresión lineal

La variable  representa los errores de medida; sin embargo, a menudo también representa valores
de variables no consideradas en el modelo. Para completar el modelo, se supone que los errores
que esta variable representa son no correlacionados, que tienen distribución normal con media 0 y
varianza constante σ 2 y que no son correlacionados con los valores de X .
Los modelos de regresión lineal se usan en diferentes campos y su uso puede resumirse en
El análisis de la influencia de cierta variable X en los valores de otra variable Y
La predicción de los valores de Y cuando se conocen los valores de otra variable X .
El modelo de regresión puede expresarse como

E (Y |x) = β0 + β1 x
Para cada valor x de X , el valor esperado de los valores de Y es igual a β0 + β1 x.
.
La pendiente β1 se interpreta como el cambio del promedio de los valores de Y para un cambio
unitario de x.
.
Los coeficiente β0 , β1 y σ 2 son parámetros no conocidos del modelo y para que el modelo sea
utilizable deben estimarse lo que puede realizarse a partir de una muestra de valores

(x1 , y1 ), (x2 , y2 ), . . . , (xi , yi ), . . . , (xn , yn ),

Carlos Véliz C. Modelo de regresión lineal December 1, 2020 7 / 51


Modelo de regresión lineal

en donde xi es un valor de X e yi es un valor de Y . Se supone que se cumple

yi = β0 + β1 xi + 
.
El diagrama de dispersión de los puntos (xi , yi ) se tendrá una idea de la adecuación o no del
modelo a los datos (”Los datos cantan el modelo”) y la recta que está más cerca de los puntos
será la que estime a la parte estructural del modelo. Esta recta se llama recta de mejor ajuste o
recta de regresión de Y en X .

Figure: Diagrama de dispersión.

Carlos Véliz C. Modelo de regresión lineal December 1, 2020 8 / 51


Modelo de regresión lineal

3. Estimación del modelo


.
A partir de los valores muestrales

(x1 , y1 ), (x2 , y2 ), . . . , (xi , yi ), . . . , (xn , yn ),


de X e Y , se obtienen los estimadores βˆ0 y β̂1 de los parámetros β0 y β1 , respectivamente. La
estimación se logra tratando de que la recta

y = β̂0 + β̂1 x
esté lo más cerca de los n puntos de la muestra. Lo más cerca en el sentido de que la suma de los
cuadrados de los residuales ei = yi − (β̂0 + β̂1 xi ),

SCE = Σni=1 (yi − (β̂0 + β̂1 xi ))2


sea mı́nima.
.

Carlos Véliz C. Modelo de regresión lineal December 1, 2020 9 / 51


Modelo de regresión lineal

El método descrito para estimar los parámetros recibe el nombre de mı́nimos cuadrados y los
estimadores que ası́ se obtienen son:

Σn (xi − x̄)(yi − ȳ )/(n − 1) Cov (X , Y )


βˆ1 = i=1 = y βˆ0 = ȳ − βˆ1 x̄
sX2 sX2

Se considera que la recta y = β̂0 + β̂1 x estima al modelo E (Y |x) = β0 + β1 x


.
La recta de estimación se llama recta de mı́nimos cuadrados, recta de buen ajuste, recta de
regresión de Y en X.
.
La recta puede expresarse como
.

y = ȳ − βˆ1 x̄ + βˆ1 x
o
Cov (X , Y )
y = ȳ + (x − x̄)
sX2
o como
sy
y = ȳ + r (x − x̄)
sx
(Recordar: r = Cov (X , Y )/sx sy )

Carlos Véliz C. Modelo de regresión lineal December 1, 2020 10 / 51


Modelo de regresión lineal

El estimador de σ es s
SCE
σ̂ =
n−2
.
Los estimadores del error estándar de β̂0 y del error estándar de β̂1 son, respectivamente,
s
1 x̄
es(β̂0 ) = σ̂ + n
n Σi=1 (xi − x̄)2
s
1
es(β̂1 ) = σ̂
Σni=1 (xi − x̄)2
Con estas estimaciones se construyen intervalos de confianza para cada uno de los parámetros del
modelo. Ası́ se tiene que un intervalo aproximado al 95% de confianza para β0 es

[β̂0 − t1−0.05/2 es(β̂0 ), β̂0 + t1−0.05/2 es(β̂0 )],


mientras que para β1 es

[β̂1 − t1−0.05/2 es(β̂1 ), β̂1 + t1−0.05/2 es(β̂1 )]


En ambos casos, t1−0.05/2 es el percentil 0.95 de la distribución t con n − 2 grados de libertad.

Carlos Véliz C. Modelo de regresión lineal December 1, 2020 11 / 51


Modelo de regresión lineal

Ejemplo: Publicidad y ventas


.
Se indica a menudo que la inversión en publicidad impacta linealmente en las ventas de un
producto. Para corroborar este hecho se han elegido al azar 19 centros comerciales que venden el
mismo producto. Se llevó a cabo la experiencia usando el mismo medio de propaganda y se anotó
la inversión en publicidad X y las ventas del producto realizadas Y , en miles de unidades
monetarias. los resultados aparecen en la siguiente base de datos A.

X 10 10 10 10 10 11 11 11 11 12 12 12 12
Y 55 65 62 67 62 68 70 65 80 85 87 89 84
X 13 13 13 13 14 14
Y 100 110 112 115 100 110

Table: Datos en la muestra

Carlos Véliz C. Modelo de regresión lineal December 1, 2020 12 / 51


Modelo de regresión lineal

El diagrama de dispersión de la inversión en publicidad y de las ventas aparecen en la figura


siguiente. Los datos “cantan el modelo” y al parecer un modelo de regresión lineal entre X e Y ,

Y = β0 + β1 X + 
será el adecuado.

Figure: Diagrama de dispersión de la inversión en publicidad (X ) vs ventas (Y ).

Carlos Véliz C. Modelo de regresión lineal December 1, 2020 13 / 51


Modelo de regresión lineal

Los paquetes estadı́sticos, como el SAS, el SPSS o el R, reportan una tabla como la siguiente, en
donde se indican los estimadores de los coeficientes, los estimadores de sus errores estándar (es),
etcétera, para cada coeficiente.
.
Los estimadores de los coeficientes, respectivamente, son β̂0 = −71.667, β̂1 = 13.278.

B Error estándar (es) Beta t Sig


Constante -71.667 14.766 -4.853 0.000
X 13.278 1.256 0.932 10.575 0.000

Table: Coeficientes

La recta de regresión de Y en X es Y = −71.667 + 13.278X .


.
Si la inversión es 0 unidades monetarias, el valor de Y es −71.667. Este es un resultado
numérico, y no significa que en la realidad las ventas sean negativas cuando la inversión en
publicidad sea 0. Si la muestra que se observa en la gráfica es adecuada, podrı́a decirse que el
modelo tiene sentido para valores de la inversión que están entre 10 y 14, aproximadamente.

Carlos Véliz C. Modelo de regresión lineal December 1, 2020 14 / 51


Modelo de regresión lineal

Los valores observados xi , yi , los valores estimados yˆi de yi y los residuales yi − yˆi aparecen en la
tabla siguiente.
.
xi yi yˆi yi − yˆi
10 55 61.111 -6.111
10 65 61.111 3.888
10 62 61.111 0.888
10 67 61.111 5.888
10 62 61.111 0.888
11 68 74.388 -6.388
11 70 74.388 -4.388
11 65 74.388 -9.388
11 80 74.388 5.611
12 85 87.666 -2.666
12 87 87.666 -0.666
12 89 87.666 1.333
12 84 87.666 -3.666
13 100 100.944 -0.944
13 110 100.944 9.055
13 112 100.944 11.055
13 115 100.944 14.055
14 100 114.222 -14.222
14 110 114.222 -4.222

Table: Valores de xi , yi , yˆi , yi − yˆi

Carlos Véliz C. Modelo de regresión lineal December 1, 2020 15 / 51


Modelo de regresión lineal

Para estos datos,

SCE = Σ19 2
i=1 (yi − (−71.667 + 13.278xi )) = 914.000,

y asi resulta que un estimador de σ 2 es σ̂ 2 = 914/17 = 53.76.


.
Con estos resultados se tiene el intervalo de confianza al 95% para β1 . Este intervalo es
[10.640, 15.915], indicando que por cada unidad monetaria que se aumenta en la inversión en
publicidad, los gastos en alquiler aumentarán en promedio una cantidad que está entre 10.629 y
15.927 unidades monetarias, al nivel de confianza del 95%.

Carlos Véliz C. Modelo de regresión lineal December 1, 2020 16 / 51


Modelo de regresión lineal

4. Adecuación del modelo


.
a) Adecuación del modelo a nivel de muestra
.
Estimado el modelo será preciso conocer si es adecuado a nivel de muestra; de esta manera se
podrá decir que el modelo ajusta bien a los datos que se tienen en la muestra. También se debe
conocer si el modelo es adecuado a nivel de población; de esta manera, podrá usarse para la
predicción en general.
.
Una medida de la adecuación del modelo a los datos de la muestra es el ı́ndice de determinación.
.
Se demuestra que
n
X n
X n
X
(yi − ȳ )2 = (yˆi − ȳ )2 + (yˆi − yi )2
i=1 i=1 i=1

Esta expresión indica que la variabilidad de los valores de Y alrededor de la media se descompone
en la variabilidad de los valores en la recta yˆi , y en la variabilidad de los errores alrededor de 0.
.

Carlos Véliz C. Modelo de regresión lineal December 1, 2020 17 / 51


Modelo de regresión lineal

A ni=1 (yi − ȳ )2 se le denota con SCT y se le llama suma de cuadrados total o variabilidad total.
P
. P
A ni=1 (yˆi − ȳ )2 se le denota con SCR y se le llama suma de cuadrados según la regresión.
. P
A ni=1 (yˆi − yi )2 se le denota con SCE y se le llama suma de cuadrados de los errores
.
De esta manera

SCT = SCR + SCE


A la proporción de la variabilidad de SCT que es expresada por SCR se le denota con R 2 y se le
llama ı́ndice de determinación. De esta manera
SCR SCT − SCE SCE
R2 = = =1−
SCT SCT SCT
Nótese que R 2 es un valor entre 0 y 1 y a medida de que los puntos están más cerca de
regresión, este valor se acerca a 1.
.

Carlos Véliz C. Modelo de regresión lineal December 1, 2020 18 / 51


Modelo de regresión lineal

También cuando la recta de regresión menos ajusta a los datos R 2 se acerca a 0.


.
De esta manera se determina que R 2 es una medida de adecuación del modelo a los datos de la
muestra e indica la proporción de la variabilidad total de los valores de Y que son explicados por
la variabilidad de los valores de X.
.
Se demuestra que en este caso, de la regresión lineal simple, R 2 es el cuadrado del ı́ndice de
correlación de Pearson de los valores de x e y de la muestra, lo que indica que es una medida de
la relación lineal entre las dos variables.
.
En el ejemplo anterior,

SCT = (55 − 83.47)2 + . . . + (110 − 83.47)2 = 6926.737.

SCR = SCT − SCE = 6926.737 − 914 = 6012.737


R 2 = 0.868, lo que indica que la recta de regresión ajusta bien a los datos que se tienen y que el
86.8% de la variabilidad de las ventas es explicada por la variabilidad de la inversión en publicidad.

Carlos Véliz C. Modelo de regresión lineal December 1, 2020 19 / 51


Modelo de regresión lineal

b) Adecuación del modelo a nivel de la población


.
Indicar que el modelo es adecuado para la población significa que los valores de X sirven para
explicar la variación de los valores de Y en toda la población. El análisis para verificar esta
indicación consiste en contrastar la hipótesis nula H0 : β1 = 0 versus la hipótesis alternativa
HA : β1 6= 0, a un nivel de significación α.
.
Si la hipótesis nula se rechaza, los valores de X impactan significativamente en los valores de Y y
el modelo será adecuado a nivel de población. Mientras que si la hipótesis nula no se rechaza, se
estará indicando que los valores de X poco o nada influyen en los valores de Y y que si no se
toma en cuenta otro modelo, el mejor predictor de los valores de Y , cualquiera que sea el valor de
X , serı́a el promedio ȳ .
.
Para evaluar la hipótesis nula, el estadı́stico de prueba que compara lo hallado en la muestra con
lo indicado en la hipótesis nula es

βˆ1 − 0
t=
es(βˆ1 )
s
1
donde es(β̂1 ) = σ̂
Σni=1 (xi − x̄)2
Si la hipótesis nula es verdadera, este estadı́stico tiene la distribución t con n − 2 grados de
libertad.
.
Carlos Véliz C. Modelo de regresión lineal December 1, 2020 20 / 51
Modelo de regresión lineal

La hipótesis nula se rechaza al nivel de significación α si el valor absoluto del estadı́stico es mayor
que el percentil 1 − α/2 de la distribución mencionada.
.
Para el ejemplo anterior, la hipótesis nula H0 : β1 = 0 se rechaza frente a la hipótesis alternativa
HA : β1 6= 0 , al nivel de significación 0.05, pues el estadı́stico de prueba tiene el valor
13.278
t= = 10.575.
1.256
Esto permite indicar que al nivel de significación 0.05, el valor de β1 es significativamente diferente
de 0 y que la inversión en publicidad ejerce efecto significativo en las ventas del producto. (En la
práctica, la hipótesis nula se rechaza si el valor absoluto del estadı́stico t es mayor o igual que 2).
.
El “valor de significación” (Sig ) que aparece en la tabla indica el riesgo de equivocarse al rechazar
la hipótesis nula. Este valor se llama también valor de probabilidad y generalmente se indica con
“valor − p” . Valores de p menores o igual al nivel de significación α dado, indican que con el
nivel de significación α, el coeficiente β1 es significativamente diferente de 0. En este caso, este
coeficiente es significativamente diferente de 0, al nivel de significación 0.01 y también al nivel de
significación 0.05.
.
Usaremos el EXCEL a continuación para ajustar un modelo de regresión lineal a los datos: (3175,
27), (3450, 29), (3225, 27), (3985, 24), (2440, 37), (2500, 34), (2290, 37).
.

Carlos Véliz C. Modelo de regresión lineal December 1, 2020 21 / 51


Modelo de regresión lineal

Carlos Véliz C. Modelo de regresión lineal December 1, 2020 22 / 51


Modelo de regresión lineal

5. Utilización del modelo: Estimación de la respuesta media e individual de Y


.
Aparte de utilizar el modelo de regresión lineal para analizar el impacto de la variable
independiente en la variable dependiente, el modelo se utiliza para estimar la respuesta media de
Y o para predecir un valor individual de esta variable, conocido un valor particular de la variable
X.
.
La estimación de la respuesta de la media de Y cuando se conoce un valor de X puede hacerse
puntualmente o mediante un intervalo de confianza.
.
1 El estimador puntual de la respuesta media de Y , que le corresponde a un valor x = x0 es

ȳˆ0 = βˆ0 + βˆ1 x0 .


2 Un intervalo al nivel de confianza (1 − α)100% para estimar la respuesta media de Y que le
corresponde a x0 es
s
(x0 − x̄)2
ȳˆ0 ± t1−α/2 σ̂ 1/n +
Σ(xi − x̄)2
en donde t1−α/2 es el percentil de orden (1 − α/2) que corresponde a la distribución t con
n − 2 grados de libertad.

Carlos Véliz C. Modelo de regresión lineal December 1, 2020 23 / 51


Modelo de regresión lineal

La predicción de un valor individual suele hacerse mediante una estimación puntual o mediante
un intervalo de confianza.
1 El estimador puntual para el valor individual de Y que le corresponde a un valor x = x0 es
ȳˆ0 = βˆ0 + βˆ1 x0
2 Un intervalo de confianza al nivel (1 − α)100% para el valor individual de Y que le
corresponde a x0 es
s
(x0 − x̄)2
ˆ
ȳ0 ± t1−α/2 σ̂ 1 + 1/n +
Σ(xi − x̄)2
Observando el margen de error en los intervalos se tiene que la estimación de la media de los
valores de Y es más precisa que la predicción de un valor individual. La estimación en ambos
casos es más precisa para valores que están cerca de la media x̄ de los valores de la muestra.
En el ejemplo de la inversión en publicidad y ventas se tiene que para un centro comercial que
invierte 11.5 unidades monetarias (u.m), al nivel de confianza del 95%, las ventas estarán entre
65.148 y 96.907 u.m, mientras que para los centros comerciales que invierten cada uno 11.5 u.m.,
el promedio de las ventas estarán entre 77.445 y 84.610 u.m., al nivel de confianza del 95%.

Carlos Véliz C. Modelo de regresión lineal December 1, 2020 24 / 51


Modelo de regresión lineal

Ejemplo: Gastos en energı́a


.
Los técnicos en energı́a han reportado que el gasto Y en energı́a en unidades monetarias (u.m),
para la calefacción de las viviendas en un poblado se puede explicar mediante un modelo de
regresión lineal simple usando la variables independiente: X1 : Temperatura ambiental, medida en
grados F. Para corroborar la aserción de los técnicos se usó la muestra que a continuación se
indica.
Vivienda X1 : Temperatura Y : Gasto en
ambiental energı́a
1 45 520.00
2 32 700.00
3 42 320.00
4 71 80.00
5 60 120.00
6 33 450.00
7 10 700.00
8 9 650.00
9 25 450.00
10 60 245.00
11 62 67.00
12 45 402.00
13 24 780.00
14 32 610.00
15 50 102.00

Table: Datos en la muestra

Carlos Véliz C. Modelo de regresión lineal December 1, 2020 25 / 51


Modelo de regresión lineal

1. Diagrama de dispersión.
.

2. Modelo de regresión lineal simple: Y = β0 + β1 X + ij etcétera


.
3. Estimación de parámetros
.

Carlos Véliz C. Modelo de regresión lineal December 1, 2020 26 / 51


Modelo de regresión lineal

.
4. Adecuación del modelo
.
a) A la muestra, Con R2 .
.
b) A la población. Con la prueba de hipótesis H0 : β1 = 0 versus H0 : β1 6= 0
.

Carlos Véliz C. Modelo de regresión lineal December 1, 2020 27 / 51


Modelo de regresión lineal

5. Usos de la regresión
.
Intervalo de predicción (individual) de y cuando x0 = 26
s
(x0 − x̄)2
ȳˆ0 ± t1−α/2 σ̂ 1 + 1/n +
Σ(xi − x̄)2

q
= (872.48 − 11.48 ∗ 26) ∓ 2.16 ∗ 127.09 ∗ 1 + 1/15 + ((26 − 40)2 )/(4918) = [285.234824, 862.76]

Intervalo de confianza para el promedio de los valores de y cuando cuando x0 = 26


s
(x0 − x̄)2
ȳˆ0 ± t1−α/2 σ̂ 1/n +
Σ(xi − x̄)2

q
= (872.48 − 11.48 ∗ 26) − 2.16 ∗ 127.09 ∗ (1/15 + ((26 − 40)2 )/(4918) = [484.40552, 663.59448]

Carlos Véliz C. Modelo de regresión lineal December 1, 2020 28 / 51


Modelo de regresión lineal

Lectura: Verificación de los supuestos del modelo


.
Es importante que los supuestos del modelo, como la normalidad, varianza constante de los residuales, etcétera, se cumplan. En base a estos supuestos
puede analizarse a nivel poblacional, la bondad de varios de los resultados que se reportan, tales como la precisión de los estimadores y las predicciones que
se realicen. Pues bien, la verificación de estos supuestos no puede realizarse directamente, pues  no se conoce; sin embargo, como los residuales yi − ŷi se
acercan a los valores de , de comprobarse que éstos cumplen con los supuestos se estarı́a aceptando que los valores de  no están lejos de cumplirlos.
.
La normalidad de los residuales se evalúa, revisando su histograma (si hay muchos residuales) o el gráfico llamado p − p plot (si el número de residuales es
pequeño). Aparte de ello, existen pruebas inferenciales como la de Kolmogorov Smirnov o la de Jarque Bera; Madansky (1988), que permiten la evaluación
de la hipótesis de que los residuales provienen de una distribución normal.
.
El p − p plot es un gráfico de dispersión de los percentiles de los datos y de los percentiles teóricos de la distribución que se desea analizar. Usando este
gráfico, se rechaza la normalidad si los puntos que representan a los percentiles de los residuales y a los percentiles que se esperan en el caso de que los
residuales sean normales, están lejos de la diagonal y = x.
.
El supuesto de varianza constante (homocedasticidad) se refiere a que los errores de predicción tienen igual desviación estándar para todos los valores de x.
En la práctica esto puede revisarse observando el diagrama de dispersión de los valores de X versus los residuales o el diagrama de dispersión de los valores
de Y versus los residuales. Existe homocedasticidad si la banda que encierra a los residuales es rectangular a lo largo del eje que contiene a los valores de Y
o de X . La falta de homocedasticidad o heterocedasticidad si bien no invalida el análisis sı́ lo debilita. La heterocedasticidad a menudo ocurre cuando existe
interacción entre las variables, por ejemplo, el ingreso de una persona se incrementa con la educación pero este crecimiento es mayor con la edad.
.
Otra de las asunciones del modelo es que los valores de  no sean correlacionados. Cuando este problema se presenta, lo que sucede a menudo cuando X
está asociada con el tiempo, los errores estándar de los estimadores tienden a subestimarse.
.
La independencia de los residuales se revisa en la práctica, observando el diagrama de dispersión de los valores de X o de Y en la muestra con los residuales
respectivos. La idea es que los puntos de dispersión se comporten de forma errática y de tal manera que de los residuales no sea posible extraer información.
.
En general, si alguno de los supuestos no √ se cumple se recurre generalmente a transformaciones que acercan a los supuestos. Cuando no se tiene
normalidad, las transformaciones logY o Y , a menudo acercan la distribución de los residuales a la normal. Si la varianza no es constante se pueden usar
las mismas transformaciones anteriores u otros métodos como el método de “mı́nimos cuadrados ponderados” para estimar los parámetros.
.

Carlos Véliz C. Modelo de regresión lineal December 1, 2020 29 / 51


Modelo de regresión lineal

Regresión lineal múltiple


.
El modelo de regresión lineal múltiple es una expansión el modelo de regresión lineal simple. Esta
vez se consideran: p variables numéricas independientes X1 , X2 , . . . , Xp y la variable numérica
dependiente Y .
.
Para el análisis seguiremos los mismos pasos que se desarrollaron para el modelo de regresión
lineal simple.
.
1 Los datos
2 El modelo
3 Estimación de los parámetros del modelo.
4 Adecuación del modelo: A la muestra y a la población
5 Utilización del modelo.

.
1. Los datos
X1 X2 ... Xp Y
x11 x12 ... x1p y1
x21 x22 ... x2p y2
... ... ... ... ...
xn1 xn2 ... xnp yn

Table: Datos en la muestra


Carlos Véliz C. Modelo de regresión lineal December 1, 2020 30 / 51
Modelo de regresión lineal

Un diagrama de dispersión para dos variables independientes X1 y X2 es el siguiemte.

Figure: Diagrama de dispersión para p = 2 variables independientes.

Carlos Véliz C. Modelo de regresión lineal December 1, 2020 31 / 51


Modelo de regresión lineal

2. El modelo
.
En general, un modelo de regresión lineal múltiple con p variables independientes X1 , X2 , . . . , Xp
es una relación del tipo.

Y = β0 + β1 X1 + β2 X2 + . . . + βp Xp + 
donde  es una variable aleatoria con distribución normal de media 0, varianza σ 2 constante y con
valores independientes.
.
Ello indica que si para el elemento i-ésimo de la población, los valores de las variables
Y , X1 , . . . , Xp son: yi , x1i , x2i , . . . , xpi , respectivamente, se cumple

yi = β0 + β1 x1i + β2 x2i + . . . + βp xpi + i


Si la inversión en publicidad X1 , no explica satisfactoriamente las ventas Y de un producto, tal
vez sea necesario agregar otras variables como, X2 : área del punto de venta, X3 : precio del
producto y usar el siguiente modelo

Y = β0 + β1 X1 + β2 X2 + β3 X3 + 

Carlos Véliz C. Modelo de regresión lineal December 1, 2020 32 / 51


Modelo de regresión lineal

3. Estimación de parámetros
.
Los estimadores β̂0 , β̂1 , β̂2 , . . . , β̂p , de los parámetros del modelo se encuentran, como en el caso
de la regresión lineal simple, usando el método de mı́nimos cuadrados y de tal manera que la
suma de cuadrados de los residuales, SCE = Σni=1 (yi − ŷi )2 ,
donde ŷi = β̂0 + β̂1 xi1 + β̂2 xi2 + . . . + β̂p xip , sea mı́nima.
.
Las estimaciones de los coeficientes se obtienen de la siguiente manera:
.

β̂ = (β̂0 , . . . , β̂p )t = (Xt X)−1 Xt Y

1 x11 ··· x1p


 
y1
 
1 x21 ··· x2p
 . 
 
X= .. .. .. Y =  .. 
 
.. 
 . . . . 
yn
1 xn1 ··· xnp

En general, M t denota la “matriz transpuesta de la matriz M”


.
Para el parámetro σ 2 una estimación adecuada es σ̂ 2 = SCE /(n − (p + 1)).
.
La expresión Y = β̂0 + β̂1 X1 + β̂2 X2 + . . . + β̂p Xp es lo que podrı́a decirse un “estimador del
modelo”.
Carlos Véliz C. Modelo de regresión lineal December 1, 2020 33 / 51
Modelo de regresión lineal

4. a)Adecuación del modelo a los elementos de la muestra


.
Una de las medidas para evaluar la adecuación del modelo a la muestra es el coeficiente de
determinación, R 2 que se define en base a la descomposicón de la variabilidad total de los n
valores de Y , SCT = Σni=1 (yi − ȳ )2 ,

SCT = SCR + SCE

SCR = Σni=1 (ŷi − ȳ )2 y SCE = Σni=1 (yi − ŷi )2


SCR es la suma de cuadrados que representa la variabilidad explicada por las variables
independientes mediante el modelo de regresión y
.
SCE es la suma de cuadrados que expresa la variabilidad que no es explicada por las variables
independientes.
.
El coeficiente de determinación que se define con la relación R 2 = SCR/SCT , expresa la
proporción de la variación total de los valores de Y en la muestra que es explicada por la
regresión.
.
Se deduce que los valores de este coeficiente varı́an entre 0 y 1 y que cuando el modelo ajusta
perfectamente a los datos de la muestra, SCE = 0 y R 2 = 1.
.
Se puede indicar que el modelo se adecúa a los datos de la muestra si R 2 se acerca a 1.
Carlos Véliz C. Modelo de regresión lineal December 1, 2020 34 / 51
Modelo de regresión lineal

4. b) Adecuación del modelo a los elementos de la población


.
Para analizar si el modelo es adecuado a nivel de población, se debe analizar si por lo menos
alguna de las variables X1 , X2 . . . , Xp sirve para explicar Y . Para ello deberá evaluarse la hipótesis
nula

H 0 : β1 = β2 = . . . = βp = 0
versus la hipótesis alternativa

HA : H0 no es verdad.
El rechazo de la hipótesis nula indicará que al menos una de las variables independientes
contribuye significativamente en la explicación de Y mediante el modelo.
.
El estadı́stico de prueba para evaluar la hipótesis nula es la expresión

SCR/p
F =
SCE /(n − (p + 1))
el cual tiene la distribución F con con (p, n − (p + 1)) grados de libertad.
.
(p es número de variables independientes)

Carlos Véliz C. Modelo de regresión lineal December 1, 2020 35 / 51


Modelo de regresión lineal

El rechazo de la hipótesis nula en la prueba anterior no indica cuál de las variables es


significativamente diferente de 0. Es posible que los coeficientes de todas las variables sean
significativos pero puede suceder también que solo una parte lo sea. Por ello, rechazada la
hipótesis nula, si se deseará conocer si la variable Xj impacta en Y , será necesario contrastar la
hipótesis nula
H0 : βj = 0
versus la hipótesis alternativa

HA : βj 6= 0.

El estadı́stico T0j = β̂j /es(β̂j ), que se usa para esta prueba, compara el estimador de βj con 0, en
términos del error estándar del estimador. El estadı́stico en cuestión tiene la distribución t con
n − (p + 1) grados de libertad y la hipótesis nula se rechaza al nivel de significación α si el valor
absoluto del estadı́stico de prueba es mayor que el percentil 1 − α/2 de dicha distribución.
.
Otras hipótesis alternativas ası́ como el estadı́stico de prueba en forma explicita aparecen a
continuación.

Carlos Véliz C. Modelo de regresión lineal December 1, 2020 36 / 51


Modelo de regresión lineal

5. Usos del modelo para la predicción


.
Para el modelo de regresión lineal múltiple también se disponen intervalos de confianza puede
utilizarse, como en el caso de la regresión simple, para estimar el valor promedio de Y y para
predecir un valor individual de Y que le corresponden a un determinado valor de
x = (x1 , x2 , . . . , xp )t .
.
Carlos Véliz C. Modelo de regresión lineal December 1, 2020 37 / 51
Modelo de regresión lineal

El intervalo de confianza al 100(1 − α) para el promedio de Y dado un x0 = (x10 , x20 , . . . , xp0 )t es


q q
[y0 − t1−α/2 (n − p − 1)S at (Xt X)−1 a, y0 + t1−α/2 (n − p − 1)S at (Xt X)−1 a]
El intervalo de confianza al 100(1 − α) para el valor individual de Y dado un
x0 = (x10 , x20 , . . . , xp0 )t es

q q
[y0 − t1−α/2 (n − p − 1)S 1 + at (Xt X)−1 a, y0 + t1−α/2 (n − p − 1)S 1 + at (Xt X)−1 a]

donde y0 = β̂0 + β̂1 x10 + β̂2 x20 + . . . + β̂p xp0 y at = (1, x10 , x20 , . . . , xp0 ) y S = σ̂
.
Contribución relativa de las variables independientes.
.
Para comparar los efectos de dos variables independiente y para evitar el inconveniente de verse
afectadas por las unidades de medición, es preciso estándarizar previamente todas las variables
independientes y dependiente:

Yi − Ȳ xij − x̄j
z Yi = y zxji =
SY Sxj
El coeficiente que resulta y que le corresponde a Xj estandarizada es
sXj
b̂j = β̂j
sY
Carlos Véliz C. Modelo de regresión lineal December 1, 2020 38 / 51
Modelo de regresión lineal

Ejemplo

.
Los siguientes datos provienen del número de torsiones necesarias para romper una barra , Y ,
hecha con cierto tipo de aleación y los porcentajes X 1 y X 2 de los metales A y B que
respectivamente, la integran:
X1 : Metal A X2 : Metal B Y : Torsiones
1 5 38
2 5 40
3 5 85
1 10 40
2 10 60
3 10 68
1 15 31
2 15 35
3 15 42
1 20 18
2 20 34
3 20 29

Table: Datos en la muestra

Modelo. El modelo a usar: Y = β0 + β1 X1 + β2 X2 + 


.

Carlos Véliz C. Modelo de regresión lineal December 1, 2020 39 / 51


Modelo de regresión lineal

2. Estimación. Para la estimación de los parámetros se usa el EXCEL

Carlos Véliz C. Modelo de regresión lineal December 1, 2020 40 / 51


Modelo de regresión lineal

La estimación de los parámetros es como sigue:

β0 = 44.58, β1 = 12.125, β2 = −2.04y σ̂ = 11.02


Interpretación de los coeficientes: Por cada unidad que se aumente al porcentaje que corresponde
al metal A, el promedio de torsiones necesarias para romper la barra aumenta en 12.125. Ası́
mismo, por cada unidad que se aumenta al porcentaje que corresponde al metal B, el promedio
de torsiones necesarias para romper la barra disminuye en 2.04 torsiones.
.
Como se trata de mediciones en porcentaje la comparación de los coeficientes relativa al impacto
en Y puede hacerse directamnente. En este caso, se puede decir que el metal impacta más que el
metal B.
.
3. Adecuación del modelo
.
a) R 2 = SCR/SCT = 2736.725/3830.66667=0.714425252. (El 71.44% de la variabilidad de los
Y es explicada por X1 y X2 ).
.
El R 2 indica si el modelo es adecuado a los datos de la muestra.
.

Carlos Véliz C. Modelo de regresión lineal December 1, 2020 41 / 51


Modelo de regresión lineal

b) Con los datos de la tabla de análisis de varianza se prueba probar


.
H0 : β1 = β2 = 0 versus HA : H0 no es verdad
.
SCR/2
El valor del estadı́stico de prueba e F0 = SCE /9 = 11.25. El estadı́stico tiene distribución F con
2,9 grados de libertad.
.
La región de rechazo es [4.26, +∞[ y como el valor del estadı́stico de prueba cae en esta región,
la hipótesis nula se rechaza al nivel de significación 0.05. Se puede indicar que el modelo es
adecuado a nivel de población.
.
La construcción de intervalos de confianza para la media de los valores de Y ası́ como para el
valor individual de Y cuando x t = (23, 14), realiza con el EXCEL en el desarrollo que sigue.

Carlos Véliz C. Modelo de regresión lineal December 1, 2020 42 / 51


Modelo de regresión lineal

Construir X

Cálculo de las estimaciones de los coeficientes

Intervalos de confianza al nivel 95% para la media de Y y para la predicción de Y para x01 = 2.5 y x02 = 14

y0 = 44.5833333 + 12.125(2.5) − 2.04(14) = 46.3358333

Carlos Véliz C. Modelo de regresión lineal December 1, 2020 43 / 51


Modelo de regresión lineal

Ejemplo: Gastos en energı́a


.
Los técnicos en energı́a han reportado que el gasto Y en energı́a en unidades monetarias (u.m),
para la calefacción de las viviendas en un poblado se puede explicar mediante un modelo de
regresión lineal usando las variables independientes: X1 : Temperatura ambiental, medida en
grados F y X2 : Grado de aislamiento de la vivienda, medida en una escala especialmente
construida para la experiencia. Para corroborar la aserción de los técnicos se usó la muestra que a
continuación se indica.
.
Vivienda X1 : Temperatura X2 : Aislamiento Y : Gasto en
ambiental energı́a
1 45 4 520.00
2 32 5 700.00
3 42 10 320.00
4 71 6 80.00
5 60 7 120.00
6 33 6 450.00
7 10 7 700.00
8 9 10 650.00
9 25 10 450.00
10 60 4 245.00
11 62 10 67.00
12 45 5 402.00
13 24 3 780.00
14 32 4 610.00
15 50 10 102.00

Table: Datos en la muestra

Carlos Véliz C. Modelo de regresión lineal December 1, 2020 44 / 51


Modelo de regresión lineal

Usando el EXCEL:
.

Carlos Véliz C. Modelo de regresión lineal December 1, 2020 45 / 51


Modelo de regresión lineal

El modelo estimado es Y = 1167.378 − 11.833X1 − 41.729X2 .


.
El valor de R 2 , (0.951), que se obtiene a partir de los resultaos que se indican en la siguiente
tabla, indica que el modelo ajusta bien a los datos que se tienen. El modelo es adecuado a nivel
de la muestra.
.
En la siguiente tabla se indica que de manera conjunta, los coeficientes de las variables
independientes son significativamente diferentes de 0, pues el valor − p, (sig ) de F es 0. Es decir,
el modelo es adecuado a nivel de población y sirve para predecir valores de la variable dependiente
cuando se conocen valores particulares de las variables independientes.

Fuentes de Suma de Grados de Media F Sig


variación cuadrados libertad cuadrática
Regresión 816967.058 2 408483.529 117.285 0.000
Residual 41793.875 12 3482.823
Total 858760.933 14

Table: Tabla ANOVA

Carlos Véliz C. Modelo de regresión lineal December 1, 2020 46 / 51


Modelo de regresión lineal

Los coeficientes del modelo aparecen en la siguiente tabla, también sus errores estándar y su
significación. Todos son significativamente diferentes de 0. (Observar que, en valor absoluto, el
valor del estadı́stico de prueba para cada estimador de los parámetros es mayor que 2).

B Error estándar (es ) Beta t Sig


Constante 1167.378 56.267 20.747 0.000
Temperatura -11.833 0.843 -0.896 -14.037 0.000
Aislamiento -41.729 6.005 -0.443 -6.949 0.000

Table: Coeficientes

El coeficiente negativo de la temperatura indica que por cada grado de temperatura que aumente
en el medio ambiente, el gasto promedio en energı́a disminuye en 11.833 unidades monetarias.
Interpretación análoga se puede hacer para el aislamiento.
.
La columna Beta contiene los coeficientes obtenidos al estandarizar cada una de las variables.
Estos coeficientes pueden usarse para comparar el impacto de cada variable independiente en la
variable dependiente. Ası́ se tiene que el aislamiento tiene mayor impacto que la temperatura.

Carlos Véliz C. Modelo de regresión lineal December 1, 2020 47 / 51


Modelo de regresión lineal

Caso particular: Modelo de regresión polinomial


.
En muchos casos la variable de respuesta Y depende linealmente de los valores de una variable X
y de sus p primeras potencias. Es decir

Y = β0 + β1 X + β2 X 2 + . . . + βp X p + 
donde p es un entero positivo y  tiene el mismo significado que en los casos anteriores.
.
El modelo ası́ descrito se llama modelo de regresión polinomial.
.
El tratamiento de estos modelos se realiza aplicando el desarrollo de los modelos de regresión
lineal múltiple y usando X1 = X , X2 = X 2 , ... Xp = X p .
.
La elección de la potencia p de la variable que determina el polinomio que podrı́a ajustar a los
datos de la muestra puede hacerse empı́ricamente, observando el diagrama de dispersión de los
puntos. Una regla práctica indica que el modelo podrı́a corresponder a un polinomio de orden p si
la curva ajustada tiene p − 1 puntos en donde existe un máximo o un mı́nimo local. Por ejemplo,
un polinomio de tercer orden podrı́a ajustar a los puntos si tiene 2 puntos en donde existe un
máximo o un mı́nimo local. Posteriormente y para confirmar, habrá que evaluar la adecuación del
modelo a la muestra y a la población.

Carlos Véliz C. Modelo de regresión lineal December 1, 2020 48 / 51


Modelo de regresión lineal

Ejemplo: Modelo de regresión polinomial


.
Estimar el modelo polinomial que ajusta a una muestra de valores (x, y ) de las variables X e Y ,
respectivamente y que aparecen en la siguiente tabla.

X 1 2 3 4 5 6 7 8 9 10
Y 22 25 58 65 100 125 120 180 230 310

Table: Muestra de 10 puntos

El diagrama de dispersión indica que un modelo que puede ajustar a los datos es

Y = β0 + β1 X 1 + β2 X 2 + 
en donde X1 = X y X2 = X 2 .

Carlos Véliz C. Figure: Ajuste


Modelo polinómico
de regresión lineal December 1, 2020 49 / 51
Modelo de regresión lineal

Suma de Grados de Media F Sig


cuadrados libertad cuadrática
Regresión 75564.035 2 37782.017 129.869 0.000
Residual 2036.465 7 290.924
Total 77600.500 9

Table: Tabla ANOVA

B Error estándar Beta t Sig


X -4.454 8.378 -0.145 -0.532 0.611
X2 3.064 0.742 1.128 4.128 0.004
Constante 30.017 20.061 1.496 0.178

Table: Coeficientes

Los resultados indican:


R 2 = 0.974,
Que el modelo estimado es Y = 30.017 − 4.454X + 3.064X 2 .
Que el modelo ajusta bien a los datos que se tienen (R 2 = 0.974).
Que el modelo es adecuado a nivel de la población de donde vienen los datos. El valor del
estadı́stico F es significativo (el valor − p es 0).
Que el coeficiente de X no es significativo. Notar que el valor − p (p − value)
correspondiente a este coeficiente es 0.611 (En valor absoluto el valor de t es menor que 2).
Carlos Véliz C. Modelo de regresión lineal December 1, 2020 50 / 51
Modelo de regresión lineal

Operaciones matriciales con EXCEL


.
Am×n y Bm×n , A + B = Cm×n
.
Am×n y Bn×p , A × B = Cm×p
.
Suma de matrices, Diferencia de matrices, Producto de matrices (MMULT(A; B))
.
Transpuesta de una matriz. (TRANSPONER(A))
.
Inversa de una matriz (MINVERSA(A))

Carlos Véliz C. Modelo de regresión lineal December 1, 2020 51 / 51

También podría gustarte