REGRESION
REGRESION
Carlos Véliz C.
December 1, 2020
Introducción
.
El modelo de regresión lineal es uno de los modelos estadı́sticos más elegantes y usados. Este
modelo fue introducido por Laplace (1749 - 1827) y Gauss (1777 - 1855).
.
El modelo estadı́stico de regresión lineal se usa para estudiar la relación lineal que pueda existir
entre una variable llamada dependiente y un grupo de variables llamadas independientes o
predictoras.
.
.
Si el modelo solo tiene solo una variable independiente se tiene un modelo de regresión lineal
simple, en otro caso se tiene un modelo de regresión lineal múltiple.
.
Un modelo de regresión lineal simple se puede usar, por ejemplo, para estimar el efecto de la
inversión total en publicidad X , en las ventas Y o para predecir el valor de las ventas cuando se
conoce un valor de la inversión total en publicidad.
1. Los datos
.
Para X e Y recogemos n datos de manera conjunta y los gráficamos en el plano X − Y . El
gráfico se llama diagramas de dispersión
Para medir la fuerza de la relación lineal entre X e Y se usa el ı́ndice de correlación lineal de
Pearson
.
Se define como
Pn
(xi − x̄)(yi − ȳ )/(n − 1) Covarianza(X , Y ) Cov (X , Y )
r = ri=1 rP = =
P n (x −x̄)2 n (y −ȳ )2 (desv .stand de X )(desv .stand de Y ) sX sY
i=1 i i=1 i
n−1 n−1
Propiedad
−1 ≤ r ≤ 1
2. El modelo
.
El modelo de regresión lineal simple relaciona los valores x e y de las variables numéricas X e Y ,
respectivamente y tiene la siguiente forma
Y = β0 + β1 X +
Y se llama variable dependiente, X se denomina variable independiente o predictora y es una
variable aleatoria que es la diferencia entre la parte estructural β0 + β1 X y el valor
correspondiente Y .
Carlos Véliz C. Modelo de regresión lineal December 1, 2020 6 / 51
Modelo de regresión lineal
La variable representa los errores de medida; sin embargo, a menudo también representa valores
de variables no consideradas en el modelo. Para completar el modelo, se supone que los errores
que esta variable representa son no correlacionados, que tienen distribución normal con media 0 y
varianza constante σ 2 y que no son correlacionados con los valores de X .
Los modelos de regresión lineal se usan en diferentes campos y su uso puede resumirse en
El análisis de la influencia de cierta variable X en los valores de otra variable Y
La predicción de los valores de Y cuando se conocen los valores de otra variable X .
El modelo de regresión puede expresarse como
E (Y |x) = β0 + β1 x
Para cada valor x de X , el valor esperado de los valores de Y es igual a β0 + β1 x.
.
La pendiente β1 se interpreta como el cambio del promedio de los valores de Y para un cambio
unitario de x.
.
Los coeficiente β0 , β1 y σ 2 son parámetros no conocidos del modelo y para que el modelo sea
utilizable deben estimarse lo que puede realizarse a partir de una muestra de valores
yi = β0 + β1 xi +
.
El diagrama de dispersión de los puntos (xi , yi ) se tendrá una idea de la adecuación o no del
modelo a los datos (”Los datos cantan el modelo”) y la recta que está más cerca de los puntos
será la que estime a la parte estructural del modelo. Esta recta se llama recta de mejor ajuste o
recta de regresión de Y en X .
y = β̂0 + β̂1 x
esté lo más cerca de los n puntos de la muestra. Lo más cerca en el sentido de que la suma de los
cuadrados de los residuales ei = yi − (β̂0 + β̂1 xi ),
El método descrito para estimar los parámetros recibe el nombre de mı́nimos cuadrados y los
estimadores que ası́ se obtienen son:
y = ȳ − βˆ1 x̄ + βˆ1 x
o
Cov (X , Y )
y = ȳ + (x − x̄)
sX2
o como
sy
y = ȳ + r (x − x̄)
sx
(Recordar: r = Cov (X , Y )/sx sy )
El estimador de σ es s
SCE
σ̂ =
n−2
.
Los estimadores del error estándar de β̂0 y del error estándar de β̂1 son, respectivamente,
s
1 x̄
es(β̂0 ) = σ̂ + n
n Σi=1 (xi − x̄)2
s
1
es(β̂1 ) = σ̂
Σni=1 (xi − x̄)2
Con estas estimaciones se construyen intervalos de confianza para cada uno de los parámetros del
modelo. Ası́ se tiene que un intervalo aproximado al 95% de confianza para β0 es
X 10 10 10 10 10 11 11 11 11 12 12 12 12
Y 55 65 62 67 62 68 70 65 80 85 87 89 84
X 13 13 13 13 14 14
Y 100 110 112 115 100 110
Y = β0 + β1 X +
será el adecuado.
Los paquetes estadı́sticos, como el SAS, el SPSS o el R, reportan una tabla como la siguiente, en
donde se indican los estimadores de los coeficientes, los estimadores de sus errores estándar (es),
etcétera, para cada coeficiente.
.
Los estimadores de los coeficientes, respectivamente, son β̂0 = −71.667, β̂1 = 13.278.
Table: Coeficientes
Los valores observados xi , yi , los valores estimados yˆi de yi y los residuales yi − yˆi aparecen en la
tabla siguiente.
.
xi yi yˆi yi − yˆi
10 55 61.111 -6.111
10 65 61.111 3.888
10 62 61.111 0.888
10 67 61.111 5.888
10 62 61.111 0.888
11 68 74.388 -6.388
11 70 74.388 -4.388
11 65 74.388 -9.388
11 80 74.388 5.611
12 85 87.666 -2.666
12 87 87.666 -0.666
12 89 87.666 1.333
12 84 87.666 -3.666
13 100 100.944 -0.944
13 110 100.944 9.055
13 112 100.944 11.055
13 115 100.944 14.055
14 100 114.222 -14.222
14 110 114.222 -4.222
SCE = Σ19 2
i=1 (yi − (−71.667 + 13.278xi )) = 914.000,
Esta expresión indica que la variabilidad de los valores de Y alrededor de la media se descompone
en la variabilidad de los valores en la recta yˆi , y en la variabilidad de los errores alrededor de 0.
.
A ni=1 (yi − ȳ )2 se le denota con SCT y se le llama suma de cuadrados total o variabilidad total.
P
. P
A ni=1 (yˆi − ȳ )2 se le denota con SCR y se le llama suma de cuadrados según la regresión.
. P
A ni=1 (yˆi − yi )2 se le denota con SCE y se le llama suma de cuadrados de los errores
.
De esta manera
βˆ1 − 0
t=
es(βˆ1 )
s
1
donde es(β̂1 ) = σ̂
Σni=1 (xi − x̄)2
Si la hipótesis nula es verdadera, este estadı́stico tiene la distribución t con n − 2 grados de
libertad.
.
Carlos Véliz C. Modelo de regresión lineal December 1, 2020 20 / 51
Modelo de regresión lineal
La hipótesis nula se rechaza al nivel de significación α si el valor absoluto del estadı́stico es mayor
que el percentil 1 − α/2 de la distribución mencionada.
.
Para el ejemplo anterior, la hipótesis nula H0 : β1 = 0 se rechaza frente a la hipótesis alternativa
HA : β1 6= 0 , al nivel de significación 0.05, pues el estadı́stico de prueba tiene el valor
13.278
t= = 10.575.
1.256
Esto permite indicar que al nivel de significación 0.05, el valor de β1 es significativamente diferente
de 0 y que la inversión en publicidad ejerce efecto significativo en las ventas del producto. (En la
práctica, la hipótesis nula se rechaza si el valor absoluto del estadı́stico t es mayor o igual que 2).
.
El “valor de significación” (Sig ) que aparece en la tabla indica el riesgo de equivocarse al rechazar
la hipótesis nula. Este valor se llama también valor de probabilidad y generalmente se indica con
“valor − p” . Valores de p menores o igual al nivel de significación α dado, indican que con el
nivel de significación α, el coeficiente β1 es significativamente diferente de 0. En este caso, este
coeficiente es significativamente diferente de 0, al nivel de significación 0.01 y también al nivel de
significación 0.05.
.
Usaremos el EXCEL a continuación para ajustar un modelo de regresión lineal a los datos: (3175,
27), (3450, 29), (3225, 27), (3985, 24), (2440, 37), (2500, 34), (2290, 37).
.
La predicción de un valor individual suele hacerse mediante una estimación puntual o mediante
un intervalo de confianza.
1 El estimador puntual para el valor individual de Y que le corresponde a un valor x = x0 es
ȳˆ0 = βˆ0 + βˆ1 x0
2 Un intervalo de confianza al nivel (1 − α)100% para el valor individual de Y que le
corresponde a x0 es
s
(x0 − x̄)2
ˆ
ȳ0 ± t1−α/2 σ̂ 1 + 1/n +
Σ(xi − x̄)2
Observando el margen de error en los intervalos se tiene que la estimación de la media de los
valores de Y es más precisa que la predicción de un valor individual. La estimación en ambos
casos es más precisa para valores que están cerca de la media x̄ de los valores de la muestra.
En el ejemplo de la inversión en publicidad y ventas se tiene que para un centro comercial que
invierte 11.5 unidades monetarias (u.m), al nivel de confianza del 95%, las ventas estarán entre
65.148 y 96.907 u.m, mientras que para los centros comerciales que invierten cada uno 11.5 u.m.,
el promedio de las ventas estarán entre 77.445 y 84.610 u.m., al nivel de confianza del 95%.
1. Diagrama de dispersión.
.
.
4. Adecuación del modelo
.
a) A la muestra, Con R2 .
.
b) A la población. Con la prueba de hipótesis H0 : β1 = 0 versus H0 : β1 6= 0
.
5. Usos de la regresión
.
Intervalo de predicción (individual) de y cuando x0 = 26
s
(x0 − x̄)2
ȳˆ0 ± t1−α/2 σ̂ 1 + 1/n +
Σ(xi − x̄)2
q
= (872.48 − 11.48 ∗ 26) ∓ 2.16 ∗ 127.09 ∗ 1 + 1/15 + ((26 − 40)2 )/(4918) = [285.234824, 862.76]
q
= (872.48 − 11.48 ∗ 26) − 2.16 ∗ 127.09 ∗ (1/15 + ((26 − 40)2 )/(4918) = [484.40552, 663.59448]
.
1. Los datos
X1 X2 ... Xp Y
x11 x12 ... x1p y1
x21 x22 ... x2p y2
... ... ... ... ...
xn1 xn2 ... xnp yn
2. El modelo
.
En general, un modelo de regresión lineal múltiple con p variables independientes X1 , X2 , . . . , Xp
es una relación del tipo.
Y = β0 + β1 X1 + β2 X2 + . . . + βp Xp +
donde es una variable aleatoria con distribución normal de media 0, varianza σ 2 constante y con
valores independientes.
.
Ello indica que si para el elemento i-ésimo de la población, los valores de las variables
Y , X1 , . . . , Xp son: yi , x1i , x2i , . . . , xpi , respectivamente, se cumple
Y = β0 + β1 X1 + β2 X2 + β3 X3 +
3. Estimación de parámetros
.
Los estimadores β̂0 , β̂1 , β̂2 , . . . , β̂p , de los parámetros del modelo se encuentran, como en el caso
de la regresión lineal simple, usando el método de mı́nimos cuadrados y de tal manera que la
suma de cuadrados de los residuales, SCE = Σni=1 (yi − ŷi )2 ,
donde ŷi = β̂0 + β̂1 xi1 + β̂2 xi2 + . . . + β̂p xip , sea mı́nima.
.
Las estimaciones de los coeficientes se obtienen de la siguiente manera:
.
H 0 : β1 = β2 = . . . = βp = 0
versus la hipótesis alternativa
HA : H0 no es verdad.
El rechazo de la hipótesis nula indicará que al menos una de las variables independientes
contribuye significativamente en la explicación de Y mediante el modelo.
.
El estadı́stico de prueba para evaluar la hipótesis nula es la expresión
SCR/p
F =
SCE /(n − (p + 1))
el cual tiene la distribución F con con (p, n − (p + 1)) grados de libertad.
.
(p es número de variables independientes)
HA : βj 6= 0.
El estadı́stico T0j = β̂j /es(β̂j ), que se usa para esta prueba, compara el estimador de βj con 0, en
términos del error estándar del estimador. El estadı́stico en cuestión tiene la distribución t con
n − (p + 1) grados de libertad y la hipótesis nula se rechaza al nivel de significación α si el valor
absoluto del estadı́stico de prueba es mayor que el percentil 1 − α/2 de dicha distribución.
.
Otras hipótesis alternativas ası́ como el estadı́stico de prueba en forma explicita aparecen a
continuación.
q q
[y0 − t1−α/2 (n − p − 1)S 1 + at (Xt X)−1 a, y0 + t1−α/2 (n − p − 1)S 1 + at (Xt X)−1 a]
donde y0 = β̂0 + β̂1 x10 + β̂2 x20 + . . . + β̂p xp0 y at = (1, x10 , x20 , . . . , xp0 ) y S = σ̂
.
Contribución relativa de las variables independientes.
.
Para comparar los efectos de dos variables independiente y para evitar el inconveniente de verse
afectadas por las unidades de medición, es preciso estándarizar previamente todas las variables
independientes y dependiente:
Yi − Ȳ xij − x̄j
z Yi = y zxji =
SY Sxj
El coeficiente que resulta y que le corresponde a Xj estandarizada es
sXj
b̂j = β̂j
sY
Carlos Véliz C. Modelo de regresión lineal December 1, 2020 38 / 51
Modelo de regresión lineal
Ejemplo
.
Los siguientes datos provienen del número de torsiones necesarias para romper una barra , Y ,
hecha con cierto tipo de aleación y los porcentajes X 1 y X 2 de los metales A y B que
respectivamente, la integran:
X1 : Metal A X2 : Metal B Y : Torsiones
1 5 38
2 5 40
3 5 85
1 10 40
2 10 60
3 10 68
1 15 31
2 15 35
3 15 42
1 20 18
2 20 34
3 20 29
Construir X
Intervalos de confianza al nivel 95% para la media de Y y para la predicción de Y para x01 = 2.5 y x02 = 14
Usando el EXCEL:
.
Los coeficientes del modelo aparecen en la siguiente tabla, también sus errores estándar y su
significación. Todos son significativamente diferentes de 0. (Observar que, en valor absoluto, el
valor del estadı́stico de prueba para cada estimador de los parámetros es mayor que 2).
Table: Coeficientes
El coeficiente negativo de la temperatura indica que por cada grado de temperatura que aumente
en el medio ambiente, el gasto promedio en energı́a disminuye en 11.833 unidades monetarias.
Interpretación análoga se puede hacer para el aislamiento.
.
La columna Beta contiene los coeficientes obtenidos al estandarizar cada una de las variables.
Estos coeficientes pueden usarse para comparar el impacto de cada variable independiente en la
variable dependiente. Ası́ se tiene que el aislamiento tiene mayor impacto que la temperatura.
Y = β0 + β1 X + β2 X 2 + . . . + βp X p +
donde p es un entero positivo y tiene el mismo significado que en los casos anteriores.
.
El modelo ası́ descrito se llama modelo de regresión polinomial.
.
El tratamiento de estos modelos se realiza aplicando el desarrollo de los modelos de regresión
lineal múltiple y usando X1 = X , X2 = X 2 , ... Xp = X p .
.
La elección de la potencia p de la variable que determina el polinomio que podrı́a ajustar a los
datos de la muestra puede hacerse empı́ricamente, observando el diagrama de dispersión de los
puntos. Una regla práctica indica que el modelo podrı́a corresponder a un polinomio de orden p si
la curva ajustada tiene p − 1 puntos en donde existe un máximo o un mı́nimo local. Por ejemplo,
un polinomio de tercer orden podrı́a ajustar a los puntos si tiene 2 puntos en donde existe un
máximo o un mı́nimo local. Posteriormente y para confirmar, habrá que evaluar la adecuación del
modelo a la muestra y a la población.
X 1 2 3 4 5 6 7 8 9 10
Y 22 25 58 65 100 125 120 180 230 310
El diagrama de dispersión indica que un modelo que puede ajustar a los datos es
Y = β0 + β1 X 1 + β2 X 2 +
en donde X1 = X y X2 = X 2 .
Table: Coeficientes