Modelos lineales, parte 1
Modelos lineales, parte 1
Modelos estadisticos lineales
Definición
Un modelo estadístico lineal que relacionUn modelo estadístico lineal que relaciona una
respuesta aleatoria Y con un conjunto de variables independientes x1 , x2 , . . . , xk tiene
la forma
Y = β0 + β1 x1 + β2 x2 + ... + βk xk + ε
donde β0 , β1 , β2 , . . . , βk son parámetros desconocidos, ε es una variable aleatoria y x1 ,
x2 , . . . , xk son constantes conocidas. Supondremos que E (ε) = 0 y, en consecuencia
E [Y ] = β0 + β1 x1 + β2 x2 + ... + βk xk
Modelos lineales, parte 1
Metodo de minimos cuadrados
Si se estiman los parámetros desconocidos, los estimadores serían βˆ0 y βˆ1 . Al calcular la
estimación, se tendría ŷ = βˆ0 + βˆ1 x . Por lo tanto por cada estimación se tendría un
error y − ŷ , y se puede calcular la suma cuadrada de los errores (SSE), que no es más
que
n
X
SSE = (yi − ŷi )2
i=1
Modelos lineales, parte 1
Metodo de minimos cuadrados
Si minimizamos esa cantidad, entonces los estimadores de mínimos cuadrados para el
modelo de regresión lineal simple
n n
Sxy X X
1 βˆ1 = donde Sxy = (xi − x̄ )(yi − ȳ ) y Sxx = (xi − x̄ )2 .
Sxx
i=1 i=1
2 βˆ0 = ȳ − βˆ1 x̄ .
Modelos lineales, parte 1
Metodo de minimos cuadrados
Es fácil ver que
n n n
X 1 X X
Sxy = xi yi − xi yi
n
i=1 i=1 i=1
n n
!2
X 1 X
Sxx = xi2 − xi
n
i=1 i=1
Modelos lineales, parte 1
Los datos de la variable respuesta
Aunque no sea explicito, al realizar un modelo de regresión lineal estamos haciendo la
suposición de que los yi son independientes e idénticamente distribuidos. Esta
suposición no se puede hacer con frecuencia en datos temporales, donde se suele
cumplir que
Cov(yt , yt+k ) 6= 0
para tiempos t y t + k.
Modelos lineales, parte 1
Ejemplo
Supóngase que se producen ocho muestras de cierto tipo de aleación a distintas
temperaturas y que se observa su durabilidad. Los valores observados se muestran en la
tabla, donde xi denota la temperatura (en unidades codificadas) a la que se produce la
muestra i e yi denota la durabilidad (en unidades codificadas) de esta muestra
i xi yi
1 0.5 40
2 1.0 41
3 1.5 43
4 2.0 42
5 2.5 44
6 3.0 42
7 3.5 43
8 4.0 42
1 Grafique los datos de la tabla.
2 Ajuste una recta de la forma y = β1 + β2 x a estos valores aplicando el métodos de
mínimos cuadrados
Modelos lineales, parte 1
Ejemplo
Sea xi = La temperatura (en unidades codificadas) a la que se produce la muestra i.
yi + La durabilidad (en unidades codificadas)
i xi yi xi yi xi2
1 0.5 40 20 0.25
2 1.0 41 41 1
3 1.5 43 64.5 2.25
4 2.0 42 84 4
5 2.5 44 110 6.25
6 3.0 42 126 9
7 3.5 43 150.5 12.25
8 P 4.0 P 42 P 168 P 16
xi = 18 yi = 337 xi yi = 764 xi2 = 51
Modelos lineales, parte 1
Ejemplo (Cont.)
Al graficar los datos
x = c(0.5, 1, 1.5, 2, 2.5, 3, 3.5, 4)
y = c(40, 41, 43, 42, 44, 42, 43, 42)
plot(x, y)
44
43
42
y
41
40
0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0
x
Modelos lineales, parte 1
Ejemplo (Cont.)
Se quiere ajustar un modelo de la forma
y = β0 + β0 x ,
n=8
Pn Pn Pn
Sxy i=1
xi yi − 1/n x
i=1 i
y
i=1 i
764 − 18 (18 ∗ 337)
βˆ1 = = Pn 2 P n = 1
= 0.547
Sxx x − 1/n( 2
x) 251 − 8 (18)
i=1 i i=1 i
337 18
βˆ0 ȳ − βˆ1 x̄ = = 0.547 ∗ = 40.89
8 8
Así,
ŷ = 40.891 + 0.547x
Interpretación:
Si x = 0 (no hay temperatura) la muestra tiene una durabilidad de 40.89 en promedio.
Por cada aumento de temperatura en una unidad, se espera un aumento de 0.547
unidades.
Modelos lineales, parte 1
Ejemplo (cont. )
plot(x, y, xlim =c(0, 5))
abline(a =40.89, b= 0.547, col = 2)
44
43
42
y
41
40
0 1 2 3 4 5
x
Modelos lineales, parte 1
Ejemplo
Las medianas de los precios de venta de casas nuevas para una sola familia durante un
periodo de ocho años se indican en la siguiente tabla. Sea Y la mediana de los precios
de venta y x el año (representado con números enteros, 1, 2, . . . , 8), ajuste el modelo
Y = β0 + β1 x + ε. ¿Qué se puede concluir de los resultados?
Año Mediana del precio de venta (x1000)
1972 (1) $27.6
1973 (2) $32.6
1974 (3) $35.9
1975 (4) $39.3
1976 (5) $44.2
1977 (6) $48.8
1978 (7) $55.7
1979 (8) $62.9
Modelos lineales, parte 1
Solución
Utilizaremos los estimadores mencionados anteriormente
x = 1:8
y = c(27.6,32.6,35.9,39.3,44.2,48.8,55.7,62.9)
(sx = sum(x))
## [1] 36
(sy = sum(y))
## [1] 347
mx = replicate(8,mean(x))
my = replicate(8,mean(y))
(Sxx = sum((x-mx)^2))
## [1] 42
(Sxy = sum((x-mx)*(y-my)))
## [1] 203.1
Modelos lineales, parte 1
Solución
Por lo tanto, usando los resultados anteriores, tenemos que
(beta1 = Sxy/Sxx)
## [1] 4.835714
(beta0 = mean(y)-beta1*mean(x))
## [1] 21.61429
Por lo tanto el modelo lineal buscado es:
Y = 21.61 + 4.84x .
Modelos lineales, parte 1
Solución
Usando el modelo si se realizan las estimaciones correpondientes obtenemos que:
x yreal ymod Error
1972 (1) $27.6 26.44 -1.16
1973 (2) $32.6 31.27 -1.33
1974 (3) $35.9 36.10 0.20
1975 (4) $39.3 40.93 1.63
1976 (5) $44.2 45.76 1.56
1977 (6) $48.8 50.59 1.79
1978 (7) $55.7 55.42 -0.28
1979 (8) $62.9 60.25 -2.65
Si se calcula el promedio de los errores es 0.03, sin embargo si se utilizarán las
estimaciones con todos los decimales ese promedio de errores baja hasta orden de 10−15 .
Modelos lineales, parte 1
En R
En R se puede utilizar el comando lm para realizar el modelo lineal correspondiente.
modelo = lm(y~x)
modelo
##
## Call:
## lm(formula = y ~ x)
##
## Coefficients:
## (Intercept) x
## 21.614 4.836
Modelos lineales, parte 1
Regresión lineal simple
Propiedades de los estimadores de mínimos cuadrados: regresión lineal simple.
1 Los estimadores de βˆ0 y βˆ1 son insesgados; es decir, E [β̂i ] = βi , para i = 0, 1.
X
xi2
2 V (βˆ0 ) = c00 σ 2 , donde c00 = .
nSxx
1
3 V (βˆ1 ) = c11 σ 2 , donde c11 = .
Sxx
−x̄
4 Cov(βˆ0 , βˆ1 ) = c01 σ 2 , donde c01 = .
Sxx
SSE
5 Un estimador insesgado de σ 2 es S 2 = , donde SSE = Syy − βˆ1 Sxy y
P n−2
Syy = (yi − ȳ )2 .
Si, además, los valores de εi tienen una distribución normal
6 βˆ0 y βˆ1 tienen una distribución normal.
(n − 2)S 2
7 La variable aleatoria tiene distribución χ2 con n − 2 grados de libertad.
σ2
8 El estadístico S 2 es independiente de βˆ0 y βˆ1 .
Modelos lineales, parte 1
Ejemplo
Para los datos del ejercicio anterior calcule SSE y S 2 .
A veces es conveniente, desde el punto de vista del cálculo, contar con valores de x
separados simétricamente y a la misma distancia de cero. Estos valores de x se
pueden reescalar de forma conveniente sin pérdida de información en el análisis
estadístico. Codifique los valores de x mediante la fórmula:
x − 4.5
x∗ =
0.5
Y ajuste el modelo Y = β0∗ + β1∗ x ∗ + ε. Calcule SSE. Compare el valor de SSE
con el obtenido anteriormente.
Modelos lineales, parte 1
Solución
Calculamos Syy ,
(Syy = sum((y-mean(y))^2))
## [1] 1000.675
luego
(SSE = Syy - beta1*Sxy)
## [1] 18.54143
Y por lo tanto
(S2 = SSE/(length(x)-2))
## [1] 3.090238
Modelos lineales, parte 1
Si reescalamos los valores de x , los nuevos valores serán
x= c(-7,-5,-3,-1,1,3,5,7)
(sx = sum(x))
## [1] 0
mx = replicate(8,mean(x))
(Sxx = sum((x-mx)^2))
## [1] 168
(Sxy = sum((x-mx)*(y-my)))
## [1] 406.2
Modelos lineales, parte 1
por lo tanto
(beta1 = Sxy/Sxx)
## [1] 2.417857
(beta0 = mean(y)-beta1*mean(x))
## [1] 43.375
Por lo tanto el modelo reescalado sería
Y = 43.38 + 2.42x ∗ .
(SSE = Syy - beta1*Sxy)
## [1] 18.54143
Como podemos ver, el cambio no influye en la suma de los errores cuadrados.
Modelos lineales, parte 1
Inferencias respecto a los parámetros
Prueba de hipótesis para βi
H0 : βi = βi0 .
(
βi > βi0
Ha : βi < βi0
βi 6= βi0
β̂i − βi0
Estadístico de prueba: T = √ .
S cii
(
T > tα
Región de rechazo : T < −tα
|T | 6= tα/2
X
xi2 1
donde c00 = y c11 = .
nSxx Sxx
Tomando en cuenta que tα se basa en n − 2 grados de libertad.
Modelos lineales, parte 1
Ejemplo
Del ejemplo, de los tipos de aleación, se verificará si el parámetro βˆ1 = 0.547 es
significativo para el modelo. El estudio se hace análogo para βˆ0
Sea la prueba de hipotesis
H0 : β1 = 0.
Ha : β1 6= 0.
La RR = {|T | 6= tn−2,α/2 }.
Se debe calcular el estadístico
βˆ1 − β10
T = √ ,
S c11
Modelos lineales, parte 1
Ejemplo
SSE
s2 = n−2
, por lo que se debe calcular SSE .
SSE = Syy − βˆ1 Sxy ,
donde P
n Pn Pn
Sxy =
Pni=1 xi yi − 1/n2 =
P n
x
i=1 i
y
i=1 i
2 − n(ȳ )2
Syy = i=1
(y i − ŷ ) i=1
yi
De procedimientos anteriores, se sabe que
Sxy = 5.75
2
37
Syy = 14207 − 8 ∗ = 14207 − 8 ∗ (21.39)2 = 10546.52,
8
Modelos lineales, parte 1
Ejemplo
Así,
SSE = 10546.52 − 0.547 ∗ 5.75 = 10543.37
Por lo tanto,
SSE 10546.52
s2 = = = 1757.229,
n−2 6
1 1
s = 41.9193. Par calcular c11 = Sxx
= 10.5
= 0.0952,
El estadístico es
βˆ1 − β10 0.547 − 0 0.547
T = √ = √ = = 0.0422,
S c11 41.9193 0.0952 12.9339
Modelos lineales, parte 1
Ejemplo
La RR = {|T | 6= tn−2,α/2 }.
El valor tabulado es tn−1,α/2 = t6,0.05/2 = t6,0.025 = 2.447
Como 0.042 no cae en la región de rechazo, parece ser que el parámetro βˆ1 no es
significativo para el modelo.
Modelos lineales, parte 1