3 ModelosLineales
3 ModelosLineales
Definición
Un modelo estadístico lineal que relacionUn modelo estadístico lineal que relaciona una
respuesta aleatoria Y con un conjunto de variables independientes x1 , x2 , . . . , xk tiene
la forma
Y = β0 + β1 x1 + β2 x2 + ... + βk xk + ε
donde β0 , β1 , β2 , . . . , βk son parámetros desconocidos, ε es una variable aleatoria y x1 ,
x2 , . . . , xk son constantes conocidas. Supondremos que E (ε) = 0 y, en consecuencia
E [Y ] = β0 + β1 x1 + β2 x2 + ... + βk xk
Si se estiman los parámetros desconocidos, los estimadores serían βˆ0 y βˆ1 . Al calcular la
estimación, se tendría ŷ = βˆ0 + βˆ1 x . Por lo tanto por cada estimación se tendría un
error y − ŷ , y se puede calcular la suma cuadrada de los errores (SSE), que no es más
que
n
X
SSE = (yi − ŷi )2
i=1
2 βˆ0 = ȳ − βˆ1 x̄ .
n n
!2
X 1 X
Sxx = xi2 − xi
n
i=1 i=1
Cov(yt , yt+k ) 6= 0
para tiempos t y t + k.
Las medianas de los precios de venta de casas nuevas para una sola familia durante un
periodo de ocho años se indican en la siguiente tabla. Sea Y la mediana de los precios
de venta y x el año (representado con números enteros, 1, 2, . . . , 8), ajuste el modelo
Y = β0 + β1 x + ε. ¿Qué se puede concluir de los resultados?
x = 1:8
y = c(27.6,32.6,35.9,39.3,44.2,48.8,55.7,62.9)
modelo = lm(y~x)
modelo
##
## Call:
## lm(formula = y ~ x)
##
## Coefficients:
## (Intercept) x
## 21.614 4.836
H0 : βi = βi0 .
(
βi > βi0
Ha : βi < βi0
βi 6= βi0
β̂i − βi0
Estadístico de prueba: T = √ .
S cii
(
T > tα
Región de rechazo : T < −tα
|T | 6= tα/2
X
xi2 1
donde c00 = y c11 = .
nSxx Sxx
Tomando en cuenta que tα se basa en n − 2 grados de libertad.
Intervalo de confianza de (1 − α)100% para βi
√
β̂i ± tα/2 S cii
La siguiente tabla contiene la lista del número de casos de tuberculosis (por cada
100.000 habitantes) en el estado de Florida durante la década que va de 1967 a 1976.
¿Hay suficiente evidencia para afirmar que la tasa de tuberculosis decrece en tal
periodo? Utilice α = 0.05.
Año Casos
1967 26.3
1968 26.1
1969 24.7
1970 22.8
1971 22.1
1972 20.4
1973 19.0
1974 17.7
1975 19.3
1976 17.5
Afirmar que la tasa de tuberculosis decrece implicaría que para el modelo de regresión
y = β0 + β1 x el parámetro β1 tendría que ser negativo para que la recta tenga
pendiente negativa. Así probaremos H0 : β1 = 0 frente a Ha : β1 < 0.
x=1:10; y=c(26.3,26.1,24.7,22.8,22.1,20.4,19.0,17.7,19.3,17.5)
mod.1 = lm(y~x)
mod.1
##
## Call:
## lm(formula = y ~ x)
##
## Coefficients:
## (Intercept) x
## 27.42 -1.06
coef(summary(mod.1))
Existen distintos tipos de formas de estudiar la relación entre dos tipos de variables.
Una de las más comunes es establecer una de tipo “causa-efecto” entre ellas. Desde el
punto de vista de variables aleatorias podemos agregar otras ideas.
3.0
2.5
2.0
x
pendiente positiva
Correlación = 0.9745266
0.0
−1.0
x
pendiente negativa
Correlación = -0.9717285
Relación lineal
8
6
4
y
2
0
x
Mucho ruido
Correlación = 0.6145288
Heterocedasticidad
5
4
y
3
2
x
varianzas no son constantes
Correlación = -0.1174979
Relación no lineal
2
0
−2
−4
y
−6
−8
−10
x
Correlación = 0.8844378
x = 1:8
y = c(27.6,32.6,35.9,39.3,44.2,48.8,55.7,62.9)
mod = lm(y~x)
mod
##
## Call:
## lm(formula = y ~ x)
##
## Coefficients:
## (Intercept) x
## 21.614 4.836
##
## Call:
## lm(formula = y ~ x)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.82857 -1.60893 0.00714 1.19107 2.60000
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 21.6143 1.3698 15.78 4.11e-06 ***
## x 4.8357 0.2713 17.83 2.00e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.758 on 6 degrees of freedom
## Multiple R-squared: 0.9815, Adjusted R-squared: 0.9784
## F-statistic: 317.8 on 1 and 6 DF, p-value: 2.002e-06
2.0
8 8
2
Residuals
0.5
0
−1.0
−2
4 6 4
6
Standardized residuals
Scale−Location Residuals vs Leverage
8
8
1.2
1.5
1
4 6
0.5
2 1
0.6
0.0
−1.5 Cook's distance 0.5
0.0
x=1:10; y=c(26.3,26.1,24.7,22.8,22.1,20.4,19.0,17.7,19.3,17.5)
mod2 = lm(y~x)
mod2
##
## Call:
## lm(formula = y ~ x)
##
## Coefficients:
## (Intercept) x
## 27.42 -1.06
##
## Call:
## lm(formula = y ~ x)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.240 -0.590 -0.040 0.625 1.420
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 27.42000 0.61349 44.70 6.93e-11 ***
## x -1.06000 0.09887 -10.72 5.04e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.8981 on 8 degrees of freedom
## Multiple R-squared: 0.9349, Adjusted R-squared: 0.9268
## F-statistic: 114.9 on 1 and 8 DF, p-value: 5.036e-06
1.5
9 9
1.5
Residuals
0.0
0.0
7
−1.5
7
−1.5
8 8
Standardized residuals
Scale−Location Residuals vs Leverage
9
2
1.2
8 9 1
7 0.5
1
10
0.6
8
1
E [Y |X = x ] = β0 + β1 x .
En general si suponemos que (X , Y ) es un vector aleatorio que se distribuye normal
bivariable con E (X ) = µX , E (Y ) = µY , V (X ) = σX2 , V (Y ) = σY2 y con coeficiente de
correlación ρ, entonces se puede demostrar que
σY
β1 = ρ.
σX
βˆ1 − 0
T = √
S/ Sxx
que tiene distribución t con n − 2 grados de libertad. Se puede demostrar que es
equivalente al estadístico
√
r n−2
T = √
1 − r2
que por ser equivalente debe tener distribución t con n − 2 grados de libertad.
La siguiente tabla muestra la carga pico de energía eléctrica de una planta generadora
de electricidad y la temperatura alta diaria para una muestra aleatoria de 10 días.
Pruebe la hipótesis de que el coeficiente de correlación poblacional ρ entre la carga pico
de energía eléctrica y la temperatura alta es cero frente la hipótesis alternativa de que
ésta es positiva. Utilice α = 0.05. Determine el nivel de significancia alcanzado.
CP = c(214,152,156,129,254,266,210,204,213,150)
temp = c(95,82,90,81,99,100,93,95,93,87)
##
## Call:
## lm(formula = CP ~ temp)
##
## Coefficients:
## (Intercept) temp
## -419.849 6.717
##
## Call:
## lm(formula = CP ~ temp)
##
## Residuals:
## Min 1Q Median 3Q Max
## -28.724 -11.811 4.929 8.645 21.016
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -419.8491 76.0578 -5.52 0.00056 ***
## temp 6.7175 0.8294 8.10 3.99e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 16.18 on 8 degrees of freedom
## Multiple R-squared: 0.8913, Adjusted R-squared: 0.8777
## F-statistic: 65.6 on 1 and 8 DF, p-value: 3.994e-05
2
20
Residuals 2 2
6
1
0
0
10
−30
−2
3
Standardized residuals
Scale−Location Residuals vs Leverage
2
3 1
1.2
2 2
6 0.5
1
6
0
0.6
0.5
−2 Cook's distance 1
0.0
Hasta ahora hemos trabajado con modelos simples, por lo que es “simple” conseguir
fórmulas cerradas para las estimaciones. Supongamos que ahora cuando se realizan n
observaciones independientes y1 , y2 , . . . , yn , y podemos escribir a yi como:
1 E [β̂i ] = βi , i = 0, 1, ..., k.
2 V (β̂i ) = cii σ 2 , donde cii es el elemento de fila y columna i de (X 0 X )−1 .
3 Cov(β̂i , β̂j ) = cij σ 2 .
SSE
4 Un estimador insesgado de σ 2 es S 2 = .
[n − (k + 1)]
Si además los valores de εi , para i = 1, 2, ..., n tienen una distribución normal
5 Cada β̂i tiene una distribución normal.
[n − (k + 1)]S 2
6 La variable aleatoria tiene distribución χ2 con n − (k + 1) grados
σ2
de libertad.
7 Los estadísticos S 2 y β̂i para i = 0, 1, 2, ..., k son independientes.
Para definir que es un buen modelo es importante que se cumplan dos cualidades
fundamentales:
1 Explicar la variabilidad de los datos observados.
2 Predice bien datos nuevos, en alguna región del dominio de las variables
explicativas.
modelo R: Y = β0 + β1 x1 + β2 x2 + ... + β
y se calcula la suma de los cuadrados de los errores de este modelo que ahora
llamaremos SSER .
Por otroP lado, sabemos que la variabilidad de los datos, que ahora llamaremos
SST = (yi − ȳ )2 , y la varianza la calcularíamos dividiendo esa
Pcantidad 2por n − 1.
Como sabemos la suma de los cuadrados de los errores SSE = (yi − yˆi ) , y para
calcular la varianza a partir de ese estimador dividiriamos por n − (k + 1). Sin embargo,
es claro que
X X X X
(yi − ȳ )2 = (yi − yˆi )2 + (yˆi − ȳ )2 ⇒ SST = SSE + (yˆi − ȳ )2
P
Es importante notar que (yˆi − ȳ )2 es comparar los valores estimados con el promedio
real de los datos, eso lo podemos pensar como la variabilidad de la regresión, a la cual
llamaremos SSR.
2 SSE/[n − (k + 1)]
Raju =1−
SST/[n − 1]
Es bien sabido que los grandes depósitos de agua tienen un efecto regulador en la
temperatura de las masas de tierra que los rodean. En una noche fría en Florida central
se registraron las temperaturas en puntos equidistantes a lo largo de una línea recta en
la dirección del viento de un gran lago. Los datos que se obtuvieron aparecen en la
siguiente tabla. Observe que las temperaturas disminuyen rápidamente y se nivelan a
medida que se está más lejos del lago. El modelo sugerido para estos datos es
E [Y ] = α0 e −α1 x .
Sitio (x ) Temperatura [F o ] (y )
1 37.00
2 36.25
3 35.41
4 34.92
5 34.52
6 34.45
7 34.40
8 34.00
9 33.62
10 33.90
x=1:10;y=c(37.00,36.25,35.41,34.92,34.52,34.45,34.40,34.00,33.62,33.90)
(mod_t = lm(log(y)~x))
##
## Call:
## lm(formula = log(y) ~ x)
##
## Coefficients:
## (Intercept) x
## 3.602707 -0.009485
##
## Call:
## lm(formula = log(y) ~ x)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.013745 -0.007016 -0.001347 0.005462 0.017696
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.602707 0.007738 465.586 < 2e-16 ***
## x -0.009485 0.001247 -7.605 6.27e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.01133 on 8 degrees of freedom
## Multiple R-squared: 0.8785, Adjusted R-squared: 0.8633
## F-statistic: 57.84 on 1 and 8 DF, p-value: 6.273e-05
2.0
1 1
10 10
0.01
Residuals
0.5
−0.01
−1.0
5 5
Standardized residuals
Scale−Location Residuals vs Leverage
1
2
10 1
1.2
10 1
5
0.5
1
0.6
−1 0 Cook's distance
0.0
5 0.5
datos=read.table("ozono.txt",header=TRUE)
head(datos)
attach(datos)
##
## Call:
## lm(formula = Ozono ~ Temp + Rad.S + Viento)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.14131 -0.38989 0.02451 0.47659 1.14001
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.392109 0.995402 -0.394 0.695901
## Temp 0.049303 0.012303 4.008 0.000285 ***
## Rad.S 0.002129 0.001106 1.926 0.061832 .
## Viento -0.040466 0.029179 -1.387 0.173792
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.6435 on 37 degrees of freedom
## Multiple R-squared: 0.5752, Adjusted R-squared: 0.5407
## F-statistic: 16.7 on 3 and 37 DF, p-value: 5.067e-07
##
## Call:
## lm(formula = Ozono ~ Temp + Rad.S + Viento - 1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.19644 -0.42171 -0.02909 0.44164 1.10290
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## Temp 0.044826 0.004655 9.629 9.66e-12 ***
## Rad.S 0.002229 0.001064 2.095 0.0429 *
## Viento -0.048055 0.021670 -2.218 0.0326 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.6363 on 38 degrees of freedom
## Multiple R-squared: 0.966, Adjusted R-squared: 0.9633
## F-statistic: 359.4 on 3 and 38 DF, p-value: < 2.2e-16
##
## Call:
## lm(formula = Ozono ~ Temp + Viento - 1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.53388 -0.29083 0.07049 0.34481 0.98603
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## Temp 0.051616 0.003483 14.819 <2e-16 ***
## Viento -0.052729 0.022472 -2.346 0.0241 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.6633 on 39 degrees of freedom
## Multiple R-squared: 0.962, Adjusted R-squared: 0.9601
## F-statistic: 494 on 2 and 39 DF, p-value: < 2.2e-16
##
## Call:
## lm(formula = Ozono ~ Temp - 1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.6043 -0.3626 0.1398 0.4054 1.2578
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## Temp 0.044141 0.001485 29.72 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.6997 on 40 degrees of freedom
## Multiple R-squared: 0.9567, Adjusted R-squared: 0.9556
## F-statistic: 883 on 1 and 40 DF, p-value: < 2.2e-16
1
Residuals
1
−1
−1
19 19
−3
17
−3
17
Standardized residuals
Scale−Location Residuals vs Leverage
2.0
17
2
23 34
19 23
0
1.0
17
4
3
2
60 70 80 90 100
Modelos estadísticos lineales
Análisis de varianza
Supongamos que deseamos comparar las medias de dos poblaciones que poseen
distribuciones normales con medias µ1 y µ2 , y varianzas iguales σ12 = σ22 = σ 2 , de
muestras aleatorias independientes de tamaños n1 = n2 . Entonces la suma total de los
cuadrados, que llamaremos SSTot, es:
2 n1
X X
SSTot = (Yij − Ȳ )2 .
i=1 j=1
Luego
2 n1 2 2 n1
X X X X X
SSTot = (Yij − Ȳ )2 = n1 (Ȳi − Ȳ )2 + (Yij − Ȳi )2
i=1 j=1 i=1 i=1 j=1
2
X
la primera cantidad, n1 (Ȳi − Ȳ )2 , la llamaremos la suma de cuadrados de los
i=1
2 n1
X X
tratamientos (SST); mientras que la segunda cantidad, (Yij − Ȳi )2 , es la suma
i=1 j=1
de cuadrados del error (SSE).
SST
1 SST1
σ2 =
SSE SSE(2n1 − 2)
(2n1 − 2)
σ2
tiene distribución F con ν1 = 1 grados de libertad en el numerador y ν2 = 2n1 − 2
grados de libertad en el denominador.
SSE
Ahora definimos el cuadrado medio del error, MSE = , y el cuadrado medio de
2n1 − 2
SST
los tratamientos, MST = . Por lo tanto para probar H0 : µ1 = µ2 frente a
1
Ha : µ1 6= µ2 utilizaremos el estadístico
MST
F = .
MSE
La región de rechazo a nivel de significancia α será F > Fα .
Los cálculos para el análisis de varianza suelen presentarse en una tabla de análisis de
varianza (ANDEVA) como la siguiente
Fuente g.l. SS MS F
Tratamientos k −1 SST MST = SST/(k − 1) MST/MSE
Error n−k SSE MSE = SSE/(n − k)
k ni
X X
Total n−1 (yij − ȳ )2
i=1 j=1
En una comparación de las resistencias del concreto producido con cuatro mezclas
experimentales, se prepararon tre muestras de cada tipo de mezcla. Las doce muestras
se sometieron a cargas de compresión crecientes hasta el punto de ruptura. La siguiente
tabla contiene las cargas de compresión en toneladas por pulgada cuadrada alcanzadas
hasta el punto de ruptura. Suponga que se cumplen las condiciones para un diseño de
un factor y analice los datos. Indique si con un nivel de significancia de α = 0.05 se
puede sustentar, desde el punto de vista estadístico, la conclusión de que por lo menos
la resistencia promedio de una de las muestras de concreto es diferente de las otras.
MA = c(2.30,2.20,2.25)
MB = c(2.20,2.10,2.20)
MC = c(2.15,2.15,2.20)
MD = c(2.25,2.15,2.25)
dat = c(MA,MB,MC,MD)
fac = c(replicate(3,"MA"),replicate(3,"MB"),replicate(3,"MC")
,replicate(3,"MD"))
fact = factor(fac)
## MA MB MC MD
## 2.250000 2.166667 2.166667 2.216667
MA MB MC MD
z1 = c(5.9,6.1,6.3,6.1,6.0)
z2 = c(6.3,6.6,6.4,6.4,6.5)
z3 = c(4.8,4.3,5.0,4.7,5.1)
z4 = c(6.0,6.2,6.1,5.8)
En este caso rechazamos la hipótesis de que no hay diferencias en las medias, es decir
que debe haber al menos una media que es distinta a las otras.
pairwise.t.test(datos,factr)
##
## Pairwise comparisons using t tests with pooled SD
##
## data: datos and factr
##
## zona1 zona2 zona3
## zona2 0.026 - -
## zona3 2.1e-07 9.0e-09 -
## zona4 0.691 0.024 6.2e-07
##
## P value adjustment method: holm
Lo que nos devuelve este comando es una matriz de los p-valores que se obtienen si se
comparan las hipótesis H0 : µi − µj = 0 y Ha : µi − µj 6= 0.
Por lo tanto, queda claro que se rechaza la hipótesis de que el contenido medio de
oxígeno disuelto en la zona 3 sea igual a cualquiera de las otras zonas, por lo que se
puede concluir que ese contenido medio es el único con una diferencia significativa.
Nuevamente pensemos Yij como las variables aleatorias que generan la observación yij .
Estos Yij son muestras aleatorias independientes de poblaciones normales con media µi
y varianza σ 2 . Podemos escribir cada Yij como
Yij = µi + εij
para j = 1, . . . , ni , donde los términos de error εij son variables aleatorias independientes
normales con media 0 y varianza σ 2 (¿por qué?), para i = 1, . . . , k y j = 1, . . . , ni .
Ahora consideremos cada media poblacional µi como
µi = µ + τi
donde τ1 + τ2 + . . . + τk = 0.
k k
X X
Por lo tanto µi = kµ + τi = kµ, por lo que µ no es más que el promedio de
i=1 i=1
los µi .Como τi mide la diferencia entre la media de la población i y la media total,
esta recibe el nombre de efecto de la población o del tratamiento i.
Yij = µ + τi + εij
para i = 1, 2, . . . , k y j = 1, 2, . . . , ni , donde
Yij es la j-ésima observación de la población i.
µ es la media total.
k
X
τi es el efecto no aleatorio del tratamiento i, donde τi = 0.
i=1
εij son los términos aleatorios de error tales que son variables aleatorias
independientes con distribución normal, donde E (εij ) = 0 y V (εij ) = σ 2 .
Yij = µ + τi + βj + εij
para i = 1, 2, . . . , k y j = 1, 2, . . . , b, donde
Yij es la observación del tratamiento i en el bloque j.
µ es la media total.
k
X
τi es el efecto no aleatorio del tratamiento i, donde τi = 0.
i=1
b
X
βj es el efecto no aleatorio del bloque j, donde βj = 0
j=1
εij son los términos aleatorios de error tales que son variables aleatorias
independientes con distribución normal, donde E (εij ) = 0 y V (εij ) = σ 2 .
Fuente g.l. SS MS F
SSB MSB
Bloques b−1 SSB MSB =
b−1 MSE
SST MST
Tratamientos k −1 SST MST =
k −1 MSE
SSE
Error n−k −b−1 SSE MSE =
n−k −b−1
k ni
XX
Total n−1 (yij − ȳ )2
i=1 j=1
Para probar la hipótesis nula de que no existe diferencia entre las medias del
MST
tratamiento utilizamos el estadístico F = y rechazamos la hipótesis nula si
MSE
F > Fα (k − 1, n − k − b − 1). Para probar la hipótesis nula de que no existe diferencia
MSB
entre las medias de los bloques utilizamos el estadístico F = y rechazamos la
MSE
hipótesis nula si F > Fα (b − 1, n − k − b − 1).
Preparación Zona
de suelo 1 2 3 4
A 11 13 16 10
B 15 17 20 12
C 10 15 13 10
## zona
## pr.suelo 1 2 3 4
## 1 11 13 16 10
## 2 15 17 20 12
## 3 10 15 13 10