0% encontró este documento útil (0 votos)
72 vistas82 páginas

3 ModelosLineales

Este documento describe los modelos estadísticos lineales, que relacionan una variable de respuesta con un conjunto de variables independientes a través de una ecuación lineal. Explica que los parámetros del modelo se estiman usando el método de mínimos cuadrados ordinarios y que estos estimadores son insesgados. También cubre cómo realizar pruebas de hipótesis e intervalos de confianza para los parámetros del modelo. Finalmente, menciona otros tipos de relaciones entre variables más allá de las lineales.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
72 vistas82 páginas

3 ModelosLineales

Este documento describe los modelos estadísticos lineales, que relacionan una variable de respuesta con un conjunto de variables independientes a través de una ecuación lineal. Explica que los parámetros del modelo se estiman usando el método de mínimos cuadrados ordinarios y que estos estimadores son insesgados. También cubre cómo realizar pruebas de hipótesis e intervalos de confianza para los parámetros del modelo. Finalmente, menciona otros tipos de relaciones entre variables más allá de las lineales.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Modelos estadísticos lineales

Modelos estadísticos lineales


Modelos estadisticos lineales

Definición
Un modelo estadístico lineal que relacionUn modelo estadístico lineal que relaciona una
respuesta aleatoria Y con un conjunto de variables independientes x1 , x2 , . . . , xk tiene
la forma

Y = β0 + β1 x1 + β2 x2 + ... + βk xk + ε
donde β0 , β1 , β2 , . . . , βk son parámetros desconocidos, ε es una variable aleatoria y x1 ,
x2 , . . . , xk son constantes conocidas. Supondremos que E (ε) = 0 y, en consecuencia

E [Y ] = β0 + β1 x1 + β2 x2 + ... + βk xk

Modelos estadísticos lineales


Metodo de minimos cuadrados

Si se estiman los parámetros desconocidos, los estimadores serían βˆ0 y βˆ1 . Al calcular la
estimación, se tendría ŷ = βˆ0 + βˆ1 x . Por lo tanto por cada estimación se tendría un
error y − ŷ , y se puede calcular la suma cuadrada de los errores (SSE), que no es más
que
n
X
SSE = (yi − ŷi )2
i=1

Modelos estadísticos lineales


Metodo de minimos cuadrados

Si minimizamos esa cantidad, entonces los estimadores de mínimos cuadrados para el


modelo de regresión lineal simple
n n
Sxy X X
1 βˆ1 = donde Sxy = (xi − x̄ )(yi − ȳ ) y Sxx = (xi − x̄ )2 .
Sxx
i=1 i=1

2 βˆ0 = ȳ − βˆ1 x̄ .

Modelos estadísticos lineales


Metodo de minimos cuadrados

Es fácil ver que


n n n
X 1 X X
Sxy = xi yi − xi yi
n
i=1 i=1 i=1
y

n n
!2
X 1 X
Sxx = xi2 − xi
n
i=1 i=1

Modelos estadísticos lineales


Los datos de la variable respuesta

Aunque no sea explicito, al realizar un modelo de regresión lineal estamos haciendo la


suposición de que los yi son independientes e idénticamente distribuidos. Esta
suposición no se puede hacer con frecuencia en datos temporales, donde se suele
cumplir que

Cov(yt , yt+k ) 6= 0
para tiempos t y t + k.

Modelos estadísticos lineales


Ejemplo

Las medianas de los precios de venta de casas nuevas para una sola familia durante un
periodo de ocho años se indican en la siguiente tabla. Sea Y la mediana de los precios
de venta y x el año (representado con números enteros, 1, 2, . . . , 8), ajuste el modelo
Y = β0 + β1 x + ε. ¿Qué se puede concluir de los resultados?

Año Mediana del precio de venta (x1000)


1972 (1) $27.6
1973 (2) $32.6
1974 (3) $35.9
1975 (4) $39.3
1976 (5) $44.2
1977 (6) $48.8
1978 (7) $55.7
1979 (8) $62.9

Modelos estadísticos lineales


Solución

x = 1:8
y = c(27.6,32.6,35.9,39.3,44.2,48.8,55.7,62.9)

En R se puede utilizar el comando lm para realizar el modelo lineal correspondiente.

modelo = lm(y~x)
modelo

##
## Call:
## lm(formula = y ~ x)
##
## Coefficients:
## (Intercept) x
## 21.614 4.836

Modelos estadísticos lineales


Regresión lineal simple

Propiedades de los estimadores de mínimos cuadrados: regresión lineal simple.


1 Los estimadores de βˆ0 y βˆ1 son insesgados; es decir, E [β̂i ] = βi , para i = 0, 1.
X
xi2
2 V (βˆ0 ) = c00 σ 2 , donde c00 = .
nSxx
1
3 V (βˆ1 ) = c11 σ 2 , donde c11 = .
Sxx
−x̄
4 Cov(βˆ0 , βˆ1 ) = c01 σ 2 , donde c01 = .
Sxx
SSE
5 Un estimador insesgado de σ 2 es S 2 = , donde SSE = Syy − βˆ1 Sxy y
P n−2
Syy = (yi − ȳ )2 .

Si, además, los valores de εi tienen una distribución normal


6 βˆ0 y βˆ1 tienen una distribución normal.
(n − 2)S 2
7 La variable aleatoria tiene distribución χ2 con n − 2 grados de libertad.
σ2
8 El estadístico S 2 es independiente de βˆ0 y βˆ1 .

Modelos estadísticos lineales


Inferencias respecto a los parámetros
Prueba de hipótesis para βi

H0 : βi = βi0 .

(
βi > βi0
Ha : βi < βi0
βi 6= βi0

β̂i − βi0
Estadístico de prueba: T = √ .
S cii
(
T > tα
Región de rechazo : T < −tα
|T | 6= tα/2
X
xi2 1
donde c00 = y c11 = .
nSxx Sxx
Tomando en cuenta que tα se basa en n − 2 grados de libertad.
Intervalo de confianza de (1 − α)100% para βi

β̂i ± tα/2 S cii

Modelos estadísticos lineales


Ejemplo

La siguiente tabla contiene la lista del número de casos de tuberculosis (por cada
100.000 habitantes) en el estado de Florida durante la década que va de 1967 a 1976.
¿Hay suficiente evidencia para afirmar que la tasa de tuberculosis decrece en tal
periodo? Utilice α = 0.05.

Año Casos
1967 26.3
1968 26.1
1969 24.7
1970 22.8
1971 22.1
1972 20.4
1973 19.0
1974 17.7
1975 19.3
1976 17.5

Modelos estadísticos lineales


Solución

Afirmar que la tasa de tuberculosis decrece implicaría que para el modelo de regresión
y = β0 + β1 x el parámetro β1 tendría que ser negativo para que la recta tenga
pendiente negativa. Así probaremos H0 : β1 = 0 frente a Ha : β1 < 0.

x=1:10; y=c(26.3,26.1,24.7,22.8,22.1,20.4,19.0,17.7,19.3,17.5)

Modelos estadísticos lineales


Con R

mod.1 = lm(y~x)
mod.1

##
## Call:
## lm(formula = y ~ x)
##
## Coefficients:
## (Intercept) x
## 27.42 -1.06

coef(summary(mod.1))

## Estimate Std. Error t value Pr(>|t|)


## (Intercept) 27.42 0.61348730 44.69530 6.932250e-11
## x -1.06 0.09887243 -10.72089 5.036302e-06

Modelos estadísticos lineales


Relación entre variables

Existen distintos tipos de formas de estudiar la relación entre dos tipos de variables.
Una de las más comunes es establecer una de tipo “causa-efecto” entre ellas. Desde el
punto de vista de variables aleatorias podemos agregar otras ideas.

Modelos estadísticos lineales


En R: Relación lineal con pendiente positiva

Relación lineal perfecta


5.0
4.5
4.0
3.5
y

3.0
2.5
2.0

0.0 0.2 0.4 0.6 0.8 1.0

x
pendiente positiva
Correlación = 0.9745266

Modelos estadísticos lineales


En R: Relación lineal con pendiente negativa

Relación lineal perfecta


2.0
1.5
1.0
0.5
y

0.0
−1.0

0.0 0.2 0.4 0.6 0.8 1.0

x
pendiente negativa
Correlación = -0.9717285

Modelos estadísticos lineales


En R: Mucho ruido

Relación lineal
8
6
4
y

2
0

0.0 0.2 0.4 0.6 0.8 1.0

x
Mucho ruido
Correlación = 0.6145288

Modelos estadísticos lineales


En R: Heterocedasticidad

Heterocedasticidad
5
4
y

3
2

0.0 0.2 0.4 0.6 0.8 1.0

x
varianzas no son constantes
Correlación = -0.1174979

Modelos estadísticos lineales


En R: Relación no lineal

Relación no lineal
2
0
−2
−4
y

−6
−8
−10

0.0 0.2 0.4 0.6 0.8 1.0

x
Correlación = 0.8844378

Modelos estadísticos lineales


Ejemplo en R

Hacemos el ejemplo de la mediana de los precios de las casas en R.

x = 1:8
y = c(27.6,32.6,35.9,39.3,44.2,48.8,55.7,62.9)

mod = lm(y~x)
mod

##
## Call:
## lm(formula = y ~ x)
##
## Coefficients:
## (Intercept) x
## 21.614 4.836

Modelos estadísticos lineales


summary(mod)

##
## Call:
## lm(formula = y ~ x)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.82857 -1.60893 0.00714 1.19107 2.60000
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 21.6143 1.3698 15.78 4.11e-06 ***
## x 4.8357 0.2713 17.83 2.00e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.758 on 6 degrees of freedom
## Multiple R-squared: 0.9815, Adjusted R-squared: 0.9784
## F-statistic: 317.8 on 1 and 6 DF, p-value: 2.002e-06

Modelos estadísticos lineales


Standardized residuals
Residuals vs Fitted Normal Q−Q

2.0
8 8

2
Residuals

0.5
0

−1.0
−2

4 6 4
6

30 40 50 60 −1.5 −0.5 0.5 1.0 1.5

Fitted values Theoretical Quantiles


Standardized residuals

Standardized residuals
Scale−Location Residuals vs Leverage
8
8
1.2

1.5
1
4 6
0.5
2 1
0.6

0.0
−1.5 Cook's distance 0.5
0.0

30 40 50 60 0.0 0.1 0.2 0.3 0.4

Fitted values Leverage

Modelos estadísticos lineales


Hacemos el ejemplo del número de casos de tuberculosis solo utilizando R.

x=1:10; y=c(26.3,26.1,24.7,22.8,22.1,20.4,19.0,17.7,19.3,17.5)
mod2 = lm(y~x)
mod2

##
## Call:
## lm(formula = y ~ x)
##
## Coefficients:
## (Intercept) x
## 27.42 -1.06

Modelos estadísticos lineales


summary(mod2)

##
## Call:
## lm(formula = y ~ x)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.240 -0.590 -0.040 0.625 1.420
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 27.42000 0.61349 44.70 6.93e-11 ***
## x -1.06000 0.09887 -10.72 5.04e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.8981 on 8 degrees of freedom
## Multiple R-squared: 0.9349, Adjusted R-squared: 0.9268
## F-statistic: 114.9 on 1 and 8 DF, p-value: 5.036e-06

Modelos estadísticos lineales


Standardized residuals
Residuals vs Fitted Normal Q−Q

1.5
9 9

1.5
Residuals

0.0

0.0
7

−1.5
7
−1.5

8 8

18 20 22 24 26 −1.5 −0.5 0.5 1.5

Fitted values Theoretical Quantiles


Standardized residuals

Standardized residuals
Scale−Location Residuals vs Leverage
9

2
1.2

8 9 1
7 0.5

1
10
0.6

−1 Cook's distance 0.5


0.0

8
1

18 20 22 24 26 0.00 0.10 0.20 0.30

Fitted values Leverage

Modelos estadísticos lineales


Correlación

Hasta ahora se han trabajado problemas donde la variable independiente es de valores


fijos (año, por ejemplo), sin embargo podría ser una variable aleatoria. Entonces si
tenemos un modelo Y = β0 + β1 x + ε ahora

E [Y |X = x ] = β0 + β1 x .
En general si suponemos que (X , Y ) es un vector aleatorio que se distribuye normal
bivariable con E (X ) = µX , E (Y ) = µY , V (X ) = σX2 , V (Y ) = σY2 y con coeficiente de
correlación ρ, entonces se puede demostrar que
σY
β1 = ρ.
σX

Modelos estadísticos lineales


Uno de los detalles más importantes sería saber si X y Y son independientes, por lo que
podemos estar interesados es en saber si ρ = 0. Sea (X1 , Y1 ), (X2 , Y2 ), ..., (Xn , Yn ) una
muestra aleatoria de una distribución normal bivariable, entonces el estimador de
máxima verosimilitud de ρ está dado por la corre‘lación muestral
n
X
(Xi − X̄ )(Yi − Ȳ ) r
i=1 Sxy Sxx
r = s = p = βˆ1 .
n n Syy
X X Sxx Syy
(Xi − X̄ )2 (Yi − Ȳ )2
i=1 i=1

Modelos estadísticos lineales


Entonces es claro que existe una relación directa entre los estimadores de ρ y β1 , por lo
tanto probar la hipótesis nula ρ = 0 es equivalente a probar la hipótesis nula β1 = 0, y
para ello se puede usar el estadístico

βˆ1 − 0
T = √
S/ Sxx
que tiene distribución t con n − 2 grados de libertad. Se puede demostrar que es
equivalente al estadístico

r n−2
T = √
1 − r2
que por ser equivalente debe tener distribución t con n − 2 grados de libertad.

Modelos estadísticos lineales


Ejemplo

La siguiente tabla muestra la carga pico de energía eléctrica de una planta generadora
de electricidad y la temperatura alta diaria para una muestra aleatoria de 10 días.
Pruebe la hipótesis de que el coeficiente de correlación poblacional ρ entre la carga pico
de energía eléctrica y la temperatura alta es cero frente la hipótesis alternativa de que
ésta es positiva. Utilice α = 0.05. Determine el nivel de significancia alcanzado.

Día Temperatura alta Carga pico


1 95o F 214
2 82o F 152
3 90o F 156
4 81o F 129
5 99o F 254
6 100o F 266
7 93o F 210
8 95o F 204
9 93o F 213
10 87o F 150

Modelos estadísticos lineales


Solución

CP = c(214,152,156,129,254,266,210,204,213,150)
temp = c(95,82,90,81,99,100,93,95,93,87)

mod3 = lm(CP ~ temp)


mod3

##
## Call:
## lm(formula = CP ~ temp)
##
## Coefficients:
## (Intercept) temp
## -419.849 6.717

Modelos estadísticos lineales


summary(mod3)

##
## Call:
## lm(formula = CP ~ temp)
##
## Residuals:
## Min 1Q Median 3Q Max
## -28.724 -11.811 4.929 8.645 21.016
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -419.8491 76.0578 -5.52 0.00056 ***
## temp 6.7175 0.8294 8.10 3.99e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 16.18 on 8 degrees of freedom
## Multiple R-squared: 0.8913, Adjusted R-squared: 0.8777
## F-statistic: 65.6 on 1 and 8 DF, p-value: 3.994e-05

Modelos estadísticos lineales


Standardized residuals
Residuals vs Fitted Normal Q−Q

2
20
Residuals 2 2
6

1
0

0
10
−30

−2
3

120 160 200 240 −1.5 −0.5 0.5 1.5

Fitted values Theoretical Quantiles


Standardized residuals

Standardized residuals
Scale−Location Residuals vs Leverage

2
3 1
1.2

2 2
6 0.5

1
6

0
0.6

0.5
−2 Cook's distance 1
0.0

120 160 200 240 0.0 0.1 0.2 0.3 0.4

Fitted values Leverage

Modelos estadísticos lineales


Ajuste del modelo lineal múltiple

Hasta ahora hemos trabajado con modelos simples, por lo que es “simple” conseguir
fórmulas cerradas para las estimaciones. Supongamos que ahora cuando se realizan n
observaciones independientes y1 , y2 , . . . , yn , y podemos escribir a yi como:

yi = β0 + β1 xi1 + β2 xi2 + ... + βk xik + εi


donde xij es el valor de la j-ésima variable independiente de la i-ésima observación.

Modelos estadísticos lineales


Propiedades de los estimadores para regresión lineal múltiple

1 E [β̂i ] = βi , i = 0, 1, ..., k.
2 V (β̂i ) = cii σ 2 , donde cii es el elemento de fila y columna i de (X 0 X )−1 .
3 Cov(β̂i , β̂j ) = cij σ 2 .
SSE
4 Un estimador insesgado de σ 2 es S 2 = .
[n − (k + 1)]
Si además los valores de εi , para i = 1, 2, ..., n tienen una distribución normal
5 Cada β̂i tiene una distribución normal.
[n − (k + 1)]S 2
6 La variable aleatoria tiene distribución χ2 con n − (k + 1) grados
σ2
de libertad.
7 Los estadísticos S 2 y β̂i para i = 0, 1, 2, ..., k son independientes.

Modelos estadísticos lineales


Un buen modelo

Para definir que es un buen modelo es importante que se cumplan dos cualidades
fundamentales:
1 Explicar la variabilidad de los datos observados.
2 Predice bien datos nuevos, en alguna región del dominio de las variables
explicativas.

Modelos estadísticos lineales


Una prueba para H0 : βg+1 = βg+2 = ... = βk = 0

Supongamos que nuestro modelo de regresión es

modelo R: Y = β0 + β1 x1 + β2 x2 + ... + β
y se calcula la suma de los cuadrados de los errores de este modelo que ahora
llamaremos SSER .

Modelos estadísticos lineales


Después ajustamos otro modelo lineal con todas la variables independientes propuestas
que existen, lo que llamaremos modelo completo:

modelo C: Y = β0 + β1 x1 + β2 x2 + ... + βg xg + βg+1 xg+1 + ... + βk xk + ε


Este modelo claramente contiene el modelo R, que se conoce como modelo reducido,
además de k − g términos adicionales (ya que k > g). Nuevamente se puede calcular la
suma de los cuadrados de los errores, SSEC .

Modelos estadísticos lineales


Estaremos interesados en discernir si el modelo C realiza una mejor predicción que el
modelo R, es decir, si las nuevas k − g variables que se agregar para el modelo
completo, aportan información suficiente para realizar un mejor ajuste. Es así que
nuestra hipótesis nula será:

H0 : βg+1 = βg+2 = ... = βk = 0

Modelos estadísticos lineales


Ahora esa hipótesis será rechazada únicamente si la variabilidad explicada del modelo
completo es significativamente menor que la del modelo reducido, es decir,
SSER − SSEC es grande, entonces lo que deseamos hacer es una prueba de comparación
de varianzas, que como ya hemos visto sigue un estadístico F , que en este caso será:

(SSER − SSEC )/(k − g)


F = .
SSEC /[n − (k + 1)]
que posee una distribución F con k − g grados de libertad en el numerador y
n − (k + 1) grados de libertad en el denominador. Como la hipótesis se rechaza para
valores grandes de SSER − SSEC , entonces la región de rechazo lógica es F > Fα , para
el valor de significancia que se tome.

Modelos estadísticos lineales


Variabilidad de los datos observados

Por otroP lado, sabemos que la variabilidad de los datos, que ahora llamaremos
SST = (yi − ȳ )2 , y la varianza la calcularíamos dividiendo esa
Pcantidad 2por n − 1.
Como sabemos la suma de los cuadrados de los errores SSE = (yi − yˆi ) , y para
calcular la varianza a partir de ese estimador dividiriamos por n − (k + 1). Sin embargo,
es claro que

X X X X
(yi − ȳ )2 = (yi − yˆi )2 + (yˆi − ȳ )2 ⇒ SST = SSE + (yˆi − ȳ )2
P
Es importante notar que (yˆi − ȳ )2 es comparar los valores estimados con el promedio
real de los datos, eso lo podemos pensar como la variabilidad de la regresión, a la cual
llamaremos SSR.

Modelos estadísticos lineales


Así, un criterio común para estudiar cuán adecuado es un modelo ajustado de regresión
es el coeficiente de determinación múltiple

SSR SST − SSE SSE


R2 = = =1−
SST SST SST
Y ese R 2 nos indica la proporción de variación explicada por las variables independientes.
Si se saca la raíz cuadrada, entonces R se conoce como el coeficiente de correlación
múltiple entre Y y las variables independientes.

Modelos estadísticos lineales


Una versión más precisa del R 2 se da con el Raju
2 , donde dividimos SSE y SST por sus

respectivos grados de libertad.

2 SSE/[n − (k + 1)]
Raju =1−
SST/[n − 1]

Modelos estadísticos lineales


Transformaciones: Ejemplo

Es bien sabido que los grandes depósitos de agua tienen un efecto regulador en la
temperatura de las masas de tierra que los rodean. En una noche fría en Florida central
se registraron las temperaturas en puntos equidistantes a lo largo de una línea recta en
la dirección del viento de un gran lago. Los datos que se obtuvieron aparecen en la
siguiente tabla. Observe que las temperaturas disminuyen rápidamente y se nivelan a
medida que se está más lejos del lago. El modelo sugerido para estos datos es

E [Y ] = α0 e −α1 x .

Sitio (x ) Temperatura [F o ] (y )
1 37.00
2 36.25
3 35.41
4 34.92
5 34.52
6 34.45
7 34.40
8 34.00
9 33.62
10 33.90

Modelos estadísticos lineales


Ejercicio

a Convierta el modelo en un modelo lineal y estime los parámetros mediante el


método de mínimos cuadrados.
b Encuentra un intervalo de confianza de 90% para α0 . Interprete el resultado.

Modelos estadísticos lineales


Solución

Para transformar en un modelo lineal aplicamos logaritmos, de donde quedaría que


ln(Y ) = ln(α0 ) − α1 x .

x=1:10;y=c(37.00,36.25,35.41,34.92,34.52,34.45,34.40,34.00,33.62,33.90)
(mod_t = lm(log(y)~x))

##
## Call:
## lm(formula = log(y) ~ x)
##
## Coefficients:
## (Intercept) x
## 3.602707 -0.009485

Modelos estadísticos lineales


summary(mod_t)

##
## Call:
## lm(formula = log(y) ~ x)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.013745 -0.007016 -0.001347 0.005462 0.017696
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.602707 0.007738 465.586 < 2e-16 ***
## x -0.009485 0.001247 -7.605 6.27e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.01133 on 8 degrees of freedom
## Multiple R-squared: 0.8785, Adjusted R-squared: 0.8633
## F-statistic: 57.84 on 1 and 8 DF, p-value: 6.273e-05

Modelos estadísticos lineales


Standardized residuals
Residuals vs Fitted Normal Q−Q

2.0
1 1
10 10

0.01
Residuals

0.5
−0.01

−1.0
5 5

3.52 3.54 3.56 3.58 −1.5 −0.5 0.5 1.5

Fitted values Theoretical Quantiles


Standardized residuals

Standardized residuals
Scale−Location Residuals vs Leverage
1

2
10 1
1.2

10 1
5
0.5

1
0.6

−1 0 Cook's distance
0.0

5 0.5

3.52 3.54 3.56 3.58 0.00 0.10 0.20 0.30

Fitted values Leverage

Modelos estadísticos lineales


Regresión paso a paso

Cuando se tienen varias variables independientes aleatorias es usual realizar una


regresión lineal paso a paso, donde se van eliminando las variables que no son
significativas, una a una, hasta obtener un modelo donde todas las variables son
significativas.

Modelos estadísticos lineales


Regresión paso a paso

datos=read.table("ozono.txt",header=TRUE)
head(datos)

## Ozono Rad.S Viento Temp


## 1 3.7135 190 7.4 67
## 2 3.5835 118 8.0 72
## 3 2.4849 149 12.6 74
## 4 2.8903 313 11.5 62
## 5 3.1354 299 8.6 65
## 6 2.9444 99 13.8 59

attach(datos)

Modelos estadísticos lineales


m4=lm(Ozono ~ Temp + Rad.S + Viento)
summary(m4)

##
## Call:
## lm(formula = Ozono ~ Temp + Rad.S + Viento)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.14131 -0.38989 0.02451 0.47659 1.14001
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.392109 0.995402 -0.394 0.695901
## Temp 0.049303 0.012303 4.008 0.000285 ***
## Rad.S 0.002129 0.001106 1.926 0.061832 .
## Viento -0.040466 0.029179 -1.387 0.173792
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.6435 on 37 degrees of freedom
## Multiple R-squared: 0.5752, Adjusted R-squared: 0.5407
## F-statistic: 16.7 on 3 and 37 DF, p-value: 5.067e-07

Modelos estadísticos lineales


m5=lm(Ozono ~ Temp + Rad.S +Viento -1)
summary(m5)

##
## Call:
## lm(formula = Ozono ~ Temp + Rad.S + Viento - 1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.19644 -0.42171 -0.02909 0.44164 1.10290
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## Temp 0.044826 0.004655 9.629 9.66e-12 ***
## Rad.S 0.002229 0.001064 2.095 0.0429 *
## Viento -0.048055 0.021670 -2.218 0.0326 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.6363 on 38 degrees of freedom
## Multiple R-squared: 0.966, Adjusted R-squared: 0.9633
## F-statistic: 359.4 on 3 and 38 DF, p-value: < 2.2e-16

Modelos estadísticos lineales


m6=lm(Ozono ~ Temp +Viento -1)
summary(m6)

##
## Call:
## lm(formula = Ozono ~ Temp + Viento - 1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.53388 -0.29083 0.07049 0.34481 0.98603
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## Temp 0.051616 0.003483 14.819 <2e-16 ***
## Viento -0.052729 0.022472 -2.346 0.0241 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.6633 on 39 degrees of freedom
## Multiple R-squared: 0.962, Adjusted R-squared: 0.9601
## F-statistic: 494 on 2 and 39 DF, p-value: < 2.2e-16

Modelos estadísticos lineales


m7=lm(Ozono ~ Temp -1)
summary(m7)

##
## Call:
## lm(formula = Ozono ~ Temp - 1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.6043 -0.3626 0.1398 0.4054 1.2578
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## Temp 0.044141 0.001485 29.72 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.6997 on 40 degrees of freedom
## Multiple R-squared: 0.9567, Adjusted R-squared: 0.9556
## F-statistic: 883 on 1 and 40 DF, p-value: < 2.2e-16

Modelos estadísticos lineales


Standardized residuals
Residuals vs Fitted Normal Q−Q
23 23

1
Residuals

1
−1
−1
19 19

−3
17
−3

17

2.5 3.0 3.5 4.0 −2 −1 0 1 2

Fitted values Theoretical Quantiles


Standardized residuals

Standardized residuals
Scale−Location Residuals vs Leverage
2.0

17

2
23 34

19 23

0
1.0

−4 −2 Cook's distance 0.5


0.0

17

2.5 3.0 3.5 4.0 0.00 0.01 0.02 0.03

Fitted values Leverage

Modelos estadísticos lineales


new=data.frame(Temp=seq(60, 100, 5))# valores con los que se van a
#predecir la concentración de Ozono
Temp1=predict(m7,new,interval="prediction")# Intervalo de prediccion
Temp2=predict(m7,new,interval='confidence')# Intervalo de confianza del 95%
matplot(new$Temp,cbind(Temp1, Temp2[,-1]), lty=c(1,2,2,3,3),
type="l", ylab="predicted Ozono")
6
5
predicted Ozono

4
3
2

60 70 80 90 100
Modelos estadísticos lineales
Análisis de varianza

Supongamos que deseamos comparar las medias de dos poblaciones que poseen
distribuciones normales con medias µ1 y µ2 , y varianzas iguales σ12 = σ22 = σ 2 , de
muestras aleatorias independientes de tamaños n1 = n2 . Entonces la suma total de los
cuadrados, que llamaremos SSTot, es:
2 n1
X X
SSTot = (Yij − Ȳ )2 .
i=1 j=1

donde Yij denota la j-ésima observación de la i-ésima muestra y Ȳ es la media de todas


las observaciones.

Modelos estadísticos lineales


Análisis de varianza

Luego
2 n1 2 2 n1
X X X X X
SSTot = (Yij − Ȳ )2 = n1 (Ȳi − Ȳ )2 + (Yij − Ȳi )2
i=1 j=1 i=1 i=1 j=1

2
X
la primera cantidad, n1 (Ȳi − Ȳ )2 , la llamaremos la suma de cuadrados de los
i=1
2 n1
X X
tratamientos (SST); mientras que la segunda cantidad, (Yij − Ȳi )2 , es la suma
i=1 j=1
de cuadrados del error (SSE).

Modelos estadísticos lineales


Análisis de varianza

Ahora, como la varianza poblacional de cada tratamiento se puede definir como


n1
1 X
Si2 = (Yij − Ȳi )2 , entonces podemos reescribir SSE como:
n1 − 1
j=1

SSE = (n1 − 1)S12 + (n1 − 1)S22 .

Modelos estadísticos lineales


Análisis de varianza

Por lo tanto el estimador ponderado para la varianza quedaría

(n1 − 1)S12 + (n2 − 1)S22 SSE


Sp2 = = .
n1 + n2 − 2 2n1 − 2
Entonces se puede probar, que bajo la hipótesis de que las dos medias poblacionales son
iguales, entonces:

SST
1 SST1
σ2 =
SSE SSE(2n1 − 2)
(2n1 − 2)
σ2
tiene distribución F con ν1 = 1 grados de libertad en el numerador y ν2 = 2n1 − 2
grados de libertad en el denominador.

Modelos estadísticos lineales


Análisis de varianza

SSE
Ahora definimos el cuadrado medio del error, MSE = , y el cuadrado medio de
2n1 − 2
SST
los tratamientos, MST = . Por lo tanto para probar H0 : µ1 = µ2 frente a
1
Ha : µ1 6= µ2 utilizaremos el estadístico

MST
F = .
MSE
La región de rechazo a nivel de significancia α será F > Fα .

Modelos estadísticos lineales


Tabla de análisis de varianza

Los cálculos para el análisis de varianza suelen presentarse en una tabla de análisis de
varianza (ANDEVA) como la siguiente

Fuente g.l. SS MS F
Tratamientos k −1 SST MST = SST/(k − 1) MST/MSE
Error n−k SSE MSE = SSE/(n − k)
k ni
X X
Total n−1 (yij − ȳ )2
i=1 j=1

La hipótesis nula que se desea probar es H0 : µ1 = µ2 = ... = µk , con región de rechazo


MST
F = > Fα . En este caso el estadístico se distribuye F con k − 1 grados de
MSE
libertad en el numerador y n − k grados de libertad en el denominador.

Modelos estadísticos lineales


Ejemplo

En una comparación de las resistencias del concreto producido con cuatro mezclas
experimentales, se prepararon tre muestras de cada tipo de mezcla. Las doce muestras
se sometieron a cargas de compresión crecientes hasta el punto de ruptura. La siguiente
tabla contiene las cargas de compresión en toneladas por pulgada cuadrada alcanzadas
hasta el punto de ruptura. Suponga que se cumplen las condiciones para un diseño de
un factor y analice los datos. Indique si con un nivel de significancia de α = 0.05 se
puede sustentar, desde el punto de vista estadístico, la conclusión de que por lo menos
la resistencia promedio de una de las muestras de concreto es diferente de las otras.

Mezcla A Mezcla B Mezcla C Mezcla D


2.30 2.20 2.15 2.25
2.20 2.10 2.15 2.15
2.25 2.20 2.20 2.25

Modelos estadísticos lineales


Solución

Para realizar el análisis de varianza en R podemos usar dos comandos:


1 anova, cuya entrada es un modelo sacado por el comando lm
2 aov, cuya entrada es un modelo.

Modelos estadísticos lineales


Resolvamos el ejemplo anterior

MA = c(2.30,2.20,2.25)
MB = c(2.20,2.10,2.20)
MC = c(2.15,2.15,2.20)
MD = c(2.25,2.15,2.25)

dat = c(MA,MB,MC,MD)
fac = c(replicate(3,"MA"),replicate(3,"MB"),replicate(3,"MC")
,replicate(3,"MD"))
fact = factor(fac)

Modelos estadísticos lineales


tapply(dat,fact,mean)

## MA MB MC MD
## 2.250000 2.166667 2.166667 2.216667

Modelos estadísticos lineales


boxplot(dat~fact)
2.30
2.25
2.20
2.15
2.10

MA MB MC MD

Modelos estadísticos lineales


mod.lm = lm(dat~fact)
anova(mod.lm)

## Analysis of Variance Table


##
## Response: dat
## Df Sum Sq Mean Sq F value Pr(>F)
## fact 3 0.015 0.0050 2 0.1927
## Residuals 8 0.020 0.0025

Modelos estadísticos lineales


mod.aov = aov(dat~fact)
summary(mod.aov)

## Df Sum Sq Mean Sq F value Pr(>F)


## fact 3 0.015 0.0050 2 0.193
## Residuals 8 0.020 0.0025

Modelos estadísticos lineales


Ejemplo en R

# Se tomaron muestras de cuatro diferentes zonas en un río para determinar


# si la cantidad de oxígeno disuelto, una medida de la contaminación del
# agua, variaba de una zona a otra. Las zonas 1 y 2 se eligieron pasando
# una planta industrial, una cerca de la orilla y la otra a mitad del río;
# la zona 3 se encontraba junto a la descarga industrial de agua de la
# planta, y la zona 4 se localizaba río abajo a la mitad de éste. Se
# seleccionaron aleatoriamente 5 muestras de agua en cada zona, pero una de
# ellas, correspondiente a la zona 4, se perdió en el laboratorio.
# ¿Proporcionan los datos suficiente evidencia que indique una diferencia
# en el contenido medio de oxígeno disuelto en las cuatro zonas?

z1 = c(5.9,6.1,6.3,6.1,6.0)
z2 = c(6.3,6.6,6.4,6.4,6.5)
z3 = c(4.8,4.3,5.0,4.7,5.1)
z4 = c(6.0,6.2,6.1,5.8)

Modelos estadísticos lineales


datos <- c(z1,z2,z3,z4)
fac = c(replicate(5,"zona1"),replicate(5,"zona2"),replicate(5,"zona3")
,replicate(4,"zona4"))
factr = factor(fac)

Modelos estadísticos lineales


tapply(datos,factr,mean)

## zona1 zona2 zona3 zona4


## 6.080 6.440 4.780 6.025

Modelos estadísticos lineales


boxplot(datos~factr)
6.5
6.0
5.5
5.0
4.5

zona1 zona2 zona3 zona4

Modelos estadísticos lineales


mod.lm2 = lm(datos~factr)
anova(mod.lm2)

## Analysis of Variance Table


##
## Response: datos
## Df Sum Sq Mean Sq F value Pr(>F)
## factr 3 7.8361 2.61203 63.656 9.195e-09 ***
## Residuals 15 0.6155 0.04103
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

En este caso rechazamos la hipótesis de que no hay diferencias en las medias, es decir
que debe haber al menos una media que es distinta a las otras.

Modelos estadísticos lineales


Para descubrir cual o cuales son distintas, usaremos el comando de R pairwise.t.text,
que hace múltiples pruebas de medias en conjunto.

pairwise.t.test(datos,factr)

##
## Pairwise comparisons using t tests with pooled SD
##
## data: datos and factr
##
## zona1 zona2 zona3
## zona2 0.026 - -
## zona3 2.1e-07 9.0e-09 -
## zona4 0.691 0.024 6.2e-07
##
## P value adjustment method: holm

Lo que nos devuelve este comando es una matriz de los p-valores que se obtienen si se
comparan las hipótesis H0 : µi − µj = 0 y Ha : µi − µj 6= 0.
Por lo tanto, queda claro que se rechaza la hipótesis de que el contenido medio de
oxígeno disuelto en la zona 3 sea igual a cualquiera de las otras zonas, por lo que se
puede concluir que ese contenido medio es el único con una diferencia significativa.

Modelos estadísticos lineales


Modelo estadístico para el diseño de un factor

Nuevamente pensemos Yij como las variables aleatorias que generan la observación yij .
Estos Yij son muestras aleatorias independientes de poblaciones normales con media µi
y varianza σ 2 . Podemos escribir cada Yij como

Yij = µi + εij
para j = 1, . . . , ni , donde los términos de error εij son variables aleatorias independientes
normales con media 0 y varianza σ 2 (¿por qué?), para i = 1, . . . , k y j = 1, . . . , ni .
Ahora consideremos cada media poblacional µi como

µi = µ + τi
donde τ1 + τ2 + . . . + τk = 0.
k k
X X
Por lo tanto µi = kµ + τi = kµ, por lo que µ no es más que el promedio de
i=1 i=1
los µi .Como τi mide la diferencia entre la media de la población i y la media total,
esta recibe el nombre de efecto de la población o del tratamiento i.

Modelos estadísticos lineales


Por todo esto, el Modelo estadístico para un diseño de un factor es

Yij = µ + τi + εij
para i = 1, 2, . . . , k y j = 1, 2, . . . , ni , donde
Yij es la j-ésima observación de la población i.
µ es la media total.
k
X
τi es el efecto no aleatorio del tratamiento i, donde τi = 0.
i=1
εij son los términos aleatorios de error tales que son variables aleatorias
independientes con distribución normal, donde E (εij ) = 0 y V (εij ) = σ 2 .

Modelos estadísticos lineales


Modelo estadístico para el diseño de bloques aleatorizado

Un Diseño de bloques aleatorizado que contiene b bloques y k tratamientos consta de b


bloques y k unidades experimentales cada uno. Los tratamientos se asignan en forma
aleatoria a las unidades de cada bloque y cada tratamiento aparece exactamente una
vez en cada bloque.

Modelos estadísticos lineales


En el análisis del diseño de bloques aleatorizado se encuentran implícitas dos variables
independientes cualitativas, los bloques y los tratamientos. El modelo sería

Yij = µ + τi + βj + εij
para i = 1, 2, . . . , k y j = 1, 2, . . . , b, donde
Yij es la observación del tratamiento i en el bloque j.
µ es la media total.
k
X
τi es el efecto no aleatorio del tratamiento i, donde τi = 0.
i=1
b
X
βj es el efecto no aleatorio del bloque j, donde βj = 0
j=1
εij son los términos aleatorios de error tales que son variables aleatorias
independientes con distribución normal, donde E (εij ) = 0 y V (εij ) = σ 2 .

Modelos estadísticos lineales


Luego nuestra tabla ANDEVA sería

Fuente g.l. SS MS F
SSB MSB
Bloques b−1 SSB MSB =
b−1 MSE
SST MST
Tratamientos k −1 SST MST =
k −1 MSE
SSE
Error n−k −b−1 SSE MSE =
n−k −b−1
k ni
XX
Total n−1 (yij − ȳ )2
i=1 j=1

Para probar la hipótesis nula de que no existe diferencia entre las medias del
MST
tratamiento utilizamos el estadístico F = y rechazamos la hipótesis nula si
MSE
F > Fα (k − 1, n − k − b − 1). Para probar la hipótesis nula de que no existe diferencia
MSB
entre las medias de los bloques utilizamos el estadístico F = y rechazamos la
MSE
hipótesis nula si F > Fα (b − 1, n − k − b − 1).

Modelos estadísticos lineales


Ejemplo

Se llevó a cabo un experimento para determinar el efecto de tres métodos de preparación


de suelo en plántulas de pino ayucahuite durante el primer año de crecimiento. Se
eligieron cuatro zonas, cada una de las cuales se dividió en tres parcelas. Como era más
probable que la fertilidad del suelo en una zona resultara más homogénea que la
fertilidad del suelo entre diferentes zonas, se empleó un diseño de bloque aleatorizado,
en el que las zonas se encontraban representadas por los bloques. Los métodos de
preparación del suelo se identificaron con A (sin preparación), B (poca fertilización) y C
(quema). Los métodos de preparación se aplicaron aleatoriamente a una parcela dentro
de cada zona. Se sembró la misma cantidad de plántulas en cada parcela, y se registró
el crecimiento promedio observado (en centímetros) de las plántulas durante el primer
año en cada parcela. La siguiente tabla reproduce estas observaciones:

Preparación Zona
de suelo 1 2 3 4
A 11 13 16 10
B 15 17 20 12
C 10 15 13 10

a Lleve a cabo un análisis de varianza. ¿Proporcionan los datos suficiente evidencia


que indique diferencias en el crecimiento medio en los tres tipos de preparación de
suelo?
b ¿Hay evidencia que indique diferencias en el crecimiento medio en las cuatro zonas?

Modelos estadísticos lineales


Solución

dat <- c(11,15,10,13,17,15,16,20,13,10,12,10)


zona <- gl(4,3)
pr.suelo <- factor(rep(1:3,4))
xtabs(dat ~ pr.suelo + zona)

## zona
## pr.suelo 1 2 3 4
## 1 11 13 16 10
## 2 15 17 20 12
## 3 10 15 13 10

Modelos estadísticos lineales


mod.lm = lm(dat ~ pr.suelo + zona)
anova(mod.lm)

## Analysis of Variance Table


##
## Response: dat
## Df Sum Sq Mean Sq F value Pr(>F)
## pr.suelo 2 38.000 19.0000 10.059 0.012124 *
## zona 3 61.667 20.5556 10.882 0.007693 **
## Residuals 6 11.333 1.8889
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Modelos estadísticos lineales

También podría gustarte