0% encontró este documento útil (0 votos)
2K vistas26 páginas

Regresión Lineal Simple y Multiple

El documento describe el modelo de regresión lineal simple, el cual relaciona una variable respuesta y con una variable predictora x a través de una ecuación lineal. Explica cómo se estiman los parámetros del modelo β0 e intercepto y β1 pendiente usando el método de mínimos cuadrados. Finalmente, ilustra el proceso con un ejemplo de modelado de la resistencia al corte de un propelente en función de la edad del lote.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
2K vistas26 páginas

Regresión Lineal Simple y Multiple

El documento describe el modelo de regresión lineal simple, el cual relaciona una variable respuesta y con una variable predictora x a través de una ecuación lineal. Explica cómo se estiman los parámetros del modelo β0 e intercepto y β1 pendiente usando el método de mínimos cuadrados. Finalmente, ilustra el proceso con un ejemplo de modelado de la resistencia al corte de un propelente en función de la edad del lote.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Regresión Lineal simple

El análisis de regresión es una técnica estadística para investigar y modelar la relación entre variable. Sus
aplicaciones son diversas en casi cualquier campo, entre ellas la ingeniería, ciencias físicas y químicas, economía,
administración, etc. El modelo de regresión lineal simple, es un modelo con un solo represor x que tiene relación con
una variable respuesta y , cuya relación es una línea recta dada por:

y = β 0 + β1 x + ε , ε ∼ N (0, σ 2 ) modelo poblacional de regresión

Variable respuesta Error aleatorio

Variable regresora o predictora

(Coeficientes de regresión: intercepto y pendiente)

Gráficamente, el modelo de regresión lineal es el siguiente:

Donde la ordenada al origen es β 0 y la pendiente β1 son constantes conocidas, y ε es un componente


aleatorio de error. Se supone que los errores no están correlacionados (independientes) tienen media 0 y
varianza σ 2 desconocida. El regresor x está controlado por el analista de datos, y se puede medir con error
despreciable, mientras que la respuesta y es una variable aleatoria. Esto es, hay una distribución de
probabilidades de y para cada valor de x . La media de esta distribución es
E ( y x ) = β 0 + β1 x
, es decir, la media de y es una función lineal de x . La varianza es
V ( y x ) = V ( β 0 + β1 x + ε ) = σ 2
La cual es constante (no depende de x ) y como los errores no están correlacionados tampoco lo están las
respuestas.
Los parámetros β 0 y β1 , se denominan coeficientes de regresión y tienen una interpretación simple y útil. La
pendiente β1 es el cambio de la media de la distribución de y producida por un cambio en una unidad de x . Si
los datos incluye x = 0 , entonces la ordenada al origen, β 0 , es la media de la distribución de la respuesta y
cuando x = 0 . Si no incluye al cero, β 0 no tiene interpretación práctica.

Estimación de los parámetros por mínimos cuadrados

Los parámetros β 0 y β1 son desconocidos, y se deben estimar con los datos de la muestra. Supongamos que
hay n pares de datos ( x1 , y1 ) , ( x2 , y2 ) ,.., ( xn , yn ) obtenido de un experimento controlado, estudio
observacional o de registros históricos.

Para estimar los parámetros β 0 y β1 se usa el método de mínimos cuadrados. Esto es, se estiman β 0 y β1
tales que la suma de los cuadrados de las diferencias entre las observaciones yi y la línea recta sea mínima,
entonces el modelo muestral de regresión para los n pares de datos lo podemos escribir como

yi = β 0 + β1 xi + ε i , iid ε i ∼ N (0, σ 2 ), i = 1,.., n

El método de mínimos cuadrados consiste en minimizar


n n
L( β 0 , β1 ) =  ε i 2 =  ( yi − β 0 − β1 xi )
2

i =1 i =1

Luego, se obtienen las derivadas parciales respecto a los parámetros

∂L n
= −2 ( yi − β0 − β1 xi ) = 0
∂β0 i =1

∂L n
= −2 ( yi − β 0 − β1 xii ) xi = 0
∂β1 i =1

Simplificando las ecuaciones se obtiene las ecuaciones normales de mínimos cuadrados


n n
nβˆ0 + βˆ1  xi =  yi
i =1 i =1
n n n
βˆ0  xi + βˆ1  xi2 =  yi xi
i =1 i =1 i =1

Donde βˆ0 y β̂1 son las estimaciones de los parámetros β 0 y β1 , respectivamente, que satisfacen las
ecuaciones normales. Entonces, la solución viene dada por

βˆ0 = y − βˆ1 x
y

s xy
βˆ1 =
sxx

1 n 1 n n n
Con x =  =  =  i( i − ) xx = − =  ( xi − x ) .
2 2 2
xi , y yi , s xy y x x , s nx nx
n i =1 n i =1 i =1 i =1

La diferencia entre el valor observado yi y el valor ajustado yˆ i se llama residual, esto es

ei = yi − yˆ i = yi − ( β 0 + β1 xi ) , i = 1,.., n .

Estos residuales son de gran importancia para analizar la adecuación del modelo de regresión ajustado, y para
detectar diferencias respecto a los supuestos básicos.

Ejemplo:
Un motor de cohete se forma pegando entre sí un propelente de ignición y uno de sostenimiento dentro de una
caja metálica. La resistencia el corte de la pegadura entre los dos propelentes es una característica importante
de la calidad. Se cree que la resistencia la corte se relacione con la edad, en semanas, del lote del propelente de
sostenimiento. Se hicieron 20 observaciones de resistencia al corte y la edad del lote del propelente las cuales
se registran en la siguiente tabla.

i yi = Resist. al corte (psi) xi = Edad propelente (semanas)


1 2.158,70 15,50
2 1.678,15 23,75
3 2.316,00 8,00
4 2.061,30 17,00
5 2.207,50 5,50
6 1.708,30 19,00
7 1.784,70 24,00
8 2.575,00 2,50
9 2.357,90 7,50
10 2.256,70 11,00
11 2.165,20 13,00
12 2.399,55 3,75
13 1.779,80 25,00
14 2.336,75 9,75
15 1.765,30 22,00
16 2.053,50 18,00
17 2.414,40 6,00
18 2.200,50 12,50
19 2.654,20 2,00
20 1.753,70 21,50
El diagrama de dispersión muestra una fuerte relación estadística entre la resistencia al cortante y la edad del
propelente, y que parece razonable utilizar un modelo de línea recta y = β 0 + β1 x + ε .

2.700
2.600
2.500
2.400
Resistencia al corte

2.300
2.200
2.100
2.000
1.900
1.800
1.700
1.600
0 5 10 15 20 25 30

Edad del propelente


Luego,
sxy −41.112, 65
sxx = 1.106, 56 sxy = −41.112,65 , entonces βˆ1 = = = −37.15 y
sxx 1.106,56
βˆ = y − βˆ x = 2.131,3575-(-37,15) ⋅13,3625 = 2.627,82 .
0 1

El ajuste de mínimos cuadrados es


yˆ = 2.627,82 − 37,15 x
Donde βˆ0 = −37,15 es la disminución semanal promedio de resistencia del propelente al corte por cada cambio
unitario en la edad. La ordenada del origen es 2.627.82 y representa la resistencia al corte de un lote de
propelente inmediatamente después de ser fabricado, puesto que está cerca del origen.
n
Nota: verificar que  ( yˆ − y ) = 0 .
i =1
i i

Propiedades de los estimadores por mínimos cuadrados


El teorema de Gauss-Markov establece que para el modelo de regresión cuyos errores no están correlacionados
tienen media 0 y varianza constante σ 2 , los estimadores por mínimos cuadrados son insesgados y tienen
varianza mínima. Por lo tanto, los estimadores obtenidos por mínimos cuadrados βˆ0 y β̂1 son insesgados y de
varianza mínima. Luego, se puede demostrar que

βˆ0 − β 0
( )  1 x2 
E βˆ0 = β 0 , V βˆ0 = σ 2  + ( ) tal que Z 0 =
 n sxx   1 x2 
∼ N (0,1)
σ2 + 
 n sxx 
Y
σ βˆ1 − β1
( ) ( )
2
E βˆ1 = β1 , V βˆ1 = tal que Z1 = ∼ N (0,1)
sxx σ2
sxx

Estimación de σ 2
Además de estimar βˆ0 y β̂1 se requiere un estimado de σ para probar hipótesis y formar intervalos pertinentes
2

al modelo de regresión. Un estimador insesgado para la varianza es

( n − 2 ) MSRe s ∼ χ 2
E (σˆ 2 ) = E ( MSRe s ) = σ 2 , ya que n −2
σ 2

n
Donde SSRe s =  ( yˆ − y ) = ny 2 − βˆ1sxy .
2
i i
i =1

La cantidad MS Re s se denomina cuadrado medio residual. La raíz cuadrada de σˆ 2 , σˆ , se denomina error


estándar de la regresión y tiene las mismas unidades que la variable de respuesta y .

Estimación de intervalos de confianza en regresión lineal


Como generalmente σ no se conoce debemos estimarlo, luego el estadístico
2

βˆ0 − β 0  1 x2 
t0 = ∼ tn − 2 , donde se( βˆ0 ) = MS Re s  + .
se( βˆ0 )  n s xx 
En forma similar

βˆ1 − β1 MS Re s
t0 = ∼ tn − 2 , donde se( βˆ1 ) = ,
se( βˆ1 ) sxx

Donde se( βˆ0 ) se denomina error estándar del intercepto y se( βˆ1 ) error estándar de la pendiente.

Entonces, el intervalo de confianza de (1 − α ) x100% para el intercepto β 0 está dada por:

βˆ0 − tn − 2,1−α /2 ⋅ se( βˆ0 ) ≤ β 0 ≤ βˆ0 + tn − 2,1−α / 2 ⋅ se( βˆ0 ) .

El intervalo de confianza de (1 − α ) x100% para el intercepto β1 está dada por:

βˆ1 − tn − 2,1−α / 2 ⋅ se( βˆ1 ) ≤ β1 ≤ βˆ1 + tn − 2,1−α / 2 ⋅ se( βˆ1 )

Estos intervalos de confianza tienen la interpretación usual, esto es, si hubiese que tomar muestras repetidas
del mismo tamaño a los mismos valores de x , y formar, por ejemplo, intervalos de confianza de 95% de la
pendiente para cada muestra, entonces el 95% de esos intervalos contendrán el verdadero valor de β1 .
Por otra parte, el intervalo de confianza de (1 − α ) x100% para la varianza σ 2 es:
( n − 2) MS Re s (n − 2) MS Re s
≤σ2 ≤
χ 2
1−α / 2, n − 2 χα2 /2,n − 2

Ejemplo
Establecerlos intervalos de confianza de 95% para β1 y σ
2
con los datos del propelente de cohetes.
Tenemos que βˆ1 = −37,15 , se( βˆ1 ) = 2,88 y tn− 2,1−α /2 = t18;0,025 = 2,101

−43, 22 ≤ β1 ≤ −31, 08

Para σ se tiene que σˆ = MSRe s = 9.236,38 , χ12−α /2, n − 2 = χ 0,025;18 = 31, 5 χ12−α /2,n − 2 = χ 0,975;18 = 8, 23
2 2 2 2

5.277,93 ≤ σ 2 ≤ 20.201, 07

Estimación de intervalos de la respuesta media


Una aplicación importante de un modelo de regresión es estimar la respuesta media, E ( y ) , para determinado
valor de la variable regresora x . Sea x0 el valor de la variable regresora para el que se desea estimar la respuesta
media E ( y x0 ) . Se supone que x0 es cualquier valor de la variable regresora dentro del intervalo de los datos
originales de x que se usaron para ajustar el modelo. Un estimador insesgado de E ( y x0 ) se determina a partir
del modelo ajustado como sigue:

E ( y x0 ) = µˆ y x0 = βˆ0 + βˆ1 x0

Nota: µˆ y x0 es una variable aleatoria normalmente distribuida, puesto que es una combinación lineal de las
observaciones yi .

Donde
 1 ( x0 − x )2 
V ( µˆ y x0 ) = σ  +
2

n s 
 xx 
Luego
µˆ y x − E ( y x0 )
0
∼ t n −2
 1 ( x0 − x ) 2 
MSRe s  + 
n s 
 xx 

Entonces, un intervalo de confianza de (1 − α ) x100% para la respuesta media en el punto x = x0 es


 1 ( x0 − x )2   1 ( x0 − x ) 2 
µˆ y x − tn − 2,1−α /2 ⋅ MSRe s  +  ≤ E ( y x0 ) ≤ µˆ y x0 + tn − 2,1−α / 2 ⋅ MSRe s  + 
0 n s  n s 
 xx   xx 
Note que el ancho del intervalo de confianza para E ( y x0 ) es una función de x0 . Este es mínimo cuando x0 = x
, y crece a medida que aumenta x − x0 . Entonces es de esperar que las mejores estimaciones de y se logran
cuando los valores de x cerca del centro de los datos, y que la precisión de la estimación se reduce al moverse
hacia la frontera del espacio de x .
Ejemplo
Calcular un intervalo de confianza para la respuesta media cuando x0 = 13,3625 .
Tenemos que µˆ y x0 = yˆ 0 = βˆ0 + βˆ1 x0 = 2.131, 40 , entonces el intervalo de confianza es

2.086, 23 ≤ E ( y x0 ) ≤ 2.176, 53

2.700
2.600
2.500
2.400
Resistencia al corte

2.300
2.200
2.100
2.000
1.900
1.800
1.700
1.600
0 5 10 15 20 25 30

Edad del propelente

Predicción de nuevas observaciones


Una aplicación importante del modelo de regresión es predecir nuevas observaciones y que correspondan a un
nivel especificado de la variable regresora x . Si x0 es el valor de interés de la variable regresora, entonces
ŷ0 = βˆ0 + βˆ1 x0
Luego, ŷ0 es la estimación puntual del nuevo valor de la respuesta y0 .
Notar que la variable aleatoria
  1 ( x0 − x )2  
ψ = y0 − yˆ 0 ∼ N  0, σ  1 + +
2

  n s 
  xx 
, puesto que la observación futura y0 es independiente de ŷ0 .
Así, el intervalo de predicción (1 − α ) x100% de confianza para una observación futura en y0 es
 1 ( x0 − x ) 2   1 ( x0 − x ) 2 
yˆ 0 − tn − 2,1−α / 2 ⋅ MSRe s  1 + +  ≤ y0 ≤ yˆ 0 + tn − 2,1−α /2 ⋅ MS Re s 1 + + 
 n s   n s 
 xx   xx 
La longitud del intervalo de predicción es mínimo cuando x0 = x , y crece a medida que aumenta x − x0 .

Ejemplo
Determinar un intervalo de predicción de 95% para el valor futuro de la resistencia al corte del propelente, en
un motor fabricado con un lote de propelente que tiene 10 semanas de edad.

2.048, 40 ≤ y0 ≤ 2.464,19
Nota: Al comparar los intervalos de respuesta media y predicción en x0 , este último siempre es más ancho que
porque el intervalo de predicción depende tanto del error del modelo ajustado como del error asociado con
observaciones futuras.

Se puede generalizar el intervalo de predicción de (1 − α ) x100% para la media de m observaciones futuras de


la respuesta en x = x0 . Sea y0 la media de m observaciones futuras en x = x0 . Un estimador puntual de y0 es
ŷ0 = βˆ0 + βˆ1 x0 . El intervalo de predicción (1 − α ) x100% de confianza para y0 es
 1 1 ( x − x )2   1 1 ( x0 − x ) 2 
ˆy0 − tn − 2,1−α / 2 ⋅ MSRe s  + + 0  ≤ y0 ≤ y0 + tn − 2,1−α / 2 ⋅ MSRe s  + +
ˆ 
m n sxx  m n sxx 
   

Coeficiente de determinación
La cantidad
SSR SS
R2 = = 1 − Re s , 0 ≤ R 2 ≤ 1 ,
SST SST
se denomina coeficiente de determinación.
2
Los valores de R cercanos a 1 implican que la mayor parte de la variabilidad de y está explicada por el modelo
de regresión.
2 2
El estadístico R se debe usar con precaución, porque siempre es posible conseguir que R sea grande
agregando términos suficientes al modelo.
2
En general, R aumenta a medida que aumenta la dispersión de las x o viceversa, siempre y cuando sea
correcta la forma supuesta del modelo (Hahn, 1973).
2
Si R es grande, no necesariamente implica que el modelo de regresión sea un predictor exacto.

Para el modelo de regresión con los datos del propelente de reacción tenemos que

SSR 1.527.334,95
R2 = = = 0,9018
SST 1.693.737,60
por tanto, el 90.18% de la variabilidad de la resistencia queda explicada por el modelo de regresión.
Pruebas de hipótesis para la pendiente y ordenada en el origen

Pruebas de hipótesis para ordenada


Supongamos que se desea probar la hipótesis que la pendiente es igual a una constante, esto es:

Plantear Hipótesis: H 0 : β 0 = β 00 v/s H1 : β 0 ≠ β 00

βˆ0 − β00
Estadístico de prueba: t0 = ∼ tn − 2
se( βˆ0 )

( ) (
Región de rechazo de H 0 : R = −∞, −t1−α /2,n − 2 ∪ t1−α /2,n − 2 , ∞ )
En particular nos interesa probar la hipótesis para β 00 = 0 .

Prueba de hipótesis para la pendiente


Esta hipótesis se relaciona con la significancia de la regresión, puesto que al no rechazar H 0 : β1 = β10 implica
que no hay relación lineal entre x y y . La prueba es:

Hipótesis: H 0 : β1 = β10 v/s H1 : β1 ≠ β10

βˆ1 − β10
Estadístico de prueba: t0 = ∼ tn − 2
se( βˆ1 )

( ) (
Región de rechazo de H 0 : R = −∞, −t1−α /2,n − 2 ∪ t1−α /2,n − 2 , ∞ )
El procedimiento de prueba para H 0 : β1 = β10 se puede establecer con dos métodos. El primero es el
mencionado anteriormente y el otro es usando el método de análisis de varianza.

Ejemplo
Probar la significancia de la regresión en el modelo del propelente de reacción. Luego, el estadístico de prueba
es
βˆ1 − β10 −37.15
t0 = = = −12,85
se( βˆ1 ) 9.235, 64
1.106,55
Por consiguiente, si se escoge α = 0, 05 , el valor crítico de t0,025,18 = 2,101 Así, se rechazaría H 0 : β1 = 0 y se
llegaría a la conclusión que hay una relación lineal entre la resistencia al corte y la edad del propelente.

Análisis de varianza
También se puede usar un método de análisis de varianza para probar el significado de la regresión. Este análisis
se basa en una partición de la variabilidad total de la variable y de respuesta. Para obtener esta partición se
comienza con la identidad fundamental del análisis de varianza para un modelo de regresión
( yi − yi ) = ( yˆi − yi ) + ( yi − yˆi )
Elevando al cuadrado la expresión anterior, sumando y resolviendo, se tiene
n n n

 ( yi − yi ) =  ( yˆi − yi ) +  ( yi − yˆi )
2 2 2

i =1 i =1 i =1

SST = SS R + SSRe s
La cantidad de grados de libertad se determina como sigue. La suma total de cuadrados, SST tiene dfT = n − 1
n
grados de libertad, porque se perdió un grado de libertad como resultado de la restricción  ( y − y ) para las
i =1
i i

desviaciones ( yi − yi ) . La suma de cuadrados del modelo, o de la regresión es SS R y tiene grado de libertad


df R = 1 , porque SS R queda completamente determinado por el parámetro βˆ1 . Por último, SS Re s tiene
df Re s = n − 2 grados de libertad, porque se imponen dos restricciones a las desviaciones ( yi − yˆi ) como
resultado de estimar βˆ y βˆ . En resumen
0 1

dfT = df R + df Res
n −1 = 1 + (n − 2)

Se puede aplicar la prueba F en el análisis de varianza para probar la hipótesis H 0 : β1 = 0 como sigue.

Análisis de varianza para probar el significado de la regresión

Fuente de variación Suma de cuadrados g.l. Cuadrado medio F0


Regresión SS R = βˆ1sxy 1 MS R MS R / MS Re s
Residual SSRe s = SST − βˆ1sxy n−2 MS Re s
Total SST = n y 2 − ny 2 n −1

Por consiguiente, para probar la hipótesis H 0 : β1 = 0 , se calcula el estadístico F0 y se rechaza si


F0 > Fα ,1,n − 2 .
Nota: La utilidad real del análisis de varianza está en los modelos de regresión múltiple.

Modelo de regresión lineal múltiple

Un modelo de regresión lineal con k regresores, o variables predictoras se llama modelo lineal de regresión
múltiple y se representa por:
y = β 0 + β1 x1 + β 2 x2 + .. + β k xk + ε , ε ∼ N (0, σ 2 )
Los parámetros β j con j = 1,.., k se llaman coeficientes de regresión. Este modelo describe a un hiperplano
en el espacio de k dimensiones de las variables regresoras x j . El parámetro β j representa el cambio esperado
en la respuesta y por cambio unitario en x j cuando todas las demás variables regresoras xi ( i ≠ j ) se
mantienen constantes. Por esta razón, a los parámetros β j , j = 1,.., k se les llama con frecuencia coeficientes
de regresión parcial.

Estimación de los coeficientes de regresión por mínimos cuadrados


El modelo de regresión múltiple es conveniente representarlo en forma matricial, esto es

Y = X β +ε, ε ∼ N (0, σ 2 )

 y1  1 x11 . . x1k 
x12  β0   ε1 
y  1 x    ε 
 2  21 x22 . . x2 k   β1   2
Donde Y =  .  , X =  . . . . . . , β =  .  y ε =  . 
       
.  . . . . . .   .  .
 yn  1 xn1 xn 2 . . xnk   β n  ε n 
Se desea determinar el vector de estimadores, βˆ = ( βˆ0 , βˆ1 ,.., βˆk ) , de mínimos cuadrados que minimice

n
L( β 0 , β1 ,.., β k ) =  ε i 2 = (Y − X β ) (Y − X β )
T

i =1

Luego, derivando L con respecto al vector de parámetros β , igualando a cero y resolviendo se obtiene las
ecuaciones normales de mínimos cuadrados

X T X β = X TY

El vector estimador para β por de mínimos cuadrados que está dado por

βˆ = ( X T X ) X T Y
−1

( ) ( )
−1 −1
Siempre y cuando exista la matriz inversa X T X . La matriz X T X siempre existe si los regresores son
linealmente independientes.
Observación:
 n n n

 n  xi1
i =1
 xi 2
i =1
. . x
i =1
ik 
 
 n n n n

  xi1 x x 
2
i1 x
i1 i 2 . . xi1 xik 
X X = 
T i =1 i =1 i =1 i =1

 . . . . . . 
 
 . . . . . . 
 n n n n 
  xik x ik xi1 x x
ik i 2 . .  xik2 
 i =1 i =1 i =1 i =1 

El vector de valores ajustados yˆ i que corresponden a los valores observados yi es


Yˆ = X βˆ = X ( X T X ) X T Y = HY
−1

( )
−1
La matriz H = X X T X X T , cuadrada de n, se suele llamar matriz ajustada o estimada.

La diferencia entre el valor observado yi y el valor ajustado yˆ i es el residual, y escrito en forma matricial es

e = Y − Yˆi = ( I − H ) Y .

Estos residuales son de gran importancia para analizar la adecuación del modelo de regresión ajustado, y para
detectar diferencias respecto a los supuestos básicos.

Propiedades de los estimadores de mínimos cuadrados


Haciendo un análisis similar al caso de regresión lineal, tenemos que el estimador β es insesgado y

(
βˆ ∼ N β , σ 2 ( X T X )
−1
)
( )
−1
De lo cual se deprende que si C = X T X la varianza de β j es σ 2C jj , y la covarianza entre β i y β j es σ 2Cij
.
Estimación de σ 2
Similar al caso de regresión simple se puede demostrar que el estimador
( n − p ) MSRe s ∼ χ 2
E (σˆ 2 ) = E ( MSRe s ) = σ 2 , ya que n− p
2
σ
, donde SS Re s T
( )
= Y Y − βˆ T X T Y , tal que E σˆ 2 = σ 2 .

Ejemplo (Datos del tiempo de entrega)


Un embotellador de bebidas gaseosas analiza las rutas de servicio de las máquinas expendedoras en su sistema
de distribución. Le interesa predecir el tiempo necesario para que el representante de ruta atienda las máquinas
expendedoras en una tienda. Esta actividad de servicio consiste en abastecer la máquina con productos
embotellados, y algo de mantenimiento o limpieza. El ingeniero industrial responsable del estudio ha sugerido
que las dos variables más importantes que afectan el tiempo de entrega y son la cantidad de cajas de producto
abastecido, x1 y la distancia caminada por el representante x2 . El ingeniero ha reunido 25 observaciones de
tiempo de entrega que se ven en la tabla
TABLA: Datos de tiempo de entrega
Tiempo de entrega
Observación (min) Cantidad de cajas Distancia (pies)
número y x1 x2
1 16,68 7 560
2 11,5 3 220
3 12,03 3 340
4 14,88 4 80
5 13,75 6 150
6 18,11 7 330
7 8 2 110
8 17,83 7 210
9 79,24 30 1460
10 21,5 5 605
11 40,33 16 688
12 21 10 215
13 13,5 4 255
14 19,75 6 462
15 24 9 448
16 29 10 776
17 15,35 6 200
18 19 7 132
19 9,5 3 36
20 35,1 17 770
21 17,9 10 140
22 52,32 26 810
23 18,75 9 450
24 19,83 8 635
25 10,75 4 150

 2, 341
βˆ = ( X X ) X Y = 1, 615 
T −1 T
 
0, 014 
Luego, el modelo lineal por mínimos cuadrados es
yˆ = 2, 341 + 1, 615 x1 + 0, 014 x2

Prueba de la significancia de la regresión


La prueba de la significancia de la regresión es para determinar si hay una relación lineal entre la respuesta Y
y cualquiera de las variables regresoras x1 , x2 ,.., xk . Este procedimiento suele considerarse como una prueba
general o global de la adecuación del modelo. La hipótesis pertinente es:
H 0 : β1 = β 2 = .. = β k = 0 v/s H1 : β j ≠ 0 para al menos un j .
El rechazo de la hipótesis nula implica que al menos uno de los regresores x1 , x2 ,.., xk contribuye al modelo en
forma significativa.
Entonces, utilizando el análisis de varianza

Fuente de variación Suma de cuadrados g.l. Cuadrado medio F0


1
Regresión SS R = βˆ T X T Y − Y T Y k MS R MS R / MS Re s
n
Residual SS Re s = Y Y − β X T Y
T ˆ T
n − k −1 MS Re s

SST = Y T Y − (1T Y )
1 2
Total n −1
n

Por consiguiente, para probar la hipótesis H 0 : β1 = β 2 = .. = β k = 0 , se calcula el estadístico F0 y se rechaza


si
F0 > Fα , k ,n− k −1 .
Ejemplo
Análisis de varianza para los datos de tiempo de entrega

Fuente Suma de cuadrados g.l. Cuadrado medio F0


1
Regresión SS R = βˆ T X T Y − Y T Y = 5.550,81 2 MS R = 2.775, 40 MS R / MS Re s = 261, 23
n
Residual SS Re s = Y Y − β X T Y = 233, 73
T ˆ T
22 MS Re s = 10, 62

SST = Y T Y − (1T Y ) = 5.784, 54


1 2
Total 24
n

Por consiguiente, se rechaza la hipótesis H 0 : β1 = β 2 = 0 , puesto que


F0 = 261, 23 > F0,95;2,22 = 3, 44 .
Es decir, el tiempo de entrega se relaciona con el volumen de entrega y/o con la distancia.

R 2 y R 2 ajustada
2 2
Otras dos maneras de evaluar la adecuación general del modelo son los estadísticos R y R ajustada, ésta
2
última se representa por R Adj y se define como
SSRe s / (n − p )
R2 = 1 −
SST / (n − 1)

233, 73 / 23
Para el ejemplo, tenemos que R = 1 − = 0,9578 , es decir el 95,78% de la variación de la
2

5.784,54 / 24
respuesta es explicado por el modelo de regresión.
Pruebas sobre coeficientes individuales de regresión
Los pasos para realizar la prueba de hipótesis para cualquier coeficiente individual de regresión, son
Plantear Hipótesis: H 0 : β j = 0 v/s H1 : β j ≠ 0

βˆ j − β j
Estadístico de prueba: t0 = ∼ tn −k −1
se( βˆ j )

( )
−1
Donde se( βˆ j ) = σˆ 2C jj , C jj es la j-ésima entrada de la diagonal de X T X y se denomina error estándar

del coeficiente de regresión βˆ j .

( ) (
Región de rechazo de H 0 : R = −∞, −t1−α /2,n −k −1 ∪ t1−α /2, n−k −1 , ∞ )
Si no se rechaza H 0 : β j = 0 , quiere decir que se puede eliminar el regresor x j del modelo.

Para el ejemplo anterior, t1−α /2,n −k −1 = t0,975,22 = 2, 074 , σˆ 2 = MSRe s = 10, 62

0,113215 −0, 004449 −0, 000084 


C =(X X ) =  −0, 004449 −0, 000048 
T −1
0, 002744
 
 −0, 000084 −0, 000048 0, 000001 
Entonces

βˆ1 − 0 1,61
t0 = = = 9, 46442138
σˆ C22
2
10, 62 ⋅ 0, 002744
βˆ2 − 0 0, 014
t0 = = = 3,98
σˆ 2C33 10, 62 ⋅ 0, 000001

Cada uno de las pruebas se rechaza, por lo que cada regresor contribuye en forma significativa al modelo.

Intervalos de confianza de los coeficientes de regresión


Se puede definir un intervalo de confianza de (1 − α ) x100% para el coeficiente de regresión β j , j = 0, 1,..., k
, como sigue:

βˆ j − t1−α / 2,n − p se( βˆ j ) ≤ β j ≤ βˆ j + t1−α / 2,n − p se( βˆ j )


Para el ejemplo de datos de tiempo de entrega, considerando α = 0, 05 , t1−α /2,n −k −1 = t0,975,22 = 2, 074 ,
 2,341
σˆ = MSRe s
2
= 10, 62 y β = 1, 615  . Entonces
ˆ

0, 014 
1, 61 − 2, 074 10, 62 ⋅ 0, 002744 ≤ β1 ≤ 1, 61 + 2, 074 10, 62 ⋅ 0, 002744
1, 26 ≤ β1 ≤ 1,96
Y el intervalo de confianza de 95% para β 2 , es
0, 006 ≤ β 2 ≤ 0, 021
De lo anterior, se desprende que ambos parámetros son significativos puesto que los intervalos no contienen el cero.

Estimación del intervalo de confianza de la respuesta media


Se puede establecer un intervalo de confianza para la respuesta media en determinado punto, como
x01 , x02 ,.., x0 k Definamos el vector x0 como sigue:
1 
x 
 01 
X0 =  . 
 
 . 
 x0 k 
Por consiguiente, un intervalo de confianza de (1 − α ) x100% de la respuesta media en el punto x01 , x02 ,.., x0 k
es

Yˆ0 − tn − p ,1−α /2 ⋅ σˆ 2 X 0T ( X T X ) X 0 ≤ E (Y X 0 ) ≤ Yˆ0 + tn− p ,1−α /2 ⋅ σˆ 2 X 0T ( X T X ) X 0


−1 −1

Considerando el ejemplo anterior, suponga que el embotellador de gaseosas quiere establecer un intervalo de
confianza de 95% para el tiempo medio de entrega, para una tienda donde se requieran x1 = 8 cajas, y donde
la distancia es x2 = 275 pies. Entonces,
 1   2,341
x0 = 8 , luego Yˆ0 = X 0 βˆ = [1 8 275] 1, 615  = 19, 22
  T
   
 275 0, 014 
0,113215 −0, 004449 −0, 000084   1 
σˆ X 0 ( X X ) X 0 = 10, 62 [1 8 275]  −0, 004449
 −0, 000048   8  = 0,567
2 T T −1
0, 002744
 
 −0, 000084 −0, 000048 0, 000001   275
Reemplazando en

Yˆ0 − tn − p ,1−α /2 ⋅ σˆ 2 X 0T ( X T X ) X 0 ≤ E (Y X 0 ) ≤ Yˆ0 + tn− p ,1−α /2 ⋅ σˆ 2 X 0T ( X T X ) X 0


−1 −1

Tenemos que el intervalo de confianza de 95% para el tiempo medio de entrega es


17, 66 ≤ E (Y X 0 ) ≤ 20, 78

Intervalos simultáneos de confianza para coeficientes de regresión


Anteriormente establecimos intervalos en forma individual, esto es intervalos de uno por uno, esto es, son los
tipos usuales de intervalo de confianza o de predicción, en donde el coeficiente de confianza 1 − α indica la
proporción de estimaciones correctas que resulta cuando se seleccionan muestras aleatorias repetidas, y para
cada muestra se establece la estimación adecuada del intervalo. Ahora queremos construir varios intervalos de
confianza o de predicción con los mismos datos de muestra. En esos casos, puede ser interés en la especificación
de un coeficiente de confianza que se aplique en forma simultánea a todo el conjunto de estimados de intervalo.
Un conjunto de intervalos de confianza o de predicción que son todos ciertos en forma simultánea, con 1 − α
de probabilidad, se llama conjunto de intervalos simultáneos o conjuntos de confianza o de predicción.
En consecuencia, una región de confianza conjunta de (1 − α ) x100% , para todos los parámetros en una
regresión lineal múltiple es

( βˆ − β ) ( X X ) ( βˆ − β ) ∼ F
T
T

α , p ,n− p
pMS Re s

La región de confianza conjunta, si bien es cierto es fácil de obtener, su interpretación no es práctica, por ello
es conveniente obtener intervalos de confianza individual para cada parámetro.

Método de Bonferroni
El intervalo de confianza de Bonferroni está dado por

βˆ j − t1−α / p ,n − p se( βˆ j ) ≤ β j ≤ βˆ j + t1−α / 2,n − p se( βˆ j )

Los intervalos de confianza de Bonferroni se parecen algo a los intervalos ordinarios de uno por uno, basados
en la distribución t, pero cada intervalo de Bonferroni tiene un coeficiente de confianza de 1 − α / p , en lugar de
1−α .

Predicción de nuevas observaciones


Con el modelo de regresión se pueden predecir observaciones futuras de y que correspondan a determinados
valores de las variables regresoras, por ejemplo x01 , x02 ,.., x0 k . Si X 0T = [1, x01 , x02 ,.., x0 k ] , entonces una
estimación puntual de la observación futura Y0 en el punto x01 , x02 ,.., x0 k es
Yˆ0 = X 0T βˆ
Un intervalo de predicción de (1 − α ) x100% para esta futura observación es

( −1
) (
Yˆ0 − tn − p ,1−α / 2 ⋅ σˆ 2 1 + X 0T ( X T X ) X 0 ≤ Y0 ≤ Yˆ0 + tn − p ,1−α /2 ⋅ σˆ 2 1 + X 0T ( X T X ) X 0
−1
)
Verificación de supuestos

Las principales premisas que se han hecho hasta ahora al estudiar el análisis de regresión son las siguientes:
• La relación entre la respuesta y y los regresores es lineal, al menos en forma aproximada.
• El término de error ε tiene media cero.
• El término de error tiene varianza σ 2 constante.
• Los errores no están correlacionados.
• Los errores tienen distribución normal.

Se presentarán algunos métodos de utilidad para diagnosticar violaciones de las premisas básicas de regresión.
Esos métodos de diagnóstico se basan principalmente en el estudio de los residuales del modelo.

Los residuos estandarizados están dados por


ei
ei* = i = 1,.., n
 1 ( xi − x ) 2 
MS Re s 1 − − 
 n s 
 xx 

Gráficas de diagnóstico
Las gráficas básicas que se recomiendan para una evaluación de la validez de un modelo son las siguientes:

1. ei* (o ei ) sobre el eje vertical contra xi en el eje horizontal.


*
2. ei (o ei ) sobre el eje vertical contra yˆi en el eje horizontal.
3. yˆi sobre el eje vertical contra yi en el eje horizontal.
4. Una gráfica de probabilidad normal de los residuos estandarizados

Las gráficas 1 y 2 se denominan gráficas de residuos (contra la variable independiente y valores ajustados,
respectivamente), en tanto que la gráfica 3 está ajustada contra valores observados. Si la gráfica 3 da puntos
cercanos a la recta de 45° (pendiente +1 que pasa por (0, 0)), entonces la función de regresión estimada da
predicciones precisas de los valores que se observan en realidad. Así, la gráfica 3 proporciona una evaluación
visual de la efectividad del modelo para hacer predicciones. Siempre que el modelo sea correcto, ninguna gráfica
de residuos debe exhibir formas distintas. Los residuos deben estar distribuidos al azar alrededor de 0 según
una distribución normal, de manera que con excepción de unos cuantos, todos los residuos estandarizados
deben encontrarse entre -2 y +2 (es decir, todos excepto unos cuántos a no más de dos desviaciones estándares
de su valor esperado de 0). La gráfica de residuos estandarizados contra yˆi es en realidad una combinación de
las otras dos gráficas, mostrando implícitamente la forma en que varían los residuos con x y cómo se comparan
los valores ajustados con valores observados. Esta última gráfica es la que se recomienda con más frecuencia
para análisis de regresión múltiple. La gráfica 4 permite al analista evaluar la factibilidad de la suposición de que
ε tiene una distribución normal.
Ejercicios

1) En la tabla aparecen datos sobre el desempeño de los 26 equipos de la Liga Nacional de Futbol en 1976. Se
cree que la cantidad de yardas ganadas por tierra por los contrarios ( x8 ) tiene un efecto sobre la cantidad
de juegos que gana un equipo ( y ) .
a) Ajustar un modelo de regresión lineal simple que relacione los juegos ganados, y, con las yardas ganadas
por tierra por los contrarios x8 .
b) Formar la tabla de análisis de varianza y probar el significado de la regresión.
c) Determinar un intervalo de confianza de 95% para la pendiente.
d) ¿Qué porcentaje de variabilidad total da y , y explica este modelo?
e) Determinar un intervalo de confianza de 95% para la cantidad promedio de juegos ganados, si la distancia
ganada por tierra por los contrarios se limita a 2.000 yardas.

Desempeño de los equipos de la Liga Nacional de Futbol en 1976


Equipo y x1 x2 x3 x4 x5 x6 x7 x8 x9
Washington 10 2113 1985 38,9 64,7 4 868 59,7 2205 1917
Minnesota 11 2003 2855 38,8 61,3 3 615 55 2096 1575
New England 11 2957 1737 40,1 60 14 914 65,6 1847 2175
Oakland 13 2285 2905 41,6 45,3 -4 957 61,4 1903 2476
Pittsburgh 10 2971 1666 39,2 53,8 15 836 66,1 1457 1866
Baltimore 11 2309 2927 39,7 74,1 -8 786 61 1848 2339
Los Ángeles 10 2528 2341 38,1 65,4 12 754 66,1 1564 2092
Dalias 11 2147 2737 37 78,3 -1 761 58 1821 1909
Atlanta 4 1689 1414 42,1 47,6 -3 714 57 2577 2001
Buffalo 2 2566 1838 42,3 54,2 -1 797 58,9 2476 2254
Chicago 7 2363 1480 37,3 48 19 984 67,5 1984 2217
Cincinnati 10 2109 2191 39,5 51,9 6 700 57,2 1917 1758
Cleveland 9 2295 2229 37,4 53,6 -5 1037 58,8 1761 2032
Denver 9 1932 2204 35,1 71,4 3 986 58,6 1709 2025
Detroit 6 2213 2140 38,8 58,3 6 0,819 59,2 1901 1686
Green Bay 5 1722 1730 36,6 52,6 -19 -791 54,4 2288 1835
Houston 5 1498 2072 ·35.3 59,3 -5 776 49,6 2072 1914
Kansas City 5 1873 2929 41,1 55,3 10 789 54,3 2861 2496
Miami 6 2118 2268 38,2 69,6 6 582 58,7 2411 2670
Nueva Orleans 4 1775 1983 39,3 78,3 7 901 51,7 2289 2202
Nueva York Giants 3 1904 1792 39,7 38,1 -9 734 61,9 2203 1988
Nueva York Jets 3 1929 1606 39,7 68,8 -21 627 52,7 2592 2324
Phi1ade1phia 4 2080 1492 35,5 68,8 -8 722 57,8 2053 2550
St. Louis 10 2301 2835 35,3 74,1 2 683 59,7 1979 2110
San Diego 6 2040 2416 38,7 50 0 576 54,9 2048 2628
San Francisco 8 2447 1638 39,9 57,1 -8 848 65,3 1786 1776
Seatt1e 2 1416 2649 37,4 56,3 -22 684 43,8 2876 2524
Tampa Bay 0 1503 1503 39,3 47 -9 875 53,5 2560 2241
y: Juegos ganados (por temporada de 14 juegos).
x1 : Yardas por tierra (temporada).
x2 : Yardas por aire (temporada).
x3 : Promedio de pateo (yardas/patada).
x4 : Porcentaje de goles de campo (GC hechos/GC intentados, temporada).
x5 : Diferencia de pérdidas de balón (pérdidas ganadas/pérdidas perdidas).
x6 : Yardas de castigo (temporada).
x7 : Porcentaje de carreras (jugadas por tierra/jugadas totales).
x8 : Yardas por tierra del contrario (temporada).
x9 : Yardas por aire del contrario (temporada)

2) Supóngase que se quiere usar el modelo desarrollado en el problema 1) para pronosticar la cantidad de
juegos que ganará un equipo si puede limitar los avances por tierra de sus contrarios a 1.800 yardas.
Determinar un estimado de punto de la cantidad de juegos ganados cuando x8 = 1.800 . Determinar un
intervalo de predicción de 90% para la cantidad de juegos ganados.

3) La tabla dada contiene datos reunidos durante un proyecto de energía solar en el Tecnológico de Georgia.
a) Ajustar un modelo de regresión lineal simple que relacione el flujo total de calor y (kilowatts) con la
deflexión radial de los rayos desviados x4 (milirradianes).
b) Formar la tabla de análisis de varianza y probar la significancia de la regresión.
c) Determinar un intervalo de confianza de 99% para la pendiente.
2
d) Calcular R .
e) Determinar Un intervalo de confianza de 95% para el flujo promedio de calor, cuando la deflexión radial
es 16.5 milirradianes.

Datos de pruebas de energía solar térmica

y x1 x2 x3 x4 x5
271,8 783,35 33,53 40,55 16,66 13,20
264,0 748,45 36,50 36,19 16,46 14,11
238,8 684,45 34,66 37,31 17,66 15,68
230,7 827,80 33,13 32,52 17,50 10,53
251,6 860,45 35,75 33,71 16,40 11,00
257,9 875,15 34,46 34,14 16,28 11,31
263,9 909,45 34,60 34,85 16,06 11,96
266,5 905,55 35,38 35,89 15,93 12,58
229,1 756,00 35,85 33,53 16,60 10,66
239,3 769,35 35,68 33,79 16,41 10,85
258,0 793,50 35,35 34,72 16,17 11,41
257,6 801,65 35,04 35,22 15,92 11,91
267,3 819,65 34,07 36,5 16,04 12,85
267,0 808,55 32,20 37,6 16,19 13,58
259,6 774,95 34,32 37,89 16,62 14,21
240,4 711,85 31,08 37,71 17,37 15,56
227,2 694,85 35,73 37,00 18,12 15,83
196,0 638,10 34,11 36,76 18,53 16,41
278,7 774,55 34,79 34,62 15,54 13,10
272,3 757,90 35,77 35,40 15,70 13,63
267,4 753,35 36,44 35,96 16,45 14,51
254,5 704,70 37,82 36,26 17,62 15,38
224,7 666,8 35,07 36,34 18,12 16,10
181,5 568,55 35,26 35,90 19,05 16,73
227,5 653,10 35,56 31,84 16,51 10,58
253,6 704,05 35,73 33,16 16,02 11,28
263,0 709,60 36,46 33,83 15,89 11,91
265,8 726,90 36,26 34,89 15,83 12,65
263,8 697,15 37,20 36,27 16,71 14,06

y : Flujo total de calor (kwatts).


x1 : Insolación (watts/ m 2 ).
x2 : Posición del foco en dirección este (pulgadas).
x3 : Posición del foco en dirección sur (pulgadas).
x4 : Posición del foco en dirección norte (pulgadas).
x5 : Hora del día.

4) La tabla presenta los datos sobre el rendimiento de la gasolina, en millas, de 32 automóviles diferentes.
a) Ajustar un modelo de regresión lineal simple que relacione el rendimiento de la gasolina y (millas por
galón) y la cilindrada del motor x1 ( pu lg 3 )
b) Formar la tabla de análisis de varianza y prueba de significancia de la regresión.
c) ¿Qué porcentaje de la variabilidad total del rendimiento de la gasolina explica la relación lineal con la
cilindrada del motor?
d) Determinar un intervalo de confianza de 95% para el rendimiento promedio de gasolina, si el
desplazamiento del motor es 275 pu lg 3 .
e) Suponer que se desea pronosticar el rendimiento de gasolina que tiene un coche con motor de 275
pu lg 3 . Determine un estimado puntual para el rendimiento. Determinar un intervalo de predicción de
95% para el rendimiento.
f) Comparar los dos intervalos obtenidos en las partes d) y e). Explicar la diferencia entre ellos. ¿Cuál es más
amplio y por qué?

Rendimiento de la gasolina para 32 automóviles


Automóvil y x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11
Apollo 18,9 350 165 260 8.0:1 2.56:1 4 3 200,3 69,9 3910 A
Omega 17 350 170 275 8.5:1 2.56:1 4 3 199,6 72,9 2860 A
Nova 20 250 105 185 8.25:1 2.73:1 1 3 196,7 72,2 3510 A
Monarch 18,25 351 143 255 8.0:1 3.00:1 2 3 199,9 74 3890 A
Duster 20,07 225 95 170 8.4:1 2.76:1 1 3 194,1 71,8 3365 M
Jenson Conv. 11,2 440 215 330 8.2:1 2.88:1 4 3 184,5 69 4215 A
Skyhawk 22,12 231 110 175 8.0:1 2.56:1 2 3 179,3 65,4 3020 A
Monza 21,47 262 110 200 8.5:1 2.56:1 2 3 179,3 65,4 3180 A
Scirocco 34,7 89,7 70 81 8.2:1 3.90:1 2 4 155,7 64 1905 M
Corolla SR-5 30,4 96,9 75 83 9.0:1 4.30:1 2 5 165,2 65 2320 M
Camaro 16,5 350 155 250 8.5:1 3.08:1 4 3 195,4 74,4 3885 A
Datsun B210 36,5 85,3 80 83 8.5:1 3.89:1 2 4 160,6 62,2 2009 M
Capri n 21,5 171 109 146 8.2:1 3.22:1 2 4 170,4 66,9 2655 M
Pacer 19,7 258 110 195 8.0:1 3.08:1 1 3 171,5 77 3375 A
Babcat 20,3 140 83 109 8.4:1 3.40:1 2 4 168,8 69,4 2700 M
Granada 17,8 302 129 220 8.0:1 3.0:1 2 3 199,9 74 3890 A
Eldorado 14,39 500 190 360 8.5:1 2.73:1 4 3 224,1 79,8 5290 A
Imperial 14,89 440 215 330 8.2:1 2.71:1 4 3 231 79,7 5185 A
Nova LN 17,8 350 155 250 8.5:1 3.08:1 4 3 196,7 72,2 3910 A
Valiant 16,41 318 145 255 8.5:1 2.45:1 2 3 197,6 71 3660 A
Starfire 23,54 231 110 175 8.0:1 2.56:1 2 3 179,3 65,4 3050 A
Cordoba 21,47 360 180 290 8.4:1 2.45:1 2 3 214,2 76,3 4250 A
TransAM 16,59 400 185 NA 7.6:1 3.08:1 4 3 196 73 3850 A
Corolla E-5 31,9 96,9 75 83 9.0:1 4.30:1 2 5 165,2 61,8 2275 M
Astre 29,4 140 86 NA 8.0:1 2.92:1 2 4 176,4 65,4 2150 M
MarkIV 13,27 460 223 366 8.0:1 3.00:1 4 3 228 79,8 5430 A
Celica GT 23,9 133,6 96 120 8.4:1 3.91:1 2 5 171,5 63,4 2535 M
Charger SE 19,73 318 140 255 8.5:1 2.71:1 2 3 215,3 76,3 4370 A
Cougar 13,9 351 148 243 8.0:1 3.25:1 2 3 215,5 78,5 4540 A
Elite 13,27 351 148 243 8.0:1 3.26:1 2 3 216,1 78,5 4715 A
Matador 13,77 360 195 295 8.25:1 3.15:1 4 3 209,3 77,4 4215 A
Corvette 16,5 350 165 255 8.5:1 2.73:1 4 3 185,2 69 3660 A

y: Millas/galón
x1 : Cilindrada ( pu lg 3 )
x2 : Potencia (Hp)
x3 : Par de torsión (pies-lb)
x4 : Relación de compresión X
x5 : Relación de eje trasero
x6 : Carburador (gargantas)
x7 : Número de velocidades en la transmisión
x8 : Longitud total ( pu lg )
x9 : Ancho ( pu lg )
x10 : Peso (lb)
x11 : Tipo de transmisión (A = automática, M = manual)

5) Acerca de los datos sobre rendimiento de gasolina, repetir el problema 4) (partes a, b y e) usando el peso del
vehículo, x10 como la variable regresora. Con base en una comparación entre los dos modelos, ¿se puede
llegar a la conclusión de que x1 es mejor opción como regresor que x10 ?

6) La tabla presenta datos de 27 casas vendidas en Erie, Pennsylvania.


a) Ajustar un modelo de regresión lineal simple que relacione el precio de venta de la casa con los impuestos
actuales ( x1 ).
b) Probar la significancia de la regresión.
c) ¿Qué porcentaje de la variabilidad total del precio de venta queda explicado con este modelo?
d) Determinar un intervalo de confianza de 95% para β1 .
e) Determinar un intervalo de confianza de 95% para el precio promedio de venta de una casa, para la cual
los impuestos actuales son $750.

Datos de avalúo de propiedades


y x1 x2 x3 x4 x5 x6 x7 x8 x9
25,9 5 1 3,47 1 1 7 4 42 0
29,5 5 1 3,53 1,5 2 7 4 62 0
27,9 5 1 2,28 1,18 1 6 3 40 0
25,9 5 1 4,05 1,23 1 6 3 54 0
29,9 5 1 4,46 1,21 1 6 3 42 0
29,9 4 1 4,46 0,99 1 6 3 56 0
30,9 6 1 5,85 1,24 1 7 3 51 1
28,9 6 1 9,52 1,5 0 6 3 32 0
35,9 6 1 6,44 1,23 2 6 3 32 0
31,5 5 1 4,99 1,55 1 6 3 30 0
31 6 1 5,52 0,98 1 5 2 30 0
30,9 6 1 6,67 1,21 2 6 3 32 0
30 5 1 5 1,02 0 5 2 46 1
36,9 8 1,5 5,15 1,66 2 8 4 50 0
41,9 7 1,5 6,9 1,49 1,5 7 3 22 1
40,5 8 1,5 7,1 1,38 1 6 3 17 0
43,9 9 1 7,8 1,5 1,5 7 3 23 0
37,5 6 1 5,52 1,26 2 6 3 40 1
37,9 8 1,5 5 1,69 1 6 3 22 0
44,5 9 1,5 9,89 1,82 2 8 4 50 1
37,9 6 1,5 6,73 1,65 1 6 3 44 0
38,9 8 1,5 9,15 1,78 2 8 4 48 1
36,9 8 1 8 1,5 2 7 3 3 0
45,8 9 1,5 7,33 1,83 1,5 8 4 31 0
y : Precio de venta de la casa/1.000
x1 : Impuestos (locales, escuela, municipal)/1.000
x2 : Cantidad de baños
x3 : Tamaño del terreno ( pies 2 x 1.000)
x4 : Superficie construida ( pies 2 x 1.000)
x5 : Cantidad de cajones en cochera
x6 : Cantidad de habitaciones
x7 : Cantidad de recámaras
x8 : Edad de la casa (años)

1) Para los datos de la Liga Nacional de Futbol:


a) Ajustar un modelo de regresión lineal múltiple que relacione la cantidad de juegos ganados con las yardas
por aire del equipo ( x2 ) el porcentaje de jugadas por tierra ( x7 ) y las yardas por tierra del contrario ( x8
).
b) Formar la tabla de análisis de varianza y probar el significado de la regresión.
c) Calcular el estadístico t para probar las hipótesis H 0 : β 2 = 0 , y H 0 : β 7 = 0 H 0 : β8 = 0 . ¿Qué
conclusiones se pueden sacar acerca del papel de las variables x2 , x7 y x8 en el modelo?
d) Calcular R 2 y R Adj
2
para este modelo.

2) Con los resultados del problema 1), demostrar en forma numérica que el cuadrado del coeficiente de
correlación simple entre los valores observados yi y los valores ajustados yˆi es igual a R 2 .
.
3) De acuerdo al problema 1), Calcular:
a) Un intervalo de confianza de 95% para β 7 .
b) Un intervalo de confianza de 95% para la cantidad media de juegos ganados por un equipo cuando
x2 = 2.300 , x7 = 56 y x8 = 2.100 .

4) Para los datos de la Liga Nacional de Futbol del problema 1), ajustar un modelo a esos datos, usando sólo
x7 y x8 como regresores.
a) Probar la significancia de la regresión.
b) Calcular R 2 y R Adj
2
. ¿Cómo se comparan esas cantidades con las calculadas para el modelo del problema
1), que tenía un regresor más ( x2 )?
c) Calcular un intervalo de confianza de 95% para β 7 . También, un intervalo de confianza de 95% para la
cantidad media de juegos ganados por un equipo cuando x7 = 56 y x8 = 2.100 . Comparar la longitud de
esos intervalos de confianza con las longitudes de los correspondientes en el problema 3).
d) ¿Qué conclusiones se pueden sacar de este problema, acerca de las consecuencias de omitir un regresor
importante de un modelo?

5) Véanse los datos de rendimiento de gasolina.


a) Ajustar un modelo de regresión lineal múltiple, que relacione el rendimiento de la gasolina y, en millas
por galón, la cilindrada del motor x1 y la cantidad de gargantas del carburador x6 .
b) Formar la tabla de análisis de varianza, y probar la significancia de la regresión.
2 2 2 2
c) Calcular R y R Adj para este modelo. Compararlas con la R y R Adj para el modelo de regresión lineal
simple, que relacionaba las millas con la cilindrada en el problema 4).
d) Determinar un intervalo de confianza de 95% para β1 .
e) Calcular el estadístico t para probar H 0 : β1 = 0 H 0 : β 6 = 0 . ¿Qué conclusiones se pueden sacar?
f) Determinar un intervalo de confianza de 95% para el rendimiento promedio de la gasolina, cuando
x1 = 275 pu lg 3 y x6 = 2 gargantas.
g) Determinar un intervalo de predicción de 95% para una nueva observación de rendimiento de gasolina
cuando x1 = 275 pu lg 3 y x6 = 2 gargantas.

6) En el problema 4) se pidió establecer un intervalo de confianza de 95% para el rendimiento promedio de


gasolina, y un intervalo de predicción de 95% para el rendimiento cuando la cilindrada del motor es
x1 = 275 pu lg 3 . Comparar las longitudes de esos intervalos con las de los intervalos de confianza y de
predicción, para el problema anterior, 5). ¿Dice algo acerca de las ventajas de agregar x6 al modelo?

7) Viendo los datos sobre precios de viviendas.


a) Ajustar un modelo de regresión múltiple que relacione el precio de venta con los nueve regresores.
b) Probar la significancia de la regresión. ¿Qué conclusiones se pueden sacar?
c) Usar pruebas t para evaluar la contribución de cada regresor al modelo.

También podría gustarte