0% encontró este documento útil (0 votos)
146 vistas39 páginas

Estimación en Regresión Lineal Simple

Este documento presenta información sobre un curso de análisis de regresión lineal. Incluye detalles sobre las formas de evaluación como parciales y trabajos. Explica conceptos clave de regresión como modelos lineales, usos formales, regresión lineal simple y múltiple, y el método de mínimos cuadrados ordinarios para estimar parámetros de regresión.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
146 vistas39 páginas

Estimación en Regresión Lineal Simple

Este documento presenta información sobre un curso de análisis de regresión lineal. Incluye detalles sobre las formas de evaluación como parciales y trabajos. Explica conceptos clave de regresión como modelos lineales, usos formales, regresión lineal simple y múltiple, y el método de mínimos cuadrados ordinarios para estimar parámetros de regresión.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

ANÁLISIS DE REGRESIÓN LINEAL

Diego Fernando Lemus Polanı́a


Curso Estadı́stica II
Aspirante M.s.C en Estadı́stica
dflemus@[Link]

Enero 2011

Universidad Nacional de Colombia, Sede Medellı́n


Facultad de Ciencias
Escuela de Estadı́stica - Maestrı́a en Estadı́stica
Información General del Curso

Forma de evaluación: Parciales

Primer parcial: Regresión Lineal Simple 20 % Fecha:

Segundo parcial: Regresión Lineal Múltiple 20 % Fecha:

Tercer parcial: Regresión lineal Múltiple - Parte II 20 % Fecha:

Cuarto parcial: Introducción al Muestreo 20 % Fecha:

Forma de evaluación: Trabajos

Primer Trabajo: Regresión Lineal Multiple 10 % Fecha:

Segundo Trabajo: Introducción al Muestreo 10 % Fecha:

1. Introducción Análisis de Regresión

En muchas ocasiones es posible diseñar experimentos estadı́sticos controlados, en los cuáles


es factible el estudio simultáneo de varios factores, aplicando procedimientos de aleator-
ización apropiados, en lo que se conoce como diseño y análisis de experimentos. Sin em-
bargo en otras ocasiones sólo se cuenta con un conjunto de datos sobre los cuáles es difı́cil
esperar que hayan sido observados en condiciones estrictamente controladas, y de los cuáles
también en pocas ocasiones se tienen réplicas para calcular el error experimental.

En algunos casos las variables en cuestión son variables aleatorias que están relacionadas
en un sentido de probabilidad mediante una distribución de probabilidad conjunta. En
otros casos, las variables son cantidades matemáticas, de las cuales se asume que existe
una relación funcional vinculándolas. Cuando se enfrenta la situación anterior lo más
apropiado es aplicar los métodos de regresión, pues están diseñados para ilustrar ciertos
aspectos del mecanismo que relaciona un conjunto de datos (mediciones de las variables
en cuestión).

El análisis de regresión está conformado por un conjunto de técnicas estadı́sticas que


sirven como base para realizar inferencias sobre las posibles relaciones entre cantidades en
una investigación u estudio. Debe tenerse presente que los métodos de regresión permiten
establecer asociaciones entre variables de interés entre las cuáles la relación usual no es
necesariamente de causa - efecto.

2
1.1. Modelos de Regresión Lineal

Un modelo se puede definir como un mecanismo generador de información sobre un de-


terminado proceso. Asumiendo que la relación entre la variable de interés para el analista
está bien representada por una estructura que es lineal en las variables regresoras (variables
no aleatorias en el estudio), un modelo adecuado puede ser de la forma:

y = β0 + β1 x1 + β2 x2 + · · · + βk xk + ǫ (1)

En la ecuación (1), β0 , β1 , β2 , . . . , βk , son constantes desconocidas llamadas coeficientes de


regresión. El término ǫ es incluido en el modelo por el hecho que el modelo no es exacto,
ya que describe la perturbación aleatoria o error del modelo (innovación presente en los
individuos).

Por lo tanto, cualquier procedimiento de regresión implica ajustar un modelo a un


conjunto de datos. Lo anterior abarca la estimación de los coeficientes de regresión y la
correspondiente formulación del modelo de regresión ajustado, un dispositivo empı́rico que
es la base de cualquier inferencia estadı́stica realizada. El modelo de regresión ajustado es
una estimación funcional de la relación entre las variables del estudio.

NOTA: En muchas de las aplicaciones del análisis de regresión, en los cuales modelos
lineales describen un conjunto de datos, la formulación del modelo resulta de una sobres-
implificación de lo que ocurre realmente en el proceso analizado. Los modelos lineales
empleados son aproximaciones que se espera trabajen bien en el rango de valores de las
variables regresoras empleados en la construcción del modelo ajustado.

1.2. Usos Formales de los Modelos de Regresión Lineal

Usualmente los métodos de regresión son empleados con los siguientes fines:

Estimación de parametros

Especificación de modelos (Explicar un sistema o proceso)

Selección de Variables

Predicción

NOTAS:

El analista debe tener claro los objetivos del estudio y el contexto del problema.

3
Un modelo que da una solución a un problema en particular no necesariamente da
buenos resultados para resolver otros.

2. Modelo de Regresión Lineal Simple (MRLS)

El Modelo de regresión lineal simple es la estructura de regresión más simple. El término


simple implica que solo hay una variable regresora, x, en el modelo. De lo anterior se puede
deducir que el MRLS tiene la siguiente estructura:

Y = β0 + β1 X + ε (Modelo Poblacional de Regresión) (2)

Donde

Y: Variable respuesta (variable aleatoria).

X: Variable regresora o covariable (Variable fija).

β0 : Intercepto u ordenada al origen en el modelo de regresión. Si el intervalo de


los datos de la variable regresora incluye al cero (x = 0), entonces la ordenada al
origen β0 tiene interpretación práctica, representa el valor esperado (media) de la
variable respuesta y, cuando X = 0. Si no incluye al cero, β0 no tiene interpretación
(constante que permite explicar mejor el comportamiento de los datos).

β1 : Pendiente en el modelo de regresión (Cambio esperado en la variable respuesta


y, dado un cambio unitario en la covariable X).

ε: Componente de error aleatorio. Es una variable aleatoria que explica porque el


MRLS no ajusta exactamente a los datos obtenidos. Puede ser generado por efec-
tos de otras variables no consideradas en el modelo, errores de medición u otras
consideraciones no comprendidas por el analista.

Una vez tomada la muestra de n observaciones (Xi , Yi ) por medio de algún método de
recolección de datos, se procede a estimar los coeficientes de regresión del modelo muestral
de regresión:

Yi = β0 + β1 Xi + ǫi (i = 1, 2, . . . , n) (3)

4
2.1. Supuestos del Modelo de Regresión Lineal Simple

La variable respuesta Y es una variable aleatoria cuyos valores se observan mediante


la selección de los valores de la variable predictora X en un intervalo de interes.

La variable predictora X no es considerada como variable aleatoria, es una variable


que toma valores fijos (puntos de observación), que se seleccionan con anticipacion
y se miden sin error. Si lo anterior no se cumple, el método de estimación de mı́ni-
mos cuadrados ordinarios para los parámetros del modelo de regresión puede seguir
siendo válido si los errores en los valores de la variable predictora son pequeños en
comparación con los errores aleatorios del modelo ǫi .

Los valores observados de la variable respuesta no son estadı́sticamente dependientes.


Se parte del supuesto que cada valor observado de Y está constituido por un valor
fijo real y un componente aleatorio.

La muestra de n observaciones (xi , yi ) es una muestra representativa del proceso que


se desea generalizar. Si no es asi, no es apropiado realizar inferencias en un rango de
los datos por fuera del considerado.

El modelo de regresion es lineal en los parámetros. El modelo estadı́stico de regresión


con una muestra de n pares (Xi , Yi ) es: Yi |Xi = β0 + β1 Xi + ǫi , con i = 1, 2, . . . . Por
lo tanto: E(Yi |Xi ) = β0 + β1 Xi

Los errores aleatorios ǫi ∼ N (0, σ 2 ) y son estadı́sticamente independientes. Por tanto:


COV (ǫi , ǫj ) = 0, ∀i,j , i 6= j

Si el último supuesto se cumple, se puede asumir que cada valor observado Yi está consti-
tuido por un valor real y una componente aleatoria (función de los ǫi ).

De lo anterior se puede deducir que Yi |Xi es una variable aleatoria, cuyo valor esperado y
varianza están dados por:

E[Yi |Xi ] = E[β0 + β1 Xi + ǫi ] = E[β0 ] + E[β1 Xi ] + E[ǫi ] = β0 + β1 Xi

V [Yi |Xi ] = V [β0 + β1 Xi + ǫi ] = V [β0 ] + V [β1 Xi ] + V [ǫi ] = σ 2

De esta manera: Yi |Xi ∼ N(β0 + β1 Xi ,σ 2 )

Lo descrito anteriomente implica que hay una distribución de valores para Yi en cada Xi
y que la varianza de esta distribución es igual para cada valor de Xi (constante).

5
Figura 1: Distribución Y |Xi

NOTAS:

Si la linea de ajuste presenta una curvatura (no ser lineal en X y/o en Y ), mediante
una transformacion conveniente de las variables ( X y/o Y ), es posible aplicar las
tecnicas de regresion lineal sobre estas nuevas variables.

Si la ecuación de regresión seleccionada es correcta, cualquier variabilidad en la


variable respuesta que no puede ser explicada exactamente por el modelo ajustado
se debe al error aleatorio presente en este.

6
3. Estimación de los Parámetros de Regresión

3.1. Método de Mı́nimos Cuadrados Ordinarios

3.1.1. Estimación de los parámetros β0 y β1

Supongamos que se tienen n pares de observaciones (xi , yi ). El método de mı́nimos cuadra-


dos esta diseñado para proporcionar estimadores βb0 y βb1 de los coeficientes de regresión
β0 y β1 , de forma que minimicen la suma de cuadrados de los errores (SSE), es decir la
diferencia entre el valor observado yi y su valor ajustado correspondiente ybi = βb0 + βb1 xi .

NOTA: La diferencia entre el valor observado yi y el valor ajustado correspondiente ybi se


llama residual(componente de error aleatorio del i-esimo individuo). Matemáticamente,
el i-esimo residual es: ǫi = yi − ybi = yi − βb0 − βb1 xi .

Figura 2: Definición Gráfica: Residual

Los residuales se consideran una realización del componente de error aleatorio de los
modelos de regresión y tienen un papel importante para determinar la adecuación del
modelo de regresión ajustado, pues permite detectar diferencias respecto a los supuestos

7
de los MRL y las hipótesis generadas a partir de estos.

Retomando la estimación de los coeficientes de regresión se parte de:

n
X n
X n
X
SSE = ǫ2i = (yi − ybi )2 = (yi − βb0 − βb1 xi )2
i=1 i=1 i=1

El criterio de mı́nimos cuadrados busca minimizar la siguiente función:

n
X
S(β0 , β1 ) = (yi − βb0 − βb1 xi )2
i=1

Los estimadores βb0 y βb1 deben satisfacer:

n
∂S(β0 , β1 ) ∂ X
= [ (yi − βb0 − βb1 xi )2 ] = 0
∂β0 ∂β0
i=1

n
∂S(β0 , β1 ) ∂ X
= [ (yi − βb0 − βb1 xi )2 ] = 0
∂β1 ∂β1
i=1

Derivando se obtiene el siguiente sistema de ecuaciones:

n
X
−2 (yi − βb0 − βb1 xi ) = 0
i=1

n
X
−2 (yi − βb0 − βb1 xi )xi = 0
i=1

Despejando, se obtiene que las estimaciones por mı́nimos cuadrados ordinarios de los
parámetros son:

8
βb0 = y − βb1x, y βb1 =
Sxy
Sxx

Donde Sxx se conoce como Suma de Cuadrados Corregidos en x, su expresión es:

n
X n
X P n
2 2 ( ni=1 xi )2 X 2
Sxx = (xi − x) = xi − = xi − nx2
n
i=1 i=1 i=1

Sxy se conoce como Suma de Productos Cruzados, su expresión es:

n
X n
X Pn Pn n
X
i=1 xi i=1 yi
Sxy = (xi − x)(yi − y) = xi y i − = xi yi − nxy
n
i=1 i=1 i=1

Como resultado de la metodologı́a de mı́nimos cuadrados, se puede obtener una estimación


de la respuesta media o ajustada, ası́:

ybi = βb0 + βb1xi, o bien, ybi = y + (xi − x)βb1


3.2. Método de estimación por Máxima Verosimilitud

Como primera medida, el método de máxima verosimilitud puede ser aplicado para la esti-
mación de los parámetros del MRLS, si y solo si, se conoce la distribución de componente
aleatorio (error aleatorio) del modelo. Considerando para el modelo de regresión lineal
simple los supuestos de normalidad, independencia y varianza constante para los errores,
podemos usar el método de estimación de máxima verosimilitud (MLE).

Sea (x1 , y1 ), . . . , (xn , yn ) los n pares de datos observados. Asumiendo fijos los valores en
que la variable regresora X es observada y que ǫi ∼ N (0, σ 2 ), ∀i = 1, 2, . . . , n, se determino
que Yi |Xi ∼N(β0 + β1 Xi ,σ 2 ).

El método consiste en hallar aquellos valores de β0 , β1 y σ 2 que maximizan la probabilidad


que los datos observados yi ocurran, para tal fin se determina la función de verosimilitud
a partir de la distribución conjunta de las observaciones, la cual, por la condición de
independencia es igual al producto de las densidades de probabilidad marginales, de la
siguiente manera:

n
Y
2
L(β0 , β1 , σ |x, y) = f (yi |β0 , β1 , σ 2 )
i=1

9
donde

f (yi |β0 , β1 , σ 2 ) = √ 1 exp[− 1 2 (yi − β0 − β1 xi )2 ]


2πσ2 2σ

Por lo tanto:
n
Y 1 1 1 1
L(β0 , β1 , σ 2 |x, y) = √ exp[− 2 (yi −β0 −β1 xi )2 ] = ( √ )n [exp(− 2 (y1 −β0 −
2πσ 2 2σ 2πσ 2 2σ
i=1
n
1 n 1 X
β1 x1 )2 ) ∗ · · · ∗ exp(− 2 (yn − β0 − β1 xn )2 )] = (2πσ 2 )− 2 exp[− 2 (yi − β0 − β1 xi )2 ]
2σ 2σ
i=1

Maximizar L(β0 , β1 , σ 2 |x, y) es equivalente a maximizar su logaritmo natural, cuya expre-


sión es:
n
n 1 X
logL(β0 , β1 , σ 2 |x, y) = − (log2π + logσ 2 ) − 2 (yi − β0 − β1 xi )2
2 2σ
i=1

Los estimadores βb0 ,βb1 y σ


b2 , se obtienen despues de derivar parcialmente la log- verosimil-
itud respecto a β0 ,β1 y σ 2 e igualando a 0. De lo anterior se obtiene el siguiente sistema
de ecuaciones:

n
∂L(β0 , β1 , σ 2 |x, y) 1 X
=− 2 (yi − βb0 − βb1 xi ) = 0
∂β0 b
σ
i=1

n
∂L(β0 , β1 , σ 2 |x, y) 1 X
=− 2 (yi − βb0 − βb1 xi )xi = 0
∂β1 b
σ
i=1

n
∂L(β0 , β1 , σ 2 |x, y) n 1 X
=− + 3 (yi − βb0 − βb1 xi )2 = 0
∂σ 2 b σ
σ b
i=1

Resolviendo el sistema de ecuaciones anterior se obtienen los estimadores MLE para β0 , β1


y σ2 :

βb0 = y − βb1x

βb1 =
Sxy
Sxx
10
1
Pn b b 2 1
Pn
e2 =
σ n i=1 (yi − β0 − β1 xi ) = n i=1 (yi − ybi )2 = n1 SSE

NOTA: Bajo el modelo de regresión lineal normal, es decir, con errores independientes
e idénticamente distribuidos (ǫi ∼ N (0, σ 2 )), los estimadores de mı́nimos cuadrados para
β0 y β1 son también estimadores de máxima verosimilitud y en tal caso, podemos con-
struir intervalos de confianza y realizar pruebas de hipótesis basadas en las estimaciones
obtenidas.

4. Estimación del parámetro σ 2

En el caso ideal, el estimador de σ 2 no deberı́a depender del ajuste del modelo de regre-
sión, lo cual, solo es posible cuando se dispone de información anterior del parámetro.
Usualmente no se tiene esta información, por lo cual, se emplean los métodos vistos ante-
riormente para realizar una estimación del mismo.

Por mı́nimos cuadrados ordinarios el estimado de parámetro se obtiene de la suma de


cuadrados de residuales (SSE), ası́:

n
X n
X
SSE = ǫ2i = (yi − ybi )2 = nȳ 2 − βb1 Sxy
i=1 i=1

Pero:

n
X
SST = (yi − ȳ)2 = nȳ − βb1 Sxy
i=1

Por lo tanto:

SSE = SST − βb1 Sxy

La suma de cuadrados de residuales tiene n − 2 grados de libertad, debido a la estimación


de βb0 y βb1 empleados para obtener ybi . Se puede demostrar que E(SSE ) = (n − 2)σ 2 , por
lo cual, un estimador insesgado de σ 2 es:

c2 = SSE = M SE
σ
n−2

11
c2 se
La cantidad M SE se denomina error cuadratico medio. La raı́z cuadrada de σ
denomina usualmente, el error estandar de la regresión.

NOTA: Como σ c2 depende de la SSE , cualquier violación de las hipótesis sobre los resid-
c2 como
uales o una mala especificación del modelo afecta significativamente la utilidad de σ
estimador de σ 2 .

Del estimador por máxima verosimilitud, se puede demostrar que:

 
n−2
E(σ̃ 2 ) = σ2
n

Por lo tanto, σ̃ 2 es un estimador sesgado de la varianza. Se puede demostrar que este


estimador es asintóticamente insesgado (lı́mn→∞ E(σ̃ 2 ) = σ 2 ).

NOTA: Mediante una transformación del estimador MLE para la varianza se puede con-
struir un estimador insesgado del parámetro de interés.

 
n
Sea σ̂ 2 el nuevo estimador el cual se obtiene premultiplicando por el estimador
n−2
MLE.

 
n
σ̂ 2 = e2
σ
n−2

Facilmente se puede demostrar que:

     
n n n−2
E(σ̂ 2 ) =E σ̃ 2 = σ2 = σ2
n−2 n−2 n

5. Propiedades Estadı́sticas de los Parámetros de Regresión


Bajo el Modelo Normal

5.1. Propiedades de los estimadores de Mı́nimos Cuadrados Ordinarios

Los estimadores βb0 y βb1 son variables aleatorias pues sus valores cambian de una muestra
a otra. Bajo el supuesto de normalidad en el componente aleatorio, los estimadores de
Mı́nimos Cuadrados Ordinarios tienen las siguientes propiedades:

12
1. Los estimadores de minimos cuadrados βb0 y βb1 son los mejores estimadores lineales
insesgados de β0 y β1 respectivamente y corresponden a los estimadores de máxima
verosimilitud bajo los supuestos estadisticos del modelo lineal.

2. βb0 y βb1 son combinaciones lineales de las variables aleatorias Y1 , . . . , Yn , pues estos
se pueden escribir de la siguiente manera:

Estimadores Pesos en las combinaciones lineales


n
X 1
b
β0 = di Yi di = n
− ci x
i=1
n
X xi −x
βb1 = ci Yi ci = Sxx
i=1

Como Y1 , . . . , Yn son variables aleatorias con distribución normal e incorrelacionadas,


entonces βb0 y βb1 son variables aletorias normales.

3. Para un valor de X = xi dado, se puede demostrar que:

Estimadores Distribución
 que
h sigue i
1 x
βb0 N β0, σ 2 + n Sxx
 
σ2
βb1 N β1, Sxx
 h i
2 1 (xi −x)2
Ybi N Yi, σ n + Sxx

4. La suma de los residuales de cualquier modelo de regresión con intercepto es siempre


igual a cero:
n
X n
X
ǫi = (yi − ybi ) = 0
i=1 i=1

5. La suma de los valores observados yi es igual a la suma de los valores ajustados ybi :
n
X n
X
yi = ybi
i=1 i=1

6. La lı́nea de regresión obtenida por mı́nimos cuadrados siempre pasa a través del
centroide de los datos (x, y).

7. La suma de los residuales ponderados por el correspondiente valor de la variable


predictora es cero:

13
n
X
xi ǫ i = 0
i=1

8. La suma de los residuales ponderados por el correspondiente valor ajustado es siem-


pre igual a cero:
n
X
ybi ǫi = 0
i=1

5.2. Propiedades de los estimadores MLE

Lo estimadores MLE tienen las siguientes propiedades:

Son de mı́nima varianza cuando son comparados con todos los posibles estimadores
insesgados.

Son estimadores consistentes, es decir, a medida que aumenta el tamaño de la mues-


tra, la diferencia entre estos y el respectivo parámetro tiende a cero.

Son estimadores suficientes, lo cual implica que contienen toda la información de la


muestra original de tamaño n.

6. INFERENCIAS SOBRE LOS PARÁMETROS DEL MOD-


ELO DE REGRESIÓN

6.1. Pruebas de Hipótesis sobre la pendiente y la ordenada al origen

Bajo los supuestos sobre los residuales (ǫi ∼ N (0, σ 2 ), independientes e identicamente
distribuidos) y dado que βb0 y βb1 son combinaciones lineales de los valores observados Yi′ s,
los cuales se distribuyen normalmente, se pudo comprobar en la sección anterior que:

    
σ2 1 x̄2
βb1 ∼ N β1 , y βb0 ∼ N β0 , σ2 +
Sxx n Sxx

Para realizar pruebas de hipótesis sobre β0 y β1 se procede de la siguiente manera:

Para β1 : Suponga que se desea probar la hipótesis que la pendiente es igual a una con-
stante. Las hipótesis correspondientes serán:

14
H0 : β1 = β1∗ H1 : β1 6= β1∗

βb1 − β1∗
El estadı́stico de prueba será: Zo = s ∼ N(0, 1) bajo H0 .
σ2
Sxx

Este estadı́stico de prueba solo puede ser utilizado cuando σ 2 es conocido. Si se emplea el
MSE como su estimador insesgado, el estadı́stico de prueba será:

βb1 − β1∗
to = r ∼ tn−2 bajo H0 .
M SE
Sxx

El número de grados de libertad asociados al estadı́stico de prueba resulta de la cantidad


de grados de libertad del error cuadratico medio.

Criterio de Rechazo: Se rechaza H0 con un nivel de significancia α si: |t0 | > tα/2,n−2
r
\ M SE
NOTA: SD(βb1 ) = se denomina error estandar estimado de la pendiente.
Sxx

Para β0 : Suponga que se desea probar la hipótesis que ordenada al origen es igual a una
constante. Las hipótesis correspondientes serán:

H0 : β0 = β0∗ H1 : β0 6= β0∗

βb0 − β0∗
El estadı́stico de prueba será: Zo = s  ∼ N(0, 1) bajo H0 .
1 x̄ 2 
σ2 +
n Sxx

Este estadı́stico de prueba solo puede ser utilizado cuando σ 2 es conocido. Si se emplea el
MSE como su estimador insesgado, el estadı́stico de prueba será:

βb0 − β0∗
to = s   ∼ tn−2 bajo H0 .
1 x̄2
M SE +
n Sxx

Criterio de Rechazo: Se rechaza H0 con un nivel de significancia α si: |t0 | > tα/2,n−2
s  
\ 1 x̄2
NOTA: SD(βb0 ) = M SE + se denomina error estandar estimado de la orde-
n Sxx
nada al origen.

15
6.2. Estimación de intevalos de confianza del (1 − α)100 % la pendiente y
la ordenada al origen

Bajo los supuestos sobre los residuales (ǫi ∼ N (0, σ 2 ), independientes e identicamente
distribuidos) y dado que βb0 y βb1 son combinaciones lineales de los valores observados yi′ s,
los cuales se distribuyen normalmente, se pudo comprobar en la sección anterior que:

    
σ2 1 x̄2
βb1 ∼ N β1 , y βb0 ∼ N β0 , σ2 +
Sxx n Sxx

De los estadı́sticos de prueba planteados anteriormente se obtienen las siguientes expre-


siones para los intervalos de confianza de los coeficientes de regresión β0 y β1 :
s  
1 x̄2
βb0 ± tα/2,n−2 M SE +
n Sxx
r
M SE
βb1 ± tα/2,n−2
Sxx

NOTA: tα/2,n−2 es el cuantil α/2 de la distribución t de student.

NOTA 1: Cuando el IC del (1 − α)100 % para β1 no contiene el valor cero (0), se puede
afirmar que la variable respuesta Y está relacionada con la covariable X de forma aproxi-
madamente lineal, de lo contrario no existe relación de primer orden entre estas.

NOTA 2: Si en el contexto del problema tiene sentido el valor X = 0 y el intervalo de


confianza para β0 contiene el valor de cero, se recomienda ajustar el modelo sin intercepto
al origen, es decir, Y = β1 X + ε

6.3. Pruebas de significancia de la regresión

6.3.1. Prueba t

Un caso particular de las pruebas mencionadas anteriomente consiste en determinar si el


modelo de regresión lineal ajustado es significativo. Para probarlo se determina si la vari-
abilidad en la variable respuesta explicada por la regresión en X es significativa respecto a
la varibilidad total observada, es decir, si la pendiente es significativa, entonces la regresión
lo es.

Ahora se desea probar la hipótesis que la pendiente es significativa. Las hipótesis corre-
spondientes serán:

16
H0 : β1 = 0 H1 : β1 6= 0

βb1
El estadı́stico de prueba será: Zo = s ∼ N(0, 1) bajo H0 .
σ2
Sxx

Este estadı́stico de prueba solo puede ser utilizado cuando σ 2 es conocido. Si se emplea el
MSE como su estimador insesgado, el estadı́stico de prueba será:

βb1
to = r ∼ tn−2 bajo H0 .
M SE
Sxx

Criterio de Rechazo: Se rechaza H0 con un nivel de significancia α si: |t0 | > tα/2,n−2

NOTA: Se puede apreciar que rechazar la hipótesis nula en la prueba de significancia de


la regresión permite afirmar que la relación entre las variables Y y X puede aproximarse
mediante una lı́nea recta.

Al aceptar H0 la prueba indica que el modelo de primer orden no es apropiado para


explicar la relación entre las variables (pueden tener otro tipo de asociación no lineal).

6.3.2. Análisis de Varianza

Un enfoque alternativo de realizar la prueba de significancia de la regresión consiste en


la descomposición de la variabilidad total observada en la variable respuesta, SST, como
la suma de componentes o fuentes de variabilidad de acuerdo al modelo propuesto. En el
modelo de regresión lineal se plantea que la respuesta es igual a la suma de una compo-
nente debida al modelo de regresión y otra debida a un error aleatorio.

La medida de la variabilidad total en Y, denotada SST , es medida en términos de las


desviaciones de cada observación yi respecto a su media muestral ȳ, ası́:

n
X
SST = (yi − ȳ)2 (1).
i=1

NOTA: Al sumar y restar ybi a estas desviaciones se obtiene: yi − ȳ = (b


yi − ȳ) + (yi − ybi )
(2).

17
Donde ybi − ȳ es la desviación debida al ajuste de la regresión y yi − ybi es la desviación
debida al error de ajuste.

Reemplazando (2) en (1) y realizando el producto notable se tiene que:


n
X n
X n
X n
X
2 2 2
SST = yi − ȳ) + (yi − ybi )) =
((b (b
yi − ȳ) + (yi − ybi ) + 2 yi − ȳ)(yi − ybi )
(b
i=1 i=1 i=1 i=1

Dadas las condiciones de normalidad, e independencia establecidas para los errores, es


Xn
posible demostrar que yi − ȳ)(yi − ybi ) = 0, por lo tanto:
(b
i=1

n
X n
X
2
SST = (b
yi − ȳ) + (yi − ybi )2
i=1 i=1

n
X
Donde SSR = yi − ȳ)2 se conoce como la Suma de cuadrados de regresión y mide
(b
i=1
la cantidad de variabilidad en las yi que es explicada por la recta de regresión ajustada y
Xn
SSE = (yi − ybi )2 es la conocida suma de cuadrados de residuales.
i=1

Por lo tanto: SST = SSR + SSE . Esta identidad se denomina Identidad fundamental del
análisis de varianza.

Definiciones:

SST: Suma de cuadrados totales o Suma de cuadrados corregidos en Y. Mide la variabili-


dad total en presente en la variable respuesta Y.

SSR: Suma de cuadrados de la Regresión. Mide la cantidad de variabilidad en la observa-


ciones Yi ’s que es explicada por la recta de regresión ajustada.

SSE: Suma de cuadrados de los Residuales o del componente de error aleatorio. Mide
la cantidad de variabilidad en la observaciones Yi ’s que NO es explicada por la recta de
regresión ajustada.

Para el cálculo de las sumas de cuadrados se emplean frecuentemente las siguientes expre-
siones:
n
X
SST = yi2 − nȳ 2 SSR = βb1 Sxy = βb12 Sxx
i=1

18
SSE = SST − SSR

Cada una de las sumas de cuadrados tiene asociado un parámetro denominado grados de
libertad, el cual define el número de observaciones independientes disponibles en la suma.
En la siguiente tabla se resume el valor de dicho parámetro:

Suma de Cuadrados SST SSR SSE


Grados de libertad n−1 1 n−2

SST : Pierde un grado de libertad como resultado de la restricción impuesta para las desvia-
ciones yi − ȳ.

SSR : Solo tiene un grado de libertad por ser completamente determinado por βb1 .

SSE : Pierde dos grados de libertad como resultado de las restricciones impuestas, una
para las desviaciones yi − ybi y la otra como resultado de estimar βb0 y βb1 .

Con base en lo anterior se construyen estimaciones independientes del parámetro σ 2 (re-


cuerden la partición de la variabilidad total), usando la respectiva suma de cuadrados
dividida por sus grados de libertad, ası́:

SSR SSE
M SR = M SE =
1 n−2

Por lo tanto se puede establecer la prueba de significancia de la regresión utilizando la


descomposición de la variabilidad total ası́:

H0 : β1 = 0 H1 : β1 6= 0

M SR
El estadı́stico de prueba será: Fo = ∼ f1,n−2 bajo H0 .
M SE
Se puede demostrar que:

E(M SE ) = σ 2

E(M SR ) = σ 2 + βb1 Sxx

19
Por lo tanto, si β1 6= 0 entonces Fo sigue una distribución F no central, con 1 y n-2 grados
de libertad respectivamente, y parámetro de NO centralidad λ, dado por:

βb12 Sxx
λ=
σ2

Criterio de Rechazo: El parámetro de No centralidad indica que el valor observado Fo


debe ser grande si β1 6= 0. Por lo tanto, se rechaza H0 con un nivel de significancia α si:
Fo > fα,1,n−2

También podemos evaluar el valor p de la prueba que es igual a P (f1,n−2 > Fo ) y determi-
nar si es pequeño, para rechazar la hipótesis: el modelo lineal de Y en X no es significativo
para explicar la variabilidad de Y?.

Se rechaza H0 con un nivel de significancia α si: P (f1,n−2 > Fo ) < α. Donde α es el nivel
de significancia de la prueba.

NOTA: Las dos formas de probar la significancia de la regresión son equivalentes, se puede
demostrar que t2o,β1 ≡ Fo y el valor p para las dos pruebas es el mismo.

El análisis de varianza suele presentarse de forma resumida en forma de tabla, conocida


como tabla ANOVA, donde los cuadrados medios corresponden a las sumas de cuadrados
divididas por sus respectivos grados de libertad:

Fuente de Variación SS Grados de libertad MS Fo


SSR M SR
Regresión SSR 1 M SR = Fo =
1 M SE
SSE
Error SSE n−2 M SE =
n−2
Total SST n−1

7. COEFICIENTE DE DETERMINACIÓN

Es una cantidad denotada R2 que aparece como resultado del modelo de regresión lineal
simple ajustado, la cual ha sido utilizada erróneamente como medida de bondad del ajuste
lineal del modelo sobre los datos. Se define como la razón entre la suma de cuadrados de
la regresión y la suma de cuadrados totales, ası́:

SSR SSE
R2 = =1−
SST SST

20
R2 se interpreta como la proporción de la variabilidad total observada en la variable re-
spuesta, que es explicada por la relación lineal con la variable predictora considerada.

Cuando todos los datos se encuentran sobre la recta de regresión estimada, es decir, cuando
el ajuste es perfecto, la suma de cuadrados de residuos, SSE, toma el valor cero y por lo
tanto R2 = 1. En el caso estrictamente opuesto R2 = 0. De lo anterior se deduce que el
R2 es una medida que se encuentra entre 0 y 1 (0 ≤ R2 ≤ 1).

Lo anterior implica que valores cercanos a 1 indican una mayor asociación lineal entre X
e Y, y, valores cercanos a cero indican una pobre relación lineal entre estas (lo cual no
excluye otros tipos de asociaciones).

Observaciones y recomendaciones sobre R2

Un R2 cercano a uno no garantiza que el modelo de RLS ajustado sea adecuado para
los datos, no necesariamente garantiza que los supuestos básicos del modelo lineal
se estén cumpliendo y menos que no haya carencia de ajuste lineal.

R2 no mide la magnitud de la pendiente de la recta de regresión, es decir, un R2 no


implica que la pendiente β̂1 sea grande (- o +).

8. INFERENCIA RESPECTO A LA RESPUESTA ME-


DIA

Uno de los objetivos fundamentales en el análisis de regresión consiste en determinar el


valor medio de la distribución de probabilidad de la variable respuesta Y para un valor
dado de la covariable, por ejemplo, X = Xo . La estimación de la respuesta media denotada
\
E[Y \
|Xo ] o µ Y |Xo puede ser puntual o por intervalo.

El estimador puntual para E[Y |Xo ] está dado por la ecuación de regresión ajustada eval-
uada en el valor X = Xo , de la siguiente manera:

\
E[Y \
|Xo ] = µ b b
Y |Xo = β0 + β1 Xo

NOTA: Tal estimación solo es válida para valores X = Xo dentro del rango de los valores
originales de la covariable empleados para el ajuste del modelo de RLS.

Por lo tanto, el estimador puntual de la respuesta media es una variable aleatoria con
distribución normal (por ser combinación lineal de βb0 y βb1 ) con valor esperado y varianza

21
dadas por:

E[\ \
µY |Xo ] = E[E[Y |Xo ]] = E[βb0 + βb1 Xo ] = E[βb0 ] + E[βb1 Xo ] = β0 + β1 Xo

NOTA: La demostración anterior implica que el estimador puntual de la respuesta media


es insesgado.

Como βb0 y βb1 pueden ser expresados como combinación lineal de los Yi , el estimador
puntual de la respuesta media también se puede escribir combinación lineal de estos valores
observados, ası́:

n
X  
\ 1
E[Y |Xo ] = bi Y i ,donde, bi = + (Xo − X̄)Ci
n
i=1

De lo anterior se puede demostrar que la varianza de la respuesta media esta dada por:

 
\ 1 (Xo − X̄)2
V [E[Y |Xo ]] = σ 2 +
n Sxx

  
1 (Xo − X̄)2
Por lo tanto: E[Y |Xo ] ∼ N β0 + β1 Xo , σ2 +
n Sxx

Usualmente σ 2 es un parámetro desconocido. Empleando el MSE como estimador inses-


gado de σ 2 se deduce que la varianza estimada de la respuesta media es:

 
\\ 1 (Xo − X̄)2
V [E[Y |Xo ]] = M SE +
n Sxx

y la desviación estandar estimada por:

r s  
\|Xo ]] = \\ 1 (Xo − X̄)2
DE[E[Y V [E[Y |Xo ]] = M SE +
n Sxx

Estandarizando la respuesta media cuya distribución normal se enuncio anteriormente se


tiene que:

\
E[Y |X ] − E[Y |Xo ]
s  o  ∼ N (0, 1)
1 (X − X̄)2
o
σ2 +
n Sxx

22
Empleando el estimador insesgado de σ 2 (parámetro usualmente desconocido) se obtiene:

\
E[Y |Xo ] − E[Y |Xo ]
s   ∼ tn−2
1 (Xo − X̄)2
M SE +
n Sxx

De la expresión anterior se puede deducir que un INTERVALO DE CONFIANZA del


(1 − α)100 % para la respuesta media dado el valor X = Xo en la covariable esta dado
por:

s  
\ 1 (Xo − X̄)2
E[Y |Xo ] ± tα/2,n−2 M SE +
n Sxx

s  
c 1 (Xo − X̄)2
Yo ± tα/2,n−2 M SE +
n Sxx

Donde tα/2,n−2 es el cuantil α/2 de la distribución t de estudent.

NOTAS:

La longitud del intervalo de confianza es una función del valor X = Xo .

El IC de longitud mı́nima se obtiene cuando Xo = X̄ y crece a medida que |Xo − X̄|


aumenta.

PRECAUCIÓN: No realizar extrapolaciones por fuera del rango de variación observado


en el conjunto de datos sobre la variable explicatoria.

9. INFERENCIA RESPECTO A LA ESTIMACIÓN DE


VALORES FUTUROS (PREDICCIÓN)

Cuando se tiene un modelo de RLS también puede ser de interés predecir el valor de
una nueva observación Yo que corresponda a un nivel especificado de la covariable X. Sea
X = Xo el valor de interés, entonces un estimador puntal del nuevo valor de la variable
respuesta Y está dado por la ecuación de regresión ajustada evaluada en el valor X = Xo ,
de la siguiente manera:

23
c \
Yo = µ b b
Y |Xo = β0 + β1 Xo

NOTA: Es evidente que el estimador puntual de la respuesta media y el de valores futuros


es el mismo.

Los intervalos de predicción estiman los posibles valores para un valor particular de la
variable respuesta (no para su media) en un valor dado. Asumimos que en este valor
particular tenemos un valor futuro de la variable aleatoria Y, y por tanto, no fue utilizado
en la regresión.

De lo anterior se deduce que el IC para la respuesta media no es apropiado como intervalo


de predicción, ya que solo cubre valores posibles E[Y |Xo ] y no puede cubrir el valor futuro
Yo .

Si Yo es un valor futuro y Y co = µ \ b b
Y |Xo = β0 + β1 xo es su estimador, entonces estas dos
variables aleatorias son estadı́sticamente independientes, dado que Yo no fue utilizado para
hallar a βb0 y βb1

Para la construcción de un intervalo de predicción se considera la variable aleatoria Yo − c


Yo
que tiene media cero y varianza dada por:

V [Yo − c
Yo ] = V [Yo ] + V [c
Yo ] − 2Cov[Yo , c
Y ]
| {z o}

Por independencia estadı́stica entre las variables implicadas la Cov[Yo , c


Yo ] es igual a cero,
por lo tanto:

   
1 (Xo − X̄)2 1 (Xo − X̄)2
V [Yo − c
Yo ] = V [Yo ] + V [c
Yo ] = σ 2 + σ 2 + = σ2 1+ +
n Sxx n Sxx

Por lo tanto, la variable aleatoria Yo − c


Yo tiene la siguiente distribución normal:

  
c 2 1 (Xo − X̄)2
(Yo − Yo ) ∼ N 0, σ 1 + +
n Sxx

Usualmente σ 2 es un parámetro desconocido. Empleando el MSE como estimador inses-


gado de σ 2 se deduce que la varianza estimada de la variable aleatoria Yo − c
Yo es:
 
\c 1 (Xo − X̄)2
V [Yo − Yo ] = M SE 1 + +
n Sxx

y la desviación estandar estimada por:

24
s  
\ 1 (Xo − X̄)2
DE[Yo − c
Yo ] = M SE 1 + +
n Sxx

Estandarizando la variable aleatoria Yo − c


Yo cuya distribución normal se enuncio anteri-
ormente se tiene que:

co
Yo − Y
s   ∼ N (0, 1)
1 (Xo − X̄)2
σ2 1+ +
n Sxx

Empleando el estimador insesgado de σ 2 (parámetro usualmente desconocido) se obtiene:

Yo − c
Yo
s   ∼ tn−2
1 (Xo − X̄)2
M SE 1 + +
n Sxx

De la expresión anterior se deduce que un INTERVALO DE PREDICCIÓN del (1 −


α)100 % para un valor futuro de la variable respuesta Y dado X = Xo como valor de la
covariable, esta dado por:
s  
c 1 (Xo − X̄)2
Yo ± tα/2,n−2 M SE 1 + +
n Sxx

Donde tα/2,n−2 es el cuantil α/2 de la distribución t de estudent.

PRECAUCIÓN: No realizar extrapolaciones por fuera del rango de variación observado


en el conjunto de datos sobre la variable explicatoria.

10. COMPROBACIÓN DE LA ADECUACIÓN DEL MOD-


ELO

10.1. DIAGNÓSTICOS Y MEDIDAS REMEDIALES

Una labor de vital importancia para el analista consiste en determinar casos especificos en
el comportamiento de los datos que puedan afectar significativamente el ajuste adecuado
de un modelo y la inferencia que se puede obtener de este. Se presentarán a continuación
los problemas de mayor impacto en los Modelos de Regresión lineal simple (Diagnosticos)
y algunas metodologı́as para contrarestar el problema (Medidas Remediales).

25
10.1.1. Diagnósticos para la covariable

Antes y después de ajustar un modelo inicial (el cuál no ajusta de forma adecuada a los
datos) se hace un análisis de los datos de la variable regresora que consiste en:

Identificar observaciones extremas (alejadas hacia valores muy grandes o pequeños


comparadas con el resto de valores) en X que puedan influenciar el ajuste de regre-
sión. Para ello se recurre a un análisis descriptivo: boxplots, diagramas de puntos.

Identificar patrones en X, si se conoce la secuencia de tiempo que corresponde al


conjunto de valores, mediante un gráfico de X vs. tiempo o algún ı́ndice de secuencia
u orden.

10.1.2. Diagnósticos para el modelo ajustado

Cualquier desviación del modelo de los supuestos básicos de la regresión puede ser de-
tectada a través de los residuales. Los seis tipos de desviaciones que pueden presentarse
son:

La función de regresión no es lineal (carencia de ajuste).

Los residuales no tienen distribución normal.

Los residuales no independientes.

Los residuales no tienen varianza constante.

Una o varias variables predictoras han sido omitidas en el modelo.

El modelo ajusta bien pero unas pocas observaciones son outliers

Ahora se analizarán cada una de estas desviaciones con más detalle, para posteriormente
dar las medidas remediales para cada uno de los casos.

10.1.3. Primer Desviación: Función de regresión no lineal

Puede identificarse gráficamente a través del gráfico de residuales vs. valores predichos o
versus valores de la covariable. Cuando ocurre esta desviación, el gráfico exhibe un patrón
en el cual los residuales se desvı́an de cero en forma sistemática, por ejemplo, cuando la
nube de puntos de estos gráficos presentan forma de una U o S, o de una U o S invertida.

26
Otra forma de probar la no linealidad del modelo, es mediante el test de carencia de
ajuste. La falta de ajuste constituye una violación del supuesto de linealidad, el cual esta
implicito una vez se asume que la relación que la relación entre las variables Y y X es
aproximadamente lineal.

Este test prueba que un tipo especı́fico de función de regresión ajusta adecuadamente a
los datos. El test asume que los valores de Y dado X son:

Son independientes.

Son identicamente distribuidos en forma normal.

Tienen varianza constante.

NOTA: Solo es posible realizar esta prueba cuando se tiene en al menos un nivel de la
variable regresora X, dos o más valores distintos (observaciones) de la variable respuesta
Y (independientes). Los ensayos repetidos de manera independiente para el mismo nivel
de la variable predictora son denominados replicaciones.

NOTA: En esta prueba las replicas son utilizadas para obtener un estimador de σ 2 inde-
pendiente del modelo de regresión ajustado.

El objetivo de esta prueba es contrastar la siguiente prueba de hipótesis:

Ho : E[Y |X = Xi ] = β0 + β1 Xi VS H1 : E[Y |X = Xi ] 6= β0 + β1 Xi

Aceptar la hipótesis inicial implica que el modelo de primer orden es apropiado para
explicar la relación entre las variables X e Y. Caso contrario ocurre si se rechaza Ho .

Supongase que se tienen m niveles distintos de la variable regresora X, cada uno de estos
tiene ni observaciones independientes de la variable respuesta Y, con i = 1, 2, 3, . . . , m.
Por lo tanto las observaciones muestrales pueden organizarse de la siguiente forma:

x y ni
x1 y11 y12 . . . y1,n1 n1
x2 y21 y22 . . . y2,n2 n2
.. .. .. .. .. ..
. . . . . .
xm ym1 ym2 . . . ym,nm nm

Donde:

27
Yij representa la j-ésima observación de la variable respuesta asociada al i-esimo
nivel de la variable regresora X.

ni representa el número de observaciones de la variable respuesta en el i-esimo nivel


de la variable regresora X.
m
X
Por lo tanto, n = ni es el número total de observaciones.
i=1

La prueba de falta de ajuste se basa en la descomposición de las suma de cuadrados


asociada al componente de error aleatorio (SSE) apoyandose en la siguiente expresión
para las desviaciones de las observaciones respecto a sus valores ajustados:

εij = Yij − Ŷi = (Yij − Ȳi ) + (Ȳi − Ŷi )


| {z }
sumando y restando Ȳi

Bajo el concepto de suma de cuadrados de residuales se plantea la siguiente doble suma-


toria:

X ni
m X ni
m X
X
(Yij − Ŷi )2 = ((Yij − Ȳi ) + (Ȳi − Ŷi ))2
i=1 j=1 i=1 j=1
Xm X ni ni
m X
X ni
m X
X
2 2
= (Yij − Ȳi ) + (Ȳi − Ŷi ) + 2 (Yij − Ȳi )(Ȳi − Ŷi )
i=1 j=1 i=1 j=1 i=1 j=1

Por independencia el último término es igual a cero y por lo tanto:

X ni
m X ni
m X
X ni
m X
X
(Yij − Ŷi )2 = (Yij − Ȳi )2 + (Ȳi − Ŷi )2
i=1 j=1 i=1 j=1 i=1 j=1
| {z } | {z } | {z }
SSE SSEP SSF A

Definiciones:

SSEP : Suma de cuadrados debido al error neto o puro. Mide la proporción de variabilidad
asociada al error netamente experimental o puro, esta cantidad se debe a la variación de
la variable respuesta Y, dentro de los valores dados en la covariable X.

SSF A : Suma de cuadrados debido a la falta de ajuste. Mide la proporción de variabilidad


asociada al error por la falta de ajuste del modelo de RLS, es decir, es una medida de

28
la variación sistemática introducida por valores en Y que se alejan del patrón lineal o de
primer orden.

Si se satisface la hipótesis de varianza constante de los errores V (εi ) = σ 2 , entonces la


SSEP es un estimador de σ 2 independiente del modelo, ya que solo se usa en su
estimación la variabilidad de los valores observados Yi ’s en cada nivel de la covariable X.

Como cualquier suma de cuadrados vista hasta el momento SSEP y SSF A tienen asociados
ciertos grados de libertad, los cuales se permiten definir los cuadrados medios debido al
error puro y a la falta de ajuste, como estimadores independientes de la variabilidad
presente en las realizaciones del componente de error aleatorio. Veamos:

Suma de Cuadrados SSE SSEP SSF A


Grados de libertad n−2 n−m m−2

De lo anterior se derivan las expresiones para la proporción de variabilidad asociada al


error netamente experimental o puro y la proporción debida a la falta de ajuste.

SSEP SSF A
M SEP = M SF A =
n−m m−2

Se puede demostrar que:

E(M SEP ) = σ 2
Pm
β0 − β1 Xi )2
i=1 ni (E[Yi ] −
E(M SF A ) = σ2 +
m−2

Observe que si la función de asociación verdadera es lineal, entonces:


P
E[Yi ] = [Y |X = Xi ] = β0 +β1 Xi y por lo tanto, el término m 2
i=1 ni (E[Yi ]−β0 −β1 Xi ) = 0,
2
lo cual implicarı́a que E(M SF A ) = σ . Por otro lado, si la función de asociación verdadera
NO es lineal entonces E(M SF A ) > σ 2 .

De lo anterior se define el estadı́stico de prueba para el test de falta de ajuste, de la


siguiente manera:
M SF A
El estadı́stico de prueba será: Fo = ∼ fm−2,n−m bajo H0 .
M SEP
Criterio de Rechazo: Se rechaza H0 con un nivel de significancia α si: Fo > fα,m−2,n−m

Se rechaza H0 con un nivel de significancia α si: P (f1,n−2 > Fo ) < α. Donde α es el nivel
de significancia de la prueba.

29
Inferencia: Si aceptamos la hipótesis inicial se puede concluir que la función de asociación
verdadera entre X e Y es aproximadamente lineal. Si rechazamos Ho , en tal caso se concluye
que el modelo de regresión no es lineal en X.

En la tabla ANOVA puede presentarse el test de carencia de ajuste descomponiendo el


SSE del modelo:

Fuente de Variación SS Grados de libertad MS Fo


SSR M SR
Regresión SSR 1 M SR = Fo =
1 M SE
SSE
Error SSE n−2 M SE =
n−2
SSF A M SF A
Carencia de Ajuste SSF A m−2 M SF A = Fo =
m−2 M SEP
SSEP
Error Puro SSEP n−m M SEP =
n−m
Total SST n−1

NOTAS:

En general, la prueba de carencia de ajuste puede aplicarse a otras funciones de


regresión, sólo se requiere modificar los grados de libertad del SSF A , que en general
corresponden a m−p , donde p es el número de parámetros en la función de regresión.
Para el caso especı́fico de la regresión lineal simple, p=2.

Cuando se concluye que el modelo de regresión en H0 es apropiado, la práctica usual


es usar el MSE y no el M SEP como un estimador de la varianza, debido a que el
primero tiene más grados de libertad.

Cualquier inferencia sobre los parámetros del modelo lineal, por ejemplo la prueba
de significancia de la regresión, sólo debe llevarse a cabo luego de haber probado que
el modelo lineal es apropiado.

Medidas Remediales: Función de regresión no lineal

Como soluciones al problema el modelo de regresión lineal no es apropiado se tienen:

Abandonar el modelo de regresión lineal y desarrollar un modelo más apropiado.

Emplear alguna transformación en los datos de manera que el modelo de regresión


lineal sea apropiado a los datos transformados.

Se pueden usar curvas de regresión no paramétricas también llamadas curvas suavizadas,


para explorar y/o confirmar la forma de la función de regresión, por ejemplo el

30
método LOESS. En este caso la curva suavizada se grafica junto con las bandas de
confianza del modelo de regresión; si la primera cae entre las segundas, entonces se
tiene evidencia de que el modelo ajustado es apropiado.

10.1.4. Segunda Desviación: Los residuales no tienen distribución normal

Una de las prioridades despues de ajustar un MRLS consiste en la validar los supuestos
sobre el componente de error aleatorio. La validación del supuesto de normalidad se puede
realizar por medio de un test de normalidad o bien, mediante un gráfico de normalidad.

ANÁLISIS GRÁFICO

En los gráficos de normalidad o gráficos de cuantil - cuantil para detectar normalidad


(qqplot) se evalúa si la nube de puntos de una determinada variable aleatoria (cuantiles
de la v.a) se ajustan adecuadamente a los cuantiles de la escala normal.

Si el ajuste es perfecto el gráfico cuantil - cuantil mostrará una asociación lineal per-
fecta entre los cuantiles enunciados anteriormente. Cualquier desviación severa de este
comportamiento dará indicios de la no normalidad de la variable aleatoria bajo estudio.

Ahora analicemos el caso de los residuales en un MRLS:

Figura 3: Gráfico Cuantil-Cuantil para la Distribución Normal (qqplot)

El gráfico anterior es un buen ejemplo de normalidad en los residuales, es evidente que

31
la asociación entre los cuantiles de los residuales obtenidos de la muestra aleatoria y los
cuantiles teóricos de la distribución normal es aproximadamente lineal, no hay patrones o
tendencias que indiquen una posible no normalidad.

NOTA: Patrones parabólicos o en forma de S (Casos Graves) indican no normalidad en


los residuales.

PRUEBAS DE NORMALIDAD

Los tests de normalidad se aplican a conjuntos de datos para determinar su similitud con
una distribución normal.

En las pruebas de normalidad para los residuales evaluamos: H0 : Los errores tienen
distribución normal (εi ∼ N ) vs. H1 : Los errores no son normales (εi ≁ N ),

La validación de esta prueba puede realizarse examinando los valores P arrojados por
una prueba especı́fica de normalidad. La mayorı́a de paquetes estadı́sticos presentan las
siguientes pruebas de normalidad:

Shapiro - Wilk

Kolmogorov - Smirnov

Cramer - Von Mises

Anderson - Darling

CRITERIO DE RECHAZO: Se rechaza H0 con un nivel de significancia α si: V P < α.


Donde α es el nivel de significancia de la prueba.

Medidas Remediales: Los residuales no tienen distribución normal

Encontrar una transformación de los datos que permita corregir la no normalidad, entre
estas se tienen las transformaciones de potencia Box-Cox (Y λ ).

La carencia de normalidad frecuentemente va de la mano con la no homogeneidad de la


varianza, por ello, a menudo una misma transformación de los valores de Y, logra estabi-
lizar la varianza y una aproximación a la normalidad. En estos casos se debe usar primero
una transformación que estabilice la varianza y evaluar si el supuesto de normalidad se
cumple para los datos transformados.

Otra solución es trabajar con métodos no paramétricos de regresión.

32
10.1.5. Tercera Desviación: Los residuales no tienen varianza constante

Una forma práctica y usualmente útil para determinar si los residuales tienen varianza
constante es a través del gráfico de residuales vs. valores ajustados o predichos. A contin-
uación se presentaran los patrones o prototipos más comunes en los residuales. Un análisis
correcto del comportamiento de los residuales permitirá al analista determinar si varianza
de estos es ó no constante.

33
También puede recurrirse a un test de homogeneidad de varianza, como el test de Levene
Modificado, el cual no depende del supuesto de normalidad.

Problemas:

El test de Levene es aplicable cuando la varianza se incrementa o disminuye con X.

Los tamaños de muestra necesitan ser suficientemente grandes para que la depen-
dencia entre los residuales pueda ser ignorada.

Medidas Remediales: Los residuales no tienen varianza constante

Usar transformaciones en Y que estabilicen la varianza.


PROBLEMA: Cuando la varianza no es constante pero la relación de regresión
es lineal, no es suficiente transformar a Y, pues aunque se estabilice la varianza,
también cambiará la relación lineal a una curvilı́nea y por ende, se requerirá también
una transformación en X ; sin embargo, este caso puede manejarse también usando
mı́nimos cuadrados ponderados.

Emplear otro procedimiento para la estimación de parámetros. Usualmente se utiliza


el método de Mı́nimos cuadrados ponderados cuando la varianza del error varı́a de
forma sistemática.
DIFERENCIA: En la función objetivo de mı́nimos cuadrados, las diferencias entre
los valores observados y esperados de Yi es multiplicada por un peso o factor de
ponderación ωi , tomado en forma inversamente proporcional a la varianza de Yi . De
la siguiente manera:

n
X
S(β0 , β1 ) = ωi (yi − β0 − β1 xi )2
i=1

34
10.1.6. Cuarta Desviación: No independencia de los residuales

Para probar el supuesto de independencia es necesario conocer el orden de las observaciones


en el tiempo. Si es ası́, podemos analizar el supuesto a través del gráfico de residuales vs.
el tiempo u orden de recolección de los datos. Se buscan patrones sistemáticos como ciclos,
rachas, y cualquier otro comportamiento que indique correlación entre los valores de la
serie o secuencia de los residuales.

Existen pruebas formales para la detección de correlaciones entre los residuales como el
test de Durbin Watson generalizado.

NOTA: En general, mientras sea desconocido el orden de recolección u observación de los


datos, asumimos como válido el supuesto de independencia.

Medidas Remediales: No independencia de los residuales

Como soluciones al problema de no independencia de los errores se tienen:

Trabajar con modelos con errores correlacionados.

Adicionar variables de tendencia, estacionalidad.

Trabajar con primeras diferencias.

10.1.7. Quinta Desviación: Presencia de puntos atı́picos

Se has desarrollado métodos formales y gráficos para la identificación de puntos atı́picos.


Entre los métodos gráficos, se utilizan los gráficos de residuales vs. X o vs. valores ajus-
tados. Residuales a más de dos desviaciones estándar son sospechosas y aquellos a más
de tres desviaciones estándar se consideran outliers. Entre los métodos formales estan los
residuales estandarizados, los residuales estudentizados, entre otras.

Medidas Remediales: Presencia de puntos atı́picos

Siempre y cuando un puntos atı́picos sea originado por un error de registro, de cálculo o
de medición éste debe ser eliminado. De otra forma hay que proceder con cautela, porque
es posible que tal tipo de observación contenga información valiosa sobre un fenómeno
especial que no ha sido capturado por el modelo

35
10.1.8. Sexta Desviación: Una o varias variables predictoras han sido omitidas
en el modelo

Se puede realizar un análisis para determinar si el modelo puede ser mejorado adicionando
otras variables predictoras. El diagnóstico se realiza graficando los residuales del modelo
actual vs. niveles de la variable omitida y evaluar si los residuales tienden o no a variar
sistemáticamente con los niveles de la variable predictora adicional.

11. TRANSFORMACIONES

Son modificaciones de los datos originales que no afectan la información contenida en


estos, se clasifican en transformaciones estabilizadoras de varianza y en transformaciones
para linealizar la asociación entre la variable respuesta y la variable explicativa.

11.1. Transformaciones Estabilizadoras de Varianza

Por ser un supuesto básico en el análisis de regresión es importante descubrir y corregir


el problema de tener varianza no constante en los residuales, pues esto implicarı́a que los
coeficientes de regresión estimados tendran errores estandar muy elevados, lo cual conlleva
a tener un modelo muy impreciso.

Generalmente el efecto de una transformación suele proporcionar estimadores más precisos


de los parámetros del modelo y mayor sensibilidad en las pruebas estadı́sticas. La familia
de transformaciones más utilizada para resolver los problemas de falta de normalidad y
de heterocedasticidad es la familia de Box-Cox, cuya definición es la siguiente:

Se desea transformar la variable Y, cuyos valores muestrales se suponen positivos, en caso


contrario se suma una cantidad fija M tal que Y + M > 0. La transformación de Box-Cox
depende de un parámetro λ por determinar y viene dada por:
 λ
y − 1
si λ 6= 0
Z(λ) = λ

log(y) si λ 6= 0

Si se quieren transformar los datos para conseguir normalidad, el mejor método para esti-
mar el parámetro λ es el de máxima verosimilitud y se calcula como sigue: para diferentes
valores de λ se realiza la transformación:
 λ
 y − 1 si λ 6= 0
U (λ) = λẏ λ−1

ẏ log(y) si λ 6= 0

36
siendo ẏ la media geométrica de la variable Y. Para cada λ, se obtiene el conjunto de
n
valores {Ui (λ)}i=1 . La función de verosimilitud es:

n
!
n X
L(λ) = − ln (Ui (λ) − Ū (λ))
2
i=1

Se elige el parámetro λ̂ que maximiza L(λ). En la práctica, se calcula L(λ) para un enrejado
(grid) de valores de λ lo cual permite dibujar aproximadamente la función L(λ) y se obtiene
el máximo de la misma. Valores muy utilizados del parámetro λ son los siguientes:

Relación entre σ 2 y E[Y |X] Transformación Definición


σ 2 ∝ Constante Y T =√Y NO hay transformación
σ 2 ∝ E[Y |X] YT = Y Raiz Cuadrada
σ 2 ∝ E[Y |X]2 Y T = Ln(Y ) Logaritmica
1
σ 2 ∝ E[Y |X]3 YT = √ Raiz Cuadrada Recı́proca
Y
T 1
σ 2 ∝ E[Y |X]4 Y = Recı́proca
Y

11.2. Transformaciones: Modelos Intrı́nsicamente Lineales

Un modelo de regresión se considera lineal cuando lo es en los parámetros, por ello las
transformaciones en las variables no implican modelos no lineales. Los modelos intrı́nsica-
mente lineales son aquellos que relacionan Y con X por medio de una transformación en
Y y/o en X, originando un modelo de la forma Y ∗ = β0 + β1 X ∗ + ε, donde Y ∗ y X ∗ son
las variables transformadas.

A continuación se listará los casos más comunes de modelos intrı́nsicamente lineales:

11.2.1. Modelo de potencia multiplicativo

Función Linealizable: Y = β0 X β1 ε

Transformación: Empleando el logaritmo natural

Ln(Y ) = Ln(β0 X β1 ε) = Ln(β0 ) + β1 Ln(X) + Ln(ε)

En este caso, la transformación será Y ∗ = Ln(Y ) y X ∗ = Ln(X).

Ajuste: Y ∗ = β0∗ + β1 X ∗ + ε∗

Supuestos: ε∗ ∼iid N (0, σ 2 )

37
11.2.2. Modelo exponencial multiplicativo

Función Linealizable: Y = β0 eβ1 X ε

Transformación: Empleando el logaritmo natural

Ln(Y ) = Ln(β0 eβ1 X ε) = Ln(β0 ) + β1 X + Ln(ε)

En este caso, la transformación será Y ∗ = Ln(Y )

Ajuste: Y ∗ = β0∗ + β1 X + ε∗

Supuestos: ε∗ ∼iid N (0, σ 2 )

11.2.3. Modelo logarı́tmico

Función Linealizable: Y = eβ0 eβ1 Xeε

Transformación: Empleando el logaritmo natural

Y = Ln(eβ0 eβ1 Xeε ) = β0 + β1 Ln(X) + ε

En este caso, la transformación será X ∗ = Ln(X)

Ajuste: Y = β0 + β1 X ∗ + ε

Supuestos: ε ∼iid N (0, σ 2 )

11.2.4. Modelo recı́proco

Transformación: Empleando Recı́proco de las variables

Casos 1:

Y = β0 + β1 X ∗ + ε

En este caso, la transformación será X ∗ = 1/X

Supuestos: ε ∼iid N (0, σ 2 )

Casos 2:

Y ∗ = β0 + β1 X + ε

En este caso, la transformación será Y ∗ = 1/Y

38
Supuestos: ε ∼iid N (0, σ 2 )

NOTAS:

Los modelos exponenciales y de potencia aditivos: Y = β0 eβ1 X + ε, y Y = β0 X β1 + ε


no son intrı́nsecamente lineales.
El supuesto necesario es que cuando el término de error ε es transformado, esta vari-
able transformada deberá ser iid N (0, σ 2 ) , por ello deben examinarse los residuales
del modelo transformado.
Los parámetros del modelo original no lineal, se pueden estimar al destransformar,
cuando resulte necesario, los estimadores hallados para los parámetros del modelo
transformado.
Si el modelo lineal transformado satisface todas las suposiciones para la regresión lin-
eal simple, las estimaciones de los parámetros originales a través de transformaciones
inversas resultan razonables aunque no insesgadas.

12. Pasos en el Análisis de regresión


1. Realizar análisis exploratorio de los datos mediante un diagrama de dispersión para
establecer el tipo de curva de regresión apropiada.
2. Desarrollar uno o más modelos de regresión tentativos. Ajustar los modelos prop-
uestos.
3. Determinar para cada modelo ajustado si la regresión es significativa.
4. Analizar gráficos de residuales para:
Verificar si el modelo lineal es adecuado: Gráfico de residuos vs. X (chequear
ausencia de patrones sistemáticos), test de carencia de ajuste.
Verificar si los supuestos sobre el término de error se cumplen: Gráficos de prob-
abilidad normal, gráficos de residuos vs. valores predichos (chequear varianza
constante y ausencia de patrones sistemáticos).
5. Para los modelos que pasen las pruebas en 4, interpretar los parámetros del modelo
lineal ajustado (significado de los valores de intercepto y de la pendiente respecto a
las variables analizadas).
6. Construir intervalos y realizar inferencias de interés.
7. Hacer predicciones: Sólo dentro del rango de valores considerados para la variable
predictora o valores cercanos a dicho rango.

39

También podría gustarte