Estimación en Regresión Lineal Simple
Estimación en Regresión Lineal Simple
Enero 2011
En algunos casos las variables en cuestión son variables aleatorias que están relacionadas
en un sentido de probabilidad mediante una distribución de probabilidad conjunta. En
otros casos, las variables son cantidades matemáticas, de las cuales se asume que existe
una relación funcional vinculándolas. Cuando se enfrenta la situación anterior lo más
apropiado es aplicar los métodos de regresión, pues están diseñados para ilustrar ciertos
aspectos del mecanismo que relaciona un conjunto de datos (mediciones de las variables
en cuestión).
2
1.1. Modelos de Regresión Lineal
y = β0 + β1 x1 + β2 x2 + · · · + βk xk + ǫ (1)
NOTA: En muchas de las aplicaciones del análisis de regresión, en los cuales modelos
lineales describen un conjunto de datos, la formulación del modelo resulta de una sobres-
implificación de lo que ocurre realmente en el proceso analizado. Los modelos lineales
empleados son aproximaciones que se espera trabajen bien en el rango de valores de las
variables regresoras empleados en la construcción del modelo ajustado.
Usualmente los métodos de regresión son empleados con los siguientes fines:
Estimación de parametros
Selección de Variables
Predicción
NOTAS:
El analista debe tener claro los objetivos del estudio y el contexto del problema.
3
Un modelo que da una solución a un problema en particular no necesariamente da
buenos resultados para resolver otros.
Donde
Una vez tomada la muestra de n observaciones (Xi , Yi ) por medio de algún método de
recolección de datos, se procede a estimar los coeficientes de regresión del modelo muestral
de regresión:
Yi = β0 + β1 Xi + ǫi (i = 1, 2, . . . , n) (3)
4
2.1. Supuestos del Modelo de Regresión Lineal Simple
Si el último supuesto se cumple, se puede asumir que cada valor observado Yi está consti-
tuido por un valor real y una componente aleatoria (función de los ǫi ).
De lo anterior se puede deducir que Yi |Xi es una variable aleatoria, cuyo valor esperado y
varianza están dados por:
Lo descrito anteriomente implica que hay una distribución de valores para Yi en cada Xi
y que la varianza de esta distribución es igual para cada valor de Xi (constante).
5
Figura 1: Distribución Y |Xi
NOTAS:
Si la linea de ajuste presenta una curvatura (no ser lineal en X y/o en Y ), mediante
una transformacion conveniente de las variables ( X y/o Y ), es posible aplicar las
tecnicas de regresion lineal sobre estas nuevas variables.
6
3. Estimación de los Parámetros de Regresión
Los residuales se consideran una realización del componente de error aleatorio de los
modelos de regresión y tienen un papel importante para determinar la adecuación del
modelo de regresión ajustado, pues permite detectar diferencias respecto a los supuestos
7
de los MRL y las hipótesis generadas a partir de estos.
n
X n
X n
X
SSE = ǫ2i = (yi − ybi )2 = (yi − βb0 − βb1 xi )2
i=1 i=1 i=1
n
X
S(β0 , β1 ) = (yi − βb0 − βb1 xi )2
i=1
n
∂S(β0 , β1 ) ∂ X
= [ (yi − βb0 − βb1 xi )2 ] = 0
∂β0 ∂β0
i=1
n
∂S(β0 , β1 ) ∂ X
= [ (yi − βb0 − βb1 xi )2 ] = 0
∂β1 ∂β1
i=1
n
X
−2 (yi − βb0 − βb1 xi ) = 0
i=1
n
X
−2 (yi − βb0 − βb1 xi )xi = 0
i=1
Despejando, se obtiene que las estimaciones por mı́nimos cuadrados ordinarios de los
parámetros son:
8
βb0 = y − βb1x, y βb1 =
Sxy
Sxx
n
X n
X P n
2 2 ( ni=1 xi )2 X 2
Sxx = (xi − x) = xi − = xi − nx2
n
i=1 i=1 i=1
n
X n
X Pn Pn n
X
i=1 xi i=1 yi
Sxy = (xi − x)(yi − y) = xi y i − = xi yi − nxy
n
i=1 i=1 i=1
Como primera medida, el método de máxima verosimilitud puede ser aplicado para la esti-
mación de los parámetros del MRLS, si y solo si, se conoce la distribución de componente
aleatorio (error aleatorio) del modelo. Considerando para el modelo de regresión lineal
simple los supuestos de normalidad, independencia y varianza constante para los errores,
podemos usar el método de estimación de máxima verosimilitud (MLE).
Sea (x1 , y1 ), . . . , (xn , yn ) los n pares de datos observados. Asumiendo fijos los valores en
que la variable regresora X es observada y que ǫi ∼ N (0, σ 2 ), ∀i = 1, 2, . . . , n, se determino
que Yi |Xi ∼N(β0 + β1 Xi ,σ 2 ).
n
Y
2
L(β0 , β1 , σ |x, y) = f (yi |β0 , β1 , σ 2 )
i=1
9
donde
Por lo tanto:
n
Y 1 1 1 1
L(β0 , β1 , σ 2 |x, y) = √ exp[− 2 (yi −β0 −β1 xi )2 ] = ( √ )n [exp(− 2 (y1 −β0 −
2πσ 2 2σ 2πσ 2 2σ
i=1
n
1 n 1 X
β1 x1 )2 ) ∗ · · · ∗ exp(− 2 (yn − β0 − β1 xn )2 )] = (2πσ 2 )− 2 exp[− 2 (yi − β0 − β1 xi )2 ]
2σ 2σ
i=1
n
∂L(β0 , β1 , σ 2 |x, y) 1 X
=− 2 (yi − βb0 − βb1 xi ) = 0
∂β0 b
σ
i=1
n
∂L(β0 , β1 , σ 2 |x, y) 1 X
=− 2 (yi − βb0 − βb1 xi )xi = 0
∂β1 b
σ
i=1
n
∂L(β0 , β1 , σ 2 |x, y) n 1 X
=− + 3 (yi − βb0 − βb1 xi )2 = 0
∂σ 2 b σ
σ b
i=1
βb0 = y − βb1x
βb1 =
Sxy
Sxx
10
1
Pn b b 2 1
Pn
e2 =
σ n i=1 (yi − β0 − β1 xi ) = n i=1 (yi − ybi )2 = n1 SSE
NOTA: Bajo el modelo de regresión lineal normal, es decir, con errores independientes
e idénticamente distribuidos (ǫi ∼ N (0, σ 2 )), los estimadores de mı́nimos cuadrados para
β0 y β1 son también estimadores de máxima verosimilitud y en tal caso, podemos con-
struir intervalos de confianza y realizar pruebas de hipótesis basadas en las estimaciones
obtenidas.
En el caso ideal, el estimador de σ 2 no deberı́a depender del ajuste del modelo de regre-
sión, lo cual, solo es posible cuando se dispone de información anterior del parámetro.
Usualmente no se tiene esta información, por lo cual, se emplean los métodos vistos ante-
riormente para realizar una estimación del mismo.
n
X n
X
SSE = ǫ2i = (yi − ybi )2 = nȳ 2 − βb1 Sxy
i=1 i=1
Pero:
n
X
SST = (yi − ȳ)2 = nȳ − βb1 Sxy
i=1
Por lo tanto:
c2 = SSE = M SE
σ
n−2
11
c2 se
La cantidad M SE se denomina error cuadratico medio. La raı́z cuadrada de σ
denomina usualmente, el error estandar de la regresión.
NOTA: Como σ c2 depende de la SSE , cualquier violación de las hipótesis sobre los resid-
c2 como
uales o una mala especificación del modelo afecta significativamente la utilidad de σ
estimador de σ 2 .
n−2
E(σ̃ 2 ) = σ2
n
NOTA: Mediante una transformación del estimador MLE para la varianza se puede con-
struir un estimador insesgado del parámetro de interés.
n
Sea σ̂ 2 el nuevo estimador el cual se obtiene premultiplicando por el estimador
n−2
MLE.
n
σ̂ 2 = e2
σ
n−2
n n n−2
E(σ̂ 2 ) =E σ̃ 2 = σ2 = σ2
n−2 n−2 n
Los estimadores βb0 y βb1 son variables aleatorias pues sus valores cambian de una muestra
a otra. Bajo el supuesto de normalidad en el componente aleatorio, los estimadores de
Mı́nimos Cuadrados Ordinarios tienen las siguientes propiedades:
12
1. Los estimadores de minimos cuadrados βb0 y βb1 son los mejores estimadores lineales
insesgados de β0 y β1 respectivamente y corresponden a los estimadores de máxima
verosimilitud bajo los supuestos estadisticos del modelo lineal.
2. βb0 y βb1 son combinaciones lineales de las variables aleatorias Y1 , . . . , Yn , pues estos
se pueden escribir de la siguiente manera:
Estimadores Distribución
que
h sigue i
1 x
βb0 N β0, σ 2 + n Sxx
σ2
βb1 N β1, Sxx
h i
2 1 (xi −x)2
Ybi N Yi, σ n + Sxx
5. La suma de los valores observados yi es igual a la suma de los valores ajustados ybi :
n
X n
X
yi = ybi
i=1 i=1
6. La lı́nea de regresión obtenida por mı́nimos cuadrados siempre pasa a través del
centroide de los datos (x, y).
13
n
X
xi ǫ i = 0
i=1
Son de mı́nima varianza cuando son comparados con todos los posibles estimadores
insesgados.
Bajo los supuestos sobre los residuales (ǫi ∼ N (0, σ 2 ), independientes e identicamente
distribuidos) y dado que βb0 y βb1 son combinaciones lineales de los valores observados Yi′ s,
los cuales se distribuyen normalmente, se pudo comprobar en la sección anterior que:
σ2 1 x̄2
βb1 ∼ N β1 , y βb0 ∼ N β0 , σ2 +
Sxx n Sxx
Para β1 : Suponga que se desea probar la hipótesis que la pendiente es igual a una con-
stante. Las hipótesis correspondientes serán:
14
H0 : β1 = β1∗ H1 : β1 6= β1∗
βb1 − β1∗
El estadı́stico de prueba será: Zo = s ∼ N(0, 1) bajo H0 .
σ2
Sxx
Este estadı́stico de prueba solo puede ser utilizado cuando σ 2 es conocido. Si se emplea el
MSE como su estimador insesgado, el estadı́stico de prueba será:
βb1 − β1∗
to = r ∼ tn−2 bajo H0 .
M SE
Sxx
Criterio de Rechazo: Se rechaza H0 con un nivel de significancia α si: |t0 | > tα/2,n−2
r
\ M SE
NOTA: SD(βb1 ) = se denomina error estandar estimado de la pendiente.
Sxx
Para β0 : Suponga que se desea probar la hipótesis que ordenada al origen es igual a una
constante. Las hipótesis correspondientes serán:
H0 : β0 = β0∗ H1 : β0 6= β0∗
βb0 − β0∗
El estadı́stico de prueba será: Zo = s ∼ N(0, 1) bajo H0 .
1 x̄ 2
σ2 +
n Sxx
Este estadı́stico de prueba solo puede ser utilizado cuando σ 2 es conocido. Si se emplea el
MSE como su estimador insesgado, el estadı́stico de prueba será:
βb0 − β0∗
to = s ∼ tn−2 bajo H0 .
1 x̄2
M SE +
n Sxx
Criterio de Rechazo: Se rechaza H0 con un nivel de significancia α si: |t0 | > tα/2,n−2
s
\ 1 x̄2
NOTA: SD(βb0 ) = M SE + se denomina error estandar estimado de la orde-
n Sxx
nada al origen.
15
6.2. Estimación de intevalos de confianza del (1 − α)100 % la pendiente y
la ordenada al origen
Bajo los supuestos sobre los residuales (ǫi ∼ N (0, σ 2 ), independientes e identicamente
distribuidos) y dado que βb0 y βb1 son combinaciones lineales de los valores observados yi′ s,
los cuales se distribuyen normalmente, se pudo comprobar en la sección anterior que:
σ2 1 x̄2
βb1 ∼ N β1 , y βb0 ∼ N β0 , σ2 +
Sxx n Sxx
NOTA 1: Cuando el IC del (1 − α)100 % para β1 no contiene el valor cero (0), se puede
afirmar que la variable respuesta Y está relacionada con la covariable X de forma aproxi-
madamente lineal, de lo contrario no existe relación de primer orden entre estas.
6.3.1. Prueba t
Ahora se desea probar la hipótesis que la pendiente es significativa. Las hipótesis corre-
spondientes serán:
16
H0 : β1 = 0 H1 : β1 6= 0
βb1
El estadı́stico de prueba será: Zo = s ∼ N(0, 1) bajo H0 .
σ2
Sxx
Este estadı́stico de prueba solo puede ser utilizado cuando σ 2 es conocido. Si se emplea el
MSE como su estimador insesgado, el estadı́stico de prueba será:
βb1
to = r ∼ tn−2 bajo H0 .
M SE
Sxx
Criterio de Rechazo: Se rechaza H0 con un nivel de significancia α si: |t0 | > tα/2,n−2
n
X
SST = (yi − ȳ)2 (1).
i=1
17
Donde ybi − ȳ es la desviación debida al ajuste de la regresión y yi − ybi es la desviación
debida al error de ajuste.
n
X n
X
2
SST = (b
yi − ȳ) + (yi − ybi )2
i=1 i=1
n
X
Donde SSR = yi − ȳ)2 se conoce como la Suma de cuadrados de regresión y mide
(b
i=1
la cantidad de variabilidad en las yi que es explicada por la recta de regresión ajustada y
Xn
SSE = (yi − ybi )2 es la conocida suma de cuadrados de residuales.
i=1
Por lo tanto: SST = SSR + SSE . Esta identidad se denomina Identidad fundamental del
análisis de varianza.
Definiciones:
SSE: Suma de cuadrados de los Residuales o del componente de error aleatorio. Mide
la cantidad de variabilidad en la observaciones Yi ’s que NO es explicada por la recta de
regresión ajustada.
Para el cálculo de las sumas de cuadrados se emplean frecuentemente las siguientes expre-
siones:
n
X
SST = yi2 − nȳ 2 SSR = βb1 Sxy = βb12 Sxx
i=1
18
SSE = SST − SSR
Cada una de las sumas de cuadrados tiene asociado un parámetro denominado grados de
libertad, el cual define el número de observaciones independientes disponibles en la suma.
En la siguiente tabla se resume el valor de dicho parámetro:
SST : Pierde un grado de libertad como resultado de la restricción impuesta para las desvia-
ciones yi − ȳ.
SSR : Solo tiene un grado de libertad por ser completamente determinado por βb1 .
SSE : Pierde dos grados de libertad como resultado de las restricciones impuestas, una
para las desviaciones yi − ybi y la otra como resultado de estimar βb0 y βb1 .
SSR SSE
M SR = M SE =
1 n−2
H0 : β1 = 0 H1 : β1 6= 0
M SR
El estadı́stico de prueba será: Fo = ∼ f1,n−2 bajo H0 .
M SE
Se puede demostrar que:
E(M SE ) = σ 2
19
Por lo tanto, si β1 6= 0 entonces Fo sigue una distribución F no central, con 1 y n-2 grados
de libertad respectivamente, y parámetro de NO centralidad λ, dado por:
βb12 Sxx
λ=
σ2
También podemos evaluar el valor p de la prueba que es igual a P (f1,n−2 > Fo ) y determi-
nar si es pequeño, para rechazar la hipótesis: el modelo lineal de Y en X no es significativo
para explicar la variabilidad de Y?.
Se rechaza H0 con un nivel de significancia α si: P (f1,n−2 > Fo ) < α. Donde α es el nivel
de significancia de la prueba.
NOTA: Las dos formas de probar la significancia de la regresión son equivalentes, se puede
demostrar que t2o,β1 ≡ Fo y el valor p para las dos pruebas es el mismo.
7. COEFICIENTE DE DETERMINACIÓN
Es una cantidad denotada R2 que aparece como resultado del modelo de regresión lineal
simple ajustado, la cual ha sido utilizada erróneamente como medida de bondad del ajuste
lineal del modelo sobre los datos. Se define como la razón entre la suma de cuadrados de
la regresión y la suma de cuadrados totales, ası́:
SSR SSE
R2 = =1−
SST SST
20
R2 se interpreta como la proporción de la variabilidad total observada en la variable re-
spuesta, que es explicada por la relación lineal con la variable predictora considerada.
Cuando todos los datos se encuentran sobre la recta de regresión estimada, es decir, cuando
el ajuste es perfecto, la suma de cuadrados de residuos, SSE, toma el valor cero y por lo
tanto R2 = 1. En el caso estrictamente opuesto R2 = 0. De lo anterior se deduce que el
R2 es una medida que se encuentra entre 0 y 1 (0 ≤ R2 ≤ 1).
Lo anterior implica que valores cercanos a 1 indican una mayor asociación lineal entre X
e Y, y, valores cercanos a cero indican una pobre relación lineal entre estas (lo cual no
excluye otros tipos de asociaciones).
Un R2 cercano a uno no garantiza que el modelo de RLS ajustado sea adecuado para
los datos, no necesariamente garantiza que los supuestos básicos del modelo lineal
se estén cumpliendo y menos que no haya carencia de ajuste lineal.
El estimador puntual para E[Y |Xo ] está dado por la ecuación de regresión ajustada eval-
uada en el valor X = Xo , de la siguiente manera:
\
E[Y \
|Xo ] = µ b b
Y |Xo = β0 + β1 Xo
NOTA: Tal estimación solo es válida para valores X = Xo dentro del rango de los valores
originales de la covariable empleados para el ajuste del modelo de RLS.
Por lo tanto, el estimador puntual de la respuesta media es una variable aleatoria con
distribución normal (por ser combinación lineal de βb0 y βb1 ) con valor esperado y varianza
21
dadas por:
E[\ \
µY |Xo ] = E[E[Y |Xo ]] = E[βb0 + βb1 Xo ] = E[βb0 ] + E[βb1 Xo ] = β0 + β1 Xo
Como βb0 y βb1 pueden ser expresados como combinación lineal de los Yi , el estimador
puntual de la respuesta media también se puede escribir combinación lineal de estos valores
observados, ası́:
n
X
\ 1
E[Y |Xo ] = bi Y i ,donde, bi = + (Xo − X̄)Ci
n
i=1
De lo anterior se puede demostrar que la varianza de la respuesta media esta dada por:
\ 1 (Xo − X̄)2
V [E[Y |Xo ]] = σ 2 +
n Sxx
1 (Xo − X̄)2
Por lo tanto: E[Y |Xo ] ∼ N β0 + β1 Xo , σ2 +
n Sxx
\\ 1 (Xo − X̄)2
V [E[Y |Xo ]] = M SE +
n Sxx
r s
\|Xo ]] = \\ 1 (Xo − X̄)2
DE[E[Y V [E[Y |Xo ]] = M SE +
n Sxx
\
E[Y |X ] − E[Y |Xo ]
s o ∼ N (0, 1)
1 (X − X̄)2
o
σ2 +
n Sxx
22
Empleando el estimador insesgado de σ 2 (parámetro usualmente desconocido) se obtiene:
\
E[Y |Xo ] − E[Y |Xo ]
s ∼ tn−2
1 (Xo − X̄)2
M SE +
n Sxx
s
\ 1 (Xo − X̄)2
E[Y |Xo ] ± tα/2,n−2 M SE +
n Sxx
s
c 1 (Xo − X̄)2
Yo ± tα/2,n−2 M SE +
n Sxx
NOTAS:
Cuando se tiene un modelo de RLS también puede ser de interés predecir el valor de
una nueva observación Yo que corresponda a un nivel especificado de la covariable X. Sea
X = Xo el valor de interés, entonces un estimador puntal del nuevo valor de la variable
respuesta Y está dado por la ecuación de regresión ajustada evaluada en el valor X = Xo ,
de la siguiente manera:
23
c \
Yo = µ b b
Y |Xo = β0 + β1 Xo
Los intervalos de predicción estiman los posibles valores para un valor particular de la
variable respuesta (no para su media) en un valor dado. Asumimos que en este valor
particular tenemos un valor futuro de la variable aleatoria Y, y por tanto, no fue utilizado
en la regresión.
Si Yo es un valor futuro y Y co = µ \ b b
Y |Xo = β0 + β1 xo es su estimador, entonces estas dos
variables aleatorias son estadı́sticamente independientes, dado que Yo no fue utilizado para
hallar a βb0 y βb1
V [Yo − c
Yo ] = V [Yo ] + V [c
Yo ] − 2Cov[Yo , c
Y ]
| {z o}
1 (Xo − X̄)2 1 (Xo − X̄)2
V [Yo − c
Yo ] = V [Yo ] + V [c
Yo ] = σ 2 + σ 2 + = σ2 1+ +
n Sxx n Sxx
c 2 1 (Xo − X̄)2
(Yo − Yo ) ∼ N 0, σ 1 + +
n Sxx
24
s
\ 1 (Xo − X̄)2
DE[Yo − c
Yo ] = M SE 1 + +
n Sxx
co
Yo − Y
s ∼ N (0, 1)
1 (Xo − X̄)2
σ2 1+ +
n Sxx
Yo − c
Yo
s ∼ tn−2
1 (Xo − X̄)2
M SE 1 + +
n Sxx
Una labor de vital importancia para el analista consiste en determinar casos especificos en
el comportamiento de los datos que puedan afectar significativamente el ajuste adecuado
de un modelo y la inferencia que se puede obtener de este. Se presentarán a continuación
los problemas de mayor impacto en los Modelos de Regresión lineal simple (Diagnosticos)
y algunas metodologı́as para contrarestar el problema (Medidas Remediales).
25
10.1.1. Diagnósticos para la covariable
Antes y después de ajustar un modelo inicial (el cuál no ajusta de forma adecuada a los
datos) se hace un análisis de los datos de la variable regresora que consiste en:
Cualquier desviación del modelo de los supuestos básicos de la regresión puede ser de-
tectada a través de los residuales. Los seis tipos de desviaciones que pueden presentarse
son:
Ahora se analizarán cada una de estas desviaciones con más detalle, para posteriormente
dar las medidas remediales para cada uno de los casos.
Puede identificarse gráficamente a través del gráfico de residuales vs. valores predichos o
versus valores de la covariable. Cuando ocurre esta desviación, el gráfico exhibe un patrón
en el cual los residuales se desvı́an de cero en forma sistemática, por ejemplo, cuando la
nube de puntos de estos gráficos presentan forma de una U o S, o de una U o S invertida.
26
Otra forma de probar la no linealidad del modelo, es mediante el test de carencia de
ajuste. La falta de ajuste constituye una violación del supuesto de linealidad, el cual esta
implicito una vez se asume que la relación que la relación entre las variables Y y X es
aproximadamente lineal.
Este test prueba que un tipo especı́fico de función de regresión ajusta adecuadamente a
los datos. El test asume que los valores de Y dado X son:
Son independientes.
NOTA: Solo es posible realizar esta prueba cuando se tiene en al menos un nivel de la
variable regresora X, dos o más valores distintos (observaciones) de la variable respuesta
Y (independientes). Los ensayos repetidos de manera independiente para el mismo nivel
de la variable predictora son denominados replicaciones.
NOTA: En esta prueba las replicas son utilizadas para obtener un estimador de σ 2 inde-
pendiente del modelo de regresión ajustado.
Ho : E[Y |X = Xi ] = β0 + β1 Xi VS H1 : E[Y |X = Xi ] 6= β0 + β1 Xi
Aceptar la hipótesis inicial implica que el modelo de primer orden es apropiado para
explicar la relación entre las variables X e Y. Caso contrario ocurre si se rechaza Ho .
Supongase que se tienen m niveles distintos de la variable regresora X, cada uno de estos
tiene ni observaciones independientes de la variable respuesta Y, con i = 1, 2, 3, . . . , m.
Por lo tanto las observaciones muestrales pueden organizarse de la siguiente forma:
x y ni
x1 y11 y12 . . . y1,n1 n1
x2 y21 y22 . . . y2,n2 n2
.. .. .. .. .. ..
. . . . . .
xm ym1 ym2 . . . ym,nm nm
Donde:
27
Yij representa la j-ésima observación de la variable respuesta asociada al i-esimo
nivel de la variable regresora X.
X ni
m X ni
m X
X
(Yij − Ŷi )2 = ((Yij − Ȳi ) + (Ȳi − Ŷi ))2
i=1 j=1 i=1 j=1
Xm X ni ni
m X
X ni
m X
X
2 2
= (Yij − Ȳi ) + (Ȳi − Ŷi ) + 2 (Yij − Ȳi )(Ȳi − Ŷi )
i=1 j=1 i=1 j=1 i=1 j=1
X ni
m X ni
m X
X ni
m X
X
(Yij − Ŷi )2 = (Yij − Ȳi )2 + (Ȳi − Ŷi )2
i=1 j=1 i=1 j=1 i=1 j=1
| {z } | {z } | {z }
SSE SSEP SSF A
Definiciones:
SSEP : Suma de cuadrados debido al error neto o puro. Mide la proporción de variabilidad
asociada al error netamente experimental o puro, esta cantidad se debe a la variación de
la variable respuesta Y, dentro de los valores dados en la covariable X.
28
la variación sistemática introducida por valores en Y que se alejan del patrón lineal o de
primer orden.
Como cualquier suma de cuadrados vista hasta el momento SSEP y SSF A tienen asociados
ciertos grados de libertad, los cuales se permiten definir los cuadrados medios debido al
error puro y a la falta de ajuste, como estimadores independientes de la variabilidad
presente en las realizaciones del componente de error aleatorio. Veamos:
SSEP SSF A
M SEP = M SF A =
n−m m−2
E(M SEP ) = σ 2
Pm
β0 − β1 Xi )2
i=1 ni (E[Yi ] −
E(M SF A ) = σ2 +
m−2
Se rechaza H0 con un nivel de significancia α si: P (f1,n−2 > Fo ) < α. Donde α es el nivel
de significancia de la prueba.
29
Inferencia: Si aceptamos la hipótesis inicial se puede concluir que la función de asociación
verdadera entre X e Y es aproximadamente lineal. Si rechazamos Ho , en tal caso se concluye
que el modelo de regresión no es lineal en X.
NOTAS:
Cualquier inferencia sobre los parámetros del modelo lineal, por ejemplo la prueba
de significancia de la regresión, sólo debe llevarse a cabo luego de haber probado que
el modelo lineal es apropiado.
30
método LOESS. En este caso la curva suavizada se grafica junto con las bandas de
confianza del modelo de regresión; si la primera cae entre las segundas, entonces se
tiene evidencia de que el modelo ajustado es apropiado.
Una de las prioridades despues de ajustar un MRLS consiste en la validar los supuestos
sobre el componente de error aleatorio. La validación del supuesto de normalidad se puede
realizar por medio de un test de normalidad o bien, mediante un gráfico de normalidad.
ANÁLISIS GRÁFICO
Si el ajuste es perfecto el gráfico cuantil - cuantil mostrará una asociación lineal per-
fecta entre los cuantiles enunciados anteriormente. Cualquier desviación severa de este
comportamiento dará indicios de la no normalidad de la variable aleatoria bajo estudio.
31
la asociación entre los cuantiles de los residuales obtenidos de la muestra aleatoria y los
cuantiles teóricos de la distribución normal es aproximadamente lineal, no hay patrones o
tendencias que indiquen una posible no normalidad.
PRUEBAS DE NORMALIDAD
Los tests de normalidad se aplican a conjuntos de datos para determinar su similitud con
una distribución normal.
En las pruebas de normalidad para los residuales evaluamos: H0 : Los errores tienen
distribución normal (εi ∼ N ) vs. H1 : Los errores no son normales (εi ≁ N ),
La validación de esta prueba puede realizarse examinando los valores P arrojados por
una prueba especı́fica de normalidad. La mayorı́a de paquetes estadı́sticos presentan las
siguientes pruebas de normalidad:
Shapiro - Wilk
Kolmogorov - Smirnov
Anderson - Darling
Encontrar una transformación de los datos que permita corregir la no normalidad, entre
estas se tienen las transformaciones de potencia Box-Cox (Y λ ).
32
10.1.5. Tercera Desviación: Los residuales no tienen varianza constante
Una forma práctica y usualmente útil para determinar si los residuales tienen varianza
constante es a través del gráfico de residuales vs. valores ajustados o predichos. A contin-
uación se presentaran los patrones o prototipos más comunes en los residuales. Un análisis
correcto del comportamiento de los residuales permitirá al analista determinar si varianza
de estos es ó no constante.
33
También puede recurrirse a un test de homogeneidad de varianza, como el test de Levene
Modificado, el cual no depende del supuesto de normalidad.
Problemas:
Los tamaños de muestra necesitan ser suficientemente grandes para que la depen-
dencia entre los residuales pueda ser ignorada.
n
X
S(β0 , β1 ) = ωi (yi − β0 − β1 xi )2
i=1
34
10.1.6. Cuarta Desviación: No independencia de los residuales
Existen pruebas formales para la detección de correlaciones entre los residuales como el
test de Durbin Watson generalizado.
Siempre y cuando un puntos atı́picos sea originado por un error de registro, de cálculo o
de medición éste debe ser eliminado. De otra forma hay que proceder con cautela, porque
es posible que tal tipo de observación contenga información valiosa sobre un fenómeno
especial que no ha sido capturado por el modelo
35
10.1.8. Sexta Desviación: Una o varias variables predictoras han sido omitidas
en el modelo
Se puede realizar un análisis para determinar si el modelo puede ser mejorado adicionando
otras variables predictoras. El diagnóstico se realiza graficando los residuales del modelo
actual vs. niveles de la variable omitida y evaluar si los residuales tienden o no a variar
sistemáticamente con los niveles de la variable predictora adicional.
11. TRANSFORMACIONES
Si se quieren transformar los datos para conseguir normalidad, el mejor método para esti-
mar el parámetro λ es el de máxima verosimilitud y se calcula como sigue: para diferentes
valores de λ se realiza la transformación:
λ
y − 1 si λ 6= 0
U (λ) = λẏ λ−1
ẏ log(y) si λ 6= 0
36
siendo ẏ la media geométrica de la variable Y. Para cada λ, se obtiene el conjunto de
n
valores {Ui (λ)}i=1 . La función de verosimilitud es:
n
!
n X
L(λ) = − ln (Ui (λ) − Ū (λ))
2
i=1
Se elige el parámetro λ̂ que maximiza L(λ). En la práctica, se calcula L(λ) para un enrejado
(grid) de valores de λ lo cual permite dibujar aproximadamente la función L(λ) y se obtiene
el máximo de la misma. Valores muy utilizados del parámetro λ son los siguientes:
Un modelo de regresión se considera lineal cuando lo es en los parámetros, por ello las
transformaciones en las variables no implican modelos no lineales. Los modelos intrı́nsica-
mente lineales son aquellos que relacionan Y con X por medio de una transformación en
Y y/o en X, originando un modelo de la forma Y ∗ = β0 + β1 X ∗ + ε, donde Y ∗ y X ∗ son
las variables transformadas.
Función Linealizable: Y = β0 X β1 ε
Ajuste: Y ∗ = β0∗ + β1 X ∗ + ε∗
37
11.2.2. Modelo exponencial multiplicativo
Ajuste: Y ∗ = β0∗ + β1 X + ε∗
Ajuste: Y = β0 + β1 X ∗ + ε
Casos 1:
Y = β0 + β1 X ∗ + ε
Casos 2:
Y ∗ = β0 + β1 X + ε
38
Supuestos: ε ∼iid N (0, σ 2 )
NOTAS:
39