ANLISIS DE REGRESIN
LINEAL SIMPLE
Introduccin
Ejemplo: Anscombe (1973) Graphs in Statistical Analysis
x(a)(b)(c) y(a) y(b) y(c) x(d) y(d)
10 8.04 9.14 7.46 8 6.58
8 6.95 8.14 6.77 8 5.76
13 7.58 8.74 12.74 8 7.71
9 8.81 8.77 7.11 8 8.84
11 8.33 9.26 7.81 8 8.47
14 9.96 8.10 8.84 8 7.04
6 7.24 6.13 6.08 8 5.25
4 4.26 3.10 5.39 19 12.50
12 10.84 9.13 8.15 8 5.56
7 4.82 7.26 6.42 8 7.91
5 5.68 4.74 5.73 8 6.89
Ejemplo: Anscombe (1973) Graphs in Statistical Analysis
(Las Grficas en el Anlisis Estadstico)
En todos los casos, la recta de regresin de y sobre x es:
y = 3 + 0.5 x
S R2 = 1.52 R 2 = 0.82
Por lo tanto las cuatro regresiones parecen idnticas.
El anlisis de los residuos refleja una situacin completamente distinta.
Ejemplo: Anscombe (1973) Graphs in Statistical Analysis
Residuales
Inferencia simultanea para los parmetros del modelo
Para una estimacin conjunta de Beta0 y Beta1 en una regin donde
estemos seguros con 100(1-alfa) por ciento de que ambos estimados son
correctos es:
n n
n( 0 0 ) + 2 xi ( 0 0 )( 1 1 ) + x 2 i ( 1 1 )
2
i =1 i =1
F , 2,n2
2 MSE
Estimacin simultanea de la respuesta media
Es posible construir m-intervalos de confianza de la respuesta media de
un conjunto de m-valores especficos X, por ejemplo, X1, X2, ., Xm, que
tengan un coeficiente de confianza conjunta de la menos 100(1-alfa) por
ciento.
1 ( x x ) 2
E (Y X i ) : YXi MSE +
i
n S xx
La Delta de Bonferroni como sigue: = (2 F , 2,n 2 )1/ 2
Prediccin de nuevas observaciones
El conjunto de intervalos de prediccin para m nuevas observaciones en
los niveles X1, X2,, Xm que tienen un nivel de confianza de al menos
(1-alfa) es:
1 ( x x ) 2
YXi : YXi MSE 1 + +
i
n S xx
Test para la correlacin
Para probar la hiptesis H0: = 0 contra H1: 0 , donde 0 no
es cero. Si n 25 se utiliza el estadstico transformacin-z de
Fisher:
1 1+ r
Z = arctanh ( r ) = ln
2 1 r
Con media: Z = arctanh( )
1
y desviacin estndar: =
2
n3
Z
En base a la frmula de la distribucin normal, se calcula el
estadstico Z0 siguiente para probar la hiptesis Ho: = 0,
Z 0 = ( arctanh( r ) arctanh( 0 )( n 3
Z Z
tanh arctanhr / 2 tanh arctanhr + / 2
n3 n3
Riesgos en el uso de la regresin
Hay varios abusos comunes en el uso de la regresin que deben
ser mencionados:
Los modelos de regresin son vlidos como ecuaciones de
interpolacin sobre el rango de las variables utilizadas en el
modelo. No pueden ser vlidas para extrapolacin fuera de este
rango.
La disposicin de los valores X juega un papel importante en el
ajuste de mnimos cuadrados. Mientras que todos los puntos
tienen igual peso en la determinacin de la recta, su pendiente
est ms influenciada por los valores extremos de X. En este caso
debe hacerse un anlisis minucioso de estos puntos y en todo
caso eliminarlos y re estimar el modelo.
Extrapolacin
Generalizacin
En la figura se observan dos puntos que influyen en el modelo de ajuste,
ya que si se quitaran, el modelo de lnea recta se modificara.
Dos observaciones con mucha influencia (A,B)
Los outliers u observaciones malas pueden distorsionar
seriamente el ajuste de mnimos cuadrados. En la figura, la
observacin A parece ser un outlier o valor malo ya que cae muy
lejos de la lnea de ajuste de los otros datos. Debe investigarse esta
observacin.
Localizacin de un outlier (A)
Si se encuentra que dos variables estn relacionadas
fuertemente, no implica que la relacin sea causal, se debe
investigar la relacin causa efecto entre ellas. Por ejemplo el
nmero de enfermos mentales vs. nmero de licencias recibidas.
Causalidad
Correlacin ecolgica
En algunas aplicaciones el valor de la variable regresora X
requerida para predecir a Y es desconocida, por ejemplo al tratar
de predecir la carga elctrica el da de maana en relacin con la
mxima temperatura de maana, primero debe estimarse cul es
esa temperatura.
Regresin a travs del origen
Algunas situaciones implican que pase la lnea recta a travs del
origen y deben adecuar a los datos. Un modelo de no interseccin
frecuentemente se presenta en los procesos qumicos y otros
procesos de manufactura, el modelo queda como:
y = 1 x
^ x02 MSE
Y0 t a / 2,n2 n
i
x 2
i =1
2
xh
^
Yh ta / 2, n 2 MSE 1 + n
2
xi
i =1
Ejemplo
El tiempo requerido por un tendero para surtir su negocio de
refrescos as como el nmero de envases colocados se muestra en
la siguiente tabla. En este caso si el nmero de envases X = 0
entonces el tiempo Y = 0.
el coeficiente es significativo a un alfa de 0.01.
Utilizando un modelo con interseccin resultando en:
El estadstico t para la prueba Ho: 0 = 0 es to = -0.65, por tanto el
coeficiente no es significativo a un alfa de 0.01, implicando que el modelo
de no interseccin puede proporcionar una estimacin superior, en este
caso MSE = 0.2988 y R2 = 0.9983 y, como MSE es menor que en el
modelo con intercepto, es superior.
Ejemplo
Un motor se fabrica con dos partes. La
resistencia al corte entre las dos partes
(Y) es una caracterstica importante de
calidad que se sospecha es funcin de
la antigedad del propelente (X). Los
datos se muestran a continuacin:
El diagrama de dispersin de la resistencia al corte versus el propelente se
muestra a continuacin
La figura sugiere que hay una relacin estadstica inversa entre la resistencia
al corte y la antigedad del propelente, y el supuesto de relacin lineal parece
ser razonable, para estimar los parmetros del modelo se calcula Sxx y Sxy:
Forma alterna
Pruebas de hiptesis de la pendiente e intercepcin
Anlisis de varianza
Decisin: rechazar Fo = 165.21 > F0.05; 1, 18 = 4.414
Estimacin por intervalo en 1 y
Intervalo de estimacin para la respuesta media
Prediccin de nuevas observaciones:
Por tanto, al 95% de confianza, un motor nuevo hecho con un propelente de 10
semanas de antigedad tendr una resistencia al corte de entre 2048.32 a
2464.32 psi.
Inferencia simultanea para los parmetros del modelo
La regin del 95% de confianza para 0 y 1, si 0est = 2627.82 y 1est = -37.15,
suma Xi2 = 4677.69, MSE = 9244.59 y F0.05,2,18 = 3.55 se tiene de la frmula:
Estimacin simultanea de la respuesta media
Prediccin de nuevas observaciones
Sea Xi = 10 y 18. Los estimadores puntuales de estas observaciones
futuras son Yest x1 = 2256.282 psi y Yest x2 = 1959.050 psi,
respectivamente. Para la regresin lineal simple y m = 2 se tiene:
Coeficiente de determinacin
Con los datos del ejemplo para
la suma de cuadrados de la
regresin y la suma de
cuadrados total se tiene:
ADECUACIN DEL MODELO DE REGRESIN LINEAL
Introduccin
Anlisis de los residuos
Ruido Blanco
Preguntas que responden los grficos
de residuos
Es lineal la relacin entre las variables?
Depende la varianza del valor de x?
Hay datos atpicos?
Son los datos independientes?
Son los datos normales?
Por lo anterior los residuos representan los errores observados si
el modelo es correcto.
Los residuos pueden ser graficados para:
1. Verificar normalidad.
2. Verificar el efecto del tiempo si su orden es conocido en
los datos.
3. Verificar la constancia de la varianza y la posible
necesidad de transformar los datos en Y.
4. Verificar la curvatura de ms alto orden que ajusta en las
Xs.
Anlisis grficos de residuales
Relaciones no lineales
Grficos de residuos
Linealidad
El mtodo de mnimos cuadrados estimar una recta de regresin
tanto si hay relacin lineal como si no la hay.
Comprobar si el modelo lineal se ajusta a los datos
Contraste de hiptesis Grfico de y frente a x
para la parmetros
Grfico de residuos frente
Contraste de regresin a valores predichos
Soluciones a la falta de linealidad
Transformar las variables para intentar conseguir linealidad
Introducir variable adicionales (regresin polinmica)
Detectar la presencia de datos atpicos o ausencia de otras
variables importantes para explicar la variable respuesta
Soluciones a la falta de homocedasticidad
Si la variabilidad de la respuesta aumenta con x segn la
ecuacin var(y/x)=g(x), dividimos la ecuacin de regresin por
g(x).
Transformar la variable respuesta y puede que tambin x
Si lo anterior no funciona, cambiar el mtodo de estimacin
Mnimos cuadrados ponderados
Independencia
Los residuos deben ser aleatorios y no estar correlacionados.
Si la variable respuesta ha sido medida en el tiempo es esperable que
exista dependencia temporal.
Si los datos son de tipo temporal conviene hacer un grfico para ver si
los datos tienen estructura temporal
Residuos
Tiempo
Normalidad
La hiptesis de normalidad es necesaria para justificar las distribuciones
de los estimadores:
2
2 x2
1 ~ N 1 , 2
0 ~ N 0 , 1 + 2
S
nS x n x
Intervalos de confianza
Ausencia de normalidad puede invalidar
Contrastes de hiptesis
Grficos para comprobar la normalidad:
Grfico probabilstico normal de los residuos
Histograma de los residuos
Si la distribucin de los residuos es normal, el grfico ha de mostrar
aproximadamente una lnea recta
Los Residuos como medida de Ajuste:
Si el modelo es cierto, los errores cumplen:
Sin embargo, estos errores son no observables.
Se definen los residuos del modelo como:
Se verifica que:
Propiedades de los Residuos:
Los residuos no son una muestra aleatoria de una N(0,2)
Ejemplo
Se realizaron 25 observaciones de la variable Y y X como sigue: Hallar
los residuales originales, estandarizados y estudentizados.
Recta estimada
Anlisis de Varianza
El anlisis de varianza es una herramienta que sirve para probar la
adecuacin del modelo de regresin, para lo cual es necesario calcular
las sumas de cuadrados correspondientes.
Grfica de probabilidad normal
Se utiliza la grfica de probabilidad normal para identificar si algunos
residuos sesgan la respuesta de la normal. Normalmente se requieren
20 puntos para verificar la normalidad.
Residuales vs Fits
Observacin
Los residuales no son variables aleatorias independientes porque involucran los valores ajustados
basados en los estimadores b0 y b1 por lo cual se asocian con (n-2) grados de libertad. Sin
embargo, cuando el nmero de residuales es grande, comparado con el nmero de parmetros del
modelo, el efecto de no independencia se vuelve relativamente intrascendente.
DETECCIN Y TRATAMIENTO DE OBSERVACIONES
REMOTAS (OUTLIERS)
De acuerdo con Draper y Smith
Efectos de una observacin sobre el modelo
estimado
Efecto de un en punto
Medidas basadas en los residuos
Efectos de los diferentes tipos de puntos sobre la regresin
Se va a analizar el efecto de los valores potencialmente influyentes
segn su distancia a la media en el espacio de variables
independientes:
1. Valores cercanos a la media
2. Valores intermedios
3. Valores alejados de la media
Observaciones no alejadas de la media
Difcilmente son influyentes
Observaciones intermedia
Son influyentes si son atpicos
Observaciones alejadas de la media
Normalmente son influyentes aunque no sean atpicos
Niveles de influencia (Medidas de influencia a priori)
Forma grfica para detectar observaciones remotas.
Los valores normalizados del error mayor a 4 pueden marcarse como
posibles observaciones remotas.
Las observaciones remotas pueden crear gran dificultad, al empujar
desproporcionadamente la lnea ajustada de regresin, pero slo seran
descartables ante evidencias como mala toma de datos o procesamiento de
los datos.
Valores LEVERAGE
Otra forma simple no grfica de medir su influencia es a travs del vector
palanca o leverage que se evaluara como:
Un punto dato (xi) se dice que ejerce un apalancamiento (grande) si est
desproporcionadamente distante de la mayor parte de los valores del
regresor. Cada hi refleja la influencia de cada xi sobre el modelo de
regresin ajustado. Si existen esos puntos de influencia quiz sea necesario
evaluar de nuevo la necesidad de mantenerlos en el modelo.
Regla de decisin
Sea p es el nmero total de variables en el modelo, valores de hi que
superen el valor:
son indicadores de una alta influencia en el modelo
Medidas de extraeza
Medidas que indican si un punto tiene un comportamiento muy diferente del
resto
Studentizados Internamente:
formalmente el residuo internamente studentizado se obtiene como
Algunas propiedades:
es pequea.
Studentizados Externamente:
Se define el residuo externamente studentizado como:
el subndice (i) indica la exclusin del dato i-simo.
Se demuestra que:
Residuos predichos
Propiedades Residuos Predichos
Medidas de influencia a posteriori
Indican si un valor afecta a la estimacin del modelo
Medidas de la robustez del modelo a los datos
Medidas de robustez de los coeficientes estimados
Donde ajj es el j-simo elemento de la inversa de XX
Si | DFBETA | > 2/n observacin influyente
Medidas de robustez de los valores estimados de la
dependiente
Si | DFFITS | > 2 (p/n) dato influyente ( p = parmetros)
Medidas de robustez de los estimadores de la varianza
Si COVRATIO > 1 + 3p/n o < 1 3p/n dato influencial
Y: Pressure
Case Number X:Temp (F) (Inches Hg)
Ejemplo: 1 194.5 20.79
2 194.3 20.79
Analizar los datos de Forbes 1857. 3 197.9 22.40
Punto de Ebullicin y la Presin 4 198.4 22.67
Baromtrica para 17 los lugares en 5 199.4 23.15
los Alpes y Escocia. 6 199.9 23.35
7 200.9 23.89
8 201.1 23.99
9 201.4 24.02
10 201.3 24.01
11 203.6 25.14
12 204.6 26.57
13 209.5 28.49
14 208.6 27.76
15 210.7 29.04
16 211.9 29.88
17 212.2 30.06
(i) Est bien identificada la funcin para la media???
Podemos mirar el grfico vs. . Esperamos no encontrar patrones.
Ejemplo: (Datos de Forbes) Se aprecia curvatura.
Tambin podemos mirar el grfico vs.
Ejemplo: Datos de Forbes.
Ambos grficos entregan la misma informacin: No est bien identificada la
media.
Podemos mirar el grfico NO. (Por qu?)
(ii) Es constante la varianza??
Podemos mirar el grfico vs. . Esperamos encontrar variabilidad
homognea.
Ejemplo: .
(iii) Vienen todos los datos del mismo modelo?
Outliers (observaciones remotas o alejadas)
Son datos tales que la respuesta es muy grande o muy pequea en
comparacin al resto de los datos.
No es necesariamente malo.
Cmo detectarlo? Usando que
o que
Ejemplo: Residuos Internamente Studentizados. Datos de Forbes.
Residuos Externamente Studentizados. Datos de Forbes.
Puntos Extremos (o de apalancamiento).
El valor del predictor est muy alejado.
No siempre tiene relevancia.
Tambin se denominan Puntos de Palanca o valores Leverage
La palanca se define como:
Ejemplo: Los dos puntos en el extremo derecho tienen la misma palanca. Sin
embargo, el segundo caso es de mayor importancia.
(1) (2)
Puntos de Influencia.
La idea es magnificar la influencia de cada punto en la regresin.
Cmo se afectan y ?
Cmo se afecta ?
Cmo se afecta ?
La medida de Cook
entrega una medida de la influencia de cada observacin.
Ejemplo 1: Distancia de Cook (Datos de Forbes)
Ejemplo 2: Distancia de Cook (Datos Ficticios (1), dato no influyente)
Ejemplo 2: Distancia de Cook (Datos Ficticios (2), dato influyente)
Pruebas de hiptesis con los residuales
Existen ocasiones en que los anlisis grficos a veces no permite decidir
con claridad acerca de un aspecto en particular acerca de los errores.
Soluciones a la falta de linealidad
Transformar las variables para intentar conseguir linealidad
Introducir variable adicionales (regresin polinmica)
Detectar la presencia de datos atpicos o ausencia de otras
variables importantes para explicar la variable respuesta
Soluciones a la falta de homocedasticidad
Si la variabilidad de la respuesta aumenta con x segn la
ecuacin var(y/x)=g(x), dividimos la ecuacin de regresin por
g(x).
Transformar la variable respuesta y puede que tambin x
Si lo anterior no funciona, cambiar el mtodo de estimacin
Mnimos cuadrados ponderados
Transformaciones
Las transformaciones se utilizan fundamentalmente por tres razones:
Linealizar relaciones no-lineales
Conseguir homocedasticidad
Conseguir normalidad
Al transformar los datos no se pierde informacin pero hay que tener
cuidado a la hora de interpretar los coeficientes.
El modelo transformado ha de ser tambin validado
y = 0 e 1x log( y ) = %0 + %1 x
%1 representa el incremento porcentual de y cuando x aumenta
una unidad
y = 0 e 1x log( y ) = log( 0 ) + 1 x
x
y = e
log(y)
y
log(y) = a + x
a = log()
x x
Modelo de regresin exponencial
y = 0 x log( y ) = %0 + %1 log( x)
1
%1 representa el incremento porcentual de y cuando x aumenta un 1%
y = 0 x 1 log( y ) = %0 + %1 log( x)
1< 0
log(y)
y
x log(x)
e = e x y = %0 + %1 log( x)
y 0 1
%1/100 representa el incremento de y cuando x aumenta en un 1%
e y = e 0 x 1 y = %0 + %1 log( x)
y y
x log(x)
Consecuencia de las transformaciones
La interpretacin de los parmetros se refiere a la relacin entre las
variables transformadas, no a las originales