Validación de Modelos de Regresión
Validación de Modelos de Regresión
DIAGNOSIS Y VALIDACIÓN
DEL MODELO DE REGRESIÓN
INTRODUCCIÓN
RESUMEN Y CONCLUSIONES
CUESTIONES
03.2 MODELOS DE REGRESIÓN LINEAL MÚLTIPLE
INTRODUCCIÓN
También se tratarán brevemente en la presente unidad temática los problemas del error de
especificación del modelo, problema que consiste esencialmente en que el modelo propuesto
no refleja adecuadamente la relación entre la variable a explicar y las explicativas, o bien que
falta alguna variable explicativa relevante, o que sobra alguna del modelo.
Una vez estimado el modelo de regresión, se debe comprobar si se cumplen las hipótesis
referentes al error o perturbación, a las variables explicativas y la explicada, y a los parámetros
del modelo. En particular, y en lo referente a la perturbación o error, se debe comprobar la
normalidad, homocedasticidad e independencia del error, la no dependencia del error de las
variables explicativas, la no existencia de relaciones entre las propias variables explicativas, la
linealidad de la relación y la no presencia de observaciones anómalas. Las hipótesis referentes
a las variables y a los parámetros no se validarán mediante gráficos.
Existen varios problemas a la hora de realizar las comprobaciones sobre el error. El primero
es que no es posible contrastar dichas hipótesis puesto que el error o perturbación (U) no es
observable. Si que lo son, sin embargo, los residuos del ajuste (e), por lo que se tratará de
comprobar el cumplimiento de las hipótesis en el residuo con la esperanza de que los
resultados puedan extrapolarse al error o perturbación. Sin embargo, error y residuo no son
lo mismo, y se puede demostrar que la relación entre ambos viene dada a partir de una matriz
M obtenida a partir de la matriz de datos X de las variables explicativas.
DIAGNOSIS Y VALIDACIÓN DEL MODELO DE REGRESIÓN 03.3
= donde = − ( ′ ) = −
Por otra parte, se tiene un segundo problema, un problema de escala que impide determinar
si un error (residuo) es grande o es pequeño. Una vez realizado el ajuste, se puede observar
el valor del residuo para tener así una idea de la importancia del error cometido, de lo bueno
o malo que es el ajuste realizado. Para no equivocarse en el análisis, hay que tener en cuenta
que el residuo tiene las mismas unidades de medida que la variable analizada, y así se pueden
llegar a conclusiones totalmente contrarias si se cambia la unidad de medida de dicha variable.
Aunque el ajuste para explicar el consumo de un producto sea el mismo, los resultados son
aparentemente muy diferentes si el consumo se mide en euros o si se mide en miles de
millones de euros. En el primer caso el residuo parecerá extremadamente grande, mientras
que en el segundo parecerá muy pequeño. El ajuste es igual de bueno (o malo), y los valores
de los residuos pueden engañar a este respecto.
Se tiene así de forma sencilla un valor adimensional, con lo que se evitan problemas de escala
(unidades de medida). Si bien su sencillez resultaba útil en el pasado, cuando apenas existía
potencia de cálculo, tienen el inconveniente de que no tienen una distribución conocida, y por
lo tanto no están acotados sus valores. Para evitar esto, se definen los residuos estudentizados
rti:
=
() 1−
en donde cada residuo se divide por una estimación de la desviación típica, teniendo en cuenta
que para cada residuo rti, se elimina la observación correspondiente en el cálculo de la
varianza. Se rehace el cálculo obteniendo una nueva estimación ( ) , y de esta forma el residuo
estudentizado tiene distribución t de student.
= ≡
() 1−
Autoevaluación 1: ¿Entre qué dos valores oscilarán, aproximadamente, los residuos estudentizados
teniendo en cuenta su distribución?
Una vez normalizados, los residuos ei, ri y rti aportarán una información que será
determinante sobre lo adecuado del ajuste realizado, y sobre posibles anomalías en los datos
originales.
03.4 MODELOS DE REGRESIÓN LINEAL MÚLTIPLE
donde n es el número de residuos, k el número de variables explicativas del modelo del que
provienen, y se calculan para ellos el coeficiente de asimetría, S, y el de apuntamiento, C.
DIAGNOSIS Y VALIDACIÓN DEL MODELO DE REGRESIÓN 03.5
como:
% Percentage
50
(- − 0,5)
, = 20
probabilidad que le corresponde. Figura 1 Papel probabilístico normal de los residuos del
ajuste.
La falta de normalidad de los residuos puede ser debida causas muy diversas. Por ejemplo,
a unas pocas observaciones atípicas. Otro motivo para la falta de normalidad es la falta de
linealidad en el modelo, una relación no adecuada entre variable explicada y explicativas. Si
es éste el caso, se elige una transformación adecuada, y lo más probable es que los residuos
puedan aceptarse como normales. La existencia de varias poblaciones mezcladas en los datos
es otro motivo habitual de falta de normalidad, y para solucionarlo se identifican las
poblaciones y se crean las variables ficticias adecuadas.
Es posible realizar y aceptar los resultados de las pruebas de hipótesis para los parámetros y
para el modelo en el caso de que la falta de normalidad no sea muy importante, aunque no
debe mostrarse demasiada confianza en los resultados.
99
99
95
95
80
80
% Percentage
% Percentage
50
50
20
20
5
5
1
1
0.1
0.1
-2000 -1000 0 1000 2000 3000
-15000 -10000 -5000 0 5000 10000 15000 20000
RESIDUOS
RESIDUOS
(a) (b)
Figura 2 Papel probabilístico normal de residuos que no tienen distribución normal.
Es posible que no pueda admitirse la normalidad porque los residuos aparezcan formando
una curva en su parte negativa (Figura 2a). En este caso tomando logaritmos de la variable
analizada (y posiblemente de las explicativas, si tienen una relación lineal con la explicada) se
solucionará la falta de normalidad.
Por otra parte, es posible que los residuos aparezcan en el gráfico formando dos o más grupos.
En la Figura 2b se aprecia una clara separación en el cero y dos grupos de residuos a su
izquierda y derecha. Esto indica que existen dos poblaciones, que es necesario identificar
(según cual sea la variable analizada) y crear las variables ficticias necesarias. El número de
poblaciones existentes es el número de grupos que pueda observarse.
Proponemos el papel probabilístico normal como la mejor forma de determinar si el error tiene
distribución normal. Si los residuos aparecen más o menos alineados en el gráfico, se acepta la
normalidad del error. La ventaja de este método es que, en caso de rechazarla, es posible proponer
transformaciones en el modelo para su mejora.
Los gráficos de los residuos frente a la estimación de la variable explicada pueden mostrar
problemas del modelo como la heterocedasticidad, la falta de linealidad, los valores atípicos
o la autocorrelación. Si existe alguno de estos problemas en el modelo, entonces los gráficos
de residuos frente a la estimación lo mostrarán de forma más o menos clara.
Para comenzar a identificar los diferentes problemas en el modelo, hay que conocer en
primer lugar el aspecto del gráfico de residuos frente a variable estimada en un modelo sin los
problemas en el error o perturbación antes mencionados. Dicho aspecto se encuentra en la
Figura 3. En ella puede verse que los residuos (trama de puntos) ocupan completamente una
franja sin un orden definido (incorrelación) cuyos límites superior e inferior son paralelos al
eje de abscisas (varianza constante), y situados a la misma distancia del mismo (valor medio
cero).
DIAGNOSIS Y VALIDACIÓN DEL MODELO DE REGRESIÓN 03.7
Comenzando con los casos en los que existen problemas en el error, en la Figura 4 se
presenta el caso de que exista heterocedasticidad, esto es, que la varianza del error o
perturbación no se mantenga constante, (σ2(Ui)=σi2).
En este caso la franja que contiene los residuos no tiene una altura constante. La altura de la
franja representa la variabilidad de los residuos para cada valor de 01, y si ese alto no es
constante entonces la variabilidad tampoco tiene que serlo, siendo lo más habitual que ésta
aumente con la predicción, ya sea de forma lineal como en la Figura 4a, o no lineal como en
la Figura 4b. Solucionar este problema es complicado y se dedicará una unidad temática a ello.
No obstante, cuando se tenga un problema de escala y las observaciones aparezcan en un
rango muy amplio, muy dispersas, tomar logaritmos puede solucionar el problema.
e e
Y Y
(a) (b)
Figura 4 Ejemplos de gráficos de residuo para un modelo con problemas de heterocedasticidad. En el caso (a) la varianza
aumenta de forma lineal con la estimación, y en el caso (b) el aumento es no lineal.
Otro de los problemas importantes es la autocorrelación del error, expresado bien mediante
la autocovarianza, cov(UiUj )≠0, o mediante el coeficiente de autocorrelación. La solución a la
autocorrelación es complicada, y también se dedicará una unidad temática a ello.
e
e
t-1 t
Y
Y
t-1 t
(a) (b)
Figura 5 Ejemplos de gráficos de los residuos para un modelo con problemas de autocorrelación. La autocorrelación puede
ser negativa (a) o positiva (b).
e e
Y Y
(a) (b)
Figura 6 Ejemplo de residuos anómalos.
Los gráficos de los residuos frente a las variables explicativas ayudan a identificar los
problemas del modelo como debidos a alguna variable explicativa del modelo en particular.
El aspecto de los gráficos de los residuos frente a las variables explicativas es similar a los vistos
en el punto anterior, por lo que no se repiten aquí. Pese a ello hay que puntualizar que, a pesar
de la brevedad de la explicación, estos gráficos de residuos son los más importantes por el
motivo expuesto anteriormente.
En estos gráficos se observa la tercera y última interpretación del término U del modelo de
regresión. Este término puede entenderse como que es la variable explicada a la cual se le ha
quitado el efecto de las variables explicativas consideradas en el modelo.
0 − (23 + 2 + 2 +⋯+2 )=
En una función consumo, el término U se interpretaría como el consumo del producto libre
del efecto que tiene sobre el mismo la renta y el precio del producto. De esta forma, y una vez
filtrado el error del efecto de ambas variables, se podría apreciar mejor el efecto que tienen
los precios de otros productos sobre el consumo, o cualquier otra variable que se desee
considerar.
Con estos gráficos se pretende estudiar la relación que tiene la variable Y con una variable
explicativa en particular Xk, eliminando o filtrando el efecto del resto de las variables
explicativas consideradas en el modelo, con lo que la relación queda ahora más clara. Para
ello, se debe:
Una aproximación aceptable y bastante más sencilla puede ser realizar el ajuste con todas
las variables, obtener los residuos (e) del ajuste y calcular un nuevo residuo como e*=e+bkXk.
Su representación frente a la variable explicativa Xk puede mostrar, aproximadamente, el
efecto marginal de Xk sobre Y.
Dado que los modelos proporcionados por la teoría económica pueden no incluir todas las
variables explicativas, es interesante representar los valores del residuo e frente al tiempo,
frente el orden de introducción o frente al orden de medida para poder asignar a esas
variables los problemas que se detecten en el modelo.
Estos gráficos tienen el mismo aspecto que los gráficos de los residuos frente a estimaciones,
o frente a variables explicativas, por lo que no se vuelven a presentar en este apartado.
Ejemplo 1. Los siguientes gráficos son de los residuos del problema sobre la tasa de
ocupación de las mujeres frente a la tasa de desempleo, planteado en el primer ejemplo de la
primera unidad temática.
En los tres primeros gráficos se aprecia de forma clara que la distribución de los residuos no
es aleatoria, y que el modelo está mal formulado.
En el gráfico de residuos frente a la predicción (Figura 10) y frente a la Tasa de Paro (Figura
12) se puede apreciar que los residuos se agrupan en dos bandas claramente
diferenciadas. Esto quiere decir que existen dos rectas y no sólo una, que existen dos
grupos de datos.
En el gráfico de residuos frente al índice (Figura 11), u orden de introducción de los datos
(el año), se observan claramente dos comportamientos, una parte de residuos positivos
(primeros años) y otra parte de residuos negativos que incluye unas oscilaciones (últimos
años). Estos dos grupos, positivos y negativos, están separados en un instante de tiempo
determinado, el año 1986, que es el momento de entrada de España en la CEE.
Por último, en el papel probabilístico normal (Figura 13) vemos que los residuos están
DIAGNOSIS Y VALIDACIÓN DEL MODELO DE REGRESIÓN 03.11
separados en dos partes, una a cada lado del cero. Esta separación en el cero indica la
presencia de dos poblaciones, las ya mencionadas del antes y el después de la entrada en
la CEE.
Regression residuals (= observed - fitted TASAOCUM) Regression residuals (= observed - fitted TASAOCUM)
4 4
3 3
2 2
1 1
residual
residual
0 0
-1
-1
-2
-2
-3
-3
-4
70 75 80 85 90 95 -4
TASAOCUM 1980 1985 1990 1995 2000
Figura 10 Residuos de Tasa de Ocupación de las mujeres Figura 11 Residuos de Tasa de Ocupacióan de las mujeres
representados respecto a la predicción. representados frente al orden de introducción.
Regression residuals (= observed - fitted TASAOCUM) Normal Probability Plot
4 99.9
3 99
2 95
% Percentage
1 80
residual
0 50
-1 20
-2 5
-3 1
-4 0.1
6 8 10 12 14 16 18 20 22 24 -3 -2 -1 0 1 2 3
TASAPARO RESIDUOSM1
Figura 12 Residuos de Tasa de Ocupación de las mujeres Figura 13 Papel probabilístico normal de los residuos del
representados respecto a la Tasa de Paro. ajuste de Tasa de Ocupación de las mujeres.
La conclusión final sería que el modelo no está bien formulado, que existen dos periodos en
el intervalo de tiempo observado, lo que nos llevaría a introducir una variable ficticia en el
ajuste para separar ambos. Respecto al papel probabilístico normal, en principio no parece
necesaria una transformación adicional de la variable estudiada, aunque la decisión final
habría que tomarla tras realizar el ajuste con la variable ficticia.
Los gráficos de residuos son una herramienta muy útil para encontrar problemas en el ajuste de un
modelo, si bien tienen dos problemas fundamentales: pueden ser complicados de interpretar y no son
una prueba definitiva de la existencia del problema.
En los siguientes apartados se detallará cada uno de estos tres casos, la forma en que afecta
al modelo, la manera de identificar que se tiene el problema y la solución del mismo. Se
prestará especial atención al tercero, pues es complicado tener en cuenta una variable
explicativa que no se conoce, y las pruebas para los parámetros se encargan de determinar si
una variable explicativa lo es realmente o no lo es. Establecer la relación correcta entre
variable explicada y explicativas es un problema que requiere especial atención.
La estimación de los parámetros puede ser sesgada, esto es, estimadores que en promedio
no coinciden con el parámetro que se desea estimar. Si la variable explicativa que no se
ha incluido en el modelo (porque se desconoce) está incorrelacionada con las variables
incluidas en el mismo (lo habitual), entonces el estimador b es insesgado y no hay
problema. En caso contrario el estimador es segado, y el sesgo aumenta con la correlación
con las variables del modelo.
La estimación de la varianza del error puede verse muy afectada. Así, si la variable que se
ha incluido está muy correlacionada con las existentes, la estimación de la varianza del
error aumenta mucho, y se podrían considerar como no explicativas algunas variables
explicativas que sí lo son. Si no está correlacionada (lo más habitual), entonces la
estimación de la varianza del error aumenta también, aunque poco. Estos efectos son
menos apreciables a medida que aumenta el tamaño de la muestra.
exclusión de variables explicativas relevantes. Sobre todo, con tamaños de muestra pequeños,
que es lo habitual.
El modelo más sencillo, el inicial o el modelo por defecto cuando se trata de establecer una
relación entre variable explicada y variable explicativa es un modelo lineal en las variables
explicativas (además de lineal en los parámetros). Una relación no lineal puede aproximarse
por una relación lineal si el intervalo donde toma valores las variables explicativas es
relativamente estrecho. Pero si ese intervalo no es estrecho, o si se pretende predecir valores
fuera del mismo, ese modelo lineal aproximado no será adecuado en absoluto.
La primera forma que se presenta de determinar si una relación lineal entre variable
explicada y explicativa está bien planteada es observar un gráfico de residuos. El motivo de
hacerlo es que, además de saber que está mal planteada, se puede tratar de determinar el
tipo de relación real existente entre las variables, y modificar el modelo para tenerla en
cuenta.
Los gráficos de residuos necesarios para detectar errores de especificación (no linealidad)
son los gráficos de los residuos ya vistos:
Prestando mayor atención al gráfico de residuos frente a las variables explicativas o tal vez el
gráfico parcial de los residuos frente a los demás gráficos. El motivo de prestar atención es
que tanto en uno como en otro se representan los residuos frente a una variable explicativa
determinada, variable explicativa que es la causa de la no linealidad.
Para ello se propone un modelo lineal en el que se relaciona el PIB, medido en miles de millones
de pesetas, con el número de oficinas bancarias y de cajas de ahorro, ambos medidos en
unidades. Proponer y ajustar el modelo, determinando si la relación lineal resulta razonable
para el mismo, y proponer su modificación en caso de que no lo sea.
El modelo propuesto para el estudio del PIB es un modelo lineal, donde el parámetro β1
cuantifica el aumento del PIB, en promedio, por cada oficina de banco abierta, cuando se
03.14 MODELOS DE REGRESIÓN LINEAL MÚLTIPLE
, = 23 + 2 8 "9 + 2 ""88 +
Realizado el ajuste, todos los parámetros son significativos, y el modelo resulta adecuado, tal
y como se aprecia en los P-Valor del Cuadro 1, con un porcentaje de explicación de la
variabilidad del PIB de un 97,57%. Aunque todo es razonable, será necesario centrar la atención
en el aspecto que presentan los gráficos de residuos del ajuste.
Analysis of Variance:
-----------------------------------------------------------
Sum of squares df Mean square
-------------------------------------------------------------
Regression 9.54116e+010 2 4.77058e+010
Residual 2.37062e+009 17 1.39448e+008
Total 9.77823e+010 19 5.14644e+009
-----------------------------------------------------------
R^2 = 9.54116e+010 / 9.77823e+010 = 0.975756
F(2, 17) = 4.77058e+010 / 1.39448e+008 = 342.105 [p-value 1.86e-014]
Regression residuals (= observed - fitted PIB) Regression residuals (= observed - fitted PIB)
25000 25000
20000 20000
15000 15000
10000 10000
5000 5000
residual
residual
0 0
-5000 -5000
-10000 -10000
-15000 -15000
-20000 -20000
60000 62000 64000 66000 68000 70000 72000 45000 50000 55000 60000 65000 70000 75000
BANCO CCAA
(a) (b)
Regression residuals (= observed - fitted PIB)
Regression residuals (= observed - fitted PIB)
25000
25000
20000
20000
15000
15000
10000
10000
5000 5000
residual
residual
0 0
-5000 -5000
-10000 -10000
-15000 -15000
-20000 -20000
350000 400000 450000 500000 1982 1984 1986 1988 1990 1992 1994 1996 1998 2000
PIB AÑO
(c) (d)
Figura 14 Gráficos de residuos frente al número de bancos (a), el número de cajas de ahorro (b), la predicción (c) y el orden
de introducción (d).
DIAGNOSIS Y VALIDACIÓN DEL MODELO DE REGRESIÓN 03.15
Como se observa en la Figura 14, los residuos no están distribuidos al azar, forman figuras
geométricas reconocibles si se unen los puntos mediante una línea, por lo que debe admitirse
que el modelo está mal formulado. Entre otras cuestiones, puede observarse una clara curva
en el gráfico de residuos frente al número de BANCOS (Figura 14a), lo cual indicaría una
relación de tipo cuadrático entre el número de BANCOS y el PIB. Así mismo puede observarse
la existencia de un antes y un después en el gráfico de residuos frente al tiempo (Figura 14d),
puesto que en la observación 10 se aprecia un salto o discontinuidad, separando los residuos
en dos grupos. Esta observación corresponde al año 1992, año de una importante crisis
económica en España.
Cuadro 2 Ajuste del modelo que incluye el cuadrado del número de BANCOS.
Model 2: OLS, using observations 1982-2001 (T = 20)
Dependent variable: PIB
-----------------------------------------------------------------
coefficient std. error t-ratio p-value
-----------------------------------------------------------------
const 3.07251e+06 429008 7.162 2.26e-06 ***
BANCO −95.5591 12.9552 −7.376 1.56e-06 ***
CCAA 7.20101 0.140916 51.10 3.72e-019 ***
BANCO_2 0.000736274 9.76560e-05 7.539 1.19e-06 ***
-----------------------------------------------------------------
R-squared 0.994675 Adjusted R-squared 0.993676
Analysis of Variance:
-----------------------------------------------------------
Sum of squares df Mean square
-----------------------------------------------------------
Regression 9.72616e+010 3 3.24205e+010
Residual 5.20703e+008 16 3.25439e+007
Total 9.77823e+010 19 5.14644e+009
-----------------------------------------------------------
R^2 = 9.72616e+010 / 9.77823e+010 = 0.994675
F(3, 16) = 3.24205e+010 / 3.25439e+007 = 996.208 [p-value 2.15e-018]
Suponiendo una relación cuadrática con el número de oficinas de banco y realizado el ajuste,
puede comprobarse que el P-Valor de la nueva variable es prácticamente igual a cero, por lo
que es conveniente la introducción del término al cuadrado, como se aprecia en el Cuadro 2.
Cuadro 3 Ajuste del modelo que incluye a la variable ficticia que indica la crisis.
Model 5: OLS, using observations 1982-2001 (T = 20)
Dependent variable: PIB
-----------------------------------------------------------------
coefficient std. error t-ratio p-value
-----------------------------------------------------------------
const 128231 43686.1 2.935 0.0102 **
CCAA 7.49732 0.427167 17.55 2.07e-011 ***
BANCO −2.57197 0.916794 −2.805 0.0133 **
PERIODO_CCAA −1.80723 0.579952 −3.116 0.0071 ***
PERIODO_BANCO 2.07320 0.520838 3.980 0.0012 ***
-----------------------------------------------------------------
R-squared 0.996864 Adjusted R-squared 0.996028
Analysis of Variance:
-----------------------------------------------------------------
Sum of squares df Mean square
-----------------------------------------------------------------
Regression 9.74757e+010 4 2.43689e+010
Residual 3.06609e+008 15 2.04406e+007
Total 9.77823e+010 19 5.14644e+009
-----------------------------------------------------------------
R^2 = 9.74757e+010 / 9.77823e+010 = 0.996864
F(4, 15) = 2.43689e+010 / 2.04406e+007 = 1192.18 [p-value 1.41e-018]
03.16 MODELOS DE REGRESIÓN LINEAL MÚLTIPLE
0 = 23 + 2 + 2 + ⋯+ 2 + : 01 + : 01 $ +
H0 γ1 = γ2 = 0 ∆ "@⁄A
;<=>< =
La relación es lineal y está bien formulada "@C ⁄( − D − 1)
En el caso del PIB y de las oficinas de banco y cajas de ahorro, se realiza el ajuste del RESET
en el Cuadro 4.
, = 23 + 2 8 "9 + 2 ""88 + : ,F + : ,F $
+
Como Fcalc = 4,267 > F2,150,05 = 3,68, o como P-Valor = 0,0341 < 0,05, entonces se rechaza H0
y la relación entre el PIB y alguna variable explicativa no es lineal, como se había señalado
anteriormente.
Autoevaluación 2: ¿Según esta prueba, cuál es la variable explicativa que tiene una relación no lineal
con el PIB?
DIAGNOSIS Y VALIDACIÓN DEL MODELO DE REGRESIÓN 03.17
Cuadro 4 Ajuste con el cuadrado y el cubo de la estimación del PIB para determinar si la relación está bien planteada
Auxiliary regression for RESET specification test
OLS, using observations 1982-2001 (T = 20)
Dependent variable: PIB
-------------------------------------------------------------
coefficient std. error t-ratio p-value
-------------------------------------------------------------
const 1.34015e+06 1.06878e+06 1.254 0.2291
CCAA −31.5180 26.3975 −1.194 0.2510
BANCO −6.59956 8.11543 −0.8132 0.4288
yhat^2 1.12414e-05 9.31071e-06 1.207 0.2460
yhat^3 −7.58837e-012 7.77527e-012 −0.9760 0.3446
-------------------------------------------------------------
Test statistic: F = 4.266987,
with p-value = P(F(2,15) > 4.26699) = 0.0341
RESUMEN Y CONCLUSIONES
1. Realizar las pruebas hipótesis sobre los parámetros y sobre el modelo no es suficiente para
dar como válido un modelo de regresión. Además, es necesario comprobar que las
hipótesis establecidas sobre el modelo se cumplen, siendo las más importantes las
referidas al error o perturbación.
2. En la presente unidad temática se han presentado una serie de gráficos que permiten la
validación del modelo, al menos en lo que respecta al error o perturbación. Dicha
validación se produce por medio de los residuos del ajuste, la diferencia existente entre el
valor real de la variable explicada y el valor aproximado propuesto por el modelo.
4. Por último, es posible que el ajuste realizado esté condicionado por sólo unas pocas
observaciones disponibles, bien porque los valores son muy diferentes del resto de las
observaciones, bien porque son fruto de algún tipo de error. En la presente unidad
temática se han presentado una serie de pruebas que permiten identificar dichas
observaciones, y determinar la naturaleza de su influencia.
03.18 MODELOS DE REGRESIÓN LINEAL MÚLTIPLE
CUESTIONES
P1.- Dados los siguientes GRÁFICOS DE LOS RESIDUOS, explicar que problemas tienen los
modelos respectivos (si los tienen).
0.4 0.4
0.4
0.2 0.2
0.2
0 0
0
-0.2 -0.2
-0.2
-0.4 -0.4
-0.4
-1.6 0.4 2.4 4.4 6.4 -1.6 0.4 2.4 4.4 6.4 -1.6 0.4 2.4 4.4 6.4
Prediccion Prediccion Prediccion
b) Para la segunda prueba realizada, la prueba RESET, compara el resultado obtenido con el
ofrecido por el gretl
DIAGNOSIS Y VALIDACIÓN DEL MODELO DE REGRESIÓN 03.19
P3.- En su informe del año 2010 la Asociación Española de Renting de Vehículos proporciona
datos sobre su sector. Entre ellos se detalla la evolución en el tiempo del tamaño de la
flota (FLOTEVEH) y de los ingresos que generan (FACTURACIÓN en millones de euros).
150
50
residual
-50
-100
-150
-200
-250
150000 200000 250000 300000 350000 400000 450000 500000 550000
FLOTAVEH
03.20 MODELOS DE REGRESIÓN LINEAL MÚLTIPLE
P4.- Determinar los posibles problemas que aparecen en los siguientes gráficos de los
residuos:
38 0.1 0.1
0.05 0.06
18
0 0.02
-2
-0.05 -0.02
-22 -0.1 -0.06
-42 -0.15 -0.1
0 5 10 15 20 25 30 6.5 6.9 7.3 7.7 8.1 8.5 8.9 0 48 12 16
Index Predicted Index
(d) (e) (f)
FBC VENTAS VENTAS/POBLACION
1.6 19 0.5
1.1 15
0.3
0.6 11
0.1 7 0.1
-0.4 3
-0.1
-0.9 -1
-1.4 -5 -0.3
100 150 200 250 300 350 400 0 100 200 300 400 500 600 0 2 4 6 8 10
Ventas POBLACION Index
(g) (h) (i)