REGRESION LINEAL SIMPLE
Con frecuencia, nos encontramos en economa con modelos en los que el
comportamiento de una variable, Y, se puede explicar a travs de una variable
X; lo que representamos mediante
Y = f (X) (1)
Si consideramos que la relacin f, que liga Y con X, es lineal, entonces (1)
se puede escribir as:
t 1 2 t Y = + X (2)
Como quiera que las relaciones del tipo anterior raramente son exactas, sino
que ms bien son aproximaciones en las que se han omitido muchas variables
de importancia secundaria, debemos incluir un trmino de perturbacin
aleatoria , que refleja todos los factores distintos de X -que influyen sobre la
variable endgena, pero que ninguno de ellos es relevante individualmente.
Con ello, laCuando se quiere saber en qu medida estn relacionadas dos
variables en estudio se utiliza el modelo de regresin lineal simple, expresado
de la forma:
Y = 0 + 1X +
Y: Variable dependiente
0 y 1: Parmetros del modelo
X: Variable independiente
: Error del modelo
ECUACION DE REGRESION LINEAL SIMPLE
Cuando tenemos varias distribuciones de datos con su propia media o valor
esperado
E (Y) = 0 + 1X
La relacin lineal entre las dos variable puede ser:
E(Y)
Relacin
Si 1 > 0 lineal
positiva
X
E(Y)
Relacin
Si 1 < 0 lineal
negativa
X
E(Y)
No hay
Si 1 = 0 relacin
X
Ahora bien, cuando no se conocen los valores poblacionales se utiliza la
ECUACION DE REGRESION LINEAL SIMPLE ESTIMADA:
y = b0 + b1x
y : es el estimador puntual de E(Y)
b0 , b1: estimadores de 0 y 1 respectivamente
Para hallar la recta de regresin lineal simple estimada, a travs de los datos
muestrales, se utilizara el METODO DE LOS MINIMOS CUADRADOS, criterio
consiste en encontrar los valores de b 0 y b1 que hacen mnima la suma de los
cuadrados de las desviaciones entre los valores observados de la variable
dependiente y los valores estimados de la misma.
Ejemplo:
Suponemos una muestra de 10 restaurantes que presenta el nmero de
clientes y las ventas trimestrales:
Restauran
1 2 3 4 5 6 7 8 9 10
t
Clientes
2 6 8 8 12 16 20 20 22 26
(miles)
Ventas
58 105 88 118 117 137 157 169 149 202
(miles BF)
DIAGRAMA DE DISPERSION: Se obtiene de graficar los valores de las
variables, en este caso clientes (que ser X) contra ventas (Y)
Yi
250
200
150
100
50
0
0 5 10 15 20 25 30
Xi
Para predecir las ventas del restaurante se utilizar la recta de regresin lineal
de la forma:
yi = b0 + b1xi
yi : valor estimado de las ventas del restaurante
b0 : interseccin de la recta con el eje Y
b1 : pendiente de la recta
xi : nmero de clientes por restaurant
CRITERIO DE LOS MINIMOS CUADRADOS
Consiste en encontrar los valores de b0 y b1 que hacen mnima la suma de los
cuadrados de las desviaciones entre los valores observados y los valores
estimados de la misma variable. Se utilizan los datos muestrales.
Entonces la notacin del criterio es: min(yi yi)2
yi : valores observados de la variable dependiente
yi : valores estimados de la variable dependiente
( xix )( yi y )
b1=
(xix)2
b0 = yb 1 x
Siguendo con el ejemplo
x=
xi = 140 =14
n 10
y=
y i = 1300 =130
n 10
( x ix) ( y i y ) yi y ( xix )
2
( xix )
)
-12 -72 864 144
-8 -25 200 64
-6 -42 252 36
-6 -12 72 36
-2 -13 26 4
2 7 14 4
6 27 162 36
6 39 234 36
8 19 152 64
12 72 864 144
2840 568
2840
b1= =5
568
b0 =1305 ( 14 )=60
Luego:
yi = 60 + 5xi
250
200
150
100
50
0
0 5 10 15 20 25 30
La pendiente b1 es positiva lo que indica que la relacin lineal entre las dos
variables, nmero de clientes y venta trimestral es directamente proporcional.
Podemos predecir con la recta obtenida las ventas para cualquier nmero de
clientes, por ejemplo, para un restaurant con 16.000 clientes las ventas sern
de
yi = 60 + 5Xi
= 60 +5*16
= 60 + 80
= 140
Es decir, 140.000 Bs
SUMA DEL CUADRADO DE LOS ERRORES: SCE : ( yi^y )2
SUMA DE CUADRADOS TOTAL: STC : ( yiy )2
SUMA DE CUADRADOS DE LA REGRESION: SCR : ( ^y y )2
Se demuestra que: SCT = SCR + SCE
Para el ejemplo:
(yi - ^y
^y y - ^y )2 ( yi y )2 ( ^y y )2
70 -12 144 5184 3600
90 15 225 625 1600
100 -12 144 1764 900
100 18 324 144 900
120 -3 9 169 100
140 -3 9 49 100
160 -3 9 729 900
160 9 81 1521 900
170 -21 441 361 1600
190 12 144 5184 3600
1530 15730 14200
COEFICIENTE DE DETERMINACION:
SCR
r 2= * 100
SCT
Se expresa en forma de porcentaje, en el caso del ejemplo,
r2 = 14200/15730 = 0.9027*100, se entiende que el 90.27 % de la variabilidad
en las ventas es explicado por la relacin lineal entre los clientes y las ventas.
COEFICIENTE DE CORRELACION MUESTRAL:
r xy =( signode b 1 ) r 2
1 r xy 1
r xy tiende a 1 hay mayor correlacin positiva
Si r xy tiende a 1 hay mayor correlacin negativa
r xy tiende a 0 no hay correlacin
Para el ejemplo r xy =+ 0.9057 = + 0.9051
Luego, como r xy tiende a 1 se puede decir que hay fuerte correlacin
positiva.
ERROR ESTANDAR DE ESTIMACION
S=
SCE
n2
TABLA ANOVA. EL CONTRASTE DE REGRESIN.
En este apartado se descompone la variabilidad de la variable respuesta en
variabilidad explicada por el modelo ms variabilidad no explicada o residual,
esto permitir contrastar si el modelo es significativo o no. Bajo la hiptesis de
que existe una relacin lineal entre la variable prediccin y predictora, se
quiere realizar el siguiente contraste de hiptesis,
frente a la alternativa
por tanto, si se acepta H0, la variable predictora no influye y no hay relacin
lineal entre ambas variables. En caso contrario, si existe una dependencia
lineal de la variable respuesta respecto a la predictora.
Para todos los datos muestrales se hace la siguiente descomposicin
elevando al cuadrado y sumando se obtiene,
en base a la ortagonalidad de los vectores se obtiene que los productos
cruzados son cero, de donde se sigue la siguiente igualdad (Teorema de
Pitgoras) que permite descomponer la variabilidad de la variable respuesta
en la variabilidad explicada por la recta de regresin
ms la variabilidad residual o no explicada por el modelo
ajustado ,
Global o Total del Error de la Regresin
Ahora se puede construir la siguiente tabla ANOVA
Tabla ANOVA del modelo de regresin simple
Fuente de
Suma de Cuadrados Grados de Libertad Varianzas
Variacin
SCE
ERROR SCE = 2
1 E2=
1
REGRESIO SCR
SCR = 2 n-2 R2=
N n2
SCT
TOTAL SCT = 2 n-1 T2=
n1
Para probar si la regresin efectuada es significativa se utilizan tres tipos de
pruebas de significacin:
Prueba t
Intervalo de confianza para 1
Prueba F
PRUEBA T: Se elabora el contraste para la no relacin entre las variables, es
decir que la pendiente de la recta de regresin 1 es cero contra la pendiente
diferente de cero.
H0: 1 = 0
Ha: 1 0
Si se rechaza H0 es porque hay una relacin estadsticamente significativa
entre las variables.
El estadstico de prueba para este contraste es:
b1
t=
sb 1
En donde
x ix
2
s
s b 1=
Criterios de rechazo:
p-Valor: RECHAZO si p-valor
Valor crtico: RECHAZO si t -t /2
RECHAZO si t t /2 Donde t tiene n-2 grados de libertad
INTERVALO DE CONFIANZA PARA 1
b1 ME ME= t /2 * sb1