UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática
Capítulo VII
Análisis de Regresión
Lineal Simple
Estadística Aplicada a la Economía
Semestre 2019 - I
y los Negocios I
Objetivo:
Tratar de explicar la relación que existe entre una variable dependiente Y
(variable respuesta) con una de variable independiente X (predictora,
explicativa o regresora).
Regresión Lineal Simple
En la regresión lineal simple se busca predecir o estimar una variable
dependiente Y, a partir de otra variable independiente X mediante la
utilización de un modelo matemático.
Modelo Estadístico
El modelo poblacional de regresión lineal simple es el siguiente:
Yi = 0 + 1 X i + i
Donde Yi es la variable dependiente; Xi es la variable independiente; 0 y
1 son parámetros desconocidos (llamados intercepto y el coeficiente de
regresión o pendiente respectivamente) y εi son los errores del modelo, los
cuales se suponen son independientes y normalmente distribuidos con =0
y variancia σ², esto es, ε ~ N (0, σ2 ).
Estimación del modelo y ecuación de regresión:
Dada una muestra aleatoria de n observaciones bivariadas (X,Y), el modelo
estimado es el siguiente:
Yi = b0 + b1 X i + ei
En este caso b0 y b1 son los coeficientes de regresión estimados de los
parámetros 0 y 1 respectivamente. El término ei se denomina como
residual de la i-ésima observación.
La ecuación de regresión estimada se define a continuación:
Yˆi = b0 + b1 X i i = 1, 2,..., n
Respecto al residual se puede concluir que: ei = Yi − Yˆi
Los parámetros del modelo 0 y 1 son estimados por el método de
Mínimos Cuadrados Ordinarios (MCO).
Estimación del modelo y ecuación de regresión:
La aplicación de este método da los siguientes resultados para la
estimación de los parámetros:
𝑆𝑃 𝑋𝑌 σ𝑛𝑖=1 𝑋𝑖 − 𝑋ሜ 𝑌𝑖 − 𝑌ሜ σ𝑛𝑖=1 𝑋𝑖 𝑌𝑖 − 𝑛𝑋ሜ 𝑌ሜ
𝑏1 = 𝛽መ1 = = = 𝑛
𝑆𝑃 𝑋 σ𝑛𝑖=1 𝑋𝑖 − 𝑋ሜ 2 σ𝑖=1 𝑋𝑖 2 − 𝑛𝑋ሜ 2
b0 = ˆ0 = Y − bX
El intercepto b0 es el valor estimado de la variable Y cuando la variable X
es cero y la pendiente b1 es el cambio estimado en Y por cambio unitario
en X.
Sin embargo, la interpretación de b0 tendrá sentido solo en el caso en que
un valor de X=0 sea posible y además, cuando valores cercanos a X = 0
hayan sido utilizados en la estimación. Para ilustrar estas ideas vea el
siguiente caso.
Supuestos del análisis de regresión lineal simple:
1. La variable independiente X es fija (no aleatoria)
2. La variable dependiente Y es aleatoria
3. Para cada valor de X existe una distribución normal de la variable Y
4. El error tiene distribución normal con media 0 y varianza constante ² el
cual se puede expresar de la siguiente forma: i~N(0, ²). Esta
expresión indica que no existe dependencia o correlación entre las
observaciones y tampoco existe relación de los valores de i con los
valores de Xi (Homocedasticidad).
Diagrama de dispersión
Llamada también nube de puntos, es la forma más sencilla de definir si existe o no
una relación causa efecto entre dos variables y que tan firme es esta relación.
Creación del diagrama de dispersión
Paso 1: reunir pares de datos (X,Y), cuyas relaciones se quieren estudiar y
organizar la información en una tabla.
Paso 2: encontrar valores mínimos y máximos para X e Y. Luego, se debe decidir
la escala a usar en los ejes para que ambas longitudes sean
aproximadamente iguales.
Paso 3: registrar los datos en el gráfico.
Paso 4: cerciorarse que contenga: titulo, periodo de tiempo, número de pares,
título y unidad en cada eje.
Tipos de diagrama de dispersión
Existen distintos tipos de relaciones entre variables. Entre las más
importantes, tenemos:
(a) Lineal directa (b) Lineal inversa (c) Curvilínea directa
(d) Curvilínea inversa (e) Lineal inversa con (f) Ninguna relación
más dispersión
Análisis de Variancia
Cuando se obtiene la ecuación de regresión, todavía no se puede afirmar
estadísticamente que exista una dependencia lineal de la variable Y
respecto a la variable X. Por lo tanto, es necesario proceder con una
prueba hipótesis de la pendiente de la ecuación de regresión: 1 y esto se
logra utilizando un procedimiento matemático conocido como el Análisis de
Varianza (ANVA).
El ANVA permite evaluar si existe dependencia lineal o no de la variable
dependiente (Y) respecto a la variable independiente (X).
El ANVA descompone los efectos de la variabilidad de la variable
dependiente Y en dos efectos: Efecto debido a la Regresión y Efecto debido
al Residual.
Análisis de Variancia – ANVA
Fuentes de Gl SC CM Fc
variación
Regresión 1 SC(Reg) SC(Reg)/gl(Regr) CM(Reg)/CM(Error)
Error n–2 SC(Error) SC(Error)/gl(Error)
Total n-1 SC(Total)
𝑛
(σ 𝑋𝑖 )( σ𝑌𝑖 )
𝑆𝑃(𝑋𝑌) = 𝑋𝑖 𝑌𝑖 −
𝑛
𝑖=1 SC(Reg) = b1 SP(XY)
𝑛
2
(σ 𝑌𝑖 )
𝑆𝐶(𝑌) = 𝑌 2 𝑖 −
𝑛
SC(Error) = SC(Y) – b1 SP(XY)
𝑖=1
𝑛
2
SC(Total) = SC(Y)
(σ 𝑋𝑖 )
𝑆𝐶(𝑋) = 𝑋 2 𝑖 −
𝑛
𝑖=1
𝑆𝑃 𝑋𝑌
𝑏1 = 𝛽መ1 =
𝑆𝑃 𝑋
Análisis de Variancia – Prueba de hipótesis
El procedimento es:
P1) H 0 : 1 = 0 ( No existe dependencia lineal de Y respecto a X )
H1 : 1 0 ( Existe dependencia lineal de Y respecto a X )
P2) Nivel de significância:
P3) Estadístico de Prueba:
P4) Regla de decisión: Rechazar Ho si: Fc > F1-,1,n-2
P5) Decisión: Rechazar H0 o no rechazar H0.
P6) Conclusión.
Coeficiente de determinación
Mide el porcentaje de la variabilidad de la respuesta que es explicado por
la variable predictora. Su valor va de 0 a 1 y se calcula mediante la
siguiente expresión:
SC ( Reg )
r² = SC (Total )
✓ El coeficiente de determinación, también llamado R cuadrado, refleja la bondad del ajuste de
un modelo a la variable que pretender explicar.
✓ Es importante saber que el resultado del coeficiente de determinación oscila entre 0 y 1 (0%
y 100%).
✓ Cuanto más cerca de 1 se sitúe su valor, mayor será el ajuste del modelo a la variable que
estamos intentando explicar.
✓ De forma inversa, cuanto más cerca de cero, menos ajustado estará el modelo y, por tanto,
menos fiable será.
Ejemplo:
El gerente del banco “Caja Norte” cree que el monto del préstamo depende
de los ingresos de los clientes. Para probarlo selecciona al azar una
muestra del monto del préstamo (miles de soles) y el ingreso mensual
(miles de soles) de 15 clientes del banco. En la siguiente tabla se muestran
los datos registrados de la muestra:
Monto del
préstamo 19.7 18.5 32.8 29 40.2 28.3 28.4 28.2 35.6 15.4 19.7 22.8 42.5 25.6 15.6
(Y)
Ingreso
mensual 3.5 3.7 12.6 3.8 8.9 7.1 5.6 7.9 12.5 6.3 2.4 8.1 15.4 3.6 3.4
(X)
a. Realice el diagrama de dispersión.
b. Determine la ecuación de regresión lineal estimada
c. Interprete sus coeficientes
Ejemplo:
Del ejemplo anterior:
d. ¿Existe suficiente evidencia estadística para afirmar que el monto medio
del préstamo depende linealmente del ingreso mensual? Use nivel de
significancia del 5%.
e. Determine e interprete el coeficiente de determinación.