Dr.
Ada Ray 1
Regresión lineal simple
Método estadístico que estudia la relación lineal entre dos variables
• ¿existe una relación lineal entre las variables?
• ¿cuán fuerte es esta relación lineal entre las variables?
• ¿qué predicciones se pueden hacer basados en esta relación lineal entre las variables?
Relación lineal
Y = mX + b
m - pendiente de la línea
- por cada unidad que aumenta la X, la Y cambia m unidades
b - intercepto en Y
- valor de Y cuando X=0
m>0 m<0 m=0
m
b 1
relación directa relación inversa no relación
Modelo
Yi = β 0 + β1 X i + ε i
Xi – variable independiente (input)
Yi – variable dependiente (output o respuesta)
εi – error aleatorio
β0 – intercepto en Y
β1 – pendiente
Suposiciones
Los errores aleatorios εi , i = 1, 2,…,n (para cada Xi)
• son independientes
• tiene una media igual a 0
• tienen la misma varianza σe2
• tienen una distribución Normal (requerido para la prueba de F)
Dr. Ada Ray 2
Por lo tanto, para cada valor de X, existe una población de Y’s
•independientes unas de otras
•con una distribución Normal con media µ Y|X = E(Y) = β0+β1X
•una misma varianza σ e
2
(Xi, Yi)
E(Y) = β0+β1X
Y ε
i
β
0
X
Xi
Ecuación de regresión estimada
Yˆi = b0 + b1 X i
b0 → intercepto en y ( βˆ0 ) Yˆi = b0 + b1 X i
b1 → pendiente ( βˆ1 ) (Xi,Yi)
Yi − Yˆi
Yˆi → valor estimado de Y
Yi → valor observado de Y ( X i , Yˆi )
b0
Yi − Yˆi = ei → residuo (o error) (εˆi )
X
i
Método de mínimos cuadrados
Es un procedimiento para obtener la ecuación de la línea que mejor se ajusta a los datos de la
muestra. Para obtener la ecuación de la línea hay que determinar b0 y b1.
La línea de mejor ajuste es aquella que minimiza la suma de cuadrados de los residuos (distancia
entre el valor observado, Yi, y el valor estimado, ). Yˆi
min ∑ (Yi − Yˆi ) 2 = min ∑ ei2
Dr. Ada Ray 3
Los valores de b0 y b1 obtenidos mediante este método son:
b1 =
S XY b0 = Y − b1 ⋅ X
SS X
(∑ X )(∑ Y ) (∑ X ) 2
S XY = ∑ XY − SS X = ∑ X 2 −
n n
Ejemplo
¿Existe alguna relación entre los gastos de una familia y sus ingresos? Para estudiar esta
relación se escogieron 10 familias y se obtuvo sus gastos anuales (en miles) y sus
ingresos anuales (en miles).
La variable independiente (X) es los ingresos.
La variable dependiente (Y) es los gastos.
ingresos gastos
(en miles) (en miles)
$30 $40 $65
$45
35 44 $25
28 36 $25 $35 $45 $55
42 56 in g r e s o s ( e n m ile s )
32 41
50 63
45 55
36 48
48 58
40 50
ingresos gastos
(X) (Y) X2 XY Y2
$30 $40 $900 1200 1,600
35 44 $1,225 1540 1,936
28 36 $784 1008 1,296
42 56 $1,764 2352 3,136
32 41 $1,024 1312 1,681
50 63 $2,500 3150 3,969
45 55 $2,025 2475 3,025
36 48 $1,296 1728 2,304
48 58 $2,304 2784 3,364
40 50 $1,600 2000 2,500
Total 386 491 $15,422 $19,549 24,811
(386)(491) (386) 2
S XY = 19,549 − = 596.4 SS X = 15,422 − = 522.4
10 10
596.4 491 386
b1 = 1.14165 b0 = − (1.14) = 5.03
522.4 10 10
Yˆ = 5.03 + 1.14 X
Dr. Ada Ray 4
Prueba de hipótesis
¿Es estadísticamente significativa la relación lineal obtenida?
¿Hay realmente una relación lineal entre las dos variables?
Si β1 = 0 entonces E(Y) = β0 (una constante) y no dependería de X, o sea, no habría relación
entre X y Y.
H0: β1=0
H1: β1≠0
Para llevar a cabo la prueba de hipótesis utilizamos la tabla de ANOVA.
Tenemos tres fuentes de variación:
Yˆi = b0 + b1 X i
(Xi,Yi)
Y i − Yˆi error (o residuo)
total Yi − Y
( X i , Yˆi )
Yˆi − Y regresión
Y
b0
Anova
Fuente de
gl SS MS F p-value
variación
b1SXY SSR
Regresión 1 1 MSR
(SSR) MSE
(MSR)
SST-SSR SSE
Error n-2 (n − 2)
(SSE)
(MSE)
(∑ Y ) 2
Total n-1 ∑Y 2
−
n
(SST)
gl=grados de libertad
Dr. Ada Ray 5
Ejemplo (seguimos con el ejemplo anterior)
H0: β1=0
H1: β1≠0
α=.05
SSR = (1.14165)(596.4) = 680.88
SST = 24,811 – (491)2/10= 702.90
ANOVA
Fuente gl SS MS F p-value
Regresión 1 680.88 680.88 247.40 0.00
Error 8 22.02 2.75
Total 9 702.90
Como p-value<α se rechaza H0. La relación entre los ingresos y los gastos es significativa a un
nivel de significancia de .05.
Medidas de asociación
¿cuán fuerte es la relación entre las variables?
• Coeficiente de determinación: r2 (o R2)
SSR
r2 = 0 ≤ r2 ≤ 1
SST
r2 es el porciento de la variación total que es explicada por la regresión.
Como SST = SSR + SSE entonces r2 = 1 cuando SST=SSR, o sea, SSE=0.
Por lo tanto, mientras más cerca esté r2 de 1, más fuerte es la relación entre las
variables.
• Coeficiente de correlación: r (ρ en la población)
Esta medida ya se había estudiado bajo las medidas descriptivas para dos variables.
Cov( x, y ) S XY
r= = -1 ≤ r ≤ 1
S X ⋅ SY SS X ⋅ SSY
Dr. Ada Ray 6
Si se ha hecho un análisis de regresión y se ha calculado el coeficiente de
determinación, entonces:
⎛ signo ⎞ 2
r = ⎜⎜ ⎟⎟ r
⎝ de b1 ⎠
Además de medir cuán fuerte es la relación, r, indica la dirección de la relación.
r = -1 r=0 r=1
Relación inversa (b1<0) No hay relación Relación directa
Mientras más cerca esté de los extremos (-1 y 1) más fuerte es la relación.
Ejemplo (seguimos con el ejemplo anterior)
Coeficiente de determinación:
680.88
r2 = = 96.9%
702.9
96.9% de la variación total se debe a la regresión.
Coeficiente de correlación:
r = (+ ) . 969 = . 98
Ambos coeficientes están cerca de 1. Por lo tanto hay una fuerte relación
positiva (r>0) entre los gastos y el ingreso.
Predicciones y estimación
Una vez que se ha determinado que existe una relación fuerte significativa entre las variables
entonces:
• podemos utilizar la ecuación de regresión para predecir valores futuros de Y para algún
valor de X que esté dentro o muy cerca del intervalo (o alcance) de las X’s en la muestra.
Dr. Ada Ray 7
Ejemplo: (continuando el mismo ejemplo)
Si una familia tiene un ingreso de $39 mil anuales, ¿cuánto serán sus gastos
anuales?
Yˆ = 5.03 + 1.1416(39) = 49.55 gastos anuales (en miles)
• podemos construir intervalos de confianza
o para una predicción (valor individual) de Y cuando X=Xp
⎛ 1 ( x p − x )2 ⎞
Y ± tα 2 ⋅ MSE ⎜1 + +
ˆ ⎟
⎜ n SS ⎟
⎝ X ⎠
o para la media de todos los posibles valores de Y cuando X=Xp (µY|X)
⎛ 1 ( x p − x )2 ⎞
Y ± tα 2 ⋅ MSE ⎜ +
ˆ ⎟
⎜n SS ⎟
⎝ X ⎠
t con n-2 grados de libertad (del error
Ejemplo (seguimos con el ejemplo anterior)
Intervalo al 95% de confianza
t.025= 2.306 (gl=8)
Para una predicción de Y cuando X=$39 mil
⎛ 1 (39 − 38.60) 2 ⎞
49.55 ± (2.306) ⋅ 2.75⎜⎜1 + + ⎟⎟
⎝ 10 522.4 ⎠
($45.54, 53.56) (en miles)
Para la media µY|X cuando X=$39 mil
⎛ 1 (39 − 38.60)2 ⎞
49.55 ± (2.306) ⋅ 2.75⎜⎜ + ⎟⎟
⎝ 10 522.4 ⎠
($48.34, 50.76) (en miles)
Dr. Ada Ray 8
Intervalos de Confianza
70
65
60 Y estimada
55
50 Intervalo para la
45 media
40 intervalo para
35 predicción
30
25
25 30 35 40 45 50 55
ingresos (en miles)
Análisis de residuos
ei = Yi − Yˆi
• Residuo o error observado
• Estimador de εi
En regresión se supone que los errores εi:
• son independientes
• tiene una media igual a 0
• tienen la misma varianza σ2
• tienen una distribución Normal
El análisis de residuos nos permite determinar si estas suposiciones se cumplen, ya que de lo
contrario los resultados obtenidos podrían no ser válidos.
Gráficas para el análisis de residuos
• Gráfica de residuos vs la variable independiente (X)
Modelo es adecuado Las varianzas no son Modelo no es adecuado
iguales
res res
res
id id
id
uo 0 uo 0
uo 0
s s
s
X X X
Los residuos están alrededor de La varianza es mayor para Existe una relación entre
0 en forma aleatoria. valores grandes de X. los residuos y X (aparen-
temente cuadrática en este
caso). El modelo pudo ser:
Yi = β 0 + β1 X i + β 2 X i2 + ε i
Dr. Ada Ray 9
• Gráfica de probabilidad Normal
o Eje vertical – residuos o valores observados de Y (ordenados de menor a
mayor)
o Eje horizontal – “normal scores”
Para calcular los “normal scores” se divide el área bajo la curva Normal en n partes de áreas
iguales. La coordenada de la mediana de cada intervalo en el eje horizontal son los “normal
scores”. El “normal score” del intervalo i corresponde al valor de Z que tiene un área de (2i-
1)/(2n) a su izquierda.
• Coordenadas (X,Y) del punto i –
(“normal score” del intervalo i, ei (o Yi) luego de ordenados).
Si los residuos (o las Y) tienen una distribución normal entonces los puntos de la gráfica deben
caer aproximadamente en una línea recta con intercepto 0 (oY ) y pendiente MSE (desviación
estándar del error).
Ejemplo
Siguiendo con el ejemplo anterior las gráficas de residuos son las siguientes:
Norm al Probability Plot
ingresos Residual Plot
100
gastos
5 50
Residuals
0
0
25 30 35 40 45 50 55
-5
0 50 100
ingresos
Sam ple Percentile
De acuerdo con las gráficas podemos concluir que el modelo es adecuado y se cumplen los
supuestos del modelo.