0% encontró este documento útil (0 votos)
47 vistas9 páginas

Regresión Lineal Simple: Análisis y Ejemplo

Este documento describe el método de regresión lineal simple, el cual estudia la relación lineal entre dos variables. Explica que se puede determinar si existe una relación lineal significativa entre las variables, qué tan fuerte es esta relación, y realizar predicciones basadas en la relación lineal. También describe cómo calcular la ecuación de regresión, realizar pruebas de hipótesis para determinar la significancia de la relación, y medir qué tan fuerte es la asociación entre las variables. Finalmente, incluye un ejemplo para ilustrar los conceptos.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
47 vistas9 páginas

Regresión Lineal Simple: Análisis y Ejemplo

Este documento describe el método de regresión lineal simple, el cual estudia la relación lineal entre dos variables. Explica que se puede determinar si existe una relación lineal significativa entre las variables, qué tan fuerte es esta relación, y realizar predicciones basadas en la relación lineal. También describe cómo calcular la ecuación de regresión, realizar pruebas de hipótesis para determinar la significancia de la relación, y medir qué tan fuerte es la asociación entre las variables. Finalmente, incluye un ejemplo para ilustrar los conceptos.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Dr.

Ada Ray 1

Regresión lineal simple


Método estadístico que estudia la relación lineal entre dos variables
• ¿existe una relación lineal entre las variables?
• ¿cuán fuerte es esta relación lineal entre las variables?
• ¿qué predicciones se pueden hacer basados en esta relación lineal entre las variables?

Relación lineal

Y = mX + b

m - pendiente de la línea
- por cada unidad que aumenta la X, la Y cambia m unidades

b - intercepto en Y
- valor de Y cuando X=0

m>0 m<0 m=0


m
b 1

relación directa relación inversa no relación

Modelo

Yi = β 0 + β1 X i + ε i

Xi – variable independiente (input)


Yi – variable dependiente (output o respuesta)
εi – error aleatorio
β0 – intercepto en Y
β1 – pendiente

Suposiciones

Los errores aleatorios εi , i = 1, 2,…,n (para cada Xi)

• son independientes
• tiene una media igual a 0
• tienen la misma varianza σe2
• tienen una distribución Normal (requerido para la prueba de F)
Dr. Ada Ray 2

Por lo tanto, para cada valor de X, existe una población de Y’s

•independientes unas de otras


•con una distribución Normal con media µ Y|X = E(Y) = β0+β1X

•una misma varianza σ e


2

(Xi, Yi)
E(Y) = β0+β1X
Y ε
i

β
0

X
Xi

Ecuación de regresión estimada

Yˆi = b0 + b1 X i

b0 → intercepto en y ( βˆ0 ) Yˆi = b0 + b1 X i

b1 → pendiente ( βˆ1 ) (Xi,Yi)

Yi − Yˆi
Yˆi → valor estimado de Y

Yi → valor observado de Y ( X i , Yˆi )

b0
Yi − Yˆi = ei → residuo (o error) (εˆi )
X
i

Método de mínimos cuadrados

Es un procedimiento para obtener la ecuación de la línea que mejor se ajusta a los datos de la
muestra. Para obtener la ecuación de la línea hay que determinar b0 y b1.
La línea de mejor ajuste es aquella que minimiza la suma de cuadrados de los residuos (distancia
entre el valor observado, Yi, y el valor estimado, ). Yˆi
min ∑ (Yi − Yˆi ) 2 = min ∑ ei2
Dr. Ada Ray 3

Los valores de b0 y b1 obtenidos mediante este método son:

b1 =
S XY b0 = Y − b1 ⋅ X
SS X

(∑ X )(∑ Y ) (∑ X ) 2
S XY = ∑ XY − SS X = ∑ X 2 −
n n

Ejemplo

¿Existe alguna relación entre los gastos de una familia y sus ingresos? Para estudiar esta
relación se escogieron 10 familias y se obtuvo sus gastos anuales (en miles) y sus
ingresos anuales (en miles).

La variable independiente (X) es los ingresos.


La variable dependiente (Y) es los gastos.
ingresos gastos
(en miles) (en miles)
$30 $40 $65
$45
35 44 $25

28 36 $25 $35 $45 $55

42 56 in g r e s o s ( e n m ile s )

32 41
50 63
45 55
36 48
48 58
40 50

ingresos gastos
(X) (Y) X2 XY Y2
$30 $40 $900 1200 1,600
35 44 $1,225 1540 1,936
28 36 $784 1008 1,296
42 56 $1,764 2352 3,136
32 41 $1,024 1312 1,681
50 63 $2,500 3150 3,969
45 55 $2,025 2475 3,025
36 48 $1,296 1728 2,304
48 58 $2,304 2784 3,364
40 50 $1,600 2000 2,500
Total 386 491 $15,422 $19,549 24,811

(386)(491) (386) 2
S XY = 19,549 − = 596.4 SS X = 15,422 − = 522.4
10 10

596.4 491 386


b1 = 1.14165 b0 = − (1.14) = 5.03
522.4 10 10

Yˆ = 5.03 + 1.14 X
Dr. Ada Ray 4

Prueba de hipótesis

¿Es estadísticamente significativa la relación lineal obtenida?


¿Hay realmente una relación lineal entre las dos variables?

Si β1 = 0 entonces E(Y) = β0 (una constante) y no dependería de X, o sea, no habría relación


entre X y Y.

H0: β1=0
H1: β1≠0

Para llevar a cabo la prueba de hipótesis utilizamos la tabla de ANOVA.

Tenemos tres fuentes de variación:

Yˆi = b0 + b1 X i
(Xi,Yi)

Y i − Yˆi error (o residuo)


total Yi − Y
( X i , Yˆi )
Yˆi − Y regresión
Y

b0

Anova

Fuente de
gl SS MS F p-value
variación
b1SXY SSR
Regresión 1 1 MSR
(SSR) MSE
(MSR)
SST-SSR SSE
Error n-2 (n − 2)
(SSE)
(MSE)
(∑ Y ) 2
Total n-1 ∑Y 2

n
(SST)
gl=grados de libertad
Dr. Ada Ray 5

Ejemplo (seguimos con el ejemplo anterior)

H0: β1=0
H1: β1≠0

α=.05

SSR = (1.14165)(596.4) = 680.88


SST = 24,811 – (491)2/10= 702.90

ANOVA
Fuente gl SS MS F p-value
Regresión 1 680.88 680.88 247.40 0.00
Error 8 22.02 2.75
Total 9 702.90

Como p-value<α se rechaza H0. La relación entre los ingresos y los gastos es significativa a un
nivel de significancia de .05.

Medidas de asociación

¿cuán fuerte es la relación entre las variables?

• Coeficiente de determinación: r2 (o R2)

SSR
r2 = 0 ≤ r2 ≤ 1
SST

r2 es el porciento de la variación total que es explicada por la regresión.

Como SST = SSR + SSE entonces r2 = 1 cuando SST=SSR, o sea, SSE=0.


Por lo tanto, mientras más cerca esté r2 de 1, más fuerte es la relación entre las
variables.

• Coeficiente de correlación: r (ρ en la población)

Esta medida ya se había estudiado bajo las medidas descriptivas para dos variables.

Cov( x, y ) S XY
r= = -1 ≤ r ≤ 1
S X ⋅ SY SS X ⋅ SSY
Dr. Ada Ray 6

Si se ha hecho un análisis de regresión y se ha calculado el coeficiente de


determinación, entonces:
⎛ signo ⎞ 2
r = ⎜⎜ ⎟⎟ r
⎝ de b1 ⎠
Además de medir cuán fuerte es la relación, r, indica la dirección de la relación.

r = -1 r=0 r=1
Relación inversa (b1<0) No hay relación Relación directa

Mientras más cerca esté de los extremos (-1 y 1) más fuerte es la relación.

Ejemplo (seguimos con el ejemplo anterior)

Coeficiente de determinación:

680.88
r2 = = 96.9%
702.9

96.9% de la variación total se debe a la regresión.

Coeficiente de correlación:

r = (+ ) . 969 = . 98

Ambos coeficientes están cerca de 1. Por lo tanto hay una fuerte relación
positiva (r>0) entre los gastos y el ingreso.

Predicciones y estimación

Una vez que se ha determinado que existe una relación fuerte significativa entre las variables
entonces:
• podemos utilizar la ecuación de regresión para predecir valores futuros de Y para algún
valor de X que esté dentro o muy cerca del intervalo (o alcance) de las X’s en la muestra.
Dr. Ada Ray 7

Ejemplo: (continuando el mismo ejemplo)

Si una familia tiene un ingreso de $39 mil anuales, ¿cuánto serán sus gastos
anuales?

Yˆ = 5.03 + 1.1416(39) = 49.55 gastos anuales (en miles)

• podemos construir intervalos de confianza


o para una predicción (valor individual) de Y cuando X=Xp

⎛ 1 ( x p − x )2 ⎞
Y ± tα 2 ⋅ MSE ⎜1 + +
ˆ ⎟
⎜ n SS ⎟
⎝ X ⎠

o para la media de todos los posibles valores de Y cuando X=Xp (µY|X)

⎛ 1 ( x p − x )2 ⎞
Y ± tα 2 ⋅ MSE ⎜ +
ˆ ⎟
⎜n SS ⎟
⎝ X ⎠

t con n-2 grados de libertad (del error

Ejemplo (seguimos con el ejemplo anterior)

Intervalo al 95% de confianza

t.025= 2.306 (gl=8)

Para una predicción de Y cuando X=$39 mil

⎛ 1 (39 − 38.60) 2 ⎞
49.55 ± (2.306) ⋅ 2.75⎜⎜1 + + ⎟⎟
⎝ 10 522.4 ⎠
($45.54, 53.56) (en miles)

Para la media µY|X cuando X=$39 mil

⎛ 1 (39 − 38.60)2 ⎞
49.55 ± (2.306) ⋅ 2.75⎜⎜ + ⎟⎟
⎝ 10 522.4 ⎠
($48.34, 50.76) (en miles)
Dr. Ada Ray 8

Intervalos de Confianza

70
65
60 Y estimada
55
50 Intervalo para la
45 media
40 intervalo para
35 predicción
30
25
25 30 35 40 45 50 55
ingresos (en miles)

Análisis de residuos

ei = Yi − Yˆi

• Residuo o error observado


• Estimador de εi

En regresión se supone que los errores εi:

• son independientes
• tiene una media igual a 0
• tienen la misma varianza σ2
• tienen una distribución Normal

El análisis de residuos nos permite determinar si estas suposiciones se cumplen, ya que de lo


contrario los resultados obtenidos podrían no ser válidos.

Gráficas para el análisis de residuos

• Gráfica de residuos vs la variable independiente (X)

Modelo es adecuado Las varianzas no son Modelo no es adecuado


iguales

res res
res
id id
id
uo 0 uo 0
uo 0
s s
s
X X X
Los residuos están alrededor de La varianza es mayor para Existe una relación entre
0 en forma aleatoria. valores grandes de X. los residuos y X (aparen-
temente cuadrática en este
caso). El modelo pudo ser:
Yi = β 0 + β1 X i + β 2 X i2 + ε i
Dr. Ada Ray 9

• Gráfica de probabilidad Normal


o Eje vertical – residuos o valores observados de Y (ordenados de menor a
mayor)
o Eje horizontal – “normal scores”

Para calcular los “normal scores” se divide el área bajo la curva Normal en n partes de áreas
iguales. La coordenada de la mediana de cada intervalo en el eje horizontal son los “normal
scores”. El “normal score” del intervalo i corresponde al valor de Z que tiene un área de (2i-
1)/(2n) a su izquierda.

• Coordenadas (X,Y) del punto i –


(“normal score” del intervalo i, ei (o Yi) luego de ordenados).

Si los residuos (o las Y) tienen una distribución normal entonces los puntos de la gráfica deben
caer aproximadamente en una línea recta con intercepto 0 (oY ) y pendiente MSE (desviación
estándar del error).

Ejemplo

Siguiendo con el ejemplo anterior las gráficas de residuos son las siguientes:

Norm al Probability Plot

ingresos Residual Plot


100
gastos

5 50
Residuals

0
0
25 30 35 40 45 50 55
-5
0 50 100
ingresos

Sam ple Percentile

De acuerdo con las gráficas podemos concluir que el modelo es adecuado y se cumplen los
supuestos del modelo.

También podría gustarte