Análisis de regresión simple
El modelo lineal en una única variable independiente es
𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝜀𝑖
𝜀𝑖 es una variable aleatoria que satisface los siguientes supuestos:
i) 𝐸[𝜀𝑖 ] = 0 ∀𝑖
ii) 𝑉(𝜀𝑖 ) = 𝜎𝜀2 ∀𝑖 (ℎ𝑜𝑚𝑜𝑐𝑒𝑑𝑎𝑠𝑡𝑖𝑐𝑖𝑑𝑎𝑑)
iii) 𝐶𝑜𝑣(𝜀𝑖 , 𝜀𝑗 ) = 0 ∀𝑖, 𝑗 (𝑒𝑟𝑟𝑜𝑟𝑒𝑠 𝑛𝑜 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖𝑜𝑛𝑎𝑑𝑜𝑠)
𝛽0 : coeficiente de posición y representa el valor de la ordenada cuando x=0 (no siempre es
interpretable)
𝛽1 : pendiente del modelo, es decir, cambio en la variable dependiente 𝑦𝑖 cuando 𝑥𝑖 se incrementa
en una unidad
𝛽0 y 𝛽1 se llaman parámetros del modelo
¿cómo estimamos 𝛽0 y 𝛽1 ?
Para estimar 𝛽0 y 𝛽1 empleamos el método de los Mínimos Cuadrados Ordinarios (MCO) que
consiste en minimizar la suma de los errores al cuadrado, dado por
𝑛
𝑆𝐶𝐸 = ∑ 𝜀𝑖2
𝑖=1
pero 𝜀𝑖 = valor real − valor estimado = 𝑦𝑖 − 𝛽0 − 𝛽1 𝑥𝑖
Si el modelo subestima
valor real > valor estimado => 𝜀𝑖 > 0
Si el modelo sobre estima
valor real < valor estimado => 𝜀𝑖 < 0
Por lo tanto, 𝑚𝑖𝑛 𝑆𝐶𝐸 = 𝑚𝑖𝑛 ∑𝑛𝑖=1(𝑦𝑖 − 𝛽0 − 𝛽1 𝑥𝑖 )2
Del cálculo para encontrar los valores de 𝛽0 y 𝛽1 debemos resolver el sistema de ecuaciones
𝜕𝑆𝐶𝐸
=0
𝜕𝛽0
𝜕𝑆𝐶𝐸
=0
𝜕𝛽1
1
𝑛
𝜕𝑆𝐶𝐸
= −2 ∑(𝑦𝑖 − 𝛽0 − 𝛽1 𝑥𝑖 ) = 0
𝜕𝛽0
𝑖=1
𝑛
𝜕𝑆𝐶𝐸
= −2 ∑(𝑦𝑖 − 𝛽0 − 𝛽1 𝑥𝑖 )𝑥𝑖 = 0
𝜕𝛽1
𝑖=1
𝑛 𝑛
∑ 𝑦𝑖 − 𝑛𝛽0 − 𝛽1 ∑ 𝑥𝑖 = 0
𝑖=1 𝑖=1
𝑛 𝑛 𝑛
∑ 𝑥𝑖 𝑦𝑖 − 𝛽0 ∑ 𝑥𝑖 − 𝛽1 ∑ 𝑥𝑖 2 = 0
𝑖=1 𝑖=1 𝑖=1
Ecuaciones normales
𝑛 𝑛
𝑛𝛽0 + 𝛽1 ∑ 𝑥𝑖 = ∑ 𝑦𝑖
𝑖=1 𝑖=1
𝑛 𝑛 𝑛
2
𝛽0 ∑ 𝑥𝑖 + 𝛽1 ∑ 𝑥𝑖 = ∑ 𝑥𝑖 𝑦𝑖
𝑖=1 𝑖=1 𝑖=1
Además, sabemos que
𝑛
∑𝑛𝑖=1 𝑥𝑖
∑ 𝑥𝑖 = 𝑛𝑥̅ => = 𝑥̅
𝑛
𝑖=1
𝑛
∑ 𝑦𝑖 = 𝑛𝑦̅
𝑖=1
𝑛 𝑛
∑(𝑥𝑖 − 𝑥̅ ) = ∑ 𝑥𝑖 2 − 𝑛𝑥̅ 2
2
𝑖=1 𝑖=1
𝑛 𝑛
∑(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅) = ∑ 𝑥𝑖 𝑦𝑖 − 𝑛𝑥̅ 𝑦̅
𝑖=1 𝑖=1
Resolviendo para 𝛽0 y 𝛽1 se tiene
𝑛 ∑𝑛𝑖=1𝑥𝑖 𝑦𝑖 − ∑𝑛𝑖=1𝑥𝑖 ∑𝑛𝑖=1 𝑦𝑖
𝛽1 = 2
𝑛 ∑𝑛𝑖=1𝑥 2𝑖 − (∑𝑛𝑖=1𝑥𝑖 )
𝑛 𝑛
1
𝛽0 = (∑𝑦𝑖 − 𝑏1 ∑ 𝑥𝑖 )
𝑛
𝑖=1 𝑖=1
2
Teorema de Gauss-Markov
Bajos los supuestos del modelo 𝛽̂0 y 𝛽̂1 son estimadores insesgados y de mínima varianza
En efecto
𝑛
𝛽̂1 = ∑𝑘𝑖 𝑦̂𝑖
𝑖=1
Siendo
(𝑥𝑖 − 𝑥̅ )
𝑘𝑖 =
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
Así
𝑛 𝑛 𝑛 𝑛
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ ) (𝑦𝑖 − 𝑦̅)
𝛽̂1 = ∑𝑘𝑖 𝑦̂𝑖 = = ∑𝑘𝑖 (𝑦𝑖 − 𝑦̅) = ∑𝑘𝑖 𝑦𝑖 − ∑𝑘𝑖 𝑦̅
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝑖=1 𝑖=1 𝑖=1 𝑖=1
𝑛 𝑛
= ∑𝑘𝑖 𝑦𝑖 − 𝑦̅ ∑𝑘𝑖
𝑖=1 𝑖=1
Con esto se tiene
i) ∑𝑛𝑖=1𝑘𝑖 = 0
ii) ∑𝑛𝑖=1 𝑥𝑖 𝑘𝑖 = 1
i) ∑𝑛𝑖=1𝑘𝑖 = 0
𝑛 𝑛 𝑛
(𝑥𝑖 − 𝑥̅ ) 1
∑𝑘𝑖 = ∑ 𝑛 2
= 𝑛 ∑(𝑥𝑖 − 𝑥̅ )
∑𝑖=1(𝑥𝑖 − 𝑥̅ ) ∑𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝑖=1 𝑖=1 𝑖=1
𝑛 𝑛
1 1
[∑ 𝑥𝑖 − ∑ 𝑥̅ ] = [𝑛𝑥̅ − 𝑛𝑥̅ ] = 0
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝑖=1 𝑖=1
ii) ∑𝑛𝑖=1 𝑥𝑖 𝑘𝑖 = 1
𝑛 𝑛 𝑛
(𝑥𝑖 − 𝑥̅ )𝑥𝑖 1
∑ 𝑥𝑖 𝑘𝑖 = ∑ 𝑛 2
= 𝑛 ∑(𝑥𝑖 − 𝑥̅ )𝑥𝑖
∑𝑖=1(𝑥𝑖 − 𝑥̅ ) ∑𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝑖=1 𝑖=1 𝑖=1
𝑛 𝑛
1 2
∑𝑛𝑖=1 𝑥𝑖 2 − ∑𝑛𝑖=1 𝑥̅ 𝑥𝑖 ∑𝑛𝑖=1 𝑥𝑖 2 − 𝑥̅ 𝑛𝑥̅
= 𝑛 [∑ 𝑥𝑖 − ∑ 𝑥̅ 𝑥𝑖 ] = = 𝑛 =1
∑𝑖=1(𝑥𝑖 − 𝑥̅ )2 ∑𝑛𝑖=1 𝑥𝑖 2 − 𝑛𝑥̅ 2 ∑𝑖=1 𝑥𝑖 2 − 𝑛𝑥̅ 2
𝑖=1 𝑖=1
Retomando
𝑛 𝑛 𝑛
𝐸[𝛽̂1 ] = 𝐸 [∑𝑘𝑖 𝑦̂𝑖 ] = ∑𝑘𝑖 𝐸[ ̂𝑦𝑖 ] = ∑𝑘𝑖 𝐸[𝛽0 + 𝛽1 𝑥𝑖 ]
𝑖=1 𝑖=1 𝑖=1
3
𝑛 𝑛 𝑛 𝑛
= ∑𝑘𝑖 𝐸[𝛽0 ] + ∑𝑘𝑖 𝐸[𝛽1 𝑥𝑖 ] = 𝛽0 ∑𝑘𝑖 + 𝛽1 ∑𝑘𝑖 𝑥𝑖 = 𝛽1
𝑖=1 𝑖=1 𝑖=1 𝑖=1
Inferencia sobre 𝜷𝟏
Una de las inferencias más importantes respecto de 𝛽1 es:
𝐻0 : 𝛽1 = 0
𝐻0 : 𝛽1 ≠ 0
Recordemos que es estimador de 𝛽1 es 𝛽̂1 . Para determinar la distribución muestral de 𝛽̂1
haremos el supuesto distribucional sobre la variable aleatoria 𝜀𝑖 la cual nos dice que es Normal e
independiente (NID)
𝜀𝑖 ~𝑁𝐼𝐷(0, 𝜎 2 )
𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝜀𝑖
Por teorema 𝑦𝑖 ~𝑁(𝛽0 + 𝛽1 𝑥𝑖 , 𝜎 2 )
Por otra parte como
𝑛
𝛽̂1 = ∑𝑘𝑖 𝑦̂𝑖
𝑖=1
𝜎2
Entonces 𝛽̂1 ~𝑁(𝛽1 , 𝜎 2 (𝛽̂1 )) con 𝜎 2 (𝛽̂1 ) = ∑𝑛 − 𝑥̅ )2
𝑖=1(𝑥𝑖
• Si 𝜎 2 es conocido entonces el estadístico de prueba es
𝛽̂1 − 𝛽1
𝑧= ~𝑁(0,1)
𝜎(𝛽̂1 )
Así, 𝐻0 será rechazada si p-value< 𝛼 para algún nivel de significancia dado.
• Si 𝜎 2 es desconocido entonces el estadístico de prueba es
𝛽̂1 − 𝛽1
𝑡= ~𝑡𝑛−2
𝑆(𝛽̂1 )
∑𝑛𝑖=1(𝑦𝑖 − 𝑦̂𝑖 )2
𝐶𝑀𝐸
𝑆 2 (𝛽̂1 ) = 𝜎 2 (𝛽̂1 ) = 𝑛 = 𝑛 𝑛−2
∑𝑖=1(𝑥𝑖 − 𝑥̅ )2 ∑𝑖=1(𝑥𝑖 − 𝑥̅ )2
Así, 𝐻0 será rechazada si p-value< 𝛼 para algún nivel de significancia dado.
4
Análisis de varianza, para el análisis de regresión
𝑦𝑖 − 𝑦̅ = (𝑦𝑖 − 𝑦̂𝑖 ) + (𝑦̂𝑖 − 𝑦̅)
𝑛 𝑛
∑(𝑦𝑖 − 𝑦̅) = ∑((𝑦𝑖 − 𝑦̂𝑖 ) + (𝑦̂𝑖 − 𝑦̅))2
2
𝑖=1 𝑖=1
𝑛 𝑛 𝑛
= ∑(𝑦𝑖 − 𝑦̂𝑖 ) + 2 ∑(𝑦𝑖 − 𝑦̂𝑖 )(𝑦̂𝑖 − 𝑦̅) + ∑(𝑦̂𝑖 − 𝑦̅)2
2
𝑖=1 𝑖=1 𝑖=1
Por lo tanto
𝑛 𝑛 𝑛
∑(𝑦𝑖 − 𝑦̅) = ∑(𝑦̂𝑖 − 𝑦̅) + ∑(𝑦𝑖 − 𝑦̂𝑖 )2
2 2
𝑖=1 𝑖=1 𝑖=1
∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2 es la suma de cuadrados totales = SCT
∑𝑛𝑖=1(𝑦𝑖 − 𝑦̂𝑖 )2 es la suma de cuadrados del error = SCE
∑𝑛𝑖=1(𝑦̂𝑖 − 𝑦̅)2 es la suma de cuadrados de la regresión = SCR
Así,
𝑛 𝑛 𝑛
∑(𝑦𝑖 − 𝑦̅) = ∑(𝑦̂𝑖 − 𝑦̅) + ∑(𝑦𝑖 − 𝑦̂𝑖 )2
2 2
𝑖=1 𝑖=1 𝑖=1
𝑆𝐶𝑇 = 𝑆𝐶𝑅 + 𝑆𝐶𝐸
5
Tabla ANOVA
Fuente de Grados de Suma de Cuadrados
F p-value
variación libertad cuadrados medios
Regresión o SCR 𝐶𝑀𝑅 𝑃(𝐹 > 𝐹𝑐 )
1 𝑆𝐶𝑅 CMR = 𝐹𝑐 =
modelo 1 𝐶𝑀𝐸
SCE
Error o residuo 𝑛−2 𝑆𝐶𝐸 CME =
n−2
Total 𝑛−1 𝑆𝐶𝑇
Esta tabla ANOVA sirve para contrastar la hipótesis
𝐻0 : 𝛽1 = 0
𝐻0 : 𝛽1 ≠ 0
Cuando se vea regresión multivariada, tomará más relevancia esta tabla.
𝑆𝐶𝑇 = 𝑆𝐶𝑅 + 𝑆𝐶𝐸
𝑆𝐶𝑅 𝑆𝐶𝐸 𝑆𝐶𝑅
1= + => 𝑅2 =
𝑆𝐶𝑇 𝑆𝐶𝑇 𝑆𝐶𝑇
𝑆𝐶𝐸
1 = 𝑅2 +
𝑆𝐶𝑇
𝑆𝐶𝐸
𝑅2 = 1 −
𝑆𝐶𝑇
𝑅2 recibe el nombre de coeficiente de determinación y su interpretación es dada en término del
porcentaje de variabilidad total que queda explicada por las variables independientes en el
modelo. 𝑅2 es considerado también como la capacidad predictiva que tiene el modelo.
0 ≤ 𝑅2 ≤ 1
Mientras más cercano a uno sea este valor, el modelo de considera que representa de mejor
forma los datos y por lo tanto, puede ser usado con mayor confianza para predecir los valores de
la variable respuesta.