Descripción: El análisis de la regresión es una técnica estadística para estimar las
relaciones que existen entre variables.
En este modelo se fija la variable que se quiere predecir (variable dependiente) y se
determina la relación con el resto de variables predictoras (independientes)
La técnica de regresión lineal simple, esta definida por una ecuación lineal y consta de
una serie de pasos, a continuación se muestra un ejemplo caso estudio.
Variable dependiente: Métrica.
Variables independientes: Métricas y/o no métricas.
RLS. (Resumen)
Xi: Población de Yi: Ventas trimestrales
Restaurante Xi*Yi Xi^2 ܻ ݁ ෝ
= (ܻ - ܻ ݅ )
error^2 (Xi - prom)^2
estudiantes (miles) (miles de $)
1 2 58 116 4 70 -12 144 144
2 6 105 630 36 90 15 225 64
3 8 88 704 64 100 -12 144 36
4 8 118 944 64 100 18 324 36
5 12 117 1404 144 120 -3 9 4
6 16 137 2192 256 140 -3 9 4
7 20 157 3140 400 160 -3 9 36
8 20 169 3380 400 160 9 81 36
9 22 149 3278 484 170 -21 441 64
10 26 202 5252 676 190 12 144 144
Suma: 140 1300 2528 0 1530 568
Promedio: 14 50
Minimizar la SCE:
Ecuación de regresión Estimada:
La ecuación de regresión estimada seria:
e^i = (Y i - Y^i)
Yi: Ventas
Xi: Población de
Restaurante trimestrales (miles de Xi*Yi Xi^2
estudiantes (miles)
$)
1 2 58 116 4
2 6 105 630 36
3 8 88 704 64
4 8 118 944 64
5 12 117 1404 144
6 16 137 2192 256
7 20 157 3140 400
8 20 169 3380 400
9 22 149 3278 484
10 26 202 5252 676
2104
Suma: 140 1300 0 2528
Promedio: 14 130
e^i = (Y i - Y^i)
Y^i error^2 (Xi - prom)^2
70 -12 144 144
90 15 225 64
100 -12 144 36
100 18 324 36
120 -3 9 4
140 -3 9 4
160 -3 9 36
160 9 81 36
170 -21 441 64
190 12 144 144
0 1530 568
Varianza residual = CME
n n
∑ ( y i−^y i ) 2
∑ ei2
Varianza=s 2= i=1 = i=1
n−2 n−2
Varianzas de los coeficientes de un modelo de RLS.
2
σ
Var (B1 )= n
∑ ( xi −x )2
i=1
Error estandar de
η
σ 2 ∑ xi2
i=1
Var ( B 0 )= n
n ∑ ( x i−x )
2
i=1
Del ejemplo se tiene:
var(error) = CME= 191.25
sd(error) = 13.829
var(Bo) = 85.11972
sd(Bo) = 9.226
var(B1) = 0.336708
sd(B1) = 0.5803
Tcalculado Ttabular P-value
6.503 3.355 0.000187
8.62 3.355 0.000025
Código en R.
T tabular:
qt(1-0.01/2,8)
3.355387
P-value de t student:
pt(q = -6.5033355,8)+(1-pt(q=6.5033355,8))
0.0001874441
pt(-8.61674915574731,8) + (1 - pt(8.61674915574731,8))
2.548866e-05
F-tabular
qf(0.99,1,8)
11.25862
P-value del anva:
(1-pf(-74.248,1,8))-pf(74.248,1,8)
2.548912e-05
Código en r:
[Link]<-[Link](file="D:/[Link]",header=T)
[Link]
Poblacion Ventas
1 2 58
2 6 105
3 8 88
4 8 118
5 12 117
6 16 137
7 20 157
8 20 169
9 22 149
10 26 202
attach([Link])
x <- Poblacion
y <- Ventas
plot(X, Y, xlab = "X = Población de estudiantes (miles)",
ylab = "Y = Ventas trimestrales (miles de $)", xlim = c(0,
30), ylim = c(50, 220)
r1 <- lm(y ~ x)
abline(r1)
segments(x, fitted(r1), x, y, lty=2)
Las ventas trimestrales parecen ser mayores cerca de campus en los
que la población de estudiantes es mayor. Además, en estos datos se
observa que la relación entre el tamaño de la población de estudiantes y
las ventas trimestrales parece poder aproximarse mediante una línea
recta; en efecto, se observa que hay una relación lineal positiva entre x
e y como se muestra en la figura 1.1.
FIGURA 1.1 Diagrama de dispersión en el que se muestra la población de
estudiantes y las ventas trimestrales de Armand’s Pizza Parlors.
Determinación del modelo de regresión lineal simple para representar la relación entre
ventas trimestrales y la población de estudiantes
Código en r:
summary(r1)
Para obtener los valores de b0 y b1 que minimicen la suma de los cuadrados
de las desviaciones (diferencias) entre los valores observados de la variable
dependiente yi y los valores estimados de la variable dependiente. El criterio
que se emplea es el método de mínimos cuadrados ordinarios.
Por lo tanto, la ecuación de regresión estimada es:
Y ventas trimestrales (miles de $) = 60 + 5XPoblación de estudiantes (miles)
La pendiente de la ecuación de regresión estimada (b1 = 5) es positiva, lo que
implica que a medida que aumenta el tamaño de la población de estudiantes,
aumentan las ventas.
Se concluye (basándose en las ventas dadas en miles de $ y en el tamaño de
la población de estudiantes en miles), que un aumento de 1000 en el tamaño
de la población de estudiantes corresponde a un aumento esperado de $5000
en las ventas; es decir, se espera que las ventas trimestrales aumenten $5
por cada aumento de un estudiante.
Si se considera que la ecuación de regresión estimada obtenida por el método
de mínimos cuadrados describe adecuadamente la relación entre x e y,
parecerá razonable usar esta ecuación de regresión estimada para estimar el
valor de y para un valor dado de x.
Por ejemplo, si se quisieran predecir las ventas trimestrales de un restaurante
ubicado cerca de un campus de 16 000 estudiantes, se calcularía
De manera que las ventas trimestrales pronosticadas para este restaurante
serían de $140 000, como se muestra en el cuadro 1.11.
Cuadro 1.11: estimación de parámetros de la ecuación de regresión por el
método de mínimos cuadrados ordinarios:
Coefficients: Estimate [Link] t value Pr(>|t|)
(Intercept) =Bo 60 9.226 6.503 0.000187 ***
X = B1 5 0.5803 8.617 2.55E-05 ***
[Link] ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Prueba de significancia:
Prueba t de student.
y i= β^0 + ^
El modelo de regresión lineal simple es ^ β 1 X + e^i. Si x e y están relacionados
linealmente, entonces β 1 ≠ 0.
El objetivo de la prueba t es determinar si se puede concluir que β 1 ≠ 0.
Paso 1: Para lo cual se plantea la siguiente prueba se hipótesis:
Ho: β 1=0 (no existe relación lineal entre Xe Y)
Ha: β 1 ≠ 0 (si existe relación lineal entre Xe Y)
Paso 2: Determinar el nivel se significancia (α = 0.01)
Paso 3: Estadístico de prueba T Student.
b1
t cal . =
Sb1
b1
Estadistica de prueba : t c= ≈t −tabular=t n−2 ;α
sb
1
Decisón : Re chazar H 0 si |t c|=t n−2; α prueba bilateral
si t c≤−t n−2 ; α prueba unilateral izquierda
si t c≥+t n−2 ; α prueba unilateral derecha
Paso 4: Decisión
T calculado = 8.62
T tabular = 3.355
Como tcal = 8.62 > T tabular = 3.355, entonces se rechaza la Ho.
Paso 5: Conclusión
Esto es suficiente evidencia para concluir que existe una relación significativa entre la
población de estudiantes y las ventas trimestrales, a un nivel de significancia del 1%.
Del ejemplo:
Ahora se realizará esta prueba de significancia con los datos de Armand’s Pizza Parlors,
empleando como nivel de significancia α = 0.01. El estadístico de prueba es:
Sigue una distribución t con n — 2 grados de libertad. Si la hipótesis nula es verdadera,
entonces:
Ahora se realizará esta prueba de significancia con los datos de Armand’s Pizza Parlors,
empleando como nivel de significancia α = 0.01.
En las tablas de la distribución t se encuentra que para n - 2 = 10 - 2 = 8 grados de libertad, t =
3.355. En el Excel se determina con la función: [Link](0.01,8)
Valor-p = 2.55e-05 = 0.0000255.
DECISIÓN:
Dado que el valor-p es menor a α = 0.01 se rechaza Ho y se concluye que β 1 no es
igual a cero.
CONCLUSIÓN:
Esto es suficiente evidencia para concluir que existe una relación significativa entre la
población de estudiantes y las ventas trimestrales, a un nivel de significancia del 1%.
Prueba F.
Descomposición de la Suma de cuadrados del Total.
SCR = SCT – SCE
Previo al análisis de varianza se debe cumplir con los siguientes
supuestos:
Test de normalidad. (Caso 1- Armds)
Paso 1: Planteamiento de hipótesis: Para lo cual se plantea la siguiente prueba se
hipótesis:
Ho: los residuos se ajustan a una distribucion normal
Ha: : los residuos no se ajustan a una distribucion normal
Paso 2: Establecer el nivel de significancia: 1%
Paso 3: Estadístico de prueba:
library(nortest)
[Link](residuals(r1))
Paso 4: Decisión
Como p-valor = 0.379 > alfa = 0.01, por lo tanto se acepta la hipótesis nula (Ho)
Paso 5: Conclusión.
Existe evidencia estadística, para afirmar que los residuos se ajustan a una distribución
normal; a un nivel de significancia del 1%.
Con: [Link](residuals(r1)
Test de homocedasticidad. (Caso 1- Armds)
Ho: varianzas son iguales
Ha: varianzas no son iguales
library(car)
ncvTest(r1)
Non-constant Variance Score Test
Variance formula: ~ [Link]
Chisquare = 0.01096545, Df = 1, p = 0.9166
library(lmtest)
bptest(r1)
studentized Breusch-Pagan test
data: r1
BP = 0.02775, df = 1, p-value = 0.8677
[Link](list(Poblacion, Ventas))
Bartlett test of homogeneity of variances
data: list(Poblacion, Ventas)
Bartlett's K-squared = 17.103, df = 1, p-value = 3.541e-05
[Link]([Link])
Bartlett test of homogeneity of variances
data: [Link]
Bartlett's K-squared = 17.103, df = 1, p-value = 3.541e-05
Independencia:
dwtest(r1)
Durbin-Watson test
data: r1
DW = 3.2235, p-value = 0.9708
alternative hypothesis: true autocorrelation is
greater than 0
durbinWatsonTest(r1)
lag Autocorrelation D-W Statistic p-value
1 -0.7058824 3.223529 0.064
Alternative hypothesis: rho != 0
Código en r:
anova(r1)
cuadro 1: Analysis of Variance
Response:
Df Sum Sq Mean Sq F value Pr(>F)
y
x 1 14200 14200 74.248 2.55E-05 ***
Residuals 8 1530 191.3
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Paso 4: Decisión
Fcal = 74.248
Ftabular = 11.25862
Como Fcal = 74.2 > F_tabular = 11.3, entonces se rechaza la Ho.
F-tabular
qf(0.99,1,8)
11.25862
Paso5: conclusión
Esto es suficiente evidencia para concluir que existe una relación significativa entre la
población de estudiantes y las ventas trimestrales, a un nivel de significancia del 1%.
TEST DE ANOVA O ANVA
Paso 1: Planteamiento de hipótesis: Para lo cual se plantea la siguiente prueba se
hipótesis:
Ho: β i=0 (no existe relación lineal entre Xe Y)
Ha: β i ≠ 0 (si existe relación lineal entre Xe Y)
Paso 2: Establecer el nivel de significancia: 1%
Paso 3: Estadístico de prueba: prueba F de Fisher.
Anova o Anva
Analysis of Variance Table
Response: Y
Df Sum Sq Mean Sq F value Pr(>F)
X 1 14200 14200.0 74.248 2.549e-05 ***
Residuals 8 1530 191.3
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Paso 4: Decisión
Como p-valor = 0.0000003942 < alfa = 0.01, por lo tanto rechazamos la hipótesis nula
(Ho)
Paso 5: Conclusión.
Existe evidencia estadística, para afirmar que si existe relación lineal entre la población
de estudiantes y las ventas trimestrales, a un nivel de significancia del 1%.
Anexo:
Gráficos de evaluación de los supuestos de un modelo de RLS.
La primera gráfica (arriba izda.) nos ayuda a decidir si
las variables están linealmente relacionadas. Si es así, no debería
de existir una relación sistemática entre los resíduos (errores) y
los valores predichos (ajustados). Es decir, el modelo debería de
capturar toda la varianza sistemática de los datos, dejando sólo
ruido estocástico sin explicar. Por tanto, esta gráfica debe de
verse como “las estrellas en el firmamento”, sin un patrón claro de
asociación. Si es así, sugiere además que se cumple el supuesto
de homocedasticidad.
La segunda es la gráfica de quantil-quantil normal. Los puntos
deberían seguir la diagonal si los resíduos están normalmente
distribuidos. Si aparecen patrones tipo “S” o “banana”,
posiblemente necesitemos ajustar otro modelo.
La tercera gráfica es como la primera, pero usando una escala
diferente, |residuos estandarizados|−−−−−−−−−−−−−−−−−−−−
−√|residuos estandarizados|, y sirve para comprobar
la homocedasticidad, la cual se cumple si los puntos forman
una banda estocástica en torno a la horizontal.
La última gráfica (abajo, dcha.) trata sobre la identificación de
puntos influyentes, aberrantes y con efecto palanca. Vemos que la
observación 4 es la que tiene el mayor resíduo estandarizado, la 7
tiena la mayor Cook−DCook−D y la nueve al mayor efecto
palanca.
o observaciones influyentes: son aquellas con un impacto
desproporcionado en la determinación de los parámetros del
modelo. Se identifican usando la distancia de
Cook, Cooks−DCooks−D. Son de preocupar los puntos
con Cooks−D>1Cooks−D>1
o punto aberrante: es una observación que no es predicha
satisfactoriamente por el modelo de regresión (con un valor
positivo o negativo grande del resíduo)
o observación con alto efecto palanca tienen una
combinación inusual de valores predictores. Es decir, son
aberrantes en el espacio predictor.
Las dos gráficas de la primera fila son las más importantes.
CODIGO EN R:
#Caso 1 (Armads)
[Link] <- [Link](file = "D:/[Link]", header = T)
[Link]
attach([Link])
X <- Poblacion
Y <- Ventas
min(X)
max(X)
min(Y)
max(Y)
plot(X, Y)
plot(X, Y, main = "Diagrama de dispersion", xlab = "X = Población de
estudiantes (miles)",
ylab = "Y = Ventas trimestrales (miles de $)", xlim = c(0, 30),
ylim = c(50, 220))
r1 <- lm(Y ~ X) # ~ = alt + 126
abline(r1)
segments(X, fitted(r1), X, Y, lty=2)
r1
summary(r1)
#Verificación de Supuestos graficamente
par(mfrow=c(2,2))
plot(r1)
residuals(r1)
#normalidad
library(nortest)
[Link](residuals(r1))
[Link](residuals(r1))
#Homocedasticidad
library(lmtest)
bptest(r1)
library(car)
ncvTest(r1)
library(tseries)
#Independencia
dwtest(r1)
#linealidad
#exponentes de las variables es 1
#cumpliendose los supuestos determinamos el ANVA O ANOVA
anova(r1)
Referencia bibliográfica:
[Link]