Estadística
Profesor Carlos Lastras
Regresión simple
Objetivos del capítulo
Después de completar este capítulo, usted
debería poder:
◼ Explicar el modelo de regresión lineal simple
◼ Obtener e interpretar la ecuación de regresión lineal
simple para un conjunto de datos
◼ Describir ℝ2 como una medida del poder explicativo
del modelo de regresión.
◼ Comprender los supuestos detrás del análisis de
regresión
◼ Explicar las medidas de variación y determinar si la
variable independiente es significativa.
Objetivos del capítulo
(continuación)
Después de completar este capítulo, usted
debería poder:
◼ Calcular e interpretar intervalos de confianza para los
coeficientes de regresión.
◼ Utilizar una ecuación de regresión para la predicción
◼ Formar intervalos de pronóstico alrededor de un valor
Y estimado para un X determinado
◼ Utilizar el análisis gráfico para reconocer posibles
problemas en el análisis de regresión
◼ Explicar el coeficiente de correlación y realizar una
prueba de hipótesis para correlación poblacional cero.
Descripción general de los
modelos lineales
◼ Se puede ajustar una ecuación para mostrar la
mejor relación lineal entre dos variables:
Y = β 0+ β 1X
Donde Y es la variable dependiente y
X es la variable independiente
β 0 es la intersección con el eje Y
β 1 es la pendiente de la recta
Regresión de mínimos
cuadrados
◼ Las estimaciones de los coeficientes β 0 y β 1 se
encuentran utilizando una técnica de regresión
de mínimos cuadrados.
◼ La línea de regresión de mínimos cuadrados, basada
en datos de muestra, es
yˆ = b0 + b1x
◼ Donde b 1 es la pendiente de la línea y b 0 es la
intersección con el eje y:
Cov(x, y) s y b0 = y − b1x
b1 = 2
= r
sx sx
Introducción al
análisis de regresión
◼ El análisis de regresión se utiliza para:
◼ Predecir el valor de una variable dependiente
basándose en el valor de al menos una variable
independiente
◼ Explicar el impacto de los cambios en una variable
independiente sobre la variable dependiente.
Variable dependiente: la variable que queremos explicar
(también llamada variable endógena )
Variable independiente: la variable utilizada para explicar
la variable dependiente
(también llamada variable exógena )
Modelo de regresión lineal
◼ La relación entre X e Y se describe mediante
una función lineal
◼ Se supone que los cambios en Y están
influenciados por los cambios en X
◼ Modelo de ecuación poblacional de regresión
lineal
y i = β0 + β1x i + ε i
◼ Donde 0 y 1 son los coeficientes del modelo
poblacional y es un término de error aleatorio.
Modelo de regresión lineal
simple
El modelo de regresión poblacional:
Coeficiente Término
Intersección Variable de error
de pendiente
con Y de la independiente aleatorio
de la
Variable población
población
dependiente
y i = β0 + β1x i + ε i
Componente lineal Error aleatorio
componente
Supuestos de regresión lineal
◼ La verdadera forma de la relación es lineal (Y es una
función lineal de X, más el error aleatorio)
◼ Los términos de error, ε i, son independientes de los
valores x
◼ Los términos de error son variables aleatorias con
media 0 y varianza constante, σ 2
(La propiedad de varianza uniforme se llama homocedasticidad )
E[ε i ] = 0 and E[ε i ] = σ 2 for (i = 1, , n)
2
◼ Los términos de error aleatorio, ε i , no están
correlacionados entre sí, de modo que
E[ε iε j ] = 0 for all i j
Modelo de regresión lineal
simple
(continuación)
Y Yi = β0 + β1Xi + ε i
Valor observado
de Y para x i
ε Pendiente
Valor previsto yo Error aleatorio =β1
de Y para x i para este valor de
X
Intersección =
β0
x yo X
Ecuación de regresión lineal
simple
La ecuación de regresión lineal simple proporciona una
estimación de la línea de regresión de la población.
Valor de y Estimación de
estimado (o Estimación de la
la pendiente de
prediecido) intersección de
para la regresión
la regresión
observación i
Valor de x para
yˆ i = b0 + b1x i
la observación
i
Los términos de error aleatorio individuales e i tienen una
media de cero
ei = ( y i - yˆ i ) = y i - (b0 + b1x i )
Estimadores de coeficientes de
mínimos cuadrados
◼ b 0 y b 1 se obtienen encontrando los valores
de b 0 y b 1 que minimizan la suma de los
residuos cuadrados (errores), SSE:
n
min SSE = min ei2
i=1
= min (y i −yˆ i )2
= min [y i − (b0 + b1x i )]2
Se utiliza el cálculo diferencial para obtener los
estimadores de coeficientes 𝑏0 y 𝑏1 que
minimizan SSE
Estimadores de coeficientes de
mínimos cuadrados
(continuación)
◼ El estimador del coeficiente de pendiente es
n
(x − x)(y − y)
i i
Cov(x, y) sy
b1 = i=1
n
= 2
=r
i
sx sx
(x − x) 2
i=1
◼ Y la constante o intersección con el eje y es
b0 = y − b1x
◼ La línea de regresión siempre pasa por la media x, y
Cálculo computacional de
coeficientes de regresión
◼ Los coeficientes b 0 y b 1 , y otros
resultados de regresión en este capítulo,
los podremos encontrar utilizando Excel.
◼ Los cálculos manuales son tediosos
◼ Las rutinas estadísticas están integradas en
Excel
◼ Se puede utilizar otro software de análisis
estadístico (SPSS, R, SAS, etc).
Interpretación de la
pendiente y la intersección
◼ b 0 es el valor promedio estimado de y
cuando el valor de x es cero (si x = 0
está en el rango de valores x
observados)
◼ b 1 es el cambio estimado en el valor
promedio de y como resultado de un
cambio de una unidad en x
Ejemplo de regresión lineal
simple
◼ Un agente inmobiliario desea examinar la relación
entre el precio de venta de una casa y su tamaño
(medido en pies cuadrados).
◼ Se selecciona una muestra aleatoria de 10 casas
◼ Variable dependiente (Y) = precio de la
vivienda en miles de dólares
◼ Variable independiente (X) = pies cuadrados
Datos de muestra para
el modelo de precios de la vivienda
Precio de la vivienda en
Pies cuadrados
miles de dólares
(X)
(Y)
245 1400
312 1600
279 1700
308 1875
199 1100
219 1550
405 2350
324 2450
319 1425
255 1700
Representación gráfica
◼ Modelo de precios de la
vivienda: diagrama de dispersión
450
400
House Price ($1000s)
350
300
250
200
150
100
50
0
0 500 1000 1500 2000 2500 3000
Square Feet
Regresión con Excel
◼ Se utilizará Excel para generar los coeficientes y
medidas de bondad de ajuste para la regresión.
◼ Datos / Análisis de datos / Regresión
Regresión con Excel
(continuación)
◼ Datos / Análisis de datos /
Regresión Proporcione la
información deseada:
Resultado en Excel
Resultado en Excel
Estadísticas de regresión
(continuación)
Múltiples R 0,76211
R cuadrado 0.58082
R cuadrado La ecuación de regresión es:
ajustado 0.52842
Error estándar 41.33032 house price = 98.24833 + 0.10977 (square feet)
Observaciones 10
Análisis de
varianza
df SS EM F Significado F
Regresión 1 18934.9348 18934.9348 11.0848 0.01039
Residual 8 13665.5652 1708.1957
Total 9 32600.5000
Coeficiente 95%
s Error estándar t Stat Valor p 95% inferior superior
Interceptar 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386
Pies cuadrados 0.10977 0.03297 3.32938 0.01039 0.03374 0.18580
Representación gráfica
◼ Modelo de precio de la vivienda: diagrama
de dispersión y línea de regresión
450
400
House Price ($1000s)
350 Pendiente
300
250
= 0,10977
200
150
100
50
Intercepto 0
= 98.248 0 500 1000 1500 2000 2500 3000
Square Feet
house price = 98.24833 + 0.10977 (square feet)
Interpretación de la
intersección, b 0
house price = 98.24833 + 0.10977 (square feet)
◼ b 0 es el valor promedio estimado de Y cuando
el valor de X es cero (si X = 0 está en el rango
de valores X observados)
◼ Aquí, ninguna casa tenía 0 pies cuadrados, por lo
que b 0 = 98,24833 solo indica que, para las casas
dentro del rango de tamaños observados,
$98.248,33 es la parte del precio de la casa que no
se explica por los pies cuadrados.
Interpretación del
coeficiente de pendiente, b 1
house price = 98.24833 + 0.10977(square feet)
◼ b 1 mide el cambio estimado en el valor
promedio de Y como resultado de un
cambio de una unidad en X
◼ Aquí, b 1 = .10977 nos dice que el valor promedio de
una casa aumenta en .10977 ($1000) = $109.77, en
promedio, por cada pie cuadrado adicional de
tamaño.
Poder explicativo de una
ecuación de regresión lineal
◼ La variación total se compone de dos
partes:
SST = SSR + SSE
total de Regresión suma Error (residual)
cuadrados de cuadrados Suma de
cuadrados
SST = (y i − y)2 SSR = (yˆ i − y)2 SSE = (y i − yˆ i )2
dónde:
y = Valor medio de la variable dependiente
y i = Valores observados de la variable dependiente
ŷ i = Valor previsto de y para el valor dado
Análisis de varianza
◼ SST = suma total de cuadrados
◼ Mide la variación de los valores de y i alrededor de
su media, y
◼ SSR = suma de cuadrados de regresión
◼ Variación explicada atribuible a la relación lineal
entre x e y
◼ SSE = suma de cuadrados del error
◼ Variación atribuible a factores distintos de la relación
lineal entre x e y
Análisis de varianza
Coeficiente de determinación, R2
◼ El coeficiente de determinación es la parte de
la variación total de la variable dependiente
que se explica por la variación de la variable
independiente.
◼ El coeficiente de determinación también se
llama R-cuadrado y se denota como R2
SSR regression sum of squares
R =
2
=
SST total sum of squares
nota: 0 R 1
2
Ejemplos de
valores aproximados de R2
Y
𝑹𝟐 = 1
Relación lineal perfecta entre
X e Y:
X
𝑹𝟐 = 1
Y El 100% de la variación en Y
se explica por la variación en
X
X
𝑹𝟐 =1
Ejemplos de
valores aproximados de R2
Y
0 < 𝑹𝟐 < 1
Relaciones lineales más
débiles entre X e Y:
X
Parte, pero no toda, de la
Y
variación en Y se explica
por la variación en X
X
Ejemplos de
valores aproximados de R2
𝑹𝟐 = 0
Y
No existe relación lineal
entre X e Y:
El valor de Y no depende
X de X. (Ninguna de las
𝑹𝟐 = 0
variaciones en Y se explica
por la variación en X)
Salida de Excel
Correlación y 𝑅2
◼ El coeficiente de determinación, R2 , para
una regresión simple es igual al cuadrado de
la correlación simple.
R =r
2 2
Estimación de
la varianza del error del
modelo
◼ Un estimador para la varianza del error del modelo
poblacional es
n
i
e 2
SSE
σˆ = s =
2 2
= i=1
n−2 n−2
e
◼ La división por n – 2 en lugar de n – 1 se debe a que el modelo de
regresión simple utiliza dos parámetros estimados, b0 y b1 , en
lugar de uno
se = s2e
se llama error estándar de la estimación
Salida de Excel
Estadísticas de regresión
Múltiples R 0,76211 se = 41.33032
R cuadrado 0.58082
R cuadrado
ajustado 0.52842
Error estándar 41.33032
Observaciones 10
Análisis de
varianza
df SS EM F P-valor
Regresión 1 18934.9348 18934.9348 11.0848 0.01039
Residual 8 13665.5652 1708.1957
Total 9 32600.5000
95%
Coeficientes Error estándar t Stat P-valor 95% inferior superior
Intercepto 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386
Pies cuadrados 0.10977 0.03297 3.32938 0.01039 0.03374 0.18580
Comparación de errores
estándar
s e es una medida de la variación de los
valores y observados a partir de la línea de
regresión
Y Y
small se X large se X
La magnitud de s e siempre debe juzgarse en relación con el
tamaño de los valores y en los datos de muestra.
es decir, se = $41.33K es Moderadamente pequeño en relación
con los precios de las casas en el rango de $200 - $300K
Inferencia estadística: pruebas
de hipótesis e intervalos de
confianza
◼ La varianza del coeficiente de pendiente de
regresión (b1) se estima mediante
2 2
s s
s2b1 = e
= e
(xi − x) (n − 1)s x
2 2
dónde:
sb1 = Estimación del error estándar de la pendiente de mínimos
cuadrados
SSE
se =
n−2 = Error estándar de la estimación
Salida de Excel
Comparación de errores
estándar de la pendiente
Sb1 es una medida de la variación en la pendiente de las
líneas de regresión de diferentes muestras posibles
Y Y
small Sb1 X large Sb1 X
Inferencia sobre la pendiente:
prueba t
◼ Prueba t para una pendiente poblacional
◼ ¿Existe una relación lineal entre X e Y?
◼ Hipótesis nulas y alternativas
H 0 : β 1 = 0 (sin relación lineal)
H1 : β1 0 (existe relación lineal)
◼ Estadístico de prueba
b1 − β1
dónde:
t= b 1 = pendiente de regresión
coeficiente
sb1 β 1 = pendiente hipotética
d.f. = n − 2 s b1 = estándar
error de la pendiente
Inferencia sobre la pendiente:
prueba t
Precio de la Ecuación de regresión estimada:
vivienda en Pies
miles de
dólares
cuadrados
(X)
house price = 98.25 + 0.1098 ([Link].)
(Y)
245 1400
312 1600
La pendiente de este modelo es
279 1700
308 1875
0,1098. ¿Los metros cuadrados
199 1100 de la casa afectan
219 1550 significativamente su precio de
405 2350 venta?
324 2450
319 1425
255 1700
Inferencias sobre la pendiente:
t Ejemplo de prueba
b1 sb1
H0 : β1 = 0 De la salida de Excel:
H1 : β1 0 Coeficientes Error estándar t Stat Valor p
Interceptar 98.24833 58.03348 1.69296 0.12892
Pies
cuadrados 0.10977 0.03297 3.32938 0.01039
b1 − β1 0.10977 − 0
t= = e = 3.32938
sb1 0.03297
l
Inferencias sobre la pendiente:
Ejemplo de prueba t
Test Statistic: t = 3.329
H 0 : 1 = 0
H1 : 1 0
d.f. = 10 − 2 = 8
t8,.025 = 2.3060
Decisión:
Rechazar H 0
Conclusión:
Existe evidencia suficiente de que los pies
cuadrados de superficie afectan al precio
de la vivienda
Inferencias sobre la pendiente:
Ejemplo de prueba t
P-value = 0.01039
H 0 : 1 = 0
H1 : 1 0
This is a two-tail test, Decisión: P-value so
so the p-value is Rechazar H
0
P ( t 3.329 ) + P ( t −3.329 ) Conclusión:
= 0.01039 Existe evidencia suficiente de que los pies
cuadrados de superficie afectan al precio
(for 8 d.f.) de la vivienda
Estimación del intervalo de
confianza
para la pendiente
Estimación del intervalo de confianza de la
pendiente:
b1 − t n−2,α/2 sb1 β1 b1 + t n−2,α/2 sb1
gl = n - 2
Impresión en Excel de precios de viviendas:
95%
Coeficientes Error estándar t Stat Valor p 95% inferior superior
Interceptar 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386
Pies cuadrados 0.10977 0.03297 3.32938 0.01039 0.03374 0.18580
Con un nivel de confianza del 95%, el intervalo de
confianza para la pendiente es (0,0337, 0,1858).
Estimación del intervalo de
confianza
para la pendiente
95%
Coeficientes Error estándar t Stat Valor p 95% inferior superior
Interceptar 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386
Pies cuadrados 0.10977 0.03297 3.32938 0.01039 0.03374 0.18580
Dado que las unidades de la variable precio de la vivienda
son miles de dólares, estamos 95 % seguros de que el
impacto promedio en el precio de venta está entre $33,70 y
$185,80 por pie cuadrado de tamaño de vivienda.
Este intervalo de confianza del 95% no incluye 0.
Conclusión: Existe una relación significativa entre el precio de la
vivienda y los metros cuadrados en el nivel de significancia de
.05.
Prueba de hipótesis para la
pendiente de la población
utilizando la distribución F
◼ Estadística de prueba F: MSR
F=
MSE
dónde SSR
MSR =
k
SSE
MSE =
n − k −1
donde F sigue una distribución F con numerador k y (n – k - 1)
grados de libertad del denominador
(k = el número de variables independientes en el modelo de
regresión)
Prueba de hipótesis para la
pendiente de la población
utilizando la distribución F
◼ Una prueba alternativa para la hipótesis de que
la pendiente es cero:
H0 : β1 = 0
H1 : β1 0
◼ Utilice la estadística F
MSR SSR
F= = 2
MSE se
◼ La regla de decisión es
rechazar H 0 si F ≥ F 1,n-2, α
Salida de Excel
Estadísticas de regresión
Múltiples R 0,76211
MSR 18934.9348
R cuadrado 0.58082 F= = = 11.0848
R cuadrado MSE 1708.1957
ajustado 0.52842
Error estándar 41.33032 Con 1 y 8 grados de Valor p para
Observaciones 10 libertad la prueba F
Análisis de
varianza
df SS EM F Significado F
Regresión 1 18934.9348 18934.9348 11.0848 0.01039
Residual 8 13665.5652 1708.1957
Total 9 32600.5000
Coeficiente 95%
s Error estándar t Stat Valor p 95% inferior superior
Interceptar 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386
Pies cuadrados 0.10977 0.03297 3.32938 0.01039 0.03374 0.18580
Prueba F de significación
H0 : β1 = 0 Estadística de
H 1: β 1≠ 0 prueba: MSR
F= = 11.08
= .05 MSE
gl 1 = 1 gl 2 = 8
Valor crítico: Decisión:
F 1,8,0 .05 = 5.32 Rechazar H 0 en = 0,05
Conclusión:
= .05
Hay suficiente evidencia de que
0 F el tamaño de la casa afecta el
No Rechazar
rechazar
H0 H0 precio de venta
F .05 = 5.32
Predicción
◼ La ecuación de regresión se puede utilizar
para predecir un valor para y, dado un x
particular
◼ Para un valor específico, x n+1 , el valor
predicho es
yˆ n+1 = b0 + b1x n+1
Predicciones mediante
análisis de regresión
Predecir el precio de una casa de 2000 pies
cuadrados:
house price = 98.25 + 0.1098 ([Link].)
= 98.25 + 0.1098(200 0)
= 317.85
El precio previsto para una casa de 2000 pies
cuadrados es 317,85 ($1000s) = $317 850
Rango de datos relevantes
◼ Al utilizar un modelo de regresión para la predicción, solo
se predice dentro del rango relevante de datos
Rango de datos relevante
450
400
House Price ($1000s)
350
300
250
200
150 Es arriesgado intentar
100
extrapolar mucho más allá
50
0
del rango de valores x
0 500 1000 1500 2000 2500 3000 observados
Square Feet
Estimación de valores medios
y predicción de valores
individuales
Objetivo: Formar intervalos alrededor de y para expresar
la incertidumbre sobre el valor de y para un x i dado
Intervalo de
confianza Y
para el valor y
esperado de
y, dado x i
y = b 0+ b 1x i
Intervalo de predicción
para una única
observación y, dado x i
x X
Intervalo de confianza para
el promedio Y, dado X
Estimación del intervalo de confianza para el
valor esperado de y dado un x i particular
Confidence interval for E(Yn+1 | Xn+1 ) :
1 (x n+1 − x)2
yˆ n+1 t n−2,α/2se + 2
n (x i − x)
Tenga en cuenta que la fórmula implica el término (x n+1 − x)
2
Entonces el tamaño del intervalo varía según la distancia x
n+1 desde la media, x
Intervalo de predicción para
un individuo Y, dado X
Estimación del intervalo de confianza para un valor
real observado de y dado un x i particular
Confidence interval for yˆ n+1 :
1 (x n+1 − x)2
yˆ n+1 t n−2,α/2se 1+ + 2
n (x i − x)
Este término adicional se suma al ancho del
intervalo para reflejar la incertidumbre adicional
para un caso individual.
Ejemplo: Intervalo de confianza
para
el promedio Y, dado X
Estimación del intervalo de confianza para E(Y n+1 |X n+1 )
Encuentre el intervalo de confianza del 95% para el
precio medio de casas de 2000 pies cuadrados
Precio previsto y i = 317,85 (miles de dólares)
1 (x i − x)2
yˆ n+1 t n-2,α/2 se + = 317.85 37.12
n (x i − x) 2
Los puntos finales del intervalo de confianza son 280,73
y 354,97, o de $280.730 a $354.970.
Ejemplo: Intervalo de predicción
para un individuo Y, dado X
Estimación del intervalo de confianza para y n+1
Encuentre el intervalo de confianza del 95% para
una casa individual con 2000 pies cuadrados
Precio previsto y i = 317,85 (miles de dólares)
1 (Xi − X)2
yˆ n+1 t n-1,α/2 se 1+ + = 317.85 102.28
n (Xi − X) 2
Los puntos finales del intervalo de confianza son 215,57
y 420,13, o de $215.570 a $420.130.
Análisis de correlación
◼ Coeficiente de correlación se utiliza para medir
la fuerza de la asociación (relación lineal) entre
dos variables.
◼ La correlación solo se ocupa de la fuerza de la
relación.
◼ No se implica ningún efecto causal con la correlación
Análisis de correlación
◼ El coeficiente de correlación poblacional
se denota ρ (la letra griega rho)
◼ El coeficiente de correlación de la muestra
es
s xy
r=
sxsy
dónde
s xy =
(x − x)(y − y)
i i
n −1
Correlación poblacional cero
◼ Para probar la hipótesis nula de que no existe
asociación lineal,
H0 : ρ = 0
La estadística de prueba sigue la distribución t
de Student con (n – 2) grados de libertad:
r (n − 2)
t=
(1− r )
2
Reglas de decisión
Prueba de hipótesis de correlación
Prueba de la cola Prueba de la cola Prueba de dos colas:
inferior: superior:
H 0: ρ = 0
H0 : ρ 0 H 0: ρ ≤ 0 H1 : ρ ≠ 0
H 1: ρ < 0 H1 : ρ > 0
/2 /2
-t t -t /2 t /2
Rechazar H 0 si t < -t n-2, Rechazar H 0 si t > t n-2, Rechazar H 0 si t < -t n-2,
o t > t n-2,
r (n − 2)
Dónde t = tiene n - 2 gl .
(1− r )
2
Medida Beta del Riesgo
Financiero
◼ Un coeficiente beta es una medida de cómo los
rendimientos de una empresa en particular
responden a los rendimientos de un índice
bursátil amplio (como el S&P 500).
◼ Para una empresa específica, el coeficiente
beta es el coeficiente de pendiente de una
regresión de los rendimientos de la empresa en
comparación con los rendimientos generales
del mercado durante un período de tiempo
específico.
Ejemplo de coeficiente beta
◼ El coeficiente de pendiente es el coeficiente
Beta
Información sobre
la calidad de la
regresión
modelo que
proporciona la
estimación de
beta
Análisis gráfico
◼ El modelo de regresión lineal se basa en
minimizar la suma de errores al cuadrado.
◼ Si existen valores atípicos, sus errores
cuadrados potencialmente grandes pueden tener
una fuerte influencia en la línea de regresión
ajustada.
◼ Asegúrese de examinar sus datos gráficamente
para detectar valores atípicos y puntos extremos.
◼ Decide, en función de tu modelo y tu lógica, si
los puntos extremos deben permanecer o
eliminarse.
Resumen del capítulo
◼ Se introdujo el modelo de regresión lineal
◼ Correlación y los supuestos de la regresión
lineal
◼ Se discutió la estimación de los coeficientes de
regresión lineal simple.
◼ Medidas de variación descritas
◼ Inferencia descrita sobre la pendiente
◼ Se abordó la estimación de valores medios y la
predicción de valores individuales.