100% encontró este documento útil (3 votos)
343 vistas58 páginas

Regresión Lineal

Este documento presenta los conceptos básicos de regresión lineal simple. Explica que la regresión lineal analiza la relación entre una variable dependiente Y y una variable independiente X, cuantificando la fuerza de la relación mediante métodos que permiten predecir valores de Y dados valores de X. También define términos como coeficientes de regresión, error aleatorio, residuales, y coeficiente de correlación; y describe métodos para estimar los parámetros del modelo de regresión lineal simple.

Cargado por

antonio Guzman
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
100% encontró este documento útil (3 votos)
343 vistas58 páginas

Regresión Lineal

Este documento presenta los conceptos básicos de regresión lineal simple. Explica que la regresión lineal analiza la relación entre una variable dependiente Y y una variable independiente X, cuantificando la fuerza de la relación mediante métodos que permiten predecir valores de Y dados valores de X. También define términos como coeficientes de regresión, error aleatorio, residuales, y coeficiente de correlación; y describe métodos para estimar los parámetros del modelo de regresión lineal simple.

Cargado por

antonio Guzman
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Universidad del Zulia

Facultad de Ingeniería

Estadística II

Profesor:
Ing. Alejandrina Sáez

Maracaibo, junio 2023


ANÁLISIS DE REGRESIÓN:
REGRESIÓN LINEAL SIMPLE
REGRESIÓN LINEAL: Definiciones básicas

El concepto de análisis de regresión se refiere a encontrar la mejor relación entre Y y x


cuantificando la fuerza de esa relación, y empleando métodos que permitan predecir los
valores de la respuesta (Y) dados los valores del regresor (x). En muchas aplicaciones
habrá mas de un regresor, es decir, mas de una variable independiente que ayude a
explicar a Y.

En los casos que tengamos una variable dependiente Y y una única variable independiente
x, corresponde realizar un análisis de Regresión Lineal Simple.

Cuando se quiere relacionar una variable dependiente Y con dos o más variables
independientes x1, x2,…..xn, corresponde realizar un análisis de Regresión Lineal Múltiple.
REGRESIÓN LINEAL: Definiciones básicas

Análisis de regresión.
Técnica estadística para evaluar la asociación de una o más variables independientes
x1,, x2, …xk con respecto a una sola variable dependiente Y.

Modelos de regresión
Son todos aquellos modelos que se emplean para relacionar una variable dependiente
Y con las variables independientes X1, X2,...,Xk.
REGRESIÓN LINEAL: Definiciones básicas

Modelo de regresión lineal simple

Yi= 0 + 1 Xi + i

Donde:
0 : ordenada en el origen ó corte de la recta en Y.
1: pendiente de la recta.
i : error aleatorio. El error aleatorio tiene E(i) = 0 y Var(i) = σ2
REGRESIÓN LINEAL SIMPLE: Definiciones básicas.

1. La variable dependiente Yi es una variable aleatoria, dado que i es


una variable aleatoria.
2. La variable regresora X no es una variable aleatoria (VA).
3. El error aleatorio i tiene varianza constante, lo que se denomina
supuesto de varianza homogénea.
4. Dado que E(ε) = 0, esto implica que para una X específica, los valores
de Y se distribuyen alrededor de la recta verdadera o recta de
regresión de la población
𝑌 = β0 +β1X.
REGRESIÓN LINEAL: Definiciones básicas

Observaciones individuales alrededor de la verdadera recta de regresión.


REGRESIÓN LINEAL: Definiciones básicas

Datos (x, y) hipotéticos dispersos alrededor de la verdadera recta de regresión para n = 5.


REGRESIÓN LINEAL: Definiciones básicas

.
εi
. ΔY
Y . ΔX
.
. β1

Yi= 0 + 1 Xi + i
β0
. Yi= E(Yi/x) + i

X
REGRESIÓN LINEAL: Definiciones básicas

Datos muestrales Modelo de regresión


x y y=0+1x+
x1 y1
x2 y2 Ecuación de regresión
. . E(y)=0+1x
. .
. . Parámetros desconocidos
xn yn 0,1
REGRESIÓN LINEAL: Definiciones básicas

Ecuación estimada de regresión

𝑦=b
ො 0+b1x
Estadísticos de la muestra b0 y b1 son los estimadores de 0 y 1

b0,b1
REGRESIÓN LINEAL: Definiciones básicas

PARÁMETROS DEL MODELO

0 valor de Y cuando X toma valor cero.

1 Incremento unitario, número de unidades que


aumenta (o disminuye) Y, cuando X aumenta
(o disminuye) en una unidad.
REGRESIÓN LINEAL: Error aleatorio y residuales.

εi = Yi - µy/x = Yi – E(Yi)

ei = Yi - Yi
εi : i-ésimo error aleatorio.
ei : i-ésimo residual.
REGRESIÓN LINEAL: Gráfica de dispersión.
Y

β0

β0 X

Relación positiva Relación negativa


β1 > 0 1 <0
Y

0

No tiene relación x
1 =0
REGRESIÓN LINEAL: Estimación de parámetros. Método de mínimos cuadrados.
REGRESIÓN LINEAL: Estimación de los coeficientes de regresión.
REGRESIÓN LINEAL: Estimación de los coeficientes de regresión.

𝑆𝑥𝑦
b1 = , b0 = Y – b1X
𝑆𝑥𝑥

σ𝑖 𝑋𝑖2
Sxy = σ𝑖 𝑋𝑖𝑌𝑖 -
𝑛

(σ𝑖 𝑋𝑖)2
Sxx = σ𝑖 𝑋𝑖2 -
𝑛

(σ𝑖 𝑌𝑖)2
Syy = σ𝑖 𝑌𝑖2 -
𝑛
REGRESIÓN LINEAL: Coeficiente de Correlación (R)

Coeficiente de correlación, que es una medida numérica de la fuerza de la relación lineal entre dos
variables. Este coeficiente se denota con la literal R.

𝑆𝑥𝑦
R= =
𝑆𝑥𝑥∗𝑆𝑦𝑦

R = -1; relación lineal perfecta. Recta con pendiente negativa.


-1 ≤ R ≤ 1 R = 0; no existe relación lineal.
R = +1; relación lineal perfecta. Recta con pendiente positiva.
REGRESIÓN LINEAL: Estimación de los coeficientes de regresión.
REGRESIÓN LINEAL: Estimación de la varianza (σ2)

Si se tiene una muestra de tamaño n , En el modelo de regresión se estima de manera


proveniente de una población con media μ y similar la varianza muestral de Y, solo que para este
varianza σ2 . La varianza muestral de Y estaría modelo la recta de regresión estimada representa la
dada por la siguiente ecuación: media para los valores de Y dado un X. Por lo tanto:

2 2
σ 𝑌𝑖 −𝑌 σ 𝑌𝑖 −𝑌𝑖 𝑆𝐶𝐸 𝑆𝑦𝑦 −𝑏1𝑆𝑥𝑦
S2 = S2 = = = = CME
𝑛 −1 𝑛 −2 𝑛 −2 𝑛 −2
REGRESIÓN LINEAL: Inferencia sobre los coeficientes de regresión.

Propiedades de b1
Propiedades de b0
E(b1) = β1
𝐶𝑀𝐸
E(b0) = β0
V(b1) = S2(b1) =
𝑆𝑥𝑥 1 𝑋2
V(b0) = S2(b 0) = CME +
𝑛 𝑆𝑥𝑥
Asumiendo que los errores aleatorios se
distribuyen normales, entonces tenemos: Asumiendo que los errores aleatorios se
distribuyen normales, entonces tenemos:
b1 −𝛽1
~ 𝑡 𝑐𝑜𝑛 𝑣 = 𝑛 − 2
𝑆2 b0 − 𝛽0
𝑆𝑥𝑥 ~ 𝑡 𝑐𝑜𝑛 𝑣 = 𝑛 − 2
1 𝑋ത 2
𝑆2 +
𝑛 𝑆𝑥𝑥
REGRESIÓN LINEAL: Inferencia para la pendiente de la recta de regresión.
REGRESIÓN LINEAL: Inferencia sobre los coeficientes de regresión.
Prueba de hipótesis para la pendiente (β1)
Hipótesis Hipótesis
Estadístico de prueba Región crítica Valor P
nula alternativa
t0 ≥ t ν,α/2
H1: β1 ≠ β1′ ó 2P(t > t0)
b1 −𝛽′1 t0 ≤ - t ν,α/2
t= 2
𝑆
H1: β1 > β1′ 𝑆𝑥𝑥
H0: β1 = β1′ t0 ≥ t ν,α
𝑣 =𝑛−2
P(t > lt0l)

H1: β1 < β1′ t0 ≤ - t ν,α


REGRESIÓN LINEAL: Inferencia sobre los coeficientes de regresión.
Prueba de significancia de la regresión.
Hipótesis Hipótesis
Estadístico de prueba Región crítica Valor P
nula alternativa

b1 t0 ≥ t ν,α/2
t= 2
𝑆
𝑆𝑥𝑥
ó
H0: β1 = 0 H1: β1 ≠ 0 t0 ≤ - t ν,α/2 2P(t > t0)
𝑣 =𝑛−2
REGRESIÓN LINEAL: Inferencia para el corte con el eje .

1 Xഥ2 1 ഥ2
X
𝑏0 − t αൗ2 , v S 2 + < β0 < b0 + t αൗ2 , v S 2 +
n Sxx n Sxx
REGRESIÓN LINEAL: Inferencia sobre los coeficientes de regresión.
Prueba de hipótesis para el corte con el eje (β0)
Hipótesis Hipótesis
Estadístico de prueba Región crítica Valor P
nula alternativa
t0 ≥ t ν,α/2
H1: β0 ≠ β′0 ó 2P(t > t0)
b0−β′0 t0 ≤ - t ν,α/2
t= ഥ2
1 X
S2 n+Sxx
H1: β0 > β′0
H0: β0 = β′0 t0 ≥ t ν,α
𝑣 =𝑛−2
P(t > lt0l)

H1: β0 < β′0 t0 ≤ - t ν,α


REGRESIÓN LINEAL: Intervalo de predicción de µy/xo

Donde:
yෞ0 = b0 + b1X0
REGRESIÓN LINEAL: Intervalo de predicción de µy/xo
REGRESIÓN LINEAL: Intervalo de predicción para una nueva observación
REGRESIÓN LINEAL: Intervalo de predicción para una nueva observación
REGRESIÓN LINEAL: Inferencia para los coeficientes de regresión.
REGRESIÓN LINEAL: Análisis de varianza (ANOVA)

Con frecuencia el problema de analizar la calidad de la recta de regresión estimada se


maneja por medio del método del análisis de varianza (ANOVA), que es un
procedimiento mediante el cual la variación total de la variable dependiente se
subdivide en componentes significativos, que luego se observan y se tratan en forma
sistemática.
REGRESIÓN LINEAL: Análisis de varianza (ANOVA)

SCR = b1Sxy

STCC = Syy

SCE = Syy –SCR = Syy – b1Sxy


REGRESIÓN LINEAL: Análisis de varianza (ANOVA)
REGRESIÓN LINEAL: Análisis de varianza (ANOVA)
Prueba de significancia de la regresión.
Hipótesis Hipótesis
Estadístico de prueba Región crítica Valor P
nula alternativa

𝐶𝑀𝑅
f = 𝐶𝑀𝐸

H0: β1 = 0 H1: β1 ≠ 0 f0 ≥ fα, ν1, ν2 P(f > f0)


𝑣1 = 1

𝑣2 = 𝑛 − 2
REGRESIÓN LINEAL: Una medida de calidad del ajuste. Coeficiente de Determinación (R2)

R2, se denomina coeficiente de determinación y es una medida de la proporción de la variabilidad


explicada por el modelo ajustado.

𝑆𝑇𝐶𝐶−𝑆𝐶𝐸 𝑆𝐶𝑅
= =
𝑆𝑇𝐶𝐶 𝑆𝑇𝐶𝐶

R2 = 0; ajuste deficiente del modelo.


0 ≤ R2 ≤ 1 R2 = 1; ajuste perfecto del modelo.
REGRESIÓN LINEAL: ANOVA en regresión lineal.
REGRESIÓN LINEAL: Prueba para la linealidad de la regresión: datos con observaciones
repetidas.
Si se generan observaciones repetidas, el investigador puede efectuar una prueba de significancia para
determinar si el modelo es o no adecuado.

Seleccionemos una muestra aleatoria de n observaciones utilizando k valores distintos de X, por ejemplo,
X1, X2,..., Xn, tales que la muestra contenga n1 valores observados de la variable aleatoria Y1
correspondientes a los valores X1, con n2 valores observados de Y2 correspondientes a X2,..., nk valores
observados de Yk correspondientes a Xk. Necesariamente,
REGRESIÓN LINEAL: Prueba para la linealidad de la regresión: datos con observaciones
repetidas.

Modelo lineal correcto con componente sin falta de ajuste. Modelo lineal incorrecto con componente de falta de ajuste.
REGRESIÓN LINEAL: Prueba para la linealidad de la regresión: datos con observaciones
repetidas.
STCC = SCR +SCE Al elegir un modelo lineal en esencia asumimos que SCFA no existe y
que, en consecuencia, la suma de cuadrados del error se debe por
SCE = SCFA + SCEP completo a errores aleatorios.
REGRESIÓN LINEAL: Prueba para la linealidad de la regresión: datos con observaciones
repetidas.

SCFA = SCE – SCEP


GlSCFA = GlSCE – GlSCEP = (n -2) – (n – k) = k - 2
REGRESIÓN LINEAL: Prueba para la linealidad de la regresión: datos con observaciones
repetidas.
H0 : No existe falta de ajuste de los datos con en el modelo lineal determinado.
H1 : Existe falta de ajuste de los datos con el modelo lineal determinado.

𝐶𝑀𝐹𝐴
Estadístico de prueba: f0 = 𝐶𝑀𝐸𝑃

Región crítica: f0 > f α, k-2, n-k

Valor P: P( f > f0) con ν1 = k -2 y ν2 = n - k


REGRESIÓN LINEAL: Prueba para la linealidad de la regresión: datos con observaciones
repetidas.
REGRESIÓN LINEAL: Prueba de linealidad en regresión lineal.
REGRESIÓN LINEAL: Transformaciones en regresión lineal.
En algunas ocasiones, se podría recomendar una transformación de los datos debido a consideraciones
teóricas inherentes al estudio científico, o bien, una simple grafica de los datos podría sugerir la necesidad de
reexpresar las variables en el modelo. La necesidad de llevar a cabo una transformación es muy fácil de
diagnosticar en el caso de la regresión lineal simple, ya que las graficas en dos dimensiones brindan un
panorama verdadero de la manera en que las variables se comportan en el modelo.

Modelo lineal en los parámetros

Yi* = β0 + β1Xi* + εi
Modelo no lineal en los parámetros
Donde:

Yi* = log Yi
Xi* = log Xi
REGRESIÓN LINEAL: Transformaciones en regresión lineal.
REGRESIÓN LINEAL: Transformaciones.
REGRESIÓN LINEAL: Análisis de residuales: Detección grafica de la trasgresión de las
suposiciones del modelo.

Supuesto de Varianza Constante (𝝈𝟐 ): El análisis de los residuales ei permite verificar si este supuesto se
cumple en los datos al graficar la variable independiente (X) o los valores estimados de la variable
෠ contra los residuales (ei)
dependiente (𝑌)
REGRESIÓN LINEAL: Análisis de residuales: Detección grafica de la trasgresión de las
suposiciones del modelo.
Independencia del error: Los residuales no son independientes. Cuando el tamaño de muestra es
suficientemente grande el efecto de la independencia es poco importante y puede ser ignorado. Para
verificar este supuesto se debe graficar el tiempo (t) contra los residuales (ei). El objetivo es verificar si
existe una correlación entre los residuales a través del tiempo.

Gráfica ideal de los residuales Gráfica de los residuales que ilustra no independencia de los
errores.
REGRESIÓN LINEAL: Análisis de residuales.

Independencia del error: Se pueden hacer pruebas no


paramétricas como la prueba de aleatoriedad. Y si se puede
suponer que los errores tienen una distribución normal,
puede utilizarse la prueba de Durbin-Watson, la cual es
paramétrica.
REGRESIÓN LINEAL: Análisis de residuales.

Prueba de Durbin-Watson:

H0: No existe correlación entre los residuales.


H1: Existe correlación entre los residuales.

σ(𝑒𝑖 −𝑒𝑖−1 )2
Estadístico de prueba: dw = σ 𝑒𝑖2

Críterio de decisión:
Correlación positiva (ρe > 0) Correlación negativa (ρe < 0)
Si dw < dl, Rechazar H0 Si d < dl, Rechazar H0
Si dw > du, no puede Rechazarse H0 Si d > du, no puede Rechazarse H0
Si dl < dw < du, la prueba no es concluyente Si dl < d < du, la prueba no es concluyente
Donde: d = 4 - dw
REGRESIÓN LINEAL: Análisis de residuales.

Pardo y Ruiz (2005) establecen que el estadístico de Durbin-Watson (dw) puede aproximarse con la ecuación que
se presenta a continuación:

dw = 2(1 – ρ) , por lo tanto,

Si ρ = 0 dw = 2
Si ρ = 1 dw = 0
Si ρ =-1 dw = 4

El autor establece que para valores 1,5 ≤ dw ≤ 2,5 se asume que no puede rechazarse la hipótesis nula.
REGRESIÓN LINEAL: Análisis de residuales.
Tabla estadístico Durbin-Watson

K corresponde al número de
variables de predicción
REGRESIÓN LINEAL: Análisis de residuales: Detección grafica de la trasgresión de las
suposiciones del modelo.
Supuesto de normalidad: Los residuales se espera que estén distribuidos normalmente con media 0 y
varianza σ2 . La Grafica de probabilidad normal, permite verificar si se cumple este importante supuesto
estadístico en el modelo de regresión.
REGRESIÓN LINEAL: Análisis de residuales: Detección grafica de la trasgresión de las
suposiciones del modelo.
Supuesto de normalidad: Otra herramienta gráfica para verificar este supuesto lo constituye el histograma
de frecuencias.
REGRESIÓN LINEAL: Análisis de residuales.

Supuesto de normalidad: Existen pruebas de hipótesis que nos permiten verificar el


cumplimiento de este supuesto, las cuales vimos en el tema anterior.

• Prueba Chi-cuadrado de bondad de ajuste.


• Prueba de Kolmogorov-Smirnov

Estas pruebas pueden aplicarse a los residuales.


REGRESIÓN LINEAL: Análisis de residuales.
REGRESIÓN LINEAL

También podría gustarte