0% encontró este documento útil (0 votos)
15 vistas44 páginas

Sesión 12 DOE IB

El documento aborda la regresión lineal simple y múltiple, explicando conceptos clave como el coeficiente de correlación, la ecuación de regresión, y la importancia de evaluar la calidad del ajuste. Se discuten errores comunes en la interpretación de correlaciones y se presentan métodos para calcular parámetros y realizar pruebas de hipótesis. Además, se enfatiza la necesidad de utilizar modelos de regresión adecuadamente para estimaciones y predicciones.

Cargado por

Kenzie Flores
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
15 vistas44 páginas

Sesión 12 DOE IB

El documento aborda la regresión lineal simple y múltiple, explicando conceptos clave como el coeficiente de correlación, la ecuación de regresión, y la importancia de evaluar la calidad del ajuste. Se discuten errores comunes en la interpretación de correlaciones y se presentan métodos para calcular parámetros y realizar pruebas de hipótesis. Además, se enfatiza la necesidad de utilizar modelos de regresión adecuadamente para estimaciones y predicciones.

Cargado por

Kenzie Flores
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Regresión lineal simple

Derly D. Ortiz Romero, M.Sc.


Competencias de aprendizaje
Utiliza correctamente un modelo de regresión para
propósitos de estimación y predicción.

Evalúa la calidad de ajuste en una regresión lineal


simple.

Utiliza correctamente un modelo de regresión para


propósitos de estimación y predicción.
Correlación

Cuando una de
Una correlación existe ellas está
entre dos variables: relacionada
con la otra de
alguna manera.
Coeficiente de correlación lineal 𝒓
❖Mide la fuerza de relación lineal entre los valores cuantitativos
apareados 𝑥 y 𝑦 en una muestra.
❖También se conoce como coeficiente de correlación producto
momento de Pearson.

𝑛 σ 𝑥𝑦 − σ 𝑥 σ 𝑦
𝑟=
2 2 2 2
𝑛 σ𝑥 − σ𝑥 𝑛 σ𝑦 − σ𝑦
Propiedades del coeficiente de
correlación lineal 𝒓
1. El valor de 𝑟 está siempre entre -1 y +1, inclusive. Es decir:
−1 ≤ 𝑟 ≤ +1
2. El valor de 𝑟 no cambia si todos los valores de cualquiera de las
variables se convierten a una escala diferente.
3. El valor de 𝑟 no se ve afectado por la elección de 𝑥 o 𝑦. Intercambie
todos los valores de 𝑥 y 𝑦; y el valor de 𝑟 no sufrirá cambios.
4. 𝑟 mide la fuerza de una relación lineal. No está diseñada para
medir la fuerza de una relación que no sea lineal.
Errores comunes en las correlaciones

Un error común es concluir que la


correlación implica causalidad.

Otro error proviene de los datos basados


en promedios.

Un tercer error implica la propiedad de


linealidad.
Prueba formal de hipótesis
❖Prueba de hipótesis de correlación:

𝐻0 : 𝜌 = 0 𝑁𝑜 𝑒𝑥𝑖𝑠𝑡𝑒 𝑢𝑛𝑎 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑙𝑖𝑛𝑒𝑎𝑙


𝐻1 : 𝜌 ≠ 0 (𝐸𝑥𝑖𝑠𝑡𝑒 𝑢𝑛𝑎 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑙𝑖𝑛𝑒𝑎𝑙)

❖Estadístico de prueba:
𝑟
𝑡=
1 − 𝑟2
𝑛−2
Pruebas de una cola
❖Aseveración de correlación negativa (prueba de cola izquierda):

𝐻0 : 𝜌 = 0
𝐻1 : 𝜌 < 0

❖Aseveración de correlación positiva (prueba de cola derecha):

𝐻0 : 𝜌 = 0
𝐻1 : 𝜌 > 0
La ecuación de regresión lineal
Derly D. Ortiz Romero, M.Sc.
Análisis de regresión

Explica en forma matemática En función de una


el comportamiento de una o más variables
variable de respuesta. independientes.
Requisitos

La muestra de datos apareados 𝑥, 𝑦 es una muestra aleatoria de


datos cuantitativos.

El examen visual del diagrama de dispersión indica que los


puntos se aproximan al patrón de una línea recta.

Se debe eliminar cualquier valor extremo, si se sabe que es un


error.
Definiciones
❖Dado un conjunto de datos muestrales apareados, la ecuación de
regresión:

𝑦ො = 𝑏0 + 𝑏1 𝑥

❖Describe algebraicamente la relación entre las dos variables.


❖La gráfica de la ecuación de regresión se denomina recta de
regresión (o recta del mejor ajuste o recta de mínimos cuadrados).
Notación para la ecuación de regresión

Parámetro poblacional Estadístico muestral


Intercepto 𝑦 de la
𝛽0 𝑏0
ecuación de regresión
Pendiente de la
𝛽1 𝑏1
ecuación de regresión
Ecuación de la recta de
𝑦 = 𝛽0 + 𝛽1 𝑥 𝑦ො = 𝑏0 + 𝑏1 𝑥
regresión
Cálculo de la pendiente 𝒃𝟏 y del intercepto 𝒃𝟎
❖Pendiente:

𝑛 σ 𝑥𝑦 − σ 𝑥 σ 𝑦
𝑏1 =
𝑛 σ 𝑥2 − σ 𝑥 2

❖Intercepto:

𝑏0 = 𝑦ത − 𝑏1 𝑥ҧ
Lineamientos para el uso de la ecuación de
regresión
Si no existe una correlación lineal, no utilice la ecuación de
regresión para hacer predicciones.

Permanezca en el ámbito de los datos muestrales


disponibles.

Una ecuación de regresión que está basada en datos


antiguos no necesariamente es válida ahora.

No haga predicciones acerca de una población distinta de la


población de donde se obtuvieron los datos muestrales.
Residuales y la propiedad de los mínimos
cuadrados
❖Para una muestra de datos apareados 𝑥, 𝑦 , un residual es la
diferencia 𝑦 − 𝑦ො entre un valor 𝑦 muestral observado y el valor de
𝑦,
ො que es el valor de 𝑦 predicho por medio de la ecuación de
regresión. Es decir:

𝑟𝑒𝑠𝑖𝑑𝑢𝑎𝑙 = 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑑𝑎 𝑦 − 𝑝𝑟𝑒𝑑𝑖𝑐ℎ𝑎 𝑦 = 𝑦 − 𝑦ො

❖Una recta satisface la propiedad de mínimos cuadrados si la suma


de los cuadrados de los residuales es la menor suma posible.
Gráficas residuales

Cada uno de los


Una gráfica residual es un valores de la
diagrama de dispersión de los coordenada 𝑦 han
valores 𝑥, 𝑦 . sido reemplazados
por el valor
residual 𝑦 − 𝑦ො
Gráficas residuales

Si una gráfica residual no revela ningún


patrón, la ecuación de regresión es una
buena representación de la asociación entre
las dos variables.

Si una gráfica residual revela algún patrón


sistemático, la ecuación de regresión no es
una buena representación de la asociación
entre las dos variables.
Variación e intervalos de predicción
Derly D. Ortiz Romero, M.Sc.
Variación e intervalos de predicción

Desviación total • Es la distancia vertical 𝑦 − 𝑦.


Desviación
• Es la distancia vertical 𝑦ො − 𝑦.

explicada

Desviación sin
• Es la distancia vertical 𝑦 − 𝑦.

explicar
Variación e intervalos de predicción
❖Existe una correlación lineal (con 𝑟 significativamente diferente de 0).

❖La ecuación de la recta de regresión es:

𝑦ො = 3 + 2𝑥

❖La media de los valores de 𝑦 está dada por: 𝑦 = 9

❖Uno de los pares de datos muestrales es 𝑥 = 5 y 𝑦 = 19


Variación e intervalos de predicción
Variación e intervalos de predicción
❖De la figura anterior podemos apreciar la siguiente relación:

𝑑𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑡𝑜𝑡𝑎𝑙
= 𝑑𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎 + 𝑑𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 sin 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑟

𝑦 − 𝑦ത = 𝑦ො − 𝑦ത + 𝑦 − 𝑦ො

❖Si sumamos los cuadrados de las desviaciones utilizando todos los


puntos 𝑥, 𝑦 , obtenemos cantidades de variación.
Variación e intervalos de predicción
❖La variación total se expresa como la suma de los cuadrados de los
valores de desviación totales, la variación explicada es la suma de los
cuadrados de los valores de la desviación explicados, y la variación sin
explicar es la suma de los cuadrados de los valores de la desviación
sin explicar.

ഥ 𝟐 ෝ−𝒚
ഥ 𝟐 ෝ 𝟐
෍ 𝒚−𝒚 =෍ 𝒚 +෍ 𝒚−𝒚
𝟐
Coeficiente de determinación 𝒓

Es la cantidad de variación en 𝑦 que está explicada por la


recta de regresión.

2
𝑣𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎
𝑟 =
𝑣𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝑡𝑜𝑡𝑎𝑙
Intervalos de predicción
❖El error estándar del estimado, denotado por 𝑠𝑒 es una medida de
las diferencias (o distancias) entre los valores muestrales observados
de 𝑦 que se obtienen por medio de la ecuación de regresión.

σ 𝑦 − 𝑦ො 2
𝑠𝑒 =
𝑛−2

σ 𝑦 2 − 𝑏0 σ 𝑦 − 𝑏1 σ 𝑥𝑦
𝑠𝑒 =
𝑛−2
Intervalo de confianza para 𝜷𝟎
❖Los intervalos de confianza para 𝛽0 se pueden obtener de la siguiente
manera:

𝑏0 − 𝐸 < 𝛽0 < 𝑏0 + 𝐸
❖Dónde:

1 𝑥ҧ 2
𝐸 = 𝑡𝛼Τ2 ∙ 𝑠𝑒 + 2
𝑛 2 σ𝑥
σ𝑥 −
𝑛
Intervalo de confianza para 𝜷𝟏
❖Los intervalos de confianza para 𝛽1 se pueden obtener de la siguiente
manera:

𝑏1 − 𝐸 < 𝛽1 < 𝑏1 + 𝐸
❖Dónde:

𝑠𝑒
𝐸 = 𝑡𝛼Τ2 ∙
σ𝑥 2
2
σ𝑥 −
𝑛
Intervalo de predicción para una 𝒚 individual
❖Dado el valor fijo 𝑥0 , para el intervalo de predicción para una 𝑦
individual es:

𝑦ො − 𝐸 < 𝑦 < 𝑦ො + 𝐸

❖Donde el margen de error 𝐸 es:

1 𝑛 𝑥0 − 𝑥ҧ 2
𝐸 = 𝑡𝛼Τ2 ∙ 𝑠𝑒 1+ +
𝑛 𝑛 σ 𝑥2 − σ 𝑥 2
Caso de estudio
❖Se han examinado una serie de soluciones patrón de fluoresceína en un
espectrómetro de fluorescencia, y han concluido a las siguientes
intensidades de fluorescencia (en unidades arbitrarias).
Intensidades de fluorescencia 2.1 5.0 9.0 12.6 17.3 21.0 24.7
Concentración, pg mL−1 0 2 4 6 8 10 12

i. Determinar el coeficiente de correlación 𝑟.


ii. Calcular la pendiente y ordenada en el origen de la recta de regresión.
iii. Calcular la desviación estándar y los límites de confianza para la
pendiente y ordenada en el origen de la recta de regresión.
Regresión lineal múltiple
Derly D. Ortiz Romero, M.Sc.
Competencias de aprendizaje
Diferencia una regresión lineal simple de una
regresión lineal múltiple.

Aplica las pruebas de hipótesis en la regresión lineal


múltiple.

Utiliza correctamente un modelo de regresión para


propósitos de estimación y predicción.
Regresión múltiple

Entre una
Una ecuación de regresión variable de
múltiple expresa una respuesta 𝑦 y dos
relación lineal. o más variables
de predicción
𝑥1 , 𝑥2 , … , 𝑥𝑘 .
Ecuación de regresión múltiple
❖La forma general de una ecuación de regresión múltiple es:

𝑦 = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + ⋯ + 𝛽𝑘 𝑥𝑘 + 𝜀

❖Para cualquier conjunto específico de valores de 𝑥, la ecuación de


regresión está asociada con un error aleatorio que suele denotarse
por 𝜺. Suponemos que estos errores se distribuyen normalmente, con
una media de 0.
Estimación de los parámetros en modelos de
regresión lineal
❖En términos de los datos, el modelo de regresión lineal múltiple
puede escribirse de la siguiente manera:

𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖1 + 𝛽2 𝑥𝑖2 + ⋯ 𝛽𝑘 𝑥𝑖𝑘 + 𝜀𝑖

𝑦𝑖 = 𝛽0 + ෍ 𝛽𝑗 𝑥𝑖𝑗 + 𝜀𝑖 , 𝑖 = 1, 2, … , 𝑛
𝑗=1
Estimación de los parámetros en modelos de
regresión lineal
❖Al despejar los errores, elevándolos al cuadrado y sumarlos
obtenemos la siguiente función:
2
𝑛 𝑛 𝑘

𝑆 = ෍ 𝜀𝑖2 = ෍ 𝑦𝑖 − 𝛽0 − ෍ 𝛽𝑗 𝑥𝑖𝑗
𝑖=1 𝑖=1 𝑗=1

❖Esta función depende de los parámetros 𝛽.


Estimación de los parámetros en modelos de
regresión lineal
❖Los estimadores de mínimos cuadrados para 𝛽𝑗 , se obtienen al
minimizar los errores, es decir minimizando 𝑆. Esto se logra si
derivamos 𝑆 respecto a cada parámetro 𝛽:

𝜕𝑆
(𝑗 = 0, 1, 2, … , 𝑘)
𝜕𝛽𝑗
❖Las 𝑘 + 1 ecuaciones simultáneas son los estimadores de mínimos
cuadrados, 𝛽𝑗 .
Estimación de los parámetros en modelos de
regresión lineal
❖Ecuaciones normales 𝑝 = 𝑘 + 1 de mínimos cuadrados:
𝑛 𝑛 𝑛 𝑛

𝑛𝛽መ0 + 𝛽መ1 ෍ 𝑥𝑖1 + 𝛽መ2 ෍ 𝑥𝑖2 + ⋯ + 𝛽መ𝑘 ෍ 𝑥𝑖𝑘 = ෍ 𝑦𝑖


𝑖=1 𝑖=1 𝑖=1 𝑖=1

𝑛 𝑛 𝑛 𝑛 𝑛

𝛽መ0 ෍ 𝑥𝑖1 + 𝛽መ1 ෍ 𝑥𝑖1


2
+ 𝛽መ2 ෍ 𝑥𝑖1 𝑥𝑖2 + ⋯ + 𝛽መ𝑘 ෍ 𝑥𝑖1 𝑥𝑖𝑘 = ෍ 𝑥𝑖1 𝑦𝑖
𝑖=1 𝑖=1 𝑖=1 𝑖=1 𝑖=1

𝑛 𝑛 𝑛 𝑛 𝑛

𝛽መ0 ෍ 𝑥𝑖𝑘 + 𝛽መ1 ෍ 𝑥𝑖𝑘 𝑥𝑖1 + 𝛽መ2 ෍ 𝑥𝑖𝑘 𝑥𝑖2 + ⋯ + 𝛽መ𝑘 ෍ 𝑥𝑖𝑘
2
= ෍ 𝑥𝑖𝑘 𝑦𝑖
𝑖=1 𝑖=1 𝑖=1 𝑖=1 𝑖=1
Estimación de los parámetros en modelos de
regresión lineal
❖El modelo de términos de los datos, puede escribirse en notación
matricial como:
𝑦 = 𝑋𝛽 + 𝜀

❖Donde:

𝑦1 1 𝑥11 𝑥12 ⋯ 𝑥1𝑘 𝛽0 𝜀1


𝑦2 1 𝑥21 𝑥22 ⋯ 𝑥2𝑘 𝛽1 𝜀2
𝑦= ⋮ 𝑋= ⋮ ⋮ 𝛽= 𝜀= ⋮
⋮ ⋮ ⋮ ⋮
𝑦𝑛 1 𝑥𝑛1 𝑥𝑛2 ⋯ 𝑥𝑛𝑘 𝛽𝑘 𝜀𝑛
𝟐
𝑹 ajustada

El coeficiente ajustado de Para justificar el


determinación es el coeficiente número de variables
múltiple de determinación 𝑹𝟐 y el tamaño de la
modificado. muestra.
𝟐
𝑹 ajustada
❖Se calcula por medio de:

𝑛−1
𝑅2 𝑎𝑗𝑢𝑠𝑡𝑎𝑑𝑎 =1− 1 − 𝑅2
𝑛− 𝑘+1

❖Donde: 𝑛 = 𝑡𝑎𝑚𝑎ñ𝑜 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙


𝑘 = 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 𝑑𝑒 𝑝𝑟𝑒𝑑𝑖𝑐𝑐𝑖ó𝑛 𝑥
Pruebas de hipótesis
❖Requerimos la suposición adicional de que los errores se distribuyen
en forma normal, independientes, con media 0 y varianza 𝜎 2 .
❖La hipótesis global más importante sobre un modelo de regresión
múltiple es ver si la regresión es significativa:

𝐻0 : 𝛽1 = 𝛽2 = ⋯ = 𝛽𝑘 = 0
𝐻1 : 𝛽𝑗 ≠ 0 𝑝𝑎𝑟𝑎 𝑎𝑙 𝑚𝑒𝑛𝑜𝑠 𝑢𝑛 𝑗 = 1, 2, … , 𝑘

❖Aceptar 𝐻0 significa que ninguna variable en el modelo tiene una


contribución significativa al explicar la variable de respuesta.
Caso de estudio
❖Se realizó un experimento para estudiar el sabor del queso panela en función de
la cantidad de cuajo y sal. La variable de respuesta observada es el sabor
promedio reportado por un grupo de cinco panelistas que probaron todos los
quesos y los calificaron usando una escala hedónica.

Sal 6 5.5 4.5 4 4.5 5.5 5 5


Cuajo 0.3 0.387 0.387 0.3 0.213 0.213 0.3 0.3
Sabor 5.67 7.44 7.33 6.33 7.11 7.22 6.33 6.66

i. Ajuste un modelo de regresión lineal múltiple.


ii. Interprete el coeficiente ajustado de determinación .
Referencias
Miller, J. N., & Miller, J. C. (2010). Statistics and Chemometrics for
Analytical Chemistry (Sixth ed.). London: Pearson.
Triola, M. F. (2019). Estadística (Decimosegunda ed.). México: Pearson

También podría gustarte