0% encontró este documento útil (1 voto)
246 vistas6 páginas

Regresion Lineal

Este documento describe el concepto de regresión lineal simple. Explica que la regresión lineal busca modelar la relación entre una variable dependiente (Y) y una variable independiente (x) a través de una ecuación lineal de la forma Y = β0 + β1x. Presenta tres métodos para analizar esta relación: gráfico de dispersión, coeficiente de correlación, y mínimos cuadrados. El método de mínimos cuadrados encuentra los valores de β0 y β1 que minimizan la suma de los errores al cuadrar las diferencias entre los valores

Cargado por

Antonio Carvajal
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (1 voto)
246 vistas6 páginas

Regresion Lineal

Este documento describe el concepto de regresión lineal simple. Explica que la regresión lineal busca modelar la relación entre una variable dependiente (Y) y una variable independiente (x) a través de una ecuación lineal de la forma Y = β0 + β1x. Presenta tres métodos para analizar esta relación: gráfico de dispersión, coeficiente de correlación, y mínimos cuadrados. El método de mínimos cuadrados encuentra los valores de β0 y β1 que minimizan la suma de los errores al cuadrar las diferencias entre los valores

Cargado por

Antonio Carvajal
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

5. Regresión Lineal Simple.

En la práctica a menudo se requiere resolver problemas que implican conjuntos de variables de


las cuales se sabe que tienen alguna relación inherente entre sí. Por ejemplo, en una situación
industrial quizá se sepa que el contenido de alquitrán en el flujo de salida de un proceso químico
está relacionado con la temperatura en la entrada.

El contenido es una variable dependiente natural o respuesta de la temperatura en la entrada,


variable independiente naturales o regresor.

Una forma razonable de relación entre la respuesta Y y el regresor x es la relación lineal,

𝑌 = 𝛽₀ + 𝛽₁𝑥,
en la que, por supuesto, β₀ es la intersección y β₁ es la pendiente.

Si la relación es exacta y no contiene ningún componente aleatorio o probabilístico, entonces


se trata de una relación determinista entre dos variables (como se ve en cálculo). Sin embargo, la
mayoría de los fenómenos científicos y de ingeniería, la relación no es determinista, es decir, una x
dada no siempre produce el mismo valor de 𝑌. Como resultado, los problemas importantes en este
caso son de naturaleza probabilística, toda vez que la relación anterior no puede considerarse
exacta.

El concepto de análisis de regresión se refiere a encontrar la mejor relación entre 𝑥 y 𝑌


cuantificando esa relación, y empleando métodos que permitan predecir los valores de la respuesta
dados los valores del regresor o variable independiente 𝑥.

En la mayoría de aplicaciones de la regresión, la ecuación lineal, digamos, 𝑌 = 𝛽₀ + 𝛽₁𝑥 es una


aproximación razonable dentro de un rango limitado de 𝑥. La mayoría de las veces los modelos de
naturaleza lineal. Estas estructuras lineales son sencillas y de naturaleza empírica, por lo que se
denominan modelos empíricos.

Un análisis de la relación entre 𝑥 y 𝑌 requiere el planteamiento de un modelo estadístico.

Con frecuencia un estadístico utiliza un modelo como representación de un ideal que, en esencia,
define cómo percibimos que el sistema en cuestión generó los datos. La respuesta 𝑌 se relaciona
con la variable independiente 𝑥 a través de la ecuación

𝑌 = 𝛽 0 + 𝛽1 𝑥 + 𝜀,
,

en la cual 𝛽₀ y 𝛽₁ son los parámetros desconocidos de la intersección con el eje 𝑦 y la pendiente de


la línea recta, respectivamente, y ε es el error aleatorio.
5.1. Método gráfico: Diagrama de dispersión

Un diagrama de dispersión consta los puntos ubicados en el plano de tal forma que cada punto
representa un valor de la variable independiente (medido a lo largo del eje horizontal), y un valor
asociado de la variable dependiente (medido a lo largo del eje vertical).

El diagrama de dispersión, también llamado nube de puntos, brinda dos tipos de información,
visualmente se pueden determinar los patrones que indican como las variables están relacionadas
(lineal o mediante una curva) y por otro lado si existe una relación entre ellas visualizando la clase
de línea o ecuación de estimación que describe a dicha relación.

En la siguiente figura se ilustran algunas relaciones en los diagramas de dispersión.

5.2. Método numérico: Coeficiente de correlación.

El coeficiente de correlación lineal entre X e Y medir la dependencia lineal que existe entre las dos
variables y viene dado por:
𝑆𝑋𝑌
𝑟=
𝑆𝑋 𝑆𝑌
donde 𝑆𝑋𝑌 = ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅)/𝑛 , 𝑆𝑋 , 𝑆𝑌 son las desviaciones estándar y 𝑥̅ y 𝑦̅ son las
medias muestrales de la variable independiente y la variable de respuesta.

Su cuadrado se denomina coeficiente de determinación, 𝑟².

El coeficiente de correlación tiene las siguientes propiedades:

a) No tiene dimensión, y siempre toma valores en [−1,1].

b) Si las variables son independientes, entonces 𝑟 = 0, pero el inverso no tiene por qué ser cierto.

c) Si existe una relación lineal exacta entre 𝑋 e 𝑌, entonces 𝑟 valdría 1 (relación directa) ó -1
(relación inversa).

d) Si 𝑟 > 0, esto indica una relación directa entre las variables (es decir, que si aumentamos 𝑋,
también aumenta 𝑌).

e) Si 𝑟 < 0, la correlación entre las variables es inversa (si aumentamos una, la otra disminuye).

5.3. Método algebraico: Mínimos Cuadrados

Para hacer una estimación del modelo de regresión lineal simple, trataremos de buscar una
recta de la forma:
𝑌 = 𝛽 0 + 𝛽1 𝑥 + 𝜀,
de modo que se ajuste a la nube de puntos, es decir, que la distancia entre cada punto y la recta
estimada sea la menor posible como se muestra en la siguiente figura.
El método de mínimos cuadrados consiste en minimizar la suma de los cuadrados de los errores:
𝑛

∑ 𝜀𝑖2 = (𝑦𝑖 − 𝑦̂)²


𝑖
𝑖=1

Es decir, la suma de los cuadrados de las diferencias entre los valores reales observados 𝑦𝑖 y los
valores estimados 𝑦𝑖 sea mínima.

Dada la muestra {(𝑥𝑖 , 𝑦𝑖 )}; 𝑖 = 1,2, . . . , 𝑛}, los estimados 𝑏₀ y 𝑏₁ de los mínimos cuadrados

de los coeficientes de regresión 𝛽₀ y 𝛽₁ se calculan mediante las fórmulas

∑𝑛 ̅)
𝑖=1(𝑥𝑖 −𝑥̅ )(𝑦𝑖 −𝑦
𝑏₁ = ∑𝑛 2
𝑖=1(𝑥𝑖 −𝑥̅ )

𝑏₀ = 𝑦̅ − 𝑏₁𝑥̅

Por lo tanto, la recta que aproxima mejor a la recta de regresión lineal está dada por

𝑌 = 𝑏₀ + 𝑏₁𝑥.

Ejemplo:

Se realizó un estudio sobre la cantidad de azúcar convertida en cierto proceso a distintas


temperaturas. Los datos se codificaron y registraron como sigue:

Temperatura 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0

Azúcar 8.1 7.8 8.5 9.8 9.5 8.9 8.6 10.2 9.3 9.2 10.5
El diagrama de dispersión está dado por la gráfica

Ahora, calculamos el coeficiente de correlación:

𝑥 = 1.5,
𝑦 = 9.13,

𝑠𝑋2 = 0.11,

𝑠𝑌2 = 0.72
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅)
𝑆𝑋𝑌 =
11
(1.0 − 1.5)(8.1 − 9.13) + (1.1 − 1.5)(7.8 − 9.13) + ⋯ + (2.0 − 1.5)(10.5 − 9.13)
=( )
11

𝑆𝑋𝑌 = 0.7070

De esta manera, vemos que si existe una correlación positiva entre la cantidad de azúcar
convertida y la temperatura en este proceso químico.

Ahora, calculamos los coeficientes 𝑏₀ y 𝑏₁:


∑𝑛 ̅)
𝑖=1(𝑥𝑖 −𝑥̅ )(𝑦𝑖 −𝑦
𝑏₁ = ∑𝑛 2
𝑖=1(𝑥𝑖 −𝑥̅ )

(1.0 − 1.5)(8.1 − 9.13) + (1.1 − 1.5)(7.8 − 9.13) + ⋯ + (2.0 − 1.5)(10.5 − 9.13)


=
(1.0 − 1.5)² + (1.1 − 1.5)² + ⋯ + (1.9 − 1.5)² + (2.0 − 1.5)²)

𝑏₁ = 1.8091
𝑏₀ = 𝑦 − 𝑏₁𝑥 = 9.13 − ( 1.8091)(1.5) = 6. 4164

Por lo tanto, la recta que aproxima mejor a la recta de regresión lineal está dada por

𝑌 = 𝑏₀ + 𝑏₁𝑥
𝑌 = 6. 4164 + 1.8091𝑥

Con esta función es posible hacer predicciones o estimaciones sobre la cantidad convertida para
una temperatura determinada que no aparezca en los datos proporcionados.

También podría gustarte