100% encontró este documento útil (1 voto)
272 vistas14 páginas

Introducción a la Regresión Lineal Simple

Este documento explica la regresión lineal simple, que analiza la relación lineal entre dos variables. Se utiliza para predecir valores de una variable dependiente basados en otra variable independiente. El método de mínimos cuadrados estima los parámetros de la línea de regresión que minimizan la suma de los cuadrados de los errores. Un ejemplo ilustra cómo calcular los parámetros de la regresión lineal simple para datos sobre rendimiento y temperatura.

Cargado por

Patty Valencia
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
100% encontró este documento útil (1 voto)
272 vistas14 páginas

Introducción a la Regresión Lineal Simple

Este documento explica la regresión lineal simple, que analiza la relación lineal entre dos variables. Se utiliza para predecir valores de una variable dependiente basados en otra variable independiente. El método de mínimos cuadrados estima los parámetros de la línea de regresión que minimizan la suma de los cuadrados de los errores. Un ejemplo ilustra cómo calcular los parámetros de la regresión lineal simple para datos sobre rendimiento y temperatura.

Cargado por

Patty Valencia
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

ESTADÍSTICA INFERENCIAL

INTRODUCCIÓN

Con el siguiente trabajo se explicara qué es y para qué se utiliza


la regresión lineal simple, que es utilizada en diversas áreas como
la sociología, la biomedicina, la economía, en las ingenierías etc.
Para encontrar la relación lineal entre dos variables, por
definición la regresión lineal se emplea en estadística para
analizar la relación o dependencia que hay entre las variables
estudiadas.
Con ello el alumno logrará adquirir conocimientos esenciales
para el posterior análisis de los subtemas correspondientes a este
tema.
REGRESIÓN LINEAL SIMPLE
Uno de los aspectos más relevantes de la Estadística es el análisis de la relación o
dependencia entre variables. Frecuentemente resulta de interés conocer el efecto
que una o varias variables pueden causar sobre otra, e incluso predecir en mayor
o menor grado valores en una variable a partir de otra. Por ejemplo, supongamos
que la altura de los padres influyen significativamente en la de los hijos. Podríamos
estar interesados en estimar la altura media de los hijos cuyos padres presentan una
determinada estatura. Los métodos de regresión estudian la construcción de
modelos para explicar o representar la dependencia entre una variable respuesta
o dependiente (Y )y la(s) variable(s) explicativa(s) o dependiente(s), X . En este
Tema abordaremos el modelo de regresión lineal, que tiene lugar cuando la
dependencia es de tipo lineal, y daremos respuesta a dos cuestiones básicas:

• ¿Es significativo el efecto que una variable X causa sobre otra Y ?

 ¿Es significativa la dependencia lineal entre esas dos variables?.

De ser así, utilizaremos el modelo de regresión lineal simple para explicar y predecir
la variable dependiente (Y ) a partir de valores observados en la independiente (X).

Por ejemplo, suponga que el rendimiento de un proceso químico está relacionado


con la temperatura de operación, o la experiencia profesional de los trabajadores
y sus respectivos sueldos, las estaturas y pesos de personas, la producción agraria y
la cantidad de fertilizantes utilizados, etc.

Porcentaje Resistencia
de fibra (X) (Y)
4 134
6 145
8 142
10 149
12 144
14 160
16 156
18 157
20 168
22 166
24 167
26 171
28 174
30 183
Para tener una idea de la relación que existe entre X y Y, los 14 pares de datos son
graficados en un diagrama de dispersión. De la inspección de este diagrama de
dispersión se ve que los puntos cercanos siguen una línea recta, lo que indica que
la suposición de linealidad entre las dos variables parece ser razonable.

El diagrama de dispersión es una gráfica en la que cada punto trazado representa


un par de valores observados por las variables independiente y dependiente. El
valor de la variable independiente X, se traza en relación con el eje horizontal y el
valor de la variable dependiente Y, en relación con el eje vertical. La naturaleza de
la relación entre dos variables puede tomar muchas formas, que van desde
algunas funciones matemáticas sencillas a otras en extremo complicadas. La
relación más elemental consiste en una línea recta o relación lineal.

La relación del modelo matemático adecuado tiene influencia de la distribución


de los valores y en el diagrama de dispersión. Es sencillo ver esto si se examinan
las siguientes graficas

El análisis de regresión lineal simple se refiere a encontrar la línea recta que mejor
se ajuste a los datos. El mejor ajuste puede definirse de varias maneras. Quizá la
más sencilla sea encontrar la línea recta para la cual las diferencias entre los valores
reales y los valores pronosticados a partir de la recta ajustada de regresión sean
tan pequeñas como sea posible. Sin embargo, como estas diferencias son positivas
para algunas observaciones y negativas para otras, en términos matemáticos se
minimiza la suma de los cuadrados de las diferencias.

Suponga que las variables X y Y están relacionadas linealmente y que para cada
valor de X, la variable dependiente, Y, es una variable aleatoria. Es decir, que
cada observación de Y puede ser descrita por el modelo:

Donde 𝜖 es un error aleatorio con media cero y varianza 𝜎 2 .

En donde 𝛽0 𝑦 𝛽1 son los parámetros del modelo y son constantes desconocidas. Por
lo tanto, para tener bien especificada la ecuación que relaciona las dos variables
será necesario estimar los dos parámetros, que tienen los siguientes significados:

𝛽0 - Es el punto en el cual la línea recta intercepta o cruza el eje y.


𝛽1 - Es la pendiente de la línea, es decir, es la cantidad en que se incrementa o
disminuye la variable por cada unidad que se incrementa.

Método de Mínimos Cuadrados para obtener estimadores de β


0y β 1
Consiste en determinar aquellos estimadores de β 0y β 1que minimizan la suma de
cuadrados de los errores εi; es decir, los estimadores y de β 0y β 1respectivamente
deben ser tales que:

Según el método de mínimos cuadrados, los estimadores de β 0y β 1debe


satisfacer las ecuaciones:

Al derivar se obtiene un sistema de dos ecuaciones denominadas “ecuaciones


normales”:
Por otro lado puede demostrarse que los estimadores de β0y β1son insesgadoscon
varianzas:

Como σ2(la varianza de los errores εi) es en general desconocida, para estimarla
definimos el residuo como:

y la suma de cuadrados del error como:

que al sustituir también puede expresarse como:


Las formulas básicas para el análisis de regresión para el modelo 𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝜖
Ejemplo 1:

Un ingeniero químico está investigando el efecto de la temperatura de operación


de proceso en el rendimiento del producto. El estudio da como resultado los
siguientes datos:

Temperatura Rendimiento

°C “X” % “Y” XjYj Xj2 Yj2

100 45 4500 10000 2025

110 51 5610 12100 2601

120 54 6480 14400 2916

130 61 7930 16900 3721

140 66 9240 19600 4356

150 70 10500 22500 4900

160 74 11840 25600 5476

170 78 13260 28900 6084

180 85 15300 32400 7225

190 89 16910 36100 7921

∑ 1450 673 101570 218500 47225

El examen de este diagrama de dispersión indica que hay una fuerte relación entre
el rendimiento y la temperatura, y la suposición tentativa del modelo de línea recta
y   0   1X  E parece razonable.

n = 10

10 10

 X  1450
j  Y  673
j 1
j
j 1

x  145 y  67.3
10

X  218500
2 10

j 1
j
Y
j 1
j
2
 47225

10

 XY
j 1
j j  101570

Sustituyendo en las ecc.


2
 10 
  Xj 
 
 
10
Sxx   X j 
2 j 1

j 1 10

Sxx  218500 
1450
2
 218500  210250  8250
10

 10  10 
  Xj   Yj 
  
Sxy   XjYj    j 1 
10
j 1

j 1 10

Sxy  101570 
1450673  101570  97585  3985
10

Los estimadores de mínimos cuadrados de la pendiente y la ordenada al origen


son:

 
Sxy 3985
1  1   0.483030303
Sxx 8250
 
 0  y   1 x  67.3  (0.483030303)(145)  67.3  70.03935  2.73939

El modelo de regresión lineal simple ajustado es:


 
y   0   1 X  2.73939  0.48303 X
Suele ser necesario obtener una estimación de . La diferencia entre la

observación Yj y el correspondiente valor predicho Y j , la diferencia digamos ej =

Yj - Y j , se denomina un residuo. La suma de los cuadrados de los residuos, o la
suma de cuadrados del error, sería:
n n 
SSE = j 1
ej2 SSE = 
j 1
(Yj – Y j )2

Una fórmula de cálculo más conveniente para SSE puede encontrarse sustituyendo
el modelo ajustado en la y simplificando considerando que
 
n _ Y   0  1 X j
j 1
(Yj – Y j )2 entonces podemos escribir SSE como:


SSE = Syy -  1 Sxy

El valor esperado de la suma de cuadrados del error E(SSE) = (n-2), por lo tanto:
 2 SS E
   MS E ; el cual es un estimador de .
n2
CONCLUSIÓN

Con este trabajo aprendimos para que es utilizado el modelo de


regresión de lineal simple, como su nombre lo indica al momento
de relacionar las variables (x, y) se forma una línea recta como
resultado. Así cuando tenemos dos variables independientes una
de la otra hacemos uso de la regresión lineal de simple para su
análisis, ya que su función es predecir un resultado es necesario
incluir una prueba de hipótesis para constatar que nuestros
resultados y que estos son exactos y den respuesta a la hipótesis
planteada al inicio del problema.

También podría gustarte