ESTADÍSTICA INFERENCIAL
INTRODUCCIÓN
Con el siguiente trabajo se explicara qué es y para qué se utiliza
la regresión lineal simple, que es utilizada en diversas áreas como
la sociología, la biomedicina, la economía, en las ingenierías etc.
Para encontrar la relación lineal entre dos variables, por
definición la regresión lineal se emplea en estadística para
analizar la relación o dependencia que hay entre las variables
estudiadas.
Con ello el alumno logrará adquirir conocimientos esenciales
para el posterior análisis de los subtemas correspondientes a este
tema.
REGRESIÓN LINEAL SIMPLE
Uno de los aspectos más relevantes de la Estadística es el análisis de la relación o
dependencia entre variables. Frecuentemente resulta de interés conocer el efecto
que una o varias variables pueden causar sobre otra, e incluso predecir en mayor
o menor grado valores en una variable a partir de otra. Por ejemplo, supongamos
que la altura de los padres influyen significativamente en la de los hijos. Podríamos
estar interesados en estimar la altura media de los hijos cuyos padres presentan una
determinada estatura. Los métodos de regresión estudian la construcción de
modelos para explicar o representar la dependencia entre una variable respuesta
o dependiente (Y )y la(s) variable(s) explicativa(s) o dependiente(s), X . En este
Tema abordaremos el modelo de regresión lineal, que tiene lugar cuando la
dependencia es de tipo lineal, y daremos respuesta a dos cuestiones básicas:
• ¿Es significativo el efecto que una variable X causa sobre otra Y ?
¿Es significativa la dependencia lineal entre esas dos variables?.
De ser así, utilizaremos el modelo de regresión lineal simple para explicar y predecir
la variable dependiente (Y ) a partir de valores observados en la independiente (X).
Por ejemplo, suponga que el rendimiento de un proceso químico está relacionado
con la temperatura de operación, o la experiencia profesional de los trabajadores
y sus respectivos sueldos, las estaturas y pesos de personas, la producción agraria y
la cantidad de fertilizantes utilizados, etc.
Porcentaje Resistencia
de fibra (X) (Y)
4 134
6 145
8 142
10 149
12 144
14 160
16 156
18 157
20 168
22 166
24 167
26 171
28 174
30 183
Para tener una idea de la relación que existe entre X y Y, los 14 pares de datos son
graficados en un diagrama de dispersión. De la inspección de este diagrama de
dispersión se ve que los puntos cercanos siguen una línea recta, lo que indica que
la suposición de linealidad entre las dos variables parece ser razonable.
El diagrama de dispersión es una gráfica en la que cada punto trazado representa
un par de valores observados por las variables independiente y dependiente. El
valor de la variable independiente X, se traza en relación con el eje horizontal y el
valor de la variable dependiente Y, en relación con el eje vertical. La naturaleza de
la relación entre dos variables puede tomar muchas formas, que van desde
algunas funciones matemáticas sencillas a otras en extremo complicadas. La
relación más elemental consiste en una línea recta o relación lineal.
La relación del modelo matemático adecuado tiene influencia de la distribución
de los valores y en el diagrama de dispersión. Es sencillo ver esto si se examinan
las siguientes graficas
El análisis de regresión lineal simple se refiere a encontrar la línea recta que mejor
se ajuste a los datos. El mejor ajuste puede definirse de varias maneras. Quizá la
más sencilla sea encontrar la línea recta para la cual las diferencias entre los valores
reales y los valores pronosticados a partir de la recta ajustada de regresión sean
tan pequeñas como sea posible. Sin embargo, como estas diferencias son positivas
para algunas observaciones y negativas para otras, en términos matemáticos se
minimiza la suma de los cuadrados de las diferencias.
Suponga que las variables X y Y están relacionadas linealmente y que para cada
valor de X, la variable dependiente, Y, es una variable aleatoria. Es decir, que
cada observación de Y puede ser descrita por el modelo:
Donde 𝜖 es un error aleatorio con media cero y varianza 𝜎 2 .
En donde 𝛽0 𝑦 𝛽1 son los parámetros del modelo y son constantes desconocidas. Por
lo tanto, para tener bien especificada la ecuación que relaciona las dos variables
será necesario estimar los dos parámetros, que tienen los siguientes significados:
𝛽0 - Es el punto en el cual la línea recta intercepta o cruza el eje y.
𝛽1 - Es la pendiente de la línea, es decir, es la cantidad en que se incrementa o
disminuye la variable por cada unidad que se incrementa.
Método de Mínimos Cuadrados para obtener estimadores de β
0y β 1
Consiste en determinar aquellos estimadores de β 0y β 1que minimizan la suma de
cuadrados de los errores εi; es decir, los estimadores y de β 0y β 1respectivamente
deben ser tales que:
Según el método de mínimos cuadrados, los estimadores de β 0y β 1debe
satisfacer las ecuaciones:
Al derivar se obtiene un sistema de dos ecuaciones denominadas “ecuaciones
normales”:
Por otro lado puede demostrarse que los estimadores de β0y β1son insesgadoscon
varianzas:
Como σ2(la varianza de los errores εi) es en general desconocida, para estimarla
definimos el residuo como:
y la suma de cuadrados del error como:
que al sustituir también puede expresarse como:
Las formulas básicas para el análisis de regresión para el modelo 𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝜖
Ejemplo 1:
Un ingeniero químico está investigando el efecto de la temperatura de operación
de proceso en el rendimiento del producto. El estudio da como resultado los
siguientes datos:
Temperatura Rendimiento
°C “X” % “Y” XjYj Xj2 Yj2
100 45 4500 10000 2025
110 51 5610 12100 2601
120 54 6480 14400 2916
130 61 7930 16900 3721
140 66 9240 19600 4356
150 70 10500 22500 4900
160 74 11840 25600 5476
170 78 13260 28900 6084
180 85 15300 32400 7225
190 89 16910 36100 7921
∑ 1450 673 101570 218500 47225
El examen de este diagrama de dispersión indica que hay una fuerte relación entre
el rendimiento y la temperatura, y la suposición tentativa del modelo de línea recta
y 0 1X E parece razonable.
n = 10
10 10
X 1450
j Y 673
j 1
j
j 1
x 145 y 67.3
10
X 218500
2 10
j 1
j
Y
j 1
j
2
47225
10
XY
j 1
j j 101570
Sustituyendo en las ecc.
2
10
Xj
10
Sxx X j
2 j 1
j 1 10
Sxx 218500
1450
2
218500 210250 8250
10
10 10
Xj Yj
Sxy XjYj j 1
10
j 1
j 1 10
Sxy 101570
1450673 101570 97585 3985
10
Los estimadores de mínimos cuadrados de la pendiente y la ordenada al origen
son:
Sxy 3985
1 1 0.483030303
Sxx 8250
0 y 1 x 67.3 (0.483030303)(145) 67.3 70.03935 2.73939
El modelo de regresión lineal simple ajustado es:
y 0 1 X 2.73939 0.48303 X
Suele ser necesario obtener una estimación de . La diferencia entre la
observación Yj y el correspondiente valor predicho Y j , la diferencia digamos ej =
Yj - Y j , se denomina un residuo. La suma de los cuadrados de los residuos, o la
suma de cuadrados del error, sería:
n n
SSE = j 1
ej2 SSE =
j 1
(Yj – Y j )2
Una fórmula de cálculo más conveniente para SSE puede encontrarse sustituyendo
el modelo ajustado en la y simplificando considerando que
n _ Y 0 1 X j
j 1
(Yj – Y j )2 entonces podemos escribir SSE como:
SSE = Syy - 1 Sxy
El valor esperado de la suma de cuadrados del error E(SSE) = (n-2), por lo tanto:
2 SS E
MS E ; el cual es un estimador de .
n2
CONCLUSIÓN
Con este trabajo aprendimos para que es utilizado el modelo de
regresión de lineal simple, como su nombre lo indica al momento
de relacionar las variables (x, y) se forma una línea recta como
resultado. Así cuando tenemos dos variables independientes una
de la otra hacemos uso de la regresión lineal de simple para su
análisis, ya que su función es predecir un resultado es necesario
incluir una prueba de hipótesis para constatar que nuestros
resultados y que estos son exactos y den respuesta a la hipótesis
planteada al inicio del problema.