REGRESIÓN LINEAL
El análisis de regresión lineal es una técnica estadística para estudiar la relación entre variables. Se
adapta a una amplia variedad de situaciones. Tanto en el caso de dos variables (regresión simple)
como en el de más de dos variables (regresión múltiple), el análisis de regresión lineal puede
utilizarse para explorar y cuantificar la relación entre una variable llamada dependiente o criterio
(Y) y una o más variables llamadas independientes o predictoras (X1, X2,…,X3), así como para
desarrollar una ecuación lineal con fines predictivos.
La recta de regresión
Puesto que una línea recta posee una fórmula muy simple, Y i=B0 + B1 X i, podemos comenzar
obteniendo los coeficientes B0 y B1 que definan la recta. El coeficiente B1 es la pendiente de la
recta: la variable dependiente (Y i), la variable independiente ( X i ). El coeficiente B0 es el punto en
el que la recta corta el eje vertical.
EJEMPLO:
Supongamos que disponemos de un pequeño conjunto de datos con información sobre 35 marcas
de cerveza que estamos interesados en estudiar la relación en el grado de alcohol de las cervezas y
su contenido calórico. Un buen Punto de partida para formarnos una primera impresión de esta
relación podría ser la representación de la nube de puntos tal Como se muestra el diagrama de
dispersión de la figura 18.1.
El eje vertical muestra el número de calorías (por cada tercio de litro) y el horizontal el contenido
de alcohol (expresado en porcentaje). A simple vista, parece existir una relación positiva entre
ambas variables: conforme aumenta el porcentaje de alcohol, también aumenta el número de
calorías.
A primera vista, una línea recta podría ser un buen Punto de partida para describir resumidamente
la nube de puntos de la figura 18.1.
Podemos comenzar obteniendo los coeficientes B0 y B1que definen la recta. El coeficiente B1es la
pendiente de la recta: el cambio medio que se produce en el número de calorías ( Y i) por cada
unidad de cambio que se produce en el porcentaje de alcohol ( X i ). El coeficiente B0 es el punto en
el que la recta corta el eje vertical: el número medio de calorías que corresponde a una cerveza
con porcentaje de alcohol cero.
Conociendo los valores de estos dos coeficientes, se podría reproducir la recta y describir con ella
la relación existente entre el contenido de alcohol y el número de calorías.
El origen de la recta ( B0) sugiere que una cerveza sin alcohol (grado de alcohol cero de alcohol)
podría contener -37.77 calorías y esto obviamente no parece posible. Si extrapolamos hacia abajo
la pauta observada en los datos hasta llegar a una cerveza con un grado de alcohol cero, al hacer
esto estaríamos efectuando pronósticos en un rango de valores que van más allá de los que
abarcan los datos disponibles, y esto es algo extremadamente arriesgado en el contexto del
análisis de regresión.
La mejor recta de regresión
Se trata de encontrar la recta capaz de convertirse en el mejor representante del conjunto total de
puntos. Existen diferentes procedimientos para ajustar una función simple. La elección preferida
ha sido, tradicionalmente, la recta que hace mínima la suma de los cuadrados de las distancias
verticales entre cada punto y la recta. (Distancias mínimas entre cada punto y la recta).
Una medida de ajuste que ha recibido gran aceptación en el contexto del análisis de regresión es
el coeficiente de determinación R2: el cuadrado del coeficiente de correlación múltiple. Se trata de
una medida estandarizada que toma valores entre 0 y 1 (0 cuando las variables son
independientes y 1 cuando entré ellas existe relación perfecta).