Estadística Ing.
Luis Herman Hinojosa Saavedra
CAPITULO 5
REGRESION LINEAL
Introducción.
El objeto de un análisis de regresión es investigar la relación estadística que existe entre
una variable dependiente (Y) y una o más variables independientes ( X 1 , X 2 , X 3 , ... ).
Para poder realizar esta investigación, se debe postular una relación funcional entre las
variables. Debido a su simplicidad analítica, la forma funcional que más se utiliza en la
práctica es la relación lineal. Cuando solo existe una variable independiente, esto se
reduce a una línea recta:
𝑌 = 𝑎 + 𝑏𝑋
donde los coeficientes "𝑎" y "𝑏" son parámetros que definen la posición e inclinación
de la recta.
El parámetro "𝑎", conocido como la “ordenada en el origen,” nos indica cuánto es Y
cuando X = 0. El parámetro "𝑏", conocido como la “pendiente,” nos indica cuánto
aumenta Y por cada aumento de una unidad en X. Nuestro problema consiste en obtener
estimaciones de estos coeficientes a partir de una muestra de observaciones sobre las
variables Y y X. En el análisis de regresión, estas estimaciones se obtienen por medio
del Método de Mínimos Cuadrados.
Como ejemplo, consideremos las cifras del cuadro que se muestra a continuación, que
muestra datos mensuales de producción y costos de operación para una empresa británica
de transporte de pasajeros por carretera durante los años 1949-52 (la producción se mide
en términos de miles de millas-vehículo recorridas por mes, y los costos se miden en
términos de miles de libras por mes). Para poder visualizar el grado de relación que existe
entre las variables, como primer paso en el análisis es conveniente elaborar un diagrama
de dispersión, que es una representación en un sistema de coordenadas cartesianas de los
datos numéricos observados. En el diagrama resultante, en el eje X se miden las millas-
vehículo recorridas, y en el eje Y se mide el costo de operación mensual. Cada punto en
el diagrama muestra la pareja de datos (millas-vehículo y costos de operación) que
corresponde a un mes determinado.
113
Estadística Ing. Luis Herman Hinojosa Saavedra
El análisis de regresión puede usarse para construir un modelo que permita predecir y
determinar la relación entre variables.
La regresión lineal nos permite calcular el valor de estos dos parámetros, definiendo la
recta que mejor se ajusta a esta nube de puntos.
Las técnicas de regresión permiten hacer predicciones sobre los valores de cierta variable
dependiente, a partir de la otra independiente, entre las que intuimos que existe una
relación.
Por ejemplo, si se analiza la estatura y el peso de los alumnos de una clase es muy posible
que exista relación lineal directa entre ambas variables: mientras más alto sea el alumno,
mayor será su peso.
114
Estadística Ing. Luis Herman Hinojosa Saavedra
PROCEDIMIENTOS.-
Una recta viene definida por la siguiente fórmula:
𝐘 = 𝐚 + 𝐛𝐗
Donde "𝑌" sería la variable dependiente, es decir, aquella que viene definida a partir de
la otra variable "𝑋" (variable independiente). Para definir la recta hay que determinar los
valores de los parámetros "a" y "b":
El parámetro "a" es el valor que toma la variable dependiente "Y", cuando la variable
independiente "X" vale 0, y es el punto donde la recta cruza el eje vertical.
El parámetro "b" determina la pendiente de la recta, su grado de inclinación.
∑ 𝒀 ∑ 𝑿𝟐 −∑ 𝑿 ∑ 𝑿𝒀 𝑵 ∑ 𝑿𝒀−∑ 𝑿 ∑ 𝒀
𝒂= 𝒃=
𝑵 ∑ 𝑿𝟐 −(∑ 𝑿)𝟐 𝑵 ∑ 𝑿𝟐 −(∑ 𝑿)𝟐
Las cuales salen de resolver el siguiente sistema de ecuaciones:
Y = a.N + b. X
XY = a. X + b. X 2
También pueden usarse las siguientes fórmulas:
∑𝑋𝑌−𝑦̄ ∑𝑋
𝑏= 𝑎 = 𝑌̄ − 𝑏𝑋̄
∑𝑋 2 −𝑥̄ ∑𝑋
Coeficiente de correlación Lineal. - (r)
El coeficiente de correlación lineal nos permite determinar si, efectivamente, existe
relación entre las dos variables. Una vez que se concluye que sí existe relación, la
regresión nos permite definir la recta que mejor se ajusta a esta nube de puntos. Mide el
grado de intensidad de esta posible relación entre las variables.
La correlación trata del grado o fuerza de interconexión (asociación) entre las variables,
tratando de explicar con qué precisión se describe o se explica la relación entre variables
en una ecuación o dicho de otra madera que tan precisa es la ecuación de regresión que
estamos usando.
115
Estadística Ing. Luis Herman Hinojosa Saavedra
No obstante, puede que exista una relación que no sea lineal, sino exponencial, parabólica,
etc. En estos casos, el coeficiente de correlación lineal mediría mal la intensidad de la
relación las variables, por lo que convendría utilizar otro tipo de coeficiente más
apropiado.
Se tiene los siguientes criterios para “r”
r =1 la correlación lineal es perfecta, directa o correlación lineal positiva
r=r=0 no existe correlación lineal o correlación lineal nula
r = −1 la correlación lineal es perfecta,inversa o correlación lineal negativa
Propiedades del coeficiente de correlación lineal. -
• Carece de unidades de medida (adimensional)
• Solo toma valores comprendidos entre -1 y 1.
• Cuando |𝑟| esté próximo a uno, se tiene que existe una relación lineal muy fuerte
entre las variables.
• Cuando r 0, puede afirmarse que no existe relación lineal entre ambas variables.
Se dice en este caso que las variables son incorreladas.
Fórmula matemática:
N XY − X Y
r=
(N X − ( X ) )(N Y − ( Y ) )
2 2 2 2
Se dice que si:
0 ≤ r2 ≤ 0.4 no existe correlación
0.4< r2 ≤ 0.8 la correlación es débil
0.8 < r2 ≤ 1.0 la correlación es fuerte
116
Estadística Ing. Luis Herman Hinojosa Saavedra
COEFICIENTE DE DETERMNACION.-
Denominamos coeficiente de determinación ( r 2 ) como el coeficiente que nos indica el
porcentaje del ajuste que se ha conseguido con el modelo lineal.
También se puede entender este coeficiente de determinación como el porcentaje de
varianza explicada por la recta de regresión y su valor siempre estará entre 0 y 1 y siempre
es igual al cuadrado del coeficiente de correlación (r).
0 r 2 1
EJERCICIO RESUELTO.-
Se tiene los datos de la temperatura ambiente (X) y la cantidad de helados vendidos (Y),
de diez días elegidos al azar de la Heladería “Guadalquivir”. Calcular si existe relación
entre estas dos variables
Temperatura (ºC) 10 12 14 19 24 26 30 34 35 36
Cantidad de
25 28 30 34 42 46 52 57 58 60
helados vendidos
Solución.-
Elaboramos la tabla
X Y X2 XY Y2
10 25 100 250 625
12 28 144 336 784
14 30 196 420 900
19 34 361 646 1156
24 42 576 1008 1764
26 46 676 1196 2116
30 52 900 1560 2704
34 57 1156 1938 3249
35 58 1125 2030 3364
36 60 1296 2160 3600
240 432 6630 11544 20262
Observamos que el tamaño de la muestra es n = 10.
117
Estadística Ing. Luis Herman Hinojosa Saavedra
Reemplazamos en las fórmulas para encontrar el parámetro “a” y “b”.
∑ Y ∑ X 2 − ∑ X ∑ XY (432)(6630) − (240)(11544)
a= = = 𝟏𝟎, 𝟕𝟔
N ∑ X 2 − (∑ X)2 10(6630) − (240)2
N ∑ XY − ∑ X ∑ Y 10(11544) − (240)(432)
b= = = 𝟏, 𝟑𝟓
N ∑ X 2 − (∑ X)2 10(6630) − (240)2
Reemplazando en la ecuación Lineal: y = a + bx
Y = 10,76 + 1,35X
Coeficiente de correlación:
𝑵 ∑ 𝑿𝒀 − ∑ 𝑿 ∑ 𝒀
𝒓=
√(𝑵 ∑ 𝑿𝟐 − (∑ 𝑿)𝟐 )(𝑵 ∑ 𝒀𝟐 − (∑ 𝒀)𝟐 )
10(11544) − (240)(432)
𝑟= = 𝟎, 𝟗𝟗𝟕
√[(10(6630) − (240)2 )(10(20263) − (432)2 )]
Conclusión:
Existe una buena relación entre la temperatura ambiente y la cantidad de helados
vendidos por la Heladería Guadalquivir
Coeficiente de Determinación. -
𝒓𝟐 = (𝟎. 𝟗𝟗𝟕)𝟐 = 𝟎, 𝟗𝟗𝟒
𝒓𝟐 = 𝟗𝟗, 𝟒%
Interpretación: La variación de la variable “Y” depende en un 99,4 % de la variación
de la variable “X”
a.- ¿Si la temperatura fuera de 32 grados centígrados, cual seria la cantidad de
helados a vender?
X = Temperatura
Y = Cantidad de helados
Y = 10,76 + 1,35X
Y = 10,76 + 1,35(32)
Y = 53,96 ≅ 54helados
118
Estadística Ing. Luis Herman Hinojosa Saavedra
EJERCICIOS PROPUESTOS
1.- Las calificaciones de 40 alumnos en psicología evolutiva y en estadística han sido las
siguientes:
X Y Número
calif. en psicología. calif. en estadística. de alumnos.
3 2 4
4 5 6
5 5 12
6 6 4
6 7 5
7 6 4
7 7 2
8 9 1
10 10 2
a) Obtener la ecuación de la recta de regresión de calificaciones de estadística
respecto de las calificaciones de psicología.
b) ¿Cuál será la nota esperada en estadística para un alumno que obtuvo un 4,5 en
psicología?
2.- Una compañía de seguros considera que el número de vehículos (Y) que circulan por
una determinada autopista a más de 120 kms/h, puede ponerse en función del número de
accidentes (X) que ocurren en ella.
Durante 5 días obtuvo los siguientes resultados:
X 5 7 2 1 9
Y 15 18 10 8 20
a) Calcula el coeficiente de correlación lineal.
b) Si ayer se produjeron 6 accidentes, ¿cuántos vehículos podemos suponer que
circulaban por la autopista a más de 120 kms/h?
c) ¿Es buena la predicción?
3.- La nota en Estadística (X) y en Matemáticas (Y), obtenidas por 10 alumnos elegidos
al azar en un grupo de primer curso han sido los siguientes, según el orden de selección
en la muestra:
No. Orden 1 2 3 4 5 6 7 8 9 10
X 9 7 3 6 7 5 10 8 2 5
Y 8 5 4 2 9 6 10 9 1 5
a) Represente la nube de puntos correspondiente a esta distribución
119
Estadística Ing. Luis Herman Hinojosa Saavedra
b) Calcule la ecuación de regresión.
c) Para un alumno que haya obtenido un 7 en matemáticas, ¿Qué nota le
pronosticaría en estadística?
d) Para un alumno que haya obtenido un 4 en estadística, ¿Qué nota le pronosticaría
en matemáticas?
4.- En un país europeo se han obtenido estadísticas que relacionan el número de
vehículos matriculados y el número de accidentes ocurridos en un periodo determinado.
Los datos recogidos son los siguientes:
No. De No. De vehículos
Periodo
accidentes matriculados
1 166 352
2 153 373
3 177 411
4 201 441
5 216 462
6 208 490
7 227 529
8 238 577
9 268 641
10 268 692
11 274 743
Se pide:
a) Un modelo de regresión que nos explique el No. De accidentes en función de los
vehículos matriculados
b) Coeficiente de correlación lineal
c) Porcentaje de las causas ajenas a la regresión que influyen en la variable
dependiente
d) Deducir cual seria el número de accidentes si se matriculan 800 vehículos
e) Estimar el parque de vehículos matriculados para reducir el número de accidentes
hasta 175.
5.- Un librero desea demostrar que el hábito de la lectura reduce el riesgo de alcoholismo.
Para ello tomó una muestra de 20 jóvenes y les preguntó sobre el número de libros que
leen al año y el número de botellones que beben en un año. Los resultados fueron los
siguientes:
LIBROS BOTELLONES
¿Existe evidencia estadística que confirme la
5 40 afirmación del librero?
1 30
3 10
120
Estadística Ing. Luis Herman Hinojosa Saavedra
12 0
10 20
23 5
20 12
1 40
2 40
2 30
6.- Dos psiquiatras el doctor X y el doctor Y, ordenaron a 10 pacientes según su nivel de
desequilibrio psicológico (asignando un rango de 1 al que tiene menos desequilibrio y 10
al que mas). Los resultados fueron los siguientes:
Doctor X Doctor Y
7 10
1 2 ¿Podemos decir que los psiquiatras están de
8 6 acuerdo en la valoración de sus pacientes o
10 8 son totalmente independientes uno de otro?
9 7
6 4
5 9
3 3
2 1
4 5
7.- La tabla adjunta da el índice de mortalidad de una muestra de población en función
del consumo diario de cigarrillos:
Número de cigarrillos x 3 5 6 15 20
Índice de mortalidad y 0,2 0,3 0,4 0,5 0,7
a) Determina el coeficiente de correlación e interpreta el resultado.
b) Halla la recta de regresión de y sobre x
c) ¿Cuál será el índice de mortalidad para un consumidor de 40 cigarrillos diarios?
8.- Se realiza un estudio para establecer una ecuación mediante la cual se puede utilizar
la “Concentración de estrona en saliva (X) para predecir la “Concentración del esteroide
en plasma libre (Y)”. Se extrajeron los siguientes datos de 14 varones sanos:
X 1,4 7,5 8,5 9 9 11 13 14 14,5 16 17 18 20 23
Y 30 25 31,5 27,5 39,5 38 43 49 55 48,5 51 64,5 63 68
a) Estudie la posible relación lineal entre ambas variables.
b) Obtener la ecuación que se menciona en el enunciado del problema
c) Determinar la variación de la concentración de estrona en plasma por unidad de
estrona en saliva.
121
Estadística Ing. Luis Herman Hinojosa Saavedra
9.- Se han realizado 9 tomas de presión intracraneal en animales de laboratorio, por un
método estándar directo y por una nueva técnica experimental indirecta, obteniéndose los
resultados siguientes en mm de Hg:
Método Estándar X 9 12 28 72 30 38 76 26 52
Método Experimental Y 6 10 27 67 25 35 75 27 53
a) Hallar la ecuación lineal que exprese la relación existente entre las presiones
intracraneales, determinadas por los dos métodos.
b) ¿Qué tanto por ciento de la variabilidad de Y es explicada por la regresión?. Hállese
el grado de dependencia entre las dos variables.
10.- En un grupo de 8 pacientes se miden las cantidades antropométricas peso y edad,
obteniéndose los siguientes resultados:
Edad (años) 12 8 10 11 7 7 10 14
Peso (Kg) 58 42 51 54 40 39 49 56
¿Existe una relación lineal importante entre ambas variables?. Calcular la recta de
regresión de la edad en función del peso y la del peso en función de la edad.
122