Estadística -Administración
REGRESIÓN Y CORRELACIÓN
Si a cada unidad estadística se le observa simultáneamente dos variables cuantitativas
entonces se obtiene dos series de datos emparejados. En este caso con frecuencia se desea
conocer si ambas variables están relacionadas o si son independientes.
Unidad estadística : 1 2 3 n
Variable: X : X1 X2 X3 ............ Xn
Variable: Y : Y1 Y2 Y3 ............ Yn
Es decir, se tiene n observaciones bidimensionales:
X Y
( i , i ): (X1 , Y1) , (X2 , Y2) , ........ , (Xn , Yn)
Diagrama de esparcimiento
Cada par de datos bidimensionales representa un punto en el sistema cartesiano.
Este conjunto de puntos (Xi , Yi ) se llama “diagrama de esparcimiento”, “diagrama de
dispersión”, “dispersigrama” o ”nube de puntos”.
El diagrama de dispersión puede tomar diferentes formas:
Entonces, según la forma del diagrama de dispersión; podemos pensar en un modelo
matemático que mejor describa la relación existente entre X e Y.
Estadística -Administración
El sentido de la regresión es el de predicción de una variable basándonos en el conocimiento
de otra.
Regresión
Es un método que se emplea para encontrar una función que se adapte o ajuste a un
diagrama de esparcimiento con la finalidad de poder obtener una predicción aproximada de
una de las variables a partir de la otra.
El objetivo de un análisis de regresión es investigar la relación estadística que existe entre
una variable dependiente Y y una o más variables independientes X1 , X2 , ...... , Xk .
Para poder realizar esta investigación, se debe postular una relación funcional entre las
variables. Debido a su simplicidad analítica, la forma funcional que más se utiliza en la
práctica es la relación lineal. Cuando solo existe una variable independiente, esto se reduce
a una línea recta:
Y = f(X)
Donde:
X : variable predictora (variable independiente o explicativa)
La nube de puntos parece ajustarse bien a No hay indicios de existencia de relación.
una recta.
Y : variable predictando o variable respuesta (variable dependiente o explicada).
Al analizar los siguientes diagramas de dispersión:
Cualquier recta que se trace deja a
Una línea recta de pendiente positiva muchos puntos alejados de ella.
puede aproximarse a casi todos los
puntos. Hacer un análisis de regresión no tiene
Un análisis de regresión está justificado. sentido.
Estadística -Administración
Correlación
Es el método empleado para determinar el grado de relación entre las variables
que se estudian para así determinar en qué medida una relación funcional
describe o explica de una forma adecuada la relación entre estas variables.
Explica el grado de la bondad del ajuste del modelo de regresión.
Coeficiente de Correlación Lineal Simple: r (Coeficiente de Pearson)
Indica si hay relación lineal entre dos variables y el grado de esta relación (alta,
baja o nula). Permite contestar ¿qué tan estrecha es la relación entre X e Y?
El signo de r tiene que ver sólo con la dirección de la relación entre dos variables,
ya sea directa o inversa y la magnitud del coeficiente tiene que ver con la
intensidad o estrechez de la relación. El valor de r puede ser positivo, negativo o
cero.
−1 ≤ r ≤ +1
La correlación es tanto más fuerte a medida que r se aproxima a –1 ó +1 y es
tanto más débil a medida que se aproxima a 0.
Nota:
• Si r ≥ 0,75 ó r ≤ -0.75 la recta de regresión será una buena
estimación.
• Todo r ≠ 0 indica cierto grado de relación entre dos variables
• Una correlación baja no siempre significa ausencia de relación ya que
puede existir una correlación curvilínea muy estrecha.
r=+1
Existe una relación lineal directa perfecta
(positiva) entre las dos variables. Es decir, las
puntuaciones bajas de X se asocian con las
Estadística -Administración
puntuaciones bajas de Y, mientras las puntuaciones altas de X se asocian
con los valores altos de la variable Y.
r= − 1
Existe una relación lineal inversa perfecta (negativa) entre las dos
variables. Es decir, las puntuaciones bajas en X se asocian con los valores
altos en Y, y las puntuaciones altas en X se asocian con los valores bajos
en Y.
r=0
No existe una relación lineal entre las dos variables estudiadas.
Fórmula para calcular el Coeficiente de Correlación Lineal de Pearson:
Ejemplo:
Una encuesta entre vendedores de autos usados para determinar la relación
entre la cantidad de anuncios clasificados y la venta de autos usados, dio los
siguientes resultados del número de avisos clasificados y el número de
automóviles usados vendidos para cada uno de los negocios que no utilizaron
ningún otro medio publicitario.
Nº Anuncios clasificados : 74 45 50 38 29
17
Nº Autos vendidos : 139 110 95 78 60
54
Calcular e interpretar el coeficiente de correlación.
Solución:
Un modelo lineal es confiable, por lo tanto se pueden realizar pronósticos.
Coeficiente de Determinación: r2
Determina el porcentaje de la variación total de Y que queda explicada por la
ecuación de regresión. Mide la bondad del ajuste de la línea de regresión.
0 ≤ r2 ≤ 1
Ejemplo:
r = 0.958 ⇒ r2 = 0.9582 ×100 = 92%
Estadística -Administración
El 92% de los cambios que se producen en el número de autos vendidos pueden
ser atribuidos a los cambios que se producen en el número de anuncios
clasificados, mientras que el 8% de dichos cambios se pueden atribuir a otros
factores que no han sido tomados en cuenta en este caso o a efectos aleatorios.
S
Covarianza: xy
La covarianza es una medida que nos permite saber si la relación entre las
variables es directa o inversa, y si dicha relación puede ser lineal le o no. Se
conoce como varianza conjunta y se calcula mediante la fórmula:
Una covarianza positiva significa que existe una relación lineal positiva entre las
dos variables, cuando es negativa significa que existe una relación lineal inversa
(negativa) entre las dos variables; cuando es cero se interpreta como la no
existencia de una relación lineal entre las dos variables estudiadas.
Ejemplo:
Usando los datos de la encuesta entre vendedores de autos usados para
determinar la relación entre la cantidad de anuncios clasificados y la venta de
autos usados, se tiene:
SXY = − × = 501.11
Como la covarianza es positiva entonces podemos concluir que existe una
relación lineal positiva entre el número de autos vendidos y el número de avisos
clasificados.
MODELO DE REGRESION BIVARIABLE LINEAL
La relación matemática más sencilla entre dos variables X e Y es una relación
lineal de la forma: Y =α+β X. Los valores α y β casi nunca serán conocidos
para un investigador.
En lugar de esto, se dispondrá de datos muestrales consistentes de n pares
observados
(x1 , y1 ) , (x2 , y2) , .... , (xn , yn ), con los que se pueden estimar los parámetros del
modelo y la verdadera recta de regresión.
Recta de Regresión de Y sobre X:
Se llama así a la recta que atraviesa el diagrama de esparcimiento y que mejor se
ajusta a él. Si llegamos a conocer la ecuación, se podrá llegar a estimar valores
de Y desconocidos a partir de valores de X conocidos.
Estadística -Administración
Interpretación de a y b
a : es la intersección de la recta de regresión con el
eje Y.
Es el valor que toma la variable predictando Y cuando la variable predictora X
es cero.
b : Coeficiente de regresión. Es la pendiente de la
recta. Debe tener el mismo signo que r.
Es la cantidad de cambio de la variable predictando Y asociada a un
cambio unitario de la variable predictora X.
Si la recta presenta pendiente positiva: b > 0
a =2
Cuando la alumna no estudia, se espera que obtenga 2 respuestas correctas.
b = 0.7 ≅1
Por cada hora que se incremente en las horas de estudio, se espera que el
número de respuestas correctas se incremente en aproximadamente 1.
Si la recta presenta pendiente negativa: b < 0
Estadística -Administración
a = 19
Cuando la alumna no estudia, se espera que cometa 19 errores.
b = -2.2 ≅ -2
Por cada hora que se incremente en las horas de estudio, se espera que el
número de errores disminuya en aproximadamente 2.
En algunas situaciones, “a” no tiene una interpretación realista si el cero no es
un punto del rango de la X. Por ejemplo, al estudiar la relación entre las variables
peso y estatura de un grupo de personas; no podría decirse que si la estatura de
una persona es 0, se espera que su peso sea tal.
Según el signo de “b”, se tiene:
b >0 b <0 b =0
Existe relación lineal Existe relación lineal No existe
directa Inversa Relación
MÉTODO DE MINIMOS CUADRADOS
Al observar el diagrama de esparcimiento se puede ver que ninguna recta pasará
por todos los puntos, entonces ¿cuál será la mejor? El método de mínimos
cuadrados es una técnica empleada para llegar a la ecuación de regresión
minimizando la suma de los cuadrados de las distancias verticales entre los
valores Y verdaderos y los valores pronosticados de Y.
Estadística -Administración
Este método supone que la recta de mejor ajuste es aquella para la cual la suma
de los cuadrados de las distancias verticales de los puntos (Xi , Yi) a la recta es
mínima.
Si entre estas variables existiera una relación lineal perfecta, entonces todos los
puntos caerían sobre la recta de regresión, que también ha sido trazada y que
muestra la relación “promedio” que existe entre las dos variables.
En la práctica, se observa que la mayoría de los puntos no caen directamente
sobre la recta, sino que están “dispersos” en torno a ella. Esta dispersión
representa la variación en Y que no puede atribuirse a la variación en X.
MODELO DE REGRESIÓN DE Y SOBRE X Y = a+bX
Estadística -Administración
Ejemplo:
Estadística -Administración
Tomando los datos de la cantidad de anuncios clasificados y el número de autos
vendidos:
Nº Anuncios clasificados : 74 45 50 38 29
17 Nº Autos vendidos : 139 110 95
78 60 54
• El diagrama de esparcimiento es:
• Luego se hallar las sumas correspondientes, se obtienen las ecuaciones
normales.
• Interpretando a y b:
a = 22,8 ≅ 23 autos vendidos.
Cuando no se publican anuncios clasificados, se espera vender
aproximadamente 23 autos.
b = 1,58 ≅ 2 autos vendidos
Estadística -Administración
Por cada anuncio clasificado que se incremente, se espera que el número
de autos vendidos se incremente en aproximadamente 2.
• Hallando los valores estimados y los residuos o errores de estimación:
Nº Anuncios Nº Autos vend. Valores Estimados Residuos
X Y Yˆ = 22.8 + 1.6 X ei = Y − Yˆ
74 139 141.2 - 2.2
45 110 94.8 15.2
50 95 102.8 - 7.8
38 78 83.6 - 5.6
29 60 69.2 - 9.2
17 54 50.0 4.0
Al observar la columna de los residuos se puede apreciar que la mayoría
son negativos, eso significa que se están realizando estimaciones por
encima del valor real.
Error Estándar de Estimación
En un diagrama de dispersión no todos los puntos coinciden con la línea de
regresión. Si todos los puntos estuvieran sobre la línea no habría error al
predecir la variable respuesta Y basándose en la variable predictora X.
El error estándar de estimación nos da una medida de la desviación promedio de
los errores de predicción en torno a la línea de regresión. Mide la dispersión de
los valores observados alrededor de la recta de regresión.
Es el mismo concepto de la desviación estándar. La desviación estándar mide la
dispersión de los datos alrededor de la media aritmética, el error estándar de
estimación mide la dispersión de los valores observados alrededor de los valores
estimados (recta de regresión). El error estándar de estimación se determina por
medio de:
Ejemplo:
Continuando con el ejemplo de la cantidad de anuncios clasificados y el número
de autos vendidos:
Estadística -Administración
En promedio los valores reales se alejan con respecto a la recta de regresión en
aproximadamente 10 autos.
REGRESIÓN Y CORRELACIÓN MÚLTIPLE
Regresión Múltiple
Se trata de predecir una sola variable respuesta a partir de dos o más variables
predictoras. Permite utilizar una mayor información disponible para estimar la
variable respuesta, de esta forma se trata de aumentar la precisión del estimado.
Correlación Múltiple
Algunas veces la correlación entre dos variables puede ser insuficiente para
determinar una ecuación de regresión. Sin embargo, si se agregan los datos de
más variables predictoras, se podrá estar en condiciones para determinar una
ecuación de regresión que describa la relación con una mayor precisión.
La correlación múltiple indica qué tanto de la variación total de la variable
respuesta o predictando puede explicarse por todas las variables predictoras
actuando conjuntamente.
Ecuación de Regresión para tres variables:
b1 : constante de regresión. b2 y b3 : coeficientes
de regresión parcial.
Y : Variable predictando (dependiente o respuesta) X 2 y X3 :
Variables predictoras (independiente).
Esta ecuación de regresión (plano de regresión) puede escribirse como:
Estadística -Administración
La ecuación de regresión lineal múltiple de Y sobre X 2 y X3 en un sistema
tridimensional de coordenadas rectangulares, representa un plano que se llama
plano de regresión y es una generalización de la recta de regresión para dos
variables.
El criterio de mínimos cuadrados localizará el plano que minimice la suma de los
cuadrados de los errores de estimación, obteniéndose las ecuaciones normales:
Coeficientes de Correlación Simple
Sólo comparan dos variables, sin tener en cuenta la tercera. Miden la proporción
de la varianza de Y explicada por X2 y X3 exclusivamente.
Estadística -Administración
Coeficiente de Determinación Múltiple:
Es una medida que representa la proporción de la variación total de Y que está
explicada por el plano de regresión es decir por la influencia de X2, X3 y por el
azar.
Mide la proporción de la variación total en Y asociado con las variaciones en X 2
y X3
Cuanto más se acerca a 1, tanto menor es la dispersión de los puntos alrededor
del plano de regresión y tanto mejor es el ajuste.
Estadística -Administración
El 95% de las variaciones en las ventas han sido explicadas por las variaciones
en los gastos de publicidad y en el precio, quedando un 5% de la variación de las
ventas que sólo puede ser explicado por factores que no han sido tomados en
consideración en nuestro análisis o por aleatoriedad inherente.
R
Coeficiente de Correlación Múltiple: 1. 23
Expresa el grado de relación existente entre tres a más variables. Si todos los
valores de las variables, varían en forma proporcional ya sea directa o
inversamente, es decir satisfacen una ecuación, se dice que las variables están
correlacionadas o que existe una relación entre ellas.
Ejemplo:
La siguiente tabla muestra las ventas de un artículo (en cientos), los gastos de
publicidad por radio y los gastos de publicidad en periódicos (en miles de soles).
Gastos de publicidad en Gastos de publicidad en Ventas
radio (miles de soles) periódico (miles de soles) (cientos)
X2 X3 Y
4 1 7
7 2 12
9 5 17
12 8 20
• Las sumas obtenidas son:
∑X 2 = 32 ∑X3 = 16 ∑ Y = 56
∑X 2
2 = 290 ∑X2
3 = 94 ∑Y 2
= 882
∑X Y = 505 ∑ X Y = 276
2 3 ∑X X 2 3 = 159
b b X b X
• Para hallar el plano de regresión: Yˆ = 1 + 2 2 + 3 3
Estadística -Administración
·
Interpretando : b1 , b2 y b3
b1 = 0.644 ≈ 64 unid. Es el incremento promedio en las ventas cuando los
gastos de publicidad en radio y los gastos de publicidad
en periódico permanecen constantes.
b2 = 1.661 ≈ 166 unid. El promedio de ventas esperadas crece en aprox. 166
unidades cuando los gastos de publicidad en radio
aumentan en S/.1000, manteniéndose constante los
gastos de publicidad en periódicos.
b3 = 0.017 ≈ 2 unid. El promedio de ventas esperadas crece en aprox. 2
unidades cuando los gastos de publicidad en periódico
aumentan en S/.1000, manteniéndose constante los
gastos de publicidad en radio.
• Calculando el coeficiente de correlación lineal múltiple.
0.644 × 56 + 1.661× 505 + 0.017 × 276 − 4 ×142
R1.23 = 882 − 4 ×14 2
Estadística -Administración
R1.23 = 0.987 Por lo tanto un modelo lineal sí es adecuado.
• Calculando el coeficiente de determinación múltiple.
R21.23 = (0.987)2 = 0.975 = 97.5%
Alrededor del 98% de la variación total de las ventas se explica por medio de la
ecuación de regresión.
r r r
• Calculando los coeficientes de correlación lineal: 12 , 13 , 23