PRONOSTICOS
PRONOSTICOS
REGRESION Y CORRELACION
Unidad estadística : 1 2 3 n
Variable: X : X1 X2 X3 ............ Xn
Variable: Y : Y1 Y2 Y3 ............ Yn
Es decir, se tiene n observaciones bidimensionales:
( X i , Yi ) : (X1 , Y1) , (X2 , Y2) , ........ , (Xn , Yn)
Ejemplo: El siguiente diagrama muestra de dispersión muestra las estaturas y los pesos
de un grupo de 29 personas.
Si se desea investigar la relación existente entre dos variables el primer paso será trazar el
diagrama de esparcimiento, el cual proporcionará una idea del tipo de relación existente
entre ambas variables, facilitando así la elección de la correspondiente función matemática.
Correlación:
Es el método empleado para determinar el grado de relación entre las variables que se
estudian para así determinar en qué medida una relación funcional describe o explica de
una forma adecuada la relación entre estas variables. Explica el grado de la bondad del
UPN ADMINISTRACIÒN DE OPERACIONES
MG. PAULO OLIVARES
ajuste del modelo de regresión. Se ocupa de establecer la magnitud y la dirección de las
relaciones.
Indica si hay relación lineal entre dos variables y el grado de esta relación (alta, baja o nula).
Permite contestar ¿qué tan estrecha es la relación entre X e Y?
El signo de r tiene que ver sólo con la dirección de la relación entre dos variables, ya sea
directa o inversa y la magnitud del coeficiente tiene que ver con la intensidad o estrechez de
la relación. Equivale a observar el diagrama de dispersión con la recta ajustada y ver si los
puntos coinciden, están cerca o lejos de dicha recta.
El valor de r puede ser positivo, negativo o cero. Su signo depende del signo de b.
-1 0 +1
A la hora de interpretar un coeficiente de correlación hay que tener en cuenta por un lado
su magnitud y por otro su signo. La magnitud se refiere al grado en que la relación entre las
dos variables queda bien descrita con r, mientras que el signo se refiere al tipo de relación.
UPN ADMINISTRACIÒN DE OPERACIONES
MG. PAULO OLIVARES
Nota:
Si r 0,75 la recta de regresión será una buena estimación.
Todo r 0 indica cierto grado de relación entre dos variables
Una correlación baja no siempre significa ausencia de relación ya que puede existir
una correlación curvilínea muy estrecha.
Coeficiente de Determinación: r2
Determina el porcentaje de la variación total de Y que queda explicada por la ecuación de
regresión. Mide la bondad del ajuste de la línea de regresión.
0 r2 1
Ejemplo:
Si Si r 0,90 r 2 0,902 100 81%
Covarianza: Sxy
S XY Cov ( X , Y )
XY
X . Y
n n n
Una covarianza positiva significa que existe una relación lineal positiva entre las dos
variables. Es decir, las puntuaciones bajas de la primera variable X se asocian con
las puntuaciones bajas de la segunda variable Y, mientras las puntuaciones altas de
X se asocian con los valores altos de la variable Y. (La nube de puntos es creciente).
Una covarianza negativa significa que existe una relación lineal inversa perfecta
(negativa) entre las dos variables. Lo que significa que las puntuaciones bajas en X
se asocian con los valores altos en Y, mientras las puntuaciones altas en X se
asocian con los valores bajos en Y. (La nube de puntos es decreciente).
Una covarianza 0 se interpreta como la no existencia de una relación lineal entre las
dos variables estudiadas.
UPN ADMINISTRACIÒN DE OPERACIONES
MG. PAULO OLIVARES
La covarianza no es un parámetro acotado, y puede tomar cualquier valor real, por lo que su
magnitud no es importante; lo significativo es el signo que adopte la misma.
r
n XY X Y
n
X2 X 2 n Y2 Y 2
r b . b
4.- Conociendo a y b :
r
a Y b XY n Y 2
Y2 n Y2
Regresión:
Es un método que se emplea para encontrar una función que se adapte o ajuste a un
diagrama de esparcimiento con la finalidad de poder obtener una predicción aproximada de
una de las variables a partir de la otra. El objetivo principal de la regresión es descubrir el
modo en que se relacionan dos variables.
Y=f(X)
Donde:
X : variable predictora (variable independiente o explicativa)
Y : variable predictando o variable respuesta (variable dependiente o explicada).
Una línea recta de pendiente negativa Cualquier recta que se trace deja a
puede aproximarse a casi todos los muchos puntos alejados de ella.
puntos. Hacer un análisis de regresión no tiene
Hacer un análisis de regresión está sentido.
justificado.
La nube de puntos parece ajustarse bien El ajuste lineal no parece adecuado para
a una recta. este dispersigrama.
No existe relación lineal entre las dos Existen observaciones atípicas (outliers).
variables.
Se llama así a la recta que atraviesa el diagrama de esparcimiento y que mejor se ajusta a
él. Si llegamos a conocer la ecuación, se podrá llegar a estimar valores de Y desconocidos a
partir de valores de X conocidos.
Y = f(X)
Predictando Predictora
El caso más simple de una recta de regresión es del tipo Y = X donde la recta pasa por el
origen de coordenadas y su inclinación es de 45º. El caso más general es cuando la recta no
pasa por el origen y su inclinación es cualquiera.
X = f(Y)
Predictando Predictora
X = a + b Y
por lo general: a a y b b
Si : a = a y b = b
Las dos rectas de regresión son Los datos presentan una mejor
coincidentes, entonces los datos relación lineal a medida que las dos
quedan perfectamente descritos por rectas se acercan.
una relación lineal. La predicción es
perfecta.
Interpretación de a y b:
Si b > 0:
Ejemplo:
a =2:
Cuando la alumna no estudia, se espera que obtenga
2 respuestas correctas.
b = 0,7 1
Por cada hora que se incremente en las horas de
estudio, se espera que el número de respuestas
correctas se incremente en aproximadamente 1.
Si b < 0:
Ejemplo:
a = 19 :
Cuando la alumna no estudia, se espera que
cometa 19 errores.
b = -2,2 -2
Por cada hora que se incremente en las horas de
estudio, se espera que el número de errores
disminuya en aproximadamente 2.
En algunas situaciones, “a” no tiene una interpretación realista si el cero no es un punto del
rango de la X. Por ejemplo, al estudiar la relación entre las variables peso y estatura de un
grupo de personas; no podría decirse que si la estatura de una persona es 0, se espera que
su peso sea tal.
Falta de Linealidad, porque la relación entre las dos variables no es lineal o porque
variables explicativas relevantes no han sido incluidas en el modelo.
Falta de Normalidad, los residuos del modelo no se ajustan a una distribución normal.
NOTA:
En todo ejemplo real, las observaciones no coinciden exactamente con la recta de regresión
debido a los errores casuales que afectan las mediciones. Esto significa que para un valor
dado de X, el valor de Y que le corresponde no será exactamente: a+bX, sino que esta
ecuación usando el valor de X arroja el valor esperado de Y denominado Ŷ . Entonces, para
cada valor medido de X se tendrán dos valores: el valor real u observado Y y su valor
esperado calculado por la recta de regresión Ŷ .
Al observar el diagrama de esparcimiento se puede ver que ninguna recta pasará por todos
los puntos, entonces ¿cuál será la mejor? El método de mínimos cuadrados es una técnica
empleada para llegar a la ecuación de regresión minimizando la suma de los cuadrados de
las distancias verticales entre los valores Y verdaderos y los valores pronosticados de Y .
Este método supone que la recta de mejor ajuste es aquella para la cual la suma de los
cuadrados de las distancias verticales de los puntos (Xi , Yi) a la recta es mínima.
Y abX
S
a
a
(Y i Ŷi )2
a
(Y i (a bX i ) )2 0
a
(Y i a bX i )2 2 (Y i a bX i ) (1)
= 2 ( Yi a b X i )
= 2 Yi 2 a 2 b X i
= Yi n a b X i 0
na b Xi Yi
UPN ADMINISTRACIÒN DE OPERACIONES
MG. PAULO OLIVARES
S
b
b
(Y i Ŷi )2
b
(Y i (a bX i ) )2 0
b
(Y i a bX i )2 2 ( Y a bX ) (X )
i i i
= 2 ( X Y a X b X )
i i i
2
i
= 2 X Y 2 a X 2 b X
i i i
2
i
= X Y a X b X
i i 0 i
2
i
a Xi b X2i X i Yi
Estas ecuaciones se llaman Ecuaciones Normales:
na b Xi Yi
a Xi b X2
i Xi Yi
Al resolver estas ecuaciones usando la regla de Cramer se obtiene:
a
X Y X XY
2
b
n XY X Y
n X X n X 2 X
2 2 2
Y2 X Y XY
a'
n Y2 Y
2
b'
n XY Y X
n Y2 Y
2
Forma matricial:
a) Conociendo r :
UPN ADMINISTRACIÒN DE OPERACIONES
MG. PAULO OLIVARES
S SX
Ŷ r Y ( X X ) Y X̂ r (YY ) X
SX SY
b) Conociendo la Covarianza:
SXY SXY
Ŷ (XX) Y X̂ (YY) X
S2X S2Y
Si todos los valores quedaran alineados por la recta de regresión, no existiría errores al
hacer algún pronóstico, sin embargo este caso no se da. El error estándar de estimación nos
da una medida de la desviación promedio de los errores de predicción en torno a la línea de
regresión. Indica qué tan preciso es el pronóstico de Y con base en X.
SL
Y 2
a Y b XY
n 2
Y0 t 0 SL
SL t o t1 - α/2 , n 2
b to
X 2
X 2
n
Ejemplo:
Una encuesta entre vendedores de autos usados para determinar la relación entre la
cantidad de anuncios clasificados y la venta de autos usados, dio los siguientes resultados
del número de avisos clasificados y el número de automóviles usados vendidos para cada
uno de los 27 negocios que no utilizaron ningún otro medio publicitario.
Nº Anuncios clasificados : 74 45 50 38 29 17
Nº Autos vendidos : 139 110 95 78 60 54
a
X Y X XY
2
12575 536 253 25608
22,8
n X X
2
2 6 12575 2532
b
n XY X Y
6 25608 253 536
1,58
n X 2 X
2
6 12575 2532
d) Interpretar a y b.
La parábola por lo general se aplica en aquellos casos en que se presenta una parte
ascendente y en seguida una descendente o viceversa.
En la práctica su uso es poco frecuente sin embargo a veces se utiliza para proyecciones de
utilidad, ingresos.
Su gráfico:
Ŷ a b X c X2
Para hallar los valores de a, b y c se deben resolver las siguientes ecuaciones normales:
a n b X c X2 Y
aX b X2 c X3 X Y
a X2 b X3 c X4 X2 Y
Forma matricial:
1
a
n
X X 2 Y
b X
c
X 2 X 3 XY
X2
X 3 X 4 X 2 Y
Y b XY c X 2 2
a Y n Y
r
Y n Y 2 2
SC
Y 2
a Y b XY c XY
n 2
Intervalo de Probabilidad:
Y0 Z / 2 SC
Ejemplo:
UPN ADMINISTRACIÒN DE OPERACIONES
MG. PAULO OLIVARES
En la fábrica Dacron S.A., se tienen los siguientes datos correspondientes a las horas
trabajadas (en miles) que producen el producto gama (en unidades).
Horas trabajadas : 1 2 4 5 7 8 8 9 10 12
Producción : 25 15 10 10 15 10 20 20 35 45
205 10 a 66 b 548 c
1560 66 a 548 b 5022 c
14750 548 a 5022 b 48788 c
10 66 548
66 548 5022 1 337 672
548 5022 48788
205 66 548
40 072 580
a 1560 548 5022 29,957
1 337 672
14750 5022 48788
10 205 548
10 578 600
b 66 1560 5022 7,908
1 337 672
548 14750 48788
10 66 205
1 043 220
c 66 548 1560 0,780
1 337 672
548 5022 14750
Si X = 14 :
r 0,95
SC
Y 2
a Y b XY c XY
n 2
g) Para 14 mil horas, ¿cuánto se espera que sea la producción mínima y máxima?
Y0 Z / 2 SC
72 1,96 36,06
1,32 Y 142,68
UPN ADMINISTRACIÒN DE OPERACIONES
MG. PAULO OLIVARES
Al graficar los valores X e Y se obtiene una curva creciente o decreciente, es decir que la
variable predictora evoluciona en forma aritmética y la variable predictando evoluciona en
forma geométrica.
En la práctica son numerosas las variables que presentan un crecimiento geométrico: la
población, ventas, salarios, ingresos, etc.
Ŷ a . bX
Su gráfico:
r
n X log Y X . log Y
n X 2
( X ) n ( log y ) ( log Y )
2 2 2
Ejemplo:
UPN ADMINISTRACIÒN DE OPERACIONES
MG. PAULO OLIVARES
5 30
290
30 238
5,37 30
38,96 208 109,26
log a 0,38 a 2,38
290 290
5 5,37
30 38,96 33,7
log b 0,12 b 1,31
290 290
d) Realizar un pronóstico:
Si X = 13:
Ŷ 2,38 . 1,3113 79,63 80 unidades
UPN ADMINISTRACIÒN DE OPERACIONES
MG. PAULO OLIVARES
PRÁCTICA
2.- Una compañía presenta los siguientes datos con respecto a las ventas de un
producto durante siete años.
4.- Un fabricante quiere establecer si hay una relación parabólica entre las ausencias al trabajo. X: número
de permisos al mes e Y: edad del trabajador. Para ello selecciona una muestra aleatoria de 10
trabajadores, obteniendo la siguiente información:
Y : 28 32 46 24 28 36 42 37 51 42
X : 5 8 4 7 10 4 3 4 3 4
a) Hallar la ecuación de regresión parabólica.
UPN ADMINISTRACIÒN DE OPERACIONES
MG. PAULO OLIVARES
b) Estimar la edad para una persona que solicita 6 permisos en el mes.
5.- Se tienen los siguientes datos correspondientes a las horas de estudio y al número
de errores cometidos en un examen de Inferencia Estadística por un grupo de
alumnos del IV ciclo de Ingeniería de Sistemas.
Horas de estudio : 5 2 9 6 7 3 4 8
Nº de errores : 7 14 6 7 5 8 10 4
Nº de alumnos : 3 1 5 3 3 1 2 4
a) Realiza un análisis grafico y contesta ¿Qué tipo de relación existe entre
ambas variables? ¿Por qué?
b) ¿Podemos afirmar que los pronósticos que realicemos con este modelo
estarán cercanos a la realidad? ¿Por qué?
6.- Una compañía recabó los datos adjuntos para comparar el precio de venta de casas
nuevas con el tamaño de la construcción en cientos de pies cuadrados.
Espacio construido : 20 22 18 30 23 25
Precio de venta : 116 118 91 145 105 121
a) ¿Podemos afirmar que a mayor espacio construido mayor precio de venta?
Justifique su respuesta.
b) Si el espacio construido es de 32 ¿cuál es el precio de venta mínimo y
máximo que se espera?
8.- Se desea analizar el número de errores cometidos por una persona en relación con
las horas que lleva desarrollando un trabajo.
Errores cometidos : 10 10 8 6 5 3 4 2 5 8 9 10
Horas trabajadas : 1 2 3 4 5 6 7 8 9 10 11 12
¿Podemos afirmar que el número de errores por hora disminuirá si la persona se
vuelve más eficiente en la tarea, pero después aumentaría debido a otros factores
como por ejemplo la fatiga y el aburrimiento?