EJEMPLO
En la empresa Copier Sales of América, la gerente de ventas
recopilo información respecto al numero de llamadas
telefónicas hechas y la cantidad de copiadoras vendidas,
para una muestra de 10 representantes de ventas. A la
gerente de esa área, le gustaría ofrecer información
especifica referente a la relación entre el numero de
llamadas y la cantidad de productos vendidos. Utilice el
método de mínimos cuadrados para determinar la ecuación
lineal. Se pide:
Calcular el modelo de regresión, o sea calcular a y b
Calcular las varianzas y las covarianzas
Calcular el coeficiente de correlación r
LLAMADAS Y COPIADORAS VENDIDAS POR LOS 10
REPRESENTANTES
REPRESENTANTE NUMERO DE NUMERO DE
COPIADORAS VENDIDAS “Y”
DE VENTAS LLAMADAS “x”
TOM KELLER 20 30
JEFF HALL 40 60
BRIAN VIROST 20 40
GREG FISH 30 60
SUSAN WELLCH 10 30
CARLOS RAMIREZ 10 40
RICH NILES 20 40
MIKE KIEL 20 50
MARK REYNOLDS 20 30
SONI JONES 30 70
TOTAL 220 450
GRÁFICA DE CORRELACIÓN
80
70
f(x) = 1.18421052631579 x + 18.9473684210526
R² = 0.576102418207681
60
COPIADORAS VENDIDAS
50
40
30 Indica las ventas que
hacen más llamadas
telefónicas
20
10
0
5 10 15 20 25 30 35 40 45
LLAMADAS
LLAMADAS A CLIENTES REALIZADAS Y COPIADORAS
VENDIDAS POR LOS 10 VENDEDORES DE LA MUESTRAS
REPRESENTANTE NUMERO DE NUMERO DE
DE VENTAS LLAMADAS
COPIADORAS VENDIDAS X2 Y2 xy
TOM KELLER 20 30 400 900 600
JEFF HALL 40 60 1600 3600 2400
BRIAN VIROST 20 40 400 1600 800
GREG FISH 30 60 900 3600 1800
SUSAN WELLCH 10 30 100 900 300
CARLOS
RAMANIREZ 10 40 100 1600 400
RICH NILES 20 40 400 1600 800
MIKE KIEL 20 50 400 2500 1000
MARK REYNOLDS 20 30 400 900 600
SONI JONES 30 70 900 4900 2100
TOTAL 220 450 5600 22100 10800
EJEMPLO
Representantes Llamadas de Copiadoras
de ventas ventas (X) vendidas (Y)
1 20 30
2 40 60
3 20 40
4 30 60
5 10 30
6 10 40
7 20 40
8 20 50
9 20 30
10 30 70
LÍNEA RECTA y= a + bx
CALCULA EL COEFICIENTE DE CORRELACIÓN “R” SIN UTILIZAR MEDIAS
ARITMÉTICAS DE LAS VARIABLES
n(ΣXY ) (ΣX )(ΣY )
R
n(ΣX 2
) (ΣX ) 2 n ΣY 2 - ΣY 2
R
R= 0.759
TAMBIÉN SE PUEDE CALCULAR EL COEFICIENTE DE CORRELACIÓN “R”
UTILIZANDO LAS MEDIAS ARITMÉTICAS DE LAS VARIABLES
REPRESENT. N° N°
COPIADORAS
DE VENTAS LLAMADAS “X” “Y” X- X ̅ Y- Y ̅ (X- X ̅ )(Y- Y )̅ (X- X ̅ )2 (Y- Y )̅ 2
TOM KELLER 20 30 -2 -15 30 4 225
JEFF HALL
40 60 18 15 270 324 225
BRIAN VIROST 20 40 -2 -5 10 4 25
GREG FISH 30 60 8 15 120 64 225
SUSAN WELLCH 10 30 -12 -15 180 144 225
C. RAMANIREZ
10 40 -12 -5 60 144 25
RICH NILES 20 40 -2 -5 10 4 25
MIKE KIEL 20 50 -2 5 -10 4 25
MARK
REYNOLDS 20 30 -2 -15 30 4 225
SONI JONES 30 70 8 25 200 64 625
TOTAL 220 450 900 760 1850
UTILIZAREMOS LA MEDIA Y SUS PRODUCTOS PARA
CALCULAR “R”
REPRESENT. N° N°
LLAMADAS COPIADORAS
DE VENTAS “X” “Y” X- X ̅ Y- Y ̅ (X- X ̅ )(Y- Y )̅ (X- X ̅ )2 (Y- Y )̅ 2
TOTAL 220 450 900 760 1850
R
( x x )( y y )
( x x ) ( y y )
2 2
900
R
(760)(1850)
R 0.759
interpretación
• El coeficiente de correlación es igual a
0.759
• Es positivo de manera que hay una
relación directa entre el numero de
llamadas a clientes y la cantidad de
copiadoras vendidas
• El valor esta bastante cercano a 1 por lo
que se concluye que la relación es fuerte
El coeficiente de correlación para el modelo es
LÍNEA RECTA y= a+bx R= 0.759 76%
De esto podemos concluir
que el mejor modelo para
calcular el coeficiente de
correlación es el de la línea
recta ya que explica una
asociacion de la dos
variable en un 75%
COEFICIENTE DE DETERMINACION
Mide la variación de la variable y explicada en la
variable x.
Es útil porque da la proporción de la varianza
(variación) de una variable que es predecible a
partir de la otra variable.
El coeficiente de determinación es la proporción
de la variación explicada al total de la variación.
Formula para calcular el Coeficiente de
Determinación
^ 2
2 (Y Y )
r 1 2
(Y Y )
Otro método de calcularlo
Es elevar al cuadrado el coeficiente de
correlación
n(ΣXY ) (ΣX )( ΣY )
r
n(ΣX 2 2
) (ΣX ) nΣY - ΣY
2 2
Ingreso A. X.Y
(x) familiar(y x2 y2 Y^
)
Ejemplo 48 24 1152 2304 576 23.7
40 18 720 1600 324 16.7
30 9 270 900 81 7.9
39 14 546 1521 196 15.8
Determinar el 46 22 1012 2116 484 21.9
coeficiente de 42 22 924 1764 484 18.4
27 4 108 729 16 5.3
determinació
36 13 468 1296 169 13.2
n
34 10 340 1156 100 11.4
46 20 920 2116 400 21.9
Ingreso y 32 12 384 1024 144 9.7
ahorro 42 18 756 1764 324 18.4
familiar de 15 40 16 640 1600 256 16.7
trabajadores
32 8 256 1024 64 9.7
27 6 162 729 36 5.3
561 216 8658 21643 3654 216
donde
Variación
no (Y Y ^ 2
) 78.82
explicada
Variación
total (Y Y ) 2
543.60
Por lo tanto el 93.4% de la
543.60 78.82 variación en y(ahorro
r2 0.934
543.60 familiar) esta siendo
explicado por su relación
lineal con x(ingreso)
EJEMPLO 2
¿Esperaría que los automóviles más confiables fueran los más caros?
Consumer Reports evaluó 15 de los mejores automóviles sedán. La
confiabilidad se evaluó con una escala de 5 puntos: mala (1), regular
(2), buena (3), muy buena (4) y excelente (5). Los precios y la
evaluación sobre la confiabilidad de estos 15 automóviles se presenta
en la tabla siguiente (Consumer Reports, febrero de 2004).
a. Trace un diagrama de dispersión con estos datos tomando como
variable independiente las evaluaciones de confiabilidad.
b. Dé la ecuación de regresión obtenida por el método de mínimos
cuadrados.
c. De acuerdo con este análisis, ¿cree usted que los automóviles más
confiables sean más caros?
d. Estime el precio de un automóvil sedán cuya evaluación de
confiabilidad sea 4.
EJEMPLO 2
EJEMPLO 2
Se pide:
Hallar la ecuación de regresión
Hallar el coeficiente de correlación
Hallar el coeficiente de determinación
DEFINICIÓN
La regresión lineal múltiple estima los
coeficientes de la ecuación lineal, con
una o más variables independientes,
que mejor predigan el valor de la
variable dependiente.
MODELO DE REGRESIÓN
MÚLTIPLE
La idea básica de la regresión consiste en estimar los parámetros
poblacionales
y 0 1 x1 2 x2 ... p x p
FORMA MATRICIAL
De acuerdo al modelo anterior, la variable
dependiente Y se representa como una
combinación lineal de un conjunto de k variables Xk
cada una de las cuales va acompañada de un
coeficiente bk la cual indica el peso relativo en la
ecuación además tiene una constante bo y un
componente aleatorio e que recoge todos los
errores que las variables independientes no pueden
explicar
SUPUESTOS DEL MODELO DE
REGRESIÓN
E( e )=0
La varianza de e que se denota como es la misma
para todos los valores de x
Los valores de e son independientes
Los errores e siguen una distribución normal
MODELO DE REGRESION
El modelo de regresión se compone de las siguientes tres
sumatorias:
SCR: Es la parte explicada por el modelo de regresión
SCE: Es la parte no explicada por el modelo de regresión
…. …… …… …… ……
….. …… ….. ….. …. …
Aplicando propiedades de las sumatorias y acomodando
el anterior sistema de ecuaciones en forma matricial
tenemos:
Usando la inversa de la matriz de coeficientes tenemos
la solución donde se hallan los valores del vector
EJEMPLO: RLM
Una compañía de transporte que se dedica a la
entrega de mercancía en una ciudad quiere saber si
los kms recorridos por un camión depende de las
entregas y del tiempo de recorrido. En una muestra
aleatoria de 10 recorridos se obtuvieron los
siguientes datos:
TABLA DE DATOS
Recorrido Kms Recorridos Cantidad de Tiempo de
(y) Entregas (x1) Recorrido
(horas) (x2)
1 100 4 9.3
2 50 3 4.8
3 100 4 8.9
4 100 2 6.5
5 50 2 4.2
6 80 2 6.2
7 75 3 7.4
8 65 4 6.0
9 90 3 7.6
10 90 2 6.1
EJEMPLO PROPUESTO
REGRESIÓN CON VARIABLES
CUALITATIVAS
Johnson Filtration Inc. da servicio de mantenimiento a los sistemas de filtración en
el sur de Florida. Los clientes llaman a Johnson Filtration, Inc. solicitando un
servicio de mantenimiento para sus sistemas de filtración de agua para estimar el
tiempo que se requerirá para el servicio y el costo del mismo, los administradores
de Johnson desean poder predecir este tiempo para cada solicitud de servicio. Por
lo tanto, el tiempo, en horas, requerido para la reparación es la variable
dependiente. Se cree que el tiempo requerido para una reparación está
relacionado con dos factores, meses transcurridos desde el último servicio de
mantenimiento y tipo del problema (mecánico o eléctrico).
EJEMPLO
Si en el ejemplo del mantenimiento colocáramos una
nueva variable
COEFICIENTE DE DETERMINACION r^2
r^2 toma valores entre cero y uno, se usa para evaluar la bondad de ajuste de
la ecuación de regresión estimada. A este cociente se le llama coeficiente de
determinación
PRUEBA ESTADÍSTICA F
H 0 : i 0
H a : i 0
Esta prueba evalúa si existe o no una
regresión lineal entre las variables X y Y
PRUEBA t DE SIGNIFICANCIA
Esta prueba busca demostrar que si x y y están
relacionadas entonces el parámetro b1 es diferente de
cero.
La hipótesis para esta prueba son:
H 0 : 1 0
H a : 1 0
ESTADÍSTICO DE PRUEBA PARA t
b1
t
sb1
Donde
s
sb1
x x
2
i
SCE
s
El valor de SCE es una medida del error al n2
utilizar la ecuación de regresión estimada
para estimar los valores de la variable
dependiente en los elementos de la
muestra.
INTERVALO DE CONFIANZA
PARA t
1 b1 t * sb1
2
COEFICIENTE DE CORRELACIÓN Y
DE DETERMINACIÓN
El coeficiente de correlación nos mide el grado o la
intensidad con la cual se asocian un par de variables.
El coeficiente de determinación Mide el porcentaje de
variación en la variable respuesta, explicada por la
variable independiente.
CÁLCULO DEL COEFICIENTE DE
DEERMINACIÓN
SCT SCR SCE : si _ se _ divide _ por _ SCT
SCR SCE
1
SCT SCT
SCE SCR
1
SCT SCT
2 SCR
r
SCT
2 SCE
r 1
SCT
PRUEBA DE SIGNIFICANCIA
USANDO CORRELACIÓN
Estadístico de prueba
REGRESIÓN LOGÍSTICA
Es una regresión donde la variable dependiente es
cualitativa dicotomica (1,0), por lo que la ecuación de
regresión calcula es la probabilidad que tome alguno de
los dos valores posibles.
ECUACIÓN DE REGRESIÓN