PROBABILIDAD
Y ESTADÍSTICA
UNIDAD 4
Modelos de correlación, regresión y análisis de
varianza
TEMA 1:
REGRESIÓN SIMPLE Y CORRELACIÓN
SUBTEMAS
» Sub tema 1 : Modelo de regresión
lineal simple.
» Sub tema 2 : mínimos cuadrados.
OBJETIVOS
Aplicar los modelos de correlación y
regresión a casos prácticos.
Análisis de Correlación:
Introducción
¿Existe alguna relación entre la cantidad que Empresa Noboa
gasta por mes en publicidad y sus ventas mensuales?
¿El número de metros cuadrados en una casa está
relacionado con el costo de calefacción de esa casa en enero?
¿En un estudio de eficiencia de combustible, ¿existe una
relación entre las millas por galón y el peso del auto?
¿Hay alguna relación entre el número de horas que
estudiaron los alumnos para un examen y la calificación que
obtuvieron? 4
Análisis de Correlación
El análisis de correlación es el grupo
de técnicas que sirven para medir la
asociación entre dos variables.
Cuando se estudia la relación entre
dos variables en escala de intervalo
(o de razón), es usual comenzar con
un diagrama de dispersión, este
procedimiento proporciona una
representación visual de la relación
entre las variables.
5
Coeficiente de correlación
El coeficiente de correlación, creado
por Karl Pearson alrededor de 1900,
describe la fuerza de la relación entre
dos conjuntos de variables en escala
de intervalo o de razón.
σ(𝑥 − 𝑥)(𝑦
ҧ − 𝑦)
ത
𝑟=
(𝑛 − 1)𝑆𝑥 𝑆𝑦
6
Características del
Coeficiente de correlación
» Varía de -1 hasta +1, inclusive.
» Un valor cercano a 0 indica que hay
poca asociación entre las variables.
» Un valor cercano a 1 indica una
asociación directa o positiva entre
las variables.
» Un valor cercano a -1 indica una
asociación inversa o negativa entre
las variables.
7
Correlación negativa perfecta
10
9
8
7
6
Y 5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10
X
8
Correlación positiva perfecta
10
9
8
7
6
Y 5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10
X
9
Correlación cero
10
9
8
7
6
Y 5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10
X
10
Correlación positiva fuerte
10
9
8
7
6
Y 5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10
X
11
Coeficiente de Determinación
El coeficiente de determinación (r2) es la
proporción de la variación total en la variable
dependiente (y) que se explica por la variación
en la variable independiente (x).
Mide la bondad del ajuste de la recta a los datos.
• Es el cuadrado del coeficiente de correlación.
• Su rango es de 0 a 1.
• No da ninguna información sobre la dirección
de la relación entre las variables.
12
Modelo de regresión lineal
simple
Un análisis de la relación entre Y y X
requiere el planteamiento de un modelo
estadístico. La respuesta Y se relaciona con
la variable independiente X a través de la
ecuación matemática representada de la
siguiente manera:
Y = α + β𝑥 + ε
Donde, por supuesto, α es la intersección, β es la
pendiente y ε es la varianza del error o varianza
residual.
La recta de regresión ajustada
Un aspecto importante del análisis de
regresión es, simplemente, estimar los
parámetros α y β (es decir, estimar los
llamados coeficientes de regresión).
Suponga que los estimados de α y β se
denotan con a y b, respectivamente.
Entonces, la recta de regresión
ajustada, o estimada, está dada por:
𝒂 + 𝒃x
𝑌=
14
Estimación de los coeficientes
de regresión
Se deben encontrar los valores de a
y b, estimadores de α y β, de
manera que la suma de los
cuadrados de los residuos sea
mínima. La suma residual de los
cuadrados con frecuencia se
denomina suma de cuadrados de los
errores respecto de la recta de
regresión, y se denota como SSE.
15
Estimación de los coeficientes de
regresión
𝑛 σ𝑛𝑖=1 𝑥𝑖 𝑦𝑖 − (σ𝑛𝑖=1 𝑥𝑖 )(σ𝑛𝑖=1 𝑦𝑖 )
𝒃=
𝑛 σ𝑛𝑖=1 𝑥𝑖 2 − (σ𝑛𝑖=1 𝑥𝑖 )
σ𝑛𝑖=1(𝑥𝑖 − 𝑥)(𝑦ҧ 𝑖 − 𝑦)ത 𝑆𝑦
= 𝑛 2
=𝑟
σ𝑖=1(𝑥𝑖 − 𝑥)ҧ 𝑆𝑥
σ𝑛𝑖=1 𝑦𝑖 − 𝑏 σ𝑛𝑖=1 𝑥𝑖
𝒂= = 𝑦ത − 𝑏𝑥ҧ
𝑛
16
Ejercicios de aplicación
» Suponga que el gerente de ventas de
Copiadora de ventas de América, que tiene
una fuerza de ventas muy grande en Estados
Unidos y Canadá, desea determinar si hay
alguna relación entre el número de llamadas
de ventas en un mes y el número de
copiadoras que se vendieron en él. El gerente
selecciona una muestra aleatoria de 10
representantes de ventas y determina el
número de llamadas de ventas que cada uno
hizo el mes pasado y el número de copiadoras
que vendió.
17
Representante de Ventas Número de Llamadas Número de copiadoras vendidas
Tom Keller 20 30
Jeff Hall 40 60
Brian Virost 20 40
Greg Fish 30 60
Susan Welch 10 30
Carlos Ramírez 10 40
Rich Niles 20 40
Mike Kiel 20 50
Mark Reynolds 20 30
Soni Jones 30 70
Calcule el coeficiente de correlación y
con el método de los mínimos
cuadrados, determine una ecuación
lineal que exprese la relación entre
ambas variables.
18
Representante Numero de Numero de copiadoras
Sx Sy
de Ventas Llamadas (x) vendidas (Y)
Tom Keller 20 30 4 225 30
Jeff Hall 40 60 324 225 270
Brian Virost 20 40 4 25 10
Greg Fish 30 60 64 225 120
Susan Welch 10 30 144 225 180
Carlos Ramírez 10 40 144 25 60
Rich Niles 20 40 4 25 10
Mike Kiel 20 50 4 25 -10
Mark Reynolds 20 30 4 225 30
Soni Jones 30 70 64 625 200
sumatoria 220 450 760 1850 900
media 22 45
desv. Estándar 9,1894 14,3372
σ(𝑥 − 𝑥)(𝑦
ҧ − 𝑦)
ത 900
𝑟= =
(𝑛 − 1)𝑆𝑥 𝑆𝑦 10 − 1 9,1894 ∗ 14,3372
= 𝟎, 𝟕𝟓𝟗𝟎
19
Estimación de los coeficientes
de regresión
𝑺𝒚 𝟏𝟒, 𝟑𝟑𝟕𝟐
𝒃 = 𝒓 = 𝟎, 𝟕𝟓𝟗𝟎 ∗ = 𝟏, 𝟏𝟖𝟒𝟐
𝑺𝒙 𝟗, 𝟏𝟖𝟗𝟒
ഥ − 𝒃ഥ
𝒂=𝒚 𝒙 = 𝟒𝟓 − 𝟏, 𝟏𝟖𝟒 ∗ 𝟐𝟐 = 𝟏𝟖, 𝟗𝟒
Donde la recta de regresión estimada es:
= 18,94 + 1,1842𝒙
𝒀
20
Estimación de los coeficientes
de regresión
En conclusión, El valor b de 1.1842
significa que por cada llamada de
ventas adicional, el vendedor debería
aumentar el número de copiadoras
vendidas en aproximadamente 1.2.
En otras palabras, cinco llamadas de
ventas adicionales en un mes
generarán más o menos seis
copiadoras más vendidas, número
determinado reemplazando
1,1842(5) = 5,921.
21
Actividad Final:
Preguntas y Respuestas
BIBLIOGRAFÍA
• Lind, Marchal, Wathen (2012).
Estadística Aplicada a los Negocios y la
Economia. México: McGraw-Hill/Irwin
• Mendenhall, Beaver, Beaver (2004).
Introduccion a la Probabilidad y
Estadística. Mexico: Cengage Learning.
• Taylor, R. A. (2012). Probabilidad y
Estadística para Ingenieros. México:
Pearson Educación.