ANALISIS REGRESION Y
CORRELACION
LINEAL SIMPLE
UNIDAD IV
ANALISIS DE CORRELACION LINEAL
SIMPLE
Es útil para analizar si existe o no
relación entre las variables
Dos formas:
Gráfica
Analítica
Forma Gráfica
Coeficiente de Correlación Lineal
Simple
Forma Analítica
Forma Analítica
𝑛 σ 𝑥𝑦−σ 𝑥 σ 𝑦
𝑟 =
𝑛 σ 𝑥2− σ 𝑥 2 𝑛 σ 𝑦2− σ 𝑦 2
fuerte moderada Poca moderada fuerte
-1 - 0.5 0 0.5 1
Coeficiente de Correlación Lineal
Simple
Mide el grado o intensidad con que la variables se
relación.
-1 ≤ r ≤ 1 r positivo ; r negativo ; r = 1 ; r = -1 ; r = 0
r 1
r -1
r 0
r ± 0.5
Ejemplo
El ingreso mensual disponible y los gastos de 12 familias,
seleccionadas aleatoriamente de cierta zona de la ciudad, fueron
los siguientes ( en miles de dólares)
Gráfico de dispersión
Coeficiente de Correlación Lineal
Simple
Forma Analítica
Forma Analítica
𝑛 σ 𝑥𝑦−σ 𝑥 σ 𝑦
𝑟 =
𝑛 σ 𝑥2− σ 𝑥 2 𝑛 σ 𝑦2− σ 𝑦 2
fuerte moderada Poca moderada fuerte
-1 - 0.5 0 0.5 1
Ejemplo de coeficiente de
correlación lineal simple (miles de $)
mi
Cálculo del coeficiente de
Correlación
12∗3353−193∗162
r= =0.962454883
12∗4025− 193 2 12∗2842− 162 2
Análisis de Regresión Lineal Simple
Consiste en establecer una relación funcional entre las variables.
Es decir una línea recta que mejor se ajusta al comportamiento del conjunto de
datos.
Análisis de Regresión Lineal Simple
¿Cuántas líneas se pueden trazar en un conjunto de puntos?
Y: Ventas
X: publicidad
Análisis de Regresión Lineal Simple
Lalínea recta que mejor se ajusta al
comportamiento del conjunto de datos se
obtiene por el método de mínimos cuadrados.
Elmodelo de regresión lineal simple viene dado
por.
𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝜖 ; 𝜖 : épsilon
Y = A + BX + 𝜖
La ecuación estimada de regresión es: 𝑦ො = 𝑎 + 𝑏𝑥
a: es el intercepto con el eje y
b: es la pendiente
x: la variable independiente
𝑦ො :es el valor estimado de la
variable dependiente.
Interpretación de los coeficientes
de la ecuación de regresión
b: mide la variación de la variable
dependiente, cuando la variable
independiente se incrementa en una
unidad.
a: es el valor de la variable
dependiente cuando la variable
independiente toma el valor de cero
Análisis de regresión Lineal Simple
Fórmulas para determinar los valores de a y b de ecuación de
regresión.
𝑛 σ 𝑥𝑦−σ 𝑥 σ 𝑦
𝑏 = 𝑎 = 𝑦ത − 𝑏𝑥ҧ
𝑛 σ 𝑥2− σ 𝑥 2
Para completar el análisis de regresión necesitamos
determinar:
Error estándar de regresión. ( Sxy )
Coeficiente de determinación. ( 𝑟2 )
Hacer prueba de hipótesis.
Ejemplo de coeficiente de la
ecuación de regresión lineal simple
Cálculo de la ecuación de
regresión
La ecuación de regresión es de la forma: 𝑦ො = 𝑎 + 𝑏𝑥
Determinar los valores de a y b.
Fórmulas:
𝑛 σ 𝑥𝑦−σ 𝑥 σ 𝑦
𝑏=
𝑛 σ 𝑥2− σ 𝑥 2
ത b 𝑥ҧ
𝑎 = 𝑦-
La ecuación de regresión es: 𝑦ො = 𝑎 + 𝑏𝑥
𝑛 σ 𝑥𝑦−σ 𝑥 σ 𝑦 12∗3353−193∗162
𝑏= = = 0.81169
𝑛 σ 𝑥2− σ 𝑥 2 12∗4025−1932
162 193
ത b 𝑥ҧ =
𝑎 = 𝑦- − 0.81169 ∗ = 0.4453
12 12
La ecuación de regresión es: 𝑦ො = 0.4453 + 0.81169𝑥
Interpretación de los coeficientes
X: Ingreso (miles de $)
Y: Consumo (miles de $)
b = 0.81169
Si el ingreso aumenta $1000.00, el consumo aumentará
$811.69
a = 0.4453
Si no hay ingresos en la familia, el consumo $445.3
Graficar la ecuación de regresión
Gráfico de la ecuación de
regresión lineal simple
Análisis de regresión Lineal Simple
Análisis de regresión Lineal Simple
Error estándar de regresión (Sxy)
Fórmula para Sxy
σ 𝑦−𝑦ො 2
𝑆𝑥𝑦 =
𝑛−2
En forma Abreviada
Ejemplo de error estándar de
regresión
Cálculo del error estándar de
regresión o de estimación.
2842−0.445299∗162−0.81169∗3353
𝑆𝑥𝑦 = = 2.196834
12−2
b = 0.81169 a = 0.445299
Coeficiente de Determinación ( 𝑟 ) 2
Mide la variación de la proporción de la
variable dependiente que es explicada por la
línea de regresión.
También se le llama bondad de ajuste
Fórmula
𝑟 2 = 𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 2
0 ≤ 𝑟2 ≤ 1
Coeficiente de Determinación
𝑟 2 = 0.962454883 2 = 0.926319403
Prueba de hipótesis o prueba de
significancia.
Para verificar si un modelo lineal de la forma Y = A +
BX + ξ , la variable independiente x afecta a la
variable respuesta y, el parámetro B debe ser
diferente de cero.
Elprocedimiento para inferir esta verificación consiste
en comprobar el sistema de hipótesis:
Ho :B=0
Ha :B≠0
Ho : B = 0 (No existe relación lineal entre x e y)
Ha : B ≠ 0 (Existe relación lineal entre x e y)
Usaremos la Prueba F de Fisher o la prueba t
de student ambas arrojan similares resultados
Prueba de hipótesis o prueba de
significancia.( Usando t)
Calculo del estadístico de prueba t
𝑏
𝑡= donde 𝑆𝑏 es el error estándar de la pendiente
𝑆𝑏
𝑆𝑥𝑦
𝑆𝑏 = donde 𝑆𝑥𝑦 es el error estándar de
σ 𝑥 2 −𝑛𝑥ҧ 2
regresión
Regla de rechazo: Se rechaza Ho, si 𝑡 ≥ 𝑡∝/2
O bien Se rechaza Ho, si valor p ≤
Prueba de hipótesis o prueba de
significancia.
Prueba de hipótesis usando la prueba F
Usando la prueba F
Formulas.
𝑆𝐶𝑅 = σ 𝑦 ො − 𝑦ത 2
SCR : Suma de Cuadrados debido a la
Regresión
𝑆𝐶𝐸 = σ 𝑦 − 𝑦 ො 2
SCE: Suma de Cuadrados debido al error.
𝑆𝐶𝑇 = σ 𝑦 − 𝑦 ത 2
SCT : Suma de cuadrados total.
Además SCT = SCR + SCE
Ejemplo de prueba de hipótesis
usando la prueba t
Tomando el ejemplo anterior donde x: Ingreso y: Consumo
Ho: B = 0
Ha : B ≠ 0
𝑏
Estadístico de prueba t. 𝑡 =
𝑆𝑏
𝑆𝑥𝑦 2.196834
𝑆𝑏 = = = 0.072391416
σ 𝑥 2 −𝑛𝑥ҧ 2 4025−12∗(16.08)2
Sustituyendo los valores: b= 0.811691249
𝑏 0.811691249
𝑡= = = 11.2125 (valor del estadístico de prueba)
𝑆𝑏 0.072391416
Calculando el valor crítico del
estadístico t
Grados de libertad : n-2 = 12-2 = 10
Nivel de significación = 0.05
Como es una prueba de dos colas
se utiliza /2 = 0.025
Valor Critico 𝑡∝/2 = 2.228
Regla de rechazo. Se rechaza Ho. Si 𝑡 ≥ 𝑡∝/2
Como 11.21 ≥ 2.228 Se rechaza Ho.
Es decir existe una relación lineal entre la variable ingreso y
consumo.
Utilizando el método del valor_p.
El estadístico de prueba es t =11.21
grados de libertad gl = 10
Entonces valor_p < 0.005
Se rechaza Ho si valor_p ≤ . Se
cumple. Por tanto se rechaza Ho.
Usando la prueba F
Ho : B= 0
Ha : B ≠ 0
Completar la tabla ANOVA
CMR
CME
Usando la prueba F
Ho : B = 0
Ha : B ≠ 0
Estadístico de prueba
𝐶𝑀𝑅 606.739209
𝐹 = = =125.72
𝐶𝑀𝐸 𝟒.𝟖𝟐𝟔𝟎𝟕𝟗𝟎𝟗
Regla de Rechazo
Método del valor crítico Se rechaza Ho, Si F ≥ F
F ? (valor crítico)
Gl del numerador = 1;
Gl del denominador = n-2 = 12-2=10
Nivel de significación = 0.05
F = 4.96 (valor crítico)
F = 4.96 (valor crítico)
F = 125.72 (estadístico de prueba)
Se rechaza Ho, si F ≥ F
Se cumple que F ≥ F. Es decir 125.72 ≥ 4.96
Por tanto se rechaza Ho.
Método del valor_p
Regla de rechazo. Se rechaza Ho, si valor_p ≤
= 0.05
Estadística de prueba F = 125.72
Valor_p ≤ 0.01
Efectivamente
valor_p ≤
Conclusión
Se rechaza Ho
Estimaciones usando la ecuación de regresión
La ecuación de regresión es: 𝑦ො = 0.4453 + 0.81169𝑥
a)Estimar el consumo de una familia cuyo ingreso es de
$11,000.00
Ingreso X = 11 sustituyendo en la ecuación de regresión
𝑦ො = 0.4453 + 0.81169𝑥
𝑦ො = 0.4453 + 0.81169 11 = 9.3739
R/ Una familia cuyo ingreso es de $11,000.00
se estima que consume $ 9, 373.9
•Se tiene información del monto de consumo en tarjetas de crédito en El
salvador (millones de dólares) para el período 2011-2017.
Fuente: Revista Trimestral BCR
Año 2011 2012 2013 2014 2015 2016 2017
Consumo con tarjetas de
crédito
622.5 697.4 788.9 872.4 896.5 944.3 965.0
(millones de dólares)
•Grafique el diagrama de dispersion
•Determine el grado en que las variables están relacionadas
•Ajuste una función de estimación para el valor del consumo mediante el uso de
tarjetas de crédito, en función del tiempo.
•Proyecte para el año 2018 el valor del consumo con tarjetas de crédito
•Es muy confiable la bondad de ajuste?
•Determine si la relación es significativa, a un nivel del 5% de significancia
Año Consumo Diagrama de dispersión
2011 622.5
2012 697.4
2013 788.9
2014 872.4
2015 896.5
2016 944.3
2017 965
Resumen
Estadísticas de la regresión
Coeficiente de
correlación múltiple 0.974613697 𝑟
Coeficiente de
determinación R^2 0.949871859 𝒓2
R^2 ajustado 0.939846231
Error típico 31.62559429 Sxy
Observaciones 7
ANÁLISIS DE VARIANZA
Grados de libertad Suma de cuadrados Promedio de los cuadrados F Valor crítico de F
Regresión 1 94761.2575 94761.2575 94.7443727 0.000194545 Valor_p
Residuos 5 5000.891071 1000.178214
Total 6 99762.14857
Superio Inferior Superio
Coeficientes Error típico Estadístico t Probabilidad Inferior 95% r 95% 95.0% r 95.0%
- - -
a 85395.5 147279. 85395.5
Intercepción -116337.7357 12037.03047 -9.664986392 0.00020125 -147279.9076 638 908 638
b 73.5385 42.8114 73.5385
Año 58.175 5.97667554 9.733672108 0.00019455 42.81146642 336 664 336
•Determine el grado en que las variables están
relacionadas Coeficiente de
Estadísticas de la regresión
correlación múltiple 0.974613697
Coeficiente de
r = 0.974613697 determinación R^2 0.949871859
R^2 ajustado 0.939846231
Error típico 31.62559429
Observaciones 7
R/ Existe una fuerte y positiva relación entre las variables año y
consumo con tarjetas de créditos
•Ajuste una función de estimación para el valor del consumo mediante el uso de
tarjetas de crédito, en función del tiempo.
Probabi
Coeficientes Error típico Estadístico t lidad
a = -116337.7357 b = 58.175 0.00020
Intercepción -116337.7357 12037.03047 -9.664986392 125
0.00019
Año 58.175 5.97667554 9.733672108 455
𝑦ො = −116337.7357 + 58.175 𝒙
Consumo
1200
y = 58.175x - 116338
1000
800
600
400
200
0
2010 2011 2012 2013 2014 2015 2016 2017 2018
•Proyecte para el año 2018 el valor del consumo con tarjetas de crédito
𝑦ො = −116337.7357 + 58.175 𝒙
Año 2018 X = 2018
𝑦ො = −116337.7357 + 58.175 𝟐𝟎𝟏𝟖 = 𝟏, 𝟎𝟓𝟗. 𝟒𝟏
Para el año 2018 se estima que el consumo con tarjetas de crédito es de 1,059.41 millones
de dólares
Estadísticas de la regresión
Coeficiente de
•Es muy confiable la bondad de ajuste? correlación múltiple 0.974613697
Coeficiente de
determinación R^2 0.949871859
𝒓𝟐 = 0.949871859 R^2 ajustado 0.939846231
Error típico 31.62559429
Observaciones 7
En un 94.98% es la variación del consumo con tarjetas de crédito que es
explicada por la ecuación de regresión
•Determine si la relación entre año y consumo de tarjetas de crédito es
significativa, a un nivel del 5% de significancia
Ho : B = 0
H1 : B ≠ 0
ANÁLISIS DE
VARIANZA
Grados de libertad Suma de cuadrados Promedio de los cuadrados F Valor crítico de F
Usando el método del valor_p Regresión 1 94761.2575 94761.2575 94.7443727 0.000194545
Residuos 5 5000.891071 1000.178214
Total 6 99762.14857
Se rechaza Ho, si valor_p ≤
Valor_p =0.000194545
= 0.05
Se cumple que valor_p ≤ . Por tanto se rechaza Ho
Es decir existe una relación lineal entre las variables año y consumo de
tarjetas de crédito
Prueba de hipótesis acerca del coeficiente de regresión individual
La variable año es significativa en la ecuación de
regresión para un 𝛼 = 5%