ESTADÍSTICA II
SESIÓN 13: Análisis de Regresión y Correlación
AUTORES : Lic. Jessica Elizabeth Chalco Suárez
: Lic. Wilbert Colque Candia
Análisis de Regresión y Correlación ESTADÍSTICA II
Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 2
Análisis de Regresión y Correlación ESTADÍSTICA II
ANÁLISIS DESCRIPTIVO Y REPRESENTACIÓN DE DATOS
En muchas aplicaciones estadísticas, se deben resolver problemas que contienen un conjunto
de variables y que se sabe existe alguna asociación entre ellas. En este conjunto de variables
se tiene una sola variable dependiente (o respuesta)Y , que depende de una o más variables
independientes (o de regresión) X 1 , X 2 , X 3 , ⋯ X n como por ejemplo:
El salario(Y )de una persona depende de:
- Años de experiencia(X ¿ ¿1)¿
- Horas de trabajo (X ¿ ¿2)¿
- Cargo que ocupa( X ¿¿3)¿
- Categoría laboral( X ¿ ¿ 4)¿
El rendimiento académico(Y ) depende de:
- Horas de asistencia a clase (X ¿ ¿1)¿
- Horas de estudio fuera de clase (X ¿ ¿2)¿
- Métodos de estudio (X ¿ ¿3) ¿
- Estilos de aprendizaje (X ¿ ¿ 4)¿
y=f (x )
Salario=f ( Años de exper , Hrs trab ,Cargo que ocupa , Cat Lab , ….)
Rend Acad =f ( Hrs asist clase , Hrs est fuera de clase ,… ..)
Ahorro=f (Ingreso , número de integrante por familia , … ..)
Existen dos formas distintas pero relacionadas con el estudio de la asociación entre variables a
partir de una muestra aleatoria.
La primera, es determinar una relación funcional de la variable dependiente Y con
respecto a una o más variables independientes con el fin de predecir estos valores de
Y. Este método es el análisis de Regresión.
La segunda forma de estudio de la asociación entre las variables es medir el grado de
relación entre ellas, mediante un coeficiente o índice (r). A esta técnica se denomina
análisis de Correlación.
Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 3
Análisis de Regresión y Correlación ESTADÍSTICA II
Los métodos de regresión y correlación entre variables se clasifican por el número de
variables independientes.
El análisis de asociación se denomina simple, si hay una sola variable independiente,
si hay dos o más variables independientes, el análisis de asociación se denomina
múltiple.
Por el tipo de función matemática que se puede ajustar a los datos, la asociación de las
variables puede ser lineal o no lineal (como: parabólica, exponencial, logarítmica,
etc.)
LINEAL
(Recta)
SIMPLE
ANÁLISIS DE REGRESIÓN
NO LINEAL
Busca determinar una relación (Exponencial,
funcional entre las variables, con logarítmica, …etc.)
el objetivo de estimarlas o
predecirlas.
(Modelo matemático)
MULTIPLE
ASOCIACIÓN
ENTRE
VARIABLES
SIMPLE
ANÁLISIS DE CORRELACIÓN
Busca un índice de correlación, con
el objetivo de medir el grado de
relación entre las variables
(Coeficiente o índice) MULTIPLE
DIAGRAMA DE DISPERSIÓN
El primer paso en el análisis de regresión es construir una gráfica de los datos muéstrales en el
plano cartesiano XY. Esta gráfica es denominada diagrama de dispersión, donde en el eje X se
encuentran la variable independiente, en el eje Y se encuentra la variable dependiente.
El Diagrama de Dispersión indica el tipo de tendencia de Y con respecto a X. si la tendencia
es lineal se puede ajustar una línea recta al diagrama de dispersión.
Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 4
Análisis de Regresión y Correlación ESTADÍSTICA II
TIPOS DE DIAGRAMA DE DISPERSIÓN
Existe una relación Existe una relación Existe una relación No existe ninguna
lineal positiva entre lineal negativa entre las no lineal entre las relación entre las
dos variables X , Y . dos variables X , Y .
las dos variables dos variables
También se le conoce
X , Y . También se estudiadas
como relación inversa o
le conoce como tendencia decreciente
relación directa o
tendencia creciente.
El problema de ajustar una curva a una serie de datos consiste en primer término determinar la
familia de curvas que mejor escribe el fenómeno (diagrama de dispersión). Posteriormente
realizada esta decisión se procederá a encontrar los parámetros de la curva correspondiente.
Consideremos una variable dependiente (o respuesta) Y con una sola variable independiente(o
variable independiente) X .
La regresión lineal simple es la función lineal por medio del cual se desea saber el grado de
dependencia de dos variables, es decir en qué grado las variaciones de una característica
provocan variaciones en la magnitud de la otra variable
El modelo matemático es:
Y^ i=a+b X i
Los estimadores de los parámetros son calculados a través de una muestra aleatoria ( X i , Y i ) de
tamaño n, utilizando el método de mínimos cuadrados, el cual consiste en minimizar la
suma de cuadrados de los errores ξ i=Y i −Y^ i
Las fórmulas resultado de la minimización de lo cuadrados del error cumplen los siguientes
supuestos:
1. Los errores o residuos se distribuyen normalmente alrededor de la recta de regresión
poblacional.
2. Las varianzas de los errores son las mismas en todos los valores de X
(Homocedasticidad) en caso contrario se tiene (Heterocedasticidad).
Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 5
Análisis de Regresión y Correlación ESTADÍSTICA II
3. Los errores o residuos son independientes: No se muestra algún patrón definido.
Donde:
n ∑ XY −∑ X ∑ Y ∑ Y −b ∑ X → a=Y −b X
b= y a=
n ∑ X −( ∑ X )
2 2
n n
Interpretación de los parámetros estimados:
El valor (a) de la ecuación de regresión es la ordenada en el origen es decir el punto en
que la recta se intercepta con el eje Y .
El valor (b) es el coeficiente de regresión mide el cambio promedio en Y cuando X
cambia una unidad de medición.
- Si b> 0 entonces, la tendencia es lineal creciente, es decir a mayores valores
de X le corresponden mayores valores de Y , también a menores valores de X
le corresponden menores valores de Y .
- Si b< 0 entonces, la tendencia es Lineal Decreciente, es decir a mayores
valores de X le corresponden menores valores de Y , también a menores valores
de X le corresponden mayores valores de Y .
- Si b=0 entonces, Y =a es decir Y permanece estacionario para cualquier valor
de X , por consiguiente no hay regresión.
2
Estimación de la varianza de la regresión lineal simple(S xy)
Una vez hallada la línea recta de regresión, nos interesa saber su utilidad, La utilidad principal
es predecir valores de Y para determinados valores de X . Si se hace una predicción nos
interesa saber, que tan buena o confiable es esa predicción. La respuesta a esta pregunta
depende de la variabilidad de los valores de Y con respecto a la recta de regresión.
Una medida que indica el grado de variabilidad o dispersión en torno a la línea de regresión es
la Varianza de la regresión, para su cálculo se utiliza la siguiente expresión:
S
2
=
∑ Y 2−a ∑ Y −b ∑ XY
xy
n−2
Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 6
Análisis de Regresión y Correlación ESTADÍSTICA II
La raíz cuadrada de la Varianza es la desviación estándar de la regresión. Este valor también
se le conoce como error estándar de estimación. Cuanto más pequeño sea la Varianza o
desviación estándar, más cercanos a la línea de regresión estarán los valores de la variable Y .
ANÁLISIS DE CORRELACIÓN
El análisis de correlación emplea métodos para medir la significación del grado o intensidad
de asociación entre dos o más variables. El concepto de correlación está estrechamente
vinculado al concepto de regresión.
COEFICIENTE DE CORRELACION LINEAL (r )
El coeficiente de correlación lineal de Pearson mide la asociación entre las variables X e Y,
para su cálculo se utiliza la siguiente relación:
( ∑ XY −n∗X∗Y )
r=
( √( ∑ X −n ( X ) )∗√(∑ Y −n (Y ) ))
2 2 2 2
El coeficiente de correlación tiene una variación de −1 ≤r ≤ 1y para su interpretación se
considera:
COEFICIENTE DE DETERMINACION ( R2 )
Es la variación explicada por la recta de regresión, es decir en qué porcentaje la variable
independiente X explica la variabilidad en la variable dependiente (o respuesta) Y. para su
cálculo se utiliza la siguiente relación:
R2=r 2∗100 %
VARIBLE
DEPENDIENTE
Y
VARIBLE VARIBLE VARIBLE VARIABLE
INDEPENDIENTE INDEPENDIENTE INDEPENDIENTE INDEPENDIENTE
x1 x2 x3 Xn
Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 7
Análisis de Regresión y Correlación ESTADÍSTICA II
Practica 1
Los siguientes datos muestran la relación entre la producción de un determinado artículo y su
correspondiente costo unitario.
X: Producción (miles)
Y: Costo Unitario (soles)
Producción(miles) 2 4 8 12 14 18 16 10
Costo Unitario (soles) 15 12 9 6 5 2 5 8
a) Realizar un análisis individual para cada variable
Estadísticas → Estadística básicas → t de 1 muestra
Seleccionar una o más muestras, cada una en una columna → ingresar las dos
variables → en opciones indicar 95% de confianza (que ya está indicado)
Estadísticas descriptivas
Error estándar IC de 95%
Muestra N Media [Link]. de la media para μ
Producción 8 10,50 5,63 1,99 (5,79; 15,21)
Costo Unitario 8 7,75 4,20 1,49 (4,24; 11,26)
μ: media de Producción; Costo Unitario
La producción promedio se encuentra entre de 5790 a 15210 unidades
El costo unitario promedio se encuentra entre S/4,2 a S/11,3
Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 8
Análisis de Regresión y Correlación ESTADÍSTICA II
b) Indicar la regla de correspondencia
X : Producción
Y : Costo unitario
A MAYOR Producción MENOR Costo unitario
c) Trazar un diagrama de dispersión para estos datos y analizar la tendencia.
Estadísticas → Regresión → Grafica de línea ajustada
Seleccionar correctamente la variable dependiente (y) y la variable independiente (x)
Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 9
Análisis de Regresión y Correlación ESTADÍSTICA II
Gráfica de línea ajustada
Costo Unitario = 15,46 - 0,7342 Producción
16 S 0,797895
R-cuad. 96,9%
14 R-cuad.(ajustado) 96,4%
12
Costo Unitario
10
0 5 10 15 20
Producción
Del diagrama de dispersion se observa: que existe una tendencia lineal decreciente
d) Encontrar un modelo para estimar el Costo unitario en función a la producción.
Como la tendencia es lineal, el modelo es:
Y^ =a+bX
^
C /U =a+ b∗Producción
La ecuación de regresión es
Nos da el
Minitab
Costo Unitario = 15,46 - 0,7342 Producción
Costo Unitario = 15,5 - 0,7 Producción
(b) es el coeficiente de regresión mide el cambio promedio en Y cuando X cambia una
unidad de medición
Interpretación: el coeficiente de regresión b=0,7
Si la producción es X = 13 entonces el costo unitario C/U = 15,5 – 0,7(13) = 6,4
Si la producción es X = 14 entonces el costo unitario C/U = 15,5 – 0,7(14) = 5,7
Por cada mil unidades que incrementa la producción, el costo unitario disminuye en promedio
en 0,7 soles
Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 10
Análisis de Regresión y Correlación ESTADÍSTICA II
e) Estimar cuanto será el costo unitario para una producción de 15 mil unidades
Costo Unitario = 15,5 - 0,7 Producción
Producción: X=15 Entonces ^
C /U =15,5−0,7 ( 15 )=5 Soles
f) Determinar si el modelo es confiable
Formulación de hipótesis
Hipótesis nula (H 0 ): β=0 el modelo no es confiable
Hipótesis alterna(H A ): β ≠ 0 el modelo es confiable
Regla de decisión: (Análisis de varianza)
- Si el valor p del análisis de varianza>0.05 entonces se acepta la hipotesis nula
- Si el valor p del análisis de varianza<0.05 entonces se rechaza lahipotesis nula
Análisis de Varianza
Fuente GL SC MC F P
Regresió 1 119,68 119,680 187,99 0,000 Nos da el
n 0 Minitab
Error 6 3,820 0,637
Total 7 123,50
0
Conclusión: se rechaza la hipótesis nula, es decir e l modelo es confiable
g) Determinar el coeficiente de correlación
Estadísticas → Estadísticas básicas → correlación
Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 11
Análisis de Regresión y Correlación ESTADÍSTICA II
Ingresamos las dos variables y seleccionamos coeficiente de correlación de Pearson
Correlación: Producción; Costo Unitario
Correlaciones
Correlación de -0,984
Pearson
Valor p 0,000
Interpretación: Existe una correlación negativa fuerte
h) Determinar el coeficiente de determinación
Resumen del modelo
Nos da el
R-cuad. Minitab
S R-cuad. (ajustado)
Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 12
Análisis de Regresión y Correlación ESTADÍSTICA II
0,79789 96,91% 96,39%
5
Interpretación:
La variabilidad en el costo unitario es explicada en un 96,91 % por la variabilidad en la
producción
Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 13
Análisis de Regresión y Correlación ESTADÍSTICA II
Practica 2
El siguiente cuadro muestra el índice de precios al consumidor en el transcurso de los últimos
años
X: Tiempo
Y: IPC
Tiempo (Años) 2005 2006 2007 2008 2009 2010 2011
115. 134.
IPC(porcentaje) 112.2 121.3 124.2 127.2 141.6
4 9
a) Realizar un análisis individual para cada variable
Estadísticas → Estadística básicas → t de 1 muestra
Estadísticas descriptivas
Error estándar de la
Muestra N Media [Link]. media IC de 95% para μ
Tiempo (Años) 7 2008.00 2.16 0.82 (2006.00; 2010.00)
IPC (porcentaje) 7 125.26 10.39 3.93 (115.64; 134.87)
μ: media de Tiempo (Años); IPC (porcentaje)
El tiempo promedio se encuentra entre los años 2006 a 2010
El IPC promedio se encuentra entre 115.64% a 134.87%
b) Indicar la regla de correspondencia
X: Tiempo
Y: IPC
A MAYOR tiempo que pasa es MAYOR el porcentaje del IPC
c) Trazar un diagrama de dispersión para estos datos y analizar la tendencia.
Estadísticas → Regresión → Grafica de línea ajustada
Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 14
Análisis de Regresión y Correlación ESTADÍSTICA II
Del diagrama de dispersion se observa: que existe una tendencia lineal creciente
d) Encontrar un modelo para estimar el IPC en función al tiempo
Como la tendencia es lineal, el modelo es:
Y^ =a+bX
IPC=a+ b∗Tiempo
La ecuación de regresión es
IPC (porcentaje) = - 9420 + 4.754 Tiempo (Años)
Interpretación: el coeficiente de regresión b=4.754
Si el año es X = 2007 entonces el IPC = -9420+4.754(2007) = 121.278
Si el año es X = 2008 entonces el IPC = -9420+4.754(2008) = 126.032
Por cada año que pasa, el IPC aumenta en promedio de 4.754%
e) Estimar cuanto será el índice de precios para el año 2015
IPC (porcentaje) = - 9420 + 4.754 Tiempo (Años)
Año: X=2015 Entonces IPC=−9420+ 4.754 ( 2015 )=159.31 %
f) Determinar si el modelo es confiable
Hipótesis nula: El modelo no es confiable (β=0)
Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 15
Análisis de Regresión y Correlación ESTADÍSTICA II
Hipótesis alterna: El modelo es confiable (β ≠0)
Regla de decisión: (Análisis de varianza)
Si ( P ) >0.05 entonces se acepta lahipotesis nula
Si ( P ) <0.05 entonces se rechaza la hipotesis nula
Análisis de Varianza
Fuente GL SC MC F P
Regresión 1 632.700 632.700 203.09 0.000
Error 5 15.577 3.115
Total 6 648.277
Conclusión: se rechaza la hipótesis nula, es decir e l modelo es confiable
g) La correlación entre las variables es positiva fuerte dado que el coeficiente de
correlación es 0,988
h) La variabilidad de la variable respuesta en nuestro caso el IPC es explicado por el
coeficiente de determinación el cual es el 97,60% otros factores que determinan la
variabilidad del IPC son:2,4%
Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 16
Análisis de Regresión y Correlación ESTADÍSTICA II
ANÁLISIS DE REGRESIÓN MÚLTIPLE
El modelo es:
Y^ =a+b1 X 1 +b 2 X 2 + …+ bn X n
Practica 1
Determinar un modelo para estimar el tiempo empleado (horas) para realizar entregas, en
función de la distancia (millas) y la cantidad de entregas (unidades)
x1 x2 y
Cantidad de
Distancia Tiempo
entregas
100 4 9,3
50 3 4,8
100 4 8,9
100 2 6,5
50 2 4,2
80 2 6,2
75 3 7,4
65 4 6
90 3 7,6
90 2 6,1
a) Realizar un análisis individual
Estadísticas → Estadística básicas → t de 1 muestra
Seleccionar una o más muestras, cada una en una columna → ingresar las dos
variables → en opciones indicar 95% de confianza (que ya está indicado)
Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 17
Análisis de Regresión y Correlación ESTADÍSTICA II
Estadísticas descriptivas
Medi Error estándar IC de 95%
Muestra N a [Link]. de la media para μ
Distancia 10 80,00 19,58 6,19 (65,99; 94,01)
Cantidad de entregas 10 2,900 0,876 0,277 (2,274; 3,526)
Tiempo 10 6,700 1,630 0,515 (5,534; 7,866)
μ: media de Distancia; Cantidad de entregas; Tiempo
La distancia promedio se encuentra entre 65,99 millas a 94,01 millas
La cantidad de entrega promedio (valor entero) es de 2 a 4 unidades
El tiempo promedio para realizar la entrega es de 5,534 horas a 7, 866 horas
b) Indicar la regla de correspondencia
X 1 : Distancia (millas)
X 2 : Cantidad de entregas (unidades)
Y : Tiempo (Horas)
A MAYOR distancia, MAYOR tiempo empleado para realizar la entrega
A MAYOR cantidad de entregas, MAYOR tiempo empleado para realizar la entrega
c) Trazar un diagrama de dispersión para estos datos y analizar la tendencia.
Grafica → Grafica de matriz. Se selecciona cada y Vs x (simple)
Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 18
Análisis de Regresión y Correlación ESTADÍSTICA II
Seleccionar correctamente la variable dependiente (y) y las variables independientes (
x 1 , x 2)
Gráfica de matriz de Tiempo vs. Distancia; Cantidad de entregas
2,0 2,5 3,0 3,5 4,0
10
8
Tiempo
4
50 75 100
Distancia Cantidad de entregas
Del diagrama de dispersión se observa una tendencia lineal creciente entre la distancia
recorrida y el tiempo, asimismo se observa una tendencia lineal creciente entre cantidad
de entregas y el tiempo.
d) Encontrar un modelo para estimar el tiempo de entrega en función de la distancia
y la cantidad de entregas
Estadísticas → regresión → regresión → ajustar modelo de regresión
Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 19
Análisis de Regresión y Correlación ESTADÍSTICA II
Seleccionar correctamente la variable dependiente (y) y las variables independientes (
x 1 , x 2)
Ecuación de regresión
Y^ =a+b1 X 1 +b 2 X 2
Tiempo = -0,869 + 0,06113 Distancia + 0,923 Cantidad de entregas
Por cada milla recorrida, el tiempo de entrega aumenta en 0,06113 horas
Por cada entrega el tiempo empleado en promedio es de 0.923 horas
Coeficientes
EE del
Término Coef Valor T Valor p FIV
coef.
Constante -0,869 0,952 -0,91 0,392
0,0611
Distancia 0,00989 6,18 0,000<0,05 1,03
3
Cantidad de entregas 0,923 0,221 4,18 0,004<0,05 1,03
e) Determinar si el modelo es confiable
Hipótesis nula: El modelo no es confiable (β=0)
Hipótesis alterna: El modelo es confiable (β ≠0)
Regla de decisión: (Análisis de varianza)
Si ( P ) >0.05 entonces se acepta lahipotesis nula
Si ( P ) <0.05 entonces se rechaza la hipotesis nula
Análisis de Varianza
Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 20
MC
Fuentey Correlación
Análisis de Regresión GL SC Ajust. Ajust. Valor F Valor p
ESTADÍSTICA II
Regresión 2 21,6006 10,8003 32,88 0,000 < 0,05
Millas recorridas 1 12,5556 12,5556 38,22 0,000
Cantidad de 1 5,7293 5,7293 17,44 0,004
entregas
Error 7 2,2994 0,3285
Falta de ajuste 6 2,2194 0,3699 4,62 0,342
Error puro 1 0,0800 0,0800
Total 9 23,9000
Conclusión: se rechaza la hipótesis nula, es decir e l modelo es confiable con p = 0,000
f) Determinar el coeficiente de correlación
Estadísticas → Estadísticas básicas → correlación (ingresar las tres variables)
Correlaciones
Distancia Cantidad de entr
Cantidad de 0,162
entr
0,655
Tiempo 0,815 0,615
0,004 0,058
Contenido de la celda
Correlación de Pearson
Valor p
Existe una correlación positiva fuerte entre distancia recorrida y el tiempo
Existe una correlación positiva moderada entre la cantidad de entrega y el tiempo
g) Determinar el coeficiente de determinación
Resumen del modelo
Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 21
Análisis de Regresión y Correlación ESTADÍSTICA II
R-cuad.
(ajustado R-cuad.
S R-cuad. ) (pred)
0,57314 90,38% 87,63% 80,76%
2
La variabilidad en el tiempo de entrega es explicada en un 90,38% por la variabilidad en las
distancia recorrida y cantidad de entrega.
Esta en la antepenúltima
Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 22
Análisis de Regresión y Correlación ESTADÍSTICA II
Practica 2
Determinar un modelo para estimar el ingreso (miles de soles), en función de los montos en
publicidad de TV y Publicidad en periódicos (miles de soles)
x1 x2 y
Publicidad
Publicidad TV Ingreso
Periódico
5,0 3,0 96
2,0 2,0 90
4,0 2,7 95
2,5 2,5 92
3,0 3,3 95
3,5 3,1 94
2,5 4,2 94
3,0 2,5 94
a) Realizar un análisis individual
Estadísticas descriptivas
Error
estándar
de la IC de 95% para
Muestra N Media [Link]. media μ
Publicidad TV 8 3.188 0.961 0.340 (2.384; 3.991)
Publicidad Periódico 8 2.913 0.662 0.234 (2.359; 3.466)
Ingreso 8 93.750 1.909 0.675 (92.154; 95.346)
La publicidad TV promedio se encuentra entre 2,384 vistas a 3,991 vistas
La publicidad periódico (valor entero) es de 2 a 4 miles de soles
El ingreso promedio para realizar la entrega es de 92,154 a 95,346 miles de soles
b) Indicar la regla de correspondencia
X 1 : publicidad TV
X 2 : publicidad periódico
Y : ingreso (miles de soles )
A MAYOR publicidd MAYOR sera el ingreso
A MAYOR publicidad periodica MAYOR será el ingreso
c) Trazar un diagrama de dispersión para estos datos y analizar la tendencia.
Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 23
Análisis de Regresión y Correlación ESTADÍSTICA II
Del diagrama de dispersión se observa una tendencia lineal creciente entre la publicidad
TV y el ingreso, asimismo se observa una tendencia lineal creciente publicidad de
periodo e ingreso
d) Encontrar un modelo para estimar el ingreso en función del monto en publicidad en TV y
periódico
Ecuación de regresión
Ingreso = 85.16 + 1.496 Publicidad TV + 1.313 Publicidad Periódico
Por cada vista recibida el ingreso en promedio es de 1,496
Por cada
Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Constante 85.16 1.71 49.77 0.000
Publicidad TV 1.496 0.338 4.43 0.007 1.01
Publicidad Periódico 1.313 0.491 2.68 0.044 1.01
e) Determinar si el modelo es confiable
Análisis de Varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Regresión 2 21.858 10.9289 15.00 0.008
Publicidad TV 1 14.271 14.2715 19.59 0.007
Publicidad Periódico 1 5.218 5.2177 7.16 0.044
Error 5 3.642 0.7284
Total 7 25.500
Conclusión: se acepta la hipótesis nula , es decir e l modelo no es confiable con p =
0,008
Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 24
Análisis de Regresión y Correlación ESTADÍSTICA II
Hipótesis nula: El modelo no es confiable (β=0)
Hipótesis alterna: El modelo es confiable (β ≠0)
Regla de decisión: (Análisis de varianza)
Si ( P ) >0.05 entonces se acepta la hipotesis nula
Si ( P ) <0.05 entonces se rechaza la hipotesis nula
f) Determinar el coeficiente de correlación
Correlaciones
Publicidad Publicidad
TV Periódico
Publicidad Periódico 0.119
Ingreso 0.808 0.545
Existe una correlación positiva fuerte entre publicidad TV e ingreso
Existe una correlación positiva moderada entre la publicidad periódico e ingreso
g) Determinar el coeficiente de determinación
Resumen del modelo
R-cuad. R-cuad.
S R-cuad. (ajustado) (pred)
0.853482 85.72% 80.00% 47.09%
La variabilidad en el ingreso es explicada en un 85,72% por la variabilidad en las la publicidad
TV y la publicidad periódico
Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 25
Análisis de Regresión y Correlación ESTADÍSTICA II
TAREA GRUPAL 3
Ejercicio 1
Una cadena de comida rápida decidió realizar un experimento para averiguar la influencia de los
gastos publicitarios en las ventas. Se introdujeron diferentes cambios relativos en los gastos
publicitarios en comparación con el año anterior en ocho regiones del país y se observaron los cambios
que experimentaron las ventas como consecuencia. La tabla adjunta muestra los resultados.
Presupuesto en publicidad (miles de
0 4 14 10 9 8 6 1
soles)
Ventas (millones de unidades) 2,4 7,2 10,3 9,1 10,2 7,1 7,6 3,5
a) Realizar un análisis individual para cada variable
b) Indicar la regla de correspondencia
c) Trazar un diagrama de dispersión para estos datos y analizar la tendencia.
d) Encontrar un modelo para estimar las ventas en función al presupuesto en publicidad, Interprete
el coeficiente de regresión
e) Estimar cuanto será las ventas si el presupuesto en publicidad es 7,5
f) Determinar si el modelo es confiable
g) Determinar la correlación entre variables
h) Determinar el coeficiente de determinación
Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 26
Análisis de Regresión y Correlación ESTADÍSTICA II
Ejercicio 2
Determinar un modelo para estimar el puntaje obtenido en una evaluación para ingresar a la
PNP, en función del peso (libras) y el tiempo en realizar un recorrido (minutos)
Peso Tiempo Evaluación
340 5,38 7,4
317 5,34 6,8
330 5,46 6,7
334 5,18 6,3
308 5,32 6,1
310 5,28 6
318 5,37 6
321 5,25 6
290 5,34 5,8
328 5,31 5,3
320 5,64 5
340 5,5 5
330 4,95 8,5
355 5 8
345 5,39 7,8
307 4,98 7,6
326 5,2 7,3
320 5,36 7,1
287 5,05 6,8
332 5,26 6,8
334 5,55 6,4
312 5,15 6,3
299 5,35 6,1
333 5,39 6
a) Realizar un análisis individual
b) Indicar la regla de correspondencia
c) Trazar un diagrama de dispersión para estos datos y analizar la tendencia.
d) Encontrar un modelo para estimar el ingreso en función del monto en publicidad en TV y
periódico
e) Determinar si el modelo es confiable
f) Determinar el coeficiente de correlación
g) Determinar el coeficiente de determinación
Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 27
Análisis de Regresión y Correlación ESTADÍSTICA II
Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 28