0% encontró este documento útil (0 votos)
235 vistas28 páginas

Estadística Ii: Lic. Jessica Elizabeth Chalco Suárez Lic. Wilbert Colque Candia

Este documento presenta una introducción al análisis de regresión y correlación. Explica que la regresión busca determinar una relación funcional entre una variable dependiente y una o más variables independientes con el fin de estimar o predecir valores. La correlación mide el grado de relación entre variables usando un coeficiente. Luego describe los tipos de análisis (simple vs. múltiple; lineal vs. no lineal) y cómo construir y analizar diagramas de dispersión para identificar relaciones. Finalmente, resume los conceptos clave de la regresión lineal

Cargado por

Danitza D. Omar
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
235 vistas28 páginas

Estadística Ii: Lic. Jessica Elizabeth Chalco Suárez Lic. Wilbert Colque Candia

Este documento presenta una introducción al análisis de regresión y correlación. Explica que la regresión busca determinar una relación funcional entre una variable dependiente y una o más variables independientes con el fin de estimar o predecir valores. La correlación mide el grado de relación entre variables usando un coeficiente. Luego describe los tipos de análisis (simple vs. múltiple; lineal vs. no lineal) y cómo construir y analizar diagramas de dispersión para identificar relaciones. Finalmente, resume los conceptos clave de la regresión lineal

Cargado por

Danitza D. Omar
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

ESTADÍSTICA II

SESIÓN 13: Análisis de Regresión y Correlación

AUTORES : Lic. Jessica Elizabeth Chalco Suárez

: Lic. Wilbert Colque Candia


Análisis de Regresión y Correlación ESTADÍSTICA II

Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 2


Análisis de Regresión y Correlación ESTADÍSTICA II

ANÁLISIS DESCRIPTIVO Y REPRESENTACIÓN DE DATOS

En muchas aplicaciones estadísticas, se deben resolver problemas que contienen un conjunto


de variables y que se sabe existe alguna asociación entre ellas. En este conjunto de variables
se tiene una sola variable dependiente (o respuesta)Y , que depende de una o más variables
independientes (o de regresión) X 1 , X 2 , X 3 , ⋯ X n como por ejemplo:

 El salario(Y )de una persona depende de:


- Años de experiencia(X ¿ ¿1)¿
- Horas de trabajo (X ¿ ¿2)¿
- Cargo que ocupa( X ¿¿3)¿
- Categoría laboral( X ¿ ¿ 4)¿

 El rendimiento académico(Y ) depende de:


- Horas de asistencia a clase (X ¿ ¿1)¿
- Horas de estudio fuera de clase (X ¿ ¿2)¿
- Métodos de estudio (X ¿ ¿3) ¿
- Estilos de aprendizaje (X ¿ ¿ 4)¿
y=f (x )
Salario=f ( Años de exper , Hrs trab ,Cargo que ocupa , Cat Lab , ….)
Rend Acad =f ( Hrs asist clase , Hrs est fuera de clase ,… ..)
Ahorro=f (Ingreso , número de integrante por familia , … ..)

Existen dos formas distintas pero relacionadas con el estudio de la asociación entre variables a
partir de una muestra aleatoria.
 La primera, es determinar una relación funcional de la variable dependiente Y con
respecto a una o más variables independientes con el fin de predecir estos valores de
Y. Este método es el análisis de Regresión.

 La segunda forma de estudio de la asociación entre las variables es medir el grado de


relación entre ellas, mediante un coeficiente o índice (r). A esta técnica se denomina
análisis de Correlación.

Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 3


Análisis de Regresión y Correlación ESTADÍSTICA II

Los métodos de regresión y correlación entre variables se clasifican por el número de


variables independientes.
 El análisis de asociación se denomina simple, si hay una sola variable independiente,
si hay dos o más variables independientes, el análisis de asociación se denomina
múltiple.

 Por el tipo de función matemática que se puede ajustar a los datos, la asociación de las
variables puede ser lineal o no lineal (como: parabólica, exponencial, logarítmica,
etc.)

LINEAL
(Recta)
SIMPLE

ANÁLISIS DE REGRESIÓN
NO LINEAL
Busca determinar una relación (Exponencial,
funcional entre las variables, con logarítmica, …etc.)
el objetivo de estimarlas o
predecirlas.
(Modelo matemático)
MULTIPLE

ASOCIACIÓN
ENTRE
VARIABLES

SIMPLE

ANÁLISIS DE CORRELACIÓN
Busca un índice de correlación, con
el objetivo de medir el grado de
relación entre las variables
(Coeficiente o índice) MULTIPLE

DIAGRAMA DE DISPERSIÓN
El primer paso en el análisis de regresión es construir una gráfica de los datos muéstrales en el
plano cartesiano XY. Esta gráfica es denominada diagrama de dispersión, donde en el eje X se
encuentran la variable independiente, en el eje Y se encuentra la variable dependiente.
El Diagrama de Dispersión indica el tipo de tendencia de Y con respecto a X. si la tendencia
es lineal se puede ajustar una línea recta al diagrama de dispersión.

Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 4


Análisis de Regresión y Correlación ESTADÍSTICA II

TIPOS DE DIAGRAMA DE DISPERSIÓN

Existe una relación Existe una relación Existe una relación No existe ninguna
lineal positiva entre lineal negativa entre las no lineal entre las relación entre las
dos variables X , Y . dos variables X , Y .
las dos variables dos variables
También se le conoce
X , Y . También se estudiadas
como relación inversa o
le conoce como tendencia decreciente
relación directa o
tendencia creciente.

El problema de ajustar una curva a una serie de datos consiste en primer término determinar la
familia de curvas que mejor escribe el fenómeno (diagrama de dispersión). Posteriormente
realizada esta decisión se procederá a encontrar los parámetros de la curva correspondiente.
Consideremos una variable dependiente (o respuesta) Y con una sola variable independiente(o
variable independiente) X .
La regresión lineal simple es la función lineal por medio del cual se desea saber el grado de
dependencia de dos variables, es decir en qué grado las variaciones de una característica
provocan variaciones en la magnitud de la otra variable
El modelo matemático es:
Y^ i=a+b X i
Los estimadores de los parámetros son calculados a través de una muestra aleatoria ( X i , Y i ) de
tamaño n, utilizando el método de mínimos cuadrados, el cual consiste en minimizar la
suma de cuadrados de los errores ξ i=Y i −Y^ i
Las fórmulas resultado de la minimización de lo cuadrados del error cumplen los siguientes
supuestos:
1. Los errores o residuos se distribuyen normalmente alrededor de la recta de regresión
poblacional.
2. Las varianzas de los errores son las mismas en todos los valores de X
(Homocedasticidad) en caso contrario se tiene (Heterocedasticidad).

Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 5


Análisis de Regresión y Correlación ESTADÍSTICA II

3. Los errores o residuos son independientes: No se muestra algún patrón definido.


Donde:
n ∑ XY −∑ X ∑ Y ∑ Y −b ∑ X → a=Y −b X
b= y a=
n ∑ X −( ∑ X )
2 2
n n

Interpretación de los parámetros estimados:


 El valor (a) de la ecuación de regresión es la ordenada en el origen es decir el punto en
que la recta se intercepta con el eje Y .

 El valor (b) es el coeficiente de regresión mide el cambio promedio en Y cuando X


cambia una unidad de medición.
- Si b> 0 entonces, la tendencia es lineal creciente, es decir a mayores valores
de X le corresponden mayores valores de Y , también a menores valores de X
le corresponden menores valores de Y .

- Si b< 0 entonces, la tendencia es Lineal Decreciente, es decir a mayores


valores de X le corresponden menores valores de Y , también a menores valores
de X le corresponden mayores valores de Y .

- Si b=0 entonces, Y =a es decir Y permanece estacionario para cualquier valor


de X , por consiguiente no hay regresión.

2
Estimación de la varianza de la regresión lineal simple(S xy)
Una vez hallada la línea recta de regresión, nos interesa saber su utilidad, La utilidad principal
es predecir valores de Y para determinados valores de X . Si se hace una predicción nos
interesa saber, que tan buena o confiable es esa predicción. La respuesta a esta pregunta
depende de la variabilidad de los valores de Y con respecto a la recta de regresión.
Una medida que indica el grado de variabilidad o dispersión en torno a la línea de regresión es
la Varianza de la regresión, para su cálculo se utiliza la siguiente expresión:

S
2
=
∑ Y 2−a ∑ Y −b ∑ XY
xy
n−2

Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 6


Análisis de Regresión y Correlación ESTADÍSTICA II

La raíz cuadrada de la Varianza es la desviación estándar de la regresión. Este valor también


se le conoce como error estándar de estimación. Cuanto más pequeño sea la Varianza o
desviación estándar, más cercanos a la línea de regresión estarán los valores de la variable Y .
ANÁLISIS DE CORRELACIÓN

El análisis de correlación emplea métodos para medir la significación del grado o intensidad
de asociación entre dos o más variables. El concepto de correlación está estrechamente
vinculado al concepto de regresión.

COEFICIENTE DE CORRELACION LINEAL (r )

El coeficiente de correlación lineal de Pearson mide la asociación entre las variables X e Y,


para su cálculo se utiliza la siguiente relación:
( ∑ XY −n∗X∗Y )
r=
( √( ∑ X −n ( X ) )∗√(∑ Y −n (Y ) ))
2 2 2 2

El coeficiente de correlación tiene una variación de −1 ≤r ≤ 1y para su interpretación se


considera:

COEFICIENTE DE DETERMINACION ( R2 )
Es la variación explicada por la recta de regresión, es decir en qué porcentaje la variable
independiente X explica la variabilidad en la variable dependiente (o respuesta) Y. para su
cálculo se utiliza la siguiente relación:
R2=r 2∗100 %

VARIBLE
DEPENDIENTE
Y

VARIBLE VARIBLE VARIBLE VARIABLE


INDEPENDIENTE INDEPENDIENTE INDEPENDIENTE INDEPENDIENTE
x1 x2 x3 Xn

Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 7


Análisis de Regresión y Correlación ESTADÍSTICA II

Practica 1
Los siguientes datos muestran la relación entre la producción de un determinado artículo y su
correspondiente costo unitario.
X: Producción (miles)
Y: Costo Unitario (soles)

Producción(miles) 2 4 8 12 14 18 16 10
Costo Unitario (soles) 15 12 9 6 5 2 5 8

a) Realizar un análisis individual para cada variable


Estadísticas → Estadística básicas → t de 1 muestra

Seleccionar una o más muestras, cada una en una columna → ingresar las dos
variables → en opciones indicar 95% de confianza (que ya está indicado)

Estadísticas descriptivas
Error estándar IC de 95%
Muestra N Media [Link]. de la media para μ
Producción 8 10,50 5,63 1,99 (5,79; 15,21)
Costo Unitario 8 7,75 4,20 1,49 (4,24; 11,26)
μ: media de Producción; Costo Unitario

La producción promedio se encuentra entre de 5790 a 15210 unidades


El costo unitario promedio se encuentra entre S/4,2 a S/11,3

Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 8


Análisis de Regresión y Correlación ESTADÍSTICA II

b) Indicar la regla de correspondencia

X : Producción

Y : Costo unitario

A MAYOR Producción MENOR Costo unitario

c) Trazar un diagrama de dispersión para estos datos y analizar la tendencia.

Estadísticas → Regresión → Grafica de línea ajustada

Seleccionar correctamente la variable dependiente (y) y la variable independiente (x)

Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 9


Análisis de Regresión y Correlación ESTADÍSTICA II

Gráfica de línea ajustada


Costo Unitario = 15,46 - 0,7342 Producción
16 S 0,797895
R-cuad. 96,9%
14 R-cuad.(ajustado) 96,4%

12
Costo Unitario

10

0 5 10 15 20
Producción

Del diagrama de dispersion se observa: que existe una tendencia lineal decreciente

d) Encontrar un modelo para estimar el Costo unitario en función a la producción.

Como la tendencia es lineal, el modelo es:


Y^ =a+bX
^
C /U =a+ b∗Producción
La ecuación de regresión es
Nos da el
Minitab
Costo Unitario = 15,46 - 0,7342 Producción

Costo Unitario = 15,5 - 0,7 Producción

(b) es el coeficiente de regresión mide el cambio promedio en Y cuando X cambia una


unidad de medición

Interpretación: el coeficiente de regresión b=0,7

Si la producción es X = 13 entonces el costo unitario C/U = 15,5 – 0,7(13) = 6,4

Si la producción es X = 14 entonces el costo unitario C/U = 15,5 – 0,7(14) = 5,7

Por cada mil unidades que incrementa la producción, el costo unitario disminuye en promedio
en 0,7 soles

Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 10


Análisis de Regresión y Correlación ESTADÍSTICA II

e) Estimar cuanto será el costo unitario para una producción de 15 mil unidades

Costo Unitario = 15,5 - 0,7 Producción

Producción: X=15 Entonces ^


C /U =15,5−0,7 ( 15 )=5 Soles

f) Determinar si el modelo es confiable

Formulación de hipótesis
Hipótesis nula (H 0 ): β=0 el modelo no es confiable
Hipótesis alterna(H A ): β ≠ 0 el modelo es confiable

Regla de decisión: (Análisis de varianza)


- Si el valor p del análisis de varianza>0.05 entonces se acepta la hipotesis nula
- Si el valor p del análisis de varianza<0.05 entonces se rechaza lahipotesis nula

Análisis de Varianza
Fuente GL SC MC F P
Regresió 1 119,68 119,680 187,99 0,000 Nos da el
n 0 Minitab

Error 6 3,820 0,637    


Total 7 123,50      
0

Conclusión: se rechaza la hipótesis nula, es decir e l modelo es confiable

g) Determinar el coeficiente de correlación

Estadísticas → Estadísticas básicas → correlación

Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 11


Análisis de Regresión y Correlación ESTADÍSTICA II

Ingresamos las dos variables y seleccionamos coeficiente de correlación de Pearson

Correlación: Producción; Costo Unitario


Correlaciones
Correlación de -0,984
Pearson
Valor p 0,000

Interpretación: Existe una correlación negativa fuerte

h) Determinar el coeficiente de determinación

Resumen del modelo


Nos da el
R-cuad. Minitab
S R-cuad. (ajustado)

Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 12


Análisis de Regresión y Correlación ESTADÍSTICA II

0,79789 96,91% 96,39%


5

Interpretación:
La variabilidad en el costo unitario es explicada en un 96,91 % por la variabilidad en la
producción

Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 13


Análisis de Regresión y Correlación ESTADÍSTICA II

Practica 2
El siguiente cuadro muestra el índice de precios al consumidor en el transcurso de los últimos
años
X: Tiempo
Y: IPC

Tiempo (Años) 2005 2006 2007 2008 2009 2010 2011


115. 134.
IPC(porcentaje) 112.2 121.3 124.2 127.2 141.6
4 9

a) Realizar un análisis individual para cada variable


Estadísticas → Estadística básicas → t de 1 muestra

Estadísticas descriptivas
Error estándar de la
Muestra N Media [Link]. media IC de 95% para μ
Tiempo (Años) 7 2008.00 2.16 0.82 (2006.00; 2010.00)
IPC (porcentaje) 7 125.26 10.39 3.93 (115.64; 134.87)

μ: media de Tiempo (Años); IPC (porcentaje)

El tiempo promedio se encuentra entre los años 2006 a 2010


El IPC promedio se encuentra entre 115.64% a 134.87%

b) Indicar la regla de correspondencia


X: Tiempo
Y: IPC
A MAYOR tiempo que pasa es MAYOR el porcentaje del IPC

c) Trazar un diagrama de dispersión para estos datos y analizar la tendencia.


Estadísticas → Regresión → Grafica de línea ajustada

Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 14


Análisis de Regresión y Correlación ESTADÍSTICA II

Del diagrama de dispersion se observa: que existe una tendencia lineal creciente

d) Encontrar un modelo para estimar el IPC en función al tiempo

Como la tendencia es lineal, el modelo es:


Y^ =a+bX
IPC=a+ b∗Tiempo
La ecuación de regresión es
IPC (porcentaje) = - 9420 + 4.754 Tiempo (Años)
Interpretación: el coeficiente de regresión b=4.754

Si el año es X = 2007 entonces el IPC = -9420+4.754(2007) = 121.278

Si el año es X = 2008 entonces el IPC = -9420+4.754(2008) = 126.032

Por cada año que pasa, el IPC aumenta en promedio de 4.754%

e) Estimar cuanto será el índice de precios para el año 2015

IPC (porcentaje) = - 9420 + 4.754 Tiempo (Años)


Año: X=2015 Entonces IPC=−9420+ 4.754 ( 2015 )=159.31 %

f) Determinar si el modelo es confiable


Hipótesis nula: El modelo no es confiable (β=0)

Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 15


Análisis de Regresión y Correlación ESTADÍSTICA II

Hipótesis alterna: El modelo es confiable (β ≠0)


Regla de decisión: (Análisis de varianza)
Si ( P ) >0.05 entonces se acepta lahipotesis nula
Si ( P ) <0.05 entonces se rechaza la hipotesis nula
Análisis de Varianza
Fuente GL SC MC F P
Regresión 1 632.700 632.700 203.09 0.000
Error 5 15.577 3.115    
Total 6 648.277      

Conclusión: se rechaza la hipótesis nula, es decir e l modelo es confiable

g) La correlación entre las variables es positiva fuerte dado que el coeficiente de


correlación es 0,988

h) La variabilidad de la variable respuesta en nuestro caso el IPC es explicado por el


coeficiente de determinación el cual es el 97,60% otros factores que determinan la
variabilidad del IPC son:2,4%

Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 16


Análisis de Regresión y Correlación ESTADÍSTICA II

ANÁLISIS DE REGRESIÓN MÚLTIPLE


El modelo es:
Y^ =a+b1 X 1 +b 2 X 2 + …+ bn X n

Practica 1
Determinar un modelo para estimar el tiempo empleado (horas) para realizar entregas, en
función de la distancia (millas) y la cantidad de entregas (unidades)
x1 x2 y
Cantidad de
Distancia Tiempo
entregas
100 4 9,3
50 3 4,8
100 4 8,9
100 2 6,5
50 2 4,2
80 2 6,2
75 3 7,4
65 4 6
90 3 7,6
90 2 6,1

a) Realizar un análisis individual


Estadísticas → Estadística básicas → t de 1 muestra

Seleccionar una o más muestras, cada una en una columna → ingresar las dos
variables → en opciones indicar 95% de confianza (que ya está indicado)

Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 17


Análisis de Regresión y Correlación ESTADÍSTICA II

Estadísticas descriptivas
Medi Error estándar IC de 95%
Muestra N a [Link]. de la media para μ
Distancia 10 80,00 19,58 6,19 (65,99; 94,01)
Cantidad de entregas 10 2,900 0,876 0,277 (2,274; 3,526)
Tiempo 10 6,700 1,630 0,515 (5,534; 7,866)
μ: media de Distancia; Cantidad de entregas; Tiempo

La distancia promedio se encuentra entre 65,99 millas a 94,01 millas


La cantidad de entrega promedio (valor entero) es de 2 a 4 unidades
El tiempo promedio para realizar la entrega es de 5,534 horas a 7, 866 horas
b) Indicar la regla de correspondencia

X 1 : Distancia (millas)

X 2 : Cantidad de entregas (unidades)

Y : Tiempo (Horas)

A MAYOR distancia, MAYOR tiempo empleado para realizar la entrega


A MAYOR cantidad de entregas, MAYOR tiempo empleado para realizar la entrega
c) Trazar un diagrama de dispersión para estos datos y analizar la tendencia.
Grafica → Grafica de matriz. Se selecciona cada y Vs x (simple)

Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 18


Análisis de Regresión y Correlación ESTADÍSTICA II

Seleccionar correctamente la variable dependiente (y) y las variables independientes (


x 1 , x 2)

Gráfica de matriz de Tiempo vs. Distancia; Cantidad de entregas


2,0 2,5 3,0 3,5 4,0
10

8
Tiempo

4
50 75 100
Distancia Cantidad de entregas

Del diagrama de dispersión se observa una tendencia lineal creciente entre la distancia
recorrida y el tiempo, asimismo se observa una tendencia lineal creciente entre cantidad
de entregas y el tiempo.
d) Encontrar un modelo para estimar el tiempo de entrega en función de la distancia
y la cantidad de entregas
Estadísticas → regresión → regresión → ajustar modelo de regresión

Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 19


Análisis de Regresión y Correlación ESTADÍSTICA II

Seleccionar correctamente la variable dependiente (y) y las variables independientes (


x 1 , x 2)

Ecuación de regresión
Y^ =a+b1 X 1 +b 2 X 2
Tiempo = -0,869 + 0,06113 Distancia + 0,923 Cantidad de entregas

Por cada milla recorrida, el tiempo de entrega aumenta en 0,06113 horas


Por cada entrega el tiempo empleado en promedio es de 0.923 horas

Coeficientes
EE del
Término Coef Valor T Valor p FIV
coef.
Constante -0,869 0,952 -0,91 0,392
0,0611
Distancia 0,00989 6,18 0,000<0,05 1,03
3
Cantidad de entregas 0,923 0,221 4,18 0,004<0,05 1,03

e) Determinar si el modelo es confiable


Hipótesis nula: El modelo no es confiable (β=0)
Hipótesis alterna: El modelo es confiable (β ≠0)

Regla de decisión: (Análisis de varianza)


Si ( P ) >0.05 entonces se acepta lahipotesis nula
Si ( P ) <0.05 entonces se rechaza la hipotesis nula

Análisis de Varianza

Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 20


MC
Fuentey Correlación
Análisis de Regresión GL SC Ajust. Ajust. Valor F Valor p
ESTADÍSTICA II
Regresión 2 21,6006 10,8003 32,88 0,000 < 0,05
  Millas recorridas 1 12,5556 12,5556 38,22 0,000
  Cantidad de 1 5,7293 5,7293 17,44 0,004
entregas
Error 7 2,2994 0,3285    
  Falta de ajuste 6 2,2194 0,3699 4,62 0,342
  Error puro 1 0,0800 0,0800    
Total 9 23,9000      
Conclusión: se rechaza la hipótesis nula, es decir e l modelo es confiable con p = 0,000

f) Determinar el coeficiente de correlación


Estadísticas → Estadísticas básicas → correlación (ingresar las tres variables)

Correlaciones
Distancia Cantidad de entr
Cantidad de 0,162
entr
0,655
Tiempo 0,815 0,615
0,004 0,058
Contenido de la celda
         Correlación de Pearson
         Valor p

Existe una correlación positiva fuerte entre distancia recorrida y el tiempo


Existe una correlación positiva moderada entre la cantidad de entrega y el tiempo

g) Determinar el coeficiente de determinación


Resumen del modelo

Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 21


Análisis de Regresión y Correlación ESTADÍSTICA II

R-cuad.
(ajustado R-cuad.
S R-cuad. ) (pred)

0,57314 90,38% 87,63% 80,76%


2

La variabilidad en el tiempo de entrega es explicada en un 90,38% por la variabilidad en las


distancia recorrida y cantidad de entrega.
Esta en la antepenúltima

Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 22


Análisis de Regresión y Correlación ESTADÍSTICA II

Practica 2
Determinar un modelo para estimar el ingreso (miles de soles), en función de los montos en
publicidad de TV y Publicidad en periódicos (miles de soles)
x1 x2 y
Publicidad
Publicidad TV Ingreso
Periódico
5,0 3,0 96
2,0 2,0 90
4,0 2,7 95
2,5 2,5 92
3,0 3,3 95
3,5 3,1 94
2,5 4,2 94
3,0 2,5 94

a) Realizar un análisis individual

Estadísticas descriptivas
Error
estándar
de la IC de 95% para
Muestra N Media [Link]. media μ
Publicidad TV 8 3.188 0.961 0.340 (2.384; 3.991)
Publicidad Periódico 8 2.913 0.662 0.234 (2.359; 3.466)
Ingreso 8 93.750 1.909 0.675 (92.154; 95.346)
La publicidad TV promedio se encuentra entre 2,384 vistas a 3,991 vistas
La publicidad periódico (valor entero) es de 2 a 4 miles de soles
El ingreso promedio para realizar la entrega es de 92,154 a 95,346 miles de soles

b) Indicar la regla de correspondencia

X 1 : publicidad TV

X 2 : publicidad periódico

Y : ingreso (miles de soles )

A MAYOR publicidd MAYOR sera el ingreso

A MAYOR publicidad periodica MAYOR será el ingreso

c) Trazar un diagrama de dispersión para estos datos y analizar la tendencia.

Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 23


Análisis de Regresión y Correlación ESTADÍSTICA II

Del diagrama de dispersión se observa una tendencia lineal creciente entre la publicidad
TV y el ingreso, asimismo se observa una tendencia lineal creciente publicidad de
periodo e ingreso
d) Encontrar un modelo para estimar el ingreso en función del monto en publicidad en TV y
periódico

Ecuación de regresión
Ingreso = 85.16 + 1.496 Publicidad TV + 1.313 Publicidad Periódico

Por cada vista recibida el ingreso en promedio es de 1,496


Por cada
Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Constante 85.16 1.71 49.77 0.000  
Publicidad TV 1.496 0.338 4.43 0.007 1.01
Publicidad Periódico 1.313 0.491 2.68 0.044 1.01

e) Determinar si el modelo es confiable

Análisis de Varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Regresión 2 21.858 10.9289 15.00 0.008
  Publicidad TV 1 14.271 14.2715 19.59 0.007
  Publicidad Periódico 1 5.218 5.2177 7.16 0.044
Error 5 3.642 0.7284    
Total 7 25.500      

Conclusión: se acepta la hipótesis nula , es decir e l modelo no es confiable con p =


0,008

Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 24


Análisis de Regresión y Correlación ESTADÍSTICA II

Hipótesis nula: El modelo no es confiable (β=0)

Hipótesis alterna: El modelo es confiable (β ≠0)

Regla de decisión: (Análisis de varianza)


Si ( P ) >0.05 entonces se acepta la hipotesis nula
Si ( P ) <0.05 entonces se rechaza la hipotesis nula

f) Determinar el coeficiente de correlación

Correlaciones
Publicidad Publicidad
TV Periódico
Publicidad Periódico 0.119  
Ingreso 0.808 0.545

Existe una correlación positiva fuerte entre publicidad TV e ingreso


Existe una correlación positiva moderada entre la publicidad periódico e ingreso
g) Determinar el coeficiente de determinación

Resumen del modelo


R-cuad. R-cuad.
S R-cuad. (ajustado) (pred)
0.853482 85.72% 80.00% 47.09%
La variabilidad en el ingreso es explicada en un 85,72% por la variabilidad en las la publicidad
TV y la publicidad periódico

Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 25


Análisis de Regresión y Correlación ESTADÍSTICA II

TAREA GRUPAL 3

Ejercicio 1
Una cadena de comida rápida decidió realizar un experimento para averiguar la influencia de los
gastos publicitarios en las ventas. Se introdujeron diferentes cambios relativos en los gastos
publicitarios en comparación con el año anterior en ocho regiones del país y se observaron los cambios
que experimentaron las ventas como consecuencia. La tabla adjunta muestra los resultados.

Presupuesto en publicidad (miles de


0 4 14 10 9 8 6 1
soles)
Ventas (millones de unidades) 2,4 7,2 10,3 9,1 10,2 7,1 7,6 3,5

a) Realizar un análisis individual para cada variable


b) Indicar la regla de correspondencia

c) Trazar un diagrama de dispersión para estos datos y analizar la tendencia.


d) Encontrar un modelo para estimar las ventas en función al presupuesto en publicidad, Interprete
el coeficiente de regresión
e) Estimar cuanto será las ventas si el presupuesto en publicidad es 7,5
f) Determinar si el modelo es confiable
g) Determinar la correlación entre variables
h) Determinar el coeficiente de determinación

Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 26


Análisis de Regresión y Correlación ESTADÍSTICA II

Ejercicio 2
Determinar un modelo para estimar el puntaje obtenido en una evaluación para ingresar a la
PNP, en función del peso (libras) y el tiempo en realizar un recorrido (minutos)
Peso Tiempo Evaluación
340 5,38 7,4
317 5,34 6,8
330 5,46 6,7
334 5,18 6,3
308 5,32 6,1
310 5,28 6
318 5,37 6
321 5,25 6
290 5,34 5,8
328 5,31 5,3
320 5,64 5
340 5,5 5
330 4,95 8,5
355 5 8
345 5,39 7,8
307 4,98 7,6
326 5,2 7,3
320 5,36 7,1
287 5,05 6,8
332 5,26 6,8
334 5,55 6,4
312 5,15 6,3
299 5,35 6,1
333 5,39 6

a) Realizar un análisis individual


b) Indicar la regla de correspondencia
c) Trazar un diagrama de dispersión para estos datos y analizar la tendencia.
d) Encontrar un modelo para estimar el ingreso en función del monto en publicidad en TV y
periódico
e) Determinar si el modelo es confiable
f) Determinar el coeficiente de correlación
g) Determinar el coeficiente de determinación

Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 27


Análisis de Regresión y Correlación ESTADÍSTICA II

Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 28

También podría gustarte