UNIVERSIDAD PERUANA LOS ANDES
FACULTAD DE INGENIERIA
Escuela Profesional de Ingeniería Civil
PRACTICA DE REGRESION LINEAL Y NO LINEAL
1. La siguiente información corresponde a una muestra de 20 estudiantes en un Curso de
ESTADISTICA donde X = Calificaciones del I Examen e Y = Calificaciones del Examen Final.
I EXAMEN EXAMEN FINAL
Estudiante X Y
1 84 66
2 70 77
3 87 84
4 68 56
5 81 86
6 96 81
7 90 79
8 82 82
9 89 81
10 70 84
11 88 81
12 65 74
13 87 74
14 89 74
15 69 74
16 80 71
17 75 94
18 84 83
19 76 68
20 74 69
Se pide:
a) El modelo teórico de regresión lineal simple
El modelo teórico es:
Y=β0+β1X+e
Cálculo de β1:
1. Donde para el numerador:
Xˉ: Media de X=80,2
Yˉ: Media de Y=76,9
Restamos Xˉ y Yˉ de cada estudiante:
Diferencia de X de primer estudiante:
Diferencia de Y del primer estudiante:
Producto de las diferencias:
Obteniendo asi de los 20 restantes:
Sumamos los productos:
Numerador= 411,40
2. Donde para el denominador:
Denominador= 1483,2
Entonces β1:411,40/1483,2=0.277
Cálculo de β0:
Sustituyendo:
β1=54.684
Por lo tanto, el modelo es:
Y=54.684+0.277⋅X
b) El modelo estimado de regresión
Modelo estimado de regresión:
Entonces:
Y’=54.684+0.277⋅X
c) El coeficiente de correlación
De los resultadados anteriores
Numerador= 411,40
Luego: y
Del primero ya lo tenemos
= 1483,2
Del segundo :
= 1359,8
Entonces sacándoles la raíz cuadrada a ambos términos obtenemos:
Denominador =√1483,2*1359,8=1420.16
Por lo tanto, el resultado final sería:
R= 411,40/1420.16= 0.289
d) El coeficiente de determinación
Entonces: R^2=0.084
e) Si la calificación de las personas 21 y 22 son respectivamente 95 y 102, ¿cuáles
son las calificaciones finales?
2. Ciertos investigadores mostraron una correlación de r = - 0.52 entre el salario
promedio de los maestros (X) y la proporción de estudiantes que abandonan la Escuela
antes de graduarse (Y) en 120 escuelas en un país. Concluyeron que incrementar los
salarios de los maestros reduciría la tasa de deserción. Comente esas conclusiones.
Decir que aumentar los salarios de los maestros reducirá la deserción escolar es
arriesgado porque la correlación negativa (r=−0.52) no significa que una cosa
cause la otra. Pueden existir otros factores, como las condiciones de las escuelas o
el contexto social, que influyan en ambas cosas. Sin más pruebas o estudios
específicos, no se puede asegurar que subir los salarios resolverá este problema.
3. Los datos de la tabla siguiente muestran la relación entre los CI verbales y no verbales de
la prueba de inteligencia de Lorge-Thorndike (LT) y el aprovechamiento en lectura y
aritmética medido por la prueba de Iowa de habilidades básicas (ITBS). En cada grado,
cada correlación está basada en aproximadamente 2,500 alumnos representativos de la
nación.
Nivel del grado CI verbal CI no verbal
3 5 7 3 5 7
Lectura .68 .76 .81 .53 .65 .67
Aritmética .66 .72 .74 .61 .68 .71
Basado en los datos anteriores, ¿las siguientes afirmaciones son verdaderas o falsas?
a) La correlación entre las medidas de inteligencia y aprovechamiento parece
incrementarse con el grado
b) Los CI no verbales están correlacionados tan alto con el aprovechamiento como con
los CI verbales
c) Los CI verbal y no verbal tienden a correlacionarse ligeramente más alto con lectura
que con aritmética
d) La correlación entre ambas medidas de aprovechamiento y ambas medidas de
inteligencia es sustancial en cada uno de los tres grados
Respuesta
a) Verdadero.
b) Falso.
c) Parcialmente verdadero (pero depende del tipo de CI).
d) Verdadero.
4. Calcule “r” para los siguientes valores:
Identificación del estudiante
a b c d e f
Horas empleadas, X 40 20 28 15 44 8
Horas de estudio, Y 20 24 16 30 18 28
.Formula de coeficiente de correlación:
Calculos:
Reemplazando en la formula:
Entonces obtenemos
5. Calcule” r” para los siguientes pares de valores:
Identificación del estudiante
a b c d e f g
Valores de actitud, X 9 4 6 2 8 4 2
Valores de actitud, Y 4 7 8 3 6 2 4
Calculos:
Reemplazando en la formula:
Entonces obtenemos
6. Se seleccionó una muestra aleatoria de seis estudiantes para hacer un estudio piloto a fin
de investigar la relación entre velocidad de lectura y redacción (X) medida en minutos
requeridos para leer la composición y recordar en detalle el contenido (Y) medido por un
examen sobre el material presentado en la composición. Calcular la r de Pearson basada
en los datos registrados a continuación.
Identificación del estudiante
a b c d e f
Velocidad de lectura, X 10 8 15 12 14 16
Retención del contenido, Y 17 17 13 16 15 12
Sustituyendo valores en la formula
Entonces : r= -0.93
El coeficiente de correlación de Pearson (r) es aproximadamente -0.93, lo que indica una
correlación negativa fuerte entre la velocidad de lectura y la retención del contenido
7. Suponga que por observaciones solamente, estimó las estaturas (X) y pesos (Y) de cada
uno de sus compañeros de clase y que calculó el coeficiente de correlación ( r1) entre
esas observaciones. ¿Cómo se compararía este coeficiente con el coeficiente (r2)
usando datos de una báscula y una cinta métrica para determinar X y Y? ¿Por qué?
Se espera que r1 sea más pequeño que r2 porque las estimaciones basadas en lo
que una persona cree (como medir a ojo) tienden a ser más imprecisas y tienen
más margen de error.
Las mediciones objetivas, como las que se hacen con una báscula o una cinta
métrica, son más exactas y consistentes, lo que ayuda a reducir esos errores.
8. En un estudio sobre gastos (Y) e ingresos (X) mensuales, una muestra de 10 familias
dio los siguientes datos (en nuevos soles):
Y X
500 560
400 500
640 700
740 800
800 900
800 1000
900 1000
600 700
1100 1400
1200 1600
a. Trazar el diagrama de dispersión e indicar la tendencia
b. Estimar la línea de regresión muestral
Reemplazando tenemos: Y= 127.62 + 0.70X
Esto significa que, por cada aumento de 1 sol en los ingresos (X), el gasto (Y)
aumenta en 0.70 soles.
c. Interpretar el valor de los parámetros
a = 127.62
Cuando los ingresos son 0 (X = 0), se espera que el gasto sea aproximadamente 127.62 soles.
b = 0.70
Por cada sol adicional de ingreso, el gasto aumenta en promedio 0.70 soles.
d. Predecir el gasto que correspondería a un ingreso de S/. 1800 y luego para S/.
2100
X = 1800 ¨¨ Y= 127.62 + 0.70(1800) Y=S/. 1386.01.
X = 2100 ¨¨ Y= 127.62 + 0.70(2100) Y=S/. 1595.74
9. ¿Por qué son iguales los signos del coeficiente de correlación y de la pendiente de la recta
de regresión?
Los signos del coeficiente de correlación y la pendiente son iguales porque ambos
muestran si las variables aumentan juntas (positivo) o si una sube y la otra baja
(negativo).
10. Un Promotor de un CEP encargó un estudio para determinar la relación entre los
gastos de publicidad mensual por televisión y los ingresos por pensiones de enseñanza de
sus estudiantes. En el estudio se obtuvieron los siguientes resultados:
Semana Gastos de Publicidad (S/.) Ingresos por Pensiones (S/.)
1 3000 30000
2 2000 25000
3 4000 40000
4 3000 32000
5 5000 -
6 7000 75000
7 6000 63000
8 8000 93000
9 7000 70000
10 8000 84000
11 8500 90000
En el quinto mes por diversos motivos no se pudo hacer el estudio.
a) Determine la ecuación de regresión del pago de pensiones de enseñanza sobre
gastos de publicidad
Usaremos la siguiente fórmula:
Donde:
n=1
∑X=57500
∑Y=623000
∑(X⋅Y)=40,747,000
∑(X2)=374,750,000
Reemplazamos en b:
Reemplazamos en a:
Entonces la ecuación de regresión es:
Y=−396.98+10.73X
b) ¿En cuánto estimaría el pago de pensiones del quinto mes?
Usaremos la ecuación obtenida en a) y sustituiremos X = 5000.
Y=−396.98+10.73(5000) Y= S/.53,228.67
c) Hacer un análisis de la bondad del ajuste de la ecuación de regresión lineal
utilizando el coeficiente de determinación
Usaremos la formula
Donde:
Entonces: R^2=0.98
d) A partir del análisis realizado en c) ¿qué puede Ud. concluir acerca de la correlación
entre pago de pensiones de enseñanza y gastos de publicidad?
El R^2 cercano a 1 muestra que hay una correlación muy fuerte entre los gastos de
publicidad y los ingresos por pensiones.
e) Determine los pagos de pensiones de enseñanza para los meses 12 y 13, para el
efecto proyecte los gastos de publicidad
Seguimos una tendencia creciente similar a los datos proporcionados
Mes 12: Gastos de publicidad X=9000
Mes 13: Gastos de publicidad X=9500
Entonces reemplazamos en la ecuación de regresión:
Y(12)=−396.98+10.73⋅9000 Y(12)=96 173.02
Y(13)=−396.98+10.73⋅9500 Y(13)=101 538.02
11. El número de horas de estudio invertidas y las calificaciones finales en un curso de
Matemáticas de una muestra de 8 alumnos ha dado los siguientes resultados:
Alumno Horas de estudio Calificación
A1 14 12
A2 16 13
A3 22 15
A4 20 15
A5 18 17
A6 16 11
A7 18 14
A8 22 16
a) Determine la recta de regresión de la calificación sobre el número de horas de
estudios invertidos
Usaremos la siguiente fórmula:
Donde:
Calculamos el promedio de cda uno:
Horas de estudio (X): X’=18.25
Calificación (Y): Y’=14.125
Luego restamos y multiplicamos de cada estudiante:
Reemplazando en “b” obtenemos:
b= 29.75 / 59.5 = 0.5
Para “a”:
Por lo tanto la ecuacion de regresion
Y= 5 + 0.5X
b) Calcular el grado de asociación y determine si es significativo al nivel del 5%
mediante la significación de la pendiente de regresión
La fórmula para el coeficiente de correlación r es:
Hallamos los terminos que nos faltan:
Reemplazamos en la formula con los resultados obtenidos:
12. En un estudio para determinar la relación entre la edad (X) y la presión sanguínea (Y) en
una muestra aleatoria de 9 mujeres ha dado los siguientes resultados:
X 54 40 70 35 62 45 55 50 38
Y 148 123 155 115 150 126 152 144 114
a) Encuentre la ecuación de regresión estimada de Y en X y estime la presión sanguínea
para una mujer de 75 años
Usaremos la siguiente fórmula:
Donde se obtiene : Y= 69.96 + 1.33X
Para la mujer de 75 años reemplazamos en X:
Y= 69.96 + 1.33(75) Y=169.71
b) Utilice un procedimiento de análisis para probar de que no hay asociación lineal
entre X e Y
Suma de los cuadrados del error (SSE): 304.46
Error estándar de la pendiente (Sb): 0.201
Estadístico t: 6.63
Grados de libertad: 7
El valor crítico de t para α=0.05 y 7 grados de libertad es 2.36. Como ∣t∣=6.63 es mayor que
2.36, rechazamos la hipótesis nula (H0: b=0 ).
13. La función de inversión neta total para la infraestructura de un CEP se supone presenta la
forma:
Y = AXβ
En donde Y equivale a la inversión neta (en miles de dólares), X a la tasa de interés, y A, β
son constantes desconocidas. Se tiene la siguiente muestra:
X 12 8 10 7 6 5 5
Y 80 100 120 140 160 180 200
a) Determine la ecuación de regresión estimada
Transformación logarítmica:
Aplicamos ln(X) y ln(Y)
ln(X)=[2.4849,2.0794,2.3026,1.9459,1.7918,1.6094,1.6094]
ln(Y)=[4.3820,4.6052,4.7875,4.9416,5.0752,5.1929,5.2983]
Luego:
β= −0.752
C= 5.901
A= 367.02
Entonces la ecuación de regresión:
b) Predecir la inversión cuando la tasa de interés sea de 7.5
Sustituimos X=7.5 en la ecuación anterior:
Y= 131.15
14. Ajustar los siguientes datos a una curva de la forma:
Y = AeβX
X 1 2 3 4 5 6
Y 2.40 3.21 4.12 4.30 4.90 5.40
Transformación logarítmica:
Entonces la ecuacion es:
15. Ajustar la ecuación de la forma Y = a + bX a los datos:
X 1 0.5 0.4 0.25 0.2 5 5
Y 2 4 7 8 10 9 10
Ecuación de Regresion:
Y=4.96+1.14X
16. Se realiza un estudio de asociación entre las siguientes variables:
Y: gastos mensuales expresados en cientos de dólares
X1: ingreso mensual familiar en miles de dólares
X2: tamaño de la familia
En una muestra de 10 familias escogidas al azar se han encontrado los datos
que se presentan en la tabla que sigue:
Y X1 X2
45 10 8
40 9 8
38 8 6
35 7 6
32 7 5
30 6 4
28 6 3
27 4 2
25 3 2
22 2 1
a) Determinar la ecuación de regresión muestral de los datos mensuales con respecto a
las dos variables: Ingreso mensual y número de hijos
La ecuación de regresión múltiple tiene la forma:
β0 (intersección): 15.52
β1 (coeficiente de ingreso mensual): 2.36
β2 (coeficiente del tamaño de la familia): 1.47
Entonces el Ecuación de regresión:
Y=15.52 + 2.36X1 + 1.47X2
b) Interpretar los coeficientes de la regresión
β1=2.36: Por cada incremento de 1 en el ingreso mensual familiar (en miles de dólares), los
gastos mensuales aumentan en promedio 2.36 cientos de dólares, manteniendo constante el
tamaño de la familia.
β2=1.47: Por cada incremento de 1 miembro en el tamaño de la familia, los gastos
mensuales aumentan en promedio 1.47cientos de dólares, manteniendo constante el ingreso
mensual.
β0=15.52: Cuando el ingreso mensual es 0 y el tamaño de la familia es 0, el gasto mensual
estimado es 15.52 cientos de dólares. Este valor no tiene un significado práctico en este
contexto.
c) Estimar el gasto mensual para una familia de 8 hijos y cuyo ingreso mensual es $
7,000
Reemplazando en la ecuación de regresión:
Y=15.52 + 2.36(7) + 1.47(8) Y= 43.80 cientos de dólares ($4,380).
17. Se realizó un estudio de las relaciones entre las notas obtenidas en 4 materias por 10
estudiantes de ingeniería de sistemas seleccionados aleatoriamente. Las 3 variables
independientes X1, X2, X3 y la variable dependiente Y son:
Y: notas en Estadística Aplicada
X1: nota en Matemática Básica
X2: nota en Lógica
X3: nota en Economía General
Los datos son los siguientes:
Y X1 X2 X3
13 12 10 18
15 14 12 15
17 16 10 18
16 15 11 20
13 11 13 15
17 15 16 18
19 16 10 19
14 14 14 16
18 17 13 15
11 11 11 13
a) Estimar el modelo de regresión
La ecuación de regresión múltiple tiene la forma:
Entonces el Ecuación de regresión:
Y=9.18 + 0.45X1 + 0.27X2 + 0.41X3
b) Probar la significación del modelo de regresión muestral
Los p-valores para los coeficientes son:
β1 (Matemática Básica): p=0.029
β2 (Lógica): p=0.003
β3 (Economía General): p=0.021
18. Ajustar los pares de datos (x, y) que se indican en la siguiente tabla a un polinomio de la
forma Y = a + bX +cX2.
X Y
1 1 8
2 2 4
3 3 1
4 4 5
5 5 7
Realizamos una regresión polinómica de segundo grado. Usamos el método de
mínimos cuadrados para encontrar los coeficientes a, b, y c.
a=8.4
b=−4.4
c=1.4
18. Para los siguientes datos:
X 5 10 15 20 25 30 35 40 45 50
Y 19 16 15 5 15 9 11 13 8 10
Ajustar una curva de la forma:
Y = 1 / (A0 + A1X)
Ecuación:
Donde:
A0=3.93
A1=0.08
19. Los datos de la siguiente tabla recogen la inversión real (I) en educación, el rendimiento
académico (RA) en el sistema centesimal y la tasa de deserción media (r),
correspondientes al sistema educativo de un determinado país. Dichos datos
corresponden al período 1981 -2004 y está expresado en miles de unidades monetarias la
primera variable y en tanto por ciento la tasa de deserción.
AÑO I RA r
1981 80.2 10.2 9.2
1982 90.1 12.1 9.1
1983 92.3 14.4 9.0
1984 94.6 15.6 8.7
1985 110.2 18.2 9.0
1986 118.5 19.0 8.7
1987 131.6 21.7 8.3
1988 141.2 31.3 8.5
1989 147.5 34.6 8.7
1990 150.2 34.7 8.9
1991 152.3 33.5 9.1
1992 160.8 32.6 8.9
1993 182.3 41.5 8.3
1994 199.2 44.8 9.0
1995 221.4 46.7 9.1
1996 235.0 50.7 8.2
1997 248.9 56.8 8.1
1998 267.8 61.4 9.1
1999 301.2 72.5 8.7
2000 323.5 62.1 8.1
2001 345.7 61.1 8.6
2002 350.1 67.8 9.1
2003 352.8 68.9 8.5
2004 360.3 75.0 9.0
Con esta información se pide:
a) Formular un modelo teórico que permita saber los efectos que la tasa de deserción
haya tenido en el rendimiento académico
b) Estime el modelo anterior, luego:
b.1) Interprete los coeficientes obtenidos
b.2) Dar una medida de la bondad de ajuste, interpretando su significado
c) Si en la ecuación del rendimiento académico de (a) introducimos la inversión en
educación,
c.1) Formule el modelo teórico
c.2) Estime el modelo
c.3) Compare la bondad de ajuste con el modelo dado en (b)
d) Estime el rendimiento académico promedio para el 2005 en base a la proyección de la
inversión en educación y la tasa de deserción media que se mantiene constante e igual
al promedio del período.
20. Una empresa fabricante de cereales para el desayuno desea conocer la
ecuación que permita predecir las ventas (en miles de soles) en función de los gastos en
publicidad infantil en televisión (en miles de soles), la inversión en publicidad en radio (en
miles de soles) y la inversión en publicidad en los periódicos (en miles de soles). Se realiza
un estudio en el que se reúnen los datos mensuales correspondientes a los últimos 20
meses. Estos datos se muestran en la siguiente tabla:
Ventas Publicidad - TV Publicidad - radio Publicidad - periódico
10.0 1.0 50.0 0.4
12.0 1.2 57.0 0.4
11.0 1.3 56.0 0.42
13.0 1.4 55.0 0.5
12.0 1.5 60.0 0.4
14.0 1.7 65.0 0.44
16.0 1.75 69.0 0.4
12.0 1.3 67.0 0.44
14.0 1.45 68.0 0.46
11.0 0.9 67.0 0.46
10.0 0.8 97.0 0.45
19.0 0.9 66.0 1.1
8.5 0.8 65.0 0.3
8.0 1.0 60.0 0.5
9.0 1.7 70.0 0.45
13.0 1.8 110.0 0.4
16.0 1.85 75.0 0.8
18.0 1.9 80.0 0.9
20.0 2.0 85.0 0.9
22.0 2.0 90.0 1.1
Se pide:
a. Ajustar un modelo de regresión lineal múltiple. Obtener una estimación de los
parámetros del modelo y su interpretación
b. ¿Puede eliminarse alguna variable del modelo? Realiza los contrastes de
significación individuales
c. Coeficiente de determinación y de determinación corregido
Huancayo, noviembre del 2023
Dr. Casio A Torres López
PROFE
SOR DEL CURSO