Estadística Aplicada II: Guía de Curso
Estadística Aplicada II: Guía de Curso
Estadística Aplicada II
MA145
Cuaderno de trabajo
Área de Ciencias
2023
Contenido
Busca que el estudiante aplique técnicas y herramientas de estadística inferencial para analizar información y
con esto, proponer alternativas de solución a los problemas propios del contexto de su especialidad. Durante
el curso, se resuelven proyectos grupales con el propósito de generar las habilidades necesarias en los
estudiantes para diseñar propuestas de proyectos de investigación aplicada.
El razonamiento cuantitativo se refiere al conjunto de habilidades que despliega una persona para
comprender, analizar, argumentar, tomar decisiones y generar estrategias para la solución de situaciones que
contengan información que pueda ser tratada de manera cuantitativa.
Interpretación
Da significado a información numérica en diversos formatos en situaciones de contexto real.
Representación
Describe mediante expresiones matemáticas y/o estadísticas, situaciones de contexto real.
Cálculo
Utiliza algoritmos y procedimientos estándar de la matemática y/o estadística en situaciones de contexto real.
Análisis y argumentación
Sustenta los resultados y su aplicación práctica, planteando una solución
Estadística Aplicada II 202301 7
Logro de la Unidad
Al finalizar la Unidad 1, el estudiante utiliza herramientas de inferencia estadística para responder problemas
en situaciones de contexto real que implica la comprobación de hipótesis sobre una o más poblaciones.
Temario
• Estimación de parámetros: puntual y por intervalos (IC)
• Estimación por intervalos para una media y una proporción
• Prueba de hipótesis (PH): Conceptos generales y tipos de errores
• Prueba de hipótesis para una media y proporción
• Prueba de hipótesis para el cociente de varianzas
• Prueba de hipótesis para diferencia de medias
• Prueba de hipótesis para diferencia de proporciones
Bibliografía
Unidad 1. Inferencia estadística 8
Realice el cuestionario sobre saberes previos para autoevaluar sus conocimientos sobre Estadística.
[Link]
Parámetro es una medición numérica que Dato estadístico es una medición numérica
describe algunas características de una que describe algunas características de una
población (Triola, 2018, p. 13). muestra (Triola, 2018, p. 13).
Tamaño poblacional: N Tamaño de muestra: n
Ejercicios
2. Se sabe por estudios anteriores que el diámetro de cierto tubo de acero (𝑋) es una variable aleatoria que
se distribuye normalmente con media 3 y variación de 0,25 pulgadas. Si se selecciona un tubo al azar, la
probabilidad de que su diámetro supere las 3,1 pulgadas. En base al contexto presentado, responda las
siguientes preguntas:
a. ¿Cuál es la variable?
b. ¿Qué distribución tiene?
c. ¿Cuáles son sus parámetros?
d. ¿Cómo representa simbólicamente la probabilidad solicita?
e. ¿Cuál es la respuesta a la pregunta formulada?
a. 𝑍0,95
-4 -3 -2 -1 0 1 2 3 4
Z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
1.7 0.95543 0.95637 0.95728 0.95818 0.95907 0.95994 0.96080 0.96164 0.96246 0.96327
1.8 0.96407 0.96485 0.96562 0.96638 0.96712 0.96784 0.96856 0.96926 0.96995 0.97062
1.9 0.97128 0.97193 0.97257 0.97320 0.97381 0.97441 0.97500 0.97558 0.97615 0.97670
2.0 0.97725 0.97778 0.97831 0.97882 0.97932 0.97982 0.98030 0.98077 0.98124 0.98169
b. 𝑍0,025
-4 -3 -2 -1 0 1 2 3 4
Unidad 1. Inferencia estadística 10
Z -0.09 -0.08 -0.07 -0.06 -0.05 -0.04 -0.03 -0.02 -0.01 -0.00
-2.1 0.01426 0.01463 0.01500 0.01539 0.01578 0.01618 0.01659 0.01700 0.01743 0.01786
-2.0 0.01831 0.01876 0.01923 0.01970 0.02018 0.02068 0.02118 0.02169 0.02222 0.02275
-1.9 0.02330 0.02385 0.02442 0.02500 0.02559 0.02619 0.02680 0.02743 0.02807 0.02872
-1.8 0.02938 0.03005 0.03074 0.03144 0.03216 0.03288 0.03362 0.03438 0.03515 0.03593
-1.7 0.03673 0.03754 0.03836 0.03920 0.04006 0.04093 0.04182 0.04272 0.04363 0.04457
c. 𝑍0,99
-4 -3 -2 -1 0 1 2 3 4
Z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
2.1 0.98214 0.98257 0.98300 0.98341 0.98382 0.98422 0.98461 0.98500 0.98537 0.98574
2.2 0.98610 0.98645 0.98679 0.98713 0.98745 0.98778 0.98809 0.98840 0.98870 0.98899
2.3 0.98928 0.98956 0.98983 0.99010 0.99036 0.99061 0.99086 0.99111 0.99134 0.99158
2.4 0.99180 0.99202 0.99224 0.99245 0.99266 0.99286 0.99305 0.99324 0.99343 0.99361
2.5 0.99379 0.99396 0.99413 0.99430 0.99446 0.99461 0.99477 0.99492 0.99506 0.99520
d. 𝑍0,01
-4 -3 -2 -1 0 1 2 3 4
Z -0.09 -0.08 -0.07 -0.06 -0.05 -0.04 -0.03 -0.02 -0.01 -0.00
-2.5 0.00480 0.00494 0.00508 0.00523 0.00539 0.00554 0.00570 0.00587 0.00604 0.00621
-2.4 0.00639 0.00657 0.00676 0.00695 0.00714 0.00734 0.00755 0.00776 0.00798 0.00820
-2.3 0.00842 0.00866 0.00889 0.00914 0.00939 0.00964 0.00990 0.01017 0.01044 0.01072
-2.2 0.01101 0.01130 0.01160 0.01191 0.01222 0.01255 0.01287 0.01321 0.01355 0.01390
-2.1 0.01426 0.01463 0.01500 0.01539 0.01578 0.01618 0.01659 0.01700 0.01743 0.01786
e. 𝑇(0,025;15)
-4 -3 -2 -1 0 1 2 3 4
0.4 0.3 0.2 0.15 0.1 0.05 0.04 0.03 0.025 0.02 0.015 0.01 0.005
13 0.25859 0.5375 0.87015 1.07947 1.35017 1.77093 1.89887 2.06004 2.16037 2.2816 2.43585 2.65031 3.01228 13
14 0.25821 0.53655 0.86805 1.07628 1.34503 1.76131 1.8875 2.04617 2.14479 2.26378 2.4149 2.62449 2.97684 14
15 0.25789 0.53573 0.86624 1.07353 1.34061 1.75305 1.87774 2.03429 2.13145 2.24854 2.39701 2.60248 2.94671 15
16 0.2576 0.53501 0.86467 1.07114 1.33676 1.74588 1.86928 2.024 2.11991 2.23536 2.38155 2.58349 2.92078 16
17 0.25735 0.53438 0.86328 1.06903 1.33338 1.73961 1.86187 2.015 2.10982 2.22385 2.36805 2.56693 2.89823 17
18 0.25712 0.53382 0.86205 1.06717 1.33039 1.73406 1.85534 2.00707 2.10092 2.2137 2.35618 2.55238 2.87844 18
Estadística Aplicada II 202301 11
f. 𝑇(0,975;15)
-4 -3 -2 -1 0 1 2 3 4
0.4 0.3 0.2 0.15 0.1 0.05 0.04 0.03 0.025 0.02 0.015 0.01 0.005
13 0.25859 0.5375 0.87015 1.07947 1.35017 1.77093 1.89887 2.06004 2.16037 2.2816 2.43585 2.65031 3.01228 13
14 0.25821 0.53655 0.86805 1.07628 1.34503 1.76131 1.8875 2.04617 2.14479 2.26378 2.4149 2.62449 2.97684 14
15 0.25789 0.53573 0.86624 1.07353 1.34061 1.75305 1.87774 2.03429 2.13145 2.24854 2.39701 2.60248 2.94671 15
16 0.2576 0.53501 0.86467 1.07114 1.33676 1.74588 1.86928 2.024 2.11991 2.23536 2.38155 2.58349 2.92078 16
17 0.25735 0.53438 0.86328 1.06903 1.33338 1.73961 1.86187 2.015 2.10982 2.22385 2.36805 2.56693 2.89823 17
18 0.25712 0.53382 0.86205 1.06717 1.33039 1.73406 1.85534 2.00707 2.10092 2.2137 2.35618 2.55238 2.87844 18
g. 𝑇(0,05;12)
-4 -3 -2 -1 0 1 2 3 4
0.4 0.3 0.2 0.15 0.1 0.05 0.04 0.03 0.025 0.02 0.015 0.01 0.005
11 0.25956 0.53994 0.87553 1.08767 1.36343 1.79588 1.92843 2.09614 2.20099 2.32814 2.49066 2.71808 3.10581 11
12 0.25903 0.53862 0.87261 1.08321 1.35622 1.78229 1.91231 2.07644 2.17881 2.30272 2.4607 2.681 3.05454 12
13 0.25859 0.5375 0.87015 1.07947 1.35017 1.77093 1.89887 2.06004 2.16037 2.2816 2.43585 2.65031 3.01228 13
14 0.25821 0.53655 0.86805 1.07628 1.34503 1.76131 1.8875 2.04617 2.14479 2.26378 2.4149 2.62449 2.97684 14
15 0.25789 0.53573 0.86624 1.07353 1.34061 1.75305 1.87774 2.03429 2.13145 2.24854 2.39701 2.60248 2.94671 15
Unidad 1. Inferencia estadística 12
h. 𝐹(0,025; 3; 5)
0 1 2 3 4 5 6
v1
𝛼 v2 1 2 3 4 5 6 7 8 9 10
0.050 2 18.51 19.00 19.16 19.25 19.30 19.33 19.35 19.37 19.38 19.40
0.025 38.51 39.00 39.17 39.25 39.30 39.33 39.36 39.37 39.39 39.40
0.010 98.50 99.00 99.16 99.25 99.30 99.33 99.36 99.38 99.39 99.40
0.005 198.50 199.01 199.16 199.24 199.30 199.33 199.36 199.38 199.39 199.39
0.050 3 10.13 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.81 8.79
0.025 17.44 16.04 15.44 15.10 14.88 14.73 14.62 14.54 14.47 14.42
0.010 34.12 30.82 29.46 28.71 28.24 27.91 27.67 27.49 27.34 27.23
0.005 55.55 49.80 47.47 46.20 45.39 44.84 44.43 44.13 43.88 43.68
0.050 4 7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 6.00 5.96
0.025 12.22 10.65 9.98 9.60 9.36 9.20 9.07 8.98 8.90 8.84
0.010 21.20 18.00 16.69 15.98 15.52 15.21 14.98 14.80 14.66 14.55
0.005 31.33 26.28 24.26 23.15 22.46 21.98 21.62 21.35 21.14 20.97
0.050 5 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77 4.74
0.025 10.01 8.43 7.76 7.39 7.15 6.98 6.85 6.76 6.68 6.62
0.010 16.26 13.27 12.06 11.39 10.97 10.67 10.46 10.29 10.16 10.05
0.005 22.78 18.31 16.53 15.56 14.94 14.51 14.20 13.96 13.77 13.62
i. 𝐹(0,975; 3; 5)
0 1 2 3 4 5 6
v1
𝛼 v2 1 2 3 4 5 6 7 8 9 10
0.050 3 10.13 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.81 8.79
0.025 17.44 16.04 15.44 15.10 14.88 14.73 14.62 14.54 14.47 14.42
0.010 34.12 30.82 29.46 28.71 28.24 27.91 27.67 27.49 27.34 27.23
0.005 55.55 49.80 47.47 46.20 45.39 44.84 44.43 44.13 43.88 43.68
0.050 4 7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 6.00 5.96
0.025 12.22 10.65 9.98 9.60 9.36 9.20 9.07 8.98 8.90 8.84
0.010 21.20 18.00 16.69 15.98 15.52 15.21 14.98 14.80 14.66 14.55
0.005 31.33 26.28 24.26 23.15 22.46 21.98 21.62 21.35 21.14 20.97
0.050 5 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77 4.74
0.025 10.01 8.43 7.76 7.39 7.15 6.98 6.85 6.76 6.68 6.62
0.010 16.26 13.27 12.06 11.39 10.97 10.67 10.46 10.29 10.16 10.05
0.005 22.78 18.31 16.53 15.56 14.94 14.51 14.20 13.96 13.77 13.62
Estadística Aplicada II 202301 13
Propiedad de la distribución F
Se cumple que:
1
𝐹𝛼,𝑚,𝑛 =
𝐹1−𝛼,𝑛,𝑚
Por ejemplo:
1 1
𝐹0,05;10;12 = 0,343 = =
2,913 𝐹0,95;12,10
j. 𝐹(0,01; 5; 4)
0 1 2 3 4 5 6
v1
𝛼 v2 1 2 3 4 5 6 7 8 9 10
0.050 3 10.13 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.81 8.79
0.025 17.44 16.04 15.44 15.10 14.88 14.73 14.62 14.54 14.47 14.42
0.010 34.12 30.82 29.46 28.71 28.24 27.91 27.67 27.49 27.34 27.23
0.005 55.55 49.80 47.47 46.20 45.39 44.84 44.43 44.13 43.88 43.68
0.050 4 7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 6.00 5.96
0.025 12.22 10.65 9.98 9.60 9.36 9.20 9.07 8.98 8.90 8.84
0.010 21.20 18.00 16.69 15.98 15.52 15.21 14.98 14.80 14.66 14.55
0.005 31.33 26.28 24.26 23.15 22.46 21.98 21.62 21.35 21.14 20.97
0.050 5 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77 4.74
0.025 10.01 8.43 7.76 7.39 7.15 6.98 6.85 6.76 6.68 6.62
0.010 16.26 13.27 12.06 11.39 10.97 10.67 10.46 10.29 10.16 10.05
0.005 22.78 18.31 16.53 15.56 14.94 14.51 14.20 13.96 13.77 13.62
0.050 6 5.99 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.10 4.06
0.025 8.81 7.26 6.60 6.23 5.99 5.82 5.70 5.60 5.52 5.46
0.010 13.75 10.92 9.78 9.15 8.75 8.47 8.26 8.10 7.98 7.87
0.005 18.63 14.54 12.92 12.03 11.46 11.07 10.79 10.57 10.39 10.25
Unidad 1. Inferencia estadística 14
Estimación por intervalo
La estimación por intervalo establece un intervalo dentro del cual es muy probable que se encuentre el
parámetro poblacional.
El coeficiente de confianza (1 − 𝛼) se usa para indicar la probabilidad de que una estimación por intervalo
contenga al parámetro poblacional.
Bibliografía
• Triola, M. (2013). Estadística. 11va. Edición. Pearson Educación, México, D.F. Capítulo 7. Sección 7.1, 7.2 y
7.4.
• Montgomery, D. y Runger, G. (2005). Probabilidad y Estadística Aplicadas a la Ingeniería. México, D.F.:
Limusa Wiley. Capítulo 8. Sección 8.3 y 8.5.
En el Perú hay casi 20 millones votantes, pero solo se encuesta a 1214 peruanos,
¿se puede confiar en los resultados de las encuestas?
Estadística Aplicada II 202301 15
Se cumple que la variable aleatoria 𝑇 sigue una distribución 𝑡 con 𝑛 − 1 grados de libertad.
𝑋̅ − 𝜇
𝑇= ~𝑡𝑛−1
𝑆
√𝑛
donde:
𝑥̅ ≔ promedio muestral
𝜇 ≔ promedio poblacional
𝑆 ≔ desviación estándar muestral
𝑛 ≔ tamaño de la muestra
Esto significa que para una variable aleatoria 𝑋̅, con un tamaño de muestra 𝑛, se cumple:
𝑋̅ − 𝜇
𝑃 (−𝑡α/2 ≤ 𝑠 ≤ −𝑡α/2 ) = 1 − α
√𝑛
𝑆
Multiplicamos .
√𝑛
𝑠 𝑠
𝑃 (−𝑡α/2 ≤ 𝑋̅ − 𝜇 ≤ −𝑡α/2 ) =1−α
√𝑛 √𝑛
Sumamos 𝑋̅.
𝑠 𝑠
𝑃 (𝑥̅ −𝑡α/2 ≤ 𝜇 ≤ 𝑥̅ − 𝑡α/2 )=1−α
√𝑛 √𝑛
𝛼 𝛼
1−𝛼
2 2
-𝑡𝛼;𝑛−1 𝑡𝛼;𝑛−1
2 2
Finalmente, despejando el parámetro (𝜇) se obtiene la fórmula del intervalo de confianza (𝐼𝐶) para la media
poblacional cuando la varianza poblacional se desconoce:
𝑠 𝑠
𝑃 (𝑥̅ − 𝑡(𝛼;𝑛−1) ≤ 𝜇 ≤ 𝑥̅ + 𝑡(𝛼;𝑛−1) )=1−𝛼
2 √𝑛 2 √𝑛
Unidad 1. Inferencia estadística 16
El límite inferior de confianza (𝐿𝐼𝐶) es:
𝑠
𝐿𝐼𝐶(𝜇) = 𝑥̅ − 𝑡(𝛼;𝑛−1)
2 √𝑛
𝑠
𝐿𝑆𝐶(𝜇) = 𝑥̅ + 𝑡(𝛼;𝑛−1)
2 √𝑛
Cualquiera o ambas de estas condiciones se satisfacen: la población está normalmente distribuida o 𝑛 > 30.
Estadística Aplicada II 202301 17
Solución
El valor 𝑡, que deja un área de 0,005 a la derecha y por lo tanto un área de 0.995 a la izquierda, es:
𝛼 𝛼
= 0,005 1 - 𝛼 =0,99 = 0,005
2 2
-𝑡𝛼;𝑛−1 𝑡𝛼;𝑛−1
2 2
Usando la tabla 𝑡 de Student, buscamos dentro en la primera columna el valor de 𝑛 − 1 = 101 − 1 = 100
𝛼 𝛼
grados de libertad y en la primera fila el valor de 2 , el valor más cercano a 2 = 0,005.
Luego, entramos dentro de la tabla, de donde:
𝑡𝛼;𝑛−1 = 2,62589
2
0.15 0.1 0.05 0.04 0.03 0.025 0.02 0.015 0.01 0.005
95 1.04212 1.29053 1.66105 1.76961 1.90352 1.98525 2.08233 2.20317 2.36624 2.62858 95
100 1.04184 1.29007 1.66023 1.76866 1.90237 1.98397 2.08088 2.2015 2.36422 2.62589 100
105 1.04158 1.28967 1.6595 1.76779 1.90133 1.98282 2.07958 2.19998 2.36239 2.62347 105
𝑠 𝑠
𝑥̅ − 𝑡(𝛼;𝑛−1) ≤ 𝜇 ≤ 𝑥̅ + 𝑡(𝛼;𝑛−1)
2 √𝑛 2 √𝑛
3900 3900
23500 − 2,62589 ≤ 𝜇 ≤ 23500 + 2,62589
√101 √101
Tenemos un 99% de confianza de que el intervalo de 22481 y 24519 kilómetros realmente contiene el valor
verdadero del número promedio de kilómetros manejados por los propietarios de automóviles residentes en
Arequipa.
Con 99% de confianza entre 22481 y 24519 kilómetros; se encontrará el número promedio de kilómetros
manejados por los propietarios de automóviles residentes en Arequipa.
Ejemplo 2
En un estudio de contaminación del aire realizado en una estación experimental, de 40 muestras diferentes
de aire se obtuvieron los montos de materia orgánica suspendida soluble en benceno (en microorganismos
por metro cúbico), los cuáles fueron procesados con el software Minitab.
Estadísticas descriptivas
N Media [Link]. Error estándar de la media IC de 98% para μ
40 2.6880 0.5890 0.0931 (2.4621, 2.9139)
μ: media de población de Muestra
Suponiendo que la población muestreada es normal, interprete un intervalo de confianza de 98% para el
verdadero promedio.
Solución
La variable es:
𝑋: = cantidad de materia orgánica suspendida soluble en benceno, en microorganismos por metro cúbico
De la tabla presentada, se concluye que el intervalo que va de 2.462 a 2.914 microorganismos por m 3 ofrece
un 98% de confianza de contener a la verdadera media de la materia orgánica suspendida soluble en benceno.
Unidad 1. Inferencia estadística 20
Ejercicios
La empresa Forte S.A.C está evaluando la posibilidad de introducir el proceso de fabricación sin costura
estirado en frío y con esto esperaría mejorar la calidad del producto. En esta primera etapa de evaluación,
se debe validar si con este nuevo proceso de fabricación se logra producir tubos de tres pulgadas de
diámetro, conforme exige la norma técnica. Para esto, se toma una muestra simple aleatoria de 16 tubos
fabricados con este nuevo proceso y se les mide su diámetro (en pulgadas).
Se conoce que el diámetro de los tubos de acero es una variable aleatoria que responde a una distribución
normal. Verifique con 98% de confianza si la norma técnica, en cuanto al diámetro medio, se cumple.
Definición: Resuelve situaciones problemáticas en contexto real utilizando datos numéricos a través de la
interpretación, representación, calculo, análisis y argumentación.
Dimensión de representación: Describe mediante Estimación: Describe la variable, su distribución, el (los) parámetro(s) y
expresiones matemáticas y/o estadísticas, situaciones de estadísticos utilizando correctamente las notaciones y representaciones
contexto real. simbólicas
Dimensión de cálculo: Utiliza algoritmos y procedimientos Estimación: Calcula la estimación puntual, el margen de error, el límite
estándar de la matemática y/o estadística en situaciones de inferior y superior del intervalo de confianza que permita resolver la
contexto real. situación problemática en un contexto real
Dimensión de análisis y argumentación: Sustenta los Estimación: Sustenta el resultado del intervalo utilizando un lenguaje formal
resultados y su aplicación práctica, planteando una solución estadístico y brinda alguna alternativa de respuesta a la situación
problemática
5. La compañía Jugos S.A. envasa limonada congelada en lastas cuyo peso medio es de 16 onzas. Diariamente
se controla que el estándar se cumpla, para esto se elige ocho latas y se registra su peso. La tabla siguiente
muestra los resultados obtenidos durante un día de la última semana.
Asuma que el peso de las latas tiene distribución normal. Estime con nivel de confianza del 98%, el peso
promedio de las latas. ¿No se cumplió el estándar?
Unidad 1. Inferencia estadística 22
Intervalo de confianza para una proporción
Se cumple que la variable aleatoria proporción muestral 𝑃, sigue una distribución normal.
𝑃 − 𝑝̂
𝑍= ≈ 𝑁(0; 1)
√𝑝̂ (1 − 𝑝̂ )
𝑛
La fórmula del intervalo de confianza de la proporción se deduce a partir del requisito que la distribución de
proporciones muestrales que es aproximadamente normal, donde 𝑋 sigue una distribución binomial (𝑛, 𝑝).
𝑃 − 𝑝̂
𝑃 −𝑍1−𝛼 ≤ ≤ 𝑍1−𝛼 =1−𝛼
√𝑝̂ (1 − 𝑝̂ )
2 2
( 𝑛 )
𝑝̂(1−𝑝̂)
Multiplicamos por √ 𝑛
.
𝑝̂ (1 − 𝑝̂ ) 𝑝̂ (1 − 𝑝̂ )
𝑃 (−𝑍1−𝛼 √ ≤ 𝑃 − 𝑝̂ ≤ 𝑍1−𝛼 √ )=1−𝛼
2 𝑛 2 𝑛
Sumamos 𝑝̂ .
𝑝̂ (1 − 𝑝̂ ) 𝑝̂ (1 − 𝑝̂ )
𝑃 (𝑝̂ − 𝑍1−𝛼 √ ≤ 𝑃 ≤ 𝑝̂ + 𝑍1−𝛼 √ )=1−𝛼
2 𝑛 2 𝑛
𝑝̂ (1 − 𝑝̂ ) 𝑝̂ (1 − 𝑝̂ )
𝑃 (𝑝̂ − 𝑍1−𝛼 √ ≤ 𝑃 ≤ 𝑝̂ + 𝑍1−𝛼 √ )=1−𝛼
2 𝑛 2 𝑛
𝛼 𝛼
2 1-𝛼 2
𝑝̂(1−𝑝̂) 𝑝̂(1−𝑝̂)
𝑝̂ − 𝑍1−𝛼 √ 𝑛
𝑝̂ + 𝑍1−𝛼 √ 𝑛
2 2
El coeficiente de confianza es 1 − 𝛼.
Estadística Aplicada II 202301 23
El límite inferior de confianza (𝐿𝐼𝐶) es:
𝑝̂ (1 − 𝑝̂ )
𝐿𝐼𝐶(𝑝) = 𝑝̂ − 𝑍1−𝛼 √
2 𝑛
𝑝̂ (1 − 𝑝̂ )
𝐿𝑆𝐶(𝑝) = 𝑝̂ + 𝑍1−𝛼 √
2 𝑛
Calcule un intervalo de confianza de 99% de confianza para la proporción de hombres de dicha zona que tienen
este desorden sanguíneo.
Solución
La estimación puntual de 𝑝 es 𝑝̂ , es decir:
24
𝑝̂ = = 0,24
100
El valor 𝑍, que deja un área de 0,005 a la derecha y, por lo tanto, un área de 0.995 a la izquierda es 𝑍0,995 =
2,58. De aquí que el intervalo de confianza del 99% es:
𝛼 𝛼
= 0,005 1 - 𝛼 =0,99 = 0,005
2 2
−𝑧1−𝛼 𝑧1−𝛼
2 2
Usando la tabla normal estándar, buscamos dentro de la tabla, el valor más cercano a 0,995 (0,99506). Luego,
salimos hacia los bordes de la tabla, de donde:
𝑍1−𝛼 = 2,58
2
z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
2,4 0,99180 0,99202 0,99224 0,99245 0,99266 0,99286 0,99305 0,99324 0,99343 0,99361
2,5 0,99379 0,99396 0,99413 0,99430 0,99446 0,99461 0,99477 0,99492 0,99506 0,99520
2,6 0,99534 0,99547 0,99560 0,99573 0,99585 0,99598 0,99609 0,99621 0,99632 0,99643
𝑝̂ (1 − 𝑝̂ ) 𝑝̂ (1 − 𝑝̂ )
𝑝̂ − 𝑍1−𝛼 √ ≤ 𝑝 ≤ 𝑝̂ + 𝑍1−𝛼 √
2 𝑛 2 𝑛
0,13 ≤ 𝑝 ≤ 0,35
Unidad 1. Inferencia estadística 26
Con 99% de confianza entre 0,13 y 0,35 se encontrará la proporción de hombres de dicha zona que tienen este
desorden sanguíneo.
Ejercicios
6. Los últimos estudios destacan que los empresarios consideran que el éxito de
asumir un rol ejecutivo no solo depende de su desempeño sino
principalmente con la forma de enfrentar la labor diaria, efectivizando la
administración del tiempo.
En el CADE 2021, se encuestó a una muestra al azar de 500 ejecutivos participantes del CADE y se indagó
sobre la principal competencia que tiene un ejecutivo actualmente, obteniéndose los siguientes
resultados:
200
Cantidad de ejecutivos
150
225
100
50 100 95 60
20
0
Capacidad de Empatía y calidez Eficiencia en la Pasión y dedicación Otro
realizar tareas en administración del
paralelo tiempo
Principal competencia
La CEO de la empresa Potencial Global supone que “menos del 25% de los participantes del CADE
consideran que la eficiencia en la administración del tiempo es la principal competencia que tienen los
ejecutivos de hoy”. De confirmarse este supuesto, lanzará un diplomado sobre gestión del tiempo. Sobre
la base de los datos recolectados en la muestra, ¿es correcto lo que afirma la CEO?
Bibliografía
• Triola, M. (2013). Estadística. 11va. Edición. Pearson Educación, México, D.F. Capítulo 8. Sección 8.1, 8.2,
8.3 y 8.5
Partiendo de los resultados obtenidos de la muestra, o bien rechazamos la hipótesis nula a favor de la
alternativa, o bien no rechazamos la hipótesis nula y suponemos que nuestra estimación inicial del parámetro
poblacional podría ser correcto.
El hecho de no rechazar la hipótesis nula no implica que ésta sea cierta. Significa simplemente que los datos
de la muestra son insuficientes para inducir un rechazo de la hipótesis nula.
Contraste de hipótesis
Hipótesis nula
La hipótesis nula 𝐻0 (status quo – lo que debe ser) es la afirmación de que el valor de un parámetro
poblacional, como una proporción, media o varianza, es igual a un valor establecido.
El término nula se usa para indicar ningún cambio, ningún efecto o ninguna diferencia.
La hipótesis nula se prueba en forma directa, en el sentido de que suponemos que es verdadera, y llegamos a
una conclusión para rechazarla o no.
Hipótesis alternativa
La hipótesis alternativa 𝐻1 o 𝐻𝑎 , es la hipótesis del investigador, es decir, es la afirmación de que el parámetro
tiene un valor que, de alguna manera, difiere de la hipótesis nula.
Triola, M. (2013) Estadística. 11va Edición Pearson, pp. 395
Ejemplo 4
𝐻0 : La media del tiempo de atención a un cliente por un cajero de un banco es de tres minutos
𝐻1 1: La media del tiempo de atención a un cliente por un cajero de un banco es menor a tres minutos
La notación es:
𝐻0 𝜇≥3
𝐻1 𝜇<3
La notación es:
𝐻0 𝑝 ≤ 0,70
𝐻1 𝑝 > 0,70
Unidad 1. Inferencia estadística 30
Error tipo I
Es el error que se comete al rechazar la hipótesis nula cuando ésta es realmente verdadera.
El valor α es fijado por la persona que realiza la investigación, por lo general, en 0,01; 0,05 o 0,10.
Error tipo II
Es el error que se comete al no rechazar la hipótesis nula H0 cuando ésta en realidad es falsa.
Paso 4: Suposiciones
Estadístico de prueba
En este paso se selecciona el respectivo estadístico de prueba, es decir, la fórmula que se utilizará para realizar
el contraste. Esta depende del parámetro sometido a prueba y de la información muestral disponible.
Ejemplo 5
Si se desea establecer una prueba de hipótesis para la media con varianza poblacional 𝜎 2 desconocida, el
estadístico de prueba sigue una distribución t de Student.
𝑋̅ − 𝜇0
𝑇= ~𝑡𝑛−1
𝑆
√𝑛
Ejemplo 6
Si se desea establecer una prueba de hipótesis para la proporción, el estadístico de prueba sigue una
distribución normal estándar.
𝑝 − 𝑝0
𝑍= ~𝑁(𝜇 = 0; 𝜎 2 = 1)
√𝑝0 (1 − 𝑝0 )
𝑛
Las regiones críticas están limitadas por los valores críticos. Si va prueba es de una cola, hay un valor crítico,
pero si la prueba es de dos colas, hay dos valores críticos. Por ello, es importante determinar de manera
correcta si una prueba de hipótesis es de cola izquierda, de dos colas o de cola derecha.
Los valores críticos se calculan de acuerdo con la distribución del estadístico de prueba, que puede ser t -
Student, normal, chi cuadrado, F de Fisher, etc.
𝛼
Región crítica Valor crítico
𝐻0 𝜃 ≥ 𝜃0
𝐻1 𝜃 < 𝜃0
Unidad 1. Inferencia estadística 32
Prueba de dos colas (bilateral)
La región crítica se encuentra en las dos regiones (colas) extremas bajo la curva.
𝛼/2 𝛼/2
Región crítica Valor crítico 1 Valor crítico 2 Región crítica
𝐻0 𝜃 = 𝜃0
𝐻1 𝜃 ≠ 𝜃0
𝐻0 𝜃 = 𝜃0
𝐻1 𝜃 > 𝜃0
El valor p se puede calcular después de encontrar el área que está más allá del estadístico de prueba.
Valor p
Valor del
estadístico de prueba
Estadística Aplicada II 202301 33
Prueba de cola bilateral
Para una prueba bilateral, el valor p es igual a dos veces el valor p para el valor p de cola:
Valor p
Valor del
estadístico de prueba
Valor p
Valor del
estadístico de prueba
Por tanto, debemos calcular el valor del estadístico de prueba y determinar si cae en la región crítica o no.
Se rechaza 𝐻0 No se rechaza 𝐻0
Unidad 1. Inferencia estadística 34
Prueba de dos colas (bilateral)
No se rechaza 𝐻0 Se rechaza 𝐻0
Ejemplo 7
Por ejemplo, en este caso, la prueba es unilateral derecha y el valor del estadístico de prueba está a la izquierda
del valor crítico.
Como el valor p es la probabilidad de obtener un valor del estadístico de prueba que sea al menos tan extremo
como el que representa a los datos muestrales, suponiendo que la hipótesis nula es verdadera que más
grande; en este caso, el valor p es el área a la derecha del valor del estadístico de prueba y, como se observa
en el gráfico, dicha área (valor p) es más grande que el nivel de significancia 𝛼. Por lo tanto, no se rechaza 𝐻0 .
Valor p
Valor del
estadístico de prueba
Estadística Aplicada II 202301 35
Redacción de la conclusión
Condición Conclusión
La afirmación original no incluye igualdad y se “Hay suficiente evidencia para respaldar la afirmación
rechaza 𝐻0 de que … (afirmación original)”.
La afirmación original no incluye igualdad y no se “No hay evidencia suficiente para respaldar la
rechaza 𝐻0 afirmación de que … (afirmación original)”.
La afirmación original incluye igualdad y se “Hay evidencia suficiente para justificar el rechazo de
rechaza 𝐻0 la afirmación de que … (afirmación original)”.
La afirmación original incluye igualdad y no se “No hay evidencia suficiente para justificar el rechazo
rechaza 𝐻0 de la afirmación de que … (afirmación original)”.
Triola (2018, p.366)
Unidad 1. Inferencia estadística 36
Prueba de hipótesis para una media poblacional
Dependiendo del problema de investigación, podemos plantear una de las tres posibles hipótesis.
Unilateral izquierda
𝐻0 : 𝜇 ≥ 𝜇0
𝐻1 : 𝜇 < 𝜇0
Bilateral
𝐻0 : 𝜇 = 𝜇0
𝐻1 : 𝜇 ≠ 𝜇0
Unilateral derecha
𝐻0 : 𝜇 ≤ 𝜇0
𝐻1 : 𝜇 > 𝜇0
𝑋̅ − 𝜇0
𝑇= ~𝑡𝑛−1
𝑆
√𝑛
Unilateral izquierda
𝑅𝐶 = ]−∞; −𝑡1−𝛼,𝑛−1 [
Bilateral
Unilateral derecha
𝑅𝐶 = ]−𝑡1−𝛼,𝑛−1 ; +∞[
Estadística Aplicada II 202301 37
Ejemplo 9
Se realizó un ensayo clínico para evaluar la efectividad del medicamento zopiclona para tratar el insomnio en
sujetos mayores. Antes del tratamiento con zopiclona, 16 sujetos tenían un tiempo de vigilia medio de 102.8
minutos. Después del tratamiento con zopiclona, los 16 sujetos tuvieron un tiempo de vigilia medio de 98.9
minutos y una desviación estándar de 42.3 minutos (según datos de “Cognitive Behavioral Therapy vs
Zoplicone forTreatment of Chronic Primary Insomnia in Older Adults”, de Sivertsen et al., Journal of the
American Medical Association, vol. 295, núm. 24).
Suponga que los 16 valores muestrales parecen provenir de una población distribuida normalmente, y pruebe
la afirmación de que después del tratamiento con zopiclona, los sujetos tienen un tiempo de vigilia medio
menor que 102.8 min. ¿Parece que la zopiclona es efectiva?
H0 : 𝜇 ≥ 102.8
H1 : 𝜇 < 102.8
𝛼 = 0.05
𝑥̅ − 𝜇
𝑡𝑐𝑎𝑙 = 𝑠 ~𝑡(𝑣)
√𝑛
Donde v= n- 1= 16-1=15
= 0.05
t(0.05,15)= -1.75
Conclusión: Con 5 % de nivel de significación, no hay evidencia suficiente para respaldar la afirmación de que
después del tratamiento con zopiclona, los sujetos tienen un tiempo de vigilia medio menor que 102.8 min.
Unidad 1. Inferencia estadística 38
Seleccione Opciones, ponga el nivel de confianza pedido y la hipótesis alterna adecuada. Haga clic en Aceptar.
Prueba
Hipótesis nula H₀: μ = 102.8
Hipótesis alterna H₁: μ < 102.8
Valor T Valor p
-0.37 0.359
Estadística Aplicada II 202301 39
Ejercicios
Prueba de hipótesis
9. En una prueba de hipótesis de una media, unilateral izquierda, la región crítica está determinada por:
10. En una prueba de hipótesis unilateral derecha para una media, cuando el tamaño de la muestra es 20 y el
𝑇𝑐𝑎𝑙 resulta 2,25, con un nivel de significancia del 1%.
Unidad 1. Inferencia estadística 40
Prueba de hipótesis
Decisión
Se rechaza H0 cuando _______________________________________________________
No se rechaza H0 cuando_____________________________________________________
Conclusión
Si se rechaza H0, la conclusión es: “Con un nivel de significación del α%, ______________________________
__________________________________________________________________________________”
Si no se rechaza H0, la conclusión es: “Con un nivel de significación del α%, ___________________________
_________________________________________________________________________________”
Estadística Aplicada II 202301 41
12. El responsable del área de calidad sostiene que el costo unitario de producción de las termas es como
mínimo 800 soles. Es por este motivo que el gerente de producción ejecutó varias medidas de control de
gastos, él afirma que este costo ha disminuido. Si la afirmación del gerente de producción es correcta, se
tomará la decisión de mantener estas medidas de manera permanente de lo contrario, se realizarán
nuevos ajustes en el proceso productivo.
Para validar si se cumple lo indicado por el ingeniero, se tomó una muestra aleatoria de 9 termas y se
registró el costo unitario de producción:
Costos unitarios de producción 805.0 774.4 848.8 750.8 799.8 792.8 784.0 849.6 765.6
Con un nivel de significación del 3% y asumiendo que los costos unitarios de producción siguen una
distribución normal. ¿Qué le sugiere usted al ingeniero de planta?
Unidad 1. Inferencia estadística 42
Prueba de hipótesis para una proporción
Para pruebas de hipótesis sobre la proporción poblacional requerimos muestras grandes, 𝑛 ≥ 30.
Dependiendo del problema de investigación, podemos plantear una de las tres posibles hipótesis.
Unilateral izquierda
𝐻0 : 𝑝 ≥ 𝑝0
𝐻1 : 𝑝 < 𝑝0
Bilateral
𝐻0 : 𝑝 = 𝑝0
𝐻1 : 𝑝 ≠ 𝑝0
Unilateral derecha
𝐻0 : 𝑝 ≤ 𝑝0
𝐻1 : 𝑝 > 𝑝0
𝑝 − 𝑝0
𝑍= ~𝑁(𝜇 = 0; 𝜎 2 = 1)
√𝑝0 (1 − 𝑝0 )
𝑛
Unilateral izquierda
𝑅𝐶 = ]−∞; −𝑧1−𝛼 [
Bilateral
Unilateral derecha
𝑅𝐶 = ]−𝑧1−𝛼 ; +∞[
Estadística Aplicada II 202301 43
Seleccione Opciones, ponga el nivel de confianza pedido y la hipótesis alterna adecuada. Haga clic en Aceptar.
Unidad 1. Inferencia estadística 44
Ejemplo 10
El medicamento OxyContin (oxicodona) se usa para tratar el dolor, pero es peligroso porque resulta adictivo y
puede ser letal. En ensayos clínicos, 227 sujetos fueron tratados con OxyContin y 52 de ellos experimentaron
náuseas (en base a datos de Purdue Pharma LP).
Use un nivel de significancia de 0,05 para probar la hipótesis de que más de 20% de los usuarios de OxyContin
desarrollan náuseas. ¿La tasa de náuseas parece ser demasiado alta?
Solución
El parámetro es:
𝑝 ≔ proporción poblacional de sujetos que fueron tratados con OxyContin y experimentaron náuseas
𝑋: = número de sujetos que fueron tratados con OxyContin y experimentaron náuseas en la muestra de 227
El estadístico es:
𝑝̂ : proporción muestral de sujetos que fueron tratados con OxyContin y experimentaron náuseas
𝐻0 𝑝 ≤ 0,20
𝐻1 𝑝 > 0,20
𝛼 = 0,05
𝑛 = 227
𝑋 = 52
𝑝̂ − 𝑝
Z= ~𝑁(0,1)
√𝑝(1 − 𝑝)
𝑛
𝛼 = 0,05
𝑍1−𝛼 = 1,645
2
52
𝑝̂ − 𝑝 227 − 0.20
𝑍𝑐 = = = 1.10
√𝑝(1 − 𝑝) √0.20(1 − 0.80)
𝑛 227
Decisión
Como 𝑍𝑐𝑎𝑙 = 1,10 < 1,645; entonces, no se rechaza 𝐻0
𝛼 = 0,05
En Minitab, se tiene.
Estadísticas descriptivas
N Evento Muestra p Límite inferior de 95% para p
227 52 0.229075 0.183196
Prueba
Hipótesis nula H₀: p = 0.2
Hipótesis alterna H₁: p > 0.2
Valor Z Valor p
1.10 0.137
Unidad 1. Inferencia estadística 46
Criterio de rechazo y no rechazo de 𝑯𝟎
Decisión
𝑣𝑎𝑙𝑜𝑟 𝑝 = 0,137
𝛼 = 0,05
1,10
Conclusión
Con 5 % de nivel de significación, no hay evidencia suficiente para respaldar la afirmación de que más de 20%
de los usuarios de OxyContin desarrollan náuseas.
Ejercicios
13. Un reloj inteligente es un reloj de pulsera dotado con varias funcionalidades como,
el de acceder a internet, realizar y recibir llamadas telefónicas, enviar y recibir
correos electrónicos y SMS, recibir notificaciones del teléfono inteligente e incluso
consultar las redes sociales.
A la luz de los resultados, ¿se realizarán mejoras en el proceso de fabricación? Use nivel de significación
estándar.
𝑥̅ −𝜇
Tenga en cuenta que si el parámetro es 𝜇, entonces, el estadístico de prueba es 𝑇𝑐𝑎𝑙 = 𝑠 y si el
√𝑛
𝑝̂−𝑝
parámetro es 𝑝, el estadístico de prueba es 𝑍𝑐𝑎𝑙 =
𝑝(1−𝑝)
√
𝑛
h. ¿Cuáles son los puntos críticos? Estime sus valores en las tablas correspondientes.
i. −𝑇(0,025;179) y 𝑇(0,025;179)
ii. −𝑇(0,05;179) y 𝑇(0,05;179)
iii. −𝑇(0,025;179)
iv. −𝑇(0,05;179)
v. 𝑇(0,05;179)
vi. −𝑍(0,025) y 𝑍(0,025)
vii. −𝑍(0,05) y 𝑍(0,05)
viii. 𝑍(0,025)
ix. 𝑍(0,975)
Unidad 1. Inferencia estadística 48
x. 𝑍(0,05)
xi. 𝑍(0,95)
j. ¿Cuál es la decisión?
i. Rechazar 𝐻0 .
ii. Rechazar 𝐻1 .
iii. No rechazar 𝐻0 .
iv. No rechazar 𝐻1 .
v. Aceptar 𝐻0 .
vi. Aceptar 𝐻1 .
14. Debido a los constantes reclamos presentados por los clientes sobre el mal funcionamiento de las termas
eléctricas fabricadas en la planta de Ate, el ingeniero de planta sospecha que el porcentaje de unidades
defectuosas no cumple con lo establecido por la empresa, que debe ser como máximo 5%. Si se
comprueba la sospecha del ingeniero, el área de recursos humanos tomará la decisión de capacitar a los
trabajadores de la planta de Ate. Para verificar la sospecha del ingeniero de planta, se tomó una muestra
aleatoria de 120 termas eléctricas y se encontró que 10 de ellas están defectuosas.
Con un nivel de significación del 2%, ¿qué decisión deberán tomar los responsables del área de recursos
humanos?
Estadística Aplicada II 202301 49
Bibliografía
• Triola, M. (2013) Estadística. 11va. Edición. Pearson Educación, México, D.F. Capítulo 9, páginas 473 - 486,
497 – 506.
• Mendenhall W., Beaver R. y, Beaver B. (2015). Introducción a la Probabilidad y Estadística. 1 4va Edición.
Cengage Learning Editores, México, D.F. Capítulo 10, páginas 401 - 408, 342 - 346, 376 - 387.
Por ello, se toman dos muestras aleatorias independientes, una de cada población, estas poblaciones deben
de tener una distribución normal con medias 𝜇1 y 𝜇2 ; y varianzas 𝜎12 y 𝜎22 .
Usualmente probaremos la hipótesis bilateral, pues nos interesa saber si las varianzas las consideramos iguales
o diferentes.
𝐻0 : 𝜎12 = 𝜎22
𝐻1 : 𝜎12 ≠ 𝜎22
O lo que es lo mismo.
𝜎12
𝐻0 : =1
𝜎22
𝜎12
𝐻1 : 2 ≠ 1
𝜎2
𝑆12
𝐹=
𝑆22
donde 𝑆12 y 𝑆22 son las varianzas muestrales y 𝑛1 , 𝑛2 son los tamaños de muestra respectivos.
1
𝑅𝐶 = ]0; [ ∪ ]𝐹 𝛼 ; +∞[
𝐹𝛼 ( ;(𝑛1 −1);(𝑛2 −1))
2
( ;(𝑛2 −1);(𝑛1 −1))
2
𝛼 𝛼
2 1−𝛼 2
1
𝐹1 =
𝐹 𝛼
( ;(𝑛2 −1);(𝑛1 −1))
2
𝐹2 = 𝐹 𝛼
( ;(𝑛1 −1);(𝑛2 −1))
2
Ejemplo 11
Si se toman dos muestras 𝑛1 = 6 y 𝑛2 = 8 y se tiene un nivel de significancia de 5%, calcule los valores críticos
para una prueba de cociente de varianzas.
Solución
El valor crítico cola izquierda es 𝐹1 .
1 1 1 1
𝐹1 = = = = = 0,146
𝐹 𝛼 𝐹 0,05 𝐹(0,025; 7; 5) 6,85
( ;(𝑛2 −1);(𝑛1 −1)) ( 2 ;(8−1);(6−1))
2
v1
𝛼 v2 1 2 3 4 5 6 7 8 9 10
0.050 5 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77 4.74
0.025 10.01 8.43 7.76 7.39 7.15 6.98 6.85 6.76 6.68 6.62
0.010 16.26 13.27 12.06 11.39 10.97 10.67 10.46 10.29 10.16 10.05
v1
𝛼 v2 1 2 3 4 5 6 7 8 9 10
0.050 7 5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.68 3.64
0.025 8.07 6.54 5.89 5.52 5.29 5.12 4.99 4.90 4.82 4.76
0.010 12.25 9.55 8.45 7.85 7.46 7.19 6.99 6.84 6.72 6.62
𝛼 0,05 𝛼 0,05
= = 0,025 1 − 𝛼 = 0,95 = = 0,025
2 2 2 2
𝛼 𝛼
2 1−𝛼 2
Seleccione Opciones, ponga el nivel de confianza pedido, la relación entre las medidas de dispersión, la
relación hipotética (usualmente 1) y la hipótesis alterna adecuada. Haga clic en Aceptar.
Estadística Aplicada II 202301 55
Ejemplo 12
Un investigador desea verificar si existe evidencia de una diferencia en las varianzas de las resistencias entre
dos tipos de material para embalaje. La descripción de las lecturas en pie-libra de la resistencia al impacto de
los dos tipos de embalaje se muestra a continuación.
A partir de los datos obtenidos compruebe la hipótesis y concluya con 5% de nivel de significación. Asuma
poblaciones normales con varianzas iguales.
Solución.
Sean X1: Resistencia al impacto (embalaje A) X1 ~ N( 1 , 12 )
X2: Resistencia al impacto (embalaje B) X2 ~ N( 2 , 22 )
1. Planteo de hipótesis.
𝐻 : 𝜎 2 = 𝜎22
{ 0 12
𝐻1 : 𝜎1 ≠ 𝜎22
= 0.05
2. Prueba estadística
S12
Fcal = ~ f ( n1 −1,n2 −1)
S 22
3. Supuestos.
Poblaciones normales.
Muestras tomadas al azar.
Áreas Criterios
0.226 4.43
5. Cálculos 6. Conclusiones.
(0.0042) Con 5% de nivel de significación la información
Fc = = 1.75
(0.0024) muestral es insuficiente para rechazar que las
varianzas de las resistencias son iguales.
Unidad 1. Inferencia estadística 56
Ejercicios
15. Revise la lectura sobre la comparación de la variación en dos muestras que aparece en el libro Estadística
del autor Triola (2013, pp. 497 - 499). A partir de lo revisado en la lectura anterior, responde la siguiente
evaluación.
16. Suponga que se tiene las siguientes hipótesis sobre las varianzas de dos poblaciones.
𝐻0 𝜎12 = 𝜎22
𝐻1 𝜎12 ≠ 𝜎22
Se dice que dos muestras son independientes si los valores muestrales seleccionados de una población no
están relacionados, pareados o asociados de alguna manera con los valores muestrales seleccionados de la
otra población.
Triola, M. (2013) Estadística. 11va Edición Pearson, pp. 473
En muchos casos será necesario comparar dos poblaciones diferentes y esta comparación se debe hacer con
respecto a las medias, si las dos medias poblacionales son desconocidos entonces, será necesario una prueba
de hipótesis para comparar las medias.
Para esto se toman dos muestras aleatorias independientes, una de cada población, estas poblaciones deben
de tener una distribución normal: 𝑋1 ~𝑁(𝜇1 ; 𝜎12 ) y 𝑋2 ~𝑁(𝜇2 ; 𝜎22 ).
Posibles hipótesis
Unilateral izquierda
𝐻0 : 𝜇1 − 𝜇2 ≥ 𝜇0
𝐻1 : 𝜇1 − 𝜇2 < 𝜇0
Bilateral
𝐻0 : 𝜇1 − 𝜇2 = 𝜇0
𝐻1 : 𝜇1 − 𝜇2 ≠ 𝜇0
Unilateral derecha
𝐻0 : 𝜇1 − 𝜇2 ≤ 𝜇0
𝐻1 : 𝜇1 − 𝜇2 > 𝜇0
(𝑋̅1 − 𝑋̅2 ) − 𝜇0
𝑇= ~𝑡𝑛1 +𝑛2 −2
𝑆2 𝑆𝑃2
√ 𝑃 +
𝑛1 𝑛2
donde:
Este estadístico se contrasta contra el valor punto crítico en una distribución t de Student con 𝑛1 + 𝑛2 − 2
grados de libertad.
Unilateral izquierda
Bilateral
𝑅𝐶 = ]−∞; −𝑡1−𝛼,𝑛 +𝑛 −2
[ ∪ ]𝑡1−𝛼,𝑛+𝑛 −2
; +∞[
2 1 2 2 1 2
Unilateral derecha
(𝑋̅1 − 𝑋̅2 ) − 𝜇0
𝑇=
𝑆2 𝑆2
√ 1+ 2
𝑛1 𝑛2
Este estadístico se contrasta contra el valor punto crítico en una distribución t de Student con 𝑣 grados de
libertad.
2
𝑠2 𝑠2
( 1 + 2)
𝑛1 𝑛2
𝑣= 2 2
𝑠2 𝑠2
(𝑛1 ) (𝑛2 )
1 2
+
𝑛1 − 1 𝑛2 − 1
Unilateral izquierda
𝑅𝐶 = ]−∞; −𝑡1−𝛼,𝑔 [
Bilateral
Unilateral derecha
𝑅𝐶 = ]−𝑡1−𝛼,𝑔 ; +∞[
Unidad 1. Inferencia estadística 60
Prueba de hipótesis de diferencia de medias en Excel asumiendo varianzas iguales
Elija la opción Datos y luego Análisis de datos.
Ingrese el nivel de confianza e indique su asume que las varianzas son iguales o diferentes.
Ejemplo 13
Caso varianzas iguales
Un investigador desea verificar si existe evidencia de una diferencia en la resistencia promedio entre dos tipos
de material para embalaje. La descripción de las lecturas en pie-libra de la resistencia al impacto de los dos
tipos de embalaje se muestra a continuación.
Características Embalaje A Embalaje B
Media 1,2367 0,9778
Varianza 0,0042 0,0024
Observaciones 9 9
A partir de los datos obtenidos compruebe la hipótesis y concluya con 5% de nivel de significación. Asuma
poblaciones normales con varianzas iguales.
Unidad 1. Inferencia estadística 62
Solución.
Sean X1: Resistencia al impacto (embalaje A) X1 ~ N( 1 , 12 )
X2: Resistencia al impacto (embalaje B) X2 ~ N( 2 , 22 )
1. Planteo de hipótesis.
𝐻 : 𝜇 = 𝜇2
{ 0 1
𝐻1 : 𝜇1 ≠ 𝜇2
= 0.05
2. Prueba_ estadística
_
(𝑥1 −𝑥2 )−(𝜇1 −𝜇2 ) (𝑛1 −1)𝑠12 +(𝑛2 −1)𝑠22
𝑡𝑐 = ~𝑡(𝑛1 +𝑛2 −2) donde: 𝑆𝑝2 =
1 1 𝑛1 +𝑛2 −2
√𝑆𝑝2 (𝑛 +𝑛 )
1 2
3. Supuestos.
Poblaciones normales.
Muestras tomadas al azar.
Áreas Criterios
0.025 0.025 Si -2.120 tc 2.120 No se rechaza H0
Si tc < -2.120 o tc > 2.120 Se rechaza H0
0.95
5. Cálculos
(1.2367 − 0.9778) − (0)
tc = = 9.561
1 1
0.0033 +
9 9
6. Conclusiones.
Con 5% de nivel de significación la información muestral es suficiente para rechazar que las resistencias
promedio de los dos tipos de embalaje son iguales.
Estadística Aplicada II 202301 63
Ejercicios
17. Un equipo de consejeros de tutoría en estadística de la UPC sostiene que, los estudiantes que llevan por
primera vez el curso de Estadística obtienen mejores calificaciones, en promedio, que los estudiantes que
llevan por segunda vez el curso. Identifique cuál es la hipótesis alterna correcta.
a. 𝐻1 𝜇1 − 𝜇2 < 0
b. 𝐻1 𝜇1 − 𝜇2 ≠ 0
c. 𝐻1 𝜇1 − 𝜇2 > 0
18. Se seleccionan dos muestras aleatorias de tamaños 𝑛1 = 60 y 𝑛2 = 42, respectivamente, y con esta
información se calcula el valor de la estadística de prueba, el cual resulta 𝑇𝑐𝑎𝑙 = 1,78.
Considerando que se está evaluando una prueba unilateral derecha, bajo el supuesto que las varianzas
son homogéneas y a un nivel de significación de 5%.
19. Una empresa industrial debe decidir entre dos posibles proveedores (Proveedor A y proveedor B) de
barriles de combustible requeridos para la producción. ¿Las muestras que se eligen de la producción de
cada proveedor son independientes? ¿Porqué?
Si constituyen dos muestras independientes ¿por qué los valores muestrales para la producción del
proveedor A no están relacionados (pareados) con los valores muestrales para la producción del
proveedor B?
20. La fábrica de bicicletas Bicorp S.A. produce aros de aleación en dos plantas A
y B. El ingeniero sospecha que hay diferencias en los tiempos de producción
entre las plantas, presunción que se explicaría porque en el último trimestre
se han implementado máquinas modernas para la producción de los aros en
la planta A. De ser cierta la sospecha, el ingeniero recomendará la compra
de máquinas similares para la planta B.
Para tal fin, se registró el tiempo de producción (en minutos) de 10 aros de aleación seleccionados
aleatoriamente de cada una de las plantas. Los datos registrados son los siguientes.
Planta A (1) 85,0 35,0 95,0 82,5 68,0 63,5 59,5 63,0 67,0 64,0
Planta B (2) 100,0 94,0 112,0 47,0 39,0 58,0 89,0 78,5 64,0 77,0
A un nivel de significancia del 1%, ¿el ingeniero recomendará la compra de estas máquinas modernas para
la planta B?
Considere que las muestras son independientes y que provienen de poblaciones normalmente
distribuidas.
A continuación, se muestran las salidas de las pruebas de hipótesis, obtenidas con los programas MS Excel
y Minitab, las cuales ayudarán a verificar la sospecha del ingeniero.
Prueba
Hipótesis nula H₀: σ₁² / σ₂² = 1
Hipótesis alterna H₁: σ₁² / σ₂² ≠ 1
Nivel de significancia α = 0.01
Método
μ₁: media de población de Planta A
µ₂: media de población de Planta B
Diferencia: μ₁ - µ₂
Se presupuso igualdad de varianzas para este análisis.
Estadísticas descriptivas
Muestra N Media [Link]. Error estándar de la media
Planta A 10 68.3 16.5 5.2
Planta B 10 75.8 23.7 7.5
Estimación de la diferencia
Diferencia [Link]. agrupada IC de 99% para la diferencia
-7.60 20.41 (-33.88, 18.68)
Prueba
Hipótesis nula H₀: μ₁ - µ₂ = 0
Hipótesis alterna H₁: μ₁ - µ₂ ≠ 0
Valor T GL Valor p
-0.832 18 0.416
21. Mausa SAC es una empresa que cuenta con más de 20 años de experiencia en todo lo relacionado a la
construcción de centros comerciales. Uno de sus objetivos es evaluar el medio ambiente para viabilizar
los proyectos de construcción.
El ingeniero responsable del área de medio ambiente afirma que, el nivel promedio de asbesto (desechos
de construcción y otros) en el distrito de Santiago de Surco es inferior que en el distrito de San Borja. Si
esto se verifica, llevará a cabo la construcción de un centro comercial en el distrito donde exista menor
nivel promedio de asbesto.
Le encargan a usted registrar aleatoriamente el nivel de asbesto de algunos proyectos en los distritos
mencionados. Los resultados registrados fueron los siguientes:
Según los resultados encontrados, ¿qué recomendaría al responsable del área de medio ambiente?
Estadística Aplicada II 202301 65
Use un nivel de significación de 5%. Asuma que los datos del nivel de asbesto fueron obtenidos a partir de
muestras independientes en cada distrito y que provienen de poblaciones normalmente distribuidas.
Prueba
Hipótesis nula H₀: σ₁² / σ₂² = 1
Hipótesis alterna H₁: σ₁² / σ₂² ≠ 1
Nivel de significancia α = 0.05
Método Estadística de prueba GL1 GL2 Valor p
F 0.26 11 13 0.031
Método
μ₁: media de población de Santiago de Surco (1)
µ₂: media de población de San Borja (2)
Diferencia: μ₁ - µ₂
No se presupuso igualdad de varianzas para este análisis.
Estadísticas descriptivas
Muestra N Media [Link]. Error estándar de la media
Santiago de Surco (1) 12 10.42 1.38 0.40
San Borja (2) 14 11.86 2.71 0.73
Estimación de la diferencia
Diferencia IC de 95% para la diferencia
-1.440 (-3.172, 0.291)
Prueba
Hipótesis nula H₀: μ₁ - µ₂ = 0
Hipótesis alterna H₁: μ₁ - µ₂ ≠ 0
Valor T GL Valor p
-1.74 19 0.098
Unidad 1. Inferencia estadística 66
22. El personal de dos clínicas privadas que tienen las mismas especialidades, ha estudiado los tiempos de
espera de pacientes (en minutos) que llagan solicitando servicio de emergencia. Los siguientes fueron
reunidos en un período de un mes.
Clínica 1
k Tiempos Marca de clase Número de pacientes
1 [0 - 4] 2 50
2 ]4 - 8] 6 85
3 ]8 - 12] 10 105
4 ]12 - 16] 14 38
5 ]16 - 20] 18 10
6 ]20 - 24] 22 8
7 ]24 - 28] 26 4
Total 300
Clínica 2
k Tiempos Marca de clase Número de pacientes
1 [0 - 4] 2 2
2 ]4 - 8] 6 5
3 ]8 - 12] 10 25
4 ]12 - 16] 14 236
5 ]16 - 20] 18 25
6 ]20 - 24] 22 5
7 ]24 - 28] 26 2
Total 300
¿Existen diferencias significativas entre los tiempos promedio de atención de ambas clínicas? Utilice un
nivel de significación de 5%.
Estadística Aplicada II 202301 67
Bibliografía
• Triola, M. (2013) Estadística. 11va. Edición. Pearson Educación, México, D.F. Capítulo 9, páginas 462 - 472,
487 - 493.
• Mendenhall W., Beaver R. y Beaver B. (2015). Introducción a la Probabilidad y Estadística. 14va Edición.
Cengage Learning Editores, México, D.F. Capítulo 8, páginas 307 – 310, 388 – 391.
Revisando la lectura:
[Link]
Las muestras relacionadas son aquellas en las que los mismos individuos se miden en dos momentos
diferentes o en dos condiciones diferentes. Por ejemplo, podríamos tener una muestra de estudiantes que
toman un examen antes y después de un curso de estadística.
El objetivo de la prueba de hipótesis de muestras relacionadas es determinar si hay una diferencia significativa
entre las dos medias de la muestra.
Esta prueba se basa en dos muestras individuales medidas, como ya se dijo, en datos pareados o una muestra
evaluada en situaciones diferentes, a estos datos los llamaremos 𝑋𝑖 y 𝑌𝑖 .
Se tiene que calcular la diferencia entre cada par de datos (𝑑𝑖 ), es decir, tendremos que:
𝑑𝑖 = 𝑋𝑖 − 𝑌𝑖
Unilateral izquierda
𝐻0 : 𝜇1 − 𝜇2 ≥ 𝜇0
𝐻1 : 𝜇1 − 𝜇2 < 𝜇0
Bilateral
𝐻0 : 𝜇1 − 𝜇2 = 𝜇0
𝐻1 : 𝜇1 − 𝜇2 ≠ 𝜇0
Unilateral derecha
𝐻0 : 𝜇1 − 𝜇2 ≤ 𝜇0
𝐻1 : 𝜇1 − 𝜇2 > 𝜇0
𝑑̅ − 𝜇0
𝑡𝑐𝑎𝑙 = ~𝑡𝑛−1
𝑆𝑑
√𝑛
Unilateral izquierda
𝑅𝐶 = ]−∞; −𝑡1−𝛼,𝑛−1 [
Bilateral
Unilateral derecha
𝑅𝐶 = ]−𝑡1−𝛼,𝑛−1 ; +∞[
Estadística Aplicada II 202301 69
Seleccione Opciones, escriba el nivel de confianza deseado y elija la hipótesis alterna adecuada. Haga clic en
Aceptar.
Estadística Aplicada II 202301 71
Ejemplo 14
Muestras relacionadas
Un gimnasio afirma que un nuevo programa de ejercicio reducirá la medida de la cintura de una persona en
promedio dos centímetros en un período de cinco días. Las medidas de cinturas de seis hombres que
participaron en este programa de ejercicios se registraron antes y después del período de cinco días en la
siguiente tabla:
Hombres
1 2 3 4 5 6
Medida de cintura antes 90,4 95,5 98,7 115,9 104,0 85,6
Medida de cintura después 91,7 93,9 97,4 112,8 101,3 84,0
¿La afirmación del gimnasio es válida al nivel de significación de 5%? Suponga que la distribución de las
diferencias de medidas de cintura antes y después del programa es aproximadamente normal.
Solución.
Sean X1: Medida de cintura antes (cm.)
X2: Medida de cintura después (cm.)
1. Planteo de hipótesis.
𝐻0 : 𝜇1 − 𝜇2 = 2 →𝐻0 : 𝐷 = 2
𝐻1 : 𝜇1 − 𝜇2 ≠ 2 →𝐻1 : 𝐷 ≠ 2
𝛼 = 0.05
2. Prueba estadística
𝑑̅ − 𝜇0
𝑡𝑐𝑎𝑙 = ~𝑡𝑛−1
𝑆𝑑
√𝑛
3. Supuestos.
Las diferencias tienen distribución normal.
Áreas Criterios
0.025 0.025 Si -2.57 tc 2.57 No se rechaza H0
Si tc < -2.57 o tc > 2.57 Se rechaza H0
0.95
-2.57 2.57
5. Cálculos
Hombre Medida de cintura antes, Xi Medida de cintura después, Yi 𝑑𝑖 = 𝑋𝑖 − 𝑌𝑖
1 90,4 91,7 -1,3
2 95,5 93,9 1,6
3 98,7 97,4 1,3
4 115,9 112,8 3,1
5 104,0 101,3 2,7
Unidad 1. Inferencia estadística 72
6 85,6 84,0 1,6
Antes de la campaña 10,6 12,2 9,8 10,8 14,0 14,6 12,2 11,9 12,6 17,8
Después de la campaña 14,7 11,6 10,5 11,4 10,8 12,3 11,9 15,4 14,3 16,1
Los estadísticos de media y desviación estándar para las diferencias resultan 𝑑̅ = 1.5, 𝑠𝑑 =1.543
1.5 − 2
tc = = −0.794
1.543 / 6
6. Conclusión
Con 5% de nivel de significación la información recogida resulta insuficiente para contradecir lo que afirma
el gimnasio.
Ejercicios
Una empresa certificadora de la calidad del agua extrae 30 muestras del recorrido del rio Jeque para
analizar el oxígeno disuelto (OD). Se usaron dos métodos para hacer estos análisis: el método de Winkler
(MW) y el método de electrodos (ME). Se desea probar si existen diferencias entre los métodos.
Para validar la prueba de hipótesis para la diferencia de medias para muestras dependientes se utiliza la
distribución t - Student.
a. Verdadero
b. Falso
Asumiendo que el monto de ventas tiene una distribución normal, realice el análisis para indicar si fue
efectiva la campaña. Use un nivel de significación del 5%.
Prueba
Hipótesis nula H₀: diferencia_μ = 0
Hipótesis alterna H₁: diferencia_μ ≠ 0
Valor T Valor p
-0.332 0.748
Dimensión de interpretación: Da significado a información Estimación: Relaciona datos e información numérica pertinente en diversos
numérica en diversos formatos en situaciones de contexto formatos, para definir una situación problemática en un contexto real.
real.
Dimensión de representación: Describe mediante Estimación: Describe la variable, su distribución, el (los) parámetro(s) y
expresiones matemáticas y/o estadísticas, situaciones de estadísticos utilizando correctamente las notaciones y representaciones
contexto real. simbólicas.
Dimensión de cálculo: Utiliza algoritmos y procedimientos Estimación: Calcule el estadístico de prueba, región(es) y valor(es) crítico(s),
estándar de la matemática y/o estadística en situaciones de p-value de la(s) prueba(s) respectivas.
contexto real.
Dimensión de análisis y argumentación: Sustenta los Estimación: Sustente el resultado de la prueba de hipótesis utilizando un
resultados y su aplicación práctica, planteando una solución. lenguaje formal estadístico y brinda alguna alternativa de respuesta a la
situación problemática.
26. El ingeniero de producción de Aceros Lima, productor mayorista de fierros de construcción ha diseñado
un nuevo método con la intención de optimizar el tiempo de entrega de los lotes pedidos de fierro de
construcción en la región central del país.
Para probar la eficacia de este nuevo método, selecciona en forma aleatoria a ocho empleados de la
sección de entregas y mide el tiempo de entrega con el método actual y luego mide el tiempo de entrega
de estos mismos empleados con el método nuevo. Los resultados en días de entrega son los siguientes:
Verifique el supuesto del ingeniero de producción y de sus conclusiones con un nivel de significación del
5%. Asuma que el tiempo de entrega de los lotes de fierros de construcción se distribuye en forma normal.
27. Se llevó a cabo una encuesta entre los miembros del Club del libro del mes, para determinar si pasan más
tiempo viendo televisión que leyendo. Suponga que en una muestra de 12 encuestados se obtuvieron las
horas semanales que se dedican a ver televisión y las que se dedican a la lectura. Con un nivel de
significación del 5%, ¿se puede llegar a la conclusión de que los miembros del club del libro del mes pasan
más tiempo, en promedio, viendo televisión que leyendo?
Unidad 1. Inferencia estadística 74
Encuestado 1 2 3 4 5 6 7 8 9 10 11 12
Televisión 11 19 8 5 16 8 4 12 10 14 15 18
Leyendo 6 10 3 10 5 8 7 14 14 8 10 10
Asuma Normalidad.
28. Se realiza un estudio para comparar la planificación humana en tiempo real en un entorno de
procesamiento con un enfoque automatizado que utiliza robots computarizados y dispositivos censores.
El experimento consistió en ocho problemas de planificación simulados. Cada tarea fue realizada por un
planificador humano y por el sistema automatizado. El desempeño se midió en términos de la tasa de
rendimiento, definida como el número de trabajos aceptables producidos ponderado según la calidad del
producto. Las tasas de rendimiento obtenidas se muestran a continuación.
Bibliografía
• Triola, M. (2013) Estadística. 11va. Edición. Pearson Educación, México, D.F. Capítulo 9, páginas 462 - 472,
487 - 493.
• Mendenhall W., Beaver R. y Beaver B. (2015). Introducción a la Probabilidad y Estadística. 14va Edición.
Cengage Learning Editores, México, D.F. Capítulo 8, páginas 307 – 310, 388 – 391.
La prueba de hipótesis de diferencias de proporciones es una técnica estadística que se utiliza para comparar
las proporciones de dos poblaciones o muestras. Esta prueba se utiliza comúnmente en estudios que implican
variables cualitativas, como estar de acuerdo o no con una ley, estar capacitado o no, etc.
Unilateral izquierda
𝐻0 : 𝑝1 − 𝑝2 ≥ 𝑝0
𝐻1 : 𝑝1 − 𝑝2 < 𝑝0
Bilateral
𝐻0 : 𝑝1 − 𝑝2 = 𝑝0
𝐻1 : 𝑝1 − 𝑝2 ≠ 𝑝0
Unilateral derecha
𝐻0 : 𝑝1 − 𝑝2 ≤ 𝑝0
𝐻1 : 𝑝1 − 𝑝2 > 𝑝0
donde 𝑝0 es un valor diferente a cero y representa la diferencia de las proporciones planteada en la hipótesis
nula.
𝑛1 𝑝̂1 + 𝑛2 𝑝̂ 2 𝑥1 + 𝑥2
𝑝̅ = =
𝑛1 + 𝑛2 𝑛1 + 𝑛2
Donde:
X1: representa el número de éxitos encontrados en la muestra de tamaño n1
X2: representa el número de éxitos encontrados en la muestra de tamaño n2
Unilateral izquierda
𝑅𝐶 = ]−∞; −𝑧1−𝛼 [
Bilateral
Unilateral derecha
𝑅𝐶 = ]−𝑧1−𝛼 ; +∞[
Seleccione Opciones, escriba el nivel de confianza deseado y elija la hipótesis alterna adecuada. Haga clic en
Aceptar.
Estadística Aplicada II 202301 77
Unidad 1. Inferencia estadística 78
Ejemplo 15
En una prueba de calidad de dos comerciales de televisión se pasó cada uno en un área de prueba seis veces,
durante un período de una semana. La semana siguiente se llevó a cabo una encuesta telefónica para identificar
a quienes habían visto esos comerciales. A las personas que los vieron se les pidió definieran el principal mensaje
en ellos. Se obtuvieron los siguientes resultados:
Use = 0.05 para probar la hipótesis que no hay diferencia en las proporciones que recuerdan los dos
comerciales.
Solución.
Sea p1: Proporción de personas que recordaron el mensaje principal del comercial A.
Sea p2: Proporción de personas que recordaron el mensaje principal del comercial B.
1. Planteo de hipótesis.
H 0 : p1 = p 2
H1 : p1 p 2
= 0.05
2. Prueba estadística
(𝑝̂1 − 𝑝̂2 )
𝑍𝑐𝑎𝑙 = ~𝑁(0,1)
𝑝̅ (1 − 𝑝̅ ) 𝑝̅ (1 − 𝑝̅ )
√ +
𝑛 1 𝑛 2
𝑛1 𝑝̂1 + 𝑛2 𝑝̂2 𝑥1 + 𝑥2
𝑝̅ = =
𝑛1 + 𝑛2 𝑛1 + 𝑛2
3. Supuestos.
Muestras tomadas al azar
np ≥ 5 y n(1 - p) ≥ 5 para cada una de las muestras
-1.96 1.96
Estadística Aplicada II 202301 79
5. Cálculos 6. Conclusiones.
63 60 Con 5% de nivel de significación y a partir
− de la información muestral, hay
Z cal = 150 200 = 2.328 diferencias significativas en las
1 1
(0.351)(0.649 ) + proporciones que recuerdan los dos
150 200 comerciales.
63 + 60
𝑝̅ = = 0.351
150 + 200
Ejercicios
29. Con la firma de los TLC, la exportación agraria se ha incrementado. Es así que un exportador de alcachofas
está evaluando la producción del valle con la de su proveedor habitual. Las alcachofas de exportación
deben cumplir estándares de color, peso, tamaño y textura; de lo contrario se consideran defectuosas y
se venden a menor precio en el mercado local. El exportador cambiara su proveedor habitual y se quedara
con los del valle si la proporción de defectuosas en el valle es menor a la proporción habitual en más del
5%. Se extrajeron dos muestras de 200 (del valle) y 300(del habitual) y se encontraron 25 y 30 defectuosas.
Con un nivel de significación del 1%, ¿considera usted que se debe cambiar al proveedor habitual?
30. En una prueba de calidad de dos comerciales de televisión, cada comercial se mostró, en áreas separadas
de prueba, seis veces en una semana. A la semana siguiente se realizó una encuesta telefónica para
identificar a individuos que habían visto los comerciales. A estas personas se les pidió su opinión sobre
cuál era el principal mensaje de estos comerciales. Se obtuvieron los siguientes resultados.
Comercial A Comercial B
Número de personas que vio el comercial 150 200
Número de personas que recordaba el mensaje 63 60
Use α = 0.05 y pruebe la hipótesis de que entre los dos comerciales no hay diferencia en las
proporciones poblacionales de personas que recordaron el mensaje.
Para validar la prueba de hipótesis para la diferencia de proporciones se utiliza la distribución normal.
a. Verdadero
b. Falso
32. Un equipo de ingenieros sostiene que la proporción de víctimas resultante de choques automovilísticos
son menores en el caso de los automóviles equipados con bolsas de aire (1) que aquellos automóviles que
no tienen bolsa de aire (2). Identifique la hipótesis alterna correcta.
Unidad 1. Inferencia estadística 80
a. 𝐻1 𝑝1 − 𝑝2 < 0
b. 𝐻1 𝑝1 − 𝑝2 = 0
c. 𝐻1 𝑝1 − 𝑝2 > 0
33. Suponga que tenemos dos muestras aleatorias independientes de tamaños 60 y 70, respectivamente. A
partir de estas muestras se obtienen las proporciones muestrales para cierta característica de interés,
cuyos valores son:
21
𝑝̂1 =
60
25
𝑝̂2 =
70
𝐻0 𝑝1 = 𝑝2
𝐻1 𝑝1 ≠ 𝑝2
𝛼 = 0,05
Con los datos recolectados en las muestras aleatorias, se obtiene el estadístico de prueba cuyo valor
resultado es 𝑍𝑐𝑎𝑙 = −0,08.
35. En una prueba de calidad de dos comerciales de televisión A y B, se seleccionó una muestra al azar de 300
personas para el comercial A y 400 personas para el comercial B. La semana siguiente se llevó a cabo una
encuesta entre las personas que vieron los comerciales y se les pidió que recordaron el mensaje principal
del comercial. Se obtuvieron los siguientes resultados:
• El comercial A fue visto por 300 personas y 63 de ellos lograron recordar el mensaje principal.
• El comercial B fue visto por 400 personas y 60 de ellos lograron recordar el mensaje principal.
Use 𝛼 = 0,04 para probar la hipótesis que la proporción de personas que recuerdan el comercial A supera
a los que vieron el comercial B en más de 1%.
82 Estadística Aplicada II 202301
Logro de la unidad
Al finalizar la Unidad 2, el estudiante diseña y analiza estadísticamente experimentos para evaluar la influencia
de uno o más factores en otra variable de interés en un contexto real o simulado.
Temario
• Experimento de un factor. Conceptos básicos. Análisis de varianza
• Anova de un factor
• Anova de dos factores
• Validación de supuestos
• Pruebas de comparaciones múltiples
Bibliografía
Estadística Aplicada II 202301 83
Análisis de varianza
Bibliografía
• Montgomery, D. y Runger, G. (2005) Probabilidad y Estadística Aplicadas a la Ingeniería. México, D.F.:
Limusa Wiley. Capítulo 12. Sección 12.1 y 12.4.
• Triola, M. (2013). Estadística. 11va. Edición. Pearson Educación, México, D.F. Capítulo 12. Sección 12.1 y
12.2.
El análisis de varianza (ANVA o ANOVA) es un método de prueba de igualdad de tres o más medias
poblacionales, por medio del análisis de las varianzas muestrales. El análisis de varianza de un factor se utiliza
con datos clasificados con base en un tratamiento (o factor), que es una característica que nos permite
distinguir entre sí a las distintas poblaciones.
(Triola, 2013, p.629)
Supongamos que el experimentador cuenta con los resultados de k muestras aleatorias independientes, cada
una de tamaño n, de k diferentes poblaciones (esto es, datos relativos a k tratamientos, k grupos, k métodos
de producción, etc.) y le interesa probar la hipótesis de que las medias de esas k poblaciones son todas iguales.
Si i denota la media de las i-ésima población y 2 indica la varianza común de las k poblaciones, podemos
expresar cada observación yij como i más el valor de un componente aleatorio; es decir podemos escribir
el criterio de clasificación.
𝐻0 : 𝜇1 = 𝜇2 = ⋯ = 𝜇𝑘
𝐻1 : 𝐴𝑙 𝑚𝑒𝑛𝑜𝑠 𝑢𝑛𝑎 𝜇𝑖 𝑒𝑠 𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑡𝑒
No rechazar 𝐻0 ; implica que no hay diferencia en las medias poblacionales, es decir, que el factor en estudio
no afecta a la variable respuesta.
Rechazar 𝐻0 ; implica que hay diferencia en al menos una media poblacional, es decir, que el factor en estudio
sí afecta a la variable respuesta.
Estadístico de prueba
𝐶𝑀(𝑇𝑟)
𝐹𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 =
𝐶𝑀𝐸
Para obtener el valor del estadístico de prueba, se debe elaborar la tabla del ANOVA.
Fuente de
Grados de libertad Suma de cuadrados Cuadrado medio Fcalculado Fcrítico
variación
k
y2i. y2.. 𝑆𝐶(𝑇𝑟)
Tratamientos 𝑘– 1 SC(Tr)= ∑ - 𝐶𝑀(𝑇𝑟) =
ni n. 𝑘−1
i=1
𝑆𝐶𝐸
Error 𝑛. – 𝑘 𝑆𝐶𝐸 = 𝑆𝐶𝑇 − 𝑆𝐶(𝑇𝑟) 𝐶𝑀𝐸 = 𝐶𝑀(𝑇𝑟)
𝑛−𝑘 𝐹= 𝐹(𝛼;𝑘−1;𝑛−𝑘)
𝐶𝑀𝐸
k n
y2..
Total 𝑛. – 1 SCT = ∑ ∑ y2ij -
n.
i=1 j=1
donde:
𝑘
𝑛. = ∑ 𝑛𝑖
𝑖=1
Región critica
Distribución F (Fisher)
Estadística Aplicada II 202301 87
𝐹(𝛼;𝑘−1;𝑛−𝑘)
Punto crítico
Regla de decisión
𝐻0 𝜇𝑖 = 𝜇𝑖
𝐻1 𝜇𝑖 ≠ 𝜇𝑖
para todo 𝑖 ≠ 𝑗
𝐶𝑀𝐸
𝐻𝑆𝐷 = 𝑞𝛼 (𝑘; 𝑛 − 𝑘)√
𝑛𝑘
p
f 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
1 18,10 26,70 32,8 37,20 40,5 43,1 45,4 47,3 49,1 50,6 51,9 53,2 54,3 55,4 56,3
2 6,09 8,28 9,80 10,89 11,73 12,43 13,03 13,54 13,99 14,39 14,75 15,08 15,38 15,65 15,90
3 4,50 5,88 6,83 7,51 8,04 8,47 8,85 9,18 9,46 9,72 9,95 10,16 10,35 10,52 10,60
4 3,93 5,00 5,76 6,31 6,73 7,06 7,35 7,60 7,83 8,03 8,21 8,37 8,52 8,67 8,80
5 3,61 4,54 5,18 5,64 5,99 6,28 6,52 6,74 6,93 7,10 7,25 7,39 7,52 7,64 7,75
6 3,46 4,34 4,90 5,31 5,63 5,89 6,12 6,32 6,49 6,65 6,79 6,92 7,04 7,14 7,24
7 3,34 4,16 4,68 5,06 5,35 5,59 5,80 5,99 6,15 6,29 6,42 6,54 6,65 6,75 6,84
8 3,26 4,04 4,53 4,89 5,17 5,40 5,60 5,77 5,92 6,05 6,18 6,29 6,39 6,48 6,57
9 3,20 3,95 4,42 4,76 5,02 5,24 5,43 5,60 5,74 5,87 5,98 6,09 6,19 6,28 6,36
10 3,15 3,88 4,33 4,66 4,91 5,12 5,30 5,46 5,60 5,72 5,83 5,93 6,03 6,12 6,20
11 3,11 3,82 4,26 4,58 4,82 5,03 5,20 5,35 5,49 5,61 5,71 5,81 5,90 5,98 6,06
12 3,08 3,77 4,20 4,51 4,75 4,95 5,12 5,27 5,40 5,51 5,61 5,71 5,80 5,88 5,95
13 3,06 3,73 4,15 4,46 4,69 4,88 5,05 5,19 5,32 5,43 5,53 5,63 5,71 5,79 5,86
14 3,03 3,70 4,11 4,41 4,64 4,83 4,99 5,13 5,25 5,36 5,46 5,56 5,64 5,72 5,79
15 3,01 3,67 4,08 4,37 4,59 4,78 4,94 5,08 5,20 5,31 5,40 5,49 5,57 5,65 5,72
• Si 𝐼𝐶(𝜇𝑖 − 𝜇𝑗 ) = [𝐿í𝑚 𝑖𝑛𝑓𝑒𝑟; 𝐿í𝑚 𝑠𝑢𝑝𝑒𝑟] = [−; −]; entonces, 𝜇𝑖 − 𝜇𝑗 < 0; entonces, 𝜇𝑖 < 𝜇𝑗
Es decir, el límite inferior y el límite superior son valores negativos; entonces, 𝜇𝑖 < 𝜇𝑗
Es decir, el límite inferior es un valor negativo y límite superior es un valor positivo; entonces, 𝜇𝑖 = 𝜇𝑗
• Si 𝐼𝐶(𝜇𝑖 − 𝜇𝑗 ) = [𝐿í𝑚 𝑖𝑛𝑓𝑒𝑟; 𝐿í𝑚 𝑠𝑢𝑝𝑒𝑟] = [+; +]; entonces, 𝜇𝑖 − 𝜇𝑗 > 0; entonces, 𝜇𝑖 > 𝜇𝑗
Es decir, el límite inferior y el límite superior son valores positivos; entonces, 𝜇𝑖 > 𝜇𝑗
Unidad 2. Diseño y análisis de experimentos 90
Anova en Excel
Anova en Minitab
En Minitab, elija la opción Estadísticas, luego ANOVA y Un solo factor…
Solución
Antes de empezar tengamos en cuenta las interrogantes que dio origen a esta investigación:
¿El método de capacitación impacta en el tiempo de ensamblaje?
¿Cuál es el método de capacitación que mejora (mejora) el tiempo de ensamblaje? ( es decir el tiempo se
reduce)
𝐶𝑀𝑇𝑟
𝐹𝑐 = ~𝐹(2,21) /𝐻0 𝑐𝑖𝑒𝑟𝑡𝑜
𝐶𝑀𝐸
Fuente de
Grados de libertad Suma de cuadrados Cuadrado medio Fcalculado Fcrítico
variación
k
y2i. y2.. 𝑆𝐶(𝑇𝑟)
Tratamientos 𝑘– 1 SC(Tr)= ∑ - 𝐶𝑀(𝑇𝑟) =
ni n. 𝑘−1
i=1
𝑆𝐶𝐸
Error 𝑛. – 𝑘 𝑆𝐶𝐸 = 𝑆𝐶𝑇 − 𝑆𝐶(𝑇𝑟) 𝐶𝑀𝐸 = 𝐶𝑀(𝑇𝑟)
𝑛−𝑘 𝐹= 𝐹(𝛼;𝑘−1;𝑛−𝑘)
𝐶𝑀𝐸
k n
y2..
Total 𝑛. – 1 SCT = ∑ ∑ y2ij -
n.
i=1 j=1
Supuestos
Los errores constituyen una muestra aleatoria de una población normal
Las varianzas de los errores en cada tratamiento son iguales
Análisis de Varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Factor 2 4.597 2.2984 6.40 0.007
Error 21 7.542 0.3592
Total 23 12.139
𝛼 = 0,05
2,2984
𝐹𝑐 = = 6,40
0,3592
𝛼 = 0,05
Con 5% de nivel de significación, al menos uno de los métodos tarda en promedio menos tiempo en ensamblar
el producto.
Supuesto 1. Normalidad
𝛼 = 0,05
Decisión
Como valor p = 0,947 > 0,05; entonces, no se rechaza 𝐻0 .
Estadística Aplicada II 202301 95
Conclusión
Con 5 % de nivel de significación, la evidencia muestral es insuficiente para descartar que los errores provienen
de una población normal. Por lo tanto, se asume que se cumple el supuesto.
𝛼 = 0,05
Pruebas
Método Estadística de prueba Valor p
Bartlett 1.89 0.389
Decisión
Como valor p = 0,389 > 0,05; entonces, no se rechaza 𝐻0 .
Conclusión
Con 5% de nivel de significación, la evidencia muestral es insuficiente para descartar que las varianzas de los
errores en cada población son las mismas. Por lo tanto, se asume que se cumple el supuesto.
El método más efectivo es el método B, porque demanda menos tiempo medio (7.930) y la agrupación es solo
la B.
Unidad 2. Diseño y análisis de experimentos 96
Ejercicios
Automóviles compactos 44 43 44 54 38 43 42 45 44 50
Automóviles medianos 41 49 43 41 47 42 37 43 44 34
Automóviles grandes 32 37 38 45 37 33 38 45 43 42
Tratamientos
Error
Total
𝑌. . = 1258
∑ ∑ 𝑌𝑖𝑗2 = 53452
𝛼 = 0,01
Estadística Aplicada II 202301 97
37. Las cifras siguientes representan el número de errores cometidos, en cinco días consecutivos de trabajo,
por cuatro técnicos de un laboratorio fotográfico:
Día Técnico I Técnico II Técnico III Técnico IV
1 6 14 10 9
2 14 9 12 12
3 10 12 7 8
4 8 10 15 10
5 11 14 11 11
Total 49 59 55 50
Prueba con un nivel de significancia = 0.05 , si alguno de los técnicos comete menos errores en
promedio que el resto.
Para tal fin, decide evaluar cinco diferentes niveles de peso porcentual de algodón, estos son: 15%, 20%,
25%, 30% y 35%; donde medirá la resistencia a la tensión en los ejemplares de la fibra sintética. Los datos
de 25 prendas se muestran a continuación:
Asumiendo que se cumplen los supuestos del experimento y utilizando un nivel de significación del 5%,
analice los resultados si el peso porcentual de algodón impacta en la resistencia de la fibra. Cabe resaltar
que una prenda con mayor resistencia a la tensión es un indicador de mejor calidad.
Factor en estudio
Tratamientos
Variable respuesta
Unidad experimental
Hipótesis alternativa
Unidad 2. Diseño y análisis de experimentos 98
b. Complete la tabla de análisis de varianza.
Tratamientos 578.24
Error 20 4.56
Total
𝛼 = 0,05
d. Indique la decisión.
e. Indique la conclusión
f. ¿Qué peso porcentual de algodón sugiere utilizar?
Hallando el peso porcentual sugerido usando valor p (p-value).
Hallando el peso porcentual sugerido usando intervalos de confianza.
Bibliografía
• Montgomery, D. y Runger, G. (2005) Probabilidad y estadística aplicadas a la ingeniería. México, D.F.:
Limusa Wiley. Capítulo 13. Sección 13.1 y 13.4
• Triola, M. (2013). Estadística. 11va. Edición. Pearson Educación, México, D.F. Capítulo 12. Sección 12.3 y
12.4.
El análisis de varianza (ANOVA) de dos factores es una técnica estadística utilizada para analizar la influencia
de dos factores en una variable de interés. Los dos factores pueden ser cualquier cosa que se desee investigar,
como tratamientos diferentes, temperaturas, grupo de edad, ciudad de residencia, etc.
El ANOVA de dos factores permite examinar el efecto de cada factor individualmente, así como el efecto de la
interacción entre los dos factores. La interacción entre los factores se refiere a si el efecto de un factor varía
según el nivel del otro factor.
𝐻0 ≔ No existe interacción entre los niveles de los factores sobre la variable respuesta
𝐻1 ≔ Existe interacción entre los niveles de los factores sobre la variable respuesta
Si
Para obtener el valor del estadístico de prueba, se debe elaborar la tabla del ANOVA.
𝐶𝑀(𝐴)
𝐴 𝑎−1 𝑆𝐶(𝐴) 𝐶𝑀(𝐴)
𝐶𝑀𝐸
𝐶𝑀(𝐵)
𝐵 𝑏−1 𝑆𝐶(𝐵) 𝐶𝑀(𝐵)
𝐶𝑀𝐸
𝐶𝑀(𝐴𝐵)
𝐴𝐵 (𝑎 − 1)(𝑏 − 1) 𝑆𝐶(𝐴𝐵) 𝐶𝑀(𝐴𝐵)
𝐶𝑀𝐸
Error 𝑎𝑏(𝑛– 1) 𝑆𝐶𝐸 𝐶𝑀𝐸
𝑏
1 2 𝑦…2 𝑆𝐶(𝐵) 𝐶𝑀(𝐵)
Factor B 𝑏– 1 ∑ 𝑦.𝑗. − 𝐹𝛼;𝑏−1;𝑎𝑏(𝑛−1)
𝑎𝑛 𝑎𝑏𝑛 𝑏−1 𝐶𝑀𝐸
𝑗=1
𝑎 𝑏
1 2 𝑦…2
Interacción ∑ ∑ 𝑦𝑖𝑗. − 𝑆𝐶(𝐴𝐵) 𝐶𝑀(𝐴𝐵)
(𝑎– 1)(𝑏– 1) 𝑛 𝑎𝑏𝑛 𝐹𝛼;(𝑎−1)(𝑏−1);𝑎𝑏(𝑛−1)
AxB 𝑖=1 𝑗=1 (𝑎 − 1)(𝑏 − 1) 𝐶𝑀𝐸
𝑆𝐶(𝑆𝑢𝑏𝑡𝑜𝑡𝑎𝑙𝑒𝑠) – 𝑆𝐶𝐴 − 𝑆𝐶𝐵
𝑆𝐶𝐸
Error 𝑎𝑏(𝑛– 1) 𝑆𝐶𝑇 – 𝑆𝐶(𝐴) – 𝑆𝐶(𝐵) – 𝑆𝐶(𝐴𝐵)
𝑎𝑏(𝑛 − 1)
𝑎 𝑏 𝑛
2 𝑦…2
Total 𝑎𝑏𝑛– 1 ∑ ∑ ∑ 𝑦𝑖𝑗𝑘 −
𝑎𝑏𝑛
𝑖=1 𝑗=1 𝑘=1
Unidad 2. Diseño y análisis de experimentos 102
Ejercicios
39. La pregunta de investigación es: ¿Qué factores influyen en la mayor conservación del queso?
a. A partir de revisar el siguiente video sobre la conservación de queso: Trucos para conservar quesos
b. Discuta con sus compañeros e indique al menos dos factores que puede incluirse en la hipótesis de
investigación.
Factor A
Factor B
Niveles
Tratamientos
Número de tratamientos
Variable respuesta
Unidad experimental
Modelo matemático
Hipótesis estadística
H1:
Estadística Aplicada II 202301 103
40. Un ingeniero sospecha que el tipo de pintura tapa poros y el método de
aplicación afectan el tiempo de duración de la pintura de las piezas de las
aeronaves. Él está interesado en determinar si algún tipo de pintura con algún
nivel del método de aplicación influyen en el tiempo de duración de la pintura
de las piezas de las aeronaves. Idea dos experimentos, obteniendo las
siguientes gráficas.
𝐻0 : No existe interacción entre los niveles de los factores sobre la variable respuesta
𝐻1 : Existe interacción entre los niveles de los factores sobre la variable respuesta
Si
Temperatura (grados) H1 H2 H3 H4
227 214 225 260
500 221 259 236 229
225 265 230 258
187 181 232 246
550 208 179 198 273
198 195 200 285
174 198 178 206
600 202 194 213 219
201 195 212 210
Solución
El modelo aditivo es:
𝛼 = 0,05
Estadística Aplicada II 202301 105
valor p = 0.264
Decisión
Como el valor p = 0.264 es mayor al nivel de significancia 𝛼 = 0,05; entonces, no se rechaza 𝐻0
Conclusión
Con 5 % de nivel de significación, la evidencia muestral es insuficiente para descartar que los errores provienen
de una población normal. Por lo tanto, se asume que se cumple el supuesto.
𝐻0 : Los errores tienen la misma varianza en cada una de las poblaciones (es sinónimo “tratamientos”)
𝐻1 : Al menos una varianza es diferente
𝛼 = 0,05
Unidad 2. Diseño y análisis de experimentos 106
Pruebas
Estadística
Método de prueba Valor p
Bartlett 16.22 0.133
Valor p = 0.133
Decisión
Como el valor p = 0.133 es mayor al nivel de significancia 𝛼 = 0,05; entonces, no se rechaza 𝐻0
Conclusión
Con 5 % de nivel de significación, la evidencia muestral es insuficiente para descartar que las varianzas de los
errores en cada población son las mismas. Por lo tanto, se asume que se cumple el supuesto.
Analizando la interacción
𝐻0 : La interacción de los niveles de temperatura en cada tipo de horno no impacta en la vida útil
𝐻1 : La interacción de los niveles de temperatura en cada tipo de horno sí impacta en la vida útil
𝛼 = 0,05
𝐶𝑀𝐴𝐵
𝐹𝑐𝑎𝑙 = ~𝐹(6,24) / 𝐻0 𝑐𝑖𝑒𝑟𝑡𝑜
𝐶𝑀𝐸
Análisis de Varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Temperatura 2 8431 4215.3 18.29 0.000
Horno 3 8050 2683.3 11.65 0.000
Temperatura*Horno 6 5984 997.4 4.33 0.004
Error 24 5530 230.4
Total 35 27995
𝐹𝑐𝑎𝑙 = 4.33
𝑣𝑎𝑙𝑜𝑟 𝑝 = 0.004
Conclusión
Con 5 % de nivel de significación, la evidencia muestral es suficiente para afirmar que La interacción de los
niveles de temperatura en cada tipo de horno sí impacta en la vida útil de dicho componente.
La mejor combinación es el tratamiento temperatura 550 grados y horno 4, en cuyo caso, la vida media estos
componentes es superior (268.000) al resto de combinaciones y está sola en la agrupación A.
Unidad 2. Diseño y análisis de experimentos 108
Ejercicios
41. Tecno Gas S.A. es una empresa que fabrica y comercializa termas a gas para uso
doméstico e industrial. La terma a gas es un artefacto calentador de agua que
funciona de forma continua mediante la combustión de gas.
El jefe del departamento de ingeniería está interesado en determinar si hay influencia del turno de
producción y la capacidad de las termas en el porcentaje de termas con defecto.
Para esto diseñó un experimento factorial con tres niveles del turno de producción y tres niveles de la
capacidad de las termas, obteniendo la siguiente información:
Capacidad
Turno de producción
10 litros 14 litros 18 litros
3.8 5.5 4.5
Mañana 4.0 5.0 4.0
4.2 4.8 4.2
4.5 5.0 3.8
Tarde 4.2 5.3 4.0
4.8 5.8 3.5
5.0 6.0 3.8
Noche 4.5 5.8 4.0
5.2 5.5 4.1
¿Qué capacidad de terma y/o turno de producción debe elegir jefe de departamento de ingeniería, para
obtener menor porcentaje de termas con defectos? Realice el análisis con un nivel de significación de 5%
y nivel de confianza 95%.
Tratamientos
Unidad experimental
Estadística Aplicada II 202301 109
Hipótesis alterna
b. Prueba de supuestos.
Turno 2 0,9267
Capacidad 9,4289
Turno x capacidad 4
Error 1,5333
Total 26 13,1867
𝛼 = 0,05
La decisión es …
Conclusión
¿Qué capacidad de terma o turno de producción debe elegir jefe de departamento de ingeniería, para
obtener menor porcentaje de termas con defectos?
Unidad 2. Diseño y análisis de experimentos 110
Si hubiera salido el siguiente reporte como resultado del caso anterior: ¿Qué capacidad de terma o
turno de producción debe elegir jefe de departamento de ingeniería, para obtener menor porcentaje
de termas con defectos?
42. Al pesar un reactivo en un laboratorio aparecen diferencias debidas a las balanzas usadas y a la habilidad
del personal que realizan las mediciones. Se elige tres balanzas y tres técnicos de laboratorio, los
resultados de las mediciones, en gramos, se muestran a continuación.
Personal
Balanza 1 2 3
1.81 2.04 2.03
1 1.91 1.97 1.98
1.91 1.99 1.94
1.94 2.08 2.03
2 1.90 2.14 1.98
1.99 2.08 2.00
1.83 1.98 1.91
3 1.92 2.05 2.06
1.96 2.03 2.04
Estadística Aplicada II 202301 111
Logro de la unidad
Al finalizar la unidad 3, el estudiante pronostica eventos a partir de modelos estadísticos que relacionan dos o
más variables para responder analíticamente a un problema en contexto real.
Temario
• Regresión simple
• Regresión lineal múltiple
• Medidas de bondad de ajuste
• Validación del modelo y supuestos
• Intervalo de confianza para la media y pronóstico de un valor individual
• Serie de tiempo. Conceptos básicos
• Medición del error
• Suavización exponencial simple
• Método de descomposición - Pronósticos.
Bibliografía
Estadística Aplicada II 202301 113
Unidad 3. Modelos de pronósticos 114
Análisis de regresión lineal simple
Bibliografía
• Mendenhall W., Beaver R. y Beaver B. (2015). Introducción a la Probabilidad y Estadística. 14va Edición.
Cengage Learning Editores, México D. F. Capítulo 12.
• Montgomery, D. y Runger G. (2005). Probabilidad y Estadística aplicada a la Ingeniería. México D. F.:
Limusa Wiley. Capítulo 10.
• Jay L. Devore (2008). Probabilidad y Estadística para Ingeniería y Ciencias. México, D.F.: Cengage Learning.
Capítulo 12.
El análisis de regresión lineal comprende es estudio de los datos muestrales para saber si dos o
más variables están relacionadas entre sí en una población.
El análisis de regresión lineal da como resultado una ecuación matemática que describe cierta
relación determinada. La ecuación puede usarse para estimar o predecir los valores de una
variable cuando se conocen o se suponen conocidos los valores de otra variable.
Ejemplo
▪ ¿Cuál será el gasto que incurrirá una familia cuyo ingreso familiar mensual es 4000 soles?
▪ ¿Cuál será el monto de ventas de una empresa si invierte en publicidad 10000 dólares?
Usualmente tales predicciones requieren que se encuentre una fórmula que relacione tales
variables.
Diagrama de dispersión
El primer paso en el análisis de regresión es construir una gráfica de los datos muestrales en un plano
bidimensional. Esta gráfica se denomina diagrama de dispersión y permite observar la existencia de patrones
diferentes y valores atípicos, que son los puntos que se alejan mucho de los demás. (Triola, 2013).
Sobre la relación entre las variables, se puede usar el diagrama de dispersión o el coeficiente de correlación
para identificar la relación entre dos variables dependiente (𝑌) e independiente (𝑋). Esta tendencia puede ser
lineal o no lineal. En el primer caso se estimará una recta y en el segundo caso una curva.
Unidad 3. Modelos de pronósticos 116
∑(𝑦𝑖 − 𝑦̂𝑖 )2
𝑖=1
Los valores de 0 y 1 que minimizan la suma de los cuadrados de las desviaciones, son las soluciones de las
llamadas ecuaciones normales de la recta de regresión:
𝑛 𝑛
∑ 𝑦𝑖 = 𝑛𝛽0 + 𝛽1 (∑ 𝑥𝑖 )
𝑖=1 𝑖=1
𝑛 𝑛 𝑛
∑ 𝑥𝑖 𝑦𝑖 = 𝛽0 (∑ 𝑥𝑖 ) + 𝛽1 (∑ 𝑥𝑖2 )
𝑖=1 𝑖=1 𝑖=1
Ejemplo.
Estime la ecuación de la recta que relaciona a las variables X e Y.
Estadística Aplicada II 202301 117
nº 𝑥 𝒚 𝑥𝑦 𝑥2 𝑦2
1 1.0 8.1 8.10 1.00 65.61
2 1.1 7.8 8.58 1.21 60.84
3 1.2 8.5 10.20 1.44 72.25
4 1.3 8.2 10.66 1.69 67.24
5 1.4 9.5 13.30 1.96 90.25
6 1.5 8.9 13.35 2.25 79.21
7 1.6 9.0 14.40 2.56 81.00
8 1.7 10.2 17.34 2.89 104.04
9 1.8 9.3 16.74 3.24 86.49
10 1.9 9.9 18.81 3.61 98.01
11 2.0 10.5 21.00 4.00 110.25
Suma 16.5 99.9 152.48 25.85 915.19
11(152.48) − (16.5)(99.9)
𝛽̂1 = = 2.391
11(25.85) − (16.5)2
99.9 16.5
𝛽̂0 = − (2.391) = 5.495
11 11
Finalmente, la ecuación estimada es 𝑦̂ = 5.495 + 2.391𝑥
Cambio marginal
La pendiente 𝛽̂1 en la ecuación de regresión representa el cambio marginal que ocurre en Y cuando X cambia
una unidad
Y ŷ i = ˆ 0 + ˆ 1 x i
(xi, yi)
yi
y i − ŷ i
yi − y
ŷ i − y
y
x xi X
𝑖=1 𝑖=1
Unidad 3. Modelos de pronósticos 118
𝑛 𝑛 𝑛
Sumas de Cuadrados
𝑛 𝑛
(∑𝑛𝑖=1 𝑦𝑖 )2
𝑆𝑆𝑇 = ∑(𝑦𝑖 − 𝑦̄ ) = 2
∑ 𝑦𝑖2 −
𝑛
𝑖=1 𝑖=1
𝑛 𝑛 𝑛
(∑𝑛𝑖=1 𝑥𝑖 )2
𝑆𝑆𝑅 = ∑(𝑦̂𝑖 − 𝑦̄ ) = 𝛽̂12 ∑(𝑥𝑖 − 𝑥̄ )2 = 𝛽̂12 (∑ 𝑥𝑖2 −
2
)
𝑛
𝑖=1 𝑖=1 𝑖=1
𝑛
Coeficiente de determinación
El coeficiente de determinación mide la proporción o el porcentaje de la variación total en 𝑌 explicada por el
modelo de regresión, su notación es 𝑅 2.
𝑆𝐶𝑅
𝑅2 =
𝑆𝐶𝑇
Error estándar
El error estándar mide la variabilidad o dispersión de los valores muestrales alrededor de la recta de regresión,
su notación es 𝑆 o 𝑆𝑒.
Estadística Aplicada II 202301 119
𝑆𝐶𝐸
𝑆=√ = √𝐶𝑀𝐸
𝑛−2
Tener en cuenta:
Regiones
𝛼 𝛼
2 2
Pronósticos
Los pronósticos para la respuesta media y para un valor individual se calculan utilizando las siguientes
fórmulas:
1 (𝑥0 − 𝑥̅ )2
𝑦̂0 ∓ 𝑡(𝛼,𝑛−2) 𝑆𝑒 √ +
2 𝑛 𝑆𝑋𝑋
Unidad 3. Modelos de pronósticos 120
Intervalo de confianza para el valor individual
1 (𝑥0 − 𝑥̅ )2
𝑦̂0 ∓ 𝑡(𝛼,𝑛−2) 𝑆𝑒 √1 + +
2 𝑛 𝑆𝑋𝑋
Donde:
̂0 + 𝛽
𝑦̂0 = 𝛽 ̂1 𝑥0
𝑆𝑒 = √𝐶𝑀𝐸
𝑆𝐶𝑅
𝑆𝑋𝑋 = 2
𝛽̂1
Interpretación
¿Cuál es el problema que tiene la empresa?
Determinar un método que le permita pronosticar los tiempos de entrega a partir del número de cajas
solicitas. Una alternativa para esto es utilizar el análisis de regresión simple donde las variables son:
Representación
Cálculo
Del gráfico de dispersión se aprecia que a mayor número de cajas mayor es el tiempo de entrega. Se evaluará
la posible relación lineal directa entre las variables expresada por:
𝑦 = 𝛽0 + 𝛽1 𝑥 + 𝑒
Unidad 3. Modelos de pronósticos 122
Análisis de residuos
Normalidad
𝐻0 Los errores sí provienen de una población normal
𝐻1 Los errores no provienen de una población normal
AD = 0,434
Valor p = 0,250
Decisión
Como el valor p = 0,250 > 𝛼 = 0,05; entonces, no se rechaza 𝐻0
Conclusión
Con 5 % de nivel de significación, la evidencia muestral es insuficiente para descartar que los errores provienen
de una población normal. Por lo tanto, se asume que se cumple el supuesto.
En vista que el estadístico de la prueba de independencia de errores Durbin-Watson es d= 2.388, siendo este
valor un punto del intervalo [1.5,2.5]; entonces, se asume que el supuesto de no autocorrelación de errores
se cumple (Ángeles, C. 2002).
Estadística Aplicada II 202301 123
Análisis del modelo de regresión lineal simple
𝑦̂ = 25.779 + 0.136𝑥
̂1 = 0.136: Por cada caja adicional el tiempo de entrega se incrementa el promedio en 0.136 minutos.
𝛽
𝑟 2 = 97.07%
El 97.07% de la dispersión en los tiempos de entrega se explica por el número de cajas solicitadas.
Prueba individual
Para que la variable dependiente sea significativa en el modelo de regresión debemos probar que la pendiente
poblacional es diferente de cero, es decir:
𝐻0 : 𝛽1 = 0
𝐻1 : 𝛽1 ≠ 0
𝛼 = 0.05
𝛽̂1 − 𝛽1
𝑇= ~𝑡(𝑛−𝑝)
𝑠𝑏1
Analysis of Variance
Source DF Adj SS Adj MS F-Value P-Value
Regression 1 352.94 352.944 331.30 0.000
x 1 352.94 352.944 331.30 0.000
Error 10 10.65 1.065
Total 11 363.60
Decisión
Unidad 3. Modelos de pronósticos 124
Como el valor p = 0 < 𝛼 = 0.05; entonces, se rechaza 𝐻0 .
Conclusión
Con 5 % de nivel de significación, la evidencia muestral es suficiente para afirmar que existe una relación lineal
significativa entre el tiempo de entre y el número de cajas solicitadas.
Prediction for y
Regression Equation
y = 25.779 + 0.13564 x
Settings
Variable Setting
x 175
Prediction
Fit SE Fit 95% CI 95% PI
49.5156 0.550810 (48.2883, 50.7429) (46.9089, 52.1223)
EL intervalo que va de 48.3 a 50.7 minutos ofrece un 95% de confianza de contener al verdadero tiempo
promedio de entrega cuando se solicita 175 cajas.
Estadística Aplicada II 202301 125
Ejercicios
43. A continuación, se muestra el análisis de varianza en la regresión lineal simple, donde la fuerza de impulso
de un motor (𝑌), medido en Kg·m/s depende de la temperatura de escape (𝑋) en °F:
A partir de esta información presentada en la tabla, calcule e interprete el valor del coeficiente de
determinación y del error estándar.
44. A continuación, encierre en un círculo las alternativas que corresponden a los supuestos del modelo de
regresión son:
a. normalidad de las variables
b. normalidad de los errores
c. autocorrelación de los errores
d. varianza constante de errores (homocedasticidad)
e. independencia de los errores (Independencia = no autocorrelación)
f. heterocedasticidad
45. Para asumir que los supuestos de no autocorrelación de los errores y de homocedasticidad, el estadístico
Durbin Watson debe estar comprendido en el intervalo:
a. [0, 4]
b. [1, 3]
c. [1.5, 2.5]
d. [-1.5, 2.5]
e. [1.5, 3.5]
46. Sobre la validación del modelo, en la prueba individual (coeficientes), indique a continuación cuál es la
hipótesis alterna para evaluar la adecuación del modelo a la población.
a. H1: β0 ≠ 0
b. H0: β0 = 0
c. H1: β1 = 0
d. H1: β1 ≠ 0
47. Sobre la validación del modelo, para validar la prueba de hipótesis individual (coeficientes) indique a
continuación cuál es la distribución que se usa.
a. normal
b. t – Student
c. F de Fisher
48. La validación del modelo de regresión lineal simple puede realizarse usando ANOVA o la prueba de
coeficientes.
a. Verdadero
Unidad 3. Modelos de pronósticos 126
b. Falso
49. En la ciudad Campo Verde existe una flota considerable de combis antiguas que, no solo congestionan el
tráfico sino también, podrían estar emitiendo cantidades alarmantes de monóxido de nitrógeno (NO).
Para comprobar lo anterior, la gerencia municipal solicita al ingeniero Flores un estudio técnico al respecto,
a partir de una muestra seleccionada al azar de 30 combis. Si en este estudio comprueba que la emisión
media de NO, de una combi con una antigüedad de 15 años, supera los 11 mg/m3; la gerencia municipal
solicitará el retiro de circulación de las unidades de 15 años a más de antigüedad.
Variable dependiente 𝒀
Variable independiente 𝑿
c. A partir del caso, se obtuvo el siguiente diagrama de dispersión de las variables de estudio, ¿cuál es la
relación entre ellas?
d. Teniendo en cuenta el siguiente reporte: “Coeficientes”, modele la ecuación de regresión lineal simple
estimado e interprete el coeficiente de regresión.
Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Constante 0.358 0.770 0.47 0.645
Estadística Aplicada II 202301 127
e. Teniendo en cuenta el siguiente reporte: Resumen del modelo, indique la interpretación del coeficiente
de determinación y el error estándar.
R2 =
S=
f. Según la prueba de Anderson Darling, verifique si se cumple el supuesto de normalidad de los errores.
Usar nivel de significación del 5%.
Tener en cuenta:
Según Ángeles, C. (2002), si el estadístico Durbin Watson (d) está en el intervalo [1.5, 2.5], puede
asumirse que el supuesto de independencia de errores se cumple.
Bajo el mismo criterio del estadístico Durbin Watson se puede asumir que se cumple el supuesto de
homocedasticidad.
h. Teniendo en cuenta el siguiente reporte de Minitab, verifique la validez del modelo, usando la prueba
global (ANOVA) o la prueba individual (coeficiente), con un nivel de significación del 5%. Para la toma
decisión utilice el criterio del valor p.
Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Constante 0.358 0.770 0.47 0.645
X 1.0276 0.0907 11.33 0.000 1.00
Análisis de Varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Regresión 1 485.18 485.185 128.40 0.000
X 1 485.18 485.185 128.40 0.000
Error 28 105.81 3.779
Falta de ajuste 9 79.15 8.795 6.27 0.000
Error puro 19 26.65 1.403
Total 29 590.99
Hipótesis
Estadístico de prueba
Decisión
Conclusión estadística
i. Con un nivel de confianza del 95%, la emisión media de monóxido de nitrógeno de una combi con una
antigüedad de 15 años es:
1 (𝑥0 − 𝑥̅ )2
𝑦̂0 ∓ 𝑡(𝛼,𝑛−2) 𝑆𝑒 √ +
2 𝑛 𝑆𝑋𝑋
1 (𝑥0 − 𝑥̅ )2
𝑦̂0 ∓ 𝑡(𝛼,𝑛−2) 𝑆𝑒 √1 + +
2 𝑛 𝑆𝑋𝑋
𝑆𝐶𝑅
𝑆𝑒 = √𝐶𝑀𝐸 𝑆𝑋𝑋 =
𝛽̂12
Estadísticas
Variable N Media [Link].
X 30 7.5333 3.9804
50. Un ingeniero industrial de una gran cadena de supermercados le gustaría utilizar el espacio en el estante
para predecir las ventas de alimento para mascotas. Se selecciona una muestra aleatoria de 12 tiendas de
igual tamaño, obteniéndose los siguientes resultados:
Bibliografía
• Montgomery, D. y Runger G. (2005). Probabilidad y Estadística aplicada a la Ingeniería. México D. F.: Limusa
Wiley. Capítulo 10. Página 471
• Jay L. Devore (2008). Probabilidad y estadística para ingeniería y ciencias. México, D.F.: Cengage Learning.
Capítulo 13. Página 508
• Triola, M. (2013). Estadística. 11va. Edición. Pearson Educación, México, D.F. Capítulo 10. Página 570
Existen otros modelos de regresión que solo incluyen una variable independiente y que se aplican cuando se
espera o se observa que la relación entre X e Y no es modelada por una línea recta. Un conjunto de estos
modelos es aquellos que pueden ser linealizados mediante transformación ya sea de X, de Y o ambas.
Regresión exponencial
𝛽<0
𝛽>0
Regresión potencia
𝛽>1
𝛽<0
0<𝛽<1
Para una relación de función exponencial, sólo la variable dependiente (𝑌) se transforma para alcanzar
linealidad, mientras que, para una relación de función de potencia, tanto la variable independiente (𝑋) como
la variable dependiente (𝑌) se transforman.
Estadística Aplicada II 202301 131
Modelo Forma lineal /no Transformación para Función Datos para ingresar
lineal linealizar a MINITAB
Lineal 𝑦 = 𝛽0 + 𝛽1 𝑥 𝑦 = 𝛽0 + 𝛽1 𝑥 𝑦 = 𝑓(𝑥)
x y
x1 y1
… …
xn yn
Para verificar la validez de los modelos se realizará la prueba conjunta o prueba individual para el modelo
lineal, exponencial y potencia, mientras que para el modelo cuadrático se realizará la prueba conjunta y la
prueba individual.
H0: β1 = 0 H0: β1 = 0
Lineal, exponencial y
potencial H1: β1 ≠ 0 o H1: β1 ≠ 0
H0: β1 = β2 = 0 H0: β2 = 0
Cuadrático y
H1: Al menos un βi ≠ 0 H1: β2 ≠ 0
• Para el modelo cuadrático, exponencial y potencia se verifican los mismos supuestos del modelo lineal
simple (normalidad de los errores, no autocorrelación de los errores y varianza de los errores constante).
El intervalo de confianza para el valor medio o individual de la variable dependiente (𝑌), de las funciones
intrínsicamente lineales.
2 2
Potencia 1 (ln(x0 ) - ̅̅̅̅̅̅
ln(x)) 1 (ln(x0 ) - ̅̅̅̅̅̅
ln(x))
Ln(y0 ) ± t(α, n- 2) S √1+ + Ln(y0 ) ± t(α, n- 2) S √ +
2 n sxx 2 n sxx
donde:
𝑆 = √𝐶𝑀𝐸
𝑆𝐶𝑅
𝑆𝑋𝑋 =
𝛽̂12
Para calcular los valores en la escala original de 𝑌, se debe elevar cada uno de los términos del intervalo a la
“potencia e”.
Estadística Aplicada II 202301 133
Ejemplo 19
51. El gerente de una empresa de seguridad desea adquirir cámaras de video
vigilancia de la compañía Security para ser utilizadas en una zona cuya
temperatura ambiente es de 25 °C. El representante de la empresa informa
que la vida útil de dichos equipos esta relacionado con la temperatura del
medio ambiente donde trabajan.
El gerente tomará la decisión de adquirir un lote de 200 cámaras y las enviará a una zona geográfica cuya
temperatura ambiente es 25 °C, aproximadamente, si la vida útil es mínimo de 15 años.
Para ayudar al gerente a decidirse por adquirir este producto, se le entrega los datos de una muestra
aleatoria de 10 equipos de video vigilancia donde se registró la temperatura ambiente y el tiempo de vida
de las cámaras. ¿Qué decisión deberá tomar el gerente de la empresa de seguridad? Utilice un α = 0,05
i. ¿Cuál es el tiempo de vida útil de una cámara de video vigilancia, cuando la temperatura del medio
ambiente es de 25°C?
ii. ¿El gerente de la compañía adquirirá el lote de las 200 cámaras y las enviará a una zona geográfica
cuya temperatura ambiente es aproximadamente 25 °C?
iii. ¿Existe relación no lineal entre la temperatura ambiente y el tiempo de vida útil de las cámaras?
Variable dependiente (𝒀) Vida útil de una cámara de video vigilancia, en años
Variable independiente (𝑿) Temperatura ambiente de una zona, en °C
c. Teniendo los resultados obtenidos del Minitab, escribir la ecuación de cada modelo y ordenarlos según
el coeficiente de determinación.
Modelo lineal
Resumen del modelo
R-cuad. R-cuad.
S R-cuad. (ajustado) (pred)
2.79077 92.89% 92.00% 90.12%
Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Constante 5.15 1.59 3.23 0.012
X 0.8687 0.0850 10.22 0.000 1.00
Modelo cuadrático
Resumen del modelo
R-cuad. R-cuad.
S R-cuad. (ajustado) (pred)
2.57603 94.70% 93.18% 88.85%
Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Unidad 3. Modelos de pronósticos 134
Constante 1.33 2.87 0.46 0.657
X 1.620 0.492 3.29 0.013 39.41
X^2 -0.0225 0.0146 -1.55 0.166 39.41
Modelo exponencial
Resumen del modelo
R-cuad. R-cuad.
S R-cuad. (ajustado) (pred)
0.241346 86.54% 84.86% 81.04%
Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Constante 1.951 0.138 14.16 0.000
X 0.05272 0.00735 7.17 0.000 1.00
Modelo potencia
Resumen del modelo
R-cuad. R-cuad.
S R-cuad. (ajustado) (pred)
0.154253 94.50% 93.82% 92.02%
Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Constante 1.058 0.154 6.86 0.000
Ln(X) 0.6983 0.0595 11.73 0.000 1.00
d. Teniendo los resultados mostrados del Minitab, verifique la validez del mejor modelo según el ranking
elaborado en el paso anterior.
Estadística Aplicada II 202301 135
Modelo lineal
Análisis de Varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Regresión 1 813.79 813.793 104.49 0.000
X 1 813.79 813.793 104.49 0.000
Error 8 62.31 7.788
Total 9 876.10
Modelo cuadrático
Análisis de Varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Regresión 2 829.65 414.824 62.51 0.000
X 1 71.83 71.834 10.82 0.013
X^2 1 15.86 15.856 2.39 0.166
Error 7 46.45 6.636
Total 9 876.10
Modelo exponencial
Análisis de Varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Regresión 1 2.9969 2.99690 51.45 0.000
X 1 2.9969 2.99690 51.45 0.000
Error 8 0.4660 0.05825
Total 9 3.4629
Modelo potencia
Análisis de Varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Regresión 1 3.2725 3.27253 137.54 0.000
Ln(X) 1 3.2725 3.27253 137.54 0.000
Error 8 0.1904 0.02379
Total 9 3.4629
𝑦 = 𝛽0 +𝛽1 𝑥+𝛽2 𝑥 2
H0: β1 = β2 = 0 (no hay modelo que relacione a estas variables)
H1: Al menos un βi ≠ 0 (sí hay modelo que relacione a estas variables)
∝= 0.05
Tabla de ANOVA
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Regresión 2 829.65 414.824 62.51 0.000
X 1 71.83 71.834 10.82 0.013
X^2 1 15.86 15.856 2.39 0.166
Error 7 46.45 6.636
Total 9 876.10
𝐶𝑀𝑅𝑒𝑔
𝐹𝑐𝑎𝑙 = = 62.51 Valor p = 0
𝐶𝑀𝐸
Unidad 3. Modelos de pronósticos 136
= 0.05
Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Constante 1.33 2.87 0.46 0.657
𝛽̂1 − 𝛽1
𝑡𝑐𝑎𝑙 = = −1.55 𝑣𝑎𝑙𝑜𝑟 𝑝 = 0.166
𝑠𝑏1
Se descarta este modelo y se selecciona al segundo mejor de la lista en el paso 1. Se elige al modelo
potencia.
Análisis de Varianza
𝐶𝑀𝑅𝑒𝑔
𝐹𝑐𝑎𝑙 = 𝐶𝑀𝐸
= 137.54 Valor p = 0
Estadística Aplicada II 202301 137
e. Teniendo en cuenta los resultados obtenidos por el Minitab, verifique el cumplimiento de los
supuestos del mejor modelo válido.
Modelo lineal
Estadístico de Durbin-Watson
Estadístico de Durbin-Watson = 2.58721
Modelo cuadrático
Estadístico de Durbin-Watson
Estadístico de Durbin-Watson = 2.29086
Modelo exponencial
Estadístico de Durbin-Watson
Estadístico de Durbin-Watson = 2.99505
Modelo potencia
Estadístico de Durbin-Watson
Estadístico de Durbin-Watson = 2.30840
• Normalidad
H0: Los errores sí provienen de una población normal
H1: Los errores no provienen de una población normal
• Homocedasticidad
H0: Los errores sí tienen varianza constante (homocedasticidad)
H1: Los errores no tienen varianza constante (heterocedasticidad))
Estadístico de prueba: d= 2.30840
Como d=2.30840 [1.5,2.5] → se asume que el supuesto de homocedasticidad de los errores se
cumple.
En conclusión, el modelo potencia es válido y además cumple los requisitos relacionados con los
supuestos.
f. Presente y realice la transformación, de ser necesaria, de la ecuación del mejor modelo valido y que
cumplió todos los supuestos.
𝑦̂ = 𝛽0 𝑥 𝛽1
̂0 + 𝛽
̂ = 𝐿𝑛𝛽
𝐿𝑛𝑦 ̂1 𝐿𝑛𝑥
̂ = 1.058 + 0.6983𝐿𝑛𝑥
𝐿𝑛𝑦
̂0 = 1.058−→ 𝛽
𝐿𝑛𝛽 ̂0 = 𝑒 1.058 = 2.8806
Modelo final: ŷ = 2.8806x 0.6983
g. Con un nivel de confianza del 95%, el tiempo de vida útil de una cámara de video vigilancia, cuando la
temperatura del medio ambiente es de 25 °C es:
Modelo lineal
Predicción
EE de
Ajuste ajuste IC de 95% IP de 95%
26.8657 1.19037 (24.1207; 29.6107) (19.8692; 33.8622)
Modelo cuadrático
Predicción
EE de
Ajuste ajuste IC de 95% IP de 95%
27.7659 1.24356 (24.8253; 30.7064) (21.0019; 34.5299)
Estadística Aplicada II 202301 139
Modelo exponencial
Predicción
Ajuste EE de ajuste IC de 95% IP de 95%
3.26850 0.102944 (3.03111; 3.50588) (2.66344; 3.87355)
Modelo potencia
Predicción
Ajuste EE de ajuste IC de 95% IP de 95%
3.30571 0.0666561 (3.15200; 3.45942) (2.91822; 3.69321)
x0=25 → Lnx0=Ln(25)=3.2189
Estimación puntual ̂0 = 1.058 + 0.6983𝐿𝑛𝑥=1.058+0.6983(3.2189) = 3.3058
𝐿𝑛𝑦
̂0 = 𝑒 3.30571 = 27.2679 𝑎ñ𝑜𝑠
𝑦
2.91822< 𝐿𝑛𝑌𝑖𝑛𝑑 < 3.69321
Intervalo de
e2.91822< 𝑌𝑖𝑛𝑑 < e3.69321
confianza
18.5083< 𝑌𝑖𝑛𝑑 <40.1736
15 18.5 40.2
En vista que, la vida útil de estos equipos sería mayor a 15 años, entonces se recomienda al gerente
que adquiera el lote de las 200 cámaras y las envíe a la zona cuya temperatura es 25 a más grados
centígrados.
Ejercicios
52. Se obtuvo el siguiente modelo de regresión lineal del tiempo que demora el reparto de cierto producto
(en minutos) en función del número de cajas a repartir:
𝑌̂ = −141 + 85.1𝑋
Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Constante -141 114 -1.24 0.270
X 85.1 36.8 2.31 0.069 1.00
Con la información mostrada y a un nivel de significancia de 5%, ¿el modelo de regresión lineal es válido?
53. Indique en la casilla de la derecha cuál es el modelo que corresponde según la representación simbólica
presentada:
a. ŷ = β̂ 0 + β̂ 1 x + β̂ 2 x2 Modelo exponencial
b. ŷ = β̂ 0 + β̂ 1 x Modelo potencia
̂
c. ŷ = β̂ 0 xβ1 Modelo lineal
̂
d. ŷ = β̂ 0 eβ1x Modelo cuadrático
54. Los siguientes datos corresponden al tiempo de secado de un barniz y la cantidad de cierto producto
químico que se le ha añadido:
Estime el mejor modelo y analice los datos considerando un nivel de significación del 5%. Seguido,
pronostique, con 98% de confianza, cuál será el tiempo de secado del barniz si se añade 7.3 gramos del
producto químico.
Bibliografía
• Mendenhall W., Beaver R. y Beaver B. (2015). Introducción a la Probabilidad y Estadística. 14va Edición.
Cengage Learning Editores, México D. F. Capítulo 13. Página 528
• Montgomery, D. y Runger G. (2005). Probabilidad y Estadística aplicada a la Ingeniería. México D. F.:
Limusa Wiley. Capítulo 11. Página 483
• Jay L. Devore (2008). Probabilidad y Estadística para Ingeniería y Ciencias. México, D.F.: Cengage Learning.
Capítulo 13. Página 560
y = 0 + 1 x1 + 2 x 2 + + k x k +
donde:
y : variable respuesta que se quiere predecir
0 , 1 , 2 ,, k : son las constantes.
x1 , x 2 , , x k : son variables predictoras independientes que se miden sin error.
: es un error aleatorio que, para cualquier conjunto dado de valores de
x1 , x 2 , , x k
donde:
ŷ : valor estimado de la variable dependiente
ˆ0 , ˆ1 , ˆ2 ,..., ˆk : estimaciones muestrales de los parámetros poblacionales
x1, x2,... , xk : son variables predictoras
ˆ 0
y1 1 x11 x12 ... x1k 1
1 ˆ1
y
2 x 21 x 22 ... x 2 k ˆ
2
. . 2 .
Y = X = ˆ = . ˆ =
. . .
. . . .
.
y n 1 x n1 xn2 ... x nk n
ˆ k
de donde Y = X +
ˆ = ( X ' X ) −1 X 'Y
Las propiedades estadísticas del estimador del vector de parámetros son:
E ( ˆ ) =
Cov( ˆ ) = 2 ( X ' X ) −1
Coeficiente de regresión
Un coeficiente de regresión estimado específico mide el cambio promedio en la variable dependiente debido
a un incremento de una unidad en la variable predictora relevante, manteniendo constantes las otras variables
de predicción.
Los errores estándar y la covarianza de los estimadores ˆ 0 , ˆ 1 , ˆ 2 ,..., ˆ k se determinan mediante los
elementos de la matriz ( X ' X ) −1 como:
c 00 c 01 c 02 ... c0k
c c11 c12 ... c1k
10
c 20 c 21 c 22 ... c 2 k
(X X )
´ −1
= .
.
.
c c k1 ck 2 ... c kk
k0
Los errores estándar de las ˆ 0 , ˆ1 , ˆ 2 ,..., ˆ k son:
Estadística Aplicada II 202301 147
ˆ = c 00
0
ˆ = c11
1
ˆ = c 22
2
.
.
.
ˆ = c kk
k
SSE
s= = CME
n− p
donde p es el número de parámetros a estimar.
A causa de esta desventaja, la comparación de diferentes ecuaciones de regresión múltiple se logra mejor con
2
el coeficiente ajustado de determinación, que es 𝑅𝑎𝑗𝑢𝑠𝑡𝑎𝑑𝑎 para el número de variables y el tamaño de la
muestra.
2 𝑛−1
𝑅𝑎𝑗𝑢𝑠𝑡𝑎𝑑𝑎 = 𝑅 2 = 1 − (1 − 𝑅 2 ) ( )
𝑛−𝑝
Pruebas de hipótesis
Una vez que se ha recogido una muestra aleatoria se han medido las variables y se ha examinado la matriz de
correlación para determinar aquellas combinaciones de variables que son de interés, se analizan los modelos
con el mejor potencial. El objetivo es encontrar la mejor ecuación para predecir y después decidir si esta
ecuación satisface las necesidades de exactitud del analista.
Los valores t calculados son de particular importancia en la regresión múltiple porque constituyen la forma
principal de detectar multicolinealidad. Si son suficientemente grandes, la correlación entre las dos variables
predictoras no es un problema. Si uno o ambos valores t son menores que los valores t de tablas, la
multicolinealidad está presente.
Unidad 3. Modelos de pronósticos 148
Pruebas individuales
donde ˆ I = s c ii
Prueba conjunta
LC ( j ) = ˆ j t ( / 2, n − p ) s c ii
Multicolinealidad
Cuando existen fuertes dependencias entre las variables regresoras (independientes), se dice que existe
multicolinealidad. La multicolinealidad puede tener efectos de consecuencias sobre las estimaciones de los
coeficientes de regresión y sobre la aplicabilidad general del modelo.
Los factores de inflación de la varianza (VIF) son medidas de multicolinealidad muy útiles. Entre mayor sea el
factor de inflación de la varianza, más marcada será la multicolinealidad.
Algunos autores han sugerido que, si cualquiera de los factores de inflación de la varianza excede 10, entonces
la multicolinealidad constituye un problema.
(Montgomery y Runger, 2005)
Estadística Aplicada II 202301 149
Una vez que el programa haya hecho un número suficiente de iteraciones y no hay más variables significativas
cuando se suman al modelo y ninguna de las variables del modelo son no significativas cuando son eliminadas,
el procedimiento se detiene.
Observaciones influyentes
Las observaciones poco comunes (también llamadas observaciones influyentes) son observaciones que tienen
un impacto desproporcionado en un modelo de regresión. Es importante identificar las observaciones poco
comunes porque pueden producir resultados engañosos.
Por ejemplo, una observación poco común puede ejercer una gran influencia al determinar R2, las
estimaciones de los coeficientes de regresión o la magnitud del cuadrado medio de error.
Tener en cuenta que, si en el modelo completo existen puntos influyentes deben eliminarse y luego aplicar la
regresión por pasos (método paso a paso)
Unidad 3. Modelos de pronósticos 150
Pasos por seguir en el análisis de regresión lineal múltiple
Ejemplo
El gerente de la empresa comprará una nueva maquinaria para aumentar la producción, si el monto de las
ventas supera los 5500 soles, cuando el gasto en publicidad es de 800 soles, el número medio de pedidos
es de 50 y el número de vendedores es 18. Los datos son presentados a continuación.
Use un nivel de significación del 5% y un nivel de confianza del 95% (alfa a entrar 0.05 y un alfa a retirar
0.05).
b. Teniendo en cuenta el siguiente reporte del programa Minitab, modele la ecuación de regresión lineal
múltiple estimado e interprete las medidas de bondad de ajuste.
R-cuad. R-cuad.
S R-cuad. (ajustado) (pred)
0.308456 93.19% 91.15% 86.85%
Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Constante 0.369 0.681 0.54 0.600
X1 2.782 0.791 3.52 0.006 2.13
X2 0.0856 0.0179 4.78 0.001 2.33
X3 -0.0182 0.0215 -0.85 0.417 1.18
Análisis de Varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Regresión 3 13.0257 4.34190 45.63 0.000
X1 1 1.1757 1.17567 12.36 0.006
X2 1 2.1784 2.17845 22.90 0.001
X3 1 0.0681 0.06809 0.72 0.417
Error 10 0.9514 0.09514
Total 13 13.9771
R2 modelo completo =
R2 =
91.15%
S modelo completo =
S=
0.308456
Modelo de
regresión lineal
múltiple estimado
β̂ 1 =
β̂ 2 =
c. Teniendo en cuenta el reporte de Minitab, realice la prueba global para el modelo de regresión
completo.
d. Teniendo en cuenta el reporte de Minitab, realice la prueba individual para cada coeficiente del
modelo de regresión completo.
e. Como el modelo de regresión lineal múltiple completo no resulta valido se aplica el método paso a
paso, para la selección del mejor modelo. Escriba la ecuación de regresión lineal múltiple estimado,
Unidad 3. Modelos de pronósticos 152
interprete los coeficientes del modelo e interprete las medidas de bondad de ajuste obtenido por el
método paso a paso, a partir del reporte de Minitab, que se muestra a continuación.
Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Constante -0.015 0.501 -0.03 0.977
X1 2.594 0.750 3.46 0.005 1.96
X2 0.0916 0.0162 5.65 0.000 1.96
Estadístico de Durbin-Watson
Estadístico de Durbin-Watson = 2.17108
Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Constante -0.015 0.501 -0.03 0.977
X1 2.594 0.750 3.46 0.005 1.96
X2 0.0916 0.0162 5.65 0.000 1.96
Estadísticas
Variable N Mínimo Máximo
COOK 14 0.0008 0.8034
j. Teniendo en cuenta el reporte de Minitab, con un nivel de confianza del 95%, calcule e interprete el
monto de las ventas cuando el gasto en publicidad es de 800 soles y el número medio de pedidos es
de 50.
Predicción
Ajuste EE de ajuste IC de 95% IP de 95%
6.63855 0.132153 (6.34768; 6.92942) (5.90807; 7.36903)
Ejercicios
55. Explique brevemente cuál es el objetivo del análisis de regresión lineal múltiple.
El gerente de una empresa desea obtener un modelo de regresión lineal que permita realizar los
pronósticos del monto de las ventas (en miles de soles) de su principal producto en función del gasto
mensual en publicidad (miles de soles), número medio de pedidos y el número de vendedores.
57. A continuación, marque con una “x” las alternativas que corresponden a los supuestos del modelo de
regresión lineal múltiple:
58. Marque cada afirmación con verdadero (V) o falso (F) según corresponda.
a. Una ventaja de la multicolinealidad es que los coeficientes de regresión fluctúan de manera notoria
de una muestra a otra ( )
b. Son supuestos del análisis de regresión múltiple: los errores tienen distribución normal, con media
igual a cero y varianza constante ( )
c. Si el coeficiente de Durbin Watson tiende a dos, existen problemas de multicolinealidad ( )
d. La significancia estadística de las variables independientes se verifica con la prueba conjunta ( )
59. Con la finalidad de estudiar los daños sufridos al trasladar equipos industriales, el gerente de una compañía
de mudanzas solicitó los últimos 30 registros de los pesos de los equipos, 𝑋1 (en miles de libras), las
distancias que fueron trasladados, 𝑋2 (en miles de millas) y los daños sufridos, Y (en dólares). La estimación
del modelo de regresión lineal múltiple dio como resultado la siguiente tabla:
Unidad 3. Modelos de pronósticos 154
Coeficientes
Término Coef EE del coef. Valor T Valor p
Constante 10.50 4.56 2.30 0.0296
X1 2.50 0.56 4.46 0.0001
X2 1.82 0.112 16.25 0.0000
Responda lo siguiente:
a. ¿Cuál es la interpretación de β̂ 2 ?
b. Escriba cuáles son las hipótesis planteada y alternante de la prueba conjunta
c. ¿Cuáles son el estadístico de prueba y el valor crítico de la prueba conjunta?
d. ¿Cuáles son las hipótesis de la prueba individual para el coeficiente β1?
e. ¿Cuáles son el estadístico de prueba y el valor crítico de la prueba individual para el coeficiente β2?
Estadística Aplicada II 202301 155
Series de tiempo
Bibliografía
• Anderson David, Sweeney Dennis y Willians Thomas (2010). Estadística para la administración y economía.
10ma Edición. Cengage Learning Ediores, México D.F. capítulo 18. Página 765.
• Gujarati Damodar N. y Porter Dawn C. (2010). Econometría. México Dc. Graw Hill. Capítulo 21 y 22 Página
737.
• Render Barry y Slair Ralph. (2016). Métodos cuantitativos para los negocios. 12va Edición. Pearson Prentice
Hall. Capítulo 5. Página 175.
Serie de tiempo
Al interior de las organizaciones, sus directivos muchas veces están interesados en evaluar el comportamiento
de variables medidas a través del tiempo para poder entender qué factores influyen en dicho comportamiento
variable, que les permita realizar pronósticos para orientar mejor la toma de decisiones. En este contexto se
habla de una serie de tiempo, la misma que, consiste en “datos recogidos, registrados u observados en
incrementos sucesivos de tiempo” (Hanke y Reitsh, 1997, p.684).
Se caracteriza por que la media y la variabilidad se En esta serie, la media y/o la variabilidad no se
mantiene constante a lo largo del tiempo. mantiene constante a lo largo del tiempo.
Para estudiar cada uno de estos tipos de series (estacionaria o no estacionaria) se utilizará el método de
suavización exponencial para una serie estacionaria y de descomposición para el segundo tipo de serie.
Unidad 3. Modelos de pronósticos 156
Suavización exponencial
La suavización exponencial es un método de pronóstico que se basa en suavizar (promediar), los valores
pasados de una serie en forma exponencialmente decreciente. Supone que los datos son estacionarios.
Las observaciones se ponderan asignando los pesos (𝛼) más grandes a las más recientes El modelo matemático
que representa el pronóstico bajo este método es: .
𝑌̂𝑡+1 = 𝛼𝑌𝑡 + 𝛼(1 − 𝛼)𝑌𝑡−1 + 𝛼(1 − 𝛼)2 𝑌𝑡−2 + 𝛼(1 − 𝛼)3 𝑌𝑡−3 + ⋯
𝑌̂𝑡+1 nuevo valor suavizado o valor de pronóstico para el siguiente periodo (𝑡 + 1).
𝛼 constante de suavización (0 < 𝛼 < 1)
𝑌𝑡 valor real de la serie en el periodo 𝑡
𝑌̂𝑡 Valor suavizado en el periodo 𝑡
Con relación a la constante de suavización, Hanke y Wichern (2010) indica que “si se requiere predicciones
estables y variaciones aleatorias suaves, entonces 𝛼 debe ser pequeño. Si se desea una respuesta rápida a un
cambio real en el patrón de observaciones se requiere un valor de alto” (p. 120).
𝑒𝑡 = 𝑌𝑡 − 𝑌̂𝑡
El mejor pronóstico es el que presenta el menor valor en el indicador de la medición del error.
∑𝑛𝑡=1|𝑌𝑡 − 𝑌̂𝑡 |
𝐷𝐴𝑀 =
𝑛
Estadística Aplicada II 202301 157
Porcentaje de error medio absoluto (𝑷𝑬𝑴𝑨 o 𝑴𝑨𝑷𝑬)
Este indicador mide la exactitud de los valores ajustados de las series de tiempo.
∑𝑛𝑡=1|𝑌𝑡 − 𝑌̂𝑡 |
𝑌𝑡
𝑃𝐸𝑀𝐴 =
𝑛
La señal de rastreo mide cuan bien se ajustan los pronósticos a los datos reales. En el caso que la señal de
rastreo se encuentra fuera de los límites [-2; 2], esto nos indicará un cambio en el valor de la constante de
suavización (α), y se desecha el pronóstico. (Render B.)
donde:
∑𝑛𝑡=1|𝑌𝑡 − 𝑌̂𝑡 |
𝐷𝐴𝑀 =
𝑛
Unidad 3. Modelos de pronósticos 158
Procedimiento para seleccionar el mejor pronóstico en series estacionarias
A través de
Grafica de serie
No estacionaria Estacionaria
Descartar el No
¿SR ɛ [-2, 2]?
pronóstico
Si
Ejercicios
63. En suavización exponencial, si usted desea dar un peso significativo a las observaciones más recientes,
entonces la constante de suavización deberá ser:
a. cercana a 0
b. cercana a 1
c. cercana a 0.5
d. menor al error
64. ¿Cuál de las siguientes opciones se emplearía para alertar al usuario acerca de un modelo de pronóstico
que tiene un error significativo en los últimos períodos?
a. La constante de suavización
b. La señal de rastreo
c. El coeficiente de regresión
d. El coeficiente de determinación
Las cantidades utilizadas en los últimos 23 meses de utilización de acero (en kilos) se proporcionan a
continuación:
Año Mes Cantidad de acero (kg) Año Mes Cantidad de acero (kg)
Octubre 206,81 Enero 275,63
2021 Noviembre 131,08 Febrero 205,81
Diciembre 163,46 Marzo 304,58
Enero 149,95 Abril 293,43
2023
Febrero 169,80 Mayo 273,73
Marzo 216,84 Junio 178,84
Abril 288,97 Julio 288,97
Mayo 219,02 Agosto 213,02
Junio 165,89
2022
Julio 179,74
Agosto 251,97
Setiembre 188,75
Octubre 304,58
Noviembre 293,43
Diciembre 159,73
Unidad 3. Modelos de pronósticos 160
¿Qué decisión deberá tomar el gerente de la empresa distribuidora de acero?
a. ¿Cuál es la problemática que deberá resolver la empresa? (marque la respuesta más cercana)
Variable dependiente 𝑌
Variable independiente 𝑋
c. Analice el gráfico de la demanda de acero e indique a qué tipo de serie corresponde (estacionaria o
no estacionaria)
350.00
304.58 304.58
288.97 293.43 293.43 288.97
300.00
275.63
251.97
Cantidad de acero (Kg)
200.00
179.74
163.46 205.81 213.02
169.80 188.75
178.84
150.00 165.89
149.95 159.73
131.08
100.00
50.00
0.00
Octubre
Enero
Mayo
Octubre
Enero
Marzo
Julio
Agosto
Marzo
Julio
Agosto
Mayo
Noviembre
Diciembre
Febrero
Junio
Setiembre
Noviembre
Diciembre
Febrero
Junio
Abril
Abril
𝑌̂𝑡+1 = 𝛼 𝑌𝑡 + (1 − 𝛼) 𝑌̂𝑡
Cantidad de
Año Mes 𝑌̂𝑡+1 = 𝛼𝑌𝑡 + (1 − 𝛼)𝑌̂𝑡 𝑒𝑡 = 𝑌𝑡 − 𝑌̂𝑡 |𝑒𝑡 | |𝑌𝑡 − 𝑌̂𝑡 |/𝑌𝑡
acero (kg), Yt
Octubre 206,81 206,81 0,000 0,000 0,000
2021 Noviembre 131,08 206,81 -75,730 75,730 0,578
Diciembre 163,46 184,09 -20,631 20,631 0,126
Enero 149,95 177,90 -27,952 27,952 0,186
Febrero 169,80 169,52 0,284 0,284 0,002
Marzo 216,84 169,60 47,239 47,239 0,218
Abril 288,97 183,77 105,197 105,197 0,364
Mayo 219,02 215,33 3,688 3,688 0,017
Junio 165,89 216,44 -50,548 50,548 0,305
2022
Julio 179,74 201,27 -21,534 21,534 0,120
Agosto 251,97 194,81 57,156 57,156 0,227
Setiembre 188,75 211,96 -23,211 23,211 0,123
Octubre 304,58 205,00 99,583 99,583 0,327
Noviembre 293,43 234,87 58,558 58,558 0,200
Diciembre 159,73 252,44 -92,710 92,710 0,580
Enero 275,63 224,63 51,003 51,003 0,185
Febrero 205,81 239,93 -34,118 34,118 0,166
Marzo 304,58 229,69 74,888 74,888 0,246
Abril 293,43 252,16 41,271 41,271 0,141
2023
Mayo 273,73 264,54 9,190 9,190 0,034
Junio 178,84 267,30 -88,457 88,457 0,495
Julio 288,97 240,76 48,210 48,210 0,167
Agosto 213,02 255,22 -42,203 42,203 0,198
Pronóstico 242.53 Σ = 119.17 Σ = 1073.36 Σ = 5.0025
∑𝑛𝑡=1|𝑌𝑡 − 𝑌̂𝑡 |
𝑌𝑡 5.0025
𝑃𝐸𝑀𝐴 = =( ) ∗ 100% = 21.75%
𝑛 23
Tabla de resumen
Constante de suavización Pronósticos PEMA
α = 0,3 242.56 21.75%
α = 0,5
α = 0,7
e. A partir del cálculo de la señal de rastreo, evaluar la idoneidad del pronóstico calculado con cada
constante de suavización (α = 0,3; α = 0,5 y α = 0,7).
CEF 119.17
SR = = = 2.55
DAM 23
α = 0,5
α = 0,7
66. La empresa Toy S.A. dedicada por años a la fabricación y venta de juguetes lúdicos a nivel nacional, desea
invertir en publicidad para promocionar sus nuevas líneas de juguetes. La empresa desea determinar el
pronóstico de las ventas de los productos, para tomar decisiones internas en la empresa. Para ello, el área
de administración recolectó las ventas, en miles de soles, desde el I trimestre de 2021 hasta el III trimestre
de 2023.
Año Trimestre Yt
I 79
II 87
2021
III 77
IV 81
I 89
II 79
2022
III 76
IV 87
I 79
II 87
2023
III 86
IV ¿….?
Si el pronóstico de las ventas para el IV trimestre de 2023 supera los 83450 soles, la empresa invertirá en
publicidad para promocionar la nueva línea de juguetes. ¿Cuál será la decisión de la empresa? Utilice α =
0.40, 0.70 y 0.90. Desarrolle las dimensiones del razonamiento cuantitativo: interpretación,
representación, análisis y argumentación.
Estadística Aplicada II 202301 163
67. La empresa Construc realiza mantenimiento a la vía del tren Huancayo – Huancavelica y debe programar
una próxima restructuración en las partes de la vía desgastada. El trabajo de restructuración será
programado para la primera semana de febrero del 2023, solo si, el pronóstico del número de pasajeros
del mes de febrero es menor a 11000 pasajeros.
t Año Mes Yt
1 Julio 12484
2 Agosto 12198
3 Septiembre 10865
2021
4 Octubre 12257
5 Noviembre 10779
6 Diciembre 11957
7 Enero 10701
8 Febrero 12132
9 Marzo 10331
10 Abril 12552
11 Mayo 11154
12 Junio 11890
2022
13 Julio 9995
14 Agosto 10043
15 Septiembre 10709
16 Octubre 14231
17 Noviembre 13073
18 Diciembre 11182
19 Enero 10667
20 Febrero 10669
21 Marzo 12247
22 2023 Abril 9783
23 Mayo 12653
24 Junio 12461
25 Julio 10764
Utilice α = 0.3, 0.5, 0.7 y 0.9. Desarrolle las dimensiones del razonamiento cuantitativo: interpretación,
representación, análisis y argumentación.
Unidad 3. Modelos de pronósticos 164
Método de descomposición
Bibliografía
• Anderson David, Sweeney Dennis y Willians Thomas (2010). Estadística para la administración y economía.
10ma Edición. Cengage Learning Editores, México D.F. Capítulo 18. Página 780.
• Render Barry y Slair Ralph. (2016). Métodos cuantitativos para los negocios. 12va Edición. Pearson Prentice
Hall. Capítulo 5.3. Página 151.
Para representar cada componente de una serie de tiempo no estacionaria se utiliza una representación o
modelo matemático.
Modelo multiplicativo
El modelo multiplicativo permite descomponer una serie de tiempo no estacionaria como el producto de
cuatro componentes:
𝑌 =𝑇×𝐸×𝐶×𝐼
donde:
Hay series de tiempo no estacionarios que solo contienen el componente de tendencia o solo el componente
estacional o ambos componentes, el de tendencia y estacional a la vez. En este último caso, el modelo
multiplicativo a considerar es:
donde:
𝐸̂𝑡 = 𝐼𝐸𝐴
𝑌 𝑌
𝑌𝑠𝑖𝑛 𝑖𝑛𝑡𝑒𝑛𝑐𝑖𝑜𝑛𝑎𝑙𝑖𝑑𝑎𝑑 = =
𝐸̂ 𝐼𝐸𝐴
Ejercicios
69. Si por lo general las ventas de una empresa son más altas en los meses de verano que en los meses de
invierno, esta variación se conoce como el componente:
a. tendencia
b. estacional
c. aleatorio
d. cíclico
70. Un índice estacional puede ser menor que uno, igual a uno o mayor que uno. Explique qué significaría cada
uno de estos valores.
72. La fábrica Rapid Pinturas S.A. se dedica a la producción de pinturas desde hace cinco
años. Con la finalidad de incrementar la producción, el gerente de la fábrica decidirá
crear una nueva planta de producción solo si, el número operaciones a realizar en el
primer trimestre del año pasado, es mayor a 200 operaciones.
Para ello cuenta con datos desde el cuarto trimestre del 2016 hasta el cuarto trimestre del 2020. Analice
la serie histórica del número de operaciones y prepare un informe que ayude a tomar la decisión al
gerente. Use un nivel de significación del 5%.
Unidad 3. Modelos de pronósticos 166
Y
X
c. A partir del caso se obtuvo la siguiente gráfica de la serie, ¿qué conclusiones podría mencionar?
𝐸̂𝑡 = 𝐼𝐸𝐴
Método
II 0.98291
IV 1.00194
𝑌 𝑌
𝑌𝑠𝑖𝑛 𝑖𝑛𝑡𝑒𝑛𝑐𝑖𝑜𝑛𝑎𝑙𝑖𝑑𝑎𝑑 = =
̂
𝐸 𝐼𝐸𝐴
f. Dividir cada valor de la serie (𝑌), entre su respectivo índice estacional ajustado (𝐼𝐸𝐴), es decir:
𝑌
𝑌𝑠𝑖𝑛 𝑖𝑛𝑡𝑒𝑛𝑐𝑖𝑜𝑛𝑎𝑙𝑖𝑑𝑎𝑑 =
𝐼𝐸𝐴
A partir de la serie sin estacionalidad (Ŷ sin estacionalidad ), utilizando regresión simple.
Unidad 3. Modelos de pronósticos 168
g. Se estima el mejor modelo de la tendencia usando regresión simple. Asuma que se cumplen los
supuestos de todos los modelos de regresión.
Análisis de Varianza
R-cuad. R-cuad.
S R-cuad. (ajustado) (pred)
0.0619237 92.70% 92.21% 89.31%
Análisis de Varianza
̂𝒕 )
Paso 4: Calcular los pronósticos (𝒀
73. Talma es un operador de servicios aeroportuarios que opera en el Aeropuerto Internacional Capitán FAP
Carlos Martínez de Pinillos de la ciudad de Trujillo, región La Libertad. Desea aplicar un nuevo proceso en
sus operaciones, puesto que le permite prever los requerimientos de maquinaria, personal, espacio y otros
recursos.
Si los pronósticos del número de embarques a realizar, durante los dos últimos trimestres del 2023, son
menores a 2000 embarques, optará por el nuevo proceso de lo contrario mantiene el actual. Los datos
que se muestran corresponden al número de embarques realizados desde el primer trimestre del año
2019 hasta el primer trimestre del año 2023.
Año
Trimestre
2019 2020 2021 2022 2023
I 440 500 576 749 837
II 510 630 750 830
Unidad 3. Modelos de pronósticos 170
III 525 610 695 745
IV 745 778 839 928
Asumiendo que cumplen los supuestos de los modelos de regresión y para validar los modelos utilizar α =
0,01. ¿Talma debe de implementar el nuevo proceso en sus operaciones?
74. Stark es una empresa dedicada a la venta de repuestos, reparación y mantenimiento de vehículos
multimarca, tiene como visión generar bienestar brindando un servicio de excelencia que beneficie a
nuestros clientes, trabajadores y sociedad en general.
El gerente de comercialización de la empresa afirma que, si el monto de las ventas de repuestos del primer
trimestre del 2023 es mayor a 5000 dólares, solicitará al departamento de logística incrementar la
importación de repuestos. Para tomar una decisión al respecto, recopila la información sobre los montos
de ventas de estos repuestos, desde el primer trimestre del año 2018 hasta el tercer trimestre del año
2022, tal como se muestra a continuación:
Utilizando un nivel de significación del 5% y asumiendo que cumplen los supuestos de los modelos de
regresión ¿Cuál será la decisión del gerente de comercialización de la empresa?
75. Las ventas de aluminio (𝑌), trimestrales, desde 2020 se indican a continuación (en millones de dólares).
Trimestre Índice
1 121.4
2 114.9
3 43.9
4 119.8
Pronostique las ventas de aluminio para cada uno de los trimestres del año 2023.
Unidad 3. Modelos de pronósticos 172
Referencias bibliográficas
Gutiérrez Pulido, H., & Vara Salazar, R. de la. (2012). Análisis y diseño de experimentos (3a ed.). McGraw-Hill
Interamericana.