0% encontró este documento útil (0 votos)
41 vistas172 páginas

Estadística Aplicada II: Guía de Curso

Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
41 vistas172 páginas

Estadística Aplicada II: Guía de Curso

Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Universidad de Ciencias Aplicadas

Estadística Aplicada II
MA145

Cuaderno de trabajo
Área de Ciencias

2023
Contenido

Unidad 1: Inferencia estadística ................................................................................................................7

Estimación por intervalo................................................................................................................................ 14


Intervalo de confianza para una media ......................................................................................................... 15
Intervalo de confianza para una proporción ................................................................................................. 22
Prueba de hipótesis ....................................................................................................................................... 28
Prueba de hipótesis para una media poblacional ......................................................................................... 36
Prueba de hipótesis para una proporción ..................................................................................................... 42
Prueba de hipótesis de dos poblaciones ....................................................................................................... 49
Prueba de hipótesis para el cociente de varianzas ....................................................................................... 50
Prueba de hipótesis para diferencia de medias con muestras independientes ........................................... 57
Prueba de hipótesis para diferencia de medias con muestras relacionadas ................................................ 67
Prueba de hipótesis para diferencia de proporciones .................................................................................. 75

Unidad 2: Diseño y análisis de experimentos .......................................................................................... 82

Análisis de varianza ....................................................................................................................................... 83


Análisis de varianza de un factor ................................................................................................................... 85
Análisis de varianza de dos factores ............................................................................................................ 100

Unidad 3. Modelos de pronósticos ....................................................................................................... 112

Análisis de regresión lineal simple .............................................................................................................. 114


Análisis de regresión no lineal simple ......................................................................................................... 130
Análisis de regresión lineal múltiple ............................................................................................................ 144
El modelo de regresión múltiple ................................................................................................................. 145
Estimación de los parámetros el modelo .................................................................................................... 145
Coeficiente de regresión ............................................................................................................................. 146
El error estándar de la estimación............................................................................................................... 147
Coeficiente ajustado de determinación ...................................................................................................... 147
Pruebas de hipótesis ................................................................................................................................... 147
Intervalos de confianza para los coeficientes poblacionales ...................................................................... 148
Multicolinealidad ......................................................................................................................................... 148
Series de tiempo y suavización exponencial simple .................................................................................... 155
Suavización exponencial .............................................................................................................................. 155
Método de descomposición ........................................................................................................................ 164
El siguiente cuaderno de trabajo contiene el material necesario para seguir las
clases del curso Estadística Aplicada II de la Universidad Peruana de Ciencias
Aplicadas. Contiene la teoría, ejercicios resueltos y propuestos de todo el curso.

Este material de enseñanza está basado en materiales y trabajo de


los profesores del curso.

Esperamos que este material le sea de utilidad.

Los profesores del curso


Introducción
El curso de Estadística Aplicada II es una asignatura general de naturaleza teórico-práctico dirigido a
estudiantes de cuarto ciclo de las carreras de Ingeniería Industrial e Ingeniería de Gestión Empresarial.

Busca que el estudiante aplique técnicas y herramientas de estadística inferencial para analizar información y
con esto, proponer alternativas de solución a los problemas propios del contexto de su especialidad. Durante
el curso, se resuelven proyectos grupales con el propósito de generar las habilidades necesarias en los
estudiantes para diseñar propuestas de proyectos de investigación aplicada.

Logro del curso


Al finalizar el curso, el estudiante construye y valida modelos estadísticos a partir de dos o más variables que
le permitan proponer una solución a un problema, en un contexto real, que implica la predicción o
generalización de eventos.

Software que se usará en el curso


El curso considera el uso del programa MS Excel y el software estadístico Minitab como instrumentos de apoyo
para el procesamiento de los datos.
Bibliografía
Dimensiones del razonamiento cuantitativo

El razonamiento cuantitativo se refiere al conjunto de habilidades que despliega una persona para
comprender, analizar, argumentar, tomar decisiones y generar estrategias para la solución de situaciones que
contengan información que pueda ser tratada de manera cuantitativa.

Interpretación
Da significado a información numérica en diversos formatos en situaciones de contexto real.

Representación
Describe mediante expresiones matemáticas y/o estadísticas, situaciones de contexto real.

Cálculo
Utiliza algoritmos y procedimientos estándar de la matemática y/o estadística en situaciones de contexto real.

Análisis y argumentación
Sustenta los resultados y su aplicación práctica, planteando una solución
Estadística Aplicada II 202301 7

Unidad 1: Inferencia estadística

Logro de la Unidad
Al finalizar la Unidad 1, el estudiante utiliza herramientas de inferencia estadística para responder problemas
en situaciones de contexto real que implica la comprobación de hipótesis sobre una o más poblaciones.

Temario
• Estimación de parámetros: puntual y por intervalos (IC)
• Estimación por intervalos para una media y una proporción
• Prueba de hipótesis (PH): Conceptos generales y tipos de errores
• Prueba de hipótesis para una media y proporción
• Prueba de hipótesis para el cociente de varianzas
• Prueba de hipótesis para diferencia de medias
• Prueba de hipótesis para diferencia de proporciones

Bibliografía
Unidad 1. Inferencia estadística 8

Esta foto de Autor desconocido está bajo licencia CC BY-SA-NC

Realice el cuestionario sobre saberes previos para autoevaluar sus conocimientos sobre Estadística.
[Link]

Recordando algunos conceptos y representaciones simbólicas:

Parámetro es una medición numérica que Dato estadístico es una medición numérica
describe algunas características de una que describe algunas características de una
población (Triola, 2018, p. 13). muestra (Triola, 2018, p. 13).
Tamaño poblacional: N Tamaño de muestra: n

Media poblacional: 𝝁 Media muestral: 𝑥̅

Varianza poblacional: 𝝈𝟐 Varianza muestral: 𝑠 2

Desviación estándar poblacional: 𝝈 Desviación estándar muestral: 𝑠

Proporción poblacional: p Proporción muestral: 𝑝̂


Estadística Aplicada II 202301 9

Ejercicios

1. En el siguiente contexto identifique algún parámetro o dato estadístico que identifique:

(a) Hay 17,246,372 estudiantes de preparatoria en Estados Unidos. En un estudio de 8505


estudiantes estadounidenses de preparatoria de 16 años o más, 44.5% de ellos dijeron
que enviaron mensajes de texto al conducir al menos una vez durante los 30 días
anteriores (con base en datos de “Envío de mensajes de texto al manejar y otros
comportamientos de riesgo entre estudiantes de bachillerato en Estados Unidos”
(“Texting While Driving and Other Risq Motor Behavior US High School Students”, de Olsen, Shults
y Eaton, Pediatrics, vol. 131, núm. 6).

2. Se sabe por estudios anteriores que el diámetro de cierto tubo de acero (𝑋) es una variable aleatoria que
se distribuye normalmente con media 3 y variación de 0,25 pulgadas. Si se selecciona un tubo al azar, la
probabilidad de que su diámetro supere las 3,1 pulgadas. En base al contexto presentado, responda las
siguientes preguntas:

a. ¿Cuál es la variable?
b. ¿Qué distribución tiene?
c. ¿Cuáles son sus parámetros?
d. ¿Cómo representa simbólicamente la probabilidad solicita?
e. ¿Cuál es la respuesta a la pregunta formulada?

3. Utilizando MS Excel o las tablas estadísticas, identifique los valores siguientes:

• Normal (Cola izquierda = área acumulada)


• T - Student (Cola derecha)
• F - Fisher (Cola derecha)

a. 𝑍0,95

-4 -3 -2 -1 0 1 2 3 4

Z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
1.7 0.95543 0.95637 0.95728 0.95818 0.95907 0.95994 0.96080 0.96164 0.96246 0.96327
1.8 0.96407 0.96485 0.96562 0.96638 0.96712 0.96784 0.96856 0.96926 0.96995 0.97062
1.9 0.97128 0.97193 0.97257 0.97320 0.97381 0.97441 0.97500 0.97558 0.97615 0.97670
2.0 0.97725 0.97778 0.97831 0.97882 0.97932 0.97982 0.98030 0.98077 0.98124 0.98169

b. 𝑍0,025

-4 -3 -2 -1 0 1 2 3 4
Unidad 1. Inferencia estadística 10

Z -0.09 -0.08 -0.07 -0.06 -0.05 -0.04 -0.03 -0.02 -0.01 -0.00
-2.1 0.01426 0.01463 0.01500 0.01539 0.01578 0.01618 0.01659 0.01700 0.01743 0.01786
-2.0 0.01831 0.01876 0.01923 0.01970 0.02018 0.02068 0.02118 0.02169 0.02222 0.02275
-1.9 0.02330 0.02385 0.02442 0.02500 0.02559 0.02619 0.02680 0.02743 0.02807 0.02872
-1.8 0.02938 0.03005 0.03074 0.03144 0.03216 0.03288 0.03362 0.03438 0.03515 0.03593
-1.7 0.03673 0.03754 0.03836 0.03920 0.04006 0.04093 0.04182 0.04272 0.04363 0.04457

c. 𝑍0,99

-4 -3 -2 -1 0 1 2 3 4

Z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
2.1 0.98214 0.98257 0.98300 0.98341 0.98382 0.98422 0.98461 0.98500 0.98537 0.98574
2.2 0.98610 0.98645 0.98679 0.98713 0.98745 0.98778 0.98809 0.98840 0.98870 0.98899
2.3 0.98928 0.98956 0.98983 0.99010 0.99036 0.99061 0.99086 0.99111 0.99134 0.99158
2.4 0.99180 0.99202 0.99224 0.99245 0.99266 0.99286 0.99305 0.99324 0.99343 0.99361
2.5 0.99379 0.99396 0.99413 0.99430 0.99446 0.99461 0.99477 0.99492 0.99506 0.99520

d. 𝑍0,01

-4 -3 -2 -1 0 1 2 3 4

Z -0.09 -0.08 -0.07 -0.06 -0.05 -0.04 -0.03 -0.02 -0.01 -0.00
-2.5 0.00480 0.00494 0.00508 0.00523 0.00539 0.00554 0.00570 0.00587 0.00604 0.00621
-2.4 0.00639 0.00657 0.00676 0.00695 0.00714 0.00734 0.00755 0.00776 0.00798 0.00820
-2.3 0.00842 0.00866 0.00889 0.00914 0.00939 0.00964 0.00990 0.01017 0.01044 0.01072
-2.2 0.01101 0.01130 0.01160 0.01191 0.01222 0.01255 0.01287 0.01321 0.01355 0.01390
-2.1 0.01426 0.01463 0.01500 0.01539 0.01578 0.01618 0.01659 0.01700 0.01743 0.01786

e. 𝑇(0,025;15)

-4 -3 -2 -1 0 1 2 3 4


 
0.4 0.3 0.2 0.15 0.1 0.05 0.04 0.03 0.025 0.02 0.015 0.01 0.005
13 0.25859 0.5375 0.87015 1.07947 1.35017 1.77093 1.89887 2.06004 2.16037 2.2816 2.43585 2.65031 3.01228 13
14 0.25821 0.53655 0.86805 1.07628 1.34503 1.76131 1.8875 2.04617 2.14479 2.26378 2.4149 2.62449 2.97684 14
15 0.25789 0.53573 0.86624 1.07353 1.34061 1.75305 1.87774 2.03429 2.13145 2.24854 2.39701 2.60248 2.94671 15
16 0.2576 0.53501 0.86467 1.07114 1.33676 1.74588 1.86928 2.024 2.11991 2.23536 2.38155 2.58349 2.92078 16
17 0.25735 0.53438 0.86328 1.06903 1.33338 1.73961 1.86187 2.015 2.10982 2.22385 2.36805 2.56693 2.89823 17
18 0.25712 0.53382 0.86205 1.06717 1.33039 1.73406 1.85534 2.00707 2.10092 2.2137 2.35618 2.55238 2.87844 18
Estadística Aplicada II 202301 11

f. 𝑇(0,975;15)

-4 -3 -2 -1 0 1 2 3 4


 
0.4 0.3 0.2 0.15 0.1 0.05 0.04 0.03 0.025 0.02 0.015 0.01 0.005
13 0.25859 0.5375 0.87015 1.07947 1.35017 1.77093 1.89887 2.06004 2.16037 2.2816 2.43585 2.65031 3.01228 13
14 0.25821 0.53655 0.86805 1.07628 1.34503 1.76131 1.8875 2.04617 2.14479 2.26378 2.4149 2.62449 2.97684 14
15 0.25789 0.53573 0.86624 1.07353 1.34061 1.75305 1.87774 2.03429 2.13145 2.24854 2.39701 2.60248 2.94671 15
16 0.2576 0.53501 0.86467 1.07114 1.33676 1.74588 1.86928 2.024 2.11991 2.23536 2.38155 2.58349 2.92078 16
17 0.25735 0.53438 0.86328 1.06903 1.33338 1.73961 1.86187 2.015 2.10982 2.22385 2.36805 2.56693 2.89823 17
18 0.25712 0.53382 0.86205 1.06717 1.33039 1.73406 1.85534 2.00707 2.10092 2.2137 2.35618 2.55238 2.87844 18

g. 𝑇(0,05;12)

-4 -3 -2 -1 0 1 2 3 4


 
0.4 0.3 0.2 0.15 0.1 0.05 0.04 0.03 0.025 0.02 0.015 0.01 0.005
11 0.25956 0.53994 0.87553 1.08767 1.36343 1.79588 1.92843 2.09614 2.20099 2.32814 2.49066 2.71808 3.10581 11
12 0.25903 0.53862 0.87261 1.08321 1.35622 1.78229 1.91231 2.07644 2.17881 2.30272 2.4607 2.681 3.05454 12
13 0.25859 0.5375 0.87015 1.07947 1.35017 1.77093 1.89887 2.06004 2.16037 2.2816 2.43585 2.65031 3.01228 13
14 0.25821 0.53655 0.86805 1.07628 1.34503 1.76131 1.8875 2.04617 2.14479 2.26378 2.4149 2.62449 2.97684 14
15 0.25789 0.53573 0.86624 1.07353 1.34061 1.75305 1.87774 2.03429 2.13145 2.24854 2.39701 2.60248 2.94671 15
Unidad 1. Inferencia estadística 12
h. 𝐹(0,025; 3; 5)

0 1 2 3 4 5 6

v1
𝛼 v2 1 2 3 4 5 6 7 8 9 10
0.050 2 18.51 19.00 19.16 19.25 19.30 19.33 19.35 19.37 19.38 19.40
0.025 38.51 39.00 39.17 39.25 39.30 39.33 39.36 39.37 39.39 39.40
0.010 98.50 99.00 99.16 99.25 99.30 99.33 99.36 99.38 99.39 99.40
0.005 198.50 199.01 199.16 199.24 199.30 199.33 199.36 199.38 199.39 199.39

0.050 3 10.13 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.81 8.79
0.025 17.44 16.04 15.44 15.10 14.88 14.73 14.62 14.54 14.47 14.42
0.010 34.12 30.82 29.46 28.71 28.24 27.91 27.67 27.49 27.34 27.23
0.005 55.55 49.80 47.47 46.20 45.39 44.84 44.43 44.13 43.88 43.68

0.050 4 7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 6.00 5.96
0.025 12.22 10.65 9.98 9.60 9.36 9.20 9.07 8.98 8.90 8.84
0.010 21.20 18.00 16.69 15.98 15.52 15.21 14.98 14.80 14.66 14.55
0.005 31.33 26.28 24.26 23.15 22.46 21.98 21.62 21.35 21.14 20.97

0.050 5 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77 4.74
0.025 10.01 8.43 7.76 7.39 7.15 6.98 6.85 6.76 6.68 6.62
0.010 16.26 13.27 12.06 11.39 10.97 10.67 10.46 10.29 10.16 10.05
0.005 22.78 18.31 16.53 15.56 14.94 14.51 14.20 13.96 13.77 13.62

i. 𝐹(0,975; 3; 5)

0 1 2 3 4 5 6

v1
𝛼 v2 1 2 3 4 5 6 7 8 9 10

0.050 3 10.13 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.81 8.79
0.025 17.44 16.04 15.44 15.10 14.88 14.73 14.62 14.54 14.47 14.42
0.010 34.12 30.82 29.46 28.71 28.24 27.91 27.67 27.49 27.34 27.23
0.005 55.55 49.80 47.47 46.20 45.39 44.84 44.43 44.13 43.88 43.68

0.050 4 7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 6.00 5.96
0.025 12.22 10.65 9.98 9.60 9.36 9.20 9.07 8.98 8.90 8.84
0.010 21.20 18.00 16.69 15.98 15.52 15.21 14.98 14.80 14.66 14.55
0.005 31.33 26.28 24.26 23.15 22.46 21.98 21.62 21.35 21.14 20.97

0.050 5 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77 4.74
0.025 10.01 8.43 7.76 7.39 7.15 6.98 6.85 6.76 6.68 6.62
0.010 16.26 13.27 12.06 11.39 10.97 10.67 10.46 10.29 10.16 10.05
0.005 22.78 18.31 16.53 15.56 14.94 14.51 14.20 13.96 13.77 13.62
Estadística Aplicada II 202301 13
Propiedad de la distribución F

Se cumple que:

1
𝐹𝛼,𝑚,𝑛 =
𝐹1−𝛼,𝑛,𝑚

Por ejemplo:

1 1
𝐹0,05;10;12 = 0,343 = =
2,913 𝐹0,95;12,10

j. 𝐹(0,01; 5; 4)

0 1 2 3 4 5 6

v1
𝛼 v2 1 2 3 4 5 6 7 8 9 10
0.050 3 10.13 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.81 8.79
0.025 17.44 16.04 15.44 15.10 14.88 14.73 14.62 14.54 14.47 14.42
0.010 34.12 30.82 29.46 28.71 28.24 27.91 27.67 27.49 27.34 27.23
0.005 55.55 49.80 47.47 46.20 45.39 44.84 44.43 44.13 43.88 43.68

0.050 4 7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 6.00 5.96
0.025 12.22 10.65 9.98 9.60 9.36 9.20 9.07 8.98 8.90 8.84
0.010 21.20 18.00 16.69 15.98 15.52 15.21 14.98 14.80 14.66 14.55
0.005 31.33 26.28 24.26 23.15 22.46 21.98 21.62 21.35 21.14 20.97

0.050 5 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77 4.74
0.025 10.01 8.43 7.76 7.39 7.15 6.98 6.85 6.76 6.68 6.62
0.010 16.26 13.27 12.06 11.39 10.97 10.67 10.46 10.29 10.16 10.05
0.005 22.78 18.31 16.53 15.56 14.94 14.51 14.20 13.96 13.77 13.62

0.050 6 5.99 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.10 4.06
0.025 8.81 7.26 6.60 6.23 5.99 5.82 5.70 5.60 5.52 5.46
0.010 13.75 10.92 9.78 9.15 8.75 8.47 8.26 8.10 7.98 7.87
0.005 18.63 14.54 12.92 12.03 11.46 11.07 10.79 10.57 10.39 10.25
Unidad 1. Inferencia estadística 14
Estimación por intervalo

La estimación por intervalo establece un intervalo dentro del cual es muy probable que se encuentre el
parámetro poblacional.

El coeficiente de confianza (1 − 𝛼) se usa para indicar la probabilidad de que una estimación por intervalo
contenga al parámetro poblacional.

El nivel de confianza (1 − 𝛼)% es el coeficiente de confianza expresado como un porcentaje.

Bibliografía
• Triola, M. (2013). Estadística. 11va. Edición. Pearson Educación, México, D.F. Capítulo 7. Sección 7.1, 7.2 y
7.4.
• Montgomery, D. y Runger, G. (2005). Probabilidad y Estadística Aplicadas a la Ingeniería. México, D.F.:
Limusa Wiley. Capítulo 8. Sección 8.3 y 8.5.

En el Perú hay casi 20 millones votantes, pero solo se encuesta a 1214 peruanos,
¿se puede confiar en los resultados de las encuestas?
Estadística Aplicada II 202301 15

Intervalo de confianza para una media

Intervalo de confianza de la media poblacional (𝝁), cuando 𝝈 es desconocida

Se cumple que la variable aleatoria 𝑇 sigue una distribución 𝑡 con 𝑛 − 1 grados de libertad.

𝑋̅ − 𝜇
𝑇= ~𝑡𝑛−1
𝑆
√𝑛

donde:

𝑥̅ ≔ promedio muestral
𝜇 ≔ promedio poblacional
𝑆 ≔ desviación estándar muestral
𝑛 ≔ tamaño de la muestra

Esto significa que para una variable aleatoria 𝑋̅, con un tamaño de muestra 𝑛, se cumple:

𝑋̅ − 𝜇
𝑃 (−𝑡α/2 ≤ 𝑠 ≤ −𝑡α/2 ) = 1 − α
√𝑛
𝑆
Multiplicamos .
√𝑛

𝑠 𝑠
𝑃 (−𝑡α/2 ≤ 𝑋̅ − 𝜇 ≤ −𝑡α/2 ) =1−α
√𝑛 √𝑛

Sumamos 𝑋̅.

𝑠 𝑠
𝑃 (𝑥̅ −𝑡α/2 ≤ 𝜇 ≤ 𝑥̅ − 𝑡α/2 )=1−α
√𝑛 √𝑛

𝛼 𝛼
1−𝛼
2 2
-𝑡𝛼;𝑛−1 𝑡𝛼;𝑛−1
2 2

Finalmente, despejando el parámetro (𝜇) se obtiene la fórmula del intervalo de confianza (𝐼𝐶) para la media
poblacional cuando la varianza poblacional se desconoce:

𝑠 𝑠
𝑃 (𝑥̅ − 𝑡(𝛼;𝑛−1) ≤ 𝜇 ≤ 𝑥̅ + 𝑡(𝛼;𝑛−1) )=1−𝛼
2 √𝑛 2 √𝑛
Unidad 1. Inferencia estadística 16
El límite inferior de confianza (𝐿𝐼𝐶) es:

𝑠
𝐿𝐼𝐶(𝜇) = 𝑥̅ − 𝑡(𝛼;𝑛−1)
2 √𝑛

El límite superior de confianza (𝐿𝑆𝐶) es:

𝑠
𝐿𝑆𝐶(𝜇) = 𝑥̅ + 𝑡(𝛼;𝑛−1)
2 √𝑛

Supuestos relacionados con el intervalo de confianza de una media

Intervalo de confianza para una media con varianza desconocida

• La muestra es aleatoria simple.


• La muestra proviene de una población distribuida normalmente o 𝑛 > 30.

Intervalo de confianza para una media con varianza conocida

• La muestra es aleatoria simple.


𝜎 𝜎
• El valor de la desviación estándar poblacional 𝜎 es conocido (𝑥̄ − 𝑧1−𝛼/2 < 𝜇 < 𝑥̄ + 𝑧1−𝛼/2 )
√𝑛 √𝑛

Cualquiera o ambas de estas condiciones se satisfacen: la población está normalmente distribuida o 𝑛 > 30.
Estadística Aplicada II 202301 17

Intervalo de confianza para una media usando Minitab

Elija al opción Estadísticas, luego Estadísticas básicas y t de 1 Muestra…

Elija la opción deseada.

Seleccione Opciones y ponga el nivel de confianza pedido. Haga clic en Aceptar.


Unidad 1. Inferencia estadística 18
Ejemplo 1
Una muestra aleatoria de 101 propietarios de automóviles residentes en la ciudad de Arequipa muestra que,
un automóvil se maneja, en promedio, 23500 kilómetros por año con una desviación estándar de 3900
kilómetros.
Calcule e interprete un intervalo de confianza de 99% para el número promedio de kilómetros que se maneja
un automóvil anualmente en Arequipa.

Solución

Las estimaciones puntuales de 𝜇 y 𝜎 2 , son respectivamente 𝑥̅ = 23500 y 𝑠 = 3900.

El valor 𝑡, que deja un área de 0,005 a la derecha y por lo tanto un área de 0.995 a la izquierda, es:

𝑡(𝛼;𝑛−1) = 𝑡 0,005 = 𝑡(0,005;100)


2 ( ;101−1)
2

𝛼 𝛼
= 0,005 1 - 𝛼 =0,99 = 0,005
2 2

-𝑡𝛼;𝑛−1 𝑡𝛼;𝑛−1
2 2

Usando la tabla 𝑡 de Student, buscamos dentro en la primera columna el valor de 𝑛 − 1 = 101 − 1 = 100
𝛼 𝛼
grados de libertad y en la primera fila el valor de 2 , el valor más cercano a 2 = 0,005.
Luego, entramos dentro de la tabla, de donde:

𝑡𝛼;𝑛−1 = 2,62589
2

 
 0.15 0.1 0.05 0.04 0.03 0.025 0.02 0.015 0.01 0.005
95 1.04212 1.29053 1.66105 1.76961 1.90352 1.98525 2.08233 2.20317 2.36624 2.62858 95
100 1.04184 1.29007 1.66023 1.76866 1.90237 1.98397 2.08088 2.2015 2.36422 2.62589 100
105 1.04158 1.28967 1.6595 1.76779 1.90133 1.98282 2.07958 2.19998 2.36239 2.62347 105

En Excel se usa la función =INV.T(0.995;100) = 2,62589.

Por lo tanto, el intervalo de confianza es:

𝑠 𝑠
𝑥̅ − 𝑡(𝛼;𝑛−1) ≤ 𝜇 ≤ 𝑥̅ + 𝑡(𝛼;𝑛−1)
2 √𝑛 2 √𝑛

3900 3900
23500 − 2,62589 ≤ 𝜇 ≤ 23500 + 2,62589
√101 √101

23500 − 1019,01 ≤ 𝜇 ≤ 23500 + 1019,01

Efectuando las operaciones indicadas se tiene:


22481,0 ≤ 𝜇 ≤ 24519
Estadística Aplicada II 202301 19

Tenemos un 99% de confianza de que el intervalo de 22481 y 24519 kilómetros realmente contiene el valor
verdadero del número promedio de kilómetros manejados por los propietarios de automóviles residentes en
Arequipa.

Con 99% de confianza entre 22481 y 24519 kilómetros; se encontrará el número promedio de kilómetros
manejados por los propietarios de automóviles residentes en Arequipa.

Los resultados en Minitab son los siguientes:

Ejemplo 2
En un estudio de contaminación del aire realizado en una estación experimental, de 40 muestras diferentes
de aire se obtuvieron los montos de materia orgánica suspendida soluble en benceno (en microorganismos
por metro cúbico), los cuáles fueron procesados con el software Minitab.

Estadísticas descriptivas
N Media [Link]. Error estándar de la media IC de 98% para μ
40 2.6880 0.5890 0.0931 (2.4621, 2.9139)
μ: media de población de Muestra

Suponiendo que la población muestreada es normal, interprete un intervalo de confianza de 98% para el
verdadero promedio.

Solución
La variable es:

𝑋: = cantidad de materia orgánica suspendida soluble en benceno, en microorganismos por metro cúbico

El parámetro de interés es la media poblacional 𝜇.

De la tabla presentada, se concluye que el intervalo que va de 2.462 a 2.914 microorganismos por m 3 ofrece
un 98% de confianza de contener a la verdadera media de la materia orgánica suspendida soluble en benceno.
Unidad 1. Inferencia estadística 20

Ejercicios

4. Los procesos de fabricación de tubos se clasifican en: con costura longitudinal,


con costura helicoidal, sin costura acabado en frío y sin costura acabado en
caliente. Los tubos sin costura cuando son estirados en frío poseen un diámetro
interior y exterior más uniformes entre sí y con tolerancias precisas, y una
mayor facilidad para el mecanizado, comparado con los tubos sin costura que
son acabados en caliente.

La empresa Forte S.A.C está evaluando la posibilidad de introducir el proceso de fabricación sin costura
estirado en frío y con esto esperaría mejorar la calidad del producto. En esta primera etapa de evaluación,
se debe validar si con este nuevo proceso de fabricación se logra producir tubos de tres pulgadas de
diámetro, conforme exige la norma técnica. Para esto, se toma una muestra simple aleatoria de 16 tubos
fabricados con este nuevo proceso y se les mide su diámetro (en pulgadas).

Los resultados obtenidos son los siguientes:

2,97 3,12 3,05 3,14 3,03 2,99 3,12 3,07


3,01 3,05 3,09 3,12 3,01 2,99 3,14 3,12

Se conoce que el diámetro de los tubos de acero es una variable aleatoria que responde a una distribución
normal. Verifique con 98% de confianza si la norma técnica, en cuanto al diámetro medio, se cumple.

Sobre la rúbrica de la competencia razonamiento cuantitativo

Definición: Resuelve situaciones problemáticas en contexto real utilizando datos numéricos a través de la
interpretación, representación, calculo, análisis y argumentación.

Dimensión de interpretación: Da significado a Estimación: Relaciona datos e información numérica pertinente en


información numérica en diversos formatos en situaciones diversos formatos, para definir una situación problemática en
de contexto real. un contexto real.

Dimensión de representación: Describe mediante Estimación: Describe la variable, su distribución, el (los) parámetro(s) y
expresiones matemáticas y/o estadísticas, situaciones de estadísticos utilizando correctamente las notaciones y representaciones
contexto real. simbólicas

Dimensión de cálculo: Utiliza algoritmos y procedimientos Estimación: Calcula la estimación puntual, el margen de error, el límite
estándar de la matemática y/o estadística en situaciones de inferior y superior del intervalo de confianza que permita resolver la
contexto real. situación problemática en un contexto real

El tamaño de muestra es 16.

La media muestral 𝑥̅ es:

2,97 + 3,12 + 3,05 + ⋯ + 3,12


𝑥̅ = = 3,064
16

En Excel se usa =PROMEDIO(datos)

La desviación estándar muestral 𝑠 es:


Estadística Aplicada II 202301 21

(2,97 − 3,064)2 + (3,12 − 3,064)2 + ⋯ + (3,12 − 3,064)2


𝑠=√ = 0,059
16 − 1

En Excel se usa =DESVEST.M(datos).

Dimensión de análisis y argumentación: Sustenta los Estimación: Sustenta el resultado del intervalo utilizando un lenguaje formal
resultados y su aplicación práctica, planteando una solución estadístico y brinda alguna alternativa de respuesta a la situación
problemática

5. La compañía Jugos S.A. envasa limonada congelada en lastas cuyo peso medio es de 16 onzas. Diariamente
se controla que el estándar se cumpla, para esto se elige ocho latas y se registra su peso. La tabla siguiente
muestra los resultados obtenidos durante un día de la última semana.

15,5 16,0 15,7 15,9 16,1 16,0 15,2 15,9

Asuma que el peso de las latas tiene distribución normal. Estime con nivel de confianza del 98%, el peso
promedio de las latas. ¿No se cumplió el estándar?
Unidad 1. Inferencia estadística 22
Intervalo de confianza para una proporción

Se cumple que la variable aleatoria proporción muestral 𝑃, sigue una distribución normal.

𝑃 − 𝑝̂
𝑍= ≈ 𝑁(0; 1)
√𝑝̂ (1 − 𝑝̂ )
𝑛

La fórmula del intervalo de confianza de la proporción se deduce a partir del requisito que la distribución de
proporciones muestrales que es aproximadamente normal, donde 𝑋 sigue una distribución binomial (𝑛, 𝑝).

𝑃 − 𝑝̂
𝑃 −𝑍1−𝛼 ≤ ≤ 𝑍1−𝛼 =1−𝛼
√𝑝̂ (1 − 𝑝̂ )
2 2
( 𝑛 )

𝑝̂(1−𝑝̂)
Multiplicamos por √ 𝑛
.

𝑝̂ (1 − 𝑝̂ ) 𝑝̂ (1 − 𝑝̂ )
𝑃 (−𝑍1−𝛼 √ ≤ 𝑃 − 𝑝̂ ≤ 𝑍1−𝛼 √ )=1−𝛼
2 𝑛 2 𝑛

Sumamos 𝑝̂ .

𝑝̂ (1 − 𝑝̂ ) 𝑝̂ (1 − 𝑝̂ )
𝑃 (𝑝̂ − 𝑍1−𝛼 √ ≤ 𝑃 ≤ 𝑝̂ + 𝑍1−𝛼 √ )=1−𝛼
2 𝑛 2 𝑛

Finalmente, la fórmula del intervalo de confianza para la proporción es:

𝑝̂ (1 − 𝑝̂ ) 𝑝̂ (1 − 𝑝̂ )
𝑃 (𝑝̂ − 𝑍1−𝛼 √ ≤ 𝑃 ≤ 𝑝̂ + 𝑍1−𝛼 √ )=1−𝛼
2 𝑛 2 𝑛

𝛼 𝛼
2 1-𝛼 2

𝑝̂(1−𝑝̂) 𝑝̂(1−𝑝̂)
𝑝̂ − 𝑍1−𝛼 √ 𝑛
𝑝̂ + 𝑍1−𝛼 √ 𝑛
2 2

El coeficiente de confianza es 1 − 𝛼.
Estadística Aplicada II 202301 23
El límite inferior de confianza (𝐿𝐼𝐶) es:

𝑝̂ (1 − 𝑝̂ )
𝐿𝐼𝐶(𝑝) = 𝑝̂ − 𝑍1−𝛼 √
2 𝑛

El límite superior de confianza (𝐿𝑆𝐶) es:

𝑝̂ (1 − 𝑝̂ )
𝐿𝑆𝐶(𝑝) = 𝑝̂ + 𝑍1−𝛼 √
2 𝑛

Supuestos relacionados con el intervalo de confianza de una proporción


• La muestra es aleatoria simple.
• Las condiciones para la distribución binomial se satisfacen. Esto es, hay un número fijo de ensayos, los
ensayos son independientes, hay dos categorías de resultados y las probabilidades permanecen
constantes para cada ensayo.
• Existen al menos cinco éxitos y al menos cinco fracasos. Cuando 𝑝 y 𝑞 se desconocen, estimamos sus
valores utilizando la proporción muestral, de manera que este requisito es una forma de verificar que
𝑛𝑝 ≥ 5 y 𝑛𝑞 ≥ 5 se cumplan para que la distribución normal sea una aproximación adecuada para la
distribución binomial.
Triola, página 320
Unidad 1. Inferencia estadística 24
Intervalo de confianza para una proporción usando Minitab

Elija al opción Estadísticas, luego Estadísticas básicas y 1 Proporción…

Elija la opción deseada.

Elija el método Aproximación normal.

Haga clic en Aceptar.


Estadística Aplicada II 202301 25
Ejemplo 3
Un genetista se interesa en la proporción de hombres de una zona que tienen cierto trastorno sanguíneo
menor. En una muestra aleatoria de 100 hombres de dicha zona, se encuentran que 24 lo padecen.

Calcule un intervalo de confianza de 99% de confianza para la proporción de hombres de dicha zona que tienen
este desorden sanguíneo.

Solución
La estimación puntual de 𝑝 es 𝑝̂ , es decir:

24
𝑝̂ = = 0,24
100

El valor 𝑍, que deja un área de 0,005 a la derecha y, por lo tanto, un área de 0.995 a la izquierda es 𝑍0,995 =
2,58. De aquí que el intervalo de confianza del 99% es:

𝛼 𝛼
= 0,005 1 - 𝛼 =0,99 = 0,005
2 2

−𝑧1−𝛼 𝑧1−𝛼
2 2

Usando la tabla normal estándar, buscamos dentro de la tabla, el valor más cercano a 0,995 (0,99506). Luego,
salimos hacia los bordes de la tabla, de donde:

𝑍1−𝛼 = 2,58
2

z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
2,4 0,99180 0,99202 0,99224 0,99245 0,99266 0,99286 0,99305 0,99324 0,99343 0,99361
2,5 0,99379 0,99396 0,99413 0,99430 0,99446 0,99461 0,99477 0,99492 0,99506 0,99520
2,6 0,99534 0,99547 0,99560 0,99573 0,99585 0,99598 0,99609 0,99621 0,99632 0,99643

En Excel se usa la función =[Link](0.995) = 2,58, redondeada a dos decimales.

Por lo tanto, el intervalo de confianza es:

𝑝̂ (1 − 𝑝̂ ) 𝑝̂ (1 − 𝑝̂ )
𝑝̂ − 𝑍1−𝛼 √ ≤ 𝑝 ≤ 𝑝̂ + 𝑍1−𝛼 √
2 𝑛 2 𝑛

0,24(1 − 0,24) 0,24(1 − 0,24)


0,24 − 2,58 √ ≤ 𝑝 ≤ 0,24 + 2,58 √
100 100

Efectuando las operaciones indicadas se tiene:

0,13 ≤ 𝑝 ≤ 0,35
Unidad 1. Inferencia estadística 26
Con 99% de confianza entre 0,13 y 0,35 se encontrará la proporción de hombres de dicha zona que tienen este
desorden sanguíneo.

En Minitab, los resultados serán:


Estadística Aplicada II 202301 27

Ejercicios

6. Los últimos estudios destacan que los empresarios consideran que el éxito de
asumir un rol ejecutivo no solo depende de su desempeño sino
principalmente con la forma de enfrentar la labor diaria, efectivizando la
administración del tiempo.

En el CADE 2021, se encuestó a una muestra al azar de 500 ejecutivos participantes del CADE y se indagó
sobre la principal competencia que tiene un ejecutivo actualmente, obteniéndose los siguientes
resultados:

Distribución de los ejecutivos según competencia principal


250

200
Cantidad de ejecutivos

150

225
100

50 100 95 60
20
0
Capacidad de Empatía y calidez Eficiencia en la Pasión y dedicación Otro
realizar tareas en administración del
paralelo tiempo
Principal competencia

La CEO de la empresa Potencial Global supone que “menos del 25% de los participantes del CADE
consideran que la eficiencia en la administración del tiempo es la principal competencia que tienen los
ejecutivos de hoy”. De confirmarse este supuesto, lanzará un diplomado sobre gestión del tiempo. Sobre
la base de los datos recolectados en la muestra, ¿es correcto lo que afirma la CEO?

Considere un nivel de confianza del 95%.

a. ¿Qué piensa la CEO? ¿Tomará alguna decisión?


b. ¿Cuál es la variable aleatoria?
c. ¿Qué distribución tiene la variable? ¿cuáles son sus parámetros?
d. ¿Qué datos disponemos?
e. ¿Qué herramienta estadística utilizaremos?
f. ¿Cuál es el resultado obtenido?
g. ¿Cómo interpretamos este valor?
h. ¿Cómo ayuda esta respuesta a la CEO?
Unidad 1. Inferencia estadística 28
Prueba de hipótesis

Bibliografía
• Triola, M. (2013). Estadística. 11va. Edición. Pearson Educación, México, D.F. Capítulo 8. Sección 8.1, 8.2,
8.3 y 8.5

En Lima, podemos hacer una suposición


sobre el ingreso medio mensual poblacional
Si sacamos una muestra de trabajadores de Lima
¿podemos decir algo sobre nuestra suposición?
Estadística Aplicada II 202301 29

Definición de prueba de hipótesis


La prueba de hipótesis involucra una suposición elaborada sobre algún parámetro de la población.

A partir de la información proporcionada por la muestra se verificará la suposición sobre el parámetro


estudiado. La hipótesis que se contrasta se llama hipótesis nula (𝐻0 ).

Partiendo de los resultados obtenidos de la muestra, o bien rechazamos la hipótesis nula a favor de la
alternativa, o bien no rechazamos la hipótesis nula y suponemos que nuestra estimación inicial del parámetro
poblacional podría ser correcto.

El hecho de no rechazar la hipótesis nula no implica que ésta sea cierta. Significa simplemente que los datos
de la muestra son insuficientes para inducir un rechazo de la hipótesis nula.

Contraste de hipótesis

La hipótesis que se contrasta es rechazada o no en función de la información muestral.

La hipótesis alternativa se especifica como opción posible si se rechaza la nula.

Hipótesis nula
La hipótesis nula 𝐻0 (status quo – lo que debe ser) es la afirmación de que el valor de un parámetro
poblacional, como una proporción, media o varianza, es igual a un valor establecido.

El término nula se usa para indicar ningún cambio, ningún efecto o ninguna diferencia.

La hipótesis nula se prueba en forma directa, en el sentido de que suponemos que es verdadera, y llegamos a
una conclusión para rechazarla o no.

Hipótesis alternativa
La hipótesis alternativa 𝐻1 o 𝐻𝑎 , es la hipótesis del investigador, es decir, es la afirmación de que el parámetro
tiene un valor que, de alguna manera, difiere de la hipótesis nula.
Triola, M. (2013) Estadística. 11va Edición Pearson, pp. 395

Ejemplo 4
𝐻0 : La media del tiempo de atención a un cliente por un cajero de un banco es de tres minutos
𝐻1 1: La media del tiempo de atención a un cliente por un cajero de un banco es menor a tres minutos

La notación es:

𝐻0 𝜇≥3
𝐻1 𝜇<3

H0: La proporción de peruanos a favor del adelanto de elección es de 0,70


H1: La proporción de peruanos a favor del adelanto de elección es mayor a 0,70

La notación es:

𝐻0 𝑝 ≤ 0,70
𝐻1 𝑝 > 0,70
Unidad 1. Inferencia estadística 30
Error tipo I
Es el error que se comete al rechazar la hipótesis nula cuando ésta es realmente verdadera.

La probabilidad de cometer el error tipo I se denota  y se define como:

𝛼 = 𝑃(𝑐𝑜𝑚𝑒𝑡𝑒𝑟 𝑒𝑙 𝑒𝑟𝑟𝑜𝑟 𝑡𝑖𝑝𝑜 𝐼) = 𝑃(𝑅𝑒𝑐ℎ𝑎𝑧𝑎𝑟 𝐻0 ⁄𝐻0 𝑒𝑠 𝑐𝑖𝑒𝑟𝑡𝑎)

La probabilidad de cometer el error tipo I se denomina el nivel de significancia de la prueba.

El valor α es fijado por la persona que realiza la investigación, por lo general, en 0,01; 0,05 o 0,10.

Error tipo II
Es el error que se comete al no rechazar la hipótesis nula H0 cuando ésta en realidad es falsa.

La probabilidad de cometer el error tipo II se denota 𝛽 y se define como:

𝛽 = 𝑃(𝑐𝑜𝑚𝑒𝑡𝑒𝑟 𝑒𝑙 𝑒𝑟𝑟𝑜𝑟 𝑡𝑖𝑝𝑜 𝐼𝐼) = 𝑃(𝑁𝑜 𝑟𝑒𝑐ℎ𝑎𝑧𝑎𝑟 𝐻0 ⁄𝐻0 𝑒𝑠 𝑓𝑎𝑙𝑠𝑎)

Resumiendo, las posibles situaciones son:

Decisión basada en la muestra

La realidad Rechazar H0 No rechazar H0

H0 cierta Error tipo I Decisión correcta

H0 falsa Decisión correcta Error tipo II

Pasos a seguir en una prueba de hipótesis

Paso 1: Planteo de hipótesis

Paso 2: Nivel de significación

Paso 3: Prueba estadística

Paso 4: Suposiciones

Paso 5: Regiones críticas. Criterios de decisión

Paso 6: Realización de la prueba

Paso 7: Resultados y conclusiones


Estadística Aplicada II 202301 31

Estadístico de prueba
En este paso se selecciona el respectivo estadístico de prueba, es decir, la fórmula que se utilizará para realizar
el contraste. Esta depende del parámetro sometido a prueba y de la información muestral disponible.

Se calcula bajo el supuesto de que la hipótesis nula 𝐻0 es verdadera.

Ejemplo 5
Si se desea establecer una prueba de hipótesis para la media con varianza poblacional 𝜎 2 desconocida, el
estadístico de prueba sigue una distribución t de Student.

𝑋̅ − 𝜇0
𝑇= ~𝑡𝑛−1
𝑆
√𝑛

Ejemplo 6
Si se desea establecer una prueba de hipótesis para la proporción, el estadístico de prueba sigue una
distribución normal estándar.

𝑝 − 𝑝0
𝑍= ~𝑁(𝜇 = 0; 𝜎 2 = 1)
√𝑝0 (1 − 𝑝0 )
𝑛

Región crítica o de rechazo


La región crítica o de rechazo es el conjunto de todos los valores del estadístico de prueba que provocan que
rechacemos la hipótesis nula 𝐻0 .

Las regiones críticas están limitadas por los valores críticos. Si va prueba es de una cola, hay un valor crítico,
pero si la prueba es de dos colas, hay dos valores críticos. Por ello, es importante determinar de manera
correcta si una prueba de hipótesis es de cola izquierda, de dos colas o de cola derecha.

Los valores críticos se calculan de acuerdo con la distribución del estadístico de prueba, que puede ser t -
Student, normal, chi cuadrado, F de Fisher, etc.

Prueba de cola izquierda (unilateral izquierda)


La región crítica se encuentra en la región (cola) extrema izquierda bajo la curva.

El signo usado en la hipótesis alternativa 𝐻1 es < (menor a).

𝛼
Región crítica Valor crítico

𝐻0 𝜃 ≥ 𝜃0
𝐻1 𝜃 < 𝜃0
Unidad 1. Inferencia estadística 32
Prueba de dos colas (bilateral)
La región crítica se encuentra en las dos regiones (colas) extremas bajo la curva.

El signo usado en la hipótesis alternativa 𝐻1 es ≠ (diferente a).

𝛼/2 𝛼/2
Región crítica Valor crítico 1 Valor crítico 2 Región crítica

𝐻0 𝜃 = 𝜃0
𝐻1 𝜃 ≠ 𝜃0

Prueba de cola derecha (unilateral derecha)


La región crítica se encuentra en la región (cola) extrema derecha bajo la curva.

El signo usado en la hipótesis alternativa 𝐻1 es > (mayor a).

Valor crítico Región crítica

𝐻0 𝜃 = 𝜃0
𝐻1 𝜃 > 𝜃0

El valor p (p valor, p value o valor de probabilidad)


El valor p es la probabilidad de obtener un valor del estadístico de prueba que sea al menos tan extremo como
el que representa a los datos muestrales, suponiendo que la hipótesis nula es verdadera.

El valor p se puede calcular después de encontrar el área que está más allá del estadístico de prueba.

Prueba de cola derecha (unilateral derecha)


El valor p es el área hacia la derecha del valor del estadístico de prueba.

Valor p

Valor del
estadístico de prueba
Estadística Aplicada II 202301 33
Prueba de cola bilateral
Para una prueba bilateral, el valor p es igual a dos veces el valor p para el valor p de cola:

• Izquierda, si el valor del estadístico de prueba de la muestra es negativo.


• Superior, si el valor del estadístico de prueba de la muestra es positivo.

Valor p

Valor del
estadístico de prueba

Prueba de cola izquierda (unilateral izquierda)


El valor p es el área hacia la izquierda del valor del estadístico de prueba.

Valor p

Valor del
estadístico de prueba

Criterios de decisión sobre una prueba de hipótesis


Son las reglas utilizadas para rechazar o no una hipótesis nula.

Estas reglas pueden basarse en:


• valores críticos (percentiles) o
• en áreas (valor p).

Método de los valores críticos

• Si el valor del estadístico de prueba cae dentro de la región crítica, se rechaza 𝐻0 .


• Si el valor del estadístico de prueba no cae dentro de la región crítica, no se rechaza 𝐻0 .

Por tanto, debemos calcular el valor del estadístico de prueba y determinar si cae en la región crítica o no.

Prueba de cola izquierda (unilateral izquierda)

Región crítica Valor crítico

Se rechaza 𝐻0 No se rechaza 𝐻0
Unidad 1. Inferencia estadística 34
Prueba de dos colas (bilateral)

Región crítica Valor crítico 1 Valor crítico 2 Región crítica

Se rechaza 𝐻0 No se rechaza 𝐻0 Se rechaza 𝐻0

Prueba de cola derecha (unilateral derecha)

Valor crítico Región crítica

No se rechaza 𝐻0 Se rechaza 𝐻0

Método del valor p

• Si el valor p ≤ 𝛼; entonces, se rechaza 𝐻0


• Si el valor p > 𝛼; entonces no se rechaza 𝐻0
Triola, M. (2013) Estadística. 11va Edición Pearson, pp. 402

Ejemplo 7
Por ejemplo, en este caso, la prueba es unilateral derecha y el valor del estadístico de prueba está a la izquierda
del valor crítico.

Como el valor p es la probabilidad de obtener un valor del estadístico de prueba que sea al menos tan extremo
como el que representa a los datos muestrales, suponiendo que la hipótesis nula es verdadera que más
grande; en este caso, el valor p es el área a la derecha del valor del estadístico de prueba y, como se observa
en el gráfico, dicha área (valor p) es más grande que el nivel de significancia 𝛼. Por lo tanto, no se rechaza 𝐻0 .

Valor p

Valor del
estadístico de prueba
Estadística Aplicada II 202301 35

Redacción de la conclusión

Condición Conclusión

La afirmación original no incluye igualdad y se “Hay suficiente evidencia para respaldar la afirmación
rechaza 𝐻0 de que … (afirmación original)”.

La afirmación original no incluye igualdad y no se “No hay evidencia suficiente para respaldar la
rechaza 𝐻0 afirmación de que … (afirmación original)”.

La afirmación original incluye igualdad y se “Hay evidencia suficiente para justificar el rechazo de
rechaza 𝐻0 la afirmación de que … (afirmación original)”.

La afirmación original incluye igualdad y no se “No hay evidencia suficiente para justificar el rechazo
rechaza 𝐻0 de la afirmación de que … (afirmación original)”.
Triola (2018, p.366)
Unidad 1. Inferencia estadística 36
Prueba de hipótesis para una media poblacional

Dependiendo del problema de investigación, podemos plantear una de las tres posibles hipótesis.

Unilateral izquierda

𝐻0 : 𝜇 ≥ 𝜇0
𝐻1 : 𝜇 < 𝜇0

Bilateral

𝐻0 : 𝜇 = 𝜇0
𝐻1 : 𝜇 ≠ 𝜇0

Unilateral derecha

𝐻0 : 𝜇 ≤ 𝜇0
𝐻1 : 𝜇 > 𝜇0

Estadístico de prueba y regiones críticas (𝑹𝑪)

Si la varianza poblacional 2 es desconocida, usamos la variable:

𝑋̅ − 𝜇0
𝑇= ~𝑡𝑛−1
𝑆
√𝑛

Las regiones críticas posibles son:

Unilateral izquierda

𝑅𝐶 = ]−∞; −𝑡1−𝛼,𝑛−1 [

Bilateral

𝑅𝐶 = ]−∞; −𝑡1−𝛼,𝑛−1 [ ∪ ]𝑡1−𝛼,𝑛−1 ; +∞[


2 2

Unilateral derecha

𝑅𝐶 = ]−𝑡1−𝛼,𝑛−1 ; +∞[
Estadística Aplicada II 202301 37

Ejemplo 9
Se realizó un ensayo clínico para evaluar la efectividad del medicamento zopiclona para tratar el insomnio en
sujetos mayores. Antes del tratamiento con zopiclona, 16 sujetos tenían un tiempo de vigilia medio de 102.8
minutos. Después del tratamiento con zopiclona, los 16 sujetos tuvieron un tiempo de vigilia medio de 98.9
minutos y una desviación estándar de 42.3 minutos (según datos de “Cognitive Behavioral Therapy vs
Zoplicone forTreatment of Chronic Primary Insomnia in Older Adults”, de Sivertsen et al., Journal of the
American Medical Association, vol. 295, núm. 24).
Suponga que los 16 valores muestrales parecen provenir de una población distribuida normalmente, y pruebe
la afirmación de que después del tratamiento con zopiclona, los sujetos tienen un tiempo de vigilia medio
menor que 102.8 min. ¿Parece que la zopiclona es efectiva?

Parámetro: media poblacional


X: tiempo de vigilia de un sujeto mayor

H0 : 𝜇 ≥ 102.8
H1 : 𝜇 < 102.8

𝛼 = 0.05
𝑥̅ − 𝜇
𝑡𝑐𝑎𝑙 = 𝑠 ~𝑡(𝑣)
√𝑛
Donde v= n- 1= 16-1=15

Regiones críticas. Criterios de decisión.


La hipótesis alternante define la(s) zona(s) de rechazo.

 = 0.05

t(0.05,15)= -1.75

Criterios de rechazo y no rechazo de Ho


Si tcal ≥ -1.75 → no se rechaza Ho
Si tcal < -1.75 → sí se rechaza Ho

Datos muestrales “evidencia”: n = 16 𝑥̅ = 98.9 𝑠 = 42.3


98 − 102.8
𝑡𝑐𝑎𝑙 = = −0.37
42.3
√16

Decisión: Como tcal=-0.37 >-1.75 > 0.05 → No se rechaza Ho

Conclusión: Con 5 % de nivel de significación, no hay evidencia suficiente para respaldar la afirmación de que
después del tratamiento con zopiclona, los sujetos tienen un tiempo de vigilia medio menor que 102.8 min.
Unidad 1. Inferencia estadística 38

Prueba de hipótesis para una media usando Minitab

Elija al opción Estadísticas, luego Estadísticas básicas y t de 1 Muestra…

Elija la opción deseada.

Seleccione Opciones, ponga el nivel de confianza pedido y la hipótesis alterna adecuada. Haga clic en Aceptar.

Prueba
Hipótesis nula H₀: μ = 102.8
Hipótesis alterna H₁: μ < 102.8
Valor T Valor p
-0.37 0.359
Estadística Aplicada II 202301 39

Ejercicios

7. Mire el siguiente video sobre prueba de hipótesis de una media.

Prueba de hipótesis

A partir de lo revisado en el video, responda lo siguiente:

a. Indique una hipótesis estadística.


b. Indique el nivel de significación.
c. La distribución del estadístico de prueba de una media es:

Si se desea probar que el tiempo promedio de navegación es diferente de seis horas:


Indique el tipo de prueba que se usaría.
a. unilateral izquierda
b. unilateral derecha
c. bilateral

Indique la hipótesis alternativa.


a. 𝐻1 : 𝜇 > 6
b. 𝐻0 : 𝜇 > 6
c. 𝐻0 : 𝜇 = 6
d. 𝐻1 : 𝜇 ≠ 6

Indique el tipo de gráfica de la región crítica.


a. cola izquierda
b. dos colas
c. cola derecha

8. En una prueba de hipótesis bilateral de una media, la hipótesis alternativa es:

a. H1: 𝑥̅ > 5 b. H1: 𝑥̅ < 5 c. H0: 𝑥̅ > 5 d. H0: 𝑥̅ = 5 e. H1: 𝑥̅ ≠ 5


f. H1: µ > 5 g. H1: µ < 5 h. H0: µ > 5 i. H0: µ = 5 j. H1: µ ≠ 5

9. En una prueba de hipótesis de una media, unilateral izquierda, la región crítica está determinada por:

a. una gráfica con la región sombreada a la derecha (cola a la derecha)


b. una gráfica con la región sombreada a la izquierda (cola a la izquierda)
c. una gráfica con dos regiones sombreadas a la izquierda y a la derecha (dos colas)

10. En una prueba de hipótesis unilateral derecha para una media, cuando el tamaño de la muestra es 20 y el
𝑇𝑐𝑎𝑙 resulta 2,25, con un nivel de significancia del 1%.
Unidad 1. Inferencia estadística 40

a. Indique el punto crítico


b. Indique el valor crítico.
c. Indique la decisión sobre la prueba.

11. Complete el siguiente resumen para la prueba de hipótesis de una media:

Prueba de hipótesis

Caso A: Unilateral izquierda Caso B: Bilateral Caso C: Unilateral derecha


Planteamiento:
H0: __ µ0 H0: __ µ0 H0: __ µ0
H1: __ µ0 H1: __ µ0 H1: __ µ0
Nivel de significación:
Supuestos:
Estadístico de prueba:

Regiones de rechazo y no rechazo de Ho:

Decisión
Se rechaza H0 cuando _______________________________________________________
No se rechaza H0 cuando_____________________________________________________
Conclusión
Si se rechaza H0, la conclusión es: “Con un nivel de significación del α%, ______________________________
__________________________________________________________________________________”

Si no se rechaza H0, la conclusión es: “Con un nivel de significación del α%, ___________________________
_________________________________________________________________________________”
Estadística Aplicada II 202301 41
12. El responsable del área de calidad sostiene que el costo unitario de producción de las termas es como
mínimo 800 soles. Es por este motivo que el gerente de producción ejecutó varias medidas de control de
gastos, él afirma que este costo ha disminuido. Si la afirmación del gerente de producción es correcta, se
tomará la decisión de mantener estas medidas de manera permanente de lo contrario, se realizarán
nuevos ajustes en el proceso productivo.

Para validar si se cumple lo indicado por el ingeniero, se tomó una muestra aleatoria de 9 termas y se
registró el costo unitario de producción:

Costos unitarios de producción 805.0 774.4 848.8 750.8 799.8 792.8 784.0 849.6 765.6

Con un nivel de significación del 3% y asumiendo que los costos unitarios de producción siguen una
distribución normal. ¿Qué le sugiere usted al ingeniero de planta?
Unidad 1. Inferencia estadística 42
Prueba de hipótesis para una proporción

Para pruebas de hipótesis sobre la proporción poblacional requerimos muestras grandes, 𝑛 ≥ 30.

Dependiendo del problema de investigación, podemos plantear una de las tres posibles hipótesis.

Unilateral izquierda

𝐻0 : 𝑝 ≥ 𝑝0
𝐻1 : 𝑝 < 𝑝0
Bilateral

𝐻0 : 𝑝 = 𝑝0
𝐻1 : 𝑝 ≠ 𝑝0
Unilateral derecha

𝐻0 : 𝑝 ≤ 𝑝0
𝐻1 : 𝑝 > 𝑝0

Estadístico de prueba y regiones críticas (𝑹𝑪)

El estadístico de prueba es:

𝑝 − 𝑝0
𝑍= ~𝑁(𝜇 = 0; 𝜎 2 = 1)
√𝑝0 (1 − 𝑝0 )
𝑛

Las posibles regiones críticas son:

Unilateral izquierda

𝑅𝐶 = ]−∞; −𝑧1−𝛼 [

Bilateral

𝑅𝐶 = ]−∞, −𝑧1−𝛼 [ ∪ ]𝑧1−𝛼 , +∞[


2 2

Unilateral derecha

𝑅𝐶 = ]−𝑧1−𝛼 ; +∞[
Estadística Aplicada II 202301 43

Prueba de hipótesis para una proporción usando Minitab

En Minitab, elija la opción Estadísticas, luego Estadísticas básicas y t de 2 muestras…

Elija la opción deseada.

Seleccione Opciones, ponga el nivel de confianza pedido y la hipótesis alterna adecuada. Haga clic en Aceptar.
Unidad 1. Inferencia estadística 44
Ejemplo 10
El medicamento OxyContin (oxicodona) se usa para tratar el dolor, pero es peligroso porque resulta adictivo y
puede ser letal. En ensayos clínicos, 227 sujetos fueron tratados con OxyContin y 52 de ellos experimentaron
náuseas (en base a datos de Purdue Pharma LP).

Use un nivel de significancia de 0,05 para probar la hipótesis de que más de 20% de los usuarios de OxyContin
desarrollan náuseas. ¿La tasa de náuseas parece ser demasiado alta?

Solución

El parámetro es:

𝑝 ≔ proporción poblacional de sujetos que fueron tratados con OxyContin y experimentaron náuseas

La variable binomial es:

𝑋: = número de sujetos que fueron tratados con OxyContin y experimentaron náuseas en la muestra de 227

El estadístico es:

𝑝̂ : proporción muestral de sujetos que fueron tratados con OxyContin y experimentaron náuseas

Determinemos las hipótesis.

𝐻0 𝑝 ≤ 0,20
𝐻1 𝑝 > 0,20

El nivel de significancia es:

𝛼 = 0,05

Los datos muestrales, que podemos llamar, la evidencia, es:

𝑛 = 227

𝑋 = 52

Los requisitos son:

𝑛𝑝 = 227 × 0,20 = 45.4 > 5

𝑛𝑞 = 𝑛(1 − 𝑝) = 227 × (1 − 0,20) = 181.6 > 5

El estadístico de prueba es:

𝑝̂ − 𝑝
Z= ~𝑁(0,1)
√𝑝(1 − 𝑝)
𝑛

La región crítica es:


Estadística Aplicada II 202301 45

𝛼 = 0,05

𝑍1−𝛼 = 1,645
2

El criterio de rechazo y no rechazo de 𝐻0


• Si 𝑍𝑐𝑎𝑙 ≤ 1.645; entonces, no se rechaza 𝐻0
• Si 𝑍𝑐𝑎𝑙 > 1.645; entonces, sí se rechaza 𝐻0

El valor del estadístico de prueba es:

52
𝑝̂ − 𝑝 227 − 0.20
𝑍𝑐 = = = 1.10
√𝑝(1 − 𝑝) √0.20(1 − 0.80)
𝑛 227

Decisión
Como 𝑍𝑐𝑎𝑙 = 1,10 < 1,645; entonces, no se rechaza 𝐻0

𝛼 = 0,05

1,10 1,645 Zona de rechazo de 𝐻0

En Minitab, se tiene.

Prueba e IC para una proporción


Método
p: proporción de eventos
Para este análisis se utiliza el método de aproximación a la normal.

Estadísticas descriptivas
N Evento Muestra p Límite inferior de 95% para p
227 52 0.229075 0.183196

Prueba
Hipótesis nula H₀: p = 0.2
Hipótesis alterna H₁: p > 0.2

Valor Z Valor p
1.10 0.137
Unidad 1. Inferencia estadística 46
Criterio de rechazo y no rechazo de 𝑯𝟎

Si el 𝑣𝑎𝑙𝑜𝑟 𝑝 ≤ 𝛼 = 0,05; entonces, sí se rechaza 𝐻0


Si el 𝑣𝑎𝑙𝑜𝑟 𝑝 > 𝛼 = 0,05; entonces, no se rechaza 𝐻0

Decisión

Como el 𝑣𝑎𝑙𝑜𝑟 𝑝 = 0,137 > 𝛼 = 0,05; entonces, no se rechaza 𝐻0

𝑣𝑎𝑙𝑜𝑟 𝑝 = 0,137
𝛼 = 0,05

1,10

Conclusión
Con 5 % de nivel de significación, no hay evidencia suficiente para respaldar la afirmación de que más de 20%
de los usuarios de OxyContin desarrollan náuseas.

Ejercicios

13. Un reloj inteligente es un reloj de pulsera dotado con varias funcionalidades como,
el de acceder a internet, realizar y recibir llamadas telefónicas, enviar y recibir
correos electrónicos y SMS, recibir notificaciones del teléfono inteligente e incluso
consultar las redes sociales.

La empresa trasnacional Technology ha anunciado la llegada de su último reloj


inteligente al mercado peruano, el Technology Galaxy Watch. José Martínez,
gerente de calidad de la empresa, quiere garantizar que el lote de relojes inteligentes
que enviará a nuestro país cumple con la especificación de calidad, es decir, “máximo el 2% de la
producción podría ser defectuosa”. De no cumplirse este estándar, implementará mejoras en el proceso
de fabricación de los relojes. Para ello selecciona una muestra 180 unidades de un lote de producción y
obtiene cinco productos defectuosos.

A la luz de los resultados, ¿se realizarán mejoras en el proceso de fabricación? Use nivel de significación
estándar.

a. ¿Cuál es la problemática que deberá resolver?

i. La producción del lote de relojes inteligentes Technology Galaxy es defectuosa.


ii. ¿Debe realizarse mejoras en el proceso de fabricación?
iii. La proporción de defectuosos en el lote de relojes inteligentes Technology Galaxy es mayor a 2%.
iv. La proporción de defectuosos en el lote de relojes inteligentes Technology Galaxy es máximo 2%.

b. ¿Cuál es la variable y el parámetro del problema?


Estadística Aplicada II 202301 47

i. La variable es la proporción de productos defectuosos y el parámetro por estimar es la proporción.


ii. La variable es la proporción de productos defectuosos y el parámetro por estimar es el promedio
iii. La variable es el número de productos defectuosos y el parámetro por estimar es la proporción.
iv. La variable es el número de productos defectuosos y el parámetro por estimar es el promedio.

c. ¿Cuál es la hipótesis alternativa?

a. H0: P > 0.02 g. H0: 𝑥̅ ≤ 0.02 m. H1: µ ≤ 0.02


b. H0: P ≤ 0.02 h. H0: 𝑝̂ > 0.02 n. H1: 𝑥̅ > 0.02
c. H0: µ > 0.02 i. H0: 𝑝̂ ≤ 0.02 o. H1: 𝑥̅ ≤ 0.02
d. H0: µ ≤ 0.02 j. H1: P > 0.02 p. H1: 𝑝̂ > 0.02
e. H0: 𝑥̅ > 0.02 k. H1: P ≤ 0.02 q. Ninguna de las anteriores
f. H1: 𝑝̂ ≤ 0.02 l. H1: µ > 0.02

d. Calcule el estadístico de prueba.

𝑥̅ −𝜇
Tenga en cuenta que si el parámetro es 𝜇, entonces, el estadístico de prueba es 𝑇𝑐𝑎𝑙 = 𝑠 y si el
√𝑛
𝑝̂−𝑝
parámetro es 𝑝, el estadístico de prueba es 𝑍𝑐𝑎𝑙 =
𝑝(1−𝑝)

𝑛

e. Calcule el valor del estadístico de prueba apropiado al problema.

f. El tipo de prueba es:


i. unilateral izquierda
ii. bilateral
iii. unilateral derecha

g. Sombree la(s) región(es) crítica(s) según corresponda.

h. ¿Cuáles son los puntos críticos? Estime sus valores en las tablas correspondientes.

i. −𝑇(0,025;179) y 𝑇(0,025;179)
ii. −𝑇(0,05;179) y 𝑇(0,05;179)
iii. −𝑇(0,025;179)
iv. −𝑇(0,05;179)
v. 𝑇(0,05;179)
vi. −𝑍(0,025) y 𝑍(0,025)
vii. −𝑍(0,05) y 𝑍(0,05)
viii. 𝑍(0,025)
ix. 𝑍(0,975)
Unidad 1. Inferencia estadística 48
x. 𝑍(0,05)
xi. 𝑍(0,95)

i. Ubique los puntos críticos en la región crítica sombreada de la pregunta.

j. ¿Cuál es la decisión?

i. Rechazar 𝐻0 .
ii. Rechazar 𝐻1 .
iii. No rechazar 𝐻0 .
iv. No rechazar 𝐻1 .
v. Aceptar 𝐻0 .
vi. Aceptar 𝐻1 .

k. ¿Cuál es la conclusión estadística?

i. Con un 5% de nivel de significación, se puede afirmar la hipótesis alternativa.


ii. Con un 5% de nivel de significación, no se puede afirmar la hipótesis alternativa.
iii. Con un 5% de nivel de significación, se puede afirmar la hipótesis nula.
iv. Con un 5% de nivel de significación, no se puede afirmar la hipótesis nula.

l. ¿Cuál es la respuesta a la pregunta de investigación?

14. Debido a los constantes reclamos presentados por los clientes sobre el mal funcionamiento de las termas
eléctricas fabricadas en la planta de Ate, el ingeniero de planta sospecha que el porcentaje de unidades
defectuosas no cumple con lo establecido por la empresa, que debe ser como máximo 5%. Si se
comprueba la sospecha del ingeniero, el área de recursos humanos tomará la decisión de capacitar a los
trabajadores de la planta de Ate. Para verificar la sospecha del ingeniero de planta, se tomó una muestra
aleatoria de 120 termas eléctricas y se encontró que 10 de ellas están defectuosas.

Con un nivel de significación del 2%, ¿qué decisión deberán tomar los responsables del área de recursos
humanos?
Estadística Aplicada II 202301 49

Prueba de hipótesis de dos poblaciones

Bibliografía

• Triola, M. (2013) Estadística. 11va. Edición. Pearson Educación, México, D.F. Capítulo 9, páginas 473 - 486,
497 – 506.
• Mendenhall W., Beaver R. y, Beaver B. (2015). Introducción a la Probabilidad y Estadística. 1 4va Edición.
Cengage Learning Editores, México, D.F. Capítulo 10, páginas 401 - 408, 342 - 346, 376 - 387.

En Lima, podemos hacer una suposición sobre


la diferencia de los salarios entre hombres y mujeres
Si sacamos una muestra de trabajadores hombres y mujeres del Perú
¿podemos decir algo sobre nuestra suposición?
Unidad 1. Inferencia estadística 50

Prueba de hipótesis para el cociente de varianzas


Cuando se trata de comparar la variabilidad de dos poblaciones con respecto a su variabilidad, se tiene que
evaluar y comparar sus varianzas.

Por ello, se toman dos muestras aleatorias independientes, una de cada población, estas poblaciones deben
de tener una distribución normal con medias 𝜇1 y 𝜇2 ; y varianzas 𝜎12 y 𝜎22 .

Usualmente probaremos la hipótesis bilateral, pues nos interesa saber si las varianzas las consideramos iguales
o diferentes.

𝐻0 : 𝜎12 = 𝜎22
𝐻1 : 𝜎12 ≠ 𝜎22

O lo que es lo mismo.

𝜎12
𝐻0 : =1
𝜎22
𝜎12
𝐻1 : 2 ≠ 1
𝜎2

Estadístico de prueba y regiones críticas (𝑹𝑪)

𝑆12
𝐹=
𝑆22

donde 𝑆12 y 𝑆22 son las varianzas muestrales y 𝑛1 , 𝑛2 son los tamaños de muestra respectivos.

El estadístico 𝐹 tiene distribución F de Fisher con 𝑛1 − 1 grados de libertad en el numerador y 𝑛2 − 1 grados


de libertad en el denominador.

Las regiones críticas son:

1
𝑅𝐶 = ]0; [ ∪ ]𝐹 𝛼 ; +∞[
𝐹𝛼 ( ;(𝑛1 −1);(𝑛2 −1))
2
( ;(𝑛2 −1);(𝑛1 −1))
2

𝛼 𝛼
2 1−𝛼 2

Zona de rechazo de 𝐻0 𝐹1 𝐹2 Zona de rechazo de 𝐻0


Estadística Aplicada II 202301 51
Cálculo del valor crítico cola izquierda

1
𝐹1 =
𝐹 𝛼
( ;(𝑛2 −1);(𝑛1 −1))
2

Cálculo del valor crítico cola derecha

𝐹2 = 𝐹 𝛼
( ;(𝑛1 −1);(𝑛2 −1))
2

Ejemplo 11
Si se toman dos muestras 𝑛1 = 6 y 𝑛2 = 8 y se tiene un nivel de significancia de 5%, calcule los valores críticos
para una prueba de cociente de varianzas.

Solución
El valor crítico cola izquierda es 𝐹1 .

1 1 1 1
𝐹1 = = = = = 0,146
𝐹 𝛼 𝐹 0,05 𝐹(0,025; 7; 5) 6,85
( ;(𝑛2 −1);(𝑛1 −1)) ( 2 ;(8−1);(6−1))
2

v1
𝛼 v2 1 2 3 4 5 6 7 8 9 10
0.050 5 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77 4.74
0.025 10.01 8.43 7.76 7.39 7.15 6.98 6.85 6.76 6.68 6.62
0.010 16.26 13.27 12.06 11.39 10.97 10.67 10.46 10.29 10.16 10.05

En Excel se usa =[Link](0.025;5;7) = 0,146.

El valor crítico cola derecha es 𝐹2 .

𝐹2 = 𝐹 𝛼 =𝐹 0,05 = 𝐹(0,025; 5; 7) = 5,29


( ;(𝑛1 −1);(𝑛2 −1)) ( 2 ;(6−1);(8−1))
2

v1
𝛼 v2 1 2 3 4 5 6 7 8 9 10
0.050 7 5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.68 3.64
0.025 8.07 6.54 5.89 5.52 5.29 5.12 4.99 4.90 4.82 4.76
0.010 12.25 9.55 8.45 7.85 7.46 7.19 6.99 6.84 6.72 6.62

𝛼 0,05 𝛼 0,05
= = 0,025 1 − 𝛼 = 0,95 = = 0,025
2 2 2 2

Zona de rechazo de 𝐻0 𝐹1 = 0,146 𝐹2 = 5,29 Zona de rechazo de 𝐻0

En Excel se usa =[Link](0.975;5;7) = 5,29.


Unidad 1. Inferencia estadística 52
Criterios para tomar una decisión
Como en todas las pruebas de hipótesis existen dos criterios para tomar una decisión con respecto a las
hipótesis.

• Criterio basado en el valor p.


• Criterio basado usando los valores críticos

Criterio basado en el valor p


• Si el valor p ≤ 𝛼; entonces, sí se rechaza 𝐻0 .
• Si el valor p > 𝛼; entonces, no se rechaza 𝐻0 .

Criterio basado usando los valores críticos 𝑭𝟏 y 𝑭𝟐


Si el estadístico de prueba cae en alguna de las regiones críticas o de rechazo de 𝐻0 ; entonces, se rechaza 𝐻0 .

𝛼 𝛼
2 1−𝛼 2

Zona de rechazo de 𝐻0 𝐹1 𝐹2 Zona de rechazo de 𝐻0


Estadística Aplicada II 202301 53

Prueba de hipótesis para el cociente de varianzas usando Excel

Elija la opción Datos y luego Análisis de datos.

Aparecerá este menú.

Elija Prueba F para varianzas de dos muestras.


Unidad 1. Inferencia estadística 54
Prueba de hipótesis para el cociente de varianzas usando Minitab

En Minitab, elija la opción Estadísticas, luego Estadísticas básicas y 2 varianzas…

Elija la opción deseada.

Seleccione Opciones, ponga el nivel de confianza pedido, la relación entre las medidas de dispersión, la
relación hipotética (usualmente 1) y la hipótesis alterna adecuada. Haga clic en Aceptar.
Estadística Aplicada II 202301 55
Ejemplo 12
Un investigador desea verificar si existe evidencia de una diferencia en las varianzas de las resistencias entre
dos tipos de material para embalaje. La descripción de las lecturas en pie-libra de la resistencia al impacto de
los dos tipos de embalaje se muestra a continuación.

Características Embalaje A Embalaje B


Media 1,2367 0,9778
Varianza 0,0042 0,0024
Observaciones 9 9

A partir de los datos obtenidos compruebe la hipótesis y concluya con 5% de nivel de significación. Asuma
poblaciones normales con varianzas iguales.

Solución.
Sean X1: Resistencia al impacto (embalaje A) X1 ~ N(  1 , 12 )
X2: Resistencia al impacto (embalaje B) X2 ~ N(  2 ,  22 )

1. Planteo de hipótesis.
𝐻 : 𝜎 2 = 𝜎22
{ 0 12
𝐻1 : 𝜎1 ≠ 𝜎22
 = 0.05

2. Prueba estadística
S12
Fcal = ~ f ( n1 −1,n2 −1)
S 22
3. Supuestos.
 Poblaciones normales.
 Muestras tomadas al azar.

4. Regiones críticas. Criterios de decisión.


La hipótesis alternante define la(s) zona(s) de rechazo.

Áreas Criterios

Si 0.226  Fc  4.43 No se rechaza H0


0.025
0.025
Si fc < 0.226 o Fc > 4.43 Se rechaza H0

0.226 4.43

5. Cálculos 6. Conclusiones.
(0.0042) Con 5% de nivel de significación la información
Fc = = 1.75
(0.0024) muestral es insuficiente para rechazar que las
varianzas de las resistencias son iguales.
Unidad 1. Inferencia estadística 56

Ejercicios

15. Revise la lectura sobre la comparación de la variación en dos muestras que aparece en el libro Estadística
del autor Triola (2013, pp. 497 - 499). A partir de lo revisado en la lectura anterior, responde la siguiente
evaluación.

a. ¿Cuál es el objetivo de esta prueba de hipótesis?


b. ¿Cuál sería la hipótesis nula y la alterna?
c. ¿Cuál es el estadístico de prueba de esta hipótesis y qué distribución tiene?
d. ¿Cuáles son los requisitos que se debe cumplir para realizar esta prueba?

16. Suponga que se tiene las siguientes hipótesis sobre las varianzas de dos poblaciones.

𝐻0 𝜎12 = 𝜎22
𝐻1 𝜎12 ≠ 𝜎22

Se recoge información de cada población a partir de muestras aleatorias de tamaños 𝑛1 = 21 y 𝑛2 = 25,


respectivamente.
Con los datos recopilados se obtiene un valor crítico para el estadístico igual a 𝐹𝑐𝑎𝑙 = 0,25. Al nivel de
significación de 𝛼 = 0,05.

a. Indique el tipo de prueba


b. Determine el (los) valor(es) crítico(s)
c. Indique la decisión estadística
Estadística Aplicada II 202301 57

Prueba de hipótesis para diferencia de medias con muestras


independientes

Se dice que dos muestras son independientes si los valores muestrales seleccionados de una población no
están relacionados, pareados o asociados de alguna manera con los valores muestrales seleccionados de la
otra población.
Triola, M. (2013) Estadística. 11va Edición Pearson, pp. 473

Supuestos para comparar dos medias de muestras independientes


En una prueba de hipótesis para comparar dos medias de muestras independientes, los supuestos son:
• Las varianzas poblacionales 𝜎12 y 𝜎22 se desconocen. Suponiendo que las varianzas poblacionales sean
iguales o diferentes.
• Las dos muestras son independientes.
• Ambas muestras son aleatorias simples.
• Cualquiera o ambas de estas condiciones se satisfacen: los dos tamaños de muestra son grandes (con 𝑛1 ≥
30 y 𝑛2 ≥ 30 o ambas muestras provienen de poblaciones que tienen distribuciones normales. Estos
métodos son robustos frente a desviaciones respecto de la normalidad, de manera que, para muestras
pequeñas, el requisito de normalidad es menos estricto, en el sentido de que los procedimientos se
comportan bien siempre y cuando no existan valores atípicos ni desviaciones demasiado pronunciadas
respecto de la normalidad).
Triola, M. (2013) Estadística. 11va Edición Pearson, pp. 474, 480

En muchos casos será necesario comparar dos poblaciones diferentes y esta comparación se debe hacer con
respecto a las medias, si las dos medias poblacionales son desconocidos entonces, será necesario una prueba
de hipótesis para comparar las medias.

Para esto se toman dos muestras aleatorias independientes, una de cada población, estas poblaciones deben
de tener una distribución normal: 𝑋1 ~𝑁(𝜇1 ; 𝜎12 ) y 𝑋2 ~𝑁(𝜇2 ; 𝜎22 ).

Posibles hipótesis

Las posibles hipótesis son:

Unilateral izquierda

𝐻0 : 𝜇1 − 𝜇2 ≥ 𝜇0
𝐻1 : 𝜇1 − 𝜇2 < 𝜇0

Bilateral

𝐻0 : 𝜇1 − 𝜇2 = 𝜇0
𝐻1 : 𝜇1 − 𝜇2 ≠ 𝜇0

Unilateral derecha

𝐻0 : 𝜇1 − 𝜇2 ≤ 𝜇0
𝐻1 : 𝜇1 − 𝜇2 > 𝜇0

donde µ0 es el valor hipotético de la diferencia y que suele ser cero.


Unidad 1. Inferencia estadística 58
Estadístico de prueba y regiones críticas (𝑹𝑪)

Caso: Varianzas poblacionales desconocidas pero supuestas homogéneas

El estadístico de prueba es:

(𝑋̅1 − 𝑋̅2 ) − 𝜇0
𝑇= ~𝑡𝑛1 +𝑛2 −2
𝑆2 𝑆𝑃2
√ 𝑃 +
𝑛1 𝑛2

donde:

(𝑛1 − 1)𝑆12 + (𝑛2 − 1)𝑆22


𝑆𝑃2 =
𝑛1 + 𝑛2 − 2

Este estadístico se contrasta contra el valor punto crítico en una distribución t de Student con 𝑛1 + 𝑛2 − 2
grados de libertad.

Las regiones críticas posibles son:

Unilateral izquierda

𝑅𝐶 = ]−∞; −𝑡1−𝛼,𝑛1 +𝑛2 −2 [

Bilateral

𝑅𝐶 = ]−∞; −𝑡1−𝛼,𝑛 +𝑛 −2
[ ∪ ]𝑡1−𝛼,𝑛+𝑛 −2
; +∞[
2 1 2 2 1 2

Unilateral derecha

𝑅𝐶 = ]−𝑡1−𝛼,𝑛1 +𝑛2 −2 ; +∞[


Estadística Aplicada II 202301 59
Caso: Varianzas poblacionales desconocidas pero supuestas heterogéneas

El estadístico de prueba es:

(𝑋̅1 − 𝑋̅2 ) − 𝜇0
𝑇=
𝑆2 𝑆2
√ 1+ 2
𝑛1 𝑛2

Este estadístico se contrasta contra el valor punto crítico en una distribución t de Student con 𝑣 grados de
libertad.

Los 𝑣 grados de libertad se calculan a partir de la siguiente expresión:

2
𝑠2 𝑠2
( 1 + 2)
𝑛1 𝑛2
𝑣= 2 2
𝑠2 𝑠2
(𝑛1 ) (𝑛2 )
1 2
+
𝑛1 − 1 𝑛2 − 1

Las regiones críticas posibles son:

Unilateral izquierda

𝑅𝐶 = ]−∞; −𝑡1−𝛼,𝑔 [

Bilateral

𝑅𝐶 = ]−∞; −𝑡1−𝛼,𝑔 [ ∪ ]𝑡1−𝛼,𝑔 ; +∞[


2 2

Unilateral derecha

𝑅𝐶 = ]−𝑡1−𝛼,𝑔 ; +∞[
Unidad 1. Inferencia estadística 60
Prueba de hipótesis de diferencia de medias en Excel asumiendo varianzas iguales
Elija la opción Datos y luego Análisis de datos.

Aparecerá este menú.

Elija Prueba t dos muestras suponiendo varianzas iguales.

Prueba de hipótesis de diferencia de medias en Excel asumiendo varianzas desiguales


Elija la opción Datos y luego Análisis de datos. Aparecerá este menú.

Elija Prueba t dos muestras suponiendo varianzas desiguales.


Estadística Aplicada II 202301 61

Prueba de hipótesis de diferencia de medias en Minitab

En Minitab, elija la opción Estadísticas, luego Estadísticas básicas y t de 2 muestras…

Dependiendo del problema, elija la opción adecuada.

Ingrese el nivel de confianza e indique su asume que las varianzas son iguales o diferentes.

Ejemplo 13
Caso varianzas iguales

Un investigador desea verificar si existe evidencia de una diferencia en la resistencia promedio entre dos tipos
de material para embalaje. La descripción de las lecturas en pie-libra de la resistencia al impacto de los dos
tipos de embalaje se muestra a continuación.
Características Embalaje A Embalaje B
Media 1,2367 0,9778
Varianza 0,0042 0,0024
Observaciones 9 9
A partir de los datos obtenidos compruebe la hipótesis y concluya con 5% de nivel de significación. Asuma
poblaciones normales con varianzas iguales.
Unidad 1. Inferencia estadística 62

Solución.
Sean X1: Resistencia al impacto (embalaje A) X1 ~ N(  1 , 12 )
X2: Resistencia al impacto (embalaje B) X2 ~ N(  2 ,  22 )

1. Planteo de hipótesis.
𝐻 : 𝜇 = 𝜇2
{ 0 1
𝐻1 : 𝜇1 ≠ 𝜇2

 = 0.05

2. Prueba_ estadística
_
(𝑥1 −𝑥2 )−(𝜇1 −𝜇2 ) (𝑛1 −1)𝑠12 +(𝑛2 −1)𝑠22
𝑡𝑐 = ~𝑡(𝑛1 +𝑛2 −2) donde: 𝑆𝑝2 =
1 1 𝑛1 +𝑛2 −2
√𝑆𝑝2 (𝑛 +𝑛 )
1 2

3. Supuestos.
 Poblaciones normales.
 Muestras tomadas al azar.

4. Regiones críticas. Criterios de decisión.


La hipótesis alternante define la(s) zona(s) de rechazo.

Áreas Criterios
0.025 0.025 Si -2.120  tc  2.120 No se rechaza H0
Si tc < -2.120 o tc > 2.120 Se rechaza H0
0.95

-2.120 t(16, 0.025) = 2.120

5. Cálculos
(1.2367 − 0.9778) − (0)
tc = = 9.561
1 1
0.0033 + 
9 9

6. Conclusiones.
Con 5% de nivel de significación la información muestral es suficiente para rechazar que las resistencias
promedio de los dos tipos de embalaje son iguales.
Estadística Aplicada II 202301 63

Ejercicios

17. Un equipo de consejeros de tutoría en estadística de la UPC sostiene que, los estudiantes que llevan por
primera vez el curso de Estadística obtienen mejores calificaciones, en promedio, que los estudiantes que
llevan por segunda vez el curso. Identifique cuál es la hipótesis alterna correcta.

a. 𝐻1 𝜇1 − 𝜇2 < 0
b. 𝐻1 𝜇1 − 𝜇2 ≠ 0
c. 𝐻1 𝜇1 − 𝜇2 > 0

18. Se seleccionan dos muestras aleatorias de tamaños 𝑛1 = 60 y 𝑛2 = 42, respectivamente, y con esta
información se calcula el valor de la estadística de prueba, el cual resulta 𝑇𝑐𝑎𝑙 = 1,78.

Considerando que se está evaluando una prueba unilateral derecha, bajo el supuesto que las varianzas
son homogéneas y a un nivel de significación de 5%.

a. Determine los valores críticos.


b. Indique la decisión estadística.

19. Una empresa industrial debe decidir entre dos posibles proveedores (Proveedor A y proveedor B) de
barriles de combustible requeridos para la producción. ¿Las muestras que se eligen de la producción de
cada proveedor son independientes? ¿Porqué?

Si constituyen dos muestras independientes ¿por qué los valores muestrales para la producción del
proveedor A no están relacionados (pareados) con los valores muestrales para la producción del
proveedor B?

20. La fábrica de bicicletas Bicorp S.A. produce aros de aleación en dos plantas A
y B. El ingeniero sospecha que hay diferencias en los tiempos de producción
entre las plantas, presunción que se explicaría porque en el último trimestre
se han implementado máquinas modernas para la producción de los aros en
la planta A. De ser cierta la sospecha, el ingeniero recomendará la compra
de máquinas similares para la planta B.

Para tal fin, se registró el tiempo de producción (en minutos) de 10 aros de aleación seleccionados
aleatoriamente de cada una de las plantas. Los datos registrados son los siguientes.

Planta A (1) 85,0 35,0 95,0 82,5 68,0 63,5 59,5 63,0 67,0 64,0
Planta B (2) 100,0 94,0 112,0 47,0 39,0 58,0 89,0 78,5 64,0 77,0

A un nivel de significancia del 1%, ¿el ingeniero recomendará la compra de estas máquinas modernas para
la planta B?

Considere que las muestras son independientes y que provienen de poblaciones normalmente
distribuidas.

A continuación, se muestran las salidas de las pruebas de hipótesis, obtenidas con los programas MS Excel
y Minitab, las cuales ayudarán a verificar la sospecha del ingeniero.

Los resultados en Minitab son:


Unidad 1. Inferencia estadística 64

Prueba
Hipótesis nula H₀: σ₁² / σ₂² = 1
Hipótesis alterna H₁: σ₁² / σ₂² ≠ 1
Nivel de significancia α = 0.01

Método Estadística de prueba GL1 GL2 Valor p


F 0.485 9 9 0.297

Prueba T e IC de dos muestras: Planta A, Planta B

Método
μ₁: media de población de Planta A
µ₂: media de población de Planta B
Diferencia: μ₁ - µ₂
Se presupuso igualdad de varianzas para este análisis.

Estadísticas descriptivas
Muestra N Media [Link]. Error estándar de la media
Planta A 10 68.3 16.5 5.2
Planta B 10 75.8 23.7 7.5

Estimación de la diferencia
Diferencia [Link]. agrupada IC de 99% para la diferencia
-7.60 20.41 (-33.88, 18.68)

Prueba
Hipótesis nula H₀: μ₁ - µ₂ = 0
Hipótesis alterna H₁: μ₁ - µ₂ ≠ 0

Valor T GL Valor p
-0.832 18 0.416

21. Mausa SAC es una empresa que cuenta con más de 20 años de experiencia en todo lo relacionado a la
construcción de centros comerciales. Uno de sus objetivos es evaluar el medio ambiente para viabilizar
los proyectos de construcción.

El ingeniero responsable del área de medio ambiente afirma que, el nivel promedio de asbesto (desechos
de construcción y otros) en el distrito de Santiago de Surco es inferior que en el distrito de San Borja. Si
esto se verifica, llevará a cabo la construcción de un centro comercial en el distrito donde exista menor
nivel promedio de asbesto.

Le encargan a usted registrar aleatoriamente el nivel de asbesto de algunos proyectos en los distritos
mencionados. Los resultados registrados fueron los siguientes:

Santiago de Surco (1) 12 8 10 12 11 9 10 10 12 12 9 10


San Borja (2) 13 17 10 7 10 14 11 13 15 10 10 10 11 15

Según los resultados encontrados, ¿qué recomendaría al responsable del área de medio ambiente?
Estadística Aplicada II 202301 65
Use un nivel de significación de 5%. Asuma que los datos del nivel de asbesto fueron obtenidos a partir de
muestras independientes en cada distrito y que provienen de poblaciones normalmente distribuidas.

Prueba
Hipótesis nula H₀: σ₁² / σ₂² = 1
Hipótesis alterna H₁: σ₁² / σ₂² ≠ 1
Nivel de significancia α = 0.05
Método Estadística de prueba GL1 GL2 Valor p
F 0.26 11 13 0.031

Prueba T e IC de dos muestras: Santiago de Surco (1), San Borja (2)

Método
μ₁: media de población de Santiago de Surco (1)
µ₂: media de población de San Borja (2)
Diferencia: μ₁ - µ₂
No se presupuso igualdad de varianzas para este análisis.

Estadísticas descriptivas
Muestra N Media [Link]. Error estándar de la media
Santiago de Surco (1) 12 10.42 1.38 0.40
San Borja (2) 14 11.86 2.71 0.73

Estimación de la diferencia
Diferencia IC de 95% para la diferencia
-1.440 (-3.172, 0.291)

Prueba
Hipótesis nula H₀: μ₁ - µ₂ = 0
Hipótesis alterna H₁: μ₁ - µ₂ ≠ 0

Valor T GL Valor p
-1.74 19 0.098
Unidad 1. Inferencia estadística 66
22. El personal de dos clínicas privadas que tienen las mismas especialidades, ha estudiado los tiempos de
espera de pacientes (en minutos) que llagan solicitando servicio de emergencia. Los siguientes fueron
reunidos en un período de un mes.

Clínica 1
k Tiempos Marca de clase Número de pacientes
1 [0 - 4] 2 50
2 ]4 - 8] 6 85
3 ]8 - 12] 10 105
4 ]12 - 16] 14 38
5 ]16 - 20] 18 10
6 ]20 - 24] 22 8
7 ]24 - 28] 26 4
Total 300

Clínica 2
k Tiempos Marca de clase Número de pacientes
1 [0 - 4] 2 2
2 ]4 - 8] 6 5
3 ]8 - 12] 10 25
4 ]12 - 16] 14 236
5 ]16 - 20] 18 25
6 ]20 - 24] 22 5
7 ]24 - 28] 26 2
Total 300

¿Existen diferencias significativas entre los tiempos promedio de atención de ambas clínicas? Utilice un
nivel de significación de 5%.
Estadística Aplicada II 202301 67

Prueba de hipótesis para diferencia de medias con muestras relacionadas

Bibliografía
• Triola, M. (2013) Estadística. 11va. Edición. Pearson Educación, México, D.F. Capítulo 9, páginas 462 - 472,
487 - 493.
• Mendenhall W., Beaver R. y Beaver B. (2015). Introducción a la Probabilidad y Estadística. 14va Edición.
Cengage Learning Editores, México, D.F. Capítulo 8, páginas 307 – 310, 388 – 391.

Revisando la lectura:

[Link]

Las muestras relacionadas son aquellas en las que los mismos individuos se miden en dos momentos
diferentes o en dos condiciones diferentes. Por ejemplo, podríamos tener una muestra de estudiantes que
toman un examen antes y después de un curso de estadística.

El objetivo de la prueba de hipótesis de muestras relacionadas es determinar si hay una diferencia significativa
entre las dos medias de la muestra.

Esta prueba se basa en dos muestras individuales medidas, como ya se dijo, en datos pareados o una muestra
evaluada en situaciones diferentes, a estos datos los llamaremos 𝑋𝑖 y 𝑌𝑖 .

Se tiene que calcular la diferencia entre cada par de datos (𝑑𝑖 ), es decir, tendremos que:

𝑑𝑖 = 𝑋𝑖 − 𝑌𝑖

Se calculan los siguientes estadísticos:

• La media de las diferencias.


∑𝑛𝑖=1 𝑑𝑖
𝑑̅ =
𝑛

• La varianza de las diferencias.


2
∑𝑛𝑖=1(𝑑𝑖 − 𝑑̅)
𝑆𝑑2 =
𝑛−1

Las posibles hipótesis son:

Unilateral izquierda

𝐻0 : 𝜇1 − 𝜇2 ≥ 𝜇0
𝐻1 : 𝜇1 − 𝜇2 < 𝜇0

Otra forma de expresar la diferencia μ1 − μ2 = D


Unidad 1. Inferencia estadística 68
𝐻0 : 𝐷 ≥ 𝜇0
𝐻1 : 𝐷 < 𝜇0

Bilateral

𝐻0 : 𝜇1 − 𝜇2 = 𝜇0
𝐻1 : 𝜇1 − 𝜇2 ≠ 𝜇0

Unilateral derecha

𝐻0 : 𝜇1 − 𝜇2 ≤ 𝜇0
𝐻1 : 𝜇1 − 𝜇2 > 𝜇0

El estadístico de prueba es:

𝑑̅ − 𝜇0
𝑡𝑐𝑎𝑙 = ~𝑡𝑛−1
𝑆𝑑
√𝑛

Este estadístico sigue la distribución t de Student con 𝑛 − 1 grados de libertad.

Las regiones críticas son:

Unilateral izquierda

𝑅𝐶 = ]−∞; −𝑡1−𝛼,𝑛−1 [

Bilateral

𝑅𝐶 = ]−∞; −𝑡1−𝛼,𝑛−1 [ ∪ ]𝑡1−𝛼,𝑛−1 ; +∞[


2 2

Unilateral derecha

𝑅𝐶 = ]−𝑡1−𝛼,𝑛−1 ; +∞[
Estadística Aplicada II 202301 69

Prueba de hipótesis de muestras emparejadas en Excel

En Excel, elija la opción Datos y luego Análisis de datos.

Aparecerá este menú.

Elija Prueba t para medias de dos muestras emparejadas.


Unidad 1. Inferencia estadística 70
Prueba de hipótesis de muestras emparejadas en Minitab

En Minitab, elija la opción Estadísticas, luego Estadísticas básicas y t pareada…

Dependiendo del problema, elija la opción adecuada.

Seleccione Opciones, escriba el nivel de confianza deseado y elija la hipótesis alterna adecuada. Haga clic en
Aceptar.
Estadística Aplicada II 202301 71
Ejemplo 14
Muestras relacionadas

Un gimnasio afirma que un nuevo programa de ejercicio reducirá la medida de la cintura de una persona en
promedio dos centímetros en un período de cinco días. Las medidas de cinturas de seis hombres que
participaron en este programa de ejercicios se registraron antes y después del período de cinco días en la
siguiente tabla:
Hombres
1 2 3 4 5 6
Medida de cintura antes 90,4 95,5 98,7 115,9 104,0 85,6
Medida de cintura después 91,7 93,9 97,4 112,8 101,3 84,0

¿La afirmación del gimnasio es válida al nivel de significación de 5%? Suponga que la distribución de las
diferencias de medidas de cintura antes y después del programa es aproximadamente normal.

Solución.
Sean X1: Medida de cintura antes (cm.)
X2: Medida de cintura después (cm.)

1. Planteo de hipótesis.
𝐻0 : 𝜇1 − 𝜇2 = 2 →𝐻0 : 𝐷 = 2
𝐻1 : 𝜇1 − 𝜇2 ≠ 2 →𝐻1 : 𝐷 ≠ 2

𝛼 = 0.05

2. Prueba estadística
𝑑̅ − 𝜇0
𝑡𝑐𝑎𝑙 = ~𝑡𝑛−1
𝑆𝑑
√𝑛

3. Supuestos.
 Las diferencias tienen distribución normal.

4. Regiones críticas. Criterios de decisión.


La hipótesis alternante define la(s) zona(s) de rechazo.

Áreas Criterios
0.025 0.025 Si -2.57  tc  2.57 No se rechaza H0
Si tc < -2.57 o tc > 2.57 Se rechaza H0
0.95

-2.57 2.57
5. Cálculos
Hombre Medida de cintura antes, Xi Medida de cintura después, Yi 𝑑𝑖 = 𝑋𝑖 − 𝑌𝑖
1 90,4 91,7 -1,3
2 95,5 93,9 1,6
3 98,7 97,4 1,3
4 115,9 112,8 3,1
5 104,0 101,3 2,7
Unidad 1. Inferencia estadística 72
6 85,6 84,0 1,6

Antes de la campaña 10,6 12,2 9,8 10,8 14,0 14,6 12,2 11,9 12,6 17,8
Después de la campaña 14,7 11,6 10,5 11,4 10,8 12,3 11,9 15,4 14,3 16,1
Los estadísticos de media y desviación estándar para las diferencias resultan 𝑑̅ = 1.5, 𝑠𝑑 =1.543

1.5 − 2
tc = = −0.794
1.543 / 6

6. Conclusión
Con 5% de nivel de significación la información recogida resulta insuficiente para contradecir lo que afirma
el gimnasio.

Ejercicios

23. Revise la infografía de muestras pareadas y responda lo siguiente.

Una empresa certificadora de la calidad del agua extrae 30 muestras del recorrido del rio Jeque para
analizar el oxígeno disuelto (OD). Se usaron dos métodos para hacer estos análisis: el método de Winkler
(MW) y el método de electrodos (ME). Se desea probar si existen diferencias entre los métodos.

a. ¿Utilizará una prueba de muestras independientes o muestras pareadas?


b. Plantee las hipótesis respectivas.

24. Revise la bibliografía de la unidad y a partir de ello, responda lo siguiente.

Para validar la prueba de hipótesis para la diferencia de medias para muestras dependientes se utiliza la
distribución t - Student.
a. Verdadero
b. Falso

25. Con el objetivo de incrementar las ventas de una conocida marca


de filtros de aire para autos, se decide realizar una gran campaña
publicitaria. Luego se recopiló una muestra aleatoria sobre las
ventas en miles de soles registradas en diez tiendas donde se
comercializa dicho filtro, antes y después de la campaña. Debajo
se muestran los reportes obtenidos con los softwares MSEXCEL y
Minitab.

Asumiendo que el monto de ventas tiene una distribución normal, realice el análisis para indicar si fue
efectiva la campaña. Use un nivel de significación del 5%.

A continuación, se muestran los resultados usando Excel y Minitab.


Estadística Aplicada II 202301 73
Prueba t para medias de dos muestras emparejadas
Antes de la campaña Después de la campaña
Media 12.65 12.9
Varianza 5.4294 4.1289
Observaciones 10 10
Coeficiente de correlación de Pearson 0.4104
Diferencia hipotética de las medias 0
Grados de libertad 9
Estadístico t -0.3320
P(T<=t) una cola 0.3738
Valor crítico de t (una cola) 1.8331
P(T<=t) das colas 0.7475
Valor crítico de t (dos colas) 2.2622

Prueba
Hipótesis nula H₀: diferencia_μ = 0
Hipótesis alterna H₁: diferencia_μ ≠ 0

Valor T Valor p
-0.332 0.748

Dimensión de interpretación: Da significado a información Estimación: Relaciona datos e información numérica pertinente en diversos
numérica en diversos formatos en situaciones de contexto formatos, para definir una situación problemática en un contexto real.
real.

Dimensión de representación: Describe mediante Estimación: Describe la variable, su distribución, el (los) parámetro(s) y
expresiones matemáticas y/o estadísticas, situaciones de estadísticos utilizando correctamente las notaciones y representaciones
contexto real. simbólicas.

Dimensión de cálculo: Utiliza algoritmos y procedimientos Estimación: Calcule el estadístico de prueba, región(es) y valor(es) crítico(s),
estándar de la matemática y/o estadística en situaciones de p-value de la(s) prueba(s) respectivas.
contexto real.

Dimensión de análisis y argumentación: Sustenta los Estimación: Sustente el resultado de la prueba de hipótesis utilizando un
resultados y su aplicación práctica, planteando una solución. lenguaje formal estadístico y brinda alguna alternativa de respuesta a la
situación problemática.

26. El ingeniero de producción de Aceros Lima, productor mayorista de fierros de construcción ha diseñado
un nuevo método con la intención de optimizar el tiempo de entrega de los lotes pedidos de fierro de
construcción en la región central del país.
Para probar la eficacia de este nuevo método, selecciona en forma aleatoria a ocho empleados de la
sección de entregas y mide el tiempo de entrega con el método actual y luego mide el tiempo de entrega
de estos mismos empleados con el método nuevo. Los resultados en días de entrega son los siguientes:

Tiempo de entrega con método actual (1) 6 6 6 7 7 7 6 7


Tiempo de entrega con método nuevo (2) 5 6 6 7 8 8 5 4

Verifique el supuesto del ingeniero de producción y de sus conclusiones con un nivel de significación del
5%. Asuma que el tiempo de entrega de los lotes de fierros de construcción se distribuye en forma normal.

27. Se llevó a cabo una encuesta entre los miembros del Club del libro del mes, para determinar si pasan más
tiempo viendo televisión que leyendo. Suponga que en una muestra de 12 encuestados se obtuvieron las
horas semanales que se dedican a ver televisión y las que se dedican a la lectura. Con un nivel de
significación del 5%, ¿se puede llegar a la conclusión de que los miembros del club del libro del mes pasan
más tiempo, en promedio, viendo televisión que leyendo?
Unidad 1. Inferencia estadística 74
Encuestado 1 2 3 4 5 6 7 8 9 10 11 12
Televisión 11 19 8 5 16 8 4 12 10 14 15 18
Leyendo 6 10 3 10 5 8 7 14 14 8 10 10
Asuma Normalidad.

28. Se realiza un estudio para comparar la planificación humana en tiempo real en un entorno de
procesamiento con un enfoque automatizado que utiliza robots computarizados y dispositivos censores.
El experimento consistió en ocho problemas de planificación simulados. Cada tarea fue realizada por un
planificador humano y por el sistema automatizado. El desempeño se midió en términos de la tasa de
rendimiento, definida como el número de trabajos aceptables producidos ponderado según la calidad del
producto. Las tasas de rendimiento obtenidas se muestran a continuación.

Humano 120 143 141 176 185 124 141 176


Automatizado 145 154 165 198 200 205 198 195
¿Existen diferencias significativas entre las tasas promedio de rendimiento obtenido con los métodos de
planificación humana y automatizada? Use nivel de significación 0.05.
Estadística Aplicada II 202301 75

Prueba de hipótesis para diferencia de proporciones

Bibliografía

• Triola, M. (2013) Estadística. 11va. Edición. Pearson Educación, México, D.F. Capítulo 9, páginas 462 - 472,
487 - 493.
• Mendenhall W., Beaver R. y Beaver B. (2015). Introducción a la Probabilidad y Estadística. 14va Edición.
Cengage Learning Editores, México, D.F. Capítulo 8, páginas 307 – 310, 388 – 391.

La prueba de hipótesis de diferencias de proporciones es una técnica estadística que se utiliza para comparar
las proporciones de dos poblaciones o muestras. Esta prueba se utiliza comúnmente en estudios que implican
variables cualitativas, como estar de acuerdo o no con una ley, estar capacitado o no, etc.

Las posibles hipótesis son:

Unilateral izquierda

𝐻0 : 𝑝1 − 𝑝2 ≥ 𝑝0
𝐻1 : 𝑝1 − 𝑝2 < 𝑝0

Bilateral

𝐻0 : 𝑝1 − 𝑝2 = 𝑝0
𝐻1 : 𝑝1 − 𝑝2 ≠ 𝑝0

Unilateral derecha

𝐻0 : 𝑝1 − 𝑝2 ≤ 𝑝0
𝐻1 : 𝑝1 − 𝑝2 > 𝑝0

donde 𝑝0 es un valor diferente a cero y representa la diferencia de las proporciones planteada en la hipótesis
nula.

El estadístico de prueba tiene dos formas diferentes:

a) Cuando la diferencia hipotetizada es igual a cero:


(𝑝̂1 − 𝑝̂2 )
𝑍𝑐𝑎𝑙 = ~𝑁(0,1)
𝑝̅ (1 − 𝑝̅ ) 𝑝̅ (1 − 𝑝̅ )
√ +
𝑛 1 𝑛2

donde 𝑝̂1 y 𝑝̂2 representan las proporciones muestrales respectivas.

𝑛1 𝑝̂1 + 𝑛2 𝑝̂ 2 𝑥1 + 𝑥2
𝑝̅ = =
𝑛1 + 𝑛2 𝑛1 + 𝑛2
Donde:
X1: representa el número de éxitos encontrados en la muestra de tamaño n1
X2: representa el número de éxitos encontrados en la muestra de tamaño n2

b) Cuando la diferencia hipotetizada toma un valor diferente de cero:


Unidad 1. Inferencia estadística 76
(𝑝̂1 − 𝑝̂2 ) − 𝑝0
𝑍𝑐𝑎𝑙 = ~𝑁(0,1)
𝑝
̂(1 − 𝑝
̂) 𝑝
̂(1 − 𝑝
̂)
√ 1 1
+ 2 𝑛 2
𝑛1 2

Las posibles regiones críticas son:

Unilateral izquierda

𝑅𝐶 = ]−∞; −𝑧1−𝛼 [

Bilateral

𝑅𝐶 = ]−∞, −𝑧1−𝛼 [ ∪ ]𝑧1−𝛼 , +∞[


2 2

Unilateral derecha

𝑅𝐶 = ]−𝑧1−𝛼 ; +∞[

Prueba de hipótesis para diferencia de proporciones en Minitab

En Minitab, elija la opción Estadísticas, luego Estadísticas básicas y 2 Proporciones…

Dependiendo del problema, elija la opción adecuada.

Seleccione Opciones, escriba el nivel de confianza deseado y elija la hipótesis alterna adecuada. Haga clic en
Aceptar.
Estadística Aplicada II 202301 77
Unidad 1. Inferencia estadística 78
Ejemplo 15
En una prueba de calidad de dos comerciales de televisión se pasó cada uno en un área de prueba seis veces,
durante un período de una semana. La semana siguiente se llevó a cabo una encuesta telefónica para identificar
a quienes habían visto esos comerciales. A las personas que los vieron se les pidió definieran el principal mensaje
en ellos. Se obtuvieron los siguientes resultados:

Comercial Personas que lo Personas que recordaron el


vieron mensaje principal
A 150 63
B 200 60

Use  = 0.05 para probar la hipótesis que no hay diferencia en las proporciones que recuerdan los dos
comerciales.

Solución.
Sea p1: Proporción de personas que recordaron el mensaje principal del comercial A.
Sea p2: Proporción de personas que recordaron el mensaje principal del comercial B.

1. Planteo de hipótesis.
H 0 : p1 = p 2

H1 : p1  p 2
 = 0.05

2. Prueba estadística
(𝑝̂1 − 𝑝̂2 )
𝑍𝑐𝑎𝑙 = ~𝑁(0,1)
𝑝̅ (1 − 𝑝̅ ) 𝑝̅ (1 − 𝑝̅ )
√ +
𝑛 1 𝑛 2

donde 𝑝̂1 y 𝑝̂2 representan las proporciones muestrales respectivas

𝑛1 𝑝̂1 + 𝑛2 𝑝̂2 𝑥1 + 𝑥2
𝑝̅ = =
𝑛1 + 𝑛2 𝑛1 + 𝑛2

3. Supuestos.
 Muestras tomadas al azar
 np ≥ 5 y n(1 - p) ≥ 5 para cada una de las muestras

4. Regiones críticas. Criterios de decisión.


La hipótesis alternante define la(s) zona(s) de rechazo.
Áreas Criterios
0.025 0.025 Si -1.96  Zc  1.96 No se rechaza H0
Si Zc < -1.96 o Zc > 1.96 Se rechaza H0
0.95

-1.96 1.96
Estadística Aplicada II 202301 79
5. Cálculos 6. Conclusiones.
63 60 Con 5% de nivel de significación y a partir
− de la información muestral, hay
Z cal = 150 200 = 2.328 diferencias significativas en las
 1 1 
(0.351)(0.649 ) +  proporciones que recuerdan los dos
 150 200  comerciales.

63 + 60
𝑝̅ = = 0.351
150 + 200

Ejercicios
29. Con la firma de los TLC, la exportación agraria se ha incrementado. Es así que un exportador de alcachofas
está evaluando la producción del valle con la de su proveedor habitual. Las alcachofas de exportación
deben cumplir estándares de color, peso, tamaño y textura; de lo contrario se consideran defectuosas y
se venden a menor precio en el mercado local. El exportador cambiara su proveedor habitual y se quedara
con los del valle si la proporción de defectuosas en el valle es menor a la proporción habitual en más del
5%. Se extrajeron dos muestras de 200 (del valle) y 300(del habitual) y se encontraron 25 y 30 defectuosas.
Con un nivel de significación del 1%, ¿considera usted que se debe cambiar al proveedor habitual?

30. En una prueba de calidad de dos comerciales de televisión, cada comercial se mostró, en áreas separadas
de prueba, seis veces en una semana. A la semana siguiente se realizó una encuesta telefónica para
identificar a individuos que habían visto los comerciales. A estas personas se les pidió su opinión sobre
cuál era el principal mensaje de estos comerciales. Se obtuvieron los siguientes resultados.

Comercial A Comercial B
Número de personas que vio el comercial 150 200
Número de personas que recordaba el mensaje 63 60

Use α = 0.05 y pruebe la hipótesis de que entre los dos comerciales no hay diferencia en las
proporciones poblacionales de personas que recordaron el mensaje.

En una encuesta de BusinessWeek/Harris se pidió a los ejecutivos de empresas grandes su opinión


acerca de sus perspectivas económicas para el futuro. Una de las preguntas era: ¿Piensa usted que en
los próximos 12 meses aumentará en su empresa el número de empleados de tiempo completo? En esa
encuesta 220 de 400 ejecutivos contestaron sí, mientras que en la encuesta realizada el año anterior,
192 de 400 respondieron sí. Use α = 0.04 y pruebe la hipótesis de que la opinión de los ejecutivos ha
cambiado de un año para otro.

31. A partir de lo revisado en el libro de Triola (2013, p. 487-493), responda lo siguiente.

Para validar la prueba de hipótesis para la diferencia de proporciones se utiliza la distribución normal.
a. Verdadero
b. Falso

32. Un equipo de ingenieros sostiene que la proporción de víctimas resultante de choques automovilísticos
son menores en el caso de los automóviles equipados con bolsas de aire (1) que aquellos automóviles que
no tienen bolsa de aire (2). Identifique la hipótesis alterna correcta.
Unidad 1. Inferencia estadística 80
a. 𝐻1 𝑝1 − 𝑝2 < 0
b. 𝐻1 𝑝1 − 𝑝2 = 0
c. 𝐻1 𝑝1 − 𝑝2 > 0

33. Suponga que tenemos dos muestras aleatorias independientes de tamaños 60 y 70, respectivamente. A
partir de estas muestras se obtienen las proporciones muestrales para cierta característica de interés,
cuyos valores son:

21
𝑝̂1 =
60

25
𝑝̂2 =
70

Se formulan las hipótesis.

𝐻0 𝑝1 = 𝑝2
𝐻1 𝑝1 ≠ 𝑝2

El nivel de significación es:

𝛼 = 0,05

Con los datos recolectados en las muestras aleatorias, se obtiene el estadístico de prueba cuyo valor
resultado es 𝑍𝑐𝑎𝑙 = −0,08.

a. Indique el tipo de prueba de hipótesis.


b. Determine el valor crítico.
c. Indique la decisión.

34. Un equipo de ingenieros químicos tiene conocimiento


que el Lipitor es un fármaco que se utiliza para
controlar el colesterol. En ensayos clínicos del Lipitor,
124 sujetos fueron tratados con el medicamento y 270
sujetos recibieron un placebo. De los que fueron
tratados con Lipitor, siete desarrollaron infecciones. De
los que recibieron un placebo, 27 desarrollaron
infecciones.

Utilice un nivel de significancia de 0,05 para someter a


prueba la afirmación de que la tasa de infecciones para los individuos tratados con Lipitor fue menor a los
que recibieron un placebo. En caso de que, la afirmación sea cierta, el equipo de químicos recomendará
usar el fármaco Lipitor.

Dimensión de interpretación: Da significado a Estimación: Relacione datos e información numérica


información numérica en diversos formatos en pertinente en diversos formatos, para definir una situación
situaciones de contexto real. problemática en un contexto real.

Dimensión de representación: Describe Estimación: Describa la variable, su distribución, el (los)


mediante expresiones matemáticas y/o parámetro(s) y estadísticos utilizando correctamente las
estadísticas, situaciones de contexto real. notaciones y representaciones simbólicas.
Estadística Aplicada II 202301 81
Dimensión de cálculo: Utilice algoritmos y Estimación: Calcule el estadístico de prueba, región(es) y
procedimientos estándar de la matemática y/o valor(es) crítico(s), p-value de la(s) prueba(s) respectivas.
estadística en situaciones de contexto real.

Dimensión de análisis y argumentación: Sustente Estimación: Sustente el resultado de la prueba de hipótesis


los resultados y su aplicación práctica, planteando utilizando un lenguaje formal estadístico y brinda alguna
una solución. alternativa de respuesta a la situación problemática.

35. En una prueba de calidad de dos comerciales de televisión A y B, se seleccionó una muestra al azar de 300
personas para el comercial A y 400 personas para el comercial B. La semana siguiente se llevó a cabo una
encuesta entre las personas que vieron los comerciales y se les pidió que recordaron el mensaje principal
del comercial. Se obtuvieron los siguientes resultados:

• El comercial A fue visto por 300 personas y 63 de ellos lograron recordar el mensaje principal.
• El comercial B fue visto por 400 personas y 60 de ellos lograron recordar el mensaje principal.

Use 𝛼 = 0,04 para probar la hipótesis que la proporción de personas que recuerdan el comercial A supera
a los que vieron el comercial B en más de 1%.
82 Estadística Aplicada II 202301

Unidad 2: Diseño y análisis de experimentos

Logro de la unidad
Al finalizar la Unidad 2, el estudiante diseña y analiza estadísticamente experimentos para evaluar la influencia
de uno o más factores en otra variable de interés en un contexto real o simulado.

Temario
• Experimento de un factor. Conceptos básicos. Análisis de varianza
• Anova de un factor
• Anova de dos factores
• Validación de supuestos
• Pruebas de comparaciones múltiples

Bibliografía
Estadística Aplicada II 202301 83

Análisis de varianza

Bibliografía
• Montgomery, D. y Runger, G. (2005) Probabilidad y Estadística Aplicadas a la Ingeniería. México, D.F.:
Limusa Wiley. Capítulo 12. Sección 12.1 y 12.4.
• Triola, M. (2013). Estadística. 11va. Edición. Pearson Educación, México, D.F. Capítulo 12. Sección 12.1 y
12.2.

Se siembran lechugas usando diversos tratamientos,


¿cómo saber si un tratamiento da mejores resultados?
Unidad 2. Diseño y análisis de experimentos 84

Diseño, planificación, Manejo estadístico


organización y (ANOVA, supuestos y
ejecución del pruebas de
experimento comparación
múltiple)
Estadística Aplicada II 202301 85

Análisis de varianza de un factor

El análisis de varianza (ANVA o ANOVA) es un método de prueba de igualdad de tres o más medias
poblacionales, por medio del análisis de las varianzas muestrales. El análisis de varianza de un factor se utiliza
con datos clasificados con base en un tratamiento (o factor), que es una característica que nos permite
distinguir entre sí a las distintas poblaciones.
(Triola, 2013, p.629)
Supongamos que el experimentador cuenta con los resultados de k muestras aleatorias independientes, cada
una de tamaño n, de k diferentes poblaciones (esto es, datos relativos a k tratamientos, k grupos, k métodos
de producción, etc.) y le interesa probar la hipótesis de que las medias de esas k poblaciones son todas iguales.

Tratamiento Tratam.1 Tratam.2 ... Tratam.k Total


Muestra
1 y11 y21 ... yk1 y.1
2 y12 y22 ... yk2 y.2
3 y13 y23 ... yk3 y.3
. . . ... . .
. . . ... . .
. . . ... . .
ni y1n1 y2n2 ... y knk y.n
Total y1. y2. ... yk. y..
Donde.
ni k k ni k ni
yi. =  yij , y. j =  yij , y.. =  yi. =  y. j =  yij
j =1 i =1 i =1 j =1 i =1 j =1
Para probar la hipótesis de que las muestras se obtuvieron de k poblaciones con medias iguales, haremos
varias suposiciones. Con más precisión, supondremos estar trabajando con poblaciones normales que tienen
varianzas iguales.

Si  i denota la media de las i-ésima población y  2 indica la varianza común de las k poblaciones, podemos
expresar cada observación yij como  i más el valor de un componente aleatorio; es decir podemos escribir

𝑦𝑖𝑗 = 𝜇𝑖 + 𝜀𝑖𝑗 para i = 1, 2, . .., k ; j = 1, 2, ..., n𝑖


Para lograr uniformidad en las ecuaciones correspondientes a clases de diseño más complicados, se
acostumbra reemplazar  i por  +  i , donde  es la media de las  i y  i es el efecto del i-ésimo
k
tratamiento; de ahí que 
i =1
i = 0 . Con estos nuevos parámetros, podemos escribir la ecuación modelo para

el criterio de clasificación.

𝑦𝑖𝑗 = 𝜇 + 𝛼𝑖 + 𝜀𝑖𝑗 para i = 1, 2, . .., k ; j = 1, 2, ..., n


donde:
yij : La j- ésima observación en la i-ésima muestra
 : Parámetro de la media poblacional.
i : Efecto del i-ésimo tratamiento.
 ij : Error aleatorio asociado a la observación yij, donde  ij ~ N(0,  2 )
Unidad 2. Diseño y análisis de experimentos 86
Planteamiento de hipótesis

𝐻0 : 𝜇1 = 𝜇2 = ⋯ = 𝜇𝑘
𝐻1 : 𝐴𝑙 𝑚𝑒𝑛𝑜𝑠 𝑢𝑛𝑎 𝜇𝑖 𝑒𝑠 𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑡𝑒

No rechazar 𝐻0 ; implica que no hay diferencia en las medias poblacionales, es decir, que el factor en estudio
no afecta a la variable respuesta.

Rechazar 𝐻0 ; implica que hay diferencia en al menos una media poblacional, es decir, que el factor en estudio
sí afecta a la variable respuesta.

Supuestos del modelo diseño completamente al azar (Modelo DCA)


En el análisis de varianza del modelo simple o de un factor, se supone que las observaciones siguen una
distribución normal e independiente con la misma varianza para cada tratamiento o nivel de factor. Estos
supuestos deberán verificarse examinando los residuales.
(Montgomery, 2003, p.576)

Estadístico de prueba

𝐶𝑀(𝑇𝑟)
𝐹𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 =
𝐶𝑀𝐸

Para obtener el valor del estadístico de prueba, se debe elaborar la tabla del ANOVA.

Fuente de
Grados de libertad Suma de cuadrados Cuadrado medio Fcalculado Fcrítico
variación
k
y2i. y2.. 𝑆𝐶(𝑇𝑟)
Tratamientos 𝑘– 1 SC(Tr)= ∑ - 𝐶𝑀(𝑇𝑟) =
ni n. 𝑘−1
i=1

𝑆𝐶𝐸
Error 𝑛. – 𝑘 𝑆𝐶𝐸 = 𝑆𝐶𝑇 − 𝑆𝐶(𝑇𝑟) 𝐶𝑀𝐸 = 𝐶𝑀(𝑇𝑟)
𝑛−𝑘 𝐹= 𝐹(𝛼;𝑘−1;𝑛−𝑘)
𝐶𝑀𝐸
k n
y2..
Total 𝑛. – 1 SCT = ∑ ∑ y2ij -
n.
i=1 j=1

donde:
𝑘

𝑛. = ∑ 𝑛𝑖
𝑖=1

Región critica

Distribución F (Fisher)
Estadística Aplicada II 202301 87

𝐹(𝛼;𝑘−1;𝑛−𝑘)

Punto crítico

𝐹 (, grado de libertad Tratamiento, grado de libertad Error)

Regla de decisión

Criterio basado en valores críticos

• Se rechaza 𝐻0 ; si 𝐹𝑐𝑎𝑙 > 𝐹(𝛼;𝑔𝑙 𝑡𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜;𝑔𝑙 𝑒𝑟𝑟𝑜𝑟)


• No se rechaza 𝐻0 ; si 𝐹𝑐𝑎𝑙 ≤ 𝐹(𝛼;𝑔𝑙 𝑡𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜;𝑔𝑙 𝑒𝑟𝑟𝑜𝑟)

Criterio basado en el valor p

Este criterio se puede aplicar para cualquier tipo de hipótesis.

• Si el valor p ≤ ⍺; entonces, se rechaza 𝐻0 .


• Si el valor p > ⍺; entonces, no se rechaza 𝐻0 .
Unidad 2. Diseño y análisis de experimentos 88
Comparaciones múltiples
Los métodos de comparación múltiple son los procedimientos usados para comparar las medias de
tratamientos individuales en el análisis de varianza.
(Montgomery, 2003, p.581)

Prueba de Tukey HSD


Se usará esta prueba para evaluar si existen diferencias significativas entre las medias de cada par de
tratamientos.

𝐻0 𝜇𝑖 = 𝜇𝑖
𝐻1 𝜇𝑖 ≠ 𝜇𝑖

para todo 𝑖 ≠ 𝑗

𝐶𝑀𝐸
𝐻𝑆𝐷 = 𝑞𝛼 (𝑘; 𝑛 − 𝑘)√
𝑛𝑘

𝑛: = número de observaciones por tratamiento


𝑘: = número de tratamientos
𝑞: = multiplicador (Tabla de Tukey-Tabla A5)
𝐶𝑀𝐸: = cuadrado medio del error
𝑛𝑘 ≔ tamaño de muestra de los grupos, si no es un modelo balanceado se usa el promedio armónico.

Puntos porcentuales del estadístico rango estudentizado (5%)


𝒒.𝟎𝟓 (𝒑, 𝒇)

p
f 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
1 18,10 26,70 32,8 37,20 40,5 43,1 45,4 47,3 49,1 50,6 51,9 53,2 54,3 55,4 56,3
2 6,09 8,28 9,80 10,89 11,73 12,43 13,03 13,54 13,99 14,39 14,75 15,08 15,38 15,65 15,90
3 4,50 5,88 6,83 7,51 8,04 8,47 8,85 9,18 9,46 9,72 9,95 10,16 10,35 10,52 10,60
4 3,93 5,00 5,76 6,31 6,73 7,06 7,35 7,60 7,83 8,03 8,21 8,37 8,52 8,67 8,80
5 3,61 4,54 5,18 5,64 5,99 6,28 6,52 6,74 6,93 7,10 7,25 7,39 7,52 7,64 7,75
6 3,46 4,34 4,90 5,31 5,63 5,89 6,12 6,32 6,49 6,65 6,79 6,92 7,04 7,14 7,24
7 3,34 4,16 4,68 5,06 5,35 5,59 5,80 5,99 6,15 6,29 6,42 6,54 6,65 6,75 6,84
8 3,26 4,04 4,53 4,89 5,17 5,40 5,60 5,77 5,92 6,05 6,18 6,29 6,39 6,48 6,57
9 3,20 3,95 4,42 4,76 5,02 5,24 5,43 5,60 5,74 5,87 5,98 6,09 6,19 6,28 6,36
10 3,15 3,88 4,33 4,66 4,91 5,12 5,30 5,46 5,60 5,72 5,83 5,93 6,03 6,12 6,20
11 3,11 3,82 4,26 4,58 4,82 5,03 5,20 5,35 5,49 5,61 5,71 5,81 5,90 5,98 6,06
12 3,08 3,77 4,20 4,51 4,75 4,95 5,12 5,27 5,40 5,51 5,61 5,71 5,80 5,88 5,95
13 3,06 3,73 4,15 4,46 4,69 4,88 5,05 5,19 5,32 5,43 5,53 5,63 5,71 5,79 5,86
14 3,03 3,70 4,11 4,41 4,64 4,83 4,99 5,13 5,25 5,36 5,46 5,56 5,64 5,72 5,79
15 3,01 3,67 4,08 4,37 4,59 4,78 4,94 5,08 5,20 5,31 5,40 5,49 5,57 5,65 5,72

Cuando se realiza el análisis con la probabilidad

Si el valor p ≤ 𝛼; entonces, se rechaza 𝐻0 (Existen diferencias significativas)


Si el valor p > 𝛼; entonces, no se rechaza 𝐻0 (No existen diferencias significativas)
Estadística Aplicada II 202301 89
Cuando se realiza el análisis con intervalos

• Si 𝐼𝐶(𝜇𝑖 − 𝜇𝑗 ) = [𝐿í𝑚 𝑖𝑛𝑓𝑒𝑟; 𝐿í𝑚 𝑠𝑢𝑝𝑒𝑟] = [−; −]; entonces, 𝜇𝑖 − 𝜇𝑗 < 0; entonces, 𝜇𝑖 < 𝜇𝑗

Es decir, el límite inferior y el límite superior son valores negativos; entonces, 𝜇𝑖 < 𝜇𝑗

• Si 𝐼𝐶(𝜇𝑖 − 𝜇𝑗 ) = [𝐿í𝑚 𝑖𝑛𝑓𝑒𝑟; 𝐿í𝑚 𝑠𝑢𝑝𝑒𝑟] = [−; +]; entonces, 𝜇𝑖 − 𝜇𝑗 ≈ 0; entonces, 𝜇𝑖 = 𝜇𝑗

Es decir, el límite inferior es un valor negativo y límite superior es un valor positivo; entonces, 𝜇𝑖 = 𝜇𝑗

• Si 𝐼𝐶(𝜇𝑖 − 𝜇𝑗 ) = [𝐿í𝑚 𝑖𝑛𝑓𝑒𝑟; 𝐿í𝑚 𝑠𝑢𝑝𝑒𝑟] = [+; +]; entonces, 𝜇𝑖 − 𝜇𝑗 > 0; entonces, 𝜇𝑖 > 𝜇𝑗

Es decir, el límite inferior y el límite superior son valores positivos; entonces, 𝜇𝑖 > 𝜇𝑗
Unidad 2. Diseño y análisis de experimentos 90
Anova en Excel

En Excel, elija la opción Datos y luego Análisis de datos.

Aparecerá este menú.

Elija Análisis de varianza de un factor.


Estadística Aplicada II 202301 91

Anova en Minitab
En Minitab, elija la opción Estadísticas, luego ANOVA y Un solo factor…

Dependiendo del problema, elija la opción adecuada.

Elija Análisis de varianza de un solo factor: Comparaciones

Elija Análisis de varianza de un solo factor: Gráficas


Unidad 2. Diseño y análisis de experimentos 92
Ejemplo 16
Suponga que el director de capacitación de una compañía manufacturera desea comparar tres enfoques de
trabajo en equipo. Cada miembro de un grupo de 24 empleados nuevos se asigna al azar a uno de los tres
métodos. Una vez terminada la capacitación de los participantes, se evalúa el tiempo que tardan (en minutos)
en ensamblar el producto. Los resultados se resumen como sigue:

Método A Método B Método C


8,82 8,21 8,57
9,26 6,65 8,50
8,70 7,44 9,11
8,97 7,95 8,20
8,64 8,20 8,32
8,29 7,75 7,88
9,45 8,84 9,90
9,42 8,40 9,43

Analice los datos considerando un nivel de significación del 5%.

Solución
Antes de empezar tengamos en cuenta las interrogantes que dio origen a esta investigación:
¿El método de capacitación impacta en el tiempo de ensamblaje?
¿Cuál es el método de capacitación que mejora (mejora) el tiempo de ensamblaje? ( es decir el tiempo se
reduce)

El problema se identifica dos variables:


Variable1:
Variable dependiente (o respuesta o Y): Tiempo de ensamblaje, en minutos
Variable 2:
Variable independiente (factor o X): Método de capacitación
Niveles de X: Método A, Método B y Método C

Unidad experimental: un trabajador nuevo


Total de unidades experimentales (n): 24
Por otro lado, se cumple el principio de aleatorización del diseño experimental puro en vista que se detalla
que “El investigador asigna el método al azar a cada empleado nuevo”.

Las variables se relacionan mediante el siguiente modelo lineal:


𝑦𝑖𝑗 = 𝜇 + 𝛼𝑖 + 𝜀𝑖𝑗 para i = 1, 2, 3 k ; j = 1, 2, ...,8
donde:
yij : Al tiempo de ensamble del j- ésimo empleado que llevó la i-ésima capacitación
 : Parámetro de la media poblacional.
i : Efecto del i-ésimo método
 ij : Error aleatorio asociado a la observación yij, donde  ij ~ N(0,  2 )

Las hipótesis son:


𝐻0 : 𝜇1 = 𝜇2 = 𝜇3
𝐻1 : 𝐴𝑙 𝑚𝑒𝑛𝑜𝑠 𝑢𝑛 𝑝𝑟𝑜𝑚𝑒𝑑𝑖𝑜 𝑒𝑠 𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑡𝑒 𝑎𝑙 𝑟𝑒𝑠𝑡𝑜

El nivel de significación es:


𝛼 = 0,05
Estadística Aplicada II 202301 93

El estadístico de prueba es:

𝐶𝑀𝑇𝑟
𝐹𝑐 = ~𝐹(2,21) /𝐻0 𝑐𝑖𝑒𝑟𝑡𝑜
𝐶𝑀𝐸

Se determina desarrollando el análisis de varianza (ANOVA):

Fuente de
Grados de libertad Suma de cuadrados Cuadrado medio Fcalculado Fcrítico
variación
k
y2i. y2.. 𝑆𝐶(𝑇𝑟)
Tratamientos 𝑘– 1 SC(Tr)= ∑ - 𝐶𝑀(𝑇𝑟) =
ni n. 𝑘−1
i=1

𝑆𝐶𝐸
Error 𝑛. – 𝑘 𝑆𝐶𝐸 = 𝑆𝐶𝑇 − 𝑆𝐶(𝑇𝑟) 𝐶𝑀𝐸 = 𝐶𝑀(𝑇𝑟)
𝑛−𝑘 𝐹= 𝐹(𝛼;𝑘−1;𝑛−𝑘)
𝐶𝑀𝐸
k n
y2..
Total 𝑛. – 1 SCT = ∑ ∑ y2ij -
n.
i=1 j=1

Supuestos
Los errores constituyen una muestra aleatoria de una población normal
Las varianzas de los errores en cada tratamiento son iguales

El procesamiento de los datos con Minitab se muestra a continuación:

Análisis de Varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Factor 2 4.597 2.2984 6.40 0.007
Error 21 7.542 0.3592
Total 23 12.139

Por otro lado, el valor crítico se identifica en la tabla F obteniéndose:

𝛼 = 0,05

𝐹(2;21;0,05) = 3,47 Región de rechazo de 𝐻0

El valor del estadístico de prueba 𝐹𝑐 es:

2,2984
𝐹𝑐 = = 6,40
0,3592

Los criterios de rechazo y no rechazo de 𝐻0 son:


Unidad 2. Diseño y análisis de experimentos 94
Si 𝐹𝑐 ≤ 3,47; no se rechaza 𝐻0
Si 𝐹𝑐 > 3,47; se rechaza 𝐻0

Como 𝐹𝑐 = 6,40 > 3,47; entonces, se rechaza 𝐻0 .

𝛼 = 0,05

𝐹(2;21;0,05) = 3,47 6,40 Región de rechazo de 𝐻0

Con 5% de nivel de significación, al menos uno de los métodos tarda en promedio menos tiempo en ensamblar
el producto.

Análisis de los supuestos del modelo

Supuesto 1. Normalidad

𝐻0 : Los errores si provienen de una población normal


𝐻1 : Los errores no provienen de una población normal

El nivel de significancia es:

𝛼 = 0,05

De acuerdo al resultado de Minitab.

Criterio de rechazo y no rechazo


Si el valor p ≤ 0.05; entonces, se rechaza 𝐻0 ,
Si el valor p > 0.05; entonces, no se rechaza 𝐻0 .

Decisión
Como valor p = 0,947 > 0,05; entonces, no se rechaza 𝐻0 .
Estadística Aplicada II 202301 95
Conclusión
Con 5 % de nivel de significación, la evidencia muestral es insuficiente para descartar que los errores provienen
de una población normal. Por lo tanto, se asume que se cumple el supuesto.

Supuesto 2. Homogeneidad de varianzas

𝐻0 : 𝜎12 = 𝜎22 = 𝜎32


𝐻1 : Al menos una varianza de los errores es diferente al resto

El nivel de significación es:

𝛼 = 0,05

Pruebas
Método Estadística de prueba Valor p
Bartlett 1.89 0.389

De acuerdo al resultado de Minitab.

𝐹𝑐𝑎𝑙 = 1.89 y el 𝑣𝑎𝑙𝑜𝑟 𝑝 = 0.389

Criterio de rechazo y no rechazo


Si el valor p ≤ 0,05; entonces, se rechaza 𝐻0 ,
Si el valor p > 0,05; entonces, no se rechaza 𝐻0 .

Decisión
Como valor p = 0,389 > 0,05; entonces, no se rechaza 𝐻0 .

Conclusión
Con 5% de nivel de significación, la evidencia muestral es insuficiente para descartar que las varianzas de los
errores en cada población son las mismas. Por lo tanto, se asume que se cumple el supuesto.

Con 5% de nivel de significación, determine si es posible, ¿cuál es el método más efectivo?

Agrupar información utilizando el método de Tukey y una confianza de 95%


Factor N Media Agrupación
Método A 8 8.944 A
Método C 8 8.739 A
Método B 8 7.930 B
Las medias que no comparten una letra son significativamente diferentes.

El método más efectivo es el método B, porque demanda menos tiempo medio (7.930) y la agrupación es solo
la B.
Unidad 2. Diseño y análisis de experimentos 96

Ejercicios

36. En la siguiente tabla se presentan las mediciones de desaceleración, en


fuerza de gravedad g, de tres tamaños de automóviles.

Los valores más grandes indican mayores cantidades de desaceleración


ante un choque frontal, las cuales suelen provocar lesiones graves en los
conductores.

Con dicha información calcule la tabla de ANOVA.

Automóviles compactos 44 43 44 54 38 43 42 45 44 50
Automóviles medianos 41 49 43 41 47 42 37 43 44 34
Automóviles grandes 32 37 38 45 37 33 38 45 43 42

Fuente de Grados de libertad Suma de Cuadrado medio Fcalc


variación (gl) Cuadrados (𝑆𝐶) (𝑆𝐶/𝑔𝑙) =CM(Tr)/CME

Tratamientos

Error

Total

𝑌. . = 1258

∑ ∑ 𝑌𝑖𝑗2 = 53452

Cálculo del estadístico de prueba


Asumiendo que se cumplen los supuestos del experimento y utilizando un nivel de significación del 1%, se
quiere probar si el tamaño del automóvil tiene un impacto en las mediciones de desaceleración (en g).

𝛼 = 0,01
Estadística Aplicada II 202301 97
37. Las cifras siguientes representan el número de errores cometidos, en cinco días consecutivos de trabajo,
por cuatro técnicos de un laboratorio fotográfico:
Día Técnico I Técnico II Técnico III Técnico IV
1 6 14 10 9
2 14 9 12 12
3 10 12 7 8
4 8 10 15 10
5 11 14 11 11
Total 49 59 55 50
Prueba con un nivel de significancia  = 0.05 , si alguno de los técnicos comete menos errores en
promedio que el resto.

38. El ingeniero de desarrollo de productos desea


investigar si el porcentaje de algodón que se incorpora
en la producción de cierta fibra sintética influye en la
resistencia a la tensión (lb/pulgada2) de las prendas
que se confeccionan con dicha fibra.

Para tal fin, decide evaluar cinco diferentes niveles de peso porcentual de algodón, estos son: 15%, 20%,
25%, 30% y 35%; donde medirá la resistencia a la tensión en los ejemplares de la fibra sintética. Los datos
de 25 prendas se muestran a continuación:

Peso porcentual de algodón


15% 20% 25% 30% 35%
7 12 20 19 7
7 13 18 25 10
15 15 18 22 11
11 14 19 19 9
9 14 19 23 11

Asumiendo que se cumplen los supuestos del experimento y utilizando un nivel de significación del 5%,
analice los resultados si el peso porcentual de algodón impacta en la resistencia de la fibra. Cabe resaltar
que una prenda con mayor resistencia a la tensión es un indicador de mejor calidad.

Según el análisis realizado, ¿Qué peso porcentual de algodón sugiere utilizar?

a. Completar los siguientes elementos del experimento.

Factor en estudio
Tratamientos
Variable respuesta
Unidad experimental
Hipótesis alternativa
Unidad 2. Diseño y análisis de experimentos 98
b. Complete la tabla de análisis de varianza.

Fuente de variación Grados de libertad Suma de cuadrados Cuadrado medio Fcalculado

Tratamientos 578.24

Error 20 4.56

Total

c. Complete la siguiente la siguiente gráfica.

𝛼 = 0,05

Indique que el valor del estadístico de prueba Fcal y el valor crítico.

Recuerde [Link] (probabilidad, grados de libertad 1, grados de libertad 2)

d. Indique la decisión.
e. Indique la conclusión
f. ¿Qué peso porcentual de algodón sugiere utilizar?
Hallando el peso porcentual sugerido usando valor p (p-value).
Hallando el peso porcentual sugerido usando intervalos de confianza.

El siguiente reporte proviene del programa Minitab.

Comparaciones por parejas de Tukey: Nivel Peso%

Agrupar información utilizando el método de Tukey y una confianza de 95%


Nivel
N Media Agrupación
Peso%
30.00% 5 21.6 A
25.00% 5 18.8 A
20.00% 5 13.6 B
15.00% 5 9.8 B
35.00% 5 9.6 B
Las medias que no comparten una letra son significativamente diferentes.
Estadística Aplicada II 202301 99

Pruebas simultáneas de Tukey para diferencias de las medias


Diferencia de Nivel Diferencia EE de IC simultáneo Valor p
Peso% niveles de medias diferencia de 95% Valor T ajustado
20.00% - 15.00% 3.80 1.35 (-0.24, 7.84) 2.81 0.072
25.00% - 15.00% 9.00 1.35 (4.96, 13.04) 6.66 0.000
30.00% - 15.00% 11.80 1.35 (7.76, 15.84) 8.74 0.000
35.00% - 15.00% -0.20 1.35 (-4.24, 3.84) -0.15 1.000
25.00% - 20.00% 5.20 1.35 (1.16, 9.24) 3.85 0.008
30.00% - 20.00% 8.00 1.35 (3.96, 12.04) 5.92 0.000
35.00% - 20.00% -4.00 1.35 (-8.04, 0.04) -2.96 0.053
30.00% - 25.00% 2.80 1.35 (-1.24, 6.84) 2.07 0.270
35.00% - 25.00% -9.20 1.35 (-13.24, -5.16) -6.81 0.000
35.00% - 30.00% -12.00 1.35 (-16.04, -7.96) -8.89 0.000
Nivel de confianza individual = 99.28%
Unidad 2. Diseño y análisis de experimentos 100
Análisis de varianza de dos factores

Bibliografía
• Montgomery, D. y Runger, G. (2005) Probabilidad y estadística aplicadas a la ingeniería. México, D.F.:
Limusa Wiley. Capítulo 13. Sección 13.1 y 13.4
• Triola, M. (2013). Estadística. 11va. Edición. Pearson Educación, México, D.F. Capítulo 12. Sección 12.3 y
12.4.

El análisis de varianza (ANOVA) de dos factores es una técnica estadística utilizada para analizar la influencia
de dos factores en una variable de interés. Los dos factores pueden ser cualquier cosa que se desee investigar,
como tratamientos diferentes, temperaturas, grupo de edad, ciudad de residencia, etc.

El ANOVA de dos factores permite examinar el efecto de cada factor individualmente, así como el efecto de la
interacción entre los dos factores. La interacción entre los factores se refiere a si el efecto de un factor varía
según el nivel del otro factor.

Hipótesis inicial en un diseño factorial

𝐻0 ≔ No existe interacción entre los niveles de los factores sobre la variable respuesta
𝐻1 ≔ Existe interacción entre los niveles de los factores sobre la variable respuesta

Analizar los efectos de cada


¿Se rechaza H0? No
factor por separado

Si

Prueba de comparación por


pares para la interacción

Para obtener el valor del estadístico de prueba, se debe elaborar la tabla del ANOVA.

Fuente de Grados de Suma de Cuadrado


Fcal
variación libertad cuadrados medio

𝐶𝑀(𝐴)
𝐴 𝑎−1 𝑆𝐶(𝐴) 𝐶𝑀(𝐴)
𝐶𝑀𝐸
𝐶𝑀(𝐵)
𝐵 𝑏−1 𝑆𝐶(𝐵) 𝐶𝑀(𝐵)
𝐶𝑀𝐸
𝐶𝑀(𝐴𝐵)
𝐴𝐵 (𝑎 − 1)(𝑏 − 1) 𝑆𝐶(𝐴𝐵) 𝐶𝑀(𝐴𝐵)
𝐶𝑀𝐸
Error 𝑎𝑏(𝑛– 1) 𝑆𝐶𝐸 𝐶𝑀𝐸

Total 𝑎𝑏𝑛 − 1 𝑆𝐶𝑇


Estadística Aplicada II 202301 101

Fuente de Grados de Cuadrado


Suma de cuadrados Fcalculado Fcrítico
variación libertad medio
𝑎
1 2 𝑦…2 𝑆𝐶(𝐴) 𝐶𝑀(𝐴)
Factor A 𝑎– 1 ∑ 𝑦𝑖.. − 𝐹𝛼;𝑎−1;𝑎𝑏(𝑛−1)
𝑏𝑛 𝑎𝑏𝑛 𝑎−1 𝐶𝑀𝐸
𝑖=1

𝑏
1 2 𝑦…2 𝑆𝐶(𝐵) 𝐶𝑀(𝐵)
Factor B 𝑏– 1 ∑ 𝑦.𝑗. − 𝐹𝛼;𝑏−1;𝑎𝑏(𝑛−1)
𝑎𝑛 𝑎𝑏𝑛 𝑏−1 𝐶𝑀𝐸
𝑗=1

𝑎 𝑏
1 2 𝑦…2
Interacción ∑ ∑ 𝑦𝑖𝑗. − 𝑆𝐶(𝐴𝐵) 𝐶𝑀(𝐴𝐵)
(𝑎– 1)(𝑏– 1) 𝑛 𝑎𝑏𝑛 𝐹𝛼;(𝑎−1)(𝑏−1);𝑎𝑏(𝑛−1)
AxB 𝑖=1 𝑗=1 (𝑎 − 1)(𝑏 − 1) 𝐶𝑀𝐸
𝑆𝐶(𝑆𝑢𝑏𝑡𝑜𝑡𝑎𝑙𝑒𝑠) – 𝑆𝐶𝐴 − 𝑆𝐶𝐵

𝑆𝐶𝐸
Error 𝑎𝑏(𝑛– 1) 𝑆𝐶𝑇 – 𝑆𝐶(𝐴) – 𝑆𝐶(𝐵) – 𝑆𝐶(𝐴𝐵)
𝑎𝑏(𝑛 − 1)
𝑎 𝑏 𝑛
2 𝑦…2
Total 𝑎𝑏𝑛– 1 ∑ ∑ ∑ 𝑦𝑖𝑗𝑘 −
𝑎𝑏𝑛
𝑖=1 𝑗=1 𝑘=1
Unidad 2. Diseño y análisis de experimentos 102

Ejercicios

39. La pregunta de investigación es: ¿Qué factores influyen en la mayor conservación del queso?

a. A partir de revisar el siguiente video sobre la conservación de queso: Trucos para conservar quesos

b. Discuta con sus compañeros e indique al menos dos factores que puede incluirse en la hipótesis de
investigación.

c. Complete los elementos del diseño experimental.

Factor A

Niveles del factor A

Factor B

Niveles

Tratamientos

Número de tratamientos

Variable respuesta

Unidad experimental

Modelo matemático

Hipótesis estadística

H1:
Estadística Aplicada II 202301 103
40. Un ingeniero sospecha que el tipo de pintura tapa poros y el método de
aplicación afectan el tiempo de duración de la pintura de las piezas de las
aeronaves. Él está interesado en determinar si algún tipo de pintura con algún
nivel del método de aplicación influyen en el tiempo de duración de la pintura
de las piezas de las aeronaves. Idea dos experimentos, obteniendo las
siguientes gráficas.

¿En cuál de las gráficas se logra apreciar el interés del ingeniero?

Se puede presentar cualesquiera de las dos situaciones siguientes:

Sin interacción Con interacción

Para cualesquiera de los métodos de aplicación Para el método de aplicación T1 y T2 la pintura


que se use, el tipo de pintura P1 sería la que P2, obtiene la mayor duración; mientras para T3
presenta mayor tiempo de duración. la pintura P1 obtiene la mayor duración.

Hipótesis inicial en un diseño factorial

𝐻0 : No existe interacción entre los niveles de los factores sobre la variable respuesta
𝐻1 : Existe interacción entre los niveles de los factores sobre la variable respuesta

Analizar los efectos de cada


¿Se rechaza H0? No
factor por separado

Si

Prueba de comparación por


pares para la interacción
Unidad 2. Diseño y análisis de experimentos 104
Ejemplo 17
Se lleva a cabo un experimento para estudiar el efecto de la temperatura y tipo de horno sobre la vida de un
componente. En el experimento se utiliza cuatro tipos de horno y tres niveles de temperatura. Se asignaron
de forma aleatoria 36 de estos componentes, tres a cada combinación de tratamiento y se registró los
siguientes resultados.

Temperatura (grados) H1 H2 H3 H4
227 214 225 260
500 221 259 236 229
225 265 230 258
187 181 232 246
550 208 179 198 273
198 195 200 285
174 198 178 206
600 202 194 213 219
201 195 212 210

Analice los datos a un nivel de 5% de significación.

Solución
El modelo aditivo es:

𝑌𝑖𝑗𝑘 = 𝜇 + 𝜏𝑖 + 𝛽𝑗 + (𝜏𝛽)𝑖𝑗 + 𝜀𝑖𝑗𝑘

Analizando los supuestos del modelo

Supuesto 1: Normalidad de errores

𝐻0 : Los errores sí provienen de una población normal


𝐻1 : Los errores no provienen de una población normal

𝛼 = 0,05
Estadística Aplicada II 202301 105

Del resultado de Minitab, se tiene que:

Prueba Anderson Darling => AD= 0.448

valor p = 0.264

Criterio de rechazo y no rechazo


Si el valor p ≤ 𝛼; entonces, se rechaza 𝐻0
Si el valor p > 𝛼; entonces, no se rechaza 𝐻0

Decisión
Como el valor p = 0.264 es mayor al nivel de significancia 𝛼 = 0,05; entonces, no se rechaza 𝐻0

Conclusión
Con 5 % de nivel de significación, la evidencia muestral es insuficiente para descartar que los errores provienen
de una población normal. Por lo tanto, se asume que se cumple el supuesto.

Supuesto 2: Homogeneidad de varianzas

𝐻0 : Los errores tienen la misma varianza en cada una de las poblaciones (es sinónimo “tratamientos”)
𝐻1 : Al menos una varianza es diferente

𝛼 = 0,05
Unidad 2. Diseño y análisis de experimentos 106
Pruebas
Estadística
Método de prueba Valor p
Bartlett 16.22 0.133

Del resultado de Minitab, se tiene que:

Prueba de Barlett = 16.22,

Valor p = 0.133

Criterio de rechazo y no rechazo


Si el valor p ≤ 𝛼; entonces, se rechaza 𝐻0
Si el valor p > 𝛼; entonces, no se rechaza 𝐻0

Decisión
Como el valor p = 0.133 es mayor al nivel de significancia 𝛼 = 0,05; entonces, no se rechaza 𝐻0

Conclusión
Con 5 % de nivel de significación, la evidencia muestral es insuficiente para descartar que las varianzas de los
errores en cada población son las mismas. Por lo tanto, se asume que se cumple el supuesto.

Analizando la interacción

𝐻0 : La interacción de los niveles de temperatura en cada tipo de horno no impacta en la vida útil
𝐻1 : La interacción de los niveles de temperatura en cada tipo de horno sí impacta en la vida útil

𝛼 = 0,05

𝐶𝑀𝐴𝐵
𝐹𝑐𝑎𝑙 = ~𝐹(6,24) / 𝐻0 𝑐𝑖𝑒𝑟𝑡𝑜
𝐶𝑀𝐸

Análisis de Varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Temperatura 2 8431 4215.3 18.29 0.000
Horno 3 8050 2683.3 11.65 0.000
Temperatura*Horno 6 5984 997.4 4.33 0.004
Error 24 5530 230.4
Total 35 27995

De la tabla de análisis de varianza tenemos que:

𝐹𝑐𝑎𝑙 = 4.33

𝑣𝑎𝑙𝑜𝑟 𝑝 = 0.004

Criterio de rechazo y no rechazo


Si el valor p ≤ 𝛼; entonces, se rechaza 𝐻0
Si el valor p > 𝛼; entonces, no se rechaza 𝐻0
Estadística Aplicada II 202301 107
Decisión
Como el valor p = 0.004 es menor al nivel de significancia 𝛼 = 0,05; entonces, se rechaza 𝐻0

Conclusión
Con 5 % de nivel de significación, la evidencia muestral es suficiente para afirmar que La interacción de los
niveles de temperatura en cada tipo de horno sí impacta en la vida útil de dicho componente.

Comparando los tratamientos en pares

Agrupar información utilizando el método de Tukey y una confianza de 95%


Temperatura*Horno N Media Agrupación
550 H4 3 268.000 A
500 H4 3 249.000 A B
500 H2 3 246.000 A B
500 H3 3 230.333 A B C
500 H1 3 224.333 A B C D
600 H4 3 211.667 B C D
550 H3 3 210.000 B C D
600 H3 3 201.000 C D
550 H1 3 197.667 C D
600 H2 3 195.667 C D
600 H1 3 192.333 C D
550 H2 3 185.000 D

Las medias que no comparten una letra son significativamente diferentes.

La mejor combinación es el tratamiento temperatura 550 grados y horno 4, en cuyo caso, la vida media estos
componentes es superior (268.000) al resto de combinaciones y está sola en la agrupación A.
Unidad 2. Diseño y análisis de experimentos 108

Ejercicios

41. Tecno Gas S.A. es una empresa que fabrica y comercializa termas a gas para uso
doméstico e industrial. La terma a gas es un artefacto calentador de agua que
funciona de forma continua mediante la combustión de gas.

Su planta de producción está ubicada en la ciudad del Callao y sus productos se


comercializan a través de sus locales de venta y centros comerciales ubicados en
Lima y provincias. Constantemente está mejorando su tecnología para producir
termas a gas a un precio competitivo y de primerísima calidad, reduciendo al mínimo
las fallas y reclamos de los clientes.

El jefe del departamento de ingeniería está interesado en determinar si hay influencia del turno de
producción y la capacidad de las termas en el porcentaje de termas con defecto.

Para esto diseñó un experimento factorial con tres niveles del turno de producción y tres niveles de la
capacidad de las termas, obteniendo la siguiente información:

Capacidad
Turno de producción
10 litros 14 litros 18 litros
3.8 5.5 4.5
Mañana 4.0 5.0 4.0
4.2 4.8 4.2
4.5 5.0 3.8
Tarde 4.2 5.3 4.0
4.8 5.8 3.5
5.0 6.0 3.8
Noche 4.5 5.8 4.0
5.2 5.5 4.1

¿Qué capacidad de terma y/o turno de producción debe elegir jefe de departamento de ingeniería, para
obtener menor porcentaje de termas con defectos? Realice el análisis con un nivel de significación de 5%
y nivel de confianza 95%.

a. Complete los siguientes elementos del experimento.

Variable respuesta Porcentaje de termas con defectos

Factor A Turno de producción

Niveles del Factor A


Factor B Capacidad de la terma

Niveles del Factor B

Tratamientos

Unidad experimental
Estadística Aplicada II 202301 109

Número de réplicas por tratamiento

Modelo 𝑌𝑖𝑗𝑘 = 𝜇 + 𝜏𝑖 + 𝛽𝑗 + (𝜏𝛽)𝑖𝑗 + 𝜀𝑖𝑗𝑘

Hipótesis alterna

b. Prueba de supuestos.

Prueba Anderson Darling Prueba de Barlett


AD = 0,327 EP = 2,34
Valor – p = 0,505 Valor – p = 0,969

c. Complete la siguiente tabla de análisis de varianza.

Fuente de Grados de Suma de Cuadrado


Fcalculado
variación libertad cuadrados medio

Turno 2 0,9267

Capacidad 9,4289

Turno x capacidad 4

Error 1,5333

Total 26 13,1867

d. Complete la siguiente la siguiente gráfica e indique la decisión.

𝛼 = 0,05

La decisión es …

El valor del estadístico de prueba Fcal es …

El valor crítico Fcrítico es …

Conclusión
¿Qué capacidad de terma o turno de producción debe elegir jefe de departamento de ingeniería, para
obtener menor porcentaje de termas con defectos?
Unidad 2. Diseño y análisis de experimentos 110

El siguiente reporte proviene del programa Minitab:

Agrupar información utilizando el método de Tukey y una confianza de 95%

Turno*Capacidad N Media Agrupación


Noche 14 L 3 5.76667 A
Tarde 14 L 3 5.36667 A B
Mañana 14 L 3 5.10000 A B C
Noche 10 L 3 4.90000 B C D
Tarde 10 L 3 4.50000 C D E
Mañana 18 L 3 4.23333 D E
Mañana 10 L 3 4.00000 E
Noche 18 L 3 3.96667 E
Tarde 18 L 3 3.76667 E
Las medias que no comparten una letra son significativamente diferentes.

Si hubiera salido el siguiente reporte como resultado del caso anterior: ¿Qué capacidad de terma o
turno de producción debe elegir jefe de departamento de ingeniería, para obtener menor porcentaje
de termas con defectos?

Agrupar información utilizando el método de Tukey y una confianza de 95%

Turno*Capacidad N Media Agrupación


Noche 14 L 3 5.76667 A
Tarde 14 L 3 5.36667 A B
Mañana 14 L 3 5.10000 A B C
Noche 10 L 3 4.90000 B C D
Tarde 10 L 3 4.50000 C D
Mañana 18 L 3 4.23333 D
Mañana 10 L 3 4.00000 D
Noche 18 L 3 3.76667 E
Tarde 18 L 3 3.56667 E
Las medias que no comparten una letra son significativamente diferentes.

42. Al pesar un reactivo en un laboratorio aparecen diferencias debidas a las balanzas usadas y a la habilidad
del personal que realizan las mediciones. Se elige tres balanzas y tres técnicos de laboratorio, los
resultados de las mediciones, en gramos, se muestran a continuación.

Personal
Balanza 1 2 3
1.81 2.04 2.03
1 1.91 1.97 1.98
1.91 1.99 1.94
1.94 2.08 2.03
2 1.90 2.14 1.98
1.99 2.08 2.00
1.83 1.98 1.91
3 1.92 2.05 2.06
1.96 2.03 2.04
Estadística Aplicada II 202301 111

a. Analice los supuestos del modelo. Use 𝛼 = 0,05.


b. ¿Existe interacción entre los factores? Use 𝛼 = 0,05.
c. ¿Puede asegurarse al nivel de significación 𝛼 = 0,05 que hay habilidad homogénea de todos los
técnicos del laboratorio?
d. Encuentre el(los) mejor(es) procedimiento(s).
Unidad 3. Modelos de pronósticos 112

Unidad 3. Modelos de pronósticos

Logro de la unidad
Al finalizar la unidad 3, el estudiante pronostica eventos a partir de modelos estadísticos que relacionan dos o
más variables para responder analíticamente a un problema en contexto real.

Temario
• Regresión simple
• Regresión lineal múltiple
• Medidas de bondad de ajuste
• Validación del modelo y supuestos
• Intervalo de confianza para la media y pronóstico de un valor individual
• Serie de tiempo. Conceptos básicos
• Medición del error
• Suavización exponencial simple
• Método de descomposición - Pronósticos.

Bibliografía
Estadística Aplicada II 202301 113
Unidad 3. Modelos de pronósticos 114
Análisis de regresión lineal simple

Bibliografía
• Mendenhall W., Beaver R. y Beaver B. (2015). Introducción a la Probabilidad y Estadística. 14va Edición.
Cengage Learning Editores, México D. F. Capítulo 12.
• Montgomery, D. y Runger G. (2005). Probabilidad y Estadística aplicada a la Ingeniería. México D. F.:
Limusa Wiley. Capítulo 10.
• Jay L. Devore (2008). Probabilidad y Estadística para Ingeniería y Ciencias. México, D.F.: Cengage Learning.
Capítulo 12.

¿Podemos estimar el valor de una variable a partir de otra variable?


Estadística Aplicada II 202301 115

El análisis de regresión lineal comprende es estudio de los datos muestrales para saber si dos o
más variables están relacionadas entre sí en una población.

El análisis de regresión lineal da como resultado una ecuación matemática que describe cierta
relación determinada. La ecuación puede usarse para estimar o predecir los valores de una
variable cuando se conocen o se suponen conocidos los valores de otra variable.

Ejemplo
▪ ¿Cuál será el gasto que incurrirá una familia cuyo ingreso familiar mensual es 4000 soles?
▪ ¿Cuál será el monto de ventas de una empresa si invierte en publicidad 10000 dólares?

Usualmente tales predicciones requieren que se encuentre una fórmula que relacione tales
variables.

Diagrama de dispersión
El primer paso en el análisis de regresión es construir una gráfica de los datos muestrales en un plano
bidimensional. Esta gráfica se denomina diagrama de dispersión y permite observar la existencia de patrones
diferentes y valores atípicos, que son los puntos que se alejan mucho de los demás. (Triola, 2013).

Sobre la relación entre las variables, se puede usar el diagrama de dispersión o el coeficiente de correlación
para identificar la relación entre dos variables dependiente (𝑌) e independiente (𝑋). Esta tendencia puede ser
lineal o no lineal. En el primer caso se estimará una recta y en el segundo caso una curva.
Unidad 3. Modelos de pronósticos 116

El método de los mínimos cuadrados


El método más empleado para ajustar una línea recta a un conjunto de puntos es conocido mínimos
cuadrados, cuya recta resultante tiene dos características importantes:
▪ La suma de las desviaciones verticales de los puntos con relación a la recta es cero; y
▪ La suma de los cuadrados de las desviaciones es mínima (es decir, ninguna otra recta daría una menor
suma de cuadrados de tales desviaciones)

Simbólicamente el valor que se minimiza es:


𝑛

∑(𝑦𝑖 − 𝑦̂𝑖 )2
𝑖=1

Los valores de  0 y 1 que minimizan la suma de los cuadrados de las desviaciones, son las soluciones de las
llamadas ecuaciones normales de la recta de regresión:

𝑛 𝑛

∑ 𝑦𝑖 = 𝑛𝛽0 + 𝛽1 (∑ 𝑥𝑖 )
𝑖=1 𝑖=1
𝑛 𝑛 𝑛

∑ 𝑥𝑖 𝑦𝑖 = 𝛽0 (∑ 𝑥𝑖 ) + 𝛽1 (∑ 𝑥𝑖2 )
𝑖=1 𝑖=1 𝑖=1

Resolviendo las ecuaciones simultáneas para  0 y 1 tenemos:

𝑛(∑𝑛𝑖=1 𝑥𝑖 𝑦𝑖 ) − (∑𝑛𝑖=1 𝑥𝑖 )(∑𝑛𝑖=1 𝑦𝑖 )


𝛽̂1 = 2 𝑦 𝛽̂0 = 𝑦̄ − 𝛽̂1 𝑥̄
𝑛(∑𝑛𝑖=1 𝑥𝑖2 ) − (∑𝑛𝑖=1 𝑥𝑖 )
La recta estimada
La línea recta tiene dos importantes componentes:
• La pendiente de la recta y
• La ordenada de la recta (el valor de y) en determinado punto (cuando x = 0)
La ecuación lineal es la siguiente:

Punto de corte Pendiente


ŷi = ˆ 0 + ˆ 1x i

Ejemplo.
Estime la ecuación de la recta que relaciona a las variables X e Y.
Estadística Aplicada II 202301 117

nº 𝑥 𝒚 𝑥𝑦 𝑥2 𝑦2
1 1.0 8.1 8.10 1.00 65.61
2 1.1 7.8 8.58 1.21 60.84
3 1.2 8.5 10.20 1.44 72.25
4 1.3 8.2 10.66 1.69 67.24
5 1.4 9.5 13.30 1.96 90.25
6 1.5 8.9 13.35 2.25 79.21
7 1.6 9.0 14.40 2.56 81.00
8 1.7 10.2 17.34 2.89 104.04
9 1.8 9.3 16.74 3.24 86.49
10 1.9 9.9 18.81 3.61 98.01
11 2.0 10.5 21.00 4.00 110.25
Suma 16.5 99.9 152.48 25.85 915.19

11(152.48) − (16.5)(99.9)
𝛽̂1 = = 2.391
11(25.85) − (16.5)2
99.9 16.5
𝛽̂0 = − (2.391) = 5.495
11 11
Finalmente, la ecuación estimada es 𝑦̂ = 5.495 + 2.391𝑥

Cambio marginal
La pendiente 𝛽̂1 en la ecuación de regresión representa el cambio marginal que ocurre en Y cuando X cambia
una unidad

Descomposición de la varianza total


Del gráfico se observa que la distancia (𝑦𝑖 − 𝑦̄ ) se puede descomponer de la siguiente manera:

Y ŷ i = ˆ 0 + ˆ 1 x i

(xi, yi)
yi
y i − ŷ i
yi − y
ŷ i − y
y

x xi X

(𝑦𝑖 − 𝑦̄ ) = (𝑦̂𝑖 − 𝑦̄ ) + (𝑦𝑖 − 𝑦̂𝑖 )

Elevando al cuadrado ambos miembros y aplicando sumatorias se tiene:


𝑛 𝑛

∑(𝑦𝑖 − 𝑦̄ ) = ∑[(𝑦̂𝑖 − 𝑦̄ ) + (𝑦𝑖 − 𝑦̂𝑖 )]2 =


2

𝑖=1 𝑖=1
Unidad 3. Modelos de pronósticos 118
𝑛 𝑛 𝑛

= ∑(𝑦̂𝑖 − 𝑦̄ )2 + ∑(𝑦𝑖 − 𝑦̂𝑖 )2 + 2 ∑(𝑦̂𝑖 − 𝑦̄ ) (𝑦𝑖 − 𝑦̂)


𝑖=1 𝑖=1 𝑖=1

Operando algebraicamente se obtiene la siguiente relación:


𝑛 𝑛 𝑛

∑(𝑦𝑖 − 𝑦̄ )2 = ∑(𝑦̂𝑖 − 𝑦̄ )2 + ∑(𝑦𝑖 − 𝑦̂𝑖 )2


𝑖=1 𝑖=1 𝑖=1
⇑ = ⇑ + ⇑
𝑆𝑆𝑇 = 𝑆𝑆𝑅 + 𝑆𝑆𝐸

Sumas de Cuadrados
𝑛 𝑛
(∑𝑛𝑖=1 𝑦𝑖 )2
𝑆𝑆𝑇 = ∑(𝑦𝑖 − 𝑦̄ ) = 2
∑ 𝑦𝑖2 −
𝑛
𝑖=1 𝑖=1
𝑛 𝑛 𝑛
(∑𝑛𝑖=1 𝑥𝑖 )2
𝑆𝑆𝑅 = ∑(𝑦̂𝑖 − 𝑦̄ ) = 𝛽̂12 ∑(𝑥𝑖 − 𝑥̄ )2 = 𝛽̂12 (∑ 𝑥𝑖2 −
2
)
𝑛
𝑖=1 𝑖=1 𝑖=1
𝑛

𝑆𝑆𝐸 = ∑(𝑦𝑖 − 𝑦̂𝑖 )2 = 𝑆𝑆𝑇 − 𝑆𝑆𝑅


𝑖=1

Tabla de análisis de varianza (ANOVA) para la regresión

El análisis de varianza en la regresión lineal simple:

Fuente de variación Grados de libertad Suma de cuadrados Cuadrado medio 𝑭𝒄𝒂𝒍


𝑆𝐶𝑅
Regresión 1 𝑆𝐶𝑅 𝐶𝑀𝑅 =
1
𝑆𝐶𝐸 𝐶𝑀𝑅
Error 𝑛−2 𝑆𝐶𝐸 𝐶𝑀𝐸 =
𝑛−2 𝐶𝑀𝐸
Total 𝑛−1 𝑆𝐶𝑇

Coeficiente de determinación
El coeficiente de determinación mide la proporción o el porcentaje de la variación total en 𝑌 explicada por el
modelo de regresión, su notación es 𝑅 2.
𝑆𝐶𝑅
𝑅2 =
𝑆𝐶𝑇

Error estándar
El error estándar mide la variabilidad o dispersión de los valores muestrales alrededor de la recta de regresión,
su notación es 𝑆 o 𝑆𝑒.
Estadística Aplicada II 202301 119

𝑆𝐶𝐸
𝑆=√ = √𝐶𝑀𝐸
𝑛−2

Tener en cuenta:

• El coeficiente de determinación 𝑅 2 mide la proporción o el porcentaje de la variación total en 𝑌 explicada


por el modelo de regresión.
• El coeficiente de no determinación (1 − 𝑅 2 ) mide la proporción o el porcentaje de la variación total en 𝑌
no explicada por el modelo de regresión.
• El error estándar 𝑆 mide la variabilidad o dispersión de los valores muestrales (𝑦𝑖 ) alrededor de la recta
de regresión (𝑦̂𝑖 ), en las mismas unidades que la variable.

Validación del modelo


Para verificar la validez de los modelos se realizará la prueba conjunta o su equivalente prueba individual para
la pendiente. Las hipótesis son:
Prueba conjunta Prueba individual
(Se utiliza la tabla ANOVA) (Se utiliza la tabla de Coeficiente)
Hipótesis H0: β1 = 0 H0: β1 = 0
H1: β1 ≠ 0 H1: β1 ≠ 0
Estadístico de 𝛽̂1 − 𝛽1 𝛽̂1 − 𝛽1
𝐶𝑀𝑅𝑒𝑔 𝑡𝑐𝑎𝑙 = = ~𝑡(𝑛−2)
prueba 𝐹𝑐𝑎𝑙 = ~𝐹(𝛼,1,𝑛−2) 𝑠 𝑠𝑏1
𝐶𝑀𝐸
√𝑆𝑥𝑥
Minitab
¿dónde lo ubico? Tabla de ANOVA Tabla de coeficientes

Regiones

𝛼 𝛼

2 2

Criterios de • Si valor p ≤ 0.01 → Se rechaza 𝐻0 • Si valor p ≤ 0.01 → Se rechaza 𝐻0


rechazo y no • Si valor p > 0.01 → No se rechaza 𝐻0 • Si valor p > 0.01 → No se rechaza 𝐻0
rechazo 𝐻0

Pronósticos
Los pronósticos para la respuesta media y para un valor individual se calculan utilizando las siguientes
fórmulas:

Intervalo de confianza para el valor medio

1 (𝑥0 − 𝑥̅ )2
𝑦̂0 ∓ 𝑡(𝛼,𝑛−2) 𝑆𝑒 √ +
2 𝑛 𝑆𝑋𝑋
Unidad 3. Modelos de pronósticos 120
Intervalo de confianza para el valor individual

1 (𝑥0 − 𝑥̅ )2
𝑦̂0 ∓ 𝑡(𝛼,𝑛−2) 𝑆𝑒 √1 + +
2 𝑛 𝑆𝑋𝑋

Donde:

̂0 + 𝛽
𝑦̂0 = 𝛽 ̂1 𝑥0
𝑆𝑒 = √𝐶𝑀𝐸
𝑆𝐶𝑅
𝑆𝑋𝑋 = 2
𝛽̂1

En resumen, el análisis de regresión se puede esquematizar así:

Análisis de regresión Más de una


Una variable X variable X
(Estimar Y)

Regresión Simple Regresión


Múltiple
Relación lineal Relación no lineal

Regresión lineal Regresión no


simple lineal simple
Estadística Aplicada II 202301 121
Ejemplo 18
Una empresa embotelladora de bebidas gaseosas desea desarrollar un método para pronosticar los tiempos
de entrega de los pedidos a sus clientes. Específicamente le interesa estimar el tiempo promedio de entrega
cuando le solicitan 175 cajas. Debajo se muestra el tiempo de entrega y el número de cajas entregadas:

Número de cajas entregadas Tiempo de entrega (minutos)


52 32,1
64 34,8
73 36,2
85 37,8
95 37,8
103 39,7
116 42,0
121 41,9
143 44,2
157 47,1
161 50,0
184 49,4

Donde considere necesario, utilice un nivel de significación de 5% y nivel de confianza de 95%.

Interpretación
¿Cuál es el problema que tiene la empresa?

Determinar un método que le permita pronosticar los tiempos de entrega a partir del número de cajas
solicitas. Una alternativa para esto es utilizar el análisis de regresión simple donde las variables son:

Representación

La variable independiente es 𝑋: número de cajas entregadas


La variable dependiente es 𝑌: Tiempo de entrega en minutos
Los datos recopilados de ambas variables se grafican para conocer la posible relación entre ambas

Cálculo

Del gráfico de dispersión se aprecia que a mayor número de cajas mayor es el tiempo de entrega. Se evaluará
la posible relación lineal directa entre las variables expresada por:

𝑦 = 𝛽0 + 𝛽1 𝑥 + 𝑒
Unidad 3. Modelos de pronósticos 122
Análisis de residuos

Normalidad
𝐻0 Los errores sí provienen de una población normal
𝐻1 Los errores no provienen de una población normal

Estadístico de la prueba de normalidad de Anderson-Darling

AD = 0,434

Valor p = 0,250

Criterio de rechazo y no rechazo


Si el valor p ≤ 𝛼; entonces, se rechaza 𝐻0
Si el valor p > 𝛼; entonces, no se rechaza 𝐻0

Decisión
Como el valor p = 0,250 > 𝛼 = 0,05; entonces, no se rechaza 𝐻0

Conclusión
Con 5 % de nivel de significación, la evidencia muestral es insuficiente para descartar que los errores provienen
de una población normal. Por lo tanto, se asume que se cumple el supuesto.

Independencia de los errores

En vista que el estadístico de la prueba de independencia de errores Durbin-Watson es d= 2.388, siendo este
valor un punto del intervalo [1.5,2.5]; entonces, se asume que el supuesto de no autocorrelación de errores
se cumple (Ángeles, C. 2002).
Estadística Aplicada II 202301 123
Análisis del modelo de regresión lineal simple

El modelo de regresión es:

𝑦̂ = 25.779 + 0.136𝑥

Las variables estudiadas son:


𝑋: número de cajas entregadas
𝑌: Tiempo de entrega en minutos

̂1 = 0.136: Por cada caja adicional el tiempo de entrega se incrementa el promedio en 0.136 minutos.
𝛽

El coeficiente determinación es:

𝑟 2 = 97.07%

El 97.07% de la dispersión en los tiempos de entrega se explica por el número de cajas solicitadas.

Prueba individual
Para que la variable dependiente sea significativa en el modelo de regresión debemos probar que la pendiente
poblacional es diferente de cero, es decir:

𝐻0 : 𝛽1 = 0
𝐻1 : 𝛽1 ≠ 0

El nivel de significación es:

𝛼 = 0.05

El estadístico de prueba es:

𝛽̂1 − 𝛽1
𝑇= ~𝑡(𝑛−𝑝)
𝑠𝑏1

Analysis of Variance
Source DF Adj SS Adj MS F-Value P-Value
Regression 1 352.94 352.944 331.30 0.000
x 1 352.94 352.944 331.30 0.000
Error 10 10.65 1.065
Total 11 363.60

𝑡𝑐𝑎𝑙 = 331.30 valor p = 0

Criterio de rechazo y no rechazo


• Si valor p ≤ 𝛼; entonces, se rechaza 𝐻0
• Si valor p > 𝛼; entonces, no se rechaza 𝐻0

Decisión
Unidad 3. Modelos de pronósticos 124
Como el valor p = 0 < 𝛼 = 0.05; entonces, se rechaza 𝐻0 .

Conclusión
Con 5 % de nivel de significación, la evidencia muestral es suficiente para afirmar que existe una relación lineal
significativa entre el tiempo de entre y el número de cajas solicitadas.

Empleo del modelo para el pronóstico

Prediction for y

Regression Equation
y = 25.779 + 0.13564 x
Settings
Variable Setting
x 175
Prediction
Fit SE Fit 95% CI 95% PI
49.5156 0.550810 (48.2883, 50.7429) (46.9089, 52.1223)

EL intervalo que va de 48.3 a 50.7 minutos ofrece un 95% de confianza de contener al verdadero tiempo
promedio de entrega cuando se solicita 175 cajas.
Estadística Aplicada II 202301 125

Ejercicios

43. A continuación, se muestra el análisis de varianza en la regresión lineal simple, donde la fuerza de impulso
de un motor (𝑌), medido en Kg·m/s depende de la temperatura de escape (𝑋) en °F:

Fuente de variación Grados de libertad Suma de cuadrados Cuadrado medio 𝑭𝒄𝒂𝒍

Regresión 1 6,2881 6,2881


Error 9 1,6283 0,1809 34,7601
Total 10 7,9164

A partir de esta información presentada en la tabla, calcule e interprete el valor del coeficiente de
determinación y del error estándar.

44. A continuación, encierre en un círculo las alternativas que corresponden a los supuestos del modelo de
regresión son:
a. normalidad de las variables
b. normalidad de los errores
c. autocorrelación de los errores
d. varianza constante de errores (homocedasticidad)
e. independencia de los errores (Independencia = no autocorrelación)
f. heterocedasticidad

45. Para asumir que los supuestos de no autocorrelación de los errores y de homocedasticidad, el estadístico
Durbin Watson debe estar comprendido en el intervalo:
a. [0, 4]
b. [1, 3]
c. [1.5, 2.5]
d. [-1.5, 2.5]
e. [1.5, 3.5]

46. Sobre la validación del modelo, en la prueba individual (coeficientes), indique a continuación cuál es la
hipótesis alterna para evaluar la adecuación del modelo a la población.

a. H1: β0 ≠ 0
b. H0: β0 = 0
c. H1: β1 = 0
d. H1: β1 ≠ 0

47. Sobre la validación del modelo, para validar la prueba de hipótesis individual (coeficientes) indique a
continuación cuál es la distribución que se usa.

a. normal
b. t – Student
c. F de Fisher

48. La validación del modelo de regresión lineal simple puede realizarse usando ANOVA o la prueba de
coeficientes.

a. Verdadero
Unidad 3. Modelos de pronósticos 126
b. Falso

49. En la ciudad Campo Verde existe una flota considerable de combis antiguas que, no solo congestionan el
tráfico sino también, podrían estar emitiendo cantidades alarmantes de monóxido de nitrógeno (NO).

La gerencia municipal de Campo Verde desea saber, si efectivamente la


antigüedad de los vehículos y la emisión de monóxido de nitrógeno están
relacionadas; de ser así, estimar en cuánto se incrementa la emisión de
monóxido de nitrógeno por cada año de antigüedad de los vehículos.

Para comprobar lo anterior, la gerencia municipal solicita al ingeniero Flores un estudio técnico al respecto,
a partir de una muestra seleccionada al azar de 30 combis. Si en este estudio comprueba que la emisión
media de NO, de una combi con una antigüedad de 15 años, supera los 11 mg/m3; la gerencia municipal
solicitará el retiro de circulación de las unidades de 15 años a más de antigüedad.

a. ¿Cuál es la problemática que deberá resolver?


i. ¿Cuál es la emisión de monóxido de nitrógeno de una combi con una antigüedad de 15 años?
ii. ¿La gerencia municipal solicitará el retiro de circulación de las unidades que tengan 15 años a más
de antigüedad?
iii. ¿Existe relación lineal entre la emisión de monóxido de nitrógeno y la antigüedad de las combis?

b. Defina la variable dependiente (𝑌) e independiente (𝑋) del problema

Variable dependiente 𝒀

Variable independiente 𝑿

c. A partir del caso, se obtuvo el siguiente diagrama de dispersión de las variables de estudio, ¿cuál es la
relación entre ellas?

d. Teniendo en cuenta el siguiente reporte: “Coeficientes”, modele la ecuación de regresión lineal simple
estimado e interprete el coeficiente de regresión.

Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Constante 0.358 0.770 0.47 0.645
Estadística Aplicada II 202301 127

X 1.0276 0.0907 11.33 0.000 1.00

Modelo de regresión lineal


simple estimado

Interpretación del coeficiente


de regresión estimado (𝜷̂𝟏)

e. Teniendo en cuenta el siguiente reporte: Resumen del modelo, indique la interpretación del coeficiente
de determinación y el error estándar.

Resumen del modelo


R-cuad. R-cuad.
S R-cuad. (ajustado) (pred)
1.94392 82.10% 81.46% 78.42%

R2 =

S=

f. Según la prueba de Anderson Darling, verifique si se cumple el supuesto de normalidad de los errores.
Usar nivel de significación del 5%.

Tener en cuenta para el supuesto de normalidad de los errores:


Estadístico Anderson Darling: Es más efectivo en tamaño de muestras pequeñas
Estadístico Kolgomorov – Smirnov: Es más efectivo en tamaño de muestras grandes (𝑛 ≥ 30).

g. Con el estadístico Durbin Watson, verifique el cumplimiento de los supuestos correspondientes:


Unidad 3. Modelos de pronósticos 128
Estadístico de Durbin-Watson
Estadístico de Durbin-Watson = 1.82889

Tener en cuenta:
Según Ángeles, C. (2002), si el estadístico Durbin Watson (d) está en el intervalo [1.5, 2.5], puede
asumirse que el supuesto de independencia de errores se cumple.

Bajo el mismo criterio del estadístico Durbin Watson se puede asumir que se cumple el supuesto de
homocedasticidad.

h. Teniendo en cuenta el siguiente reporte de Minitab, verifique la validez del modelo, usando la prueba
global (ANOVA) o la prueba individual (coeficiente), con un nivel de significación del 5%. Para la toma
decisión utilice el criterio del valor p.

Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Constante 0.358 0.770 0.47 0.645
X 1.0276 0.0907 11.33 0.000 1.00

Análisis de Varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Regresión 1 485.18 485.185 128.40 0.000
X 1 485.18 485.185 128.40 0.000
Error 28 105.81 3.779
Falta de ajuste 9 79.15 8.795 6.27 0.000
Error puro 19 26.65 1.403
Total 29 590.99

Hipótesis

Estadístico de prueba

Decisión

Conclusión estadística

i. Con un nivel de confianza del 95%, la emisión media de monóxido de nitrógeno de una combi con una
antigüedad de 15 años es:

Intervalo de confianza para el valor medio

1 (𝑥0 − 𝑥̅ )2
𝑦̂0 ∓ 𝑡(𝛼,𝑛−2) 𝑆𝑒 √ +
2 𝑛 𝑆𝑋𝑋

Intervalo de confianza para el valor individual


Estadística Aplicada II 202301 129

1 (𝑥0 − 𝑥̅ )2
𝑦̂0 ∓ 𝑡(𝛼,𝑛−2) 𝑆𝑒 √1 + +
2 𝑛 𝑆𝑋𝑋

𝑆𝐶𝑅
𝑆𝑒 = √𝐶𝑀𝐸 𝑆𝑋𝑋 =
𝛽̂12

Estadísticas
Variable N Media [Link].
X 30 7.5333 3.9804

j. ¿Cuál es la respuesta a la pregunta de investigación?

50. Un ingeniero industrial de una gran cadena de supermercados le gustaría utilizar el espacio en el estante
para predecir las ventas de alimento para mascotas. Se selecciona una muestra aleatoria de 12 tiendas de
igual tamaño, obteniéndose los siguientes resultados:

Tienda Espacio en el estante (en pies) Ventas semanales (cientos de dólares)


1 5 1.60
2 5 1.88
3 5 1.40
4 10 1.90
5 10 2.26
6 10 2.35
7 15 2.50
8 15 2.70
9 15 2.80
10 20 2.60
11 20 2.90
12 20 3.10

a. Calcule e interprete un intervalo de 95% para la pendiente poblacional 𝛽1 .


b. ¿Existe una relación lineal significativa entre el espacio del estante y las ventas semanales? Use 𝛼 =
0,05.
Unidad 3. Modelos de pronósticos 130
Análisis de regresión no lineal simple

Bibliografía
• Montgomery, D. y Runger G. (2005). Probabilidad y Estadística aplicada a la Ingeniería. México D. F.: Limusa
Wiley. Capítulo 10. Página 471
• Jay L. Devore (2008). Probabilidad y estadística para ingeniería y ciencias. México, D.F.: Cengage Learning.
Capítulo 13. Página 508
• Triola, M. (2013). Estadística. 11va. Edición. Pearson Educación, México, D.F. Capítulo 10. Página 570

¡No siempre las variables se relacionan linealmente!

Existen otros modelos de regresión que solo incluyen una variable independiente y que se aplican cuando se
espera o se observa que la relación entre X e Y no es modelada por una línea recta. Un conjunto de estos
modelos es aquellos que pueden ser linealizados mediante transformación ya sea de X, de Y o ambas.

Regresión exponencial

𝛽<0
𝛽>0

Regresión potencia

𝛽>1

𝛽<0
0<𝛽<1

Sobre la transformación de los modelos

Para una relación de función exponencial, sólo la variable dependiente (𝑌) se transforma para alcanzar
linealidad, mientras que, para una relación de función de potencia, tanto la variable independiente (𝑋) como
la variable dependiente (𝑌) se transforman.
Estadística Aplicada II 202301 131
Modelo Forma lineal /no Transformación para Función Datos para ingresar
lineal linealizar a MINITAB
Lineal 𝑦 = 𝛽0 + 𝛽1 𝑥 𝑦 = 𝛽0 + 𝛽1 𝑥 𝑦 = 𝑓(𝑥)
x y
x1 y1
… …
xn yn

Exponencial 𝑦 = 𝛽0 𝑒 𝛽1 𝑥 𝐿𝑛𝑦 = 𝐿𝑛𝛽0 + 𝛽1 𝑥 𝐿𝑛𝑦 = 𝑓(𝑥)


x Lny
x1 Lny1
… …
xn Lnyn
Potencia 𝑦 = 𝛽0 𝑥 𝛽1 𝐿𝑛𝑦 = 𝐿𝑛𝛽0 + 𝛽1 𝐿𝑛𝑥 𝐿𝑛𝑦
= 𝑓(𝐿𝑛(𝑥)) Lnx Lny
Lnx1 Lny1
… …
Lnxn Lnyn

Cuadrático 𝑦 = 𝛽0 +𝛽1 𝑥+𝛽2 𝑥 2 𝑦 = 𝛽0 +𝛽1 𝑥 + 𝛽2 𝑤 𝑦 = 𝑓(𝑥, 𝑥 2 )


Donde x x2 y
𝑤 = 𝑥2 x1 x12 y1
… … …
xn xn 2 yn

Procedimiento para el análisis

El procedimiento para el análisis de un modelo no lineal es el siguiente:


Unidad 3. Modelos de pronósticos 132

Sobre la validez de los modelos

Para verificar la validez de los modelos se realizará la prueba conjunta o prueba individual para el modelo
lineal, exponencial y potencia, mientras que para el modelo cuadrático se realizará la prueba conjunta y la
prueba individual.

A continuación, se presenta las pruebas para cada modelo.

Prueba conjunta (Se utiliza la tabla Prueba individual (Se utiliza la


Modelo tabla de coeficiente)
ANOVA)

H0: β1 = 0 H0: β1 = 0
Lineal, exponencial y
potencial H1: β1 ≠ 0 o H1: β1 ≠ 0

H0: β1 = β2 = 0 H0: β2 = 0
Cuadrático y
H1: Al menos un βi ≠ 0 H1: β2 ≠ 0

• Para el modelo cuadrático, exponencial y potencia se verifican los mismos supuestos del modelo lineal
simple (normalidad de los errores, no autocorrelación de los errores y varianza de los errores constante).

Sobre el pronóstico de la variable dependiente (𝒀)

El intervalo de confianza para el valor medio o individual de la variable dependiente (𝑌), de las funciones
intrínsicamente lineales.

Modelo Valor individual Valor medio

1 (x0 - ̅x)2 1 (x0 - ̅x)2


Exponencial Ln(y0 ) ± t(α, n- 2) S √1+ + Ln(y0 ) ± t(α, n- 2) S √ +
2 n sxx 2 n sxx

2 2
Potencia 1 (ln(x0 ) - ̅̅̅̅̅̅
ln(x)) 1 (ln(x0 ) - ̅̅̅̅̅̅
ln(x))
Ln(y0 ) ± t(α, n- 2) S √1+ + Ln(y0 ) ± t(α, n- 2) S √ +
2 n sxx 2 n sxx

donde:

𝑆 = √𝐶𝑀𝐸

𝑆𝐶𝑅
𝑆𝑋𝑋 =
𝛽̂12

Estas expresiones corresponden al intervalo de confianza del modelo linealizado.

Para calcular los valores en la escala original de 𝑌, se debe elevar cada uno de los términos del intervalo a la
“potencia e”.
Estadística Aplicada II 202301 133

Ejemplo 19
51. El gerente de una empresa de seguridad desea adquirir cámaras de video
vigilancia de la compañía Security para ser utilizadas en una zona cuya
temperatura ambiente es de 25 °C. El representante de la empresa informa
que la vida útil de dichos equipos esta relacionado con la temperatura del
medio ambiente donde trabajan.

El gerente tomará la decisión de adquirir un lote de 200 cámaras y las enviará a una zona geográfica cuya
temperatura ambiente es 25 °C, aproximadamente, si la vida útil es mínimo de 15 años.

Para ayudar al gerente a decidirse por adquirir este producto, se le entrega los datos de una muestra
aleatoria de 10 equipos de video vigilancia donde se registró la temperatura ambiente y el tiempo de vida
de las cámaras. ¿Qué decisión deberá tomar el gerente de la empresa de seguridad? Utilice un α = 0,05

a. ¿Cuál es la problemática que deberá resolver?

i. ¿Cuál es el tiempo de vida útil de una cámara de video vigilancia, cuando la temperatura del medio
ambiente es de 25°C?
ii. ¿El gerente de la compañía adquirirá el lote de las 200 cámaras y las enviará a una zona geográfica
cuya temperatura ambiente es aproximadamente 25 °C?
iii. ¿Existe relación no lineal entre la temperatura ambiente y el tiempo de vida útil de las cámaras?

b. Defina la variable dependiente e independiente del problema.

Variable dependiente (𝒀) Vida útil de una cámara de video vigilancia, en años
Variable independiente (𝑿) Temperatura ambiente de una zona, en °C

c. Teniendo los resultados obtenidos del Minitab, escribir la ecuación de cada modelo y ordenarlos según
el coeficiente de determinación.

Modelo lineal
Resumen del modelo
R-cuad. R-cuad.
S R-cuad. (ajustado) (pred)
2.79077 92.89% 92.00% 90.12%
Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Constante 5.15 1.59 3.23 0.012
X 0.8687 0.0850 10.22 0.000 1.00

Modelo cuadrático
Resumen del modelo
R-cuad. R-cuad.
S R-cuad. (ajustado) (pred)
2.57603 94.70% 93.18% 88.85%
Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Unidad 3. Modelos de pronósticos 134
Constante 1.33 2.87 0.46 0.657
X 1.620 0.492 3.29 0.013 39.41
X^2 -0.0225 0.0146 -1.55 0.166 39.41

Modelo exponencial
Resumen del modelo
R-cuad. R-cuad.
S R-cuad. (ajustado) (pred)
0.241346 86.54% 84.86% 81.04%
Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Constante 1.951 0.138 14.16 0.000
X 0.05272 0.00735 7.17 0.000 1.00

Modelo potencia
Resumen del modelo
R-cuad. R-cuad.
S R-cuad. (ajustado) (pred)
0.154253 94.50% 93.82% 92.02%
Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Constante 1.058 0.154 6.86 0.000
Ln(X) 0.6983 0.0595 11.73 0.000 1.00

Modelos Ecuación del modelo R2 Ranking (prioridad)


Lineal 𝑦̂ = 5.15 + 0.8687𝑥 92.89% 3°
Cuadrático 𝑦̂ = 1.33 + 1.620𝑥 − 0.0225𝑥 2 94.70% 1°
Exponencial ̂ = 1.951 + 0.05272𝑥
𝐿𝑛𝑦 86.54% 4°
Potencia ̂ = 1.058 + 0.6983𝐿𝑛𝑥
𝐿𝑛𝑦 94.50% 2°

d. Teniendo los resultados mostrados del Minitab, verifique la validez del mejor modelo según el ranking
elaborado en el paso anterior.
Estadística Aplicada II 202301 135
Modelo lineal
Análisis de Varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Regresión 1 813.79 813.793 104.49 0.000
X 1 813.79 813.793 104.49 0.000
Error 8 62.31 7.788
Total 9 876.10

Modelo cuadrático
Análisis de Varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Regresión 2 829.65 414.824 62.51 0.000
X 1 71.83 71.834 10.82 0.013
X^2 1 15.86 15.856 2.39 0.166
Error 7 46.45 6.636
Total 9 876.10

Modelo exponencial
Análisis de Varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Regresión 1 2.9969 2.99690 51.45 0.000
X 1 2.9969 2.99690 51.45 0.000
Error 8 0.4660 0.05825
Total 9 3.4629
Modelo potencia
Análisis de Varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Regresión 1 3.2725 3.27253 137.54 0.000
Ln(X) 1 3.2725 3.27253 137.54 0.000
Error 8 0.1904 0.02379
Total 9 3.4629

Prueba conjunta del modelo cuadrático (Se utiliza la tabla ANOVA)

𝑦 = 𝛽0 +𝛽1 𝑥+𝛽2 𝑥 2
H0: β1 = β2 = 0 (no hay modelo que relacione a estas variables)
H1: Al menos un βi ≠ 0 (sí hay modelo que relacione a estas variables)
∝= 0.05

Tabla de ANOVA
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Regresión 2 829.65 414.824 62.51 0.000
X 1 71.83 71.834 10.82 0.013
X^2 1 15.86 15.856 2.39 0.166
Error 7 46.45 6.636
Total 9 876.10

𝐶𝑀𝑅𝑒𝑔
𝐹𝑐𝑎𝑙 = = 62.51 Valor p = 0
𝐶𝑀𝐸
Unidad 3. Modelos de pronósticos 136

Criterios de rechazo y no rechazo


• Si valor p ≤ 0.05 → Se rechaza H0
• Si valor p > 0.05 → No se rechaza H0

Decisión: Como valor p=0 < 0.05 → Sí se rechaza Ho


Conclusión: Con 5 % de nivel de significación, la evidencia muestral es suficiente para afirmar que
existe un modelo que relaciona a la vida útil y la temperatura ambiente.

Prueba individual para el modelo cuadrático


𝐻0 : 𝛽2 = 0 (no existe el componente cuadrático en el modelo)
𝐻1 : 𝛽2 ≠ 0 (Sí existe el componente cuadrático en el modelo)

 = 0.05

Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Constante 1.33 2.87 0.46 0.657

X 1.620 0.492 3.29 0.013 39.41


X^2 -0.0225 0.0146 -1.55 0.166 39.41

𝛽̂1 − 𝛽1
𝑡𝑐𝑎𝑙 = = −1.55 𝑣𝑎𝑙𝑜𝑟 𝑝 = 0.166
𝑠𝑏1

Criterios de rechazo y no rechazo


• Si valor p ≤ 0.05 → Se rechaza H0
• Si valor p > 0.05 → No se rechaza H0
Decisión: Como valor p =0.166 > 0.05 → No se rechaza Ho
Conclusión: Con 5 % de nivel de significación, la evidencia muestral es insuficiente para afirmar que el
modelo incluye la componente cuadrática.

Se descarta este modelo y se selecciona al segundo mejor de la lista en el paso 1. Se elige al modelo
potencia.

Validación del modelo potencia con la prueba conjunta:


𝐿𝑛𝑦 = 𝛽0 + 𝛽1 𝐿𝑛𝑥
𝐻0 : 𝛽1 = 0 (no hay modelo que relacione a estas variables)
𝐻1 : 𝛽1 ≠ 0 (sí hay modelo que relacione a estas variables)
= 0.05

Análisis de Varianza

Fuente GL SC Ajust. MC Ajust. Valor F Valor p


Regresión 1 3.2725 3.27253 137.54 0.000
Ln(X) 1 3.2725 3.27253 137.54 0.000
Error 8 0.1904 0.02379
Total 9 3.4629

𝐶𝑀𝑅𝑒𝑔
𝐹𝑐𝑎𝑙 = 𝐶𝑀𝐸
= 137.54 Valor p = 0
Estadística Aplicada II 202301 137

Criterios de rechazo y no rechazo


• Si valor p ≤ 0.05 → Se rechaza H0
• Si valor p > 0.05 → No se rechaza H0

Decisión: Como valor p=0 < 0.05 → Sí se rechaza Ho


Conclusión: Con 5 % de nivel de significación, la evidencia muestral es suficiente para afirmar que
existe un modelo potencia que relaciona a la vida útil y la temperatura ambiente.

e. Teniendo en cuenta los resultados obtenidos por el Minitab, verifique el cumplimiento de los
supuestos del mejor modelo válido.

Modelo lineal

Estadístico de Durbin-Watson
Estadístico de Durbin-Watson = 2.58721
Modelo cuadrático

Estadístico de Durbin-Watson
Estadístico de Durbin-Watson = 2.29086
Modelo exponencial

Estadístico de Durbin-Watson
Estadístico de Durbin-Watson = 2.99505
Modelo potencia

Estadístico de Durbin-Watson
Estadístico de Durbin-Watson = 2.30840

• Normalidad
H0: Los errores sí provienen de una población normal
H1: Los errores no provienen de una población normal

Estadístico de prueba: AD=0.126 , Valor – p=0.976

Criterio de rechazo y no rechazo


Unidad 3. Modelos de pronósticos 138
Si valor p ≤ 0.05 → Se rechaza H0
Si valor p > 0.05 → No se rechaza H0

Decisión: Como valor p=0.976 > 0.05 → No se rechaza Ho


Conclusión: Con 5 % de nivel de significación, la evidencia muestral es insuficiente para descartar que
los errores provienen de una población normal. Por lo tanto, se asume que se cumple el supuesto.

• Independencia de los errores


H0: Los errores no están autocorrelacionados (los errores son independientes)
H1: Los errores están autocorrelacionados (los errores son dependientes)

Estadístico de prueba: d= 2.30840

Regiones críticas: ____________ [1.5,2.5]______________


Como d=2.30840 [1.5,2.5] → se asume que el supuesto de no autocorrelación de errores se cumple.

• Homocedasticidad
H0: Los errores sí tienen varianza constante (homocedasticidad)
H1: Los errores no tienen varianza constante (heterocedasticidad))
Estadístico de prueba: d= 2.30840
Como d=2.30840 [1.5,2.5] → se asume que el supuesto de homocedasticidad de los errores se
cumple.

En conclusión, el modelo potencia es válido y además cumple los requisitos relacionados con los
supuestos.

f. Presente y realice la transformación, de ser necesaria, de la ecuación del mejor modelo valido y que
cumplió todos los supuestos.
𝑦̂ = 𝛽0 𝑥 𝛽1
̂0 + 𝛽
̂ = 𝐿𝑛𝛽
𝐿𝑛𝑦 ̂1 𝐿𝑛𝑥
̂ = 1.058 + 0.6983𝐿𝑛𝑥
𝐿𝑛𝑦
̂0 = 1.058−→ 𝛽
𝐿𝑛𝛽 ̂0 = 𝑒 1.058 = 2.8806
Modelo final: ŷ = 2.8806x 0.6983

g. Con un nivel de confianza del 95%, el tiempo de vida útil de una cámara de video vigilancia, cuando la
temperatura del medio ambiente es de 25 °C es:

Modelo lineal

Predicción
EE de
Ajuste ajuste IC de 95% IP de 95%
26.8657 1.19037 (24.1207; 29.6107) (19.8692; 33.8622)

Modelo cuadrático

Predicción
EE de
Ajuste ajuste IC de 95% IP de 95%
27.7659 1.24356 (24.8253; 30.7064) (21.0019; 34.5299)
Estadística Aplicada II 202301 139

Modelo exponencial

Predicción
Ajuste EE de ajuste IC de 95% IP de 95%
3.26850 0.102944 (3.03111; 3.50588) (2.66344; 3.87355)

Modelo potencia

Predicción
Ajuste EE de ajuste IC de 95% IP de 95%
3.30571 0.0666561 (3.15200; 3.45942) (2.91822; 3.69321)

x0=25 → Lnx0=Ln(25)=3.2189
Estimación puntual ̂0 = 1.058 + 0.6983𝐿𝑛𝑥=1.058+0.6983(3.2189) = 3.3058
𝐿𝑛𝑦
̂0 = 𝑒 3.30571 = 27.2679 𝑎ñ𝑜𝑠
𝑦
2.91822< 𝐿𝑛𝑌𝑖𝑛𝑑 < 3.69321
Intervalo de
e2.91822< 𝑌𝑖𝑛𝑑 < e3.69321
confianza
18.5083< 𝑌𝑖𝑛𝑑 <40.1736

El intervalo que va de 18.5 años a 40.2 años ofrece un 95% de confianza


de contener al verdadero tiempo de vida útil de una cámara de video
Interpretación del vigilancia, cuando la temperatura del medio ambiente donde funciona es
intervalo de 25 °C.

15 18.5 40.2

h. ¿Cuál es la respuesta a la pregunta de investigación?

En vista que, la vida útil de estos equipos sería mayor a 15 años, entonces se recomienda al gerente
que adquiera el lote de las 200 cámaras y las envíe a la zona cuya temperatura es 25 a más grados
centígrados.

Ejercicios

52. Se obtuvo el siguiente modelo de regresión lineal del tiempo que demora el reparto de cierto producto
(en minutos) en función del número de cajas a repartir:

𝑌̂ = −141 + 85.1𝑋

Además, se obtuvo el diagrama de dispersión y la tabla de coeficientes.


Unidad 3. Modelos de pronósticos 140

Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Constante -141 114 -1.24 0.270
X 85.1 36.8 2.31 0.069 1.00

Con la información mostrada y a un nivel de significancia de 5%, ¿el modelo de regresión lineal es válido?

53. Indique en la casilla de la derecha cuál es el modelo que corresponde según la representación simbólica
presentada:

a. ŷ = β̂ 0 + β̂ 1 x + β̂ 2 x2 Modelo exponencial

b. ŷ = β̂ 0 + β̂ 1 x Modelo potencia

̂
c. ŷ = β̂ 0 xβ1 Modelo lineal

̂
d. ŷ = β̂ 0 eβ1x Modelo cuadrático

54. Los siguientes datos corresponden al tiempo de secado de un barniz y la cantidad de cierto producto
químico que se le ha añadido:

Cantidad de aditivo (gramos) Tiempo de secado(horas)


1.5 4.1
2.5 5.7
3.5 5.7
4.5 4.5
5.0 6.6
5.5 5.2
7.0 6.0
7.5 7.8
Estadística Aplicada II 202301 141
9.0 8.1
9.5 11.0

Estime el mejor modelo y analice los datos considerando un nivel de significación del 5%. Seguido,
pronostique, con 98% de confianza, cuál será el tiempo de secado del barniz si se añade 7.3 gramos del
producto químico.

A continuación, se presenta las salidas de los diferentes modelos.


Unidad 3. Modelos de pronósticos 142
Estadística Aplicada II 202301 143
Unidad 3. Modelos de pronósticos 144
Análisis de regresión lineal múltiple

Bibliografía
• Mendenhall W., Beaver R. y Beaver B. (2015). Introducción a la Probabilidad y Estadística. 14va Edición.
Cengage Learning Editores, México D. F. Capítulo 13. Página 528
• Montgomery, D. y Runger G. (2005). Probabilidad y Estadística aplicada a la Ingeniería. México D. F.:
Limusa Wiley. Capítulo 11. Página 483
• Jay L. Devore (2008). Probabilidad y Estadística para Ingeniería y Ciencias. México, D.F.: Cengage Learning.
Capítulo 13. Página 560

Para predecir la mortalidad de pollos en el transporte al matadero


¿qué variables se debe considerar?
Estadística Aplicada II 202301 145

El modelo de regresión múltiple


El objetivo del Análisis de Regresión Múltiple es relacionar una variable respuesta y con un conjunto de
variables predictoras utilizando un modelo de regresión. Lo que se desea es poder estimar el valor medio de
y y/o predecir valores particulares de y a observar en el futuro cuando las variables predictoras toman valores
específicos.

El modelo de regresión lineal múltiple es:

y =  0 +  1 x1 +  2 x 2 +  +  k x k + 

donde:
y : variable respuesta que se quiere predecir
 0 , 1 ,  2 ,,  k : son las constantes.
x1 , x 2 ,  , x k : son variables predictoras independientes que se miden sin error.
 : es un error aleatorio que, para cualquier conjunto dado de valores de
x1 , x 2 ,  , x k

Supuestos del análisis de regresión múltiple


▪ Los errores tienen distribución normal
▪ Los errores tienen media igual a cero y varianza igual a 𝜎 2
▪ Los errores aleatorios, digamos  i ,  j asociados a cualquier par de valores asociados a la variable
dependiente y, son independientes.
▪ Las variables regresoras son independientes (no multicolinealidad)

A partir de los datos de la muestra, se encuentran las estimaciones de los parámetros.

donde:
ŷ : valor estimado de la variable dependiente
ˆ0 , ˆ1 , ˆ2 ,..., ˆk : estimaciones muestrales de los parámetros poblacionales
x1, x2,... , xk : son variables predictoras

Estimación de los parámetros el modelo


Para estimar los parámetros del análisis de regresión múltiple también se utiliza el método de mínimos
cuadrados.

y1 =  0 +  1 x11 +  2 x12 +  3 x13 + ... +  k x1k +  1


y 2 =  0 +  1 x 21 +  2 x 22 +  3 x 23 + ... +  k x 2 k +  2
.
.
.
y n =  0 +  1 x n1 +  2 x n 2 +  3 x n 3 + ... +  k x nk +  n

La muestra puede ser expresada en forma matricial de la siguiente manera:


Unidad 3. Modelos de pronósticos 146

 ˆ 0 
 y1  1 x11 x12 ... x1k     1 
1  ˆ1 
y 
 2  x 21 x 22 ... x 2 k   ˆ 
 
 2
.  .   2 . 
Y =  X =  ˆ = .  ˆ =  
.  .    . 
.  .  .  . 
    .   
 y n  1 x n1 xn2 ... x nk     n 
 ˆ k 
de donde Y = X + 

El estimador de mínimos cuadrados para el vector  es:

ˆ = ( X ' X ) −1 X 'Y
Las propiedades estadísticas del estimador del vector de parámetros  son:

E ( ˆ ) = 
Cov( ˆ ) =  2 ( X ' X ) −1

Coeficiente de regresión

Los valores ˆ 0 , ˆ1 , ˆ 2 ,..., ˆ k se conocen como coeficientes de regresión estimados.

Un coeficiente de regresión estimado específico mide el cambio promedio en la variable dependiente debido
a un incremento de una unidad en la variable predictora relevante, manteniendo constantes las otras variables
de predicción.
Los errores estándar y la covarianza de los estimadores ˆ 0 , ˆ 1 , ˆ 2 ,..., ˆ k se determinan mediante los
elementos de la matriz ( X ' X ) −1 como:

c 00 c 01 c 02 ... c0k 
c c11 c12 ... c1k 
 10
c 20 c 21 c 22 ... c 2 k 
 
(X X )
´ −1
= . 
. 
 
. 
c c k1 ck 2 ... c kk 
 k0
Los errores estándar de las ˆ 0 , ˆ1 , ˆ 2 ,..., ˆ k son:
Estadística Aplicada II 202301 147

 ˆ =  c 00
0

 ˆ =  c11
1

 ˆ =  c 22
2

.
.
.
 ˆ =  c kk
k

El estimador de  2 , la varianza de los errores es:


SSE
S2 =
n− p

El error estándar de la estimación


El error estándar de la estimación mide la variabilidad, o dispersión, de los valores muestrales y observados
alrededor del plano de regresión.

SSE
s= = CME
n− p
donde p es el número de parámetros a estimar.

Coeficiente ajustado de determinación


El coeficiente múltiple de determinación 𝑅 2 tiene una desventaja: a mayor número de variables incluidas, se
incrementa 𝑅 2.

A causa de esta desventaja, la comparación de diferentes ecuaciones de regresión múltiple se logra mejor con
2
el coeficiente ajustado de determinación, que es 𝑅𝑎𝑗𝑢𝑠𝑡𝑎𝑑𝑎 para el número de variables y el tamaño de la
muestra.

2 𝑛−1
𝑅𝑎𝑗𝑢𝑠𝑡𝑎𝑑𝑎 = 𝑅 2 = 1 − (1 − 𝑅 2 ) ( )
𝑛−𝑝

Pruebas de hipótesis
Una vez que se ha recogido una muestra aleatoria se han medido las variables y se ha examinado la matriz de
correlación para determinar aquellas combinaciones de variables que son de interés, se analizan los modelos
con el mejor potencial. El objetivo es encontrar la mejor ecuación para predecir y después decidir si esta
ecuación satisface las necesidades de exactitud del analista.
Los valores t calculados son de particular importancia en la regresión múltiple porque constituyen la forma
principal de detectar multicolinealidad. Si son suficientemente grandes, la correlación entre las dos variables
predictoras no es un problema. Si uno o ambos valores t son menores que los valores t de tablas, la
multicolinealidad está presente.
Unidad 3. Modelos de pronósticos 148

Pruebas individuales

Las hipótesis planteada y alternante para las pruebas individuales son:


H 0 : i = 0
H1 :  i  0
ˆ i −  i
El estadístico de prueba es t cal = ~ t (n− p)
 ˆI

donde  ˆ I = s c ii

Prueba conjunta

Las hipótesis planteada y alternante para la prueba conjunta son:


H o :  1 =  2 = ... =  k = 0
H 1 : H o no es verdad
CMR
El estadístico de prueba es F = ~ F( , p −1 , n − p )
CME

Intervalos de confianza para los coeficientes poblacionales


Los intervalos de confianza para los parámetros del modelo se construyen a partir de su estimación puntual y
el error estándar.

LC (  j ) = ˆ j  t ( / 2, n − p ) s c ii

Multicolinealidad
Cuando existen fuertes dependencias entre las variables regresoras (independientes), se dice que existe
multicolinealidad. La multicolinealidad puede tener efectos de consecuencias sobre las estimaciones de los
coeficientes de regresión y sobre la aplicabilidad general del modelo.

Las consecuencias adversas son:


▪ Las estimaciones de los coeficientes de regresión fluctúan de manera notoria de una muestra a otra.
▪ Una variable independiente que tiene una relación positiva con la variable dependiente puede producir
un coeficiente de regresión negativo si la correlación con otra variable independiente es alta.
▪ Con frecuencia se usa la regresión múltiple como una herramienta interpretativa para evaluar la
importancia relativa de las distintas variables independientes. Cuando las variables independientes se
intercorrelacionan, explican la misma varianza en el pronóstico de la variable dependiente. por esto, es
difícil separar la influencia individual de cada variable independiente cuando la multicolinealidad está
presente.

Los factores de inflación de la varianza (VIF) son medidas de multicolinealidad muy útiles. Entre mayor sea el
factor de inflación de la varianza, más marcada será la multicolinealidad.

Algunos autores han sugerido que, si cualquiera de los factores de inflación de la varianza excede 10, entonces
la multicolinealidad constituye un problema.
(Montgomery y Runger, 2005)
Estadística Aplicada II 202301 149

Regresión por pasos


Suponga que tenemos datos acerca de la variable dependiente (𝑌) y un buen número de posibles variables
independientes, 𝑥1 , 𝑥2 , …, 𝑥𝑘 . Un análisis de regresión por pasos ajusta una variedad de modelos a los datos,
agregando y eliminando variables cuando la significancia de ellas en presencia de las otras variables es
significativa o no significativa, respectivamente.

Una vez que el programa haya hecho un número suficiente de iteraciones y no hay más variables significativas
cuando se suman al modelo y ninguna de las variables del modelo son no significativas cuando son eliminadas,
el procedimiento se detiene.

Un excelente método de regresión por pasos es el método paso a paso.

Observaciones influyentes
Las observaciones poco comunes (también llamadas observaciones influyentes) son observaciones que tienen
un impacto desproporcionado en un modelo de regresión. Es importante identificar las observaciones poco
comunes porque pueden producir resultados engañosos.

Por ejemplo, una observación poco común puede ejercer una gran influencia al determinar R2, las
estimaciones de los coeficientes de regresión o la magnitud del cuadrado medio de error.

Un excelente diagnóstico para detectar observaciones influyentes es la medida de la distancia desarrollada


por Dennis R. Cook. Un valor Di-Cook > 1 indicará que el punto es influyente.

Tener en cuenta que, si en el modelo completo existen puntos influyentes deben eliminarse y luego aplicar la
regresión por pasos (método paso a paso)
Unidad 3. Modelos de pronósticos 150
Pasos por seguir en el análisis de regresión lineal múltiple

Ejemplo

El gerente de una empresa desea obtener un modelo de regresión lineal


que permita realizar los pronósticos del monto de las ventas (en miles
de soles) de su principal producto en función del gasto mensual en
publicidad (miles de soles), número medio de pedidos y el número de
vendedores.

El gerente de la empresa comprará una nueva maquinaria para aumentar la producción, si el monto de las
ventas supera los 5500 soles, cuando el gasto en publicidad es de 800 soles, el número medio de pedidos
es de 50 y el número de vendedores es 18. Los datos son presentados a continuación.

X1: Gasto en X2: Número medio de X3: Número de


𝒀: Monto de las ventas
publicidad pedidos vendedores
6,8 0,80 52 16
6,7 0,84 48 10
7,0 1,04 53 18
3,9 0,34 33 17
5,4 0,76 35 19
3,9 0,58 32 16
5,1 0,74 38 19
5,8 0,74 40 10
5,0 0,68 37 19
6,7 0,88 46 19
5,4 0,74 36 11
6,3 0,84 44 12
6,4 0,78 44 18
6,6 0,72 52 6

Use un nivel de significación del 5% y un nivel de confianza del 95% (alfa a entrar 0.05 y un alfa a retirar
0.05).

a. ¿Cuál es la problemática que deberá resolver?


Estadística Aplicada II 202301 151
i. ¿El gerente de la empresa debe comprar una nueva maquinaria para aumentar la producción?
ii. ¿Estimar las ventas, cuando el gasto en publicidad es de 800 soles, el número medio de pedidos
es de 50 y el número de vendedores es 18?
iii. Determinar un modelo de regresión lineal que permita realizar los pronósticos del monto de las
ventas.
iv. Determinar si el monto de las ventas supera los 5500 soles.

b. Teniendo en cuenta el siguiente reporte del programa Minitab, modele la ecuación de regresión lineal
múltiple estimado e interprete las medidas de bondad de ajuste.

Resumen del modelo

R-cuad. R-cuad.
S R-cuad. (ajustado) (pred)
0.308456 93.19% 91.15% 86.85%

Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Constante 0.369 0.681 0.54 0.600
X1 2.782 0.791 3.52 0.006 2.13
X2 0.0856 0.0179 4.78 0.001 2.33
X3 -0.0182 0.0215 -0.85 0.417 1.18
Análisis de Varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Regresión 3 13.0257 4.34190 45.63 0.000
X1 1 1.1757 1.17567 12.36 0.006
X2 1 2.1784 2.17845 22.90 0.001
X3 1 0.0681 0.06809 0.72 0.417
Error 10 0.9514 0.09514
Total 13 13.9771

R2 modelo completo =
R2 =
91.15%
S modelo completo =
S=
0.308456
Modelo de
regresión lineal
múltiple estimado
β̂ 1 =

β̂ 2 =

c. Teniendo en cuenta el reporte de Minitab, realice la prueba global para el modelo de regresión
completo.
d. Teniendo en cuenta el reporte de Minitab, realice la prueba individual para cada coeficiente del
modelo de regresión completo.

e. Como el modelo de regresión lineal múltiple completo no resulta valido se aplica el método paso a
paso, para la selección del mejor modelo. Escriba la ecuación de regresión lineal múltiple estimado,
Unidad 3. Modelos de pronósticos 152
interprete los coeficientes del modelo e interprete las medidas de bondad de ajuste obtenido por el
método paso a paso, a partir del reporte de Minitab, que se muestra a continuación.

Resumen del modelo


R-cuad. R-cuad.
S R-cuad. (ajustado) (pred)
0.304442 92.71% 91.38% 87.78%

Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Constante -0.015 0.501 -0.03 0.977
X1 2.594 0.750 3.46 0.005 1.96
X2 0.0916 0.0162 5.65 0.000 1.96

f. Teniendo en cuenta el reporte de Minitab, verifique el supuesto de normalidad de los errores.

g. Teniendo en cuenta el reporte de Minitab, verifique el supuesto de independencia de los errores y


homocedasticidad.

Estadístico de Durbin-Watson
Estadístico de Durbin-Watson = 2.17108

h. Teniendo en cuenta el reporte de Minitab, verifique el supuesto de la no multicolinealidad entre


variables independientes.

Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Constante -0.015 0.501 -0.03 0.977
X1 2.594 0.750 3.46 0.005 1.96
X2 0.0916 0.0162 5.65 0.000 1.96

i. Teniendo en cuenta el reporte de Minitab, realice el análisis de la detección de datos influyentes.


Estadística Aplicada II 202301 153

Estadísticas
Variable N Mínimo Máximo
COOK 14 0.0008 0.8034

j. Teniendo en cuenta el reporte de Minitab, con un nivel de confianza del 95%, calcule e interprete el
monto de las ventas cuando el gasto en publicidad es de 800 soles y el número medio de pedidos es
de 50.

Predicción
Ajuste EE de ajuste IC de 95% IP de 95%
6.63855 0.132153 (6.34768; 6.92942) (5.90807; 7.36903)

k. ¿Cuál es la respuesta a la pregunta de investigación?

Ejercicios

55. Explique brevemente cuál es el objetivo del análisis de regresión lineal múltiple.

56. En el siguiente caso identifique la variable dependiente y las variables regresoras:

El gerente de una empresa desea obtener un modelo de regresión lineal que permita realizar los
pronósticos del monto de las ventas (en miles de soles) de su principal producto en función del gasto
mensual en publicidad (miles de soles), número medio de pedidos y el número de vendedores.

57. A continuación, marque con una “x” las alternativas que corresponden a los supuestos del modelo de
regresión lineal múltiple:

a. Normalidad de los datos


b. Normalidad de los errores
c. Heterocedasticidad
d. Homocedasticidad
e. Multicolinealidad
f. Independencia de las variables regresoras
g. Independencia de los errores

58. Marque cada afirmación con verdadero (V) o falso (F) según corresponda.

a. Una ventaja de la multicolinealidad es que los coeficientes de regresión fluctúan de manera notoria
de una muestra a otra ( )
b. Son supuestos del análisis de regresión múltiple: los errores tienen distribución normal, con media
igual a cero y varianza constante ( )
c. Si el coeficiente de Durbin Watson tiende a dos, existen problemas de multicolinealidad ( )
d. La significancia estadística de las variables independientes se verifica con la prueba conjunta ( )

59. Con la finalidad de estudiar los daños sufridos al trasladar equipos industriales, el gerente de una compañía
de mudanzas solicitó los últimos 30 registros de los pesos de los equipos, 𝑋1 (en miles de libras), las
distancias que fueron trasladados, 𝑋2 (en miles de millas) y los daños sufridos, Y (en dólares). La estimación
del modelo de regresión lineal múltiple dio como resultado la siguiente tabla:
Unidad 3. Modelos de pronósticos 154
Coeficientes
Término Coef EE del coef. Valor T Valor p
Constante 10.50 4.56 2.30 0.0296
X1 2.50 0.56 4.46 0.0001
X2 1.82 0.112 16.25 0.0000

Responda lo siguiente:
a. ¿Cuál es la interpretación de β̂ 2 ?
b. Escriba cuáles son las hipótesis planteada y alternante de la prueba conjunta
c. ¿Cuáles son el estadístico de prueba y el valor crítico de la prueba conjunta?
d. ¿Cuáles son las hipótesis de la prueba individual para el coeficiente β1?
e. ¿Cuáles son el estadístico de prueba y el valor crítico de la prueba individual para el coeficiente β2?
Estadística Aplicada II 202301 155

Series de tiempo

Bibliografía
• Anderson David, Sweeney Dennis y Willians Thomas (2010). Estadística para la administración y economía.
10ma Edición. Cengage Learning Ediores, México D.F. capítulo 18. Página 765.
• Gujarati Damodar N. y Porter Dawn C. (2010). Econometría. México Dc. Graw Hill. Capítulo 21 y 22 Página
737.
• Render Barry y Slair Ralph. (2016). Métodos cuantitativos para los negocios. 12va Edición. Pearson Prentice
Hall. Capítulo 5. Página 175.

Serie de tiempo
Al interior de las organizaciones, sus directivos muchas veces están interesados en evaluar el comportamiento
de variables medidas a través del tiempo para poder entender qué factores influyen en dicho comportamiento
variable, que les permita realizar pronósticos para orientar mejor la toma de decisiones. En este contexto se
habla de una serie de tiempo, la misma que, consiste en “datos recogidos, registrados u observados en
incrementos sucesivos de tiempo” (Hanke y Reitsh, 1997, p.684).

Utilizando un gráfico de línea y dependiendo de la forma de la distribución de la serie de tiempo, se la puede


clasificar como una serie de patrón estacionario (también llamado horizontal porque fluctúa alrededor de la
media) o no estacionaria (cuando presenta tendencia, ciclos y estacionalidad):

Serie estacionaria Serie no estacionaria

Se caracteriza por que la media y la variabilidad se En esta serie, la media y/o la variabilidad no se
mantiene constante a lo largo del tiempo. mantiene constante a lo largo del tiempo.

Para estudiar cada uno de estos tipos de series (estacionaria o no estacionaria) se utilizará el método de
suavización exponencial para una serie estacionaria y de descomposición para el segundo tipo de serie.
Unidad 3. Modelos de pronósticos 156
Suavización exponencial

La suavización exponencial es un método de pronóstico que se basa en suavizar (promediar), los valores
pasados de una serie en forma exponencialmente decreciente. Supone que los datos son estacionarios.

Las observaciones se ponderan asignando los pesos (𝛼) más grandes a las más recientes El modelo matemático
que representa el pronóstico bajo este método es: .

𝑌̂𝑡+1 = 𝛼𝑌𝑡 + 𝛼(1 − 𝛼)𝑌𝑡−1 + 𝛼(1 − 𝛼)2 𝑌𝑡−2 + 𝛼(1 − 𝛼)3 𝑌𝑡−3 + ⋯

Otra forma equivalente de presentar el modelo anterior es la siguiente:


𝑌̂𝑡+1 = 𝛼𝑌𝑡 + (1 − 𝛼)𝑌̂𝑡

𝑌̂𝑡+1 nuevo valor suavizado o valor de pronóstico para el siguiente periodo (𝑡 + 1).
𝛼 constante de suavización (0 < 𝛼 < 1)
𝑌𝑡 valor real de la serie en el periodo 𝑡
𝑌̂𝑡 Valor suavizado en el periodo 𝑡

donde para el primer valor:


𝑌̂1 = 𝑌1

Con relación a la constante de suavización, Hanke y Wichern (2010) indica que “si se requiere predicciones
estables y variaciones aleatorias suaves, entonces 𝛼 debe ser pequeño. Si se desea una respuesta rápida a un
cambio real en el patrón de observaciones se requiere un valor de alto” (p. 120).

Indicadores de medición del error en el pronóstico

El error o residual de un pronóstico en el período 𝑡, se calcula:

𝑒𝑡 = 𝑌𝑡 − 𝑌̂𝑡

𝑒𝑡 ≔ error de pronóstico en el período 𝑡


𝑌𝑡 ≔ valor real de la serie en el período 𝑡
𝑌̂𝑡 ≔ valor del pronóstico en el período 𝑡

Indicadores de medición del error en el pronóstico

• Desviación absoluta de la media (𝐷𝐴𝑀)


• Porcentaje de error medio absoluto (𝑃𝐸𝑀𝐴)

El mejor pronóstico es el que presenta el menor valor en el indicador de la medición del error.

Desviación absoluta de la media (𝑫𝑨𝑴 o 𝑴𝑨𝑫)


Este indicador mide la exactitud del pronóstico que evita el problema de los errores positivos y negativos que
se compensan entre sí. Expresa exactitud en las mismas unidades que los datos, lo cual ayuda a conceptualizar
la cantidad de error.

∑𝑛𝑡=1|𝑌𝑡 − 𝑌̂𝑡 |
𝐷𝐴𝑀 =
𝑛
Estadística Aplicada II 202301 157
Porcentaje de error medio absoluto (𝑷𝑬𝑴𝑨 o 𝑴𝑨𝑷𝑬)
Este indicador mide la exactitud de los valores ajustados de las series de tiempo.

PEMA expresa la exactitud como un porcentaje.

∑𝑛𝑡=1|𝑌𝑡 − 𝑌̂𝑡 |
𝑌𝑡
𝑃𝐸𝑀𝐴 =
𝑛

Señal de rastreo o señal de control

La señal de rastreo mide cuan bien se ajustan los pronósticos a los datos reales. En el caso que la señal de
rastreo se encuentra fuera de los límites [-2; 2], esto nos indicará un cambio en el valor de la constante de
suavización (α), y se desecha el pronóstico. (Render B.)

CEF Suma de errores


Señal de rastreo (SR) = =
DAM Desviación media absoluta

donde:

𝐶𝐸𝐹 = ∑(𝑌𝑡 − 𝑌̂𝑡 )


𝑡=1

∑𝑛𝑡=1|𝑌𝑡 − 𝑌̂𝑡 |
𝐷𝐴𝑀 =
𝑛
Unidad 3. Modelos de pronósticos 158
Procedimiento para seleccionar el mejor pronóstico en series estacionarias

1. Identificar el tipo de serie y/o componentes

A través de

Grafica de serie

No estacionaria Estacionaria

Método de 2. Aplicar la técnica estadística para obtener


descomposición pronósticos (Suavización exponencial simple)

Modelo: Ŷ t + 1 = αYt + (1 - α)Ŷ t, 0 < α < 1

Con las constantes (α) elegidas calcular el


pronóstico

3. Evaluar la idoneidad del pronóstico

Descartar el No
¿SR ɛ [-2, 2]?
pronóstico
Si

4. Escoger el mejor modelo de pronóstico


(Menor PEMA)
Estadística Aplicada II 202301 159

Ejercicios

60. Explique qué es una serie de tiempo.

61. ¿Cuáles son las características resaltantes de una serie estacionaria?

62. ¿Cuáles son las características resaltantes de una serie no estacionaria?

63. En suavización exponencial, si usted desea dar un peso significativo a las observaciones más recientes,
entonces la constante de suavización deberá ser:
a. cercana a 0
b. cercana a 1
c. cercana a 0.5
d. menor al error

64. ¿Cuál de las siguientes opciones se emplearía para alertar al usuario acerca de un modelo de pronóstico
que tiene un error significativo en los últimos períodos?
a. La constante de suavización
b. La señal de rastreo
c. El coeficiente de regresión
d. El coeficiente de determinación

65. Bobinas de acero. La empresa Aceros S.A. se dedica a la distribución de aceros, la


cual corta hojas de acero de bobinas suministradas por grandes fabricantes. Un
pronóstico exacto de utilización de bobinas podría ser muy útil para controlar los
inventarios de materia prima y eso le permitirá al gerente de la empresa tomar la
decisión de abastecimiento oportuno. Si el pronóstico para la cantidad de acero
utilizado para el siguiente periodo es mayor que 250 kg., entonces decidirá hacer
un nuevo pedido.

Las cantidades utilizadas en los últimos 23 meses de utilización de acero (en kilos) se proporcionan a
continuación:

Año Mes Cantidad de acero (kg) Año Mes Cantidad de acero (kg)
Octubre 206,81 Enero 275,63
2021 Noviembre 131,08 Febrero 205,81
Diciembre 163,46 Marzo 304,58
Enero 149,95 Abril 293,43
2023
Febrero 169,80 Mayo 273,73
Marzo 216,84 Junio 178,84
Abril 288,97 Julio 288,97
Mayo 219,02 Agosto 213,02
Junio 165,89
2022
Julio 179,74
Agosto 251,97
Setiembre 188,75
Octubre 304,58
Noviembre 293,43
Diciembre 159,73
Unidad 3. Modelos de pronósticos 160
¿Qué decisión deberá tomar el gerente de la empresa distribuidora de acero?

a. ¿Cuál es la problemática que deberá resolver la empresa? (marque la respuesta más cercana)

i. ¿Existe relación lineal entre la cantidad de acero usado y el tiempo?


ii. ¿El gerente decidirá hacer nuevo pedido de acero para controlar el inventario de materia prima?
iii. ¿En cuánto se estima el pronóstico de cantidad de acero utilizado para el siguiente periodo?
iv. ¿La cantidad de acero utilizado para el siguiente periodo es mayor que 250 kg?
v. ¿El gerente necesita saber cuál será el pronóstico de cantidad de acero utilizado para el siguiente
periodo?

b. Defina las variables dependiente e independiente del problema.

Variable dependiente 𝑌

Variable independiente 𝑋

c. Analice el gráfico de la demanda de acero e indique a qué tipo de serie corresponde (estacionaria o
no estacionaria)

Serie de tiempo de la demanda de acero (kg)

350.00
304.58 304.58
288.97 293.43 293.43 288.97
300.00
275.63
251.97
Cantidad de acero (Kg)

250.00 219.02 273.73


206.81 216.84

200.00
179.74
163.46 205.81 213.02
169.80 188.75
178.84
150.00 165.89
149.95 159.73
131.08
100.00

50.00

0.00
Octubre

Enero

Mayo

Octubre

Enero
Marzo

Julio

Agosto

Marzo

Julio

Agosto
Mayo
Noviembre

Diciembre

Febrero

Junio

Setiembre

Noviembre

Diciembre

Febrero

Junio
Abril

Abril

2021 2022 2023

d. Calcule el pronóstico con el método de suavización exponencial simple:

𝑌̂𝑡+1 = 𝛼 𝑌𝑡 + (1 − 𝛼) 𝑌̂𝑡

donde se utilizó α = 0,3; 0,5 y 0,7.


Estadística Aplicada II 202301 161
Si 𝛼 = 0,3

Cantidad de
Año Mes 𝑌̂𝑡+1 = 𝛼𝑌𝑡 + (1 − 𝛼)𝑌̂𝑡 𝑒𝑡 = 𝑌𝑡 − 𝑌̂𝑡 |𝑒𝑡 | |𝑌𝑡 − 𝑌̂𝑡 |/𝑌𝑡
acero (kg), Yt
Octubre 206,81 206,81 0,000 0,000 0,000
2021 Noviembre 131,08 206,81 -75,730 75,730 0,578
Diciembre 163,46 184,09 -20,631 20,631 0,126
Enero 149,95 177,90 -27,952 27,952 0,186
Febrero 169,80 169,52 0,284 0,284 0,002
Marzo 216,84 169,60 47,239 47,239 0,218
Abril 288,97 183,77 105,197 105,197 0,364
Mayo 219,02 215,33 3,688 3,688 0,017
Junio 165,89 216,44 -50,548 50,548 0,305
2022
Julio 179,74 201,27 -21,534 21,534 0,120
Agosto 251,97 194,81 57,156 57,156 0,227
Setiembre 188,75 211,96 -23,211 23,211 0,123
Octubre 304,58 205,00 99,583 99,583 0,327
Noviembre 293,43 234,87 58,558 58,558 0,200
Diciembre 159,73 252,44 -92,710 92,710 0,580
Enero 275,63 224,63 51,003 51,003 0,185
Febrero 205,81 239,93 -34,118 34,118 0,166
Marzo 304,58 229,69 74,888 74,888 0,246
Abril 293,43 252,16 41,271 41,271 0,141
2023
Mayo 273,73 264,54 9,190 9,190 0,034
Junio 178,84 267,30 -88,457 88,457 0,495
Julio 288,97 240,76 48,210 48,210 0,167
Agosto 213,02 255,22 -42,203 42,203 0,198
Pronóstico 242.53 Σ = 119.17 Σ = 1073.36 Σ = 5.0025

Pronóstico para t=24 → 𝑌̂24 = (0.3)(213.02) + (1 − 0.3)(255.223) = 242.53

∑𝑛𝑡=1|𝑌𝑡 − 𝑌̂𝑡 |
𝑌𝑡 5.0025
𝑃𝐸𝑀𝐴 = =( ) ∗ 100% = 21.75%
𝑛 23

Tabla de resumen
Constante de suavización Pronósticos PEMA
α = 0,3 242.56 21.75%
α = 0,5
α = 0,7

e. A partir del cálculo de la señal de rastreo, evaluar la idoneidad del pronóstico calculado con cada
constante de suavización (α = 0,3; α = 0,5 y α = 0,7).

Cuando α = 0.3, las medidas del error de pronóstico resultan:


𝑛

𝐶𝐸𝐹 = ∑(𝑌𝑡 − 𝑌̂𝑡 ) = 119.17


𝑡=1
Unidad 3. Modelos de pronósticos 162
∑𝑛𝑡=1|𝑌𝑡 − 𝑌̂𝑡 | 1073.36
𝐷𝐴𝑀 = = =
𝑛 23

CEF 119.17
SR = = = 2.55
DAM 23

Constante de suavización CEF DAM Señal de rastreo (SR)


α = 0,3 119.17 46.67 2.55

α = 0,5

α = 0,7

f. En base a la medición del error 𝑃𝐸𝑀𝐴, escoja el mejor pronóstico.


g. Indique la respuesta al problema presentado en el caso.

66. La empresa Toy S.A. dedicada por años a la fabricación y venta de juguetes lúdicos a nivel nacional, desea
invertir en publicidad para promocionar sus nuevas líneas de juguetes. La empresa desea determinar el
pronóstico de las ventas de los productos, para tomar decisiones internas en la empresa. Para ello, el área
de administración recolectó las ventas, en miles de soles, desde el I trimestre de 2021 hasta el III trimestre
de 2023.

Año Trimestre Yt
I 79
II 87
2021
III 77
IV 81
I 89
II 79
2022
III 76
IV 87
I 79
II 87
2023
III 86
IV ¿….?

Si el pronóstico de las ventas para el IV trimestre de 2023 supera los 83450 soles, la empresa invertirá en
publicidad para promocionar la nueva línea de juguetes. ¿Cuál será la decisión de la empresa? Utilice α =
0.40, 0.70 y 0.90. Desarrolle las dimensiones del razonamiento cuantitativo: interpretación,
representación, análisis y argumentación.
Estadística Aplicada II 202301 163
67. La empresa Construc realiza mantenimiento a la vía del tren Huancayo – Huancavelica y debe programar
una próxima restructuración en las partes de la vía desgastada. El trabajo de restructuración será
programado para la primera semana de febrero del 2023, solo si, el pronóstico del número de pasajeros
del mes de febrero es menor a 11000 pasajeros.

t Año Mes Yt
1 Julio 12484
2 Agosto 12198
3 Septiembre 10865
2021
4 Octubre 12257
5 Noviembre 10779
6 Diciembre 11957
7 Enero 10701
8 Febrero 12132
9 Marzo 10331
10 Abril 12552
11 Mayo 11154
12 Junio 11890
2022
13 Julio 9995
14 Agosto 10043
15 Septiembre 10709
16 Octubre 14231
17 Noviembre 13073
18 Diciembre 11182
19 Enero 10667
20 Febrero 10669
21 Marzo 12247
22 2023 Abril 9783
23 Mayo 12653
24 Junio 12461
25 Julio 10764

¿Cuál será la decisión de la empresa?

Utilice α = 0.3, 0.5, 0.7 y 0.9. Desarrolle las dimensiones del razonamiento cuantitativo: interpretación,
representación, análisis y argumentación.
Unidad 3. Modelos de pronósticos 164
Método de descomposición

Bibliografía

• Anderson David, Sweeney Dennis y Willians Thomas (2010). Estadística para la administración y economía.
10ma Edición. Cengage Learning Editores, México D.F. Capítulo 18. Página 780.
• Render Barry y Slair Ralph. (2016). Métodos cuantitativos para los negocios. 12va Edición. Pearson Prentice
Hall. Capítulo 5.3. Página 151.

Como se comentó anteriormente una serie de tiempo representa el comportamiento de un conjunto de


valores medidos en incrementos sucesivos de tiempo. Ese comportamiento puede ser explicado por cierto
componentes específicos que son necesarios estudiar. Para esto, se utiliza el método de descomposición
cuya finalidad es analizar cada componente por separado.

Para representar cada componente de una serie de tiempo no estacionaria se utiliza una representación o
modelo matemático.

Modelo multiplicativo

El modelo multiplicativo permite descomponer una serie de tiempo no estacionaria como el producto de
cuatro componentes:

𝑌 =𝑇×𝐸×𝐶×𝐼

donde:

• 𝑌 ≔ Valor real de la variable de interés.


• 𝑇 ≔ Tendencia. Componente que representa el crecimiento o disminución en la serie sobre un periodo a
largo plazo.
• 𝐸 ≔ Estacionalidad. Es un patrón de cambio que se repite de manera regular en periodos de corto plazo.
• 𝐶 ≔ Ciclo/Cíclico. Es la fluctuación en forma de onda alrededor de la tendencia, muestran variaciones a
periodos de mediano plazo.
• 𝐼 ≔ Componente irregular. Son variaciones aleatorias que ocurren en una serie por acontecimientos
inesperados.

Hay series de tiempo no estacionarios que solo contienen el componente de tendencia o solo el componente
estacional o ambos componentes, el de tendencia y estacional a la vez. En este último caso, el modelo
multiplicativo a considerar es:

𝑌̂𝑡 = 𝑇̂𝑡 × 𝐸̂𝑡

donde:

𝑌̂𝑡 ≔ Pronóstico de la variable de interés en el periodo 𝑡


𝑇̂𝑡 ≔ Componente estimado de tendencia sin estacionalidad para el periodo 𝑡
𝐸̂𝑡 ≔ Componente estimado de estacionalidad para el periodo 𝑡
Estadística Aplicada II 202301 165

Procedimiento para realizar pronóstico en serie de tiempo no estacionaria

Paso 1: Estimar y analizar el componente estacional (𝐸̂ )

Calcular los índices estacionales ajustados.

𝐸̂𝑡 = 𝐼𝐸𝐴

Paso 2: Desestacionalizar la serie de tiempo

Serie sin el componente estacional

𝑌 𝑌
𝑌𝑠𝑖𝑛 𝑖𝑛𝑡𝑒𝑛𝑐𝑖𝑜𝑛𝑎𝑙𝑖𝑑𝑎𝑑 = =
𝐸̂ 𝐼𝐸𝐴

Paso 3: Estimar el mejor modelo para la tendencia (T̂ t )

A partir de la serie sin estacionalidad (𝑌̂𝑠𝑖𝑛 𝑖𝑛𝑡𝑒𝑛𝑐𝑖𝑜𝑛𝑎𝑙𝑖𝑑𝑎𝑑 ), utilizando regresión simple.

Paso 4: Calcular los pronósticos (𝑌̂𝑡 )

Con el mejor modelo de regresión.

𝑌̂𝑡 = 𝑇̂𝑡 × 𝐸̂𝑡

Ejercicios

68. Mencione y describa los componentes de una serie no estacionaria.

69. Si por lo general las ventas de una empresa son más altas en los meses de verano que en los meses de
invierno, esta variación se conoce como el componente:
a. tendencia
b. estacional
c. aleatorio
d. cíclico

70. Un índice estacional puede ser menor que uno, igual a uno o mayor que uno. Explique qué significaría cada
uno de estos valores.

71. ¿Qué diferencia encuentra usted en 𝑌 e 𝑌𝑠𝑖𝑛 𝑖𝑛𝑡𝑒𝑛𝑐𝑖𝑜𝑛𝑎𝑙𝑖𝑑𝑎𝑑 ?

72. La fábrica Rapid Pinturas S.A. se dedica a la producción de pinturas desde hace cinco
años. Con la finalidad de incrementar la producción, el gerente de la fábrica decidirá
crear una nueva planta de producción solo si, el número operaciones a realizar en el
primer trimestre del año pasado, es mayor a 200 operaciones.

Para ello cuenta con datos desde el cuarto trimestre del 2016 hasta el cuarto trimestre del 2020. Analice
la serie histórica del número de operaciones y prepare un informe que ayude a tomar la decisión al
gerente. Use un nivel de significación del 5%.
Unidad 3. Modelos de pronósticos 166

a. ¿Cuál es la problemática que se deberá resolver?

i. ¿Cuánto es el número de operaciones cuando la empresa tiene cinco años de funcionamiento?


ii. ¿La fábrica Rapid Pinturas S.A. solicitará crear una nueva planta de producción?
iii. ¿Existe relación lineal entre el número de operaciones y producción de pinturas?

b. Defina la variable dependiente (𝑌) e independiente (𝑋) del problema

Y
X

c. A partir del caso se obtuvo la siguiente gráfica de la serie, ¿qué conclusiones podría mencionar?

Paso 1: Estimar y analizar el componente estacional (Ê )

d. Calcular los índices estacionales ajustados (𝐼𝐸𝐴).

𝐸̂𝑡 = 𝐼𝐸𝐴

e. Analice los índices estacionales ajustados obtenidos con Minitab.

Método

Tipo de modelo Modelo multiplicativo


Datos Y
Longitud 17
Número de valores faltantes 0
Estadística Aplicada II 202301 167
Índices estacionales
Período Índice
1 0.98464
2 0.98291
3 1.03050
4 1.00194

Interpretación de los índices estacionales ajustados.

Trimestre Índice estacional ajustado (IEA) Interpretación


En el I trimestre, el número de operaciones está por
I 0.98464 debajo en un 1.536% con respecto al promedio del
número de operaciones del año.

II 0.98291

En el III trimestre, el número de operaciones está por


III 1.03050 encima en un 3.05 % con respecto al promedio del
número de operaciones del año.

IV 1.00194

Paso 2: Desestacionalizar la serie de tiempo.

Serie sin el componente estacional

𝑌 𝑌
𝑌𝑠𝑖𝑛 𝑖𝑛𝑡𝑒𝑛𝑐𝑖𝑜𝑛𝑎𝑙𝑖𝑑𝑎𝑑 = =
̂
𝐸 𝐼𝐸𝐴

f. Dividir cada valor de la serie (𝑌), entre su respectivo índice estacional ajustado (𝐼𝐸𝐴), es decir:

𝑌
𝑌𝑠𝑖𝑛 𝑖𝑛𝑡𝑒𝑛𝑐𝑖𝑜𝑛𝑎𝑙𝑖𝑑𝑎𝑑 =
𝐼𝐸𝐴

Número de Y sin estacionalidad


Tiempo (t) Año Trimestre
operaciones (Yt) En Minitab: DAjE1
81
1 2016 IV 81 = 80.84316426
1.00194
2 I 96 97.49756256
3 II 100 101.7387146
2017
4 III 120 116.4483261
5 IV 121 120.7657145
⋮ ⋮ ⋮ ⋮ ⋮

Paso 3: Estimar el mejor modelo para la tendencia (T̂ t )

A partir de la serie sin estacionalidad (Ŷ sin estacionalidad ), utilizando regresión simple.
Unidad 3. Modelos de pronósticos 168

g. Se estima el mejor modelo de la tendencia usando regresión simple. Asuma que se cumplen los
supuestos de todos los modelos de regresión.

Variable dependiente o respuesta:


Variable independiente:

Análisis de regresión: DAjE1 vs. T


Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Constante 88.04 2.53 34.73 0.000
T 5.537 0.247 22.38 0.000 1.00
Resumen del modelo
R-cuad. R-cuad.
S R-cuad. (ajustado) (pred)
4.99695 97.09% 96.90% 95.85%
Análisis de Varianza

Fuente GL SC Ajust. MC Ajust. Valor F Valor p


Regresión 1 12508.3 12508.3 500.94 0.000
T 1 12508.3 12508.3 500.94 0.000
Error 15 374.5 25.0
Total 16 12882.8

Análisis de regresión: DAjE1 vs. T, T^2


Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Constante 80.62 3.43 23.51 0.000
T 7.879 0.877 8.98 0.000 18.05
T^2 -0.1301 0.0473 -2.75 0.016 18.05
Resumen del modelo
R-cuad. R-cuad.
S R-cuad. (ajustado) (pred)
4.16892 98.11% 97.84% 96.74%

Análisis de Varianza

Fuente GL SC Ajust. MC Ajust. Valor F Valor p


Regresión 2 12639.5 6319.75 363.62 0.000
T 1 1403.0 1402.96 80.72 0.000
T^2 1 131.2 131.22 7.55 0.016
Error 14 243.3 17.38
Total 16 12882.8

Análisis de regresión: LN(DAjE1) vs. T


Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Constante 4.5236 0.0314 144.00 0.000
T 0.04231 0.00307 13.80 0.000 1.00
Resumen del modelo
Estadística Aplicada II 202301 169

R-cuad. R-cuad.
S R-cuad. (ajustado) (pred)
0.0619237 92.70% 92.21% 89.31%
Análisis de Varianza

Fuente GL SC Ajust. MC Ajust. Valor F Valor p


Regresión 1 0.73052 0.730516 190.51 0.000
T 1 0.73052 0.730516 190.51 0.000
Error 15 0.05752 0.003835
Total 16 0.78803

Análisis de regresión: LN(DAjE1) vs. LN(T)


Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Constante 4.3600 0.0211 206.85 0.000
Ln(T) 0.27621 0.00996 27.74 0.000 1.00
Resumen del modelo
R-cuad. R-cuad.
S R-cuad. (ajustado) (pred)
0.0316968 98.09% 97.96% 97.32%
Análisis de Varianza

Fuente GL SC Ajust. MC Ajust. Valor F Valor p


Regresión 1 0.77296 0.772964 769.36 0.000
Ln(T) 1 0.77296 0.772964 769.36 0.000
Error 15 0.01507 0.001005
Total 16 0.78803

̂𝒕 )
Paso 4: Calcular los pronósticos (𝒀

Con el mejor modelo de regresión.

𝑌̂𝑡 = 𝑇̂𝑡 × 𝐸̂𝑡

h. Calcule el pronóstico para el I trimestre de 2021.


i. Indique la respuesta a la problemática del caso.

73. Talma es un operador de servicios aeroportuarios que opera en el Aeropuerto Internacional Capitán FAP
Carlos Martínez de Pinillos de la ciudad de Trujillo, región La Libertad. Desea aplicar un nuevo proceso en
sus operaciones, puesto que le permite prever los requerimientos de maquinaria, personal, espacio y otros
recursos.
Si los pronósticos del número de embarques a realizar, durante los dos últimos trimestres del 2023, son
menores a 2000 embarques, optará por el nuevo proceso de lo contrario mantiene el actual. Los datos
que se muestran corresponden al número de embarques realizados desde el primer trimestre del año
2019 hasta el primer trimestre del año 2023.

Año
Trimestre
2019 2020 2021 2022 2023
I 440 500 576 749 837
II 510 630 750 830
Unidad 3. Modelos de pronósticos 170
III 525 610 695 745
IV 745 778 839 928

Asumiendo que cumplen los supuestos de los modelos de regresión y para validar los modelos utilizar α =
0,01. ¿Talma debe de implementar el nuevo proceso en sus operaciones?

Desarrolle las dimensiones del razonamiento cuantitativo: interpretación, representación, análisis y


argumentación.

74. Stark es una empresa dedicada a la venta de repuestos, reparación y mantenimiento de vehículos
multimarca, tiene como visión generar bienestar brindando un servicio de excelencia que beneficie a
nuestros clientes, trabajadores y sociedad en general.

El gerente de comercialización de la empresa afirma que, si el monto de las ventas de repuestos del primer
trimestre del 2023 es mayor a 5000 dólares, solicitará al departamento de logística incrementar la
importación de repuestos. Para tomar una decisión al respecto, recopila la información sobre los montos
de ventas de estos repuestos, desde el primer trimestre del año 2018 hasta el tercer trimestre del año
2022, tal como se muestra a continuación:

Año Trimestre Yt Año Trimestre Yt


I 4175 I 5042
II 3662 II 4025
2018 2021
III 3745 III 4245
IV 3725 IV 4120
I 4454 I 5523
II 3852 2022 II 4134
2019
III 4021 III 4212
IV 3756
I 4756
II 3650
2020
III 4210
IV 4000

Utilizando un nivel de significación del 5% y asumiendo que cumplen los supuestos de los modelos de
regresión ¿Cuál será la decisión del gerente de comercialización de la empresa?

Desarrolle las dimensiones del razonamiento cuantitativo: interpretación, representación, análisis y


argumentación.

75. Las ventas de aluminio (𝑌), trimestrales, desde 2020 se indican a continuación (en millones de dólares).

Año Trimestre 𝒀 𝒀 sin estacionalidad


2020 1 210 173.0
2020 2 180 156.7
2020 3 60 136.7
2020 4 246 205.3
2021 1 214 176.3
2021 2 216 188.0
2021 3 82 186.8
Estadística Aplicada II 202301 171
2021 4 230 192.0
2022 1 246 ?
2022 2 228 ?
2022 3 91 ?
2022 4 280 233.7

Los índices estacionales ajustados por trimestre son, respectivamente.

Trimestre Índice
1 121.4
2 114.9
3 43.9
4 119.8

Y la ecuación estimada de la tendencia es ̂𝑦 = 151,96 + 5,55𝑡

Pronostique las ventas de aluminio para cada uno de los trimestres del año 2023.
Unidad 3. Modelos de pronósticos 172
Referencias bibliográficas

Hanke, J. & Reitsch, A. (1996). Estadística para negocios. Mc Grae Hill.

Gutiérrez Pulido, H., & Vara Salazar, R. de la. (2012). Análisis y diseño de experimentos (3a ed.). McGraw-Hill
Interamericana.

Triola, M. F. (2018). Estadística (12a ed.). Pearson Educación.

También podría gustarte