Tema 1
Estadística Aplicada
1. Distribuciones de Probabilidades
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Índice Pág.
1.1. Introducción 3
1.2. ¿Qué es una distribución de probabilidad? 3
1.3. Variables aleatorias 5
1.4. Media, Varianza, y Desviación estándar de una
distribución de probabilidad 7
1.5. Distribución de probabilidad Binomial 11
1.6. Distribución de probabilidad Hipergeométrica 22
1.7. Distribución de probabilidad de Poisson 25
1.8. Distribución de probabilidad Normal 30
1.9. Aproximación Normal a la Binomial 50
Recursos complementarios 56
Bibliografía 57
Distribuciones de Probabilidades 2
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
1.1. Introducción
Una distribución de probabilidades da toda la gama de valores que
pueden ocurrir con base en un experimento, y resulta similar a una distribución
de frecuencias. Sin embargo, en vez de describir el pasado, define qué tan
probable es que suceda algún evento futuro.
Por ejemplo, un productor de medicamentos puede afirmar que un tratamiento
ocasionará pérdida de peso en un 80% de la población. Una agencia de
protección al consumidor puede probar dicha terapéutica en una muestra de
seis personas. Si la declaración del productor es cierta, es casi imposible tener
un resultado donde ninguna persona de la muestra pierda peso, y es muy
probable que 5 de las 6 adelgacen.
Presentaremos la media, la varianza y la desviación estándar de distribuciones
probabilísticas, así como tres familias de distribuciones probabilísticas
discretas: la binomial, la distribución hipergeométrica, y la distribución de
Poisson, que se basan en variables aleatorias discretas, que pueden tomar
sólo valores específicos.
1.2. ¿Qué es una distribución probabilística?
(Ref. LIND, A. Douglas; et. al. (2012). Estadística aplicada a los negocios y
a la economía. Pág. 190).
Una distribución de probabilidades muestra los posibles resultados de un
experimento, y la probabilidad de cada resultado.
Distribución probabilística: Enumeración de todos los resultados de un
experimento junto con la probabilidad asociada a cada uno.
¿Cómo se puede generar una distribución de probabilidades?
Ejemplo:
Suponga que se está interesado en el número de caras (H) que caen al lanzar
tres veces una moneda. Este es el experimento. Los posibles resultados son:
Distribuciones de Probabilidades 3
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
cero, uno, dos y tres caras. ¿Cuál es la distribución probabilística para el
número de caras?
Solución:
Hay ocho posibles resultados. En la primera tirada podría caer cruz (T), otra
igual en el segundo lanzamiento, y otra más en el tercero. O podría caer cruz,
cruz y cara, en ese orden. Etc…..
Tirada de la moneda
Posible resultado Número de cara
Primera Segunda Tercera
1 T T T 0
2 T T H 1
3 T H T 1
4 T H H 2
5 H T T 1
6 H T H 2
7 H H T 2
8 H H H 3
Observe que el resultado “cero caras” ocurrió sólo una vez, “una cara” apareció
tres veces; “dos caras”, tres veces, y el resultado “tres caras”, sólo una vez. Es
decir, “cero caras” ocurrió una de ocho veces. De modo que la probabilidad de
cero caras es un octavo (1/8); la de una cara vale tres octavos (3/8), y así
sucesivamente.
La distribución de probabilidades se muestra en la Tabla siguiente. Observe
que el total de las probabilidades de todos los posibles eventos es 1.000. Esto
siempre es cierto.
Número de caras Probabilidad del resultado,
x P(x)
1
0 = 0.125
8
3
1 = 0.375
8
3
2 = 0.375
8
1
3 = 0.125
8
8
Total = 1.000
8
TABLA. Distribución probabilística para los eventos de cero, una, dos y tres caras resultantes en tres lanzamientos de
una moneda.
La misma información puede representarse de manera gráfica, véase el diagrama
Distribuciones de Probabilidades 4
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
siguiente:
Diagrama. Representación gráfica del número de caras y la probabilidad asociada resultante de tres lanzamientos de
una moneda.
Características de una distribución probabilística:
1. La probabilidad de un resultado especifico debe estar siempre entre 0 y
1, inclusive. Las probabilidades de x, representadas por P(x) en el
ejemplo del lanzamiento de monedas, fueron: 0.125 , 0.375 , etc.
2. La suma de las probabilidades de todos los resultados mutuamente
excluyentes, es 1.000. Con referencia a la Tabla: 0.125 + 0.375 + 0.375
+ 0.125 = 1.000
1.3. Variables Aleatorias
(Ref. LIND, A. Douglas; et. al. (2012). Estadística aplicada a los negocios y
a la economía. Pág. 192).
En cualquier experimento aleatorio, los resultados ocurren al azar. Por ejemplo,
lanzar un dado es un experimento: puede ocurrir cualquiera de seis resultados.
Algunos experimentos dan resultados cuantitativos (como dólares, el peso o el
número de hijos), y otros los dan cualitativos (como color racial o la preferencia
religiosa).
Los ejemplos ilustrarán mejor lo que significa variable aleatoria.
Distribuciones de Probabilidades 5
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
• Si se considera el número de empleados ausentes de su turno el día
lunes, el mismo podría ser 0, 1, 2, 3, …. El número de empleados
ausentes es la variable aleatoria.
• Si se pesa un lingote de acero, el resultado (en libras) podría ser 2500,
2500.1, 2500.13, y así sucesivamente, dependiendo de la exactitud de la
báscula. El peso es la variable aleatoria.
• Si se lanzan al aire dos monedas y se considera el número de caras, el
mismo podría ser cero, una a dos. Puesto que el número exacto de
anversos que resultan de este experimento se debe al azar, el número
de caras que aparezcan es la variable aleatoria.
• Otras variables aleatorias podrían ser: el número de lámparas
defectuosas producidas durante la semana, la estatura de las
integrantes de un equipo de basquetbol femenino, la cantidad de
corredores en una maratón, y el número diario de conductores que
cometieron infracción por manejar bajo la influencia de alcohol.
Variables aleatorias: Cantidad que es el resultado de un experimento aleatorio
el cual, debido al azar, puede tomar valores diferente.
El siguiente diagrama muestra estos tres términos relacionados: el resultado, el
evento, y la variable aleatoria.
Una variable aleatoria puede ser o discreta o continua.
Variable aleatoria discreta
Una variable aleatoria discreta puede asumir sólo un cierto número de valores
Distribuciones de Probabilidades 6
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
específicos. Si hay 100 empleados en una empresa, la cantidad de los
ausentes el lunes, puede ser sólo 0, 1, 2, 3, …, 100. Por lo general, una
variable aleatoria discreta es el resultado de contar algo.
Variables Aleatoria Discreta: Variable que sólo puede tener ciertos valores
claramente separados, que resultan de contar algún elemento de interés.
Debe observar que una variable discreta puede, en algunos casos, tener
valores fraccionarios o decimales. Dichos valores deben estar separados, es
decir, tener cierta distancia entre ellos. Como ejemplo, las puntuaciones
otorgadas por jueces en lo referente a aspectos técnicos y forma artística en el
patinaje sobre hielo, son cifras decimales, como: 7.2, 8.9 y 9.7. Estos valores
son discretos porque existe una distancia entre las calificaciones, por ejemplo,
entre 8.3 y 8.4. Una puntuación no puede ser 8.34, o bien 8.347.
Variable aleatoria continua
Si se mide algo, como el ancho de una habitación, la altura de una persona o el
diámetro exterior de una pieza, se dice que la variable es una variable aleatoria
continua. Puede tomar uno de una cantidad infinitamente grande de valores,
dentro de ciertas limitaciones. Por ejemplo:
• La distancia (en kilómetros) entre Quito y Riobamba podría ser 190,
190.1, 190.162 y así sucesivamente, dependiendo ello de la exactitud
del dispositivo de medición.
• La presión de un neumático (en libras por pulgada cuadrada o psi)
podría ser 28, 28.6, 28.62, 28.624, etcétera, dependiendo esto de la
exactitud del medidor.
Es lógico que, si se organiza un conjunto de variables aleatorias discretas en
una distribución de probabilidades, la distribución se denomina distribución
probabilística discreta.
Los medios utilizados, así como las interpretaciones de probabilidad, son
diferentes para las variables aleatorias discretas o las continuas.
1.4. Media, Varianza, y Desviación Estándar de
Distribuciones de Probabilidades 7
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
una Distribución de Probabilidad
(Ref. LIND, A. Douglas; et. al. (2012). Estadística aplicada a los negocios y
a la economía. Pág. 193).
Sabemos que, la media indica la ubicación central de los datos; y la varianza, la
dispersión de éstos. De manera semejante, una distribución probabilística se
resume indicando su media y su varianza. La media de una distribución de
probabilidades se denota con la letra griega miu (μ), y la varianza por el
cuadrado indicado de la letra griega sigma (σ).
Media
La media es un valor particular que sirve para representar una distribución
probabilística. También es el valor promedio a largo plazo de la variable
aleatoria. La media de una distribución probabilística se denomina también
valor esperado, E(x). Es un promedio ponderado para el que los valores
posibles que se consideran son afectados por las probabilidades
correspondientes de ocurrencia.
La media de una distribución probabilística discreta se calcula con la fórmula:
MEDIA DE UNA DISTRIBUCIÓN PROBABÍLISTICA:
μ = E(x) = ∑ [xP(x)]
donde P(x) es la probabilidad de cada valor posible de la variable aleatoria x.
En otras palabras, se multiplica el valor de cada x por su probabilidad de
ocurrencia, y luego se suman estos productos.
Varianza y Desviación Estándar
Como se sabe, la media es un valor característico utilizado para representar
una distribución probabilística discreta. Sin embargo, no describe el grado de
dispersión (o variación) en una distribución. La varianza si lo hace. Una
comparación de dos varianzas permite confrontar la variación en dos
distribuciones que tengan la misma media, pero diferentes dispersiones. La
fórmula para la varianza de una distribución de probabilidades es:
Distribuciones de Probabilidades 8
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
VARIANZA DE UNA DISTRIBUCIÓN PROBABÍLISTICA:
σ2 = ∑[(x − μ)2 P(x)]
Los pasos de cálculo son:
1. Restar la media a cada valor y elevar al cuadrado la diferencia.
2. Multiplicar el cuadrado de cada diferencia, por su probabilidad.
3. Sumar los productos resultantes para llegar a la varianza.
La desviación estándar, σ, se determina tomando la raíz cuadrada de 𝜎 2 ; o
sea, 𝜎 = √𝜎 2 .
Ejemplo:
El señor Aquiles Castro vende automóviles nuevos de la agencia Pelicano.
Generalmente, negocia el mayor número de vehículos, los días sábados. Ha
establecido la siguiente distribución probabilística para el número de autos que
espera vender en un sábado en particular.
Número de automóviles vendidos Probabilidades
x P(x)
0 0.10
1 0.20
2 0.30
3 0.30
4 0.10
Total 1.00
1. ¿Qué tipo de distribución es ésta?
2. En un sábado común, ¿Cuántos autos debe esperar vender Aquiles?
3. ¿Cuál es la varianza de la distribución?
Solución:
1. Este es un ejemplo de una distribución probabilística discreta. Observe que
Aquiles espera la venta en sólo un cierto conjunto de automóviles; no confía
vender 5 ó 50 autos. Además, no puede vender la mitad de un vehículo.
Puede lograr la venta de sólo 0, 1, 2, 3 ó 4 autos. Asimismo, los resultados
son mutuamente excluyentes; no puede vender un total de 3 y 4
automóviles el mismo día.
Distribuciones de Probabilidades 9
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
2. El número medio de autos vendidos se calcula ponderando la cantidad de
vehículos negociados, por la probabilidad de vender este número, y se
totalizan luego los productos aplicando la fórmula correspondiente:
μ = E(x) = Σ[xP(x)]
µ = 0(0.10) + 1(0.20) + 2(0.30) + 3(0.30) + 4(0.10)
µ = 2.10
Estos cálculos se resumen en la siguiente tabla.
Número de
Probabilidades
automóviles vendidos x * P(x)
P(x)
x
0 0.10 0.00
1 0.20 0.20
2 0.30 0.60
3 0.30 0.90
4 0.10 0.40
Total 1.00 E(x)= 2.10
¿Cómo se interpreta una media de 2.10?
Este valor indica que, para un gran número de días sábado, el Sr. Castro
espera vender un promedio de 2.10 autos al día. (Desde luego no es posible
vender exactamente 2.10 vehículos en un sábado en particular). Por tanto, a la
media a veces se le considera como el valor esperado.
Número de
automóviles Probabilidades
(x- 𝝁) (x- 𝝁)2 (x- 𝝁)2 P(x)
vendidos P(x)
x
0 0.10 0 - 2.1 4.41 0.441
1 0.20 1 - 2.1 1.21 0.242
2 0.30 2 - 2.1 0.01 0.003
3 0.30 3 - 2.1 0.81 0.243
4 0.10 4 - 2.1 3.61 0.361
σ2 = 1.290
3. De nuevo es útil una tabla para sistematizar los cálculos para la varianza
cuyo valor es de 1.290.
Distribuciones de Probabilidades 10
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Recuerde que la desviación estándar, σ, es la raíz cuadrada de la varianza. En
este problema, √𝜎 2 = √1.290 = 1.136 . ¿Cómo interpretar una desviación
estándar de 1.136 automóviles? Si la vendedora Rita Ruiz también vendió una
media de 2.10 autos los sábados, y la desviación estándar en sus ventas fue
de 1.910 vehículos, se concluirá que existe más variabilidad en las
transacciones sabatinas de la Sra. Ruiz que en las del Sr. Castro (debido a que
1.910 > 1.136).
A continuación, se presenta una fórmula alternativa para la varianza de una
distribución probabilística discreta. Tiene la ventaja de evitar la mayoría de las
restas.
𝜎 2 = 𝛴 𝑥 2 𝑃(𝑥) − 𝜇 2
Para el ejemplo de los datos del señor Aquiles Castro, tenemos:
x x2 P(x) x2 P(x)
0 0 0.1 0.00
1 1 0.2 0.20
2 4 0.3 1.20
3 9 0.3 2.70
4 16 0.1 1.60
5.70
Utilizando la formula anterior, la varianza:
𝜎 2 = ∑ 𝑥 2 𝑃(𝑥) − 𝜇 2 = 5.70 − (2.1)2 = 1.29 ,
lo cual es el mismo valor encontrado antes.
1.5. Distribución de probabilidad binomial
(Ref. LIND, A. Douglas; et. al. (2012). Estadística aplicada a los negocios y
a la economía. Pág. 198).
La distribución probabilística binomial es un ejemplo de una distribución
probabilística discreta. Una característica de una distribución binomial es que
sólo hay dos resultados posibles en una realización específica de un
Distribuciones de Probabilidades 11
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
experimento.
Por ejemplo, la respuesta a una pregunta del tipo verdadero/falso es
precisamente verdadera o falsa. Los resultados son mutuamente excluyentes,
lo cual significa que la respuesta a una pregunta de verdadero/falso no puede
ser verdadera y falsa al mismo tiempo.
Otros ejemplos:
El departamento de control de calidad de una empresa, clasifica un producto
como aceptable; un trabajador es clasificado como empleado o desempleado, y
una llamada de ventas resulta en que el cliente compre el producto o no lo
compre.
Frecuentemente clasificamos los dos resultados posibles como “éxito” y
“fracaso”. Sin embargo, esta clasificación no implica que un resultado sea
bueno y el otro sea malo.
Otra característica de la distribución binomial es que la variable aleatoria es el
resultado de conteos. Esto es, se cuenta el número de éxitos en la totalidad de
ensayos. Se lanza una moneda cinco veces y se cuenta el número de caras
que resultan; se seleccionan 10 trabajadores y se evalúa el número de ellos
que tienen más de 60 años de edad, o bien se escogen 20 cajas de cereal y se
cuentan las que pesaron más de lo indicado en el paquete.
Otra particularidad de esta distribución es que la probabilidad de un éxito
permanece igual de un ensayo a otro.
Ejemplos:
• La probabilidad de que se adivine la primera pregunta de una prueba de
verdadero/falso en forma correcta (éxito) es igual a un medio (½). Este
es el primer “ensayo”. La probabilidad de adivinar en forma correcta la
segunda pregunta (el segundo ensayo) también vale ½; la probabilidad
de éxito en el tercer ensayo es asimismo ½, y así sucesivamente.
• Si la experiencia revela que el puente elevadizo sobre una vía fluvial
estaba levantado una de cada cinco veces que llegó a él, entonces la
probabilidad de que esté levantado (éxito) la próxima vez que llegue ahí
será de un quinto (1/5), para la siguiente vez de nuevo un (1/5), etc…
La característica final de una distribución probabilística binomial es que un
Distribuciones de Probabilidades 12
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
ensayo es independiente de cualquier otro. Esto significa que no existe una
configuración especifica con respecto a los resultados. Por ejemplo: las
respuestas a una prueba de verdadero/falso no están dispuestas como V, V, V,
F, F, F, V, V, V, etc.
Por lo tanto, una distribución binomial tiene las siguientes características:
1. Un resultado de cada ensayo o realización de un experimento se
clasifica en una de dos categorías mutuamente excluyentes: éxito o
fracaso.
2. La variable aleatoria es el resultado de contar el número de éxitos en
una cantidad fija de ensayos.
3. La probabilidad de un éxito permanece igual para cada ensayo. Lo
mismo sucede con la probabilidad de un fracaso.
4. Los ensayos son independientes, lo cual significa que el resultado de un
ensayo no afecta el resultado de algún otro.
¿Cómo se elabora una distribución probabilística binomial?
Para establecer una distribución binomial, se debe saber:
(1) el número de ensayos; y,
(2) la probabilidad de éxito en cada ensayo.
Por ejemplo, si un examen realizado al término de un seminario de
administración consiste en 20 preguntas de opción múltiple, el número de
ensayos es 20. Si cada pregunta tiene cinco opciones y sólo una es correcta, la
probabilidad de éxito en cada ensayo de una persona que desconozca la
materia, es 0.20. De este modo, la probabilidad de que una persona sin
conocimiento del tema adivine la respuesta a una pregunta en forma correcta,
tiene un valor de 0.20. Por tanto, se cumplen las condiciones descritas para
una distribución binomial.
La distribución probabilística binomial puede describirse utilizando la fórmula:
DISTRIBUCIÓN PROBABILÍSTICA BINOMIAL:
n!
P(x) = πx (1 − π)n−x
x! (n − x)!
donde:
𝑛 es el número de ensayos.
𝑥 es el número de éxitos.
Distribuciones de Probabilidades 13
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
𝜋 es la probabilidad de éxito de cada ensayo.
Observe que utilizamos la letra griega 𝜋 para denotar un parámetro de una
población. No debe confundirse con la constante matemática igual a
3.1416…..
Ejemplo:
Como se sabe, la respuesta a una pregunta de verdadero/falso es correcta o
incorrecta. Considere que: (1) un examen consiste en cuatro preguntas de
verdadero/falso, y (2) un estudiante no sabe nada acerca de la materia. La
posibilidad (probabilidad) de que el alumno adivine la respuesta correcta a la
primera pregunta, es 0.50. Asimismo, la probabilidad de acertar en cada una de
las preguntas restantes vale 0.50.
¿Cuál es la probabilidad de:
1. no obtener exactamente ninguna de las cuatro en forma correcta?
2. obtener exactamente una de las cuatro?
Solución:
1. La probabilidad de no adivinar exactamente ninguna de las cuatro en
forma correcta es 0.0625, que resulta de aplicar la fórmula
correspondiente. (Recuerde que 0! es igual a 1.)
4!
P(0) = (0.50)0 (1 − 0.50)4−0 = 0.0625
0! (4 − 0)!
2. La probabilidad de obtener exactamente una correcta de las cuatro
respuestas es 0.2500, que se obtiene de:
4!
P(0) = (0.50)1 (1 − 0.50)4−1 = 0.2500
(4
1! − 1)!
Las probabilidades de contestar exactamente ninguna (cero), una, dos, tres y
cuatro preguntas de verdadero/falso en forma correcta de un total de cuatro, se
muestra en la Tabla siguiente:
Distribuciones de Probabilidades 14
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Probabilidad
Número de conjeturas correctas
Fracción Decimal
1
0 0.0625
16
4
1 0.2500
16
6
2 0.3750
16
4
3 0.2500
16
1
4 0.0625
16
16
Total 1.000
16
Tabla: Distribución probabilística binomial para 𝑛 = 4, 𝜋 = 0.50
La variable aleatoria en la Tabla se representa gráficamente en el Diagrama
siguiente. Observe que esta distribución es simétrica. Este es siempre el caso
cuando 𝜋, la probabilidad de un éxito, es igual a 0.50.
Diagrama: Distribución probabilística binomial para n = 4, π = 0.50
Diagrama: Distribución probabilística binomial para 𝑛 = 4, 𝜋 = 0.50
Distribuciones de Probabilidades 15
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Uso de “tablas” de probabilidad binomial
Una distribución probabilística binomial es una distribución teórica que, puede
ser generada en forma matemática. Sin embargo, con la excepción de
problemas en los que 𝑛 es pequeña (es decir, 𝑛 = 3, o bien 4), los cálculos
para las probabilidades de 0, 1, 2,… éxitos pueden ser muy largos.
Como ayuda para determinar las probabilidades necesarias, se han
desarrollado una amplia variedad de “tablas” que da las probabilidades de 0, 1,
2, 3,… éxitos para diferentes valores de 𝑛 y 𝜋 . Este tipo de tablas,
generalmente están en los Apéndices de los textos.
Una pequeña parte de una tabla, presenta a continuación:
X 0.05 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.95
0 0.735 0.531 0.262 0.118 0.047 0.016 0.004 0.001 0.000 0.000 0.000
1 0.232 0.354 0.393 0.303 0.187 0.094 0.037 0.010 0.002 0.000 0.000
2 0.031 0.098 0.246 0.324 0.311 0.234 0.138 0.060 0.015 0.001 0.000
3 0.002 0.015 0.082 0.185 0.276 0.313 0.276 0.185 0.082 0.015 0.002
4 0.000 0.001 0.015 0.060 0.138 0.234 0.311 0.324 0.246 0.098 0.031
5 0.000 0.000 0.002 0.010 0.037 0.094 0.187 0.303 0.393 0.354 0.232
6 0.000 0.000 0.000 0.001 0.004 0.016 0.047 0.118 0.262 0.531 0.735
Tabla: Probabilidades binomiales para n = 6
Ejemplo:
Con base en experiencia reciente, 5% de los engranes producidos por una
máquina automática de alta velocidad Carterbell, resultan defectuosos ¿Cuál
es la probabilidad de que si entran seis engranes seleccionados al azar,
exactamente cero sean defectuosos? ¿Exactamente uno? ¿dos? ¿tres?
¿cuatro? ¿cinco? ¿O exactamente seis de los seis? (Nota: 𝑛 = 6, 𝜋 = 0.05. )
Solución:
Observe que se cumple con las condiciones binomiales:
(1) existe una probabilidad constante de éxito (0,05);
(2) hay un número fijo de ensayos (6);
(3) los ensayos son independientes, y
(4) existen sólo dos resultados posibles (un engrane particular es defectuoso o
aceptable).
Distribuciones de Probabilidades 16
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Consulte la Tabla anterior para determinar la probabilidad de exactamente cero
engranes defectuosos. Vaya al margen izquierdo hasta llegar a una x de 0.
Luego trasládese en dirección horizontal a la columna con el encabezado π
igual a 0.05, para determinar la probabilidad, la cual es 0.735.
La probabilidad de exactamente un engrane defectuoso en una muestra de
seis, es igual a 0.232. La distribución probabilística binomial completa para n =
6 y π = 0.05 es:
Número de engranes defectuosos, Probabilidad de ocurrencia,
x P(x)
0 0.735
1 0.232
2 0.031
3 0.002
4 0.000
5 0.000
6 0.000
Desde luego, existe cierta posibilidad de obtener exactamente cinco engranes
defectuosos de seis selecciones aleatorias. Tiene el valor de 0.00000178, que
se obtiene al sustituir los valores adecuados en la fórmula binomial:
6!
P(5) = (0.05)5 (0.95)1
5! (6 − 5)!
P(5) = 6 (0.05)5 (0.95) = 0.00000178
Para tener seis engranes defectuosos de una muestra de seis, la probabilidad
es 0.000000016. Es decir, existe una probabilidad muy pequeña de seleccionar
cinco o seis engranes defectuosos en una muestra de seis.
Observaciones adicionales acerca de las distribuciones binomiales:
1. Si n permanece constante, pero 𝜋 aumenta de 0.05 a 0.95, la forma de la
distribución cambia. Observe en la Tabla siguiente que las probabilidades
para 𝜋 de 0.05 son positivamente asimétricas. A medida que 𝜋 se acerca a
0.50, la distribución tiende hacia arriba una distribución simétrica. Cuando 𝜋
Distribuciones de Probabilidades 17
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
rebasa 0.50 y avanza hacia 0.95, la distribución probabilística será
negativamente asimétrica. En la Tabla se proporcionan las probabilidades
para 𝑛 = 10 y probabilidades de éxito de 0.05, 0.10, 0.20, 0.50 y 0.70. Las
gráficas de estos valores se muestran en el Diagrama siguiente.
x 0.05 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.95
0 0.599 0.349 0.107 0.028 0.006 0.001 0.000 0.000 0.000 0.000 0.000
1 0.315 0.387 0.268 0.121 0.040 0.010 0.002 0.000 0.000 0.000 0.000
2 0.075 0.194 0.302 0.233 0.121 0.044 0.011 0.001 0.000 0.000 0.000
3 0.010 0.057 0.201 0.267 0.215 0.117 0.042 0.009 0.001 0.000 0.000
4 0.001 0.011 0.088 0.200 0.251 0.205 0.111 0.037 0.006 0.000 0.000
5 0.000 0.001 0.026 0.103 0.201 0.246 0.201 0.103 0.026 0.001 0.000
6 0.000 0.000 0.006 0.037 0.111 0.205 0.251 0.200 0.088 0.011 0.001
7 0.000 0.000 0.001 0.009 0.042 0.117 0.215 0.267 0.201 0.057 0.010
8 0.000 0.000 0.000 0.001 0.011 0.044 0.121 0.233 0.302 0.194 0.075
9 0.000 0.000 0.000 0.000 0.002 0.010 0.040 0.121 0.268 0.387 0.315
10 0.000 0.000 0.000 0.000 0.000 0.001 0.006 0.028 0.107 0.349 0.599
Tabla: Probabilidad de 0, 1, 2, . . . éxitos para una π de 0.05, 0.10, 0.20, 0.50 y 0.70, y una n de 10
Diagrama: Diagrama que representa la distribución probabilística binomial para una π de 0.05, 0.10, 0.20, 0.50 y 0.70,
respectivamente; y, una n de 10.
2. Si π, probabilidad de éxito, permanece igual, pero n va aumentando, la
forma de la distribución binomial es cada vez más simétrica. En el
Diagrama que sigue se muestra un caso en el que π permanece constante
en 0.10, pero n aumenta de 7 a 40.
Distribuciones de Probabilidades 18
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Diagrama: Representación de la distribución probabilística binomial para una π de 0.10; y, una n de 7,12, 20 y 40,
respectivamente.
3. La media (µ) y la varianza (𝜎 2 ) de una distribución binomial pueden
calcularse de “manera rápida” por:
MEDIA DE UNA DISTRIBUCIÓN BINOMIAL:
μ = nπ
VARIANZA DE UNA DISTRIBUCIÓN BINOMIAL:
σ𝟐 = n π (1 − π)
Para el ejemplo anterior acerca de los engranes defectuosos, recuérdese que
π = 0.05 y n = 6. Entonces:
μ = nπ = 6(0.05) = 0.30
σ2 = nπ(1 − π) = 6(0.05) (1 − 0.05) = 0.285
La media de 0.30 y la varianza de 0.285 pueden verificarse a partir de las
definiciones generales utilizando las fórmulas correspondientes. La distribución
probabilística presentada anteriormente (tabla), se repite a continuación:
Distribuciones de Probabilidades 19
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Número de
defectos P(x) xP(x) x-μ (𝐱 − 𝛍)𝟐 (𝐱 − 𝛍)𝟐 𝐏(𝐱)
x
0 0.735 0 -0.30 0.09 0.06615
1 0.232 0.232 0.70 0.49 0.11368
2 0.031 0.062 1.70 2.89 0.08959
3 0.002 0.006 2.70 7.29 0.01458
4 0.000 0 3.70 13.69 0
5 0.000 0 4.70 22.09 0
6 0.000 0 5.70 32.49 0
0.30 0.284 *
* La ligera discrepancia entre 0.285 y 0.284 se debe al redondeo.
DISTRIBUCIONES PROBABILÍSTICAS ACUMULATIVAS
Puede ser conveniente determinar la probabilidad de adivinar correctamente
las respuestas a 6 o más preguntas del tipo verdadero/falso, de un total de 10.
O tal vez interese la probabilidad de seleccionar al azar menos de dos piezas
defectuosas de la producción en la hora anterior. Observemos el siguiente
ejemplo.
Ejemplo:
Un estudio reciente por la Asociación de Vigilantes de Carreteras reveló que
60% de los conductores en Colombia se coloca el cinturón de seguridad al
manejar. Se seleccionó una muestra de 10 conductores en una carretera de
Bucaramanga.
1. ¿Cuál es la probabilidad de que exactamente 7 llevarán fijo el cinturón?
2. ¿Cuál es la probabilidad de que 7 o menos de los conductores lo lleven
puesto?
Solución:
Este caso cumple con los requisitos binomiales, es decir:
• Un conductor en particular lleva puesto el cinturón de seguridad, o no.
Existen sólo dos resultados posibles.
Distribuciones de Probabilidades 20
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
• La probabilidad de un "éxito" (traer puesto el cinturón) es la misma de un
conductor a otro: 60%.
• Los ensayos son independientes. Si el cuarto conductor seleccionado en la
muestra sí utiliza el cinturón, por ejemplo, esto no tiene efecto alguno en
que el quinto automovilista lo use o no.
• Existe un número fijo de ensayos, 10 en este caso, porque 10 conductores
fueron considerados.
1. Para obtener la probabilidad de exactamente 7 conductores, podemos
utilizar una tabla de probabilidades binomiales. Localice la tabla para n =
10. Enseguida encuentre la columna para π = 0.60 y el renglón para x = 7.
El valor es 0.215. Por lo tanto, la probabilidad de obtener 7 de 10
conductores en la muestra que usan el cinturón de seguridad, es 0.215.
Esto con frecuencia se escribe como se indica a continuación:
P( x = 7 | n = 10 y π = 0.60 ) = 0.215
donde x es el número de éxitos, n el número de ensayos y π la
probabilidad de un éxito. La barra vertical "|" significa "dado que".
2. Para determinar la probabilidad de que 7 o menos de los conductores
utilicen el cinturón de seguridad, aplicamos la regla especial de adición. Ya
que los eventos son mutuamente excluyentes se podría determinar la
probabilidad de que, de los 10 conductores revisados, ninguno trajera
puesto el cinturón, 1 sí lo utilizaba, 2 lo llevaban colocado, y así
sucesivamente hasta los 7 conductores. Después se suman las
probabilidades de los ocho resultados posibles. A partir de una tabla de
probabilidades binomiales, n = 10 y π = 0.60.
P(x ≤ 7 | n = 10 y π = 0.60) = P(x = 0) + P(x = 1) + P(x = 2) + P(x = 3)
+ P(x = 4) + P(x = 5) + P(x = 6) + P(x = 7)
= 0.000 + 0.002 + 0.011 + 0.042 + 0.111 + 0.201 + 0.251 + 0.215
= 0.833
Por lo tanto, la probabilidad de revisar 10 conductores al azar y encontrar que 7
o menos de los conductores utilizan sus cinturones de seguridad, es 0.833.
Este valor también puede determinarse, con menos cálculos, aplicando la regla
de complemento. Primero se determina P(x > 7) dado que n = 10 y π = 0.60.
Esta probabilidad es 0.167, obtenida de P(x = 8) + P(x = 9) + P(x = 10) =
Distribuciones de Probabilidades 21
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
0.121 + 0.040 + 0.006. La probabilidad de que x ≤ 7 sea igual a 1 − P(x > 7),
por lo que P(x ≤ 7) = 1 − 0.167 = 0.833, que es igual al valor anterior.
1.6. Distribución de probabilidad hipergeométrica
(Ref. LIND, A. Douglas; et. al. (2012). Estadística aplicada a los negocios y
a la economía. Pág. 208).
Sabemos que, para aplicar la distribución binomial, la probabilidad de un éxito
debe permanecer igual para cada ensayo sucesivo. Por ejemplo, la
probabilidad de adivinar la respuesta correcta para una pregunta de
verdadero/falso es igual a 0.50. Esta probabilidad permanece sin cambios para
cada pregunta en un examen. De manera similar, supóngase qué 40% de los
electores registrados en una zona son del partido Conservador. Si se van a
seleccionar al azar 27 votantes registrados, la probabilidad de elegir un
conservador en la primera selección, también es 0.40. La de obtener uno de
ese partido en la siguiente selección también es 0.40, considerando que el
muestreo se hace con reposición, lo cual significa que la persona seleccionada
se pone de nuevo en la población antes de elegir a la siguiente.
La mayor parte del muestreo se realiza sin reposición. Es decir, si la población
es pequeña, la probabilidad para cada observación cambiará. Por ejemplo, si la
población está formada por 20 elementos, la probabilidad de seleccionar uno
en particular de esa población es 1/20. Si el muestreo se hace sin oposición,
después de la primera selección solamente quedan 19 elementos; la
probabilidad de escoger un elemento específico en la segunda selección es
sólo de 1/19. Para la tercera, Probabilidad es 1/18, y así sucesivamente. Esto
considerando que la población es finita, es decir, que se conoce el número de
elementos en la población y es relativamente pequeño.
Población finita: Una población formada por un número pequeño de
individuos, objetos o medidas.
Son ejemplos de una población finita los 2842 afiliados al Partido Conservador
en una zona, las 9241 solicitudes de ingreso en una Facultad de Economía, y
los 18 autos Moonbirds de Pentiac, actualmente en existencia en la agencia
Pentiac Sur.
Distribuciones de Probabilidades 22
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Recuérdese que uno de los criterios para utilizar la distribución binomial es que
la probabilidad de éxito permanece igual de un ensayo a otro. Cuando el
muestreo se realiza sin la reposición y la muestra se obtiene de una población
relativamente pequeña, la probabilidad de éxito no permanece igual de un
ensayo a otro, y no debes ser empleada la distribución binomial.
En vez de esto, se debe aplicarse en la distribución hipergeométrica.
Por tanto, (1) si se selecciona una muestra de una población finita sin
reposición, (2) si el tamaño de la muestra n es mayor que 5% del tamaño de la
población N, entonces se utiliza la distribución hipergeométrica para determinar
la probabilidad de un número específico de éxitos o fracasos. Resulta muy
adecuada cuando el tamaño de la población es pequeño.
La fórmula para la distribución hipergeométrica es:
DISTRIBUCIÓN HIPERGEOMÉTRICA:
( S CX ) ( N−S Cn−x )
P(x) =
N Cn
donde:
N es el tamaño de la población.
S es la cantidad de éxitos en la misma.
x es el número de éxitos que interesan. Puede ser 0,1,2,3....
n es el tamaño de la muestra o el número de ensayos.
C es el símbolo para una combinación.
Ejemplo:
Supóngase que durante la semana se fabricaron 50 juegos Stationplay (N =
50). operaron 40 sin problemas (S = 40), y 10 tuvieron al menos un defecto. Se
selecciona una muestra al azar de 5 (n=5). utilizando la fórmula
hipergeométrica. ¿cuál es la probabilidad de que 4 (x = 4) de los 5 funcionan
perfectamente? (Observe que el muestreo se hace sin reposición y que el
tamaño de la muestra de 5 es 5/50, o 10% de la población. Esto es mayor que
la condición de 5%.)
Solución:
Distribuciones de Probabilidades 23
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
En este problema
N = 50, Número de juegos fabricados.
n = 5, tamaño de la muestra.
S = 40, cantidad de dichos juegos en la población que operan
perfectamente.
x = 4, número en la muestra que funciona sin problemas
Se desea determinar la probabilidad de que 4 juegos Stationplay de los 5
seleccionados funcionan bien.
Sustituyendo estos valores en la fórmula correspondiente y resolviéndolas para
evaluar la probabilidad de que 4 de los 5 juegos en la muestra funcionen sin
problemas:
(S CX ) (N−S Cn−x )
P(x) =
N Cn
(40 C4 ) (50−40 C5−4 )
P(4) =
50 C5
40! 10!
(4! 36!) (1! 9!) (91 390) (10)
P(4) = = = 0.431
50! 2 118 760
5! 45!
De modo que la probabilidad de seleccionar 5 juegos al azar de 50, y descubrir
que 4 de los 5 operan bien, es 0.431.
Las probabilidades hipergeométricas de encontrar 0,1,2,3,4 y 5 juegos
Stationplay que funcionen correctamente de los cinco seleccionados al azar, se
dan en la Tabla siguiente:
Cantidad de ellos que funcionaron
Probabilidad
correctamente
0 0.000*
1 0.004
2 0.044
3 0.210
4 0.431
5 0.311
*En realidad, 0.0001
Tabla: Probabilidades hipergeométricas (n=5, N=50, S=40) de los juegos PlayStation que operen correctamente.
Distribuciones de Probabilidades 24
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
La tabla que aparece a continuación presenta las probabilidades
hipergeométricas y binomiales para el problema de los juegos Stationplay.
Puesto que 40 de los 50* operaron correctamente, la probabilidad binomial de
seleccionar un Stationplay perfecto en un ensayo es 40/50 = 0.80. Las
probabilidades binomiales para la tabla siguiente provienen de una tabla
binomial de probabilidades, para n = 5, π = 0.80.
Cantidad de juegos en la
muestra que funcionan Probabilidad hipergeométrica, Probabilidad Binomial (n=5, π
correctamente, P(x) =40/50=0.80)
x
0 0.000 0.000
1 0.004 0.006
2 0.044 0.051
3 0.210 0.205
4 0.431 0.410
5 0.311 0.328
Tabla: Probabilidades hipergeométricas y binomiales para el problema de los juegos Stationplay.
Señalamos que cuando la condición binomial de una probabilidad constante de
éxito no puede ser cumplida, hay que utilizar la distribución hipergeométrica en
su lugar. Sin embargo, según lo muestra la Tabla anterior, bajo muchas
condiciones los resultados de la binomial se aproximan mucho a los de la
hipergeométrica.
Como regla empírica, si los elementos seleccionados no se devuelven a la
población y el tamaño de la muestra es menor que 5% de ésa, puede ser
empleada la distribución binomial para aproximar la distribución
hipergeométrica. Esto es cuando n < 0.05N, la aproximación binomial debe ser
suficiente.
1.7. Distribución de probabilidad de Poisson
(Ref. LIND, A. Douglas; et. al. (2012). Estadística aplicada a los negocios y
a la economía. Pág. 211).
Las distribuciones probabilísticas binomiales para probabilidades de éxito (π)
Distribuciones de Probabilidades 25
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
menores que 0.05 podrían calcularse, pero esto tomaría demasiado tiempo (en
especial para una n grande de, por ejemplo, 100 o más). La distribución de
probabilidades se volvería cada vez más sesgada conforme la probabilidad de
éxito fuera menor.
La forma límite de la distribución binomial cuando la probabilidad de éxito es
muy pequeña y n es grande se denomina distribución probabilística de Poisson.
Generalmente se le conoce como la “ley de eventos improbables”, lo cual
significa que la probabilidad, π, de que suceda un evento específico es muy
pequeña. La distribución de Poisson es del tipo probabilístico discreto porque
se forma contando algo.
Esta distribución tiene muchas aplicaciones. Se utiliza como modelo para
describir la distribución de errores en la captura de datos, el número de
ralladuras y otras imperfecciones en paneles de automóvil recientemente
pintados, el número de partes defectuosas en embarques de salida, el número
de clientes en espera de servicio en un restaurante, o los que aguardan a
entrar a una de las atracciones en un centro de diversiones, y el número de
accidentes en una carretera durante un período de tres meses.
La distribución de Poisson puede describirse matemáticamente utilizando la
siguiente fórmula:
DISTRIBUCIÓN DE POISSON:
μx e−μ
P(x) =
x!
donde:
μ (miu) es la media (aritmética del número de ocurrencias (éxitos) en un
intervalo de tiempo específico.
𝑒 es la constante 2.71828 (base del sistema logarítmico neperiano).
𝑥 es el número de ocurrencias (éxitos).
P(x) es la probabilidad que se va a calcular para un valor dado de x.
El número medio de éxitos, μ, puede determinarse en los casos de Poisson por
medio de nπ, donde n es el número total de ensayos, y π la probabilidad de
éxito.
MEDIA DE UNA DISTRIBUCIÓN DE POISSON:
Distribuciones de Probabilidades 26
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
𝜇 = 𝑛𝜋
La varianza en la distribución de Poisson es también igual a nπ.
Si, por ejemplo, la probabilidad de que sea devuelto un cheque expedido por un
banco es de 0.0003, y si se cambian a efectivo 10000 cheques, el número
medio de cheques “protestados” es 3.0, que se obtiene por 𝜇 = 𝑛𝜋 =
10 000(0.0003) = 3.0.
Recuérdese que para una distribución binomial existe un número fijo de
ensayos. Por ejemplo, en el caso de una prueba de opción múltiple de cuatro
preguntas, puede haber solo cero, uno, dos, tres o cuatro éxitos (repuestas
correctas). Sin embargo, la variable aleatoria, x, para una distribución de
Poisson puede tomar un número infinito de valores; esto es, 0,1, 2, 3, 4, 5, …
Pero las probabilidades se vuelven muy pequeñas después de las primeras
ocurrencias (éxitos).
Para ilustrar el cálculo de una probabilidad de Poisson, considérese que en la
empresa Aerolíneas del Valle rara vez se pierde el equipaje. En la mayoría de
los vuelos no se observa un mal manejo de maletas; algunos reportan una
valija perdida; unos cuantos tienen dos maletas extraviadas; rara vez un vuelo
tiene tres; y así sucesivamente. Supóngase que una muestra aleatoria de 1000
viajes aéreos revela un total de 300 maletas perdidas. De esta forma, la media
aritmética del número de equipajes extraviados por vuelo, es de 0.3, que se
obtiene de 300/1000. Si la cantidad de maletas perdidas por viaje aéreo sigue
una distribución de Poisson con un µ = 0.30, podemos calcular las diferentes
probabilidades con la fórmula:
μx e−μ
P(x) =
x!
Por ejemplo, la probabilidad de no perder ninguna maleta es:
(0.3)0 (𝑒 −0.30 )
𝑃(0) = = 0.7408
0!
En otras palabras, en 74% de los vuelos nos habrá equipaje perdido. La
probabilidad de exactamente una maleta extraviada es:
(0.3)1 (e−0.30 )
P(1) = = 0.2222
1!
Distribuciones de Probabilidades 27
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Por lo tanto, esperaríamos encontrar exactamente una maleta perdida en el
22% de los vuelos.
Las probabilidades de Poisson también pueden encontrarse en tablas,
generalmente en los Apéndices de libros.
Ejemplo:
Recuérdese del ejemplo anterior que el número de maletas perdidas sigue una
distribución de Poisson con una media de 0.3. Utilizar una tabla de
probabilidades de Poisson para obtener la probabilidad de que no se extravié
ninguna maleta en un vuelo en particular, ¿cuál es la probabilidad de que
exactamente una maleta se pierda en un vuelo específico? ¿cuándo debe
parecer sospechoso al supervisor que un vuelo tenga demasiadas maletas
extraviadas?
Solución:
A continuación, se reproduce una parte de una tabla de probabilidades de
Poisson.
𝝁
x 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
0 0.9048 0.8187 0.7408 0.6703 0.6065 0.5488 0.4966 0.4466 0.4066
1 0.0905 0.1637 0.2222 0.2681 0.3033 0.3293 0.3476 0.3595 0.3659
2 0.0045 0.0164 0.0333 0.0536 0.0758 0.0988 0.1217 0.1438 0.1647
3 0.0002 0.0011 0.0033 0.0072 0.0126 0.0198 0.0284 0.0383 0.0494
4 0.0000 0.0001 0.0003 0.0007 0.0016 0.0030 0.0050 0.0077 0.0111
5 0.0000 0.0000 0.0000 0.0001 0.0002 0.0004 0.0007 0.0012 0.0020
6 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0002 0.0003
7 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
Tabla: Tabla de Poisson para diferentes valores de µ (del Apéndice de un libro).
Para determinar la probabilidad de que ninguna maleta se pierda, localice la
columna con el encabezado “0.3” y léala hacia abajo hasta llegar al renglón
marcado con “0”. La probabilidad es 0.7408, de no tener alguna maleta perdida.
La probabilidad de que haya una valija extraviada es de 0.2222, lo cual se
indica en la siguiente línea de la tabla, en la misma columna.
Distribuciones de Probabilidades 28
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
La probabilidad de haber dos maletas perdidas es de 0.0333, que está en el
renglón siguiente; para tres, vale 0.0033; y para cuatro maletas, es 0.0003.
De ahí que, al supervisor de Aerolíneas del Valle no debe sorprenderle que
haya un equipaje perdido, pero debe esperar que rara vez ocurra la pérdida de
más de una maleta.
Un diagrama de la distribución del número de errores se muestra en el
Diagrama siguiente, Observe que la distribución se encuentra sesgada
severamente en dirección positiva:
Diagrama: Distribución probabilística de Poisson para µ=0.3
La distribución probabilística de Poisson siempre tiene sesgo positivo. Además,
la variable aleatoria de Poisson no tiene límite superior específico. La
distribución de Poisson para el ejemplo de las maletas perdidas, donde µ=0.3,
tienen gran asimetría. Conforme µ se hace más grande, la distribución de
Poisson se vuelve más simétrica.
Por ejemplo, en el Diagrama siguiente, se muestran las distribuciones del
número de servicios de transmisión, cambios de silenciadores, y cambios de
aceite, por día en un taller auto mecánico. Siguen las distribuciones de Poisson
con medias de 0.7, 2.0 y 6.0, respectivamente.
Distribuciones de Probabilidades 29
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Número de ocurrencia
Diagrama: Distribución de probabilística de Poisson para medias de 0.7, 2.0 y 6.0
Entonces, la distribución de Poisson en realidad es un grupo de distribuciones
discretas. Para aplicarla, n debe ser grande, como igual a 1000. Por lo
contrario, la probabilidad π de un defecto, error y similares, debe ser pequeña.
Todo lo que se necesita para elaborar una distribución probabilística de
Poisson es el número promedio de defectos, errores, etc., que se denota como
μ. Esta cantidad se calcula por medio de nπ.
1.8. Distribución de probabilidad normal
(Ref. LIND, A. Douglas; et. al. (2012). Estadística aplicada a los negocios y
a la economía. Pág. 225).
Se ha presentado, a tres familias de distribuciones probabilísticas discretas: la
binomial, la distribución hipergeométrica, y la distribución de Poisson. Las
mismas se basan en variables aleatorias discretas, que pueden tomar sólo
valores específicos. Por ejemplo, el número de respuestas correctas de un
examen que contiene 10 preguntas sólo puede ser 0, 1, 2, 3,...,10. No puede
haber un número negativo de respuestas correctas, -7 respuestas, ni haber
1⁄
tampoco 7 4 o 15 correctas.
Continuaremos el estudio de las distribuciones probabilísticas, examinando una
distribución probabilística continua muy importante: la distribución
probabilística normal.
Una variable aleatoria continúa es la que puede tomar un número infinito de
valores posibles dentro de una gama o variedad específica. Generalmente, es
Distribuciones de Probabilidades 30
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
el resultado de medir algo, como el peso de una persona. El peso podría ser
112.0 kg, 112,1 kg, 112.12 kg, etc. otras variables aleatorias continuas son la
expectativa de vida (duración) de pilas de tipo alcalina, el volumen de un
recipiente de embarque y el peso de las impurezas en un lingote de acero.
Las distribuciones probabilísticas de las expectativas de vida de algunos
productos, cómo baterías, neumáticos y bombillos o lámparas, tienden a seguir
un patrón "normal".
Se examinan las características principales de una distribución probabilística
normal, y la llamada curva normal. Después se presentan la distribución normal
estándar y sus aplicaciones. Por último, se considera la forma cómo puede
emplearse la distribución normal para estimar probabilidades binomiales.
LA FAMILIA DE DISTRIBUCIONES PROBABILÍSTICAS NORMALES
La distribución probabilística normal y su respectiva curva normal tienen las
siguientes características:
1. La curva normal es la acampanada y presenta un solo pico en el centro de
la distribución. La media (aritmética), la mediana, y la moda de la
distribución son iguales y están localizadas en el pico. De esta forma, la
mitad del área bajo la curva se encuentra por arriba de este punto central y
la otra mitad por abajo.
2. La distribución probabilística normal es simétrica con respecto a su media.
Si se corta la curva normal verticalmente en este valor central, las dos
mitades se reflejan como imágenes a un espejo.
3. La curva normal decrece uniformemente en ambas direcciones a partir del
valor central. Es asintótica, lo cual significa que la curva se acerca cada vez
más al eje X, pero en realidad nunca llega a tocarlo. Esto es, los puntos
extremos de la curva se extienden indefinidamente en uno y otros sentidos.
Estas características se muestran gráficamente en el diagrama siguiente:
Distribuciones de Probabilidades 31
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
La curva normal es simétrica
Dos mitades idénticas
Cola
En teoría, la curva se La media, la En teoría, la curva se
extiende hasta −∞ mediana y la extiende hasta +∞
moda son
iguales
Diagrama: Características de una distribución normal
No existe solo una distribución probabilística normal, sino que hay una “familia”
de ellas. Existe una distribución de probabilidad normal para los tiempos de
servicio de los empleados de la planta de Quito, para la que la media es 20
(años) y la desviación estándar vale 3.1 (años). Existe otra distribución
probabilística normal para los citados tiempos en la planta de Guayaquil, para
la cual 𝜇 = 20 y 𝜎 = 3.9. En el Diagrama que sigue, se ilustran tres
distribuciones normales, para las que las medias son iguales, pero las
desviaciones estándares son diferentes.
Distribuciones de Probabilidades 32
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
𝜎 = 3.1 𝑎ñ𝑜𝑠, 𝑝𝑙𝑎𝑛𝑡𝑎 𝑑𝑒 𝑄𝑢𝑖𝑡𝑜
𝜎 = 3.9 𝑎ñ𝑜𝑠, 𝑝𝑙𝑎𝑛𝑡𝑎 𝑑𝑒 𝐺𝑢𝑎𝑦𝑎𝑞𝑢𝑖𝑙
𝜎 = 5 𝑎ñ𝑜𝑠, 𝑝𝑙𝑎𝑛𝑡𝑎 𝑑𝑒 𝐶𝑢𝑒𝑛𝑐𝑎
𝜇
20 años
Duración de servicios
Diagrama: Distribuciones probabilísticas normales con medias iguales, pero diferentes desviaciones
estándares.
En el Diagrama siguiente, se muestra la distribución de los pesos de empaques
de tres cereales. Los pesos están distribuidos en forma normal, con medias
diferentes, pero desviaciones estándares idénticas.
_______________________________________________________________________________________________
Diagrama: Distribuciones probabilísticas normales con medias diferentes, pero desviaciones estándares iguales.
Distribuciones de Probabilidades 33
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Por último, en el Diagrama siguiente, se muestran tres distribuciones normales
que tienen distintas medias y distintas desviaciones estándares. Muestran la
distribución de resistencias a la tensión medidas en libras por pulgada
cuadrada (𝑙𝑏/𝑝𝑢𝑔2) [𝑝𝑠𝑖] para tres tipos de cables.
𝜎 = 26 𝑝𝑠𝑖
𝜎 = 41 𝑝𝑠𝑖
𝜎 = 52 𝑝𝑠𝑖
Diagrama: Distribuciones probabilísticas normales con diferentes medias y desviaciones estándares.
𝜇 𝜇 𝜇
2000 2048 2186
psi psi psi
Diagrama: Distribuciones probabilísticas normales con diferentes medias y desviaciones estándares.
DISTRIBUCIÓN PROBABILÍSTICA NORMAL ESTÁNDAR
Se observó que existe una familia de distribuciones normales. Cada
distribución tiene media 𝜇 o desviación estándar 𝜎, con valores diferentes. Por
lo tanto, el número de distribuciones normales es ilimitado. Resultaría
físicamente imposible proporcionar una tabla de probabilidades (como para la
Binomial y la de Poisson) para cada combinación de 𝜇 y 𝜎. Por fortuna, puede
utilizarse un elemento de la familia de distribuciones normales para todos los
problemas donde tal distribución resulte aplicable. Tiene una media igual a 0 y
una desviación estándar igual a 1, y se denomina distribución normal
estándar. Cualquier distribución normal puede convertirse en una “distribución
normal estándar” restando la media a cada observación, y dividiendo luego
entre la desviación estándar.
Primero se convierte, o se estandariza, la distribución a una distribución normal
estándar utilizando el valor 𝑧, (también denominado, a veces, desvío normal
estandarizado, o simplemente desvío normal).
Valor z: Diferencia (desviación) entre un valor seleccionado, denotado por 𝑋,
y la media 𝜇, dividida tal diferencia entre la desviación estándar, 𝜎.
Por lo tanto, el valor 𝑧 es la distancia a partir de la media, medida en unidades
de la desviación estándar.
Distribuciones de Probabilidades 34
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Expresado lo anterior con una fórmula queda:
VALOR NORMAL ESTÁNDAR:
X−μ
Z =
σ
donde:
𝑋 es el valor de cualquier medida u observación especifica.
𝜇 es la media de la distribución.
𝜎 es la desviación estándar de la distribución.
Como se observa por la definición anterior, el valor 𝑧 mide la distancia entre el
valor específico 𝑋 y la media (aritmética), en unidades de la desviación
estándar. Conociendo el valor 𝑧 determinado por la fórmula correspondiente, se
puede obtener el área o la probabilidad bajo la curva normal, recurriendo a las
tablas que aparecen en los textos.
Supóngase, como ejemplo, que se obtuvo por cálculo una 𝑧 igual a 1.91. ¿Cuál
es el área bajo la curva normal entre la media y 𝑋?
Se reproduce una parte de una tabla “normal”:
Z 0,00 0,01 0,02 0,03 0,04 0,05 …..
1,0 0.3413 0.3438 0.3461 0.3485 0.3508 0.3531
1,1 0.3643 0.3665 0.3686 0.3708 0.3729 0.3749
1,2 0.3849 0.3869 0.3888 0.3907 0.3925 0.3944
1,3 0.4032 0.4049 0.4066 0.4082 0.4099 0.4115
1,4 0.4192 0.4207 0.4222 0.4236 0.4251 0.4265
1,5 0.4332 0.4345 0.4357 0.4370 0.4382 0.4394
1,6 0.4452 0.4463 0.4474 0.4484 0.4495 0.4505
1,7 0.4554 0.4564 0.4573 0.4582 0.4591 0.4599
1,8 0.4641 0.4649 0.4656 0.4664 0.4671 0.4678
1,9 0.4713 0.4719 0.4726 0.4732 0.4738 0.4744
Tabla: Áreas bajo la curva normal
Desciéndase por la columna izquierda de ésta, encabezada por la letra 𝑧, hasta
1.91. Luego se desplaza horizontalmente hacia la derecha, y se lee la
probabilidad bajo la columna encabezada por 0.01. Resulta 0.4719. Esto
significa que 47.19 % del área bajo la curva se encuentra entre la media y el
valor X de 1.91 desviaciones estándares por arriba de la media. Esta es la
Distribuciones de Probabilidades 35
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
probabilidad de que una observación se encuentre entre 0 y 1.91 desviaciones
estándares respecto de la media.
APLICACIONES DE LA DISTRIBUCIÓN NORMAL ESTÁNDAR
¿Cuál es el área bajo la curva entre la media y 𝑋 para los siguientes valores 𝑧?
Compruebe sus respuestas con las expresadas.
No todos los valores se encuentran en una Tabla.
Deberá utilizar alguna Tabla que figura al final de algún libro.
Valor z calculado Área bajo la curva
2.84 0.4977
1.00 0.3413
0.49 0.1879
Ahora se calculará el valor 𝑧 cuando se conocen la media poblacional, 𝜇, la
desviación estándar de la población, 𝜎, y una 𝑋 seleccionada.
Ejemplo:
La media de un grupo de ingresos semanales con distribución normal para un
grupo de gerentes de nivel medio, es $ 1000 (dólares), y la desviación estándar
es de $ 100.
¿Cuál es el valor 𝑧 para un ingreso 𝑋 de $ 1100? ¿Y para uno de $ 900?
Solución:
Distribuciones de Probabilidades 36
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Utilizando la fórmula correspondiente, los valores 𝑧 para los dos valores de
𝑋($1100 𝑦 $900) se calculan como sigue:
𝑃𝑎𝑟𝑎 𝑋 = $1100:
𝑋−𝜇
𝑍=
𝜎
$1100 − $1 000
=
$100
= 1.00
𝑃𝑎𝑟𝑎 𝑋 = $1100:
𝑋−𝜇
𝑍=
𝜎
$1100 − $1000
=
$100
= − 1.00
El valor z de 1.00 indica que un ingreso semanal de $1100 para un gerente de
nivel medio está una desviación estándar por encima de la media;
Una z de -1.00 indica que un ingreso de $900 está una desviación estándar por
debajo de la media.
Observe que ambos ingresos ($1100 y $900) están a la misma distancia ($100)
respecto de la media.
Áreas bajo la Curva Normal
Antes de examinar diversas aplicaciones de la distribución de probabilidad
normal estándar, se considerarán tres áreas bajo la curva normal que se
utilizan con frecuencia.
1. Aproximadamente 68% del área bajo la curva normal está dentro de más
una y menos una desviaciones estándares respecto de la media. Esto se
expresa como, 𝜇 ± 1𝜎.
2. Aproximadamente 95% del área bajo la curva normal está dentro de más
dos y menos dos desviaciones estándares respecto de la media, lo que se
expresa por, 𝜇 ± 2𝜎.
Distribuciones de Probabilidades 37
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
3. Prácticamente toda el área (99.7%) bajo la curva normal está dentro de tres
desviaciones estándares respecto de la media (a uno y otro lados del
centro), lo cual se indica por, 𝜇 ± 3𝜎.
Mostrando esto en un diagrama y utilizando porcentajes más precisos queda:
μ − 3σ μ − 2σ μ − 1σ 𝜇 + 1𝜎 μ + 2σ μ + 3σ Escala de X
μ
68.26%
95.44%
99.74%
El transformar las mediciones a valores z (o desvíos normales estándares)
cambia la escala. Las conversiones se muestran en el siguiente diagrama.
Por ejemplo, 𝜇 + 1𝜎 se convierte a un valor z de +1.00. De manera semejante,
𝜇 − 2𝜎 se transforma en un valor z de -2.00. Observe que el centro de la
distribución z es cero, lo cual indica que no existe desviación respecto a la
media, 𝜇.
Distribuciones de Probabilidades 38
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Estos conceptos pueden expresarse de manera algo distinta: el área bajo la
curva normal dentro de más y menos una desviación estándar respecto de la
media, es de 0.6826. El área dentro de más y menos dos desviaciones
estándares respecto de la media es 0.9544. El área dentro de tres desviaciones
estándares respecto de la media vale 0.9974. Y el área total bajo la curva
normal es 1.0000.
Ejemplo:
Una prueba de vida útil para un gran número de pilas alcalinas tipo D, reveló
que la duración media para un uso especifico antes de la falla, es 19.0 horas.
La distribución de las duraciones se aproxima a una distribución normal. La
desviación estándar de la distribución fue 1.2 horas.
1. ¿Entre qué par de valores falló aproximadamente 68% de las pilas?
2. ¿Entre cuáles dos valores ocurrió la falla de alrededor de 95% de las pilas?
3. ¿Entre qué par de valores fallaron prácticamente todas las pilas?
Solución:
1. Aproximadamente 68% falló entre 17.8 h y 20.2 h, valores obtenidos de
Distribuciones de Probabilidades 39
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
19.0 ± 1(1.2).
2. Alrededor de 95% lo hizo ente 16.6 h y 21.4 h, calculado por 19.0 ± 2(1.2).
3. Prácticamente todas las pilas fallaron entre 15.4 h y 22.6 h, lo que resulta
de 19.0 ± 3(1.2).
Mostrado esto en un diagrama queda como sigue:
La primera aplicación de la distribución normal estándar se relaciona con
la determinación del área bajo la curva normal, entre la media y un valor
seleccionado, que se denota por X.
Utilizando el mismo problema que en el ejemplo anterior del ingreso semanal [μ
= $1000 (dólares), σ = $100], ¿cuál es el área bajo la curva normal entre $1000
y $1100?
Ya hemos convertido $1100 a un valor z de 1.00 aplicando la fórmula
respectiva. Una vez más:
𝑋−μ $1100 − $1000
𝑧 = = = 1.00
σ $100
A continuación, se presenta una pequeña pare de una tabla del final de un
libro. Para localizar el área, recorra hacia abajo la columna izquierda hasta 1.0.
Después se va horizontalmente hacia la derecha, y se lee el área bajo la curva
en la columna marcada 0.00. Resulta así: 0.3413
Distribuciones de Probabilidades 40
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
z 0.00 0.01 0.02
0.7 0.2580 0.2611 0.2642
0.8 0.2881 0.2910 0.2939
0.9 0.3159 0.3186 0.3212
1.0 0.3413 0.3438 0.3461
1.1 0.3643 0.3665 0.3686
Representado en un diagrama:
El área bajo la curva normal entre $1000 y $1100 es 0.3413. También puede
decirse que 34.13% de los ingresos semanales están entre $1000 y $1100, y la
probabilidad de que un ingreso específico se halle entre $1000 y $1100, tiene
por valor 0.3413.
Ejemplo:
Refiérase al problema anterior [μ = $1000 (dólares), σ = $100].
1. ¿Cuál es la probabilidad de que un ingreso semanal específico
seleccionado al azar esté entre $790 y $1000?
2. ¿Cuál es la probabilidad de que el ingreso sea menor de $790?
Solución:
Calculando el valor 𝑧 para $790 mediante la fórmula respectiva:
𝑋−μ $790 − $1000 −$210
𝑧 = = = = −2.10
σ $100 $100
Distribuciones de Probabilidades 41
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
1. El área bajo la curva normal entre μ y X correspondiente a un valor 𝑧 de
-2.10, es 0.4821 (tomado de la tabla). El signo negativo antes de 2.10
indica que el área está a la izquierda de la media, pero no cambia su
tamaño.
2. La media divide a la curva normal en dos mitades idénticas. El área bajo
la mitad de la gráfica a la izquierda de la media, vale 0.5000, y el área
que se encuentra a la derecha de la media también es 0.5000. Como el
área bajo la curva entre $790 y $1000 es 0.4821, el área por abajo de
$790 se determina restando 0.4821 de 0.5000. De esta forma, 0.5000 -
0.4821 = 0.0179. En un diagrama queda:
0.4821
0.0179
Una segunda aplicación de la distribución normal estándar se relaciona
con combinar dos áreas, una a la derecha y otra a la izquierda de la media.
Ejemplo:
Volviendo a la distribución de ingresos semanales [𝜇 = $1000 (𝑑ó𝑙𝑎𝑟𝑒𝑠), 𝜎 =
$100], ¿Cuánto vale el área bajo la curva normal entre $840 y $1200 dólares?
Solución:
Distribuciones de Probabilidades 42
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
El problema se divide en dos partes. Para el área entre $840 y la media de
$1000:
$840 − $1000 −$160
𝑧 = = = −1.60
$100 $100
Para el área entre la media de $1000 y $1200:
$1200 − $1000 $200
𝑧 = = = 2.00
$100 $100
El área bajo la curva para un valor z de -1.60 es 0.4452 (tomada de una tabla).
El área bajo la curva para un z de 2.00 es 0.4772. Sumando las dos áreas
queda: 0.4452 + 0.4772 = 0.9224. De esta forma, la probabilidad de seleccionar
un ingreso entre $840 y $1200 es 0.9224. En otras palabras, 92.24 % de los
gerentes tiene un ingreso semanal entre $840 y $1200.
Mostrado en un diagrama:
¿Qué es esta
probabilidad?
$1000
Una aplicación adicional de la distribución normal estándar consiste en
determinar el área por encima, o por debajo, de un valor específico.
Ejemplo:
Distribuciones de Probabilidades 43
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Considerando de nuevo el ejemplo de los ingresos semanales [𝜇 = $1000, 𝜎 =
$100], ¿Qué porcentaje de los ejecutivos tienen ingresos por semana de $
1245 o más?
Solución
Primero es necesario determinar el área entre la media de $1000 y $1245. Se
utilizará la fórmula correspondiente, primero para calcular z.
𝑋−𝜇 $1245 − $1000 $245
𝑧 = = = = 2.45
𝜎 $100 $100
Consultando en una tabla de la distribución normal, el área asociada a un valor
z de 2.45 es 0.492. Esta es la comprendida entra $1000 y $1245. Resulta
lógico que el área a partir de $1245 y que llega hasta el final de la curva, se
obtenga al restar 0.4929 de 0.5000. El área es 0.0071, lo cual indica que solo
0.71% de los ejecutivos tiene un ingreso semanal de $1245 o más.
En el diagrama que sigue muestran los diversos aspectos de este problema.
0.5000 0.5000
| σ = $100
| 0.4929 0.0071
|
μ
| X
$ 1000
| $1245 Escala de ingresos
0 + 2.45 Escala de Z
|
Distribuciones de Probabilidades 44
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Otra aplicación de la distribución normal estándar implica determinar el
área entre valores sobre el mismo lado de la media.
Ejemplo:
Volviendo al ejemplo de los ingresos (μ = $1000, σ = $100), ¿Cuánto vale el
área bajo la curva normal entre $ 1150 y $ 1250?
Solución:
El problema se separa de nuevo en dos partes y se aplica la formula
correspondiente.
En primer lugar, se encuentra el valor z asociado a un ingreso semanal de
$1250.
$1250 − $1000
𝑍 = = 2.50
$100
Enseguida se obtiene el valor z para un ingreso semanal de $1150:
$1150 − $1000
𝑍 = = 1.50
$100
Utilizando la tabla de la distribución normal, el área asociada a un valor z de
2.50 e 0.4938. Por tanto, la probabilidad de un ingreso por semana entre $1000
y $1250 es 0.4938. En forma semejante, el área asociada a un valor z de 1.50
es 0.4332, así que la probabilidad de un ingreso semanal entre $1150 y 1250
se obtiene restando el área correspondiente a un valor z de 1.50 (que es
0.4332), de la que corresponde a un z de 2.50 (o sea 0.4938). Por tanto, la
probabilidad de un ingreso semanal entre $1150 y $1240, es 0.0606.
En un diagrama:
Distribuciones de Probabilidades 45
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
| 0.0606
|
$1000 $1150 $1250 Escala de ingresos
|
0 1.50 2.50 Escala de Z
|
En resumen, existen solamente cuatro situaciones en las que se quiere el área
bajo la distribución normal estándar.
1. Si se desea hallar el área entre 0 y Z (o –Z), puede buscarse el valor
directamente en la tabla.
2. Si se quiere obtener el área más allá de Z o (-Z), localice la probabilidad
de z en la tabla y reste ese valor de 0.5000
3. Para el área entre dos puntos en diferentes lados de la media, determine
el valor Z y sume las áreas correspondientes
4. Para el área entre dos puntos en el mismo lado de la media, determine
así mismo el valor Z y reste el área menor de la mayor.
En los ejemplos anteriores fue necesario determinar el porcentaje de las
observaciones localizadas entre dos observaciones o el porcentaje de las
mismas por arriba (mayores), de una observación especifica X. Una aplicación
adicional de la distribución normal estándar se relaciona con determinar el valor
de la observación X cuando se da el porcentaje por encima o por debajo de la
misma.
Distribuciones de Probabilidades 46
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Ejemplo:
Supóngase que un fabricante de neumáticos desea fijar una garantía mínima
de millas recorridas para su nueva llanta MYX1000. Las pruebas de duración
revelaron que la media de las millas recorridas es 47900, con una desviación
estándar de 250 millas, y con distribución normal. El fabricante desea fijar las
millas recorridas de garantía de manera que no sea necesario reemplazar más
del 4% de los neumáticos. ¿Cuántas millas de recorrido de garantía debe
anunciar el fabricante?
Solución:
Los aspectos de este problema se señalan en el diagrama siguiente, donde X
representa las millas de garantía.
0.5000
El neumático se
remplaza si no
recorre este millaje
4% o bien
0.0400
X µ Escala de millas
? 47900
Sustituyendo estos valores en la fórmula respectiva, para z:
𝑋 − µ 𝑋 − 47900
𝑧 = =
σ 2050
Distribuciones de Probabilidades 47
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Hay dos incógnitas z y X. Para determinar z observe que el área bajo la curva
normal a la izquierda de µ, vale 0.5000. El área entre µ y X es 0.4600, que se
determina de 0.5000-0.400, Ahora consulte una tabla de la normal y busque en
el cuerpo de la tabla el área más cercana a 0.4600, específicamente 0.4599.
Vaya hacia el margen de este valor y lea el z de 1.75.
Estos pasos se resumen en la tabla siguiente:
z 0.03 0.04 0.05 0.06
1.5 0.4370 0.4382 0.4394 0.4406
1.6 0.4484 0.4495 0.4505 0.4515
1.7 0.4582 0.4591 0.4599 0.4608
1.8 0.4664 0.4671 0.4678 0.4686
Tabla: Áreas seleccionadas bajo la curva normal.
Sabiendo que la distancia entre µ y X es -1.75 σ, ahora se puede despejar X
(mínimo de millas garantizadas):
X − 47900
z =
2050
X − 47900
−1.75 =
2050
−1.75 (2.50) = X – 47900
X = 47900 − 1.75 (2050) = 44312
Por lo tanto, el fabricante puede anunciar que remplazará gratis cualquier
neumático que se gaste antes de llegar a las 44312 millas, y la compañía sabrá
que solamente un 4% de sus productos será sustituido siguiendo este plan.
Una cuarta aplicación de la distribución normal consiste en comparar dos o
más observaciones que estén en distintas escalas o en diferentes unidades.
Esto es, las observaciones corresponden a distintas distribuciones.
Distribuciones de Probabilidades 48
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Ejemplo:
Supóngase que un estudio de los internos de una institución correccional se
refiere al ajuste social de los reclusos, y sus perspectivas de rehabilitación al
salir en libertad. A cada uno se le aplica una prueba referente al ajuste social.
Las puntuaciones siguen una distribución normal, con media de 100 y
desviación estándar de 20. Los psicólogos del reclusorio calificaron a cada
interno con respecto a la probabilidad de rehabilitación. Tales puntuaciones
también están distribuidas en forma normal, con media de 500 y desviación
estándar de 100.
María Caza, una interna, obtuvo 146 en la prueba de ajuste social y su
puntuación con respecto a rehabilitación es 335. ¿De qué modo se compara su
calificación con la del grupo, en lo que se refiere a la responsabilidad social y
las perspectivas de rehabilitación?
Solución
Al convertir a valor z su puntuación de la prueba de ajuste o responsabilidad,
de 146, aplicando la fórmula respectiva, queda:
𝑋 − 𝜇 146 − 100
𝑧 = =
𝜎 20
46
= = 2.30
20
Convirtiendo a valor z su puntuación de perspectivas de rehabilitación de 335,
resulta:
𝑋−𝜇 335 − 500
𝑧 = =
𝜎 100
−165
= = −1.65
100
Las puntuaciones estandarizadas y la clasificación también estandarizada se
muestran a continuación.
Distribuciones de Probabilidades 49
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
0.0495 0.0107
0.4505 0.4893
Escala de z
3.20
-1.65
Responsabilidad
Rehabilitación Social
Con respecto a responsabilidad social, María Caza está en el 1% más elevado
del grupo. Sin embargo, en comparación con los otros internos, queda en el 5%
más bajo en lo que se refiere a las posibilidades de rehabilitación.
1.9. Aproximación normal a la binomial
(Ref. LIND, A. Douglas; et. al. (2012). Estadística aplicada a los negocios y
a la economía. Pág. 241).
Se analizó la distribución probabilística binomial, que es una distribución
discreta. Una tabla de probabilidades binomiales generalmente va en forma
sucesiva desde una n de 1 hasta n de 20, y después a una n = 25. Supóngase
que un problema se relaciona con obtener una muestra de tamaño 60. El
generar una distribución binomial para un número de esa dimensión tomaría
mucho tiempo, aun utilizando una computadora. Un enfoque más eficiente
consiste en aplicar la aproximación normal a la binomial.
Utilizar la distribución normal (que es continua) como sustituto de una del tipo
binomial (que es una distribución discreta) para valores grandes de n parece
razonable porque, conforme n aumenta, una distribución binomial se acerca
Distribuciones de Probabilidades 50
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
cada vez más a una del tipo normal. Este cambio en la forma de la distribución
binomial con 𝜋 = 0.50 desde una n de 1 a una n de 20, se presenta en el
diagrama siguiente:
Diagrama: Distribuciones binomiales para una n de 1, 3 y 20, donde 𝜋 = 0.50.
¿Cuándo es posible utilizar la aproximación normal a la binomial?
La distribución probabilística normal por lo común se considera una buena
aproximación a la del tipo binomial cuando 𝑛𝜋 y 𝑛(1 − 𝜋) son por lo menos 5.
Sin embargo, antes de aplicar dicha aproximación normal es necesario
asegurarse de que la distribución de interés en realidad sea una del tipo de
binomial. Para que esto suceda debe ser aplicables cuatro criterios:
1. Existen sólo dos resultados mutuamente excluyentes para el
experimento: un “éxito” y un “fracaso”.
2. Una distribución resulta de contar el número de éxitos en una cantidad
fija de ensayos.
3. Cada ensayo es independiente.
4. La probabilidad, 𝜋, debe permanecer igual de un ensayo a otro.
Factor de corrección por continuidad
Para mostrar la aplicación de la aproximación normal a la binomial, y la
necesidad de un factor de corrección, supóngase que la gerencia de un
Distribuciones de Probabilidades 51
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
restaurante (Santos Pizza) encontró que el 70% de sus nuevos clientes vuelve
en otra ocasión. En una semana en la que 80 consumidores recientes (de
primera vez) cenaron en el establecimiento, ¿cuál es la probabilidad de que 60
o más regresen en otra ocasión?
Observe que las condiciones binomiales se cumplen cuando:
(1) existen sólo dos resultados posibles, un cliente vuelve para otra comida o
no lo hace.
(2) Se puede contar el número de éxitos, y ello significa, por ejemplo, que
regresan 57 de los 80 clientes.
(3) Los ensayos son independientes, significa esto que si la 34∘ persona vuelve
para un segundo servicio, eso no afecta el que regrese 58∘ cliente.
(4) La probabilidad de que una persona se presente de nuevo, permanece 0.70
para todos los 80 clientes.
Por lo tanto, se podría utilizar la fórmula binomial:
n!
P(x) = (π)x (1 − π)(n−x)
x! (n − x)!
Las probabilidades binomiales para la distribución entre 43 y 68 clientes que
regresan se muestran en la tabla que sigue:
Número de clientes que Número de clientes que
Probabilidad Probabilidad
regresan regresan
43 0.001 56 0.097
44 0.002 57 0.095
45 0.003 58 0.088
46 0.006 59 0.077
47 0.009 60 0.063
48 0.015 61 0.048
49 0.023 62 0.034
50 0.033 63 0.023
51 0.045 64 0.014
52 0.059 65 0.008
53 0.072 66 0.004
54 0.084 67 0.002
55 0.093 68 0.001
Se puede determinar la probabilidad de 60 o más sumando nuevamente 0.063
+ 0.048 + … + 0.001, lo que da 0.197.
Sin embargo, al observar la representación siguiente podemos ver la similitud
de esta distribución con una del tipo normal. Todo lo que tenemos que hacer es
Distribuciones de Probabilidades 52
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
convertir las probabilidades discretas en una distribución continua. Además, el
trabajar con una distribución normal incluirá menos cálculos que el hacerlo con
la binomial.
El objetivo es dejar que la probabilidad discreta para 56 clientes sea
representada por un área bajo la curva entre 55.5 y 56.5. Después, considerar
que la probabilidad para 57 clientes corresponda a un área entre 56.5 y 57.5, y
así sucesivamente. Lo anterior es tan solo el punto contrario del redondeo de
los números a una cifra entera.
Debido a que se utiliza la gráfica normal para determinar la probabilidad
binomial de 60 o más éxitos, se resta, en este caso,0.5 de 60. El balón 0.5 se
denomina factor de corrección por continuidad. Este pequeño ajuste debe
hacerse porque una distribución continua (la de tipo normal) sirve para
aproximar una distribución discreta (la binomial). Restando, 60-0.5=59.5.
Factor de corrección por continuidad: el valor 0.5 que se resta o se suma,
dependiendo del problema, a un valor seleccionado cuando una distribución
probabilística discreta se está aproximando por medio de una del tipo continuo.
Cómo aplicar el factor de corrección
Solamente pueden surgir cuatro casos, los cuales son:
Distribuciones de Probabilidades 53
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
1. Para la probabilidad de que por lo menos X ocurran, use el área por encima
de (X-0.5).
2. Para la de que más de X sucedan, utilice el área por arriba de (X+0.5).
3. Para la de que X o menos ocurran, aplique el área por debajo de (X+0.5).
4. Para la de que menos de X sucedan, emplee el área situada por debajo de
(X-0.5).
Los pasos para utilizar la distribución normal a fin de aproximar la probabilidad
de que 60 o más clientes nuevos, de 80, regresen al restaurante Santos, son:
Paso 1: Hallar el valor Z que corresponde a una X de 59.5 aplicando las
fórmulas respectivas, para la media y la varianza de una distribución binomial:
μ = nπ = 80(0.70) = 56
σ2 = nπ (1 − π) = 80 (0.70) (1 − 0.70) = 16.8
σ = √16.8 = 4.10
X − μ 59.5 − 56
z = = = 0.85
σ 4.10
Paso 2: Determinar el área bajo la curva normal entre μ de 56 y una X de 59.5.
Del paso 1 se sabe que el valor z correspondiente a 59.5, es 0.85. Así que
recurra a una tabla, lea hacia abajo en el margen izquierdo hasta llegar a 0.8, y
después pase horizontalmente hasta el área bajo la columna con el
encabezado 0.05. Tal área es 0.3023.
Paso 3: Calcular el área más allá de 59.5 al restar 0.3023 de 0.5000 (es decir,
0.5000-0.3023= 0.1977). De esta forma, 0.1977 es la probabilidad aproximada
de que 60 o más clientes nuevos, de los 80, regresen en otra ocasión al
restaurante Santos.
Los aspectos de este problema se muestran de manera gráfica como sigue:
Distribuciones de Probabilidades 54
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
0.1977 es la
probabilidad de que 60
de 80 regresen al
establecimiento
0.3023
56 59.5
µ X Escala de X
0 0.85 Escala de Z
Sin duda estará de acuerdo en que utilizar la aproximación normal a la binomial
es un método mucho más eficiente para calcular la probabilidad de que vuelvan
60 o más clientes nuevos.
Distribuciones de Probabilidades 55
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Recursos complementarios
Videos sobre distribuciones de probabilidad:
[Link]
[Link]
Distribuciones de Probabilidades 56
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Bibliografía
LIND, Douglas A.; MARCHAL, William G.; WATHEN, Samuel A. (2012).
Estadística Aplicada a los Negocios y a la Economía. México. MacGraw-
Hill. Decimoquinta edición.
WEIERS, Ronald M. (2006). Introducción a la Estadística para Negocios.
México. Thomson. Quinta edición.
BERENSON, Mark L.; LEVINE, David M.; KREHBIEL, Timothy C. (2001).
Estadística para Administración. México. Pearson Educación. Segunda
edición.
Distribuciones de Probabilidades 57
AUTOEVALUACION 1
Tema 2
Estadística Aplicada
2. Estimaciones de Intervalos de Confianza
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Índice Pág.
2.1. Introducción 3
2.2. Métodos de muestreo probabilístico 3
2.3. Distribución de muestreo de medias 10
2.4. Teorema de Límite Central 14
2.5. Estimaciones puntuales e Intervalos de confianza
20
2.6. Intervalo de confianza de una media poblacional
21
2.7. Intervalo de confianza para una proporción 28
2.8. Factor de corrección para población finita 30
2.9. Elección de un tamaño adecuado de una muestra
33
Recursos complementarios 38
Bibliografía 39
Estimaciones de Intervalos de Confianza 2
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
2.1. Introducción
El objetivo de la inferencia estadística es determinar algo cerca de una
población con base en una muestra. La población es el grupo completo de
individuos u objetos en estudio, y la muestra es una parte o subgrupo de esa
población.
Una muestra es un medio utilizado para inferir algo acerca de una población
mediante la selección de una parte de la misma. Se analizarán métodos para
escoger una muestra de una población. Después se elaborará una distribución
de las medias muestrales para comprender la forma en que tales valores
medios tienden a agruparse alrededor de la media poblacional y por qué esta
distribución se aproxima a la del tipo normal.
Se establecerán los intervalos de confianza, que definen una gama de valores
dentro de la cual ocurrirá, probablemente, el valor de la población. Se definen
fórmulas que determinan el número de observaciones necesarias para
diferentes situaciones de muestreo.
El muestreo es la única forma de determinar algo acerca de la población.
Algunas de las principales razones por las que éste es necesario son:
1. La naturaleza destructiva de ciertas pruebas.
2. La imposibilidad física de revisar todos los integrantes de la población.
3. El costo de estudiar a todos los integrantes de una población
frecuentemente es prohibitivo.
4. Lo adecuado de los resultados de la muestra.
5. En ocasiones se necesitaría mucho tiempo para entrevistar a toda la
población.
2.2. Métodos de muestreo probabilístico
(Ref. LIND, A. Douglas; et. al. (2012). Estadística aplicada a los negocios y
a la economía. Pág. 263).
Estimaciones de Intervalos de Confianza 3
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Existen dos tipos de muestras: la muestra: la muestra probabilística y la
muestra no probabilística.
Muestra probabilística: Muestra que se selecciona de modo que cada
integrante de la población en estudio tenga una probabilidad conocida (no igual
a cero) de ser incluido en la muestra.
Si se realiza un muestreo de probabilidad, cada integrante de la población tiene
la posibilidad de ser seleccionado. Al utilizar métodos no probabilísticos, no
todos los integrantes tienen probabilidad de ser incluidos en la muestra. En
estos casos, los resultados pueden estar sesgados, lo que significa que tales
resultados de la muestra pueden no ser representativos de la población.
No hay un método que sea el “mejor” para seleccionar una muestra
probabilística de una población de interés. Los métodos de muestreo
probabilístico tienen un objetivo similar: permitir que el azar determine los
integrantes que se incluirán en la muestra.
MUESTREO ALEATORIO SIMPLE
El tipo de muestreo más utilizado es el denominado muestreo aleatorio
simple.
Muestreo aleatorio simple (MAS): Muestra seleccionada de manera que cada
integrante de la población tenga la misma probabilidad de quedar incluido.
Para ilustrar el muestreo aleatorio simple y la selección, suponga que una
población consta de 845 empleados de una empresa. Se seleccionará una
muestra de 52 a partir de esta población. Una forma de asegurar que todos los
trabajadores en la población tengan la misma oportunidad de ser elegidos, es
escribir primero el nombre de cada uno en una papeleta y depositar en una
urna todos los papeles. Después que se han mezclado bien, se realiza la
primera selección sacando una papeleta de la urna sin mirarla. Este proceso se
repite hasta que eligen 52, el tamaño de la muestra requerido.
Un método adecuado de seleccionar una muestra aleatoria es emplear el
número de identificación de cada empleado y una tabla de números
aleatorios. Como su nombre lo indica, estos números han sido generados por
Estimaciones de Intervalos de Confianza 4
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
un proceso aleatorio (por ejemplo, por una computadora). Para cada dígito de
un número, la probabilidad de 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 es la misma. Así, la
probabilidad de que el empleado con número 011 sea elegido, es la misma que
la del empleado 722, o que la del 383. Por lo tanto, quedan eliminados así los
sesgos en el proceso de selección.
A continuación, se muestra una parte de una tabla de números aleatorios. Para
utilizar esta tabla a fin de seleccionar una muestra de los empleados, primero
debe elegirse un punto de inicio en la tabla. Cualquier punto de comienzo
servirá. Supóngase que la hora es 3h04. Podría uno ver la tercera columna, y
después bajar al cuarto conjunto de números. El resultado es 03759. Como
sólo hay 845 empleados, se utilizará los primeros tres dígitos de un número
aleatorio de cinco cifras. De modo que 037 es el número del primer empleado
que será elemento de la muestra. A fin de continuar seleccionando, se puede ir
en cualquier dirección. Supóngase que se decide ir hacia la derecha. Los
primeros tres dígitos del número a la derecha de 13759 son 447, que es el
número del empleado que se escogerá como segundo elemento de la muestra.
El tercer número de tres dígitos también a la derecha es 961. No se puede usar
el 961 porque solamente hay 845 empleados. Se continúa en la misma
dirección y se selecciona al empleado 784 después al 189 y así
sucesivamente. Otra forma de seleccionar el punto de inicio es cerrando los
ojos y fijando con un lápiz un número de tabla.
5 0 5 2 5 5 7 4 5 4 2 8 4 5 5 6 8 2 2 6 3 4 6 5 6 3 8 8 8 4 3 9 0 1 8
7 2 5 0 7 5 3 3 8 0 5 3 8 2 7 4 2 4 8 6 5 4 4 6 5 7 1 8 1 9 9 1 1 9 9
3 4 9 8 6 7 4 2 9 7 0 0 1 4 4 3 8 6 7 6 8 9 9 6 7 9 8 8 6 9 3 9 7 4 4
6 8 8 5 1 2 7 3 0 5 0 3 7 5 9 4 4 7 2 3 9 6 1 0 8 7 8 4 8 9 1 8 9 1 0
0 6 7 3 8 6 2 8 7 9 0 3 9 1 0 1 7 3 5 0 4 9 1 6 9 0 3 8 5 0 1 8 9 1 0
1 1 4 4 8 1 0 7 3 4 0 5 8 3 7 0 5 8 3 7 1 0 4 2 0 1 6 7 1 2 9 4 4 9 6
Punto de Segundo Tercer
comienzo empleado empleado
MUESTREO ALEATORIO SISTEMÁTICO
El procedimiento de muestreo aleatorio simple puede ser difícil de utilizar en
algunos casos de investigación. Por ejemplo, suponga que la población de
Estimaciones de Intervalos de Confianza 5
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
interés consta de 2000 facturas colocadas en gavetas de archivo. Para obtener
una muestra aleatoria, simple, primero se necesitaría numerar dichos
elementos del 0000 al 1999. Usando una tabla de números aleatorios, una
muestra de -por ejemplo- 100 números, se tendría que seleccionar. Habría que
localizar en las gavetas una factura que correspondiera a cada uno de estos
100 números. Esto sería una tarea larga. En su lugar puede seleccionarse una
muestra aleatoria sistemática, seleccionando simplemente un elemento de
cada 20 de los que se encuentran en el archivo. La primera factura se elegiría
utilizando un proceso al azar o fortuito, por ejemplo, una tabla de números
aleatorios. Si se selecciona el elemento número 10 como el punto de inicio, la
muestra constaría de las facturas números 10, 30, 50, 70, etc. Ya que en el
primer elemento se eligen al azar todas las facturas tienen la misma
probabilidad de ser seleccionadas para la muestra. Así que se tiene una
muestra probabilística.
Muestra aleatoria sistemática: Los integrantes o elementos de la población
se ordenan en alguna forma -por ejemplo, alfabéticamente- en un archivo
según la fecha en que se reciben, o por algún otro método. Se seleccionan al
azar un punto de partida, y después se elige para la muestra cada k-ésimo
elemento de la población.
Sin embargo, no deben utilizarse una muestra sistemática si hay un patrón
predeterminado en la población.
MUESTREO ALEATORIO ESTRATIFICADO
Otro tipo de muestreo probabilístico es el muestreo aleatorio estratificado.
Muestreo aleatorio estratificado: Una población se divide en subgrupos
denominados estratos, y se selecciona una muestra de cada uno.
Después de que la población se ha dividido en estratos, puede seleccionarse
una muestra proporcional o bien no proporcional. Como el nombre lo dice, un
procedimiento de muestreo proporcional requiere que el número de elementos
en cada estrato tenga la misma proporción que se encuentra en la población.
Por ejemplo, el problema puede ser estudiar los gastos de publicidad de las
352 compañías más grandes del país. Suponga que el objetivo del análisis es
determinar si las empresas que pagan altos dividendos (una medida de
rentabilidad) gastan más de cada dólar de ventas en propaganda, que lo que
Estimaciones de Intervalos de Confianza 6
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
destinan a eso las compañías con bajos dividendos o en déficit. Considere que
las 352 empresas se dividieron en cinco estratos. (Ver la Tabla siguiente). Si se
han de seleccionar 50 empresas para un estudio intensivo, entonces se
estudiaría una organización con un nivel de rentabilidad de 30% o mayor, se
seleccionarían aleatoriamente cinco empresas en el estrato 20-30%, y así
sucesivamente.
Ganancia Porcentaje del
Estrato Número de empresas Número muestreado
(dividendos) total
1 30% y más 8 2 1*
2 20 a 30% 35 10 5*
3 10 a 20% 189 54 27
4 0 a 10% 115 33 16
5 Déficit 5 1 1
Total 352 100 50
*2 de 50 = 1; 10% de 50 = 5; etc.
Tabla: Número seleccionado para una muestra aleatoria estratificada proporcional
En una muestra estratificada no proporcional, la cantidad de elementos
estudiada en cada estrato es desproporcionada respecto de su número en la
población. Luego se ponderan los resultados de la muestra de acuerdo con la
proporción del estrato respectivo a la población total. Por ejemplo, si se utilizara
el muestro no proporcional en el caso anterior, se deberían ponderar los
resultados del estrato 1 por 2/100, los del estrato 2 por 10/100, los del estrato 3
por 54/100, etc. Sin considerar si se usa un procedimiento de muestreo
proporcional o no proporcional, cada elemento o persona de la población tiene
probabilidad de ser seleccionado para la muestra.
El muestreo estratificado tiene la ventaja, en algunos casos, de reflejar con
mayor precisión las características de la población, que el muestreo aleatorio
simple o el aleatorio sistemático. Observe en la Tabla anterior que el 2% de las
empresas pagan dividendos de 30% o más (estrato 1), y 1% tiene déficit
(estrato 5). Si se tomara una muestra aleatoria simple de 50, no habría
posibilidad de seleccionar al azar alguna compañía de los estratos 1 o bien 5.
Sin embargo, una muestra aleatoria estratificada aseguraría que al menos una
empresa en el estrato 1 y una en el estrato 5, estuvieran representadas en la
muestra.
Estimaciones de Intervalos de Confianza 7
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
MUESTREO POR CONGLOMERACIÓN
Otro tipo de muestreo es el muestreo por conglomerados. Se emplea
adecuadamente para reducir el costo de muestrear una población dispersa en
un área geográfica grande. Suponga que se desea efectuar un reconocimiento
para determinar los puntos de vista de industriales respecto a las políticas
gubernamentales referentes a protección ambiental. Si se seleccionara una
muestra aleatoria de industriales y personalmente se hablara, ello tomaría
mucho tiempo y sería sumamente costoso. En vez de eso podría emplearse el
muestreo por conglomeración subdividiendo una región extensa en áreas
menores. Con frecuencia se denomina a estas unidades primarias. Suponga
que se divide la región en 12 unidades primarias, después seleccionan al azar
cuatro áreas menores: la 2, 7, 4, y 12 y se concentran los esfuerzos en éstas.
Se podría tomar una muestra aleatoria de los industriales de cada unidad, y
entrevistarlos. (Observe que lo anterior es una combinación del muestreo por
conglomeración y el muestreo aleatorio simple.)
9
2
6
10
3
7
5
4
1
8 11
El análisis de los métodos de muestreo indicados, no incluye todos los
procedimientos para tal acción de los que dispone un investigador. Si se realiza
un proyecto de investigación importante sobre mercadotecnia, finanzas,
contabilidad u otras áreas, será necesario que se consulten libros que hayan
sido escritos exclusivamente con relación a la teoría del muestreo y el diseño
de muestras.
Estimaciones de Intervalos de Confianza 8
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
“Error” de muestreo
En el análisis anterior se subrayó la importancia de seleccionar una muestra de
manera que cada elemento o individuo de la población tenga una probabilidad
real de ser escogido. Para lograr esto, podría elegirse un muestreo aleatorio
simple, uno sistemático, uno estratificado, uno por conglomeración, o bien una
combinación de estos métodos.
Sin embargo, es poco probable que una media muestral sea idéntica a la media
poblacional. De igual forma, la desviación estándar u otra medida calculada a
partir de la muestra, probablemente no sería exactamente igual al valor
correspondiente de la población. Por tanto, podemos esperar que haya alguna
diferencia entre un valor estadístico de muestra, como la media muestral o la
desviación estándar respectiva, y el correspondiente parámetro de población.
La diferencia entre un valor estadístico de muestra y un parámetro de población
se denomina error de muestreo.
Error de muestreo: Diferencia entre un valor estadístico de muestra y su
parámetro de población correspondiente.
Suponga que una población de cinco empleados del área de producción tiene
índices de eficiencia de 97, 103, 96, 99 y 105. Considere además que se
selecciona una muestra de dos índices (97 y 105) de la población para calcular
el índice medio de la misma, tal media sería 101, obtenida de (97+105)/2. Se
selecciona otra muestra de dos: 103 y 96, con una media muestral de 99.5. La
media de todos los índices (la de la población) es igual a 100, obtenida por:
(97+103+96+99+105)/5 = 500/5 = 100.
El error de muestreo para la primera muestra es de 1.0, determinado por 𝑋 - µ
= 101 – 100. La segunda muestra tiene un error de muestreo de –0.5. Cada
diferencia, 1.0 y –0.5, es el error que habría al evaluar la media poblacional con
base en la media muestral, y estos errores de muestreo se deben al azar. La
cantidad de estos errores de muestreo se deben al azar. La cantidad de estos
errores será diferente de una muestra a la siguiente.
Ahora que se ha descubierto la posibilidad de un error de muestreo cuando se
usan los resultados de la muestra para determinar un parámetro de población,
¿cómo se puede realizar un pronóstico exacto sobre el éxito posible de un
dentífrico recientemente elaborado o algún otro producto, únicamente con base
Estimaciones de Intervalos de Confianza 9
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
en resultados muestrales? ¿Cómo puede el departamento de control de calidad
de una industria de producción masiva enviar un cargamento de microchips
basado únicamente en una muestra de 10 chips? ¿Cómo pueden las empresas
de sondeos “Cedatos” o “Informe Confidencial” realizar una predicción acertada
respecto de una campaña electoral con base en una muestra de 2000 electores
registrados de una población votante de casi 17 millones? Para responder a
estas preguntas primero debe desarrollarse una distribución de muestreo de las
medias.
2.3. Distribución de muestreo de medias
(Ref. LIND, A. Douglas; et. al. (2012). Estadística aplicada a los negocios y
a la economía. Pág. 272).
En el ejemplo referente a las tasas de eficiencia de los empleados, se mostró
que las medias muestrales de un tamaño específico varían de una muestra a
otra. El índice de eficiencia medio de la primera muestra de dos empleados era
101, y la media de la segunda muestra fue 99.5. Probablemente, una tercera
muestra daría como resultado un valor medio diferente. La media de la
población fue 100. Si se organizan los valores medios de todas las muestras
posibles de tamaño 2 en una distribución probabilística, se obtendrá la
denominada distribución de muestreo de medias muestrales.
Distribución de muestreo de medias: Es una distribución probabilística que
consta de todas las medias muestrales posibles de un tamaño de muestra dado
de una población, y la probabilidad de ocurrencia asociada a cada media
muestral.
El siguiente ejemplo ilustra la elaboración de una distribución de muestreo de
medias de muestra.
Ejemplo:
La empresa American tiene siete empleados de producción (considerados
como la población). El salario por hora de cada trabajador se presenta en la
tabla siguiente.
Estimaciones de Intervalos de Confianza 10
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Empleado Salario (en dólares)
José 7
Samuel 7
Susana 8
Roberto 8
Jan 7
Aura 8
Ted 9
Tabla: Salarios (por hora) de los trabajadores de producción de la empresa American.
1. ¿Cuál es la media de la población?
2. ¿Cuál es la distribución de muestreo de medias para una muestra de
tamaño 2?
3. ¿Cuál es la media de la distribución de muestreo?
4. ¿Qué comentarios pueden formularse con respecto a la población y a la
distribución muestral?
Solución:
1. La media de la población es de $7.71 (dólares), obtenida por:
$7 + $7 + $8 + $8 + $7 + $8 + $9
µ=
7
2. Para determinar la distribución de muestreo de las medias muestrales, se
seleccionaron todas las muestras posibles de tamaño 2 sin reposición en la
población, y se calcularon sus medias. Hay 21 muestras posibles, obtenidas
mediante la fórmula respectiva:
𝑁! 7!
NCn = = = 21
𝑛! (𝑁−𝑛) 2! (7−2)!
donde, N=7 es el número de elementos en la población y n = 2 es la cantidad
de los mismos en la muestra.
Las 21 medias de todas las muestras posibles de tamaño 2 que pueden
tomarse a partir de la población, se indican en la Tabla siguiente:
Estimaciones de Intervalos de Confianza 11
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Muestra Empleados Salario (dólares por hora) Suma Media
1 José Samuel $7 $7 $14 $7,00
2 José Susana 7 8 15 7,50
3 José Roberto 7 8 15 7,50
4 José Jan 7 7 14 7,00
5 José Aura 7 8 15 7,50
6 José Ted 7 9 16 8,00
7 Samuel Susana 7 8 15 7,50
8 Samuel Roberto 7 8 15 7,50
9 Samuel Jan 7 7 14 7,00
10 Samuel Aura 7 8 15 7,50
11 Samuel Ted 7 9 16 8,00
12 Susana Roberto 8 8 16 8,00
13 Susana Jan 8 7 15 7,50
14 Susana Aura 8 8 16 8,00
15 Susana Ted 8 9 17 8,50
16 Roberto Jan 8 7 15 7,50
17 Roberto Aura 8 8 16 8,00
18 Roberto Ted 8 9 17 8,50
19 Jan Aura 7 8 15 7,50
20 Jan Ted 7 9 16 8,00
21 Aura Ted 8 9 17 8,50
Tabla: Medias muestrales de todas las muestras posibles de tamaño de dos empleados.
La distribución de la probabilidad es la distribución de muestreo de las medias y
se resume en la Tabla siguiente:
Media muestral Número de medias Probabilidad
$ 7,00 3 0,1429
$ 7,50 9 0,4285
$ 8,00 6 0,2857
$ 8,50 3 0,1429
21 1,0000
3. Se obtuvo la media de la distribución de muestreo de medias muestrales,
sumando las diferentes medias de muestra y dividiendo la suma entre el
número de muestras. La media de todas las medias generalmente se expresa
como µ𝑋̅ . El símbolo µ recuerda que es un valor poblacional, pues se han
Estimaciones de Intervalos de Confianza 12
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
considerado todas las muestras posibles. El subíndice 𝑋̅ . indica que es una
distribución de muestreo de medias.
𝑆𝑢𝑚𝑎 𝑑𝑒 𝑡𝑜𝑑𝑎𝑠 𝑙𝑎𝑠 𝑚𝑒𝑑𝑖𝑎𝑠 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙𝑒𝑠
µ𝑋̅ =
𝑁ú𝑚𝑒𝑟𝑜 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑠
$7.00 + $7.50 + ⋯ + $8.50 $162
µ𝑋̅ = = = $7.71
21 21
Vea el diagrama:
µ
µ
Diagrama: Distribuciones de valores de población y medias muestrales.
4. Pueden hacerse los siguientes comentarios:
a. La media de las medias muestrales ($7.71) es igual a la media poblacional:
µ = µ𝑋̅ .
b. La dispersión en la distribución de las medias muestrales es menor que la
que corresponde a los valores de la población. Las medias muestrales
varían de $7.00 a $8.50, y los valores de la población van de $7.00 a $9.00.
De hecho, la desviación estándar de la distribución muestral de medias es
igual a tal desviación poblacional dividida entre la raíz cuadrada del tamaño
de la muestra. Por lo tanto, la fórmula para la desviación estándar de la
distribución de medias muestrales es σ/ √𝑛 Observe que, al aumentar el
tamaño de la muestra, la dispersión de muestreo de las medias muestrales
se vuelve menor.
c. La forma de la distribución de muestreo de las medias muestrales, y la
forma de la distribución de frecuencias de los valores de población, son
Estimaciones de Intervalos de Confianza 13
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
diferentes. La primera distribución tiende a ser acampanada y se aproxima
su aspecto al de la distribución probabilística normal.
En resumen, se tomaron todas las muestras aleatorias posibles de una
población y para cada una se calculó un valor estadístico muestral (la cantidad
media obtenida). Como cada muestra posible tiene una posibilidad de ser
selecciona, puede determinarse la probabilidad de que dicha cantidad tenga
valores como $7.27, $8.50, $6.50, y así sucesivamente. La distribución de las
cantidades medias obtenidas se denomina la distribución de muestreo de las
medias muestrales.
Aunque en la práctica se puede ver solo una muestra aleatoria en particular, en
teoría puede surgir cualquiera de las muestras. En consecuencia, se considera
el proceso de muestreo como uno repetido del valor estadístico a partir de su
distribución muestral. Esta distribución de muestreo se utiliza luego para medir
la probabilidad de un resultado específico.
2.4. Teorema de límite central
(Ref. LIND, A. Douglas; et. al. (2012). Estadística aplicada a los negocios y
a la economía. Pág. 276).
La aplicación del teorema de limite central a la distribución de muestreo de
los valores medios muestrales, permite el uso de la distribución probabilística
normal para crear intervalos de confianza de la media poblacional.
El teorema de límite central establece que, para muestras aleatorias grandes,
la forma de distribución de medias muestrales se acerca a la de la distribución
del tipo normal. La aproximación es más exacta para para muestras grandes
que para pequeñas. Esta es una de las conclusiones más útiles en Estadística.
Se puede razonar acerca de la distribución de las medias muestrales sin contar
con alguna información respecto de la forma de la distribución original de la
cual se toma la muestra. En otras palabras, el teorema de límite central es
cierto para todas las distribuciones.
Teorema de Límite Central: Si se seleccionan de cualquier población todas
las muestras de un tamaño determinado, la distribución de las medias
Estimaciones de Intervalos de Confianza 14
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
muestrales se acercará a una del tipo normal. Esta aproximación aumenta en el
caso de muestras grandes.
Si la población está distribuida normalmente, entonces, para cualquier tamaño
de muestra, la distribución de la media muestral también lo estará. Si la
distribución de la población es simétrica (pero no normal), se verá surgir la
forma normal del teorema de límite central, con muestras tan pequeñas como
10. Por otra parte, si se comienza con una distribución que es sesgada o tiene
extremos gruesos, es posible que se necesiten muestras de al menos 30 o
mayor, es suficiente para que se emplee el teorema de límite central.
El concepto de que la distribución de las medias muestrales de una población
que no es normal, converja a la normalidad en ciertos casos, se ilustra en los
tres diagramas siguientes:
Diagrama: Tiempo de servicio de los empleados de la empresa Spencer, Inc.
Estimaciones de Intervalos de Confianza 15
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Diagrama: Tiempo medio de servicio de 10 muestras de cinco empleados de la empresa Spencer, Inc.
Diagrama: Histograma de los tiempos medios de servicio de 30 muestras de empleados en la empresa Spencer, Inc.
El primer Diagrama representa una distribución probabilística discreta que tiene
sesgo positivo.
De esta población pueden seleccionarse muchas muestras de tamaño 5.
Supóngase que se seleccionan al azar 10 de tal tamaño 5, y se calcula la
media de cada una. Estos resultados se presentan en el segundo Diagrama.
Observe que la forma de la distribución de las medias muestrales cambió
respecto de la población original, aun cuando solo se seleccionaron 10
muestras aleatorias de tamaño 5, de una población que tiene sesgo positivo, y
se encontró que la distribución de las medias muestrales cambió respecto de la
forma original de la población. Al tomar mayor número de muestras, se hallará
que la distribución de las medias muestrales se aproximará a la del tipo normal.
El tercer Diagrama es un histograma que muestra los resultados de 30
aleatorias de 5 observaciones de la misma población. Observe la clara
tendencia hacia la distribución normal. Este es el objetivo del teorema de límite
central.
El siguiente ejemplo resaltará esta condición:
Ejemplo:
Estimaciones de Intervalos de Confianza 16
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Edu Spencer comenzó con su empresa comercial (de ruedas dentadas) hace
20 años. El negocio ha crecido a través del tiempo, y ahora emplea a 40
personas. Tal empresa, Spencer, Inc. se enfrenta a algunas decisiones
importantes con respecto al cuidado de la salud de sus empleados. Antes de
tomar una resolución final acerca del plan de cuidados de la salud que
adquirirá, Edu decide formar un comité de cinco representantes de los
trabajadores, para que analice cuidadosamente el tema, y haga una
recomendación con respecto a cuál plan se adapta mejor a las necesidades del
empleado.
Considera que los puntos de vista de los trabajadores más jóvenes con
respecto al cuidado de la salud pueden diferir de aquellos de los
correspondientes a empleados de mayor edad. Si Edu selecciona al azar este
comité, ¿qué puede esperar respecto al cuidado del número promedio de años
en la empresa de los integrantes del mismo? ¿Cómo se compara la forma de la
distribución de años de experiencia de todos los empleados con la de las
medias muestrales?
Los tiempos de servicio (redondeados al año más cercano) de los 40
trabajadores que actualmente están en la nómina de dicha empresa, son como
se indica a continuación:
11 4 18 2 1 2 0 2 2 4
3 4 1 2 2 3 3 19 8 3
7 1 0 2 7 0 4 5 1 14
16 8 9 1 1 2 5 10 2 3
Solución:
El primer Diagrama muestra la distribución de los años de experiencia para los
40 empleados actuales. Observe que la distribución de los tiempos de servicio
tiene sesgo positivo. Hay algunos empleados que han trabajado con Spencer,
Inc. por cierto tiempo. Específicamente, seis han estado con la compañía 10
años o más. Sin embargo, ya que el negocio ha crecido, el número de
empleados ha aumentado en los últimos años. De los 40 trabajadores, 18 han
estado en la empresa dos años o menos.
Considérense el primero de los problemas de Edu Spencer. Le gustaría formar
un comité de cinco empleados para que analice el tema de los cuidados de la
Estimaciones de Intervalos de Confianza 17
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
salud y señale qué tipo de plan de seguros es el adecuado para la mayoría de
los trabajadores. ¿Cómo debería seleccionar al comité? Si lo selecciona al
azar, ¿qué puede esperar en términos del tiempo medio de servicio de los
integrantes del grupo?
Para empezar, Edu escribe en papeletas el tiempo de servicio de cada uno de
los 40 empleados y las coloca dentro de una caja. Después revuelve todos los
pedazos de papel y selecciona al azar 5 de las papeletas. Los tiempos de
servicio para estos cinco laborantes son: 4, 1, 0, 14 y 9 años. Por lo tanto, el
tiempo medio de servicio para tales empleados es 5.60 años.
¿Cómo se compara este resultado con la media de la población? En ese
momento Edu no la conoce, pero el número de empleados en la población es
solo 40, por lo que decide calcular el tiempo medio de servicio para todos sus
trabajadores. Esto da 4.80 años, valor obtenido de sumar los tiempos de
servicio para todos los empleados y dividir el total entre 40.
Esto es μ = (11+4+18+…+2+3)/40 = 192/40 = 4.80.
La diferencia entre la media muestral, X̄, y la media poblacional se denomina
error de muestreo. En otras palabras, la diferencia de 0.80 años entre la
media de la población de 4.80, y la media muestral de 5.60, es el error de
muestreo. Esto se debe a la circunstancia. De modo que, si Edu seleccionó a
esos cinco empleados para formar el comité, el tiempo medio de servicio de
tales trabajadores se encontraría ligeramente por arriba del valor medio de la
población.
¿Qué pasaría si Edu devolviera las cinco papeletas a la caja y seleccionara
otra muestra? ¿Se esperaría que la media de esta segunda muestra fuera igual
a la de la muestra anterior?
Suponga que se elige otra muestra de cinco empleados, y se determina que
sus tiempos de servicio son 8, 3, 1, 1 y 14. La media de esta muestra es 5.40
años. El resultado de seleccionar 10 muestras de 5 empleados cada una se
presenta en el segundo Diagrama. Observe la diferencia en la forma de la
población y la distribución de esas medias muestrales. La población de los
tiempos de servicio para los empleados (segundo Diagrama) tiene sesgo
positivo, pero la distribución de las 10 medias muestrales no manifiesta el
mismo sesgo positivo. De hecho, tiene sesgo negativo.
Estimaciones de Intervalos de Confianza 18
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
La tabla siguiente indica el resultado de seleccionar 30 o más muestras de 5
empleados cada una, y calcular sus medias muestrales, las cuales después se
organizan en un histograma (tercer Diagrama). Compárese la forma de este
polígono de frecuencias, con la conformación de la población de empleados en
el primer Diagrama. Se deben observar dos aspectos importantes:
1. La forma de la distribución de las 30 medias muestrales es diferente a la de
la población. En el primer Diagrama, la distribución de todos los empleados
tiene sesgo positivo. Sin embargo, la distribución de las medias muestrales,
tercer Diagrama, se aproxima más a una del tipo normal. Esto ilustra el
teorema de límite central.
2. Existe menos dispersión en la distribución de medias muestrales que en la
distribución de la población. En esta, los tiempos de servicio variaron de 0 a
19 años. En aquella distribución, las medias muestrales variaron de 2.2
años a 9.2 años.
Número Media
Datos de la muestra Número de Datos de la muestra Media
de muestral
(tiempo de servicio) muestra (tiempo de servicio) muestral X̄
muestra X̄
1 4 1 0 14 9 5.6 16 2 2 10 11 0 5.0
2 8 3 1 1 14 5.4 17 4 2 3 8 1 3.6
3 2 4 2 4 2 2.8 18 0 0 4 3 5 2.4
4 11 1 5 2 3 4.4 19 1 4 2 3 1 2.2
5 2 1 7 3 3 3.2 20 2 7 0 2 3 2.8
6 11 2 10 1 4 5.6 21 5 16 2 4 11 7.6
7 4 3 11 2 9 5.8 22 9 3 0 2 8 4.4
8 8 3 14 2 2 5.8 23 5 1 2 10 0 3.6
9 1 7 8 2 2 4.0 24 2 1 2 0 8 2.6
10 14 1 2 10 2 5.8 25 19 4 3 3 1 6.0
11 8 2 8 5 0 6.6 26 0 4 9 11 8 6.4
12 3 1 4 2 7 3.4 27 4 9 4 3 2 4.4
13 0 4 3 3 1 2.2 28 2 5 2 7 2 3.6
14 11 4 9 2 8 6.8 29 18 8 1 11 8 9.2
15 7 1 2 5 1 3.2 30 14 16 0 2 3 7.0
Tabla: Muestras aleatorias y medias muestrales de 30 muestras de cinco empleados de la empresa Spencer, Inc.
Asimismo, se puede comparar el valor medio de las medias muestrales con
respecto a la media de la población. La media de las 30 muestras presentadas,
Estimaciones de Intervalos de Confianza 19
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
en la tabla anterior es 4.7133 años, valor obtenido por μX̄ =
(5.6+5.4+…+9.2+7.0)/30. Se utiliza es símbolo μX̄ para representar el valor de
las medias muestrales. El subíndice indica que la distribución es de medias de
muestras. Se lee ”miu sub X con barra”. Observe que el valor medio de las
medias muestrales, 4.7133 años, es muy parecido a la media de la población
de 4.80 años.
Por lo tanto, el teorema de limite central indica que, sin importar la forma de la
población, la distribución de las medias muestrales se aproximará a la
distribución normal. Cuánto más grandes sean las muestras, tanto mayor serán
la convergencia. La empresa Spencer, Inc. es una evidencia empírica del modo
cómo funciona el teorema del límite central.
El teorema de límite central (leer su definición) no menciona algo acerca de la
dispersión de la distribución de las medias muestrales o respecto de una
comparación entre el valor medio de las medias y el de la población. Sin
embargo, en el Ejemplo/Solución, se observó que había menos dispersión en la
distribución de las medias muestrales que en la de la población, al comparar la
amplitud de variación de población, y la amplitud de las medias muestrales.
Asimismo, se observó que el valor medio de todas las medias muestrales se
encontraba cerca de la media de la población. Se puede ver que, si la
dispersión en la población es σ, la dispersión en las medias muestrales es
𝜎/√𝑛 , en donde n representa el tamaño de la muestra.
Por esta relación, es posible observar que, al incrementar el tamaño de la
muestra, la dispersión de las medias muestrales disminuye. También se puede
probar que, el valor medio de todas las medias muestrales es igual a la media
poblacional.
2.5. Estimadores puntuales e intervalos de
confianza
(Ref. LIND, A. Douglas; et. al. (2012). Estadística aplicada a los negocios y
a la economía. Pág. 284).
Estimaciones de Intervalos de Confianza 20
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Los datos sobre el tiempo de servicio de los empleados de Spencer, Inc.,
presentado en el Ejemplo último, son una población porque se reportó el
tiempo de servicio para los 40 trabajadores de la compañía. En este caso se
puede calcular fácilmente la media de la población. Se tienen todos los datos y
la población no es demasiado grande. Sin embargo, en la mayoría de los casos
es necesario calcular la media poblacional. Generalmente se desconoce este
parámetro de la población. Al único número que se utiliza para evaluar un
parámetro de población, se le denomina estimación puntual.
Estimación Puntual: El valor, calculado a partir de la información de muestreo,
que se emplea para estimar el parámetro de población.
La media muestral, 𝑋̅, es una estimación puntual de la media poblacional, µ; p
es una estimación puntual de π y, asimismo, s es una estimación puntual de σ.
Suponga que una empresa desea calcular la edad promedio de compradores
de equipos estéreo. Se selecciona una muestra aleatoria de 50 compradores
recientes, se determina la edad de cada uno y se calcula la edad media de los
seleccionados. El valor medio de esta muestra es una estimación puntual de la
media poblacional.
Sin embargo, un valor estimado puntual representa solo una parte de la
historia. Al tiempo que se espera que la estimación puntual se acerque al
parámetro de la población, quisiéramos medir que tan cerca se encuentra. Un
intervalo de confianza cumple con este propósito.
Intervalo de Confianza: Una gama de valores obtenidos a partir de datos de
muestreo, de modo que el parámetro ocurre dentro de esa variedad a una
probabilidad específica. La probabilidad específica en cuestión se denomina el
nivel de confianza.
2.6. Intervalo de confianza de una media
poblacional
(Ref. LIND, A. Douglas; et. al. (2012). Estadística aplicada a los negocios y
a la economía. Pág. 285).
Estimaciones de Intervalos de Confianza 21
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Se calcula la media del ingreso anual para los trabajadores de construcción en
el área de Los Ángeles, como igual a $ 65000 (dólares). La variación de este
cálculo podría ser de $ 61000 a $ 69000. Al realizar una declaración de
probabilidad, se puede describir la confianza que se tiene en que el parámetro
de la población, se encuentre en el intervalo.
Por ejemplo, puede afirmarse que se está 90% seguro de que la media del
ingreso anual de los trabajadores de construcción en el área de Los Ángeles,
está entre $ 61000 y $ 69000.
La información desarrollada acerca de la forma de una distribución de muestreo
de medias muestrales, lo cual significa una distribución de muestreo de X ̅,
permite localizar un intervalo que tenga una probabilidad específica de incluir a
la media de la población, µ. Para muestras razonablemente mayores, se puede
utilizar el teorema de limite central y afirmar lo siguiente:
1. Un 95% de las medias muestrales seleccionadas de una población estará
dentro de 1.96 desviaciones estándares respecto de la media poblacional,
µ.
2. Un 99% de las medias muestrales se encontrará dentro de 2.58
desviaciones estándares respecto de la media de la población.
La desviación estándar mencionada aquí es la desviación estándar de la
distribución de muestreo de medias muestrales. Los intervalos calculados de
esta manera se denominan el intervalo de confianza de 95% y el intervalo de
confianza de 99%.
¿Cómo se obtienen los valores de 1.96 y 2.58?
El 95% y el 99% se refieren al porcentaje de tiempo que los intervalos
construidos similarmente incluirían el parámetro que se estima. Por ejemplo, el
de 95% se refiere al 95% central de las observaciones. Por lo tanto, el 5%
restante se divide por igual entre los dos extremos.
Observe el diagrama siguiente:
Estimaciones de Intervalos de Confianza 22
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
El teorema de límite central afirma que la distribución de muestreo de las
medias muestrales se aproxima a la normal. Por lo tanto, puede utilizarse una
tabla de probabilidades normales para determinar los valores z adecuados.
Localice 0.4750 en el cuerpo de la tabla, y después léanse los valores
correspondientes de columna e hilera. Así resulta 1.96. De modo que la
probabilidad de encontrar un valor z entre 0 y 1.96 es 0.4750.
Del mismo modo, la probabilidad de que esté en el intervalo entre -1.96 y 0, es
también de 0.4750. Cuando se combinan ambas, la probabilidad de
encontrarse en el intervalo -1.96 a 1.96, resulta ser 0.9500. El valor z que
corresponde a 0.99 se determina de forma similar.
¿Cómo se calcula el intervalo de confianza de 95%? Por ejemplo, suponga que
su investigación tiene que ver con el sueldo anual inicial para los graduados de
una escuela de economía. Se ha calculado la media muestral como igual a $
27000 (dólares) y la desviación estándar de las medias muestrales, como de $
200. El intervalo de confianza de 95% está entre $ 26608 y $ 27392, obtenido
por $ 27000 ± 1.96 ($ 200). Si se seleccionan 100 muestras del mismo tamaño
de la población de interés, y se determinan los correspondientes 100 intervalos
Estimaciones de Intervalos de Confianza 23
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
de confianza, se podría encontrar la media de la población en 95 de los 100
intervalos de confianza.
Error Estándar de la Media Muestral
La desviación estándar de la distribución de muestreo de medias muestrales se
dio como $ 200 (dólares). Esto se conoce como el error estándar de la media
muestral y se representa por el símbolo σX̅ , el cual se lee "sigma sub X con
barra". Frecuentemente se acorta el nombre a error estándar.
Error Estándar de la Media Muestral: Desviación estándar de la distribución
de muestreo de las medias muestrales.
El error estándar es una medida de la variabilidad de la distribución de
muestreo de la media muestral. Se calcula mediante:
ERROR ESTÁNDAR DE LA MEDIA, CUANDO SE CONOCE LA
DESVIACIÓN ESTÁNDAR DE LA POBLACIÓN:
σ
σx̅ =
√n
donde:
σ𝑥̅ es el error estándar de la media, también denominado desviación estándar
de la distribución de muestreo de la media.
σ es la desviación estándar de la población.
n es el tamaño de la muestra.
En la mayoría de los casos, se desconoce la desviación estándar de la
población. Por lo tanto, se reemplaza con la desviación estándar de la muestra,
esto es, se cambia 𝜎 por s. Después se escribe la fórmula como sigue:
ERROR ESTÁNDAR DE LA MEDIA CON BASE EN LA DESVIACIÓN
ESTÁNDAR DE LA MUESTRA:
s
sx̅ =
√n
Dos valores afectan el tamaño del error estándar. El primero es la desviación
estándar. Si ésta es grande, entonces el error estándar también lo será. Sin
Estimaciones de Intervalos de Confianza 24
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
embargo, el tamaño de la muestra también afecta al error estándar. Al
aumentar el tamaño de la muestra, el error estándar disminuye, indicando esto
que hay menor variabilidad en la distribución de las medias muestrales.
Cuando el tamaño de la muestra, n, es al menos igual a 30. generalmente se
acepta que el teorema de limite central asegurará una distribución normal de
las medias muestrales. Esta es una consideración importante. Si las medias
muestrales se distribuyen en forma normal, en los cálculos se puede utilizar la
distribución normal estándar, esto es, z.
Los intervalos de confianza de 95% y de 99% se calculan como sigue, cuando
n ≥ 30.
INTERVALO DE CONFIANZA DE 95% PARA UNA MEDIA:
s
𝑥̅ ± 1.96
√𝑛
INTERVALO DE CONFIANZA DE 99% PARA UNA MEDIA:
s
𝑥̅ ± 2.58
√𝑛
Como se describió antes, los valores de 1.96 y 2.58 se refieren a los valores z
correspondientes al 95% al 99% central de las observaciones,
respectivamente.
Otros niveles de confianza pueden ser empleados. Para estos casos el valor z
cambia correspondientemente. En general, un intervalo de confianza para la
media se calcula por:
INTERVALO DE CONFIANZA PARA UNA MEDIA:
s
𝑥̅ ± z
√𝑛
donde z es el nivel de confianza.
Entonces, para un intervalo de confianza de 92%, la fórmula es:
s
𝑥̅ ± 1.75
√𝑛
El valor de 1.75 proviene de una tabla normal. La tabla se basa en la mitad de
Estimaciones de Intervalos de Confianza 25
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
la distribución normal, de modo que 0.9200/2 = 0.4600. El número más próximo
en el cuerpo de la tabla es 0.4599, y el correspondiente valor z es 1.75.
Frecuentemente también se utiliza el nivel de confianza de 90%. En este caso,
se desea determinar el área entre 0 y z para que sea 0.4500, valor obtenido por
90/2. Para encontrar el valor z para este nivel de confianza, vaya hacia abajo
por la columna izquierda de la tabla normal, hasta llegar a 1.6, y después sobre
las columnas con encabezados 0.04 y 0.05. El área que corresponde a un valor
z de 1.64, es 0.4495, y para 1.65 se tiene que es 0.4505. Para ser precavidos
utilizamos 1.65. Otros valores de z, son:
Intervalo de confianza Número más próximo Valor z
80% 0,3997 1,28
94% 0,4699 1,88
96% 0,4798 2,05
Ejemplo:
En un experimento se trata de seleccionar una muestra aleatoria de 256
gerentes de nivel medio. Un elemento de interés es su ingreso anual. La media
muestral vale $ 45420 (dólares) y la desviación estándar en la muestra, es $
2050.
1. ¿Cuál es el ingreso medio estimado de todos los gerentes de nivel medio (la
población)? Es decir, ¿cuál es la estimación puntual?
2. ¿Cuál es el intervalo de confianza de 95% para la media de la población
(redondeando a los $10 más cercanos)?
3. ¿Cuáles son los límites de intervalo de confianza de 95%, para la media de
la población?
4. ¿Qué grado de confianza se está usando?
5. Interprete los resultados.
Solución:
1. La estimación puntual de la media de la población vale $ 45420.
2. El intervalo de confianza está entre $ 45170 y $ 45670, que se obtiene
mediante:
Estimaciones de Intervalos de Confianza 26
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
s $2050
x̅ ± 1.96 = $45420 ± 1.96
√n √256
= $ 45420 ± 251.125
= $ 45168.875 y $ 45671.125
Estos puntos extremos se redondean frecuentemente y, en este caso, se
registrarían como $45170 y $45670.
3. Los puntos extremos del intervalo de confianza se denominan límites de
confianza. En este ejemplo, tales límites son $ 45170 y $ 45670.
4. La medida de confianza que tiene una persona se denomina grado de
confianza o nivel de confianza. En este caso es 0.95.
5. Interpretación: Si hubiera tiempo para seleccionar muchas muestras de
tamaño 256 de la población de gerentes a nivel medio, y calcular las medias
muestrales y los intervalos de confianza, la media poblacional del ingreso anual
se encontraría aproximadamente en 95 de los 100 intervalos de confianza. De
ahí que un intervalo puede o no contener a la media poblacional.
Aproximadamente 5 de los 100 intervalos de confianza no incluyen a la media
poblacional del ingreso anual, µ. Esto se muestra en el diagrama siguiente.
Observe que el quinto intervalo de confianza no incluye la media poblacional.
Estimaciones de Intervalos de Confianza 27
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
𝜎
µ µ+1.96
√𝑛
Muestra 1 de tamaño 256. Incluye
la media poblacional.
1
Muestra 2 de tamaño 256. Incluye
2 la media poblacional.
Muestra 3 de tamaño 256. Incluye
3 la media poblacional.
Muestra 4 de tamaño 256. Incluye
4
la media poblacional.
Muestra 5 de tamaño 256. No
5
incluye la media poblacional.
6
Muestra 6 de tamaño 256. Incluye
la media poblacional.
2.7. Intervalo de confianza de una proporción
(Ref. LIND, A. Douglas; et. al. (2012). Estadística aplicada a los negocios y
a la economía. Pág. 291).
La teoría y el procedimiento para determinar un estimador puntual y un
estimador de intervalo para una proporción de población se asemejan mucho a
los descrito para la media.
Un estimador puntual de una proporción poblacional se obtiene dividiendo el
Estimaciones de Intervalos de Confianza 28
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
número de éxitos en la muestra, entre el número total muestreado. Suponga
que 100 de las 400 personas muestreadas afirmaron que prefieren un nuevo
refresco que probaron, en comparación con el que consumen regularmente. La
mejor estimación de la proporción de la población que está a favor de la nueva
bebida es 0.25, o sea 25% que se obtiene dividiendo 100/400.
Observe que una proporción se basa en un conteo del número de éxitos con
relación al número total muestreado.
¿Cómo se estima el intervalo de confianza para una proporción de
población?
INTERVALO DE CONFIANZA UTILIZANDO UNA PROPORCIÓN DE LA
POBLACIÓN:
p ± z σp̅
donde 𝜎𝑝̅ es el error estándar de la proporción.
ERROR ESTÁNDAR DE LA PROPORCIÓN MUESTRAL:
p (1 − p)
σp̅ = √
n
Por tanto, el intervalo de confianza se establece mediante:
INTERVALO DE CONFIANZA PARA UNA PROPORCIÓN MUESTRAL:
p (1 − p)
p ± Z √
n
donde:
p: es la proporción muestral
z: es el valor z del grado de confianza seleccionado
n: es el tamaño de la muestra
Ejemplo:
Suponga que 1060 de 2000 trabajadores sindicados que se muestrean, dijeron
que planean poner a votación una propuesta para unirse a la federación. Si se
Estimaciones de Intervalos de Confianza 29
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
utiliza un nivel de confianza de 0.95, ¿cuál es la estimación de intervalo para la
proporción poblacional? ¿A qué conclusión se llegaría con base en el intervalo
de confianza?
Solución:
Utilizando la fórmula respectiva, el intervalo se calcula como sigue:
p (1 − p) 0.80 (1 − 0.80)
p ± Z √ = 0.80 ± 1.96 √
n 2000
0.80 (1 − 0.80)
= 0.80 ± 1.96 √
2000
= 0.782 𝑦 0.818
Limites de confianza: 78.2 % y 81.8 %
Suponga que por lo menos 75% de los miembros del sindicato deben aprobar
la fusión. Con base en los resultados de la muestra, cuando votan todos los
trabajadores sindicados, la propuesta probablemente será aceptada debido a
que 0.75 está por debajo del intervalo 0.782 y 0.818.
2.8. Factor de corrección para población finita
(Ref. LIND, A. Douglas; et. al. (2012). Estadística aplicada a los negocios y
a la economía. Pág. 293).
Población Infinita: Las poblaciones que se han muestreado hasta ahora han
sido muy grandes o se supone que son infinitas. ¿Qué sucede si la población
muestreada no es infinita, y que ni siquiera es muy grande? En tales casos se
necesita hacer algunos ajustes en la forma en que se calcula el error estándar
de medias muestrales y el de proporciones de muestra.
La población finita: Una población que tiene un límite superior fijo se
considera finita.
Estimaciones de Intervalos de Confianza 30
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Por ejemplo, hay 21376 estudiantes inscritos en una universidad del Ecuador, y
la empresa Chrysler-Jeep Corp., manufacturó 917 unidades en su planta de
Arkansas el año pasado.
Una población finita puede ser notablemente pequeña; por ejemplo, podría
constar de todos los alumnos inscritos en este periodo académico. Una
población también puede ser muy grande, como todos los ciudadanos que
viven en un determinado país.
Para una población finita, donde el número total de objetos es N y el tamaño de
la muestra es n, se hace el siguiente ajuste a los errores estándares de medias
y de proporción muestrales:
ERROR ESTÁNDAR DE LAS MEDIAS MUESTRALES, UTILIZANDO UN
FACTOR DE CORRECCIÓN:
σ N−n
σX̅ = √
√n N−1
ERROR ESTÁNDAR DE LAS PROPORCIONES DE MUESTRA, UTILIZANDO
UN FACTOR DE CORRECCIÓN:
p (1 − p) N−n
σp = √ √
n N−1
Este ajuste se denomina factor de corrección para población finita.
¿Por qué es necesario aplicar un factor y cuál es su efecto?
Lógicamente si la muestra es un porcentaje considerable de la población,
entonces se esperaría que cualesquiera estimaciones fueran más precisas que
las correspondientes a muestras más pequeñas.
Observe el efecto del término: (N-n) / (N-1).
Supóngase que la población es 1000 y la muestra es 100. Entones tal razón
Estimaciones de Intervalos de Confianza 31
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
vale (1000-100)/ (1000-1), o sea, 900/999. Con la raíz cuadrada se obtiene el
factor de corrección, 0.9492. Multiplicando por el error estándar, se reduce el
error aproximadamente en 5% (1-0.9492 0.05). Esta reducción en el tamaño
del error estándar resulta en un intervalo menor de valores en la estimación de
la media poblacional.
Si la muestra es 200, el factor de corrección es 0.8949, lo que significa que el
error estándar se reduce en más de 10%.
En la Tabla siguiente se muestran los efectos de diferentes tamaños de
muestra sobre el factor de corrección. Observe que cuando la muestra es
aproximadamente menor que 5% de la población, el impacto del factor de
corrección es muy pequeño. La regla general es que si la razón n/N es menor
que 0.05, se omite el factor de corrección para población finita.
Tamaño de muestra Fracción de la población Factor de corrección
10 0.010 0.9955
25 0.025 0.9879
50 0.050 0.9752
100 0.100 0.9492
200 0.200 0.8949
500 0.500 0.7075
Tabla: Cálculo del factor de corrección para población finita, en el caso de diversos tamaños de muestras, y cuando la
población es de 1000.
Ejemplo:
Hay 250 familias en el pequeño poblado de Sicalpa. Una encuesta con 40 de
ellas reveló que la contribución media anual a la iglesia es de $ 450 (dólares)
con una desviación estándar de $ 75. Establezca un intervalo de confianza de
95% para la contribución media anual.
Solución:
Primero observe que la población es finita. Esto es, hay un límite al número de
personas en Sicalpa.
Segundo, note que la muestra constituye más del 5% de la población; esto es,
n/N = 40/250 = 0.16.
Por tanto, se aplica el factor de corrección para población finita. El intervalo de
confianza de 95% se establece de la siguiente manera, aplicando las fórmulas
Estimaciones de Intervalos de Confianza 32
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
correspondientes:
s N −n $75 250 − 40
̅
X ± z (√ ) = $450 ± 1.96 (√ )
√n N−1 √40 350 − 1
= $450 ± $23.243 ( √ 0.8434 )
= $450 ± $21.35
= [ $ 428.65 ; $ 471.35 ]
2.9. Elección del tamaño adecuado de una
muestra
(Ref. LIND, A. Douglas; et. al. (2012). Estadística aplicada a los negocios y
a la economía. Pág. 295).
Una de las preocupaciones más comunes cuando se diseña un estudio
estadístico es: “¿Cuántos elementos deben incluirse en la muestra?” Si ésta es
demasiado grande, se derrocha inútilmente recursos en la recolección de
datos. De forma semejante, si la muestra es demasiado pequeña, las
conclusiones resultantes podrían ser incorrectas. El tamaño correcto de la
muestra depende de tres factores:
1. El nivel de confianza deseado.
2. El máximo error permisible por el investigador.
3. La variación en la población que se estudia.
Usted, como investigador, selecciona el nivel de confianza. Los niveles de 95%
y de 99% son los que se eligen con mayor frecuencia. Un nivel de confianza de
95% corresponde a un valor de z 1.96, y uno de 99% corresponde a un valor
z de 2.58. Cuanto más alto sea el nivel de confianza, tanto mayor será el
tamaño de la muestra.
Estimaciones de Intervalos de Confianza 33
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
El error máximo permisible, denotado como E, es la cantidad que se suma y
resta de la media muestral para determinar los puntos extremos del intervalo de
confianza. Es la cantidad de error que el investigador está dispuesto a tolerar.
Asimismo, corresponde a la mitad de la anchura del intervalo de confianza
correspondiente. Un pequeño error admisible requerirá una muestra grande, y
un error grande de esa clase aceptará el uso de una muestra menor.
El tercer factor al determinar el tamaño de una muestra es la desviación
estándar de la población. Si esta última está dispersa ampliamente, se requiere
una muestra grande. Por otra parte, si la población está concentrada (es
homogénea), el tamaño requerido de la muestra será menor. Sin embargo, es
posible que sea necesario encontrar una estimación para la desviación
estándar poblacional.
Utilice el enfoque del estudio de comparabilidad cuando hay un estimado de la
dispersión disponible según otro estudio. Suponga que se desea estimar el
número de horas de trabajo a la semana realizado por consultores privados.
Quizás la información procedente de ciertas agencias gubernamentales, que
regularmente toman muestras de la fuerza laboral, podría ser útil para hacer un
cálculo de la desviación estándar. Si se considera que una desviación estándar
observada en un análisis anterior es confiable, se puede usar en el estudio
actual como ayuda para obtener un tamaño aproximado de la muestra.
Si no está disponible alguna estimación de un estudio anterior, puede ser
apropiado emplear una aproximación basada en un intervalo de variación. Para
aplicar este enfoque se necesita conocer o tener una estimación de los valores
más grandes y los más pequeños en la población. Recuerde la Regla Empírica
que se podría esperar que casi todas las observaciones estuvieran entre 3
desviaciones estándares respecto de la media, dado que la distribución fuese
aproximadamente acampanada, es decir, normal.
Por lo tanto, la distancia entre el valor más grande y el más pequeño, es 6. Se
podría estimar la desviación estándar como un sexto de la amplitud de
variación. Por ejemplo, suponga que la directora de operaciones de un banco
desea una estimación del número de retiros que estudiantes universitarios
hacen al mes. Cree que la distribución se aproxima a la normal, que el número
mínimo de documentos presentados es 2 por mes, y que el máximo es 50. El
intervalo de variación de la cantidad de retiros mensuales es 48, obtenido por,
50 - 2. Entonces, la estimación de la desviación estándar sería 8 retiros por
Estimaciones de Intervalos de Confianza 34
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
mes, de 48/6.
Un tercer enfoque para evaluar la desviación estándar es realizar un estudio
piloto. Este es el método más comúnmente utilizado. Suponga que se desea
obtener una estimación del número de horas de trabajo a la semana de
estudiantes inscritos en la Escuela de Economía. Para probar la validez del
cuestionario, se aplica en una pequeña muestra de alumnos. A partir de ésta,
se calcula la desviación estándar del número de horas de trabajo, y se utiliza
éste para determinar el tamaño adecuado de la muestra.
Puede expresarse la interacción entre estos tres factores y el tamaño de la
muestra con la fórmula siguiente:
s
E = z
√n
Despejando n en esta ecuación, se obtiene el tamaño requerido de la muestra.
TAMAÑO DE MUESTRA PARA ESTIMAR UNA MEDIA:
z s 2
n = ( )
E
donde:
n es el tamaño de la muestra.
z es el valor normal estándar correspondiente al nivel de confianza deseado.
s es un estimado de la desviación estándar de la población.
E es el máximo error permisible.
El resultado de este cálculo no siempre es un número entero, por lo que la
práctica usual es redondear cualquier resultado fraccionario. Por ejemplo,
201.22 se redondearía a 202.
Ejemplo:
Un estudiante de economía desea determinar el ingreso medio de los
miembros de concejos urbanos. El error al estimar la media es menor que $
100 (dólares) con un nivel de confianza de 95%. El estudiante encontró un
informe presentado por el Departamento del Trabajo que estimaba la
desviación estándar en $ 1000 ¿Cuál es el tamaño de muestra requerido?
Estimaciones de Intervalos de Confianza 35
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Solución:
El máximo error permisible, E, es $ 100. El valor z para un nivel de confianza
de 95% es 1.96, y el estimado de la desviación estándar es $ 1000. Al
introducir estos valores en la fórmula correspondiente, se tiene que el tamaño
requerido de la muestra es:
2
(1.96) ($1000)
n = ( ) = (19.6)2 = 348.16
$100
El valor calculado de 384.16 se redondea a 385. Se requiere una muestra de
385 para cumplir con las especificaciones.
Si se desea un nivel de confianza más alto, digamos de 99%, entonces también
se requerirá una muestra más grande.
2
(2.58) ($1000)
n = ( ) = (25.8)2 = 665.64
$100
Se recomienda una muestra de 666.
Observe qué tanto aumenta el tamaño de la muestra por el cambio en el nivel
de confianza. Un incremento en tal nivel, de 95% a 99%, da como resultado un
aumento de 281 observaciones. Esto podría aumentar el costo del estudio,
tanto en términos de tiempo como de dinero. Por lo tanto, el nivel de confianza
debería considerarse con mucho cuidado.
El procedimiento que se acaba de describir se adapta para determinar el
tamaño de la muestra para una proporción. Nuevamente, se necesita
especificar tres conceptos:
1. El nivel de confianza deseado, generalmente 95%, o bien 99%.
2. El margen de error que se requiere en la proporción de la población.
3. Un estimado de la proporción poblacional.
La fórmula para determinar el tamaño de la muestra de una proporción es:
TAMAÑO DE MUESTRA PARA UNA PROPORCIÓN:
Estimaciones de Intervalos de Confianza 36
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
z 2
n = p (1 − p) ( )
E
Es posible utilizar un cálculo de p si se encuentra disponible a partir de un
estudio piloto o alguna otra fuente. De otra manera, se utiliza 0.50, porque el
término p(1-p) nunca puede ser mayor que cuando p = 0.50.
Por ejemplo, si p = 0.30, entonces p(1-p) = 0.30(1-0.30) = 0.21, pero cuando p
= 0.50, p(1-p) = 0.50(1-0.50) = 0.25.
Ejemplo:
El estudio en el ejemplo anterior también estima la proporción de ciudades que
cuentan con cobradores privados. El estudiante quiere que el cálculo se halle
dentro de 0.10 de la proporción de la población, el nivel deseado de confianza
es de 90%, y no hay alguna estimación disponible para la proporción de
población ¿Cuál es el tamaño de la muestra?
Solución:
El valor estimado de la proporción poblacional se encuentra dentro de 0.10, por
lo tanto, E = 0.10. El nivel deseado de confianza es 0.90, lo cual corresponde a
un valor z de 1.65. Ya que no existe ningún cálculo de la proporción de
población, se utilizará 0.50. El tamaño requerido de la muestra es:
1.65 2
𝑛 = (0.50) (0.50) ( ) = 68.0625
0.10
El estudiante necesita una muestra aleatoria de 69 ciudades.
Estimaciones de Intervalos de Confianza 37
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Recursos complementarios
Videos sobre distribuciones de muestreo de la media:
[Link]
[Link]
Estimaciones de Intervalos de Confianza 38
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Bibliografía
LIND, Douglas A.; MARCHAL, William G.; WATHEN, Samuel A. (2012).
Estadística Aplicada a los Negocios y a la Economía. México. MacGraw-
Hill. Decimoquinta edición.
WEIERS, Ronald M. (2006). Introducción a la Estadística para Negocios.
México. Thomson. Quinta edición.
BERENSON, Mark L.; LEVINE, David M.; KREHBIEL, Timothy C. (2001).
Estadística para Administración. México. Pearson Educación. Segunda
edición.
Estimaciones de Intervalos de Confianza 39
AUTOEVALUACION 2
Tema 3
Estadística Aplicada
3. Pruebas de Hipótesis
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Índice Pág.
3.1. Introducción 3
3.2. ¿Qué es una hipótesis? 3
3.3. ¿Qué es una prueba de hipótesis 4
3.4. Pruebas de hipótesis de una muestra 5
3.5. Pruebas de significancia de una y de dos colas 12
3.6. Pruebas de la media de una población 15
3.7. Pruebas relacionadas con proporciones 31
3.8. Pruebas de hipótesis de dos muestras 45
3.9. Prueba de hipótesis de dos muestras: muestras
independientes 52
3.10. Pruebas de hipótesis de dos muestras: muestras
dependientes 57
Recursos complementarios 63
Bibliografía 64
Pruebas de Hipótesis 2
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
3.1. Introducción
Continuamos con el estudio de la inferencia estadística, se lleva a cabo una
prueba de hipótesis en cuanto a una declaración referente a un parámetro de
población. Algunos de los ejemplos de enunciados que podríamos presentar
usando los métodos de prueba de hipótesis son:
1. El número medio de kilómetros recorridos utilizando una llanta radial con
refuerzo de acero General, es mayor que 60000.
2. La típica familia estadounidense vive en una misma casa más de 11.8 años.
3. El sueldo promedio inicial para los egresados de una licenciatura de cuatro
años en economía es de $ 26000 dólares al año.
4. El medicamento Advil aliviará los síntomas de dolor de cabeza en menos de
20 minutos.
Se examinará qué se entiende por hipótesis, y qué, por prueba de hipótesis.
Después se describirán los pasos a seguir para probar una hipótesis. También
se realizará un ensayo de hipótesis: (1) comparando una media muestral con
un valor hipotético; y, (2) comparando dos medias muestrales para determinar
si son iguales. Por último, se analizarán errores estadísticos posibles en la
prueba de hipótesis.
3.2. ¿Qué es una hipótesis?
(Ref. LIND, A. Douglas; et. al. (2012). Estadística aplicada a los negocios y
a la economía. Pág. 310).
Una hipótesis es un enunciado acerca de una población. Luego se utilizan
datos para verificar la racionalidad del enunciado. Para comenzar se definirá el
concepto hipótesis.
En el sistema jurídico-penal, una persona es inocente hasta que se le pruebe
Pruebas de Hipótesis 3
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
que es culpable. Un jurado tiene la hipótesis de que la persona acusada de un
delito es inocente, y somete esta hipótesis a una verificación revisando las
pruebas y escuchando el testimonio antes de llegar a un veredicto. De manera
similar, un paciente va a ver a su médico y le informa acerca de diversos
síntomas. Con base en ellos el médico ordenará ciertas pruebas de diagnóstico
y después, basándose en los síntomas y en los resultados de las pruebas,
determinará el tratamiento a seguir.
En el análisis estadístico se expone un enunciado, es decir, una hipótesis, y
después se realizan pruebas para verificar lo que se dijo, o para determinar si
es falso. Se define una hipótesis estadística de la siguiente manera:
Hipótesis: Enunciado acerca de una población elaborado con el propósito de
ponerlo a prueba.
En la mayoría de los casos la población es tan grande que por diversas
razones no sería factible estudiar todos los elementos, objetos o personas en la
población. Por ejemplo, sería prácticamente imposible entrevistar a todos los
analistas de sistemas en Ecuador, para averiguar su ingreso mensual. De igual
modo, un departamento de aseguramiento de calidad no puede verificar la
resistencia a la ruptura de cada ampolleta producida, para determinar si está
entre 5 y 20 psi (libras por pulgada cuadrada).
Una alternativa para medir o entrevistar a la población completa es tomar una
muestra de la población de interés. Por tanto, es posible probar una afirmación
a fin de determinar si la evidencia empírica de la muestra fundamenta o no la
afirmación concerniente a la población.
3.3. ¿Qué es una prueba de hipótesis?
(Ref. LIND, A. Douglas; et. al. (2012). Estadística aplicada a los negocios y
a la economía. Pág. 311).
Las expresiones, prueba de hipótesis y probar una hipótesis se emplean
correlativamente. La prueba de hipótesis inicia con una afirmación, o supuesto,
acerca de un parámetro de población, como la media poblacional. Como se ha
dicho, este enunciado se denomina hipótesis. Una hipótesis podría ser que la
comisión mensual media de vendedores de computadoras al por menor es de $
Pruebas de Hipótesis 4
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
2000 (dólares). No es posible entrevistar a todos los agentes para establecer
que la media en realidad sea $ 2000. El costo de localizar e interrogar a cada
vendedor de computadoras en Ecuador, sería exorbitante. Para probar la
validez de la afirmación (µ = $ 2000), se debe seleccionar una muestra de la
población formada por todos los vendedores de tales equipos, calcular valores
estadísticos muestrales y, con base en determinadas reglas de decisión,
aceptar o rechazar la hipótesis. Una media muestral de $ 1000 para los citados
agentes de ventas en definitiva provocaría el rechazo de la hipótesis. Sin
embargo, suponga que la medía muestral es $ 1995. ¿Se aproxima lo
suficiente a $ 2000 para aceptar el supuesto de que la media poblacional vale $
2000? ¿Puede atribuirse la diferencia de $ 5 entre las dos medias a error de
muestreo, o tal diferencia es significativa estadísticamente?
3.4. Pruebas de hipótesis de una muestra
(Ref. LIND, A. Douglas; et. al. (2012). Estadística aplicada a los negocios y
a la economía. Pág. 311).
Prueba de Hipótesis: Procedimiento basado en la evidencia muestral y en la
teoría de probabilidad que se emplea para determinar si la hipótesis es un
enunciado razonable.
Procedimiento de cinco pasos para probar una hipótesis
Existe un procedimiento de cinco pasos que sistematiza la prueba de hipótesis;
al llegar al paso 5, se tiene ya la capacidad de tomar la decisión de rechazar o
no la hipótesis. Sin embargo, la prueba en cuestión según la usan los
estadísticos no proporciona comprobación de que algo es verdadero, en la
forma como un matemático “prueba” una afirmación. Aporta una clase de
“prueba más allá de una duda razonable”, según se haría en un proceso
judicial. Por tanto, hay reglas específicas de evidencia, o procedimientos, que
se siguen.
Los pasos se muestran en el siguiente diagrama.
Pruebas de Hipótesis 5
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Paso 1 Paso 2 Paso 3 Paso 4 Paso 5 Aceptar Ho
o
bien rechazar
Ho y aceptar
H1
Paso 1: Plantear la hipótesis nula (H0) y la hipótesis alternativa (H1)
El primer paso es plantear la hipótesis que ha de ser probada. Se le denomina
hipótesis nula, es designada mediante H0 y se lee “H subcero”. La letra H
significa hipótesis y el subíndice cero indica “no hay diferencia”. Por lo general
hay un «no» o un término «no» en la hipótesis nula, que indica que “no hay
cambio”. La hipótesis nula para el primer ejemplo en la introducción de este
capítulo, es que el número medio de kilómetros que se recorren utilizando la
llanta de acero especial, es 60000. La hipótesis nula se escribiría 𝐻0 : µ =
60000. En términos generales, la hipótesis nula se plantea con el objetivo de
probar. Podemos rechazarla o aceptarla. Tal hipótesis es una afirmación que
se aceptará si los datos muestrales no pueden proporcionar evidencia
convincente de que es falsa.
Si la hipótesis nula se acepta con base en datos muestrales, no es posible
afirmar que tal hipótesis es verdadera. En otras palabras, aceptarla no prueba
que H0 se cumple, sino que más bien significa que no se pudo refutar H0. Para
probar sin duda alguna que la hipótesis nula es verdadera, el parámetro
poblacional debe ser conocido. A fin de determinar esto en realidad, se tendría
que probar, investigar o contar cada elemento de la población. Por lo general,
esto no es posible. La alternativa es tomar una muestra de la población.
También hay que observar que, a veces, la hipótesis nula inicia afirmando que:
“No hay una diferencia significativa entre...”, o bien, “La resistencia media al
impacto del vidrio, no es significativamente diferente de...”. Cuando se
selecciona una muestra de una población, el valor estadístico muestral por lo
general es numéricamente distinto del parámetro poblacional hipotético. Como
ejemplo, suponga que la resistencia hipotética al impacto en el caso de una
placa de vidrio es 70 psi (libras por pulgada cuadrada), y la resistencia media al
impacto de una muestra de 12 placas de vidrio es 69.50 psi. Debe emitirse un
juicio acerca de la diferencia de 0.50 psi. ¿Es una diferencia verdadera -esto
es, una diferencia significativa- o la diferencia entre el valor estadístico muestral
Pruebas de Hipótesis 6
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
(69.50) y el parámetro poblacional hipotético (70.00) se debe al azar
(muestreo)? Para contestar a esta pregunta se realiza una prueba de
significancia, comúnmente denominada prueba de hipótesis. El significado de
una hipótesis nula es:
Hipótesis nula: Afirmación (o enunciado) acerca del valor de un parámetro
poblacional.
La hipótesis alternativa describe lo que se considerará si se rechaza la
hipótesis nula. Se designa por H1 y se lee “H subuno”. Con frecuencia se
denomina también como la hipótesis de investigación. La citada hipótesis
alternativa será aceptada si los datos muestrales proporcionan evidencias
estadísticas suficientes de que la hipótesis nula es falsa.
Hipótesis alternativa: Afirmación que se aceptará si los datos muestrales
proporcionan amplia evidencia de que la hipótesis nula es falsa.
El siguiente ejemplo ayudará a entender el significado de las hipótesis nula y
alternativa.
Un artículo reciente indicó que la edad media de las aeronaves comerciales en
Estados Unidos es de 15 años. Para realizar una prueba estadística referente a
este enunciado, el primer paso es determinar las hipótesis mencionadas.
La hipótesis nula representa la condición actual o reportada. Se escribe que H0:
µ = 15.
La hipótesis alternativa es que el enunciado no es verdadero, esto es H1: µ ≠
15.
Es importante recordar que sin que importe cómo se haya planteado el
problema, la hipótesis nula siempre incluirá el signo “igual”. El signo “igual” (=)
nunca aparecerá en la hipótesis alternativa. ¿Por qué? Porque la hipótesis nula
es el enunciado a probar. Se recurre a la hipótesis alternativa sólo si se prueba
que la hipótesis nula es falsa.
Paso 2: Seleccionar el nivel de significancia
Pruebas de Hipótesis 7
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Después de plantear las hipótesis nula y alternativa, el siguiente paso es definir
el nivel de significancia.
Nivel de Significancia: Probabilidad de rechazar la hipótesis nula cuando es
verdadera.
El nivel de significancia se denota mediante 𝛼, la letra griega alfa. Algunas
veces también se denomina nivel de riesgo. Este último es un término más
adecuado, ya que es el riesgo que existe al rechazar la hipótesis nula cuando
en realidad es verdadera.
No hay un nivel de significancia que se aplique a todas las pruebas. Debe
tomarse una decisión de usar el nivel 0.05 (que con frecuencia se enuncia
como nivel de 5%), el nivel 0.01, el 0.10 o cualquier otro nivel entre 0 y 1.
Tradicionalmente se selecciona el nivel de 0.05 para proyectos de investigación
sobre consumo, el de 0.01 para el aseguramiento de calidad, y el 0.10 para
encuestas políticas. Como investigador, usted debe decidir el nivel de
significancia antes de formular una regla de decisión y recopilar datos
muestrales.
A fin de ilustrar cómo es posible rechazar una hipótesis verdadera, suponga
que una compañía que fabrica computadoras personales utiliza un gran
número de tableros con circuitos integrados. Los proveedores ofrecen diversos
tableros y al que presente el de mejor condición, se le acepta un contrato de
venta considerable. En tal contrato se especifica que el departamento de
aseguramiento de calidad del fabricante de computadoras muestreará todos los
envíos de tableros que se reciban. Si más del 6% de los muestreados está por
debajo del valor estándar, se rechazará el envío. La hipótesis nula es que la
remesa de tableros que se recibe contiene 6% o menos productos
subestándares. La hipótesis alternativa es que más del 6% de los tableros
están defectuosos.
Una muestra de 50 tableros de circuitos que se recibió en cierto día de una
empresa electrónica reveló que 4 de ellos –o sea, el 8%– estaban por debajo
del estándar. El embarque se rechazó porque excedía el máximo del 6% de
tableros de tipo subestándar. Si la remesa era en realidad de tal clase,
entonces fue correcta la decisión de devolver los productos al proveedor. Sin
embargo, suponga que los 4 tableros subestándares que se seleccionaron de
la muestra de 50 eran los únicos de ese tipo en el envío de 4000 tableros.
Entonces solo 0.1 % eran defectuosos (4/4000 = 0.001). En este caso, menos
Pruebas de Hipótesis 8
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
del 6% del envío completo estaba por abajo del estándar y fue un error
rechazar la remesa. En términos de la prueba de hipótesis, se rechazó la
hipótesis nula de que el envío no era subestándar, cuando debió haberse
aceptado tal hipótesis nula. Al rechazar una hipótesis verdadera, se cometió un
error de Tipo I. La probabilidad de cometer un error de tal clase es 𝛼.
Error de Tipo I: Rechazar la hipótesis nula, 𝐻0 , cuando en realidad es
verdadera.
La probabilidad de cometer otra clase de error, denominado error de Tipo II, se
denota con la letra griega beta (β).
Error de Tipo II: Aceptar la hipótesis nula cuando en realidad es falsa.
El fabricante de las computadoras personales cometería un error de Tipo II si,
desconociéndolo, en un envío de circuitos integrados que se recibiera de la
empresa manufacturera, hubiera 15% de tableros subestándares y, a pesar de
ello, se aceptara el envío. ¿Cómo podría suceder esto? Suponga que 2 de los
50 tableros en la muestra (4%) probados estuvieran por abajo del estándar, y
que 48 de los 50 fueran aceptables. De acuerdo con el procedimiento
señalado, debido a que la muestra contenía menos del 6% de tableros
subestándares, el envío se aceptó. ¡Podría ser que, debido al azar, los 48
tableros que se seleccionaron en la muestra fueran los únicos aceptables en la
remesa completa, que consta de miles de unidades!
Retrospectivamente, el investigador no puede estudiar cada elemento o
individuo de la población. Por tanto, hay una posibilidad de incurrir en dos tipos
de error, uno de Tipo I, cuando se rechaza la hipótesis nula en vez de haberla
aceptado, y uno de Tipo II, si se acepta la hipótesis nula cuando debería
haberse rechazado.
Suele denominarse a estos dos errores posibles como error alfa, 𝛼, y error
beta, β. El alfa (𝛼) es la posibilidad de cometer un error de Tipo I, y la beta (β)
es la probabilidad de cometer uno de Tipo II.
En la siguiente tabla se resumen las decisiones que podría tomar el
investigador y las consecuencias posibles.
Pruebas de Hipótesis 9
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Investigador
Hipótesis Nula Se acepta 𝐇𝟎 Se rechaza 𝐇𝟎
𝐻0 es verdadera Decisión correcta Error de Tipo I
𝐻0 es falsa Error de Tipo II Decisión Correcta
Paso 3: Calcular el valor estadístico de prueba
Existen muchos valores estadísticos de prueba. En principio se utiliza el valor z.
Después se utilizarán los denominados t, F y 𝜒 2 (este último se expresa como
“Ji cuadrada”, pues su símbolo base es la letra griega ji).
Valor Estadístico de Prueba: Valor obtenido a partir de la información
muestral, que se utiliza para determinar si se rechaza la hipótesis nula.
En las pruebas de hipótesis para la media (μ), el valor estadístico de prueba z
se determina a partir de:
Z DE DISTRIBUCIÓN COMO VALOR ESTADÍSTICO DE PRUEBA:
̅ − μ
X
Z = σ
√n
El valor z se basa en la distribución muestral de X̅, que se distribuye de manera
normal cuando la muestra es razonablemente grande con una media (𝜇𝑋̅ ) igual
a μ, y una desviación estándar 𝜎𝑋̅ , que es igual a 𝜎√𝑛. De esta manera se
puede determinar si la diferencia entre X̅ y μ es estadísticamente significativa
encontrando el número de desviaciones estándares que X̅ está a partir de μ
aplicando la fórmula correspondiente.
Paso 4: Formular la regla de decisión
Una regla de decisión es un enunciado de las condiciones según las que se
acepta o se rechaza la hipótesis nula. La región de rechazo define la ubicación
de todos los valores que son demasiado grandes o demasiado pequeños, por
Pruebas de Hipótesis 10
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
lo que es muy remota la probabilidad de que ocurran según una hipótesis nula
verdadera.
En el Diagrama se muestran las regiones de aceptación y rechazo para una
prueba de significancia que se realizará más adelante.
Región de
rechazo
Escala de z
1.65
Probabilidad de 0.95 Probabilidad de 0.05
Valor Crítico
Diagrama: Distribución muestral del valor estadístico z, prueba de una cola a la derecha, nivel de
significación de 0.05.
Observe en el diagrama anterior que:
1. La región de no rechazo (o aceptación) de la hipótesis nula incluye el
área a la izquierda de 1.65. Más adelante se explicará cómo llegar al
valor de 1.65.
2. El área de rechazo está a la derecha de 1.65.
3. Se aplica una prueba de una cola. (Esto también se explicará más
adelante.)
4. Se eligió el nivel de significancia de 0.05.
5. La distribución muestral del valor estadístico z es de tipo normal.
6. El valor 1.65 separa las regiones de rechazo y aceptación de la hipótesis
nula.
7. El valor 1.65 se denomina valor crítico.
Valor Crítico: Número que es el punto divisorio entre la región de aceptación y
la región de rechazo, de la hipótesis nula.
Pruebas de Hipótesis 11
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Paso 5: Tomar una decisión
El quinto y último paso en la prueba de hipótesis es la toma de la decisión de,
rechazar o no la hipótesis nula. Respecto al Diagrama anterior, si, con base en
información muestral, se calcula que z es 2.34, y la hipótesis nula se rechaza
en el nivel de significancia 0.05. Se tomó la decisión de rechazar 𝐻0 debido a
que 2.34 se encuentra en la región de no aceptación, es decir, más allá de
1.65. Se descartaría la hipótesis nula según el razonamiento de que es muy
improbable que un valor z tan grande se deba al azar, esto es, a una variación
de muestreo.
Si el valor calculado hubiera sido igual a 1.65 o menor –por ejemplo, 0.71– la
hipótesis nula sería aceptada. Se razonaría que un valor calculado tan pequeño
podría ser atribuido al azar, esto es, a variación en el muestreo.
Como se observó, es posible sólo una de dos decisiones en la prueba de
hipótesis: aceptar o rechazar la hipótesis nula.
En vez de “aceptar” tal hipótesis, 𝐻0 , algunos investigadores prefieren enunciar
la decisión como: “No rechazar 𝐻0 ”, “No es posible descartar 𝐻0 ”, o bien “Los
resultados muestrales no permiten hacer a un lado a 𝐻0 ”.
Debe subrayarse de nuevo que siempre existe una posibilidad de que la
hipótesis nula se descarte cuando debería haberse aceptado (error de Tipo l).
Además, hay una posibilidad definible de que la hipótesis nula se acepte
cuando debería haberse rechazado (error de Tipo II). Antes de realizar una
prueba de hipótesis, se diferenciará entre una prueba de significancia de una y
de dos colas.
3.5. Pruebas de significancia de una y de dos
colas
(Ref. LIND, A. Douglas; et. al. (2012). Estadística aplicada a los negocios y
a la economía. Pág. 316).
Considere el Diagrama anterior, que indica que se está aplicando una prueba
Pruebas de Hipótesis 12
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
de una cola. La región de rechazo está sólo en la cola de la derecha (región de
valores superiores) de la curva. Como ilustración, suponga que al
departamento de empaquetado de una abastecedora de alimentos, le preocupa
el que algunas cajas de cierto producto tengan un sobrepeso significativo. El
cereal se empaqueta en cajas de 453 gramos, de modo que la hipótesis nula
es Ho: µ ≤ 453. Esto se lee como: “la media poblacional (µ) es igual a o menor
que 453”. La hipótesis alternativa, por consiguiente, es H1: µ > 453. Esto se
interpreta como: “µ es mayor que 453”. Observe que el signo de desigualdad
en exceso, en la hipótesis alternativa (>) apunta a la región de rechazo en la
cola de la región de valores superiores. (Mire el Diagrama siguiente).
Asimismo, también observe que la hipótesis nula incluye el signo de igualdad.
Esto es, Ho: µ ≤ 453. Este siempre será el caso. La condición de igualdad
siempre aparece en Ho, nunca en H1.
En el Diagrama siguiente, se ilustra una situación en la que la región de
rechazo está en la cola de la izquierda (en la región de valores inferiores) de la
curva normal. Como ilustración, considérese el problema de fabricantes de
automóviles, grandes compañías arrendadoras de autos y otras organizaciones
que compran grandes cantidades de llantas. Es deseable entonces que las
llantas tengan un promedio de desgaste de, por ejemplo, 40000 (kilómetros),
en uso normal. Por consiguiente, rechazarán una remesa de llantas si las
pruebas de desgaste acelerado revelan que la duración de las llantas es
significativamente inferior a 40000 kilómetros en promedio. ¡Aceptarían de
buen grado un envío si la duración media resultara mayor que 40000
kilómetros! Sin embargo, no interesa esta posibilidad. Sólo se tiene interés en
lograr evidencia muestral para concluir que las llantas promediarán menos de
40000 kilómetros de vida útil. Por tanto, se establece la prueba para satisfacer
el interés de los fabricantes de automóviles y otros, en que la vida media de las
llantas sea menor que 40000 kilómetros. Las hipótesis nula y alternativa se
expresan como Ho: µ ≥ 40000 y H1: µ < 40000.
Pruebas de Hipótesis 13
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Diagrama: Distribución de muestreo para el valor estadístico z, prueba de cola de la izquierda, nivel de
significación igual a 0.05.
Una forma de determinar la ubicación de la región de rechazo es mirar hacia
donde apunta el signo de no igualdad en la hipótesis alternativa (ya sea <, o
bien, >). En este problema señala hacia la izquierda, y la región de rechazo
está, por tanto, en la cola de tal lado.
En resumen, una prueba es de una cola cuando la hipótesis alternativa, H1
indica una dirección, como se expresa en seguida:
Ho: El ingreso medio de mujeres es menor que o igual al ingreso medio de
hombres.
H1: El ingreso medio de hombres es mayor que el ingreso medio de mujeres.
Si no se especifica dirección según la hipótesis alternativa, se aplica una
prueba de dos colas. Como ejemplo se modifica la hipótesis alternativa
anterior:
Ho: No hay diferencia entre el ingreso medio de hombres y el ingreso medio
de mujeres.
Pruebas de Hipótesis 14
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
H1: Hay una diferencia entre el ingreso medio de hombres y el ingreso medio
de mujeres.
Si se rechaza la hipótesis nula y se acepta H1, en este caso de dos colas, el
ingreso medio de varones podría ser mayor que el de mujeres, o viceversa.
Para dar cabida a estas dos posibilidades, el 5% que representa el área de
rechazo se divide por igual en las dos colas de la distribución muestral (2.5%
para cada una). En el Diagrama siguiente se muestran las dos áreas y los
valores críticos. Nótese que el área total bajo la curva normal es 1.000, que
resulta de 0.950 + 0.025 + 0.025.
Diagrama: Regiones de aceptación y de rechazo para una prueba de dos colas; nivel de significación de
0.05.
3.6. Pruebas de la media de una población
(Ref. LIND, A. Douglas; et. al. (2012). Estadística aplicada a los negocios y
a la economía. Pág. 317).
Prueba para la media de población: Muestra grande y se
conoce la desviación estándar poblacional
Pruebas de Hipótesis 15
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
La respuesta a las siguientes preguntas implica una media de población:
• ¿El ingreso medio de ejecutivos de alto nivel en la industria fabril es de
$325000 dólares?
• ¿La longitud media de las barras cortadas es de 2.00 pulgadas?
• ¿La edad media de los internos en las prisiones es menor que 40 años?
• ¿La cantidad media de dinero que deben quienes tienen tarjeta de
crédito es mayor de $ 1000 dólares?
• ¿La producción semanal media de ciertos escritorios en la empresa
FerroTecnia, es de 200?
Se utilizará el procedimiento de cinco pasos para prueba de hipótesis en el
caso de la última pregunta. Su redacción ya indica una prueba de dos colas.
Prueba de dos colas
En el siguiente ejemplo se mostrará la forma en la que se establece la hipótesis
nula y la hipótesis alternativa y cómo se utiliza el procedimiento de prueba de
hipótesis estadísticas.
Ejemplo:
La empresa FerroTecnia fabrica y ensambla escritorios y otros muebles para
oficina, en diversas plantas del Ecuador. La producción semanal del escritorio
Modelo A325 en la Planta de Guayaquil, se distribuye normalmente, con una
media de 200 y una desviación estándar de 16. Recientemente, debido a la
expansión del mercado, se han introducido nuevos métodos de producción y se
han contratado más empleados. El vicepresidente de la compañía quisiera
saber si ha habido un cambio total en la producción semanal del citado mueble
de oficina. Planteado de otra forma, ¿el número medio de escritorios
producidos en la Planta mencionada es diferente de 200? Utilice el nivel de
significancia de 0.01.
Solución:
Se utilizará el procedimiento de prueba antes indicado para determinar si la
tasa de producción ha cambiado respecto del valor de 200 por mes.
Paso 1. La hipótesis nula es “La media poblacional es 200”. La hipótesis
alternativa es “La media es diferente de 200” o “La media no es 200”. Las dos
Pruebas de Hipótesis 16
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
hipótesis se expresan como sigue:
Ho: µ = 200
H1: µ ≠ 200
Esta es una prueba de dos colas debido a que la hipótesis alternativa no
establece una dirección. Esto es, tal hipótesis no indica si la producción media
es mayor o menor que 200. El vicepresidente de manufactura sólo desea
averiguar si la tasa de producción es diferente de 200.
Paso 2. Como se observó, se utilizará el nivel de significancia de 0.01. Esto es
𝛼, o sea la probabilidad de cometer un error de Tipo l. De modo que es la
probabilidad de rechazar una hipótesis verdadera.
Paso 3. El valor estadístico de prueba para este tipo de problema es z, el cual
se describió anteriormente. La transformación de los datos de producción a
unidades estándares (valores z) permite su uso no sólo en este problema, sino
también en otros de prueba de hipótesis. La fórmula correspondiente para z se
repite a continuación, identificando los diversos elementos.
Paso 4. La regla de decisión se formula hallando el valor crítico de z a partir de
una tabla de la distribución normal. Puesto que ésta es una prueba de dos
colas, la mitad de 0.01, o sea 0.005, está en cada extremo. El área de
aceptación de Ho, que se localiza entre las dos colas, vale, por consiguiente,
0.99. La tabla normal se basa en sólo la mitad del área bajo la curva, o sea
0.5000. Luego 0.5000 - 0.005 es 0.4950, y así este valor de 0.4950 es el área
entre 0 y el valor crítico. Localice 0.4950 en el cuerpo de la tabla. El valor más
cercano a 0.4950 es 0.4951. Luego se lee el valor crítico en la fila y la columna
correspondientes a 0.4951, y resulta 2.58.
Pruebas de Hipótesis 17
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Diagrama: Regla de decisión para el nivel de significación de 0.01.
Todos los aspectos de este problema se muestran en el Diagrama anterior. Por
consiguiente, la regla de decisión es: rechazar la hipótesis nula y aceptar la
hipótesis alternativa (que establece que la producción media no es 200), si el
valor z calculado no queda en la región entre -2.58 y +2.58. En caso contrario,
no se descarta la hipótesis nula si z queda entre los citados valores -2.58 y
+2.58.
Paso 5. Se toma una muestra de la población (producción semanal); se calcula
z y —con base en la regla de decisión— se decidirá rechazar Ho o no
rechazarla. El número medio de escritorios producidos en el último año (50
semanas, porque la planta estuvo cerrada dos semanas por vacaciones), es de
203.5. La desviación estándar de la población es 16 escritorios a la semana.
Calculando el valor z con la fórmula correspondiente, queda:
x̅ − µ 203.5 − 200
z = σ = = 1.55
⁄ n 16/√50
√
Puesto que 1.55 no cae en la región de rechazo, Ho no se descarta. De modo
Pruebas de Hipótesis 18
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
que se concluye que la media de la población no es distinta de 200. Así que se
reporta al vicepresidente que la evidencia muestral no refleja que la tasa
productiva en la Planta de Guayaquil haya cambiado de 200 por semana. La
diferencia de 3.5 unidades entre la tasa de producción semanal histórica, y la
del año anterior, puede atribuirse razonablemente al azar. Tal información se
resume en el siguiente diagrama.
¿Probamos que la tasa de los ensambles sigue siendo de 200 por semana? En
realidad, no. Lo que se hizo, técnicamente, fue fallar al desaprobar la hipótesis
nula. No aceptar la hipótesis de que la población media es 200, no es lo mismo
que probar que es verdadera. La conclusión es análoga a un proceso judicial.
Veamos la explicación: una persona es acusada de un delito, pero resulta
absuelta por un jurado. Si fue exonerada, la conclusión es que no había
suficiente evidencia para probar la culpabilidad. El juicio no demostró que el
acusado es inocente, sino sólo que no hubo bastantes evidencias para
confirmar que es culpable. Eso es lo que se hace en la prueba de hipótesis
estadísticas cuando no se rechaza la hipótesis nula. La interpretación correcta
es que no se refutó tal hipótesis.
Se selecciona un nivel de significancia de 0.01 en este caso, antes de
establecer la regla de decisión y el muestro de la población. Esta es la
estrategia adecuada. El investigador debe establecer dicho nivel, pero tiene
Pruebas de Hipótesis 19
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
que determinarlo antes de recopilar la evidencia muestral, y no cambiarlo con
base en ésta.
En general, 𝐻0 se rechaza si el intervalo de confianza no incluye el valor
hipotético. Si lo incluye, entonces no se descarta 𝐻0 . Por lo tanto, la “región de
no rechazo” para una prueba de hipótesis es equivalente al intervalo de
confianza. La principal diferencia recae en si el intervalo se halla centrado
alrededor del valor estadístico muestral, tal como 𝑥̅ , o bien lo está alrededor de
0, como en la prueba de hipótesis.
Prueba de una cola
En el ejemplo anterior se subrayó que solamente se deseaba informar al
vicepresidente de la empresa, si había habido un cambio en el número medio
de escritorios ensamblados en la Planta de Guayaquil. No interesaba si el
cambio era un aumento o una disminución en la producción.
Para ilustrar una prueba de una cola se cambiará el problema. Suponga que tal
funcionario desea saber si ha habido un aumento en el número de unidades
ensambladas. De otra manera, ¿se puede concluir —ya que se tiene mejores
métodos de producción— que el número medio de escritorios armados en las
últimas 50 semanas fue mayor que 200? Observe la diferencia en la forma en
que se formuló el problema. En el primer caso se deseaba saber si había una
diferencia en el número medio ensamblando, pero ahora se quiere saber si ha
habido un aumento. Ya que se están investigando diversas cuestiones, se
necesita establecer las hipótesis de modo distinto. La principal diferencia ocurre
para la hipótesis alternativa. Antes tal hipótesis se estableció como “diferente
de”, y ahora se desea establecerla como “mayor que”. En símbolos:
Una prueba de dos colas
H0 : μ = 200
H1 : μ ≠ 200
Una prueba de una cola
H0 : μ ≤ 200
H1 : μ > 200
Los valores críticos para una prueba de una cola difieren de los de una de dos
Pruebas de Hipótesis 20
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
colas, con el mismo nivel de significancia. En el ejemplo anterior se dividió tal
nivel en dos mitades, y se colocó una en la cola de valores inferiores y la otra,
en la de valores superiores. En una prueba de una cola se coloca toda la región
de rechazo en un solo extremo.
Observe los siguientes diagramas.
Diagrama: Regiones de rechazo para pruebas de dos colas, ∝ = 0.01
Diagrama: Región de rechazo para pruebas de una cola, ∝ = 0.01
Pruebas de Hipótesis 21
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Para la prueba de una cola, el valor crítico es 2.33, obtenido de: (1) restar 0.01
de 0.5000, y (2) encontrar el valor z correspondiente a 0.4900.
Valor p en las pruebas de hipótesis
Al probar una hipótesis se compara el valor estadístico de prueba con un valor
crítico. Se toma una decisión ya sea para rechazar la hipótesis nula o para
aceptarla. Así, por ejemplo, si el valor crítico es 1.96 y el valor estadístico de
prueba calculado es 2.19, se decidirá descartar la hipótesis nula.
En años recientes, estimulada por la disponibilidad de los programas para
computación (software), se da a conocer con frecuencia información adicional
acerca de la fuerza del rechazo. Esto es, ¿cuánto se puede confiar en el
rechazo de la hipótesis nula? Este método señala la probabilidad (suponiendo
que dicha hipótesis sea cierta) de obtener un valor estadístico de prueba, por lo
menos tan extremo como el obtenido. Este procedimiento compara la
probabilidad, llamada valor p, con el nivel de significancia. Si el citado valor p
es menor que dicho nivel, 𝐻0 se rechaza. Si tal valor es mayor que el nivel en
cuestión, 𝐻0 no se descarta.
Valor p: Es la probabilidad de observar un valor muestral tan extremo, o más,
que el valor observado, dado que la hipótesis nula sea verdadera.
Determinar el valor p no sólo resulta en una decisión referente a 𝐻0 , sino que
proporciona discernimiento adicional acerca del vigor de la decisión.
Un valor p muy pequeño, tal como 0.0001, indica que hay poca probabilidad de
que 𝐻0 sea verdadera.
Por otro lado, un valor p de 0.2033 significa que 𝐻0 no se rechaza y que hay
poca probabilidad de que sea falsa.
¿Cómo se calcula el valor p?
Para explicarlo se utilizará el ejemplo en el que se probó la hipótesis nula de
que el número medio de escritorios producidos a la semana en la planta de
Guayaquil, era 200. No se rechazó la hipótesis nula debido a que el valor de z
de 1.55 caía en la región entre -2.58 y 2.58. Se acordó no rechazar tal hipótesis
si el valor z calculado caía en esa región. La probabilidad de obtener un valor z
Pruebas de Hipótesis 22
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
de 1.55 o mayor, vale 0.0606, que se obtiene de 0.5000 - 0.4394. Esto es, la
probabilidad de obtener una 𝑥̅ mayor que 203.5, si 𝜇 = 200, vale 0.0606. Para
calcular el valor p, se necesita considerar la región de los valores menores que
-1.55, así como la de valores mayores que 1.55 (debido a que existen regiones
de rechazo en ambos extremos). El valor p es 0.1212, obtenido de 2(0.0606).
El valor p de 0.1212 es mayor que el nivel de significación 0.01 escogido
inicialmente, así que 𝐻0 no se rechaza. Los detalles se muestran en el
diagrama siguiente.
Un valor p es una manera de expresar la probabilidad de que 𝐻0 no sea
verdadera. Pero ¿cómo se puede interpretar tal valor? Ya se estableció que, si
p es menor que el nivel de significancia, se rechaza 𝐻0 ; si es mayor que dicho
nivel, no se descarta 𝐻0 . Además, si el valor p es muy grande es probable que
𝐻0 sea verdadera. Si p fuera pequeño, entonces es probable que 𝐻0 no se
cumpla. El siguiente cuadro ayudará a interpretar los valores p.
INTERPRETACIÓN DEL PESO DE LAS EVIDENCIAS CONTRA 𝑯𝟎
Si el valor p es menor que:
a) 0.10, se tiene regular evidencia de que 𝐻0 no es verdadera
b) 0.05, se tiene fuerte evidencia de que 𝐻0 no es verdadera.
c) 0.01, se tiene muy fuerte evidencia de que 𝐻0 no es verdadera.
d) 0.001, se tiene evidencia extremadamente fuerte de que 𝐻0 no es
verdadera.
Pruebas de Hipótesis 23
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Pruebas para la media de población: muestra grande y se
desconoce la desviación estándar poblacional
En los problemas anteriores se conocía 𝜎, es decir, la desviación estándar de
la población. Sin embargo, en la mayoría de los casos es poco probable que se
conozca tal desviación estándar poblacional. Así que 𝜎 debe basarse en
estudios previos, o se estima utilizando la desviación estándar de la muestra, s.
En el siguiente ejemplo la desviación estándar respectiva de la población se
desconoce, por lo que debe usarse la desviación estándar muestral para
estimar 𝜎. Ya que el tamaño de la muestra, n, es mayor que 30, se puede
sustituir 𝜎 por s, como se muestra en la siguiente fórmula:
VALOR z; SE DESCONOCE 𝝈
̅
X − μ
Z = s
√n
Ejemplo:
Una cadena de tiendas de descuento (Almacenes AlKosto) expide su propia
tarjeta de crédito. El gerente de esa sección desea averiguar si el saldo insoluto
medio mensual es mayor que $ 400 (dólares). El nivel de significancia se fija en
0.05. Una revisión aleatoria de 172 saldos insolutos reveló que la media
muestral es $ 407, y que la desviación estándar de la muestra vale $ 38.
¿Debería concluir el funcionario de crédito que la media poblacional es mayor
que $ 400, o bien es razonable suponer que la diferencia de $ 7 (obtenida de
$407 - $400 = $7) se debe al azar?
Solución:
La hipótesis nula y alternativa se enuncian como sigue:
H0 : μ ≤ $ 400
H1 : μ > $ 400
Pruebas de Hipótesis 24
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Debido a que la hipótesis alternativa indica un sentido o dirección, se aplica
una prueba de una cola. El valor crítico de z es 1.65. El valor calculado de z es
2.42, determinado con la fórmula correspondiente:
̅
X−μ $407 − $400 $7
Z = = = = 2.42
S $38 $2.8975
√ n √172
La regla de decisión se muestra gráficamente en el siguiente diagrama.
Debido a que el valor estadístico de prueba calculado (2.42) es mayor que el
valor critico (1.65), se rechaza la hipótesis nula. El gerente de crédito puede
concluir que el saldo insoluto medio es mayor que $ 400.
El valor p proporciona información adicional acerca de la decisión. Recuerde
que el valor p es la probabilidad de encontrar un valor estadístico de prueba tan
gran grande o mayor que el obtenido, cuando la hipótesis nula es verdadera.
Por lo tanto, resulta la probabilidad de un valor z mayor que 2.42. En una tabla
de la normal, se ve que la probabilidad de z entre 0 y 2.42, vale 0.4922. Se
desea determinar la probabilidad de un valor mayor que 2.42, de modo que
0.5000 – 0.4922 = 0.0078. Se llega a la conclusión de que la probabilidad de
encontrar un valor z de 2.42 o mayor, cuando la hipótesis nula se verifica, es
0.78%. Por consiguiente, no es probable que la hipótesis nula sea verdadera.
Pruebas de hipótesis: Dos medias poblacionales
Pruebas de Hipótesis 25
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
El siguiente ejemplo, implica una prueba que compara dos medias
poblacionales, y es característico de un problema industrial práctico.
Se utilizan bloques de concreto en los cimientos de varios edificios. Las
especificaciones indican que la media aritmética mínima de las resistencias a la
compresión de los bloques debe ser igual a 1000 libras por pulgada cuadrada
(psi). Si dos compañías envían muestras de bloques que tienen tales
resistencias superiores a la mínima (1000 psi), entonces las especificaciones
estipulan que debe tomarse una de dos acciones:
(1) Si se aplica una prueba estadística a los resultados muestrales, que indica
que ambas muestras pueden venir de poblaciones iguales o idénticas, el
contrato para la adquisición de bloques se dividirá por igual.
(2) Si los valores estadísticos de muestra señalan que las medias no son
iguales, la compañía que presente los bloques con mayor resistencia a la
comprensión obtendrá el contrato.
Una obra de construcción extensa requiere un gran número de bloques de
concreto. Dos abastecedores, Sucua Corporation e Hidalgo Company, han
surtido ese material a la constructora anteriormente, y les interesa suministrarlo
ahora para dicho proyecto de construcción. Antes de que se pruebe la
resistencia a la compresión de los bloques, se plantearán las hipótesis nula y
alternativa, se seleccionará un nivel de significancia, se decidirá qué prueba
estadística es adecuada, y se formulará una regla de decisión.
Paso 1:
Plantear las Hipótesis Nula y Alternativa. La primera es que no hay
diferencia entre la resistencia media a la compresión de los bloques de
concreto que manufactura Sucua, y la de los bloques fabricados por Hidalgo.
La hipótesis alternativa, 𝐻1 , es que hay una diferencia significativa entre las dos
resistencias del material. Simbólicamente:
H0 : μ1 = μ2
H1 : μ1 ≠ μ2
Como la hipótesis alternativa no especifica una dirección (como que la
resistencia de los bloques de Sucua es mayor que la de los bloques de
Pruebas de Hipótesis 26
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Hidalgo), se usará una prueba de dos colas.
Paso 2:
Seleccionar el Nivel de Significancia. Se elige el nivel de significancia de
0.01. Esto equivale a decir que la probabilidad de cometer un error de Tipo I,
vale 0.01.
Paso 3:
Evaluar la Prueba Estadística. Se seleccionarán aleatoriamente cuando
menos 30 bloques (𝑛1 ) de Sucua y por lo menos 30 de Hidalgo (𝑛2 ). Como se
observó con anterioridad, cuando 𝑛1 y 𝑛2 valen 30 o más, se considera que las
muestras son grandes y que las distribuciones muestrales de ̅̅
𝑋̅̅1 y ̅̅̅
𝑋 2̅, así como
sus diferencias, serán normales. De modo que las desviaciones estándares de
la muestra, 𝑠1 y 𝑠2 , pueden emplearse en vez de 𝜎1 y 𝜎2 , y utilizar z como el
valor estadístico de prueba. El proceso de selección también cumple con otro
supuesto en que se basa la prueba z, es decir, el de independencia. Lo anterior
significa que las dos poblaciones no están relacionadas. En la prueba z se
supone que los datos al menos están en escala de intervalos. Naturalmente
que cualquiera de las dos poblaciones podría designarse como número 1. Sin
embargo, una vez que se designa una población particular con el citado
número 1, debe seguirse denominando así.
La teoría en que se basa la distribución muestral de z (el valor crítico) se
expondrá brevemente. En parte, tal consideración estipula que:
Si un número grande de muestras aleatorias independientes se selecciona de
las dos poblaciones, la distribución de las diferencias entre las dos medias
muestrales, dividida entre el error estándar de la diferencia entre las dos
medias se aproximará a la distribución normal estándar.
La fórmula correspondiente para z es:
DIFERENCIA ENTRE DOS MEDIAS:
Pruebas de Hipótesis 27
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
̅̅̅
X1 − ̅̅̅
X2
Z =
S12 S22
√ +
n1 n2
El numerador de la fórmula anterior es la diferencia entre las medias
muestrales. El denominador es la desviación estándar de la distribución de
esas diferencias. Se denomina error estándar de las diferencias entre
medias muestrales. En el caso de muestras grandes, este valor estadístico de
prueba sigue la distribución z.
Para ilustrar esta teoría, suponga que se han tomado muchas muestras de
tamaño 100, de los bloques de Sucua, y también muchas muestras de 100
bloques de Hidalgo. Con fines de simplificación, considérese que se estima que
la desviación estándar de cada muestra vale 20 psi. (Las medias muestrales
son hipotéticas y se incluyen sólo para ilustrar el cálculo de z.) Obtenga luego
los valores de z.
̅𝟏 − 𝒙
𝒙 ̅𝟐
Muestra ̅𝟏
𝒙 ̅𝟏
𝒙 ̅𝟏 − 𝒙
𝒙 ̅𝟐 𝒔𝟐𝟏 𝒔𝟐𝟐 z
√ +
𝒏𝟏 𝒏𝟐
0
1 1020 1020 0 = 0
2.8
+2
2 1022 1020 +2 = +0.71
2.8
+9
3 1030 1021 +9 = +3.21
2.8
−3
4 1018 1021 -3 = -1.07
2.8
Así que, en teoría, si las dos medias poblacionales son iguales y si los valores
z de 0, +0.71, +3.21, -1.07, etc., son graficados, su distribución se aproximaría
a una del tipo normal.
La consideración de la curva normal (tabla de la normal), revela que 68% de los
valores z quedarían dentro de 0 ± 1.0; 95% dentro de 0 ± 1.96, y 99% dentro de
Pruebas de Hipótesis 28
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
0± 2.58. (Mire el Diagrama siguiente).
Diagrama: Distribución de z cuando 𝜇1 − 𝜇2 = 0
Paso 4:
Formular la Regla de Decisión. Recuerde que se seleccionó el nivel de
significancia de 0.01. Se utilizará una prueba de dos colas (debido a que la
hipótesis alternativa, 𝐻1 , no indica que la resistencia media a la compresión de
los bloques de una compañía es mayor que la correspondiente resistencia de
los producidos por la otra). En el paso 3 se observó que 99% de los valores z
calculados estará entre -2.58 y +2.58, según el supuesto de que no hay
diferencia entre las medias de las dos poblaciones. Entonces, si el valor z
calculado queda dentro de la región entre más y menos 2.58, se acepta la
hipótesis nula. Se concluirá así que la diferencia entre las dos medias
muestrales se debe al azar.
Por otra parte, si el valor z calculado es mayor que 2.58, se rechaza la
hipótesis nula. Tal hipótesis se descarta con base en que es sumamente
improbable que un valor z calculado pudiera ser igual a 2.58 o mayor debido al
azar. Por supuesto, 𝐻0 también se rechaza si el valor z calculado está a la
izquierda de -2.58. Esta regla de decisión se ilustra en el Diagrama siguiente.
(Observe que se incluyó el valor 𝑝 en las dos colas. El cálculo de 𝑝 se muestra
después.)
Pruebas de Hipótesis 29
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Diagrama: Prueba de dos colas, áreas de aceptación y de rechazo, con un nivel de significación de 0.01.
Paso 5:
Calcular los Resultados Muestrales y Tomar la Decisión. Se seleccionó
aleatoriamente un total de 81 bloques de la producción de Sucua y se
determinó la resistencia a la compresión de cada uno. Se calcularon la
desviación estándar de la muestra y la media de la resistencia. También se
seleccionaron 64 bloques de la empresa Hidalgo y se siguió del mismo
procedimiento. Los valores estadísticos muestrales son:
Sucua Hidalgo
x̅1 = 1070 psi x̅2 = 1055 psi
n1 = 81 n2 = 64
s1 = 63 psi s2 = 57 psi
El valor estadístico de prueba calculado (z), determinado con la fórmula
respectiva, es de 1.50. Los cálculos son como sigue:
Pruebas de Hipótesis 30
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
x̅1 − x̅2
z =
s12 s22
√ +
n1 n2
1070 − 1055 15
z = = = 1.50
2 2 9.99
√ (63) + (57)
81 64
El valor z calculado de 1.50 queda en el área de aceptación de la hipótesis
nula. Por tanto, no es posible rechazar tal hipótesis de que es la misma la
resistencia media a la compresión de los bloques de los dos fabricantes. La
diferencia de 15 psi, obtenida mediante 1070 − 1055, se atribuye al azar. No se
ha demostrado que hay una diferencia en las dos medias poblacionales. Por lo
tanto, la decisión final es dividir el contrato entre los dos proveedores.
¿Cuál es el valor p para el problema?
Recuerde que se tenía una prueba de dos colas, así que se requiere encontrar
el área a la izquierda de −1.50 y el área a la derecha de +1.50. Refiriéndose a
una tabla de la distribución normal, el área entre los valores z de 0 y 1.50 vale
0.4332. De este modo, el área a la derecha de +1.50 es 0.0668, obtenida
mediante 0.5000 − 0.4332. El área a la izquierda de −1.50 vale también 0.0668,
así que el valor p es igual a 0.0668 + 0.06668 = 0.1336. Como se esperaba, p
es mayor que el nivel de significancia (0.01) cuando no se rechaza la hipótesis
nula. El valor p se muestra coloreado en naranja en el Diagrama anterior.
3.7. Pruebas relacionadas con proporciones
(Ref. LIND, A. Douglas; et. al. (2012). Estadística aplicada a los negocios y
a la economía. Pág. 330).
El material presentado hasta ahora en este capítulo ha utilizado la escala de
intervalo o de razón de medición. Esto es, se utilizaron variables tales como
pesos, ingresos, distancias y edades. Ahora se desea considerar situaciones
como las siguientes:
Pruebas de Hipótesis 31
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
• El director de servicios profesionales de la Universidad de Guaranda
reporta que 80% de los egresados entran al mercado de trabajo a un
puesto directamente relacionado con su campo de estudio.
• Un representante de un establecimiento de hamburguesas asegura que
más del 45% de las ventas se hacen a través de la ventanilla para llevar
(en automóvil).
• Una compañía grande quiere saber si hay diferencia en la proporción de
ejecutivos hombres y mujeres dispuestos a mudarse a otra ciudad para
obtener un ascenso.
Estos problemas son ilustraciones de la escala nominal de medición. Recuerde
que para tal escala la observación se registra en una de dos o más categorías.
Por ejemplo, una persona se clasifica como del sexo masculino o femenino, o
bien un elector potencial es clasificado como conservador, liberal,
independiente u otra afiliación.
Relación proporcional: Es la relación por cociente o porción relativa, que
expresa la parte fraccional de la población o muestra que tiene un atributo
particular de interés.
Como un ejemplo de este concepto, suponga que 92 de 100 personas en una
encuesta están a favor de ahorrar luz eléctrica durante el día. La relación
proporcional muestral es 92/100, o sea 0.92. Si p representa tal relación,
entonces:
RELACIÓN PROPORCIONAL MUESTRAL:
Número de éxitos en la muestra
p =
Número muestreado
Antes de probar una relación proporcional de la población debe considerarse
algunos supuestos y cumplirse algunas condiciones. Para poner a prueba una
hipótesis acerca de una relación proporcional de población, se selecciona una
muestra aleatoria de esta población. Este proceso se denomina experimento.
Se supone que se cumplen las suposiciones binomiales que se presentaron
antes:
(1) los datos muestrales recopilados son resultado de conteos;
Pruebas de Hipótesis 32
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
(2) un resultado de un experimento se clasifica en una de dos categorías
mutuamente excluyentes: un “éxito” o un “fracaso”;
(3) la probabilidad de un éxito se mantiene igual para cada ensayo; y,
(4) los ensayos son independientes, lo que significa que el resultado de uno no
afecta el resultado de cualquier otro.
La prueba que se realizará en breve es adecuada cuando tanto n como n(1 -
π), valen al menos 5. Se tiene que n es el tamaño de la muestra, y π es la
relación proporcional de la población.
La prueba se presenta en esta sección debido a que es una extensión especial
de la prueba presentada anteriormente, y también es de uso común. Dicha
prueba es un buen ejemplo del caso donde la distribución probabilística normal
se aplica para aproximar con gran exactitud una del tipo binomial.
Ejemplo:
Suponga que las elecciones anteriores en una provincia del Ecuador indicaron
que es necesario que un candidato a prefecto obtenga al menos 80% de los
votos en la circunscripción norte de la provincia en cuestión para que resulte
elegido. El prefecto actual está interesado en evaluar las oportunidades que
tiene de lograr la reelección para el cargo, y planea la realización de una
encuesta que incluya 2000 electores registrados en dicha circunscripción.
Se debe emplear el procedimiento de prueba de hipótesis para determinar las
probabilidades de reelección del prefecto.
Solución:
Se realiza la siguiente prueba de hipótesis, ya que tanto n como n(1-π)
exceden de 5. En este problema n = 2000 y π = 0.80 (π es la relación
proporcional de los votos en la circunscripción norte de la provincia –igual a
80%– necesaria para la reelección). Por tanto, n = 2000 (0.80) = 1600, y
también n(1-π) = 2000 (1–0.80) = 400. Tanto 1600 como 400 son mayores que
5.
Paso 1: La hipótesis nula 𝐻0 , es que la relación proporcional poblacional π,
vale 0.80. La hipótesis alternativa, 𝐻1 , es que tal relación es menor que 0.80.
Desde un punto de vista práctico el prefecto actual se preocupa sólo cuando la
Pruebas de Hipótesis 33
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
relación muestral es menor que 0.80. Si es igual a, o mayor que 0.80, no tendrá
problema; es decir, los datos muestrales indicarían que probablemente será
reelegido. Estas hipótesis se expresan simbólicamente de la siguiente forma:
H0 : π ≥ 0.80
H1 : π < 0.80
Se tiene que 𝐻1 indica una dirección. En consecuencia, como se observó
anteriormente, la prueba es de una cola, con el signo de desigualdad
señalando hacia el extremo o cola de la distribución que contiene a la región de
rechazo.
Paso 2: El nivel de significancia es de 0.05. Esta es la probabilidad de que se
rechace una hipótesis verdadera.
Paso 3: Se tiene que z es el valor estadístico adecuado, que se evalúa
mediante:
PRUEBA DE HIPÓTESIS, UNA RELACIÓN PROPORCIONAL:
p − π
z =
σπ
donde:
π es la relación proporcional poblacional.
p es la relación proporcional muestral.
n es el tamaño de la muestra.
𝜎𝜋 es el error estándar de la citada relación. Se calcula mediante
𝜋 (1−𝜋)
√ por lo que la fórmula para z se convierte en:
𝑛
PRUEBA DE HIPÓTESIS, UNA RELACIÓN PROPORCIONAL:
p−π
z =
√ π (1 − π)
n
Paso 4: El valor critico (o los valores críticos) de z forman el punto o puntos de
división entre las regiones de aceptación y de rechazo de 𝐻0 . Como la hipótesis
alternativa indicó una dirección, esta es una prueba de una cola. (Mire el
Pruebas de Hipótesis 34
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Diagrama siguiente).
Diagrama: Regiones de aceptación y de rechazo para el nivel de significación de 0.05, prueba de una
cola.
En el paso 2 se especificó que alfa vale 0.05. Esta probabilidad se encuentra
en la cola izquierda y determina la región de rechazo. El área entre cero y el
valor critico vale 0.4500, que se obtiene a 0.5000 - 0.0500. Al consultar una
tabla de la distribución normal, y buscando 0.4500, se encuentra que el valor
critico de z es 1.65. Por tanto, la regla de decisión es: Rechazar la hipótesis
nula y aceptar la hipótesis alternativa si el valor z calculado queda a la
izquierda de -1.65; de otra manera, se acepta 𝐻0 .
Paso 5: Se elige una muestra y se toma una decisión respecto a 𝐻0 . Una
investigación muestral de 2000 electorales potenciales en la circunscripción
norte de la provincia reveló que 1550 planeaban votar por el prefecto actual.
¿La relación proporcional de 0.775 (que se obtiene de 1550/2000) es lo
suficientemente cercana a la necesaria de 0.80 para afirmar que la diferencia
se debe al azar? En este problema:
𝑝 vale 0.775, la relación proporcional en la muestra de quienes
plantean votar por el prefecto.
𝑛 vale 2000, el número de electores en la encuesta.
π vale 0.80, la relación proporcional hipotética de la población.
Pruebas de Hipótesis 35
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
z es un valor estadístico de prueba distribuido normalmente cuando la
hipótesis es verdadera y las otras suposiciones lo son también.
Usando la fórmula respectiva y calculando z resulta:
1550
z =
p − π
= 2000 − 0.80 =
0.775 − 0.80
= −2.80
√ 0.00008
√ π (1 − π) √ 0.80 (1 − 0.80)
n 2000
El valor calculado de z (-2.80) está en la región de rechazo, por lo que se
descarta la hipótesis nula en el nivel de 0.05. La diferencia de 2.5 puntos
porcentuales entre el porcentaje muestral (77.5%) y el porcentaje poblacional
hipotético en la parte norte del estado, necesaria para ganar la elección (80%)
es estadísticamente significativa. Quizás esto no se debe a variación muestral.
Expresado en otros términos, la evidencia obtenida no fundamenta la
aseveración de que el prefecto saliente regresará al puesto por otros cuatro
años.
El valor 𝑝 es la probabilidad de obtener un valor z menor que -2.80. De una
tabla normal, se ve que la probabilidad de z entre 0 y -2.80, es 0.4974. Por lo
tanto, el valor 𝑝 es 0.0026, obtenido mediante 0.5000 - 0.4974. En conclusión
¡el prefecto no puede confiar en que será reelegido!
Prueba donde interviene la diferencia entre dos relaciones
proporcionales de población
A continuación, se presentan varios casos comunes en que intervienen tales
relaciones poblacionales.
• La maqueta de un nuevo modelo de automóvil sometido a consideración
se mostró a dos grupos, cada uno de 150 personas. Un grupo constó de
una muestra aleatoria de personas entre los 18 y los 25 años de edad, y
el otro estaba formado por una muestra aleatoria de individuos de más
de 50 años. El 80% del grupo con los integrantes más jóvenes calificó en
forma satisfactoria al modelo. Pero solo 50% del grupo de personas de
mayor edad dio una calificación similar. Al evaluar el potencial de
mercado del automóvil propuesto, ¿es razonable esperar que resultaría
atractivo principalmente para los jóvenes? O, ¿es posible que tal
Pruebas de Hipótesis 36
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
diferencia de 30 puntos porcentuales se deba a muestreo, es decir,
podría ser que a los dos grupos de edades en la población no les agrade
de igual manera el automóvil propuesto?
• Una empresa (Manila) ha desarrollado un nuevo perfume llamado
Heavenly. Varias pruebas de comparación indican que el producto tiene
un buen potencial en el mercado. Sin embargo, los departamentos de
mercadotecnia y publicidad quieren planear su estrategia de manera que
el producto llegue e impresione al sector más grande posible del público
consumidor. Una de las cuestiones es si preferirá el perfume una
proporción mayor de mujeres jóvenes, o una proporción más amplia de
féminas de mayor edad. Por tanto, existen dos poblaciones: una que
consta de mujeres jóvenes y otra formada por personas del sexo
femenino mayores. Se uso una prueba estándar de olfato. Fueron
seleccionadas damas al azar, y se les pidió que olieran varios perfumes
en su sucesión, incluyendo el que suelen usar con más frecuencia y, por
supuesto, el Heavenly. La persona que realiza la prueba es la única que
conoce los nombres de las fragancias. Cada mujer selecciona el
perfume que más le agrada.
• Se considera la compra de dos máquinas nuevas de alta velocidad
diseñadas por diferentes compañías. Un factor para la elección final es
el porcentaje de piezas defectuosas que produce cada máquina. Una
muestra de la producción de una de ellas reveló que 6% de las piezas
producidas eran defectuosas. Una muestra de la producción de la otra
máquina indico que 10% del total de las piezas resultó con defectos. ¿La
máquina con el 6% en defectuosas es significativamente mejor que la
que produce 10% de piezas en tal condición? ¿o hay alguna
probabilidad de que las dos máquinas produzcan un porcentaje igual de
piezas con desperfectos?
Ahora se examinarán los procedimientos a seguir para tomar una decisión
estadística donde interviene la diferencia entre dos relaciones proporcionales.
Se ha seleccionado el problema del perfume.
Paso 1: Plantear 𝑯𝟎 𝒚 𝑯𝟏 . En este problema la hipótesis nula es: “No hay
diferencia entre la proporción de mujeres jóvenes que prefieren Heavenly y la
de mujeres de mayor de edad que tienen tal preferencia”. Si la proporción de
jóvenes en la población se designa como 𝜋1 y la correspondiente a mujeres
mayores es 𝜋2 , entonces la hipótesis nula es 𝜋1 = 𝜋2 . La hipótesis alternativa
es que las dos proporciones no son iguales, o sea 𝜋1 ≠ 𝜋2 .(Observe
Pruebas de Hipótesis 37
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
nuevamente que π representa las proporciones poblacionales.)
Paso 2: Seleccionar el Nivel de significancia. Se decidió usar el nivel 0.05.
Paso 3: Calcular el valor estadístico de prueba. Cuando las muestras son
razonablemente grandes, la distribución z es la entidad estadística de prueba
adecuada, ya que se aproxima a la distribución normal estándar. Y se evalúa
mediante:
PRUEBA DE HIPÓTESIS, DOS RELACIONES PROPORCIONALES:
p1 − p2
z =
pc (1 − pc ) p (1 − p )
√ + c n c
n1 2
donde:
𝑛1 es el número de mujeres jóvenes seleccionadas en la muestra.
𝑛2 es el número de mujeres de edad mayor seleccionadas en la muestra.
𝑋1 es el número de mujeres jóvenes (muestra 1) que prefieren Heavenly.
𝑋2 es el número de mujeres mayores (muestra 2) que prefieren Heavenly.
𝑝𝐶 es la media ponderada de las dos relaciones proporcionales de muestra,
que se calcula con la fórmula siguiente:
RELACIÓN PROPORCIONAL COMBINADA:
𝑁𝑢𝑚𝑒𝑟𝑜 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑒𝑥𝑖𝑡𝑜𝑠 𝑋1 + 𝑋2
𝑝𝐶 = =
𝑛𝑢𝑚𝑒𝑟𝑜 𝑡𝑜𝑡𝑎𝑙 𝑒𝑛 𝑙𝑎𝑠 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑠 𝑛1 + 𝑛2
Por lo general, 𝑝𝑐 se conoce como el estimador combinado de la proporción
poblacional. Es la mejor estimación de la relación proporcional de mujeres en la
población que prefieren Heavenly, y no considera si son de edad mayor o
jóvenes. Por lo tanto, es un estimador "combinado".
Paso 4: Formular la Regla de Decisión. Recuerde que la hipótesis nula, 𝐻0 ,
indica que 𝜋1 = 𝜋2 , y la hipótesis alternativa, 𝐻1 , es que 𝜋1 ≠ 𝜋2 . Puesto que 𝐻1
no indica ninguna dirección (como que 𝜋1 < 𝜋2 ), la prueba es de dos colas.
Así, los valores críticos para el nivel 0.05 son -1.96 y +1.96. Igual que en otros
Pruebas de Hipótesis 38
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
casos, si el valor de z calculado queda en la región entre +1.96 y -1.96, la
hipótesis nula no se rechaza. Si esto ocurre, se supone que cualquier
diferencia entre las dos relaciones proporcionales muestrales se debe a
variación por azar (mire el Diagrama siguiente).
Diagrama: Prueba de dos colas, áreas de rechazo y aceptación, nivel de significación de 0.05.
Paso 5: Tomar una Decisión. Un total de 100 mujeres jóvenes se
seleccionaron aleatoriamente, y a cada una se le aplicó la prueba estándar de
olfato. Veinte eligieron Heavenly como el perfume que más les agradó.
𝑋1 es el número de mujeres que prefieren tal perfume = 20
𝑛1 es el número en la muestra = 100
X1 20
p1 = = = 0.20
n1 100
Se seleccionaron aleatoriamente 200 mujeres de mayor edad y a cada una se
le aplicó dicha prueba. Resultó que 100 prefirieron la fragancia mencionada.
𝑋2 es el número de mujeres que prefieren Heavenly = 100
𝑛2 es el número en la muestra = 200
X2 100
p2 = = = 0.50
n2 200
Pruebas de Hipótesis 39
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
La relación proporcional ponderada o combinada, 𝑝𝑐 , se calcula aplicando la
fórmula correspondiente:
X1 + X 2 20 + 100 120
pc = = = = 0.40
n1 + n2 100 + 200 300
Observe que la proporción ponderada de 0.40 se aproxima más a 0.50 que a
0.20. Esto se debe a que en la muestra se incluyeron más mujeres mayores
que jóvenes.
Calcular z con la fórmula correspondiente:
𝑝1 − 𝑝2
𝑧 =
𝑝𝑐 (1 − 𝑝𝑐 ) 𝑝𝑐 (1 − 𝑝𝑐 )
√ +
𝑛1 𝑛2
0.20 − 0.50
𝑧 =
√ 0.40 (1 − 0.40) + 0.40 (1 − 0.40)
100 200
−0.30
𝑧 = = −5.00
0.06
El valor z calculado de -5.00 está en el área de rechazo, es decir, a la izquierda
de -1.96. Por tanto, la hipótesis nula se descarta en el nivel de significancia
0.05. Dicho en otras palabras, la hipótesis de que la relación proporcional de
mujeres jóvenes en la población que prefieren Heavenly, es igual a tal relación
de mujeres adultas en la población que prefieren tal perfume, se rechaza en el
nivel de 0.05. Es poco probable que una diferencia tan grande entre las dos
relaciones proporcionales de muestra (0.30) pueda deberse al azar (muestreo).
La probabilidad de cometer un error de Tipo I vale 0.05, que es igual al nivel de
significancia que se seleccionó antes de que se iniciara el estudio. Esto indica
que hay un riesgo del 5% de rechazar la hipótesis verdadera de que 𝜋1 = 𝜋2 . El
valor p es 0, porque la probabilidad de encontrar un valor z menor que -5.00 o
mayor que +5.00 es casi 0. Hay poca probabilidad de que la hipótesis nula sea
verdadera.
Error de Tipo II
Pruebas de Hipótesis 40
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Recuerde que el nivel de significancia, identificado con el símbolo 𝛼 , es la
probabilidad de que se rechace la hipótesis nula cuando es verdadera. Esto se
denomina un error de Tipo I. Los niveles de significancia más comunes son
0.05 y 0.01.
En una situación de prueba de hipótesis también existe la posibilidad de que
una hipótesis nula sea aceptada cuando en realidad es falsa. Esto es, se
acepta una hipótesis nula falsa. A esto se le denomina error de Tipo II. La
probabilidad de cometer un error de Tipo II se denota con la letra griega beta
(𝛽).
Para ilustrar el cálculo de β, suponga que un fabricante compra varillas de
acero para hacer pasadores de chaveta. La experiencia indica que la
resistencia media a la tensión de todos los envíos que llegan es 10000 psi
(libras por pulgada cuadrada), y que la desviación estándar, 𝜎, vale 400 psi.
Para tomar una decisión acerca de las remesas de varillas de acero, la
empresa plantea esta regla que debe seguir el inspector de control de calidad:
"Tome una muestra de 100 piezas de varillas de acero. Si la resistencia media
muestral (𝑋̅) queda entre 9922 psi y 10078 psi, se acepta el lote. De otra
manera, se rechazará". Mire el Diagrama siguiente y la región marcada como
A. Indica las regiones de aceptación y de rechazo de cada lote. La media de
esta distribución se denota con 𝜇0 . Las colas de la curva representan la
probabilidad de cometer un error de Tipo I, esto es, rechazar el lote recibido de
varillas cuando en realidad el conjunto es bueno, con una resistencia media de
10000 psi.
¿Cómo se calcula la probabilidad de un error de Tipo II? (Recuerde que es la
probabilidad de aceptar un "lote bueno" cuando en realidad la media no vale
10000 psi.)
Ejemplo:
Considere que la media poblacional desconocida del lote recibido, denotada
por 𝜇1 , en realidad vale 9 900 psi. ¿Cuál es la probabilidad de que el inspector
de control de calidad se equivoque al rechazar la remesa (un error de Tipo II)?
Solución:
Pruebas de Hipótesis 41
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
La probabilidad de cometer un error de Tipo II, que se representa con el área
de color verde en el Diagrama siguiente, región B, puede calcularse
determinando el área bajo la curva normal que se encuentra arriba de 9922 psi.
El cálculo de las áreas bajo la curva normal se analizó anteriormente. Haciendo
un breve repaso, primero es necesario determinar la probabilidad de que la
media muestral quede entre 9900 y 9922. Después se resta esta probabilidad
de 0.5000 (que representa toda el área más allá de la media de 9900) a fin de
especificar la probabilidad de cometer un error de Tipo II.
El número de unidades estándares (valores z) comprendidas entre la media del
lote recibido (9900), denotada por 𝜇1 , y 𝑋̅𝑐 que representan el valor crítico para
9922, se calcula mediante:
ERROR TIPO II:
̅ c − μ1
X
Z = σ
√n
Pruebas de Hipótesis 42
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Diagrama: Diagramas que muestran errores de Tipo I y de Tipo II.
Con n = 100 y 𝜎 = 400, el valor z es 0.55:
̅ c − μ1
X
z = σ
√n
9922 − 9900 22
z = = = 0.55
400 40
√ 100
El área bajo la curva entre 9900 9922 (un valor z de 0.55) es 0.2088 (a partir de
la tabla de la normal).
Pruebas de Hipótesis 43
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
El área bajo la curva más allá de 9922 psi vale 0.5000 - 0.2088, o sea 0.2912;
ésta es la probabilidad de cometer un error de Tipo II, es decir, aceptar un lote
de varillas de acero cuando la media poblacional en realidad vale 9900 psi.
Otro ejemplo presentado en el Diagrama siguiente, región C, muestra la
probabilidad de aceptar un lote cuando la media poblacional es 10120. Para
encontrar la probabilidad se emplea la fórmula:
̅ c − μ1
X 10078 − 10120
z = σ = = 1.05
400
√n √ 100
La probabilidad de que z sea menor que -1.05 es 0.1469, obtenida mediante
0.5000 – 0.3531.
Utilizando los métodos que se ilustran en los Diagramas B y C, la probabilidad
de aceptar una hipótesis como verdadera cuando en realidad es falsa puede
determinarse para cualquier valor de 𝜇1 .
Pruebas de Hipótesis 44
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Diagrama: Errores de Tipo I y de Tipo II (otro ejemplo).
Las probabilidades de cometer un error Tipo II se muestran en la columna
central de la Tabla siguiente para valores seleccionados de 𝜇1 , dados en la
columna izquierda. La columna de la derecha de la probabilidad de no cometer
un error de Tipo II.
Probabilidad de un error Probabilidad de no cometer
Media alternativa seleccionada
Tipo II un error Tipo II
(psi)
β (𝟏 − 𝜷)
9 820 0.0054 0.9946
9 880 0.1469 0.8531
9 900 0.2912 0.7088
9 940 0.6736 0.3264
Pruebas de Hipótesis 45
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
9 980 0.9194 0.0806
10 000 -* -
10 020 0.9194 0.0806
10 060 0.6736 0.3264
10 100 0.2912 0.7088
10 120 0.1469 0.8531
10 180 0.0054 0.9946
*No es posible cometer un error Tipo II cuando 𝝁 = 𝝁𝟎
Tabla: Probabilidades de un error Tipo II para 𝜇0 = 10 000 psi y valores medios alternativos
seleccionados, nivel de significación de 0.05.
3.8. Pruebas de hipótesis de dos muestras
(Ref. LIND, A. Douglas; et. al. (2012). Estadística aplicada a los negocios y
a la economía. Pág. 359).
Para emplear la distribución normal estándar -es decir, la distribución z- como
valor estadístico de prueba, se debe conocer la desviación estándar
poblacional (σ) o tener una muestra grande (al menos de 30 observaciones).
Sin embargo, en muchos casos se desconoce σ, y el número de observaciones
en la muestra es por lo menos 30. En este caso puede utilizarse la desviación
estándar muestral s como un estimado de σ, pero no se puede emplear la
distribución z como valor estadístico de prueba. La t de Student o -la
distribución t, como se denomina comúnmente- sirve como tal valor
estadístico de prueba. Cuando utilizamos la distribución t de Student, se
supone que la población está distribuida normalmente.
Características de la distribución t de Student
La distribución t de Student fue desarrollada por William S. Gossett, un maestro
cervecero de la Guinness Brewery en Irlanda, quien la publicó en 1908 bajo el
seudónimo de “Student”. A Gossett le interesaba el comportamiento exacto de
la expresión
𝑋̅ − 𝜇
𝑠
√𝑛
cuando s debía usarse como estimador de σ. En particular le preocupaba la
Pruebas de Hipótesis 46
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
discrepancia entre s y σ cuando se calculaba s a partir de una muestra muy
pequeña. La distribución t y la distribución normal estándar se presentan
gráficamente en el Diagrama siguiente. Observe en particular que la
distribución t es menos aguda y más extendida, que la distribución z normal.
Diagrama: La distribución normal estándar y la distribución t de Student.
Las siguientes características de la distribución t se basan en el supuesto de
que la población de interés es normal, o casi normal.
1. Como la distribución z, es una distribución continua.
2. También, como la citada distribución z, es acampanada y simétrica.
3. No hay una sola distribución t, sino más bien una “familia” de distribuciones
t. Todas tienen la misma media igual a cero, pero sus desviaciones
estándares difieren de acuerdo con el tamaño de muestra n. Hay una
distribución t para un tamaño de muestra 20, otra para un tamaño de
muestra 22, y así sucesivamente.
4. La distribución t es más extendida y menos aguda en el centro que la
distribución normal estándar (mire el diagrama anterior). Sin embargo, a
medida que aumenta el tamaño de la muestra, la curva de la distribución t
se aproxima a la de la distribución normal estándar.
Según se observó, la distribución t de Student es más extendida que la
distribución z. Como resultado, los valores críticos de t para un nivel de
significancia dado son mayores en magnitud que los valores críticos de z
correspondientes. En el diagrama siguiente se muestran las regiones de
rechazo para una prueba de una cola utilizando el nivel 0.05 de significancia. El
valor crítico para la prueba z es 1.65, pero para t es 2.132. La determinación
del valor t critico de 2.132 se analizará más adelante.
Pruebas de Hipótesis 47
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Diagrama: Regiones de rechazo para las distribuciones z y t, nivel de significancia 0.05, prueba de una
cola
¿Cuál es la importancia del hecho de que el valor crítico para un nivel dado de
significancia, sea mayor para muestras pequeñas que para muestras grandes?
Las siguientes afirmaciones son ciertas para muestras pequeñas, en las que se
emplea la distribución t:
(1) El intervalo de confianza será más amplio que para muestras grandes
aplicando la distribución z.
(2) La región de aceptación para H0 será más amplia que para muestras
grandes si se aplica la distribución z.
(3) Será necesario un mayor valor t calculado para rechazar la hipótesis nula
que para muestras grandes en que se utiliza z.
En otras palabras, debido a que hay más variabilidad en las medias muestrales
calculadas a partir de muestras más pequeñas, se tiene confianza en los
Pruebas de Hipótesis 48
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
estimadores resultantes y son menos adecuados para rechazar la hipótesis
nula.
Una prueba para la media poblacional
Suponga que se desea comparar una media muestral con una media
poblacional hipotética, y que el número de observaciones en la muestra es
menor que 30. Se puede considerar que la población es aproximadamente
normal, pero la desviación estándar de la población, σ, no se conoce. Puede
emplearse s, la desviación estándar de la muestra, en vez de la desviación
estándar poblacional, pero se requiere utilizar la distribución t como el valor
estadístico de prueba. El siguiente ejemplo mostrara los detalles de la prueba.
Ejemplo:
El departamento de reclamaciones o demandas en la aseguradora Pichincha
Seguros, revela que en promedio cuesta $ 60 (dólares) la realización de todos
los tramites, manejar todo el papeleo, pagar al investigador, y otros. Este costo
se consideró muy alto comparado con el de otras compañías aseguradoras, y
se instauraron medidas para disminuir los costos. A fin de evaluar el impacto
del costo de tales medidas, Pichincha Seguros seleccionó aleatoriamente una
muestra de 26 demandas y encontró que la media muestral tenía el valor de $
57 y la desviación estándar, era de $ 10. En el nivel de significaba de 0.01, ¿se
puede concluir que las medidas realmente redujeron el costo? O bien, ¿se
debe concluir que la diferencia de $ 3 entre la media muestral ($ 57) y la media
poblacional ($ 60) puede atribuirse al azar?
Solución:
Se utiliza el procedimiento común de prueba de hipótesis en cinco pasos.
Paso 1:
Plantear la Hipótesis Nula y la Hipótesis Alternativa La hipótesis nula, H0,
es que la media poblacional vale al menos $ 60 (dólares). La hipótesis
alternativa, H1, es que la media poblacional vale menos de $ 60. Esto se
expresa como sigue:
Pruebas de Hipótesis 49
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
H0 : μ ≥ $ 60
H1 : μ < $ 60
La prueba es de una cola, ya que solo interesa determinar si hay o no una
reducción en el costo. Esta desigualdad en la hipótesis alternativa señala hacia
la región de rechazo en la cola izquierda de la distribución.
Paso 2:
Seleccionar el nivel de significancia Se usará el nivel 0.01.
Paso 3:
Proporcionar el estadístico de prueba Tal recurso es la distribución t de
Student, ya que (1) no se conoce la desviación estándar de la población, y (2)
es tamaño de la muestra es pequeño (menor que 30). La fórmula para t es:
UNA PRUEBA MUESTRAL DE LA MEDIA:
̅ − μ
X
t =
s/√n
Paso 4:
Formular la Regla de Decisión Los valores críticos de t se encuentran en
cualquier tabla de la distribución t, en la Tabla siguiente se muestra parte de
dicha tabla. La columna en el extremo izquierdo de la tabla se titula “Grados de
libertad, gl”. El número de grados de libertad es la cantidad total de
observaciones en la muestra, menos el número de muestras, y se denota por n
– 1. Para esta prueba, el número de observaciones en la muestra es 26, y por
tanto hay 26 – 1 = 25 grados de libertad.
Para encontrar el valor crítico, primero se localiza la fila con los grados de
libertad adecuados. Esta fila se encuentra sombreada en la Tabla siguiente.
Después se determina si la prueba es de una o de dos colas. En este caso se
tiene una prueba de una cola. Se debe determinar la parte de la tabla que esté
marcada como “una cola”, y luego se localiza la columna con el nivel de
significancia seleccionado.
Pruebas de Hipótesis 50
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Valores Críticos de t
Nivel de significancia para prueba de una cola
Grados de 0.10 0.05 0.025 0.01 0.005 0.0005
libertad
gl
Nivel de significancia para prueba de dos colas
0.620 0.10 0.05 0.02 0.01 0.001
21 1.323 1.721 2.080 2.518 2.831 3.819
22 1.321 1.717 2.074 2.508 2.819 3.792
23 1.319 1.714 2.069 2.500 2.807 3.767
24 1.318 1.711 2.064 2.492 2.797 3.745
25 1.316 1.708 2.060 2.485 2.787 3.725
26 1.315 1.706 2.056 2.479 2.779 3.707
27 1.314 1.703 2.052 2.473 2.771 3.690
28 1.313 1.701 2.048 2.467 2.763 3.674
Tabla: Parte de la tabla de la distribución t.
En este ejemplo, el nivel de significancia es 0.01. Se recorre hacia abajo en la
columna marcada “0.01” hasta que se cruce con la fila que corresponde a los
25 grados de libertad. El valor es 2.485. Como esta es una prueba de una cola
y la región de rechazo se encuentra en la extremidad izquierda, el valor critico
es negativo. La regla de decisión es rechazar H0 si el valor de t es menor que -
2.485. Esto se muestra en el Diagrama siguiente:
Diagrama: Región de rechazo, distribución t, nivel de significancia igual a 0.01.
Pruebas de Hipótesis 51
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Paso 5:
Calcular t y Tomar una Decisión Recuerde que t se calcula mediante la
fórmula:
X̅ − μ
t =
S
√n
con n – 1 grados de libertad, donde:
𝑋̅ es la media de la muestra.
µ es la media poblacional hipotética.
s es la desviación estándar de la muestra.
n es el tamaño muestral.
En el ejemplo:
𝑋̅ = $ 57 (dólares), la media muestral.
µ = $ 60, la media poblacional hipotética.
S = $10, la desviación estándar de la muestra.
n = 26, el número de elementos en la muestra.
El valor de t es -1.530, que se obtiene mediante:
̅ − μ
X $ 57 − $ 60
t = = = −1.530
s / √n $ 10 / √26
Puesto que -1.530 se encuentra en la región a la derecha del valor critico de -
2.485, la hipótesis nula no se rechaza al nivel de significancia 0.01. No hay una
diferencia estadística importante entre 𝑋̅ 𝑦 𝜇. Esto indica que las acciones
tomadas para reducir el costo no han reducido el costo medio por reclamación
a menos de $ 60, con base en los resultados muestrales. La diferencia de $ 3
entre la media muestral y la media poblacional, se debe al azar.
Pruebas de Hipótesis 52
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
3.9. Pruebas de hipótesis de dos muestras:
Muestras independientes
(Ref. LIND, A. Douglas; et. al. (2012). Estadística aplicada a los negocios y
a la economía. Pág. 369).
Comparación de dos medias poblacionales independientes
Anteriormente, se seleccionó una sola muestra aleatoria y se comparó la media
de esa muestra con el valor hipotético de la media poblacional. Esto es, se hizo
la siguiente pregunta: ¿Es posible que una muestra con una media dada puede
provenir de una población con una media propuesta?.
Ahora, se extiende la idea a dos muestras. La cuestión que interesa es si son
iguales las medias de las dos muestras. O, de otra manera, ¿es posible que las
dos medias muéstrales provengan de poblaciones idénticas?.
Para realizar esta prueba se requieren tres suposiciones:
1. Las poblaciones muestreadas están distribuidas normalmente (en forma
completa o aproximada)
2. Las dos poblaciones son independientes.
3. Las desviaciones estándares de las dos poblaciones son iguales.
El valor estadístico t para el caso de dos muestras es similar al empleado
anteriormente, para el valor estadístico z, excepto que se requiere un cálculo
adicional. Las dos varianzas de muestra deben ser combinadas para formar
una sola estimación de la varianza poblacional desconocida. En esencia, se
calcula una media ponderada de las dos desviaciones estándares de la
muestra y se utiliza esta estimación ponderada de la desviación estándar de la
población. ¿Por qué se necesita combinar las desviaciones estándares? En la
mayor parte de los casos, cuando las muestras tienen menos de 30
observaciones, las desviaciones estándares de la población no se conocen. Así
que se calcula s, la desviación estándar de la muestra, y se usa en vez de 𝜎, la
desviación estándar de la población. Debido a que se supone que las dos
poblaciones tienen iguales desviaciones estándar, la mejor estimación que
Pruebas de Hipótesis 53
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
puede realizarse de ese valor es combinar toda la información que se tiene con
respecto al valor de la desviación estándar de la población.
La siguiente formula sirve para combinar las varianzas de muestra. Observe
que intervienen dos factores: el número de observaciones en cada muestra y
las propias desviaciones estándares muéstrales.
VARIANZA COMBINADA:
(n1 − 1) (S12 ) + (n1 − 1) (S22 )
Sp2 =
n1 + n2 − 2
donde:
𝑆12 es la varianza de la primera muestra.
𝑆22 es la varianza de la segunda muestra.
El valor de t es:
PRUEBA DE DOS MUESTRAS DE LAS MEDIAS:
̅
X1 − ̅
X2
t =
1 1
√ Sp2 ( +
n1 n2 )
donde:
𝑋̅1 es la media de la primera muestra.
𝑋̅2 es la media de la segunda muestra.
𝑛1 es el número de elementos en la primera muestra.
𝑛2 es el número de elementos en la segunda muestra.
𝑆𝑝2 es la estimación combinada de la varianza de la población.
El número de grados de libertad en la prueba es igual al número total de
elementos muestreados, menos el número de muestras. Puesto que existen
dos muestras, se tienen (𝑛1 + 𝑛2 − 2) grados de libertad.
Ejemplo:
La empresa Stylios, fabrica y ensambla cortadoras de césped, que se envían a
comerciantes de Ecuador y Colombia. Se han propuesto dos procedimientos
Pruebas de Hipótesis 54
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
para instalar el motor en la armazón de una cortadora. La pregunta es: ¿existe
alguna diferencia en el tiempo medio para montar los motores en las
armazones de las cortadoras? El primer método fue desarrollado por William (y
se designa como procedimiento 1), y el otro lo desarrollo Arturo (y se designa
como procedimiento 2). Para evaluar los dos métodos propuestos, se decidió
efectuar un estudio de movimientos y tiempos.
Una muestra de cinco empleados se consideró utilizando el método 1, y otra de
seis aplicó procedimiento 2. Los resultados, en minutos, se muestran a
continuación. ¿Existe diferencia en los tiempos medios de montaje? Utilice el
nivel de significancia de 0.10.
Procedimiento 1 (minutos) Procedimiento 2 (minutos)
2 3
4 7
9 5
3 8
2 4
3
Solución:
La hipótesis nula expresa que no hay diferencia en el tiempo medio de montaje
entre el procedimiento 1 y el procedimiento 2. La hipótesis alternativa indica
que hay una diferencia.
H0 : μ1 = μ2
H1 : μ1 ≠ μ2
Los supuestos requeridos son:
(1) Las observaciones en la muestra de William son independientes de las
observaciones en la muestra de Arturo, y entre sí.
(2) Las dos poblaciones son aproximadamente normales.
(3) Las dos poblaciones tienen desviaciones estándares iguales.
¿Existe alguna diferencia entre los tiempos de ensamble utilizando el método
de William y el de Arturo?
Los grados de libertad son iguales el número total de elementos muestreados
menos el número de muestras. En este caso se determinan por 𝑛1 + 𝑛2 − 2.
Pruebas de Hipótesis 55
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Cinco ensambladores utilizaron el método de William, y seis el de Arturo. Por
tanto, existen 9 grados de libertad, que se obtienen por 5 + 6 - 2. Los valores
críticos de t, a partir de una tabla t, para gl = 9, una prueba de dos colas y el
nivel de significancia de 0.10, son +1.833 y -1.833.
La regla de decisión se ilustra gráficamente en el Diagrama siguiente. No se
rechaza la hipótesis nula si el valor t calculado queda entre - 1.833 y + 1.833.
De otra manera, se rechaza Ho.
Diagrama: Regiones de rechazo, prueba de dos colas (9 grados de libertad , ∝= 0.10).
La determinación de la t de Student se efectúa en tres pasos:
Paso 1.
Cálculo de desviaciones estándares de la muestra.
Procedimiento 1 Procedimiento 2
X1 X12 X2 X22
2 4 3 9
4 16 7 49
9 81 5 25
3 9 8 64
2 4 4 16
20 114 3 9
30 172
Pruebas de Hipótesis 56
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
2
(∑ X1 )
∑ X12 −
√ n1
S1 =
n1 − 1
(20)2
√114 − 5
S1 =
5−1
S1 = 2.9155
2
(∑ X2 )
∑ X22 −
√ n2
S2 =
n2 − 1
(30)2
√172 − 6
S2 =
6−1
S2 = 2.0976
Paso 2:
Combinar las variancias de muestra. Aplicando fórmula correspondiente.
(n1 − 1)(S12 ) + (n1 − 1) (S22 )
Sp2 =
n1 + n2 − 2
(5 − 1)(2.9155)2 + (6 − 1)(2.0976)2
Sp2 = = 6.2222
5+6−2
Paso 3:
20
Determinar t. Utilizando la fórmula correspondiente, con 𝑋̅1 = = 4 y 𝑋̅2 =
5
30
= 5 , resulta:
6
𝑋̅1 − 𝑋̅2 4−5
t= 1 1
= 1 1
= −0.662
√𝑆𝑝2 (𝑛 +
𝑛2
) √6.2222 ( + )
1 5 6
Pruebas de Hipótesis 57
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
La decisión es no rechazar la hipótesis nula debido a que -0.662 cae en la
región entre -1.833 y +1.833. Se concluye que no existe diferencia en el tiempo
medio para montar el motor en la armazón, entre los dos métodos.
También se puede estimar el valor p recurriendo a una tabla de la distribución t.
Localice el renglón de 9 grados de libertad y emplee el nivel de significancia
para pruebas de dos colas. Encuentre el valor t, sin considerar el signo, que
esté más cercano al valor calculado de -0.66. Es 1.383, correspondiente al
nivel de significancia de 0.20. Por lo tanto, incluso si se hubiera hecho uso del
nivel de significancia de 20% no se habría rechazado la hipótesis nula de
medias iguales. Se reportaría que el valor p es mayor que 0.20.
3.10. Pruebas de hipótesis de dos muestras:
Muestras dependientes
(Ref. LIND, A. Douglas; et. al. (2012). Estadística aplicada a los negocios y
a la economía. Pág. 374).
Prueba de hipótesis con muestras dependientes
En la sección anterior se probó la diferencia entre las medias de dos muestras
independientes. La diferencia en el tiempo medio requerido para montar un
motor utilizando el método de William, se comparó con el tiempo utilizado para
montar el motor usando el procedimiento de Arturo. Las muestras eran
independientes, es decir, que la muestra de los tiempos de ensamble utilizando
el primer método no estaba relacionada en forma alguna con la muestra de los
tiempos de ensamble correspondientes al segundo.
Sin embargo, hay casos en los que las muestras no son independientes. Es
decir, las muestras son dependientes o están relacionadas. Como ejemplo, la
empresa Nickel Savings se sirve de otras dos: Schadek Appraisals y Bowyer
Real, para realizar avalúos a propiedades en bienes raíces sobre las que hace
préstamos. Es importante determinar que ambas firmas aporten avalúos
similares. Para revisar la consistencia de las dos empresas valuadoras, Nickel
Pruebas de Hipótesis 58
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Savings seleccionó al azar diez casas y pidió a ambas agencias que realizaran
avalúos de tales inmuebles. Para cada casa habrá un par de valuaciones. Esto
es, para el primer inmueble habrá un avaluó de Schadek Appraisals y otro de
Bowyer Real. Las valuaciones dependen de la casa seleccionada, o están
relacionadas con ella. A esto también se le denomina muestra por pares.
Para la prueba de hipótesis a realizar, interesa la distribución de las diferencias
en la valuación. Por tanto, solo hay una muestra. Para decirlo más
formalmente, se desea investigar si la media de la distribución de diferencias
en los avalúos es igual a 0. La muestra está constituida por las diferencias
entre los valores determinados por Schadek Apparaisals y los establecidos por
Bowyer Real. Si las dos firmas en realidad reportan estimaciones similares,
entonces en algunas ocasiones el valor presentado por Schadek Appraisals
será el más alto y otras veces lo será el de Bowyer Real. Sin embargo, la
media de la distribución de diferencias será aproximadamente igual a 0. Por
otra parte, si una de las agencias de modo consistente reporta las valuaciones
más altas, entonces la media de la distribución de las deferencias no será cero.
Se utilizará el símbolo µd para indicar la media poblacional de la distribución de
diferencias. El valor estadístico de prueba sigue la distribución t de Student, y
se calcula mediante la fórmula siguiente:
PRUEBA t POR PARES:
d̅
t =
S d / √n
Hay n-1 grados de libertad, y
d̅ es la diferencia media entre las observaciones por pares o relacionadas.
𝑆𝑑 es la desviación estándar de la distribución de las diferencias entre las
observaciones por pares o relacionadas.
n es el número de observaciones por pares.
La desviación estándar de las diferencias, 𝑆𝑑 se calcula con la fórmula:
2
Σd2 − (Σd)
√ n
Sd =
n−1
Pruebas de Hipótesis 59
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Al igual que en las dos pruebas anteriores, se supone que la distribución de la
población de diferencias es normal.
El siguiente ejemplo en el que intervienen la empresa Nickel Savings y su
problema relacionado con avalúos consistentes de bienes raíces, ilustrara los
detalles.
Ejemplo:
Recuerde que la empresa citada desea comparar a las dos agencias que utiliza
para realizar avalúos de casas. Nickel Savings seleccionó una muestra de diez
propiedades residenciales y programó un avaluó por cada agencia. Los
resultados, reportados en miles de dólares, son:
Importe de Avalúo (en miles de dólares)
Casa Schadek Appraisals Bowyer Real
1 135 128
2 110 105
3 131 119
4 142 140
5 105 98
6 130 123
7 131 127
8 110 115
9 125 122
10 149 145
Al nivel de significancia de 0.05, ¿puede concluirse que hay una diferencia en
los avalúos medios de las casas?
Solución:
El primer paso es establecer las hipótesis nula y alternativa, en este caso, es
adecuada una alternativa de dos colas porque interesa determinar si hay una
diferencia en los avalúos. No se desea mostrar si una agencia en particular
realiza valuaciones más altas que las que hace la otra. La cuestión es si las
diferencias muéstrales en los avalúos podrían provenir de la población con una
media de 0. Si la media poblacional de las diferencias es 0, se concluye que no
Pruebas de Hipótesis 60
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
hay diferencia media en las valuaciones. Las hipótesis nula y alternativa son:
Ho: µd = 0
H1: µd ≠ 0
Ambas firmas valuadoras realizaron determinaciones a 10 casas, n=10, y gl=n-
1=10-1=9. Se tiene una prueba de dos colas y el nivel de significancia es 0.05.
Para determinar el valor crítico, refiérase a una tabla de la t, y siga la hilera de
9 grados de libertad, hasta la columna para una prueba de dos colas y nivel de
significancia de 0.05. El valor en la intersección es 2.262. la regla de decisión
es rechazar la hipótesis nula si el valor t calculado es menor que -2.262 o
mayor que 2.262.
Valuación (en miles de dólares) Diferencia, Diferencia al cuadrado,
Casa
Schadek Bowyer d d2
1 135 128 7 49
2 110 105 5 25
3 131 119 12 144
4 142 140 2 4
5 105 98 7 49
6 130 123 7 49
7 131 127 4 16
8 110 115 -5 25
9 125 122 3 9
10 149 145 4 16
46 386
Σd 46
d̅ = = = 4.60
n 10
2 (46)2
Σd2 − (Σd) 386 −
√ n √ 10
Sd = = = 4.402
n−1 10 − 1
Aplicando la formula correspondiente, el valor t es 3.305, que se obtiene de:
d̅ 4.6 4.6
t = = = = 3.305
Sd /√n 4.402 /√10 1.3920
Pruebas de Hipótesis 61
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Como el valor t calculado está en la región de rechazo, esto es, más allá del
valor critico se descarta la hipótesis nula. La distribución poblacional de
diferencias no tiene una media igual a 0. Se concluye que hay una desigualdad
en los avalúos de las casas, y existe una diferencia en las valuaciones de las
agencias. La desigualdad más grande de $ 12000 (dólares) se tiene para la
Casa 3. Ese puede ser un lugar adecuado para comenzar la revisión.
Para encontrar el valor p se utiliza una tabla de la distribución t de Student y la
teoría para una prueba de dos colas. Al recorrer la fila de 9 grados de libertad,
se hallan los valores de t que marcan el valor calculado. Para un nivel de
significancia de 0.01, el valor t es 3.250, y para un nivel de 0.001, t es igual a
4.781. el valor calculado de 3.305 se encuentra entre estas dos estimaciones.
Por tanto, se reporta que el valor p es menor que 0.01 y mayor que 0.001. tal
información se resume en la Tabla siguiente:
Nivel de significancia para prueba de una cola
0,10 0,05 0,025 0,01 0,005 0,0005
gl Nivel de significancia para prueba de dos colas
0,20 0,10 0,05 0,02 0,01 0,001
1 3,078 6,314 12,706 31,821 63,657 363,619
2 1,886 2,920 4,303 6,965 9,925 31,599
3 1,638 2,353 3,182 4,541 5,841 12,924
4 1,533 2,132 2,776 3,747 4,604 8,610
5 1,476 2,015 2,571 3,365 4,032 6,869
6 1,440 1,943 2,447 3,143 3,707 5,959
7 1,415 1,895 2,365 2,998 3,499 5,408
8 1,397 1,860 2,306 2,896 3,355 5,041
9 1,383 1,833 2,262 2,821 3,250 4,781
10 1,372 1,812 2,228 2,764 3,169 4,587
11 1,363 1,796 2,201 2,718 3,106 4,437
12 1,356 1,782 2,179 2,681 3,055 4,318
13 1,350 1,771 2,160 2,650 3,012 4,221
14 1,345 1,761 2,145 2,624 2,977 4,140
15 1,341 1,753 2,131 2,602 2,947 4,073
Tabla: Una parte de la distribución t de Student.
Pruebas de Hipótesis 62
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Recursos complementarios
Videos sobre pruebas de hipótesis:
[Link]
[Link]
[Link]
Pruebas de Hipótesis 63
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Bibliografía
LIND, Douglas A.; MARCHAL, William G.; WATHEN, Samuel A. (2012).
Estadística Aplicada a los Negocios y a la Economía. México. MacGraw-
Hill. Decimoquinta edición.
WEIERS, Ronald M. (2006). Introducción a la Estadística para Negocios.
México. Thomson. Quinta edición.
BERENSON, Mark L.; LEVINE, David M.; KREHBIEL, Timothy C. (2001).
Estadística para Administración. México. Pearson Educación. Segunda
edición.
Pruebas de Hipótesis 64
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Autoevaluación Tema 3
1. La tasa anual media de resurtido de frascos de 200 aspirinas es 6.0. Esto indica que las existencias del
medicamento tienen que renovarse en promedio seis veces al año en un establecimiento. La desviación
estándar es 0.50. Se sospecha que el volumen de ventas promedio ha cambiado y no es 6.0. Se utilizará el nivel
de significancia de 0.05 para probar esta hipótesis. ¿Cuál es la hipótesis nula y la hipótesis alternativa?
2. La tasa anual media de resurtido de frascos de 200 aspirinas es 6.0. Esto indica que las existencias del
medicamento tienen que renovarse en promedio seis veces al año en un establecimiento. La desviación
estándar es 0.50. Se sospecha que el volumen de ventas promedio ha cambiado y no es 6.0. Se utilizará el nivel
de significancia de 0.05 para probar esta hipótesis. ¿Cuál es la probabilidad de un error de tipo I?
3. La tasa anual media de resurtido de frascos de 200 aspirinas es 6.0. Esto indica que las existencias del
medicamento tienen que renovarse en promedio seis veces al año en un establecimiento. La desviación
estándar es 0.50. Se sospecha que el volumen de ventas promedio ha cambiado y no es 6.0. Se utilizará el nivel
de significancia de 0.05 para probar esta hipótesis. La fórmula para el valor estadístico de prueba es:
4. La tasa anual media de resurtido de frascos de 200 aspirinas es 6.0. Esto indica que las existencias del
medicamento tienen que renovarse en promedio seis veces al año en un establecimiento. La desviación
estándar es 0.50. Se sospecha que el volumen de ventas promedio ha cambiado y no es 6.0. Se utilizará el
nivel de significancia de 0.05 para probar esta hipótesis. ¿Cuál es la regla de decisión?
Pruebas de Hipótesis 65
5. La tasa anual media de resurtido de frascos de 200 aspirinas es 6.0. Esto indica que las existencias del
medicamento tienen que renovarse en promedio seis veces al año en un establecimiento. La desviación
estándar es 0.50. Se sospecha que el volumen de ventas promedio ha cambiado y no es 6.0. Se utilizará el
nivel de significancia de 0.05 para probar esta hipótesis. Se seleccionó una muestra aleatoria de 64 frascos
de tal producto, con una media de 5.84. ¿Debe rechazarse la hipótesis de que la media poblacional es 6.0?
Interprete el resultado.
6. Corngrow es un producto químico diseñado específicamente para añadir peso al maíz durante la temporada
de crecimiento. Se trataron con Corngrow terrenos alternados durante dicha temporada. Para determinar si el
producto fue o no eficaz, fueron seleccionadas aleatoriamente 400 mazorcas de maíz que recibieron el
tratamiento del producto. Cada una se pesó y se calculó que el peso medio es de 16 onzas (oz), con una
desviación estándar de 1 oz. De igual manera, se pesaron 100 mazorcas de maíz no tratado. La media fue de
15.7 oz y la desviación estándar, de 1.2 oz. Utilizando una prueba de una cola y el nivel 0.05, ¿es posible decir
que Corngrow actúa eficazmente para dar más peso al maíz?
7. Corngrow es un producto químico diseñado específicamente para añadir peso al maíz durante la temporada
de crecimiento. Se trataron con Corngrow terrenos alternados durante dicha temporada. Para determinar si el
producto fue o no eficaz, fueron seleccionadas aleatoriamente 400 mazorcas de maíz que recibieron el
tratamiento del producto. Cada una se pesó y se calculó que el peso medio es de 16 onzas (oz), con una
desviación estándar de 1 oz. De igual manera, se pesaron 100 mazorcas de maíz no tratado. La media fue de
15.7 oz y la desviación estándar, de 1.2 oz. Cuál es el valor p; interprételo.
8. La siguiente aseveración de investigar en el nivel 0.01: “Un 40 % o más de las personas que se retiraron de
un empleo industrial antes de llegar a los 60 años de edad, volvería a trabajar si existiera un puesto adecuado”.
Se tiene que 74 personas de una muestra de 200 dijeron que sí laborarían nuevamente. ¿Puede utilizarse z
como valor estadístico de prueba? ¿Por qué sí o por qué no?
9. La siguiente aseveración de investigar en el nivel 0.01: “Un 40 % o más de las personas que se retiraron de
un empleo industrial antes de llegar a los 60 años de edad, volvería a trabajar si existiera un puesto
adecuado”. Se tiene que 74 personas de una muestra de 200 dijeron que sí laborarían nuevamente. La
hipótesis nula y la hipótesis alternativa son:
10. La siguiente aseveración de investigar en el nivel 0.01: “Un 40 % o más de las personas que se retiraron de
un empleo industrial antes de llegar a los 60 años de edad, volvería a trabajar si existiera un puesto
adecuado”. Se tiene que 74 personas de una muestra de 200 dijeron que sí laborarían nuevamente. El valor z
es... y la decisión a la que llegó es:
11. El supervisor de producción en la empresa Corry Steel Co., fabricante de escritorios de acero, desea
comparar el número de muebles defectuosos producidos en el turno de día, con la cantidad elaborada en el
turno vespertino. Una muestra de la producción de seis turnos de día y de ocho turnos de tarde dio la
siguiente información: Diurno 5 8 7 6 9 7 Vespertino
8 10 7 11 9 12 14 9 Al nivel de significancia de 0.05, ¿existe alguna
diferencia en el número medio de escritorios defectuosos por turno? Estime el valor p.
Tema 4
Estadística Aplicada
4. Aplicaciones Estadísticas al Control de Calidad
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Índice Pág.
4.1. Introducción 3
4.2. Breve historia del Control de Calidad 3
4.3. Seis Sigma 7
4.4. Causas de variación 8
4.5. Diagramas de diagnóstico 10
4.6. Diagramas de Control de Calidad 15
4.6.1. Diagramas de Control de variables 16
4.6.2. Diagramas de Control de atributos 27
4.7. Muestreo de aceptación 32
Recursos complementarios 38
Bibliografía 39
Aplicaciones Estadísticas al Control de Calidad 2
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
4.1. Introducción
Se presenta una aplicación algo diferente de la prueba de hipótesis
denominada: Control Estadístico de Procesos, simbolizado por CEP, o bien
por SPC (de Statistical Process Control).
El control estadístico de proceso es un conjunto de estrategias, técnicas y
acciones realizadas por una organización para asegurarse de que está
elaborando un producto de calidad, o de que proporciona un servicio de
calidad. Comienza en la etapa de planeación del producto, cuando se
especifican los atributos de éste o del servicio. Continúa con la etapa de
producción. Cada atributo durante el proceso contribuye a la calidad general
del producto. Para utilizar el control de calidad de manera eficaz, se deben
desarrollar atributos y especificaciones ponderables, con los que se puedan
comparar las características reales del producto o servicio.
4.2. Breve historia del Control de Calidad
(Ref. LIND, A. Douglas; et. al. (2012). Estadística aplicada a los negocios y
a la economía. Pág. 587).
Antes de 1900 la industria en Estados Unidos de América (EUA) se
caracterizaba principalmente por talleres pequeños que fabricaban productos
relativamente sencillos, como velas o muebles. En esos talleres, el trabajador
por lo general era un artesano, responsable por completo de la calidad del
trabajo. Dicho técnico podía asegurarla mediante la selección personal de los
materiales, la habilidad en la manufactura, y con ajuste y arreglos selectivos.
A principios de 1900 surgieron las fábricas, en las que gente con limitado
entrenamiento se formó técnicamente en las largas líneas de ensamblaje. Los
productos se volvieron mucho más complejos. El trabajador ya no tenía control
total sobre la calidad del producto. Un grupo de semiprofesionales,
generalmente denominado Departamento de Inspección, fue responsabilizado
Aplicaciones Estadísticas al Control de Calidad 3
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
de tal calidad. Esta responsabilidad se cumplía por medio de un examen de
100% de todas las características consideradas importantes, manejando la
acción correctiva de las discrepancias con notificaciones al supervisor del
departamento de producción. En esencia, durante ese periodo la calidad
adecuada se logró por “inspección directa en el producto”.
Durante la década de 1920 el doctor Walter A. Shewhart, de Bell Telephone
Laboratories, desarrolló los conceptos del control estadístico de calidad.
Introdujo la idea de "controlar" la calidad durante la elaboración, en vez de
inspeccionarla en los productos terminados. Con el propósito de controlar
debidamente la calidad, Shewhart desarrolló técnicas de diagramación de
control para las operaciones de manufactura en proceso. Además, introdujo el
concepto de inspección por muestreo estadístico para estimar la calidad de un
producto mientras era elaborado, reemplazando así el método antiguo de
inspeccionar cada pieza o parte, después de haber sido terminada en la
operación de manufactura o producción.
El control estadístico de calidad surgió realmente durante la Segunda Guerra
Mundial. La necesidad de producción en masa de artículos relacionados con la
guerra, como miras para bombardeo aéreo, sistemas de radar, y otros equipos
electrónicos, al costo más bajo posible, aceleró el uso del muestreo estadístico
y de los diagramas de control de calidad. Estas técnicas se retuvieron,
refinaron e integraron después de la guerra. El empleo de las computadoras en
la década de 1990 también extendió la utilización de tales técnicas.
La Segunda Guerra Mundial destruyó casi por completo la capacidad de
producción japonesa. En vez de equipar con herramientas nuevas sus antiguos
métodos de producción, los japoneses consiguieron la ayuda del ya fallecido
doctor W. Edwards Deming, del Departamento de Agricultura de EUA, para
desarrollar un plan general. En una serie de seminarios con planificadores
japoneses, el doctor destacó una filosofía conocida actualmente como los "14
puntos de Deming", los cuales se indican más adelante. Enfatizó que la calidad
proviene de mejorar el proceso, no de la inspección. Y que ésa la determinan
los clientes. El fabricante o productor, agregó, debe ser capaz de prever las
necesidades de los consumidores, por medio de investigaciones de mercado,
la alta gerencia es responsable de las mejoras a largo plazo. Otro de sus
puntos -que los japoneses apoyaron fuertemente- es que cada integrante de
una empresa debe contribuir al perfeccionamiento a largo plazo. Para lograr
este progreso, es necesario contar con enseñanza y capacitación continuas.
Aplicaciones Estadísticas al Control de Calidad 4
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Deming tenía algunas ideas que no concordaban con las filosofías gerenciales
contemporáneas en Estados Unidos. Dos áreas en las que los conceptos de él
diferían de aquella mentalidad estadounidense, eran las cuotas de producción y
las calificaciones por mérito. Deming aseguraba que estas dos prácticas, que
son comunes en ese país, no, son productivas y deben eliminarse. Asimismo,
señaló que a los gerentes estadounidenses les interesan mucho las "buenas
noticias", las cuales, sin embargo, no proporcionan una oportunidad de mejoría.
Por otro lado, las "malas noticias" abren la puerta a nuevos productos, y
permiten el progreso de la compañía.
A continuación, se indican en forma condensada, los 14 puntos de Deming. Él
estaba obstinado en que tales puntos debían adoptarse como un paquete para
poder tener éxito. El asunto principal es la cooperación, el trabajo en equipo y
la creencia de que los trabajadores desean realizar su trabajo con calidad.
1. Crear una constancia de propósito para la mejora continua de los
productos y servicios a la sociedad.
2. Adoptar una filosofía con la que no se pueda continuar viviendo según los
niveles comúnmente aceptados de retraso, errores, materiales con
desperfectos, y mano de obra defectuosa.
3. Eliminar la necesidad de la inspección en masa como medio para lograr la
calidad. En vez de eso, alcanzar la calidad apropiada elaborando el
producto de manera correcta desde el. principio.
4. Terminar con la práctica de premiar los negocios con base solamente en
el precio. Más bien, se necesita aplicar medidas significativas de calidad
junto con el precio.
5. Mejorar constante y permanentemente cada proceso de planeación,
producción y servicio,
6. Instituir métodos modernos de capacitación en el trabajo para todos los
empleados, incluyendo a los gerentes. Esto llevará a un mejor
aprovechamiento de cada laborante en la empresa.
7. Adoptar y establecer firmemente un liderazgo dirigido a ayudar a las
personas a realizar un trabajo mejor.
8. Fomentar una comunicación eficaz en uno y otros sentidos, y medios para
eliminar temores en toda la organización, de tal modo que todo mundo
pueda trabajar de manera más eficaz y más productiva para la empresa.
9. Quitar las barreras entre departamentos y áreas de trabajo.
10. Eliminar el uso de frases publicitarias, carteles y exhortaciones
demandando Cero Defectos y nuevos niveles de productividad, sin
proporcionar los medios y métodos para hacerlo.
Aplicaciones Estadísticas al Control de Calidad 5
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
11. Suprimir los estándares laborales que señalan cuotas para la fuerza de
trabajo, así como objetivos numéricos para el personal administrativo.
Implantar ayudas y liderazgo útil para lograr un mejoramiento continuo en
calidad y productividad.
12. Quitar las barreras que despojan a los trabajadores por hora y al personal
administrativo de su derecho a enorgullecerse de su destreza.
13. Instituir un programa vigoroso de instrucción, y alentar la autosuperación
de todos. Una organización necesita gente de bien y personas que
puedan mejorar mediante instrucción y capacitación. El ascenso a un
puesto competitivo tendrá su base en el conocimiento aplicable.
14. Definir claramente el compromiso permanente de la alta dirección y
gerencia con la calidad y la productividad en mejora continua, para aplicar
todos los principios anteriores.
Los 14 puntos de Deming no excluyen el Control Estadístico de Calidad, con
frecuencia abreviado CEC, o bien SQC (de Statistical Quality Control), TQC o
solamente QC. El objetivo de tal control es monitorear la producción durante las
etapas de manufactura. Los medios del control estadístico de calidad, como el
diagrama de X ̅ (X con barra) y el diagrama de R, se utilizan para inspeccionar
la calidad de muchos procesos y servicios. Los diagramas de control permiten
identificar cuando un proceso o servicio se encuentra "fuera de control", esto
es, cuando se llega a un punto donde se produce un número excesivo de
unidades defectuosas.
El interés en la calidad se ha acelerado notablemente en Estados Unidos
desde finales del decenio de 1980. Para comprobarlo, sólo se necesita
encender un televisor y observar los anuncios o comerciales patrocinados por
General Motors, Ford y Chrysler, y se verificará la insistencia en el control de
calidad en la línea de montaje de autos. Eso es ahora uno de los temas "de
moda" en todas las facetas de los negocios. V. Daniel Hunt, presidente de la
empresa Technology Research Corporation, expresa en su libro Quality in
America, que, en EUA, 20 a 25 % de los costos de producción corresponden
generalmente a detectar y corregir errores. Y agrega que el costo adicional de
reparar o reemplazar productos defectuosos ya vendidos, eleva el costo total
de la calidad deficiente, a casi 30%. Indica que, en Japón tal costo es de
¡aproximadamente 3%!
En años recientes, el reconocimiento a sus logros ha motivado a las empresas
a mejorar la calidad. El premio Malcolm Baldrige National Quality Award,
establecido en 1988, es uno que se otorga una vez al año a las compañías
Aplicaciones Estadísticas al Control de Calidad 6
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
estadounidenses que muestran excelencia en logros y manejo de la calidad.
Las categorías de tal premio incluyen manufactura, servicio y pequeña
empresa. Desde entonces las compañías Motorola, Xerox, IBM, Federal
Express y Cadillac, han obtenido esa distinción. Pero el premio no se limita a
compañías grandes. Uno de los ganadores más recientes es una pequeña
empresa localizada en Minneapolis, Minnesota, con tan sólo 100 trabajadores.
¿Qué es calidad?
No existe generalmente un acuerdo respecto a la definición de calidad. Se citan
a continuación algunas definiciones.
De Westinghouse: “La calidad total corresponde a la notable eficacia gerencial
y productiva para satisfacer las expectativas del cliente haciendo las cosas
correctas desde el principio”.
De AT&T: “Calidad es cumplir debidamente con lo esperado por el cliente”.
En palabras de la historiadora Bárbara W. Tuchman: “Calidad es lograr o
alcanzar la norma más alta, en vez de conformarse con lo incorrecto o
fraudulento”.
4.3. Seis Sigma
(Ref. LIND, A. Douglas; et. al. (2012). Estadística aplicada a los negocios y
a la economía. Pág. 589).
Muchas organizaciones de servicio, manufactura y no lucrativas están
comprometidas con la mejora de la calidad de sus productos y servicios. “Six
Sigma” es el nombre que se le dio a un programa organizacional diseñado para
mejorar la calidad y el desempeño de la totalidad de una corporación. El
enfoque del programa se concentra en reducir la variación en cualquier proceso
que se utilice para producir y entregar productos y servicios a los clientes. Los
programas Six Sigma se aplican a procesos de producción, así como a
procesos contables y otros de apoyo organizacional. Los últimos resultados de
un programa de Six Sigma son reducir los costos de los errores y defectos,
aumentar la satisfacción del cliente y las ventas de productos y servicios, e
incrementar los rendimientos.
Six Sigma obtiene su nombre de la distribución normal. El término sigma
significa “desviación estándar”, y “más o menos” tres desviaciones estándar
dan un rango total de seis desviaciones estándares. Por lo tanto, Six Sigma
Aplicaciones Estadísticas al Control de Calidad 7
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
significa no tener más de 3.4 defectos por millón en cualquier proceso,
producto o servicio. Muchas empresas se esfuerzan por tener aún menos
defectos.
Para lograr esta meta, el programa Six Sigma capacita a cada miembro de la
organización que participe en los procesos para que puedan identificar las
fuentes de variación que afectan significativamente la calidad. El proceso
incluye identificar y definir el problema, mejorar el proceso para reducir su
variación, e implementar procedimientos para mejorarlo.
Six Sigma utiliza muchas técnicas estadísticas para recabar y analizar los datos
necesarios para reducir la variación de un proceso. Nosotros revisaremos los
siguientes: histogramas, análisis de variación, prueba de ji cuadrada de la
independencia, la regresión y la correlación.
General Electric, Motorola y AlliedSignal (en la actualidad parte de Honeywell)
son compañías grandes que utilizan los métodos Six Sigma que lograron una
mejora relevante de calidad y ahorros en costos. Incluso ciudades como Fort
Wayne, Indiana, emplean las técnicas Six Sigma para mejorar sus operaciones.
La ciudad ahorró $10 millones desde 2000 y mejoró el servicio a sus clientes.
Por ejemplo, redujo 50 % la generación de basura y el tiempo de respuesta
para reparar baches de 21 a 3 horas.
4.4. Causas de variación
(Ref. LIND, A. Douglas; et. al. (2012). Estadística aplicada a los negocios y
a la economía. Pág. 589).
No hay dos partes que sean exactamente iguales. Existe cierta variación.
Por ejemplo, el peso de la hamburguesa de cuarto de libra, de McDonald's no
es exactamente 0.25 libras; algunas pueden pesar más, y otras menos.
El tiempo normal de recorrido del bus que va desde la ESPE, Sangolquí, a La
Marín, Quito, es de 25 minutos. Sin embargo, no todos los recorridos toman
exactamente este tiempo, algunos tardan más. En otras ocasiones, el
conductor de tal transporte debe esperar en La Marín antes de regresar para
Aplicaciones Estadísticas al Control de Calidad 8
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Sangolquí. En algunos casos hay una razón por la que el bus puede llegar
tarde, por ejemplo, un accidente en la autopista o una lluvia fuerte. En otras
ocasiones el tráfico muy pesado y lento, sin razón aparente, o el conductor
quizá no alcance los semáforos en verde.
Existen dos causas generales de variación en un proceso: aleatoria y
asignable.
Variación Aleatoria: Variación que por naturaleza es al azar. Este tipo de
cambio no puede eliminarse por completo, a menos que se presente una
modificación importante en el equipo o material utilizado en el proceso.
La fricción interna en la maquinaria, ligeras variaciones en materiales o
condiciones de proceso (como la temperatura de un molde utilizado para
formar botellas de vidrio), factores atmosféricos (tales como temperatura,
humedad y contenido de polvo en el aire), y las vibraciones transmitidas a una
máquina-herramienta por el paso de un carro montacargas, son algunos
ejemplos de fuentes de variación aleatoria.
Si la horadación efectuada en una pieza de acero es demasiado grande debido
a una bronca sin filo, la herramienta puede reafilarse, o bien ser empleada una
barrena nueva. Un operador que a menudo habilita en forma incorrecta una
máquina, puede ser sustituido o capacitado. Si el rollo de acero que se va a
utilizar en un proceso fabril no tiene la resistencia correcta a la tensión, se
puede rechazar. Estos son ejemplos de variación asignable.
Variación Asignable: Variación que no es aleatoria. Puede ser eliminada o
reducida por medio de la investigación del problema y la determinación de la
causa.
Existen varias razones por las que hay que preocuparse acerca de la variación.
1. Tal fenómeno cambiará la forma, la dispersión y la tendencia central de
la distribución de la característica del producto que se mide.
2. La variación asignable por lo general es corregible, en tanto que la
variación aleatoria generalmente no puede ser corregida o estabilizada
en forma económica.
Aplicaciones Estadísticas al Control de Calidad 9
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
4.5. Diagramas de diagnóstico
(Ref. LIND, A. Douglas; et. al. (2012). Estadística aplicada a los negocios y
a la economía. Pág. 590).
Existe una variedad de técnicas de diagnóstico disponibles para investigar
problemas de calidad. Dos de las más importantes son los diagramas de
Pareto y los diagramas de causas y efecto.
Diagrama de Pareto
El análisis llamado de Pareto, es una técnica utilizada para clasificar la cantidad
y tipo de defectos que se presentan en un producto o servicio. El diagrama
recibe el nombre del científico italiano del siglo XIX, Vilfredo Pareto, quien
observo que la mayor parte de la “actividad” en un proceso es causada por solo
algunos de los “factores”. Su concepto, a veces denominado “regla 80-20”, es
que “80 % de la actividad es causada por el 20 % de los factores”. Al
concentrarse en este último porcentaje, los gerentes pueden atacar el 80 % del
problema.
Por ejemplo, cierto restaurante ecuatoriano (La Cocina de Leña), está
investigando las “quejas de los clientes”. Las cinco más comunes son: servicio
descortés, comidas frías, larga espera para lograr asiento, pocas opciones en
el menú, y niños inquietos. Suponga que “servicio descortés” fue la queja más
frecuente, y "comidas frías" la segunda. Ambos factores representan más del
85% de las quejas, y por lo mismo deben ser los que se resuelvan primero, ya
que esto producirá la mayor reducción en el número de quejas.
Para elaborar un diagrama de Pareto, se comienza por clasificar el tipo de
defectos. Después, se asignan rangos a tales deficiencias en términos de la
frecuencia de ocurrencia, de mayor a menor. Finalmente, se elabora un
diagrama de barras verticales, donde la altura de las mismas corresponde a la
frecuencia de cada defecto. El siguiente ejemplo ilustra estas ideas.
Aplicaciones Estadísticas al Control de Calidad 10
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Ejemplo:
La administración municipal de la ciudad de Guayaquil, está preocupada por el
consumo del agua, sobre todo en las casas unifamiliares. Desea desarrollar un
plan para reducir el gasto del líquido en la ciudad. A fin de investigar,
selecciona una muestra de 100 hogares, y determina el consumo diario de
agua, representativo para diversos propósitos. Los resultados de las muestras
son los siguientes:
Motivos del Motivos del
consumo de agua Galones por día consumo de agua Galones por día
Lavado de ropa 24.9 Piscina 28.3
Riego de jardín 143.7 Lavado de trastos 12.3
Baño personal 106.7 Lavado de auto 10.4
Cocina 5.1 Agua para beber 7.9
¿Cuál es el área de mayor consumo? ¿Dónde se deben concentrar los
esfuerzos para reducir el gasto de agua?
Solución:
El diagrama de Pareto sirve para identificar las principales áreas de consumo
de agua, y enfocarse en las que se puede lograr la mayor reducción. El primer
paso es convertir cada actividad en un porcentaje, y después ordenarlas de
mayor a menor. El gasto total de agua por día es de 339.3 galones, valor
obtenido al sumar los consumos correspondientes a las ocho actividades. La
actividad con el mayor consumo es el riego de césped, con valor de 143.7
galones de agua por día, o sea 42.4 % de la cantidad del líquido total utilizado.
La siguiente categoría, por tamaño, es el baño personal, que representa el 31.4
% del agua empleada. Estas dos actividades representan el 73.8 % del
consumo total de líquido.
Aplicaciones Estadísticas al Control de Calidad 11
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Motivos del consumo de agua Galones por día Porcentaje
Lavado de ropa 24.9 7.3
Riego de jardín 143.7 42.4
Baño personal 106.7 31.4
Cocina 5.1 1.5
Uso de piscina 28.3 8.3
Lavado de trastos 12.3 3.6
Lavado de auto 10.4 3 .1
Agua para beber 7.9 2.3
Total 339.3 100.0
Para trazar el diagrama de Pareto, se comienza representando a escala la
cantidad de galones utilizados, en el eje vertical de la izquierda, y el porcentaje
correspondiente en el eje vertical de la derecha. Después se traza una barra
vertical en la que su altura corresponda a la actividad con el mayor número de
ocurrencias. En el ejemplo de la ciudad de Guayaquil, se traza una barra
vertical que representa la actividad de regar el jardín (o césped), que tenga una
altura de 143.7 galones. (A esto se le denomina el conteo.) Se continúa este
mismo procedimiento para las demás actividades, como se presenta en el
Diagrama siguiente:
En la parte inferior del diagrama se indican las actividades, su frecuencia de
aparición y el porcentaje de tiempo en que se realiza cada una. En el último
renglón se lista el porcentaje acumulado. Esta información permitirá determinar
rápidamente cuáles son las principales actividades que sobregastan agua. Los
porcentajes acumulados se marcan por encima de las barras verticales. En el
ejemplo de la ciudad de Guayaquil las actividades de regar el jardín, tomar el
baño, y usar la piscina para natación corresponden al 82.1 % del consumo de
agua. La administradora de la ciudad puede lograr el mayor beneficio tratando
de reducir el consumo de agua en esas tres áreas.
Aplicaciones Estadísticas al Control de Calidad 12
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Diagrama: Diagrama de Pareto para consumo de agua, ciudad de Guayaquil.
Diagrama de causas y efecto
Otro gráfico para diagnóstico es el diagrama de causas y efecto. Se le
denomina de tal modo porque enfatiza la relación entre un efecto y el conjunto
de causas posibles que producen ese resultado específico. Este diagrama sirve
para ayudar a organizar las ideas e identificar relaciones. Es un medio que
fomenta la intensa y libre “generación” de ideas. Al identificar esas relaciones
se pueden determinar los factores que causan la variabilidad en el proceso. El
nombre en inglés de fishbone ("espinas de pescado") que se le da a veces,
proviene de la forma en la que se organizan las diversas causas y el efecto (o
efectos) en el diagrama. Por lo general, el efecto es un problema específico, o
quizá un objetivo, y se indica a la derecha del diagrama. Las causas principales
Aplicaciones Estadísticas al Control de Calidad 13
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
se colocan alineados y relacionados con la línea central horizontal a la
izquierda del mismo.
El enfoque usual utilizado para un diagrama de causas y efecto es considerar
cuatro áreas de problemas: métodos, materiales, equipo y personal. El
problema, o el efecto, corresponden a la cabeza del pez. Mire el Diagrama
siguiente:
Diagrama: Diagrama de causas y efecto (“fishbone”).
Por debajo de cada causa posible existen subcausas, las cuales son
identificadas e investigadas. Las subcausas son factores que pueden producir
el efecto en particular. Se reúne información acerca del problema y se utiliza
para completar el diagrama de causas y efecto. Se investiga cada una de las
subcausas y se eliminan las que no son importantes, hasta que se identifica la
causa real del problema.
El Diagrama siguiente, ilustra los detalles de un gráfico de ese tipo. Suponga
que un restaurante familiar, como los que se encuentran en una carretera, ha
estado recibiendo quejas de sus clientes acerca de que la comida que sirven
está fría. Observe que se señalan las subcausas como suposiciones. Debe
investigarse cada una de ellas para determinar el problema real respecto a los
alimentos fríos. En un diagrama de causas y efecto no se ponderan las
subcausas.
Aplicaciones Estadísticas al Control de Calidad 14
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Diagrama: Diagrama de causas y efectos para la investigación de un restaurante acerca de
quejas por servir la comida fría.
FUENTE: Adaptado de M.A. Vonderembse y G.P White, Operations Management, 3'. ed. (South Western
College Publishing, 1996), p. 489.
4.6. Diagramas de Control de Calidad
(Ref. LIND, A. Douglas; et. al. (2012). Estadística aplicada a los negocios y
a la economía. Pág. 594).
Los diagramas de control identifican cuándo se han presentado causas de
variación asignables o cambios en el nivel del proceso.
Por ejemplo, la empresa FerroTecnia fabrica ventanas de aluminio de
reemplazo recubiertas de vinilo, para su uso en casas viejas. La capa vinílica
debe ser de cierto grosor, si es demasiado gruesa, hará que las ventanas se
atoren. Por otro lado, si el revestimiento es excesivamente delgado, la ventana
no cerrará adecuadamente. El mecanismo que determina la magnitud del re-
cubrimiento que se debe aplicar en cada ventana se deteriora y comienza a
Aplicaciones Estadísticas al Control de Calidad 15
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
elaborar una cubierta o capa demasiado gruesa. Por tanto, ha ocurrido un
cambio en el proceso. Los diagramas de control son útiles para advertir el
cambio en las condiciones del proceso. Es importante detectar cuando hay
cambios en dicho proceso, de manera que se pueda identificar y corregir la
causa antes de que se produzca un gran número de artículos inaceptables.
Un diagrama de control puede compararse a un tablero de marcación para el
juego de básquet. Al mirar el tablero, los aficionados, los entrenadores y los
jugadores pueden decir qué equipo va teniendo la mejor actuación. Sin
embargo, el tablero no puede hacer que uno de los equipos gane o pierda un
juego. La función de los diagramas de control es parecida. Estos medios
gráficos indican a operarios, jefes de grupo, ingenieros de control de calidad,
supervisores y gerentes cuándo la producción de una pieza o servicio está
“bajo control” o bien, “fuera de control”. Si la producción está “fuera de control”,
el diagrama respectivo no puede corregir la situación, pues sólo es un papel
con cifras y puntos. En cambio, con base en el diagrama la persona
responsable ajustará la máquina que produce la pieza, o hará lo necesario para
que la producción retorne al estado “bajo control”.
Existen dos tipos de diagramas de control.
Un diagrama de control de variables que presenta mediciones tales como la
medida de la cantidad de refresco en una botella de dos litros, o el tiempo que
toma a una enfermera en un hospital responder al llamado de un paciente. Un
diagrama de control de variables necesita una escala de medición de intervalo
o de razón.
Un diagrama de control de atributos clasifica un producto o servicio como
aceptable o inaceptable. Se basa en la escala de medición nominal. Por
ejemplo, pide a los pacientes de un hospital que califiquen las comidas servidas
como aceptables o inaceptables; los préstamos bancarios se pagan a tiempo o
no se pagan.
4.6.1. Diagramas de control de variables
(Ref. LIND, A. Douglas; et. al. (2012). Estadística aplicada a los negocios y
a la economía. Pág. 595).
Para desarrollar diagramas de control para variables se aplica la teoría de
muestreo presentada anteriormente, en relación con el Teorema del Límite
Aplicaciones Estadísticas al Control de Calidad 16
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Central. Suponga que cada hora se selecciona una muestra de cinco piezas de
un proceso de producción, y se calcula la media aritmética. Las medias de tales
muestras pueden designarse como 𝑋̅1 , 𝑋̅2 , 𝑋̅3, y así sucesivamente. El valor
medio de esas medias muestrales se denota por ̿ X. Se usa k para simbolizar el
número de medias muestrales. La media global (o mayor) se determina como
sigue:
MEDIA GLOBAL:
∑ de las medias de los subgrupos ∑̅X
̿
X = =
Número de las medias muestrales k
El error estándar de la distribución de las medias muestrales se denota por SX̅ ,
y se evalúa mediante:
ERROR ESTANDAR DE LA MEDIA:
S
SX̅ =
√n
Estas relaciones permiten establecer límites alrededor de las medias
muestrales para mostrar qué tanta variación puede esperarse en el caso de
muestras de un tamaño dado. Tales límites esperados, para una muestra en
particular, se llaman: límite superior de control (LSC) y límite inferior de
control (LIC). Un ejemplo ilustrará el uso de los límites de control y la forma en
la que éstos se determinan.
Ejemplo:
La empresa CompuEcuador, ofrece un servicio telefónico gratuito para que sus
clientes hablen acerca de problemas relacionados con el uso de sus productos,
desde las 7 de la mañana hasta las 11 de la noche, todos los días. Es
imposible que un representante técnico conteste inmediatamente a cada
llamada, pero es importante que los clientes no esperen demasiado tiempo a
que alguien les responda. Ellos se molestan cuando escuchan muchas veces el
siguiente mensaje: "Su llamada es muy importante para nosotros. El
representante disponible estará con usted en breve". Para entender ese
proceso, la compañía decide elaborar un diagrama de control que describa el
tiempo total que transcurre desde que se recibe un telefonema hasta que un
representante contesta la pregunta del cliente. Cierto día se tomó una muestra
Aplicaciones Estadísticas al Control de Calidad 17
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
de cinco llamadas por hora durante las 16 horas de operación. La información
se presenta enseguida; se considera el tiempo en minutos transcurridos hasta
que la llamada es contestada.
Número de muestra
Hora 1 2 3 4 5
A.M. 7 8 9 15 4 11
8 7 10 7 6 8
9 11 12 10 9 10
10 12 8 6 9 12
11 11 10 6 14 11
P.M. 12 7 7 10 4 11
1 10 7 4 10 10
2 8 11 11 7 7
3 8 11 8 14 12
4 12 9 12 17 11
5 7 7 9 17 13
6 9 9 4 4 11
7 10 12 12 12 12
8 8 11 9 6 8
9 10 13 9 4 9
10 9 11 8 5 11
Con base en esta información, elabore un diagrama de control para la duración
media de la llamada. ¿Parece haber una tendencia en los tiempos de los
telefonemas?
¿Existe algún periodo en el que parece que algunos clientes esperan más
tiempo que otros?
Solución:
Un diagrama de valores medios tiene dos límites de control: uno superior (LSC)
y uno inferior (LIC). Estos dos límites se calculan con la fórmula siguiente:
LÍMITES DE CONTROL PARA LA MEDIA:
S S
LSC = ̿
X + 3 y LIC = ̿
X − 3
√n √n
donde es una estimación de la desviación estándar de la población, σ. Observe
Aplicaciones Estadísticas al Control de Calidad 18
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
que, en las fórmulas para los límites de control superior e inferior, el número 3
representa los límites de confianza de 99.74 %. Estos límites se denominan por
lo general límites 3 sigma. Sin embargo, otros niveles de confianza (como de
90 o 95 %) pueden usarse también.
En vez de calcular la desviación estándar para cada muestra como una medida
de variación, es más fácil utilizar la amplitud de variación. Para muestras de
tamaño fijo existe una relación constante entre la mencionada y la desviación
estándar; por lo tanto, se pueden utilizar las siguientes fórmulas para
determinar los límites de control de 99.74 % para la media. Puede demostrarse
𝑆
que el término 3 de la fórmula anterior es equivalente al término 𝐴2 𝑅̅ en la
√𝑛
siguiente fórmula:
LÍMITES DE CONTROL PARA LA MEDIA:
̿ + A2 R
LSC = X ̅ y ̿ − A2 R
LIC = X ̅
donde:
A2 es una constante que se usa en el cálculo de los límites superior e inferior,
con base en la amplitud de variación promedio, 𝑅̅ . Los factores para los
diversos tamaños de muestra pueden verse en un Apéndice. (Nota: La n en
esta tabla se refiere al número en la muestra).
A continuación, se presenta una parte del mencionado apéndice. Para
determinar el factor A2, se localiza primero el tamaño de la muestra para n, en
el margen izquierdo.
n A2 d2 D3 D4
2 1.880 1.128 0 3.267
3 1.023 1.693 0 2.575
4 0.729 2.059 0 2.282
5 0.577 2.326 0 2.115
6 0.483 2.534 0 2.004
Vale 5 para nuestro ejemplo. Se pasa luego siguiendo la horizontal a la
columna A2 y se lee el factor, que es 0.577.
̿ (que se lee “X con doble raya”) es el valor medio de las medias muestrales,
𝐗
calculado por ∑ ̅X /k, donde k es el número de muestras seleccionadas. En
Aplicaciones Estadísticas al Control de Calidad 19
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
este problema se toma una muestra de 5 observaciones cada hora durante 16
horas, así que k = 16.
̿ (que se lee "R con raya") es la media de las amplitudes de variación
𝐑
muestrales. Se calcula con ∑ 𝑅 /𝑘. Recuérdese que la amplitud de variación
es la diferencia entre los valores más grande y más pequeño en cada muestra.
Describe la variabilidad que ocurre en esa muestra en particular.
Hora 1 2 3 4 5 Media Amplitud
A.M. 7 8 9 15 4 11 9.4 11
8 7 10 7 6 8 7.6 4
9 11 12 10 9 10 10.4 3
10 12 8 6 9 12 9.4 6
11 11 10 6 14 11 10.4 8
P.M. 12 7 7 10 4 11 7.8 7
1 10 7 4 10 10 8.2 6
2 8 11 11 7 7 8.8 4
3 8 11 8 14 12 10.6 6
4 12 9 12 17 11 12.2 8
5 7 7 9 17 13 10.6 10
6 9 9 4 4 11 7.4 7
7 10 12 12 12 12 11.6 2
8 8 11 9 6 8 8.4 5
9 10 13 9 4 9 9.0 9
10 9 11 8 5 11 8.8 6
Total 150.60 102
Tabla: Duración de 16 muestras de 5 sesiones de ayuda
La línea central para el diagrama es X̿, que vale 9.4125 minutos (min), y se
̅) tiene un
determina por 150.60/16. La media de las amplitudes de variación (R
valor de 6.375 min, obtenido por 102/16.
Por tanto, el límite superior de control en el diagrama de ̿
X (X con doble raya)
es:
LSC = ̿X + A2 R
̅ = 9.4125 + 0.577 (6.375) = 13.0909
El límite inferior de control en el citado diagrama es:
LIC = ̿ ̅ = 9.4125 − 0.577 (6.375) = 5.7341
X − A2 R
Aplicaciones Estadísticas al Control de Calidad 20
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Los conceptos ̿ X , LSC, LIC y las medias de muestras se indican en el
Diagrama siguiente. La media, 𝑋̿ , vale 9.4125 min; el límite superior de control
se encuentra en 13.0909 min, y el límite inferior de control se ubica en 5.7341.
Existe alguna variación en la duración de las llamadas telefónicas, pero todas
las medias muestrales se encuentran dentro de los límites de control. Por tanto,
con base en 16 muestras de cinco telefonemas, se concluye que 99.74% de las
veces la duración media de una muestra de 5 llamadas estará entre 5.7341 y
13.0909 min.
Diagrama: Diagrama de control ( ̅
X ) para la duración media de llamadas de clientes a la
empresa CompuEcuador.
Como la teoría estadística se fundamenta en la normalidad de muestras
grandes, se deben utilizar diagramas de control con base en un proceso
estable, es decir, una muestra muy grande tomada según un largo intervalo de
tiempo. Un método práctico es elaborar el diagrama después de que se hayan
seleccionado por lo menos 25 muestras.
Además de la tendencia central en una muestra, se debe monitorear también la
magnitud de la variación de una muestra a otra.
Diagrama de Amplitudes de variación o Rangos
Un diagrama de amplitudes de variación indica el cambio en tales entidades
en las muestras. Si los puntos que representan dichas amplitudes se
encuentran dentro de los límites superior e inferior, se concluye que la
operación está bajo control. De acuerdo con el azar, aproximadamente 997
Aplicaciones Estadísticas al Control de Calidad 21
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
veces de 1000 la amplitud de variación de las muestras quedará dentro de los
dos límites. Si una amplitud queda por arriba de los límites, se concluye que
alguna causa asignable afectó a la operación, y se requiere un ajuste en el
proceso.
¿Por qué no interesa el límite inferior de la amplitud de variación? Con
frecuencia tal límite es cero en muestras pequeñas. De hecho, el límite inferior
de control es igual a 0 en cualquier muestra de seis o menos observaciones. Si
la amplitud de cambio es cero, lógicamente todas las partes son iguales y no
existe problema alguno con la variabilidad de la operación.
Los límites superior e inferior para el diagrama de amplitudes pueden
determinarse a partir de las siguientes ecuaciones:
DIAGRAMA DE CONTROL DE AMPLITUDES:
̅
LSC = D4 R ̅
LIC = D3 R
Los valores para D3 y D4 se encuentran en el Apéndice correspondiente o en la
tabla presentada anteriormente.
Ejemplo:
Los tiempos que los clientes de CompuEcuador esperaron desde que les
contestaban la llamada hasta que un representante técnico respondía a su
pregunta, o resolvía su problema, se presenta en la Tabla anterior. Elabore un
diagrama de control de amplitudes. ¿Parece que hay tiempos en los que se
presenta demasiado cambio en la operación?
Solución:
El primer paso es determinar la media de las amplitudes de variación de la
muestra. La amplitud para la muestra de cinco llamadas a las 7 de la mañana
es 11 min. El telefonema más largo seleccionado en ese horario fue de 15 min
y el más corto, de 4 min; la diferencia en las duraciones es de 11 min. A las 8
de la mañana, la amplitud es de 4 min. El total de las 16 amplitudes es de 102
min, por lo que la amplitud de variación promedio vale 6.375 min, obtenida de
̅= 102/16 Al consultar el Apéndice B o la tabla parcial en la página 597, se
R
tiene que D3 y D4 valen 0 y 2.115, respectivamente. Los límites de control
inferior y superior son 0 y 13.4831.
Aplicaciones Estadísticas al Control de Calidad 22
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
̅ = 2.115 (6.375) = 13.4831
LSC = D4 R
̅ = 0 (6.375) = 0
LIC = D3 R
En el Diagrama siguiente, se muestra el diagrama de amplitud de variación con
las 16 amplitudes muestrales. Este gráfico indica que todas las amplitudes se
encuentran dentro de los límites de control. Por lo tanto, se concluye que la
variación en el tiempo de atención a las llamadas de los clientes está dentro de
los límites normales, esto es, "bajo control". Por supuesto, se deben determinar
los límites con base en un conjunto de datos, y después aplicar los límites para
evaluar información futura, no datos ya conocidos.
Diagrama: Diagrama de control de amplitudes de variación para la duración de llamadas de
clientes a la empresa CompuEcuador.
Algunas situaciones bajo control y fuera de control
A continuación, se muestran tres ejemplos de procesos de producción bajo
control y fuera de él.
Todo está bien
1. El diagrama de media (o valor medio) y el de amplitud de variación indican
conjuntamente que el proceso está controlado. Observe que las medias
muestrales y las amplitudes muestrales se agrupan cerca de las líneas
centrales. Algunas se hallan por arriba y otras por abajo de dichas rectas, lo
Aplicaciones Estadísticas al Control de Calidad 23
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
que indica que el proceso es por completo estable. Esto es, no hay tendencia
visible de las medias y las amplitudes de desplazarse hacia las áreas “fuera de
control”.
Considerable en amplitudes
2. Las medias muestrales están bajo control, pero las amplitudes de las dos
últimas muestras están fuera de él. Esto indica que hay variación considerable
entre las piezas producidas. Algunas son muy grandes y otras son
extremadamente pequeñas. Probablemente es necesario un ajuste en el
proceso.
Aplicaciones Estadísticas al Control de Calidad 24
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Media fuera de control
3. La media está bajo control en las primeras muestras, pero existe una
tendencia ascendente hacia el LSC. Las medias de las últimas dos muestras
están fuera de control. De modo que procede realizar un ajuste al proceso.
Aplicaciones Estadísticas al Control de Calidad 25
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
El diagrama anterior para la media es un ejemplo en el que el diagrama de
control ofrece alguna información adicional. Observe la dirección de las cinco
últimas observaciones de la media. Todas están por encima de 𝑋̿ y aumentan;
realmente, las dos últimas observaciones están fuera de control. El hecho de
que las medias muestrales se estaban incrementando en el caso de siete
observaciones consecutivas, es una indicación de que el proceso está fuera de
control.
Aplicaciones Estadísticas al Control de Calidad 26
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
4.6.2. Diagramas de control de atributos
(Ref. LIND, A. Douglas; et. al. (2012). Estadística aplicada a los negocios y
a la economía. Pág. 602).
Muchas veces los datos que se reúnen son resultado de un conteo y no de una
medición. Esto es, se observa la presencia o ausencia de algún atributo.
Por ejemplo, la tapa de un frasco de shampoo se ajusta bien a la botella y no
se derrama el contenido (una condición “aceptable”), o tal tapa no sella y deja
salir el líquido (una condición “inaceptable”).
O bien, un banco hace un préstamo a un cliente, y tal préstamo es pagado bien
o no.
En otras ocasiones interesa saber el número de defectos en una muestra. Por
ejemplo, la empresa Ecuatoriana de Aviación podría contar el número de
vuelos que llegan con retraso por día al aeropuerto Simón Bolívar, en
Guayaquil.
En esta sección se analizarán dos tipos de diagramas de atributos: el diagrama
p (de porcentaje de elementos defectuosos) y el diagrama c (número de
defectos).
Diagramas de porcentaje de defectuosos
Este diagrama de control es el adecuado si el elemento registrado es la porción
o cantidad de partes inaceptables producidas en un lote de partes mayores. Tal
diagrama se basa en la distribución binomial, y en el concepto de razón y
proporción. La línea central se encuentra en p̅, la media de la proporción de
elementos defectuosos. La p̅ reemplaza a la X ̅ del diagrama de control de
variables. La media de proporción de defectuosos se determina mediante:
MEDIA DE PROPORCIÓN DE DEFECTUOSOS:
Total de elementos defectuosos
p̅ =
Total de elementos muestreados
El error estándar de proporción describe la variación en la proporción de muestra.
Esta se obtiene por:
Aplicaciones Estadísticas al Control de Calidad 27
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
ERROR ESTÁNDAR DE LA PROPORCIÓN:
√ ̅p (1 − p̅)
Sp =
n
Por lo tanto, los límites de control superior (LSC) e inferior (LIC), se calculan
como la media de porcentajes de defectuosos más o menos tres veces el error
estándar de los porcentajes (proporciones). La fórmula para los límites de
control es:
LÍMITES DE CONTROL PARA PROPORCIONES:
p̅ (1 − p̅)
LSC = p̅ + 3 √
n
p̅ (1 − p̅)
LIC = p̅ − 3 √
n
Un ejemplo mostrará los detalles de los cálculos y las conclusiones.
Ejemplo:
El departamento de crédito del Banco Nacional del Ecuador es responsable de
ingresar cada transacción al estado de cuenta mensual de un cliente. Por
supuesto que la exactitud es decisiva y los errores causarían el descontento de
los clientes. Para evitar las equivocaciones, cada empleado que ingrese los
datos teclea una muestra de 1500 de su lote de trabajo una segunda vez, y un
programa de computación verifica que los números concuerden. El sistema
informático también imprime un informe acerca del número y tamaño de
cualquier discrepancia. Siete personas trabajan durante la última hora y los
siguientes son los resultados:
Inspector Número inspeccionado Número que no concuerda
Muñoz 1500 4
Caballero 1500 6
Aplicaciones Estadísticas al Control de Calidad 28
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
González 1500 6
Salazar 1500 2
Rojas 1500 15
Vera 1500 4
Rodríguez 1500 4
Elabore un diagrama de porcentajes de defectuoso para este proceso ¿Cuáles
son los límites de control superior e inferior? Interprete los resultados.
¿Parecería que algunos de los encargados de ingresar los datos están “fuera
de control”?
Solución:
El primer paso es determinar la media del porcentaje de defectuosos, p̅ ,
aplicando la fórmula correspondiente. Resulta ser igual a 0.0039, determinado
por 41/10500.
Número Número que no Relación de
Inspector
inspeccionado concuerda defectuosos
Muñoz 1500 4 0.00267
Caballero 1500 6 0.00400
González 1500 6 0.00400
Salazar 1500 2 0.00133
Rojas 1500 15 0.01000
Vera 1500 4 0.00267
Rodríguez 1500 4 0.00267
Total 10500 41
Los límites de control superior e inferior se calculan usando la fórmula
correspondiente, como sigue:
p̅ (1 − p̅)
LSC , LIC = p̅ ± 3 √
n
41 0.0039 (1 − 0.0039)
= ± 3√ = 0.0039 ± 0.0048
10500 1500
De lo anterior se determina que el límite superior de control vale 0.0087,
Aplicaciones Estadísticas al Control de Calidad 29
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
obtenido por 0.0039 + 0.0048. El límite inferior de control es 0. ¿Por qué? El
límite inferior en la fórmula está determinado por 0.0039 - 0.0048, lo cual
resulta en -0.0009. Una relación (o proporción) de defectuosos negativa no es
posible, por lo que el valor más pequeño es 0. Se establece el límite de control
en 0.
De este modo cualquier empleado que ingresa los datos, cuya proporción de
defectuosos se encuentra entre 0 y 0.0087, está “bajo control”. El encargado
número 5, de nombre Rojas, está fuera de control. Su relación de defectuosos
es 0.01, o sea 1.0 %, cifra que se encuentra fuera del límite superior de control.
Quizá sea necesario que reciba capacitación adicional o sea transferido a otro
departamento. Esta información se resume en el Diagrama siguiente:
Diagrama: Diagrama de control para la relación proporcional de ingresos defectuosos de
datos, en el Banco Nacional del Ecuador.
Diagrama de 𝒄̅ (c con raya)
El diagrama denominado de c con raya (por el símbolo algebraico) muestra el
número de elementos defectuosos o de fallas por unidad. Se basa en la
distribución de Poisson analizada anteriormente.
Por ejemplo, el número de maletas manejadas erróneamente en un vuelo de
una empresa aérea podría monitorearse con un diagrama de c con raya. La
“unidad” considerada es el vuelo. En la mayoría de los viajes aéreos no hay
Aplicaciones Estadísticas al Control de Calidad 30
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
ninguna maleta con mal tratamiento. En otros puede haber una, en otros, dos, y
así sucesivamente.
Por otra parte, el Servicio de Rentas Internas (SRI) del Ecuador podría
considerar y elaborar un diagrama de control para registrar el número de
errores aritméticos en cada declaración de impuestos. La mayor parte de las
declaraciones no tendrá errores, algunas tendrán un solo error, otras dos, y así
sucesivamente.
Sea c el número medio de defectos por unidad.
Por lo tanto, c es el número medio de maletas con mal manejo en cada vuelo
de la mencionada empresa de aerotransporte; o bien, el número medio de
errores aritméticos por declaración de impuestos.
Recuerde, que la desviación estándar de la distribución de Poisson es la raíz
cuadrada de la media. De manera que se pueden determinar los límites de 3
sigma, o de 99.74 %, en un diagrama de c con raya, mediante:
LÍMITES DE CONTROL PARA EL NÚMERO DE DEFECTOS POR UNIDAD:
LSC , LIC = C̅ ± 3√ C̅
Ejemplo:
El editor del periódico “El Tiempo” está interesado en determinar el número de
palabras mal escritas en ese diario. No hay publicación del mismo en sábado o
en domingo. En un esfuerzo por controlar el problema y promover la necesidad
de una escritura correcta, se utilizará un diagrama de control.
El número de palabras con errores encontrado en la edición final del periódico
durante los últimos 10 días es: 5, 6, 3, 0, 4, 5, 1, 2, 7 y 4.
Determine los límites de control adecuados e interprete el diagrama. ¿Hay días
en ese periodo en los que el número de palabras mal escritas estuvo fuera de
control?
Solución:
El total de palabras mal escritas en un lapso de 10 días es 37. Por lo tanto, el
número medio de errores o defectos, c̅ es igual a 3.7. La raíz cuadrada de
este número es 1.924. De modo que el límite superior de control es:
Aplicaciones Estadísticas al Control de Calidad 31
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
LSC = C̅ + 3 √ C̅ = 3.7 + 3 √ 3.7 = 3.7 + 5.77 = 9.47
El límite inferior de control calculado sería 3.7 - 3(1.924) = -2.07. Sin embargo,
el número de palabras escritas de modo incorrecto no puede ser menor que 0,
por lo que se usa este valor como el límite inferior. De modo que el límite
inferior de control es 0 y el límite superior de control es 9.47.
Cuando se compara cada punto de los datos con el valor 9.47, se observa que
todos son menores que el límite superior de control, de modo que el número de
palabras mal escritas se encuentra “bajo control”.
Por supuesto, el periódico procurará eliminar todas las palabras con
incorrecciones, pero las técnicas para realizar diagramas de control ofrecen los
medios para mantenerse informado de los resultados diarios y determinar si se
ha presentado algún cambio. Por ejemplo, si se contratará a una nueva
correctora de pruebas, podrá compararse su trabajo con el de otras personas.
Los resultados se resumen en el Diagrama siguiente:
Diagrama: Diagrama de 𝑐̅ para el número de palabras mal escritas en cada edición del
periódico “El Tiempo”.
4.7. Muestreo de Aceptación
(Ref. LIND, A. Douglas; et. al. (2012). Estadística aplicada a los negocios y
a la economía. Pág. 606).
Aplicaciones Estadísticas al Control de Calidad 32
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Se estudió el mantenimiento de la calidad de un producto conforme estaba
siendo producido. En muchas empresas la situación que también preocupa es
la calidad del producto acabado que se recibe. ¿Qué tienen en común los
siguientes casos?
• La empresa Sotelo Software, compra disquetes de la compañía Diskettes
Nacional. La orden normal de compra es por 100000 empacados en lotes de
1000. Telmo Sotelo, presidente de la empresa, no espera que todos los
disquetes sean perfectos. De hecho, ha convenido en aceptar lotes de 1000
con hasta un 10 % de defectuosos. Le agradaría tener un plan para
inspeccionar los lotes que recibe, a fin de asegurar que se cumple la norma
de calidad. El propósito del procedimiento de inspección es separar la parte
aceptable de la inaceptable, en los lotes.
• La organización Zodiac Electric compra tubos magnetrónicos a la Bene
Electronics, para usarlos en su nuevo horno de microondas. Los dispositivos
se envían a Zodiac en lotes de 10000. Esta compañía admite que los lotes
que recibe tengan un 5 % de defectuosos. Buscan idear un plan de muestreo
para determinar cuáles lotes cumplen con el criterio establecido, y cuáles no.
• AmbacarMotors compra parabrisas a muchos proveedores. La AM insiste en
que dichos elementos lleguen en lotes de 1000. Puede aceptar 50 o menos,
con defectos, en cada lote; esto es, 5 % de defectuosos. Desea tener un
procedimiento de muestreo para verificar que los envíos que recibe cumplen
con el criterio establecido.
Lo común en estos casos es la necesidad de verificar que los productos que se
reciben cumplan con los requisitos establecidos. La situación se asemeja a una
puerta con un tamizador que permite el paso del aire, pero mantiene afuera a
los insectos.
El muestreo de aceptación permite que los lotes de calidad aceptable pasen al
área de manufactura y evita que se reciban lotes no aceptables.
Desde luego, la situación en los negocios modernos es más compleja. El
comprador necesita protección contra la aceptación de lotes por debajo de la
norma de calidad. La mejor protección contra calidad inferior es la inspección
del 100 %. Desafortunadamente, el costo de esta inspección con frecuencia es
Aplicaciones Estadísticas al Control de Calidad 33
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
prohibitivo. Otro problema con la verificación de cada elemento es que la
prueba puede ser destructiva. Si se probaran todas las lámparas de foto
destello de un envío, antes de embarcarlas, no habría nada que vender.
También la inspección al 100 % puede no conducir a la identificación de todos
los defectos debido a la fatiga y la consecuente pérdida de percepción por
parte de los inspectores. Por lo tanto, la inspección completa rara vez se
emplea en la práctica.
El procedimiento usual es filtrar o tamizar la calidad de las piezas que se
reciben, mediante un plan estadístico de muestreo; de acuerdo con dicho plan,
se selecciona al azar una muestra de n unidades del lote de N de ellas (la
población). Esto se llama muestreo de aceptación.
La inspección determinará el número de unidades defectuosas en la muestra.
Tal número se compara con uno predeterminado que se denomina número
crítico, o número de aceptación. Tal cifra se designa generalmente por c. Si
el número de unidades defectuosas en la muestra de tamaño n es menor que,
o igual a c, se acepta el lote. Si el número de unidades defectuosas excede a
c, se rechaza el lote y se devuelve al proveedor, o tal vez se somete a una
inspección de 100 %.
El muestreo de aceptación es un proceso de toma de decisiones. Hay dos
decisiones posibles: aceptar el lote o rechazar el lote.
Además, existen dos casos en los cuales se toma una decisión: el lote está
bien o el lote está mal. Estos son los estados de la naturaleza.
Si el lote está bien y la inspección de la muestra revela que eso es verdad, o si
el lote está mal y la inspección de la muestra indica que así es, entonces se ha
tomado una decisión correcta.
Sin embargo, hay otras dos posibilidades. El lote puede en realidad tener más
defectos de los debidos, pero se le acepta. Esto se llama riesgo del
consumidor. En forma similar, el lote puede estar dentro de los límites
establecidos, pero se le rechaza durante la inspección de la muestra. A esto se
le llama riesgo del productor.
La siguiente tabla resume las decisiones de aceptación mostrando esas
posibilidades:
Aplicaciones Estadísticas al Control de Calidad 34
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Estados de la naturaleza
Decisión Lote bueno Lote malo
Se acepta Correcto Riesgo del Consumidor
Se rechaza Riesgo del productor Correcto
Para evaluar un plan de muestreo y determinar qué es justo tanto para el
productor como para el consumidor, el procedimiento usual es utilizar un
diagrama llamado curva característica de operación, o bien curva CO, como
se denomina usualmente.
Una curva CO (o en inglés, OC, de Operating Characteristic) presenta el
porcentaje de defectuosos a lo largo del eje horizontal, y la probabilidad de
aceptar tal porcentaje, a lo largo del eje vertical. Generalmente se dibuja una
curva regular que une todos los niveles posibles de calidad. La distribución de
probabilidades binomial sirve para obtener las probabilidades para una curva
CO.
Ejemplo:
La empresa Sotelo Software, compra disquetes a la compañía Diskettes
Nacional. Los elementos se empacan en lotes de 1000 cada uno. Telmo
Sotelo, director de la mencionada empresa, ha convenido en aceptar lotes con
10 % o menos de defectuosos, y ha instruido a su departamento de inspección
para seleccionar una muestra aleatoria de 20 disquetes y examinarlos con
cuidado. Aceptará el lote si tiene dos o menos defectuosos en la muestra.
Trace un gráfico CO para el plan de inspección. ¿Cuál es la probabilidad de
aceptar un lote que tiene 10 % de defectuosos?
Solución:
Este tipo de muestreo se llama muestreo de atributos porque el elemento
muestreado -en este caso un disquete- se clasifica como aceptable o
inaceptable. No se obtiene “lectura” o “medición” en el disquete. Ahora se
analizará el problema en términos de los estados de la naturaleza. Sea π la
representación del porcentaje real de defectuosos en la población. De modo
que:
El lote es bueno si, π ≤ 0.10
Aplicaciones Estadísticas al Control de Calidad 35
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
El lote es malo si, π > 0.10
Regla de decisión:
Sea X el número de defectuosos en la muestra. La regla de decisión es:
Rechazar el lote si, X ≥ 3
Aceptar el lote, si X ≤ 2
Aquí el lote aceptable es aquel que tiene 10 % o menos discos defectuosos. Si
el lote es aceptable cuando tiene exactamente 10 % de elementos con
defectos, sería aún más aceptable si contuviera menos de 10 % de tales
elementos. En consecuencia, la práctica usual es trabajar con el límite superior
del porcentaje de defectuosos.
La distribución probabilística binomial se utiliza para calcular los diversos
valores de la curva CO. Recuérdese que para usar la binomial se exigen cuatro
requisitos:
1. Hay sólo dos consecuencias posibles. El disquete es aceptable o no lo es.
2. Existe un número fijo de pruebas. En este caso el número de pruebas es el
tamaño de la muestra, 20.
3. Hay una probabilidad constante de éxito. Un éxito es la probabilidad de
encontrar una parte defectuosa. Se supone que es 0.10.
4. Las pruebas o ensayos son independientes. La probabilidad de encontrar
un disquete defectuoso en la tercera selección no está relacionada con la
posibilidad de hallar uno con defectos en la cuarta selección.
Una tabla de la distribución binomial, da las diversas probabilidades binomiales.
Se necesita convertir la nomenclatura del muestreo de aceptación, a la que se
usó anteriormente para las distribuciones discretas de probabilidad.
Sea π = 0.10, la probabilidad de un éxito, y n = 20, el número de pruebas.
Entonces c es el número de defectos tolerados: dos en este caso.
Se determinará ahora la probabilidad de aceptar un lote recibido que tiene 10
% de defectuosos usando un tamaño de muestra de 20 y tolerando cero, uno o
dos elementos con defectos.
Primero se localiza en una tabla binomial, el caso de n = 20 y π = 0.10.
Se encuentra el renglón donde X, el número de defectos, es 0. La probabilidad
es 0.122.
Aplicaciones Estadísticas al Control de Calidad 36
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
A continuación, se encuentra la probabilidad de un defecto, esto es, donde X =
1. Resulta 0.270.
En forma similar, la probabilidad de X = 2 es 0.285.
Para encontrar la probabilidad de dos o menos defectos, se necesitan sumar
esas tres probabilidades. El total es 0.677.
En consecuencia, la probabilidad de aceptar un lote con 10 % de defectuosos
es 0.677. La probabilidad de rechazar dicho lote es 0.323, calculada por 1 -
0.677. Este resultado se expresa en la notación abreviada de probabilidad
como sigue (se recuerda que la barra vertical, |, significa "dado que"):
P ( X ≤ 2 | π = 0.10 y n = 20 ) = 0.677
La curva CO del Diagrama siguiente, muestra diversos valores de π y las
probabilidades correspondientes de aceptar un lote de esa calidad. La dirección
de la empresa Sotelo Software será capaz de evaluar con rapidez las
probabilidades de diversos niveles de calidad.
Diagrama: Curva CO para plan de muestreo (n=20, c=2).
Aplicaciones Estadísticas al Control de Calidad 37
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Recursos complementarios
Videos sobre Aplicaciones estadísticas al Control de Calidad:
[Link]
[Link]
[Link]
[Link]
Aplicaciones Estadísticas al Control de Calidad 38
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Bibliografía
LIND, Douglas A.; MARCHAL, William G.; WATHEN, Samuel A. (2012).
Estadística Aplicada a los Negocios y a la Economía. México. MacGraw-
Hill. Decimoquinta edición.
WEIERS, Ronald M. (2006). Introducción a la Estadística para Negocios.
México. Thomson. Quinta edición.
BERENSON, Mark L.; LEVINE, David M.; KREHBIEL, Timothy C. (2001).
Estadística para Administración. México. Pearson Educación. Segunda
edición.
Aplicaciones Estadísticas al Control de Calidad 39
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
Autoevaluación 4
1. Los pacientes del asilo Dulce Hogar se han quejado recientemente acerca de las condiciones
en el albergue. El administrador tiene interés en utilizar un diagrama de Pareto para realizar
una investigación. Cuando un paciente o un familiar de un paciente tiene una queja, se le pide
que llene el formulario correspondiente. A continuación, se presenta un resumen de las formas
para quejas recibidas en los últimos 12 meses. Queja Número
Queja Número Nada que hacer 45
Condiciones de desaseo 63 Atención deficiente por el personal 71
Mala calidad de alimentos 84 Errores en la medicación 2
Faltas de respeto por el personal 35 Elabore un diagrama de Pareto. ¿Qué quejas le
sugeriría al administrador resolver primero para lograr el mejoramiento más significativo?
2. La diferencia entre variación asignable y variación aleatoria es:
3. La diferencia entre un diagrama de control de atributos y un diagrama de control de variables
es:
Aplicaciones Estadísticas al Control de Calidad 40
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
4. Cada hora un inspector de control de calidad mide el diámetro exterior de cuatro piezas. Los
resultados de las mediciones se muestran en la tabla siguiente:
Piezas de la muestra Hora 1 2 3 4 09:00 AM
1 4 5 2 10:00 AM 2 3 2
1 11:00 AM 1 7 3 5 Cuál es la media del diámetro
exterior, el valor medio de la amplitud de variación y los límites de control para la media y la
amplitud. ¿Tales medidas se encuentran dentro de los límites de control? Interprete el diagrama.
5. La empresa QuitoAuto fabrica baterías para automóvil. Al final de cada turno laboral, el
Departamento de Aseguramiento de la Calidad selecciona una muestra de aquellas y las prueba. El
número de baterías defectuosas encontrado en los últimos 12 turnos es: 2; 1; 0; 2; 1; 1; 7; 1; 1;
2; 6; y 1. A partir de un diagrama de control para el proceso, determine si este se halla o no bajo
control.
6. El procedimiento usual de filtrar o tamizar la calidad de las piezas que se reciben, mediante un
plan estadístico de muestreo, donde se selecciona al azar una muestra de n unidades de un lote de
N de ellas que constituye la población se denomina:
Aplicaciones Estadísticas al Control de Calidad 40
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia
7. La distribución probabilística que sirve para obtener las probabilidades para una curva
característica de operación es:
8. El muestreo de aceptación es un proceso de toma de decisiones. Un lote puede en realidad
tener más defectos de los debidos, pero se le acepta durante la inspección de la muestra, esto se
llama:
9. El muestreo de aceptación es un proceso de toma de decisiones. Un lote puede estar dentro de
los límites establecidos o convenidos, pero se le rechaza durante la inspección de la muestra,
esto se llama:
10. La empresa Sims Software, Inc., compra disquetes a la compañía Diskettes International. Los
elementos se empacan en lotes de 1000 cada uno. Todd Sims, director de la mencionada
empresa, ha convenido en aceptar lotes con 10 % o menos de defectuosos, y ha instruido a su
Departamento de Inspección para seleccionar una muestra aleatoria de 20 disquetes y
examinarlos con cuidado. Aceptará el lote si tiene dos o menos defectuosos en la muestra.
Después de trazar un gráfico CO para el plan de inspección y calcular la probabilidad de aceptar
un lote de disquetes que tiene realmente 30 % de defectuosos, ¿cuál es la repuesta correcta?
Aplicaciones Estadísticas al Control de Calidad 40