Estimación de Intervalos de Confianza en Estadística
Estimación de Intervalos de Confianza en Estadística
AÑO 2020
LICENCIATURA EN ESTADÍSTICA
UNIDAD 6 - PRÁCTICA
Supongamos que como profesionales de la estadística nos encargan asesorar a una industria
que produce insumos informáticos. Dentro de todos sus productos, la gerencia está
particularmente interesada en analizar distintas características de la vida útil de una
componente. Se llama vida útil al tiempo (en este caso medido en años) transcurrido desde
el primer uso de la componente hasta que deja de funcionar definitivamente.
A continuación, se describen algunas situaciones problemáticas que podríamos abordar
como estadístico/as para producir conocimiento útil para la industria que solicita nuestros
servicios profesionales. Se trabajará con dos técnicas inferenciales para analizar datos (la
estimación por intervalos de confianza y los test de hipótesis) y se requerirá inferir sobre
distintos parámetros (promedio µ, proporción 𝑝 y variancia 𝜎 2 ) en distintos escenarios
(variancia conocida o desconocida, tamaño de muestra pequeño o grande, 𝑋~𝑁(𝜇, 𝜎) o
𝑋~𝑓(𝑋) con 𝑓(𝑋) desconocida) a partir de esta situación genérica disparadora.
Todo lo planteado en texto negro común (como este) indica el procedimiento necesario para
resolver las consignas planteadas. En este sentido, todo lo que figura como resolución será
solicitado a la hora de una instancia evaluativa (examen parcial o final). Todo lo planteado en
texto coloreado (como este) y el texto ubicado en recuadros como este o como este refiere
a aclaraciones, explicaciones o razonamientos propuestos por la cátedra que pueden ser
útiles a la hora de entender el proceso lógico que implica realizar test de hipótesis o construir
intervalos de confianza.
- 1 -
d) Identificación del estimador puntual y de su distribución en el muestreo (en base
al parámetro que se desee analizar y a la información con la que contemos).
e) Definición de la estadística pivote y de su distribución.
f) Cálculos: estadística pivote observada, margen de error (semiamplitud), límite
inferior y límite superior del intervalo.
g) Interpretación del intervalo en términos del problema.
La gerencia de la industria mencionada desea estimar la vida útil de una línea de las
componentes bajo análisis. Se sabe que la duración de las componentes sigue una
distribución Normal con desvío estándar igual a 0,8 años. Se extrae entonces una muestra
aleatoria de 17 componentes y se encuentra que la duración promedio de las mismas es de
2,82 años. Estimar la vida útil promedio de las componentes de forma puntual y con un
coeficiente de confianza de 0,95.
Datos:
𝑋~𝑁(𝜇, 𝜎) ¿Por qué el dato “0,8 𝑎ñ𝑜𝑠” corresponde al desvío
estándar poblacional 𝝈 y no al desvío estándar
𝜎 = 0,8 𝑎ñ𝑜𝑠
muestral 𝑺?
𝑛 = 17 𝑐𝑜𝑚𝑝𝑜𝑛𝑒𝑛𝑡𝑒𝑠
𝑋̅ = 2,82 𝑎ñ𝑜𝑠 El dato sobre la variabilidad es informado en conjunto
𝐶𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 con otro dato poblacional (la distribución de la variable
𝑐𝑜𝑛𝑓𝑖𝑎𝑛𝑧𝑎: 𝑋), y no con los datos muestrales. A partir de ello,
podemos interpretar que ese dato corresponde a un
1 − 𝛼 = 0,95
valor poblacional. Si, en cambio, el enunciado hubiese
sido:
Se sabe que la duración de las componentes sigue una
distribución Normal. Se extrae entonces una muestra
aleatoria de 17 componentes y se encuentra que la
duración promedio de las mismas es de 2,82 años con
un desvío estándar igual a 0,8 años.
Dado que el interés entonces podríamos interpretar que el dato “0,8 𝑎ñ𝑜𝑠”
recae en la estimación corresponde a información muestral (𝑆) y no
del tiempo de vida poblacional (𝜎).
promedio de las
componentes (µ),
entonces el estimador
puntual será el
promedio muestral (𝑋̅).
- 2 -
El estimador puntual de la vida útil promedio de las componentes es 𝑋̅ = 2,82 𝑎ñ𝑜𝑠.
Podríamos interpretarlo diciendo: “Se estima que las componentes tienen una vida útil
promedio de 2,82 años”. Dado que esta estimación puntual no ofrece ninguna medida del
error o variabilidad inherente a la estimación, el verdadero interés viene dado por la
estimación del parámetro a través de un intervalo de confianza.
Dado que la variable en estudio 𝑋 sigue una distribución 𝑁(𝜇, 𝜎), y que el desvío estándar
poblacional 𝜎 es conocido, entonces la distribución en el muestreo de 𝑋̅, nuestro estimador
puntual será:
𝜎 Esto es así porque la combinación lineal
𝑋̅ ~ 𝑁(𝜇, )
√𝑛 (𝑋̅ es una combinación lineal de
variables 𝑋𝑖 ) de variables Normales (el
La estadística pivote surge a partir de la enunciado indica que 𝑋 se distribuye
según un modelo Normal, por lo que la
estandarización del estimador puntual. En este
muestra aleatoria de tamaño 𝑛 = 17
caso, la estadística pivote a utilizar para construir
puede interpretarse como una sucesión
el intervalo de confianza y su distribución en de 𝑛 = 17 variables 𝑋𝑖 ) sigue también
probabilidad serán: una distribución Normal, con parámetros
𝑋̅ − 𝜇 que dependen de la forma de dicha
𝑍= 𝜎 ~ 𝑁(0,1) combinación lineal (más adelante, al
√𝑛 enunciar el Teorema Central del Límite,
podemos recordar de dónde surgen
Fórmula para el cálculo del intervalo de confianza: dichos parámetros).
𝜎 𝜎
𝐼𝐶𝜇,95% = (𝑋̅ − 𝑍0,975 ∗ ; 𝑋̅ + 𝑍0,975 ∗ )
√𝑛 √𝑛
Formas alternativas para expresar la fórmula de los IC para la media (todas expresan lo
mismo y conducen al mismo resultado):
- 3 -
¿De dónde surge la fórmula para calcular los intervalos de confianza?
El origen está en pensar cuál es nuestro interés al estimar un parámetro a través de un
intervalo de confianza: encontrar dos valores (límites del intervalo) tales que
contengan al parámetro de interés con una probabilidad deseada (1 − 𝛼).
1−𝛼
̅
X
𝑙𝑖𝑛𝑓 𝜇 𝑙𝑠𝑢𝑝
Dado que conocemos el estimador puntual de nuestro parámetro, a partir del cual
definimos nuestra estadística pivote y su distribución en probabilidad, podemos
pensar en cuáles serían los dos valores de dicha estadística (en este caso, 𝑍) que
encierran una probabilidad igual a la deseada (1 − 𝛼):
𝑃 (𝑍𝛼 ≤ 𝑍 ≤ 𝑍1−𝛼 ) = 1 − 𝛼
2 2
Z 𝑋̅ − 𝜇
𝑍0,025 0 𝑍0,975 𝑃 (𝑍𝛼 ≤
2
𝜎 ≤ 𝑍1−𝛼2 ) = 1 − 𝛼
√𝑛
Multiplicamos cada miembro
𝜎 𝜎
de la desigualdad por 𝜎𝑋̅
𝑃 (𝑍𝛼 ∗ ≤ 𝑋̅ − 𝜇 ≤ 𝑍1−𝛼 ∗ ) = 1 − 𝛼
2 √𝑛 2 √𝑛
Multiplicamos cada 𝜎 𝜎
miembro por -1 𝑃 ((𝑍𝛼 ∗ − 𝑋̅) ∗ (−1) ≥ 𝜇 ≥ (𝑍1−𝛼 ∗ − 𝑋̅) ∗ (−1)) = 1 − 𝛼
(cambian los signos 2 √𝑛 2 √𝑛
de “≤” a “≥”)
𝜎 𝜎
Reordenamos
𝑃 (𝑋̅ − 𝑍1−𝛼 ∗ ≤ 𝜇 ≤ 𝑋̅ − 𝑍𝛼 ∗
)= 1−𝛼
2√𝑛 2 √𝑛
𝜎 𝜎
Cambiamos −𝑍𝛼 por 𝑍1−𝛼 𝑃 (𝑋̅ − 𝑍1−𝛼 ∗ ≤ 𝜇 ≤ 𝑋̅ + 𝑍1−𝛼 ∗ ) = 1 − 𝛼
2 2
2 √𝑛 2 √𝑛
para emprolijar
Este desarrollo que acabamos de hacer es lo que llamamos deducción de los límites
del intervalo de confianza.
- 4 -
Reemplazando los valores observados en la fórmula de cálculo del intervalo de confianza:
𝜎 𝜎
𝐼𝐶𝜇,95% = (𝑋̅ − 𝑍0,975 ∗ ; 𝑋̅ + 𝑍0,975 ∗ ) Recuerden indicar el
√𝑛 √𝑛
paso a paso y los
0,8 0,8 resultados parciales,
𝐼𝐶𝜇,95% = (2,82 − 1,96 ∗ ; 2,82 + 1,96 ∗ )
√17 √17 además de todos los
planteos, razonamientos
𝐼𝐶𝜇,95% = (2,82 − 0,38 ; 2.82 + 0,38) y supuestos necesarios
Interpretación: Con una confianza del 95% el intervalo (2,44 años; 3,20 años) cubre el
verdadero tiempo de vida promedio de las componentes.
- 5 -
Universo paralelo 1: 𝝈 desconocido
¿Qué hubiese pasado si el dato poblacional sobre la variabilidad inherente a los datos
fuese desconocido? ¿Cómo hubiésemos procedido si contáramos con 𝑺 = 𝟎, 𝟖 𝒂ñ𝒐𝒔 en
vez de 𝝈 = 𝟎, 𝟖 𝒂ñ𝒐𝒔?
𝑋̅ −𝜇 𝑋̅ −𝜇
En este caso, la estadística pivote ya no sería 𝜎/√𝑛
, sino que será 𝑆/√𝑛
, dado que no
contamos con el valor de 𝜎 y debe ser estimado a través de S. Pero ahora, ¿qué
distribución en probabilidad sigue la estadística pivote? La nueva estadística pivote
seguirá una distribución t de Student: el punto de partida es una estadística 𝑍, en cuyo
denominador reemplazamos 𝜎 por 𝑆. De este modo, si hacemos el cociente entre una
estadística 𝑍 Normal y la raíz de una estadística 𝑌 Chi-Cuadrado (dado que 𝑌 modela
la distribución de 𝑆 2 ), partida por sus grados de libertad obtenemos:
𝑋̅ − 𝜇
𝑍 𝜎/√𝑛 𝑋̅ − 𝜇 𝜎2 𝑋̅ − 𝜇 𝜎 𝑋̅ − 𝜇
𝑡= = = 𝜎 ∗√ 2 = 𝜎 ∗ =
𝑆 2 (𝑛 − 1) 1 𝑆 𝑆 𝑆
√ 𝑌 √ ∗ (𝑛 − 1) √ 𝑛 √ 𝑛
𝑛−1 𝜎 2 √𝑛
𝑋̅ −𝜇
De este modo, la estadística pivote y su distribución serán: 𝑡 = 𝑆 ~ 𝑡𝑛−1
√𝑛
En este sentido, tenemos dos escenarios: a) sabemos que la variable X es Normal (por
ejemplo, desde un fundamento teórico se sabe que muchas variables provenientes de
la naturaleza siguen un modelo Normal) entonces ya es suficiente para conocer la
distribución de nuestra estadística pivote, o bien b) desconocemos la forma funcional
de la variable X, por lo que será necesario verificar su normalidad (a través de un
gráfico de probabilidad Normal o de test de normalidad), ya que todos los cálculos
que realicemos y las conclusiones a las que arribemos dependerán de que 𝑋 sea , al
menos, aproximadamente Normal.
Una vez resuelto el tema de la estadística pivote y su distribución, la fórmula de un
intervalo del 95% de confianza para 𝜇 será:
𝑆 𝑆
𝐼𝐶𝜇,95% = (𝑋̅ − 𝑡𝑛−1; 0,975 ∗ ; 𝑋̅ + 𝑡𝑛−1; 0,975 ∗ )
√𝑛 √𝑛
- 6 -
Límite es sabido que, si se cuenta con una sucesión 𝑋1 , 𝑋2 , … , 𝑋𝑛 de variables aleatorias
cualesquiera, independientes e igualmente distribuidas {i.i.d.) con esperanza y variancia
finitas 𝐸(𝑋𝑖 ) = 𝜇 y 𝑉𝑎𝑟(𝑋𝑖 ) = 𝜎 2 (∀ 𝑖 = 1, … , 𝑛), entonces
𝑛
1 𝜎2
𝑋̅ = ∑ 𝑋𝑖 ~ 𝑁 (𝜇, √ )
𝑛 𝑛
𝑖=1 𝑛→∞
¿Y de dónde salen esos parámetros? ¿Por qué la esperanza de 𝑋̅ es igual a 𝜇? ¿Por
𝜎 2
qué el desvío estándar de 𝑋̅ es igual a √ ? Veamos:
𝑛
𝑛 𝑛 𝑛 𝑛
1 1 1 1 1
𝐸(𝑋̅) = 𝐸 ( ∑ 𝑋𝑖 ) = ∗ 𝐸 (∑ 𝑋𝑖 ) = ∑ 𝐸(𝑋𝑖 ) = ∑ 𝜇 = ∗ 𝑛 ∗ 𝜇 = 𝜇
𝑛 𝑛 𝑛 𝑛 𝑛
𝑖=1 𝑖=1 𝑖=1 𝑖=1
𝑛 𝑛 𝑛 𝑛
1 1 1 1
𝑉𝑎𝑟(𝑋̅) = 𝑉𝑎𝑟 ( ∑ 𝑋𝑖 ) = 2 ∗ 𝑉𝑎𝑟 (∑ 𝑋𝑖 ) = 2
∑ 𝑉𝑎𝑟(𝑋𝑖 ) = ∑ 𝜎 2 =
𝑛 𝑛 𝑛 𝑛
𝑖=1 𝑖=1 𝑖=1 𝑖=1
1 𝜎2
2
= 2∗𝑛∗𝜎 = Queda pendiente identificar los porqués de
𝑛 𝑛 cada igualdad en la deducción de la variancia
del promedio muestral, tal como se hizo con la
esperanza
- 7 -
⇒ 𝑛 = 6,2722 = 39,34 𝑐𝑜𝑚𝑝𝑜𝑛𝑒𝑛𝑡𝑒𝑠
Se necesita una muestra de al menos 40 componentes para poder estimar la vida útil
promedio con un 95% de confianza y una precisión de 0,25 años.
Nota: SIEMPRE redondeamos el valor obtenido para arriba: si se necesitan al menos 39,34
componentes en la muestra, se deducen dos cuestiones: a) no es posible incluir una parte
de una componente en la muestra, por lo que la muestra incluirá 39 o 40 componentes
pero no podrá tener exactamente 39,34; b) si el mínimo tamaño de muestra necesario
para garantizar las condiciones deseadas es 39,34 componentes, entonces está claro
que si incluimos 39 componentes en la muestra no será suficiente, porque se necesitan
por lo menos 39,34. En definitiva, siempre será necesario redondear para arriba el valor
calculado para 𝑛, es la única forma de garantizar las condiciones deseadas.
Parámetro bajo estudio: 𝑝, proporción de componentes con vida útil menor a 1,5 años.
Datos:
𝑛 = 76 𝑐𝑜𝑚𝑝𝑜𝑛𝑒𝑛𝑡𝑒𝑠
12 𝑐𝑜𝑚𝑝𝑜𝑛𝑒𝑛𝑡𝑒𝑠 𝑐𝑜𝑛 𝑣𝑖𝑑𝑎 ú𝑡𝑖𝑙 𝑚𝑒𝑛𝑜𝑟 𝑎 1,5 𝑎ñ𝑜𝑠
𝐶𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑐𝑜𝑛𝑓𝑖𝑎𝑛𝑧𝑎: 1 − 𝛼 = 0,99 (coloquialmente también se lo suele nombrar
como “𝐶𝑜𝑛𝑓𝑖𝑎𝑛𝑧𝑎: 99%”)
El estimador puntual de la proporción de componentes con una vida útil menor a 1,5 años es
12
𝑝̂ = 76 = 0,1579. Podríamos interpretarlo diciendo: “Se estima que la proporción de
componentes cuya vida útil no alcanza el año y medio de duración es igual a 0,1579”. Dado
que esta estimación puntual no cuenta con ninguna medida del error o variabilidad inherente
a la estimación, el verdadero interés viene dado por la estimación del parámetro a través de
un intervalo de confianza.
- 8 -
𝑝(1 − 𝑝)
𝑝̂ ~ 𝑁 (𝑝, √ )
𝑛
𝑛→∞
La estadística pivote surge a partir de la estandarización del estimador puntual. En este caso,
la estadística pivote a utilizar para construir el intervalo de confianza y su distribución en
probabilidad serán:
𝑝̂ − 𝑝
𝑍= ~ 𝑁(0,1)
𝑝 (1 − 𝑝) 𝑛 → ∞
√
𝑛
𝑝̂ (1 − 𝑝̂ ) 𝑝̂ (1 − 𝑝̂ )
𝐼𝐶𝑝,99% ≅ (𝑝̂ − 𝑍0,995 ∗ √ ; 𝑝̂ + 𝑍0,995 ∗ √ )
𝑛 𝑛
𝑝̂ (1 − 𝑝̂ )
𝐼𝐶𝑝,99% ≅ (𝑝̂ ± 𝑍0,995 ∗ √ )
𝑛
0,1579 (1 − 0,1579)
𝐼𝐶𝑝,99% ≅ (0,1579 ± 2,58 ∗ √ )
76
Interpretación: Con una confianza del 99% el intervalo (0,0502; 0,2656) cubre la proporción
poblacional de componentes con vida útil menor a 1,5 años.
- 9 -
¿Qué sucedería si el tamaño de muestra fuese chico?
En ese caso, la distribución de 𝑝̂ ya no es Normal, sino que sigue un modelo Binomial (no
lo vemos en este curso, pero sí lo van a ver en otras materias). Si esto ocurriera, no
podríamos utilizar la fórmula planteada, dado que la distribución para la estadística
pivote se cumple cuando 𝑛 → ∞. En términos prácticos, es muy probable que todos los
ejercicios planteados tengan un tamaño de muestra grande (de otro modo, ustedes no
lo podrían resolver), pero es fundamental no olvidarse que la distribución de 𝑝̂ solo es
Normal si y solo si 𝑛 → ∞ (por lo que es muy importante que esa expresión sea indicada
bajo el símbolo de “se distribuye” (~) al momento de enunciar su distribución.
¿Qué sucedería si alguno de los límites del intervalo cae fuera del intervalo [𝟎; 𝟏]?
En primer lugar, corresponde pensar: ¿tiene sentido hablar de una proporción negativa?
¿Podemos decir que el −5% de las componentes cumplen con cierta característica? O
análogamente, ¿podemos hablar de una proporción mayor a 1? Claramente la
respuesta es NO. Sin embargo, dado que los límites de los intervalos de confianza se
obtienen a través de cálculos, y matemáticamente podemos llegar a algún valor que
en la práctica no tenga sentido (como una proporción negativa), entonces una opción
podría ser “recortar” el intervalo obtenido en función de los valores que puede tomar el
parámetro: cero “0”. En ese caso, si a través de los cálculos llegáramos por ejemplo a un
intervalo igual a (-0,05; 0,15) entonces podríamos interpretar el intervalo (0,0; 0,15).
Datos:
𝑛 = 17 𝑐𝑜𝑚𝑝𝑜𝑛𝑒𝑛𝑡𝑒𝑠
𝑆 = 0,8 𝑎ñ𝑜𝑠
𝐶𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑐𝑜𝑛𝑓𝑖𝑎𝑛𝑧𝑎: 1 − 𝛼 = 0,90
- 10 -
tiempo de vida útil de las componentes bajo estudio es igual a 0,64 años2”. Dado que esta
estimación puntual no cuenta con ninguna medida del error o variabilidad subyacente a la
estimación, el verdadero interés viene dado por la estimación del parámetro a través de un
intervalo de confianza.
Dado que X es una variable Normal, entonces Y es una estadística con distribución Chi
Cuadrado. Esta será nuestra estadística pivote:
𝑆 2 (𝑛 − 1) 2
𝑌= ~ 𝜒𝑛−1
𝜎2
𝑆 2 (𝑛 − 1) 𝑆 2 (𝑛 − 1)
𝐼𝐶𝜎 2,90% =( 2 ; 2 )
𝜒16;0,95 𝜒16;0,05
Interpretación: Con una confianza del 90% el intervalo (0,389 años2; 1,296 años2) cubre la
variancia poblacional de la duración de las componentes.
conocer 𝑍1−𝛼 o 𝑡1−𝛼 respectivamente, ya que solo hacía falta cambiar su signo).
2 2
Además, no admite valores negativos (de hecho, no tiene sentido pensar en variabilidad
negativa). Por la forma de cálculo de los límites de confianza, no es matemáticamente
posible obtener resultados negativos si los cálculos son correctos; en caso de obtener
algún límite negativo ¡¡debemos revisar los cálculos!!
- 11 -
2. Test de hipótesis
Tal como vimos en la primera unidad, y retomamos ahora nuevamente, los test de
hipótesis consisten en la evaluación de la información muestral a la luz de dos hipótesis,
para decidir cuál es más probable de ser sustentada por los datos observados y, así,
decidir si rechazamos la hipótesis nula o no. Pueden definirse una serie de pasos para
ordenar la resolución de un test de hipótesis:
a) Identificación y definición de la variable en estudio.
b) Identificación y definición del parámetro en estudio.
c) Planteo de las hipótesis estadísticas (necesariamente en lenguaje simbólico,
aunque también pueden identificarse las hipótesis en términos del problema si les
sirve).
d) Identificación de los datos proporcionados por el ejercicio (datos muestrales
como estadísticas o el tamaño de la muestra, datos poblacionales como otros
parámetros que se conozcan, nivel de significación con el que se desea trabajar).
e) Definición de la estadística de prueba y de su distribución (en base al parámetro
que se desee analizar y a la información con la que contemos).
g) Determinación y redacción de la regla de decisión, que nos va a guiar en el
proceso de toma de decisión (su forma dependerá del enfoque que se utilice
para resolver).
h) Cálculos: estadística de prueba observada, p-value, valor/es críticos según
corresponda (es decir, según se aplique el enfoque clásico o el enfoque del p-
value para resolver el test).
i) Decisión: evaluación de la información muestral a la luz del valor crítico (o valores
críticos) o del nivel de significación.
f) Conclusión en términos del problema.
La gerencia de la industria mencionada desea saber si hay motivos para discontinuar la línea
de componentes bajo análisis. El problema estaría en su duración: si la duración promedio es
inferior a 3 años entonces las componentes no son competitivas en el mercado y deberán
dejar de producirlas. Se extrae entonces una muestra aleatoria de 17 componentes y se
encuentra que la duración promedio de las mismas es de 2,82 años, y que presentan un
desvío estándar igual a 0,8 años. ¿Hay evidencia para sugerirle a la gerencia de la industria
que deje de producir la componente? Trabajar con un nivel de significación del 10% y resolver
a través del enfoque clásico.
- 12 -
𝐻0 ) 𝜇 = 3 Lo que queremos probar (si la duración promedio es inferior a 3 años)
𝐻1 ) 𝜇 < 3 siempre va a ubicarse como hipótesis alternativa; la hipótesis nula
manifiesta el NO CAMBIO.
Un paso previo que puede resultar útil es hacernos preguntas sobre el
problema:
- ¿Cuál es la situación actual? Actualmente se producen las
componentes.
- ¿Qué representaría un cambio? Dejar de producirlas
- ¿En qué contexto dejarían de producirlas? Si la duración promedio
es menor a 3 años (Y ESTA ES NUESTRA HIPÓTESIS ALTERNATIVA, EL
CAMBIO)
- ¿En qué contexto seguirían produciéndolas? Si la duración promedio
es de al menos 3 años (Y ESTA ES NUESTRA HIPÓTESIS NULA, EL NO
CAMBIO)
Datos:
Recordar la distinción
𝑛 = 17 𝑐𝑜𝑚𝑝𝑜𝑛𝑒𝑛𝑡𝑒𝑠 Hablamos de coeficiente de confianza (𝟏 − 𝜶)
𝑋̅ = 2,82 𝑎ñ𝑜𝑠 cuando estimamos un parámetro mediante un
𝑆 = 0,8 𝑎ñ𝑜𝑠 intervalo. Hablamos de nivel de significación (𝜶)
𝑁𝑖𝑣𝑒𝑙 𝑑𝑒 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑐𝑖ó𝑛 = 𝛼 = 0,10 cuando llevamos a cabo un test de hipótesis.
Estadística de prueba: Dado que no se conoce la variancia poblacional de 𝑋, esta debe ser
estimada a través de 𝑆 2 introduciendo una fuente de variabilidad extra a la estimación. Si se
puede corroborar que la vida útil de las componentes sigue una distribución aproximadamente
Normal, la estadística de prueba a utilizar y su distribución en probabilidad bajo 𝐻0 serán:
𝑋̅ − 𝜇0
𝑡= ~ 𝑡𝑛−1
𝑆
𝐻0
√𝑛
- 13 -
𝑋̅ − 𝜇0 2,82 − 3
𝑡𝑜𝑏𝑠 = = = −0,928
𝑆 0,8
√𝑛 √17
Región de rechazo
Región de aceptación
Conclusión: En base a la evidencia muestral y con un nivel de significación del 10% no hay
evidencia para afirmar que la vida útil promedio de las componentes bajo estudio sea inferior
a 3 años, por lo que no hay motivos para discontinuar su línea de producción.
Siempre que resolvamos un test de hipótesis a través del enfoque del p-value la regla de
decisión será igual a esta, sin importar si el test es unilateral o bilateral. Esto es así porque
el enfoque del p-value compara la probabilidad de observar lo observado o algo más
extremo suponiendo que H0 es cierta con la probabilidad admitida de error de tipo 1,
prefijada de antemano al comienzo de la investigación. De este modo, la regla de
decisión no cambia, pero sí es necesario tener en cuenta la dirección del test al
momento de calcular el p-value.
𝑋̅ − 𝜇0 2,82 − 3
𝑝 − 𝑣𝑎𝑙𝑢𝑒 = 𝑃(𝑋̅ ≤ 2,82 / 𝜇 = 𝜇0 = 3) = 𝑃 ( ≤ ) = 𝑃(𝑡 ≤ −0,928)
𝑆 0,8
√𝑛 √17
Para encontrar dicha probabilidad nos remitimos a la tabla de valores críticos de la
distribución t de Student, y hacemos foco en la fila que nos corresponde (16 grados de
libertad).
- 14 -
Cabe destacar que la tabla t de Student con la que trabajamos
presenta las probabilidades de la cola superior (valores positivos).
Dado que la distribución es simétrica, al conocer los valores y
probabilidades asociadas en la cola superior podemos también
conocer de forma directa lo correspondiente a la cola inferior.
y por lo tanto
−1,071 < −0,928 < −0,865 ⇒ 0,15 < 𝑝 − 𝑣𝑎𝑙𝑢𝑒 < 0,20
Parámetro bajo estudio: 𝑝, proporción de componentes con vida útil menor a 1,5 años.
𝐻0 ) 𝑝 = 0,20
𝐻1 ) 𝑝 ≠ 0,20
Datos:
𝑛 = 76 𝑐𝑜𝑚𝑝𝑜𝑛𝑒𝑛𝑡𝑒𝑠
25 𝑐𝑜𝑚𝑝𝑜𝑛𝑒𝑛𝑡𝑒𝑠 𝑐𝑜𝑛 𝑣𝑖𝑑𝑎 ú𝑡𝑖𝑙 𝑚𝑒𝑛𝑜𝑟 𝑎 1,5 𝑎ñ𝑜𝑠
𝛼 = 0,05
- 15 -
Estadística de prueba: Dado que la proporción muestral es una estadística con distribución
aproximadamente Normal cuando el tamaño de la muestra es grande, la estadística de
prueba a utilizar y su distribución en probabilidad bajo 𝐻0 serán:
𝑝̂ − 𝑝0
𝑍= ~ 𝑁(0,1)
𝑝0 (1 − 𝑝0 ) 𝑛→∞
√
𝑛 𝐻0
En un test bilateral, debemos considerar los valores “más extremos” hacia ambos lados:
𝑝0 (1 − 𝑝0 )
𝐷𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑑𝑒 𝑝̂ 𝑏𝑎𝑗𝑜 𝐻0 : 𝑁 (𝑝0 , √ )
𝑛
Teniendo en cuenta que 𝑝̂ =
0,3289 y que 𝑝0 = 0,20, entonces
el p-value deberá considerar tanto
los valores iguales o mayores a
𝑝 − 𝑣𝑎𝑙𝑢𝑒
𝑝 − 𝑣𝑎𝑙𝑢𝑒 𝑝̂ = 0,3289 como los valores
2
2 menores o iguales al simétrico de
𝑝̂ = 0,3289 respecto de 𝑝0 = 0,20,
es decir, valores menores o iguales
𝑝0 = 0,20 a 0,0711.
0,0711 𝑝̂ = 0,3289
El último dato que la gerencia de la industria necesita para tomar una decisión acerca de la
continuidad de la componente entre sus líneas productivas tiene que ver con la variabilidad
existente en la vida útil de las componentes: si el desvío estándar de la vida útil de las
- 16 -
componentes es significativamente superior a 0,70 entonces es probable que dejen de
producirse. Se cuenta con información de una muestra aleatoria de 17 componentes y se
encuentra que la duración promedio de las mismas es de 2,82 años, y que presentan un
desvío estándar igual a 0,8 años. Resolver a través del enfoque clásico, utilizando un nivel de
significación del 1%.
Datos:
𝑛 = 17 𝑐𝑜𝑚𝑝𝑜𝑛𝑒𝑛𝑡𝑒𝑠 Aunque tenemos también el dato de 𝑋̅, no nos resulta útil en
𝑆 = 0,8 𝑎ñ𝑜𝑠 este caso, dado que la distribución de Y no considera de
ningún modo al promedio. ¡Hay que estar siempre atento a
𝛼 = 0,05 cuáles datos nos son útiles y cuáles no!
𝑆 2 (𝑛 − 1) 2
𝑌= ~ 𝜒𝑛−1
𝜎02 𝐻0
𝑆 2 (𝑛 − 1) 0,82 (17 − 1)
𝑌𝑜𝑏𝑠 = = = 20,90
𝜎02 0,72
2
𝑌𝑜𝑏𝑠 = 20,90 < 32,00 = 𝜒16; 0,01 ⇒ 𝐷𝑒𝑐𝑖𝑠𝑖ó𝑛: 𝑁𝑜 𝑟𝑒𝑐ℎ𝑎𝑧𝑜 𝐻0 )
- 17 -
Conclusión: En base a la evidencia muestral y con un nivel de significación del 1% podemos
afirmar que la variancia de la vida útil de las componentes no es superior a 0,7 años.
Sin realizar cálculos, ¿hay forma de saber si el p-value será mayor o menor a 𝜶 = 𝟎, 𝟎𝟏?
Teniendo en cuenta que a través de los dos enfoques llegamos siempre al mismo
resultado, entonces a través del enfoque del p-value decidiríamos no rechazar H 0.
Teniendo esto en cuenta, y que la regla de decisión en el enfoque del p-value hubiese
sido “𝑅𝑒𝑐ℎ𝑎𝑧𝑎𝑟 𝐻0 𝑠𝑖 𝑝 − 𝑣𝑎𝑙𝑢𝑒 ≤ 𝛼”, entonces el p-value hubiese sido mayor a 𝛼 = 0,01.
Sin realizar cálculos, ¿hay forma de saber si el p-value será mayor o menor a 0,05?
Al no haber rechazado H0 con un nivel de significación de 1%, sabemos con certeza que
el p-value será mayor a 0,01. Sin embargo, es la única información que tenemos sin
realizar cálculos, y podría suceder que 𝑝 − 𝑣𝑎𝑙𝑢𝑒 = 0,30 o bien que 𝑝 − 𝑣𝑎𝑙𝑢𝑒 = 0,03. De
este modo, es imposible saber solo con ese dato si el p-value es mayor o menor que 0,05:
para saberlo con certeza deberíamos calcular el p-value.
Nota de la cátedra
El contenido de este documento está sujeto a correcciones, y se complementa
con las exposiciones en clase y el resto del material propuesto por el plantel
docente.
Muchas de las menciones realizadas en cada ejercicio pueden generalizarse a
otros. Queda propuesto (como forma de estudio y ejercicios propuestos) extender
las consideraciones al resto de las situaciones. Puntualmente será útil:
- 18 -