Intervalos de Confianza y Valor Crítico 95%
Intervalos de Confianza y Valor Crítico 95%
TEMA 6 – Esquema
Intervalos de confianza
Margen de error
Varianza desconocida T-Student
Análisis e Interpretación de Datos
Ideas clave
Para estudiar este tema lee las Ideas clave, además de los intervalos que se indican a
continuación:
Para hacerte una idea global de este tema es importante que mires el esquema del tema,
el cual te ayudará a hacerte una buena idea de cómo está estructurado y las relaciones
que puedan existir entre algunos conceptos clave.
También será clave que practiques con los ejercicios que vienen al final del
tema. Del mismo modo presta atención a los ejemplos que acompañan a los diferentes
apartados a lo largo del tema, pues encierran muchas de las claves que te facilitarán la
comprensión del capítulo.
¿Y esta es una buena estimación del intervalo? la respuesta es que no tenemos ni idea,
no es posible saber si una estimación puntual es buena o mala, si se aleja poco
o mucho del parámetro poblacional que pretender estimar, pues podríamos habernos
topado con una «mala» muestra, de modo que ese valor no reflejase en absoluto al
Por lo dicho anteriormente era necesario otro enfoque donde se diera un margen para
situar al parámetro con cierta seguridad, teniendo en cuenta precisamente las
desviaciones naturales del estimador. Los márgenes no serán otros que los que marquen
los límites inferior y superior de un intervalo de confianza, denominado así porque
su amplitud dependerá de la confianza que deseemos tener en que contenga
realmente al parámetro.
Gracias al uso de los intervalos de confianza podremos asegurar con ciertas garantías que
nuestra estimación no estará muy lejos del valor real. De este modo, ahora podemos ser
más realistas en nuestras estimaciones afirmando, por ejemplo: «No sé con total
seguridad, a partir de las muestras que manejo, cuál es la proporción de la población,
pero estoy "casi seguro" de que rondará entre 0,35 y 0,51». Date cuenta de la diferencia
conceptual en la afirmación basada en un intervalo frente a la puntual anterior.
Ese «casi seguro» del párrafo anterior se refiere precisamente a la idea de manejar un
cierto nivel de seguridad que denominaremos nivel de confianza del intervalo y que
está relacionado con la probabilidad de que efectivamente el parámetro este contenido
en dicho intervalo de confianza.
Ejemplo 1
Los niveles de confianza más habituales que se manejan son altos, del estilo de 0,9; 0,95;
0,99 o incluyo mayores, porque no se precisará manejar el mismo nivel de confianza si
estamos realizando una encuesta política (sin ánimo de restarle importancia), que si
estamos construyendo un puente o detectando los niveles a partir de los cuales se estable
que un testo de detección de cáncer de positivo.
El nivel de significación puede interpretarse también como el nivel de error que estamos
dispuestos a asumir, en el sentido de que éste es precisamente la probabilidad de que el
parámetro no esté contenido en el intervalo que construimos.
Los IC se construyen como apuntábamos en el tema anterior con dos valores estimados
que configuran los límites a y b de un intervalo. De esta manera el 1-α será la probabilidad
de que el parámetro este contenido entre a y b:
𝑃[𝑎 ≤ 𝜃 ≤ 𝑏] = 1 − 𝛼
También es importante saber cómo interpretar un IC. Así, diremos que si el IC al 95%
para la media de estatura de los españoles es el siguiente:
Que lo interpretamos como sigue: «de cada 100 muestras podemos afirmar que
al menos 95 contendrán a dicho parámetro, mientras que 5 no lo
contendrán». También podemos comentarlo así: «Tenemos un nivel de confianza del
95% de que el intervalo (167; 192) contenga a la media poblacional».
Muestras
T1(X(1)) T2(X(1))
X(1)
T1(X(2)) T2(X(2))
X(2)
...
T1(X(j)) T2(X(j))
X(j)
...
T1(X(100)) T2(X(100))
X(100)
Donde los T1(X(i)) y T2(X(i)) hacen referencia a los estadísticos empleados para construir
los límites inferior o superior pero en formato de variables aleatorias, que son función de
la muestra X(i), ya que es lo que realmente son; cuando se tiene una muestra concreta es
cuando se convierten en límites concretos de un intervalo.
∑ 𝑥𝑖
𝑋 𝑠𝑒 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑦𝑒 𝑐𝑜𝑛 𝑢𝑛𝑎 𝑁(𝜇; 𝜎) ⇒ 𝑋: (𝑥1 , … , 𝑥𝑖 , … , 𝑥𝑛 ) ⇒ 𝑥̅ =
𝑛
Por otro lado sabemos que 𝑥̅ será un estimador puntual de 𝜇. Sabemos por el Teorema
Central del Límite visto anteriormente, que si X es normal y cogemos una muestra
aleatoria, entonces:
𝜎
𝑋̅ ~𝑁(𝜇; )
√𝑛
Comenzaríamos por definir el estadístico que va a conformar ambos límites del intervalo
a construir:
𝑥̅ − 𝜇
𝑍 = 𝜎 → 𝑁(0; 1)
⁄ 𝑛
√
A continuación tendríamos que fijar el nivel de confianza, 1- , que hará que tomen un
valor u otro los límites del IC que son los valores -z/2 y z/2 de la Normal estándar N(0,1)
tales que:
𝑥̅ − 𝜇
𝑃 [−𝑧𝛼⁄2 ≤ 𝜎 ≤ 𝑧𝛼⁄2 ] = 1 − 𝛼
⁄ 𝑛
√
Conviene recordar, llegados a este punto, que la normal estándar, en las llamadas tablas
de la normal estándar, simboliza z como el valor que deja a su derecha una
probabilidad de y que, por tanto, deja a su izquierda el complementario, esto es, 1-.
La cuestión de por qué entonces nuestros límites del intervalo -z/2 y z/2 presentan el /2
como subíndice, es porque el IC de confianza lo construimos de modo simétrico para que
deje la misma probabilidad a ambos lados o colas de la función de probabilidad (ya que
/2 por la izquierda + /2 por la derecha = ). El valor z/2 que marca el límite del IC
recibe el nombre de valor crítico.
Ejemplo 3
lo cual inspeccionamos en la tabla dicho valor para descubrir que es 2,57 (lo cual no
puedes ver en la tabla de arriba pues es un fragmento y no está completa).
Una vez ya sabemos hallar su nivel de significación, siguiendo con los pasos para
construir el IC, se sustituye la variable aleatoria Z por su expresión como estadístico:
𝑥̅ − 𝜇
𝑃 [− 𝑧𝛼⁄2 ≤ 𝜎 ≤ 𝑧𝛼⁄2 ] = 1 − 𝛼
⁄ 𝑛
√
𝜎 𝜎
𝜇 ∈ [𝑥̅ − 𝑧𝛼⁄ ; 𝑥̅ + 𝑧𝜎⁄2 ]
2 √𝑛 √𝑛 1−𝛼
Ejemplo 4
𝜎 𝜎
𝜇 ∈ [𝑥̅ − 1,96 ; 𝑥̅ + 1,96 ]
√𝑛 √𝑛 0,95
O lo que es equivalente:
De nuevo recurro a la representación gráfica anterior para ilustrar la idea que hay detrás
de este IC del cual acabamos de mostrar su construcción.
Muestras 𝝁
𝜎 𝜎
𝑥̅1 − 𝑧𝛼⁄2 𝑥̅1 + 𝑧𝛼⁄2
√𝑛 √𝑛
X(1)
𝜎 𝜎
𝑥̅ 2 − 𝑧𝛼⁄2 𝑥̅ 2 + 𝑧𝛼⁄2
√𝑛 √𝑛
X(2)
...
𝜎 𝜎
𝑥̅𝐽 − 𝑧𝛼⁄2 𝑥̅𝐽 + 𝑧𝛼⁄2
√𝑛 √𝑛
X(j)
...
𝜎 𝜎
𝑥̅100 − 𝑧𝛼⁄ 𝑥̅10 + 𝑧𝛼⁄
2 √𝑛 2 √𝑛
X(100)
𝜎
𝐸 = 𝑧𝛼/2 × es el llamado margen de error del parámetro. Así podemos expresar
√𝑛
abreviadamente el IC del modo siguiente:
𝜇 ∈ [𝑥̅ − 𝐸; 𝑥̅ + 𝐸]0,95
O directamente:
(𝑥̅ − 𝐸; 𝑥̅ + 𝐸 )
Por último, conviene aclarar que no son correctas expresiones como la siguiente: «el
parámetro µ ha caído dentro del intervalo…», pues el parámetro siempre es el que es (no
lo conocemos, pero eso no quiere decir que no exista y tenga un valor concreto) y las
variables, que dependen de las muestras concretas, son en realidad las que configuran el
IC por medio precisamente de los estadísticos. Por tanto, no sería correcto decir algo así.
Serían en todo caso los límites del IC los que caen donde caen, precisamente por tomar
un valor concreto debido a una muestra particular.
En el primer caso que hemos tratado antes suponíamos conocida σ pero ahora vamos a
partir de que σ no es conocida, lo que supone un caso más realista, ya que si
desconocíamos µ sería extraño que conociéramos la desviación típica, más si cabe porque
la obtenemos a partir de la media.
∑𝑛𝑖=𝑙(𝑥𝑖 − 𝑥̅ )2
𝑠𝑐2 =
𝑛−1
𝑠 𝑠
𝜇 ∈ [𝑥̅ − 𝑡𝛼,𝑛−1 ; 𝑥̅ + 𝑡𝛼,𝑛−1 ]
2 √𝑛 2 √𝑛 1−𝛼
Para saber cuál es el valor de la tα,n-1 tendremos que acudir a la tabla que se confecciona
para los valores de la T-Student para un α dato y según sus G.L.
Para determinar la estatura media de las policías del Cuerpo Nacional de cara establecer
un intervalo para el examen de entrada al Cuerpo, se tomó una muestra aleatoria de 10
mujeres resultando: 152, 166, 159, 155, 161, 159, 162, 158, 157, y 165cm de estatura.
Para hallar ahora el valor de la altura media de las mujeres con un nivel de confianza del
95% hacemos lo que sigue.
Lo primero que haríamos sería identificar el estadístico que vamos a emplear. Vamos a
suponer que al tratarse de la estatura será un v.a. normal pero con la varianza
desconocida, de modo que emplearemos la fórmula anterior. Así tendremos que hallar
la media y la cuasivarianza muestral:
166+159+⋯+165
𝑥̅ = = 159,40 cm
10
∑𝑛 (𝑥𝑖 − 𝑥̅ )2
𝑠 = √ 𝑖=𝑙 → 𝑠 = 4,30
𝑛−1
4,30 4,30
𝜇 ∈ [159,40 − 2,26 ; 159,40 + 2,26 ] → 𝜇 ∈ (156,32; 162,47)
√10 √10 0,95
Así, interpretaríamos que de cada 100 muestras en 95 de ellas la media de las mujeres
policía se encontrará entre 156,32 y 162,47cm o bien que tenemos una confianza del 95%
de que la media de estatura de las mujeres se encuentra entre 156,32 y 162,47cm.
Antes de proseguir enumerando los diferentes casos de estimación por IC conviene hacer
un parón y sacar otra gran utilidad que nos aporta el uso de IC, que es la estimación del
tamaño de muestra adecuado para un nivel de significación dado.
La pregunta que nos hacemos entonces es: ¿qué tamaño de muestra debo tener
para asegurar una precisión determinada en el intervalo?
Un ejemplo de esto sería: ¿qué cantidad de encuestas tengo que hacer a los jóvenes para
saber con una precisión de 10 minutos el tiempo que pasan pegados al WhatsApp
diariamente? Este tipo de cuestiones es muy útil saber responderlas, si bien no para el
ejemplo anterior, para otros casos donde el estudio pueda ser médico, por ejemplo, como
sucede en la bioestadística.
𝑧𝛼/2 𝜎 2
𝑛=( )
𝐸
Ejemplo 6
En los vuelos es crucial estimar el peso medio de los pasajeros (por razones de seguridad
sin ir más lejos). Entonces cabe preguntarse, ¿cuántos pasajeros seleccionamos al azar y
pesamos? La respuesta vendría dada por la fórmula anterior, para lo cual tendríamos que
fijar un nivel de confianza dado y una precisión deseada.
Ejemplo 7
Si tuviéramos que calcular el tamaño muestral necesario (con una confianza del 95%)
para medir la población de mujeres policía que vimos anteriormente con una precisión
de 1cm, procederíamos sustituyendo en la ecuación anterior.
1,96 × 4,30 2
𝑛=( ) = 71,03 ≅ 71 mujeres policía
1
Habiendo visto cómo se razona y procede para construir un IC, proseguimos con los
diferentes casos que se nos presentan, esta vez nos interesa hallar el IC para la proporción
donde de nuevo hemos empleado el TCL para saber que si la muestra es suficientemente
grande 𝑝̂ se distribuirá como una normal de media p y desviación típica √𝑝(1 − 𝑝)/𝑛.
𝑝̂ (1 − 𝑝̂ ) 𝑝̂ (1 − 𝑝̂ )
𝑝 ∈ [𝑝̂ − 𝑧𝜎⁄2 √ ; 𝑝̂ + 𝑧𝜎⁄2 √ ]
𝑛 𝑛
1−𝛼
Que también podemos expresar abreviadamente a través del margen de error como:
𝑝̂ (1 − 𝑝̂ )
𝑝̂ ± 𝐸 con 𝐸 = 𝑧𝛼/2 √
𝑛
2
𝑧𝛼/2 √𝑝̂ (1 − 𝑝̂ ) 𝑧𝛼/2 2 𝑝̂ (1 − 𝑝̂ )
𝑛=( ) =
𝐸 𝐸2
Ejemplo 8
Tenemos que 𝑝̂ = 30/100=0,3 siendo n=100. El valor crítico es 1,96 como ya hemos
visto. Por tanto tenemos que el IC para p es:
0,3(0,7) 0,3(0,7)
𝑝 ∈ [0,3 − 1,96√ ; 0,3 + 1,96√ ] = 𝑝 ∈ (0,21; 0,39)
100 100
0,95
Vamos a estudiar ahora el caso del intervalo de confianza para la varianza 2 de una
población N (;) con desconocida, para un nivel de confianza 1- .
(𝑛 − 1)𝑠 2 (𝑛 − 1)𝑠 2
𝜎2 ∈ [ ; ]
𝑥1−𝛼⁄ 𝑥𝛼⁄
2 2 1−𝛼
Donde 𝑥𝛼⁄2 es el valor crítico que deja una probabilidad acumulada de 𝛼⁄2 en una
distribución que no hemos visto todavía y que se denomina Chi cuadrada de Pearson.
2
(𝑛 − 1)𝑠 2
𝜒𝑛−1 =
𝜎2
A pesar de que se escribe «Chi» se debe pronunciar «Ji». Los grados de libertad que tiene
la Chi Cuadrado son n-1, aspecto que hay que tener en cuenta cuando se localiza en las
tablas.
Además los valores de la 𝜒2 han de ser positivos como su cuadrado indica (ya que un
número al cuadrado no puede ser negativo). A medida que los G.L. de la 𝜒2 aumentan se
va acercando a la Normal. Del mismo modo que con la normal y la T-Student se emplea
una tabla para localizar sus valores críticos.
Razón por la que en la tabla anterior está dividida en dos clases de valores críticos: los
«no significativos», donde localizaremos al 𝑋𝛼⁄2 y los «significativos» donde
localizaremos el 𝑋1− 𝛼2 .
Ejemplo 9:
0,2794 0,2794
𝜎2 ∈ [ ; ] = [0,0021; 0,0039]
128 73,4 0,95
Ahora pasaremos a ver brevemente los casos en los que comparamos dos poblaciones y
entonces nos va a interesar construir el intervalo de confianza para la diferencia de
medias (1 - 2) de dos poblaciones normales en diferentes casos. Como caso final
veremos el caso de la diferencia de proporciones (p1-p2) también.
𝜎2 𝜎2
(𝜇1 − 𝜇2 ) ∈ [(𝑥̅ − 𝑦̅) ∓ 𝑧𝛼⁄ √ 1 + 2 ]
2 𝑛 𝑚
1−𝛼
Donde «n» y «m» son los tamaños muestrales respectivos de la muestra de «las X» y
de «las Y».
1 1
(𝜇1 − 𝜇2 ) ∈ [(𝑥̅ − 𝑦̅) ∓ 𝑧𝛼⁄ 𝜎√ + ]
2 𝑛 𝑚
1−𝛼
1 1 (𝑛 − 1)𝑠𝑥2 + (𝑚 − 1)𝑠𝑦2
(𝜇1 − 𝜇2 ) ∈ [(𝑥̅ − 𝑦̅) ∓ 𝑡𝑛+𝑚−2;𝛼⁄ √ + √ ]
2 𝑛 𝑚 𝑛+𝑚−2
1−𝛼
Observa que al emplear las cuasivarianzas multiplicamos ahora por «n-1» y «m-1»
estas y por ello dividimos entre «n+m-2» para obtener el promedio.
d) Por último vamos a ver como calcular IC para la diferencia (p1-p2) de proporciones
poblacionales provenientes de dos poblaciones Binomiales con proporciones de éxito
p1 y p2 respectivamente. De nuevo estas poblaciones pueden tener tamaños de muestra
diferentes «n» y «m». Además necesitamos que tales tamaños sean lo suficientemente
altos. Bajo estas condiciones, tenemos:
𝑝̂ 1 (1 − 𝑝̂ 1 ) 𝑝̂ 2 (1 − 𝑝̂ 2 )
(𝑝1 − 𝑝2 ) ∈ [(𝑝̂ 1 − 𝑝̂ 2 ) ∓ 𝑧𝛼⁄ √ + ]
2 𝑛 𝑚
De todos modos puedes encontrar ejemplos en los textos propuestos en «Cómo estudiar
este tema».
Mediante el uso de las medidas robustas vistas en el tema 2, es posible redefinir todos
los intervalos de confianza vistos para hacerlos robustos frente a la presencia de
outliers en las muestras. Para ello, haremos uso de las medidas robustas vistas
en el tema 2 y trabajaremos, por tanto, con conjuntos winsorizados. Gracias a que
estos conjuntos eliminan los valores más extremos de su conjunto, los outliers no tienen
ninguna influencia en los análisis realizados sobre los datos. Los cambios a realizar sobre
las fórmulas, en el caso del intervalo de confianza para la media, son los siguientes:
» Uso de la media recortada: dado que la media es una medida que, como ya vimos,
es sensible a los outliers, la cambiaremos por la media recortada.
Tras realizar estos cambios y teniendo en cuenta que denominaremos como β al valor
de significación para evitar choques de nomenclatura, podemos construir un
intervalo de confianza robusto para la media recortada siguiendo la siguiente fórmula:
𝑆𝑤 𝑆𝑤
[𝑥̅𝛼 − 𝑡 𝛽 , 𝑥̅𝛼 + 𝑡𝑛−2𝑘−1;𝛽/2 ]
𝑛−2𝑘−1;
2 (1 − 2𝛼 )√𝑛 (1 − 2𝛼)√𝑛
de 𝛽/2.
- 𝑆𝑤 : es la cuasidesviación típica winsorizada.
- 𝛼: porcentaje de recorte usado en la media winsorizada utilizada.
Lo + recomendado
Lecciones magistrales
En esta lección magistral veremos cómo manejar las tablas de distribuciones estadísticas.
Veremos el manejo de la normal (0,1), la de la T-Sudent y la de Chi Cuadrada.
No dejes de leer…
Te recomiendo que leas este artículo en inglés sobre el origen de la T-Student y el porqué
de este nombre tan peculiar. Se trata de una interesante anécdota de la historia de la
Estadística y, más aún si cabe, porque tiene relación con la cerveza negra, ¡una auténtica
delicia!
No dejes de visitar…
+ Información
Bibliografía
Martín Andrés, A. (2004). Bioestadística para las ciencias de la salud. Madrid: Norma-
Capitel.
Moore, D. S. (2006). Introduction to the practice of statistics (5th ed.). New York:
Freeman and Company.
Test
σ σ
A. μ x − z1-α 2 ; x + z1-α 2
n n 1−α
σ σ
B. μ x − t α 2 ; x + t α2
n n α
s s
C. μ x − t α 2 ; x + t α2
n n 1−α
σ σ
D. μ x − z α 2 ; x + zα2
n n 1−α
8. La T-Student es…
A. Una distribución similar a la Normal, de hecho se aproxima a ella a medida que
aumenta el «n».
B. Es diferente de la Normal y la Chi Cuadrada.
C. Es simétrica.
D. Las respuestas A y C son correctas.