0% encontró este documento útil (0 votos)
103 vistas28 páginas

Intervalos de Confianza y Valor Crítico 95%

Este documento describe los intervalos de confianza para diferentes parámetros estadísticos. Introduce los intervalos de confianza y explica cómo proporcionan un rango de valores dentro del cual existe una alta probabilidad de que se encuentre el verdadero parámetro de la población. Luego, describe cómo calcular intervalos de confianza para la media cuando la varianza es conocida o desconocida, para la proporción, para la varianza de una población normal y para la diferencia entre medias y proporciones. Finalmente, menciona intervalos de confianza

Cargado por

Pablo Salas
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
103 vistas28 páginas

Intervalos de Confianza y Valor Crítico 95%

Este documento describe los intervalos de confianza para diferentes parámetros estadísticos. Introduce los intervalos de confianza y explica cómo proporcionan un rango de valores dentro del cual existe una alta probabilidad de que se encuentre el verdadero parámetro de la población. Luego, describe cómo calcular intervalos de confianza para la media cuando la varianza es conocida o desconocida, para la proporción, para la varianza de una población normal y para la diferencia entre medias y proporciones. Finalmente, menciona intervalos de confianza

Cargado por

Pablo Salas
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Intervalos de confianza

[7.1] ¿Cómo estudiar este tema?

[7.2] Introducción a los intervalos de confianza

[7.3] Intervalo de confianza para la media de una población


normal: varianza conocida y desconocida

[7.4] Calculando el tamaño de la muestra

[7.5] Intervalo de confianza para la proporción

[7.6] Intervalo de confianza para la varianza de una población


normal

[7.7] Intervalo de confianza para la diferencia de


medias y proporciones

[7.8] Intervalos de confianza robustos

[7.9] Referencias bibliográficas


7 TEMA
Esquema

TEMA 6 – Esquema
Intervalos de confianza

IC para la IC para la diferencia


Introducción IC para la media IC para la proporción
varianza de poblaciones

Nivel de confianza Varianza conocida Chi Cuadrada Caso medias


Ej.: 90%, 95%, 99%

Nivel de Tamaño de la muestra (p)


significación α Tamaño de la muestra
(media)
Valor crítico
Zα/2

Margen de error
Varianza desconocida T-Student
Análisis e Interpretación de Datos

© Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

Ideas clave

7.1. ¿Cómo estudiar este tema?

Para estudiar este tema lee las Ideas clave, además de los intervalos que se indican a
continuación:

Páginas 320-331, 338-345 y 349-354 del libro: Triola, M. F. (2009). Estadística


(10ª ed). México: Pearson. Estos tres fragmentos corresponden aproximadamente a
diferentes apartados o aspectos vistos en este tema.

Páginas 175-199 del libro: Ríus, F. (1998). Bioestadística: Métodos y aplicaciones.


Málaga: Universidad de Málaga. Publicaciones.
https://www.bioestadistica.uma.es/baron/apuntes/clase/apuntes/pdf/

Para hacerte una idea global de este tema es importante que mires el esquema del tema,
el cual te ayudará a hacerte una buena idea de cómo está estructurado y las relaciones
que puedan existir entre algunos conceptos clave.

También será clave que practiques con los ejercicios que vienen al final del
tema. Del mismo modo presta atención a los ejemplos que acompañan a los diferentes
apartados a lo largo del tema, pues encierran muchas de las claves que te facilitarán la
comprensión del capítulo.

7.2. Introducción a los intervalos de confianza

En el tema anterior planteamos el método de estimación puntual y, si bien se puede tener


cierta utilidad, tiene una limitación seria. Pongamos que queríamos calcular la verdadera
proporción de una población, p. Para ello, cogíamos una muestra y calculábamos su
estimador de la proporción 𝑝̂ resultando que valdría pongamos 0,4.

¿Y esta es una buena estimación del intervalo? la respuesta es que no tenemos ni idea,
no es posible saber si una estimación puntual es buena o mala, si se aleja poco
o mucho del parámetro poblacional que pretender estimar, pues podríamos habernos
topado con una «mala» muestra, de modo que ese valor no reflejase en absoluto al

TEMA 7 – Ideas clave © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

parámetro. Y no lo va a reflejar sobretodo porque no tenemos en cuenta la distribución


probabilística del propio estimador, a través de la cual podríamos otorgarle el valor
necesario y preciso a dicha estimación.

Por lo dicho anteriormente era necesario otro enfoque donde se diera un margen para
situar al parámetro con cierta seguridad, teniendo en cuenta precisamente las
desviaciones naturales del estimador. Los márgenes no serán otros que los que marquen
los límites inferior y superior de un intervalo de confianza, denominado así porque
su amplitud dependerá de la confianza que deseemos tener en que contenga
realmente al parámetro.

Gracias al uso de los intervalos de confianza podremos asegurar con ciertas garantías que
nuestra estimación no estará muy lejos del valor real. De este modo, ahora podemos ser
más realistas en nuestras estimaciones afirmando, por ejemplo: «No sé con total
seguridad, a partir de las muestras que manejo, cuál es la proporción de la población,
pero estoy "casi seguro" de que rondará entre 0,35 y 0,51». Date cuenta de la diferencia
conceptual en la afirmación basada en un intervalo frente a la puntual anterior.

Ese «casi seguro» del párrafo anterior se refiere precisamente a la idea de manejar un
cierto nivel de seguridad que denominaremos nivel de confianza del intervalo y que
está relacionado con la probabilidad de que efectivamente el parámetro este contenido
en dicho intervalo de confianza.

Ejemplo 1

Los niveles de confianza más habituales que se manejan son altos, del estilo de 0,9; 0,95;
0,99 o incluyo mayores, porque no se precisará manejar el mismo nivel de confianza si
estamos realizando una encuesta política (sin ánimo de restarle importancia), que si
estamos construyendo un puente o detectando los niveles a partir de los cuales se estable
que un testo de detección de cáncer de positivo.

Los intervalos de confianza se suelen abreviar como IC acompañados de su respectivo


nivel de confianza, el cual se expresa en ocasiones en modo porcentual. Así hablamos de
IC al 95%, por ejemplo. La cantidad de probabilidad complementaria a nuestro nivel de
confianza es llamada nivel de significación y la anotamos como α. De este modo el IC
se anota genéricamente IC al (1- α)×100%. Aquí vemos que el nivel de significación y el
de confianza son complementarios.

TEMA 7 – Ideas clave © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

El nivel de significación puede interpretarse también como el nivel de error que estamos
dispuestos a asumir, en el sentido de que éste es precisamente la probabilidad de que el
parámetro no esté contenido en el intervalo que construimos.

Los IC se construyen como apuntábamos en el tema anterior con dos valores estimados
que configuran los límites a y b de un intervalo. De esta manera el 1-α será la probabilidad
de que el parámetro este contenido entre a y b:

𝑃[𝑎 ≤ 𝜃 ≤ 𝑏] = 1 − 𝛼

Ejemplo 2: Interpretando un intervalo de confianza

También es importante saber cómo interpretar un IC. Así, diremos que si el IC al 95%
para la media de estatura de los españoles es el siguiente:

𝑃[167𝑐𝑚 ≤ 𝜇 ≤ 192𝑐𝑚] = 0,95

Que lo interpretamos como sigue: «de cada 100 muestras podemos afirmar que
al menos 95 contendrán a dicho parámetro, mientras que 5 no lo
contendrán». También podemos comentarlo así: «Tenemos un nivel de confianza del
95% de que el intervalo (167; 192) contenga a la media poblacional».

TEMA 7 – Ideas clave © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

Esto lo podemos visualizar del siguiente modo:

Muestras 

T1(X(1)) T2(X(1))
X(1)

T1(X(2)) T2(X(2))
X(2)

...

T1(X(j)) T2(X(j))
X(j)

...
T1(X(100)) T2(X(100))
X(100)

Donde los T1(X(i)) y T2(X(i)) hacen referencia a los estadísticos empleados para construir
los límites inferior o superior pero en formato de variables aleatorias, que son función de
la muestra X(i), ya que es lo que realmente son; cuando se tiene una muestra concreta es
cuando se convierten en límites concretos de un intervalo.

Tras caracterizar y definir los componentes de un IC, ya podemos pasar a estudiar la


construcción de los principales IC para los parámetros más usuales, que ya manejamos
en la estimación puntual: 𝜇, 𝑝 y σ.

TEMA 7 – Ideas clave © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

7.3. Intervalo de confianza para la media de una población


normal: varianza conocida y desconocida

Para hallar el IC para la media  de una población N (;) con  conocida, a un


nivel de confianza 1- razonamos como sigue. Vamos a ilustrar el proceso completo por
tratarse del primer caso que se muestra.

∑ 𝑥𝑖
𝑋 𝑠𝑒 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑦𝑒 𝑐𝑜𝑛 𝑢𝑛𝑎 𝑁(𝜇; 𝜎) ⇒ 𝑋: (𝑥1 , … , 𝑥𝑖 , … , 𝑥𝑛 ) ⇒ 𝑥̅ =
𝑛

Por otro lado sabemos que 𝑥̅ será un estimador puntual de 𝜇. Sabemos por el Teorema
Central del Límite visto anteriormente, que si X es normal y cogemos una muestra
aleatoria, entonces:

𝜎
𝑋̅ ~𝑁(𝜇; )
√𝑛

Comenzaríamos por definir el estadístico que va a conformar ambos límites del intervalo
a construir:

𝑥̅ − 𝜇
𝑍 = 𝜎 → 𝑁(0; 1)
⁄ 𝑛

El hecho de que se use este estadístico y no otro es porque conocemos su distribución,


que proviene de la tipificación de una normal cualquiera a una normal estándar. Además,
ya vimos que cuando tratamos las variables normales, el 95% de las observaciones estaba
comprendido entre 𝜇 ± 2𝜎 aproximadamente, lo cual está relacionado con el área que
encierra la distribución normal entre dos desviaciones a un lado y a otro de la media, así
que en cierto modo este era un concepto que ya hacía uso de la lógica de los IC a través
del siguiente intervalo (μ-σ;μ+σ).

A continuación tendríamos que fijar el nivel de confianza, 1- , que hará que tomen un
valor u otro los límites del IC que son los valores -z/2 y z/2 de la Normal estándar N(0,1)
tales que:

TEMA 7 – Ideas clave © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

𝑥̅ − 𝜇
𝑃 [−𝑧𝛼⁄2 ≤ 𝜎 ≤ 𝑧𝛼⁄2 ] = 1 − 𝛼
⁄ 𝑛

Conviene recordar, llegados a este punto, que la normal estándar, en las llamadas tablas
de la normal estándar, simboliza z como el valor que deja a su derecha una
probabilidad de  y que, por tanto, deja a su izquierda el complementario, esto es, 1-.

La cuestión de por qué entonces nuestros límites del intervalo -z/2 y z/2 presentan el /2
como subíndice, es porque el IC de confianza lo construimos de modo simétrico para que
deje la misma probabilidad a ambos lados o colas de la función de probabilidad (ya que
/2 por la izquierda + /2 por la derecha = ). El valor z/2 que marca el límite del IC
recibe el nombre de valor crítico.

A continuación podemos apreciar un fragmento de la tabla de la N(0,1) que contiene los


valores de la variable que acumulan para esta distribución una determinada
probabilidad, que en nuestro caso es 1-/2 (ya que deja a su derecha un /2) y que resulta
muy útil para la confección de IC (y también en su momento para los Contrastes de
Hipótesis).

Ejemplo 3

Si nos piden hallar el IC al 99% de confianza de un determinado parámetro, lo primero


que tenemos que hacer es descubrir el valor crítico que corresponde a /2=0,005, para

TEMA 7 – Ideas clave © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

lo cual inspeccionamos en la tabla dicho valor para descubrir que es 2,57 (lo cual no
puedes ver en la tabla de arriba pues es un fragmento y no está completa).

Los valores críticos más comunes que se emplean son:

Nivel de confianza α α/2 valor crítico


90% 0,1 0,05 1,65
95% 0,05 0,025 1,96
99% 0,01 0,005 2,57

Una vez ya sabemos hallar su nivel de significación, siguiendo con los pasos para
construir el IC, se sustituye la variable aleatoria Z por su expresión como estadístico:

𝑥̅ − 𝜇
𝑃 [− 𝑧𝛼⁄2 ≤ 𝜎 ≤ 𝑧𝛼⁄2 ] = 1 − 𝛼
⁄ 𝑛

Entonces operamos en las dos desigualdades para despejar el parámetro  en la parte


central ya que al que nos interesa situar dentro del intervalo. Finalmente obtenemos:

𝜎 𝜎
𝜇 ∈ [𝑥̅ − 𝑧𝛼⁄ ; 𝑥̅ + 𝑧𝜎⁄2 ]
2 √𝑛 √𝑛 1−𝛼

Ejemplo 4

Cuando el IC sea al 95% de confianza, acudiendo a las tablas de la normal(0,1)


observaremos que z/2=1,96, por lo que el intervalo resulta:

𝜎 𝜎
𝜇 ∈ [𝑥̅ − 1,96 ; 𝑥̅ + 1,96 ]
√𝑛 √𝑛 0,95

O lo que es equivalente:

𝑃 [𝑥̅ − 1,96 𝜎⁄ ; 𝑥̅ + 1,96 𝜎⁄ ] = 0,95


√𝑛 √𝑛

TEMA 7 – Ideas clave © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

De nuevo recurro a la representación gráfica anterior para ilustrar la idea que hay detrás
de este IC del cual acabamos de mostrar su construcción.

Muestras 𝝁

𝜎 𝜎
𝑥̅1 − 𝑧𝛼⁄2 𝑥̅1 + 𝑧𝛼⁄2
√𝑛 √𝑛

X(1)

𝜎 𝜎
𝑥̅ 2 − 𝑧𝛼⁄2 𝑥̅ 2 + 𝑧𝛼⁄2
√𝑛 √𝑛

X(2)

...

𝜎 𝜎
𝑥̅𝐽 − 𝑧𝛼⁄2 𝑥̅𝐽 + 𝑧𝛼⁄2
√𝑛 √𝑛

X(j)

...
𝜎 𝜎
𝑥̅100 − 𝑧𝛼⁄ 𝑥̅10 + 𝑧𝛼⁄
2 √𝑛 2 √𝑛

X(100)

Esta gráfica la interpretamos como que en un porcentaje del α% de muestras el intervalo


no contendrá al parámetro, ya que precisamente α es en este sentido el error que
estamos dispuestos a asumir en nuestro IC.

𝜎
𝐸 = 𝑧𝛼/2 × es el llamado margen de error del parámetro. Así podemos expresar
√𝑛
abreviadamente el IC del modo siguiente:

𝜇 ∈ [𝑥̅ − 𝐸; 𝑥̅ + 𝐸]0,95

O directamente:
(𝑥̅ − 𝐸; 𝑥̅ + 𝐸 )

TEMA 7 – Ideas clave © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

Por último, conviene aclarar que no son correctas expresiones como la siguiente: «el
parámetro µ ha caído dentro del intervalo…», pues el parámetro siempre es el que es (no
lo conocemos, pero eso no quiere decir que no exista y tenga un valor concreto) y las
variables, que dependen de las muestras concretas, son en realidad las que configuran el
IC por medio precisamente de los estadísticos. Por tanto, no sería correcto decir algo así.
Serían en todo caso los límites del IC los que caen donde caen, precisamente por tomar
un valor concreto debido a una muestra particular.

En el primer caso que hemos tratado antes suponíamos conocida σ pero ahora vamos a
partir de que σ no es conocida, lo que supone un caso más realista, ya que si
desconocíamos µ sería extraño que conociéramos la desviación típica, más si cabe porque
la obtenemos a partir de la media.

Ahora el estadístico a emplear para el contraste ya no se distribuye normalmente,


sino que sigue una distribución similar a la normal que es la llamada T-Student.

La diferencia fundamental de esta distribución es que depende de un parámetro que son


los grados de libertad (sin considerar el parámetro α), los cuales provienen del número
de variables independientes que la conforman, esto es, de «n» que es el tamaño de la
muestra. Al número de grados de libertad (GL de aquí en adelante) se le resta uno, pues
el hecho de que la media ya tenga un valor concreto restringe las n-1 variables restantes.

Otra diferencia para confeccionar el IC cuando se desconoce la varianza es que


tendremos que utilizar otro valor que la suplante, y qué mejor valor para esto que su
estimador muestral que es como vimos en el tema anterior la cuasivarianza muestral.

∑𝑛𝑖=𝑙(𝑥𝑖 − 𝑥̅ )2
𝑠𝑐2 =
𝑛−1

De este modo el nuevo IC resulta ser el siguiente (donde ya anotamos la cuasivarianza


con una simple «s» prescindiendo del subíndice «c» porque en realidad a nivel
inferencial siempre hacemos ya referencia a esta variante de la varianza para la
estimación y no empleamos la «s» de estadística descriptiva donde se dividía entre «n»
y no entre «n-1» como es el caso):

𝑠 𝑠
𝜇 ∈ [𝑥̅ − 𝑡𝛼,𝑛−1 ; 𝑥̅ + 𝑡𝛼,𝑛−1 ]
2 √𝑛 2 √𝑛 1−𝛼

TEMA 7 – Ideas clave © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

Para saber cuál es el valor de la tα,n-1 tendremos que acudir a la tabla que se confecciona
para los valores de la T-Student para un α dato y según sus G.L.

Ejemplo 5: Un IC para la estatura media de las mujeres policía

Para determinar la estatura media de las policías del Cuerpo Nacional de cara establecer
un intervalo para el examen de entrada al Cuerpo, se tomó una muestra aleatoria de 10
mujeres resultando: 152, 166, 159, 155, 161, 159, 162, 158, 157, y 165cm de estatura.

Para hallar ahora el valor de la altura media de las mujeres con un nivel de confianza del
95% hacemos lo que sigue.

Lo primero que haríamos sería identificar el estadístico que vamos a emplear. Vamos a
suponer que al tratarse de la estatura será un v.a. normal pero con la varianza
desconocida, de modo que emplearemos la fórmula anterior. Así tendremos que hallar
la media y la cuasivarianza muestral:

166+159+⋯+165
𝑥̅ = = 159,40 cm
10

TEMA 7 – Ideas clave © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

∑𝑛 (𝑥𝑖 − 𝑥̅ )2
𝑠 = √ 𝑖=𝑙 → 𝑠 = 4,30
𝑛−1

Luego acudiendo a la tabla de T-Student sabemos que para un α=0,025 tenemos


t0,025;9=2,26 (podemos incluir los dos parámetros como subíndice o solo el «n-1» es
indistinto siempre que indiquemos el α. Ya tenemos todos los elementos y podemos
construir nuestro intervalo para la media de la estatura:

4,30 4,30
𝜇 ∈ [159,40 − 2,26 ; 159,40 + 2,26 ] → 𝜇 ∈ (156,32; 162,47)
√10 √10 0,95

Así, interpretaríamos que de cada 100 muestras en 95 de ellas la media de las mujeres
policía se encontrará entre 156,32 y 162,47cm o bien que tenemos una confianza del 95%
de que la media de estatura de las mujeres se encuentra entre 156,32 y 162,47cm.

7.4. Calculando el tamaño de la muestra

Antes de proseguir enumerando los diferentes casos de estimación por IC conviene hacer
un parón y sacar otra gran utilidad que nos aporta el uso de IC, que es la estimación del
tamaño de muestra adecuado para un nivel de significación dado.

La pregunta que nos hacemos entonces es: ¿qué tamaño de muestra debo tener
para asegurar una precisión determinada en el intervalo?

Un ejemplo de esto sería: ¿qué cantidad de encuestas tengo que hacer a los jóvenes para
saber con una precisión de 10 minutos el tiempo que pasan pegados al WhatsApp
diariamente? Este tipo de cuestiones es muy útil saber responderlas, si bien no para el
ejemplo anterior, para otros casos donde el estudio pueda ser médico, por ejemplo, como
sucede en la bioestadística.

Si E el margen de error deseado que fijamos nosotros, despejando la «n» de la


fórmula del margen de error obtenemos:

TEMA 7 – Ideas clave © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

𝑧𝛼/2 𝜎 2
𝑛=( )
𝐸

Ejemplo 6

En los vuelos es crucial estimar el peso medio de los pasajeros (por razones de seguridad
sin ir más lejos). Entonces cabe preguntarse, ¿cuántos pasajeros seleccionamos al azar y
pesamos? La respuesta vendría dada por la fórmula anterior, para lo cual tendríamos que
fijar un nivel de confianza dado y una precisión deseada.

Ejemplo 7

Si tuviéramos que calcular el tamaño muestral necesario (con una confianza del 95%)
para medir la población de mujeres policía que vimos anteriormente con una precisión
de 1cm, procederíamos sustituyendo en la ecuación anterior.

1,96 × 4,30 2
𝑛=( ) = 71,03 ≅ 71 mujeres policía
1

Observa que la desviación típica no la conocíamos y, por ello, se ha empleado su


estimación, el cual es un recurso empleado en la práctica, pues lo normal es que no
conozcamos el valor real de la desviación típica. En otras ocasiones lo que se hace es
estimar la desviación típica cogiendo una muestra piloto (que es una muestra que se
recoge previamente de cara a «tantear» las características de la población para tener en
cuenta estos aspectos para cuando se recoja la muestra grande. En la práctica también es
común la estrategia de las muestras piloto). Si se emplea «s» en lugar de la desviación de
la población real tendremos que usar la distribución T en lugar de la Z tal y como sucedía
cuando en la creación del IC no conocíamos σ.

También es habitual el redondeo puesto que el tamaño de la muestra ha de ser


siempre ─lógicamente─ entera, así en el caso del ejemplo anterior redondeamos a 71
mujeres.

TEMA 7 – Ideas clave © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

7.5. Intervalo de confianza para la proporción

Habiendo visto cómo se razona y procede para construir un IC, proseguimos con los
diferentes casos que se nos presentan, esta vez nos interesa hallar el IC para la proporción
donde de nuevo hemos empleado el TCL para saber que si la muestra es suficientemente
grande 𝑝̂ se distribuirá como una normal de media p y desviación típica √𝑝(1 − 𝑝)/𝑛.

𝑝̂ (1 − 𝑝̂ ) 𝑝̂ (1 − 𝑝̂ )
𝑝 ∈ [𝑝̂ − 𝑧𝜎⁄2 √ ; 𝑝̂ + 𝑧𝜎⁄2 √ ]
𝑛 𝑛
1−𝛼

Que también podemos expresar abreviadamente a través del margen de error como:

𝑝̂ (1 − 𝑝̂ )
𝑝̂ ± 𝐸 con 𝐸 = 𝑧𝛼/2 √
𝑛

De modo más o menos análogo al de la media (teniendo en cuenta las diferencias en


cuanto a desviación típica, etc.) el tamaño muestral necesario fijando un error
determinado es:

2
𝑧𝛼/2 √𝑝̂ (1 − 𝑝̂ ) 𝑧𝛼/2 2 𝑝̂ (1 − 𝑝̂ )
𝑛=( ) =
𝐸 𝐸2

Ejemplo 8

Se ha interrogado en un trabajo de estadístico escolar a 100 jóvenes sobre si fuman o no.


30 afirmaron fumar mientras que 70 se declararon no fumadores. ¿Qué porcentaje de
fumadores habrá en este instituto con un nivel de confianza del 95%?

Tenemos que 𝑝̂ = 30/100=0,3 siendo n=100. El valor crítico es 1,96 como ya hemos
visto. Por tanto tenemos que el IC para p es:

0,3(0,7) 0,3(0,7)
𝑝 ∈ [0,3 − 1,96√ ; 0,3 + 1,96√ ] = 𝑝 ∈ (0,21; 0,39)
100 100
0,95

TEMA 7 – Ideas clave © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

7.6. Intervalo de confianza para la varianza de una población


normal

Vamos a estudiar ahora el caso del intervalo de confianza para la varianza 2 de una
población N (;) con  desconocida, para un nivel de confianza 1- .

Ahora si 𝑋 → 𝑁(𝜇; 𝜎) y tenemos una muestra 𝑋 ∶ (𝑥1 , … , 𝑥𝑖 , … , 𝑥𝑛 ) que es aleatoria con


varianza s2 tenemos que:

(𝑛 − 1)𝑠 2 (𝑛 − 1)𝑠 2
𝜎2 ∈ [ ; ]
𝑥1−𝛼⁄ 𝑥𝛼⁄
2 2 1−𝛼

Donde 𝑥𝛼⁄2 es el valor crítico que deja una probabilidad acumulada de 𝛼⁄2 en una
distribución que no hemos visto todavía y que se denomina Chi cuadrada de Pearson.

2
(𝑛 − 1)𝑠 2
𝜒𝑛−1 =
𝜎2

A pesar de que se escribe «Chi» se debe pronunciar «Ji». Los grados de libertad que tiene
la Chi Cuadrado son n-1, aspecto que hay que tener en cuenta cuando se localiza en las
tablas.

Conviene saber que esta distribución no es simétrica como la normal o la T-Student


tal y como podemos apreciar.

TEMA 7 – Ideas clave © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

Además los valores de la 𝜒2 han de ser positivos como su cuadrado indica (ya que un
número al cuadrado no puede ser negativo). A medida que los G.L. de la 𝜒2 aumentan se
va acercando a la Normal. Del mismo modo que con la normal y la T-Student se emplea
una tabla para localizar sus valores críticos.

Un aspecto importante de cara a comprender la 𝜒2 es que los valores críticos no son


simétricos como ocurría anteriormente con la proporción (por ejemplo -1.96 y +1.96)
sino que ahora tenemos que ambos son positivos y que presentan magnitudes diferentes.

Razón por la que en la tabla anterior está dividida en dos clases de valores críticos: los
«no significativos», donde localizaremos al 𝑋𝛼⁄2 y los «significativos» donde

localizaremos el 𝑋1− 𝛼2 .

TEMA 7 – Ideas clave © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

Ejemplo 9:

Partiendo de los siguientes datos:

Peso en Kilos de 100 palomas mensajeras


Peso en Kilos Frecuencia Peso en Kilos Frecuencia
1,80 1 1,93 8
1,81 0 1,94 9
1,82 1 1,95 4
1,83 1 1,96 11
1,84 1 1,97 3
1,85 1 1,98 4
1,86 1 1,99 3
1,87 2 2,00 7
1,88 3 2,01 2
1,89 5 2,02 4
1,90 7 2,03 5
1,91 6 2,04 1
1,92 8 2,05 2

Calcula un intervalo de confianza al 95% para la varianza de la población


correspondiente.

1. Lo primero que hacemos es establecer entonces la confianza = 0,95

2. Ya que n=100, tenemos que buscando en las tablas de la Chi-Cuadrado (O


ayudándonos del Excel) tenemos que 𝑋0,025 = 73,4 y 𝑋0,975 = 128.

3. Calculamos s2 resultando 0,002822. De modo que (𝑛 − 1)𝑠 2 = 99 ∙ 0,002822 =


0,2794. Ya contaríamos por tanto con todos los valores necesarios para sustituirlos en
la fórmula del IC.

0,2794 0,2794
𝜎2 ∈ [ ; ] = [0,0021; 0,0039]
128 73,4 0,95

TEMA 7 – Ideas clave © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

7.7. Intervalo de confianza para la diferencia de medias y


proporciones

Ahora pasaremos a ver brevemente los casos en los que comparamos dos poblaciones y
entonces nos va a interesar construir el intervalo de confianza para la diferencia de
medias (1 - 2) de dos poblaciones normales en diferentes casos. Como caso final
veremos el caso de la diferencia de proporciones (p1-p2) también.

a) Supondremos primeramente que las varianzas son distintas y conocidas, al


nivel de confianza 1- .

𝜎2 𝜎2
(𝜇1 − 𝜇2 ) ∈ [(𝑥̅ − 𝑦̅) ∓ 𝑧𝛼⁄ √ 1 + 2 ]
2 𝑛 𝑚
1−𝛼

Donde «n» y «m» son los tamaños muestrales respectivos de la muestra de «las X» y
de «las Y».

b) En este segundo caso las varianzas serán iguales y conocidas:

1 1
(𝜇1 − 𝜇2 ) ∈ [(𝑥̅ − 𝑦̅) ∓ 𝑧𝛼⁄ 𝜎√ + ]
2 𝑛 𝑚
1−𝛼

c) Ahora tratamos el caso de varianzas desconocidas pero idénticas.

1 1 (𝑛 − 1)𝑠𝑥2 + (𝑚 − 1)𝑠𝑦2
(𝜇1 − 𝜇2 ) ∈ [(𝑥̅ − 𝑦̅) ∓ 𝑡𝑛+𝑚−2;𝛼⁄ √ + √ ]
2 𝑛 𝑚 𝑛+𝑚−2
1−𝛼

A pesar de que la fórmula es compleja, lo interesante es hacerse una idea de que la


segunda raíz expresa algo así como la desviación típica combinada (o ponderada por
sus respectivos tamaños muestrales) de ambas y, por ello, sirve de sustituta de la
desviación típica σ de la fórmula de la varianza conocida, la cual ahora desconocemos.

Observa que al emplear las cuasivarianzas multiplicamos ahora por «n-1» y «m-1»
estas y por ello dividimos entre «n+m-2» para obtener el promedio.

TEMA 7 – Ideas clave © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

d) Por último vamos a ver como calcular IC para la diferencia (p1-p2) de proporciones
poblacionales provenientes de dos poblaciones Binomiales con proporciones de éxito
p1 y p2 respectivamente. De nuevo estas poblaciones pueden tener tamaños de muestra
diferentes «n» y «m». Además necesitamos que tales tamaños sean lo suficientemente
altos. Bajo estas condiciones, tenemos:

𝑝̂ 1 (1 − 𝑝̂ 1 ) 𝑝̂ 2 (1 − 𝑝̂ 2 )
(𝑝1 − 𝑝2 ) ∈ [(𝑝̂ 1 − 𝑝̂ 2 ) ∓ 𝑧𝛼⁄ √ + ]
2 𝑛 𝑚

No vamos a ver ejemplos de aplicación de las fórmulas de diferencia de parámetros,


puesto que las diferencias de parámetros se suelen plantear a nivel estadístico como
contrastes de hipótesis que permitan observar si hay o no diferencias.

De todos modos puedes encontrar ejemplos en los textos propuestos en «Cómo estudiar
este tema».

7.8. Intervalos de confianza robustos

Mediante el uso de las medidas robustas vistas en el tema 2, es posible redefinir todos
los intervalos de confianza vistos para hacerlos robustos frente a la presencia de
outliers en las muestras. Para ello, haremos uso de las medidas robustas vistas
en el tema 2 y trabajaremos, por tanto, con conjuntos winsorizados. Gracias a que
estos conjuntos eliminan los valores más extremos de su conjunto, los outliers no tienen
ninguna influencia en los análisis realizados sobre los datos. Los cambios a realizar sobre
las fórmulas, en el caso del intervalo de confianza para la media, son los siguientes:

» Uso de la media recortada: dado que la media es una medida que, como ya vimos,
es sensible a los outliers, la cambiaremos por la media recortada.

» Uso de la cuasidesviación típica winsorizada: en vez de usar la cuasidesviación


típica normal, utilizaremos la cuasidesviación típica winsorizada. Dado que hemos
eliminado en nuestras muestras los valores más extremos, es necesario que las
medidas utilizadas en las fórmulas sean consecuentes con este hecho.

TEMA 7 – Ideas clave © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

» Modificación del tamaño de la población: al eliminar los valores extremos de


nuestra muestra, debemos reducir el tamaño n en consecuencia. Recordemos que
utilizábamos un valor α para determinar el porcentaje de elementos que íbamos a no
tener en cuenta en los cálculos. Dicho parámetro nos resultará útil para aplicarlo en
las fórmulas y determinar el valor n real sobre el que estamos trabajando.

Tras realizar estos cambios y teniendo en cuenta que denominaremos como β al valor
de significación para evitar choques de nomenclatura, podemos construir un
intervalo de confianza robusto para la media recortada siguiendo la siguiente fórmula:

𝑆𝑤 𝑆𝑤
[𝑥̅𝛼 − 𝑡 𝛽 , 𝑥̅𝛼 + 𝑡𝑛−2𝑘−1;𝛽/2 ]
𝑛−2𝑘−1;
2 (1 − 2𝛼 )√𝑛 (1 − 2𝛼)√𝑛

Donde listamos qué es cada parámetro a continuación:

- k: es un parámetro que se calcula como la parte entera de 𝑛 · 𝛼.


- 𝑥̅ 𝛼 : es la media recortada de la muestra.
- 𝑡𝑛−2𝑘−1;𝛽: es una t-student con grados de libertad n-2k-1 con nivel de significación
2

de 𝛽/2.
- 𝑆𝑤 : es la cuasidesviación típica winsorizada.
- 𝛼: porcentaje de recorte usado en la media winsorizada utilizada.

Tal y como puede verse, el intervalo resultante es muy similar al intervalo de


confianza para la media normal y todos los cambios realizados sobre él responden
al proceso de winsorización realizado sobre la muestra extraída de la población con
objeto de evitar trabajar con posibles outliers.

TEMA 7 – Ideas clave © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

Diferenciación de conceptos: «confianza» vs. «intervalos de confianza»

En este vídeo vamos a ver estos dos conceptos y a aprender a diferenciarlos.

Accede al vídeo a través del aula virtual

7.9. Referencias bibliográficas

Ríus, F. (1998). Bioestadística: Métodos y aplicaciones. Málaga: Universidad de Málaga.


Publicaciones. Versión electrónica:
https://www.bioestadistica.uma.es/baron/apuntes/clase/apuntes/pdf/

Triola, M. F. (2009). Estadística (10ª ed.). México: Pearson.

TEMA 7 – Ideas clave © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

Lo + recomendado

Lecciones magistrales

Buscando los valores críticos en las tablas de diferentes distribuciones

En esta lección magistral veremos cómo manejar las tablas de distribuciones estadísticas.
Veremos el manejo de la normal (0,1), la de la T-Sudent y la de Chi Cuadrada.

La lección magistral está disponible en el aula virtual

No dejes de leer…

Un estadístico entre cervezas negras

Te recomiendo que leas este artículo en inglés sobre el origen de la T-Student y el porqué
de este nombre tan peculiar. Se trata de una interesante anécdota de la historia de la
Estadística y, más aún si cabe, porque tiene relación con la cerveza negra, ¡una auténtica
delicia!

Accede al artículo desde el aula virtual o a través de la siguiente dirección web:


http://www.breweryhistory.com/journal/archive/121/bh-121-113.htm

TEMA 7 – Lo + recomendado © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

No dejes de visitar…

Calculadoras online de las principales distribuciones de probabilidad

Te recomiendo que investigues en la interesante web de Stat Trek en la cual puedes


emplear diferentes applet para el cálculo de los valores de diferentes distribuciones:
continuas como la normal, T-Student, chi cuadrada, etc. y discretas como la binomial,
poisson, multinomial, etc.

Accede a la página desde el aula virtual o a través de la siguiente dirección web:


http://stattrek.com/online-calculator/normal.aspx

TEMA 7 – Lo + recomendado © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

+ Información

Bibliografía

Kreyszig, E. (1983) Introducción a la Estadística Matemática. México: Limusa. (Ver


capítulo 11: Estimación de Parámetros).

Martín Andrés, A. (2004). Bioestadística para las ciencias de la salud. Madrid: Norma-
Capitel.

Moore, D. S. (2006). Introduction to the practice of statistics (5th ed.). New York:
Freeman and Company.

TEMA 7 – + Información © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

Test

1. ¿Qué es un valor crítico en términos de inferencia?


A. Un valor sumamente importante en los IC que depende de la muestra.
B. Es el valor de una distribución que acumula cierta probabilidad.
C. Se trata de un concepto fundamental cuando manejamos distribuciones
normales.
D. Las respuestas A y C son correctas.

2. Empleamos intervalos de confianza entre otras razones porque…


A. La estimación puntual se queda corta en el sentido de que no sabemos cuán
bueno es una estimación puntual.
B. Es una buena manera de aproximarnos al parámetro poblacional tanto como
deseemos o podamos.
C. Si no podemos realizar la estimación puntual que es más exacta nos
conformamos con el IC.
D. Las respuestas A y B son correctas.

3. ¿Qué es o a qué es igual «E»?


A. Al estimador, que también puede ser anotado como 𝜃̂ .
B. Al margen de error.
C. zα/2
D. Un parámetro de cierto tipo de variable aleatoria.

4. Si hemos calculado el IC para p y resulta: 0,325<p<0,375. ¿Cuánto vale «E»?


A. 0,025
B. 0,25
C. 0,050
D. No se puede calcular con esta información.

TEMA 7 – Test © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

5. Al IC 188cm<µ<209cm que marca con un 95% de confianza la estatura media de un


equipo de la NBA lo interpretamos como…
A. De cada 100 jugadores, 95 estarán contenidos en dicho intervalo.
B. De cada 100 muestras de jugadores, 95 tendrán la media contenido en ese IC.
C. Tenemos una confianza del 95% de que la media de los jugadores de un equipo
de la NBA está contenida entre 188cm y 209cm.
D. Las respuestas B y C son correctas.

6. ¿Qué fórmula es la correcta para hallar el IC de una media poblacional conocida su


varianza?

 σ σ 
A. μ   x − z1-α 2 ; x + z1-α 2 
 n n 1−α

 σ σ 
B. μ   x − t α 2 ; x + t α2 
 n n α

 s s 
C. μ   x − t α 2 ; x + t α2 
 n n 1−α

 σ σ 
D. μ   x − z α 2 ; x + zα2
 n n 1−α

7. Cuando σ no es conocida, en el cálculo de los valores críticos para construir los IC


empleamos:
A. La T-Student.
B. La Chi Cuadrada.
C. La Normal Z.
D. La Normal (0,1).

8. La T-Student es…
A. Una distribución similar a la Normal, de hecho se aproxima a ella a medida que
aumenta el «n».
B. Es diferente de la Normal y la Chi Cuadrada.
C. Es simétrica.
D. Las respuestas A y C son correctas.

TEMA 7 – Test © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

9. ¿Qué es una muestra piloto?


A. Un tipo de encuestas muy empleadas en aviación (por temas de seguridad).
B. Una muestra que se recoge antes de hacer un estudio para tantear las
características de la población.
C. Todo estudio estadístico bien hecho debe constar de una muestra preliminar
llamada «piloto» para posteriormente recoger la muestra definitiva.
D. Es una muestra enorme que no siempre es posible recogerla, pero es lo ideal.

10. ¿En un IC que porcentaje de las veces éste no contendrá al parámetro?


A. (1-α) % de las veces.
B. (1-α)×100% de las veces.
C. α×100% de las veces.
D. Depende de la suerte que hayamos tenido con la muestra concreta que cojamos.

TEMA 7 – Test © Universidad Internacional de La Rioja (UNIR)

También podría gustarte