ESTIMACIÓN POR INTERVALOS
La estimación por intervalos consiste en establecer el intervalo de valores donde
es más probable se encuentre el parámetro. La obtención del intervalo se basa en
las siguientes consideraciones:
• Si conocemos la distribución muestral del estimador podemos obtener las
probabilidades de ocurrencia de los estadísticos muéstrales.
• Si conociéramos el valor del parámetro poblacional, podríamos establecer
la probabilidad de que el estimador se halle dentro de los intervalos de la
distribución muestral.
• El problema es que el parámetro poblacional es desconocido, y por ello el
intervalo se establece alrededor del estimador. Si repetimos el muestreo un
gran número de veces y definimos un intervalo alrededor de cada valor del
estadístico muestral, el parámetro se sitúa dentro de cada intervalo en un
porcentaje conocido de ocasiones. Este intervalo es denominado "intervalo
de confianza".
Ejemplo:
Se generan 100000 muestras aleatorias (n=25) de una población que sigue la
distribución Normal, y resulta:
Se generan 100000 muestras aleatorias (n=25) de una población que sigue la
distribución Normal, y resulta:
En consecuencia, el intervalo dentro del cual se halla el 95% de las Medias
muéstrales es:
Nota: Los valores +-1.96 que multiplican la Desviación Típica de la distribución
muestral son los valores cuya función de distribución es igual a 0.975 y 0.025
respectivamente y se pueden obtener en las tablas de la distribución Normal
estandarizada o de funciones en aplicaciones informáticas como Excel).
Seguidamente generamos una muestra de la población y obtenemos su Media,
que es igual a 4.5. Si establecemos el intervalo alrededor de la Media muestral, el
parámetro poblacional (5.1) está incluido dentro de sus límites:
Ahora bien, la distancia de un punto A a un punto B es la misma que de B a A. Por
esa razón, la distancia desde m a la Media muestral es la misma que va de la
Media muestral a m. En consecuencia, si hacemos un muestreo con un número
grande de muestras observamos que el 95% de las veces (aproximadamente) el
valor de la Media de la población (m) se encuentra dentro del intervalo definido
alrededor de cada uno de los valores de la Media muestral. El porcentaje de veces
que el valor de m se halla dentro de alguno de los intervalos de confianza es del
95%, y es denominado nivel de confianza.
Si queremos establecer un intervalo de confianza en que el % de veces que m se
halle dentro del intervalo sea igual al 99%, la expresión anterior es:
Obtenemos el valor +-2.58 que multiplica la Desviación Típica de la
distribución muestral en las tablas de la distribución Normal
estandarizada o de funciones en aplicaciones informáticas como Excel), y son los
valores cuya función de probabilidad es igual a 0.995 y 0.005 respectivamente.
INTERVALO DE CONFIANZA PARA LA MEDIA
Dada una muestra, X1 ... Xn de una población con media (desconocida) µ y
varianza conocida σ2, un intervalo de 95 % de confianza para la media
poblacional µ es
x¯ ± 1,96σ/√ n
NOTA: El cálculo del intervalo se puede hacer con calculadora y Excel
Ejemplo:
Se quería estimar la velocidad media en una calle con un límite teórico de 50km
por hora. Con un radar oculto, se observó que la velocidad media de una muestra
de 25 coches fue de 58km/hora. Si la desviación típica de la velocidad en esta
calle es de 6km/hora, calcular un intervalo de 95 % de confianza para la verdadera
velocidad media.
Un intervalo de confianza es
58 ± 1,96 ∗ 6/ √ 25 = 58 ± 2,35 = (55,65, 60,35).
Se estima que la verdadera velocidad media en esta calle es entre 55,65km/hora y
60,35km/hora.
¿Qué pasa si la varianza poblacional es desconocida?
El supuesto que se conoce la desviación típica de velocidades en la calle
cuando no se conoce la media es poco realista en la práctica. Una alternativa en
esta situación es usar la (cuasi) desviación típica muestral, s para estimar la
desviación típica de la población. Ahora si la muestra es de tamaño grande, el
intervalo es:
x¯ ± 1,96s/ √ n.
Ejemplo:
En 100 pruebas de alcoholemia de conductores que han saltado un semáforo en
Aranjuez el nivel medio de alcohol en aire era de 0,65 mg/litro con una cuasi
desviación típica de 0,1mg/litro. hallar un intervalo de 95 % de confianza para el
verdadero nivel media de alcohol en el aire para conductores que saltan el
semáforo.
El intervalo es 0,65 ± 0, 02 = (0,63, 0,67).
INTERVALO DE CONFIANZA PARA LA DIFERENCIA DE MEDIAS
Sean X11, X12, ... X 1n1, una muestra aleatoria de n1 observaciones tomadas de una
primera población con valor esperado μ1, y varianza σ21; y X21, X22, ... X2n2, una
muestra aleatoria de n2 observaciones tomada de la segunda población con valor
esperado μ2 y varianza σ2 2. Si X1 y X2 son las medias muéstrales, la estadística X1
− X2 es un estimador puntual de μ1 − μ 2, y tiene una distribución normal si las dos
poblaciones son normales, o aproximadamente normal si cumple con las
condiciones del teorema del límite central (tamaños de muestras relativamente
grandes). Por lo tanto,
Para calcular el intervalo de confianza para la diferencia de dos medias se debe
saber si las varianzas poblacionales son conocidas o desconocidas, y en caso de
que sean desconocidas, se debe probar si son igual es o diferentes. Cada uno de
estos tres casos se analizarán por separado.
Varianzas conocidas pero diferentes, σ1 ≠ σ2
Si las varianzas poblacionales son conocidas y diferentes, los pasos a seguir para
encontrar el intervalo de confianza son los siguientes:
a) El estadístico usado como estimador puntual de la diferencia de medias μ1 − μ 2,
será T = x1 − x2, que es un estimador suficiente.
b) La variable aleatoria asociada con el estimador será la variable normal estándar
dada por:
c) Para calcular el intervalo de confianza se debe tener en cuenta el nivel
de confianza que se quiere considerar.
Teorema. Si x1 − x2 son las medias de dos muestras aleatorias independientes de
tamaño n1 y n2 tomadas de poblaciones que tienen varianzas conocidas σ 21 y σ21,
respectivamente, entonces el intervalo de confianza para μ 1 – μ2 es:
Ejemplo
Construya un intervalo de confianza del 94% para la diferencia real entre las
duraciones de dos marcas de focos, si una muestra de 40 focos tomada al azar de
la primera marca dio una duración media de 418 horas, y una muestra de 50 focos
de otra marca dieron una duración media de 402 horas. Las desviaciones
estándares de las dos poblaciones son 26 horas y 22 horas, respectivamente.
Solución. Tenemos que: x1 = 418, x1 = 402,
σ1 = 26, σ2 = 22, n1 = 40, n2 = 50, Z = 1.88
El intervalo de confianza es, entonces:
Varianzas desconocidas e iguales (σ21 = σ21 = σ2)
Cuando las varianzas son desconocidas, se debe realizar previamente una prueba
estadística para verificar si éstas son iguales o diferente s. Para hacerlo debemos
hace r uso de la distribución F, bien sea mediante el cálculo de la probabilidad de
que la muestra tomada provenga de dos poblaciones con varianzas
iguales, o mediante el uso de un intervalo de confianza para la relación de
dos varianzas, según se estudiará más adelante. Como se desconocen las
varianzas de la población, se usa n las varianzas de las muestras como
estimadores. El procedimiento a seguir para el cálculo del intervalo de confianza
para la diferencia de dos medias será el siguiente: a) El estadístico usado como
estimador puntual de la diferencia de medias μ 1 − μ2 será x1 – x2, que es un
estimador suficiente.
b) La variable aleatoria asociada con el estimador será la variable definida como (se
usa t en caso de muestras pequeñas):
donde Sp es un estimador combinado de las S2, “mejor” que S21, S22
por separado, donde
c) Para calcular el intervalo de confianza se debe tener en cuenta el nivel de
confianza que se quiere considerar y los grados de libertad que se calculan
g.l.= n1 + n2 – 2
De nuevo, manipulando la expresión anterior en forma similar al caso previo se llega
al siguiente teorema que nos define el intervalo de confianza para la diferencia entre
dos medias μ1 − μ2 con varianzas desconocidas pero iguales:
Teorema. Si x1, x2, s21, s22 son las medias y las varianzas de dos muestras
aleatorias de tamaños n1, n2, respectivamente, tomadas de dos poblaciones
normales e independientes con varianzas desconocidas pero iguales, entonces un
intervalo de confianza para la diferencia entre medias μ 1 − μ2 es:
Ejemplo. La siguiente tabla presenta los resultados de dos muestras aleatorias para
comparar el contenido de nicotina de dos marcas de cigarrillos.
Suponiendo que los conjuntos de datos provienen de muestras tomadas al azar de
poblaciones normales con varianzas desconocidas e iguales, construya un intervalo
de confianza del 95% para la diferencia real de nicotina de las dos marcas.
Solución. Como las varianzas son iguales, calculamos s2p que está dado por:
S2p = (9)0.52 + (7)0.72 = 0.355 ------→ 0.355 --------→ Sp=0.596
16
El intervalo de confianza del 95% está dado por (t (0.025, g.l.16) = 2.21):
3.1-2.7-2.21 (0.596) √ 1/10 + 1/8 < μ1 − μ2 < 3.1-2.7+2.21 (0.596) √ 1/10 + 1/8
-0.2 < μ1 − μ2 < 1.0
Varianzas desconocidas y diferentes σ21 ≠ σ22
a) El estadístico usado como estimador puntual de la diferencia de medias μ 1 − μ 2,
será x1 − x2, que es un estimador suficiente
b) La variable aleatoria asociada con el estimador será la variable t definida como:
c) El intervalo de confianza está dado por el siguiente teorema, basado en
la distribución t con n grados de libertad.
Teorema. Si x1, x2, s21, s21 son las medias y las varianzas de dos muestras
aleatorias de tamaños n1, n2, respectivamente, tomadas de dos poblaciones
normales e independientes con varianzas desconocidas y diferentes, entonces un
intervalo de confianza para la diferencia entre medias μ 1 − μ2 es (nuevamente para
el caso de muestras pequeñas):
Los grados de libertad están dados por:
Nota: el valor obtenido se redondea al entero más próximo.
Nota. Si llevamos a cabo un cálculo de intervalo de confianza para diferencia de
medias, suponiendo que las varianzas no son iguales, en el dado caso que sí lo
fueran, perderíamos muy poco, y el intervalo obtenido sería un poco conservador.
El caso de que supongamos que las varianzas son iguales, siendo que no lo son,
nos produce un error mayor que puede ser considerable por lo que una sugerencia
es usar varianzas diferentes como regla general.
Ejemplo
Cierto metal se produce, por lo común, mediante un proceso estándar. Se desarrolla
un nuevo proceso en el que se añade una aleación a la producción del metal. Los
fabricantes se encuentran interesados en estimar la verdadera diferencia entre las
tensiones de ruptura de los metales producidos por los dos procesos. Para cada
metal se seleccionan 12 ejemplares y cada uno de éstos se somete a una tensión
hasta que se rompe. La siguiente tabla muestra las tensiones de ruptura
de los ejemplares, en kilogramos por centímetro cuadrado:
Si se supone que el muestreo se llevó a cabo sobre dos distribuciones normales e
independientes, obtener los intervalos de confianza estimados del 95 y 99% para la
diferencia entre los dos procesos. Interprete los resultados.
Solución:
Calculamos los valores que necesitamos.
n Media S
12 443.3 24.8
12 451.4 14.9
95% de confianza
t1 = 2.10, t2 = -2.10
Por lo tanto:
Y para 99% de confianza
t1 = 2.88, t2 = -2.88
INTERVALO DE CONFIANZA PARA LA PROPORCIÓN
Un estimador puntual de la proporción P en un experimento binomial está dado por
la estadística P=X/N, donde X representa el número de éxitos en N pruebas.
Por tanto, la proporción de la muestra p=x/n se utilizaría como estimador puntual del
parámetro P.
Si no se espera que la proporción P desconocida este demasiado cerca de 0 o de
1, se puede establecer un intervalo de confianza para P al considerar la distribución
muestral de proporciones.
Considerando el valor z para la distribución de proporciones
Ejemplo
La probabilidad de obtener un 3 en un dado trucado es de 0,18. Encuentra el
intervalo característico para la proporción de treses en tandas de 100 lanzamientos,
correspondiente a una probabilidad del 95,44%.
Solución:
La proporción de treses en tandas de 100 lanzamientos sigue una distribución
normal de media
P=0,18 y de desviación típica
Para una probabilidad del 95,44%, tenemos que:
P [z z /2] = 0,9544 + 0,0228 = 0,9772 → z /2 = 2
El intervalo característico será:
(0,18 - 2 · 0,038; 0,18 + 2 · 0,038); es decir:
(0,104; 0,256)
Esto significa que, en el 95,44% de las tandas de 100 lanzamientos, la proporción
de treses está entre 0,104 y 0,256.