UNIDAD 2
2.1 INTRODUCCIÓN A LA ESTIMACION
En inferencia estadística se llama estimación al conjunto de técnicas que
permiten dar un valor aproximado de un parámetro de una población a partir
de los datos proporcionados por una muestra.
EJEMPLO:
1.- ESTIMACIÓN A PARTIR DE UNA MUESTRA
Habitualmente, lo normal es que se desconozcan la media y la desviación
típica de la población y que, mediante técnicas de muestreo, se busque
estimarlas con la fiabilidad necesaria. Así, si para 400 individuos de una
región, elegidos al azar, se obtiene una renta per cápita de 1.215.000
ptas, con una desviación típica de 650.000 ptas, podemos hacernos dos
preguntas:
¿La renta per cápita de los habitantes de toda la región será de
1.215.000 ptas?
¿Qué seguridad se tiene de tal afirmación?
Cuando se contestan estas preguntas se está haciendo una estimación a
partir de la muestra.
2.- INTERVALOS DE CONFIANZA
En este apartado vamos a dar respuesta a las dos preguntas anteriores.
Intervalo de confianza para la media muestral
Al intervalo
se le llama intervalo de confianza para la media poblacional, siendo los
elementos que aparecen en dicho intervalo, los ya estudiados
anteriormente.
La probabilidad de que la media de la población se encuentre en este
intervalo es , que es el nivel de confianza. Si la confianza es , suele
decirse que el nivel de significación es 1- , o nivel de riesgo.
En el caso en que la desviación típica de la población sea desconocida ( ),
no tendríamos más remedio que sustituirla por la desviación muestral s; así
el intervalo de confianza para la media poblacional , para
, sería
con una probabilidad de , siendo
y s la media y la desviación típica de la muestra, respectivamente.
A
se le llama error típico de la media.
Ejemplo: para una muestra de 400 personas elegidas al azar se obtiene
una renta per cápita de 1.215.000 ptas. Si la desviación típica de la
renta per cápita para la población es de 700.000 ptas, calcula el intervalo
de confianza para la media poblacional con un nivel de significación de:
0,1
0,05
Ejercicios:
Para una muestra de 30 alumnos se obtuvo una nota media en el último
examen de matemáticas de
, con una desviación típica s= 1'92. Determina el intervalo de confianza al
80%. Interpreta el resultado.
El peso medio de una muestra de 100 recién nacidos es 3.200 gramos.
Sabiendo que la desviación típica de los pesos de la población de recién
nacidos es de 150 gramos, halla el intervalo de confianza para la media
poblacional para una significación de 0'05
3.- ERROR ADMITIDO Y TAMAÑO DE LA MUESTRA
Error admitido
Cuando decimos que la media poblacional
con un nivel de confianza
, estamos admitiendo un error máximo de
. A este número se le llama error máximo admisible.
Tamaño muestral
El tamaño muestral mínimo de una encuesta depende de la confianza que se
desee para los resultados y del error máximo que se esté dispuesto a
asumir.
El tamaño mínimo n de una muestra viene dado por:
Para la media:
Para tamaños de muestra mayores que n el error será menor que E.
Ejercicios:
Se desea realizar una investigación para estimar el peso medio de los
hijos recién nacidos de madres fumadoras. Se admite un error máximo de
50 gramos, con una confianza del 95%. Si por estudios anteriores se sabe
que la desviación típica del peso medio de tales recién nacidos es de 400
gramos, ¿qué tamaño mínimo de muestra se necesita en la investigación?
Para 96 familias españolas, elegidas al azar, se ha determinado que la
televisión permanece encendida en la casa una media de 217 minutos
diarios; la desviación típica de la muestra fue de 40 minutos.
Para una fiabilidad del 95%, ¿qué error se asume cuando se da por
bueno ese dato para el total de las familias españolas?
¿Qué tamaño muestral sería necesario para reducir ese error a la
mitad?
2.2 CARACTERÍSTICA DE UN ESTIMADOR
1) Sesgo. Se dice que un estimador es insesgado si la Media de la
distribución del estimador es igual al parámetro.
Estimadores insesgados son la Media muestral (estimador de la Media de la
población) y la Varianza (estimador de la Varianza de la población):
Ejemplo
En una población de 500 puntuaciones cuya Media (m) es igual a 5.09 han
hecho un muestreo aleatorio (número de muestras= 10000, tamaño de las
muestras= 100) y hallan que la Media de las Medias muestrales es igual
a 5.09, (la media poblacional y la media de las medias muestrales coinciden).
En cambio, la Mediana de la población es igual a 5 y la Media de las
Medianas es igual a 5.1 esto es, hay diferencia ya que la Mediana es un
estimador sesgado.
La Varianza es un estimador sesgado. Ejemplo: La Media de las Varianzas
obtenidas con la Varianza
en un muestreo de 1000 muestras (n=25) en que la Varianza de la población
es igual a 9.56 ha resultado igual a 9.12, esto es, no coinciden. En cambio,
al utilizar la Cuasivarianza
la Media de las Varianzas muestrales es igual a 9.5, esto es, coincide con
la Varianza de la población ya que la Cuasivarianza es un estimador
insesgado.
2) Consistencia. Un estimador es consistente si aproxima el valor del
parámetro cuanto mayor esn (tamaño de la muestra).
Algunos estimadores consistentes son:
Ejemplo
En una población de 500 puntuaciones cuya Media (m) es igual a 4.9 han
hecho tres muestreos aleatorios (número de muestras= 100) con los
siguientes resultados:
vemos que el muestreo en que n=100 la Media de las Medias muestrales
toma el mismo valor que la Media de la población.
3) Eficiencia. Diremos que un estimador es más eficiente que otro si la
Varianza de la distribución muestral del estimador es menor a la del otro
estimador. Cuanto menor es la eficiencia, menor es la confianza de que el
estadístico obtenido en la muestra aproxime al parámetro poblacional.
Ejemplo
La Varianza de la distribución muestral de la Media en un muestreo aleatorio
(número de muestras: 1000, n=25) ha resultado igual a 0.4. La Varianza de
la distribución de Medianas ha resultado, en el mismo muestreo, igual
a 1.12, (este resultado muestra que la Media es un estimador más eficiente
que la Mediana).
2.3 ESTIMACIÓN PUNTUAL
La estimación estadística se divide en dos grandes grupos: la estimación
puntual y la estimación por intervalos. La estimación puntual consiste en
obtener un único número calculado a partir de las observaciones muestrales,
y que es utilizado como estimación del valor del parámetro θ. Se le llama
estimación puntual porque a ese número, que se utiliza como estimación del
parámetro θ, se le puede asignar un punto sobre la recta real. En la
estimación por intervalos se obtienen dos puntos ( un extremo inferior y un
extremo superior) que definen un intervalo sobre la recta real, el cual
contendrá con cierta seguridad el valor del parámetro θ.
Esencialmente son tres los parámetros de interés:
- En el caso de que investiguemos una variable cuantitativa:
a) Para la media de la población μ tomaremos como aproximación la
media de la muestra.
b) Para la varianza de la población σ2 tomaremos la cuasivarianza de
la muestra.
- Si el estudio se centra en el estudio de un
carácter cualitativo el parámetro de interés será la proporción de
elementos de la población que pertenecen a cierta categoría C que
lo aproximaremos con la correspondiente proporción en la muestra.
2.4 ESTIMACIÓN POR INTERVALOS
Con la estimación puntual se estima el valor del parámetro
poblacional desconocido, a partir de una muestra. Para cada muestra
se tendrá un valor que estima el parámetro. Esta estimación no es
muy útil si desconocemos el grado de aproximación de la estimación
al parámetro. Es deseable conocer un método que nos permita saber
donde se encuentra el parámetro con un cierto grado de certeza.
Este método va a ser la determinación de un intervalo donde estará
el parámetro con un nivel de confianza.
El intervalo se contruye a partir de una muestra, entonces, para
cada muestra se tendrá un intervalo distinto. Llamaremos a al error
que se permite al dar el intervalo y el nivel de confianza será 1- .
Un intervalo tiene un nivel de confianza 1- cuando el 100·(1- )%
de los intervalos que se construyen para el parámetro lo contienen.
Es deseable para un intervalo de confianza que tenga la menor
amplitud posible, esta amplitud dependerá de:
El tamaño de la muestra, mientras mayor sea el tamaño mejor
será la estimación, aunque se incurre en un aumento de costes
Nivel de confianza, si se pide mayor nivel de confianza, el
intervalo será mayor.
EJEMPLO:
I. Una muestra aleatoria de 36 cigarrillos de una marca
determinada dio un contenido promedio de nicotina de 3 miligramos.
Suponga que el contenido de nicotina de estos cigarrillos sigue una
distribución normal con una desviación estándar de 1 miligramo.
a) Obtenga e interprete un intervalo de confianza del 95% para el
verdadero contenido promedio de nicotina en estos cigarrillos.
b) El fabricante garantiza que el contenido promedio de nicotina es
de 2,9 miligramos, ¿qué puede decirse de acuerdo con el intervalo
hallado?
C)
Interpretación: Tenemos una certeza del 95% de que el
verdadero contenido promedio de nicotina se halla entre 2´67 y
3´33 [Link] 2´9 se encuentra en el intervalo
hallado no podemos descartarlo como valor posible del
parámetro
2.4.1 INTERVALO DE CONFIANZA PARA LA MEDIA
Como hemos mencionado, los casos anteriores se presentarán poco
en la práctica, ya que lo usual es que sobre una población quizás
podamos conocer si se distribuye normalmente, pero el valor exacto
de los parámetros y no son conocidos. De ahí nuestro interés
en buscar intervalos de confianza para ellos.
El problema que tenemos en este caso es más complicado que
el anterior, pues no es tan sencillo eliminar los dos parámetros a la
vez. Para ello nos vamos a ayudar de lo siguiente:
Por el teorema de Cochran sabemos por otro lado que:
y que además estas dos últimas distribuciones son independientes.
A partir de estas relaciones podemos construir una distribución de
Student con n-1 grados de libertad (cf. figura 8.3):
Figura: La distribución es algo diferente a cuando n es
pequeño, pero conforme éste aumenta, ambas distribuciones se
aproximan.
Simplificando la expresión anterior tenemos:
Dado el nivel de significación buscamos en una tabla de el
percentil , , el cual deja por encima de si la
cantidad de la masa de probabilidad (figura 8.4). Por simetría
de la distribución de Student se tiene que ,
luego
Figura: La distribución de Student tiene las mismas propiedades de
simetría que la normal tipificada.
El intervalo de confianza se obtiene a partir del siguiente cálculo:
Es decir, el intervalo de confianza al nivel para la esperanza
de una distribución gaussiana cuando sus parámetros son
desconocidos es:
Figura: Intervalo de confianza para cuando es desconocido (caso
general).
Al igual que en el caso del cálculo del intervalo de confianza
para cuando es conocido, podemos en el caso desconocido,
utilizar la función de verosimilitud (figura8.5) para representarlo
geométricamente. En este caso se usa la notación:
EJEMPLO:
Se quiere estimar un intervalo de confianza al nivel de
significación para la altura media de los individuos de una
ciudad. En principio sólo sabemos que la distribución de las alturas es
una v.a. X de distribución normal. Para ello se toma una muestra de n=25
personas y se obtiene
Solución:
En primer lugar, en estadística inferencial, los estadísticos para medir
la dispersión más convenientes son los insesgados. Por ello vamos a dejar
de lado la desviación típica muestral, para utilizar la cuasidesviación
típica:
Si queremos estimar un intervalo de confianza para , es conveniente
utilizar el estadístico
y tomar como intervalo de confianza aquella región en la que
es decir,
o dicho de forma más precisa: Con un nivel de confianza del
podemos decir que la media poblacional está en el intervalo siguiente.
2.4.2 INTERVALO DE CONFIANZA PARA LA DIFERENCIA DE
MEDIAS
Criterios:
- μ1>μ2
- μ1=μ2
- μ1<μ2
Ejemplo:
Se lleva acabo las pruebas de la resistencia a la tensión sobre dos
diferentes clases de largueros de aluminio utilizados en la
fabricación de alas de aeroplanos comerciales de la experiencia
pasada con el proceso de fabricación de largueros y del
procedimiento de prueba, se supone que las desviaciones estándar
de las resistencias a tensión son conocidas. Los datos de la siguiente
tabla son resultado de las pruebas hechas.
Clase de larguero Tamaño de la Media Desviación
muestra Muestral(kg/mm2) estándar(kg/mm2)
1 n1=10
2 n2=12
Si µ1 y µ2 denotan los promedios verdaderos, encuentre el intervalo
de confianza del 40% para la diferencia de medias
1- α=
α=1-.9=0.1
0.1/2=0.05
2.4.3 INTERVALO DE CONFIANZA PARA LA PROPORCIÓN
Dada una variable aleatoria con distribución Binomial B(n, p), el
objetivo es la construcción de un intervalo de confianza para el
parámetro p, basada en una observación de la variable que ha
dado como valor x. El mismo caso se aplica si estudiamos una
Binomial B(1, p) y consideramos el número de veces que ocurre el
suceso que define la variable al repetir el experimento n veces en
condiciones de independencia.
Existen dos alternativas a la hora de construir un intervalo de
confianza para p:
Considerar la aproximación asintótica de
la distribución Binomial en la distribución Normal.
Utilizar un método exacto.
Aproximación asintótica
Tiene la ventaja de la simplicidad en la expresión y en los cálculos,
y es la más referenciada en la mayoría de textos de estadística.
Se basa en la aproximación
que, trasladada a la frecuencia relativa, resulta
Tomando como estadístico pivote
que sigue una distribución N(0, 1), y añadiendo una corrección por
continuidad al pasar de una variable discreta a una continua, se
obtiene el intervalo de confianza asintótico:
donde zα/2 es el valor de una distribución Normal estándar que
deja a su derecha una probabilidad de α/2 para un intervalo de
confianza de (1 − α) · 100 %. Las condiciones generalmente
aceptadas para considerar válida la aproximación asintótica
anterior son:
El intervalo obtenido es un intervalo asintótico y por tanto
condicionado a la validez de la aproximación utilizada. Una
información más general sobre los intervalos de confianza
asintóticos puede encontrase aquí.
Intervalo exacto
Aun cuando las condiciones anteriores no se verifiquen, es posible
la construcción de un intervalo exacto, válido siempre pero algo
más complicado en los cálculos. Es posible demostrar que un
intervalo exacto para el parámetro p viene dado por los valores
siguientes:
donde Fα/2,a,b es el valor de una distribución F de Fisher-Snedecor
con a y b grados de libertad que deja a su derecha una
probabilidad de α/2 para un intervalo de confianza de (1 − α)
· 100 %.
Una justificación de los intervalos de confianza exactos para
distribuciones discretas puede encontrarse aquí.
En el programa siguiente se pueden calcular los intervalos de
confianza asintótico y, si n es menor de 100, también el exacto
para una proporción.
EJEMPLO:
Se quiere estimar el resultado de un referéndum mediante un
sondeo. Para ello se realiza un muestreo aleatorio simple con n=100
personas y se obtienen 35% que votarán a favor y 65% que votarán
en contra (suponemos que no hay indecisos para simplificar el
problema a una variable dicotómica). Con un nivel de significación
del 5%, calcule un intervalo de confianza para el verdadero
resultado de las elecciones.
Solución: Dada una persona cualquiera (i) de la población, el
resultado de su voto es una variable dicotómica:
El parámetro a estimar en un intervalo de confianza
con es p, y tenemos sobre una muestra de tamaño n=100,
la siguiente estimación puntual de p:
Sabemos que
En la práctica el error que se comete no es muy grande si tomamos
algo más simple como
Así el intervalo de confianza buscado lo calculamos como se indica
en la Figura 8.11:
Por tanto, tenemos con esa muestra un error aproximado de 9,3
puntos al nivel de confianza del 95%.
Figura: Región a partir de la cual se realiza una estimación confidencial
para una proporción, con una confianza del 95%.
2.4.4 INTERVALOS DE CONFIANZA PARA LA DIFERENCIA DE
PROPORCIONES
En la inferencia sobre una proporción el problema se concreta en
estimar y contrastar la proporción p de individuos de una
población que presentan una determinada
característica A (proporción de votantes a un partido político,
proporción de parados, ...). El problema se modeliza mediante una
variable dicotómica que toma el valor 1 si se presenta la
característica de interés y 0 en caso contrario, esto es, una
variable de Bernoulli, ,de la que se dispone de una muestra
de tamaño n. Entonces, la proporción poblacional p no es otra cosa
que la media poblacional de dicha variable, estimándose con la
correspondiente proporción muestral o media muestral, .
En el caso de dos poblaciones, se trata de comparar la proporción
en la que se presenta una cierta característica A en las mismas
(comparar la proporción de voto a un partido en dos regiones,
comparar la proporción de parados entre hombres y mujeres, ...).
El problema se modeliza mediante dos variables de Bernoulli
independientes, de las que se dispone de sendas muestras aleatorias
de tamaño y , respectivamente.
Una población I. de C. sobre la proporción poblacional
Proporciones
Dos I. de C. sobre la diferencia de proporciones
poblaciones poblacionales
Intervalo de confianza sobre la proporción poblacional
A partir del estadístico
se construye el intervalo
siendo el valor que en una distribución normal estándar deja a
su derecha una probabilidad de .
Véase en la hoja adjunta un ejemplo.
Cuando se va a realizar una encuesta para estimar una proporción,
lo habitual es plantearse a priori obtener una cierta fiabilidad y
precisión en la estimación, buscando el tamaño muestral necesario
para conseguirlas. La longitud del intervalo de confianza
para p resulta:
De aquí podremos calcular el valor de n en función de la longitud del
intervalo, L, y de su fiabilidad, 1- :
Adviértase que llegamos a un resultado en principio incongruente:
queremos saber cuántas observaciones tenemos que realizar para
estimar p y para ello necesitaremos conocer su estimación, valor que
conoceremos una vez hayamos realizado las observaciones. ¿Cómo
solucionar este problema? Existen tres posibles vías:
a) Si tuviésemos información (encuestas anteriores, opiniones
de experto,...) sobre el posible valor de la proporción a
estimar, sustituiríamos este valor en la anterior expresión.
b) Podríamos realizar una pequeña encuesta (encuesta piloto)
que nos proporcionase una primera evaluación de la proporción
muestral. Además, esta encuesta puede servir para probar y
reformar el cuestionario, organizar el trabajo de campo, etc.
c) Si no contásemos con información alguna ni tuviésemos la
posibilidad de realizar la encuesta piloto, nos pondríamos en
la situación más desfavorable, esto es, la que da lugar al
tamaño muestral más grande para la fiabilidad y precisión
deseadas. Esa situación se produce cuando n alcanza su
máximo, lo cual ocurre cuando p=q=0.5.
En este caso, por otro lado el más habitual, resulta:
En la hoja adjunta se obtiene el tamaño muestral para una fiabilidad
y una precisión determinada en el caso más desfavorable (p=q=0.5).
Intervalo de confianza sobre la diferencia de proporciones
poblacionales
A partir del estadístico
se construye el intervalo
siendo el valor que en una distribución normal estándar deja a
su derecha una probabilidad de
2.4.5 INTERVALOS DE CONFIANZA PARA LA VARIANZA