0% encontró este documento útil (0 votos)
65 vistas72 páginas

Ic 2013

Este documento presenta cinco ejemplos relacionados con la teoría de la estimación. El primero calcula un intervalo de confianza para la media poblacional basado en datos de una muestra. El segundo analiza la relación entre la osteoporosis y el sexo. El tercero estima la proporción de pacientes que se curan de un síndrome neurológico. El cuarto determina el tamaño mínimo de muestra para estimar el tiempo medio de sangría en fumadores. Y el quinto estima la incidencia de la hipertensión

Cargado por

Matías Guzmán
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PPT, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
65 vistas72 páginas

Ic 2013

Este documento presenta cinco ejemplos relacionados con la teoría de la estimación. El primero calcula un intervalo de confianza para la media poblacional basado en datos de una muestra. El segundo analiza la relación entre la osteoporosis y el sexo. El tercero estima la proporción de pacientes que se curan de un síndrome neurológico. El cuarto determina el tamaño mínimo de muestra para estimar el tiempo medio de sangría en fumadores. Y el quinto estima la incidencia de la hipertensión

Cargado por

Matías Guzmán
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PPT, PDF, TXT o lee en línea desde Scribd

Teoría de la estimación

Problema

Ejemplo 1:
Se sabe que el peso de los recién nacidos sigue
una distribución normal con una desviación típica
de 0,75 kg. Si en una muestra aleatoria simple de
100 de ellos se obtiene una media muestral de 3 kg,
y una desviación típica de 0,5 kg, calcular un
intervalo de confianza para la media poblacional
que presente una confianza del 95 %
Problema

Ejemplo 2:
Se cree que la osteoporosis está relacionada con el
sexo.
Para ello se elige una muestra de 100 hombres de
más de 50 años y una muestra de 200 mujeres en
las mismas condiciones. Se obtiene que 10
hombres y 40 mujeres con algún grado de
osteoporosis.
¿Qué podemos concluir con una confianza del 95%?
Problema

Ejemplo 3:
Solo una parte de los pacientes que sufren un
determinados síndrome neurológico consiguen una
curación completa. Si de 64 pacientes observados se
han curado 41, dar una estimaciones puntual y un
Intervalos de la proporción de los que sanan.
¿Qué número de enfermos habría que observar para
estimar la proporción de curados con un error inferior
a 0,05 y una confianza del 95%?
Problema

Ejemplo 4:
Se desea estimar el tiempo medio de sangría en fumadores de
más de 20 cigarrillos diarios, con edades comprendidas entre
35 y 40 años, con una precisión de 5 segundos.
Ante la ausencia de cualquier información acerca de la
variabilidad del tiempo de sangría en este tipo de individuos,
se tomó una muestra preliminar de 5 individuos, en los que se
obtuvieron los siguientes tiempos (en segundos):
97, 80, 67, 91, 73.
• Determinar el tamaño mínimo de muestra, al 95 %, para
cumplir el objetivo
Problema

Ejemplo 5:
Se quiere estimar la incidencia de la hipertensión
arterial en el embarazo. ¿Cuantas embarazadas
tenemos que observar para, con una confianza del 95
%, estimar dicha incidencia con un error del 2% en
Los siguientes casos:

1. Sabiendo que un sondeo previo se ha observado un 9% de


hipertensas.
• 2. Sin ninguna información
CASO DE UNA POBLACIÓN:

1. Distribución de la media muestral aleatoria con


varianza poblacional conocida

2. Lema de Fisher-Cochran: Independencia de la


media y varianza muestrales aleatorias

3. Distribución de la varianza muestral

4. Distribución de la media muestral aleatoria con


varianza desconocida
CASO DE DOS POBLACIONES:

5. Distribución de la diferencia de medias muestrales


aleatorias (con varianzas poblacionales conocidas)

6. Generalización del Lema de Fisher-Cochran

7. Distribución de la diferencia de medias muestrales


aleatorias (con varianzas poblacionales
desconocidas)

8. Distribución del cociente de varianzas muestrales


aleatorias
EJERCICIOS COMPLEMENTARIOS
CUESTIONES PREVIAS
PUNTO 1 Importancia de la distribución normal

¿Por qué merecen un capítulo a parte la distribución de


la media, la varianza , la diferencia de medias y,
en su caso, el cociente de varianzas cuando la población
de la que se extrae la muestra sigue una ley normal?

¿Por qué distribuciones en el muestreo


asociadas a poblaciones normales?
Para dar respuesta a esta pregunta,
reproduciremos un par de párrafos del
texto de Canavos (1990) “Probabilidad y
Estadística”, pp. 131 y 132:

“La distribución normal o Gaussiana es


indudablemente la más importante y la de mayor uso
de las distribuciones de probabilidad.
Es la piedra angular de la inferencia estadística en el
análisis de datos, puesto que las distribuciones de
muchas estadísticas muestrales tienden hacia la
distribución normal conforme crece el tamaño de la
muestra...
Un gran número de estudios muestran que la
distribución normal proporciona una adecuada
representación, por lo menos en una primera
aproximación, de las distribuciones de una gran
cantidad de variables físicas.
Algunos ejemplos específicos incluyen datos
meteorológicos como la temperatura y la precipitación
pluvial, mediciones efectuadas en organismos vivos,
calificaciones en pruebas de actitud, mediciones
físicas de partes manufacturadas, errores de
instrumentación y otras desviaciones de las normas
establecidas, etc”.
PUNTO 2 Reproducción del modelo normal en
combinaciones lineales de variables normales

1) Sabemos que la función característica de una suma


de variables aleatorias independientes coincide con el
producto de las funciones características de dichas
variables aleatorias.

2) Sabemos que

3) En consecuencia para n variables muestrales


independientes X1, X2, ...., Xn
4) En el caso en que la muestra (m.a.s.) proceda de una
población N (µ;σ)

ya que todas las variables muestrales, además de ser


independientes, se distribuyen igual que la población de
la cual proceden y, por tanto, todas ellas tiene media µ y
desviación típica σ.
Como puede observarse, la función característica de una
combinación lineal de variables muestrales (m.a.s.)
procedentes de una población normal obedece a la
función característica de una normal con media la media
poblacional ponderada por la suma de los coeficientes ai
y con varianza la varianza poblacional ponderada por la
suma de los cuadrados de dichos coeficientes.
¡¡Y AQUÍ QUERÍAMOS LLEGAR¡¡

Por tanto, si la muestra procede de una


población normal, los estadísticos que
se formen como combinaciones lineales
de las variables muestrales tendrán:

1. Distribución Normal.
2. Con esperanza la esperanza poblacional
multiplicada por la suma de los
coeficientes de la combinación lineal.
3. Con varianza la varianza poblacional
multiplicada por la suma de los
cuadrados de los coeficientes de la
combinación lineal.
CASO DE UNA
POBLACIÓN N(µ,σ)
1. DISTRIBUCIÓN DE LA MEDIA
MUESTRAL ALEATORIA CON VARIANZA
POBLACIONAL CONOCIDA

Sabemos que :

sea cual sea la distribución de probabilidad de la


población.
En nuestro caso la población es normal y el estadístico
media muestral es una combinación lineal de variables
normales por
llegándose a la siguiente expresión pivotal:

expresión que, al relacionar las medias muestral y


poblacional mediante una distribución de probabilidad
conocida, nos permitirá llevar a cabo inferencias sobre
un parámetro tan importante como la media
poblacional en base a la media muestral si la varianza
de la población es conocida.
No menos importante que la media poblacional es la
varianza poblacional [1], por lo que se hace necesario el
conocimiento de la distribución de probabilidad de la
varianza muestral para formular inferencias sobre ella.
La media de la población puede ser conocida o
desconocida; sin embargo, como es sumamente raro el
primero de los casos adoptaremos el supuesto de
desconocimiento de la misma.
Bajo esta suposición, el conocimiento de la distribución
en el muestreo de la varianza muestral aleatoria exige
previamente el conocimiento del lema de Fisher-
Cochran.
[1] El orden esperado en el desarrollo de este epígrafe, cuando de una
población se trata, sería el siguiente:
1. Distribución de la media muestral aleatoria con varianza poblacional
conocida.
2. Distribución de la media muestral aleatoria con varianza poblacional
desconocida.
3. Distribución de la varianza muestral aleatoria (con media poblacional
desconocida, caso general, o conocida, caso inusual).

Sin embargo,
1) La determinación de la distribución de la varianza muestral aleatoria
(con media poblacional desconocida) exige la utilización del lema de
Fisher-Cochran.
2) La determinación de la distribución de la media muestral aleatoria
con varianza poblacional desconocida exige tanto la utilización del
lema de Fisher-Cochran como el conocimiento de la distribución de la
varianza muestral aleatoria (con media poblacional desconocida,
lógicamente).

De lo expuesto se deduce el orden adoptado en el desarrollo de estas


cuestiones en el caso de una población.
2. LEMA DE FISHER-COCHRAN:
INDEPENDENCIA DE LA MEDIA Y LA
VARIANZA MUESTRALES2
Teorema:
Para una m.a.s de tamaño n procedente de una N(µ;σ) el
estadístico X y el vector X 1  X X 2  X  X n  X 
se distribuyen independientemente.
Corolario:
Si se extrae una m.a.s. de una población N(µ; σ), los
estadísticos X y S2x se distribuyen independientemente

[2] Otra demostración puede verse en Arnaiz, G. (1986): “Introducción a la


Estadística Teorica”, (4ª ed.) Lex Nova, págs 465 a 469.
Demostración del Teorema:

Sea la función
característica conjunta de X X 1  X X 2  X ...X n  X 

Entonces
t
Donde aj  son los coeficientes de una
 (s j  s )
n
combinación lineal de variables muestrales normales tal
que
En consecuencia
donde el segundo factor, no es sino la función
característica conjunta de X 1  X X 2  X ...X n  X 
ya que:

1. Si la función característica conjunta de dos variables


se factoriza en el producto de una función de t y otra de
s, entonces ambas variables son independientes.

2. Además, si uno de estos factores es una función


característica el otro también lo es.

(Lindgren B.W. (1993): “Statistical Theory”, 4ª ed.,


Chapman & Hall, p. 131).
En virtud de este teorema la media muestral aleatoria
y el vector de diferencias se distribuyen
independientemente y, dado que
1 2 2
it  t
e 2 n

es la función característica de la media muestral


aleatoria cuando la m.a.s. se toma de una población
normal, n
1
 2
2  ( si  s ) 2
e i 1

es la función característica n-dimensional del vector


de diferencias.
En consecuencia la media muestral aleatoria y la
varianza muestral aleatoria se distribuyen
independientemente.
Inciso:
Función característica conjunta de X 1  X X 2  X ...X n  X 

y como

entonces
Y como las variables muestrales son independientes
3. DISTRIBUCIÓN DE LA VARIANZA
MUESTRAL (no se conoce la media poblacional)

Sabemos que:
1)
2) Si la población de la que se extrae la m.a.s. es
N(µ; σ) entonces
3) Por el Lema de Fisher-Cochran, X y S2x se
distribuyen independientemente.

Del punto 1) se deduce que

y como X y S2x son independientes


y por tanto

Con lo que

que no es sino la función característica de una


ji-cuadrado con n-1 grados de libertad, por lo que, dada
la unicidad de las funciones características se puede
concluir que
Ya disponemos por tanto de una expresión (expresión
pivotal) que liga la varianza poblacional con la varianza
muestral a través de una distribución conocida y
tabulada.
Esta expresión será de indudable importancia a la hora
de realizar inferencias acerca de la varianza de una
población normal con media desconocida sobre la base
de la varianza de una m.a.s3

[3] Si µ fuese conocida podríamos realizar inferencias sobre σ2 en base a


n
( X i   )2
la expresión 
i 1 n

n
( X i   )2 n
( X i   )2  2 2
Y como 
i 1  2
  n2 entonces 
i 1 n

n
n
Corolario:
Como la esperanza de una chi-cuadrado son sus
grados de libertad y la varianza el doble de sus grados
de libertad, entonces la esperanza y la varianza de la
varianza muestral aleatoria son, para m.a.s.
procedentes de una población normal
Por otra parte, sabíamos que, fuese cual fuese la
distribución de probabilidad de la población

Pero en el caso normal, como µ4 = 3σ4 se tiene que


4. DISTRIBUCIÓN DE LA MEDIA
MUESTRAL ALEATORIA
(con varianza desconocida)

Pasamos a continuación a desarrollar la distribución de


la media muestral cuando la m.a.s. procede de una
población normal con varianza desconocida.
Dicha distribución será de utilidad para realizar
inferencias sobre la media poblacional (lógicamente
también desconocida), en base a la media muestral, en
una tesitura en la que se desconoce la varianza de la
población.
Sabemos que

Sin embargo, esta expresión pivotal no resulta de


utilidad para realizar inferencias sobre µ en caso de
que la varianza poblacional sea desconocida (caso, por
otra parte, muy frecuente).
En consecuencia, tendremos que arbitrar algún
procedimiento que la elimine, de tal forma que tras
dicha eliminación se conozca la distribución de
probabilidad de la expresión resultante.
La eliminación de σ se lleva a cabo dividiendo la
expresión anterior por

Donde, como es sabido


Entonces se tiene que, dado que la media y la varianza
muestrales se distribuyen independientemente (lema de
Fisher-Cochran),

expresión pivotal que relaciona la media muestral y la


media poblacional sin necesidad de conocer la varianza
de la población y que permitirá inferencias sobre µ en
base a X sin conocer σ2
CASO DE DOS
POBLACIONES
N(µ1,σ1) y N(µ2,σ2)
5. DISTRIBUCIÓN DE LA DIFERENCIA DE
MEDIAS MUESTRALES ALEATORIAS
(con varianzas poblacionales conocidas)

Si se tiene interés en la diferencia de dos medias


poblacionales un enfoque viable es formular la
inferencia en base a la diferencia entre las medias
procedentes de dos m.a.s. (una de cada población).
Sean dos poblaciones en las cuales nos interesamos por
una variable aleatoria, denominada ξ1 en la primera
población y ξ2 en la segunda, tal que
De la primera se extrae una m.a.s. de tamaño n
(X1; X2; ...; Xn) y de la segunda otra de tamaño m
(Y1; Y2; …; Ym), muestras independientes.
Entonces se tiene que

y, como las combinaciones lineales de las variables


muestrales presentan distribución normal,
Teniendo la siguiente expresión pivotal:

de utilidad para establecer inferencias sobre la


diferencia entre las medias de dos poblaciones
normales en base a la diferencia entre las medias de las
muestras tomadas de ellas, siempre y cuando se
conozcan las varianzas poblacionales.
En el caso particular de que las dos poblaciones
tengan la misma varianza, la expresión anterior se
particulariza en:
6. GENERALIZACIÓN DEL LEMA DE
FISHER-COCHRAN

Sabemos que

y como las muestras se toman de forma independiente, las


varianzas muestrales se distribuyen independientemente
y, por tanto,

puesto que el modelo chi-cuadrado es reproductivo


respecto de los grados de libertad.
Además,

Es independiente de X y de Y y, por consiguiente,


de la diferencia de ambas ( X  Y ) .
7. DISTRIBUCIÓN DE LA DIFERENCIA DE
MEDIAS MUESTRALES ALEATORIAS
(con varianzas poblacionales
desconocidas, pero iguales)

La tesitura en la que se conoce el valor


de las varianzas de las dos poblaciones
es ciertamente rara, siendo lo normal
que éstas sean desconocidas.
En el caso en que las varianzas poblacionales sean
desconocidas la expresión pivotal

no resulta de utilidad para la realización de


inferencias acerca de la diferencia entre las medias
poblacionales, siendo necesaria una expresión con
distribución de probabilidad conocida que no
dependa de las varianzas poblacionales.
¿CÓMO ELIMINAR LAS
VARIANZAS
POBLACIONALES?

ELLO SÓLO ES
POSIBLE SI AMBAS
SON IGUALES
En este caso se tiene que:

A)

B)

C) Por la generalización del teorema de Fisher-Cochran


nS2x +mS2y se distribuye independientemente de ( X  Y )
D) En consecuencia;
Simplificando:

expresión pivotal que relaciona la diferencia de medias


muestrales con la diferencia de medias poblacionales sin
necesitar del conocimiento de la varianza poblacional
(recuérdese que es la misma en ambas poblaciones).
La expresión anterior también se suele escribir como:

donde S2p recibe el nombre de estimador combinado


(pooled) de la varianza común σ2. Nótese que el
estimador combinado es el promedio ponderado de las
dos cuasivarianzas muestrales, siendo los ponderadores
los grados de libertad.
Llegados a este punto la pregunta natural es
la siguiente:
¿Cuál es la distribución de la diferencia de
medias muestrales si las varianzas
poblacionales son desconocidas y distintas?.
La situación descrita se conoce como el
problema de Behrens-Fisher que sobrepasa
nuestro ámbito.
No obstante, se han propuesto algunas
aproximaciones4.

[4] Hoel, P.G. (1976): “ Introducción a la Estadística Matemática” (2ª ed.),


Ariel, p. 280, propone estimar las varianzas poblacionales a través de las
cuasivarianzas muestrales.
A)Si los tamaños de cada muestra son grandes
(digamos que mayores que 30) entonces las
cuasivarianzas muestrales son muy buenos
estimadores de las varianzas poblacionales, por lo
que
B) Si las muestras son pequeñas, la expresión anterior
se aproximará por una t de Student con v grados de
libertad,

2 2
Sx Sy

n m
v  2
2 2
2 2
Sx Sy
n m

n  1 m 1

Tomando por valor de v el entero más próximo


(aproximación de Welch, la más
popular)
8. DISTRIBUCIÓN DEL COCIENTE DE
VARIANZAS MUESTRALES ALEATORIAS

Sabemos que

Por lo cual

Ambos independientes.
Por tanto,

o bien
En caso de conocerse las medias poblacionales µ1 y µ2
podríamos haber utilizado
Y como

y además se distribuyen independientemente,


entonces
Es decir, imaginando una banda de amplitud ε,
arbitrariamente estrecha, alrededor de la distribución
teórica F(x), el Teorema de Glivenko-Cantelli garantiza
que hay probabilidad 1 (convergencia casi segura) de
que la distribución muestral Fn*(x) llegue a estar
contenida dentro de esa banda si se hace crecer
suficientemente el tamaño muestral.

F*(x k) - F(xk)

F*(x 3) - F(x 3)

x1 x2 x3 xk
EJERCICIOS
Ejercicio: Sea una muestra aleatoria simple de tamaño
10 de una población N(µ;2). Determine:
a) Probabilidad de que la media muestral y la
poblacional difieran en más de 0,5.
b) El tamaño muestral necesario para que, con una
probabilidad de 0,9, las medias muestral y poblacional
difieran en menos de 0,1.

Solución:
a)
b)

y como dicha probabilidad tiene que ser 0,9 se tiene que


Ejercicio: Sea una muestra aleatoria simple tomada
de una N(µ;σ) con µ conocida y σ desconocida.
Compare las distribuciones en el muestreo,
esperanza y varianza de los estadísticos.

Solución:

Se sabe que
Por otro lado:

En consecuencia:
y

En consecuencia, el valor esperado de ambos


estimadores es el mismo, pero la variabilidad del
segundo en torno a la varianza poblacional es menor
que la del primero (sobre todo para muestras de
escaso tamaño).
Ejercicio: Sea X una variable aleatoria con distribución
N(µ1; σ1) siendo µ1 conocida y σ1 desconocida. Sea Y
otra variable aleatoria, independiente de X, con
distribución N(µ2; σ2) siendo desconocidos sus dos
parámetros. Determine un estadístico razonable para
obtener información acerca del cociente de varianzas
poblacionales en base a dos muestras de tamaños n1
y n2 tomadas de X e Y, respectivamente, así como su
distribución en el muestreo.

Solución:
Sabemos que
Por tanto, como ambos estadísticos se distribuyen
independientemente,

es decir,

con lo que se tiene el estadístico y su distribución de


probabilidad en el muestreo.
Nota:
Téngase en cuenta que la esperanza y varianza de una F de
Snedecor con v1 grados de libertad en el numerador y v2 en el
denominador es:
v2
E Fv ;v  v2 > 2
1 2
v2  2
2
v2 (2v2  2v1  4)
V Fv ;v  v2 > 4
2
1 2
v1 (v2 2) (v2 4)

con lo que si en la población X hubiésemos utilizado la media


muestral en vez de la poblacional, aunque la esperanza del
estimador hubiese sido la misma, la varianza hubiese sido mayor.

También podría gustarte