Tema 5
Tema 5
5 TEMA
Distribución en el muestreo
Esquema
TEMA 5 – Esquema
Distribución del
Distribución del conteo y la Propiedades de los
conteo y la Tipos de estimación
proporción muestral estimadores
proporción muestral
Estimación puntual
2
Media
Cuasivarianza
∑ (𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ )2
𝐸𝐸(𝑠𝑠𝑐𝑐2 ) = 𝐸𝐸 � � = 𝜎𝜎 2
𝑛𝑛 − 1
Ideas clave
Para estudiar este tema lee las Ideas clave, además de los intervalos que se indican a
continuación:
Para hacerte una idea global de este tema es importante que mires el esquema del tema,
el cual te ayudará a hacerte una buena idea de cómo está estructurado y las relaciones
que puedan existir entre algunos conceptos clave.
También será clave que practiques con los ejercicios que vienen al final del
tema. Del mismo modo presta atención a los ejemplos que acompañan a los diferentes
apartados a lo largo del tema, pues encierran muchas de las claves que te facilitarán la
comprensión del tema.
Hasta ahora nosotros hemos estudiado los modelos teóricos de probabilidad que pueden
seguir las distribuciones, pero claro, nosotros generalmente no tendremos acceso a
conocer con exactitud tales parámetros.
Resulta sencillo modelar el lanzamiento de un dado y saber con certeza que el parámetro
asociado a que salga por ejemplo el «6», la proporción de éxitos «p» valga 1/6, pero lo
que resulta imposible de saber a ciencia cierta es la estatura del español medio, por
ejemplo. Lo más que podremos hacer será recoger una muestra de españoles, medirlos e
inferir que la media de la población será aproximadamente de por ejemplo 1,77 para los
hombres y de 1,64 para las mujeres.
Por ello, resultará tan importante desarrollar técnicas inferenciales que nos permitan
conocer la verdadera distribución de la población ─o lo que es equivalente, conocer los
parámetros que la definen─ a partir de la distribución de probabilidad de un estadístico
que construyamos con su muestra.
Aquí surge la primera definición que manejamos para desarrollar la técnica inferencial,
la de estadístico, que es una función de la muestra obtenida de una población y
entonces hablaremos de distribución en el muestreo (o muestral) para referirnos a
la distribución de dicho estadístico cuando se cumplan dos requisitos:
Cada observación 𝑋𝑋1 , 𝑋𝑋2 , … , 𝑋𝑋𝑋𝑋 de la muestra sigue la misma distribución que la
población de donde proviene.
La lógica anterior la podemos observar con claridad en este gráfico, en el cual se intenta
dar una idea sobre que es la distribución de un estadístico de la muestra, que claro,
también será una variable aleatoria en sí.
Ejemplo 1
En el caso binomial, que vimos en el tema anterior, tenemos que para contar el número
de seises obtenidos tras «n» lanzamientos lo modelábamos como una Bi(n,p) donde «p»
es la probabilidad de éxito en la población, y es la misma que tiene cada observación, es
decir, cada lanzamiento. Por otro lado cada lanzamiento es independiente del anterior.
Siguiendo con el caso de la Binomial Bi(n,p) observamos que nos sirve como modelo para
la distribución del conteo (de «éxitos») en una muestra y también para la
distribución de la proporción muestral (de los «éxitos»).
Así, cuando una población posea una proporción «p» de éxitos para determinado suceso,
siempre y cuando la población sea mucho más grande y extraigamos la muestra
siguiendo una m.a.s (retrotraerse al capítulo 1) entonces el número de éxitos de
dicha población será X y seguirá aproximadamente una Bi(n,p).
En un partido de la NBA Marc Gasol recibió numerosas faltas y llego a lanzar hasta 13
tiros libres de los cuales falló 5. Los aficionados del Memphis Grizzlies pensaron que no
tuvo un buen día y los periodistas deportivos alimentaron esta idea. Para estudiar desde
el punto de vista estadístico este asunto tengamos en cuenta que la probabilidad de que
un jugador de la NBA falle un tiro libre es de un 25% aproximadamente, de acuerdo a los
registros acumulados durante miles y miles de partidos. Teniendo en cuenta esto, el
número de fallos cometidos al lanzar 13 tiros libres lo podemos modelar a través de una
Bi(13;0,25). De modo que la probabilidad de que Marc Gasol cometa 6 o más fallos en
un partido resulta:
Número de
5 6 7 8 9 10 11 12 13 Total
fallos
Probabilidad 0,126 0,056 0,019 0,005 0,001 0,000 0,000 0,000 0,000 0,206
Del mismo modo que en el ejemplo anterior nos hemos interesado por contar los
«éxitos» (que curiosamente en este caso eran fracasos pues recordemos que la
concepción de «éxito» hace referencia a la ocurrencia o no de un suceso, que no tiene por
tanto que ser un éxito tal y como lo solemos contemplar) podríamos haber querido
estimar la proporción muestral de éxitos:
Para resolver este ejemplo recurriremos en primer lugar a la distribución muestral del
conteo que sabemos que es una X que se distribuye como una Bi(500;0,7), ya que en sí
la proporción muestral 𝑝𝑝̂ no sigue una distribución binomial. Como el 65% de 500 son
325 tenemos:
𝑃𝑃(𝑝𝑝̂ ≥ 0,65) = 𝑃𝑃(𝑋𝑋 ≥ 325) = 𝑃𝑃(𝑋𝑋 = 325) + 𝑃𝑃(𝑋𝑋 = 326) + ⋯ + 𝑃𝑃(𝑋𝑋 = 500) = ⋯
Desde luego que podemos hacer lo primero, bastaría con emplear la fórmula del Excel de
la binomial y sustraer dicha cantidad a 1 pues:
Sin embargo, lo más correcto sería emplear el otro método, pues posiblemente
lograremos, entre otras cosas, una mejor aproximación al valor real. El otro método se
basa en el Teorema Central del Límite.
El Teorema Central del Límite (TCL de aquí en adelante) afirma que cuando
tenemos n variables independientes 𝑋𝑋1 , 𝑋𝑋2 , … 𝑋𝑋𝑛𝑛 (con n suficientemente grande) su suma
𝑋𝑋1 + 𝑋𝑋2 + ⋯ 𝑋𝑋𝑛𝑛 es una variable aleatoria que se distribuye aproximadamente como una
normal. Esta aproximación será mejor cuanto mayor sea n.
𝝈𝝈
𝐸𝐸 (𝑋𝑋) = 𝜇𝜇 y 𝑉𝑉 (𝑋𝑋) = 𝜎𝜎 2 → 𝒙𝒙
�~𝑵𝑵(𝝁𝝁; )
√𝒏𝒏
Otra manera de enfocar lo que dice el Teorema es que si extraemos una muestra
aleatoria de un tamaño «n» suficientemente grande de cualquier población
con media 𝝁𝝁 y desviación estándar 𝝈𝝈, entonces 𝒙𝒙
� será aproximadamente una
𝝈𝝈
𝑵𝑵(𝝁𝝁; ).
√𝒏𝒏
∑ 𝑋𝑋 1
� ) = 𝐸𝐸 �
𝑬𝑬(𝑿𝑿 � = �𝜇𝜇𝑋𝑋1 + 𝜇𝜇𝑋𝑋2 + ⋯ + 𝜇𝜇𝑋𝑋𝑛𝑛 � =
𝑛𝑛 𝑛𝑛
1 𝑛𝑛𝑛𝑛
= (𝜇𝜇 + 𝜇𝜇 + ⋯ + 𝜇𝜇) = = 𝝁𝝁
𝑛𝑛 𝑛𝑛
1 2
𝝈𝝈𝟐𝟐𝑿𝑿� = � � �𝜎𝜎𝑥𝑥21 + 𝜎𝜎𝑥𝑥22 + ⋯ + 𝜎𝜎𝑥𝑥2𝑛𝑛 � =
𝑛𝑛
1 2 𝝈𝝈𝟐𝟐
= � � (𝜎𝜎 2 + 𝜎𝜎 2 + ⋯ + 𝜎𝜎 2 ) =
𝑛𝑛 𝒏𝒏
Ejemplo 5
Veamos:
200
𝑠𝑠𝑥𝑥̅ = = 40 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠
√25
Así que el analista cuantitativo encargado se dio cuenta de que era razonable tomar
muestra al menos 4 veces mayores (de 100 llamadas) pues así la desviación típica de la
media se vería considerablemente reducida (a la mitad de hecho):
200
𝑠𝑠𝑥𝑥̅ = = 20 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠
√100
Lo cual supondría una estimación mucho mejor para el tiempo de llamada medio que
estaría proporcionando cada muestra de 100 llamadas.
Ejemplo 6
Continuando con el ejemplo anterior ocurrió que un segundo analista observó que tales
medias seguían sin ser especialmente precisas, pues por el TCL sabía que la media
muestral tenía que comportarse como una normal y, por tanto, ─tal y como vimos
anteriormente─ el 95% de las observaciones aproximadamente se encuentran entre la
media ± 2 veces las desviación típica de modo que el 95% de las muestras de llamadas
podían tener la media real entre 200 segundos ± 40 segundos.
Esto hacía entonces que las medias verdaderas estuvieran contenidas en el 95% de los
casos entre 160 y 240 segundos, esto es, llamadas medias de 2 minutos y 40 segundos a
4 minutos, lo cual es un rango muy amplio y, por tanto, poco preciso. De esta manera
acordaron que se tomaran muestras lo suficientemente altas como para reducir este 95%
a un rango de amplitud de unos 16 segundos. Para ella calcularon que la muestra debía
ser igual a 2500 pues así:
200
𝑠𝑠𝑥𝑥̅ = = 4 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠
√2500
Y así para muestras de tamaño 2500 el 95% de las muestras resultarían con una media
entre 192 y 208 segundos que ahora sí era un rango que consideraron bastante más
preciso.
Tal y como hemos podido ver, el teorema central del límite asume que la
información con la que estamos trabajando sigue una distribución normal.
Hacer este tipo de asunciones puede no ser siempre útil cuando trabajamos con Big
Data.
Debido a la complejidad de los datos con los que estamos trabajando, es posible que nos
interese estudiar la naturaleza de aquellos datos que no cumplen la normalidad. Cuando
trabajamos con conjuntos reducidos de datos, los outliers vienen determinados
por un conjunto muy reducido de información. Generalmente, su presencia se
relaciona con errores en el proceso de muestreo o extracción de la
información. Los aparatos aplicados para realizar mediciones siempre tienen asociado
un pequeño porcentaje de fallo que genera mediciones erróneas que se añaden al
modelo malogrando el posterior proceso de análisis que debe llevarse a cabo.
Sin embargo, la naturaleza de los outliers en Big Data es distinto. Eso es debido,
principalmente a que, debido a la alta cantidad de información disponible, ya no
estamos hablando de un número pequeño de mediciones sino de un
conjunto de datos que posee un tamaño considerable. Incluso formando parte
Esto, por supuesto, no quiere decir que asumiendo normalidad en los datos
estemos realizando análisis erróneos. Únicamente estamos afirmando que dichos
análisis no permitirían obtener un análisis 100% completo de la población
estudiada. Es, por tanto, necesario un análisis exhaustivo de los datos con los que
estamos trabajando antes de diseñar un proceso concreto de análisis de la información.
De esta forma, podremos sacar el máximo partido a nuestros datos y aumentar la
precisión de los resultados de los análisis.
Uno de los métodos que más se están empezando a utilizar en este tipo de análisis de
datos complejos es lo que llamamos la estadística robusta. La estadística robusta es
un nuevo campo dentro de la estadística cuyo objetivo es el desarrollo de métodos
de análisis estadístico que no se vean influenciados por los outliers. De esta
forma, mediante el uso de estos métodos, podemos llevar a cabo un análisis mucho más
fiable de conjuntos de datos complejos como los que nos encontramos en entornos Big
Data. De esta forma, utilizaríamos estos métodos para realizar un análisis global que
incluyera a toda la información para luego complementar dicha información
mediante la realización de análisis exhaustivos de diversos subconjuntos de la
población (incluyendo outliers).
El tipo de estimación que estamos tratando hasta ahora sería la puntual, ya que será en
el tema siguiente cuando veamos la estimación mediante intervalos.
Estimación puntual
a)
b)
Vamos a responder ahora a la cuestión: ¿cuál es el estimador más deseable para estimar
un parámetro? Para ello, veamos las propiedades que puede tener un estimador que
luego nos permita discernir cuál es ese estimador «deseado».
Este concepto de sesgo nos va a conducir a la primera propiedad deseable para un buen
estimador:
Ese «tienda», a nivel matemático nos va a obligar a que su valor esperado sea el
parámetro que pretende estimar, es decir:
Ejemplo 7
𝐸𝐸 (𝑥𝑥̅ ) = 𝜇𝜇
𝐸𝐸 (𝑝𝑝̂ ) = 𝑝𝑝
∑ (𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ )2
2
𝐸𝐸(𝑠𝑠 ) = 𝐸𝐸 � � ≠ 𝜎𝜎 2
𝑛𝑛
∑ (𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ )2
𝐸𝐸(𝑠𝑠𝑐𝑐2 ) = 𝐸𝐸 � � = 𝜎𝜎 2
𝑛𝑛 − 1
𝑛𝑛
𝑠𝑠𝑐𝑐2 = 𝑠𝑠 2
𝑛𝑛 − 1
Observamos por tanto que con la cuasivarianza hacemos estimaciones un tanto más
𝑛𝑛
grandes que con la varianza ya que >1.
𝑛𝑛−1
Esto sucede, por ejemplo, con la media muestral y la mediana, ya que la mediana también
es un estimador insesgado de la media poblacional.
Para poder salir de este embrollo parece razonable exigir que aparte de ser insesgado nos
produzca valores con poca dispersión, que no varíe mucho el valor de dicho estimador,
que no se aleje en exceso del valor del parámetro.
En el caso del estimador de mínima varianza para la media poblacional encontramos que
es la media muestral el que presenta mínima varianza.
Martín, A. (2004). Bioestadística para las ciencias de la salud (1ª ed.). Madrid:
Norma-Capitel.
Moore, D.S. (2006). Introduction to the practice of statistics. New York: Freeman and
Company.
Lo + recomendado
Lecciones magistrales
+ Información
A fondo
Bibliografía
Martín, A. (2004). Bioestadística para las ciencias de la salud (1ª ed.). Madrid:
Norma-Capitel.
Moore, D.S. (2006). Introduction to the practice of statistics. New York: Freeman and
Company.
Actividades
Probabilidades en el muestreo
6,1; 3,7; 9,2; 3,7; 4,8; 8,1; 7,2; 6; 4,5; 7,5; 6,7; 8,1; 4,3; 4; 7,7
2. Trata de responder a la siguiente cuestión con tus propias palabras: ¿en qué consiste
una distribución muestral? Nota: piensa que se trata de una pregunta abierta en la que
importa tu enfoque y no tanto que la definición sea perfecta.
5. Supongamos que una lata de Pepsi se llena con una media de 30 cl y una desviación
típica de 0,5 cl. Calcula la probabilidad de que si cogemos una muestra de 72 latas la
media resultante sea de al menos 31 cl.
6. Los ingenieros textiles de Inditex (Zara) han de tener en cuenta la anchura craneal de
los hombres para la confección de gorras para un nuevo mercado abierto en Asia es
diferente a la empleada habitualmente en España. Las anchuras de estos hombres de
raza asiática son de 14 cm con una desviación estándar de 2,33 cm.
Nota para resolver los ejercicios: Puede que no haya solo una posibilidad de
respuesta correcta, lo interesante es argumentar porque se piensa así en algunos casos.
Test
3. 𝑝𝑝̂ es...
A. El estimador de la probabilidad.
B. El estimador de la proporción muestral.
C. El estimador de la proporción poblacional.
D. Un parámetro de cierto tipo de variable aleatoria.
D. 𝜎𝜎