0% encontró este documento útil (0 votos)
261 vistas22 páginas

Tema 5

Cargado por

AlarcónAdrian
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
261 vistas22 páginas

Tema 5

Cargado por

AlarcónAdrian
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Distribución en el muestreo

[5.1] ¿Cómo estudiar este tema?

[5.2] Distribución en el muestreo del conteo y la proporción


muestral

[5.3] Teorema Central del Límite y distribución de la media


muestral

[5.4] Aplicabilidad del Teorema Central del Límite en ámbitos


Big Data

[5.5] Estimación puntual vs estimación por intervalos

[5.6] Propiedades de los estimadores

[5.7] Referencias bibliográficas

5 TEMA
Distribución en el muestreo
Esquema

TEMA 5 – Esquema
Distribución del
Distribución del conteo y la Propiedades de los
conteo y la Tipos de estimación
proporción muestral estimadores
proporción muestral

Estimación puntual

Estimación por intervalos Insesgadez


Muestra Xi independientes

2
Media

Estimador Parámetro Proporción

Cuasivarianza

∑ (𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ )2
𝐸𝐸(𝑠𝑠𝑐𝑐2 ) = 𝐸𝐸 � � = 𝜎𝜎 2
𝑛𝑛 − 1

© Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos
Análisis e Interpretación de Datos

Ideas clave

5.1. ¿Cómo estudiar este tema?

Para estudiar este tema lee las Ideas clave, además de los intervalos que se indican a
continuación:

Páginas 269-277, 280-286 y 291-298 del libro: Triola, M. F. (2009). Estadística


(10ª ed). México: Pearson. Estos tres fragmentos corresponden aproximadamente a
diferentes apartados o aspectos vistos en este tema.

Páginas 169-173 del libro: Ríus, F. (1998). Bioestadística: Métodos y aplicaciones.


Málaga: Universidad de Málaga. Publicaciones.
[Link]

Para hacerte una idea global de este tema es importante que mires el esquema del tema,
el cual te ayudará a hacerte una buena idea de cómo está estructurado y las relaciones
que puedan existir entre algunos conceptos clave.

También será clave que practiques con los ejercicios que vienen al final del
tema. Del mismo modo presta atención a los ejemplos que acompañan a los diferentes
apartados a lo largo del tema, pues encierran muchas de las claves que te facilitarán la
comprensión del tema.

5.2. Distribución en el muestreo del conteo y la proporción


muestral

Hasta ahora nosotros hemos estudiado los modelos teóricos de probabilidad que pueden
seguir las distribuciones, pero claro, nosotros generalmente no tendremos acceso a
conocer con exactitud tales parámetros.

TEMA 5 – Ideas clave 3 © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

Resulta sencillo modelar el lanzamiento de un dado y saber con certeza que el parámetro
asociado a que salga por ejemplo el «6», la proporción de éxitos «p» valga 1/6, pero lo
que resulta imposible de saber a ciencia cierta es la estatura del español medio, por
ejemplo. Lo más que podremos hacer será recoger una muestra de españoles, medirlos e
inferir que la media de la población será aproximadamente de por ejemplo 1,77 para los
hombres y de 1,64 para las mujeres.

Por ello, resultará tan importante desarrollar técnicas inferenciales que nos permitan
conocer la verdadera distribución de la población ─o lo que es equivalente, conocer los
parámetros que la definen─ a partir de la distribución de probabilidad de un estadístico
que construyamos con su muestra.

Aquí surge la primera definición que manejamos para desarrollar la técnica inferencial,
la de estadístico, que es una función de la muestra obtenida de una población y
entonces hablaremos de distribución en el muestreo (o muestral) para referirnos a
la distribución de dicho estadístico cuando se cumplan dos requisitos:

Cada observación 𝑋𝑋1 , 𝑋𝑋2 , … , 𝑋𝑋𝑋𝑋 de la muestra sigue la misma distribución que la
población de donde proviene.

Todas las observaciones son independientes entre sí.

La lógica anterior la podemos observar con claridad en este gráfico, en el cual se intenta
dar una idea sobre que es la distribución de un estadístico de la muestra, que claro,
también será una variable aleatoria en sí.

TEMA 5 – Ideas clave 4 © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

Ejemplo 1

En el caso binomial, que vimos en el tema anterior, tenemos que para contar el número
de seises obtenidos tras «n» lanzamientos lo modelábamos como una Bi(n,p) donde «p»
es la probabilidad de éxito en la población, y es la misma que tiene cada observación, es
decir, cada lanzamiento. Por otro lado cada lanzamiento es independiente del anterior.

Siguiendo con el caso de la Binomial Bi(n,p) observamos que nos sirve como modelo para
la distribución del conteo (de «éxitos») en una muestra y también para la
distribución de la proporción muestral (de los «éxitos»).

Así, cuando una población posea una proporción «p» de éxitos para determinado suceso,
siempre y cuando la población sea mucho más grande y extraigamos la muestra
siguiendo una m.a.s (retrotraerse al capítulo 1) entonces el número de éxitos de
dicha población será X y seguirá aproximadamente una Bi(n,p).

Ejemplo 2: Los tiros libres de Marc Gasol

En un partido de la NBA Marc Gasol recibió numerosas faltas y llego a lanzar hasta 13
tiros libres de los cuales falló 5. Los aficionados del Memphis Grizzlies pensaron que no
tuvo un buen día y los periodistas deportivos alimentaron esta idea. Para estudiar desde
el punto de vista estadístico este asunto tengamos en cuenta que la probabilidad de que
un jugador de la NBA falle un tiro libre es de un 25% aproximadamente, de acuerdo a los
registros acumulados durante miles y miles de partidos. Teniendo en cuenta esto, el
número de fallos cometidos al lanzar 13 tiros libres lo podemos modelar a través de una
Bi(13;0,25). De modo que la probabilidad de que Marc Gasol cometa 6 o más fallos en
un partido resulta:

𝑃𝑃(𝑋𝑋 ≥ 5) = 𝑃𝑃(𝑋𝑋 = 5) + 𝑃𝑃 (𝑋𝑋 = 6) + ⋯ + 𝑃𝑃(𝑋𝑋 = 13) = 0,206

Número de
5 6 7 8 9 10 11 12 13 Total
fallos

Probabilidad 0,126 0,056 0,019 0,005 0,001 0,000 0,000 0,000 0,000 0,206

TEMA 5 – Ideas clave 5 © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

Redondeando las cantidades obtenidas en Excel tenemos que esta probabilidad es


cercana a un 21% luego, en absoluto tuvo que ser un mal día pues se encuentra dentro de
un porcentaje razonable de fallos si cada cinco partidos aproximadamente resultará uno
con esa cantidad o más de fallos.

Del mismo modo que en el ejemplo anterior nos hemos interesado por contar los
«éxitos» (que curiosamente en este caso eran fracasos pues recordemos que la
concepción de «éxito» hace referencia a la ocurrencia o no de un suceso, que no tiene por
tanto que ser un éxito tal y como lo solemos contemplar) podríamos haber querido
estimar la proporción muestral de éxitos:

𝑋𝑋 𝑛𝑛ú𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 𝑑𝑑𝑑𝑑 é𝑥𝑥𝑥𝑥𝑥𝑥𝑥𝑥𝑥𝑥 𝑒𝑒𝑒𝑒 𝑢𝑢𝑢𝑢𝑢𝑢 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚


�=
𝒑𝒑 =
𝑛𝑛 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡ñ𝑜𝑜 𝑑𝑑𝑑𝑑 𝑙𝑙𝑙𝑙 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚

Ejemplo 3: Una votación independentista

Imaginemos (aunque se trata de un tema perfectamente posible) que un conocido


periódico catalán desea interrogar a sus lectores por medio de una encuesta sobre si están
a favor o no de ser independientes de España. Supongamos ahora que en este periódico
se asume que el 70% de sus lectores tiene tendencia independentista y por tanto votarían
a favor de esta. ¿Cuál sería entonces la probabilidad qué con una muestra aleatoria de
500 lectores se alcance al menos una cifra del 65% a favor de la independencia o mayor?

Para resolver este ejemplo recurriremos en primer lugar a la distribución muestral del
conteo que sabemos que es una X que se distribuye como una Bi(500;0,7), ya que en sí
la proporción muestral 𝑝𝑝̂ no sigue una distribución binomial. Como el 65% de 500 son
325 tenemos:

𝑃𝑃(𝑝𝑝̂ ≥ 0,65) = 𝑃𝑃(𝑋𝑋 ≥ 325) = 𝑃𝑃(𝑋𝑋 = 325) + 𝑃𝑃(𝑋𝑋 = 326) + ⋯ + 𝑃𝑃(𝑋𝑋 = 500) = ⋯

Y como este es un valor tremendamente grande, podemos hacer dos cosas:

Empleamos el Excel para calcularlo de manera cómoda y fácil.


Usamos la aproximación de la normal para una distribución binomial.

TEMA 5 – Ideas clave 6 © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

Desde luego que podemos hacer lo primero, bastaría con emplear la fórmula del Excel de
la binomial y sustraer dicha cantidad a 1 pues:

𝑃𝑃(𝑋𝑋 ≥ 325) = 1 − 𝑃𝑃(𝑋𝑋 ≤ 324) = 1 − 𝐹𝐹 (324) = 1 − BINOM. DIST(324; 500; 0,7; 1)

Sin embargo, lo más correcto sería emplear el otro método, pues posiblemente
lograremos, entre otras cosas, una mejor aproximación al valor real. El otro método se
basa en el Teorema Central del Límite.

5.3. Teorema Central del Límite y distribución de la media


muestral

Este teorema es un pilar fundamental para la estadística inferencial. Sin entrar en


detalles excesivamente teóricos (y matemáticas complejas que las hay en la base de este
teorema) conviene saber que en la naturaleza existen infinidad de variables que pueden
considerarse normales.

El Teorema Central del Límite (TCL de aquí en adelante) afirma que cuando
tenemos n variables independientes 𝑋𝑋1 , 𝑋𝑋2 , … 𝑋𝑋𝑛𝑛 (con n suficientemente grande) su suma
𝑋𝑋1 + 𝑋𝑋2 + ⋯ 𝑋𝑋𝑛𝑛 es una variable aleatoria que se distribuye aproximadamente como una
normal. Esta aproximación será mejor cuanto mayor sea n.

La explicación de por qué hay tantas variables en la naturaleza que se distribuyen


aproximadamente como una normal se debe entonces a este teorema porque serían
variables que están compuestas de muchas otras variables independientes entre sí, de
manera que la combinación de estas variables resulta en una variables normal.

Ejemplo 4: Del porqué muchas variables médicas se comportan normalmente

Esto lo observamos en variables fisiológicas tales como el «nivel de ácido úrico en


sangre» las cuales dependen de una combinación de factores y causas tales como la
herencia, el ambiente, la alimentación, etc. Al actuar de modo aditivo e independiente,
estas variables harían que el «nivel de ácido úrico en sangre» se comportara
normalmente tal y como predice el TCL (Martín Andrés, 2004).

TEMA 5 – Ideas clave 7 © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

Lo más interesante del TCL va a llegar, no porque permita situar la distribución de la


suma de ciertas variables, sino porque esto implica que podemos saber algo sobre un
estadístico que suele ser mucho más útil para nosotros: la media muestral 𝑥𝑥̅ , que, de
𝑋𝑋1 + 𝑋𝑋2 +⋯𝑋𝑋𝑛𝑛
hecho, es función de la suma anterior ya que 𝑥𝑥̅ = de modo que
𝑛𝑛
𝑋𝑋1 𝑋𝑋2 𝑋𝑋𝑛𝑛
𝑥𝑥̅ = + +⋯ y, por tanto, también es suma de k cantidades independientes y,
𝑛𝑛 𝑛𝑛 𝑛𝑛

entonces, por el TCL y siempre que 𝑛𝑛 ≥ 30, entonces:

𝝈𝝈
𝐸𝐸 (𝑋𝑋) = 𝜇𝜇 y 𝑉𝑉 (𝑋𝑋) = 𝜎𝜎 2 → 𝒙𝒙
�~𝑵𝑵(𝝁𝝁; )
√𝒏𝒏

Otra manera de enfocar lo que dice el Teorema es que si extraemos una muestra
aleatoria de un tamaño «n» suficientemente grande de cualquier población
con media 𝝁𝝁 y desviación estándar 𝝈𝝈, entonces 𝒙𝒙
� será aproximadamente una
𝝈𝝈
𝑵𝑵(𝝁𝝁; ).
√𝒏𝒏

Antes de ver ningún ejemplo, vamos a aclarar ─a modo de comprobación─, que no es


fortuito que la media y desviación típica de 𝑥𝑥̅ resulten de este modo, pues:

∑ 𝑋𝑋 1
� ) = 𝐸𝐸 �
𝑬𝑬(𝑿𝑿 � = �𝜇𝜇𝑋𝑋1 + 𝜇𝜇𝑋𝑋2 + ⋯ + 𝜇𝜇𝑋𝑋𝑛𝑛 � =
𝑛𝑛 𝑛𝑛
1 𝑛𝑛𝑛𝑛
= (𝜇𝜇 + 𝜇𝜇 + ⋯ + 𝜇𝜇) = = 𝝁𝝁
𝑛𝑛 𝑛𝑛

1 2
𝝈𝝈𝟐𝟐𝑿𝑿� = � � �𝜎𝜎𝑥𝑥21 + 𝜎𝜎𝑥𝑥22 + ⋯ + 𝜎𝜎𝑥𝑥2𝑛𝑛 � =
𝑛𝑛
1 2 𝝈𝝈𝟐𝟐
= � � (𝜎𝜎 2 + 𝜎𝜎 2 + ⋯ + 𝜎𝜎 2 ) =
𝑛𝑛 𝒏𝒏

Ejemplo 5

Un analista de datos que trabaja en el departamento del Banco Santander y está


encargado de la atención telefónica cogía muestras de 25 llamadas y calculaba con esto
la duración media de las llamadas de los clientes. El problema que surgía con esto y del
que tardaron en darse cuenta es que la dispersión reflejada por la desviación típica sería
muy elevada, pues la media de duración de las llamadas era de 3 minutos y 20 segundos.

TEMA 5 – Ideas clave 8 © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

Veamos:

200
𝑠𝑠𝑥𝑥̅ = = 40 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠
√25

Así que el analista cuantitativo encargado se dio cuenta de que era razonable tomar
muestra al menos 4 veces mayores (de 100 llamadas) pues así la desviación típica de la
media se vería considerablemente reducida (a la mitad de hecho):

200
𝑠𝑠𝑥𝑥̅ = = 20 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠
√100

Lo cual supondría una estimación mucho mejor para el tiempo de llamada medio que
estaría proporcionando cada muestra de 100 llamadas.

Ejemplo 6

Continuando con el ejemplo anterior ocurrió que un segundo analista observó que tales
medias seguían sin ser especialmente precisas, pues por el TCL sabía que la media
muestral tenía que comportarse como una normal y, por tanto, ─tal y como vimos
anteriormente─ el 95% de las observaciones aproximadamente se encuentran entre la
media ± 2 veces las desviación típica de modo que el 95% de las muestras de llamadas
podían tener la media real entre 200 segundos ± 40 segundos.

Esto hacía entonces que las medias verdaderas estuvieran contenidas en el 95% de los
casos entre 160 y 240 segundos, esto es, llamadas medias de 2 minutos y 40 segundos a
4 minutos, lo cual es un rango muy amplio y, por tanto, poco preciso. De esta manera
acordaron que se tomaran muestras lo suficientemente altas como para reducir este 95%
a un rango de amplitud de unos 16 segundos. Para ella calcularon que la muestra debía
ser igual a 2500 pues así:

200
𝑠𝑠𝑥𝑥̅ = = 4 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠
√2500

Y así para muestras de tamaño 2500 el 95% de las muestras resultarían con una media
entre 192 y 208 segundos que ahora sí era un rango que consideraron bastante más
preciso.

TEMA 5 – Ideas clave 9 © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

Gráficamente podemos ver más clara la distribución de la media muestral y como su


ancho depende del error estándar (standard error) que cuanto menor es hace más
precisa la estimación de 𝑥𝑥̅ . La manera de reducir este error es aumentando el tamaño de
la muestra pues la varianza de la población siempre será la misma.

5.4. Aplicabilidad del Teorema Central del Límite en ámbitos Big


Data

Tal y como hemos podido ver, el teorema central del límite asume que la
información con la que estamos trabajando sigue una distribución normal.
Hacer este tipo de asunciones puede no ser siempre útil cuando trabajamos con Big
Data.

Debido a la complejidad de los datos con los que estamos trabajando, es posible que nos
interese estudiar la naturaleza de aquellos datos que no cumplen la normalidad. Cuando
trabajamos con conjuntos reducidos de datos, los outliers vienen determinados
por un conjunto muy reducido de información. Generalmente, su presencia se
relaciona con errores en el proceso de muestreo o extracción de la
información. Los aparatos aplicados para realizar mediciones siempre tienen asociado
un pequeño porcentaje de fallo que genera mediciones erróneas que se añaden al
modelo malogrando el posterior proceso de análisis que debe llevarse a cabo.

Sin embargo, la naturaleza de los outliers en Big Data es distinto. Eso es debido,
principalmente a que, debido a la alta cantidad de información disponible, ya no
estamos hablando de un número pequeño de mediciones sino de un
conjunto de datos que posee un tamaño considerable. Incluso formando parte

TEMA 5 – Ideas clave 10 © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

de un porcentaje pequeño de la información global, es interesante estudiar dichos


conjuntos de outliers y tratar de determinar su procedencia. Generalmente, bajo este tipo
de contextos Big Data, ya no estamos hablando de fallos en las mediciones o de datos
erróneos sino de subconjuntos en las poblaciones de datos que cumplen una
serie de propiedades diferentes a las de la media. Por tanto, desechar por
completo estos outliers implicaría eliminar una parte de la población lo que claramente
produciría una pérdida importante de la información asociada a un sector de la
población.

Esto, por supuesto, no quiere decir que asumiendo normalidad en los datos
estemos realizando análisis erróneos. Únicamente estamos afirmando que dichos
análisis no permitirían obtener un análisis 100% completo de la población
estudiada. Es, por tanto, necesario un análisis exhaustivo de los datos con los que
estamos trabajando antes de diseñar un proceso concreto de análisis de la información.
De esta forma, podremos sacar el máximo partido a nuestros datos y aumentar la
precisión de los resultados de los análisis.

Uno de los métodos que más se están empezando a utilizar en este tipo de análisis de
datos complejos es lo que llamamos la estadística robusta. La estadística robusta es
un nuevo campo dentro de la estadística cuyo objetivo es el desarrollo de métodos
de análisis estadístico que no se vean influenciados por los outliers. De esta
forma, mediante el uso de estos métodos, podemos llevar a cabo un análisis mucho más
fiable de conjuntos de datos complejos como los que nos encontramos en entornos Big
Data. De esta forma, utilizaríamos estos métodos para realizar un análisis global que
incluyera a toda la información para luego complementar dicha información
mediante la realización de análisis exhaustivos de diversos subconjuntos de la
población (incluyendo outliers).

En resumen, si ya de por sí era muy importante en la estadística clásica conocer la


estructura, naturaleza y procedencia de los datos antes de realizar cualquier
análisis, con la aparición de los entornos Big Data este proceso es aún más importante y
crítico si queremos obtener buenos resultados. Por desgracia, no existen técnicas
globales ni metodologías mágicas que puedan aplicarse a todos los
conjuntos de datos ni a todos los posibles casos. El único secreto consiste en
aprender a conocer y estudiar nuestros datos: de qué población provienen, qué
representan, qué puede provocar la aparición de distintas subpoblaciones, etc. Si
sabemos de dónde provienen nuestros datos y, mediante análisis preliminares,

TEMA 5 – Ideas clave 11 © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

identificamos su estructura general y específica, es posible determinar qué provoca los


outliers y cuál serían los procesos de análisis más adecuados para cumplir el objetivo u
objetivos propuestos.

5.5. Estimulación puntual vs estimulación por intervalos

Por lo general, podemos realizar estimaciones de dos formas distintas:

Estimador puntual que el valor que da como estimación es único.

Estimación por intervalos (o confidencial) que estima a través de un intervalo de


confianza.

El tipo de estimación que estamos tratando hasta ahora sería la puntual, ya que será en
el tema siguiente cuando veamos la estimación mediante intervalos.

Podemos observar en el siguiente gráfico cómo en la estimación puntual (caso a)) se


estima mediante un solo valor, mientras que en la estimación por intervalos (caso b)) se
requieren dos: el límite inferior y el superior de dicho intervalo.

Estimación puntual

a)

b)

Estimación por intervalos

TEMA 5 – Ideas clave 12 © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

5.6. Propiedades de los estimadores

Vamos a responder ahora a la cuestión: ¿cuál es el estimador más deseable para estimar
un parámetro? Para ello, veamos las propiedades que puede tener un estimador que
luego nos permita discernir cuál es ese estimador «deseado».

Si observamos el gráfico del punto anterior, al tratar de estimar puntualmente


cometemos un error, pues no logramos acertar absolutamente con el parámetro, sino que
cometemos un sesgo en la estimación del parámetro.

Este concepto de sesgo nos va a conducir a la primera propiedad deseable para un buen
estimador:

Diremos que un estimador es insesgado para un parámetro cuando «tienda» a producir


estimaciones sin sesgo para dicho parámetro.

Ese «tienda», a nivel matemático nos va a obligar a que su valor esperado sea el
parámetro que pretende estimar, es decir:

Sesgo �𝜃𝜃� � = 𝐸𝐸�𝜃𝜃� � − 𝜃𝜃


𝐸𝐸�𝜃𝜃� � = 𝜃𝜃

Ejemplo 7

Haciendo ya referencia a estimadores concretos, podemos afirmar que la media muestral


es un buen estimador entre otras cosas porque es un estimador insesgado de la media
poblacional.

𝐸𝐸 (𝑥𝑥̅ ) = 𝜇𝜇

Del mismo modo el estimador de la proporción muestral es también un estimador


insesgado de la proporción poblacional.

𝐸𝐸 (𝑝𝑝̂ ) = 𝑝𝑝

TEMA 5 – Ideas clave 13 © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

Vamos a aprovechar aquí para explicar un estimador que es insesgado para la


varianza poblacional. Se podría pensar a priori que la varianza que vimos en la parte
descriptiva nos puede servir como buen estimador, esto es, como estimador insesgado,
pero no es así:

∑ (𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ )2
2
𝐸𝐸(𝑠𝑠 ) = 𝐸𝐸 � � ≠ 𝜎𝜎 2
𝑛𝑛

Si no que es otro estadístico que llamamos cuasivarianza muestral (𝑠𝑠𝑐𝑐2 ) el que es


insesgado para la varianza poblacional:

∑ (𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ )2
𝐸𝐸(𝑠𝑠𝑐𝑐2 ) = 𝐸𝐸 � � = 𝜎𝜎 2
𝑛𝑛 − 1

En realidad a nivel inferencial se emplea más la cuasivarianza que la varianza.

Para calcular la cuasivarianza a partir de la varianza hacemos un sencillo cálculo:

𝑛𝑛
𝑠𝑠𝑐𝑐2 = 𝑠𝑠 2
𝑛𝑛 − 1

Observamos por tanto que con la cuasivarianza hacemos estimaciones un tanto más
𝑛𝑛
grandes que con la varianza ya que >1.
𝑛𝑛−1

TEMA 5 – Ideas clave 14 © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

Alguien podría plantearse la siguiente cuestión: ¿Y si encontramos dos estimadores


insesgados para un mismo parámetro, cuál elegimos?

Esto sucede, por ejemplo, con la media muestral y la mediana, ya que la mediana también
es un estimador insesgado de la media poblacional.

Para poder salir de este embrollo parece razonable exigir que aparte de ser insesgado nos
produzca valores con poca dispersión, que no varíe mucho el valor de dicho estimador,
que no se aleje en exceso del valor del parámetro.

Luego, la siguiente propiedad deseada es la de encontrar el estimador de varianza


mínima. Lo bueno de esta propiedad es que nos asegura (hay un teorema que lo
garantiza) que de existir tal estimador de varianza mínima es único.

En el caso del estimador de mínima varianza para la media poblacional encontramos que
es la media muestral el que presenta mínima varianza.

Existen otras propiedades deseables en un estimador como son la consistencia, eficiencia


y suficiencia. Sin embargo, con las propiedades que hemos manejado por sí solas es
suficiente para hacerse una buena idea de que criterio emplear para elegir un estimador
y no otro.

TEMA 5 – Ideas clave 15 © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

5.7. Referencias bibliográficas

Martín, A. (2004). Bioestadística para las ciencias de la salud (1ª ed.). Madrid:
Norma-Capitel.

Moore, D.S. (2006). Introduction to the practice of statistics. New York: Freeman and
Company.

Ríus, F. (1998). Bioestadística: Métodos y aplicaciones. Málaga: Universidad de Málaga.


Publicaciones. Versión electrónica:
[Link]

Triola, M. F. (2009). Estadística (10ª ed). México: Pearson.

TEMA 5 – Ideas clave 16 © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

Lo + recomendado

Lecciones magistrales

La distribución de los estadísticos muestrales

En esta lección magistral veremos sirviéndonos de un applet bastante sofisticado cómo


interpretar el concepto de distribución de un estadístico muestral, como es la media
muestral de una población normal.

La lección magistral está disponible en el aula virtual

TEMA 5 – Lo + recomendado 17 © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

+ Información

A fondo

Profundizando sobre estimación puntual

En este enlace de la página de CEACES sobre Estadística encontrarás más propiedades


de los estimadores además de la técnica de generación de estimadores conocida como de
máxima verosimilitud.

Accede al artículo desde el aula virtual o a través de la siguiente dirección web:


[Link]

Bibliografía

Martín, A. (2004). Bioestadística para las ciencias de la salud (1ª ed.). Madrid:
Norma-Capitel.

Moore, D.S. (2006). Introduction to the practice of statistics. New York: Freeman and
Company.

Ríus, F. (1998). Bioestadística: Métodos y aplicaciones. Málaga: Universidad de Málaga.


Publicaciones. Versión electrónica:
[Link]

Triola, M. F. (2009). Estadística (10ª ed). México: Pearson.

TEMA 5 – + Información 18 © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

Actividades

Probabilidades en el muestreo

1. La nota media de una muestra de 15 alumnos en la asignatura de Estadística del primer


curso de Derecho fue:

6,1; 3,7; 9,2; 3,7; 4,8; 8,1; 7,2; 6; 4,5; 7,5; 6,7; 8,1; 4,3; 4; 7,7

» ¿Cuál es y cuánto vale el estimador puntual de la media de la clase?


» ¿Y del estimador de la proporción de aprobados en la clase?
» ¿Y en el caso del estimador de la varianza?

2. Trata de responder a la siguiente cuestión con tus propias palabras: ¿en qué consiste
una distribución muestral? Nota: piensa que se trata de una pregunta abierta en la que
importa tu enfoque y no tanto que la definición sea perfecta.

3. En un experimento genético se emplean cuatro moscas de la fruta de las cuales tres


son hembra y una macho. Para la prueba se decide coger muestras de dos de las cuatro
moscas y luego se reincorporan a la población tras la prueba. Identifica todas las
muestras posibles que puedes obtener, la proporción de hembras que obtendrías en cada
una de ellas y posteriormente usa una tabla de frecuencias con sus probabilidades
asociadas para describir la distribución muestral de las proporciones de moscas hembra.

4. Si partimos de una población de mujeres cuya estatura se distribuye normalmente con


una media de 148,2 cm. y una desviación típica de 5,83 cm:

» Si seleccionamos a una mujer aleatoriamente calcula la probabilidad de que no


alcance el metro y medio.
» Si cogemos una muestra de 72 mujeres de dicha población calcula la probabilidad de
que midan menos de metro y medio.

5. Supongamos que una lata de Pepsi se llena con una media de 30 cl y una desviación
típica de 0,5 cl. Calcula la probabilidad de que si cogemos una muestra de 72 latas la
media resultante sea de al menos 31 cl.

TEMA 5 – Actividades 19 © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

6. Los ingenieros textiles de Inditex (Zara) han de tener en cuenta la anchura craneal de
los hombres para la confección de gorras para un nuevo mercado abierto en Asia es
diferente a la empleada habitualmente en España. Las anchuras de estos hombres de
raza asiática son de 14 cm con una desviación estándar de 2,33 cm.

» Si elegimos a un hombre aleatoriamente calcula la probabilidad de que su cabeza


tenga un ancho menor de 16cm.
» La sección Zara Asia planea producir un lote para empezar de unas 10000 gorras.
Calcula la probabilidad de que 10000 hombres escogidos al azar tengan una anchura
media de cabeza menor que 16cm.
» El gerente de Zara Asia viendo los resultados obtenidos en el apartado b), no se lo
piensa dos veces y decide que las gorras tendrán una anchura media de 16cm. ¿Crees
que es correcto su razonamiento? ¿Por qué?

7. Si el hecho de ser niño o niña es igualmente probable a la hora de nacer, estima la


probabilidad de que resulten más de 35 niñas en 65 nacimientos. ¿Es infrecuente que
resulten tal cantidad de niñas?

Nota para resolver los ejercicios: Puede que no haya solo una posibilidad de
respuesta correcta, lo interesante es argumentar porque se piensa así en algunos casos.

Nota 2: Si piensas que tiene diferentes interpretaciones algún enunciado comienza


diciendo «suponiendo que la interpretación es esta yo lo haría así…».

TEMA 5 – Actividades 20 © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

Test

1. Para poder hablar propiamente de distribución muestral de un determinado


estadístico…
A. Tendremos que recoger una muestra de una población cualquiera.
B. Las observaciones que se recojan habrán de ser independientes.
C. Las observaciones recogidas deben seguir la misma distribución que es la de la
población de donde provienen.
D. Las respuestas B y C son correctas.

2. El arco circunflejo lo empleamos en estadística inferencial para…


A. Designar un estadístico cualquiera que provenga de la muestra.
B. Diferenciar el estadístico del parámetro poblacional.
C. Indicar que es un estimador del parámetro.
D. Las respuestas B y C son correctas.

3. 𝑝𝑝̂ es...
A. El estimador de la probabilidad.
B. El estimador de la proporción muestral.
C. El estimador de la proporción poblacional.
D. Un parámetro de cierto tipo de variable aleatoria.

4. ¿Por qué hay tantas variables en la naturaleza que se distribuyen normalmente?


A. Porque según el TCL la suma de muchos efectos aleatorios independientes se
comporta normalmente.
B. En realidad no hay tantas, es más la visión alterada del matemático que trata de
que la realidad se parezca a las matemáticas y no a la inversa.
C. En realidad es por las binomiales que son las que abundan más y como su suma
es normal acaba apareciendo que hay más normales.
D. Se debe a un misterio estadístico todavía por resolver.

TEMA 5 – Test 21 © Universidad Internacional de La Rioja (UNIR)


Análisis e Interpretación de Datos

5. La desviación típica de la media muestral es:


𝜎𝜎
A.
√𝑛𝑛
𝜇𝜇
B.
√𝑛𝑛
𝜎𝜎
C.
𝑛𝑛

D. 𝜎𝜎

6. Si multiplicamos por cuatro el tamaño de una muestra 𝜎𝜎𝑥𝑥̅ :


A. Se reduce a la mitad.
B. Se duplica.
C. Se multiplica por 4.
D. Se mantiene igual pues no le afectan cambios de n.

7. El error estándar es…


A. Un error típico que se comete cuando estimamos.
B. La desviación típica de la media.
C. Proporcional al ancho de la curva de la distribución muestral de la media.
D. Las respuestas B y C son correctas.

8. Señala la frase correcta.


A. Todo estadístico es un estimador.
B. Todo estimador es una variable aleatoria función de la muestra.
C. Todo estimador es un parámetro de la muestra.
D. Todo estadístico es un parámetro de la muestra.

9. ¿Cuál es un estimador insesgado de la media poblacional?


A. 𝑥𝑥̅
B. 𝜇𝜇̂
C. Las respuestas A y B son correctas.
D. 𝜇𝜇

10. ¿En qué se diferencian los dos tipos principales de estimación?


A. Una estima con un solo valor mientras que la otra con varios.
B. Un tipo de estimación da intervalos posibles para el parámetro mientras que la
otra solo da un valor.
C. Una es confidente y la otra puntual.
D. Depende del parámetro a estimar tendremos que usar una u otra.

TEMA 5 – Test 22 © Universidad Internacional de La Rioja (UNIR)

También podría gustarte