Unidad III Intervalos de Confianza, Estimación y Muestreo (parte 3)
Se debe aclarar para efecto de autoría del presente material, que este es un compendio de la guía elaborada
por los profesores Alexander Pinto, Naile Pernalete, aunado los de la referencia, siendo esta recreada por la
profesora Milbet Rodríguez (2020).
Introducción a la estadística inferencial
La estadística inferencial comprende dos áreas:
a) Estimación: la cual puede ser puntual o por intervalo de confianza.
b) Prueba de hipótesis: estas pueden ser paramétricas y no paramétricas
En este archivo estudiaremos el apartado a) solamente.
Intervalos de confianza y aceptación
Estimación por intervalo de confianza
La estimación por intervalos se refiere al proceso de determinar un intervalo de
valores, el cual incluirá el verdadero valor del parámetro, con un nivel de confianza
determinado y expresado en términos de probabilidades. (Andrade, 2019).
La estimación por intervalos de confianza consiste en determinar un posible rango de
valores o intervalo (a; b), en el que, con una determinada probabilidad, sus límites contendrán
el valor del parámetro poblacional que andamos buscando. Para cada muestra obtendremos
un intervalo distinto que, para el X % de ellas, contendrá el verdadero valor del parámetro. A
este intervalo se le denomina intervalo de confianza. (Botella, Alacreu y Martínez, 2014).
En este capítulo estudiaremos la estimación por intervalos de confianza para una
proporción o porcentaje (P) en el caso de disponer de una variable categórica y la MEDIA
(µ) cuando dispongamos de una variable cuantitativa.
Lo que nos interesa a nosotros es poder hacer una estimación de la media poblacional
a partir de los resultados de una muestra.
Lo que vamos hacer es, partiendo de los resultados obtenidos para la muestra,
construir un intervalo en el que “confiamos” que se encuentre la media poblacional.
Llamaremos nivel de confianza al porcentaje de confianza que tenemos al hacer la
estimación (se puede expresar en términos de probabilidad como 1 - ), o bien, podemos
hablar también del nivel de significación, , que no es otra cosa que la probabilidad de error
que estamos dispuestos a asumir en la estimación.
Prof. Milbet Rodriguez
Unidad III Intervalos de Confianza, Estimación y Muestreo (parte 3)
En otras palabras, a la probabilidad de que hayamos acertado al decir que el intervalo
contiene al parámetro se la denomina nivel de confianza (o simplemente confianza). También
se denomina nivel de significación a la probabilidad de errar en esta afirmación, es decir la
significación (probabilidad de errar con nuestro intervalo) será igual a (1-nivel de confianza),
ya que el nivel de confianza corresponde a la probabilidad de que el intervalo contenga el
valor verdadero del parámetro.
Estos dos conceptos son complementarios: si estamos dispuestos a asumir una
probabilidad de error de =0,05 (5% de error), entonces, nuestro nivel de confianza será del
95% (ó 0,95 en términos de probabilidad).
El reto que nos proponemos es, a partir de los valores muestrales, conocer tanto como
sea posible los valores poblacionales. Para ello, utilizaremos las distribuciones de los
correspondientes estimadores:
Intervalo de confianza para un porcentaje poblacional P:
Utilizaremos la distribución en el muestreo del estadístico 𝑃̂
Intervalo de confianza para una media poblacional µ:
Utilizaremos la distribución en el muestreo del estadístico 𝑋̅
1. Si la desviación típica poblacional es conocida podemos utilizar la expresión
2. Si la desviación típica poblacional es desconocida (que es lo habitual), y por tanto
a lo sumo conoceremos S que es un estimador de . En ese caso, debemos introducir
una nueva distribución llamada Distribución t de Student, pues la distribución del
estadístico 𝑋̅ cuando usamos la desviación típica muestral S es:
donde tn−1 representa la distribución t de Student con n−1 grados de libertad. Esta
distribución se estudiará en el siguiente punto de este tema.
Prof. Milbet Rodriguez
Unidad III Intervalos de Confianza, Estimación y Muestreo (parte 3)
Distribución t de Student
Cuando nos disponemos a hacer inferencia sobre la media poblacional (µ) a partir de
la media muestral (x), resulta lógico utilizar el Teorema Central del Límite, es decir, que
La Expresión anterior se utiliza para cuando exista una muestra de tamaño
suficientemente grande, podemos estimar el valor de la desviación típica poblacional.
Cuando no tengamos una muestra suficientemente grande, la estimación que
tendremos de a partir de S no será lo suficientemente precisa, y por tanto la expresión
anterior no será válida. En consecuencia, si no es conocida y el tamaño muestral que
disponemos no es suficientemente grande, la expresión , que es la que realmente
usaremos para calcular el intervalo de confianza que pretendemos obtener, no seguirá una
distribución N (0; 1) sino otra distribución similar (pero diferente), una distribución t de
Student.
La distribución t de Student es una distribución con las siguientes características:
Forma de campana.
La máxima probabilidad se concentra alrededor del valor 0 (que es su media, moda y
mediana) y disminuye a medida que nos alejamos de este valor central.
Su forma se define por un parámetro g llamado grados de libertad, y que modula la
mayor o menor variabilidad de los valores de esta distribución.
A continuación reproducimos una tabla de la distribución t de la misma forma que
hicimos para la distribución Normal Estándar. Cada fila de esta tabla se refiere a un número
de grados de libertad diferente, que aparecen en la primera columna. A su vez cada una de
las columnas de la tabla corresponde a un valor concreto de probabilidad. Para cada
combinación de fila y columna la tabla reproduce aquel valor que para los grados de libertad
correspondientes deja a su izquierda la probabilidad determinada por la columna a la que
pertenece.
Prof. Milbet Rodriguez
Unidad III Intervalos de Confianza, Estimación y Muestreo (parte 3)
Tabla de probabilidades de la distribución t de Student
[P(t < T)]
0.650 0.700 0.750 0.800 0.850 0.900 0.950 0.9750 0.990 0.995
1 0.509 0.726 1.000 1.376 1.962 3.077 6.313 12.706 31.820 63.656
2 0.444 0.617 0.816 1.060 1.386 1.885 2.919 4.302 6.964 9.924
3 0.424 0.584 0.764 0.978 1.249 1.637 2.353 3.182 4.540 5.840
4 0.414 0.568 0.740 0.940 1.189 1.533 2.131 2.776 3.746 4.604
5 0.408 0.559 0.726 0.919 1.155 1.475 2.015 2.570 3.364 4.032
6 0.404 0.553 0.717 0.905 1.134 1.439 1.943 2.446 3.142 3.707
7 0.401 0.549 0.711 0.896 1.119 1.414 1.894 2.364 2.997 3.499
8 0.399 0.545 0.706 0.888 1.108 1.396 1.859 2.306 2.896 3.355
9 0.397 0.543 0.702 0.883 1.099 1.383 1.833 2.262 2.821 3.249
10 0.396 0.541 0.699 0.879 1.093 1.372 1.812 2.228 2.763 3.169
11 0.395 0.539 0.697 0.875 1.087 1.363 1.795 2.200 2.718 3.105
12 0.394 0.538 0.695 0.872 1.083 1.356 1.782 2.178 2.680 3.054
13 0.393 0.537 0.693 0.870 1.079 1.350 1.770 2.160 2.650 3.012
14 0.393 0.536 0.692 0.868 1.076 1.345 1.761 2.144 2.624 2.976
15 0.392 0.535 0.691 0.866 1.073 1.340 1.753 2.131 2.602 2.946
16 0.392 0.535 0.690 0.864 1.071 1.336 1.745 2.119 2.583 2.920
17 0.391 0.534 0.689 0.863 1.069 1.333 1.739 2.109 2.566 2.898
18 0.391 0.533 0.688 0.862 1.067 1.330 1.734 2.100 2.552 2.878
19 0.391 0.533 0.687 0.860 1.065 1.327 1.729 2.093 2.539 2.860
20 0.390 0.532 0.686 0.859 1.064 1.325 1.724 2.085 2.527 2.845
21 0.390 0.532 0.686 0.859 1.062 1.323 1.720 2.079 2.517 2.831
22 0.390 0.532 0.685 0.858 1.061 1.321 1.717 2.073 2.508 2.818
23 0.390 0.531 0.685 0.857 1.060 1.319 1.713 2.068 2.499 2.807
24 0.389 0.531 0.684 0.856 1.059 1.317 1.710 2.063 2.492 2.796
25 0.389 0.531 0.684 0.856 1.058 1.316 1.708 2.059 2.485 2.787
26 0.389 0.530 0.684 0.855 1.057 1.314 1.705 2.055 2.478 2.778
27 0.389 0.530 0.683 0.855 1.056 1.313 1.703 2.051 2.472 2.770
28 0.389 0.530 0.683 0.854 1.055 1.312 1.701 2.048 2.467 2.763
29 0.389 0.530 0.683 0.854 1.055 1.311 1.699 2.045 2.462 2.756
30 0.389 0.530 0.682 0.853 1.054 1.310 1.697 2.042 2.457 2.749
40 0.388 0.528 0.680 0.850 1.050 1.303 1.683 2.021 2.423 2.704
60 0.387 0.527 0.678 0.847 1.045 1.295 1.670 2.000 2.390 2.660
120 0.386 0.525 0.676 0.844 1.040 1.288 1.657 1.979 2.357 2.617
0.385 0.524 0.674 0.841 1.036 1.281 1.644 1.959 2.326 2.575
Intervalo de confianza para una media: desviación típica poblacional conocida
Tal y como hemos señalado anteriormente, en caso conocer la desviación típica de
la población.
Por tanto, el intervalo de confianza para la media, µ, estará contenido con un nivel
de confianza· (1 − α) es:
IC(µ)=
Prof. Milbet Rodriguez
Unidad III Intervalos de Confianza, Estimación y Muestreo (parte 3)
Ejemplo 1.
En un estudio se pretende estimar la edad media a la que se diagnostica la Diabetes Mellitus en la
Comunitat Valenciana. Para ello se dispone de una muestra de 100 pacientes a los que se les ha
preguntado la edad de diagnóstico de la enfermedad. A partir de estos 100 pacientes se ha obtenido una
edad media (muestral) de 48,78 años. Si es conocido, a raíz de otros estudios, que la desviación típica
poblacional de esta variable (Edad de diagnóstico de la enfermedad) es σ = 16,32, calcula un intervalo
de confianza al 95% para la edad media de diagnóstico de esta enfermedad en la región de estudio.
Datos para realizar la estimación: n = 100, x = 48,78 y σ = 16,32.
Como queremos obtener un intervalo con un 95% de confianza, tenemos 1 − α = 0,95, y por tanto
así, (1 - /2)=0,975. Por tanto debemos buscar el valor de la Normal estándar
que cumple que el 97,5% de los valores son inferiores a él. Este valor de la N(0,1) es Z 1 - /2=1,96, y
por tanto, el intervalo es:
Con un 95% de confianza, la edad media a la que se diagnostica la Diabetes Mellitus en la Comunitat
Valenciana será un valor contenido en el intervalo [45,59; 51,98].
Intervalo de confianza para una media: desviación típica poblacional
desconocida
Cuando la desviación típica NO es conocida, no podemos calcular este intervalo. En
ese caso usaremos el siguiente resultado que se obtiene siguiendo un razonamiento análogo
para una t de Student:
IC(µ)=
donde (tn – 1, 1-/2) es el valor de la t de Student con n-1 grados de libertad, que deja a
su derecha una probabilidad igual a /2.
Prof. Milbet Rodriguez
Unidad III Intervalos de Confianza, Estimación y Muestreo (parte 3)
Ejemplo 2.
En un estudio se pretende estimar la edad media a la que se diagnostica la Diabetes Mellitus en la
Comunitat Valenciana. Para ello se dispone de una muestra de 21 pacientes a los que se les ha preguntado
la edad de diagnóstico de la enfermedad. A partir de estos 21 pacientes se ha obtenido una edad media
(muestral) de 48,78 años y una desviación típica muestral de 16,32. Calcula un intervalo de confianza al
95% para la edad media de diagnóstico de esta enfermedad en la región de estudio.
Tenemos como datos para realizar la estimación: n = 21, x = 48,78 y S = 16,32.
Como queremos obtener un intervalo con un 95% de confianza, tenemos 1 − α = 0,95, y por tanto
=0,05 y /2=0,025, así, (1-/2)=0, 975 y debemos buscar el valor de la distribución t de Student con
n−1 = 20 grados de libertad que cumple que el 97,5% de los valores son inferiores a él. Este valor de la
t de Student es t(20,0,975) = 2,085, y por tanto, el intervalo que queríamos calcular tomará la siguiente
expresión:
Con un 95% de confianza, la edad media a la que se diagnostica la Diabetes Mellitus en la Comunitat
Valenciana estará contenida en el intervalo [41,35; 56,20], es decir, entre 41 y 56 años aproximadamente.
Intervalo de confianza para un porcentaje
En el caso de disponer de una variable cualitativa, en la que su media no tiene
demasiado sentido, suele ser habitual plantearse el cálculo del intervalo de confianza para el
porcentaje de individuos en cada una de sus categorías. En esta sección nos ocuparemos del
caso en que dispongamos de una variable binaria y queramos hacer inferencia sobre el
porcentaje de dicha característica en la población (P), a partir del porcentaje de esa misma
característica en nuestra muestra ( b P).
El intervalo en el que P estará contenido con un (1 − α) × 100% de confianza será:
Prof. Milbet Rodriguez
Unidad III Intervalos de Confianza, Estimación y Muestreo (parte 3)
Ejemplo 3.
Un estudio pretende estimar el porcentaje de hipertensos que hay entre las personas mayores de 65 años
en la Comunidad Valenciana. Además de una estimación puntual de este porcentaje, interesa obtener un
intervalo de confianza al 95% para este parámetro de la población (P). Para llevar a cabo este estudio,
han sido seleccionadas 350 personas mayores de 65 años en toda la Comunidad, resultando tras realizar
las pruebas correspondientes que 167 padecen de hipertensión.
P=% de hipertensos entre las personas mayores de 65 años en la Comunidad Valenciana. n = 350
167
Estimador puntual: 𝑃̂ = . 100% = 47,71%
350
Como queremos obtener un intervalo con un 95% de confianza, entonces 1 − α = 0,95 y por tanto α =
0,05. Así, (1 - /2)=0,975 y en consecuencia debemos buscar el valor de la Normal estándar que cumple
que el 97,5% de los valores son inferiores a él. Este valor de la N(0,1) es Z1 - /2 = 1,96, y por tanto, el
intervalo que buscamos es:
Así, con un 95% de confianza, el porcentaje de hipertensos entre las personas mayores de 65 años en la
Comunidad Valenciana estará contenido en el intervalo [42,48 , 52,94], es decir, aproximadamente
entre el 42,5% y 53% de la población.
Muestreo
En el tema anterior se dio por hecho que teníamos una muestra de tamaño n, con la
que podíamos hacer inferencias.
En primer lugar, una muestra debe ser un subconjunto de la población, pero no
cualquier subconjunto, sino que debe ser representativo de la misma.
La forma en la que se elige este subconjunto influirá en los resultados que
obtengamos. Nos conviene conocer algunos de los tipos o técnicas más habituales de
muestreo, ya que los necesitaremos para realizar cualquier estudio estadístico.
En segundo ¿Cuál debe ser el tamaño de la muestra? ¿es apropiado tomar 20
elementos? ¿existen grandes diferencias entre tomar 50 o 100 elementos? ¿en que influye el
tamaño de la muestra?
Prof. Milbet Rodriguez
Unidad III Intervalos de Confianza, Estimación y Muestreo (parte 3)
Técnicas de Muestreo
Vamos a comentar algunas de las técnicas más habituales de muestreo
Muestreo aleatorio o al azar
Consiste en seleccionar los elementos que componen la muestra totalmente al azar.
Este método supone que cualquier elemento de la población puede ser incluido en la muestra
y que todos tienen exactamente la misma probabilidad de serlo. Se puede realizar o bien
ayudándonos de una tabla de números aleatorios o al azar o también mediante un generador
de números aleatorios (ordenador). En cualquier caso, será necesario enumerar a todos los
elementos de la población, y en algunos casos, la población ni siquiera es numerable (por
ejemplo, en un estudio medioambiental, la selección de peces en un rio). Por este motivo, en
multitud de ocasiones este muestreo es adaptado para obtener un método que, en la medida
de lo posible, se acerque a él (la selección de elementos en la muestra sea lo más aleatoria
posible).
Ejemplo 4.
Estudio de la presión arterial en personas mayores de 65 años.
Si quisiéramos estudiar la presión arterial media de las personas mayores de 65 años y queremos
extraer una muestra de tamaño n = 100 (porque únicamente disponemos recursos económicos,
materiales, personales,... para estudiar a este número de personas) mediante un muestreo aleatorio
simplemente tendríamos que buscar un censo de todas estas personas y seleccionar a 100 de todas
ellas totalmente al azar. (Esto es la teoría, ahora habría que buscar´ ese censo y tener en cuenta si
querrían participar o no, pero aquí estamos estudiando la teoría, la práctica debería aproximarse,
en la medida de lo posible, a esta teoría)
Este tipo de muestreo todos y cada uno de los elementos de la población tienen la
misma probabilidad de ser incluidos en la muestra, es decir, tienen la misma probabilidad de
ser elegidos. Este muestreo puede ser con o sin reemplazo.
Con reemplazo
Cada elemento extraído para una muestra regresa a la población, de tal manera que
puede formar parte de otra selección. Poblaciones finitas se hacen infinitas a través de este
procedimiento. La probabilidad de participación es igual a 1/N.
Sin reemplazo
Prof. Milbet Rodriguez
Unidad III Intervalos de Confianza, Estimación y Muestreo (parte 3)
Cada elemento extraído para una muestra no es regresado a la población, por lo tanto
no puede formar parte de otra selección. La probabilidad de selección de cada elemento
depende del número de elementos extraídos; es decir, la probabilidad del:
1er elemento es 1/N
2do elemento es 1/N-1
3er elemento es 1/N-2.
La población se agota por este procedimiento, ya que un elemento extraído no vuelve
a participar en la selección siguiente. Este método no se usa en poblaciones muy numerosas.
Muestreo Estratificado
Se utiliza fundamentalmente cuando existe una variable categórica cuya
influencia es determinante en los resultados del estudio o puede confundir los mismos
(esta variable se llama factor confusor). La población es dividida en sub-poblaciones
definidas por la categoría de la variable confusora y dentro de cada sub-población se
toma una muestra aleatoria. El tamaño de cada una de las sub-muestras vendrá dado por
el tamaño de cada sub-población en relación con el tamaño de la población total.
Otros autores Pinto y Pernalete (s/a), mencionan que para utilizar este tipo de
muestreo la población debe encontrarse dividida en estratos, los cuales son grupos
homogéneos en cuanto a la característica a estudiar, luego se elige una muestra de cada
estrato.
Muestreo Estratificado Proporcional
El número de unidades seleccionadas de cada estrato es proporcional al tamaño de
este. Posteriormente se eligen los elementos de cada estrato.
Para determinar el número de elementos en cada estrato se puede determinar una fracción de
muestreo.
n donde n: muestra
fracción de muestreo = ---- N: población
N
Prof. Milbet Rodriguez
Unidad III Intervalos de Confianza, Estimación y Muestreo (parte 3)
Ejemplo 5.
La siguiente población pertenece a una delimitación que se ha realizado para una
investigación y se desea determinar el tamaño de cada estrato que sea proporcional
a la población, en una muestra de 150 sujetos
Grupo A: 400 sujetos 150
Grupo B: 500 sujetos fracción de muestreo = -------- = 0,0882
Grupo C: 800 sujetos 1700
De allí entonces que el número de sujetos para cada estrato de manera proporcional
será el producto del tamaño de cada estrato multiplicado por la fracción de
muestreo.
Grupo A = 400. 0,0882 = 35,28 35
Grupo B = 500. 0,0882 = 44,10 44
Grupo C = 800. 0,0882 = 70,56 71
------
n = 150
Muestreo Sistemático
En éste se ordena la muestra según los valores del factor confusor, y selecciona
todos los individuos separados cierto número de posiciones entre sí (dentro de la muestra
ordenada), tomando el primer elemento de forma aleatoria entre los primeros. De esta
forma aseguramos que los valores que observaremos de la variable a estudiar
corresponderán a todo el rango de valores del efecto confusor.
Ejemplo 6.
Continua ejemplo Presión Arterial en mayores de 65 años.
Retomando de nuevo el ejemplo anterior, supongamos que es conocido que la hipertensión es más
frecuente a medida que aumenta la edad de las personas. En este caso podría ser una variable confusora
la variable Edad. Si por azar en nuestra muestra de n = 100 personas seleccionáramos más, o menos,
personas mayores de los que hay proporcionalmente en la población, podríamos obtener una presión
arterial media a partir de nuestra muestra que podría ser superior, o inferior respectivamente, al nivel
medio de la población (que es a lo que nos gustaría acercarnos). Así, como la variable edad tiene cierta
Prof. Milbet Rodriguez
Unidad III Intervalos de Confianza, Estimación y Muestreo (parte 3)
influencia en la variable de interés (presión arterial), si quisiéramos controlar su efecto confusor
podríamos realizar un muestreo sistemático que consistiría en:
1.- Ordenar la población por la variable confusora, es decir, del de menor edad al de mayor edad;
2.- Si por ejemplo la población total está formada por 1000 personas y nosotros queremos seleccionar
a 100, tendríamos que tomar una persona de cada 10;
3.- De entre las 10 primeras personas seleccionamos una al azar, y a partir de esa persona seleccionamos
una cada 10.
Así finalmente, la muestra estaría compuesta por 100 personas de todas las edades en la misma
proporción aproximada que en la población.
Los autores Pinto y Pernalete (s/a) mencionan que consiste en elegir elementos para
la muestra en intervalos sistemáticos, regulares o iguales a partir del primer elemento
seleccionado al azar. Para fijar el intervalo se divide el total de elementos (población) entre
la cantidad de los elementos que integrarán la muestra, es también denominado el elemento
késimo (k = N/n), luego se elige el primer elemento y a continuación los demás elementos a
razón del intervalo.
Ejemplo 7.
Existe una población conformada por 800 elementos, y se desea obtener una
muestra de 80 elementos.
N 800
Intervalo = --- = -------- = 10
n 80
El primer elemento se debe elegir entre 01 y 10, mediante la utilización de
la tabla de números aleatorios se elige el Nº 4, el segundo elemento será el
14 (4 + 10), el tercero 24 (14 +10), hasta llegar al elemento ochenta que sería
794.
Tamaño de la Muestra
Es importante a la hora de seleccionar una muestra es determinar el tamaño de la
misma. En muchas ocasiones esta tarea no es nada sencilla, e incluso lo único que podemos
hacer es una estimación del tamaño mínimo que debe tener.
Para empezar, debemos tener claro que se elige una muestra cuando tenemos una
población muy grande que no podemos abarcarla, o bien lo suficientemente grande para que
sea muy costoso el acceder a todos los elementos de la misma.
Prof. Milbet Rodriguez
Unidad III Intervalos de Confianza, Estimación y Muestreo (parte 3)
Por otra parte, la muestra debe ser lo suficientemente grande como para que los
resultados obtenidos a partir de ella sean fiables. Esta fiabilidad viene medida por el error
máximo que estamos dispuestos a admitir, EM, y su probabilidad asociada ().
Error Estándar de la media muestral
El Teorema Central del Límite nos asegura que si nuestra muestra es razonablemente
grande la distribución de la media muestral de cualquier variable sigue una distribución
Normal y que además, la desviación típica de esta media tiene como expresión:
donde σ es la desviación típica de la variable original y n es el tamaño de la muestra. A la
expresión anterior se le llama error estándar de la media.
Se entiende que el error estándar sería la desviación típica resultante de la
obtención de las medias de distintas muestras aleatorias de la población. El error
estándar será el efecto de la variabilidad muestral sobre el valor que obtenemos de la
media en cada muestra, es decir la desviación típica de la media se conoce como error
estándar.
Supongamos que tenemos una variable cuantitativa cualquiera X, cuya media en la
población es y cuya desviación típica (también en la población) es . Si se toman varias
muestras de tamaño suficientemente grande y llamamos 𝑋̅ a la variable que guarda las medias
muestrales para cada una de las muestras, por el Teorema Central del Límite tenemos
asegurado:
Prof. Milbet Rodriguez
Unidad III Intervalos de Confianza, Estimación y Muestreo (parte 3)
Ejemplo 8.
Comportamiento de las medias muestrales (de tamaño 50) de una variable con media
10 y desviación típica 1,5.
Supongamos que tenemos una variable que en la población tiene media µ = 10 y
desviación típica σ = 1,5. Si el comportamiento de esta variable fuera aproximadamente
Normal, la mayoría de valores de esta variable estarían alrededor del valor 10
más/menos dos desviaciones típicas por arriba y por abajo de este valor (es decir, entre
10 − 3 = 7 y 10 + 3 = 13 estarían la mayor parte de los valores de la variable)
¿Cómo se comportarían las medias muestrales si extrajéramos varias muestras de
tamaño 50?
Pues según el Teorema Central del Límite, las medias muestrales seguirán una
distribución Normal con media µ = 10 y desviación típica
Por tanto, las medias muestrales estarían alrededor del valor 10, pero con más/menos
dos desviaciones típicas por arriba y por abajo (es decir, entre 9,5758 y 10,4242 estarían
la mayor parte de las medias de las muestras). Así observamos que en general las medias
muestrales son más precisas que las variables de las que provienen y serán más precisas
cuantos más valores tengamos en nuestra muestra.
Error estándar de un porcentaje
En el caso de que la variable de interés sea una variable nominal no tiene sentido
que nos planteemos el error estándar de su media (de hecho la media de una variable
nominal no tiene tampoco sentido) sino el de su porcentaje de individuos en cada uno
de sus valores. En este caso si P es el porcentaje de respuestas en ese valor su error
estándar será:
En la expresión anterior se ha supuesto que la variable P esta´ expresada en
tantos por 100, si estuviera expresada en tantos por uno (es decir P es un valor entre 0 y
1) únicamente habríamos de cambiar en ella el valor 100 por 1 y la expresión seguiría
siendo válida.
Supongamos que tenemos una variable categórica y que nos interesa estimar el
porcentaje de una de sus categorías en la población, al que llamamos P. Si tomamos
Prof. Milbet Rodriguez
Unidad III Intervalos de Confianza, Estimación y Muestreo (parte 3)
varias muestras de tamaño suficientemente grande (n) y en cada una de esas muestras
obtenemos una estimación del porcentaje de interés, si llamamos siguiente distribución:
b P a la variable que guarda los porcentajes de esas muestras, se cumple que esta variable
aleatoria sigue la
Ejemplo 9.
Se supone que el peso de los niños de un año de edad siguen una distribución normal
de media µ = 10 Kg y desviación típica σ=2 Kg. Se extrae una muestra de 25 niños cuyo
peso medio ha resultado ser x=12.2 Kg. A la vista del resultado, ¿parece cierto el
supuesto de que el peso medio poblacional de los niños de un año de edad esté entorno
(12 , 5 − 10
X> 12.5)=P( Z> )= P(Z > 6.25) ≈ 1-1=0.
2
√
25
a los 10 Kg?
Solución:
Si la muestra de niños es representativa de la realidad (cosa que supuestamente es así),
el peso medio muestral debería estar “cerca” del peso medio poblacional del que
procede (10 kg). Ya que, por el Teorema Central del Límite, sabemos que
X ∼ N(10,2/√(25)) Es decir, la probabilidad de encontrar muestras de 25 niños con
pesos medios muestrales superiores al observado (12.5) debería ser común ( <0.5).
Hacemos el cálculo:
P(𝑋̅ > 12,5 = 𝑃 (𝑍 > 12.5−10 = 𝑃(𝑍 > 6,25) 1 − 1 = 0
√2
25
Es decir, 12.5 Kg es un peso medio extremadamente extraño si procede de la población
N(10, 2/sqrt(25)). Por lo tanto, podemos afirmar que el peso medio real de los niños de
un año de edad es significativamente mayor que 10 Kg.
Prof. Milbet Rodriguez
Unidad III Intervalos de Confianza, Estimación y Muestreo (parte 3)
Cálculo del tamaño muestral para obtener un error de estimación prefijado
En ocasiones, antes de comentar un estudio, nos planteamos cual es el tamaño que
debe tener la muestra que vamos a seleccionar. La respuesta estadística siempre es "lo más
grande posible". Sin embargo, cuando tenemos un objetivo concreto, como cometer un error
no mayor de un umbral determinado, es posible calcular el tamaño muestra necesario para
cumplir ese requisito con un nivel de confianza (1 − ) determinado.
Tamaño muestral necesario para la estimación de una media poblacional con un error
determinado.
En esta sección nos plantearemos el cálculo del tamaño muestral necesario para
estimar una media poblacional (µ) con un error máximo e. Para ello tendremos que fijar
previamente el nivel de confianza con el que queremos trabajar (1 −) × 100% y conocer (o
tener una estimación aproximada a partir de estudios previos o una pre-muestra) de la
desviación típica poblacional.
Sabemos, que la fórmula para hallar el intervalo de confianza para una media
poblacional con desviación típica poblacional conocida y con una confianza del (1 −) ×
100% es:
Considerando que el error de la estimación (e) es la amplitud del intervalo, queremos:
Así, despejando de esta expresión, podemos obtener:
Prof. Milbet Rodriguez
Unidad III Intervalos de Confianza, Estimación y Muestreo (parte 3)
Ejemplo 10.
Supongamos que queremos estimar el nivel de hemoglobina (Hb) medio para los
pacientes oncológicos sometidos a tratamiento de Quimioterapia. Supongamos también
que queremos obtener esta estimación con un error máximo de 0,2 unidades y que
queremos trabajar con una confianza del 95%. Como no disponemos, como es habitual,
del valor de la desviación típica de esta variable en la población, hemos tomado una
pre-muestra de esta población y hemos obtenido una desviación típica de esta pre-
muestra de 0,6 Partimos de los siguientes datos:
e = 0,2; 1 96; σ ≈ 0,6
Aplicando la fórmula anterior obtenemos:
Tamaño muestral necesario para la estimación de un porcentaje poblacional con un
error determinado
En esta sección nos plantearemos, de forma similar a la sección anterior, el cálculo
del tamaño muestral necesario para estimar un porcentaje poblacional (P) con un error
máximo e. Para ello, también debemos fijar previamente el nivel de confianza con el que
queremos trabajar (1−α)×100% y tener una estimación aproximada, a partir de estudios
previos o una pre-muestra, de la magnitud del porcentaje que queremos estimar (si estará
alrededor del 10%, 35%, 50%....). Si no tenemos esta información nos pondremos en el peor
de los casos, es decir, en el que tiene una estimación con mayor variabilidad, que coincide
con P ≈ 50%.
Sabemos, que la fórmula para hallar el intervalo de confianza para una media poblacional
con desviación típica poblacional conocida y con una confianza del (1 − α) × 100% es:
donde en la expresión hemos aproximado por el valor de P el verdadero
porcentaje poblacional P.b
Considerando que el error de la estimación (e) es, como en el caso anterior, la
amplitud del intervalo, queremos:
Prof. Milbet Rodriguez
Unidad III Intervalos de Confianza, Estimación y Muestreo (parte 3)
Así, despejando de esta expresión, podemos obtener:
Ejemplo 11.
Supongamos que queremos estimar el% de niños menores de 15 años que tienen alguna
caries en sus dientes definitivos en la Comunidad Valenciana. Supongamos también
que queremos obtener esta estimación con un error máximo de un 6% y que queremos
trabajar con una confianza del 95%. Si dispusiéramos de una estimación previa de este
porcentaje (o bien por estudios previos en otras comunidades, o bien obtenido a partir
de una pre-muestra lo utilizaríamos como valor de P. Supongamos que en esta ocasión
no es así, no tenemos ninguna idea previa sobre el valor que toma este porcentaje, así
que nos pondremos en el peor de los casos y supondremos que nuestro porcentaje está
alrededor del 50% Partimos de los siguientes datos:
e = 6%; 1 96; P ≈ 50%
Aplicando la fórmula anterior obtenemos:
Ejemplo 12.
Consideremos, con el mismo escenario que en ejemplo anterior, que sí tenemos una
estimación previa, por un estudio realizado en la Comunidad de Galicia, del porcentaje
aproximado de niños en esas edades con alguna caries en sus dientes definitivos. En esa
región se ha obtenido un porcentaje del 10%
En este caso, aunque no conozcamos ese porcentaje en nuestra región de estudio, cabría
pensar que no distaría muchísimo del que se ha obtenido en Galicia y, aprovechando
esta estimación, podríamos considerar que el porcentaje que queremos estimar estará
alrededor del valor P ≈ 10%. El tamaño muestral necesario cambiaria sustancialmente,
tal y como se indica a continuación:
Prof. Milbet Rodriguez
Unidad III Intervalos de Confianza, Estimación y Muestreo (parte 3)
REFERENCIAS
Andrade, H. (2019). Guía complementaria al Curso Bioestadística Aplicada en
Ciencias de la Salud. Fundación Gustavo Palma Calderón.
Botella, Alacreu y Martínez. (2014) Estadística en Ciencias de la Salud. Universidad
Cardenal Herrera.
Prof. Milbet Rodriguez