República Bolivariana de Venezuela.
Ministerio del Poder Popular para la Educación Superior.
Universidad Nacional Experimental “Simón Rodríguez”.
Maturín – Estado – Monagas.
ESTIMACION
Facilitador: Participante:
José David Romero Anilexis Granger
CI: 27946458
Sección: “J”
INDICE
Introducción…………………………………………………………………………………1
¿Qué Se Entiende Por Estimador?..........................................................................................2
Defina Estimación…………………………………………………………………………...2
Defina De Los Siguientes Estimadores: Insesgado, Consistente, Suficiente, Eficiente…….3
Tipos De Estimación (Puntual, Por Intervalo)……………………………………………..11
¿Qué Se Entiende Por Sesgo Y Variación Aleatoria?...........................................................13
Error Sistemático (Sesgo)………………………………………………………………….16
Porque Siempre Tratamos De Encontrar Un Estimador Insesgado………………………..20
¿Qué Es Un Error De Estimación? ¿Cómo Se Estima? Cómo Se Pueden Disminuir En Una
Estimación Por Intervalo…………………………………………………………………...20
¿Cómo Influyen El Tamaño De La Muestra En Los Riesgos Y El Error De Estimación?
Cuáles Son Las Muestras Más Apropiadas Para Disminuir Los Errores Y Riesgos………28
Que Características Se Deben Tomar En Cuenta La Hora De Construir Un Intervalo De
Confianza…………………………………………………………………………………..31
Conclusión………………………………………………………………………………....32
Bibliografía………………………………………………………………………………...33
INTRODUCCION
En el presente trabajo que se va a desarrollar a continuación, se estará hablando un
poco sobre que es la estimación la cual se puede definir como el proceso de encontrar una
aproximación sobre una medida, lo que se ha de valorar con algún propósito es utilizable
incluso si los datos de entrada pueden estar incompletos, incierto, o inestables, así como
también se estará hablando sobre que es un estimador, los tipos de estimación, entre otros
conceptos de gran importancia ya que permitirán tener una mejor comprensión de la
información.
A continuación el desarrollo del tema.
¿QUE SE ENTIENDE POR ESTIMADOR?
Un estimador es un estadístico (una función dela muestra) utilizado para estimar un
parámetro desconocido de la población.
Por ejemplo, si se desea conocer el precio medio poblacional de un artículo
(parámetro desconocido) se recogen observaciones del precio de dicho artículo en diversos
establecimientos (muestra) pudiendo utilizarse la media aritmética de las observaciones
para estimar el precio medio poblacional.
Para cada parámetro pueden existir varios estimadores diferentes. En general, se elige
el estimador que posea mejores propiedades que los restantes, como insesgadez, eficiencia,
convergencia y robustez (consistencia).
El valor de un estimador proporciona una estimación puntual del valor del parámetro
en estudio. En general, se realiza la estimación mediante un intervalo, es decir, se obtiene
un intervaloestadístico muestral error estimación dentro del cual se espera se encuentre
el valor poblacional dentro de un cierto nivel de confianza. El nivel de confianza es la
probabilidad de que a priori el valor poblacional se encuentre contenido en el intervalo.
DEFINA ESTIMACIÓN.
Estimación (o estimar) es el proceso de encontrar una aproximación sobre una
medida, lo que se ha de valorar con algún propósito es utilizable incluso si los datos de
entrada pueden estar incompletos, incierto, o inestables. En el ámbito de la estadística
estimación implica ” usar el valor de una estadística derivada de una muestra para estimar
el valor de un parámetro correspondiente a población”; la muestra establece que la
información puede ser proyectada a través de diversos factores, formal o informalmente,
son procesos para determinar una gama muy probablemente y descubrir la información que
falta. Cuando una estimación resulta ser incorrecta, se denomina “overestimate” si la
estimación superó el resultado real y una subestimación si la estimación se quedó corto del
resultado real.
La estimación se realiza mediante el muestreo de frecuencia, (lo que está contando
con algo pequeño número de ejemplos), y la proyección de ese número en una población
más grande.
Las estimaciones de manera similar se pueden generar mediante la proyección de los
resultados de encuestas o encuestas sobre la población total; al hacer una estimación, lo
más a menudo es que el objetivo es útil para generar un rango de posibles resultados, y esa
cualidad es suficiente para ser útil, pero no es necesario que por lo que es probable que sea
incorrecto.
Por ejemplo, al tratar de adivinar el número de caramelos contenidos en un frasco si
el cincuenta por ciento eran visibles y el volumen general de la jarra sobre parecía ser
veinte veces tan grande como el recipiente de volumen que contiene los caramelos visibles,
a continuación un proyecto simple mide que había un millar de caramelos en el frasco; tal
proyección, previsto para recoger el único valor que se cree que es más cercano al valor
real se llama una estimación puntual.
Sin embargo el punto de estimación es probable que sea incorrecto, debido a que el
tamaño de la muestra (en este caso, el número de caramelos son visibles), es un número
demasiado pequeño para estar seguro de que no que contienen anomalías que difieren de la
población en su conjunto; este concepto es correspondiente a una estimación de intervalo
que captura una gama mucho más amplia de posibilidades, pero es demasiado amplio para
ser útil.
DEFINA DE LOS SIGUIENTES ESTIMADORES: INSESGADO, CONSISTENTE,
SUFICIENTE, EFICIENTE.
Insesgado:
Se dice que un estimador es insesgado si la Media de la distribución del estimador es
igual al parámetro.
Estimadores insesgados son la Media muestral (estimador de la Media de la
población) y la Varianza (estimador de la Varianza de la población):
Un estimador insesgado es aquel cuya esperanza matemática coincide con el valor del
parámetro que sea desea estimar. En caso de no coincidir se dice que el estimador tiene
sesgo.
En caso de que la esperanza del estimador no coincida con el verdadero valor del
parámetro se dice que el estimador tiene un sesgo. El sesgo se mide como la diferencia
entre el valor de la esperanza del estimador y el valor verdadero. Matemáticamente se
puede notar como sigue:
De la fórmula anterior queda clara la primera parte y la última. Es decir, la esperanza
del estimador es igual al verdadero valor del parámetro. Si se cumple esta igualdad,
entonces el estimador es insesgado. La parte de en medio, matemáticamente más abstracta,
se explica en el siguiente párrafo.
La media de todas las estimaciones que puede realizar el estimador para cada muestra
diferente, es igual al parámetro. Por ejemplo, si tenemos 30 muestras diferentes, lo normal
es que en cada muestra el estimador (aunque sea por poco) ofrezca valores diferentes. Si
realizamos la media de los 30 valores del estimador en las 30 muestras diferentes, entonces
el estimador debe arrojar un valor igual al verdadero valor del parámetro.
Un ejemplo de estimador insesgado lo encontramos en el estimador media. Este
estimador es conocido en estadística como media muestral. Si utilizamos la fórmula
matemática descrita al principio llegamos a la conclusión de que la media muestral es un
estimador insesgado. Antes de operar, hemos de tener en cuenta la siguiente información:
Denotamos X con una barrita arriba a la media muestral.
La fórmula de la media muestral es la suma de los n valores que tenemos dividido
entre el número de valores. Si tenemos 20 datos, n será igual a 20. Tendremos que sumar
los valores de los 20 datos y dividirlo entre 20.
La notación anterior significa esperanza o valor esperado de la media muestral.
Coloquialmente, podríamos decir que se calcula como el valor medio de la media muestral.
Con esto en mente, utilizando las técnicas matemáticas adecuadas podemos deducir lo
siguiente:
La esperanza del estimador coincide con ‘mu’ que es el verdadero valor del
parámetro. Es decir, la media real. Todo sea dicho, son necesarios unos conceptos básicos
sobre matemáticas, para entender el anterior desarrollo.
Del mismo modo, podríamos intentar hacer lo mismo con el estimador de la varianza
muestral. En lo que sigue S al cuadrado es la varianza muestral y la letra griega sigma (que
parece la letra o con un palito a la derecha) es la varianza real.
La diferencia de la fórmula anterior es la segunda parte de la primera fórmula. Es
decir:
Concluimos que la varianza muestral como estimador de la varianza poblacional es
sesgado. Su sesgo vale igual al valor indicado anteriormente. Así, depende de la varianza
poblacional y del tamaño de la muestra (n). Nótese que si n (tamaño de la muestra) se hace
muy grande, el sesgo tiende a cero.
Si cuando la muestra tiende a un tamaño muy grande el estimador se acerca al
verdadero valor del parámetro, entonces estaremos hablando de un estimador
asintóticamente insesgado.
Otro ejemplo: En una población de 500 puntuaciones cuya Media (m) es igual a 5.09
han hecho un muestreo aleatorio (número de muestras= 10000, tamaño de las muestras=
100) y hallan que la Media de las Medias muéstrales es igual a 5.09, (la media poblacional
y la media de las medias muéstrales coinciden). En cambio, la Mediana de la población es
igual a 5 y la Media de las Medianas es igual a 5.1 esto es, hay diferencia ya que la
Mediana es un estimador sesgado.
La Varianza es un estimador sesgado. Ejemplo: La Media de las Varianzas obtenidas
con la Varianza
En un muestreo de 1000 muestras (n=25) en que la Varianza de la población es igual
a 9.56 ha resultado igual a 9.12, esto es, no coinciden. En cambio, al utilizar la
Cuasivarianza
La Media de las Varianzas muéstrales es igual a 9.5, esto es, coincide con la Varianza
de la población ya que la Cuasivarianza es un estimador insesgado.
Consistente:
Un estimador es consistente si aproxima el valor del parámetro cuanto mayor es n
(tamaño de la muestra).
Algunos estimadores consistentes son:
Un estimador consistente es aquel cuyo error de medida o sesgo se aproxima a cero
cuando el tamaño de la muestra tiende a infinito.
De la definición de estimador insesgado, podemos extraer la conclusión de que, en
ocasiones, tenemos errores de estimación. Ahora bien, existen casos en los que cuando la
muestra se va haciendo más grande el error disminuye.
Algunas veces, por las características del estimador utilizado, conforme el tamaño de
la muestra aumenta el error aumenta también. Ese estimador no sería deseable utilizarlo.
Ahora bien, a priori, no sabemos hacia dónde tiende el sesgo. Si tiende a cero, tiende a
cierto valor o tiende a infinito cuando el tamaño de la muestra se hace más grande.
Dicho esto, se hace necesario definir el concepto de consistencia. Para ellos, hemos
de decir que existen dos tipos de consistencia. Por un lado, existe la consistencia simple.
Mientras que, por otra parte, se encuentra la consistencia en media cuadrática.
Por decirlo de alguna manera, son dos herramientas matemáticas que nos permiten
calcular hacia qué número o números converge nuestro estimador.
Consistencia Simple
Un estimador cumple la propiedad de consistencia simple en caso de cumplir la
siguiente ecuación:
De izquierda a derecha, la ecuación se lee de la siguiente manera: El límite, cuando el
tamaño de muestra tiende a infinito, de la probabilidad de que la diferencia absoluta entre el
valor del estimador y el valor del parámetro sea mayor que el error, es igual a cero.
Se entiende que el valor del error notado por épsilon, debe ser mayor que cero.
Intuitivamente, la fórmula indica que cuando el tamaño de la muestra se hace muy
grande, la probabilidad de que exista un error mayor que cero es cero. Dicho de forma
inversa, la probabilidad de que no exista error cuando el tamaño de la muestra es muy
grande es, hablando en probabilidades, de prácticamente el 100%.
Estimador Consistente En Media Cuadrática
Otra herramienta que se puede utilizar para comprobar que un estimador es
consistente es el error cuadrático medio. Esta herramienta matemática es aún más potente
que la anterior. La razón es que la exigencia de esta condición es mayor.
En el apartado anterior, la exigencia era que, probabilísticamente hablando, la
posibilidad de cometer un error fuese cero o muy cercana a cero.
Ahora, lo que estamos exigiendo lo define la siguiente igualdad matemática:
Es decir, que cuando el tamaño de muestra sea grande, la esperanza matemática de
los errores al cuadrado sea cero. La única opción de que este valor sea cero, es que el error
siempre valga cero. ¿Por qué? Porque al estar elevado a dos el error de estimación
(Estimador – Valor verdadero del parámetro), el resultado siempre va a ser positivo. A
menos, eso sí que el error sea cero. Cero elevado a dos es cero.
Claro está que, si el límite da como resultado 0,0001, podemos asumir que es igual a
cero. Es casi imposible que la aplicación del error en media cuadrática salga cero.
Estadísticamente hablando diremos que un estimador es consistente en media
cuadrática, en caso de que la esperanza del error al cuadrado del estimador teniendo en
cuenta distintas muestras es cero o muy cercano a él.
Ejemplo:
En una población de 500 puntuaciones cuya Media (m) es igual a 4.9 han hecho tres
muestreos aleatorios (número de muestras= 100) con los siguientes resultados:
Vemos que el muestreo en que n=100 la Media de las Medias muéstrales toma el
mismo valor que la Media de la población.
Suficiente:
Un estadístico suficiente para un parámetro Θ, es aquel capaz de recoger o resumir
toda la información que la muestra de una variable aleatoria X contiene.
Sabemos que un estadístico es una función real de la muestra. Esto es, toma valores
reales contenidos en la muestra. A partir de ahí, cómo hemos visto en el artículo en que se
define el concepto de estadístico, debemos procurar que el estadístico tenga ciertas
propiedades. ¿Para qué exigirle tales propiedades? Para asegurarnos de que el estadístico es
útil para nuestros fines.
La suficiencia es una de esas propiedades. De manera mucho más sencilla, diremos
que un estadístico es suficiente si utiliza toda la información contenida en la muestra.
Lógicamente, la duda que surge es: ¿Cómo puedo saber si un estadístico T cumple la
propiedad de suficiencia? O bien ¿Cómo puedo encontrar, en caso de existir, un estadístico
que cumpla la propiedad de suficiencia. La respuesta a estas dos preguntas la encontramos
en dos teoremas:
Criterio de factorización de Fisher-Neyman: Este criterio enuncia que dado un
estadístico T, si cumple ciertas condiciones, entonces, será un estadístico suficiente.
Teorema de Darmois: Este teorema da respuesta a la segunda pregunta. Es decir,
nos permite encontrar un estadístico suficiente mediante una serie de
procedimientos.
Ejemplo de estadístico suficiente
Supongamos que queremos calcular el ingreso medio anual de las familias que
residen en Chile. Para ello, seguiremos el siguiente proceso:
1. Recoger información (muestra): Como no podemos preguntar a todas y cada una
de las familias que reside en Chile cuanto ingresa anualmente, tomaremos una
muestra representativa de, por ejemplo, 1.000 familias.
2. Identificar la variable aleatoria objeto de estudio: La variable aleatoria objeto de
estudio, es el ingreso familiar. Así pues: X → Ingreso familiar
3. Elegir el estadístico adecuado: El estadístico adecuado para calcular el ingreso
medio no es otro que la esperanza de X. En otras palabras, la media muestral de X.
4. ¿Cómo puedo saber si el estadístico media muestral es un estadístico suficiente?
Como ya tenemos la expresión matemática del estadístico, utilizaremos el criterio
de factorización de Fisher-Neyman. O bien, el Teorema de Darmois. Son fórmulas
creadas a este fin.
Tras aplicar los debidos cálculos, llegamos a la conclusión de que el estadístico media
muestral cumple con el requisito o propiedad de suficiencia. Al asegurar que cumple este
requisito, estamos asegurando que esta función (estadístico) que permite sintetizar la
información (la media del ingreso), utiliza toda la información contenida en la muestra (las
1.000 familias).
Eficiente.
Eficiencia De Un Estimador
Si Q1 y Q2 son dos estimadores insesgados de φ , será eficiente su relación con Q 2
cuando Var(Q1) ≤ Var(Q2) para cualquier valor de φ siempre que la muestra estadística de
φ sea estrictamente mayor a 1, n>1. Siendo Var, la varianza y n, el tamaño de la muestra.
Dicho de forma intuitiva, suponiendo que tenemos dos estimadores con la propiedad
de insesgadez, podemos decir que uno (Q1) es más eficiente que otro (Q2) si la variabilidad
de los resultados de uno (Q1) es menor que la del otro (Q 2) . Es lógico pensar que una cosa
que varía más que otra es menos ‘precisa’.
Por tanto, sólo podemos usar este criterio de selección de estimadores cuando son
insesgados. En el enunciado anterior cuando estamos definiendo la eficiencia ya suponemos
que los estimadores tienen que ser insesgados.
Para comparar estimadores que no son necesariamente insesgados, esto es, que puede
existir sesgo, se recomienda calcular el Error Cuadrático Medio (ECM) de los estimadores.
Si Q es un estimador de φ , entonces el ECM de Q se define como:
El Error Cuadrático Medio (ECM) calcula la distancia promedio que existe entre el
valor esperado del estimador muestral Q y el estimador poblacional. La forma cuadrática
del ECM se debe a que los errores pueden ser por defecto, negativos, o por exceso,
positivos, respecto al valor esperado. De este modo, ECM siempre computará valores
positivos.
ECM depende de la varianza y del sesgo (en el caso que lo hubiera) permitiéndonos
comparar dos estimadores cuando uno o ambos son sesgados. Aquel cuyo ECM sea mayor
se entenderá que es menos preciso (tiene más error) y, por tanto, menos eficiente.
Eficiencia. Diremos que un estimador es más eficiente que otro si la Varianza de la
distribución muestral del estimador es menor a la del otro estimador. Cuanto menor es la
eficiencia, menor es la confianza de que el estadístico obtenido en la muestra aproxime al
parámetro poblacional.
Ejemplo:
La Varianza de la distribución muestral de la Media en un muestreo aleatorio
(número de muestras: 1000, n=25) ha resultado igual a 0.4. La Varianza de la distribución
de Medianas ha resultado, en el mismo muestreo, igual a 1.12, (este resultado muestra que
la Media es un estimador más eficiente que la Mediana).
TIPOS DE ESTIMACIÓN (PUNTUAL, POR INTERVALO).
Estimación Puntual Y Por Intervalos.
Los problemas de diferencia estadística se dividen en estimación y pruebas de
hipótesis aunque en realidad son dos problemas de decisión y por lo tanto no se pueden
manejar con un enfoque limitado.
La diferencia principal entre las dos clases de problemas es que los problemas de
estimación debemos determinar el valor de un parámetro o los valores de varios parámetros
de un continuo posible de alternativas mientras que en las pruebas de hipótesis debemos de
medir si aceptamos o rechazamos un valor especifico o un conjunto de valores específicos
de un parámetro.
La estimación de un parámetro involucra el uso de los datos muéstrales en conjunción
con alguna estadística. Existen dos formas de llevar a cabo la anterior estimación, puntual
o por intervalo.
En la primera se busca que con base a los datos muéstrales de origen a una
estimulación evaluada del parámetro y que recibe el nombre de estimador puntual. Para la
segunda se determina un intervalo en la que forma probable se encuentre el valor de
parámetro y recibe el nombre de intervalo de confianza.
Estimación Por Intervalos.
La estima de un parámetro poblacional dada por un número se llama estima del punto
del parámetro. La estima de un parámetro poblacional dada por dos números entre los
cuales se considera que se encuentra dicho parámetro se llama estima de intervalo del
parámetro.
EJEMPLO: Si se dice que una distancia viene dada por 5.28 pies, se está dando una
estima de punto. Si, por otra parte, se dice que la distancia es 5,28 +- 0.03 pies, es decir, la
distancia real se encuentra entre 5.25 y 5.31 pies, se está dando una estima de intervalo.
La precisión o conocimiento del error de una estima se conoce también como su
seguridad.
Dos problemas de diferencia estadística se dividen es problemas de estimación y
pruebas de hipótesis aunque en realidad son dos problemas de decisión y por lo tanto no se
pueden manejar con un enfoque limitado.
La diferencia principal entre las dos clases de problemas es que los problemas de
estimación debemos determinar el valor de un parámetro o los valores de varios parámetros
de un continuo posible de alternativas mientras que en las pruebas de hipótesis debemos de
medir si aceptamos o rechazamos un valor especifico o un conjunto de valores específicos
de un parámetro.
La estimación de un parámetro involucra el uso de los datos muéstrales en conjunción
con alguna estadística. Existen dos formas de llevar a cabo la anterior estimulación puntual
o intervalo.
En la primera se busca que con base a los datos muéstrales de origen a una
estimulación evaluada del parámetro y que recibe el nombre de estimador puntual. Para la
segunda se determina un intervalo en la que forma probable se encuentre el valor de
parámetro y recibe el nombre de intervalo de confianza.
Estimación Puntual.
Aunque es una forma muy común para expresar las estimulaciones deja espacio para
muchas otras preguntas, por ejemplo, no nos dice de cuanta información se basa la
estimulación, ni nos dice nada sobre el tamaño de la muestra y el tamaño posible del error.
Así tal vez se tendría que completar un estimulador punto A con el tamaño de una muestra
y el valor de var (θ) o con alguna otra información.
Muestral del estimulador puntual, una de las formas es:
p(θ^∆,<θ<θ^∆ )=1-∝
Donde Z, acento circunflejo son valores enfocados de teta de acento circunflejo y lo
cual es igual: 1-∝
Para una probabilidad especifica de un numero alfa nos referimos
aθ^∆,θ<θ2Confianza (1-∝) 100% para teta.
También 1-∝ se llama grado de confianza y los puntos terminales del intervalo se
llaman límites de confianza interior y superior.
Por ejemplo cuando ∝=0.05 el grado de confianza es 0.95 por lo que tenemos un
valor de confianza de 95%. Los estimadores de intervalo de un parámetro dado no son
únicos.
P (〖 θ〗^∆,θ<θ_2) = 1-∝ =1-∝ grado de confianza
= (1-∝) 100% intervalo de confianza
∝=0.05
Grado de confianza -0.95
Intervalo “95%”
Estimación Por Intervalos.
La estima de un parámetro poblacional dada por un número se llama estima del punto
del parámetro. La estima de un parámetro poblacional dada por dos números entre los
cuales se considera que se encuentra dicho parámetro se llama estima de intervalo del
parámetro.
EJEMPLO: Si se dice que una distancia viene dada por 5.28 pies, se está dando una
estima de punto. Si, por otra parte, se dice que la distancia es 5,28 +- 0.03 pies, es decir, la
distancia real se encuentra entre 5.25 y 5.31 pies, se está dando una estima de intervalo,
La precisión o conocimiento del error de una estima se conoce también como su
seguridad.
¿QUE SE ENTIENDE POR SESGO Y VARIACIÓN ALEATORIA?
ERROR SISTEMÁTICO (SESGO)
El sesgo es la diferencia entre el valor de referencia de la parte y las mediciones de la
parte realizadas por el operador. Es un error que se detecta en los resultados de un estudio y
que se debe a factores en la recolección, análisis, interpretación o revisión de los datos.
Es el error humano, intencional o no intencional que se comete al ejecutar el muestreo
y que generalmente es sistemático. Este error se minimiza a través de programas de
entrenamiento, capacitación y motivación de inspectores y recolectores de información
estadística.
Fórmula
Sesgo promedio de cada parte:
Notación
Término Descripción
zi,j jésima medición de la iésima parte
refi valor de referencia de la iésima parte
mi número de réplicas de la iésima parte
El error sistemático o sesgo, puede entenderse como la tendencia sistemática a
subestimar o sobrestimar el estimador de interés a causa de una deficiencia en el diseño o
en la ejecución de un estudio. Ello atenta contra la validez de este, la que puede ser interna,
entendida como el grado de concordancia que existe entre los resultados del estudio y el
valor real del parámetro en la población, o externa, o grado en que los resultados del
estudio de una muestra pueden extrapolarse a otras poblaciones. Los sesgos pueden
asociarse a cualquier fase de la ejecución de una investigación, por lo que tienden a desviar
los resultados de la verdad en un mismo sentido.
Existen sesgos que generan una sobreestimación de la magnitud de asociación entre
variables, conocidos como sesgos positivos (“en contra” de la hipótesis nula); mientras que
aquellos que aminoran la magnitud se conocen como sesgos negativos (“a favor” de la
hipótesis nula). En el caso extremo, un sesgo puede desencadenar una inversión en el
sentido de asociación, haciendo que un factor protector aparezca como un factor de riesgo,
lo que se denomina switch-over bias.
EJEMPLO: Algunas investigaciones han señalado al consumo de carne como factor
de riesgo para el desarrollo de cáncer gástrico. Para analizarlo, se diseña un estudio
prospectivo de cohorte para comparar la supervivencia a cinco años de cáncer gástrico
desde su diagnóstico entre consumidores de carne (grupo A) y no consumidores de carne
(grupo B). El grupo A proviene de un país en donde no existe una pesquisa sistemática de
la neoplasia ni tampoco un sistema de salud que la regule. El grupo B se selecciona desde
un país en donde se realizan endoscopías digestivas de rutina, debido a que el sistema de
salud reconoce una alta incidencia en la región. Se concluye que el grupo B presenta una
sobrevida significativamente mayor. Sin embargo, es probable que la mayor supervivencia
del grupo B sea explicada por un diagnóstico temprano y un tratamiento precoz y no por no
consumir carne. En este caso, las muestras se han seleccionado de manera sesgada, ya que
sus características basales son diferentes (oportunidades en salud), cuando idealmente solo
deberían haber diferido en cuanto a si consumían carne o no.
En cuanto a la medición, existen fundamentalmente tres fuentes de error: el fenómeno
medido (por ejemplo, sesgo de memoria por el recuerdo diferencial a la exposición en un
estudio de casos y controles), el instrumento de medición (por ejemplo, cambios en los
criterios diagnósticos para evaluar una patología a lo largo del tiempo) y el observador
quien realiza la medición. Debido a su complejidad y ubicuidad, nos referiremos más
extensamente al sesgo de confusión.
Una variable de confusión es aquella que se asocia tanto a la variable de exposición
(sin ser un resultado de ella) como a la de desenlace (es decir, independientemente de su
asociación con la exposición de interés, en sujetos no expuestos debe estar asociada al
desenlace), pero que no se encuentra en la vía causal de la asociación. Esto “confunde” la
asociación aparente entre exposición y desenlace. Las variables de confusión no deben
confundirse con las variables de interacción que operan como “modificadores del efecto”,
las que interactúan con la variable de exposición modificando la magnitud de sus efectos
sobre el desenlace, pero no son la causa del desenlace en sí mismo.
El sesgo de confusión es complejo, prominente y multifactorial, por lo que siempre
tiene que estar en la mente del investigador. Puede prevenirse a nivel del diseño de estudio
(por ejemplo, aleatorización en ensayos clínicos aleatorizados) o controlarse durante el
análisis de los datos (por ejemplo, análisis estratificado, modelos de regresión estadística).
En el Ejemplo se demuestra el efecto del sesgo de confusión en un estudio observacional
realizado en Noruega por Strand y colaboradores.
EJEMPLO: Se desarrolló un estudio de cohorte que comparó 849 niños con parálisis
cerebral con 615.668 niños sin la patología, concluyendo que la Odds ratio de haber tenido
una madre con preeclampsia fue de 2,5 con un intervalo de confianza al 95%: 2,0 a 3,2;
para quienes tenían parálisis cerebral. Es decir, tenían una chance 2,5 veces mayor de haber
presentado la condición en el caso de que su madre hubiese padecido la enfermedad. Sin
embargo, esta Odds ratio fue levemente atenuada cuando en el análisis estadístico la
asociación se ajustó por la variable “niños que fueron pequeños para la edad gestacional”,
resultando en 2,1, con un intervalo de confianza de 95%: 1,7 a 2,7. Incluso, ajustes
adicionales que consideraron la variable “recién nacido de pretérmino” invirtieron la
asociación a favor de la preeclampsia, demostrando que podría ser un factor protector para
el desarrollo de parálisis cerebral en el caso de que los niños nacieran antes de las 32
semanas y no fueran pequeños para la edad gestacional, con una Odds ratio de 0,5 con un
intervalo de confianza al 95%: 0,5 a 0,8. En este ejemplo se señala un estudio
observacional, vale decir, las variables son observadas y no controladas por el investigador,
por lo que la probabilidad de incurrir en sesgos es mayor. Los autores controlaron el sesgo
de confusión a nivel del análisis estadístico mediante un modelo de regresión estadística
conocido como regresión logística, utilizado para evaluar variables de confusión, que de
otra manera pudieron no haber sido halladas.
ERROR ALEATORIO (VARICION ALEATORIA)
El error aleatorio se asocia a las variaciones explicadas por el azar que está
inherentemente involucrado en cada proceso de investigación, por lo que no puede
eliminarse. Esto significa que influye en los resultados incluso cuando se han controlado
debidamente los sesgos y compromete la confiabilidad de la investigación. Los factores que
se asocian al error por azar en los resultados son esencialmente tres: el grado de
variabilidad individual e interindividual, el tamaño muestral y la magnitud de las
diferencias (a medida que la diferencia hallada en la comparación sea mayor, la
probabilidad de que ésta se deba al azar será menor).
El error aleatorio produce observaciones desviadas del verdadero valor en cualquier
sentido. Es impredecible, pero puede disminuirse al incrementar el tamaño muestral y al
realizar un análisis estadístico eficiente. Ello implica que la estadística controla el error
aleatorio indicando la probabilidad de que ocurra el azar. En función de esto, una adecuada
estimación del tamaño muestral contrarrestará el efecto del azar en el estudio. A propósito
de esta idea, cabe indicar que el tamaño muestral de un estudio no sería indicador de la
validez interna del mismo. O sea, no se asocia directamente al nivel de sesgo que tenga la
investigación. La estimación del error aleatorio se realiza mediante dos procedimientos: las
pruebas de contraste de hipótesis (valor p) y los intervalos de confianza.
Valor p
El valor p (de “probabilidad”) puede definirse como la probabilidad de observar los
datos observados asumiendo que la hipótesis nula es verdadera. Esto es, la probabilidad de
que ocurra el azar en el caso de que la hipótesis nula es cierta, vale decir, asumiendo que
los fenómenos en estudio no se relacionan. Puede responder a la pregunta ¿cuál es la
probabilidad de haber encontrado esa asociación solo por azar? El valor p es una medida de
la fuerza de la evidencia contra la hipótesis nula, ya que puede comprenderse como la
probabilidad de obtener ciertos resultados dado que se cumple la hipótesis que “se quiere”
rechazar. Por lo tanto, intuitivamente, si ese valor p es muy pequeño, se rechaza la hipótesis
nula y se logra lo buscado.
Tradicionalmente, su valor ha sido fijado en 0,05, lo que implica que al aplicar
métodos estadísticos que analicen la probabilidad de ocurrencia de las asociaciones, éstas
hayan sucedido debido al azar no más de una de cada veinte ocasiones o el 5% de las veces
o menos; de otro modo, conlleva que la hipótesis nula será rechazada por error el 5% de las
veces. No obstante, no existe un razonamiento científico detrás del valor 0,05 en sí mismo,
sino que más bien se trata de una convención arbitraria. A este punto de corte se le ha
denominado significancia estadística, vale decir, al valor en el que la H 0 puede ser
rechazada. Esto no estriba que algo necesariamente importante (“significativo”), ha
sucedido, sino que debe comprenderse como un cálculo que mostraba algo o que
“significaba” algo. En esta línea, algunas iniciativas actuales han propuesto disminuir el
umbral del nivel de significancia de 0,05 a 0,005.
Existen distintas pruebas de hipótesis que luego se vincularán a un valor p. La
elección de cada una de ellas se realizará en función del diseño utilizado y de las variables
aleatorias en estudio, pero presentan en común el ser una función de la diferencia entre los
valores observados en el estudio y aquellos que se observarían asumiendo que la H 0 es
verdadera, considerando la variabilidad de la muestra. Otra manera de representarlos es
como una fracción, cuyo denominador (variabilidad del resultado) disminuye a medida que
el tamaño muestral aumenta, y un numerador, que se incrementa cuando la diferencia entre
los valores observados y esperados es mayor.
A partir de lo anteriormente expuesto, podemos señalar dos tipos de error asociados
al azar. El primero de ellos es el error tipo I, que se conceptualiza como la probabilidad de
rechazar H0 dado que H0 es verdadera. Esto es cuando, pese a que no existe en realidad una
asociación entre las variables estudiadas, el estudio muestra que sí la hay. Así, la antes
señalada significancia estadística constituye el límite del error tipo I, cuyo valor numérico
se denomina α. Este tipo de error se encuentra más frecuentemente en estudios clínicos que
buscan analizar un gran número de asociaciones simultáneamente. Algunos ejemplos son
un estudio de cohorte que analice múltiples variables para una misma exposición, un
ensayo clínico con diversos análisis de subgrupo o un estudio de casos y controles que
explore un sinnúmero de factores de riesgo conjuntamente.
Por otra parte, en el caso de que exista una asociación en la realidad y esta diferencia
no sea pesquisada por el estudio, se incurre en un error tipo II. Esto es, la probabilidad de
no rechazar H0 dado que H0 es falsa. Al valor del error tipo II se le simboliza con β. El
complemento de β (1-β) corresponde al poder del estudio o potencia estadística, vale decir,
la probabilidad de encontrar una diferencia si ésta realmente existe, o dicho de otro modo,
comprobar la hipótesis del investigador. Comúnmente, el poder del estudio se establece
entre 0,8 y 0,9, lo que significaría que el estudio tiene entre 80 y 90% de probabilidades de
detectar la diferencia propuesta y que el resultado alcance significación estadística. En el
Ejemplo se indica la interpretación del valor p en virtud de un estudio de biomarcadores en
trastornos mentales severos.
EJEMPLO: Diversas investigaciones han reportado un nivel aumentado de
citoquinas proinflamatorias en trastornos psicóticos y trastornos afectivos severos, así como
también en personas que han sufrido traumas psicológicos durante la infancia. Al respecto,
se estudiaron marcadores de inflamación y antecedentes de trauma infantil en personas con
esquizofrenia, trastorno esquizoafectivo, trastorno bipolar con fases psicóticas y personas
sanas. Los autores concluyeron que las personas con trastornos esquizofrénicos tenían
niveles significativamente mayores de interleuquina-6, factor de necrosis tumoral α y
proteína C reactiva (citoquinas proinflamatorias) al compararse con personas sanas, así
como niveles significativamente mayores de factor de necrosis tumoral α que las personas
con trastornos bipolares (todas las comparaciones resultaron en un valor p < 0,05).
Asimismo, se encontró que la exposición a abuso sexual infantil tuvo una asociación
significativa (p = 0,018) con los niveles de proteína C reactiva en las personas con
esquizofrenia. En este estudio, los autores establecieron un nivel de significancia del 5%
(0,05). Es decir, si al aplicar una prueba estadística una asociación presenta un valor p
menor a este umbral, la hipótesis nula (H0) puede rechazarse prevaleciendo la hipótesis del
investigador o alternativa (H1), que en este caso es que los marcadores inflamatorios se
asocian a trastornos mentales severos y a la presencia de trauma infantil. Así, se comprobó
que existen asociaciones significativas entre los parámetros estudiados. Esto es, que con
una probabilidad del 95% las asociaciones observadas no se deben al azar, sino que se
explicarían por un mecanismo subyacente distinto.
El que el valor p dependa del tamaño de muestra, de modo que las muestras pequeñas
son más vulnerables al error aleatorio que las de mayor tamaño, ha sido objeto de extenso
debate. Aquí reside la crítica más profunda formulada contra el uso de las pruebas de
hipótesis. Ella señala que el rechazo o no de una hipótesis depende del tamaño muestral,
puesto que si se evalúa una reducida parte de la realidad las conclusiones serán también
restringidas, pero si se evalúa una parte extensa, el rechazo de la hipótesis nula quedaría
virtualmente asegurado. No obstante, existen autores que se oponen a este juicio, indicando
que, al estudiar las discrepancias en los resultados entre ensayos clínicos aleatorizados con
tamaños de muestra grandes y pequeños, las diferencias halladas no se explican por su
tamaño sino por el control de sesgos, sobre todo el de confusión. Por esta razón, la regla
general sería mayoritariamente la concordancia entre los resultados y no su diferencia.
Debido a la limitada cantidad de información que puede llegar a aportar el valor p por sí
solo, otra forma de cuantificar el azar son los intervalos de confianza.
Intervalos De Confianza
Consisten en un rango de valores dentro del cual se encuentra el valor real del
parámetro con determinada probabilidad, por lo que reflejan el grado de incertidumbre.
Como ya ha sido referido, una muestra de mayor tamaño presentará un intervalo de
confianza más preciso en cuanto a la estimación de un parámetro poblacional. Esto es, un
rango de valores más estrecho, lo que indica un menor efecto del azar sobre la estimación.
Así como el valor p, la estimación de los intervalos de confianza da lugar a la inferencia
estadística, pues excluye un valor crítico en el intervalo que indica la falta de asociación
entre dos variables. En el caso de los indicadores cuya fórmula es un cociente (por ejemplo,
riesgo relativo y Odds ratio), este valor corresponde a 1, mientras que cuando lo expresado
corresponde a una resta entre el riesgo de un grupo y de otro (por ejemplo, reducción del
riesgo absoluto), el valor es 0. En ambos casos, estos valores representarían los puntos en
que el evento es igualmente probable en ambos grupos. A ciencia cierta, no podría
asegurarse que los valores que excedan los límites del intervalo de confianza están del todo
excluidos, pero sería razonable pensar que es altamente improbable hallar el valor real del
parámetro más allá de estos límites. En el Ejemplo se señala la interpretación del intervalo
de confianza a partir de los resultados del estudio de Strand y colaboradores citados en
ejemplo anteriores.
EJEMPLO: En un comienzo, los investigadores hallaron que el haber tenido una
madre con preeclampsia aumentaba 2,5 veces la chance de presentar parálisis cerebral,
asumiendo que esta asociación era significativa, pues su intervalo de confianza al 95% era
de 2,0 a 3,2. Es decir, su rango no incluía al valor 1, el que indica que no existe asociación
entre las variables estudiadas. Este detalle es importante, pues la Odds ratio se calcula
mediante un cociente. Análisis estadísticos posteriores demostraron que la preeclampsia
sería un factor protector para el desarrollo de parálisis cerebral en niños nacidos antes de las
32 semanas que no fueran pequeños para la edad gestacional, ya que la Odds ratio fue de
0,5 y su intervalo de confianza de 0,5 a 0,8, cuya interpretación es la misma: con una
probabilidad de 95%, la asociación entre madres con preeclampsia e hijos sin parálisis
cerebral se explica por un mecanismo subyacente distinto del azar.
¿PORQUE SIEMPRE TRATAMOS DE ENCONTRAR UN ESTIMADOR
INSESGADO?
La razón de buscar un estimador insesgado es que el parámetro que deseamos estimar
esté bien estimado. Es decir, si queremos estimar la media de goles por partido de
determinado jugador de fútbol, hemos de utilizar una fórmula que nos proporcione un valor
lo más aproximado posible al valor real.
¿QUE ES UN ERROR DE ESTIMACIÓN? ¿COMO SE ESTIMA? CÓMO SE
PUEDEN DISMINUIR EN UNA ESTIMACIÓN POR INTERVALO.
ERROR DE ESTIMACIÓN
Error de estimación es el valor absoluto de la diferencia entre una estimación
particular y el valor del parámetro.
En realidad por cada valor estimado del parámetro se tiene un error de estimación por
lo general diferente. Sin embargo, es posible fijar un intervalo dentro del cual se
encontrarán la mayoría de los valores de error de estimación para un estimador y parámetro
dados.
En la tabla siguiente se dan las fórmulas de los errores de estimación para algunos
estimadores y los estimadores para tales errores. Los estimadores se usan cuando los
parámetros que se incluyen en las fórmulas de los errores de estimación son desconocidos.
El error estándar de estimación mide la desviación en una muestra valor
poblacional. Es decir, el error estándar de estimación mide las posibles variaciones de la
media muestral con respecto al verdadero valor de la media poblacional.
Por ejemplo, si se desea conocer la edad promedio de la población de un país (media
poblacional) se toma un pequeño grupo de habitantes, a los que llamaremos “muestra”. De
ella se extrae la edad promedio (media muestral) y se asume que la población tiene esa edad
promedio con un error estándar de estimación que varía más o menos.
Habría que reseñar que es importante no confundir la desviación estándar con el error
estándar y con el error estándar de estimación:
1- La desviación estándar es una medida de la dispersión de los datos; es decir, es una
medida de la variabilidad de la población.
2- El error estándar es una medida de la variabilidad de la muestra, calculada en base
a la desviación estándar de la población.
3- El error estándar de estimación es una medida del error que se comete al tomar la
media muestral como estimación de la media poblacional.
Cómo Se Calcula
El error estándar de estimación se puede calcular para todas las medidas que se
obtienen en las muestras (por ejemplo, error estándar de estimación de la media o error
estándar de estimación de la desviación estándar) y mide el error que se comete al estimar
la verdadera medida poblacional a partir de su valor muestral
A partir del error estándar de estimación se construye el intervalo de confianza de la
medida correspondiente.
La estructura general de una fórmula para el error estándar de estimación es la
siguiente:
Error estándar de estimación = ± Coeficiente de confianza * Error estándar
Coeficiente de confianza = valor límite de un estadístico muestral o distribución de
muestreo (normal o campana de Gauss, t de Student, entre otras) para un determinado
intervalo de probabilidades.
Error estándar = desviación estándar de la población dividida por la raíz cuadrada del
tamaño de la muestra.
El coeficiente de confianza indica la cantidad de errores estándar que está dispuesto a
sumar y restar a la medida para tener un cierto nivel de confianza en los resultados.
Ejemplos De Cálculo
Suponga que está tratando de estimar la proporción de personas en la población que
tienen una conducta A, y se desea tener un 95% de confianza en sus resultados.
Se toma una muestra de n personas y se determina la proporción muestral p y su
complemento q.
Error estándar de estimación (EEE) = ± Coeficiente de confianza * Error estándar
Coeficiente de confianza = z = 1.96.
Error estándar = la raíz cuadrada de la razón entre el producto de la proporción muestral
por su complemento y el tamaño de la muestra n.
A partir del error estándar de estimación se establece el intervalo en el que se espera
se encuentre la proporción poblacional o la proporción muestral de otras muestras que se
puedan formar de esa población, con un 95% de nivel de confianza:
p – EEE ≤ Proporción poblacional ≤ p + EEE
EJEMPLO: Suponga que está tratando de estimar la proporción de personas en la
población que tienen preferencia por una fórmula láctea enriquecida, y se desea tener un
95% de confianza en sus resultados.
Se toma una muestra de 800 personas y se determina que 560 personas en la
muestra tienen preferencia por la fórmula láctea enriquecida. Determine un intervalo en el
cual se pueda esperar se encuentre la proporción poblacional y la proporción de otras
muestras que se puedan tomar de la población, con un 95% de confianza
a) Calculemos la proporción muestral p y su complemento:
p = 560/800 = 0.70
q = 1 – p = 1 – 0.70 = 0.30
b) Se conoce que la proporción se aproxima a una distribución normal a muestras de
tamaño grande (mayores a 30). Entonces, se aplica la llamada regla 68 – 95 – 99.7 y
se tiene que:
Coeficiente de confianza = z = 1.96
Error estándar = √(p*q/n)
Error estándar de estimación (EEE) = ± (1.96)*√(0.70)*(0.30)/800) = ± 0.0318
c) A partir del error estándar de estimación se establece el intervalo en el que se
espera se encuentre la proporción poblacional con un 95% de nivel de confianza:
0.70 – 0.0318 ≤ Proporción poblacional ≤ 0.70 + 0.0318
0.6682 ≤ Proporción poblacional ≤ 0.7318
Se puede esperar que la proporción de muestra del 70% cambie hasta en 3.18 puntos
porcentuales si toma una muestra diferente de 800 individuos o que la proporción
real de la población está entre 70 – 3.18 = 66.82% y 70 + 3.18 = 73.18%.
COMO SE ESTIMA
Estimación De La Media De La Población
Explicaremos este punto con el siguiente ejemplo: queremos estimar el número de
hijos promedio que tienen las mujeres de una población determinada. Con este objeto se
seleccionó, por muestreo aleatorio simple, una muestra de 20 mujeres a quienes se
entrevistó, obteniendo como resultado un promedio de 3,2 hijos y una desviación estándar
de 0,8. Con estos resultados podríamos hacer una estimación puntual y decir que la
población de interés tiene en promedio 3,2 hijos. Pero esta estimación tiene el
inconveniente de que se desconoce el error que se está cometiendo.
Si a esta estimación le asignamos un error, que llamaremos E, podríamos decir que el
promedio de hijos de la población está ubicado dentro de un intervalo de estimación que
tiene como límite inferior 3,2 - E y como límite superior 3,2 + E. De este modo, le
asignamos al resultado un intervalo de estimación. Si además le damos a este intervalo una
probabilidad de ocurrencia de los valores comprendidos en él, habremos construido un
intervalo de confianza para el promedio de hijos de nuestra población de mujeres.
Entonces, generalizando lo que se explicó para la variable “promedio de hijos”,
podemos decir que:
Un intervalo de confianza para estimar el promedio de la población está constituido
por los siguientes elementos: el promedio de la muestra y el error de estimación.
El elemento esencial en la construcción del intervalo de estimación es el error.
Cómo se obtiene el error en la construcción de un intervalo para el promedio desarrollando
la fórmula siguiente:
Está compuesta por la desviación estándar de la muestra (S), el tamaño de la
muestra (n) y, aquí aparece un elemento nuevo, t –Student-, que corresponde a una
distribución de probabilidad muy similar a la distribución normal.
En la tabla de t los valores se buscan en función de dos cosas:
la probabilidad que hemos elegido para nuestro intervalo, y
los “grados de libertad” que se calculan restando 1 al tamaño de la muestra (n).
En nuestro ejemplo elegimos una confianza de 95% que, asociada a los 19 grados de
libertad (n-1), nos conduce a un valor de tabla t de Student igual a 2,093. Ya veremos en
forma detallada el uso práctico de la tabla t, recordemos por ahora el valor de “t”
encontrado porque lo utilizaremos para la construcción del intervalo.
Volviendo a la fórmula para calcular el error, vemos entonces que el error está
compuesto por tres elementos:
El valor t que se obtiene de la tabla t de Student.
La desviación estándar de la muestra.
El tamaño de la muestra.
Volviendo a nuestro ejemplo, calculemos el error. Recordemos que deseamos
conocer el número promedio de hijos que tienen las mujeres en esa población y que,
estudiando una muestra de 20 mujeres, el resultado fue un promedio de 3,2 hijos y una
desviación estándar de 0,8.
Cuáles son, entonces, los elementos que nos permitirán calcular el error de nuestra
estimación
El valor t que obtuvimos de la tabla t de Student t = 2,093
La desviación estándar de la muestra S = 0,8
El tamaño de la muestra n = 20
Reemplazando esos valores en la fórmula obtendremos el error, que es:
CÓMO SE PUEDEN DISMINUIR EN UNA ESTIMACIÓN POR INTERVALO
Si el intervalo de confianza es demasiado ancho, usted no puede estar muy seguro del
valor real de un parámetro, como por ejemplo la media. Sin embargo, puede utilizar varias
estrategias para reducir el ancho de un intervalo de confianza y hacer que la estimación sea
más precisa. Las siguientes características afectan el ancho del intervalo de confianza.
Tamaño de la muestra
Variación en los datos
Tipo de intervalo
Nivel de confianza
Aumentar El Tamaño De La Muestra
Con frecuencia, la manera más práctica de reducir el margen de error es aumentar el
tamaño de la muestra. Por lo general, mientras más observaciones haya, más estrecho será
el intervalo alrededor del estadístico de la muestra. Por lo tanto, se recomienda recolectar
más datos para obtener una estimación más precisa de un parámetro de población.
Debe sopesar los beneficios de una mayor precisión con respecto al tiempo y los
recursos adicionales necesarios para recopilar una muestra más grande. Por ejemplo, un
intervalo de confianza que sea lo suficientemente estrecho como para contener solamente el
parámetro de población requiere que se midan todos los sujetos de la población.
Obviamente, esta estrategia por lo general resultaría muy poco práctica.
Reducir La Variabilidad
Mientras menos varíen los datos, más precisa será la estimación de un parámetro de
población.
Eso se debe a que al reducirse la variabilidad de los datos, disminuye la desviación
estándar y, por ende, el margen de error de la estimación. Aunque puede ser difícil reducir
la variabilidad de los datos, a veces se puede lograr ajustando la forma en que se recolectan
los datos. Por ejemplo, puede utilizar un diseño pareado para comparar dos grupos.
También podría reducir la variabilidad mejorando el proceso, de manera que el proceso sea
más consistente, o midiendo con mayor precisión.
Utilizar Un Intervalo De Confianza Unilateral
Un intervalo de confianza unilateral tiene un margen de error más pequeño que un
intervalo de confianza bilateral. Sin embargo, un intervalo unilateral indica solo si un
parámetro es menor que o mayor que un valor de corte. Un intervalo unilateral no
proporciona información acerca del parámetro en la dirección opuesta. Por lo tanto, utilice
un intervalo de confianza unilateral para aumentar la precisión de una estimación solo
cuando le preocupe que la estimación sea mayor o menor que un valor de corte, pero no
ambos.
Por ejemplo, una empresa de bebidas desea determinar la cantidad de sólidos
disueltos en su agua potable. Mientras menos sólidos disueltos tenga el agua, mejor será.
Cuando calculan un intervalo de confianza bilateral, el lado superior del intervalo es 18.4.
Sin embargo, puesto que a la empresa solo le preocupa el límite superior, pueden calcular
más bien un intervalo de confianza unilateral. El intervalo de confianza unilateral muestra
que el límite superior de la cantidad de sólidos disueltos es incluso menor, 17.8 mg/L.
Reducir El Nivel De Confianza
La ventaja de un nivel de confianza más bajo es que se obtiene un intervalo de
confianza más estrecho y más preciso. La desventaja es que se está menos seguro de que el
intervalo de confianza contiene el parámetro de población de interés.
Entonces, reduzca el nivel de confianza solo si, en su situación, la ventaja de una
mayor precisión supera a la desventaja de un menor grado de certeza. Por ejemplo, si es
demasiado costoso aumentar el tamaño de la muestra en su estudio, disminuir el nivel de
confianza reducirá la longitud del intervalo a expensas de perder algo de confianza.
Si el intervalo de confianza es demasiado amplio, no podemos estar muy seguros del
valor real de un parámetro, como por ejemplo la media. Sin embargo, podemos llevar a
cabo varias estrategias para reducir el ancho de un intervalo de confianza y hacer que la
estimación sea más precisa. Debemos aumentar la potencia del estudio.
Las siguientes características afectan el ancho del intervalo de confianza.
Tamaño de la muestra.
Variación en los datos.
Tipo de intervalo.
Nivel de confianza.
Existen 2 formas de aumentar la potencia del estudio.
1. Aumentando el tamaño muestral.
2. Disminuyendo el grado de confianza.
o La ventaja de un nivel de confianza más bajo es que se obtiene un intervalo
de confianza más estrecho y más preciso. La desventaja es que se está menos
seguro de que el intervalo de confianza contiene el parámetro de población de
interés.
o Si es demasiado costoso aumentar el tamaño de la muestra en un estudio,
disminuir el nivel de confianza reducirá la longitud del intervalo a expensas de
perder algo de confianza.
En resumen, la amplitud del intervalo de confianza es directamente proporcional al
grado de confianza e inversamente proporcional a la potencia del estudio, al tamaño
muestral y a la alfa crítica del estudio.
Por ejemplo, si tenemos una p=0.06 en un estudio que se ha trabajado con IC95%
(alfa crítica = 0.05) para hacerla significativa (p<0.05) debemos aumentar la potencia del
estudio ya sea aumentado el tamaño de la muestra (sería lo ideal) o realizando un estudio
con menor grado de confianza (IC90%; alfa crítica = 0.10) (que no sería la adecuada forma
de proceder puesto que aumentaríamos el error tipo 1 del estudio).
¿COMO INFLUYEN EL TAMAÑO DE LA MUESTRA EN LOS RIESGOS Y EL
ERROR DE ESTIMACIÓN? CUÁLES SON LAS MUESTRAS MÁS APROPIADAS
PARA DISMINUIR LOS ERRORES Y RIESGOS.
Decidir cuál es el mejor tamaño para una muestra es una de las preocupaciones
principales relativas al muestreo. El primer aviso es que no existe un tamaño bueno para
todo. Según el tipo de muestreo que se vaya a realizar, los objetivos que se persigan, las
características de la población y las condiciones en las que se van a realizar las
estimaciones, serán aconsejables unos tamaños u otros. Podría parecer que una muestra es
mejor cuanto más grande. Pues sí, podría parecerlo, pero no tiene por qué ser cierto. Cuanto
más grande, las estimaciones serán más precisas y con menos riesgo de error. Pero también
saldrán más caras y tal vez se reduzca el control en la recogida de datos, por lo que, no
existe un tamaño bueno para todo. Ocurre además que si el muestreo ha sido malo, la
muestra grande será grande pero igualmente mala.
Cálculo del tamaño de muestra algunas consideraciones previas hay dos elementos
fundamentales de una estimación que guardan una relación inversa entre ellos: la precisión
y la seguridad. Son dos objetivos altamente deseables pero que se contraponen: a más
precisión menos seguridad, a más seguridad menos precisión. Ya lo hemos razonado
suficientemente en la estimación estadística. Sin embargo, hay un camino para incrementar
la precisión y la seguridad hasta el nivel que queramos: aumentar el tamaño de la muestra.
Conforme n se hace mayor, disminuye el error tipo y, por tanto, también el error de
precisión, generando un intervalo más estrecho, es decir, más preciso, sin que ello haya
requerido tocar el nivel de seguridad.
Los errores de muestreo son la diferencia entre los estadísticos (valores o medidas
obtenidos para la muestra) y los parámetros (valores o medidas de la población). Mientras
mayor sea el tamaño de la muestra, menor será el error de muestreo, de tal forma que
cuando se analiza toda la población, a través de un censo, dicho error desaparece. La Teoría
del Muestreo permite hacer diseños muéstrales donde los errores de muestreo son
controlados y su cálculos se efectúan según las fórmulas del diseño muestral utilizado. El
objetivo general de un diseño muestral es minimizar el error total de una estimación para un
costo determinado o minimizar el costo para un error total específico. La información de
los errores de muestreo debe ponerse oportunamente a la disposición de los usuarios y se
recomienda que al publicar los resultados de la investigación por muestreo se incluya la
información sobre los mismos. Aunque es posible controlar los errores de muestreo, no
existe un cuerpo comparable de teoría para el control de los errores que no son de muestreo.
A pesar de que algunas veces estos constituyen la mayor parte del error total, pareciera que
no hay suficiente conciencia de su presencia y control. Estos errores pueden ocurrir en
cualquier etapa de la investigación por muestreo, desde la etapa de planificación hasta la
publicación. El propósito de controlar los errores ajenos al muestreo, no es su eliminación,
sino la reducción del error total a un nivel que dé resultados manejables y adecuados. Cada
tipo de error debe ser reducido a un nivel apropiado con relación a los costos. No hay un
método sencillo y directo para estimar el tamaño de estos errores, porque no resulta
práctico medir el posible efecto de las diferentes fuentes de errores en los estadísticos.
En términos estadísticos el margen de error se refiere a la cantidad de error de
muestreo aleatorio resultado de la elaboración de una encuesta. Es un término importante
dentro de la investigación de mercados ya que define el nivel de confianza de los resultados
obtenidos en la encuesta o investigación. A mayor margen de error existe un menor grado
de confianza en la investigación y viceversa.
Antes de iniciar una investigación debemos definir a nuestra población. El margen de
error puede ser significativo si una población no se define en la forma correcta, o si los
procedimientos de selección no se siguen en la forma apropiada.
Del tamaño de la muestra dependen muchos factores de nuestra investigación. ¿Qué
tanto puede el error de la muestra aleatoria afectar nuestras encuestas?
El margen de error nos da una estadística; Mientras más pequeños sean estos
márgenes, los resultados de nuestras encuestas serán más exactos. En una muestra
probabilística cada elemento de la población tiene una probabilidad de selección.
Aquí el investigador se puede asegurar de que su información proviene de una parte
representativa de la población de interés para su estudio y además puede calcular el error.
En una muestra no probabilística destaca la aleatoriedad al momento de seleccionar
los elementos específicos de la población. Esto sucede porque la selección se hace de
acuerdo a lo que más no convenga o porque esta muestra resulta más económica y rápida de
hacer. Podemos decir, de cierta manera que en este tipo de muestra excluimos a cierto
subgrupo de la población.
Los resultados de un muestreo no probabilístico no proyectan a la población total.
Podemos tener un filtro en una muestra de acuerdo a nuestros intereses, de tal manera
que si queremos que la encuesta sea contestada, por ejemplo, por 100 personas mayores de
30 años, hacemos uso de un muestreo por cuotas y filtramos a los que no cumplan con esta
característica.
Podemos tener una muestra donde existan personas menores de edad, pero al
contestar la primera pregunta en una encuesta, nos daremos cuenta de que no cumplen con
los requisitos para continuar contestando nuestra encuesta y podemos programar una lógica
de salto para dar por terminada la sesión.
Seguiremos recibiendo respuestas de otros encuestados que han aceptado de
antemano participar en la investigación, hasta completar las 100 encuestas online
contestadas por personas mayores de 30 años que planeamos.
En las muestras no probabilísticas no podemos conocer el grado de representatividad
de la población, ni calcular el margen de error.
Dónde se hace uso de las muestras probabilísticas. Establece un área de muestreo,
traza una ruta y selecciona diversos hogares a encuestar. Así puedes ir casa en casa
encuestando y cubriendo un área geográfica determinada. Aquí podríamos tener un error en
nuestra muestra, por ejemplo, si tocamos en una casa y nadie nos abre la puerta, en este
caso no podríamos encuestar a los que allí viven.
Definitivamente al encuestar en la vía pública, afuera de un comercio o vía telefónica
no aplica que hagamos un muestreo probabilístico por el simple hecho de que no se puede
encuestar a todos debido a la lejanía de algunas zonas.
Si hablamos de hacer encuestas por teléfono tenemos que tomar en cuenta que no
todos tienen este servicio, ni existe una base de datos completa de los números de teléfonos
celulares como el de las guías telefónicas.
En búsqueda de mejores muestras y menos margen de error. Como dijimos
anteriormente, mientras más pequeños sean estos márgenes de error, los resultados de las
encuestas serán más exactos, por ello hay que trabajar para que las muestra sea más
eficientes, para que nuestros clientes no se sorprendan al publicar los resultados del margen
de error de nuestras encuestas.
QUE CARACTERÍSTICAS SE DEBEN TOMAR EN CUENTA LA HORA DE
CONSTRUIR UN INTERVALO DE CONFIANZA.
Al momento de plantearse la obtención de un intervalo se debe tener en cuenta ciertas
decisiones previas como las siguientes:
La más importante es elegir el parámetro poblacional de dónde se quiere adquirir la
estimación. Mayormente esta elección se vincula con el tipo de distribución que se
asume para la variable que se estudiará.
Normalmente el parámetro de la población se relaciona con ciertos parámetros de la
distribución. A pesar de esto, en algunos casos podría surgir el interés de la
obtención de un tipo de parámetro.
El nivel de confianza es otra elección con el que se puede trabajar, ya que de él
dependerá la precisión de la estimación que se obtenga en relación a la anchura del
intervalo. Mientras mayor sea el nivel de confianza que se exija, mayor será el radio
del intervalo, lo que significa que la precisión en la estimación será menor.
Factores De Donde Depende Un Intervalo De Confianza
Calcular un intervalo de confianza va a depender de los factores que se mostrarán a
continuación:
Tamaño de la muestra seleccionada
Según la cantidad de datos que se usen para calcular el valor de la muestra, habrá
cierto acercamiento con el parámetro poblacional verdadero.
Nivel de confianza
Informa sobre el porcentaje de casos que acierta la estimación. Generalmente los
niveles se encuentran entre 95% y 99%.
Margen de error de la estimación
Este se denomina como alfa e informa de la posible existencia del valor poblacional
que se encuentra fuera del intervalo.
Estimación de la muestra
Dependerá de la estadística que calcula el intervalo.
CONCLUSION
Para concluir podemos decir que se llama estimación al conjunto de técnicas que
permiten dar un valor aproximado de un parámetro de una población a partir de los datos
proporcionados por una muestra. La estimación puntual consiste en encontrar un valor para
, denotado por , que sea función de la muestra aleatoria y que permita modelar o describir
de manera adecuada el fenómeno aleatorio. La estimación por intervalos consiste en la
obtención de un intervalo, calculado a partir de los datos de una muestra, dentro del cual
estará el valor del parámetro estimado con una cierta probabilidad o nivel de confianza y
que el error en la estimación es una medida de. Su precisión que se corresponde con la
amplitud del intervalo de confianza. Cuanta más precisión se desee en la estimación de un
parámetro, más estrecho deberá ser el intervalo de confianza y, si se quiere mantener o
disminuir el error, más observaciones deberán incluirse en la muestra estudiada.
BIBLIOGRAFIA
[Link]
[Link]
[Link]
[Link]
[Link]
[Link]
[Link]
[Link]
.html
[Link]
improvement/measurement-system-analysis/how-to/gage-study/gage-linearity-and-bias-
study/methods-and-formulas/gage-bias/
[Link]
frame=d083bd8de90b6ff43b32819a7971bfb7bb609cda
[Link]
[Link]
[Link]
[Link]
[Link]
[Link]
statistics/supporting-topics/basics/ways-to-get-a-more-precise-confidence-interval/
[Link]
[Link]
[Link]
[Link]
[Link]