INFERENCIA ESTADISTICA
La estadística inferencial es una rama de la estadística que se encarga de estudiar
las relaciones entre las muestras y las poblaciones, a partir de la información
obtenida de una muestra. Es decir, se busca inferir o generalizar los resultados
obtenidos en una muestra, a la población en su conjunto.
Para lograr esto, se utilizan técnicas estadísticas que permiten estimar parámetros
poblacionales a partir de los datos muestrales. De esta manera, se pueden hacer
afirmaciones sobre la población en su conjunto con cierto grado de confianza.
En la estadística inferencial, se parte de la hipótesis nula, la cual se contrasta con
la hipótesis alternativa. A partir de los datos muestrales, se determina si la
hipótesis nula puede ser rechazada o no.
Es importante destacar que la estadística inferencial es ampliamente utilizada en
diversas disciplinas, como la medicina, la psicología, la economía, entre otras. De
hecho, su uso es fundamental en la toma de decisiones basadas en datos y en la
investigación científica.
Su correcta utilización es esencial para la toma de decisiones informadas y para el
avance de la investigación científica.
Formulas
Por ejemplo:
puede utilizarse para predecir el comportamiento del usuario en una plataforma
digital, la demanda de un producto, o la eficacia de un tratamiento médico.
HIPÓTESIS ESTADÍSTICA
Una hipótesis estadística es una afirmación o suposición que se hace acerca de
una característica o un parámetro de una población o de un fenómeno, basada en
la información disponible de una muestra de datos. Estas hipótesis se utilizan en
inferencia estadística para tomar decisiones sobre la población basadas en la
información de la muestra.
Las hipótesis estadísticas se dividen comúnmente en dos tipos: la hipótesis nula
(H0) y la hipótesis alternativa (H1). La hipótesis nula es una afirmación que se
considera como la situación inicial o el estado de referencia y que se intenta
refutar con evidencia de la muestra. La hipótesis alternativa, por otro lado, es la
afirmación que se pretende apoyar con la evidencia de la muestra, refutando la
hipótesis nula.
En conclusión, las hipótesis estadísticas proporcionan un marco para la toma de
decisiones sobre la población basadas en la información de la muestra y son
fundamentales en el proceso de inferencia estadística.
Ejemplo:
Supongamos que un investigador quiere determinar si el promedio de horas de
estudio por semana de los estudiantes de una universidad ha aumentado en
comparación con el año anterior. Entonces, las hipótesis estadísticas serían:
Hipótesis nula (H0): El promedio de horas de estudio por semana de los
estudiantes de la universidad es igual al promedio del año anterior. Hipótesis
alternativa (H1): El promedio de horas de estudio por semana de los estudiantes
de la universidad ha aumentado en comparación con el año anterior.
El investigador recolecta datos de una muestra representativa de estudiantes y
utiliza técnicas estadísticas para analizar si hay suficiente evidencia para rechazar
la hipótesis nula a favor de la hipótesis alternativa. Si los resultados muestran un
aumento significativo en el promedio de horas de estudio, el investigador puede
concluir que hay evidencia suficiente para respaldar la hipótesis de que el tiempo
de estudio ha aumentado en comparación con el año anterior.
HIPOTESIS NULA
Una hipótesis nula es una afirmación que se hace inicialmente y que se supone
como verdadera a menos que se disponga de suficiente evidencia en contra para
rechazarla en favor de una hipótesis alternativa. En otras palabras, es una
suposición de que no hay efecto o diferencia entre las variables de interés.
La hipótesis nula generalmente se denota como H0 y se formula de manera que
represente una situación de no efecto, no cambio o no diferencia. Es la afirmación
que se somete a prueba en un análisis estadístico para determinar si hay
suficiente evidencia para rechazarla.
Ejemplo:
Si un investigador quiere probar si un nuevo medicamento tiene un efecto
significativo en la reducción de los síntomas de una enfermedad, la hipótesis nula
sería que el medicamento no tiene ningún efecto, es decir, que no hay diferencia
en los síntomas entre los grupos que reciben el medicamento y los que reciben un
placebo.
HIPOTESIS ALTERNA
La hipótesis alternativa es una afirmación que se contrasta con la hipótesis nula en
un análisis estadístico. Mientras que la hipótesis nula establece una situación de
no efecto, cambio o diferencia, la hipótesis alternativa sugiere que hay un efecto,
cambio o diferencia en la población.
La hipótesis alternativa generalmente se denota como H1 y representa la idea que
el investigador está interesado en respaldar o demostrar con los datos. Es la
afirmación que se apoya si se rechaza la hipótesis nula.
Ejemplo:
Del medicamento, la hipótesis alternativa sería que el nuevo medicamento tiene
un efecto significativo en la reducción de los síntomas de la enfermedad, lo que
implica que hay una diferencia en los síntomas entre los grupos que reciben el
medicamento y los que reciben un placebo.
HIPOTESIS PARA MEDIA
Una hipótesis de media es un tipo específico de hipótesis estadística que se utiliza
para realizar inferencias sobre el valor medio (o promedio) de una población. Se
emplea cuando se quiere determinar si hay evidencia suficiente para afirmar que
la media de una población es igual, mayor o menor que un valor específico.
Las hipótesis de media generalmente se expresan en términos de la media
poblacional (μ) y pueden ser de tres tipos:
1. Hipótesis nula de igualdad (H0): Esta hipótesis establece que la media de la
población es igual a un valor específico. Se denota como H0: μ = μ0, donde
μ0 es el valor específico.
2. Hipótesis alternativa de diferencia (H1): Esta hipótesis sugiere que la media
de la población es diferente de un valor específico. Se denota como H1: μ ≠
μ0.
3. Hipótesis alternativa de mayor o menor (H1): En estos casos, la hipótesis
alternativa puede ser direccional, es decir, que se plantea si la media de la
población es mayor o menor que un valor específico. Por ejemplo, H1: μ >
μ0 o H1: μ < μ0.
Ejemplo:
Si se quiere probar si el promedio de calificaciones de un curso es mayor que 70,
las hipótesis serían:
Hipótesis nula (H0): El promedio de calificaciones del curso es igual a 70.
Hipótesis alternativa (H1): El promedio de calificaciones del curso es mayor
que 70.
Estas hipótesis se probarían utilizando métodos estadísticos apropiados, como
pruebas de hipótesis o intervalos de confianza, utilizando datos muestrales para
inferir conclusiones sobre la media poblacional.
HIPOTESIS PROPORCIONES
Las pruebas de proporciones son adecuadas cuando los
datos que se están analizando constan de cuentas o
frecuencias de elementos de dos o más clases. El objetivo
de estas pruebas es evaluar las afirmaciones con respecto a una
proporción (o Porcentaje) de población. Las pruebas
se basan en la premisa de que una proporción muestral (es
decir, x ocurrencias en n observaciones, o x/n) será igual
a la proporción verdadera de la población si se
toman márgenes o tolerancias para la variabilidad
muestral. Las pruebas suelen enfocarse en la diferencia entre un
número esperado de ocurrencias, suponiendo que una
afirmación es verdadera, y el número observado
realmente. La diferencia se compara con la variabilidad prescrita
mediante una distribución de muestreo que tiene como base
el supuesto de que es
realmente verdadera.
En muchos aspectos, las pruebas de proporciones se
parecen a las pruebas de medias, excepto que, en el caso de las
primeras, los datos muestrales se consideran como cuentas en
lugar de como mediciones. Por ejemplo, las pruebas para medias y
proporciones se pueden utilizar para evaluar afirmaciones con
respecto a:
1) Un parámetro de población único
(prueba de una muestra)
2) La igualdad de parámetros de dos poblaciones
(prueba de dos muestras), y
3) La igualdad de parámetros de más de dos
poblaciones (prueba de k muestras). Además, para
tamaños grandes de muestras, la distribución de
muestreo adecuado para pruebas de proporciones de una y dos
muestras es aproximadamente normal, justo como sucede en el caso
de pruebas de medias de una y dos muestras.
HIPOTESIS A COMPROBAR
Comprobar una hipótesis significa someterla a contrastación de una realidad. Es
decir, el investigador tiene que someter a prueba aquello que ha enunciado en su
hipótesis, y para ello ha de establecer, mediante alguna técnica de contrastación si
su hipótesis concuerda o no con los datos empíricos. En tal caso, solo se pueden
dar dos posibilidades previsibles: o bien la hipótesis puede verse apoyada por
datos empíricos y ha sido confirmada, o bien la hipótesis no corresponde con los
datos empíricos y decimos entonces que ha sido desconfirmada o refutada por los
datos empíricos.
La hipótesis a comprobar, o hipótesis alternativa, es la afirmación que se pretende
respaldar con la evidencia obtenida en un estudio o experimento. Se formula como
una afirmación de que hay un efecto, cambio o diferencia en la población de
interés. En contraste con la hipótesis nula, que es la posición inicial que se intenta
refutar, la hipótesis alternativa es la que se desea apoyar.
Ejemplo:
Si estás investigando el efecto de una nueva dieta en la pérdida de peso, tu
hipótesis alternativa podría ser que la dieta conduce a una mayor pérdida de peso
en comparación con otras dietas o con no seguir ninguna dieta en absoluto.
HIPOTESIS A INVESTIGAR
podría referirse a una afirmación o suposición que se quiere probar utilizando
métodos estadísticos y datos empíricos.
Hipótesis a investigar: "El rendimiento académico de los estudiantes está
relacionado con la cantidad de horas de estudio semanalmente."
En este caso, la hipótesis propone una relación entre dos variables: el rendimiento
académico y la cantidad de horas de estudio. Esta hipótesis podría ser investigada
utilizando métodos estadísticos como el análisis de regresión para determinar si
existe una asociación significativa entre estas dos variables en una muestra de
estudiantes. Se recolectarían datos sobre el rendimiento académico (por ejemplo,
calificaciones) y la cantidad de horas de estudio por semana para luego analizar si
hay evidencia estadística que respalde o refute la hipótesis propuesta.
Ejemplo:
Pero las hipótesis a investigar en el área estadística pueden abordar una amplia
variedad de preguntas, desde la relación entre variables hasta la comparación de
grupos o poblaciones, entre otros temas.
HIPOTESIS UNILATERAL
La hipótesis alternativa establece que, caso de rechazar la hipótesis nula, decimos
que la proporción de la población a que pertenece la muestra es inferior a 0.5
Es una afirmación en la que la dirección del efecto o diferencia entre las
poblaciones está especificada antes de realizar el estudio o la prueba estadística.
En otras palabras, la hipótesis alternativa solo abarca una dirección específica del
efecto, ya sea mayor o menor que un valor específico.
Ejemplo:
Si estamos interesados en investigar si un nuevo tratamiento médico mejora el
tiempo de recuperación de una enfermedad en comparación con el tratamiento
estándar, podríamos formular una hipótesis unilateral. En este caso:
La hipótesis nula (H0) sería que el nuevo tratamiento no tiene ningún
efecto, es decir, que el tiempo de recuperación con el nuevo tratamiento es
igual al tiempo de recuperación con el tratamiento estándar.
La hipótesis alternativa (H1) sería unilateral y especificaría una dirección del
efecto. Por ejemplo, podríamos plantear que el tiempo de recuperación con
el nuevo tratamiento es menor que el tiempo de recuperación con el
tratamiento estándar.
Entonces, la hipótesis alternativa unilateral en este caso sería: "El tiempo de
recuperación con el nuevo tratamiento es menor que el tiempo de recuperación
con el tratamiento estándar".
HIPOTESIS BILATERAL
La hipótesis alternativa establece que, caso de rechazar la hipótesis nula,
decidimos que la proporción de la población a que pertenece la muestra no es 0.5
Es una declaración que sugiere una relación entre dos variables. En contraste con
una hipótesis unilateral, que solo predice el efecto de una variable sobre otra, una
hipótesis bilateral afirma que hay una relación bidireccional entre las variables.
Esto significa que un cambio en una variable puede influir en la otra y viceversa.
Por ejemplo, en un estudio sobre el rendimiento académico y el nivel de estrés de
los estudiantes, una hipótesis bilateral podría afirmar que un aumento en el nivel
de estrés podría disminuir el rendimiento académico, y que un bajo rendimiento
académico podría aumentar el nivel de estrés. En resumen, una hipótesis bilateral
reconoce la posibilidad de que la relación entre las variables funcione en ambas
direcciones.
CONTRASTE O PRUEBA ESTADÍSTICA
En general nunca se sabrá con absoluta certeza si una hipótesis estadística es
cierta o falsa, ya que para ello habría que estudiar a todos los individuos de la
población.
Para comprobar la veracidad o falsedad de estas hipótesis hay que contrastarlas
con los resultados empíricos obtenidos de las muestras. Si los resultados
observados en las muestras coinciden, dentro del margen de error admisible
debido al azar, con lo que cabría esperar en caso de que la hipótesis fuese cierta,
la hipótesis se aceptará como verdadera, mientras que en caso contrario se
rechazará como falsa y se buscarán nuevas hipótesis capaces de explicar los
datos observados.
Como las muestras se obtienen aleatoriamente, la decisión de aceptar o rechazar
una hipótesis estadística se tomará sobre una base de probabilidad.
La metodología que se encarga de contrastar la veracidad de las hipótesis
estadísticas se conoce como contraste de hipótesis.
TIPOS DE CONTRASTES DE HIPÓTESIS
Contrastes de bondad de ajuste: El objetivo es comprobar una hipótesis sobre la
forma de la distribución de la población.
Ejemplo. Contrastar si las notas de un grupo de alumnos siguen una distribución
normal.
Contrastes de conformidad: El objetivo es comprobar una hipótesis sobre alguno
de los parámetros de la población.
Ejemplo. Contrastar si la nota media en un grupo de alumnos es igual a 5.
Contrastes de homogeneidad: El objetivo es comparar dos poblaciones con
respecto a alguno de sus parámetros.
Ejemplo. Contrastar si el rendimiento de dos grupos de alumnos es el mismo
comparando sus notas medias.
Contrastes de independencia: El objetivo es comprobar si existe relación entre dos
variables de la población.
Ejemplo. Contrastar si existe relación entre las notas de dos asignaturas
diferentes.
NIVEL DE SIGNIFICACIOO ERROR TIPO I (VALORES POSIBLES Y COMO SE
DETERMINAN)
Un error de tipo 1 o de tipo I se produce cuando el artículo concluye que existe un efecto cuando en
realidad no lo hay. Los investigadores rechazan la hipótesis nula cuando, de hecho, es cierta.
EXPRESADO EN ALPHA
El nivel alfa, representado por el símbolo α, es fijado por los investigadores para
limitar la probabilidad de errores de tipo 1. La probabilidad de cometer un error de
tipo 1 está representada por el nivel alfa. El nivel alfa estándar es 0,05, lo que
denota un riesgo del 5% de rechazar incorrectamente la hipótesis nula.
Al fijar el nivel alfa en 0,05, el investigador puede rechazar firmemente la hipótesis
nula y llegar a la conclusión de que existe un efecto significativo si el valor p del
análisis estadístico está por debajo de este umbral. Es importante tener en cuenta
que el nivel alfa es un umbral fijo, por lo que los investigadores deben tener
cuidado de no considerar prácticamente significativo o significativo ningún
resultado que caiga por debajo de él.
Tenga en cuenta que el nivel de 0,05 es más una heurística que un nivel
deliberado
Para calcularla es necesario restar la media de distribución del punto a analizar y
luego dividirlo por la desviación estándar.
También es importante resaltar que, la distribución normal tiene como objetivo
conocer el nivel significativo de un resultado.
CRITERIOS DE DECISIÓN DE UNA PRUEBA DE HIPOUNILATERAL Y
BILATERAL
al realizar una prueba de hipótesis, los criterios de decisión varían entre pruebas
unilaterales y bilaterales.
En una prueba unilateral, el interés se centra en determinar si el valor de la media,
la proporción u otro parámetro es significativamente mayor o menor que un valor
específico. Los criterios de decisión se basan en si la estadística de prueba cae en
la región crítica correspondiente a la dirección específica de interés.
En una prueba de hipótesis unilateral, se rechaza la hipótesis nula si la estadística
de prueba cae en la región crítica correspondiente a la dirección específica de
interés. Por ejemplo, si estamos interesados en probar si la media es mayor que
cierto valor, se rechazaría la hipótesis nula si la estadística de prueba cae en la
región crítica de la cola derecha de la distribución.
Por otro lado, en una prueba bilateral, el interés radica en determinar si el valor del
parámetro es significativamente diferente (ya sea mayor o menor) que un valor
específico. Los criterios de decisión se basan en si la estadística de prueba cae en
alguna de las dos regiones críticas que representan las colas izquierda y derecha
de la distribución.
En una prueba bilateral, se rechaza la hipótesis nula si la estadística de prueba
cae en alguna de las dos regiones críticas que representan las colas izquierda y
derecha de la distribución. Esto significa que se considera significativa una
diferencia tanto en el sentido positivo como en el negativo con respecto al valor
especificado.
En ambos casos, se comparará la estadística de prueba con los valores críticos o
p-valores asociados para tomar la decisión de rechazar o no rechazar la hipótesis
nula.
Es importante elegir entre pruebas unilaterales y bilaterales según la naturaleza de
la pregunta de investigación y el contexto del problema
PRESENTE SIMBOLICAMENTE EL ESTADISTICO DE CONTRASTE O DE
PRUEBA SEGÚN EL PARAMETRO.
el estadístico de contraste o de prueba se representa simbólicamente de la
siguiente manera:
- Para la media poblacional (μ):
- Prueba Z: (X̄ - μ) / (σ/√n)
- Prueba t: (X̄ - μ) / (s/√n)
- Para la proporción poblacional (p):
- Prueba Z: (p̂ - p) / √(p * (1-p) / n)
Donde:
- X̄ representa la media muestral
- μ es la media poblacional
- σ es la desviación estándar poblacional
- n es el tamaño de la muestra
- p̂ es la proporción muestral
- p es la proporción poblacional
- s es la desviación estándar muestral
Estos son solo algunos ejemplos de estadísticos de prueba comunes utilizados en
pruebas de hipótesis para la media y la proporción. La elección del estadístico
específico depende del parámetro que se esté evaluando y de las características
de los datos disponibles.
PASOS PARA CONTRASTAR UNA HIPOTESIS
Los pasos para contrastar una hipótesis generalmente siguen un proceso estándar
en pruebas de hipótesis:
1. Planteamiento de hipótesis: Formular la hipótesis nula (H0) y la hipótesis
alternativa (H1). La hipótesis nula representa la situación existente o la
afirmación a refutar, mientras que la hipótesis alternativa representa la
afirmación que se busca respaldar con evidencia.
2. Especificación del nivel de significación: Determinar el nivel de significación
(alfa) que establece el umbral para rechazar la hipótesis nula.
3. Elección del estadístico de prueba: Seleccionar el estadístico adecuado en
función del parámetro a contrastar y de las características de los datos.
4. Cálculo del estadístico de prueba: Calcular el valor del estadístico de
prueba utilizando los datos muéstrales disponibles.
5. Determinación de la región crítica: Establecer las regiones críticas en la
distribución del estadístico de prueba, según si se trata de una prueba
unilateral o bilateral, y comparar el valor calculado con las regiones críticas.
6. Toma de decisión: Comparar el valor del estadístico de prueba con las
regiones críticas o calcular el p-valor asociado. Si el valor del estadístico
cae dentro de la región crítica o si el p-valor es menor que el nivel de
significación, se rechaza la hipótesis nula; de lo contrario, no se rechaza.
7. Interpretación: Interpretar los resultados en términos del problema
específico y tomar decisiones basadas en la evidencia obtenida.
Estos pasos proporcionan un marco general para llevar a cabo pruebas de
hipótesis en diversos contextos.
EXPLIQUE LA INTERPRETACIÓN DE LA DECISION EN UNA HIPOTESIS
La interpretación de la decisión en una prueba de hipótesis se basa en el resultado
obtenido al comparar el valor del estadístico de prueba con las regiones críticas o
al evaluar el p-valor en relación con el nivel de significación establecido. A
continuación, te explico cómo interpretar los resultados:
1. Rechazo de la hipótesis nula (H0):
- Si el valor del estadístico de prueba cae dentro de la región crítica o si el p-
valor es menor que el nivel de significación (alfa), se rechaza la hipótesis nula.
- La interpretación es que hay evidencia suficiente en los datos muestrales para
respaldar la hipótesis alternativa (H1) o para afirmar que existe una diferencia
significativa, según sea el caso.
2. No rechazo de la hipótesis nula (H0):
- Si el valor del estadístico de prueba no cae dentro de la región crítica y si el p-
valor es mayor que el nivel de significación, no se rechaza la hipótesis nula.
- La interpretación es que no hay evidencia suficiente en los datos muestrales
para respaldar la hipótesis alternativa, o para afirmar que existe una diferencia
significativa.
Es importante recordar que “no rechazar” la hipótesis nula no implica que se esté
afirmando que la hipótesis nula es verdadera, sino simplemente que no hay
suficiente evidencia para refutarla con base en los datos disponibles.
La interpretación de la decisión debe realizarse considerando siempre el contexto
específico del problema y las implicaciones prácticas de los resultados obtenidos.
ESTIMACION
Estimar qué va a ocurrir respecto a algo (o qué está ocurriendo, o qué ocurrió), a
Pesar de ser un elemento muy claramente estadístico, está muy enraizado en
nuestra Cotidianidad. Dentro de ello, además hacemos estimaciones dentro de un
intervalo de posibilidades. Por ejemplo: “creo que terminaré la tarea en unos 5-6
días”.
Lo que hacemos en el terreno del análisis de datos es aplicar matizaciones
técnicas a este hábito. Vamos a dedicar este documento al concepto de
estimación, comenzando con la estimación puntual. Después nos ocuparemos de
desarrollar un modelo de estimación por intervalo donde identificaremos los
elementos fundamentales, con su significado y símbolo. Y, por último, habrá que
desarrollar cómo se calculan esos elementos.
ESTIMACIÓN PUNTUAL O ESTIMADOR.
Un estimador de un parámetro poblacional es una función de los datos muestrales.
En pocas palabras, es una fórmula que depende de los valores obtenidos de una
muestra, para realizar estimaciones. Lo que se pretende obtener es el valor exacto
de un parámetro. Por ejemplo, si se pretende estimar la talla media de un
determinado grupo de individuos, puede extraerse una muestra y ofrecer como
estimación puntual la talla media de los individuos de la muestra.
La media de la muestra puede ser un estimador de la media de la población, la
cuasi varianza muestral es un buen estimador de la varianza poblacional y el total
muestral es un buen estimador del total poblacional.
Por tanto, una definición más matemática de un estimador y las propiedades que
debe de cumplir un estimador para ser bueno.
Sea X1……Xn, una m.a.s. de tamaño n, decimos que es un estimador θ* de un
parámetro θ si el estadístico que se emplea para conocer dicho parámetro
desconocido es este.
Propiedades deseables de un estimador
Las propiedades o criterios para seleccionar un buen estimador son los
Siguientes:
A) Insesgadas: Diremos que un estimador θ* de un parámetro θ es insesgado
si su esperanza coincide con el verdadero valor del parámetro.
E[θ*] = θ.
En el caso de que no coincidan, diremos que el estimador es sesgado.
B) Eficiencia: Dados dos estimadores θ1* Y θ2* Para un mismo parámetro θ,
se dice que Θ1* más eficiente que θ2* Si:
V[θ1*] < V[θ2*].
C) Suficiencia: Se dice que un estimador de un parámetro es suficiente cuando
para su cálculo utiliza toda la información de la muestra.
D) Consistencia: Decimos que un estimador θ*
De un parámetro θ es consistente si la distribución del estimador tiende a
concentrarse en un cierto punto cuando el tamaño de la muestra tiende a infinito.
Métodos para obtener estimadores
El demostrar que un cierto estimador cumple estas propiedades puede ser
complicado en determinadas ocasiones. Existen varios métodos que nos van a
permitir obtener los estimadores puntuales. Los más importantes son:
• Método de los momentos: se basa en que los metodos poblacionales y se
estiman mediante los momentos muestrales. Suelen dar estimadores consistentes.
• Método de mínimos cuadrados: consiste en obtener un estimador que hace
mínima una determinada función.
• Método de máxima verosimilitud: consiste en tomar como parámetro poblacional
el valor de la muestra que sea más probable, es decir, que tenga mayor
probabilidad. Se suelen obtener estimadores consistentes y eficientes. Es el más
utilizado.
ESTIMACIÓN POR INTERVALOS DE CONFIANZA
Representa una técnica de estimación que se utiliza en el campo de la inferencia
estadística.
Un intervalo de confianza nos va a permitir calcular dos valores alrededor de una
media muestral (uno superior y otro inferior). Estos valores van a acotar un rango
dentro del cual, con una determinada probabilidad, se va a localizar el parámetro
poblacional.
Intervalo de confianza = media +- margen de error
Conocer el verdadero poblacional, por lo general, suele ser algo muy complicado.
Pensemos en una población de 4 millones de personas. ¿Podríamos saber el
gasto medio en consumo por hogar de esa población? En principio sí.
Simplemente tendríamos que hacer una encuesta entre todos los hogares y
calcular la media. Sin embargo, seguir ese proceso sería tremendamente
laborioso y complicaría bastante el estudio.
Ante situaciones así, se hace más factible seleccionar una muestra estadística.
Por ejemplo, 500 personas. Y sobre dicha muestra, calcular la media. Aunque
seguiríamos sin saber el verdadero valor poblacional, podríamos suponer que este
se va a situar cerca del valor muestral. A esa media le sumamos el margen de
error y tenemos un valor del intervalo de confianza. Por otro lado, le restamos a la
media ese margen de error y tendremos otro valor. Entre esos dos valores estará
la media poblacional.
En conclusión, el intervalo de confianza no sirve para dar una estimación puntual
del parámetro poblacional, si nos va a servir para hacernos una idea aproximada
de cuál podría ser el verdadero de este. Nos permite acotar entre dos valores en
dónde se encontrará la media de la población.
Factores de los que depende un intervalo de confianza
El cálculo de un intervalo de confianza depende principalmente de los siguientes
factores:
Tamaño de la muestra seleccionada: Dependiendo de la cantidad de datos que se
hayan utilizado para calcular el valor muestral, este se acercará más o menos al
verdadero parámetro poblacional.
Nivel de confianza: Nos va a informar en qué porcentaje de casos nuestra
estimación acierta. Los niveles habituales son el 95% y el 99%.
Margen de error de nuestra estimación: Este se denomina como alfa y nos informa
de la probabilidad que existe de que el valor poblacional esté fuera de nuestro
intervalo.
Lo estimado en la muestra (media, varianza, diferencia de medias…): De esto va a
depender el estadístico pivote para el cálculo del intervalo.
El estadístico pivote utilizado para el cálculo sería el siguiente:
El intervalo resultante sería el siguiente:
Vemos como en el intervalo a la izquierda y derecha de la desigualdad tenemos la
cota inferior y superior respectivamente. Por tanto, la expresión nos dice, que la
probabilidad de que la media poblacional se sitúe entre esos valores es de 1-alfa
(nivel de confianza).
Veamos mejor lo anterior con un ejercicio resuelto a modo de ejemplo.
Se desea estimar la media del tiempo que un corredor emplea para completar una
maratón. Para ello se han cronometrado 10 maratones y se ha obtenido una
media de 4 horas con una desviación típica de 33 minutos (0,55 horas). Se desea
obtener un intervalo al 95% de confianza.
Para obtener el intervalo, no tendríamos más que sustituir los datos en la fórmula
del intervalo.
El intervalo de confianza, sería la parte de la distribución que queda sombreada en
azul. Los 2 valores acotados por este serían los correspondientes a las 2 líneas de
color rojo. La línea central que parte la distribución en 2 sería el verdadero valor
poblacional.
Es importante resaltar que en este caso, dado que la función de densidad de la
distribución N(0,1) nos da la probabilidad acumulada (desde la izquierda hasta el
valor crítico), tenemos que encontrar el valor que nos deja a la izquierda 0,975%
(este es 1,96).
NIVEL DE CONFIANZA
El nivel de confianza estadístico es una medida de la certeza o seguridad con la
que se puede afirmar que un parámetro poblacional se encuentra dentro de un
intervalo estimado a partir de una muestra de datos. Por lo general, se expresa
como un porcentaje y representa la probabilidad de que el intervalo estimado
contenga el verdadero valor del parámetro.
Por ejemplo, si se estima un intervalo de confianza del 95% para la media de una
población, significa que hay un 95% de probabilidad de que la verdadera media
poblacional esté dentro de ese intervalo.
El nivel de confianza elegido generalmente está relacionado con el grado de
certeza que se requiere en la inferencia estadística. Los niveles de confianza
comunes incluyen el 90%, 95% y 99%. Cuanto mayor sea el nivel de confianza,
más amplio será el intervalo de confianza y, por lo tanto, más seguro será el
resultado, pero también se requerirá una muestra más grande para lograr ese
nivel de precisión.
NIVEL DE ERROR
El nivel de error, en el contexto estadístico, puede referirse a diferentes conceptos
dependiendo del contexto en el que se utilice. Aquí te explico dos de los más
comunes:
Error de muestreo: Este tipo de error se refiere a la diferencia entre una estimación
basada en una muestra y el valor verdadero de la población. Se determina
principalmente por el tamaño de la muestra y la variabilidad de la población.
Cuanto mayor sea el tamaño de la muestra, menor será el error de muestreo,
siempre y cuando la muestra sea representativa de la población y se hayan
seguido los procedimientos adecuados de muestreo.
Error de estimación o medida: Este tipo de error se refiere a la imprecisión o
inexactitud en las mediciones o estimaciones realizadas. Puede deberse a
factores como la calidad de los instrumentos de medición, errores humanos,
errores de diseño experimental, entre otros. La determinación del error de
estimación generalmente implica la evaluación de la precisión de los instrumentos
de medición y el control de los factores que puedan afectar la precisión de las
mediciones.
En ambos casos, la determinación del nivel de error implica evaluar la precisión y
la fiabilidad de los datos y las estimaciones realizadas, así como identificar y
controlar los factores que puedan contribuir a la variabilidad o inexactitud en los
resultados.
DESVIACIÓN ESTÁNDAR DEL ESTIMADOR (ESTADÍSTICO)
La desviación estándar del estimador, también conocida como error estándar, es
una medida de cuánto varía un estimador (estadístico calculado a partir de una
muestra) alrededor de su valor esperado o verdadero en múltiples muestras
aleatorias. Es una medida de la precisión del estimador.
Por ejemplo, si estamos estimando la media de una población a partir de una
muestra, la desviación estándar del estimador (error estándar) nos indica cuánto
varían las medias muestrales alrededor de la verdadera media poblacional.
La fórmula para calcular la desviación estándar del estimador depende del tipo de
estimador y del modelo estadístico específico que se esté utilizando. En algunos
casos, puede calcularse de forma analítica, mientras que en otros casos puede
requerir métodos de simulación o técnicas de inferencia más avanzadas.
la desviación estándar del estimador es una medida importante para evaluar la
precisión de nuestras estimaciones y para tener una idea de cuánto podemos
confiar en los resultados obtenidos a partir de una muestra particular. Cuanto
menor sea la desviación estándar del estimador, mayor será su precisión y menor
será la incertidumbre asociada con la estimación.
ERROR DE ESTIMACIÓN
El error de estimación, también conocido como error de predicción o error de
pronóstico, se refiere a la diferencia entre el valor real y el valor estimado o
predicho de una variable. Este concepto es comúnmente utilizado en el contexto
de modelos estadísticos o de aprendizaje automático, donde se intenta predecir o
estimar un valor basado en datos observados.
Por ejemplo, si estás utilizando un modelo de regresión para predecir el precio de
una casa en función de sus características (como el tamaño, la ubicación, etc.), el
error de estimación sería la diferencia entre el precio real de la casa y el precio
predicho por el modelo.
El error de estimación puede ser positivo o negativo, dependiendo de si la
estimación está por encima o por debajo del valor real. Además, se pueden utilizar
diferentes medidas para cuantificar el error de estimación, como el error absoluto
medio (MAE), el error cuadrático medio (MSE) o el error porcentual absoluto
medio (MAPE), entre otros.
Reducir el error de estimación es uno de los objetivos principales en la
construcción y evaluación de modelos predictivos, ya que indica la precisión con la
que el modelo puede hacer predicciones sobre datos nuevos o no observados. Un
menor error de estimación generalmente indica un modelo más preciso y
confiable.
PRESENTE SIMBÓLICAMENTE LAS FÓRMULAS DE LOS INTERVALOS DE
CONFIANZA PARA: MEDIAS, PROPORCIÓN, DIFERENCIAS DE MEDIAS Y
DIFERENCIAS DE PROPORCIONES
Intervalo de confianza para la media (con desviación estándar poblacional
conocida σ):
Intervalo de confianza para la media (con desviación estándar muestral s):
Intervalo de confianza para la proporción:
Intervalo de confianza para la diferencia de medias (muestras independientes,
varianzas poblacionales conocidas):
Intervalo de confianza para la diferencia de medias (muestras independientes,
varianzas poblacionales desconocidas y iguales):
Donde s2p es la varianza conjunta de las muestras, calculada como:
Intervalo de confianza para la diferencia de proporciones:
En estas fórmulas:
PASOS PARA UNA ESTIMACIÓN POR INTERVALO:
los pasos generales para realizar una estimación por intervalos:
Recopilación de datos: Recolecta los datos relevantes para tu estudio. Esto puede
incluir datos observacionales, experimentales o muestras de una población.
Identificación del parámetro a estimar: Determina qué parámetro de la población
deseas estimar. Esto puede ser una media, una proporción, una diferencia entre
medias o proporciones, etc.
Selección del nivel de confianza: Decide el nivel de confianza que deseas asociar
con tu intervalo de confianza. Los niveles de confianza comunes son 90%, 95% y
99%.
Elección del método de estimación: Dependiendo del parámetro que estés
estimando y de si conoces o no la desviación estándar poblacional, selecciona el
método de estimación adecuado. Por ejemplo, para estimar la media de una
población con una desviación estándar conocida, puedes utilizar el método del
valor crítico z. Si no conoces la desviación estándar poblacional, puedes usar el
método del valor crítico t.
Cálculo del intervalo de confianza: Utiliza la fórmula correspondiente al método de
estimación elegido para calcular el intervalo de confianza. Esto implica calcular la
estimación puntual del parámetro y luego determinar el margen de error basado en
el nivel de confianza y la distribución de probabilidad asociada.
Interpretación del intervalo de confianza: Una vez que hayas calculado el intervalo
de confianza, interpreta su significado en el contexto del problema que estás
estudiando. Por ejemplo, si estás estimando la media de una población, puedes
decir que estás 95% seguro de que la verdadera media poblacional está dentro del
intervalo calculado.
Comunicación de resultados: Finalmente, comunica tus resultados de manera
clara y precisa, incluyendo el intervalo de confianza y su interpretación. Es
importante proporcionar contexto y explicar cualquier suposición o limitación
asociada con el análisis realizado.
EXPLIQUE LA INTERPRETACIÓN DE LOS VALORES RESULTANTES DE UNA
ESTIMACIÓN POR INTERVALOS DE CONFIANZA.
La interpretación de los valores resultantes de una estimación por intervalos de
confianza depende del parámetro estimado y del nivel de confianza seleccionado.
Aquí te doy algunas pautas generales para interpretar estos intervalos:
Para una media poblacional: Por ejemplo, si calculas un intervalo de confianza del
95% para la media de una población y obtienes (10, 15), puedes interpretarlo
como: "Estoy 95% seguro de que la verdadera media de la población se encuentra
entre 10 y 15 unidades".
Para una proporción poblacional: Si calculas un intervalo de confianza del 90%
para la proporción de personas que prefieren un producto y obtienes (0.3, 0.5),
puedes interpretarlo como: "Estoy 90% seguro de que la verdadera proporción de
personas que prefieren el producto está entre el 30% y el 50%".
Para una diferencia de medias o proporciones: Por ejemplo, si calculas un
intervalo de confianza del 99% para la diferencia entre las medias de dos
poblaciones y obtienes (-5, 2), puedes interpretarlo como: "Estoy 99% seguro de
que la verdadera diferencia entre las medias de las dos poblaciones está entre -5
y 2 unidades".
Para cualquier intervalo de confianza: Si el intervalo de confianza incluye el valor
nulo (como 0 en una diferencia de medias o proporciones), significa que no hay
evidencia suficiente para afirmar que existe una diferencia significativa entre los
grupos comparados.
la interpretación de los valores resultantes de un intervalo de confianza implica
expresar con cierto grado de certeza dónde se encuentra el verdadero parámetro
poblacional de interés. El nivel de confianza seleccionado proporciona una medida
de la certeza asociada con esta estimación.