1.
MARCO TEORICO
a) Inferencia estadística
La inferencia estadística es el conjunto de métodos que permiten inducir, a través de una
muestra, el comportamiento de una determinada población. La inferencia estadística estudia
entonces, como sacar conclusiones sobre los parámetros de población de datos. De la misma
manera estudia también el grado de fiabilidad de los resultados extraídos del estudio.
La inferencia estadística o estadística inferencial es una parte de la Estadística que
comprende los métodos y procedimientos para deducir propiedades (hacer inferencias) de
una población, a partir de una pequeña parte de la misma (muestra). También permite
comparar muestras de diferentes poblaciones.
Generalmente comprende las pruebas de estimación, puntual o por intervalos de confianza,
y las pruebas de hipótesis, paramétricas, como la de la media, diferencias de medias,
proporciones, etc., y las no paramétricas, como la prueba de chi-cuadrado.
En la Estadística también se realizán análisis de correlación y regresión, series cronológicas,
análisis de variaza, etc.
Para entender el concepto es importante entender tres conceptos:
Inferencia: Inferir significa, literalmente, extraer juicios o conclusiones a partir de ciertos
supuestos, sean estos generales o particulares.
Población: Una población de datos, es el conjunto total de datos que existen sobre un
variable.
Muestra estadística: Una muestra es una parte de la población de datos.
Teniendo claro a lo que nos referimos con el concepto de inferir, una de las dudas
fundamentales recae en el hecho de elegir una muestra en lugar de una población.
Normalmente, en estadística, se trabaja con muestras debido a la gran cantidad de datos que
tiene una población. Por ejemplo, si queremos sacar conclusiones, esto es, inferir, los
resultados de las elecciones generales, es imposible preguntar a toda la población del país.
Para solventar ese problema se escoge una muestra variada y representativa. Gracias a la cual
se puedan extraer una estimación del resultado final. Escoger una muestra adecuada corre a
cargo de las distintas técnicas de muestreo.
Los métodos paramétricos de la inferencia estadística se pueden dividir, básicamente, en dos:
métodos de estimación de parámetros y métodos de contraste de hipótesis. Ambos métodos
se basan en el conocimiento teórico de la distribución de probabilidad del estadístico muestral
que se utiliza como estimador de un parámetro.
La estimación de parámetros consiste en asignar un valor concreto al parámetro o parámetros
que caracterizan la distribución de probabilidad de la población. Cuando se estima un
parámetro poblacional, aunque el estimador que se utiliza posea todas las propiedades
deseables, se comete un error de estimación que es la diferencia entre la estimación y el
verdadero valor del parámetro. El error de estimación es desconocido por lo cual es imposible
saber en cada caso cual ha sido la magnitud o el signo del error; para valorar el grado de
precisión asociado con una estimación puntual se parte de dicha estimación para construir un
intervalo de confianza. En síntesis, un intervalo de confianza está formado por un conjunto
de valores numéricos tal que la probabilidad de que éste contenga al verdadero valor del
parámetro puede fijarse tan grande como se quiera. Esta probabilidad se denomina grado de
confianza del intervalo, y la amplitud de éste constituye una medida del grado de precisión
con el que se estima el parámetro.
Los métodos de contraste de hipótesis tienen como objetivo comprobar si determinado
supuesto referido a un parámetro poblacional, o a parámetros análogos de dos o más
poblaciones, es compatible con la evidencia empírica contenida en la muestra. Los supuestos
que se establecen respecto a los parámetros se llaman hipótesis paramétricas. Para cualquier
hipótesis paramétrica, el contraste se basa en establecer un criterio de decisión, que depende
en cada caso de la naturaleza de la población, de la distribución de probabilidad del estimador
de dicho parámetro y del control que se desea fijar a priori sobre la probabilidad de rechazar
la hipótesis contrastada en el caso de ser ésta cierta.
En todo contraste intervienen dos hipótesis. La hipótesis nula (Ho) es aquella que recoge el
supuesto de que el parámetro toma un valor determinado y es la que soporta la carga de la
prueba. La decisión de rechazar la hipótesis nula, que en principio se considera cierta, está
en función de que sea o no compatible con la evidencia empírica contenida en la muestra. El
contraste clásico permite controlar a priori la probabilidad de cometer el error de rechazar la
hipótesis nula siendo ésta cierta; dicha probabilidad se llama nivel de significación del
contraste ( ) y suele fijarse en el 1%, 5% o 10%.
La proposición contraria a la hipótesis nula recibe el nombre de hipótesis alternativa (H1) y
suele presentar un cierto grado de indefinición: si la hipótesis alternativa se formula
simplemente como 'la hipótesis nula no es cierta', el contraste es bilateral o a dos colas; por
el contrario cuando se indica el sentido de la diferencia, el contraste es unilateral o a una sola
cola.
Cuando se realiza un contraste con el SPSS no se fija el nivel de significación deseado, el
programa calcula el valor-p o significación asintótica, que es la probabilidad de que el
estadístico de prueba tome un valor igual o superior al muestral bajo el supuesto de que la
hipótesis nula es cierta. Por tanto, si el valor-p es menor o igual que el nivel de significación
deseado se rechazará Ho .Un valor-p próximo a cero indica que se rechazará la Ho para
cualquier nivel de significación.
b) Métodos clásicos de estimación
Método puntual Consiste en la estimación del valor del parámetro mediante un sólo valor,
obtenido de una fórmula determinada. Por ejemplo, si se pretende estimar la talla media de
un determinado grupo de individuos, puede extraerse una muestra y ofrecer como estimación
puntual la talla media de los individuos. Lo más importante de un estimador, es que sea un
estimador eficiente. Es decir, que sea insesgado(ausencia de sesgos) y estable en el muestreo
o eficiente (varianza mínima) Estimación puntual. Sea X una variable poblacional con
distribución Fθ , siendo θ desconocido. El problema de estimación puntual consiste en,
seleccionada una muestra X1, ..., Xn, encontrar el estadístico T(X1, ..., Xn) que mejor estime
el parámetro θ. Una vez observada o realizada la muestra, con valores x1, ..., xn, se obtiene
la estimación puntual de θ, T(x1, ..., xn) = ˆ θ .
Vemos a continuación dos métodos para obtener la estimación puntual de un parámetro:
método de los momentos y método de máxima verosimilitud. Método de los momentos:
consiste en igualar momentos poblacionales a momentos muestrales. Deberemos tener tantas
igualdades como parámetros a estimar. Momento poblacional de orden r αr = E(Xr) Momento
muestral de orden r ar = Xn i=1 Xr i n
Estimador insesgado
¿Cuáles son las propiedades que una “buena” función de decisión debería tener para
Poder influir en nuestra elección de un estimador en vez de otro? Sea Θˆ un estimador
Cuyo valor θˆ es una estimación puntual de algún parámetro de la población desconocido θ.
Sin duda desearíamos que la distribución muestral de Θˆ tuviera una media igual al
parámetro estimado. Al estimador que tuviera esta propiedad se le llamaría estimador
Insesgado.
Estimación por intervalo
Podría ser que ni el estimador insesgado más eficaz estime con exactitud el parámetro de la
población. Es cierto que la exactitud de la estimación aumenta cuando las muestras son
grandes; pero incluso así no tenemos razones para esperar que una estimación puntual de una
muestra dada sea exactamente igual al parámetro de la población que se supone debe estimar.
Hay muchas situaciones en que es preferible determinar un intervalo dentro del cual
esperaríamos encontrar el valor del parámetro. Tal intervalo se conoce como estimación por
intervalo.
Una estimación por intervalo de un parámetro de la población θ es un intervalo de
La forma θˆL donde θˆL y θˆU dependen del valor del estadístico Θˆ para una muestra
específica, y también de la distribución de muestreo de Θˆ. Por ejemplo, una muestra
Aleatoria de calificaciones verbales de la prueba SAT para estudiantes universitarios de
primer año produciría un intervalo de 530 a 550, dentro del cual esperamos encontrar el
promedio verdadero de todas las calificaciones verbales de la prueba SAT para ese grupo.
Los valores de los puntos extremos, 530 y –550, dependerán de la media muestral calculada
x¯ y de la distribución de muestreo de X. A medida que aumenta el tamaño de La muestra,
sabemos que σ 2 = σ 2/n disminuye y, en consecuencia, cabe la posibilidad de que nuestra
estimación se acerque más al parámetro μ, lo cual daría como resultado un intervalo más
corto. De esta manera, el intervalo de la estimación indica, por su longitud, la precisión de la
estimación puntual. Un ingeniero obtendrá información acerca de la proporción de la
población de artículos defectuosos tomando una muestra y calculando la proporción muestral
defectuosa, sin embargo, una estimación por intervalo podría ser más informativa.
c) Estimación de la media
El intervalo de confianza , para la media de una población, con un nivel de
confianza de 1−α, siendo X la media de una muestra de tamaño n y σ la
desviación típica de la población, es:
El error máximo de estimación es:
Cuanto mayor sea el tamaño de la muestra, n, menor es el error .
Cuanto mayor
sea el nivel de confianza , 1-α, mayor es el error.
Tamaño de la muestra
Si aumentamos el nivel de confianza , aumenta el tamaño de la muestra .
Si disminuimos el error, tenemos que aumentar el tamaño de la muestra .
Se emplea la siguiente fórmula:
Donde:
Z = valor crítico de la distribución normal estandarizada
Se llama valor crítico al valor de Z necesario para construir un intervalo de confianza para
la distribución. El 95% de confianza corresponde a un valor ( de 0,05. El valor crítico Z
correspondiente al área acumulativa de 0,975 es 1,96 porque hay 0,025 en la cola superior
de la distribución y el área acumulativa menor a Z = 1,96 es 0,975.
Un nivel de confianza del 95% lleva a un valor Z de 1,96.
El 99% de confianza corresponde a un valor ∞ de o,o1.
El valor de Z es aproximadamente 2,58 porque el área de la cola alta es 0,005 y el área
acumulativa menor a Z = 2,58 es 0,995.
Estimación de la Diferencia entre dos Medias
2 2
Si se tienen dos poblaciones con medias 1 y 2 y varianzas 1 y 2 ,
respectivamente, un estimador puntual de la diferencia entre 1 y 2 está dado por la
estadística . Por tanto. Para obtener una estimación puntual de
1- 2, se seleccionan dos muestras aleatorias independientes, una de cada población, de
tamaño n1 y n2, se calcula la diferencia , de las medias muestrales.
Recordando a la distribución muestral de diferencia de medias:
Al despejar de esta ecuación 𝜇1 − 𝜇2 se tiene:
𝜎12 𝜎22
𝜇1 − 𝜇2 = (𝑥̅1 − 𝑥̅2 ) ± 𝑧√ +
𝑛1 𝑛2
En el caso en que se desconozcan las varianzas de la población y los tamaños de muestra
sean mayores a 30 se podrá utilizar la varianza de la muestra como una estimación puntual.
d) Estimación de una Proporción
Un estimador puntual de la proporción P en un experimento binomial está dado por la
estadística P=X/N, donde x representa el número de éxitos en n pruebas. Por tanto, la
proporción de la muestra p =x/n se utilizará como estimador puntual del parámetro P.
Si no se espera que la proporción P desconocida esté demasiado cerca de 0 ó de 1, se puede
establecer un intervalo de confianza para P al considerar la distribución muestral de
proporciones.
Al despejar P de esta ecuación nos queda:
En este despeje podemos observar que se necesita el valor del parámetro P y es
precisamente lo que queremos estimar, por lo que lo sustituiremos por la proporción de la
muestra p siempre y cuando el tamaño de muestra no sea pequeño.
Cuando n es pequeña y la proporción desconocida P se considera cercana a 0 ó a 1, el
procedimiento del intervalo de confianza que se establece aquí no es confiable, por tanto,
no se debe utilizar. Para estar seguro, se debe requerir que np ó nq sea mayor o igual a 5.
El error de estimación será la diferencia absoluta entre p y P, y podemos tener el nivel de
confianza de que esta diferencia no excederá .
e) Estimación de la Diferencia entre dos Proporciones
En la sección anterior se vio el tema de la generación de las distribuciones muestrales, en
donde se tenía el valor de los parámetros, se seleccionaban dos muestras y podíamos
calcular la probabilidad del comportamiento de los estadísticos. Para este caso en particular
se utilizará la distribución muestral de diferencia de proporciones para la estimación de las
misma. Recordando la formula:
Despejando P1-P2 de esta ecuación:
Aquí se tiene el mismo caso que en la estimación de una proporción, ya que al hacer el
despeje nos queda las dos proporciones poblacionales y es precisamente lo que queremos
estimar, por lo que se utilizarán las proporciones de la muestra como estimadores
puntuales:
Bibliografia
[Link]
estadistica-para-ingenier-walpole_8.pdf
[Link]
hUKEwiesrb3h_fiAhUq0FkKHQUZAWgQ1QIoAHoECAsQAQ&biw=1093&bih=486
[Link]