Mgt. Rina M.
Zamalloa Cornejo
INFERENCIA ESTADÍSTICA
INFERENCIA ESTADÍSTICA
Es aquella rama de la estadística que apoyándose en el cálculo de probabilidades
y a partir de datos muéstrales, efectúa estimaciones, decisiones, predicciones u otras
generalizaciones sobre un conjunto mayor de datos. Puede definirse como aquella rama
de la estadística que hace posible la estimación de una característica de una población o
la toma de una decisión referente a una población, fundamentándose sólo en los resultados
de la muestra.
También se puede decir que la estadística inferencial es cuando de los datos
estadísticos obtenidos de una muestra se infiere o se deduce una observación la cual se
generaliza sobre la población en total. Para determinar la confiabilidad de la inferencia
de los datos estadísticos de una muestra, se hace necesario comprobar la misma para poder
asegurar que lo que se observa en una muestra se observará también en la población. Por
lo tanto, esto requiere utilizar técnicas, cálculos y análisis estadísticos más avanzados con
los datos estadísticos obtenidos de la muestra para así confirmar la veracidad de las
inferencias que se haga sobre la respectiva población a que corresponde la muestra.
Generalmente el análisis estadístico inferencial se lleva cabo para mostrar
relaciones de causa y efecto, así como para probar hipótesis y teorías científicas.
POBLACIÓN Y MUESTRA
Las estadísticas de por sí no tienen sentido si no se consideran o se relacionan dentro del
contexto con que se trabajan. Por lo tanto, es necesario entender los conceptos de
población y de muestra para lograr comprender mejor su significado en la investigación
educativa o social que se lleva a cabo.
POBLACION:
Estadísticamente, la población se define como un conjunto de individuos, objetos etc. que
poseen una o varias características comunes que interesan al investigador. No se refiere
esta definición únicamente a los seres vivientes; una población puede estar constituida
Mgt. Rina M. Zamalloa Cornejo
por los habitantes de un país o por lo peces de un estanque, así como por los
establecimientos comerciales de un barrio o las unidades de vivienda de una ciudad. Al
número de elementos de la población se denota por N.
Existen desde el punto de vista de su manejabilidad poblaciones finitas e infinitas. Aquí
el término infinito no está siendo tomado con el rigor semántico de la palabra; por
ejemplo, los peces dentro de un estanque son un conjunto finito; sin embargo, en términos
estadísticos, puede ser considerado como infinito.
Cuando se vaya a llevar a cabo alguna investigación debe tenerse en cuenta algunas
características esenciales al seleccionarse la población bajo estudio. Entre éstas tenemos:
Homogeneidad - Que todos los miembros de la población tengan las mismas
características según las variables que se vayan a considerar en el estudio o investigación.
Por ejemplo, si se fuera a investigar la incidencia de la drogadicción entre jóvenes mujeres
adolescentes, entonces hay que definir claramente las edades que comprenden la
adolescencia y cuando se seleccione la población asegurarse de que todas las personas
entrevistadas sean de la edad determinada y del sexo femenino. (La adolescencia se define
operacionalmente como el periodo comprendido de edad que fluctúa entre 12 y 21 años.)
Tiempo - Se refiere al período de tiempo donde se ubicaría la población de interés.
Determinar si el estudio es del momento presente o si se va a estudiar a una población de
cinco años atrás o si se van a entrevistar personas de diferentes generaciones.
Espacio - se refiere al lugar donde se ubica la población de interés. Un estudio no puede
ser muy abarcador y por falta de tiempo y recursos hay que limitarlo a un área o
comunidad específica.
Cantidad - Se refiere al tamaño de la población. El tamaño de la población es sumamente
importante porque ello determina o afecta al tamaño de la muestra que se vaya a
seleccionar, además que la falta de recursos y tiempo también nos limita la extensión de
la población que se vaya a investigar.
MUESTRA:
Mgt. Rina M. Zamalloa Cornejo
Es el conjunto de elementos que forman parte de población. La muestra representa a esta
población.
También se puede definir como el subconjunto de la población a la cual se le efectúa la
medición con el fin de estudiar las propiedades del conjunto del cual es obtenida. Existen
diversos métodos para calcular el tamaño de la muestra y también para tomar los
elementos que la conforman, la muestra debe ser representativa de la población y sus
elementos escogidos al azar para asegurar la objetividad de la investigación.
MUESTRA ALEATORIA:
Sean X1 , X 2 , ..., X n variables aleatorias independientes e igualmente distribuidas, cuya
distribución conjunta es:
f ( x1 , x2 ,..., xn ) = f ( x1 ) f ( x2 ) ... f ( xn )
Donde la función de densidad de cada X i , para i = 1, 2, … , n es f ( x ) . En tal supuesto
se dice que X1 , X 2 , ..., X n es una muestra aleatoria de tamaño n de la variable aleatoria
X con función de densidad f ( x ) .
MUESTREO – Es el procedimiento científico que se utiliza para la obtención de
muestras estadísticamente significativas de una población que permitirá estimar los
parámetros poblacionales con un grado de confianza fijado previamente.
Mgt. Rina M. Zamalloa Cornejo
Hay diferentes tipos de muestreo. El tipo de muestra que se seleccione dependerá de la
calidad y cuán representativo se quiera sea el estudio de la población.
ALEATORIA - Cuando se selecciona al azar y cada miembro tiene igual oportunidad de
ser incluido.
ESTRATIFICADA - Cuando se subdivide en estratos o subgrupos según las variables o
características que se pretenden investigar. Cada estrato debe corresponder
proporcionalmente a la población.
SISTEMÁTICA - Cuando se establece un patrón o criterio al seleccionar la muestra.
Ejemplo: se entrevistará una familia por cada diez que se detecten.
CONGLOMERADOS – El muestreo por conglomerados es eficaz solamente cuando los
conglomerados son numerosos y de pequeños tamaños, homogéneos entre ellos y cuyos
individuos en cada conglomerado son heterogéneos.
PARÁMETRO VS ESTADÍGRAFO
PARÁMETRO:
Es una medida resumen que se obtiene a base de los datos de una población es decir que
cuantifica una característica de esa población. Nos referimos a las funciones, tales como
las medias, desviaciones típicas, momentos, coeficientes de correlación, etc. Los
parámetros son cantidades, las cuales son constantes para distribuciones en particular,
pero pueden tomar diferentes valores para diferentes miembros de familias de
distribuciones del mismo tipo. Como por ejemplo:
media poblacional
2 varianza poblacional
p proporción poblacional
Mgt. Rina M. Zamalloa Cornejo
ESTADÍGRAFO:
Un estadístico o estadígrafo es una medida resumen cuyo valor se puede calcular a partir
de datos muestrales, como:
X media muestral
S 2 varianza muestral
p̂ proporción muestral
Antes de obtener datos, hay incertidumbre en cuanto a que valor resulta de cualquier
estadística particular, por lo tanto, un estadístico es una variable aleatoria y estará
denotada por una letra mayúscula; una minúscula se emplea para representar el valor
calculado u observado de la estadística para toda la población, entonces se le considera
como un parámetro.
Cuando se llevan a cabo investigaciones y sus resultados son comprobados como ciertos
y los mismos se generalizan o se aplican a la población, se da entonces la inferencia
estadística como un procedimiento mediante el cuál se estiman los parámetros, por
ejemplo, una media muestral es un estadígrafo que estima la media de la población, que
es un parámetro.
Mgt. Rina M. Zamalloa Cornejo
TEOREMA DEL LÍMITE CENTRAL
"Sin tener en cuenta la forma funcional de la población de donde se extrae la muestra, la
distribución de las medias muestrales, calculadas con muestras de tamaño n extraídas
de una población con media μ y varianza finita σ2, se aproxima a una distribución normal
con media μ y varianza σ2/ n, cuando n aumenta. Si n es grande, la distribución de medias
muestrales puede aproximarse mucho a una distribución normal".
Teorema
Si X1, X2, ..., Xn es una sucesión de variables aleatorias (discretas o continuas)
independientes , con idéntico modelo de probabilidad, de valor medio μ y varianza σ2,
n
X i
X − (X − ) n
entonces la distribución de la variable X = i =1
es: Z = =
n
n
se aproxima a la de una variable normal estándar N(0,1), mejorándose la calidad de la
aproximación a medida que n aumenta.
n
Este resultado prueba que el estadístico o estimador media muestral
X i
se
X = i =1
distribuye aproximadamente como una variable N , o de manera equivalente que:
n
( X − ) n
Z = se distribuye aproximadamente como una variable N( 0 , 1 ) .
Con carácter general, o al menos en los modelos de probabilidad clásicos, se admite una
aproximación aceptable al modelo normal siempre que n sea mayor o igual que 30, a
Mgt. Rina M. Zamalloa Cornejo
pesar de que esta cifra es insuficiente en determinados casos y excesiva en otros; por lo
que debemos ser cautelosos en su aplicación.
El teorema central del límite en sus diferentes versiones asegura que la suma de variables
aleatorias independientes y equidistribuidas converge a una normal. Sobre el papel la
convergencia es comúnmente rapidísima, pero los experimentos reales hacen que uno
desespere antes de ver la campana de Gauss. No hay contradicción en ello, por ejemplo,
podemos entender la probabilidad 1/2 de salir cara como un límite cuando tiramos
infinitas veces una moneda y no podemos exigir que tras 20 o 30 tiradas tengamos una
aproximación precisa contando el porcentaje de aciertos.
Los siguientes gráficos muestran los histogramas de la suma de las puntuaciones de 10
dados comparados con la normal correspondiente cuando se repite el experimento cien,
mil y diez mil veces. Naturalmente provienen de una simulación con ordenador.
(a)
(b )
Mgt. Rina M. Zamalloa Cornejo
(c)
(a) Suma de puntuaciones de diez dados tirados cien veces
(b) Suma de puntuaciones de diez dados tirados mil veces
(c) Suma de puntuaciones de diez dados tirados diez mil veces
ESTIMACIÓN
El objetivo principal de la estadística inferencial es la estimación, esto es que,
mediante el estudio de una muestra de una población se quiere generalizar las
conclusiones al total de la misma.
Existen dos tipos de estimaciones: puntuales y por intervalo.
➢ Una estimación puntual es un único valor estadístico y se usa para estimar un
parámetro. El estadístico usado se denomina estimador.
➢ Una estimación por intervalo es un rango, generalmente de ancho finito, que se
espera que contenga el parámetro.
ESTIMACION INTERVALAR
Una estimación puntual no nos indica cuán próximo está el estimador al parámetro
que se está estimando por lo tanto este procedimiento no es muy significativo si no se
considera alguna medida del error que se comete en la estimación, debido a las
Mgt. Rina M. Zamalloa Cornejo
fluctuaciones aleatorias en las estimaciones. Es necesario por lo tanto tener cierto nivel
de confianza de que la estimación puntual se encuentra dentro de un intervalo.
Esto es, la precisión de un estimador puede evaluarse en una muestra,
construyendo intervalos de tal manera que podamos establecer el nivel de confianza de
que el intervalo LI , LS incluya dentro de sus límites al parámetro que se está
estimando LI LS , a dichos intervalos se les llama Intervalos de confianza.
INTERVALO DE CONFIANZA PARA LA MEDIA
Varianza poblacional conocida
Sea X 1 , X 2 , ...., X n una muestra aleatoria de tamaño n de la variable aleatoria X
distribuida con media desconocida y varianza 2 conocida. Para hallar un intervalo de
confianza para la media:
1. Establecer el nivel de confianza cercano a 1.
2. Hallar los estadísticos LI y LS tal que P LI LS = utilizando la distribución
muestral de X que sabemos es el estimador de .
2
Por el teorema de límite central se tiene que X se distribuye N , y la distribución
n
muestral está dado por:
Z=
(X − ) n
(1)
Determínese dos valores − z0 y z 0 por la simetría de la curva normal estándar, tal que:
P − z0 Z z0 =
Reemplazando Z por (1) se tiene:
P − z0
( X − ) n z =
0
Despejando dentro de la probabilidad:
P X − z0 X + z0 =
n n
Mgt. Rina M. Zamalloa Cornejo
Para un valor particular de la muestra x1 , x2 , ...., xn se obtiene el siguiente intervalo al
100 % de confianza para la media:
LI = X − z 0 n
IC ( )100 % = A( zo ) =
LS = X + z 2
0
n
Cuando la población es infinita o finita y el muestreo con reposición, además la muestra
debe ser grande.
El siguiente intervalo al 100 % de confianza es para la media
2 N − n
LI = X − z 0
n N − 1
IC ( )100 % = A( zo ) =
2 N − n 2
LS = X + z 0 n N − 1
Cuando la población finita y el muestreo sin reposición, además la muestra es grande.
PARA LA PROPORCION:
pˆ ( 1 − pˆ )
LI = pˆ − z0
n
A( zo ) = Población infinita
IC ( p )100 % = 2
LS = pˆ + z pˆ ( 1 − pˆ )
0
n
pˆ ( 1 − pˆ ) N − n
LI = pˆ − z0
n N −1
A( zo ) = Población finita
IC ( p )100 % = 2
LS = p + z pˆ ( 1 − pˆ ) N − n
ˆ
N −1
0
n