INTRODUCCIÓN
A LA
INFERENCIA ESTADÍSTICA
El proceso de Inferencia Estadística permite extraer conclusiones científicamente
válidas acerca de la población a partir de los resultados muéstrales (obtenidos a
través de la estadística descriptiva).
El propósito de la inferencia estadística es realizar:
- Estimación de Parámetros
- Contraste de Hipótesis
Estimación de Parámetros
El método de estimación de un parámetro puede ser puntual o por intervalo.
Estimación puntual de µ
En base al resultado de la muestra representativa particular de tamaño n, seleccionada de
una población N, una estimación puntual de µ sería el valor numérico que toma la media
aritmética muestral ( ) en dicha muestra.
Ejemplo, a partir de una muestra de n=50 estudiantes de 5 años se estima una media de
calificación. Podemos estimar que la calificación media de los estudiantes en cierto
examen, de la poblacional o teórico, es un valor numérico = 13,85.
Inconveniente(s):
La estimación puntual depende de la muestra particular que se obtenga.
Existe una incertidumbre total, acerca de la proximidad (lejanía) del valor puntual a la
media poblacional o teórica.
Sin embargo
Conocemos la distribución de la media muéstral bajo ciertas condiciones sobre la población
de partida.
DISTRIBUCIÓN DE LA MEDIA MUESTRAL
a) Si la variable numérica X → N (µ, σ), σ → conocida
Las (infinitas) medias muéstrales obtenidas con muestras de tamaño n se distribuyen
según una distribución normal (campana de Gauss):
Dónde: es el error típico o desviación estándar de la media muestral.
b) Si la variable numérica X → N (µ, σ), σ desconocida
Las (infinitas) medias muéstrales obtenidas con muestras de tamaño n se distribuyen
según una distribución T-Student con n-1 grados de libertad (gl)
Dónde: es el error típico o desviación estándar de la media muestral.
Nota: (Error estándar o Error típico de la media)
conocida
Tamaño de población (N) demasiado grande o
infinita.
conocida
Tamaño de población (N) conocido o finita.
desconocida, entonces
Tamaño de población (N) demasiado grande o
infinita.
desconocida, entonces
Tamaño de población (N) conocida o finita.
Estimación por Intervalo de confianza para µ
Supongamos que de una población normal con media desconocida y varianza conocida
o desconocida se extrae una muestra de tamaño n, entonces de la distribución de la
media muestral se obtiene que, lleva asociado un error típico de dicho estadístico de lo
que ha de tenerse en cuenta para valorar la precisión de una estimación puntual.
Idea
Construir intervalos de confianza, basado , que contenga “con alta probabilidad” el
parámetro µ.
Caso I: X → N (µ, σ), σ conocida
El Intervalo de confianza para µ es:
Con un nivel de confianza del .
Caso II: X → N (µ, σ), σ desconocida
El intervalo de confianza para µ es:
Con un nivel de confianza del .
Tamaño de muestra
Se puede determinar que tan grande debe ser el tamaño de la muestra, n, de manera que si
se estima por , el error de estimación no sea mayor que un valor dado e. En efecto:
Tamaño de población (N) demasiado grande
o infinita.
Si la desviación estándar ( ) es
desconocida, se estima por la desviación
estándar muestral (S) hallado a partir de una
muestra piloto.
Tamaño de población (N) conocida o finita
Si la desviación estándar ( ) es
desconocida, se estima por la desviación
estándar muestral (S) hallado a partir de
una muestra piloto.
Ejemplo 1
Se ha obtenido una muestra de 25 niños y niñas de 5 años de una I.E. para estimar la
puntuación media sobre la expresión oral por efecto del juego basado en el enfoque
colaborativo. Se sabe por otros estudios realizados que la desviación típica de las
puntuaciones en dicha característica es 2.01 puntos. La media de la muestra fue 16.9.
Estimar mediante:
1. Intervalo de confianza al 90 %.
2. Intervalo de confianza al 99 %.
Solución
X: Puntuaciones de la expresión oral
n = 25 N: Población no determinada
μ: estimar la puntuación media de todos los niños y niñas en la expresión oral
σ : Desviación típica = 2,01
X : Media muestral 16,9
1−α = 0,90 coeficiente de confianza → α =0 , 10 Nivel de significancia
σ Z ∗σ
16,9 – Z0,95* ≤ μ ≤ 16 , 9+ 0 , 95
√n √n
1,645∗2 , 01 1,645∗2 , 01
16 , 9− ≤ μ ≤ 16 , 9+
√25 √ 25
16,239 ≤ μ ≤ 17,561
1,645∗2 , 01
Error de estimación: e = =¿0,66129
√ 25
Ejemplo 2
A una muestra de 150 niños y niñas de 4 años de edad en ciertas I.E. estatales correspondió una
estatura media de 95,14 cm, siendo la desviación típica de 4,95 cm. Estimar la estatura media de la
población, y calcula, para un nivel de confianza del 99% y 95%, el intervalo de confianza para la
media.
Solución
X: Estatura
N: Población indeterminada
n = 150
X =95 , 14 cm
S = 4,95 cm
μ: estima la estatura media de la población
1−α = 0,99 → α =0 , 01
t 0,995 ,149∗s t 0,995, 149∗s
95 , 14− ≤ μ ≤ 95 , 14+
√n √n
2,609∗4 , 95 2,609∗4 , 95
95 , 14− ≤ μ ≤ 95 ,14 +
√150 √150
94 ,09 ≤ μ ≤ 96 ,19
609∗4 , 95
Error de estimación: e = 2 , =¿1,04
√ 150
Ejercicio 3:
A partir de la información suministrada por una muestra aleatoria de 100 familias de cierta ciudad
se ha estimado el gasto medio mensual por familia en escolaridad en 195 nuevos soles, con una
desviación típica de 120 soles, con un nivel de confianza del 99%.
a) Calcular el error cometido.
b) ¿Qué número de familias tendríamos que seleccionar al azar como mínimo para garantizarnos,
con una confianza del 99%, una estimación de dicho gasto medio con un error máximo no
superior a 3?
Intervalo de Confianza para la varianza
La varianza como medida de dispersión es importante dado que nos ofrece una mejor visión
de dispersión de datos. Nuevamente consideramos que la población sigue una distribución
de probabilidad normal.
Otro campo del conocimiento donde la varianza se ocupa en gran medida es en control de
calidad; cuando un producto se elabora el área de control de calidad busca que los
productos esté dentro de ciertos límites de tolerancia, pero también que la variabilidad de
un producto sea lo menor posible.
El Intervalo de confianza para la varianza poblacional ( ) es:
Con un nivel de confianza del .
Ejemplo 4
En una investigación se consideró una muestra de 21 niños y niñas de 5 años de edad de una
I.E. en ellos se midió sus calificaciones en la expresión oral antes y después del efecto del juego
basado en el enfoque colaborativo. Los datos recopilados se adjuntan a continuación:
Antes Después
8 17
15 16
9 15
11 16
9 16
14 14
11 16
8 12
11 16
10 11
12 12
10 16
12 12
10 17
12 14
10 14
12 16
14 13
9 16
13 14
8 16
Solución:
a) Construir un intervalo de confianza para la varianza y la desviación estándar con una
confianza del 90%, antes del estímulo.
Solución
X: Calificaciones
X se distribuye normalmente
En SPSS: Analizar/Estadística descriptiva/Explorar
Pruebas de normalidad
Shapiro-Wilk
Estadístico gl Sig.= p
Expresión oral antes ,947 21 0,296
p > 0,05 se dice que la variable X se distribuye normalmente.
p <= 0,05 se dice que la variable X no se distribuye normalmente.
Por dato se tiene:
Muestra :n=21
Nivel o coeficiente de confianza: 1−α=90 %=0 , 90 α =0 , 10
Varianza muestral s2=4,229 s=2,056
Reemplazando en la fórmula
( 21−1 )∗4,229 2 ( 21−1 )∗4,229
2
≤σ ≤ 2
X 0 ,95 ,20 X 0 , 05, 20
84 , 58 2 84 , 58
≤σ ≤
31,410 10,851
2
2 , 69≤ σ ≤ 7 , 79
1 , 64 ≤ σ ≤2 , 79
Interpretación: la variabilidad o grado de separación de las calificaciones de los niños y
niñas de 5 años de edad respecto de su promedio, se estima con una probabilidad de
confianza del 90%, que se encuentra entre 1,64 a 2,79.
Intervalo de Confianza para la diferencia de medias ( )
Supongamos que se tiene dos poblaciones distribuidas normalmente con medias
desconocidas y , respectivamente. Se puede aplicar una prueba z o t de Student para
comparar las medias de dichas poblaciones basándonos en dos muestras independientes
tomadas de ellas. La primera muestra es de tamaño , con media y la segunda muestra
es de tamaño , tiene media . Donde las varianzas poblacionales pueden ser conocidas
( y ) o desconocidas ( y ).
≈ ≈
Caso I: Muestras independientes, Varianzas poblacionales conocidas
( y )
El intervalo de confianza es:
Donde:
Caso IIA: Normal-Muestras independientes, Varianzas poblacionales
desconocidas pero iguales ( )
El intervalo de confianza es:
Dónde: es el grado de libertad.
Caso IIB: Normal-Muestras independientes, Varianzas poblacionales
desconocidas y diferentes ( )
El intervalo de confianza es:
Donde:
Es el grado de libertad, que toma un valor numérico
redondeado entero.
Ejemplo 4
Construye un intervalo de confianza para la diferencia de medias entre las calificaciones del
GE y GC de los alumnos del Primer Grado de Educación Secundaria de la l. E. P. Gamaliel
del Distrito de Chancay, Provincia de Huaral en el Departamento de Lima. Con un
coeficiente de confianza del 95%. Interpreta los resultados obtenidos.
Construir el intervalo de confianza para la calificación media del GE en el pos test. Use un
nivel de confianza del 95%
Solución
X: calificaciones → N ( μ , σ )
Pruebas de normalidad
Shapiro-Wilk
Estadístico gl Sig. Decisión
GEPRE ,881 26 ,006 No normal p < 0,05
GCPRE ,927 26 ,065 Normal p > 0,05
−0,9323−t 0,975, 50∗0,2617 ≤ μ 1−μ2 ≤−0,9323+t 0,975 ,50∗0,2617
−0,9323−2,0086∗0,2617 ≤ μ 1−μ2 ≤−0,9323+2,0086∗0,2617
−1,45795 ≤ μ 1−μ2 ≤−0,40665
Prueba de muestras independientes
Prueba de
Levene de
igualdad de
varianzas prueba t para la igualdad de medias
95% de intervalo de
Diferencia de Diferencia de confianza de la diferencia
F Sig. medias error estándar Inferior Superior
GEGC Se asumen varianzas ,388 ,536 -,9323 ,2617 -1,4579 -,4066
PRE iguales
No se asumen
varianzas iguales
Distribución de la proporción muestral
Vamos a considerar que tenemos una población de modo que en cada una de ellas
estudiamos una v.a. dicotómica (Bernoulli) de parámetro respectivo . De la población
vamos a extraer una muestra de tamaño .
Entonces,
y la proporción de éxito en la muestra es
Luego se cumple:
a)
b)
c) Si el tamaño muestral n es grande, el Teorema Central del Límite nos asegura que:
Nota: (Error estándar o Error típico de la proporción muestral)
p y q conocidos
Tamaño de población (N) demasiado grande o
infinita.
p y q conocidos
Tamaño de población (N) conocido o finita.
p y q desconocidos, entonces y
Tamaño de población (N) demasiado grande o
infinita.
p y q desconocidos, entonces y
Tamaño de población (N) conocida o finita.
Intervalo de Confianza para una Proporción
En este caso, interesa construir un intervalo de confianza para una proporción o un
porcentaje poblacional (por ejemplo, el porcentaje de estudiantes desaprobados, la
proporción de docentes contratados en la UGEL Santa, la proporción de docentes de
educación inicial nombradas I.E estatales, etc.)
Donde, p es el porcentaje de personas u objetos con la característica de interés en la
población (o sea, es el parámetro de interés) y es su estimador puntual muestral.
Luego, procediendo en forma análoga al caso de la media, podemos construir un intervalo
de confianza para la proporción poblacional p, con una confianza de .
Donde:
Ejemplo 5:
En cierta población de una I.E. se seleccionó aleatoriamente una muestra de 300 padres de familia a
las que se les sometió a cierto test cultural. De ellas, 225 resultaron aprobadas. Teniendo en cuenta
esta información, estimar el porcentaje de padres de familia de esa población que resultarían
aprobada si se las sometiera a dicho test cultural. Obtener, con un nivel de confianza del 95%, un
intervalo de confianza para la proporción.
Solución
X: Número de PF que resultaron aprobados ante la aplicación del test cultural
n = 300
X = 225
X 225
^p= = =0 , 75
n 300
q^ =1− ^p =1−0 , 75=0 , 25
1−α = 0,95 → α =0 , 05
0 , 75−1 , 96∗
√ ^p q^
n
≤ p ≤ 0 , 75+1 , 96∗
√^p q^
n
0 , 75−1 , 96∗
√ 0 ,75∗0 , 25
300 √
≤ p≤ 0 , 75+1 , 96∗
0 , 75∗0 ,25
300
0,701 ≤ p ≤ 0,799
70 , 1 % ≤ p ≤ 79 , 9 %
√
Error de estimación: e = 1 , 96∗ 0 , 75∗0 ,25 =∓ 0,025
300
Tamaño de muestra
Se puede determinar que tan grande debe ser el tamaño de la muestra, n, de manera que si p
se estima por , el error de estimación no sea mayor que un valor dado e. En efecto:
Tamaño de población (N) demasiado
grande o infinita.
Si p y q son desconocidas, se estima por
y hallados a partir de una muestra
piloto.
En últimos de los casos si no se tiene
ninguna información de p y q se asume el
máximo riesgo de p = 0,5 y q = 0,5.
Tamaño de población (N) conocida o finita
Si p y q son desconocidas, se estima por
y hallados a partir de una muestra
piloto.
En últimos de los casos si no se tiene
ninguna información de p y q se asume el
máximo riesgo de p = 0,5 y q = 0,5.
Ejercicio 6:
De qué tamaño habría que elegir una muestra para estimar la proporción de niños varones
de 5 años de edad de una I.E. que le gusta el fútbol con un nivel de confianza del 95% y un
error inferior a 0.05, si en una muestra de 10 alumnos, 6 de ellos respondieron que les
gustaba el fútbol.
Distribución de la diferencia de proporciones muestrales
Vamos a considerar que tenemos dos poblaciones de modo que en cada una de ellas
estudiamos una v.a. dicotómica (Bernoulli) de parámetros respectivos y . De cada
población vamos a extraer muestras de tamaño y .
Entonces
Luego se cumple:
a)
b)
c) Si el tamaño muestral n es grande, el Teorema Central del Límite nos asegura que:
N (0,1)
Intervalo de Confianza para la diferencia de dos proporciones
Si las muestras son suficientemente grandes ocurre que una aproximación para un intervalo
de confianza al nivel para la diferencia de proporciones de dos poblaciones es:
Dónde:
Ejemplo 7
Construye un intervalo de confianza para la diferencia de proporciones entre los aprobados
del GE y GC en el pos test de los alumnos del Primer Grado de Educación Secundaria de la
l. E. P. Gamaliel del Distrito de Chancay, Provincia de Huaral en el Departamento de Lima.
Con un coeficiente de confianza del 95%. Interpreta los resultados obtenidos.
Solución
X1: alumnos aprobados en el GE
X2: alumnos aprobados en el GC
X1 = 26
X2 = 19
^
p1=1 q^1=0
^
p2=0 ,73 q^2=0 , 27
√
p1− p2 ∈ ( 1−0 ,73 ) ∓ 1 , 96∗
^
p1∗q^1 ^
n1
p ∗q^
+ 2 2
n2
0,099 ≤ p 1− p2 ≤ 0,441
√
p1− p2 ∈ ( 1−0 ,73 ) ∓ 1 , 96∗
1∗0 0 , 73∗0 , 27
26
+
26