Inferencia Estadistica
Inferencia Estadistica
Inferencia Estadística
• Problema: Conocemos o suponemos la distribución de
probabilidades de una variable aleatoria en particular, pero…
desconocemos el valor de parámetro (o los parámetros) de dicha
distribución.
• Solución: Tomamos una muestra aleatoria n de la distribución de
probabilidades conocida y de dicha información muestral inferimos
los parámetros poblacionales desconocidos.
PROBLEMA DE ESTIMACIÓN
Es decir, es una
fórmula que depende
de los valores
obtenidos de una
muestra, para realizar
estimaciones.
Estimación de Parámetros
Varianza(2)
F recuencia
100
Datos 80
60
Desv. Est. ()
(Población de Interés) 40
20
0
-4 -2 0 2 4
Etc.
Clases
Inferencias
Muestreo Histograma de la Muestra
Estadísticos:
16
14
12 Promedio ( X )
Frecuencia
10
0
-4 -2 0
Clases
2 4 Etc.
Cuál es la estimación del
parámetro?
En el proceso de ir de la información de la muestra (estadísticos) al
estimado de los parámetros poblacionales, pueden ocurrir dos cosas:
a. Ganamos en generalización. Esto es, pasamos de la parte al todo.
De las muestras a las poblaciones.
Distribución muestral
Si ¿Es grande n? No
n>30
Si No Si ¿Es aproximadamente No
¿Se conoce valor de ?
normal la población?
Si No
¿Se conoce valor de?
Usar s de la muestra
para estimar
Aumentar tamaño
Usar s de la muestra
de la muestra para determinar un
s para estimar estimado de intervalo
X z / 2 X z / 2
n n
Ejemplo 2
Ejemplo1 s
X z / 2 X t / 2 Ejemplo 4
Ejemplo 3 n n
Ejemplo1: de Intervalo de Confianza cuando n es
grande y se conoce la δ
Se tomó una muestra aleatoria de 50 candidatos que se presentan a realizar una
prueba en el departamento de selección de personal para la que se tiene una media de
150 puntos. Una investigación previa encontró que la desviación en esta prueba es de
63 puntos. Calcular el intervalo de confianza del 95%
Solución:
n = 50 z = 95% ≈ 1,96
x 150 δ =53
Luego:
PP( x( xzz 2 xxzz 2 ) )11
2 n 2 n
n n
53
150 1,96 *
50
150 14,369 135,63
150 14,369 164,37
Los límites de confianza para los datos, a un 95%, para los resultados de la prueba de
los aspirantes 135,63 135,37
Ejemplo 2: Intervalo de Confianza cuando n es
grande y se desconoce la δ
Una empresa dedicada a la fabricación de material de construcción está interesada en
estudiar la conductividad térmica de un tipo de ladrillos. Para ello, seleccionó una
muestra de 36 unidades de manera aleatoria, obteniendo una conductividad media de
0.343 y una desviación típica muestral de 0.01. Suponiendo que los datos proceden
de una distribución Normal. Construir, detalladamente, un intervalo de confianza al
95% para la conductividad media de dicho tipo de ladrillos.
Solución:
n= 36
x 0,343 σ2 se estima a través de la varianza muestral s 2
s=0,01
Luego: s s
PP( (xxzz 2 s xxzz 2 s ) )11
2 n 2 n
n n
0,01
0,343 1,96 *
36
0,343 0,00327 0,340
0,343 0,00327 0,346
Los límites de confianza para los datos, a un 95%, para la conductividad media de los
ladrillos
0,340 0,346
Ejemplo 3: Intervalo de Confianza cuando n es
pequeño y se conoce la δ
Se está investigando el tiempo de secado de una pintura tapaporos. Por estudios
anteriores, se sabe que la distribución de los tiempos de secado es aproximadamente
normal con una desviación típica de 8mn. Se diseña un experimento en el que se
mide el tiempo de secado para 10 cuadrados pintados, y se encuentra una media de
121 minutos (mn). Construir un intervalo de confianza al 95% de confianza para el
tiempo promedio de secado de la pintura.
Solución:
n= 10 z = 95% ≈ 1,96
δ = 8mm
x 121
Luego:
PP( x( xzz 2 xxzz 2 ) )11
2 n 2 n
n n
8
121 1,96 *
10
121 4,96 116 ,04
121 4,96 125,96
Los límites de confianza para los datos, a un 95%, para el tiempo de secado de la
pintura 116,04 125,96
Ejemplo 4: Intervalo de Confianza cuando n es
pequeño y se desconoce la δ
Con el fin de determinar la temperatura de deflexión bajo carga de un tipo de tuberías
de PVC, se realizó un experimento consistente en tomar 12 de ellas anotando la
temperatura de deflexión observada (en ºF). Los resultados fueron los siguientes:
206, 188, 205, 187, 194, 193, 207, 185, 189, 213, 192, 210.
Suponiendo que la temperatura de deflexión de las tuberías es una variable aleatoria
Normal, construir un intervalo de confianza al 95% para la temperatura de deflexión
promedio.
Solución:
n= 12
x 197,42 s=10,03
t para un 95% y n -1 = 11 grados de libertad =2,2010
Luego:
s ss
PP((xxt1t 2 s xxt1t 2 ))11
1 2 n 1 2 nn
n
10,03
197,42 2,2010 *
12
197,42 6,38 191,04
197,42 6,38 203,80
Los límites de confianza para los datos, a un 95%, para la temperatura de deflexión
promedio de los tubos de PVC 191,04 203,80
Intervalo de Confianza para la
proporción P
Se toma una muestra de tamaño n de una población muy grande y
resulta que X datos de la muestra pertenecen a alguna clase de
interés. Entonces un estimador puntual de la proporción p de los datos
de la población que pertenecen a la clase en cuestión es: P̂ X
n
La distribución de muestreo de P̂ se puede considerar
aproximadamente Normal con media p y varianza p(1-p)/n, siempre
que p no esté muy cerca de 0 o de 1 y si n es relativamente grande.
Obtenemos el siguiente intervalo de confianza aproximado del 100(1-
a)% para la proporción p de la población que pertenece a la clase
dada:
pˆ (1 pˆ ) pˆ (1 pˆ )
pˆ z / 2 P pˆ z / 2
n n
Ejemplo 5: Intervalo de Confianza para la
proporción
Supóngase que 160 de 20,000 trabajadores sindicalizados que se muestrearon dijeron que planean votar para unirse a una confederación. Si se utiliza un grado
de confianza de 0.95, ¿Cuál es la estimación de intervalo para la proporción de la población? ¿A qué conclusión se llegaría con base en el intervalo de confianza?
Solución:
n = 20,000
x (característica) = 160
Luego:
x 160
p 0,003
n 20000
P p z α
·
p q
P p zα
p q
1 α
·
n n
2 2
(0,003 )(0,997 )
0,003 1,96 *
20000
0,003 0,00076 0,0024
0,003 0,00076 0,0038
Los límites de confianza para los datos, a un 95%, para la proporción de la población serían
0,0024 P 0,0038 Entre 48 y 76 trabajadores se unirían a la confederación
Intervalo para la Varianza de una
distribución Normal
Si la Población es Normal, la distribución muestral del estadístico siguiente
( n 1) Sˆ 2
2
2
2
Donde Ŝ es la varianza muestral usada como estimador puntual de s2
Es una distribución de tipo Chi-cuadrada con n-1 grados de libertad
/2 /2
0 2/2,n-1 2/2,n-1
/2,n-1 2
2
2
1 ; n 1 ; n 1
2 2
Ejemplo 6: Intervalo de Confianza para la
varianza
Un fabricante de pinturas está interesado en la efectividad de su proceso para llenar
envases de pinturas. La norma dice que no se debe tener una desviación estándar δ
en el proceso mayor de 0.15, ya que de lo contrario habrá envases más vacíos de lo
permitido.
Se toma una muestra aleatoria de 20 envases y se obtiene una varianza muestral
s²=0.0153 gramos. ¿Es esta medición una evidencia de que se está cumpliendo la
norma con una confianza del 95% ?
Solución:
n = 20
δ = 0,15
s²=0.0153
Luego:
(n 1)s2 (n 1)s2 (20 1) * 0,0153 (20 1) * 0,0153
2 2 02,975,19 02,025,19 1
1 ,n 1 ,n 1
2 2
0,2907
0,2907 0,0088 0,0326
32,852 8,907
ERROR DE LA ESTIMACION
Este valor nos dice que margen del estimador
muestral se encuentra en el parámetro
poblacional a un nivel de confianza asignado, es
el radio de anchura del intervalo de confianza.
Z es el nivel de confianza
σ es el valor de desviación estándar
E=Z n es el valor de la muestra
n
p= número de éxitos
pq q= número de fracasos (p-1)
EZ Z= nivel de confianza
n n= el valor de la muestra
Ejemplo:
En el departamento de selección desean conocer el tiempo que duraran en contestar
158 candidatos que realizan la prueba, el Psicólogo estima que la desviación es de
48 minutos y desean tener una confianza del 99% en la estimación, ¿Cual será el
error máximo que cometerá?
Z = 99% 2.57
= 48
N = 158
48
E = 2.57 E= 9.813
158
n 239
e 1
Si elel desvío
Si desvío estándar
estándar eses realmente
realmente de de 66 [Link]
[Link] intervalo
intervalo resultante
resultante de
de
lala muestra
muestra aleatoria
aleatoria será
será dede la
xla forma.
forma.
1 SiSi elel desvío
desvío estándar
estándar es
es mayor
mayor
de 66 cm.,el
de cm.,el intervalo
intervalo real
real será
será másamplio
másamplio que que +/-1.
+/-1.
Determinación del Tamaño de Muestra
El tamaño de muestra requerido para estimar la proporción es:
p̂(1 p̂)
e Z 2
n
( Z 2 )2 p̂(1 p̂)
n
e2
Tomar en cuenta la corrección del tamaño de muestra
para población finita
• N: tamaño estimado de la población
• n(a): tamaño de muestra ajustado para el tamaño de la población
n
n( a )
1 n
N
Prueba de hipótesis
Estimación puntual de parámetros
Un estimador puntual es simplemente un estadístico (media
aritmética, varianza, etc.) que se emplea para estimar
parámetros (media poblacional, varianza poblacional, etc.).
Es decir, cuando obtenemos una media aritmética a partir
de una muestra, tal valor puede ser empleado como un
estimador para el valor de la media poblacional.
(Algunos autores comparan los estimadores con los
lanzamientos en el juego de tiro al blanco; el círculo central
sería el valor real del parámetro.)
Estimación Puntual
Un estimador puntual permite hacer una inferencia
acerca de una población estimando el valor de un
parámetro desconocido usando un solo valor o punto
obtenido de una muestra.
Distribución muestral
Estimador puntual
Definición
Contrastar una Hipótesis Estadísticamente o
realizar una prueba de hipótesis es juzgar si cierta
propiedad supuesta para una población es compatible
con lo observado en una muestra de ella.
En otras palabras, el objetivo de la estimación de
parámetros es proveer de métodos que permitan
determinar con cierta precisión, el valor de los
parámetros desconocidos de un modelo estadístico a
partir de una muestra extraída al azar de una
Población.
¿Qué es una hipótesis estadística?
Calcular la estadística
de prueba
No rechazar Ho Formular la
decisión Rechazar Ho
Estadística
Concluir que Ho Concluir que Ha es
puede ser verdadera verdadera
Formulación de las Hipótesis
La hipótesis que será sometida a prueba se suele designar por Ho y
se llama Hipótesis nula o Hipótesis de no diferencia, porque parte
del supuesto que la diferencias entre el valor verdadero del
parámetro y su valor hipotético es debida al azar, es decir no hay
diferencia. Se establece con el propósito de ser rechazada.
La hipótesis contraria se designa por H1 y se llama Hipótesis
alternativa. También se le conoce como hipótesis del investigador
o de la investigación. Describe lo que ha de considerarse si la
hipótesis nula es rechazada.
Los contrastes de hipótesis pueden ser unilaterales o bilaterales
(también llamados de una o dos colas) según establezcamos las
hipótesis, si las definimos en términos de igual y distinto (= ó ≠)
estamos ante una hipótesis unilateral, si suponemos una dirección
(en términos de mayor o menor que el valor del parámetro)
estamos ante uno unilateral.
Formulación de las Hipótesis
Reglas para decidir qué proposición se utiliza como hipótesis
nula y cuál como alternativa
a. La conclusión a la que se desea o esperar llegar como
resultado de la prueba se usa como hipótesis alternativa
b. La hipótesis debe contener una proposición de igualdad,
ya sea =, , .
c. La hipótesis nula es la que debe ser comprobada.
d. Ambas son complementarias. Es decir, las dos contemplan
de manera exhaustiva todos los valores posibles que los
parámetros de suposición pueden asumir
Nivel de significación: α
Número pequeño: 1% , 5%
Es la probabilidad de rechazar Ho cuando es cierta.
Es un valor arbitrario seleccionado a priori por el investigador de acuerdo a
su experiencia y deseo.
Estadístico de Prueba
Es un número, obtenido a través de los valores de una muestra. Este número, al
compararse con el valor critico (Número que es el punto divisorio entre la región de
aceptación y la región de rechazo), es utilizado para tomar la decisión de no
rechazar o rechazar la hipótesis nula.
Región critica o de Decisión
Región critica: Conjunto de valores del estadístico de prueba que causa
el rechazo de la hipótesis nula. Es conocida también como región de
rechazo. El conjunto de valores que no esta dentro de la región critica, se
conoce como región de aceptación.
Prueba bilateral o de dos colas
Ho: = o Ha: o
Minimizar los errores no es una cuestión sencilla, un tipo suele ser más grave que otro y
los intentos de disminuir uno suelen producir el aumento del otro. La única forma de
disminuir ambos a la vez es aumentar el tamaño de la muestra.
PRUEBA SIGNIFICATIVA
Habitualmente (Tradicionalmente) se especifica a priori un
punto de corte () de 0.05 ó 0,01. Esto trasladado a nuestra
regla de decisión, significa que el Error tipo I de la prueba
estadística será del 5% ó 1%.
Una vez especificado el valor de , tenemos controlada la
magnitud del Error tipo I. El Error tipo II () se controla
modificando el tamaño de la muestra.
En general y se minimizan con tamaños de muestra
.
grandes
Las probabilidades de cometer errores de tipo I y II se
consideran los "riesgos" de decisiones incorrectas.
Al realizar la prueba se toma en cuenta el error de tipo I.
Por lo tanto, la prueba es significativa si se rechaza la
hipótesis nula, pues en este caso se conoce la probabilidad
de haber cometido un error.
Diagrama de flujo para decidir entre utilizar z y t cuando
se hagan inferencias respecto a las medias de la
población
La población tiene una
Si No
distribución normal
z t z t z z . .
n = 50 x 7,8
8 0,5 0,01
Ho : 8 Ha : 8
x 7,8 8
z 2,83
0,5
n 50
La regla de decisión dice que Ho se acepta si
-2,58<z<2,[Link] z = -2,83 cae en la Calculando p:
región de rechazo por lo que Ho es
rechazada. Por lo que concluimos que la
resistencia a la ruptura media no es igual a 8
Kg. Parece que es, en realidad, menor que 8
Kg. (Utilizando el valor P, observamos que es Se observa que este valor menor al del valor
posible rechazar la hipótesis nula al nivel del nivel de significancia (0.01) concordando
0,0047, un nivel mucho menor que 0,01.) con los resultados
Ejemplo 2: Prueba de Hipótesis cuando n
es pequeño y se desconoce la δ
La tasa actual para producir fusibles de 5 amp en Neary Electric Co. es 250 por hora.
Se compró e instaló una máquina nueva que, según el proveedor, aumentará la tasa
de producción. Una muestra de 10 horas seleccionadas al azar el mes pasado indica
que la producción media por hora en la nueva máquina es 256, con desviación
estándar muestral de 6 por hora. Con 0.05 de nivel de significancia, ¿puede Neary
concluir que la nueva máquina es más rápida?
Solución:
n = 10 x 256 s 6
250 0,05
Ho : 250 Ha : 250
x 256 250
t 3,16
s 6
n 10 Calculando p:
P( t 3,16) 1 P( 3,16)
Ho se rechaza si t > 1,833. Como t = 3,16 cae en
1 - 0,9942
la región de rechazo entonces Ho es rechazada.
0,006
Por lo que se puede concluir que la nueva
maquina es mas rápida y que es posible rechazar Se observa que este valor NO excede
la hipótesis nula al nivel 0,006, un nivel mucho al del valor del nivel de significancia
menor que 0,05. (0.05) concordando con los resultados
Pruebas para la diferencia de medias de dos poblaciones
Prueba Hipótesis Supuesto Estadígrafo Región critica
Diferencia de Ho: 1 - 2 = 0 Ha: 1 - 2= 0 conocido ( x1 x 2 ) ( 1 2 ) 0
medias Ho: 1 - 2 0 Ha: 1 - 2 < 0 z
Ho: 1 - 2 0 Ha: 1 - 2 > 0 12 22
n1 n2
Diferencia de Ho: 1 - 2 = 0 Ha: 1 - 2= 0 ( x1 x 2 ) ( 1 2 ) 0
medias Ho: 1 - 2 0 Ha: 1 - 2 < 0 desconocido z , donde
Ho: 1 - 2 0 Ha: 1 - 2 > 0 y s 2p s 2p
varianzas
n1 n2
iguales
(n1 1) s12 (n 2 1) s 22
s 2p
n1 n 2 2
Diferencia de Ho: 1 - 2 = 0 Ha: 1 - 2= 0 ( x x 2 ) ( 1 2 ) 0
Ho: - 0 Ha: - < 0 desconocido z 1
medias 1 2 1 2
s p2 s p2
Ho: 1 - 2 0 Ha: 1 - 2 > 0 y
varianzas n1 n 2
diferentes
elvalorcritico
w 1t 1 w 2 t 2
t 1"( , donde
2
)
w1 w 2
s12 s 22
w1 ,w2 ,
n1 n2
t 1 t 1( ) gl : n1 1
2
t 2 t 1( ) , gl : n 2 1
2
Diferencia de Ho: 1 - 2 = 0 Ha: 1 - 2= 0 Muestras D o
medias Ho: 1 - 2 0 Ha: 1 - 2 < 0 dependientes t
Ho: 1 - 2 0 Ha: 1 - 2 > 0 o apareadas sD n
Ejemplo 3: Prueba de Hipótesis para
Diferencias de Medias
Se seleccionan dos muestras aleatorias e independientes del número de puestos de trabajo
creados en los últimos seis mes por dos empresas constructoras. Con el fin de conocer el impacto
de las nuevas modalidades de contratación en ambos empresas y suponiendo que el número de
empleos creados siguiera en ambos empresas distribuciones normales con varianzas iguales:
¿Podríamos afirmar con un 99% de confianza, que ambas empresas son similares en cuanto al
número medio de empleos creados en los últimos seis mes?
Ho A B 0 Ho : A B
Ho se acepta si -3,16 < t < 3,16. Como t
Ha A B 0 Ho : A B = -2,71 cae en la región de aceptación
Empresa A Empresa B Prueba t para dos muestras suponiendo varianzas iguales
13 18 entonces Ho es aceptada. Por lo que se
14 19 Sector A Sector B puede concluir que ambas empresas son
21 20 Media 16,1666667 22,6666667
19 22 Varianza 9,76666667 24,6666667 similares en cuanto al número medio de
15 31 Observaciones 6 6 empleos creados.
15 26 Varianza agrupada 17,2166667
Diferencia hipotética de las medias 0
Grados de libertad 10 Calculando p:
Estadístico t -2,71331021
P(T<=t) una cola
Valor crítico de t (una cola)
0,01090467
2,76376946
P( t 2,71) 21 P( t 2,71)
P(T<=t) dos colas 0,02180934 0,022
Valor crítico de t (dos colas) 3,16927267
z
16 200 14 400 0 2,38
(0,05 * 0,95 ) * 1 200 1 400 )
Ho se rechaza si z > 2,33, y como z = 2,38 cae en la región de rechazo. Se concluye que la
proporción real de tractores que requieren ajustes minuciosos es mayor en la primera línea de
ensamblado que en la segunda.
Calculando p: P( z 2,38 ) 1 P( z 2,38 )
1 0,9913 0,009
Se observa que este valor es menor que del nivel de significancia (0.01) por lo que no es posible
aceptar la hipótesis nula.
Pruebas para la varianza
eba Hipótesis Supuesto Estadígrafo Región critica
de una Ho: δ2 = δ2o 2 12- 2 y 2 2 2
ción (n 1)s 2
Ha: δ2 δ2o 2
2
Ho: δ2 δ2o
Ha: δ2 δ2o con n-1 gl 2 12- 2
Ho: δ2 δ2o 2 2 2
Ha: δ2 δ2o
de dos Ho : 12 22 0
RV
12 F F(1 2)( v1,V2)
iones Ho : 12 22 0 22
Ho : 12 22 0
y F F( )( v1,V2 )
2
Ho : 12 22 0 F F(1 )( V1, V2 )
Ho : 12 22 0 2
Ho : 12 22 0 F F( )( V1, V2 )
2
Ejemplo 8. Prueba de hipótesis para la varianza
de una población
Un fabricante de baterías para automóviles afirma que la vida de sus baterías está
aproximadamente distribuidas en forma normal con una desviación estándar de 0,9 años. Si
una muestra aleatoria de 10 de estas baterías tiene una desviación estándar de 1,2 años,
¿con un nivel de confianza de 0,05, se puede pensar que δ > 0,9 años?
n 10, s 1,2, 0,05
Ho : 2 0,81 Ha : 2 0,81
2 (n 1)s2 (9 * 1,44)
2
o 0,81
16,0
Ho se rechaza si λ² > 16,919, y como λ² = 16,0 cae en la región de aceptación. Se concluye que no
hay razones suficientes para dudar que la desviación estándar es 0,9 años
Calculando p:
P( 2 16,0) 0,07
Se observa que este valor es mayor que del nivel de significancia (0.05) por lo que no es posible
Ejemplo 9. Prueba de hipótesis para la
diferencia entre dos varianzas
Se realizó una prueba de la diferencia que puede darse entre la resistencia abrasiva de dos
materiales laminados, para ello se supuso que las varianzas de las dos poblaciones eran
desconocidas pero iguales. Con un nivel de significancia de 0,05, ¿había razón para hacer
esta suposición?. Los datos del problema son:
x1 85 s1 4 n1 12
x 2 81 s2 5 n2 10
Ho : 12 22 Ha : 12 22
s12 16
f 2 0,64
s2 25
La hipótesis nula es rechazada cuando
f < 0,34 ó f > 3,10