0% encontró este documento útil (0 votos)
27 vistas155 páginas

Inferencia - MAT031 - SP

Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
27 vistas155 páginas

Inferencia - MAT031 - SP

Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

MAT031

Estadı́stica

Departamento de Matemáticas

Universidad Técnica Federico Santa Marı́a

Inferencia

1 / 155
Clase 17: Inferencia

Clase 18: Propiedades de los estimadores

Clase 19: Intervalos de confianza I

Clase 20: Intervalos de confianza II

Clase 21: Pruebas de Hipótesis I

Clase 22: Pruebas de Hipótesis II

Clase 23: Comparación de medias - Comparación de proporciones -


comparación de Varianzas

Clase 24: Resumen - Ejercicios

2 / 155
Inferencia
En la inferencia el objetivo es obtener información de los parámetros de
un modelo a partir de los datos conocidos del fenómeno en estudio, es
decir, determinar valores factibles a partir de los datos.
Nuestras principales herramientas estadı́sticas para llevar esto a cabo son:

I Estimación puntual.
I Estimación por intervalos.
I Pruebas de hipótesis.

Definiciones previas:
Parámetro: Caracterı́stica numérica de la distribución de la población
(datos) que describe la masa de probabilidad de la caracterı́stica de
interés. Habitualmente se denota con la letra θ (notar que θ puede
corresponder a un vector de parámetros).
Espacio paramétrico: Conjunto de posibles valores que pueden ser
consideramos para los parámetros. Se simboliza por Θ

3 / 155
EL PROCESO DE INFERENCIA ESTADISTICA

Población Análisis de Datos Métodos de Inferencia

Muestra Selección del modelo


Variable
Aleatoria ;
aleatoria
X , ,…,
Muestreo
Estimación Puntual
Modelo )
;
Exploración Estimación por Intervalos
Parámetros Descripción
, , , , etc. ;
Gráficos
Pruebas de Hipótesis
:

Inferencia

4 / 155
Definiciones previas:

Muestra Aleatoria: Conjunto de variables aleatorias X1 , X2 , . . . , Xn


independientes y que tienen la misma función de probabilidad f (x; θ) de
X (i.i.d).
Estadı́stica Muestral T es cualquier función de las variables que forman la
muestra aleatoria. Se anota, T = T (X) = T (X1 , X2 , . . . , Xn ).
En la siguiente tabla se muestran las estadı́sticas muestrales más
importantes.
P
Total muestral t = PXi
Media muestral X̄ = X
Pi /n
2
Varianza muestral Sn−1 = (Xi − X̄)2 /(n − 1)
Máximo muestral X(n) = max{X1 , X2 , ..., Xn }
Mı́nimo muestral X(1) = min{X1 , X2 , ..., Xn }

5 / 155
Definiciones previas:

Obs: Antes de reemplazar los datos, la estadı́stica muestral


T = T (X1 , X2 , . . . , Xn ) es una variable aleatoria y por tanto tendrá una
distribución de probabilidad que es llamada distribución muestral de T .
Estimador: es cualquier estadı́stica T = T (X) empleada para estimar un
parámetro θ. Se anota θ̂ = T (X) y cuando se reemplazan los datos
x = (x1 , x2 , . . . , xn ) se obtiene una estimación de θ anotada θ̂ = T (x).

6 / 155
Estimación puntual: Método de los momentos
Consiste en igualar momentos poblacionales apropiados de la distribución
con momentos muestrales. Este método requiere que existan tantas
ecuaciones como parámetros se desean estimar.

ESTIMACIÓN PUNTUAL

Población Análisis de Datos Estimación

Muestreo
Modelo Estimador
Muestra Aleatoria
supuesto
, ,…, , ,…, )
X, , ;
Exploración
Descripción
Gráficos

Modelo
Estimación Puntual
estimado
, ,…, )
, ;

Inferencia
Espacio paramétrico

Θ
1 7 / 155
Definición: Momentos muestrales
Sean X1 , . . . , Xn una m.a. con función de probabilidad fX (x; θ).
Entonces el r-ésimo momento muestral en torno a cero se define como:
n
1X r
Mr = X
n i=1 i

Momentos poblacionales:
Sean X1 , . . . , Xn una m.a. con función de probabilidad fX (x; θ).
Entonces el r-ésimo momento poblacional en torno a cero se define como:

µr = E[X r ]

8 / 155
Ejemplo 1:

Sea X1 , . . . , Xn una m.a. de tamaño n de una población cuya función de


cuantı́a viene dada por:

P [X = x] = px (1 − p)1−x , x = 0, 1

en este caso sabemos que E[X] = p = µ1 , por lo que el estimador de


momentos pb de p consiste en igualar el primer momento muestral con el
primer momento poblacional:

pb = X

9 / 155
Ejemplo 2:

Sea X1 , . . . , Xn una m.a. de una población con distribución exponencial,


es decir
fX (x) = λe−λx

en este caso sabemos que E[X] = λ1 = µ1 , por lo que al igualar el primer


momento muestral con el primer momento poblacional se obtiene:
1 b= 1
=X ⇐ λ
λ
b X

10 / 155
Ejemplo 3:
Sea X1 , . . . , Xn una m.a. de una población con distribución
Gamma(α, λ). En este caso sabemos que
α α
E[X] = , V [X] =
λ λ2
El primer momento µ1 lo obtenemos directamente de la ecuación anterior
µ1 = αλ . Si recordamos la fórmula para la varianza
V [X] = E[X 2 ] − E[X]2 podemos obtener cual es el segundo momento

α α2 α + α2
µ2 = E[X 2 ] = V [X] + E[X]2 = + =
λ2 λ2 λ2
por lo tanto
α + α2
µ2 =
λ2
Despejando α y λ se obtiene:
µ1 µ21
λ
b= , α
b=
µ2 − µ21 µ2 − µ21

11 / 155
Ejemplo 4

Encontrar los estimadores de momentos para una distribución Normal

X ∼ N (µ, σ 2 )

.
Sabemos que E[X] = µ, luego σ 2 = E[X 2 ] − µ2 . En consecuencia los
estimadores de momentos de µ y σ 2 son

µ
b = µ1 , c2 = µ2 − µ2
σ 1

12 / 155
Estimación puntual: Método de máxima verosimilitud

Este método consiste en buscar los parámetros θ que maximizan la


probabilidad de que los datos provengan de la función de distribución
conocida. Para esto consideramos la función de verosimilitud
Función de verosimilitud: Sean X1 , . . . , Xn una m.a. con función de
probabilidad fX (x; θ). La función de verosimilitud se define como:

L(θ; X1 , . . . , Xn ) = fX (x1 ; θ) × fX (x2 ; θ) × . . . × fX (xn ; θ)

El método de la máxima verosimilitud busca aquel valor θb que maximiza


la verosimilitud L(θ; X1 , . . . , Xn ).

13 / 155
Dado que debemos buscar aquel vector θb que maximiza la verosimilitud y
esto se lleva a cabo derivando para buscar candidatos a máximos, aveces
es conveniente utilizar el logaritmo de la verosimilitud. El logaritmo es
una transformación uno a uno, por lo tanto mapea máximos en máximos
y mı́nimos en mı́nimos.
log-verosimilitud: Esta se define como el logaritmo natural de la
verosimilitud.

`(θ; X1 , . . . , Xn ) = ln (L(θ; X1 , . . . , Xn ))

Para seleccionar el valor de θb debemos recurrir a herramientas de cálculo


para maximizar la verosimilitud o la log-verosimilitud

14 / 155
Ejercicio:
Encuentre el estimador máximo verosı́mil del parámetro λ de una
distribución de Poisson.
Solución: Suponga que x = (x1 , x2 , ..., xn ) son los datos asociados a una
muestra aleatoria X1 , X2 , ..., Xn de una población Poisson, con función
de probabilidad dada por

λx e−λ
f (x, λ) = , λ > 0, x ∈ {0, 1, 2, 3, ...}
x!
La función de verosimilitud es

L(x, λ) = f (x1 , λ) × f (x2 , λ) × · · · × f (xn , λ)


λx1 e−λ λx2 e−λ λxn e−λ
= × ×···×
x1 ! x2 ! xn !
P
xi −nλ
λ e
=
x1 !x2 ! · · · xn !

15 / 155
La log-verosimilitud está dado por,
X
l(λ) = ln L(x, λ) = ln(λ) xi − nλ − ln(x1 !x2 ! · · · xn !)

Entonces,
∂l(λ) 1X
= xi − n = 0
∂λ λ
P
La solución de esta ecuación es λ = xi /n. Por tanto,
P
λ̂ = X̄ = Xi /n es el estimador máximo verosı́mil de λ. Además, la
solución obtenida es el valor de λ que maximiza la verosimilitud puesto
que
∂ 2 l(λ) 1 X
2
=− 2 xi − n < 0
∂λ λ

16 / 155
Ejemplo 1: Continuación
Sea X1 , . . . , Xn una m.a. de tamaño n de una población cuya función de
cuantı́a viene dada por:

P [X = x] = px (1 − p)1−x , x = 0, 1

La función de verosimilitud viene dada por


n
Y
L(p; X1 , . . . , Xn ) = pxi (1 − p)1−xi
i=1

y su función de log-verosimilitud es:


n
X
`(p; X1 , . . . , Xn ) = xi ln(p) + (1 − xi ) ln(1 − p)
i

Al maximizar esta función se obtiene que:

pb = X
17 / 155
Ejemplo 2: Continuación
Sea X1 , . . . , Xn una m.a. de una población con distribución exponencial,
es decir
fX (x) = λe−λx

La función de verosimilitud viene dada por


n
Y
L(λ; X1 , . . . , Xn ) = λe−λxi
i=1

y su función de log-verosimilitud es:


n
X
`(p; X1 , . . . , Xn ) = ln(λ) − λxi
i

Al maximizar esta función se obtiene que:

λ
b = 1/X

18 / 155
Caso Multiparamétrico

En el caso de modelos con k parámetros el estimador máximo verosı́mil


de θ = (θ1 , θ2 , . . . , θk ) se obtiene resolviendo el sistema de k ecuaciones
de verosimilitud.
∂l(θ) ∂l(θ) ∂l(θ)
= 0, = 0, . . . , =0 (1)
∂θ1 ∂θ2 ∂θk

19 / 155
Obtenga el estimador máximo verosı́mil de los parámetros de un modelo
normal.
Solución: Sea x = (x1 , x2 , . . . , xn ) el vector de datos de una muestra
aleatoria tomada de una población normal de media µ y varianza σ 2 .
Entonces,la función de verosimilitud es:
1 1 x1 −µ 2 1 1 x2 −µ 2 1 1 xn −µ 2
f (x, µ, σ 2 ) = √ e− 2 ( σ ) √ e− 2 ( σ ) · · · √ e− 2 ( σ )
2πσ 2πσ 2πσ
 n
1 1
P xi −µ 2
= √ e− 2 ( σ )
2πσ
La log-verosimilitud es:

l(µ, σ 2 ) = lnf (x, µ, σ 2 )


2


1 X xi − µ
= −nln( 2πσ) −
2 σ

20 / 155
Las ecuaciones de verosimilitud son
∂l(µ, σ 2 ) ∂l(µ, σ 2 )
=0 y =0
∂µ ∂σ 2

(xi − µ)2
   P
1X xi − µ 1 n
−2 − =0 y − + =0
2 σ σ 2σ 2 2(σ 2 )2

X X
(xi − µ) = 0 y − nσ 2 + (xi − µ)2 = 0

Los estimadores máximo verosı́mil son las soluciones de estas ecuaciones


y resultan ser
σ̂ 2 = (xi − x̄2 )/n = Sn2
P P
µ̂ = xi /n = x̄ y 

21 / 155
Clase 17: Inferencia

Clase 18: Propiedades de los estimadores

Clase 19: Intervalos de confianza I

Clase 20: Intervalos de confianza II

Clase 21: Pruebas de Hipótesis I

Clase 22: Pruebas de Hipótesis II

Clase 23: Comparación de medias - Comparación de proporciones -


comparación de Varianzas

Clase 24: Resumen - Ejercicios

22 / 155
Error cuadrático medio

Una manera básica de comparar o medir cuán lejos está el estimador


puntual θ̂ del verdadero valor de θ es usar el error al cuadrado (θ̂ − θ)2
llamado Error Cuadrático Medio (ECM).
Definición
Dado que la siguiente esperanza existe, el error cuadrático medio del
estimador θ̂ se define como,

ECM (θ̂) = E[(θ̂ − θ)2 ]

Claramente se escogerá aquel estimador que tenga menor error


cuadrático medio. Esto es, si ECM (θ̂1 ) < ECM (θ̂2 ) entonces se
escogerá como mejor estimador de θ a θ̂1 en vez de θ̂2 .

23 / 155
Esta idea lleva a definir el concepto de eficiencia relativa.

Si θ̂1 y θ̂2 son dos estimadores de θ, entonces la eficiencia relativa entre


θ̂1 y θ̂2 se define como

ECM (θ̂1 )
e(θ̂1 , θ̂2 ) =
ECM (θ̂2 )

Se dice que θ̂1 es más eficiente en error cuadrático medio que θ̂2 para
estimar θ si e(θ̂1 , θ̂2 ) < 1.

24 / 155
El siguiente teorema proveé un método para calcular el error cuadrático
medio en términos de la media del estimador E(θ̂) y de la varianza del
estimador V ar(θ̂) .
Teorema
Si existen la esperanza E(θ̂) y la varianza V ar(θ̂) del estimador θ̂,
entonces.
ECM (θ̂) = V ar(θ̂) + [E(θ̂) − θ]2

Demostración: Usa un poco de álgebra y propiedades de la esperanza.

ECM (θ̂) = E[(θ̂ − θ)2 ]


= E[(θ̂2 − 2θ̂θ + θ2 ]
= E(θ̂2 ) − 2θE(θ̂) + θ2
= E(θ̂2 ) − E(θ̂)2 + E(θ̂)2 + 2θE(θ̂) + θ2
= V ar(θ̂) + [E(θ̂) − θ]2

25 / 155
Obs: Del Error Cuadrático Medio

1. Se desea es minimizar el error cuadrático medio de un estimador


ECM (θ̂). Según el Teorema anterior esto se consigue minimizando
conjuntamente el sesgo y la varianza del estimador. Cuando se anula
el sesgo el procedimiento de estimación alcanza la máxima eficacia.
Cuando se minimiza la varianza el procedimiento alcanza la máxima
eficiencia
2. E(θ̂) − θ se llama sesgo e indica cuán lejos y en qué dirección está
en promedio el estimador puntual θ̂ del verdadero valor de θ.
3. Si E(θ̂) − θ > 0 se dice que en promedio θ̂ sobreestima a θ.
4. Si E(θ̂) − θ < 0 se dice que en promedio θ̂ subestima a θ.
5. Idealmente E(θ̂) − θ = 0. Esto es, se desea que en promedio θ̂ no
sobre-estime ni sub-estime el valor verdadero de θ . Esta propiedad
se llama insesgamiento.

26 / 155
Defininición: Estimador insesgado
Se dice que θ̂ es un estimador insesgado para θ si E(θ̂) = θ .
P
Ejemplo: Determine si el estimador λ̂ = X̄ = Xi /n del parámetro λ
de una población Poisson es insesgado.
Solución: Se sabe que si X tiene distribución Poisson, entonces su
esperanza es E(X) = λ. Luego, para la muestra aleatoria
X1 , X2 , . . . , Xn se tiene que E(Xi ) = λ para cada i = 1, 2, ..., n.

X 
E(λ̂) = E(X̄) = E Xi /n
X
= E(Xi )/n
X X 
= E(Xi )/n = λ /n = nλ/n = λ
P
Como E(λ̂) = λ se concluye que el estimador λ̂ = X̄ = Xi /n del
parámetro λ de una población Poisson es insesgado.

27 / 155
Definición:
Si limn→∞ E(θ̂) = θ se dice que el estimador es asintóticamente
insesgado.

Si θ̂1 y θ̂2 son dos estimadores insesgados de θ, entonces la eficiencia


relativa entre θ̂1 y θ̂2 se reduce a la comparación de la varianza de los
estimadores.

V ar(θ̂1 )
e(θ̂1 , θ̂2 ) =
V ar(θ̂2 )

Claramente entre dos estimadores insesgados se escogerá aquel estimador


que tenga menor varianza; esto es, si V ar(θ̂1 ) < V ar(θ̂2 ), entonces se
escogerá como mejor estimador de θ a θ̂1 en vez de θ̂2 .

28 / 155
Idealmente, entre todos los estimadores insesgados de θ uno elegirá el
que tenga menor varianza. Esta idea lleva al concepto de estimador
insesgado de varianza uniformemente mı́nima.
Definición:
Se dice que θ̂ es un Estimador Insesgado de Varianza Uniformemente
Mı́nima (EIVUM) para θ si cumple dos propiedades: a) E(θ̂) = θ
b) V ar(θ̂) ≤ V ar(θ)
e para cualquier otro estimador insesgado θ.
e

29 / 155
Estimadores Consistentes

Un buen estimador deberı́a permitir disminuir el error de estimación


aumentando el tamaño de la muestra n. Si esto es posible, se dice que el
estimador es consistente.

Si limn→∞ ECM (θ̂) = 0 se dice que el estimador es consistente en error


cuadrático medio.
Ejemplo: Determine si el estimador del parámetro λ de una población
Poisson es consistente en error cuadrático medio.

30 / 155
P
Solución: Aquı́ λ̂ = X̄ = Xi /n y se mostró anteriormente que es un
estimador insesgado. Es decir, se mostró que E(λ̂) = λ
La varianza de este estimador es,
X 
V ar(λ̂) = V ar(X̄) = V ar Xi /n
X
= V ar(Xi )/n2
X 
= λ /n2 = nλ/n2 = λ/n

Entonces, el error cuadrático medio está dado por

ECM (λ̂) = V ar(λ̂) + [E(λ̂) − λ]2


= λ/n + [λ − λ]2 = λ/n

Luego, limn→∞ ECM (λ̂) = limn→∞ λ/n = 0 y el estimador resulta ser


consistente en error cuadrático medio.

31 / 155
Sea θ̂ un estimador de θ basado en una muestra aleatoria
X1 , X2 , . . . , Xn . Se dice que θ̂ es consistente simple si θ̂ converge en
probabilidad a θ . Esto es, si para cualquier ε > 0 se tiene que

lim P (|θ̂ − θ| > ε) = 0


n→∞

Un instrumento útil para evaluar la convergencia en probabilidad es la


desigualdad de Chebyshev.

32 / 155
Desigualdad de Chebyshev
Sea X variable aleatoria con E(X) = µ y V ar(X) = σ 2 . Entonces, para
cualquier ε > 0 se tiene que

σ2
P (|X − µ| > ε) ≤
ε2

En el contexto del proceso de estimación, la desigualdad de Chebyshev


toma la forma siguiente.

V ar(θ̂)
P (|θ̂ − E(θ̂)| > ε) ≤
ε2

33 / 155
Ejemplo: Determine si el estimador del parámetro λ de una población
Poisson es consistente simple.
P
Solución: Aquı́, el estimador de λ es λ̂ = X̄ = Xi /n y se mostró en
ese ejemplo que es insesgado. Es decir, se mostró que E(λ̂) = λ
En el Ejemplo ?? se probó que la varianza de este estimador es
V ar(λ̂) = λ/n. Entonces, la desigualdad de Chebyshev toma la forma:

V ar(λ̂) λ
P (|λ̂ − E(λ̂)| > ε) ≤ 2
⇔ P (|λ̂ − λ| > ε) ≤ 2
ε nε
Pero, limn→∞ λ/(nvarepsilon2 ) = 0. Entonces, por el teorema del
sandwich se tiene que

lim P (|λ̂ − λ| > ε)) = 0


n→∞
P
Luego, el estimador λ̂ = X̄ = Xi /n es un estimador que converge en
probabilidad a λ y el estimador resulta ser consistente simple.

34 / 155
Clase 17: Inferencia

Clase 18: Propiedades de los estimadores

Clase 19: Intervalos de confianza I

Clase 20: Intervalos de confianza II

Clase 21: Pruebas de Hipótesis I

Clase 22: Pruebas de Hipótesis II

Clase 23: Comparación de medias - Comparación de proporciones -


comparación de Varianzas

Clase 24: Resumen - Ejercicios

35 / 155
Intervalos de confianza

Dada la naturaleza aleatoria de los estimadores la probabilidad de que


estos tomen el valor real del parámetro que estiman es siempre 0. Ante
esto es deseable tener un intervalo donde con cierto nivel de confianza
podamos asegurar que esté el valor real del parámetro.
Estos intervalos serán llamados intervalos de confianza, estarán
conformados por un lı́mite inferior θbI y un lı́mite inferior θbS tales que

P [θbI ≤ θ ≤ θbS ] = 1 − α

La probabilidad (1 − α) se denomina el nivel de confianza del intervalo.


El intervalo anterior se denomina bilateral dado que posee un lı́mite
superior y uno inferior.

36 / 155
La idea se puede representar mediante la siguiente imagen:

Los intervalos de confianza también pueden ser unilaterales de la


siguiente forma:
P [θ ≤ θbS ] = 1 − α
P [θbI ≤ θ] = 1 − α

37 / 155
Definición: Cantidad Pivotal
Una cantidad pivotal es una estadı́stica o expresión aleatoria Q(X; θ) que
cumple tres requisitos,
1. Q depende de la muestra aleatoria X = (X1 , X2 , . . . , Xn ).
2. Q depende del parámetro θ.
3. La distribución de Q no depende de θ.

La idea entonces es utilizar una cantidad pivotal Q(X; θ) para construir


un intervalo para θ a partir de la distribución de Q

38 / 155
Ejemplo: Construcción de un intervalo de confianza

Intervalo de confianza para la media poblacional en el caso normal:


Sea X1 , . . . , Xn una m.a. desde una distribución N (µ, σ 2 ). Como X es
el mejor estimador de µ, entonces si se conoce σ 2 , se tiene que

(X − µ) n
Z= ∼ N (0, 1)
σ
Por lo tanto Z es una cantidad pivotal.
Luego se deben buscar los valores apropiados de q1 y q2 tales que
 √ 
(X − µ) n
P q1 ≤ ≤ q1 = 1 − α = γ
σ

39 / 155
Como se observa en la figura la elección q1 y q2 no es única, pero tiene
sentido de que busquemos el intervalo que minimice la distancia entre q1
y q2 , esto se logra cuando se produce igualdad de probabilidades en las
colas.

40 / 155
esto es

q1 = φ−1 (α/2) = Zα/2 , q2 = φ−1 (1 − α/2) = Z1−α/2

41 / 155
De la última idea podemos extraer que:
 √ 
(X − µ) n
P Zα/2 ≤ ≤ Z1−α/2 = 1 − α
σ
 
σ σ
P Zα/2 √ − X ≤ −µ ≤ Z1−α/2 √ − X = 1 − α
n n
 
σ σ
P X − Z1−α/2 √ ≤ µ ≤ X − Zα/2 √ =1−α
n n

Como Zα/2 = −Z1−α/2 entonces


 
σ σ
P X − Z1−α/2 √ ≤ µ ≤ X + Z1−α/2 √ =1−α
n n

Con lo anterior se concluye que el intervalo de confianza del (1 − α)%


para la media poblacional es:
 
σ
IC1−α (µ) := X ∓ Z1−α/2 √
n

42 / 155
Comentarios respecto a los Intervalos de Confianza para
una media µ

1. Lı́mites Aleatorios en función de θ̂ y α . Los lı́mites aleatorios L(X)


y U (X) dependen de la muestra a través del estimador puntual θ̂ y
dependen del nivel de confianza (1 − α).

2. Calidad del Intervalo de Confianza. Una manera de evaluar la


calidad de un intervalo de confianza o un criterio para seleccionar un
intervalo de estimación es que su longitud sea mı́nima para un
tamaño de muestra n y para una confianza (1 − α)100% dados.

43 / 155
Comentarios respecto a los Intervalos de Confianza para
una media µ

3. Error Estándar y Margen de Error. En el caso de la media µ de una


población normal se sabe que µ̂ = X̄ es un estimador insesgado
porque E(X̄) = µ y es consistente porque el error cuadrático medio
ECM (µ̂) = V ar(X̄) = σ 2 /n√→ 0 cuando n → ∞. La raı́z
cuadrada de este error es σ/ n y se llama error estándar de
estimación de la media.
El margen de error o simplemente error de estimación de µ
corresponde al producto entre el error estándar y el cuantil de la
normal y está dado por,
σ
ε = √ z(1 − α/2)
n

Ası́, el intervalo de confianza IC(µ) = X̄ ± ε da cuenta de la


incertidumbre que se tiene con el estimador puntual de µ.

44 / 155
Comentarios respecto a los Intervalos de Confianza para
una media µ

4. Relación entre el tamaño de muestra, la precisión y la confianza. El


margen de error cometido√al estimar la media µ de una población
normal dado por ε = (σ/ n)z(α/2) es una expresión que muestra la
relación (compromiso) que existe entre la precisión de la estimación
ε, el tamaño de la muestra n y la confianza (1 − α)100%.
Fijando dos de esas caracterı́sticas se determina la tercera. Por
ejemplo, el tamaño de muestra necesario para estimar µ con σ
conocida, con un margen de error ε y con confianza (1 − α)100% es
σ 2
n= z(1 − α/2)
ε

45 / 155
En el ejemplo anterior hemos considerado el caso en que la varianza σ 2
es conocida para poder construir un intervalo de confianza para la media
µ, pero cuando la varianza es desconocida no podemos utilizar el
intervalo anterior.
En el caso de que no se conozca la varianza podemos buscar un intervalo
para la media utilizando la desviación estándar muestral. Claro que en
este caso la distribución de nuestro estadı́stico no será normal.
Es por esto que necesitamos definir las siguientes distribuciones

46 / 155
Distribución chi-cuadrado

Se dice que una v.a. X tiene una distribución chi-cuadrado con ν grados
de libertad si su densidad de tiene la forma:
1
f (x) = xν/2−1 e−x/2 , x>0
2ν/2 Γ(ν/2)
R∞
con Γ(α) = 0
y α−1 e−y dy y ν entero positivo.
En este caso anotaremos X ∼ χ2ν .

E[X] = ν, V [X] = 2ν, MX (t) = (1 − 2t)−ν/2


Teorema: Si Z ∼ N (0; 1), entonces Z 2 ∼ χ21

47 / 155
Distribución t-Student

Una v.a. X tiene una distribución t con ν grados de libertad si su


función de densidad de probabilidad tiene la forma:.
−(ν+1)/2
t2

Γ[(ν + 1)/2]
f (x) = √ 1+ , −∞<x<∞
Γ(ν/2) πν ν
R∞
con Γ(α) = 0
y α−1 e−y dy y ν entero positivo.
En este caso anotaremos X ∼ tν
Si X ∼ tν , entonces para ν > 1 y para ν > 2

E[X] = 0, V [X] = ν/(ν − 2).

Se puede mostrar que cuando ν → ∞ la distribución t tiende a la


distribución normal estándar

48 / 155
Estimación de la media, caso normal

Para estimar la media µ de una muestra proveniente de una distribución


normal existen dos escenarios posibles:
I Varianza σ 2 conocida:
 
σ
IC1−α (µ) = X ∓ √ Z(1 − α/2)
n
I Varianza desconocida:
 
S
IC1−α (µ) = X ∓ √ tn−1 (1 − α/2)
n

49 / 155
Caso de varianza σ 2 conocida

 
σ
IC1−α (µ) = X ∓ √ Z(1 − α/2)
n
Algunas propiedades:
I Esta elección minimiza la longitud entre el intervalo inferior y el
intervalo superior.
I Mientras mayor sea la cantidad de datos n más pequeño será el
intervalo.

50 / 155
Ejemplo:

TC Auditores contrató un Sicólogo Laboral para medir el grado de


satisfacción en el trabajo de sus empleados. Dieciocho de estos fueron
seleccionados y sometidos a un test que entregó un nivel de satisfacción
promedio de 78.2 puntos en la escala 0 − 100. La empresa cree que el
grado de satisfacción de sus empleados sigue una distribución normal con
varianza 144.
Encuentre un intervalo de confianza del 95% para estimar la satisfacción
media de todos los empleados.

51 / 155
Solución:
X := Nivel de satisfacción en el trabajo de los empleados de la empresa
TC Auditores medido en la escala 0-100.
Los datos del enunciado son que X ∼ N (µ; 144), X̄ = 78, 2, σ = 12 y
α = 0, 05, entonces
σ
IC(µ) = X ∓ √ Z(1 − α/2)
n
12
ic(µ) = 78, 2 ∓ √ · 0, 96
18
≈ 78, 2 ∓ 5, 5
 
≈ 72, 7 ; 83, 7

Por tanto, hay un 95% de confianza de que el nivel medio de satisfacción


laboral de los empleados de TC Auditores esté entre 72,7 y 83,7 puntos.

52 / 155
Clase 17: Inferencia

Clase 18: Propiedades de los estimadores

Clase 19: Intervalos de confianza I

Clase 20: Intervalos de confianza II

Clase 21: Pruebas de Hipótesis I

Clase 22: Pruebas de Hipótesis II

Clase 23: Comparación de medias - Comparación de proporciones -


comparación de Varianzas

Clase 24: Resumen - Ejercicios

53 / 155
Teorema del Lı́mite Central

¿Qué podemos hacer si nuestros datos no provienen de una muestra


normal?
Teorema del Lı́mite Central
Sea Sn una suma de n v.a. independientes e idénticamente distribuidas
con media finita E[X] = µ y varianza finita σ 2 , y sea Zn la v.a. definida:

Sn − µ
Z= √
σ n

Entonces: Z z
1 2
lim P [Z ≤ z] = √ e−x /2
dx
n→∞ 2π −∞

Es decir, Z converge en distribución a una distribución normal estándar.

54 / 155
Este teorema también se suele enunciar para el caso del promedio X, es
decir
(X − µ)
Z= √
σ/ n
Entonces: Z z
1 2
lim P [Z ≤ z] = √ e−x /2
dx
n→∞ 2π −∞

Esto nos permite justificar que para un n grande (por lo general mayor a
30) la distribución de Z es aproximadamente normal estándar
Ası́, un intervalo de confianza aproximado para estimar una media de
cualquier población con varianza σ 2 conocida.
σ
IC1−α (µ) = X ∓ √ Z(1 − α/2)
n

55 / 155
Intervalo para estimar una proporción
Si se tiene una m.a. X1 , . . . , Xn tomada de una población con
distribución Bernoulli de parámetro p podemos construir un intervalo
para p a partir del TCL.
Aquı́ la media poblacional es µ = p, con 0 < p < 1 y su estimador
puntual es p̂ = X. Su varianza es σ 2 = p(1 − p) y su estimador puntual
es σ̂ 2 = p̂(1 − p̂) = X(1 − X). Entonces, el teorema del lı́mite central
establece que la estadı́stica

(p̂ − p)
Z=p
p̂(1 − p̂)/n

tiene distribución aproximadamente normal estándar para n grande. Ası́,


un intervalo de confianza aproximado del (1 − α)% para estimar la
proporción p es
r
p̂(1 − p̂)
IC(p) = p̂ ± z(1 − α/2)
n

56 / 155
Ejemplo:

El directorio de una compañı́a productora de alimentos decidió hacer una


investigación de mercado de modo que si el 40% o más de los
consumidores manifestaba la intención de comprar en producto, entonces
la compañı́a considerarı́a comercilizarlo en el resto del pais. De 764
personas encuestadas 193 manifestaron que estarı́an dispuesto a comprar
el producto.
¿Los datos de esta muestra sugieren apoyar la idea de comercializar el
nuevo producto en un área más extensa? Use una confianza del 99%
para elaborar su respuesta.

57 / 155
Solución
La m.a. es de tamaño n = 764. La v.a. es X :=Intención de compra de
los consumidores clasificada como si o no. Aquı́ el parámetro p
corresponde a la verdadera proporción de consumidores que está
dispuesto a comprar el nuevo producto y su estimación resulta ser
p̂ = 193/764 = 0, 253.
Entonces el intervalo resulta ser,
r
0, 253(1 − 0, 253)
IC(p) = 0, 253 ± z(0, 995)
764
= 0, 253 ± 0, 0157(2, 576) = 0, 253 ± 0, 0405
= [0, 212; 0, 294]

Entonces, a partir de la muestra y con un 99% confianza, estimamos que


la proporción de consumidores dispuestos a comprar el nuevo producto
alimenticio está entre 21, 2% y 29, 4%, lejos del 40% o más requerido
para comercializar el nuevo producto en todo el paı́s.

58 / 155
Caso de varianza desconocida
Si X1 , . . . , Xn es una muestra aleatoria de una población con
distribución normal de media µ y varianza σ 2 desconocida y se quiere
estimar µ mediante un intervalo de confianza. En este caso, la varianza
poblacional σ 2 desconocida es reemplazada por su estimador insesgado
S = (Xi − X̂)2 /(n − 1) y la cantidad pivotal que se emplea es,
2
P

X̄ − µ
T = √ ∼ tn−1
S/ n

De esta forma el intervalo de confianza del (1 − α)100% para estimar µ


cuando σ 2 es desconocida resulta ser,
 S S 
IC1−α (µ) = X − √ tn−1 (1 − α/2); X + √ tn−1 (1 − α/2)
n n
 
S
= X̄ ± √ tn−1 (1 − α/2)
n

59 / 155
Ejemplo

Los siguientes datos corresponden a la rentabilidad en porcentaje durante


el último mes de 10 acciones escogidas aleatoriamente. Asuma que la
rentabilidad es bien modelada por una distribución normal.

0,8 -0,3 -0,6 0,5 0,6 0,1 0,3 -0,5 -0,1 -0,2

a) Estime el valor de la rentabilidad media de todas las acciones con un


intervalo de confianza del 95%.
b) Ciertos expertos habı́an pronosticado que la rentabilidad de las
acciones serı́a de 0, 3% en ese periodo de tiempo. ¿Los datos
recolectados apoyan esa idea?.
c) Suponga que ahora el tamaño de la muestra aumenta a n = 30 y
que la media y la desviación estándar de la muestra resultan ser las
mismas. Si la confianza del intervalo también se mantiene, ¿cambia
la conclusión respecto a la afirmación de los expertos?. Explique o
comente su resultado.

60 / 155
Solución a) X := Rentabilidad de las acciones de la Bolsa de Valores.
X ∼ N (µ; σ 2 ) con µ y σ 2 desconocidos.
Del enunciado del problema se tiene que n = 10, la media muestral es
X̄ = 0, 06, la desviación estándar de la muestra es S = 0, 4788876 y
α = 0, 05. Ası́ y el cuantil de la t-student es
tn−1 (1 − α/2) = t10−1 (0, 975) = 2, 262. Entonces, el intervalo de
confianza del 95% para estimar la rentabilidad media de las acciones
transadas en esa Bolsa de Valores es:
 S S 
IC(µ) =X̄ − √ tn−1 (1 − α/2) ; X̄ + √ tn−1 (1 − α/2)
n n
 
ic(µ) = 0, 06 − 0, 15143756(2, 262) ; 0, 06 + 0, 15143756(2, 262)
 
ic(µ) ≈ 0, 06 − 0, 34 ; 0, 06 + 0, 34
 
≈ − 0, 28 ; 0, 40

61 / 155
B) El intervalo
 estimado del 95% de confianza para la rentabilidad media
es ic(µ) = − 0, 28 ; 0, 40 y contiene el valor pronosticado de 0, 3%.
Entonces, la información contenida en la muestra de tamaño n = 10 no
descarta el pronóstico de los expertos.
C) Con n = 30 se tiene que tn−1 (1 − α/2) = t29 (0, 975) = 2, 045, el
intervalo de confianza del 95% para estimar la rentabilidad media de las
acciones transadas en esa Bolsa de Valores es,
 
ic(µ) = 0, 06 − 0, 08743251(2, 045) ; 0, 06 + 0, 08743251(2, 045)
 
≈ 0, 06 − 0, 18 ; 0, 06 + 0, 08743251(2, 045)
 
≈ − 0, 11 ; 0, 24

Ahora, el intervalo estimado del 95%


 de confianza para la rentabilidad
media es ic(µ) = − 0, 11 ; 0, 24 y no contiene el valor pronosticado de
0, 3%. Entonces, los datos de la muestra de tamaño n = 30 ahora
permiten descartar o rechazar el pronóstico de los expertos.

62 / 155
Intervalo para estimar una varianza σ 2 en caso normal con
media µ desconocida
Sea X1 , . . . , Xn una m.a. de una distribución normal de media y varianza
desconocidos, y que el interés recae en estimar mediante un intervalo de
confianza para la varianza poblacional σ 2 .
2
El estimador insesgado de esta varianza es S 2 =
P
(Xi − X̄) /(n − 1) y
la cantidad pivotal adecuada es

(n − 1)S 2 /σ 2 ∼ χ2n−1

Escogiendo colas simétricas de modo que queden probabilidades α/2 a la


derecha e izquierda de la distribución χ2n−1 se obtiene que

P χ2n−1 (α/2) ≤ (n − 1)S 2 /σ 2 ≤ χ2n−1 (1 − α/2) = 1 − α




(n − 1)S 2 (n − 1)S 2
 
2
P ≤σ ≤ 2 =1−α
χ2n−1 (1 − α/2) χn−1 (α/2)

63 / 155
Ası́, un intervalo de confianza para estimar la varianza σ 2 es,

(n − 1)S 2 (n − 1)S 2
 
2
IC(σ ) = ;
χ2n−1 (1 − α/2) χ2n−1 (α/2)

Además, un intervalo de confianza para estimar la desviación estándar σ


es, "s s #
(n − 1)S 2 (n − 1)S 2
IC(σ) = ;
χ2n−1 (1 − α/2) χ2n−1 (α/2)

64 / 155
Ejemplo:

La Compañı́a de Aceros del Sur CAS revisa periódicamente su producción


para evaluar el cumplimiento de las normas. En particular se encuentra
vigilando la producción de planchas metálicas de 5 mm de espesor
realizada por una máquina. Para este producto no se tolera una
desviación estándar superior a los 0,02 mm. Un muestra de 22 planchas
producidas recientemente revela los siguientes espesores en mm.

4,96 5,02 5,00 5,04 5,07 4,99 4,98 4,97 5,05 4,96 5,02
5,01 5,00 4,97 4,96 5,04 4,96 5,07 4,99 4,99 4,97 5,05

¿Que se puede concluir de esta muestra respecto a la variabilidad en el


espesor de las planchas de 5 mm. producidas por esa máquina?

65 / 155
Solución
Aquı́, n = 22, X̄ = 5, 00, S 2 = 0, 001356.
Escogiendo α = 0, 01 se tiene que,
"s s #
(22 − 1)0, 001356 (22 − 1)0, 001356
IC(σ) = ;
41, 40 8, 03
= [0, 026 ; 0, 060]

Escogiendo α = 0, 10 se tiene que,


"s s #
(22 − 1)0, 001356 (22 − 1)0, 001356
IC(σ) = ;
32, 67 11, 59
= [0, 030 ; 0, 050]

Entonces, la estimación de la desviación estándar del espesor de las


planchas de 5,00 mm., para confianzas iguales o inferiores a 99%, está
por sobre los 0,02 mm. que establece la norma. En consecuencia la
muestra reciente sugiere revisar la máquina que produce esas planchas.
66 / 155
Clase 17: Inferencia

Clase 18: Propiedades de los estimadores

Clase 19: Intervalos de confianza I

Clase 20: Intervalos de confianza II

Clase 21: Pruebas de Hipótesis I

Clase 22: Pruebas de Hipótesis II

Clase 23: Comparación de medias - Comparación de proporciones -


comparación de Varianzas

Clase 24: Resumen - Ejercicios

67 / 155
Hipótesis estadı́stica

Una hipótesis estadı́stica es una afirmación respecto a una o varias


poblaciones que se hace antes de tomar una muestra aleatoria. La
afirmación puede referirse a:
I La distribución de probabilidad de alguna variable aleatoria de
interés X.
I Relación entre variables aleatorias X e Y .
I Parámetros poblacionales tales como µ, σ 2 , una proporción p, dos
medias µ1 y µ2 , etc.
Una de las hipótesis se llama hipótesis nula, se anota H0 y está basada
en el estado actual. La otra hipótesis complementa la anterior, se llama
hipótesis alternativa, se anota H1 . Los datos muestrales se usan para
decidir si las hipótesis respecto a la población encuentran o no apoyo en
la muestra.

68 / 155
Algunos ejemplos:
1. Hipótesis respecto a la distribución de probabilidad:

H0 : X tiene distribución normal


H1 : X no tiene distribución normal

2. Hipótesis respecto a la media de una población normal:

H0 : µ ≤ µ0
H1 : µ > µ0

3. Hipótesis respecto a dos proporciones de poblaciones Bernoulli:

H0 : p1 − p2 = 0
H1 : p1 − p2 6= 0

4. Hipótesis respecto a la independencia de variables aleatorias:

H0 : X e Y son independientes
H1 : X e Y no son independientes

69 / 155
La decisión de rechazar o no rechazar H0 a partir de una muestra
aleatoria tiene implı́cita la posibilidad de equivocarse porque la muestra
sólo entrega información parcial de lo que ocurre a nivel poblacional.

Decisión desde la muestra


En la población Rechazar H0 No Rechazar H0
H0 es Verdadera Error tipo I Correcta
H0 es Falsa Correcta Error tipo II
La idea es crear reglas de decisión que mantengan bajo control las
probabilidades de error tipo I y tipo II. Estas se definen de la siguiente
manera.

α = P (Error tipo I) = P (Rechazar H0 | H0 es V erdadera)


β = P (Error tipo II) = P (N o rechazar H0 | H0 es F alsa)

70 / 155
La potencia de una regla de decisión o test se define como la
probabilidad de hacer una decisión correcta del tipo Rechazar H0 (a
partir de la muestra) cuando H0 es Falsa (en la población)

Potencia = P (Rechazar H0 | H0 es F also) = 1 − β.

¿Cuál de los dos errores es más grave? ¿El Error tipo I o el Error
tipo II?
La mayorı́a de las veces resulta más grave el Error tipo I. Por tanto, la
metodologı́a estadı́stica fija en primer lugar la probabilidad α y luego
entre todas las reglas de decisión que tienen una probabilidad de Error
tipo I menor o igual que α se busca la regla de decisión con la mayor
potencia o menor β.

71 / 155
Estadı́stica de prueba, valor crı́tico y región de rechazo

Supongamos que X ∼ N (µ; σ 2 ) con σ 2 conocida y que se quieren


contrastar la hipótesis,

H0 : µ = µ0 v/s H1 : µ = µ1 ; con µ0 < µ1


P
Sabemos que X̄ = Xi /n es un estimador de µ y parece natural
rechazar H0 : µ = µ0 en favor de H1 : µ = µ1 cuando X̄ > c. El
conjunto C = {(X1 , X2 , . . . , Xn )/X̄ > c} se llama región crı́tica o región
de rechazo y el complemento C 0 = {(X1 , X2 , . . . , Xn )/X̄ ≤ c} se llama
región de no rechazo o región de aceptación de H0 . La constante c que
define ambas regiones se llama valor crı́tico y es determinada fijando la
probabilidad α de Error tipo I.

72 / 155
Muestra

𝑋 , 𝑋2 , … , 𝑋𝑛

Estimador de
𝑋

Región de no rechazo de Región de rechazo de


c

Figure: Criterio de decisión para H0 : µ = µ0 v/s H1 : µ = µ1 ; µ0 < µ1

73 / 155
α = P (Rechazar H0 | H0 es V erdadero)
= P (X̄ > c | µ = µ0 )
 
X̄ − µ c−µ
= P √ > √ | µ = µ0
σ/ n σ/ n
 
X̄ − µ0 c − µ0
= P √ > √
σ/ n σ/ n
 
c − µ0 X̄ − µ0
= P Z> √ porque Z = √ ∼ N (0; 1)
σ/ n σ/ n
c − µ0
⇔ √ = z(1 − α)
σ/ n
σ
⇔ c = µ0 + √ z(1 − α)
n

Entonces, la regla de decisión es:


σ
Rechace H0 si X̄ > µ0 + √ z(1 − α)
n

74 / 155
Supongamos que X ∼ N (µ; σ 2 ) con σ 2 = 64 y que se quieren contrastar
la hipótesis H0 : µ = 12 v/s H1 : µ = 15. Se toma una muestra de
tamaño n = 25 y resulta una media X̄ = 14, 7.

a) Si se fija la probabilidad de Error tipo I en α = 0, 05 cree usted que


la muestra apoya la hipótesis nula?
b) ¿Cuál es la potencia de la regla de decisión usada?

Solución
a) Estadı́stica de prueba observada:

X̄ − µ0 (14, 7 − 12)
Zobs = √ = √ ≈ 1, 69
σ/ n 8/ 25

Valor crı́tico: z(1 − α) = z(0, 95) = 1, 645


Región de rechazo o región crı́tica: Z > 1, 645

75 / 155
Decisión: Como Zobs = 1, 69 > 1, 645 la estadı́stica de prueba cae
en la región de rechazo y por tanto se rechaza H0 : µ = 12 en favor
de H1 : µ = 15 con α = 0, 05.
Conclusión: Con α = 0, 05 la muestra no es consistente con H0 y
sugiere aceptar H1 : µ = 15

b) De acuerdo a la regla de decisión, la probabilidad de Error tipo II es

β = P (Aceptar H0 | H0 es F also)
 
σ
= P X̄ ≤ µ0 + √ z(1 − α) | µ = µ1
n
µ0 + √σn z(1 − α) − µ1
!
X̄ − µ1
= P σ ≤ σ
√ √
n n
√σ z(1 −
!
µ0 + n
α) − µ1
⇔β = P Z≤ (2)
√σ
n

76 / 155
Reemplazando los datos se obtiene que

12 + √825 1, 645 − 15
!
β=P Z≤ 8 ≈ P (Z ≤ −0, 23) ≈ 0, 4090

25

Por tanto la potencia es:

potencia = 1 − β = 1 − 0, 4090 = 0, 5910

La potencia de 0,5910 obtenida en el ejemplo anterior no es muy buena .


Entonces, surgen la pregunta ¿Cómo aumentar la potencia manteniendo
el valor de α y manteniendo la regla de decisión? la respuesta es
aumentar el tamaño de la muestra.

77 / 155
Tamaño de la muestra para α y β dados

Habiendo fijado el valor α ¿Cuál debe ser el tamaño de la muestra para


que la regla de decisión no supere el valor β?

β = P (Aceptar H0 | H0 es F also)
 
σ
= P X̄ ≤ µ0 + √ z(1 − α) | µ = µ1
n
µ0 + √σn z(1 − α) − µ1
!
X̄ − µ1
= P σ ≤ σ
√ √
n n
√σ z(1 −
!
µ0 + n
α) − µ1
= P Z≤
√σ
n

78 / 155
Esta condición se cumple si

µ0 + √σ z(1 − α) − µ1
n
= z(β) = −z(1 − β)
√σ
n
σ
⇔ √ [z(1 − α) + z(1 − β)] = µ1 − µ0
n
 2
z(1 − α) + z(1 − β)
⇔ n = σ2
µ1 − µ0

79 / 155
La formula anterior permite resaltar varios hechos importantes.

1. Determina el tamaño de muestra necesario para contrastar las


hipótesis H0 : µ = µ0 y H1 : µ = µ1 , µ0 < µ1 , para probabilidades
de error tipo I y II α y β dadas.
2. Permite establecer que para un tamaño de muestra n fijo no es
posible disminuir simultáneamente las probabilidades de error tipo I
y II α y β.
3. Mientras más cerca está µ1 de µ0 la diferencia µ1 − µ0 se hace más
pequeña y en consecuencia el tamaño de muestra n deberá ser más
grande para discernir una diferencia entre µ1 y µ0 .

80 / 155
5. La formula anterior puede ser escrita como
 2
z(1 − α) + z(1 − β)
n=
δ

donde
µ1 − µ0
δ=
σ
se llama tamaño de efecto y su valor absoluto representa la distancia
estandarizada entre las dos distribuciones normales propuestas por
las hipótesis H0 : µ = µ0 y H1 : µ = µ1 . Es decir, el tamaño de
efecto indica que fracción es la distancia entra las dos distribuciones
normales µ1 − µ0 de la desviación estándar común σ.

81 / 155
Ejemplo:
Suponga que X es una variable aleatoria normal con media µ y varianza
σ 2 = 64. Hasta ahora se sabı́a que µ = 50 pero hay sospechas de que esa
media ha aumentado. Para probar esta hipótesis se toma una muestra
aleatoria de tamaño n = 36 y resulta X̄ = 54. Usando α = 0, 05
establezca si la muestra es consistente con H0 .
Solución
Hippótesis: H0 : µ = 50 v/s H1 : µ > 50,
Estadı́stica de Prueba:
X̄ − µ0
Z= √
σ/ n

Valor observado de la estadı́stica de prueba:


54 − 50
Zobs = √ = 3, 0
8/ 36

82 / 155
Región de rechazo: Z > z(1 − α) = z(0, 95) = 1, 645,
Decisión: Como 3 > 1, 645 la estadı́stica de prueba resultó estar en la
región de rechazo y en consecuencia la decisión es rechazar H0 : µ = 50
en favor de H1 : µ > 50. Conclusión: Los datos del problema sugieren
que la media poblacional ha aumentado por sobre el valor µ = 50.

83 / 155
Clase 17: Inferencia

Clase 18: Propiedades de los estimadores

Clase 19: Intervalos de confianza I

Clase 20: Intervalos de confianza II

Clase 21: Pruebas de Hipótesis I

Clase 22: Pruebas de Hipótesis II

Clase 23: Comparación de medias - Comparación de proporciones -


comparación de Varianzas

Clase 24: Resumen - Ejercicios

84 / 155
Hipótesis simple v/s unilateral
Para probar las hipótesis simples

H0 : µ = µ0 v/s H1 : µ = µ1 ; con µ0 < µ1

se propuso la regla de decisión


X̄ − µ0
Rechace H0 si Z = √ > z(1 − α)
σ/ n
Notar que esta regla de decisión depende de la muestra, depende del
valor hipotetizado µ0 , depende de la desviación estándar conocida σ y
depende de la probabilidad de Error tipo I, pero no depende de µ1 . Esto
quiere decir que para contrastar las hipótesis,

H0 : µ = µ0 v/s H1 : µ > µ0 (3)

se usa la misma regla de decisión o región de rechazo hacia la derecha


dada en la ecuación anterior:
X̄ − µ0
Rechace H0 si Z = √ > z(1 − α)
σ/ n

85 / 155
Del mismo modo, para contrastar las hipótesis,

H0 : µ = µ0 v/s H1 : µ < µ0

se usa la región de rechazo hacia la izquierda dada en la regla de decisión


siguiente:
X̄ − µ0
Rechace H0 si Z = √ < z(α)
σ/ n

86 / 155
Hipótesis simple v/s bilateral

A veces se quiere probar si se ha modificado el valor de un parámetro sin


importar si ha disminuido o aumentado. En estos casos, la hipótesis
alternativa es bilateral.
Supongamos que X ∼ N (µ; σ 2 ) y que se quieren contrastar la hipótesis,

H0 : µ = µ0 v/s H1 : µ 6= µ0

Proponga una regla para decidir si una muestra X1 , X2 , . . . , Xn con


normal X ∼ N (µ; σ 2 ) con σ 2 conocida apoya o no la hipótesis nula
H0 : µ = µ0 .

87 / 155
Solución
Parece natural rechazar H0 : µ = µ0 cuando X̄ se aleja de µ0 hacia la
izquierda o hacia la derecha, esto es se rechaza H0 : µ = µ0 si X̄ < c1 o
X̄ > c2 como muestra la figura:

Muestra

𝑋 , 𝑋 , … , 𝑋𝑛

Estimador de
𝑋

Región de
Región de rechazo no Rechazo Región de rechazo

88 / 155
α = P (Rechazar H0 | H0 es V erdadero)
= P (X̄ < c1 ∨ X̄ > c2 | µ = µ0 )
 
X̄ − µ c1 − µ X̄ − µ c2 − µ
= P √ < √ ∨ √ > √ | µ = µ0
σ/ n σ/ n σ/ n σ/ n
 
X̄ − µ0 c1 − µ0 X̄ − µ0 c2 − µ0
= P √ < √ ∨ √ > √
σ/ n σ/ n σ/ n σ/ n
 
c1 − µ0 c −µ X̄ − µ0
= P Z< √ ∨Z > 2 √ 0 porque Z = √ ∼ N (0; 1)
σ/ n σ/ n σ/ n
   
c1 − µ0 c2 − µ0
⇔ α=P Z< √ +P Z > √
σ/ n σ/ n

89 / 155
Existen muchas elecciones posibles para c1 y c2 . Una posibilidad es
escoger esas constantes de manera simétrica en torno a µ0
   
c1 − µ0 c2 − µ0
P Z< √ = α/2 y P Z > √ = α/2
σ/ n σ/ n
c1 − µ0 c −µ
⇔ √ = z(α/2) y 2 √ 0 = z(1 − α/2)
σ/ n σ/ n
σ σ
⇔ c1 = µ0 + √ z(α/2) y c2 = µ0 + √ z(1 − α/2)
n n

90 / 155
Entonces, la regla de decisión propuesta es:
σ σ
Rechace H0 si X̄ > µ0 + √ z(1 − α/2) ∨ X̄ < µ0 + √ z(α/2)
n n

Equivalentemente

X̄ − µ0 X̄ − µ0
Rechace H0 si Z = √ > z(1−α/2) ∨ Z= √ < z(α/2)
σ/ n σ/ n

91 / 155
El valor p y el valor de significancia

Se han estudiado pruebas para la media de una población normal con


varianza σ 2 conocida tal como H0 : µ = µ0 v/s H0 : µ > µ0 . El test o
regla de decisión es:
Rechace H0 si Zobs > z(1 − α),

donde Zobs = (X̄ − µ0 )/(σ/ n). Algunas caracterı́sticas de este
procedimiento son:
1. Rechazar o no rechazar H0 depende de la elección de α.
Por ejemplo, si Zobs = 1, 73 y α = 0, 05 entonces
z(1 − α) = z(1 − 0, 05) = 1, 645 y la decisión será rechazar H0 .
Pero, si α = 0, 025 entonces z(1 − α) = z(1 − 0, 025) = 1, 960 y la
decisión será no rechazar H0 .

92 / 155
3. El nivel de significancia α permite rechazar o no rechazar H0 pero
no permite diferenciar el grado de evidencia que hay a favor o en
contra de H0 .
Por ejemplo, para α = 0, 05 se tiene que
z(1 − α) = z(1 − 0, 05) = 1, 645 y en consecuencia tanto para
Zobs1 = 1, 73 como para Zobs2 = 3, 41 la decisión es rechazar H0 .
Sin embargo, Zobs2 = 3, 41 ofrece mayor evidencia en contra de H0 .

El valor p permite enfrentar los dos problemas anteriores: permite evaluar


el peso de la evidencia muestral en contra de H0 y tomar una decisión
para cualquier α.

93 / 155
Se define el valor p de una regla de decisión como la probabilidad de
obtener una discrepancia mayor o igual a la observada en la muestra
cuando H0 es cierta.
Esto es equivalente a encontrar el mı́nimo valor de α para el cual
rechazamos H0 . Esto es, se rechaza H0 para cualquier α tal que valor
p ≤ α.
En el caso de pruebas para la media de una población normal con
varianza σ 2 conocida tal como H0 : µ = µ0 v/s H0 : µ > µ0 la medida
de discrepancia observada
√ en la muestra cuando H0 : µ = µ0 es cierta es
Zobs = (X̄ − µ0 )/(σ/ n) y el valor p de acuerdo a la definición es

p = P (Z ≥ Zobs )

Siempre es deseable que el valor p sea lo más grande posible. En general


mayor a 0, 1

94 / 155
Pruebas para la media

Resumen de las pruebas para la media de una población Normal con


media µ y varianza σ 2 conocida. Los supuestos son:
I X1 , X2 , . . . , Xn es una muestra aleatoria de una población normal
con media µ y varianza conocida σ 2 .
I Se quieren probar hipótesis respecto a µ cuyo estimador es µ̂ = X̄.
Las pruebas se resumen en el Cuadro

X̄ − µ0
Estadı́stica de prueba: Z= √ ∼ N (0; 1)
σ/ n
Hipótesis Hipótesis
Nula Alternativa Rechace H0 si Valor p
H0 : µ = µ0 H1 : µ 6= µ0 Zobs > z(1 − α/2) ó Zobs < z(α/2) 2P (Z >| Zobs |)
H0 : µ ≤ µ0 H1 : µ > µ0 Zobs > z(1 − α) P (Z > Zobs )
H0 : µ ≥ µ0 H1 : µ < µ0 Zobs < z(α) P (Z < Zobs )

95 / 155
Pruebas para la media de una población normal con
varianza desconocida

Los supuestos son:


I X1 , X2 , . . . , Xn es una muestra aleatoria de una población normal
con media µ y varianza σ 2 desconocida.
I Se quieren probar hipótesis respecto a µ cuyo estimador es µ̂ = X̄.
I Se usa el estimador insesgado de σ 2 dado por
S 2 = (Xi − X̄)/(n − 1).
P

X̄ − µ0
I La estadı́stica de prueba Z = √ ∼ N (0; 1) se reemplaza por
σ/ n
X̄ − µ0
T = √ ∼ tn−1 .
S/ n

96 / 155
X̄ − µ0
Estadı́stica de prueba: T = √ ∼ tn−1
S/ n
Hipótesis Hipótesis
Nula Alternativa Rechace H0 si Valor p
H0 : µ = µ0 H1 : µ 6= µ0 Tobs > tn−1 (1 − α/2) ó Tobs < tn−1 (α/2) 2P (T >| Tobs |)
H0 : µ ≤ µ0 H1 : µ > µ0 Tobs > tn−1 (1 − α) P (T > Tobs )
H0 : µ ≥ µ0 H1 : µ < µ0 Tobs < tn−1 (α) P (T < Tobs )

97 / 155
Ejercicio:

Las tarifas de la empresa Telemarketing SA se basan en la hipótesis de


que una encuesta telefónica se puede contestar totalmente en 10 minutos
o menos. Si es necesario un mayor tiempo de encuesta, se aplica una
tarifa adicional. Suponga que en una muestra de 48 encuestas telefónicas
se obtiene una media de 10,9 minutos y una desviación estándar de 1,2
minutos. ¿Se justifica la tarifa adicional?

a) Planteé las hipótesis nula y alternativa.


b) Calcule el valor de la estadı́stica de prueba.
c) Con α = 0, 01 ¿Cuál es su conclusión?

98 / 155
Solución
a) H0 : µ ≤ 10 v/s H1 : µ > 10
10,9−10
b) Tobs = √
1,2/ 48
≈ 5, 196
c) Con α = 0, 01 el punto critico es t47 (1 − 0, 01) = 2, 408
Como Tobs =≈ 5, 196 > 2, 408 = t47 se rechaza H0 .

99 / 155
Pruebas para la media usando el teorema del lı́mite central

Ahora se usará el Teorema del Lı́mite Central para establecer reglas de


decision que involucran hipótesis respecto a la media de una población
con una distribución de probabilidad cualquiera. Los supuestos son:
I X1 , X2 , . . . , Xn es una muestra aleatoria de una población con
media µ y varianza σ 2 .
I Se quieren probar hipótesis respecto a µ cuyo estimador es µ̂ = X̄.
I El Teorema del Lı́mite Central permite establecer que para n grande

la estadı́stica Z = (X̄ − µ)/(σ/ n) tiene una distribución
aproximadamente normal .

100 / 155
X̄ − µ0
Estadı́stica de prueba: Z= √ ≈ N (0; 1)
σ/ n
Hipótesis Hipótesis
Nula Alternativa Rechace H0 si Valor p
H0 : µ = µ0 H1 : µ 6= µ0 Zobs > z(1 − α/2) ó Zobs < z(α/2) 2P (Z >| Zobs |)
H0 : µ ≤ µ0 H1 : µ > µ0 Zobs > z(1 − α) P (Z > Zobs )
H0 : µ ≥ µ0 H1 : µ < µ0 Zobs < z(α) P (Z < Zobs )

101 / 155
Pruebas para una proporción

La aplicación más frecuente e importante del uso Teorema del Lı́mite


Central tiene relación con pruebas de hipótesis respecto a una proporción
p en el caso Bernoulli. Los supuestos son:
I X1 , X2 , . . . , Xn es una muestra aleatoria de una población Bernoulli
con media o proporción p.
I Se quiere probar la hipótesis H0 : p = p0 versus alternativas
unilaterales o bilateral.
I El Teorema del Lı́mite Centralp permite establecer que para n grande
la estadı́stica Z = (p̂ − p)/ p(1 − p)/n) tiene una distribución
aproximadamente normal estándar N (0; 1) y puede ser usada como
una estadı́stica de prueba donde p̂ = X̄ es el estimador de p.
p
I Bajo H0 la estadı́stica de prueba Z = (p̂ − p0 )/ p0 (1 − p0 )/n)
también tiene una distribución aproximadamente normal estándar
N (0; 1)

102 / 155
p̂ − p0
Estadı́stica de prueba: Z=p ≈ N (0; 1)
p0 (1 − p0 )/n
Hipótesis Hipótesis
Nula Alternativa Rechace H0 si Valor p
H0 : p = p0 H1 : p 6= p0 Zobs > z(1 − α/2) ó Zobs < z(α/2) 2P (Z >| Zobs |)
H0 : p ≤ p0 H1 : p > p0 Zobs > z(1 − α) P (Z > Zobs )
H0 : p ≥ p0 H1 : p < p0 Zobs < z(α) P (Z < Zobs )

103 / 155
Ejercicio:

En sus funciones de analista de marketing recién contratado en industrias


IMPG se le encarga garantizar que más del 10% de las personas que
trabajan en el rubro del aseo conozca su nueva lı́nea de productos. De
300 personas encuestados, 36 manifiestan conocerla.
a) Indique población, variable en estudio, distribución supuesta y
parámetro de interés.
b) ¿Para α = 0, 01 se puede inferir de estos datos que usted ha cumplido
con su trabajo? Planteé las hipótesis adecuadas.

104 / 155
Solución
a) Población: La población estadı́stica es el conjunto de los niveles de
conocimiento de todas las personas que trabajan en el rubro del aseo del
paı́s respecto a la nueva lı́nea de productos de la industria IMPG
Variable: La variable aleatoria subyacente X es el nivel de conocimiento
de las personas que trabajan en el rubro del aseo del paı́s respecto a la
nueva lı́nea de productos de la industria IMPG.
Distribución: Se supone que el nivel de conocimiento X es Bernoulli de
parámetro p con dos niveles: la personas conoce el producto y la persona
no conoce el producto.
Parámetro: El parámetro poblacional de interés es la proporción p de
personas que trabajan en el rubro del aseo del paı́s que conoce la nueva
lı́nea de productos de la industria IMPG.

105 / 155
b) Hipótesis: H0 : p ≤ 0, 1 v/s H1 : pp
> 0, 1
Estadı́stica de prueba: Z = (p̂ − p0 )/ p0 (1 − p0 )/n con p0 = 0, 1
En este problema se tienen los siguientes datos: p0 = 0, 1; n = 300;
p̂ = 36/300 = 0, 12. Entonces, el valor observado de la estadı́stica de
prueba es
p
Zobs = (0, 12 − 0, 10)/ 0, 1(0, 9)/300 ≈ 1, 15

Valor crı́tico: z(1 − 0, 01) ≈ 2, 326


Decisión: Como valor Zobs ≈ 1, 15 < 2, 326 = z(0, 95) no se rechaza H0 .
Conclusión: La muestra es fuertemente consistente con H0 : p ≤ 0, 1 y
por tanto no hay evidencia muestral que apoye fuertemente la idea de
que se ha cumplido con la meta de que más del 10% de las personas que
trabajan en el rubro del aseo conozca el nuevo producto.

106 / 155
Pruebas para la varianza

Los supuestos son:


I X1 , X2 , . . . , Xn es una muestra aleatoria de una población normal
con media µ y varianza σ 2 .
I Se quieren probar hipótesis respecto a σ 2 tal como H0 : σ 2 = σ02 .
I Se usa el estimador insesgado de σ 2 dado por
S 2 = (Xi − X̄)/(n − 1) y la estadı́stica de prueba
P
(n − 1)S 2
Q= ∼ χ2n−1 .
σ02

107 / 155
(n − 1)S 2
Estadı́stica de prueba: Q= ∼ χ2n−1
σ02
Hipótesis Hipótesis
Nula Alternativa Rechace H0 si Valor p
H0 : σ 2 = σ02 H1 : σ 2 6= σ02 Qobs > χ2n−1 (1 − α/2) ó 2min{P (Q > Qobs ),
Qobs < χ2n−1 (α/2) P (Q < Qobs )}
H0 : σ 2 ≤ σ02 H1 : σ 2 > σ02 Qobs > χ2n−1 (1 − α) P (Q > Qobs )
H0 : σ 2 ≥ σ02 H1 : σ 2 < σ02 Qobs < χ2n−1 (α) P (Q < Qobs )

108 / 155
Ejemplo:

Un laboratorio farmaceútico está dispuesto a cambiar el proceso de


envasado de medicamentos en pastillas de 6 mg si la desviación estándar
del peso de cada unidad es de 0,5 mg o menos. Un muestra de pastillas
de 6 mg envasadas con el nuevo proceso dió los siguientes pesos por
pastilla.
5,12 5,75 6,41 5,98 5,70 5,57 6,28 5,96 5,87 6,26
5,69 6,33 5,59 5,46 6,14 6,12 5,72 5,72 5,94
¿Cree usted que la muestra apoya la idea de que el nuevo proceso de
envasado cumple con el requisito para la desviación estándar del peso de
las pastillas?Utilice α = 0, 05

109 / 155
Solución
Aquı́ suponemos que el peso de las pastillas X sigue una distribución
normal con media µ y varianza σ 2 . Las hipótesis a contrastar son,

H0 : σ 2 > 0, 052 v/s H1 : σ 2 ≤ 0, 052

En este caso n = 19, S 2 ≈ 0, 1111 y σ0 = 0, 5. La estadı́stica de prueba


observada es
(n − 1)S 2 (19 − 1)0, 1111
Qobs = 2 = ≈ 8, 0
σ0 0, 52

El valor crı́tico es χ218 (0, 05) = 9, 39 .

Qobs ≈ 8, 0 < 9, 39 = χ218 (0, 05)

La conclusión es que la muestra ofrece cierta evidencia en contra de H0 y


por tanto se puede aceptar que el nuevo proceso de envasado cumple con
el requisito de que la desviación estándar del peso de las pastillas se igual
o menor que 0,5 mg.
110 / 155
Clase 17: Inferencia

Clase 18: Propiedades de los estimadores

Clase 19: Intervalos de confianza I

Clase 20: Intervalos de confianza II

Clase 21: Pruebas de Hipótesis I

Clase 22: Pruebas de Hipótesis II

Clase 23: Comparación de medias - Comparación de proporciones -


comparación de Varianzas

Clase 24: Resumen - Ejercicios

111 / 155
La clase pasada vimos pruebas de hipótesis para los siguientes parámetros
y escenarios:
I Pruebas para la media µ con σ conocida.
I Pruebas para la media µ con σ desconocida.
I Pruebas para la media µ usando el teorema del lı́mite central.
I Pruebas para una proporción p de una población.
I Pruebas de la varianza σ 2 .

En todos estos casos hemos realizado hipótesis para un parámetro de una


población.
Ahora estamos interesados en construir pruebas e intervalos de confianza
para las diferencias que pueden haber entre parámetros de distintas
poblaciones.

112 / 155
Comparación de medias

Supongamos que estamos en presencia de dos muestras provenientes de


dos poblaciones distintas pero con caracterı́sticas en común y estamos
interesados en evaluar si las medias de ambas poblaciones difieren en una
cantidad D0 .
Sean µ1 y µ2 las respectivas medias e ambas poblaciones

 H1 : µ1 − µ2 6= D0
H0 : µ1 − µ2 = D0 vs H1 : µ1 − µ2 < D0
H1 : µ1 − µ2 > D0

Para esto tomaremos una muestra X1 , X2 , . . . , Xn1 de tamaño n1 de la


población con distribución normal N (µ1 ; σ12 ) y una muestra
Y1 , Y2 , . . . , Yn2 de tamaño n2 de la otra población con distribución
normal N (µ2 ; σ22 ). Además asumiremos que las muestras son
independientes.

113 / 155
Comparación de medias: Varianzas conocidas
En este caso las varianzas poblacionales σ12 y σ22 son conocidas.
I La esperanza de X̄ − Ȳ es E(X̄ − Ȳ ) = E(X̄) − E(Ȳ ) = µ1 − µ2
I Por la independencia la varianza de X̄ − Ȳ es:

σ12 σ2
V ar(X̄ − Ȳ ) = V ar(X̄) + V ar(Ȳ ) = + 2
n1 n2
I Como se trata de dos muestras normales, entonces las distribuciones
de X̄ y Ȳ son normales. En consecuencia, X̄ − Ȳ también tiene
distribución normal.
σ12 σ22
 
X̄ − Ȳ ∼ N µ1 − µ2 ; +
n1 n2

(X̄ − Ȳ ) − (µ1 − µ2 )
⇔Z= q 2 ∼ N (0; 1)
σ1 σ22
n1 + n2

114 / 155
Comparación de medias: Varianza conocida
Test de hipótesis:

Cuando H0 : µ1 − µ2 = D0 es verdadera se obtiene la estadı́stica de


prueba,
(X̄ − Ȳ ) − D0
Z= q 2 ∼ N (0; 1)
σ1 σ22
n1 + n2

(X̄ − Ȳ ) − D0
Estadı́stica de prueba: Z= q 2 ∼ N (0; 1)
σ1 σ22
n1 + n2
Hipótesis Hipótesis
Nula Alternativa Rechace H0 si Valor p
H0 : µ1 − µ2 = D0 H1 : µ1 − µ2 6= D0 |Zobs | > z(1 − α/2) 2P (Z >| Zobs |)
H0 : µ1 − µ2 ≤ D0 H1 : µ1 − µ2 > D0 Zobs > z(1 − α) P (Z > Zobs )
H0 : µ1 − µ2 ≥ D0 H1 : µ1 − µ2 < D0 Zobs < z(α) P (Z < Zobs )

115 / 155
Comparación de medias: Varianza conocida
Intervalo de confianza :

El intervalo de confianza del (1 − α)100% para estimar la diferencia de


medias µ1 − µ2 con σ12 y σ22 conocidas resulta ser
s
σ12 σ2
IC(µ1 − µ2 ) = (X̄ − Ȳ ) ± + 2 z(1 − α/2)
n1 n2

116 / 155
Ejemplo:

Una ISAPRE reune datos sobre los dı́as de hospitalización de pacientes


sometidos a una cirugı́a por bypass coronario. Dos muestras aleatorias de
clı́nicas distintas proporcionan los siguientes resultados.
Clı́nica SuperSalud Clı́nica Las Rosas
Tamaño de la muestra 67 42
Media de la muestra 6,8 8,3
Desviación estándar de la muestra 1,2 1,6

¿Cree usted que las muestras apoyan la sospecha de la ISAPRE de que la


Clı́nica Las Rosas emplea tiempos de hospitalización diferentes a los de la
Clı́nica SuperSalud para cirugı́as por bypass coronario?

117 / 155
Solución:
Los tiempos de hospitalización en ambas clı́nicas son modelados con
distribuciones normales con varianzas σ12 y σ22 desconocidas. Como los
tamaños de muestras son grandes se puede usar la aproximación normal.
Las hipótesis de la ISAPRE son:
H0 : µ1 − µ2 = 0 v/s H0 : µ1 − µ2 6= 0
El valor observado de la estadı́stica de prueba es
(X̄ − Ȳ ) − D0 (6, 8 − 8, 3) − 0
Zobs = q 2 2
= q ≈ −5, 22
S1 S2 1,22 1,62
n1 + n2 67 + 42

El valor p es P (Z > |Zobs |) = 2P (Z > 5, 22) ≈ 0, 0000 y por tanto se


rechaza H0 .
También se puede usar la estimación con un intervalo de 99% de
confianza.
r
1, 22 1, 62
IC(µ1 − µ2 ) ≈ (6, 8 − 8, 3) ± + 2, 576 = [−2, 24; −0, 76]
67 42
El 0 no pertenece al intervalo [−2, 24; −0, 76] y por tanto se rechaza H0 .
118 / 155
Comparación de medias: Varianzas desconocidas pero
iguales

Los supuestos en este caso son:


1. X1 , X2 , . . . , Xn1 es una muestra aleatoria de una población normal
N (µ1 ; σ12 ) e Y1 , Y2 , . . . , Yn2 es una muestra aleatoria de otra
población normal N (µ2 ; σ22 ).
2. Las varianzas σ12 y σ22 son desconocidas pero iguales a σ 2
3. Ambas muestras son independientes.
Bajo estos supuestos la cantidad pivotal queda en la forma

(X̄ − Ȳ ) − (µ1 − µ2 )
Z= q ∼ N (0; 1)
σ n11 + n12

119 / 155
Comparación de medias: Varianzas desconocidas pero
iguales
Prueba de hipótesis
La estadı́stica de prueba cuando H0 : µ1 − µ2 = D0 es verdadero es,

(X̄ − Ȳ ) − D0
T = q ∼ tn1 +n2 −2
Sp n11 + n12

con
(n1 − 1)S12 + (n2 − 1)S22
Sp2 =
n1 + n2 − 2

(X̄ − Ȳ ) − D0
Estadı́stica de prueba: T = q ∼ tn1 +n2 −2
Sp n11 + n12
Hipótesis Hipótesis
Nula Alternativa Rechace H0 si Valor p
H0 : µ1 − µ2 = D0 H1 : µ1 − µ2 =
6 D0 |Tobs | > tn1 +n2 −2 (1 − α/2) 2P (T >| Tobs |)
H0 : µ1 − µ2 ≤ D0 H1 : µ1 − µ2 > D0 Tobs > tn1 +n2 −2 (1 − α) P (T > Tobs )
H0 : µ1 − µ2 ≥ D0 H1 : µ1 − µ2 < D0 Zobs < tn1 +n2 −2 (α) P (T < Tobs )

120 / 155
Comparación de medias: Varianzas desconocidas pero
iguales
Intervalo de confianza:

Pivotendo en torno a la ecuación anterior como es usual se obtiene un


intervalo de confianza para estimar la diferencia de medias µ1 − µ2 para
el caso de dos muestras normales independientes, con varianzas
poblacionales σ12 y σ22 desconocidas pero iguales.
r
1 1
IC(µ1 − µ2 ) = (X̄ − Ȳ ) ± Sp + tn +n −2 (1 − α/2)
n1 n2 1 2

121 / 155
Ejemplo:

Se está investigando el efecto que tiene en las ventas un nuevo envase de


agua mineral. Se seleccionó una muestra de 38 grandes supermercados y
en forma aleatoria 22 de ellos recibieron el agua con el nuevo envase y 16
de ellos continuaron recibiendo el agua con el antiguo envase. Las ventas
durante el mes que duró el estudio tuvieron las siguientes medias y
desviaciones estándar para el número de botellas vendidas.
Caja nueva Caja antigua
Media de la muestra 521 cajas 437 cajas
Desviación estandar de la muestra 41 cajas 50 cajas
Tamaño de la muestra 22 16
¿La información en muestra apoya la idea de que el nuevo envase
aumenta las ventas?

122 / 155
Solución:
Se supondrá que el número de botellas vendidas nuevas y antiguas siguen
distribuciones normales con medias µ1 y µ2 respectivamente. También se
supondrán varianzas poblacionales desconocidas pero iguales. Las
hipótesis son:

H0 : µ1 − µ2 ≤ 0 v/s H1 : µ1 − µ2 > 0

la estimación de la varianza común es


(22 − 1)412 + (16 − 1)502
Sp2 = = 2022, 250
22 + 16 − 2

Entonces Sp = 2022, 250 ≈ 44, 97 y el valor observado de la estadı́stica
de prueba es,
(521 − 437) − 0
Tobs = q ≈ 5, 69
1 1
44, 97 22 + 16

El valor p es p = P (T > Tobs ) = P (T > 5, 69) ≈ 0, 0000 con T ∼ t36 .


Por tanto, la muestra ofrece fuerte evidencia en contra de H0

123 / 155
Solución:

La respuesta también puede darse usando un intervalo de estimación para


la diferencia de medias. Escogiendo una confianza de 99% se tiene,
r
1 1
IC(µ1 − µ2 ) = (521 − 437) ± 44, 97 + t36 (1 − 0, 005)
22 16
= 84 ± 14, 7754(2, 719) = 84 ± 40, 18
≈ [43, 82 ; 124, 18]

Como el 0 no pertenece a este intervalo, concluimos con 99% de


confianza que el volúmen de ventas es diferente para el envase nuevo y
antiguo. Más aún, estimamos con un 99% de confianza que con el
envase nuevo se venden en promedio entre 43,82 y 124,18 cajas más que
con el envase antiguo. Por tanto la muestra sugiere que el nuevo envase
aumenta las ventas del cereal.

124 / 155
Comparación de medias: Varianzas desconocidas y
distintas
Los supuestos en este caso son:
1. X1 , X2 , . . . , Xn1 es una m.a. de una población normal N (µ1 ; σ12 ) e
Y1 , Y2 , . . . , Yn2 es una m.a. de otra población normal N (µ2 ; σ22 ).
2. Las varianzas σ12 y σ22 son desconocidas y distintas.
3. Ambas muestras son independientes.
En este caso lo razonables es reemplazar las varianzas desconocidas σ12 y
σ22 por sus estimadores insesgados S12 y S22 . El resultado es una
estadı́stica de prueba con distribución t-student.

2
(X̄ − Ȳ ) − (µ1 − µ2 ) S12 /n1 + S22 /n2
T = ∼ tν , ν= 
(S12 /n1 )2 (S22 /n2 )2
q 2
S1 S22
+ n1 −1 + n2 −1
n1 n2

Se recomienda redondear ν al entero inferior más cercano.

125 / 155
Comparación de medias: Varianzas desconocidas y
distintas
Prueba de hipótesis

(X̄ − Ȳ ) − D0
Estadı́stica de prueba: T = q ∼ tν
Sp n11 + n12
Hipótesis Hipótesis
Nula Alternativa Rechace H0 si Valor p
H0 : µ1 − µ2 = D0 H1 : µ1 − µ2 =
6 D0 |Tobs | > tν (1 − α/2) 2P (T >| Tobs |)
H0 : µ1 − µ2 ≤ D0 H1 : µ1 − µ2 > D0 Tobs > tν (1 − α) P (T > Tobs )
H0 : µ1 − µ2 ≥ D0 H1 : µ1 − µ2 < D0 Zobs < tν (α) P (T < Tobs )

126 / 155
Comparación de medias: Varianzas desconocidas y
distintas
Intervalo de confianza:
Se obtiene un intervalo de confianza para estimar la diferencia de medias
µ1 − µ2 para el caso de dos muestras normales independientes, con
varianzas poblacionales σ12 y σ22 desconocidas y distintas.
s
S12 S2
IC(µ1 − µ2 ) = (X̄ − Ȳ ) ± + 2 tν (1 − α/2)
n1 n2

Como antes, si los tamaños muestrales n1 y n2 son suficientemente


grandes entonces ν también lo es y los cuantiles tν (1 − α/2) resultan
próximos a los cuantiles z(1 − α/2) y el intervalo queda en forma
aproximada como
s
S12 S2
IC(µ1 − µ2 ) ≈ (X̄ − Ȳ ) ± + 2 z(1 − α/2)
n1 n2

127 / 155
Ejemplo: Continuación

Una ISAPRE reune datos sobre los dı́as de hospitalización de pacientes


sometidos a una cirugı́a por bypass coronario. Dos muestras aleatorias de
clı́nicas distintas proporcionan los siguientes resultados.

Clı́nica SuperSalud Clı́nica Las Rosas


Tamaño de la muestra 67 42
Media de la muestra 6,8 8,3
Desviación estándar de la muestra 1,2 1,6
¿Cree usted que las muestras apoyan la sospecha de la ISAPRE de que la
Clı́nica Las Rosas emplea tiempos de hospitalización superiores a los de la
Clı́nica SuperSalud para cirugı́as por bypass coronario?

128 / 155
Solución:
Ahora se supone que los tiempos de hospitalización en ambas clı́nicas son
modelados con distribuciones normales con varianzas σ12 y σ22
desconocidas y distintas.
Las hipótesis a contrastar para evaluar la sospecha de la ISAPRE son:

H0 : µ1 − µ2 ≥ 0 v/s H0 : µ1 − µ2 < 0

El valor observado de la estadı́stica de prueba es

(X̄ − Ȳ ) − D0 (6, 8 − 8, 3) − 0
Tobs = q 2 = q ≈ −5, 22
S1 S22 1,22 1,62
n1 + n2 67 + 42

Los grados de libertad son:


2 2
S12 /n1 + S22 /n2 1, 22 /67 + 1, 62 /42
ν= =  ≈ 69
(S12 /n1 )2 (S22 /n2 )
2 (1,22 /67)2 (1,62 /42)
2

n1 −1 + n2 −1 76−1 + 42−1

El valor p es p = P (T < Tobs ) = P (T < −5, 22) ≈ 0, 0000 con T ∼ t69 y


por tanto se rechaza H0 .
129 / 155
Comparación de medias con Teorema del Lı́mite Central

Los supuestos en este caso son:


1. Se quiere probar la hipótesis nula H0 : µ1 − µ2 = D0 contra una
alternativa bilateral o unilateral.
2. Se una m.a. X1 , X2 , . . . , Xn1 de una población con media µ1 y
varianza σ12 y se toma una muestra aleatoria Y1 , Y2 , . . . , Yn2 de la
otra población que tiene una media µ2 y una varianza σ22 .
3. Las muestras son independientes entre si.
4. Los tamaños de muestra n1 y n2 son suficientemente grandes como
para aproximar las distribuciones de las medias muestrales X̄ y Ȳ
por distribuciones normales.

130 / 155
El TLC para dos poblaciones establece que la distribución de la estadı́stica

(X̄ − Ȳ ) − (µ1 − µ2 )
Z= q 2
σ1 σ22
n1 + n2

tiende a la distribución N (0, 1) cuando n1 → ∞ y n2 → ∞.


En general, para n1 ≥ 30 y n2 ≥ 30 la estadı́stica anterior tiene una
distribución que puede ser aproximada por una distribución normal
estándar.
Esa estadı́stica de prueba sigue teniendo distribución normal en forma
aproximada si las varianzas σ12 y σ22 son desconocidas y reemplazadas por
estimadores adecuados σ̂12 y σ̂22 ,

(X̄ − Ȳ ) − (µ1 − µ2 )
Z= q 2
σ̂1 σ̂22
n1 + n2

131 / 155
Comparación de proporciones:
Prueba de Hipótesis

Los supuestos en este caso son:


1. Se tienen dos poblaciones Ber(p1 ) y Ber(p2 ) y se quiere probar la
hipótesis H0 : p1 − p2 = D0 contra una alternativa bilateral o
unilateral.
2. Se toma una m.a. X1 , X2 , . . . , Xn1 de la población Bernoulli con
media µ1 = p1 y otra m.a. Y1 , Y2 , . . . , Yn2 de la población Bernoulli
con media µ2 = p2 .
3. Las muestras son independientes entre si.
4. Los tamaños de muestra n1 y n2 son suficientemente grandes como
para aproximar las distribuciones de las medias muestrales usando el
TLC.

132 / 155
Comparación de proporciones:

Aquı́ los estimadores de p1 y p2 son las proporciones muestrales p̂1 = X̄


y p̂2 = Ȳ . Las varianzas son desconocidas y pueden ser estimadas como
σ̂12 = p̂1 (1 − p̂1 ) = X̄(1 − X̄) y σ̂22 = p̂2 (1 − p̂2 ) = Ȳ (1 − Ȳ ). Entonces,
la estadı́stica de prueba es:

(p̂1 − p̂2 ) − D0
Z=q ≈ N (0; 1)
p̂1 (1−p̂1 ) p̂2 (1−p̂2 )
n1 + n2

133 / 155
Comparación de proporciones:
Prueba de hipótesis

(p̂1 − p̂2 ) − D0
Estadı́stica de prueba: Z=q ≈ N (0; 1)
p̂1 (1−p̂1 ) p̂2 (1−p̂2 )
n1 + n2
Hipótesis Hipótesis
Nula Alternativa Rechace H0 si Valor p
H0 : p1 − p2 = D0 H1 : p1 − p2 =
6 D0 |Zobs | > z(1 − α/2) 2P (Z >| Zobs |)
H0 : p1 − p2 ≤ D0 H1 : p1 − p2 > D0 Zobs > z(1 − α) P (Z > Zobs )
H0 : p1 − p2 ≥ D0 H1 : p1 − p2 < D0 Zobs < z(α) P (Z < Zobs )

134 / 155
Comparación de proporciones:
Intervalo de confianza

El intervalo de confianza aproximado para la diferencia de proporciones


p1 − p2 para tamaños de muestras n1 y n2 grandes es
s
p̂1 (1 − p̂1 ) p̂2 (1 − p̂2 )
IC(p1 − p2 ) ≈ (p̂1 − p̂2 ) ± + z(1 − α/2)
n1 n2

¿Cómo usar este intervalo?


Si 0 ∈ IC(p1 − p2 ), entonces se concluye con (1 − α)100% de confianza
que las muestras sugieren que las proporciones poblacionales son iguales.
De lo contrario, si el 0 no está en el intervalo, las muestras sugieren que
las proporciones son diferentes.

135 / 155
Ejemplo:

Una ONG desea determinar si las tasas de desempleo en dos grandes


ciudades del paı́s son diferentes. Basado en muestras aleatorias de cada
ciudad, cada una de 500 personas, la ONG encuentra 35 personas
desempleadas en un ciudad y 25 en la otra. ¿Bajo las suposiciones
adecuadas existe alguna razón para creer que las tasas de desempleo en
las dos ciudades son diferentes?

136 / 155
Solución:

Las variablea aleatorias X e Y son el estado laboral de los trabajadores


en ambas ciudades clasificados como empleado o desempleado y por
tanto son variables Bernoulli de parámetros p1 y p2 . Las hipótesis a
contrastar son H0 : p1 − p2 = 0 v/s H1 : p1 − p2 6= 0
Los datos son los tamaños de muestra n1 = n2 = 500 y las proporciones
muestrales p̂1 = 35/500 = 0, 07 y p̂2 = 25/500 = 0, 05. El valor
observado de la estadı́stica de prueba e:

(p̂1 − p̂2 ) − D0 (0, 07 − 0, 05) − 0


Zobs = q =q ≈ 1, 33
p̂1 (1−p̂1 ) p̂2 (1−p̂2 ) 0,07(1−0,07) 0,05(1−0,05)
n1 + n2 500 + 500

El valor p es p = 2P (Z >| Zobs |) = 2P (Z > 1, 33) ≈ 0, 1835 y la


muestra es consistente con H0 : p1 − p2 = 0

137 / 155
Las muestras apoyan la idea de que las tasas de desempleo en las dos
ciudades son las mismas (valor p = 0, 1835).
La respuesta también se puede dar usando intervalos de confianza:
q
IC(p1 − p2 ) ≈ (0, 07 − 0, 05) ± 0,007(1−0,07)
500 + 0,05(1−0,05)
500 z(1 − α/2)
IC(p1 − p2 ) ≈ 0, 02 ± 0, 015z(1 − α/2)

Para α = 0, 10, IC(p1 − p2 ) ≈ 0, 02 ± 0, 025 = [−0, 005; 0, 045]


Para α = 0, 05, IC(p1 − p2 ) ≈ 0, 02 ± 0, 029 = [−0, 009; 0, 049]
Para α = 0, 01, IC(p1 − p2 ) ≈ 0, 02 ± 0, 039 = [−0, 019; 0, 059]

Como el cero está en estos intervalos, se puede inferir con confianza igual
o superior al 90% que las tasas de desempleo en las dos grandes áreas
urbanas son iguales.

138 / 155
Comparación de varianzas

Ahora se quieren comparar las variabilidades de dos poblaciones con


distribución normal. Los supuestos en este caso son:
1. Se quiere probar si las varianzas σ12 y σ22 de dos poblaciones
normales son iguales o no. Es decir H0 : σ12 /σ22 = 1 contra una
alternativa unilateral o bilateral.
2. Se toma una m.a. X1 , X2 , . . . , Xn1 de una población normal
N (µ1 ; σ12 ) y se toma una m.a. Y1 , Y2 , . . . , Yn2 de otra población
normal N (µ2 ; σ22 ).
3. Los parámetros µ1 , µ2 , σ12 y σ22 son desconocidos.
4. Ambas muestras son independientes.

139 / 155
Comparación de varianzas

La varianzas poblacionales σ12 y σ22 pueden ser comparadas usando el


2 2
P σ1 /σ2 cuyo
cociente estimador es S12 /S 2
P2 donde 2
2 2 2
S1 = (Xi − X̄) /(n1 − 1) y S2 = (Yi − Ȳ ) /(n2 − 1).
Además,
(n1 − 1)S12 2 (n2 − 1)S22
∼ χ n −1 y ∼ χ2n2 −1
σ12 1
σ22
El cociente de estas distribuciones chi-cuadrados divididas por sus grados
de libertad genera una estadı́stica con distribución F .
2
(n1 −1)S1
2
σ1
(n1 −1) S12 σ22
F = = ∼ Fn1 −1;n2 −1
2
(n2 −1)S2
2
S22 σ12
σ2
(n2 −1)

140 / 155
Cuando la hipótesis nula H0 : σ12 /σ22 = 1 es verdadera la estadı́stica
anterior se transforma en la estadı́stica de prueba para comparar
varianzas dada por,
S2
F = 12 ∼ Fn1 −1;n2 −1
S2

S12
Estadı́stica de prueba: F = ∼ Fn1 −1;n2 −1
S22
Hipótesis Hipótesis
Nula Alternativa Rechace H0 si Valor p
H0 : σ12 /σ22 = 1 H1 : σ12 /σ22 6= 1 Fobs > Fn1 −1;n2 −1 (1 − α/2) ó min{2P (F > Fobs );
Fobs < Fn1 −1;n2 −1 (α/2) 2P (F < Fobs )}
H0 : σ12 /σ22 ≤ 1 H1 : σ12 /σ22 > 1 Fobs > Fn1 −1;n2 −1 (1 − α) P (F > Fobs )
H0 : σ12 /σ22 ≥ 1 H1 : σ12 /σ22 < 1 Fobs < Fn1 −1;n2 −1 (α) P (F < Fobs )

141 / 155
Comparación de varianzas
Intervalo de confianza

Sean Fn1 −1;n2 −1 (α/2) y Fn1 −1;n2 −1 (1 − α/2) los valores de la variable
F que dejan hacia la izquierda probabilidades (α/2) y (1 − α/2),
entonces un intervalo del (1 − α)100% de confianza para estimar el
cociente σ12 /σ22 es
 2  2
S12

σ1 S1
IC = Fn −1;n2 −1 (α/2); 2 Fn1 −1;n2 −1 (1 − α/2)
σ22 S22 1 S2

142 / 155
Resumen de Pruebas de hipótesis:
Pruebas para un parámetro:
I Pruebas para la media caso población normal:
I Con varianza conocida.
I Con varianza desconocida.
I Pruebas para la media de una población cualquiera via TLC.
I Pruebas para una proporción de una población Bernoulli.
I Pruebas para la varianza de una población normal.

Comparación de parámetros:
I Comparación de medias de poblaciones normales.
I Con varianzas conocidas.
I Con varianzas desconocidas pero iguales.
I Con varianzas desconocidas y distintas.
I Comparación de medias via TLC.
I Comparación de proporciones de poblaciones Bernoulli.
I Comparación de varianzas de una población normal.

Lo más recomendable al momento de resolver un ejercicio es identificar a


cual de los escenarios corresponde y utilizar las fórmulas presentadas
143 / 155
Ejercicio 1:
El SIMCE aplicó un nuevo tipo de prueba de Matemática a tres grupos
de 30 estudiantes seleccionados aleatoriamente en tres escuelas
diferentes. La desviación estándar y el promedio de las puntuaciones
obtenidas aparecen en la siguiente tabla.
Escuela 1 Escuela 2 Escuela 3
n 30 30 30
S 12 9 10
X̄ 243 210 269
Experiencias anteriores permiten asumir que las puntuaciones tienen
distribución normal con media µ1 , µ2 y µ3 y varianza común σ 2 .
a) ¿Qué nivel de significancia α deberı́a usarse para rechazar la hipóteis
nula de que los resultados en la prueba de Matemática en las
escuelas 1 y 2 son iguales?
b) Encuentre un intervalo de confianza del 99% para estimar µ1 − µ2 .
¿Qué concluye?.
c) ¿Hay evidencia en la muestra en favor de la hipótesis de que la
puntuación media en la escuela 3 es mayor a la de la escuela 1?
144 / 155
Solución:

a) Tobs = 12, 05, deberı́a usarse un nivel de significancia α muy


pequeño, cercano a 0 con cuatro decimales porque valor p = 0, 0000
b)
c) H0 : µ1 − µ3 = 0 v/s H1 : µ1 − µ3 < 0, Tobs = −9, 12, valor
p = 0, 0000, la muestra apoya la hipótesis de que la puntuación
media en la escuela 3 es mayor a la de la escuela 1.

145 / 155
Ejercicio 2:

El Instituto de Investigación Agrı́cola está evaluando la producción de dos


nuevas variedades de trigo en 10 parcelas experimentales ubicadas en
distintas localidades agrı́colas. En la mitad de cada parcela se planta una
variedad de trigo y en la otra mitad la otra variedad. Los resultados de la
cosecha en las 10 parcelas aparecen en la siguiente tabla.

Parcela 1 2 3 4 5 6 7 8 9 10
Variedad 1 113 122 118 126 91 108 116 103 99 104
Variedad 2 101 119 103 104 80 97 102 99 87 96

a) ¿Los datos apoyan la hipótesis de que la producción de la Variedad 1


es superior a la producción de la Variedad 2?.
b) Encuentre un intervalo del 98% para estimar la diferencia de medias
en la producción.

146 / 155
Solución:

a) Tobs = 6, 47, valor p = 0, 0000 y los datos apoyan la hipótesis de


que la producción de la Variedad 1 es superior a la producción de la
Variedad 2.
b) IC(µ1 − µ2 ) = 11, 2 ± (1, 7308)(2, 821) ≈ [6, 3; 16, 1].

147 / 155
Ejercicio 3:

El Servicio de Protección del Consumidor (SERPROC) ha recibido varias


quejas de clientes de dos cadenas de tiendas del Retail por cobros
indebidos. SERPROC toma muestras de los estados de cuenta de clientes
de esas tiendas obteniendo los siguientes resultados.

Tienda Cuentas Cuentas con Promedio de Desviación estándar


auditadas cobros los cobros de los cobros
indebidos indebidos indebidos
(miles de $) (miles de $)
A 342 53 4,325 1,837
B 419 98 6,589 2,117
¿La muestra permite establecer que una de esas tiendas supera a la otra
en los cobros indebidos?.

148 / 155
Solución:

Zobs = −2, 77, valor p = 0, 0028 y la muestra apoya la hipótesis de que


la proporción de cuentas con cobros indebidos es mayor en la tienda B
que en la tienda A. Tobs = −15, 79, valor p = 0, 0000 y la muestra apoya
la hipótesis de que el promedio de los cobros indebidos por cuenta es
mayor en la tienda B que en la tienda A.

149 / 155
Ejercicio 4:

Para evaluar la efectividad publicitaria de dos revistas el director de


medios de una agencia publicitaria insertó de manera semejante un
mismo mismo anuncio de una tarjeta de crédito en ambas revistas.
Después de un tiempo, se encontró que 247 de 502 lectores encuestados
de la primera revista y que 143 de 389 lectores de la segunda revista
tenı́an conocimiento de las caracterı́sticas de la tarjeta de crédito (los que
leen ambas revistas se excluyeron). ¿La muestra apoya la hipótesis de
que la proporción de lectores de ambas revistas que conocen las
caracterı́sticas de la tarjeta de crédito es la misma?.

150 / 155
Solución:

Zobs = 3, 76, valor p = 0, 0001 y la hipótesis es rechazada.

151 / 155
Ejercicio 5:

Un inversionista piensa que los riesgos asociados con dos mercados


diferentes son distintos. El riesgo de un mercado dado se mide por la
variación en los cambios diarios de precios. Se obtienen muestras
aleatorias de 21 cambios de precios diarios para ambos mercados cuyos
resultados aparecen en la siguiente tabla.
Mercado 1 Mercado 2
X̄1 = 0, 33 X̄2 = 0, 41
S1 = 0, 21 S2 = 0, 39
¿En qué mercado conviene invertir o da lo mismo?. Justifique su
respuesta planteando y probando hipótesis estadı́sticas adecuadas.

152 / 155
Solución:

Fobs = S12 /S22 = 0, 29; valor p = 0, 0079 y se rechaza igualdad de


varianzas. Tobs = −0, 8277; valor p = 0, 4144. No hay diferencias
significativas en la magnitud de los cambios pero si en la variabilidad.
Conviene invertir en el mercado 1 porque tiene menor riesgo.

153 / 155
Ejercicio 6:

La siguiente tabla muestra los tiempos en minutos para realizar una tarea
con dos métodos diferentes. El interés recae tanto en la media como en
la varianza de dichos tiempos. Se seleccionaron 20 trabajadores
diferentes de modo que aleatoriamente 10 de ellos fueron asignados al
método 1 y los otros 10 al método 2.
Método 1 66 81 67 55 57 60 69 77 79 68
Método 2 61 53 70 65 78 68 55 60 74 56
¿Se puede inferir de la muestra que los tiempos para realizar la tarea con
ambos métodos son iguales?. ¿Qué supuestos son necesarios para
resolver el problema?.

154 / 155
Solución:

Fobs = S12 /S22 = 1, 142; valor p = 0, 8464 y no se rechaza igualdad de


varianzas. Tobs = 0, 9995; valor p = 0, 33 y no se rechaza igualdad de
medias. No hay diferencias significativas en los tiempos medios ni en la
variabilidad de esos tiempos.

155 / 155

También podría gustarte