Estad 5
Estad 5
Curso 2018/19
ii J.M. Corcuera
Índice general
1. Estimación puntual 3
1.1. Modelos estadísticos . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2. Estadísticos y estimadores. . . . . . . . . . . . . . . . . . . . . . 5
1.3. Propiedades de los estimadores. Sesgo y error cuadrático. . . . . 6
1.4. Estadísticos su…cientes . . . . . . . . . . . . . . . . . . . . . . . . 8
1.5. Métodos de estimación . . . . . . . . . . . . . . . . . . . . . . . . 11
1.5.1. Método de máxima verosimilitud . . . . . . . . . . . . . . 12
1.5.2. Método de los momentos . . . . . . . . . . . . . . . . . . 14
1.6. Modelos estadísticos regulares. Cota de Cramer-Rao. . . . . . . . 18
1.7. Modelos exponenciales . . . . . . . . . . . . . . . . . . . . . . . . 23
1.8. Propiedades asintóticas de los métodos de estimación. . . . . . . 28
1.9. Muestras de una población normal . . . . . . . . . . . . . . . . . 33
2. Intervalos de con…anza 39
2.1. Construcción de intervalos a partir de la verosimilitud . . . . . . 39
2.2. Construcción de intervalos a partir de funciones pivotantes. . . . 41
2.3. Problemas de dos muestras. . . . . . . . . . . . . . . . . . . . . . 44
2.3.1. Muestras independientes . . . . . . . . . . . . . . . . . . . 44
2.3.2. Muestras relacionadas . . . . . . . . . . . . . . . . . . . . 45
2.4. Algunos métodos para obtener pivotes . . . . . . . . . . . . . . . 46
2.4.1. Un método bastante general . . . . . . . . . . . . . . . . . 46
2.4.2. Familias de posición y escala . . . . . . . . . . . . . . . . 46
2.4.3. Métodos aproximados . . . . . . . . . . . . . . . . . . . . 47
2.4.4. Un método especial . . . . . . . . . . . . . . . . . . . . . 49
2.4.5. Regiones de con…anza, intervalos simultáneos . . . . . . . 50
3. Test de hipótesis 53
3.1. Test de hipótesis simples . . . . . . . . . . . . . . . . . . . . . . . 54
3.2. Hipótesis compuestas . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.2.1. Construcción de test a partir de intervalos de con…anza . 62
3.2.2. Test de la razón de verosimilitudes. . . . . . . . . . . . . . 64
iii
iv ÍNDICE GENERAL
4. Test Ji-cuadrado 73
4.1. El modelo multinomial . . . . . . . . . . . . . . . . . . . . . . . . 73
4.2. Test de ajuste en el modelo multinomial . . . . . . . . . . . . . . 74
4.2.1. Ajuste a una mutinomial concreta . . . . . . . . . . . . . 74
4.2.2. Ajuste a una familia de mutinomiales . . . . . . . . . . . 77
4.2.3. Test de independencia de dos multinomiales . . . . . . . . 79
4.3. Test Ji-cuadrado de ajuste, independencia y homogeneidad. . . . 84
4.4. Test de ajuste y homogeneidad no paramétricos. . . . . . . . . . 86
4.4.1. La distribución empírica . . . . . . . . . . . . . . . . . . . 86
4.4.2. Test de Kolmogorov-Smirnov . . . . . . . . . . . . . . . . 87
5. El modelo lineal 91
5.1. Estimación de los parámetros . . . . . . . . . . . . . . . . . . . . 92
5.1.1. Propiedades del estimador mínimo-cuadrático . . . . . . . 93
5.1.2. Estimación mínimo cuadrática de 2 : . . . . . . . . . . . 94
5.2. El modelo lineal normal . . . . . . . . . . . . . . . . . . . . . . . 96
5.2.1. Estimación máximo verosímil . . . . . . . . . . . . . . . . 97
5.2.2. Intervalos de con…anza y predicción . . . . . . . . . . . . 97
5.2.3. Contraste de hipótesis . . . . . . . . . . . . . . . . . . . . 98
ÍNDICE GENERAL 1
2 ÍNDICE GENERAL
Capítulo 1
Estimación puntual
3
4 CAPÍTULO 1. ESTIMACIÓN PUNTUAL
X = f0; 1gn ;
F = P(f0; 1gn )
= p
Pn Pn
xi
Pp (x1 ; xn ; :::; xn ) = p i=1 (1 p)n i=1
xi
= (0; 1)
X = (Z+ )n ;
F = P((Z+ )n )
= Pn
i=1
xi
n
P (x1 ; xn ; :::; xn ) = e n x !
i=1 i
= (0; +1)
Ejemplo 1.1.4 (Modelo Gaussiano) Modelo normal con media y varianza de-
sconocidas es un modelo inducido por n normales independientes de parámetros
( ; 2 ):
X = Rn ;
F = B(Rn )
= ( ; )
n
1 1 X
f( ; ) (x1 ; xn ; :::; xn ) = p n expf 2
(xi )2 g
2 n 2 i=1
= ( 1; +1) (0; +1)
T : X !Rk ;
P T (B) = P X (T 1
(B)) = P (X 1
(T 1
(B)))
1 T (X)
= P ((T (X)) (B)) = P (B):
ECM (T ) = E (T g( ))2 ; 2
Ejemplo 1.3.2
ECMp (^
p) p p)2 = V arp (^
= Ep (^ p) = V arp (^
p(X))
1 P n np(1 p)
= V arp (Xi ) =
n2 i=1 n2
p(1 p)
=
n
1.3. PROPIEDADES DE LOS ESTIMADORES. SESGO Y ERROR CUADRÁTICO.7
Desigualdad de Cauchy-Schwarz
Sean X; Y dos variables aleatorias, no constantes, de cuadrado integrable,
entonces 8 2 R
2
0 var( Y + X) = var(Y ) + 2 cov(X; Y ) + var(X)
con lo que p p
jcov(X; Y )j var(X) var(Y ):
Pn Pn 1
e (t xi )
n 1
xi n
e i=1 i=1
i=1 1fxi >0g
= n
n 1e t1
1fPn xi =tg
(n) t
i=1
ft>0g
(n) P
= 1 n :
tn 1 f i=1 xi =t; x(1) >0g
por tanto es idependiente de .
P (X = x; S(X) = s)
P (X = xjS(X) = s) = :
P (S(X) = s)
10 CAPÍTULO 1. ESTIMACIÓN PUNTUAL
y
P (X = x; S(X) = s) = P X (x; S(x) = s) = g(s; )h(x)1fS(x)=sg ;
de manera que
h(x)1fS(x)=sg
P (X = xjS(X) = s) = P :
x:S(x)=s h(x)
((=)
X
P (x) = P (X = x) = P (X = xjS(X) = s)P (S(X) = s)
s:S(x)=s
E (E (T jS)) = E (T ) = g( );
R (T ) := E (L(g( ); T ));
entonces si S es su…ciente
R (E (T jS)) R (T ):
1.5. MÉTODOS DE ESTIMACIÓN 11
y tomando esperanzas
E (E (T jU ) E (T1 jU )) = E (g(U ))
L(x; ) : ! R
7! L(x; ) = f (x)
de manera que Pn
n xi
L(x; ) = e i=1 ; x 2 Rn+
n 1 1
f (x) = i=1 1[0; ] (xi ) = n 1[0; ] (x(n) )
de manera que
1
L(x; ) = n 1[0; ] (x(n) )
1
= n 1[x(n) ;+1) ( )
donde P (N ) = 0; 8 2 :
Como
n
X
@l(x; ) n
= xi = 0
@ i=1
el extremo es
^ (x) = Pnn :
i=1 xi
Es un máximo local:
@ 2 l(x; ) n
= 2 < 0:
@ 2
Como la función es derivable y el máximo local único tenemos un máximo global.
Es inmediato que
^(x) = x(n) :
g: !
! = g( )
L(x; ) = L(x; g 1 ~
( )) := L(x; ):
Por de…nición
~
L(x; ^ ) = sup L(x;
~ ):
2
Ahora bien
~ g(^))
L(x; = L(x; g 1 (g(^))) = L(x; ^)
= sup L(x; ) = sup L(x; g 1 ( ))
2 2
= ~
sup L(x; ):
2
1( ) = E (X1 ) = :
2
Por tanto
=2 1( );
y el estimador de por el método de los momentos será
n
1X
T (x) = 2 xi = 2x:
n i=1
x n 1 1
fX(n) (x) = n 1[0; ](x) ;
entonces Z
x n 1 1 n
E (^) = E (X(n) ) = xn dx = ;
0 n+1
de manera que el estimador tiene sesgo, pero podemos corregirlo si consideramos
el estimador
n + 1^
= :
n
La varianza de será
2 2
var( ) = E( )
2
n+1 2
= E(^ ) 2
n
2
n+1 n 2 2
=
n n+2
2
= ;
n(n + 2)
1.5. MÉTODOS DE ESTIMACIÓN 15
implica que
n
1X
^ (x) = xi = x:
n i=1
Es claro que es un máximo local
n
@ 2 l(x; ; ) = 2
<0
n
n 1 X
@ l(x; ; ) = + 3
(xi x)2 = 0;
i=1
de manera que
n
2 1X
^ = (xi x)2 :
n i=1
16 CAPÍTULO 1. ESTIMACIÓN PUNTUAL
Además
n
n 3 X
@ 2 l(x; ; )j =^ = (xi x)2
^2 ^ 4 i=1
2n
= <0
^2
con lo que se trata de un máximo local y absoluto. Así tenemos
Notemos también que este resultado es general, para cualquier modelo (de ob-
servaciones iid) con varianza desconocida, el estimador ^ 2 (varianza muestral),
tiene sesgo y S~2 (varianza muestral corregida) no.
1.5. MÉTODOS DE ESTIMACIÓN 17
Xi = + ri + "i ;
2
con "i normales de media cero y varianza : Entonces
n
X n
X
(xi (~ + ~ ri ))2 = m n (xi ( + ri ))2 :
;
i=1 i=1
n
X n
X
@ (xi ( + ri ))2 = 2 (xi ( + ri ))
i=1 i=1
Xn
@2 (xi ( + ri ))2 = 2n > 0; r
i=1
~=x r:
n
X n
X
@ (xi (~ + ri ))2 = 2 (xi x (ri r))(ri r) = 0;
i=1 i=1
de manera que Pn
(x x)(ri r)
~= Pn i
i=1
;
i=1 ((ri r)2
ya que
n
X n
X
@2 (xi (~ + ri ))2 = 2 ((ri r)2 > 0:
i=1 i=1
18 CAPÍTULO 1. ESTIMACIÓN PUNTUAL
E (@ log L) = 0; 8 2
R R
Demostración. Puesto que X
L(x; )dx = 1, @ X
L(x; )dx = 0 y la
condición ii) equivale a
Z Z
@ L(x; )
0 = @ L(x; )dx = L(x; )dx
L(x; )
ZX X
Corolario 1.6.1
In ( ) = var (@ log L); 8 2 :
In ( ) = E ( @ 2 log L)
1.6. MODELOS ESTADÍSTICOS REGULARES. COTA DE CRAMER-RAO.19
y como
2
@ 2 L(x; ) = @ 2 log L(x; )L(x; ) + (@ log L(x; )) L(x; )
con lo que
n
X
@ log Ln (x1 ; :::; xn ; ) = @ log L1 (xi ; );
i=1
n
X
E (@ log Ln (X)) = E (@ log L1 (Xi )) = 0:
i=1
Finalmente
L1 (x; ) = expf xg
20 CAPÍTULO 1. ESTIMACIÓN PUNTUAL
1
E (@ log L1 ) = E (X):
Pero
Z 1 Z 1
E (X) = x expf xgdx = [ x expf xg]1
0 + expf xgdx
0 0
Z 1
1 1
= expf xgdx = [ expf xg]1
0 =
0
con lo que
E (@ log L1 ) = 0:
Además
Además
1
@ 2 log L1 (x; ) = 2:
g 0 ( )2
var (T ) ;8 2 :
In ( )
Demostración.
Z
@ T (x)L(x; )dx = @ E (T ) = g 0 ( )
X
1.6. MODELOS ESTADÍSTICOS REGULARES. COTA DE CRAMER-RAO.21
Z Z
@ L(x; )
T (x)@ L(x; )dx = T (x) L(x; )dx
X L(x; )
ZX
= T (x)@ log L(x; )L(x; )dx
X
= cov (T; @ log L):
Ya que E (@ log L) = 0: Por tanto
Z Z
@ T (x)L(x; )dx = T (x)@ L(x; )dx
X X
es equivalente a escribir
g 0 ( ) = cov (T; @ log L):
Si ahora aplicamos la desigualdad de Cauchy-Schwarz
g 0 ( )2 var (T )var (@ log L)
El modelo es regular y
P P
xi n xi
@p log L =
p 1 p
P
xi n
= ;
p(1 p) (1 p)
con lo que P
n xi
@p log L = p :
p(1 p) n
Resulta así que P
xi
T (x) =
n
es un estimador e…ciente de p y
n
(p) =
p(1 p)
con lo que
n
In (p) = :
p(1 p)
Ejemplo 1.6.3 Sean n Xi iid Exp( ), ya vimos que el modelo era regular,
n
X
n
L(x1 ; x2 ; :::; xn ; ) = expf xi g
i=1
de manera que
n X
@ log L = xi ;
y P
xi 1
@ log L = n :
n
P
xi 1
Por tanto n es un estimador e…ciente de y
In ( ) In ( )
n= ( )= = 1
g( ) 2
de manera que
n
In ( ) = 2:
1.7. MODELOS EXPONENCIALES 23
2
Ejemplo 1.7.3 Supongamos un modelo de n; observaciones iid N( ; ); cono-
cida. Entonces
n
1 1 X
L(x1 ; x2 ; :::xn ; ) = p n expf 2
(xi )2 g
2 n 2 i=1
n
X n
n 2
1 X
= expf 2
xi 2 2
x2i
i=1
2 2 i=1
n
n log log(2 )g
2
con lo que podemos tomar
n
X 2
n
a( ) = 2
; T (x) = xi ; b( ) = 2
;
i=1
2
n
1 X n
s(x) = 2
x2i n log log(2 ):
2 i=1
2
ja(~) a( )j h;
26 CAPÍTULO 1. ESTIMACIÓN PUNTUAL
1
X
expfa(~)T (x)g expfa( )T (x)g hk 1
jT (x)jk
expfa( )T (x)g
a(~) a( ) k=1
k!
1
= expfa( )T (x)g expfh jT (x)jg
h
1
expfa( )T (x)g (expfhT (x)g + expf hT (x)g)
h
1
= (expf(a( ) + h) T (x)g + expf(a( ) h) T (x)g)
h
Si tomamos h su…cientemente pequeño, como a0 ( ) 6= 0; existirán 1 ; 2 2
tales que
a( ) + h = a( 1 )
a( ) h = a( 2 )
y como
Z
expf b( i )g = expfa( i )T (x)g expfs(x)gdx; i = 1; 2;
X
deduciríamos que
Z
@a( ) T (x) expfa( )T (x) + s(x)gdx
X
Z
= T (x)@a( ) expfa( )T (x) + s(x)gdx
ZX
= T 2 (x) expfa( )T (x) + s(x)gdx < 1 (1.2)
X
De manera que
In ( ) = var (@ log L) = var (a0 ( )T + b0 ( ))
= a0 ( )2 var (T (x)) < 1:
Como a0 ( ) 6= 0 y T (x) no es constante también se cumple que In ( ) > 0: Con
lo que el modelo cumple las condiciones i), ii) y iii) de regularidad.
1.7. MODELOS EXPONENCIALES 27
In ( ) = E ( @ 2 log L)
= E ( a00 ( )T b00 ( ))
00
= a ( )E (T ) b00 ( ):
Como
0 = E (@ log L) = a0 ( )E (T ) + b0 ( );
resultará …nalmente que
b0 ( )
In ( ) = a00 ( ) b00 ( ):
a0 ( )
Observación 1.7.5 Como
@ log L = a0 ( )T (x) + b0 ( );
tendremos que
b0 ( )
@ log L = a0 ( ) T (x) ;
a0 ( )
b0 ( )
con lo que T será un estimador e…ciente de a0 ( ) :
Observación 1.7.6 Como corolario del teorema anterior se obtiene que todo
estimador integrable en un modelo exponencial es regular.
se convierte en
E (g(T )) = 0 para todo 2 = g( );
con
Z
T (x)+b( )+s(x)
E (g(T )) = g(T (x))e dx
X
Z
= g(t)e t+b( ) T 1
(dt)
R
Z
: = g(t)e t+b( ) T
(dt)
R
28 CAPÍTULO 1. ESTIMACIÓN PUNTUAL
1
donde b( ) = b(a ( )) y (dx) = es(x) dx: Por tanto
equivale a Z
t T
g(t)e (dt) = 0 para todo 2 ,
R
Tn : X ! R
(x1 ; x2 ; :::; xn ) ! Tn (x1 ; x2 ; :::; xn ):
2
a veces se denota Tn s AN (g( ); n )
1.8. PROPIEDADES ASINTÓTICAS DE LOS MÉTODOS DE ESTIMACIÓN.29
2 g 0 ( )2
=
I1 ( )
resultará que
p L 1
n(^n (X1 ; X2 ; :::; Xn ) ) ! N 0; :8 2
n!1 I1 ( )
Demostración.
p1 @ log Ln (x; )
n
= 1 2 : (1.3)
n @ log Ln (x; )j = n
Ahora bien
n
1 1 X
p @ log Ln (X1 ; X2 ; :::; Xn ; ) = p @ log L1 (Xi ; ):
n n i=1
Para todo 2 las @ log L1 (Xi ; ) son variables aleatorias iid de media cero
y varianza E ((@ log L1 (Xi ; ))2 ) = I1 ( ): Entonces por el teorema central del
límite
n
1 X L
p @ log L1 (Xi ; ) ! N(0; I1 ( )):
n i=1 n!1
30 CAPÍTULO 1. ESTIMACIÓN PUNTUAL
y las variables @ 2 log L1 (Xi ; ) son iid de esperanza I1 ( ); de manera que por
la ley fuerte de los grandes números
1 2 c:s:
@ log Ln (X1 ; X2 ; :::; Xn ; ) ! I1 ( ):
n n!1
p p1 @ log Ln (X; )
n L N(0; I1 ( )) 1
n(^n (X) )= 1 2 ! = N 0; :
n @ log L n (X; )j = n (X) n!1 I1 ( ) I1 ( )
(1.5)
Para probar (1.4), notemos que
1 2
@ log Ln (X1 ; X2 ; :::; Xn ; ) @ 2 log Ln (X1 ; X2 ; :::; Xn ; n (X))
n
n
1X 2
@ log L1 (Xi ; ) @ 2 log L1 (Xi ; n (X))
n i=1
n
1X
sup @ 2 log L1 (Xi ; ) @ 2 log L1 (Xi ; 1) ;
n i=1 j 1 j<
j n (X)j <
donde hemos podemos aplicar la ley fuerte de los grandes números ya que
!
E sup @ 2 log L1 (Xi ; ) @ 2 log L1 (Xi ; 1)
j 1 j<
2E (h (Xi )):
7! P
Sea k 2 N su…cientemente grande para que L1 (X1 ; ~) sea una variable diferente
de L1 (X1 ; ) si ~ 2 [ + k1 ; 1
k ]. Esto queda garantizado por la hipótesis de
identi…cabilidad local. Entonces por la desigualdad de Jensen como log es una
~
función estrictamente cóncava y L 1 (X1 ; )
L1 (X1 ; ) 6= 1; resultará que
! !
L1 (X1 ; ~) L1 (X1 ; ~)
E log < log E
L1 (X1 ; ) L1 (X1 ; )
Z
L1 (x; ~)
= log L1 (x; )dx
L1 (x; )
ZX
= log L1 (x; ~)dx
X
= log 1 = 0
32 CAPÍTULO 1. ESTIMACIÓN PUNTUAL
ya que
@x1 @xn
@y1 @yn
1
Jg 1 (y) = = det A :
@xn @xn
@y1 @yn
1 1
fY (y) = p n expf (y b)0 (A 1 0
)A 1
(y b)g
2 j det Aj 2
E(Y ) = AE(X) + b = b
Cov(Y ) = E((Y b)(Y b)0 )
= AE(XX 0 )A0
= AA0 =
34 CAPÍTULO 1. ESTIMACIÓN PUNTUAL
ya que A es no singular.
Z = BAX + Bb + c
Y(1) gm
Proposición 1.9.2 Si Y = tiene una ley normal n-dimensional
Y(2) gn m
y Cov(Y(1) ; Y(2) ) = 0; entonces Y(1) e Y(2) son independientes y con ley normal.
Y(1) gm
Demostración. Sea Y = ; Y s Nn (b; ), con =
Y(2) gn m
11 12 gm
. Hagamos el cambio
21 22 gn m
11 0
Cov(Z) = 1 :
0 22 21 11 12
1.9. MUESTRAS DE UNA POBLACIÓN NORMAL 35
De hecho
0
Im 0 11 12 Im 0
1 1
21 11 In m 21 22 21 11 In m
1
Im 0 11 12 Im 11 12
= 1
21 11 In m 21 22 0 In m
1
Im 0 11 11 11 12 + 12
= 1 1
21 11 In m 21 21 11 12 + 22
11 0
= 1 1 :
21 11 11 + 21 21 11 12 + 22
De…nición 1.9.1 Sean Z1 ; :::; Zn iid N (0; 1); entonces Z12 + :: + Zn2 sigue una
ley que se conoce como Ji-cuadrado con n-grados de libertad, se escribe Xn2 : Esto
es
Ley
Xn2 = Z12 + :: + Zn2 ; Zi iid N (0; 1):
Observación 1.9.1 Si Z1 s N (0; 1)
p 1 p 1
fZ12 (u) = fZ1 ( u) p 1(0;1) (u) + fZ1 ( u) p 1(0;1) (u)
2 u 2 u
u
1 e 2 1 u
= p p 1(0;1) (u) = p u1=2 1 e 2 1(0;1) (u);
2 u 2
36 CAPÍTULO 1. ESTIMACIÓN PUNTUAL
esto es
Z12 s Gamma(1=2; 1=2):
Es fácil ver que si W1 sGamma( 1 ; ) y W2 sGamma( 2 ; ) y son indepen-
dientes entonces W1 + W2 sGamma( 1 + 2 ; ); de esta manera la ley Xn2 es
una ley Gamma(n=2; 1=2):
2
Teorema 1.9.1 (Fisher) Si X1 ; :::; Xn son iid con ley N ( ; ) entonces U :=
Pn (Xi X)2
i=1 2 s Xn2 1 independiente de X:
Xi Pn
Demostración. Tomemos Yi = , entonces U = i=1 (Yi Y )2 con Yi
iid N (0; 1): Tenemos que,
n n
!2
X X Y
U= Yi2 nY = Y Y2 0
pi ;
i=1 i=1
n
donde Y = (Y1 ; :::; Yn )0 : Sea T una matriz ortogonal n n con su primera …la
( p1n ; :::;
n) p1
n
) esto es
0 1 1 1
p p
n n
T =@ : : A;
: :
Pn Yi
Sea Z = T Y; entonces Z1 = i=1 pn y Z 0 Z = Y 0 T 0 T Y = Y 0 Y; así
n
!2
X Y
U = 0
Y Y pi
i=1
n
= Z 0Z Z12 = Z22 + :: + Zn2 ;
ftn (x) = p n 1+ :
n (2) 2
1.9. MUESTRAS DE UNA POBLACIÓN NORMAL 37
Notemos también que por la ley de los grandes números y el teorema de Slutsky
X Ley
q ! N (0; 1);
Y n!1
n
la tn es una distribución simétrica como la N (0; 1) pero con las colas más pe-
sadas. La distribución de Student fue descrita en 1908 por William Sealy Gosset.
Gosset trabajaba para la marca de cerveza Guinness y por razones de con…den-
cialidad utilizó el seudónimo de Student.
2
Corolario 1.9.3 (del teorema de Fisher) Si X1 ; :::; Xn son iid con ley N ( ; )
entonces
p X
n s tn 1
S~
donde
n
1 X
S~2 = (Xi X)2 :
n 1 i=1
p Pn 1
Demostración. n X s N (0; 1) y i=1 2 (Xi X)2 s Xn2 1 y son
independientes, entonces por la de…nición de t de Student
p
nX
q Pn s tn 1
1 1
n 1 i=1 2 (Xi X)2
pero
p
nX p X
q Pn = n
1 1
2 (Xi X)2 S~
n 1 i=1
38 CAPÍTULO 1. ESTIMACIÓN PUNTUAL
Capítulo 2
Intervalos de con…anza
Es evidente que nos gustaría tener un intervalo de longitud ~2 (x) ~1 (x) pequeña
(más preciso) frente a uno de longitud grande (impreciso) pero si lo tomamos
más pequeño la seguridad (con…anza) de que el intervalo contenga a también
disminuirá, por tanto debemos buscar un compromiso entre ambas cosas.
Para controlar la seguridad, verosimilitud o con…anza del ”intervalo”podemos
tomar el conjunto de valores de tales que
L(x; ^)
K
L(x; )
para un valor de K no muy grande. Si embargo queda por saber como …jar K:
39
40 CAPÍTULO 2. INTERVALOS DE CONFIANZA
con un próximo a 1.
De…nición 2.1.1 Diremos que los intervalos I(x) para 2 R tienen un coe…-
ciente de con…anza si
P X ( 2 I)
esto es P X fx; 2 I(x)g :
P X (g( ) 2 I)
L(x; ^ ) n
K () expf (x )2 g K
L(x; ) 2 2
o equivalentemente
jx j CK p
n
donde CK es una constante que depende del valor de ”verosimilitud” elegido, K;
pero no de ó n: Finalmente obtenemos
x CK p x + CK p :
n n
2.2. CONSTRUCCIÓN DE INTERVALOS A PARTIR DE FUNCIONES PIVOTANTES.41
Sin embargo, no hay una manera clara de como …jar K o CK : Podemos mirar
cómo se comporta el intervalo [x CK pn ; x + CK pn ] cuando cambiamos la
muestra, en particular
P 2 X CK p ; X + CK p
n n
Ahora bien
P X CK p X + CK p
n n
p
n(X )
= P CK :
2
Sabemos que X s N ( ; n ) de manera que
p
n(X )
s N (0; 1)
bastará tomar CK = 1; 96: Tendremos así, dada una muestra x, que el intervalo
x 1;96 p x + 1;96 p ;
n n
:X g( ) ! R
(x; g( )) 7! (x; g( ))
(X; ) s Xn2 1:
zn 1
fX(n) (z; ) = n n 1[0; ] (z);
entonces
x(n)
(x; ) =
(X; ) s nun 1
1[0;1] (u)
2
proporciona un intervalo de con…anza : En efecto, de aquí aislando obten-
emos
n^ 2 2 n^ 2
Xn2 1; =2 Xn2 1;1 =2
Pn
con ^ 2 = n1 i=1 (xi x)2 :
44 CAPÍTULO 2. INTERVALOS DE CONFIANZA
Xn21 =n1
Xn22 =n2
s~21 = 2
1
s Fn 1 1 ;n2 1
s~22 = 2
2
s~22 2
2 s~22
Fn1 1 ;n2 1;1 =2 2 2 Fn1 1 ;n2 1; =2 2 :
s~1 1 s~1
s~ s~
x y tn 1; =2 p 1 2 x y + tn 1; =2 p
n n
1
Pn
con s~2 = n 1 i=1 (xi yi (x y))2 :
46 CAPÍTULO 2. INTERVALOS DE CONFIANZA
y como 2 Gamma( 2n 2n 1 2
2 ; 1) =Gamma( 2 ; 2 ) = X2n , resultará que
n
X
2
2 log F (Xi ) s X2n
i=1
y por tanto
n
X
(x; ) = 2 log F (xi )
i=1
será una función pivotante para con una distribución que está tabulada.
se dice que es una familia de posición y escala generada por f0 . En tal caso
Yi = (Xi )= tiene densidad f0 (y) y por tanto
x1 x2 xn
(x; ; ) = g( ; :::; )
Distribución Densidad
Normal: N ( ; 2 ) p1
2
expf 12 ( x )2 g
1 x
Laplace: La( ; ) 2 expf j jg
1 1
Cauchy: Cau( ; ) 2
1+( x )
x
Exponencial: Exp( ; ) 1
expf g1(0;1) ( x )
Uniforme: U ( ; + ) 1
1(0;1) ( x )
V ar (T )
P X (x; jT (x) g( )j > ") ;
"2
V ar (T )
por tanto si tomamos 1 = "2 resultará que
con s
V ar (T )
"=
1
de manera que s
V ar (T )
jT (x) g( )j
1
proporciona un intervalo de con…anza ; despejando g( ) obtenemos
s s
V ar (T ) V ar (T )
T (x) g( ) T (x) + :
1 1
48 CAPÍTULO 2. INTERVALOS DE CONFIANZA
con lo que
^ k =2 ^ + qk =2
q
nI1 (^) nI1 (^)
será un intervalo de con…anza aproximadamente ; donde P fN (0; 1) > k =2 g =
=2; y, como siempre, = 1 :
Ejemplo 2.4.3 Supongamos, como antes, que nuestras observaciones son Bernoullis(p)
y queremos dar un intervalo de con…anza para p: Sabemos que el EMV es
p^(x) = x; también sabemos que I1 (p) = p(1 1 p): : De manera que
r r
x(1 x) x(1 x)
x k =2 p x+k =2
n n
sera un intervalo para de con…anza aproximada : En lugar de estimar p(1 p)
podemos acotarlo por 14 y tendríamos
1 1
x k =2 p p x+k =2 p :
2 n 2 n
2.4. ALGUNOS MÉTODOS PARA OBTENER PIVOTES 49
1 1
x p p x+ p
n n
P X fx; a1 ( ) T (x) a2 ( )g ;8 2
entonces
a2 1 (T (x)) a1 1 (T (x))
nos proporciona un intervalo de con…anza para :
Demostración. Si x veri…ca
a2 1 (T (x)) a1 1 (T (x))
resultará que
T (x) a2 ( )
a1 ( ) T (x)
p (X ) p
P( ; )f k1 p
n k1 p
g= ;
2 2
Pn
2 i=1 (Xi X)2 p
P( ; ) fXn 1;1
p
2
X2 p g=
2 n 1; 2
y por la independencia
p (X )
P( ; ) k1 p
n k1 p
;
2 2
Pn
i=1 (Xi X)2
X2 p
2
X2 p =
n 1;1 2 n 1; 2
de manera que
p (x )
k1 p
n k1 p
;
2 2
Pn
i=1 (xi x)2
X2 p
2
X2 p
n 1; 2 n 1;1 2
x k1 p
p x + k1 p p ;
2 n 2 n
p p
n^ n^
q q
X2 p X2 p
n 1; 2 n 1;1 2
El principio de unión-intersección
El llamado ”principio de unión-intersección”consiste en un método general,
basado en una desigualdad elemental, para obtener intervalos simultáneos, es
decir regiones rectangulares, para diferentes parámetros. Sea una muestra de
observaciones de X1 ; X2 ; :::; Xn cuya ley depende de dos parámetros 1 y 2
y supongamos que sabemos encontrar intervalos de con…anza 1 y 2 para 1
y 2 respectivamente, y sean estos [S1 (X); S2 (X)] y [T1 (X); T2 (X)], esto es
P 1 ; 2 (S1 (X) 1 S2 (X)) 1; P 1 ; 2 (T1 (X) 2 T2 (X)) 2:
Pero, cuánto vale
P 1; 2
(S1 (X) 1 S2 (X); T1 (X) 2 T2 (X))?
52 CAPÍTULO 2. INTERVALOS DE CONFIANZA
Por tanto
P 1; 2
(S1 (X) 1 S2 (X); T1 (X) 2 T2 (X)) 1 + 2 1:
Test de hipótesis
53
54 CAPÍTULO 3. TEST DE HIPÓTESIS
Es evidente que, salvo casos triviales no podremos eliminar los dos errores
a la vez y si tratamos de disminuir la frecuencia de uno la del otro en general
aumentará. Como veremos vamos a dar más importancia a los errores del tipo
I de manera que sólo rechacemos la hipótesis nula cuando haya mucha evidencia
en este sentido.
P 1 (A0 ) = 1 P 1 (A1 );
De…nición 3.1.1 Dado un test con región crítica A1 diremos que es de tamaño
si P 0 (A1 ) = :
De…nición 3.1.2 Dado un test con región crítica A1 diremos que es de nivel
(de signi…cación) si P 0 (A1 ) :
De…nición 3.1.3 Dado un test con región crítica A1 diremos que es de poten-
cia si P 1 (A1 ) = :
L0 (x) = L(x; 0)
L1 (x) = L(x; 1 );
Si x 2 A1 ,
L1 (x) KL0 (x) 0 y 1A1 (x) 1A~1 (x) = 1 1A~1 (x) 0
Si x 2 A0 ,
L1 (x) KL0 (x) 0 y 1A1 (x) 1A~1 (x) = 0 1A~1 (x) 0:
Por tanto
Z Z
(1A1 (x) 1A~1 (x))L1 (x)dx K (1A1 (x) 1A~1 (x))L0 (x)dx;
X X
equivalentemente
Observación 3.1.1 Los test anteriores, que veri…can (3.1), los llamaremos
test de Neyman.
Teorema 3.1.2 Todos los test de máxima potencia son test de Neyman:
pero al ser A~1 de máxima potencia, la desigualdad no puede ser estricta ya que
llegaríamos a que
P 1 (A1 ) P 1 (A~1 ) > 0:
Por tanto se debe veri…car que
Z
(1A1 (x) 1A~1 (x))(L1 (x) KL0 (x))dx = 0
X
de manera que si L1 (x) KL0 (x) > 0; 1A1 (x) 1A~1 (x) = 0 y como entonces
x 2 A1 x también está en A~1 : Así que
Análogamente si L1 (x) KL0 (x) < 0; 1A1 (x) 1A~1 (x) = 0 y como entonces
= A1 (es decir x 2 A0 ) x tampoco está en A~1 (es decir x 2 A~0 ); así
x2
H0 : = 0 versus
H1 : = 1:
Tenemos que
n
1 1 X 2
L1 (x) = p n expf 2
(xi 1) g
2 2 i=1
n
1 1 X n
= p n expf 2
(xi x)2 g expf (x 2
1) g
2 2 i=1
2 2
Xn
1 1 n
L0 (x) = p n : expf 2
(xi x)2 g expf (x 2
0) g
2 2 i=1
2 2
Entonces, como
P X0 (A1 ) = P 0 fX > Cg = :
Como, bajo 0;
2
X s N( 0; )
n
p p
n(X 0) n(C 0)
P 0 fX > Cg = P 0 f > g
p
n(C 0)
= P 0 fN (0; 1) > g=
= P X1 (A1 ) = P 1 fX > 0 + k p g
n
p p
n(X 1) n( 0 1)
= P 1f >k + g
p
n( 0 1)
= P 1 fN (0; 1) > k + g
p
n( 0 1)
= 1 (k + )
lm = 1;
n!1
Observación 3.1.2 Notar que si hacemos el contraste anterior pero con 1 <
0 entonces la región crítica óptima de nivel es
A1 = fx; x < 0 k p g
n
58 CAPÍTULO 3. TEST DE HIPÓTESIS
Observación 3.1.3 Una vez construido un test para ver si aceptamos o rechaz-
amos H0 se toma una muestra x y se mira si está en la región de aceptación o
en la región crítica correspondientes a un nivel de signi…cación pre…jado . Otra
manera de indicar que tan signi…cativa es la muestra observada para rechazar
la hipótesis nula es dar su p-valor, consiste en el nivel de signi…cación del test a
partir del cual la muestra observada estaría en la región crítica. Si el p-valor es
más pequeño que 0;05 nuestra muestra estaría en la región crítica de nivel 0;05.
Esto es, cuánto más pequeño es su p-valor menos se valida la hipótesis nula.
Ejemplo 3.1.2 Sea un modelo de observaciones iid con densidad U (0; ) donde
puede ser 0 ó 1 : 1 > 0 . Queremos construir test óptimos para contrastar
H0 : = 0 versus
H1 : = 1:
1
L1 (x) = n 1[0; 1]
(x(n) )
1
1
L0 (x) = n 1[0; 0]
(x(n) )
0
1[0; 1]
(x(n) ) = 1[0; 0]
x(n) = 1;
y
fx; 1[0; 1]
(x(n) ) < 1[0; 0]
(x(n) )g =
con lo que
K 1 K
fx; 1[0; 1]
(x(n) ) < n 1[0; 0]
(x(n) )g A0 fx; n 1[0; 1]
(x(n) ) = n 1[0; 0]
(x(n) )g;
0 1 0
ahora bien
con lo que p
n
C= 0 1 :
Podemos ahora calcular la potencia del test
Notemos que
lm = 1;
n!1
P (A1 ); 2 1:
De…nición 3.2.1 Llamaremos tamaño del test (con región crítica A1 ) al valor
sup P (A1 )
2 0
sup P (A1 )
2 0
( ) = P (A1 ); 2 1
60 CAPÍTULO 3. TEST DE HIPÓTESIS
H0 : = 0 versus
H1 : = 1:
H0 : 2 0 versus
H1 : 2 1:
H0 : 2 0 versus
H1 : 2 1:
H0 : = 0 versus
H1 : = 1:
resultará que son de nivel y que (A~1 ) > (A1 ) pero A1 es un test de Neyman
por tanto llegamos a una contradicción.
H0 : 0
H1 : > 0:
Sabemos por el ejemplo (3.1.1) que un test de Neyman de nivel para contrastar
H0 : = 0
H1 : = 1:
3.2. HIPÓTESIS COMPUESTAS 61
A1 = fx; x > 0 +k p g
n
y esta región crítica No depende de 1: Por otro lado si tomamos 0 tenemos
P X (A1 ) = P fX > 0 + k p g
n
p p
n(X ) n
= P f > ( 0 )+k g
p
n
= P fN (0; 1) > ( 0 )+k g
P fN (0; 1) > k g (ya que 0 > 0)
= :
H0 : = 0
H1 : 6= 0;
H0 : = 0
H1 : > 0;
H0 : = 0
H1 : < 0;
H0 : g( ) = 0 versus
H1 : g( ) 6= 0:
Notemos que en este tipo de contrastes tanto la hipótesis nula como la alterna-
tiva pueden ser compuestas. Sean I(x), x 2 X intervalos de con…anza para
g( ): De…namos la región crítica
A1 = fx; 0 62 I(x)g
Por tanto
H0 : = 0
H1 : 6= 0;
En este caso la hipótesis nula es simple. Ya vimos que los intervalos de con…anza
para , venían dados por
x k =2 p x+k =2 p :
n n
Observación 3.2.2 Podríamos utilizar los intervalos que vimos en los proble-
mas de dos muestras para obtener los test de hipótesis correspondientes.
H0 : 2 0 versus
H1 : 2 1:
sup 2L(x; )
0
(x) = ;
^
L(x; (x))
L(x; ~(x))
(x) = ;
L(x; ^(x))
Demostración.
L(x; 0 )) L0 (x)
(x) = = ;
L(x; 0 ) _ L(x; 1) L0 (x) _ L1 (x)
de manera que
L0 (x)
(x) K () K
L0 (x) _ L1 (x)
L0 (x) K(L0 (x) _ L1 (x)) () L0 (x) KL1 (x));
3.2. HIPÓTESIS COMPUESTAS 65
H0 : 0
H1 : > 0:
y el numerador
n
1 1 X n
sup L(x; ) = p n expf 2
(xi x)2 g sup expf (x )2 g:
0 2 2 i=1 0
2 2
de manera que
n
(x) = sup expf (x )2 g:
0
2 2
Ahora bien
n n
sup expf (x )2 g = expf nf (x )2 g
0
2 2 2 2 0
y
2
(x 0) si x
nf (x )2 = 0
0 0 si x < 0
de manera que
n 2
expf 2 2 (x 0 )) g si x 0
(x) = :
1 si x < 0
66 CAPÍTULO 3. TEST DE HIPÓTESIS
El numerador será
n
1 1 X
sup L(x; ; 0) = p n expf 2 (xi x)2 g
2 0 2 0 i=1
2
1 n^
= p n expf g
2 0 2 20
y el denominador
n
1 1 X
L(x; ^ ; ^ ) = p n expf (xi x)2 g
2 ^ 2^ 2 i=1
1 n
= p n expf g
2 ^ 2
de manera que
n
^ n^ 2 n
(x) = expf 2 + g
0 2 0 2
y (x) > K (región de aceptación) equivale a que
^2 ^2
2 expf 2g C
0 0
3.2. HIPÓTESIS COMPUESTAS 67
^2
c1 < 2 < c2
0
u expf ug = C:
H0 : = 0
H1 : 6= 0;
L(x; 0 )
(x) =
L(x; ^ )
P
p 1n expf 1
2 (xi x)2 g expf 2n2 (x 2
0) g
( 2 ) n 2
= P
p 1n expf 2 1 2 (xi x)2 g
( 2 ) n
n 2
= expf (x 0) g
2 2
de manera que
p 2
n(x 0)
W (x) := 2 log (x) =
y consecuentemente bajo H0
2
Xn1 +1 ; Xn1 +2 ; :::; Xn1 +n2 s N ( 2; 2 ); :::;
2
Xn1 +n2 +:::+nm 1 +1
; Xn1 +n2 +:::+nm 1 +2
; :::; Xn1 +n2 +:::+nm 1 +nm
s N( m; m)
68 CAPÍTULO 3. TEST DE HIPÓTESIS
H0 : ( 1; 2) =( 01; 02 )
H1 : ( 1; 2) 6= ( 01; 02 ):
obtenemos
2
X p 2
ni (xi 0i )
2 log (x) = s X22 (bajo H0 )
i=1 i
dim = m
dim 0 = m 2:
H0 : 2 0 versus
H1 : 2 1:
y que el modelo es regular (en el sentido del comportamiento del EMV). Sea
dim = d y dim 0 = l: Vamos a suponer asimismo que cualquier punto 2
se puede coordenar de la forma
de manera que
0 =f 2 ; l+1 = kl+1 ; ::; d = kd g
3.2. HIPÓTESIS COMPUESTAS 69
donde
I( ) = E ( @ 2 log L1 )
matriz d d que se conoce como matriz de información de Fisher. Como con-
secuencia y ya que, también debido a la regularidad,
1 L
p @ log L(X; ) ! Nd (0; I( ))
n n!1
tendremos que
p L
n(^(X) ) ! Nd (0; I 1
( ))
n!1
Escribamos
de manera que 0 = f( ; ); = 0 g; y
I I
I( ) = ;
I I
Entonces, sea ^ 0 (x) = (~1 (x); ~2 (x); :::; ~l (x)) el EMV bajo H0 , tendremos
l
X
@ i log L(X; 1 ; :::; l; 0) = @ 2i j
log L(X; ~ (X); ~
0 )( j (X) j );
j=1
i = 1; :::; l
donde ~j (X) = j + (1 )~j (X); j = 1; :::; l; 0 1; esto es
p
n(~j (X) j)
l
X 1
1 1
= @ log L(X; ~ (X); 0) p @ k
log L(X; 1 ; :::; l; 0 );
n jk n
k=1
j = 1; :::; l;
por la regularidad del modelo, bajo H0
1 2 P
@ log L(X; ~ (X); 0) ! I ( ; 0)
n n!1
y
p L
n(^ 0 (X) ) ! Nl (0; I 1
):
n!1
Ahora bien, si tomamos =( ; 0 ), un punto de 0,
1
y donde (Zi )l+1 i;j d s Nd (0; I ( )); por tanto
d
X
(I )ij Zi Zj s Xd2 l :
i;j=l+1
Observación 3.2.3 Para calcular la región crítica del TRV lo haremos en fun-
ción del estadístico de Wilks W (x) = 2 log (x); así
A1 = fx; (x) Kg
= fx; 2 log (x) Cg
= fx; W (x) Cg;
Test Ji-cuadrado
(1; 0; :m)
: :; 0) con probabilidad p1
(0; 1; :m)
: :; 0) con probabilidad p2
:::
(0; 0; :m)
: :; 1) con probabilidad pm ;
L(x; p1 ; p2 ; :::; pm )
= P (X1 = ((x11 ; :::; x1m ); X2 = (x21 ; :::; x2m ); :::; Xn = (xn1 ; :::; xnm ))
Pn
n m xji m j=1 xji m Ni (x)
= j=1 i=1 pi = p
i=1 i = i=1 pi :
73
74 CAPÍTULO 4. TEST JI-CUADRADO
Pn
Notemos que Ni (x) = j=1 xji cuenta el número de veces que ha ocurrido el
resultado i-ésimo en los n experimentos. Es facíl ver que
n!
P (N1 = n1 ; :::; Nm = nm ) = pn1 pn2 :::pnmm ;
n1 !n2 !:::nm ! 1 2
esta distribución se conoce como distribución multinomial. Observemos asimis-
mo que el espacio de parámetros del modelo multinomial
n
X
= f(p1 ; p2 ; :::; pm ); pi > 0; pi = 1g
i=1
y, bajo H0
m
X p0i 2
W (x) = 2 log (x) = 2n p^i log s Xm 1 (aprox.)
i=1
p^i
2
tienen el mismo comportamiento asintótico, se acercan a una Xm 1 : Este último
estadístico se llama estadístico de Pearson, que se puede escribir
m
X 2
p^i
Dn (x) = n p0i 1
i=1
p0i
m
X 2
(^
pi p0i )
= n
i=1
p0i
m
X 2
(n^
pi np0i )
=
i=1
np0i
Xm 2
(ni np0i )
=
i=1
np0i
m
X 2
(Oi Ei )
= ;
i=1
Ei
A1 = fx; Dn (x) Xm 1; g:
Ejemplo 4.2.1 Ejemplo 4.2.2 Se lanza un dado 2000 veces con los siguientes
resultados:
1 2 3 4 5 6
388 322 314 316 344 316
Se puede pensar que el dado está equilibrado? Es decir queremos hacer el con-
traste:
1 1 1 1 1 1
H0 : p=( ; ; ; ; ; )
6 6 6 6 6 6
1 1 1 1 1 1
H1 : p 6= ( ; ; ; ; ; )
6 6 6 6 6 6
Calculamos
Dn (x)
6
X (ni n 16 )2
=
i=1
n 61
(388 2000=6)2 (322 2000=6)2 (314 2000=6)2 (316 2000=6)2
= + + +
2000=6 2000=6 2000=6 2000=6
2 2
(344 2000=6) (316 2000=6)
+ +
2000=6 2000=6
= 12;616:
4.2. TEST DE AJUSTE EN EL MODELO MULTINOMIAL 77
n1 n2 n3 n4
1997 906 904 32
de manera que
n1 n2 + n3 n4
@ log L(x; ) = + =0 (4.2)
2+ 1
implica
2
(n1 + n2 + n3 + n4 ) (n1 2n2 2n3 n4 ) 2n4 = 0: (4.3)
Esto es:
2
3839 + 1665 64 = 0: (4.4)
Las soluciones son: = 0;0355281 y = 0;469235. Por tanto ^ = 0;0355281 y
2 + 0;0355281
np1 (^) = 3839 = 1953;77
4
1 0;0355281
np2 (^) = np3 (^) = 3839 = 925;652
4
0;0355281
np4 (^) = 3839 = 34;0981
4
Entonces:
Dn (x)
4
X (ni npi (^))2
=
i=1 npi (^)
(1997 1953;77)2 (906 925;652)2 (904 925;652)2 (32 34;0981)2
= + + +
1953;77 925;652 925;652 34;0981
= 2;00931;
2 2
y si miramos las tablas de una 2 obtenemos 2;0;05 = 5;9914 por tanto estamos
en la región de aceptación.
4.2. TEST DE AJUSTE EN EL MODELO MULTINOMIAL 79
X Y y1 ::: yj ::: ys
x1 0 0 0
..
.
xi 0 1 0
..
.
xr 0 0 0
X Y y1 ::: yj ::: ys
x1 n11 n1j n1s n1
..
.
xi ni1 nij nis ni
..
.
xr nr1 nrj nrs nr
n1 nj ns n
Escribamos
pi = P (X = xi ); p j = P (Y = yj ); i = 1; ::; r; j = 1; :::; s:
H0 : (pij ) 1 i r = (pi p j )1 i r
1 j s 1 j s
H1 : (pij ) 1 i r 6= (pi p j )1 i r :
1 j s 1 j s
80 CAPÍTULO 4. TEST JI-CUADRADO
donde pci y pcj son los EMV de pi y p j respectivamente. Para calcularlos hay
que escribir la verosimilitud bajo H0 que vendrá dada por
r s nij r s nij
L(x; y; (pij )) = i=1 j=1 pij = i=1 j=1 (pi p j )
r ni s nj
= i=1 pi j=1 p j
P P
donde ni = j nij y n j = i nij : Entonces es inmediato que
ni nj
pc
i = ; pcj = :
n n
De manera que …nalmente
X s
r X 2
(nij ni n j =n)
Dn (x; y) = :
i=1 j=1
ni n j =n
dim = rs 1
y
dim 0 =r 1+s 1;
de manera que
dim dim 0 = rs 1 r+1 s+1
= rs r s+1
= (r 1)(s 1)
y la region crítica de nivel (aprox.) vendrá dada por
2
A1 = f(x; y); Dn (x; y) X(r 1)(s 1); g
Ejemplo 4.2.4 La siguiente tabla nos da el número de mujeres, de un grupo de
7477, de edades comprendidas entre 30 y 40 años con un grado de visión entre
1 y 4 en cada uno de los ojos. Queremos contrastar, a nivel = 0;05 si hay
independencia entre la visión de ambos ojos.
Ojo izquierdo!
1 2 3 4 Totales
Ojo derecho#
1 n11 = 1520 n12 = 266 n13 = 124 n14 = 66 n1 = 1976
2 n21 = 234 n22 = 1512 n23 = 432 n24 = 78 n2 = 2256
3 n31 = 117 n32 = 362 n33 = 1772 n34 = 205 n3 = 2456
4 n41 = 36 n42 = 82 n43 = 179 n44 = 492 n4 = 789
Totales n 1 = 1907 n 2 = 2222 n 3 = 2507 n 4 = 841 n = 7477
4.2. TEST DE AJUSTE EN EL MODELO MULTINOMIAL 81
Por tanto
Dn (x; y)
X
4 X
4
(nij ncpi pcj )2 X X (nij ni n j =n)2
4 4
= =
i=1 j=1
pi pcj
nc i=1 j=1
ni n j =n
1976 1907 2
(1520 7477
) (266 197674772222 )2 (124 197674772507 )2 (66 1976 7477
841 2
)
= 1976 1907 + 1976 2222 + 1976 2507 + 1976 841
7477 7477 7477 7477
(234 225674771907 )2 (1512 225674772222 )2 (432 225674772507 )2 (78 2256 841 2
7477
)
+ 2256 1907 + 2256 2222 + 2256 2507 + 2256 841
7477 7477 7477 7477
(117 245674771907 )2 (362 245674772222 )2 (1772 245674772507 )2 (205 2456 7477
841 2
)
+ 2456 1907 + 2456 2222 + 2456 2507 + 2456 841
7477 7477 7477 7477
1907 2 2222 2 2507 2
(36 7897477 ) (82 7897477 ) (179 7897477 ) (492 7897477841 )2
+ 789 1907 + 789 2222 + 789 2507 + 789 841
7477 7477 7477 7477
= 8096;88
= n r s nij
i=1 j=1 nij
pij = pj ; 8i; j
82 CAPÍTULO 4. TEST JI-CUADRADO
= n r s nij
i=1 j=1 nij
Dn (x)
X
2 X
4
(nij ni n j =n)2
=
i=1 j=1
ni n j =n
46 36 2 46 46 2 46 34 2 46 12 2
(6 128
) (14 128
) (17 128
) (9 128
)
= 46 36 + 46 46 + 46 34 + 46 12
128 128 128 128
(30 8212836 )2 (32 8212846 )2 (17 8212834 )2 (3 8212812 )2
+ 82 36 + 82 46 + 82 34 + 82 12
128 128 128 128
= 17;2858
Entonces como P f 23 > 7;815g = 0;05 resulta que estamos en la región crítica y
rechazamos la hipótesis de homogeneidad.
84 CAPÍTULO 4. TEST JI-CUADRADO
Hacemos una partición del intervalo [0; 1) mirando que el número de observa-
ciones en cada intervalo sea superior o igual a 5. Una posible es
n1 = 20; n2 = 16; n3 = 5; n4 = 9:
L 2 L 2 2
esto es, aproximadamente, Dn ! 2 , de hecho Dn ! 2 + 1 con
n!1 n!1
2 2
2 (0; 1) y y 2 independientes (ver Cherno¤ and Lehmann (1954)). n =
1
P4
i=1 ni = 50 es el tamaño muestral. La estimación máximo-verosímil de es
^ = P50n x = 0;0243: Esto hace que
i=1 i
Dn (x)
4
X (ni npi (^ ))2
=
i=1
npi (^ )
(20 19;25)2 (16 11;8)2 (5 6;35)2 (9 12;6)2
= + + +
19;25 11;8 6;35 12;6
= 2;80162:
Cómo P f 22 > 5;99g = 0;05 resulta que 22; 0;05 = 5;99 y como Dn (x) < 22; 0;05
2
estaríamos en la región de aceptación, si consideramos que Dn 2 : Así es
razonable pensar que los datos siguen una distribución exponencial. Incluso el
nivel de signi…cación de nuestro test podría ser mayor ya que P f 23 > 5;99g =
0;11 con lo que se rea…rmaría la hipótesis de exponencialidad de los datos.
86 CAPÍTULO 4. TEST JI-CUADRADO
H0 : F = F0
H1 : F 6= F0
A1 = fx; n (x) Kg
donde
n (x) = sup F^n (y) F0 (y)
y
PF 0 ( n K) =
sup F^n (y)(X) F0 (y) = sup F^n (X(i) )(X) F0 (X(i) ) ; F^n (X(i) )(X) F0 (X(i) )
y i
i i 1
= sup F0 (X(i) ) ; F0 (X(i) )
i n n
i i 1
= sup U(i) ; U(i) ;
i n n
88 CAPÍTULO 4. TEST JI-CUADRADO
con Ui := F0 (Xi ) pero F0 (Xi ) s U (0; 1) (ya que las variables Xi son contínuas)
de manera que
i i 1
sup F^n (y)(X) F0 (y) s sup U(i) ; U(i)
y i n n
0;3; 0;7; 0;9; 1;2; 1;3; 1;4; 1;5; 1;6; 1;9; 2;0; 2;1; 2;2; 2;3; 2;5; 2;6;
2;7; 3;0; 3;8; 3;9; 4;0:
H0 : F1 = F2
H1 : F1 6= F2
donde
n1 ;n2 (x; y) = sup F^n(1)
1
(z)(x) F^n(2)
2
(z)(y)
z
4.4. TEST DE AJUSTE Y HOMOGENEIDAD NO PARAMÉTRICOS. 89
Ejemplo 4.4.3
Adobe A: x 7 8 10 12 10 13 9 10
Adobe B: y 11 10 12 13 10 15 17 16
Tenemos entonces
z 7 8 9 10 11 12 13 14 15 16 17
(1)
F^n1 (z)(x) 1
8
2
8
3
8
6
8
6
8
7
8 1 1 1 1 1
(2)
F^n2 (z)(y) 0 0 0 2
8
3
8
4
8
5
8
5
8
6
8
7
8 1
(1) (2)
F^n1 (z)(x) F^n2 (z)(y) 1
8
2
8
3
8
4
8
3
8
3
8
3
8
3
8
2
8
1
8 0
por tanto 8;8 (x; y) = 84 : En las tablas se obtiene que 8;8;0;05 = 68 ; con lo
que estamos en la región de aceptación y podemos decir que ambos fertilizantes
producen el mismo efecto.
90 CAPÍTULO 4. TEST JI-CUADRADO
Capítulo 5
El modelo lineal
y V ar(Yi ) = 2 ; i = 1; :::; n(n > p): Donde los j son parámetros desconoci-
dos (coe…cientes de regresión, parámetros,...) y los xij (regresores, covariables,
factores,...) son valores conocidos. Esto es
Yi = 0 + 1 xi1 + ::: + p 1 xip 1 + "i ;
2
E("i ) = 0; V ar("i ) = ; i = 1; :::; n
Diremos que tal modelo es un modelo lineal. Con notación vectorial
Y =X +"
donde
0 1 0 1
Y1 1 x11 x1p 1
B .. C B .. .. .. .. C
Y = @ . A ; X = @ . . . . A;
Yn 1 xnp 1 xnp 1
0 1 0 1
1 "1
B .. C B . C
= @ . A ; " = @ .. A :
n "n
Si la variable respuesta, Y; y las covariables x, son cuantitativas, diremos que
se trata de un modelo de regresión, si las covariables son cualitativas (0 ó 1)
el modelo se suele llamar de análisis de la varianza, si en las covariables hay
variables cuantitativas y cualitativas se suele llamar modelo de análisis de la
covarianza.
Estos modelos fueron introducidos por Legendre en 1805 (obtuvo lo que se
llama las ecuaciones normales) estudiados por Gauss (1823) y Fisher (1922) que
introdujo los modelos de análisis de la varianza.
91
92 CAPÍTULO 5. EL MODELO LINEAL
jjy X jj2 = m n;
y X ^ ?R(X)
implica que
y X ^ ?R(X)
equivale a
X 0 (y X ^) = 0
donde la prima indica traspuesta. De manera que
X 0X ^ = X 0y
^ (y) = (X 0 X) 1
X 0y
es lineal en Y :
^ (y) = By; con B = (X 0 X) 1
X 0;
es insesgado:
1
E (^) = E ( ^ (Y )) = E ((X 0 X) X 0Y )
1
= (X 0 X) X 0 E (Y )
1
= (X 0 X) X 0X = :
V ar ( ^ ) = V ar ( ^ (Y )) = V ar (BY ) = BV ar (Y )B 0
2 1 1 1
= (X 0 X) X 0 X (X 0 X) = 2
(X 0 X) :
V ar (T ) = V ar ( 0 Y ) = 0
V ar (Y )
2 0
= ;
V ar (c0 ^ ) = c0 V ar ( ^ )c
2 0 1
= c (X 0 X) c:
Por tanto
1
V ar (T ) V ar (c0 ^ ) = 2
( 0
c0 (X 0 X) c)
2 0 0 0 1
= ( X (X X) c)
2 0 1 2
= jj X (X X) cjj 0;
94 CAPÍTULO 5. EL MODELO LINEAL
en efecto
1 1 1
jj X (X 0 X) cjj2 = ( X (X 0 X) c)0 ( X (X 0 X) c)
1 1 0
0 0 0 0
= X (X X) c X (X X) c
1 0 1
+ X (X 0 X) c X (X 0 X) c
0 1 1 1
= 2 0 X (X 0 X) c + c0 (X 0 X) X 0 X (X 0 X) c
0 0 1 1
= 2 X (X 0 X) c + c0 (X 0 X) c
0 0 0 1 0 0 1
= 2 X (X X) c+ X (X X) c
0 0 0 1
= X (X X) c:
1
Observación 5.1.1 Notemos que habrá igualdad si y sólo si X (X 0 X) c=
1
0; de manera que T (y) = 0 y = c0 (X 0 X) X 0 y = c0 ^ (y):
2
5.1.2. Estimación mínimo cuadrática de :
Supongamos ahora que es también un parámetro a estimar. Notemos
primero ciertas propiedades. En primer lugar e^(y) := y X ^ (y); es una es-
timación de los errores, y como X ^ (y) es la proyección de y sobre R(X) ,
tenemos en particular que
0 1
1
B C
y X ^ (y)? @ ... A ;
1
con lo que
n
X n
X
e^i (y) = yi X ^ (y) = 0:
i
i=1 i=1
Asimismo
1
X ^ (y) = X (X 0 X) X 0y = P y
donde
1
P = X (X 0 X) X0
1
Proposición 5.1.1 P = X (X 0 X) X 0 es la matriz proyección ortogonal sobre
R(X): Es por tanto una matriz, simétrica, idempotente y existirá una matriz
ortogonal Q; (n n) tal que
Ip 0
P =Q Q0
0 0
Ip 0
Q0 P Q = :
0 0
Demostración.
0
E(Z 0 AZ) = E((Z ) A (Z )) + 0
A
0 0
= E(traza((Z ) A (Z )) + A ;
ahora bien
0
X
traza((Z ) A (Z ) = (Z )1i Aij (Z )j1
i;j
X
= Aij (Z )j1 (Z )1i
i;j
X 0
= Aij (Z ) (Z ) ji
i;j
0
= traza(A (Z ) (Z ) );
96 CAPÍTULO 5. EL MODELO LINEAL
de manera que
0
E(Z 0 AZ) = E(traza(A (Z ) (Z ))+ 0
A
0 0
= traza AE((Z ) (Z )) + A
0
= traza (A ) + A :
= (^ )0 V ( ^ ) 1=20
V (^) 1=2
(^ )
0
= ZZ
5.2. EL MODELO LINEAL NORMAL 97
con
Z = V (^) 1=2
(^ ) s Np (0; Ip ):
iii): Si demostramos que ^ (Y ) y ^"(Y ) = Y X ^ son independientes ya está
^
entonces como la conjunta de (Y ) y cualquier subconjunto de las ^"i (Y ) es
normal, bastará ver que la covarianza es cero.
1
Cov( ^ (Y ); Y X ^) = Cov((X 0 X) X 0 Y; (In P )Y )
1 0
0 0
= (X X) X Cov(Y; Y )(In P)
1 0
2
= (X 0 X) X 0 (In P ) = 0:
iv)
y así
p x0 ^ x0
2 x0 (X 0 X) 1x
q s tn p
(n p)~ 2
(n p) 2
esto es
x0 ^ x0
q s tn p:
~ 2 x0 (X 0 X) 1x
Yn+1 x0 ^ (Y ) s N (0; 2
(x0 (X 0 X) 1
x + 1))
tendremos así que un intervalo de predicción para Yn+1 vendrá dado por
q
x0 ^ (y) tn p; =2 ~ 2 (y)(1 + x0 (X 0 X) 1 x):
H0 : H =c
H1 : H 6= c:
entonces
sup ; ;H =c L(y; ; )
(y) =
L(y; ^ ; ^ )
L(y; ^ H ; ^ H )
=
L(y; ^ ; ^ )
5.2. EL MODELO LINEAL NORMAL 99
RSS(Y ) = jjY X ^ (Y )jj2 y RSSH (Y ) = jjY X ^ H (Y )jj2 (RSS: residual sum of squares),
de manera que
n
^ 2 (y) 2
(y) =
^ 2H (y)
n ! n2
RSS(y) 2
1
= = RSSH (y) RSS(y)
RSSH (y) 1+ RSS
0 1 n2
@ 1 A
= q (RSSH (y) RSS(y))=q
1+ n p RSS(y)=(n p)
Entonces
(RSSH (y) RSS(y)) =q
(y) K, C
RSS(y)= (n p)
De manera que la región crítica del TRV sería
(RSSH (y) RSS(y)) =q
A1 = y; C ;
RSS(y)= (n p)
resulta que C lo podemos calcular fácilmente si …jamos el nivel de signi…cación
por el siguiente resultado.
Y~ : =Y X 0 = X( 0) +"
= X~ + "
b
y ahora H0 : H ~ = 0; además jjY~ X ~ H (Y )jj2 = jjY X 0 X( b H (Y )
2 b 2
0 )jj = jjY X H jj = RSSH : Notemos ahora que H := fX ; H = 0g es
un subespacio de dimensión p q de R(X); por tanto el estimador mínimo-
cuadrático )(=EMV) será un b H tal que X b H (Y ) = PH Y y tendremos
= jj(In PH )Y jj2
= Y 0 (In PH )Y
0
= (Y X H) (In PH )(Y X H)
0 In (p q) 0
= (Y X H) L L0 (Y X H );
0 0
Y X
con L ortogonal, y como bajo H0 , H
s N (0; In ); resultará que
jjY X b H (Y )jj2
2
s Xn2 (p q) :
Por último,
de manera que
(RSSH (Y ) RSS(Y )) =q
s Fq;n p
RSS(Y )= (n p)
H0 : 1 = 2 = ::: = p 1 =0
H1 : no todos los i; i 1 son cero.
5.2. EL MODELO LINEAL NORMAL 101