0% encontró este documento útil (0 votos)
128 vistas105 páginas

Estad 5

Este documento presenta un curso de estadística. Introduce conceptos clave como modelos estadísticos, que describen situaciones de incertidumbre mediante variables aleatorias. Explica qué son los estadísticos y estimadores, que son funciones de las observaciones que proporcionan información sobre los parámetros del modelo. Además, analiza propiedades importantes de los estimadores como el sesgo y error cuadrático medio. Finalmente, introduce diferentes métodos de estimación como el método de máxima verosimilitud y el método

Cargado por

bryam soto
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
128 vistas105 páginas

Estad 5

Este documento presenta un curso de estadística. Introduce conceptos clave como modelos estadísticos, que describen situaciones de incertidumbre mediante variables aleatorias. Explica qué son los estadísticos y estimadores, que son funciones de las observaciones que proporcionan información sobre los parámetros del modelo. Además, analiza propiedades importantes de los estimadores como el sesgo y error cuadrático medio. Finalmente, introduce diferentes métodos de estimación como el método de máxima verosimilitud y el método

Cargado por

bryam soto
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Estadística.

José Manuel Corcuera.

Curso 2018/19
ii J.M. Corcuera
Índice general

1. Estimación puntual 3
1.1. Modelos estadísticos . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2. Estadísticos y estimadores. . . . . . . . . . . . . . . . . . . . . . 5
1.3. Propiedades de los estimadores. Sesgo y error cuadrático. . . . . 6
1.4. Estadísticos su…cientes . . . . . . . . . . . . . . . . . . . . . . . . 8
1.5. Métodos de estimación . . . . . . . . . . . . . . . . . . . . . . . . 11
1.5.1. Método de máxima verosimilitud . . . . . . . . . . . . . . 12
1.5.2. Método de los momentos . . . . . . . . . . . . . . . . . . 14
1.6. Modelos estadísticos regulares. Cota de Cramer-Rao. . . . . . . . 18
1.7. Modelos exponenciales . . . . . . . . . . . . . . . . . . . . . . . . 23
1.8. Propiedades asintóticas de los métodos de estimación. . . . . . . 28
1.9. Muestras de una población normal . . . . . . . . . . . . . . . . . 33

2. Intervalos de con…anza 39
2.1. Construcción de intervalos a partir de la verosimilitud . . . . . . 39
2.2. Construcción de intervalos a partir de funciones pivotantes. . . . 41
2.3. Problemas de dos muestras. . . . . . . . . . . . . . . . . . . . . . 44
2.3.1. Muestras independientes . . . . . . . . . . . . . . . . . . . 44
2.3.2. Muestras relacionadas . . . . . . . . . . . . . . . . . . . . 45
2.4. Algunos métodos para obtener pivotes . . . . . . . . . . . . . . . 46
2.4.1. Un método bastante general . . . . . . . . . . . . . . . . . 46
2.4.2. Familias de posición y escala . . . . . . . . . . . . . . . . 46
2.4.3. Métodos aproximados . . . . . . . . . . . . . . . . . . . . 47
2.4.4. Un método especial . . . . . . . . . . . . . . . . . . . . . 49
2.4.5. Regiones de con…anza, intervalos simultáneos . . . . . . . 50

3. Test de hipótesis 53
3.1. Test de hipótesis simples . . . . . . . . . . . . . . . . . . . . . . . 54
3.2. Hipótesis compuestas . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.2.1. Construcción de test a partir de intervalos de con…anza . 62
3.2.2. Test de la razón de verosimilitudes. . . . . . . . . . . . . . 64

iii
iv ÍNDICE GENERAL

4. Test Ji-cuadrado 73
4.1. El modelo multinomial . . . . . . . . . . . . . . . . . . . . . . . . 73
4.2. Test de ajuste en el modelo multinomial . . . . . . . . . . . . . . 74
4.2.1. Ajuste a una mutinomial concreta . . . . . . . . . . . . . 74
4.2.2. Ajuste a una familia de mutinomiales . . . . . . . . . . . 77
4.2.3. Test de independencia de dos multinomiales . . . . . . . . 79
4.3. Test Ji-cuadrado de ajuste, independencia y homogeneidad. . . . 84
4.4. Test de ajuste y homogeneidad no paramétricos. . . . . . . . . . 86
4.4.1. La distribución empírica . . . . . . . . . . . . . . . . . . . 86
4.4.2. Test de Kolmogorov-Smirnov . . . . . . . . . . . . . . . . 87

5. El modelo lineal 91
5.1. Estimación de los parámetros . . . . . . . . . . . . . . . . . . . . 92
5.1.1. Propiedades del estimador mínimo-cuadrático . . . . . . . 93
5.1.2. Estimación mínimo cuadrática de 2 : . . . . . . . . . . . 94
5.2. El modelo lineal normal . . . . . . . . . . . . . . . . . . . . . . . 96
5.2.1. Estimación máximo verosímil . . . . . . . . . . . . . . . . 97
5.2.2. Intervalos de con…anza y predicción . . . . . . . . . . . . 97
5.2.3. Contraste de hipótesis . . . . . . . . . . . . . . . . . . . . 98
ÍNDICE GENERAL 1
2 ÍNDICE GENERAL
Capítulo 1

Estimación puntual

1.1. Modelos estadísticos


En Estadística nos encontraremos con observaciones o datos de la forma:
x = (x1 ; x2 ; :::; xn ) que supondremos corresponden a un valor de un objeto
aleatorio X = (X1 ; X2 ; :::; Xn ). En general el propósito de la Estadística será
tratar de averiguar algún valor relacionado con X. Supondremos que X toma
valores en un espacio medible (X ; F) y que de la ley de X sólo se sabe que es
una posible dentro de un conjunto de leyes: fP X ; 2 g: Todo esto modelará
una situación de incertidumbre.
Ejemplo 1.1.1 Suponemos que queremos saber cuál es la probabilidad de que
salga cara al lanzar una moneda. Podemos suponer que el fenómeno se puede
describir con variables Xi ; i = 1; ::; n Bernoullis independientes de parámetro p:
Queremos saber p:
De…nición 1.1.1 Un modelo estadístico es una terna (X ; F; fP X ; 2 g)
donde X es un objeto aleatorio que toma valores en (X ; F):
Observación 1.1.1 X se denomina espacio muestral. n será el tamaño mues-
tral. x = (x1 ; xn ; :::; xn ) se dirá que es una muestra de tamaño n: X = (X1 ; X2 ; :::; Xn )
es el vector aleatorio cuyos valores son las muestras (por abuso del lenguaje
muchos autores llaman muestra a (X1 ; X2 ; :::; Xn ) ) y a veces hablaremos de
modelo inducido por X. Normalmente X =Rn . Si las Xi son independientes e
idénticamente distribuidas (iid) diremos que la muestra es una muestra aleato-
ria simple. se denomina espacio de parámetros.
Observación 1.1.2 Notemos que
X
( ; A) ! (X ; F):
La ley de X la denotamos P X para distinguirla de la ley P en ( ; A) pero salvo
que dé lugar a confusión omitiremos este superíndice, en cambio como la ley de
X depende de cuál sea escribiremos P :

3
4 CAPÍTULO 1. ESTIMACIÓN PUNTUAL

Ejemplo 1.1.2 (Modelo Bernoulli) Modelo inducido por n Bernoullis indepen-


dientes de parámetro p:

X = f0; 1gn ;
F = P(f0; 1gn )
= p
Pn Pn
xi
Pp (x1 ; xn ; :::; xn ) = p i=1 (1 p)n i=1
xi

= (0; 1)

De…nición 1.1.2 Diremos que un modelo estadístico es paramétrico si Rd


para algún d.

Observación 1.1.3 El modelo Bernoulli es paramétrico con d = 1.

Ejemplo 1.1.3 (Modelo Poisson) Modelo inducido por n Poissons independi-


entes de parámetro :

X = (Z+ )n ;
F = P((Z+ )n )
= Pn
i=1
xi
n
P (x1 ; xn ; :::; xn ) = e n x !
i=1 i
= (0; +1)

Ejemplo 1.1.4 (Modelo Gaussiano) Modelo normal con media y varianza de-
sconocidas es un modelo inducido por n normales independientes de parámetros
( ; 2 ):

X = Rn ;
F = B(Rn )
= ( ; )
n
1 1 X
f( ; ) (x1 ; xn ; :::; xn ) = p n expf 2
(xi )2 g
2 n 2 i=1
= ( 1; +1) (0; +1)

Observación 1.1.4 Los modelos anteriores son obviamente paramétricos. Nos


centraremos en ellos. Notemos también que al ser las observaciones iid (X ; F; fP ; 2
g) = (X1n ; F1n ; fP1n ; 2 g); donde (X1 ; F1 ; fP1 ; 2 g) es el modelo induci-
do por una observación.

Ejemplo 1.1.5 (Modelo no paramétrico)


R Las Xi son observaciones iid con den-
sidad. En tal caso = ff : f 0; R f (x)dx = 1g:
1.2. ESTADÍSTICOS Y ESTIMADORES. 5

1.2. Estadísticos y estimadores.


De…nición 1.2.1 Un estadístico T es una aplicación de (X ; F) en Rk ; B(Rk )

T : X !Rk ;

k es la dimensión del estadístico.

Ejemplo 1.2.1 Media muestral:


Pn
i=1
xi
T (x1 ; x2 ; :::; xn ) = := x
n
Ejemplo 1.2.2 Varianza muestral:
Pn
i=1
(xi x)2
T (x1 ; x2 ; :::; xn ) = := s2
n
Ejemplo 1.2.3 Varianza muestral corregida:
Pn
i=1
(xi x)2
T (x1 ; x2 ; :::; xn ) = := s~2
n 1
Ejemplo 1.2.4 Si ordenamos la muestra (x1 ; x2 ; :::; xn ) de menor a mayor
podemos escribir la muestra ordenada (x(1) ; x(2) ; :::; x(n) ); tenemos así el es-
tadístico de orden i-ésimo

T (x1 ; x2 ; :::; xn ) = x(i)

Ejemplo 1.2.5 Rango

T (x1 ; x2 ; :::; xn ) = x(n) x(1)

Observación 1.2.1 En todos estos ejemplos el estadístico es de dimensión 1,


que será lo habitual.

Observación 1.2.2 Fijada la ley de probabilidad de X; T es un variable o


vector aleatorio que por construcción tiene la misma ley que T (X):

P T (B) = P X (T 1
(B)) = P (X 1
(T 1
(B)))
1 T (X)
= P ((T (X)) (B)) = P (B):

Por ejemplo si las Xi son Pniid Bernoullis de parámetro p, y T es la suma de las


observaciones T (X) = i=1 Xi , T tendrá una ley Binomial de parámetros n y
p: T y T (X) se diferencian en cual es el conjunto inicial, para T el conjunto ini-
cial es el espacio muestral que se observa, para T (X) es el espacio de .es tados
de la naturaleza". Cuando estudiemos la ley de T abusaremos de la notación e
identi…caremos T y T (X). También abusaremos de la notación al decir a veces
que (X1 ; X2 ; :::Xn ) es una muestra, en lugar de referirnos a (x1 ; x2 ; :::xn ).
6 CAPÍTULO 1. ESTIMACIÓN PUNTUAL

El propósito de la estimación puntual es dar un valor razonable del verdadero


valor de o de una función del parámetro g( ); dada la muestra x.

De…nición 1.2.2 Un estimador de g( ) es un estadístico que se usa para esti-


mar (dar valores razonables) g( ).

Ejemplo 1.2.6 En modelo Bernoulli de parámetro p; podemos utilizar la media


muestral para estimar el parámetro p;
Pn
i=1
xi
T (x) = := p^(x) p
n
sabemos que la aproximación es buena si n es grande.

1.3. Propiedades de los estimadores. Sesgo y er-


ror cuadrático.
De…nición 1.3.1 Diremos que un estimador T (integrable) de g( ) 2 R, es un
estimador insesgado si
E (T ) = g( ); 8 2

De…nición 1.3.2 El sesgo de un estimador de g( ) 2 R se de…ne como la


funcion de
Sesgo (T ) = E (T ) g( ); 2

Ejemplo 1.3.1 Consideremos el modelo Bernoulli, p^ es un estimador insesgado


de p:
Pn !
i=1
Xi
Ep (^
p) = Ep (^
p(X)) = Ep
n
1 P
n np
= Ep (Xi ) = =p
n i=1 n

De…nición 1.3.3 Denominaremos error cuadrático medio del estimador T (de


cuadrado integrable) de g( ) 2 R, a la función de :

ECM (T ) = E (T g( ))2 ; 2

Ejemplo 1.3.2

ECMp (^
p) p p)2 = V arp (^
= Ep (^ p) = V arp (^
p(X))
1 P n np(1 p)
= V arp (Xi ) =
n2 i=1 n2
p(1 p)
=
n
1.3. PROPIEDADES DE LOS ESTIMADORES. SESGO Y ERROR CUADRÁTICO.7

Proposición 1.3.1 Sea T un estimador (con momento de segundo orden)


ECM (T ) = V ar (T ) + Sesgo2 (T ); 2
De…nición 1.3.4 Diremos que un estimador T (de cuadrado integrable), de
g( ) 2 R, es uniformemente de mínima varianza (UMV) si minimiza el error
cuadrático medio en la clase de estimadores insesgados.
Proposición 1.3.2 El estimador UMV es único casi seguramente para todo
2 : Esto es, si T1 ; T2 son estimadores UMV de g( ) 2 R entonces
P fT1 6= T2 g = 0; 8 2 :
Demostración. Bastará ver que E ((T1 T2 )2 ) = 0; 8 2 : En efecto, por
la desigualdad de Chebychev
E ((T1 T2 )2 )
P fjT1 T2 j > "g =0
"2
y
1
X
1 1
P fjT1 6 0g = P ([1
T2 j = n=1 fjT1 T2 j > g P (fjT1 T2 j > g = 0:
n n=1
n
2 T1 +T2
Veamos entonces que E ((T1 T2 ) ) = 0: Primero notemos que 2 será un
estimador insesgado de g( ):
T1 + T2 E (T1 ) + E (T2 ) g( ) + g( )
E = = :
2 2 2
Por tanto
T1 + T2
V ar (T1 ) V ar
2
1
= (V ar (T1 ) + V ar (T2 ) + 2Cov(T1 ; T2 ))
4
1
= (2V ar (T1 ) + 2Cov (T1 ; T2 )):
4
Por la desigualdad de Cauchy-Schwarz
p p
jCov (T1 ; T2 )j V ar (T1 ) V ar (T2 ) = V ar (T1 );
por tanto
T1 + T2 1
V ar (T1 ) V ar (2V ar (T1 ) + 2V ar (T1 )) = V ar (T1 ):
2 4
T1 +T2
De manera que V ar 2 = V ar (T1 ) y por tanto Cov (T1 ; T2 ) = V ar (T1 ):
Finalmente
E ((T1 T2 )2 ) = V ar (T1 T2 )
= V ar (T1 ) + V ar (T2 ) 2Cov (T1 ; T2 )
= 2V ar (T1 ) 2V ar (T1 ) = 0
8 CAPÍTULO 1. ESTIMACIÓN PUNTUAL

Desigualdad de Cauchy-Schwarz
Sean X; Y dos variables aleatorias, no constantes, de cuadrado integrable,
entonces 8 2 R
2
0 var( Y + X) = var(Y ) + 2 cov(X; Y ) + var(X)

implica que el discriminante de la ecuación de segundo grado en


2
var(Y ) + 2 cov(X; Y ) + var(X) = 0

es menor o igual que cero, esto es

4cov(X; Y )2 4var(Y )var(X) 0;

con lo que p p
jcov(X; Y )j var(X) var(Y ):

1.4. Estadísticos su…cientes


De…nición 1.4.1 Un estadístico T es su…ciente si la ley condicionada

(X1 ; X2 ; :::; Xn )jT (X1 ; X2 ; :::; Xn ) = t;

para todo valor posible de t, no depende del parámetro.

Observación 1.4.1 Podemos entonces pensar que la muestra (x1 ; x2 ; :::; xn ) ha


sido generada en dos pasos, primero se ha obtenido el valor de T (X1 ; X2 ; :::; Xn ),
supongamos que sea t, y luego el valor de (X1 ; X2 ; :::; Xn ) dado t. En este segun-
do paso la ley condicionada del vector aleatorio no depende de cual sea el valor
del parámetro así que no nos informa acerca del valor del prámetro y podemos
prescindir de su resultado dado t. Solo el valor de T , obtenido en le primer paso,
es in‡uido por el parámetro, por eso se dice que es su…ciente.

Ejemplo 1.4.1 Sean X1 ; X2 ; :::;PXn variables iid Bernoulli de parámetro p 2


n
(0; 1): Entonces T con T (X) := i=1 Xi es un estadístico su…ciente. En efecto
n
!
X
Pp X1 = x1 ; :::; Xn = xn Xi = t
i=1
( Pn
0 si xi 6= t
= Pp (X1 =x1 ;:::;Xn =t xn 1 ::: x1 ) t
p (1 p) n t
1
Pni=1
P = = si i=1 i = t
x
Pp ( n i=1 Xi =t) (nt)pt (1p)n t
(nt)

de manera que la ley condicionada no depende de p.

Ejemplo 1.4.2 Sean X1 ; X2 ; :::; Xn variables iid Uniformes(0; ), > 0. En-


tonces T con T (X) := X(n) es un estadístico su…ciente. La ley condicionada de
1.4. ESTADÍSTICOS SUFICIENTES 9

(X1 ; X2 ; :::; Xn ) dado T (X) = t tiene una densidad, respecto a la medida de


Lebesgue en Rn 1 ; dada por

f(X1 ;X2 ;:::;Xn ) (x1 ; :::; xn )


f(X1 ;X2 ;:::;Xn )jT (X) (x1 ; :::; xn jt) = 1fx(n) =tg
fT (X) (t)
1 n
n i=1 1(0; ) (xi )
= n 1 1 1fx(n) =tg
t
n 1(0; ) (t)
1
= 1fx(n) =tg :
ntn 1
independiente de .

Ejemplo 1.4.3 Sean X1 ; X2 ; :::;PXn variables iid exponenciales de de parámetro


n
> 0: Entonces T con T (X) := i=1 Xi es un estadístico su…ciente. De hecho
la ley condicionada de (X1 ; X2 ; :::; Xn ) dado T (X) = t tiene una densidad,
respecto a la medida de Lebesgue en Rn 1 ; 1 dada por

f(X1 ;X2 ;:::;Xn )jT (X) (x1 ; :::; xn jt)


f(X1 ;X2 ;:::;Xn ) (x1 ; :::; xn )
= 1fPn xi =tg
fT (X) (t) i=1

Pn Pn 1
e (t xi )
n 1
xi n
e i=1 i=1
i=1 1fxi >0g
= n
n 1e t1
1fPn xi =tg
(n) t
i=1
ft>0g

(n) P
= 1 n :
tn 1 f i=1 xi =t; x(1) >0g
por tanto es idependiente de .

Observación 1.4.2 Evidentemente T (X) := (X1 ; X2 ; :::; Xn ) es siempre un


estadístico su…ciente, pero buscaremos T (X) con la menor dimensión posible,
que sea minimal, en el sentido de que es función de cualquier otro estadístico
su…ciente.

Una manera de identi…car estadísticos su…cientes es la siguiente:

Teorema 1.4.1 (Neyman-Fisher) Un estadístico S es su…ciente si sólo si para


todo x 2 X c.s.
f (x; ) = g(S(x); )h(x);
para ciertas funciones g y h, donde f (x; ) representa la funcion de densidad
(probabilidad) en el caso continuo (discreto).

Demostración. (Caso discreto) (=))

P (X = x; S(X) = s)
P (X = xjS(X) = s) = :
P (S(X) = s)
10 CAPÍTULO 1. ESTIMACIÓN PUNTUAL

y supongamos que el denominador es distinto de cero. Tenemos que


X X X
P (S(X) = s) = P X fx; S(x) = sg = P X (x) = g(S(x); )h(x) = g(s; ) h(x)
x:S(x)=s x:S(x)=s x:S(x)=s

y
P (X = x; S(X) = s) = P X (x; S(x) = s) = g(s; )h(x)1fS(x)=sg ;
de manera que
h(x)1fS(x)=sg
P (X = xjS(X) = s) = P :
x:S(x)=s h(x)

((=)
X
P (x) = P (X = x) = P (X = xjS(X) = s)P (S(X) = s)
s:S(x)=s

= P (X = xjS(X) = S(x))P (S(X) = S(x))


= h(x)g (S(x));

con g (S(x)) := P (S(X) = S(x)) = P X fx0 ; S(x0 ) = S(x)g:

Teorema 1.4.2 (Rao-Blackwell) Si T es un estimador insesgado de g( ) (de


cuadrado integrable) y S es su…ciente entonces E (T jS) es un estimador inses-
gado de g( ) con menor varianza.

Demostración. Como la ley condicionada T jS no depende de entonces


E (T jS) no depende del parámetro y es por tanto un estadístico. Además,

E (E (T jS)) = E (T ) = g( );

con lo que se trata de un estimador insesgado de g( ): Asímismo tenemos


2 2
E (T g( )) = E E (T g( )) S
2
E E (T g( )j S)
2
= E (E (T jS) g( ))) :

Donde usamos la desigualdad de Jensen para esperanzas condicionadas.

Observación 1.4.3 En general si utlizamos una función convexa L(g( ); )


para medir el error en la estimación de manera que el riesgo de un estimador
de g( ), R ( ); lo medimos mediante

R (T ) := E (L(g( ); T ));

entonces si S es su…ciente

R (E (T jS)) R (T ):
1.5. MÉTODOS DE ESTIMACIÓN 11

En efecto, por la desigualdad de Jensen para esperanzas condicionadas

L(g( ); E (T jS)) E (L(g( ); T )jS);

y tomando esperanzas

R (E (T jS)) = E (L(g( ); E (T jS)))


E (E (L(g( ); T )jS))
= E (L(g( ); T )
= R (T ):

De…nición 1.4.2 Un estadístico U (integrable) se dice que es completo si E (g(U )) =


0 para todo 2 implica que g = 0 P U -c.s. para todo 2 .

Ejemplo 1.4.4 Sean X1 ; X2 ; :::; Xn variables iid Uniformes(0; ). Entonces T


con T (X) := X(n) es un estadístico completo. En efecto
Z n 1
t 1
E (g(T )) = E (g((X(n) ))) = g(t)n dt = 0;
0

para todo > 0 implica que


Z
g(t)tn 1
dt = 0;
0

para todo > 0 y de aquí g = 0 en casi todo punto de R+ :

Teorema 1.4.3 (Lehmann-She¤ é) Si U es un estadístico su…ciente y comple-


to y T es un estimador insesgado de g( ) (de cuadrado integrable) entonces
E (T jU ) es un estimador UMV de g( ):

Demostración. Sean T y T1 dos estimadores insesgados de cuadrado in-


tegrable entonces E (T jU ) y E (T1 jU ) también son insesgados y con menor
varianza, por tanto

E (E (T jU ) E (T1 jU )) = E (g(U ))

con g(U ) := E (T jU ) E (T1 jU ). Como U es completo E (T jU ) E (T1 jU ) = 0,


P -c.s para todo 2 :

1.5. Métodos de estimación


Supongamos un modelo estadístico paramétrico (X ; F; fP ; 2 g). El
propósito será encontrar métodos para estimar g( ):
12 CAPÍTULO 1. ESTIMACIÓN PUNTUAL

1.5.1. Método de máxima verosimilitud


Supongamos que el modelo tiene densidad y sea f (x) la densidad correspon-
diente (en el caso discreto utilizaríamos la función de probabilidad).

De…nición 1.5.1 Dada una muestra x 2 X ; se denomina función de verosimil-


itud a la aplicación

L(x; ) : ! R
7! L(x; ) = f (x)

Ejemplo 1.5.1 Supongamos que tenemos un modelo de n observaciones iid


Exponenciales de parametro > 0: Dada x = (x1 ; x2 ; :::xn ) 2 Rn+ la densidad
será Pn
f (x) = ni=1 e xi = n e i=1 xi ;

de manera que Pn
n xi
L(x; ) = e i=1 ; x 2 Rn+

Ejemplo 1.5.2 Supongamos que tenemos un modelo de n observaciones iid


Uniformes en (0; ). Dada x = (x1 ; x2 ; :::xn ) 2 Rn+ la densidad será

n 1 1
f (x) = i=1 1[0; ] (xi ) = n 1[0; ] (x(n) )

de manera que
1
L(x; ) = n 1[0; ] (x(n) )

1
= n 1[x(n) ;+1) ( )

De…nición 1.5.2 Se denomina estimador máximo verosímil (EMV) de a^:


X ! Rd tal que

L(x; ^(x)) = sup L(x; ); 8x 2 X nN


2

donde P (N ) = 0; 8 2 :

Ejemplo 1.5.3 Supongamos que tenemos un modelo de n observaciones iid


Exponenciales de parametro > 0: Para hallar ^ hay que hallar el máximo de
la función de verosimilitud
Pn
n xi
L(x; ) = e i=1

o lo que es lo mismo el máximo de la log-verosimilitud


n
X
l(x; ) := log L(x; ) = n log xi :
i=1
1.5. MÉTODOS DE ESTIMACIÓN 13

Como
n
X
@l(x; ) n
= xi = 0
@ i=1

el extremo es
^ (x) = Pnn :
i=1 xi
Es un máximo local:
@ 2 l(x; ) n
= 2 < 0:
@ 2
Como la función es derivable y el máximo local único tenemos un máximo global.

Ejemplo 1.5.4 Supongamos que tenemos un modelo de n observaciones iid


Uniformes en (0; ). La verosimilitud es
1
L(x; ) = n 1[x(n) ;+1) ( ):

Es inmediato que
^(x) = x(n) :

Proposición 1.5.1 (Invarianza funcional) Sea

g: !
! = g( )

una biyección (medible). Entonces ^ = g(^):

Demostración. Tenemos que

L(x; ) = L(x; g 1 ~
( )) := L(x; ):

Por de…nición
~
L(x; ^ ) = sup L(x;
~ ):
2

Ahora bien
~ g(^))
L(x; = L(x; g 1 (g(^))) = L(x; ^)
= sup L(x; ) = sup L(x; g 1 ( ))
2 2

= ~
sup L(x; ):
2

Ejemplo 1.5.5 Supongamos que tenemos un modelo de n observaciones de


variables X1 ; X2 ; :::Xn , con distribución exponencial de parámetro > 0: Sea
= P (X1 > a) = e a ; con a > 0 …ja. Entonces
^a na
^=e =e x :
14 CAPÍTULO 1. ESTIMACIÓN PUNTUAL

1.5.2. Método de los momentos


De…nición 1.5.3 Supongamos que nuestro modelo es el inducido por n vari-
ables iid: (X1 ; X2 ; :::; Xn ): Sean i ( ) = E (X1i ); esto es, los momentos de orden
i-ésimo de las variables. Supongamos que quiero estimar g( ) 2 R y que puedo
escribir
g( ) = h( 1 ( ); 2 ( ); :::; k ( ));
entonces el estimador por el método de los momentos de g( ); que escribiremos
T; viene dado por
n n n
1X 1X 2 1X k
T (x) = h( xi ; xi ; :::; x ):
n i=1 n i=1 n i=1 i

Ejemplo 1.5.6 Sea un modelo de n observaciones iid Uniformes en (0; ):

1( ) = E (X1 ) = :
2
Por tanto
=2 1( );
y el estimador de por el método de los momentos será
n
1X
T (x) = 2 xi = 2x:
n i=1

Recordemos que el EMV era ^(x) = x(n) : En primer lugar

x n 1 1
fX(n) (x) = n 1[0; ](x) ;

entonces Z
x n 1 1 n
E (^) = E (X(n) ) = xn dx = ;
0 n+1
de manera que el estimador tiene sesgo, pero podemos corregirlo si consideramos
el estimador
n + 1^
= :
n
La varianza de será
2 2
var( ) = E( )
2
n+1 2
= E(^ ) 2
n
2
n+1 n 2 2
=
n n+2
2
= ;
n(n + 2)
1.5. MÉTODOS DE ESTIMACIÓN 15

que es más pequeña, para todo valor de ; que la varianza de T;


2
4Var(X1 )
var(T ) = =
n 3n
Observación 1.5.1 P Es inmediato que el estimador por el método de los mo-
n
mentos de k ( ) es n1 i=1 xki su llamado estimador empírico. En general
Pn (en el
contexto iid) el estimador empírico de E (f (X1 )) se de…ne como n1 i=1 f (xi ):
2
Ejemplo 1.5.7 Consideremos un modelo de observaciones iid N( ; ) con
( ; ) desconocidos.
( n
)
1 1 X
L(x; ; ) = p n exp (xi )2 ;
2 2 2 i=1

de manera que la log-verosimilitud viene dada por


n
1 X
l(x; ; ) = log L(x; ; ) = n log 2
(xi )2 + Cte:
2 i=1

Vamos a buscar el máximo de manera iterativa. Fijado , buscamos el máximo


en :
n
1 X
@ l(x; ; ) = 2 (xi )=0
i=1

implica que
n
1X
^ (x) = xi = x:
n i=1
Es claro que es un máximo local
n
@ 2 l(x; ; ) = 2
<0

y por su unicidad y la derivabilidad de l(x; ; ) resulta un máximo absoluto, de


manera que para todo
l(x; ; ) l(x; x; ):
Buscamos ahora el máximo de
n
1 X
l(x; x; ) = n log 2
(xi x)2 + Cte:
2 i=1

n
n 1 X
@ l(x; ; ) = + 3
(xi x)2 = 0;
i=1

de manera que
n
2 1X
^ = (xi x)2 :
n i=1
16 CAPÍTULO 1. ESTIMACIÓN PUNTUAL

Además
n
n 3 X
@ 2 l(x; ; )j =^ = (xi x)2
^2 ^ 4 i=1
2n
= <0
^2
con lo que se trata de un máximo local y absoluto. Así tenemos

l(x; ; ) l(x; x; ) l(x; x; ^ )

con lo que T (x) = (x; ^ ) es el estimador máximo verosímil de ( ; ): Notemos


que ^ 2 ; estimador máximo verosímil de 2 ; tiene sesgo. Primero notemos que :
n
X n
X
(xi )2 = (xi x+x )2
i=1 i=1
n
X n
X
= (xi x)2 + 2(x ) (xi x)
i=1 i=1
+n(x )2
Xn
= (xi x)2 + n(x )2 ;
i=1
Pn
ya que i=1 (xi x) = 0: De manera que
n n
2 1X 1X
E( ; ) (^ ) = E(Xi X)2 = E(Xi )2
n i=1 n i=1
E(X )2
n 2 2
n 1 2
= = :
n n n
2
Podemos corregir el sesgo si tomamos como estimador de :
n
X
n 1 1
S~2 (x) = ^ 2 (x) = (xi x)2 :
n n 1 i=1

Notemos también que este resultado es general, para cualquier modelo (de ob-
servaciones iid) con varianza desconocida, el estimador ^ 2 (varianza muestral),
tiene sesgo y S~2 (varianza muestral corregida) no.
1.5. MÉTODOS DE ESTIMACIÓN 17

Método de mínimos cuadrados


De…nición 1.5.4 Supongamos que las observaciones (genéricas) en nuestro
modelo son de la forma
Xi = gi ( ) + "i
donde las "i son variables aleatorias. Entonces el estimador por mínimos cuadra-
dos de se de…ne como ~(x) tal que
X X
(xi gi (~))2 = m n (xi gi ( ))2 :
2

Ejemplo 1.5.8 Supongamos que las observaciones son normales de media gi ( ; ) =


+ ri (ri números conocidos y no iguales) y varianza 2 : Podemos escribir

Xi = + ri + "i ;
2
con "i normales de media cero y varianza : Entonces
n
X n
X
(xi (~ + ~ ri ))2 = m n (xi ( + ri ))2 :
;
i=1 i=1

n
X n
X
@ (xi ( + ri ))2 = 2 (xi ( + ri ))
i=1 i=1
Xn
@2 (xi ( + ri ))2 = 2n > 0; r
i=1

Por tanto el mínimo, …jado ; se alcanza para

~=x r:

Ahora podemos tratar de minimizar


n
X n
X
2
(xi (~ + ri )) = (xi x (ri r))2 :
i=1 i=1

n
X n
X
@ (xi (~ + ri ))2 = 2 (xi x (ri r))(ri r) = 0;
i=1 i=1

de manera que Pn
(x x)(ri r)
~= Pn i
i=1
;
i=1 ((ri r)2
ya que
n
X n
X
@2 (xi (~ + ri ))2 = 2 ((ri r)2 > 0:
i=1 i=1
18 CAPÍTULO 1. ESTIMACIÓN PUNTUAL

1.6. Modelos estadísticos regulares. Cota de Cramer-


Rao.
Consideraremos que es un intervalo abierto de R.

De…nición 1.6.1 Diremos que un modelo estadístico es regular si se veri…can


las tres condiciones siguientes:

i) L(x; ) > 0; 8x 2 X nN donde P (N ) = 0; 8 2 :


R R
ii) @ P X
L(x; )dx = P X
@ L(x; )dx (en el caso absolutamente contínuo)
@ X L(x; )dx = X @ L(x; )dx (en el caso discreto), 8 2 .

iii) (Información de Fisher) 0 < In ( ) := E((@ log L)2 ) < 1; 8 2 (n


indica el tamaño muestral):

Proposición 1.6.1 La condición ii) de regularidad es equivalente a

E (@ log L) = 0; 8 2
R R
Demostración. Puesto que X
L(x; )dx = 1, @ X
L(x; )dx = 0 y la
condición ii) equivale a
Z Z
@ L(x; )
0 = @ L(x; )dx = L(x; )dx
L(x; )
ZX X

= @ log L(x; )L(x; )dx = E (@ log L):


X

Corolario 1.6.1
In ( ) = var (@ log L); 8 2 :

Observación 1.6.1 A la función del parámetro y la muestra @ log L(x; ) se


le suele denominar función ”score”. Fijado ; @ log L es una variable aleatoria
de esperanza cero y varianza la información de Fisher.

Supongamos la condición de regularidad adicional


R R P
@2
iv) P X
L(x; )dx = X @ 2 L(x; )dx (en caso absolutamente continuo) @ 2 X L(x; )dx =
X @ 2 L(x; )dx (en el caso discreto), 8 2 .

Proposición 1.6.2 Si el modelo cumple i) ii) y iii), iv) es equivalente a

In ( ) = E ( @ 2 log L)
1.6. MODELOS ESTADÍSTICOS REGULARES. COTA DE CRAMER-RAO.19

Demostración. La condición iv) es equivalente a


Z
0= @ 2 L(x; )dx
X

y como
2
@ 2 L(x; ) = @ 2 log L(x; )L(x; ) + (@ log L(x; )) L(x; )

el resultado se sigue integrando ambos miembros y de que


Z
2
In ( ) = (@ log L(x; )) L(x; )dx < 1
X

Proposición 1.6.3 Si el modelo corresponde a n observaciones iid y el modelo


correspondiente a una observación es regular, el modelo correspondiente a n
observaciones es regular y
In ( ) = nI1 ( )
donde I1 ( ) es la información del modelo con una observación.

Demostración. Ln (x1 ; :::; xn ; ) = ni=1 L1 (xi ; ): Con lo que la condición


i) de regularidad es evidente. La condición ii) se deduce de que
n
X
log Ln (x1 ; :::; xn ; ) = log L1 (xi ; );
i=1

con lo que
n
X
@ log Ln (x1 ; :::; xn ; ) = @ log L1 (xi ; );
i=1
n
X
E (@ log Ln (X)) = E (@ log L1 (Xi )) = 0:
i=1

Finalmente

In ( ) = var (@ log Ln ) = var (@ log Ln (X1 ; :::; Xn ; ))


n
! n
X X
= var @ log L1 (Xi ; ) = var (@ log L1 (Xi ; ))
i=1 i=1
= nI1 ( ):

Ejemplo 1.6.1 Sea el modelo de n Xi iid con ley Exp( ); > 0:

L1 (x; ) = expf xg
20 CAPÍTULO 1. ESTIMACIÓN PUNTUAL

log L1 (x; ) = log x;


1
@ log L1 (x; ) = x:

1
E (@ log L1 ) = E (X):

Pero
Z 1 Z 1
E (X) = x expf xgdx = [ x expf xg]1
0 + expf xgdx
0 0
Z 1
1 1
= expf xgdx = [ expf xg]1
0 =
0

con lo que
E (@ log L1 ) = 0:
Además

I1 ( ) = var (@ log L1 ) = var (X)


= E (X 2 ) E (X)2
2 1 1
= 2 2 = 2:

Con lo que el modelo es regular y


n
In ( ) = 2:

Además
1
@ 2 log L1 (x; ) = 2:

y el modelo también cumple iv).

De…nición 1.6.2 Diremos que T es un estadístico regular si


Z Z
@ T (x)L(x; )dx = T (x)@ L(x; )dx; 8 2 :
X X

Teorema 1.6.1 (Cota de Crámer-Rao). Consideremos un modelo regular y sea


T un estimador insesgado de g( ) y regular, entonces,

g 0 ( )2
var (T ) ;8 2 :
In ( )

Demostración.
Z
@ T (x)L(x; )dx = @ E (T ) = g 0 ( )
X
1.6. MODELOS ESTADÍSTICOS REGULARES. COTA DE CRAMER-RAO.21
Z Z
@ L(x; )
T (x)@ L(x; )dx = T (x) L(x; )dx
X L(x; )
ZX
= T (x)@ log L(x; )L(x; )dx
X
= cov (T; @ log L):
Ya que E (@ log L) = 0: Por tanto
Z Z
@ T (x)L(x; )dx = T (x)@ L(x; )dx
X X

es equivalente a escribir
g 0 ( ) = cov (T; @ log L):
Si ahora aplicamos la desigualdad de Cauchy-Schwarz
g 0 ( )2 var (T )var (@ log L)

De…nición 1.6.3 En el contexto anterior si T es un estimador insesgado de


g( ) tal que
g 0 ( )2
var (T ) = ;
In ( )
se dice que es un estimador e…ciente de g( ):
Proposición 1.6.4 Si T es un estimador e…ciente entonces es UMV (en la
clase de estimadores regulares).
Observación 1.6.2 La condición de e…ciencia es equivalente a la condición de
igualdad en la desigualdad de Cauchy-Schwarz y por tanto a la ”co-linealidad”
entre T E (T ) y @ log L; P - casi seguramente. Esto es, tendremos e…ciencia
si y sólo si, 8 2 ; existe ( ) tal que
@ log L = ( ) (T E (T )) ; 8x 2 X nN ; P (N ) = 0:
Notemos que
1
(T E (T ))@ log L = (@ log L)2 ;
( )
y por tanto
g( ) = E ((T E (T ))@ log L) =
1 1
= E ((@ log L)2 ) = In ( ):
( ) ( )
En de…nitiva
In ( )
( )= ;
g0 ( )
y
In ( )
@ log L = (T E (T )) ; 8x 2 X nN ; P (N ) = 0:
g0 ( )
22 CAPÍTULO 1. ESTIMACIÓN PUNTUAL

Ejemplo 1.6.2 Sean n Xi iid Bernoulli(p): Entonces


P P
xi
L(x1 ; x2 ; :::; xn ; p) = p (1 p)n xi
; p 2 (0; 1):

El modelo es regular y
P P
xi n xi
@p log L =
p 1 p
P
xi n
= ;
p(1 p) (1 p)

con lo que P
n xi
@p log L = p :
p(1 p) n
Resulta así que P
xi
T (x) =
n
es un estimador e…ciente de p y
n
(p) =
p(1 p)

con lo que
n
In (p) = :
p(1 p)

Ejemplo 1.6.3 Sean n Xi iid Exp( ), ya vimos que el modelo era regular,
n
X
n
L(x1 ; x2 ; :::; xn ; ) = expf xi g
i=1

de manera que
n X
@ log L = xi ;
y P
xi 1
@ log L = n :
n
P
xi 1
Por tanto n es un estimador e…ciente de y

In ( ) In ( )
n= ( )= = 1
g( ) 2

de manera que
n
In ( ) = 2:
1.7. MODELOS EXPONENCIALES 23

1.7. Modelos exponenciales


Supongamos que para todo x 2 X se cumple la condición de e…ciencia
@ log L(x; ) = ( ) (T (x) g( )) ; 8 2
integrando la ecuación anterior obtenemos que
L(x; ) = expfa( )T (x) + b( ) + s(x)g;
con Z Z
a( ) = ( )d ; b( ) = ( )g( )d

y s(x) una constante de integración que puede depender de x:


De…nición 1.7.1 Un modelo con verosimilitud de la forma
L(x; ) = expfa( )T (x) + b( ) + s(x)g;
se dice que es un modelo exponencial. T (x) se denomina estadístico privilegiado.
Observación 1.7.1 Es inmediato ver que si el modelo correspondiente a una
observación es exponencial el correspondiente a n observaciones iid también lo
es. En efecto
n
Ln (x1 ; x2 ; :::xn ; ) = i=1 L1 (xi ; )
n
= i=1 expfa1 ( )T1 (xi ) + b1 ( ) + s1 (xi )g
X n Xn
= expfa1 ( ) T1 (xi ) + nb1 ( ) + s1 (xi )g
i=1 i=1
= expfa( )T (x) + b( ) + s(x)g
con
n
X n
X
a( ) = a1 ( ); T (x) = T1 (xi ); b( ) = nb1 ( ); s(x) = s1 (xi ):
i=1 i=1

Observación 1.7.2 Es también inmediato, a partir del criterio de factorización


de Neyamn-Fisher, que el estadístico privilegiado es un estadístico su…ciente.
Ejemplo 1.7.1 Supongamos un modelo de n; observaciones iid Bernoulli(p):
Entonces
Pn Pn
xi
L(x1 ; x2 ; :::xn ; p) = p i=1 p)n i=1 xi
(1
n
p X
= expflog xi + n log(1 p)g;
1 p i=1

con lo que podemos escribir


n
X
p
a(p) = log ; T (x) = xi ; b(p) = n log(1 p); s(x) = 0;
1 p i=1
24 CAPÍTULO 1. ESTIMACIÓN PUNTUAL

Ejemplo 1.7.2 Supongamos un modelo de n; observaciones iid Exp( ): En-


tonces
n
X
n
L(x1 ; x2 ; :::xn ; ) = expf xi g
i=1
n
X
= expf xi + n log g
i=1

con lo que podemos tomar


n
X
a( ) = ; T (x) = xi ; b( ) = n log ; s(x) = 0;
i=1

2
Ejemplo 1.7.3 Supongamos un modelo de n; observaciones iid N( ; ); cono-
cida. Entonces
n
1 1 X
L(x1 ; x2 ; :::xn ; ) = p n expf 2
(xi )2 g
2 n 2 i=1
n
X n
n 2
1 X
= expf 2
xi 2 2
x2i
i=1
2 2 i=1
n
n log log(2 )g
2
con lo que podemos tomar
n
X 2
n
a( ) = 2
; T (x) = xi ; b( ) = 2
;
i=1
2
n
1 X n
s(x) = 2
x2i n log log(2 ):
2 i=1
2

Ejemplo 1.7.4 (modelos no exponenciales). Xi ; i = 1; :::; n: i.i.d con densi-


dades:
1
Uniforme(0; ) : 1(0; ) (x); > 0;
1 b
Cauchy (0; b) : ;b > 0
b2 + x2
1
Doble exponencial : e jx aj ; a 2 R
2
Weibull: x 1 e x ; x > 0; > 0:

Si el modelo es exponencial obviamente, se cumple la condición i) de regular-


idad. Para que se cumplan las condiciones ii) y iii) vamos a exigir que a( ) sea
derivable con a0 ( ) 6= 0. Necesitamos un resultado que nos permita intercambiar
límites e integrales (o sumas):
1.7. MODELOS EXPONENCIALES 25

Teorema 1.7.1 (convergencia dominada) Sea ffn (x)gn 1 un sucesión de fun-


ciones en Rd tal que j fn (x)j g(x) 8n 1; donde g(x) es integrable, supong-
amos que f (x) = l mn!1 fn (x); entonces g(x) es integrable y
Z Z
lm fn (x)dx = f (x)dx:
n!1 Rd Rd

y análogamente para sumas.

Observación 1.7.3 El resultado sigue siendo cierto si cambiamos dx por otra


medida en Rd :

Teorema 1.7.2 Un modelo exponencial con a( ) derivable y a0 ( ) 6= 0 es reg-


ular.

Demostración. Veamos que podemos intercambiar la derivada respecto a


y la integral.
Z
@ expfa( )T (x) + b( )g expfs(x)gdx
X
Z
= expfb( )ga0 ( )@a( ) expfa( )T (x)g expfs(x)gdx
X
+b0 ( ):

Entonces si demostramos que


Z
@a( ) expfa( )T (x)g expfs(x)gdx
X
Z
= @a( ) expfa( )T (x)g expfs(x)gdx (1.1)
X
R
ya estará. Nótese que b0 ( ) estaría entonces bien de…nido ya que como @ X
L(x; )dx =
0, resulta que
Z
0 0
b ( ) = expfb( )ga ( )@a( ) expfa( )T (x)g expfs(x)gdx
X

y como que el término de la derecha estaría bien de…nido, b0 ( ) también.


Sea ~ de un entorno de ;
k 1
1 a(~)
X a( ) jT (x)jk
expfa(~)T (x)g expfa( )T (x)g
expfa( )T (x)g ;
a(~) a( ) k=1
k!

entonces parar todo ~ tal que

ja(~) a( )j h;
26 CAPÍTULO 1. ESTIMACIÓN PUNTUAL

1
X
expfa(~)T (x)g expfa( )T (x)g hk 1
jT (x)jk
expfa( )T (x)g
a(~) a( ) k=1
k!
1
= expfa( )T (x)g expfh jT (x)jg
h
1
expfa( )T (x)g (expfhT (x)g + expf hT (x)g)
h
1
= (expf(a( ) + h) T (x)g + expf(a( ) h) T (x)g)
h
Si tomamos h su…cientemente pequeño, como a0 ( ) 6= 0; existirán 1 ; 2 2
tales que
a( ) + h = a( 1 )
a( ) h = a( 2 )
y como
Z
expf b( i )g = expfa( i )T (x)g expfs(x)gdx; i = 1; 2;
X

resultará que h1 (expf(a( ) + h)T (x)g + expf(a( ) h)T (x)g) es integrable y


esta cota no depende de que ~ tomemos en el entorno de de límites 1 y 2 :
Tenemos entonces que se cumple (1.1) y podemos aplicar ahora convergencia
dominada, de manera que
Z Z
@a( ) expfa( )T (x) + s(x)gdx = @a( ) expfa( )T (x) + s(x)gdx
X
ZX
= T (x) expfa( )T (x) + s(x)gdx:
X

Si volviéramos a derivar otra vez respecto a a( ) la expresión


Z
T (x) expfa( )T (x) + s(x)gdx
X

deduciríamos que
Z
@a( ) T (x) expfa( )T (x) + s(x)gdx
X
Z
= T (x)@a( ) expfa( )T (x) + s(x)gdx
ZX
= T 2 (x) expfa( )T (x) + s(x)gdx < 1 (1.2)
X

De manera que
In ( ) = var (@ log L) = var (a0 ( )T + b0 ( ))
= a0 ( )2 var (T (x)) < 1:
Como a0 ( ) 6= 0 y T (x) no es constante también se cumple que In ( ) > 0: Con
lo que el modelo cumple las condiciones i), ii) y iii) de regularidad.
1.7. MODELOS EXPONENCIALES 27

Observación 1.7.4 Si a( ) es dos veces derivable entonces se puede ver,


siguiendo el mismo procedimiento que en la demostración anterior, que se cumple
la condición iv) de regularidad de manera que

In ( ) = E ( @ 2 log L)
= E ( a00 ( )T b00 ( ))
00
= a ( )E (T ) b00 ( ):

Como
0 = E (@ log L) = a0 ( )E (T ) + b0 ( );
resultará …nalmente que
b0 ( )
In ( ) = a00 ( ) b00 ( ):
a0 ( )
Observación 1.7.5 Como

@ log L = a0 ( )T (x) + b0 ( );

tendremos que
b0 ( )
@ log L = a0 ( ) T (x) ;
a0 ( )
b0 ( )
con lo que T será un estimador e…ciente de a0 ( ) :

Observación 1.7.6 Como corolario del teorema anterior se obtiene que todo
estimador integrable en un modelo exponencial es regular.

Proposición 1.7.1 El estadístico privilegiado T es completo.

Demostración. Consideremos el caso con densidad


Z
E (g(T )) = g(T (x))ea( )T (x)+b( )+s(x) dx:
X

Como se mueve en un intervalo abierto y a0 ( ) 6= 0, podemos hacer la repara-


metrización biyectiva = a( ), con lo que

E (g(T )) = 0 para todo 2 ;

se convierte en
E (g(T )) = 0 para todo 2 = g( );
con
Z
T (x)+b( )+s(x)
E (g(T )) = g(T (x))e dx
X
Z
= g(t)e t+b( ) T 1
(dt)
R
Z
: = g(t)e t+b( ) T
(dt)
R
28 CAPÍTULO 1. ESTIMACIÓN PUNTUAL

1
donde b( ) = b(a ( )) y (dx) = es(x) dx: Por tanto

E (g(T )) = 0 para todo 2

equivale a Z
t T
g(t)e (dt) = 0 para todo 2 ,
R

y como la transformada de Laplace de una medida de…ne univocamente la me-


dida (salvo equivalencias) resultará que g = 0, T -c.s.

1.8. Propiedades asintóticas de los métodos de


estimación.
Por simplicidad vamos a considerar modelos paramétricos correspondientes
a observaciones iid y con un intervalo abierto de R. Si tenemos muestras de
tamaño n tendremos una espacio muestral X y dado un método de estimación
tendremos el correspondiente estimador que denotaremos Tn :

Tn : X ! R
(x1 ; x2 ; :::; xn ) ! Tn (x1 ; x2 ; :::; xn ):

El propósito será estudiar el comportamiento de Tn cuando n ! 1: A tal


efecto estudiaremos el comportamiento de la sucesión de variables

fTn (X1 ; X2 ; :::; Xn )gn 1:

De…nición 1.8.1 Diremos que Tn es un estimador (asintóticamente) fuerte-


mente consistente de g( ) si
c:s:
Tn (X1 ; X2 ; :::; Xn ) ! g( ); 8 2
n!1

si la convergencia es en probabilidad se dice que es débilmente consistente.

De…nición 1.8.2 Diremos que Tn es un estimador asintóticamente insesgado


de g( ) si
E (Tn (X1 ; X2 ; :::; Xn )) ! g( ); 8 2
n!1

De…nición 1.8.3 Diremos que Tn es un estimador asintóticamente normal de


2
g( ) y varianza asintótica n si
p L 2
n(Tn (X1 ; X2 ; :::; Xn ) g( )) ! N(0; ); 8 2
n!1

2
a veces se denota Tn s AN (g( ); n )
1.8. PROPIEDADES ASINTÓTICAS DE LOS MÉTODOS DE ESTIMACIÓN.29

Observación 1.8.1 Notemos que si Tn es asintóticamente normal de g( ) esto


signi…ca
2
Ley(Tn ) ) N(g( );
n
y la aproximación es tanto más cierta cuanto más grande es n:
2
De…nición 1.8.4 Si Tn s AN (g( ); n ) con

2 g 0 ( )2
=
I1 ( )

se dice que es un estimador asintóticamente e…ciente de g( ):

Teorema 1.8.1 Supongamos que el modelo cumple las condiciones de regular-


idad i) ii) iii) y iv). Y que además v): @ 2 log L1 (x; ) es una función contin-
ua en y vi) j @ 2 log L1 (x; ~)j < h (x) para todo ~ de un entorno de , con
R
X
h (x)L1 (x; )dx < 1. Entonces si ^n (x) es una solución fuertemente con-
sistente de las ecuaciones de verosimilitud:

@ log Ln (x; )j =^n (x) = 0; @ 2 log Ln (x; )j =^n (x) <0

resultará que
p L 1
n(^n (X1 ; X2 ; :::; Xn ) ) ! N 0; :8 2
n!1 I1 ( )

Demostración.

@ log Ln (x; ) = @ 2 log Ln (x; )j = ( ^n );


n

donde n es un punto intermedio entre y ^n : De esta manera


p p @ log Ln (x; )
n(^n ) = n
@ 2 log Ln (x; )j = n

p1 @ log Ln (x; )
n
= 1 2 : (1.3)
n @ log Ln (x; )j = n

Ahora bien
n
1 1 X
p @ log Ln (X1 ; X2 ; :::; Xn ; ) = p @ log L1 (Xi ; ):
n n i=1

Para todo 2 las @ log L1 (Xi ; ) son variables aleatorias iid de media cero
y varianza E ((@ log L1 (Xi ; ))2 ) = I1 ( ): Entonces por el teorema central del
límite
n
1 X L
p @ log L1 (Xi ; ) ! N(0; I1 ( )):
n i=1 n!1
30 CAPÍTULO 1. ESTIMACIÓN PUNTUAL

Por otro lado,


n
1 2 1X
@ log Ln (X1 ; X2 ; :::; Xn ; ) = @ 2 log L1 (Xi ; );
n n i=1

y las variables @ 2 log L1 (Xi ; ) son iid de esperanza I1 ( ); de manera que por
la ley fuerte de los grandes números
1 2 c:s:
@ log Ln (X1 ; X2 ; :::; Xn ; ) ! I1 ( ):
n n!1

Entonces si demostramos que


1 2 P
@ log Ln (X1 ; X2 ; :::; Xn ; ) @ 2 log Ln (X1 ; X2 ; :::; Xn ; n (X)) ! 0
n n!1
(1.4)
tendremos que
1 2 P
@ log Ln (X1 ; X2 ; :::; Xn ; n (X)) ! I1 ( )
n n!1

y aplicando el teorema de Slutsky a (1.3) tendremos

p p1 @ log Ln (X; )
n L N(0; I1 ( )) 1
n(^n (X) )= 1 2 ! = N 0; :
n @ log L n (X; )j = n (X) n!1 I1 ( ) I1 ( )
(1.5)
Para probar (1.4), notemos que
1 2
@ log Ln (X1 ; X2 ; :::; Xn ; ) @ 2 log Ln (X1 ; X2 ; :::; Xn ; n (X))
n
n
1X 2
@ log L1 (Xi ; ) @ 2 log L1 (Xi ; n (X))
n i=1
n
1X
sup @ 2 log L1 (Xi ; ) @ 2 log L1 (Xi ; 1) ;
n i=1 j 1 j<

con probabilidad uno si n n0 (!; ), ya que como ^n es fuertemente consistente


y n (X) está entre y ^n (X), para todo > 0 si n n0 (!; )

j n (X)j <

con probabilidad uno. Tendremos entonces que casi seguramente


1 2
l m sup @ log Ln (X1 ; X2 ; :::; Xn ; ) @ 2 log Ln (X1 ; X2 ; :::; Xn ; n)
n
n
1X
lm sup @ 2 log L1 (Xi ; ) @ 2 log L1 (Xi ; 1 )
n i=1 j 1 j<
!
= E sup @ 2 log L1 (Xi ; ) @ 2 log L1 (Xi ; 1) ;
j 1 j<
1.8. PROPIEDADES ASINTÓTICAS DE LOS MÉTODOS DE ESTIMACIÓN.31

donde hemos podemos aplicar la ley fuerte de los grandes números ya que
!
E sup @ 2 log L1 (Xi ; ) @ 2 log L1 (Xi ; 1)
j 1 j<

2E (h (Xi )):

El resultado se sigue haciendo que ! 0, aplicando convergencia dominada y


la continuidad de las derivadas segundas de la verosimilitud.

Proposición 1.8.1 Supongamos que nuestro modelo paramétrico, correspondi-


ente a observaciones iid, y tal que es un intervalo abierto de R, es localmente
identi…cable, esto es la aplicación

7! P

es inyectiva en el entorno de cualquier punto y que


Z
L1 (x; ~)
log L1 (x; )dx < 1
X L1 (x; )

para todo ~ de un entorno de ; 8 2 . Entonces las ecuaciones de verosimilitud


tienen a partir de un cierto valor de n una solución fuertemente consistente.

Demostración. Consideremos la función


X n
~) = 1 L1 (Xi ; ~)
n (X1 ; X2 ; :::; Xn ; log :
n i=1 L1 (Xi ; )

Por la ley fuerte de los grandes números


!
~ c:s: L1 (X1 ; ~)
n (X1 ; X2 ; :::; Xn ; ) ! E log
n!1 L1 (X1 ; )

Sea k 2 N su…cientemente grande para que L1 (X1 ; ~) sea una variable diferente
de L1 (X1 ; ) si ~ 2 [ + k1 ; 1
k ]. Esto queda garantizado por la hipótesis de
identi…cabilidad local. Entonces por la desigualdad de Jensen como log es una
~
función estrictamente cóncava y L 1 (X1 ; )
L1 (X1 ; ) 6= 1; resultará que
! !
L1 (X1 ; ~) L1 (X1 ; ~)
E log < log E
L1 (X1 ; ) L1 (X1 ; )
Z
L1 (x; ~)
= log L1 (x; )dx
L1 (x; )
ZX
= log L1 (x; ~)dx
X
= log 1 = 0
32 CAPÍTULO 1. ESTIMACIÓN PUNTUAL

Fijado k, si n es su…ciente grande tendremos que


1
n (X1 ; X2 ; :::; Xn ; + ) < 0
k
1
n (X1 ; X2 ; :::; Xn ; ) < 0
k
con probabilidad uno (salvo en un conjunto Nk tal que P (Nk ) = 0). Por de…ni-
ción n (X1 ; X2 ; :::; Xn ; ) = 0: Por tanto en el intervalo [ + k1 ; 1
k ] habrá
un máximo local, podemos tomar este valor como ^n ; es obvio que entonces j
^n j < k1 . El resultado se sigue tendiendo k a in…nito.
1.9. MUESTRAS DE UNA POBLACIÓN NORMAL 33

1.9. Muestras de una población normal


En esta sección vamos a estudiar las distribuciones de determinados estadís-
ticos cuando los datos que observamos siguen una distribución normal. Estos
resultados nos serán de gran ayuda en los cálculos que hagamos en el siguiente
capítulo.
Sea A una matriz cuadrada no singular n n y b 2 Rn . Sea X un vector
aleatorio n-dimensional con densidad. Consideremos el vector Y = AX + b;
sabemos que entonces Y tiene densidad
1
fY (y) = fX (g (y))jJg 1 (y)j

donde g(x) = Ax + b; esto es


1 1
fY (y) = fX (A (y b))j det A j

ya que
@x1 @xn
@y1 @yn
1
Jg 1 (y) = = det A :
@xn @xn
@y1 @yn

Si ahora X1 ; X2 ; :::; Xn son iid N (0; 1)


n
1 1X 2
fX (x) = p n expf x g
2 2 i=1 i
1 1 0
= p n expf x xg;
2 2

donde x = (x1 ; x2 ; :::; xn )0 y la prima indica traspuesta, entonces

1 1
fY (y) = p n expf (y b)0 (A 1 0
)A 1
(y b)g
2 j det Aj 2

y si escribimos = AA0 ; resultará que


1 1
fY (y) = p n expf (y b)0 1
(y b)g:
2 j det j1=2 2

Se dice entonces que Y tiene una distribución normal n-dimensional de media b


y matriz de varianzas-covarianzas ; se escribe Y s Nn (b; ): Notemos que en
efecto

E(Y ) = AE(X) + b = b
Cov(Y ) = E((Y b)(Y b)0 )
= AE(XX 0 )A0
= AA0 =
34 CAPÍTULO 1. ESTIMACIÓN PUNTUAL

y que es de…nida positiva:

y 0 y = y 0 AA0 y = jjA0 yjj2 > 0 para todo y 6= 0;

ya que A es no singular.

Proposición 1.9.1 Si Y s Nn (b; ); B es una matriz n n no singular y


c 2 Rn entonces Z = BY + c s Nn (Bb + c; B B 0 ):

Demostración. Podemos suponer que Y = AX + b con A no singular,


= AA0 y X un vector de N (0; 1) independientes, entonces

Z = BAX + Bb + c

con lo que la nueva media será Bb+c y la nueva matriz de varianzas-covarianzas


BAA0 B 0 = B B 0 :

Corolario 1.9.1 Si X es un vector n-dimensional de N (0; 1) independientes y


T es una matriz ortogonal n n; Y := T X es también un vector n-dimensional
de N (0; 1) independientes.

Demostración. X s Nn (0; In ) y por la proposición anterior Y := T X s


Nn (0; T T 0 ) y T T 0 = In ya que T es ortogonal.

Y(1) gm
Proposición 1.9.2 Si Y = tiene una ley normal n-dimensional
Y(2) gn m
y Cov(Y(1) ; Y(2) ) = 0; entonces Y(1) e Y(2) son independientes y con ley normal.

Demostración. Es inmediata a partir de la factorización de la densidad


conjunta.

Proposición 1.9.3 Cualquier marginal de una normal multidimensional es


normal.

Y(1) gm
Demostración. Sea Y = ; Y s Nn (b; ), con =
Y(2) gn m
11 12 gm
. Hagamos el cambio
21 22 gn m

Y(1) Z(1) Im 0 Y(1)


Y = !Z= = 1 :
Y(2) Z(2) 21 11 In m Y(2)

Entonces Cov(Z(1) ; Z(2) ) = 0; de hecho

11 0
Cov(Z) = 1 :
0 22 21 11 12
1.9. MUESTRAS DE UNA POBLACIÓN NORMAL 35

De hecho
0
Im 0 11 12 Im 0
1 1
21 11 In m 21 22 21 11 In m
1
Im 0 11 12 Im 11 12
= 1
21 11 In m 21 22 0 In m
1
Im 0 11 11 11 12 + 12
= 1 1
21 11 In m 21 21 11 12 + 22

11 0
= 1 1 :
21 11 11 + 21 21 11 12 + 22

y podemos aplicar la proposición anterior.


Proposición 1.9.4 Si L es una matriz m n con m < n y m …las linealmente
independientes e Y s Nn (b; ) entonces LY s Nm (Lb; L L0 ).
Demostración. Basta completar L con n m …las linealmente independi-
entes y aplicar la proposición anterior.
Corolario 1.9.2 Si X = (X1 ; :::; Xn )0 es tal que las Xi son iid con ley N ( ; 2
)
2
entonces X s N ( ; n ):

Demostración. X s Nn ( 1; 2 In ); con 1 = (1;:::;n)


1)0 : Por tanto si tomamos
L = (1=n; :::; 1=n) tendremos, por la proposición anterior, que
2
X = LX s N ( L1; LL0 );
y 10
1
B C
L1 =(1=n; :::; 1=n) @ ... A = 1
1
0 1
1=n
B C 1
LL0 = (1=n; :::; 1=n) @ ... A=
n
1=n

De…nición 1.9.1 Sean Z1 ; :::; Zn iid N (0; 1); entonces Z12 + :: + Zn2 sigue una
ley que se conoce como Ji-cuadrado con n-grados de libertad, se escribe Xn2 : Esto
es
Ley
Xn2 = Z12 + :: + Zn2 ; Zi iid N (0; 1):
Observación 1.9.1 Si Z1 s N (0; 1)
p 1 p 1
fZ12 (u) = fZ1 ( u) p 1(0;1) (u) + fZ1 ( u) p 1(0;1) (u)
2 u 2 u
u
1 e 2 1 u
= p p 1(0;1) (u) = p u1=2 1 e 2 1(0;1) (u);
2 u 2
36 CAPÍTULO 1. ESTIMACIÓN PUNTUAL

esto es
Z12 s Gamma(1=2; 1=2):
Es fácil ver que si W1 sGamma( 1 ; ) y W2 sGamma( 2 ; ) y son indepen-
dientes entonces W1 + W2 sGamma( 1 + 2 ; ); de esta manera la ley Xn2 es
una ley Gamma(n=2; 1=2):
2
Teorema 1.9.1 (Fisher) Si X1 ; :::; Xn son iid con ley N ( ; ) entonces U :=
Pn (Xi X)2
i=1 2 s Xn2 1 independiente de X:
Xi Pn
Demostración. Tomemos Yi = , entonces U = i=1 (Yi Y )2 con Yi
iid N (0; 1): Tenemos que,

n n
!2
X X Y
U= Yi2 nY = Y Y2 0
pi ;
i=1 i=1
n

donde Y = (Y1 ; :::; Yn )0 : Sea T una matriz ortogonal n n con su primera …la
( p1n ; :::;
n) p1
n
) esto es
0 1 1 1
p p
n n
T =@ : : A;
: :
Pn Yi
Sea Z = T Y; entonces Z1 = i=1 pn y Z 0 Z = Y 0 T 0 T Y = Y 0 Y; así

n
!2
X Y
U = 0
Y Y pi
i=1
n
= Z 0Z Z12 = Z22 + :: + Zn2 ;

y sabemos por el corolario (1.9.1) que Z es un vector de N (0; 1) independientes,


p
de manera que U es independiente de Z1 = n X y U s Xn2 1 :

De…nición 1.9.2 Si X s N (0; 1) e Y s Xn2 y X e Y son independientes


entonces la ley de
X
q
Y
n

se conoce como ley t de Student con n grados de libertad, la escribiremos tn .


Esto es
X Ley
q = tn
Y
n

Observación 1.9.2 Se puede ver que


n+1
1 1 ( n+1
2 ) x2 2

ftn (x) = p n 1+ :
n (2) 2
1.9. MUESTRAS DE UNA POBLACIÓN NORMAL 37

Notemos también que por la ley de los grandes números y el teorema de Slutsky
X Ley
q ! N (0; 1);
Y n!1
n

la tn es una distribución simétrica como la N (0; 1) pero con las colas más pe-
sadas. La distribución de Student fue descrita en 1908 por William Sealy Gosset.
Gosset trabajaba para la marca de cerveza Guinness y por razones de con…den-
cialidad utilizó el seudónimo de Student.
2
Corolario 1.9.3 (del teorema de Fisher) Si X1 ; :::; Xn son iid con ley N ( ; )
entonces
p X
n s tn 1
S~
donde
n
1 X
S~2 = (Xi X)2 :
n 1 i=1
p Pn 1
Demostración. n X s N (0; 1) y i=1 2 (Xi X)2 s Xn2 1 y son
independientes, entonces por la de…nición de t de Student
p
nX
q Pn s tn 1
1 1
n 1 i=1 2 (Xi X)2

pero
p
nX p X
q Pn = n
1 1
2 (Xi X)2 S~
n 1 i=1
38 CAPÍTULO 1. ESTIMACIÓN PUNTUAL
Capítulo 2

Intervalos de con…anza

Dado un modelo paramétrico (X ; F; fP ; 2 g), con Rd la idea es dar


d
una región de R en la que se pueda encontrar el verdadero valor de : Vamos a
concentrarnos en el caso d = 1 con lo que nuestras regiones serán ”intervalos”.

2.1. Construcción de intervalos a partir de la


verosimilitud
Sea x = (x1 ; x2 ; :::; xn ) una muestra de tamaño n y L(x; ) la verosimili-
tud. En estimación puntual utilizamos ^(x) como estimación de ; sin embargo
sabemos que ^(x) no es exactamente sino que oscila, al cambiar la muestra,
alrededor de : Entonces una manera alternativa o complementaria de localizar
sería dar un conjunto de puntos en lugar de un punto. Podríamos así decir que
se encuentra en [~1 (x); ~2 (x)]; con cierta seguridad o verosimilitud. Notemos
que ~1 y ~2 estiman los extremos del intervalo y por tanto éste va cambiando
de muestra a muestra, podemos escribir

I(x) = [~1 (x); ~2 (x)]:

Es evidente que nos gustaría tener un intervalo de longitud ~2 (x) ~1 (x) pequeña
(más preciso) frente a uno de longitud grande (impreciso) pero si lo tomamos
más pequeño la seguridad (con…anza) de que el intervalo contenga a también
disminuirá, por tanto debemos buscar un compromiso entre ambas cosas.
Para controlar la seguridad, verosimilitud o con…anza del ”intervalo”podemos
tomar el conjunto de valores de tales que

L(x; ^)
K
L(x; )

para un valor de K no muy grande. Si embargo queda por saber como …jar K:

39
40 CAPÍTULO 2. INTERVALOS DE CONFIANZA

Una manera podría ser tomar K tal que


( )
L(x; ^)
P X x; K
L(x; )

con un próximo a 1.

De…nición 2.1.1 Diremos que los intervalos I(x) para 2 R tienen un coe…-
ciente de con…anza si
P X ( 2 I)
esto es P X fx; 2 I(x)g :

Observación 2.1.1 Habitualmente se suele tomar 0;95 ó 0;99 (si la muestra


es muy grande).

Observación 2.1.2 Notemos que P X ( 2 I) = P ( 2 I(X))

Observación 2.1.3 Análogamente diríamos que los intervalos I(x) para g( ) 2


R tienen (coe…ciente) de con…anza si

P X (g( ) 2 I)

y podría ser multidimensional.


2
Ejemplo 2.1.1 Sean n observaciones iid con distribución N ( ; ), conocida.
n
1 1 X
L(x; ) = p n expf 2
(xi )2 g
2 2 i=1
n
1 1 X n
= p n expf 2
(xi x)2 g expf (x )2 g
2 2 i=1
2 2
n
= h(x) expf (x )2 g
2 2
entonces, puesto que ^ (x) = x

L(x; ^ ) n
K () expf (x )2 g K
L(x; ) 2 2

o equivalentemente
jx j CK p
n
donde CK es una constante que depende del valor de ”verosimilitud” elegido, K;
pero no de ó n: Finalmente obtenemos

x CK p x + CK p :
n n
2.2. CONSTRUCCIÓN DE INTERVALOS A PARTIR DE FUNCIONES PIVOTANTES.41

Sin embargo, no hay una manera clara de como …jar K o CK : Podemos mirar
cómo se comporta el intervalo [x CK pn ; x + CK pn ] cuando cambiamos la
muestra, en particular

P 2 X CK p ; X + CK p
n n

Ahora bien

P X CK p X + CK p
n n
p
n(X )
= P CK :

2
Sabemos que X s N ( ; n ) de manera que
p
n(X )
s N (0; 1)

y la probabilidad anterior No depende de y así podemos encontrar CK inde-


pendiente de tal que
p
n(X )
P CK

para un valor de pre…jado. Por ejemplo, si tomamos = 0;95, como

P fjN (0; 1)j 1; 96g 0;95

bastará tomar CK = 1; 96: Tendremos así, dada una muestra x, que el intervalo

x 1;96 p x + 1;96 p ;
n n

tiene un coe…ciente de con…anza 0;95.

2.2. Construcción de intervalos a partir de fun-


ciones pivotantes.
Como hemos visto en el ejemplo anterior obtener el intervalo para de
coe…ciente ha sido posible por la circunstancia de que
p
n(X )
s N (0; 1)
p
es decir la distribución de n(X )
no depende del valor de : Esto nos lleva a
la siguiente de…nición general.
42 CAPÍTULO 2. INTERVALOS DE CONFIANZA

De…nición 2.2.1 Sea (X ; F; fP X ; 2 g), con Rd : un modelo paramétri-


co. Una función pivotante para g( ) 2 R es una aplicación medible

:X g( ) ! R
(x; g( )) 7! (x; g( ))

y tal que la ley de ( ; g( )) no depende de :


2
Ejemplo 2.2.1 Sea un modelo de n observaciones iid con distribución N ( ; )
entonces
p x
(x; ) = n
s~
donde
n
1 X
s~2 = (xi x)2
n 1 i=1

es una función pivotante para . En efecto sabemos que (por el teorema de


Fisher) que
(X; ) s tn 1 de Student.
Asimismo Pn
i=1 (xi x)2
(x; ) = 2

es una función pivotante ya que (también por el teorema de Fisher)

(X; ) s Xn2 1:

Ejemplo 2.2.2 Consideremos n observaciones iid con distribución Uniforme(0; ).


La ley de X(n) viene dada por

zn 1
fX(n) (z; ) = n n 1[0; ] (z);

entonces
x(n)
(x; ) =

es una función pivotante ya que

(X; ) s nun 1
1[0;1] (u)

Proposición 2.2.1 Sea (x; g( )) una función pivotante para g( ) y B 2 B(R)


tal que
P X fx; (x; g( )) 2 Bg
entonces
I(x) = fg( ); (x; g( )) 2 Bg
es una región de coe…ciente de con…anza :
2.2. CONSTRUCCIÓN DE INTERVALOS A PARTIR DE FUNCIONES PIVOTANTES.43

Demostración. Tenemos que ver que


P X fx; g( ) 2 I(x)g ;
pero decir que g( ) 2 I(x) es lo mismo que decir que (x; g( )) 2 B; entonces
P X fx; g( ) 2 I(x)g = P X fx; (x; g( )) 2 Bg :

Observación 2.2.1 Normalmente B será un intervalo [a; b] de manera que


(x; g( )) 2 B equivaldrá a a (x; g( )) b, entonces si (x; ) es una
función estrictamente monótona creciente tendremos que esto equivale a decir
1 1
que (x; )(a) g( ) (x; )(b):
Ejemplo 2.2.3 (Intervalo para ; desconocida) Sea un modelo p de n obser-
vaciones iid con distribución N ( ; 2 ) entonces (x; ) = n x s~ es un piv-
ote para con distribución tn 1 de Student entonces si tomamos el intervalo
[ tn 1; =2 ; tn 1; =2 ] donde tn 1; =2 es un valor tal que
P (tn 1 > tn 1; =2 ) = =2
con = 1 ; y donde tn 1 denota una variable con ley tn 1 de Student,
resultará que
p X
P( ; )( tn 1; =2 n tn 1; =2 ) =
s~
y de aqui,
x p
tn 1; =2 tn 1; =2n
s~
proporcionará un intervalo de con…anza : Si aislamos tendremos que lo an-
terior equivale a
s~ s~
x tn 1; =2 p x + tn 1; =2 p
n n
Ejemplo 2.2.4 (Intervalo para ) Sea de nuevo un modelo
P
de n observaciones
n
(x x)2
normales independientes N ( ; 2 ) entonces (x; ) = i=1 2i es una fun-
ción pivotante para con distribución Xn2 1 entonces si tomamos los puntos
Xn2 1;1 =2 y Xn2 1; =2 (con la misma notación de antes) tendremos que
Pn
2 i=1 (xi x)2
Xn 1;1 =2 2
Xn2 1; =2

2
proporciona un intervalo de con…anza : En efecto, de aquí aislando obten-
emos
n^ 2 2 n^ 2
Xn2 1; =2 Xn2 1;1 =2
Pn
con ^ 2 = n1 i=1 (xi x)2 :
44 CAPÍTULO 2. INTERVALOS DE CONFIANZA

2.3. Problemas de dos muestras.


2.3.1. Muestras independientes
Supongamos un modelo correspondiente a observaciones X1 ; X2 ; :::; Xn1 ; Y1 ; Y2 ; :::; Yn2
donde las X son iid con distribución N ( 1 ; 21 ) y las Y son iid con ley N ( 2 ; 22 ):
Asumimos también que (las "dos"muestras) las X y las Y son independientes.

Intervalo de con…anza para la diferencia de medias.


Supongamos que 1 = 2: Entonces, como (por el teorema de Fisher y la
independencia de X e Y s)
2 1 1
X Y s N( 1 2; ( + ))
n1 n2
y Pn1 Pn2
i=1 (Xi X)2 i=1 (Yi Y )2
2
+ 2
s Xn21 +n2 2

y además son independientes, resultará que


X Y ( 1 2)
q Pn1 Pn2 s tn1 +n2 2:
1 1 1
n1 +n2 2 ( n1 + n2 )( i=1 (Xi X)2 + i=1 (Yi Y )2 )

De aquí tendremos que


x y ( 1 2)
(x; y; 1 2) =q Pn1 Pn2
1 1 1
n1 +n2 2 ( n1 + n2 )( i=1 (xi x)2 + i=1 (yi y)2 )

es una función pivotante para 1 2: Y obtendremos un interval de con…anza


para 1 2 dado por
s
n1 + n2 ^2 ^2
x y tn1 +n2 2; =2 ( 1 + 2) 1 2
n1 + n2 2 n2 n1
s
n1 + n2 ^2 ^2
x y + tn1 +n2 2; =2 ( 1 + 2 ):
n1 + n2 2 n2 n1
Si 1 6= 2 lo anterior no proporciona un pivote para 1 2 ya que no
hay manera de ”eliminar” 21 y 22 : Hay diversas soluciones aproximadas, la más
sencilla se basa en el hecho de que
X Y ( 1 2)
q 2 2
s N (0; 1)
n1
1
+ n2
2

de manera que aproximadamente


X Y ( 1 2)
q s N (0; 1)
^ 21 ^ 22
n1 + n2
2.3. PROBLEMAS DE DOS MUESTRAS. 45

y tenemos el intervalo de con…anza aproximadamente


s s
^ 21 ^2 ^ 21 ^2
x y k =2 + 2 1 2 x y+k =2 + 2
n1 n2 n1 n2

donde P (N (0; 1) > k =2 ) = =2 y, como siempre, =1 :

Intervalo para el cociente de varianzas


Como Pn1
i=1 (Xi X)2
2 = Xn21 1
1
y
Pn1
i=1 (Yi Y )2
2 = Xn22 1
2

son independientes, si de…nimos la distribución Fn1 ;n2 de Fisher (con n1 y n2


grados de libertad) como la que se obtiene al hacer el cociente

Xn21 =n1
Xn22 =n2

donde numerador y denominador son independientes, tendremos que

s~21 = 2
1
s Fn 1 1 ;n2 1
s~22 = 2
2

y esto nos dará el intervalo de con…anza

s~22 2
2 s~22
Fn1 1 ;n2 1;1 =2 2 2 Fn1 1 ;n2 1; =2 2 :
s~1 1 s~1

2.3.2. Muestras relacionadas


Supongamos un modelo correspondiente a observaciones X1 ; X2 ; :::; Xn ; Y1 ; Y2 ; :::; Yn
donde las X e Y son dependientes, pero Xi Yi son iid con distribución
2
N( 1 2; ) (siendo 1 la media común de las X y 2 la media común de
las Y ) entonces utilizando el teorema de Fisher, un intervalo de con…anza de
coe…ciente para 1 2 vendrá dado por

s~ s~
x y tn 1; =2 p 1 2 x y + tn 1; =2 p
n n
1
Pn
con s~2 = n 1 i=1 (xi yi (x y))2 :
46 CAPÍTULO 2. INTERVALOS DE CONFIANZA

2.4. Algunos métodos para obtener pivotes


2.4.1. Un método bastante general
Supongamos un modelo asociado a observaciones iid X1 ; X2 ; :::; Xn con
función de distribución F contínua, 2 R. Sabemos que entonces F (Xi ) s
U (0; 1) y consecuentemente log F (Xi ) sExp(1) =Gamma(1; 1): Finalmente
por la independencia,
n
X 2n
log F (Xi ) s Gamma(n; 1) = Gamma ;1
i=1
2

y como 2 Gamma( 2n 2n 1 2
2 ; 1) =Gamma( 2 ; 2 ) = X2n , resultará que

n
X
2
2 log F (Xi ) s X2n
i=1

y por tanto
n
X
(x; ) = 2 log F (xi )
i=1

será una función pivotante para con una distribución que está tabulada.

2.4.2. Familias de posición y escala


Supongamos un modelo asociado a observaciones iid X1 ; X2 ; :::; Xn con
densidad de la forma
f (x; ) = f0 (x )
se dice que en tal caso es una familia de posición generada por f0 : En tal caso
Yi = Xi tiene densidad f0 (y) y por tanto

(x; ) = g(x1 ; x2 ; :::; xn )

es una función pivotante para cualquiera que sea la función g:


Si las Xi tienen densidad
1 x
f (x; ) = f0 ( )

se dice que es una familia de escala generada por f0 . En tal caso Yi = Xi =


tiene densidad f0 (y) y por tanto
x1 x2 xn
(x; ) = g( ; :::; )

es una función pivotante para cualquiera que sea la función g:


2.4. ALGUNOS MÉTODOS PARA OBTENER PIVOTES 47

Por último si las Xi tienen densidad


1 x
f (x; ) = f0 ( )

se dice que es una familia de posición y escala generada por f0 . En tal caso
Yi = (Xi )= tiene densidad f0 (y) y por tanto
x1 x2 xn
(x; ; ) = g( ; :::; )

es una función pivotante para ( ; ) cualquiera que sea la función g:

Ejemplo 2.4.1 Algunas familias de posición y escala

Distribución Densidad
Normal: N ( ; 2 ) p1
2
expf 12 ( x )2 g
1 x
Laplace: La( ; ) 2 expf j jg
1 1
Cauchy: Cau( ; ) 2
1+( x )
x
Exponencial: Exp( ; ) 1
expf g1(0;1) ( x )
Uniforme: U ( ; + ) 1
1(0;1) ( x )

2.4.3. Métodos aproximados


Utilizando la desigualdad de Chebichef.
Supongamos que queremos obtener un intervalo de con…anza para g( ) =
E (T ), T un estadístico de cuadrado integrable. Por la desigualdad de Chebichev

V ar (T )
P X (x; jT (x) g( )j > ") ;
"2
V ar (T )
por tanto si tomamos 1 = "2 resultará que

P X (x; jT (x) g( )j ")

con s
V ar (T )
"=
1
de manera que s
V ar (T )
jT (x) g( )j
1
proporciona un intervalo de con…anza ; despejando g( ) obtenemos
s s
V ar (T ) V ar (T )
T (x) g( ) T (x) + :
1 1
48 CAPÍTULO 2. INTERVALOS DE CONFIANZA

El problema es que no conocemos V ar (T ) ya que depende de podemos en-


tonces estimarla por V ar^ (T ) donde ^ es un estimador de . El intervalo obtenido
será ahora solo de con…anza aproximadamente : En algunos casos esto se puede
evitar.

Ejemplo 2.4.2 Supongamos que nuestras observaciones son Bernoulli(p) y quer-


emos dar un intervalo de con…anza para p. Podemos tomar T (x) = x: Sabemos
que entonces
Xn
1
V arp (T ) = V arp (T (X)) = V ar p ( Xi )
n2 i=1
nV arp (X1 ) p(1 p)
= 2
=
n n
1
de manera que el valor máximo que puede tomar V arp (T ) es 4n . Así
1 1
x p p x+ p
2 n(1 ) 2 n(1 )
tiene con…anza , aunque
p es de longitud demasiado grande. Para = 0;95 el
radio es aprox 2;24= n

Método basado en el comportamiento asintótico del EMV


Sabemos que en condiciones de regularidad y en el esquema iid, aproximada-
mente p ^
n( )
q s N (0; 1)
1
I1 ( ^ )

con lo que
^ k =2 ^ + qk =2
q
nI1 (^) nI1 (^)
será un intervalo de con…anza aproximadamente ; donde P fN (0; 1) > k =2 g =
=2; y, como siempre, = 1 :

Ejemplo 2.4.3 Supongamos, como antes, que nuestras observaciones son Bernoullis(p)
y queremos dar un intervalo de con…anza para p: Sabemos que el EMV es
p^(x) = x; también sabemos que I1 (p) = p(1 1 p): : De manera que
r r
x(1 x) x(1 x)
x k =2 p x+k =2
n n
sera un intervalo para de con…anza aproximada : En lugar de estimar p(1 p)
podemos acotarlo por 14 y tendríamos
1 1
x k =2 p p x+k =2 p :
2 n 2 n
2.4. ALGUNOS MÉTODOS PARA OBTENER PIVOTES 49

Si = 0;95, k0;025 = 1;96 de manera que aproximadamente

1 1
x p p x+ p
n n

nos da un intervalo de con…anza 0;95 (aprox.). Su radio es la mitad del obtenido


por Chebichef !. Notemos que si queremos un error inferior al 3 % necesitaremos
que
1
p 0;03
n
esto es
2
1
n = 1111; 11:
0;03
En la práctica, por ejemplo, para saber la proporción teórica de individuos con
una determinada característica de una población muy grande, se suele tomar un
tamaño muestral de 1200, 1500.

2.4.4. Un método especial


El método se basa en el siguiente resultado:

Proposición 2.4.1 Supongamos un modelo dependiente de un parámetro 2


R; un estadístico T (x) y funciones a1 ( ) y a2 ( ); monótonas estrictamente cre-
cientes, tales que, …jado 2 (0; 1)

P X fx; a1 ( ) T (x) a2 ( )g ;8 2

entonces
a2 1 (T (x)) a1 1 (T (x))
nos proporciona un intervalo de con…anza para :
Demostración. Si x veri…ca

a2 1 (T (x)) a1 1 (T (x))

resultará que

T (x) a2 ( )
a1 ( ) T (x)

o lo que es lo mismo a1 ( ) T (x) a2 ( ); con lo que

P X fx; a2 1 (T (x)) a1 1 (T (x))g = P X fx; a1 ( ) T (x) a2 ( )g


50 CAPÍTULO 2. INTERVALOS DE CONFIANZA

Ejemplo 2.4.4 Supongamos el modelo del ejemplo anterior y T (x) = x; ten-


emos que buscar a1 (p) y a2 (p) tales que
PpX fx; a1 (p) x a2 (p)g
o equivalentemente
Pp fa1 (p) X a2 (p)g
donde nX sBinomial(n; p): Para determinar a1 (p) buscamos, con ayuda de la
distribución Binomial(n; p), el valor más grande que veri…que
Pp fnX < na1 (p)g =2
se puede ver que a1 (p) es estrictamente creciente con p; y análogamente para
a2 (p); buscamos el valor más pequeño tal que
Pp fnX > na2 (p)g =2:
Existen grá…cos para a1 (p) y a2 (p) (haces de Clopper-Pearson) para diferentes
valores de y n que nos permiten obtener los intervalos. Si miramos el ejemplo
anterior también teníamos que aproximadamente
n(x p)2
PpX fx; k 2 =2 g = ;
p(1 p)
Ahora bien
n(x p)2
k 2 =2 () n(x2 2px + p2 ) k 2 =2 (p p2 )
p(1 p)
k 2 =2 k 2 =2
() (1 + )p2 )p + x2 0
(2x +
n n
Las soluciones de la ecuación que se obtiene igualando a cero son
q
d(x) = (nx + k 2 =2 =2 k =2 nx(1 x) + k 2 =2 =4)=(n + k 2 =2 )
q
u(x) = (nx + k 2 =2 =2 + k =2 nx(1 x) + k 2 =2 =4)=(n + k 2 =2 )

de manera que un intervalo aproximado de con…anza viene dado por


d(x) p u(x):
Si np y n(1 p) valen al menos 5 estos intervalos son satisfactorios en la
práctica.

2.4.5. Regiones de con…anza, intervalos simultáneos


Región para la media y la desviación típica de observaciones normales
Supongamos que el modelo corresponde a n observaciones iid N ( ; 2 ); y
desconocidos, queremos dar una region de con…anza para ( ; ) ; es decir
un subconjunto B(x) (dependerá de la muestra x) R R+ de manera que
P(X; ) fx; ( ; ) 2 B(x)g = :
2.4. ALGUNOS MÉTODOS PARA OBTENER PIVOTES 51

Por el teorema de Fisher


Pn
p (X ) i=1 (Xi X)2
n s N (0; 1); 2
s Xn2 1

y son independientes. Entonces, utilizando la notación habitual, tendremos que

p (X ) p
P( ; )f k1 p
n k1 p
g= ;
2 2
Pn
2 i=1 (Xi X)2 p
P( ; ) fXn 1;1
p
2
X2 p g=
2 n 1; 2

y por la independencia

p (X )
P( ; ) k1 p
n k1 p
;
2 2
Pn
i=1 (Xi X)2
X2 p
2
X2 p =
n 1;1 2 n 1; 2

de manera que

p (x )
k1 p
n k1 p
;
2 2
Pn
i=1 (xi x)2
X2 p
2
X2 p
n 1; 2 n 1;1 2

nos da una región de con…anza : Más explícitamente,

x k1 p
p x + k1 p p ;
2 n 2 n
p p
n^ n^
q q
X2 p X2 p
n 1; 2 n 1;1 2

de manera que obtenemos una región trapezoidal.

El principio de unión-intersección
El llamado ”principio de unión-intersección”consiste en un método general,
basado en una desigualdad elemental, para obtener intervalos simultáneos, es
decir regiones rectangulares, para diferentes parámetros. Sea una muestra de
observaciones de X1 ; X2 ; :::; Xn cuya ley depende de dos parámetros 1 y 2
y supongamos que sabemos encontrar intervalos de con…anza 1 y 2 para 1
y 2 respectivamente, y sean estos [S1 (X); S2 (X)] y [T1 (X); T2 (X)], esto es
P 1 ; 2 (S1 (X) 1 S2 (X)) 1; P 1 ; 2 (T1 (X) 2 T2 (X)) 2:
Pero, cuánto vale

P 1; 2
(S1 (X) 1 S2 (X); T1 (X) 2 T2 (X))?
52 CAPÍTULO 2. INTERVALOS DE CONFIANZA

Dados dos eventos A1 y A2

P (A1 \ A2 ) = 1 P (Ac1 [ Ac2 ) 1 P (Ac1 ) P (Ac2 )


P (A1 ) + P (A2 ) 1:

Por tanto

P 1; 2
(S1 (X) 1 S2 (X); T1 (X) 2 T2 (X)) 1 + 2 1:

Entonces si tomamos 1 = 2 = 1+2 tendremos intervalos simultáneos de coe-


…ciente : Si escribimos i = 1 i, i = 1; 2 y = 1 la condición anterior
se puede escribir 1 = 2 = =2: La generalización es evidente para el caso de
d parámetros: 1 = 2 = ::: = d = =d.
Capítulo 3

Test de hipótesis

Hasta ahora hemos utilizado la muestra x para sugerir un valor o un conjun-


to de valores posibles de ; el parámetro de nuestro modelo (X ; F; fP ; 2 g),
pero ahora lo que queremos es validar o rechazar un valor o un conjunto de
valores de : Por ejemplo, sean 0 y 1 una partición de : Queremos saber
si 2 0 y nos ayudaremos de la muestra para decidir si es razonable suponer
que 2 0 ó no. Lo formularemos en términos de hipótesis, la hipótesis que
llamaremos nula, que denotaremos H0 , y que será que 2 0 y la hipótesis que
llamaremos alternativa, que denotaremos H1 y que será que 2 1 : Escribire-
mos que nuestro problema es contrastar
H0 : 2 0
H1 : 2 1:

Un test (o contraste) de hipótesis será una aplicación


:X ! fH0 ; H1 g
x 7! (x):
Todo test de hipótesis establece entonces una partición de X en dos conjuntos:
A0 = 1 (H0 ) y A1 = 1 (H1 ): A0 es el conjunto de muestras que nos llevarían
a aceptar H0 según y A1 el conjunto de muestras que nos llevarían a rechazar
H0 (y aceptar H1 entonces). A A0 se le llama región de aceptación y a A1 región
crítica. Como vemos todo test queda de…nido por su región de aceptación (o
su región crítica).
Buscaremos test o regiones críticas óptimos en el sentido que nos equivoque-
mos lo menos posible al apostar por una u otra hipótesis. Pero ¿qué signi…ca
equivocarse?, pues rechazar H0 cuando es cierta (lo llamaremos error de primera
especie o tipo I) o aceptar H0 cuando es falsa (lo llamaremos error de segunda
especie o tipo II). En síntesis, dada una muestra x, puede ocurrir lo siguiente
2 0 2 1
x 2 A0 (aceptamos H0 ) acertamos error tipo II
x 2 A1 (rechazamos H0 ) error tipo I acertamos.

53
54 CAPÍTULO 3. TEST DE HIPÓTESIS

Es evidente que, salvo casos triviales no podremos eliminar los dos errores
a la vez y si tratamos de disminuir la frecuencia de uno la del otro en general
aumentará. Como veremos vamos a dar más importancia a los errores del tipo
I de manera que sólo rechacemos la hipótesis nula cuando haya mucha evidencia
en este sentido.

3.1. Test de hipótesis simples


Consideremos la situación sencilla donde 0 = f 0 g y 1 = f 1 g: Cuando,
como aquí, sólo hay un posible valor en las hipótesis se dice que las hipótesis
son simples si no se dice que son compuestas. En el caso de hipótesis simples
podemos calcular las probabilidades de error de tipos I y II:

Prob de rechazar H0 cuando es cierta = P 0 (A1 )


Prob de aceptar H0 cuando es falsa= P 1 (A0 ):

Adoptaremos el llamado enfoque de Neyman que consiste en tomar A1 de man-


era que P 0 (A1 ) (normalmente = 0;05 ó 0;01 (si la muestra es grande)) y
buscar entre todas estas regiones cíticas A1 las que minimizan P 1 (A0 ): Como

P 1 (A0 ) = 1 P 1 (A1 );

esto equivale a maximizar P 1 (A1 ) := :

De…nición 3.1.1 Dado un test con región crítica A1 diremos que es de tamaño
si P 0 (A1 ) = :

De…nición 3.1.2 Dado un test con región crítica A1 diremos que es de nivel
(de signi…cación) si P 0 (A1 ) :

De…nición 3.1.3 Dado un test con región crítica A1 diremos que es de poten-
cia si P 1 (A1 ) = :

El propósito es buscar entre los test de nivel el de mayor potencia. Sea


L(x; ) la verosimilitud de nuestro modelo, en el caso que consideramos sólo
puede tomar dos valores 0 y 1 : Escribamos

L0 (x) = L(x; 0)
L1 (x) = L(x; 1 );

Una región crítica razonable sería

A1 = fx; L1 (x) > KL0 (x)g;

con K > 0 y su…cientemente grande, es decir nos quedamos con la hipótesis de


que = 1 si 1 es mucho más verosímil que 0 : En realidad esto nos va a dar
test óptimos. Tenemos el siguiente teorema conocido más bien como Lema de
Neyman-Pearson
3.1. TEST DE HIPÓTESIS SIMPLES 55

Teorema 3.1.1 ( Lema de Neyman-Pearson) Sea un test con región crítica A1


tal que

fx; L1 (x) > KL0 (x)g A1 (3.1)


fx; L1 (x) < KL0 (x)g A0 ;

donde K 0, supongamos que P 0 (A1 ) = ; entonces es de máxima potencia


entre los test de nivel de signi…cación :
Demostración. Vamos a suponer que nuestro modelo es de observaciones
con densidad. Sea A~1 otra región crítica, tenemos que
Z
(1A1 (x) 1A~1 (x))(L1 (x) KL0 (x))dx 0
X

ya que el integrando es siempre no negativo:

Si x 2 A1 ,
L1 (x) KL0 (x) 0 y 1A1 (x) 1A~1 (x) = 1 1A~1 (x) 0

Si x 2 A0 ,
L1 (x) KL0 (x) 0 y 1A1 (x) 1A~1 (x) = 0 1A~1 (x) 0:

Por tanto
Z Z
(1A1 (x) 1A~1 (x))L1 (x)dx K (1A1 (x) 1A~1 (x))L0 (x)dx;
X X

equivalentemente

P 1 (A1 ) P 1 (A~1 ) K(P 0 (A1 ) P 0 (A~1 )) 0

ya que K 0 y P 0 (A1 ) P 0 (A~1 ) = P 0 (A~1 ) 0 ya que A~1 es de nivel :

Observación 3.1.1 Los test anteriores, que veri…can (3.1), los llamaremos
test de Neyman.

También tenemos cierta unicidad de los test de máxima potencia.

Teorema 3.1.2 Todos los test de máxima potencia son test de Neyman:

Demostración. Sea un test de máxima potencia a nivel con región crítica


A~1 : Sea A1 la región crítica de un test de Neyman. Entonces sabemos, por la
demostración anterior, que
Z
(1A1 (x) 1A~1 (x))(L1 (x) KL0 (x))dx 0
X
56 CAPÍTULO 3. TEST DE HIPÓTESIS

pero al ser A~1 de máxima potencia, la desigualdad no puede ser estricta ya que
llegaríamos a que
P 1 (A1 ) P 1 (A~1 ) > 0:
Por tanto se debe veri…car que
Z
(1A1 (x) 1A~1 (x))(L1 (x) KL0 (x))dx = 0
X

pero el integrando es no negativo (lo hemos visto en la demostración anterior)


y por tanto, salvo conjuntos de medida de Lebesgue cero (longitud cero)

(1A1 (x) 1A~1 (x))(L1 (x) KL0 (x)) = 0;

de manera que si L1 (x) KL0 (x) > 0; 1A1 (x) 1A~1 (x) = 0 y como entonces
x 2 A1 x también está en A~1 : Así que

A~1 fx; L1 (x) KL0 (x) > 0g:

Análogamente si L1 (x) KL0 (x) < 0; 1A1 (x) 1A~1 (x) = 0 y como entonces
= A1 (es decir x 2 A0 ) x tampoco está en A~1 (es decir x 2 A~0 ); así
x2

A~0 fx; L1 (x) KL0 (x) < 0g

Ejemplo 3.1.1 Supongamos un modelo de observaciones iid con distribución


N ( ; 2 ) donde es conocida y puede valer 0 ó 1 ( 1 > 0 ): Queremos
test óptimos para contrastar

H0 : = 0 versus
H1 : = 1:

Tenemos que
n
1 1 X 2
L1 (x) = p n expf 2
(xi 1) g
2 2 i=1
n
1 1 X n
= p n expf 2
(xi x)2 g expf (x 2
1) g
2 2 i=1
2 2
Xn
1 1 n
L0 (x) = p n : expf 2
(xi x)2 g expf (x 2
0) g
2 2 i=1
2 2

Entonces, como

L1 (x) > KL0 (x) ()


n 2
expf 2 2 (x 1) g 2 2
n 2
>K () (x 0) (x 1) > Cte
expf 2 2 (x 0) g
( 1 0 )x > Cte () x>C
3.1. TEST DE HIPÓTESIS SIMPLES 57

Una región crítica óptima vendrá dada por

A1 = fx; x > Cg:

Ahora la constante C se puede determinar de manera que

P X0 (A1 ) = P 0 fX > Cg = :

Como, bajo 0;
2
X s N( 0; )
n
p p
n(X 0) n(C 0)
P 0 fX > Cg = P 0 f > g
p
n(C 0)
= P 0 fN (0; 1) > g=

Y utilizando la notación habitual


p
n(C 0)
=k ;

con lo que …nalmente


C= 0 +k p ;
n
y
A1 = fx; x > 0 +k p g
n
Podemos ahora calcular la potencia del test

= P X1 (A1 ) = P 1 fX > 0 + k p g
n
p p
n(X 1) n( 0 1)
= P 1f >k + g
p
n( 0 1)
= P 1 fN (0; 1) > k + g
p
n( 0 1)
= 1 (k + )

donde es la función de distribución de una normal estándar. Notemos que

lm = 1;
n!1

cuando esto ocurre se dice que el test en cuestión es consistente.

Observación 3.1.2 Notar que si hacemos el contraste anterior pero con 1 <
0 entonces la región crítica óptima de nivel es

A1 = fx; x < 0 k p g
n
58 CAPÍTULO 3. TEST DE HIPÓTESIS

Observación 3.1.3 Una vez construido un test para ver si aceptamos o rechaz-
amos H0 se toma una muestra x y se mira si está en la región de aceptación o
en la región crítica correspondientes a un nivel de signi…cación pre…jado . Otra
manera de indicar que tan signi…cativa es la muestra observada para rechazar
la hipótesis nula es dar su p-valor, consiste en el nivel de signi…cación del test a
partir del cual la muestra observada estaría en la región crítica. Si el p-valor es
más pequeño que 0;05 nuestra muestra estaría en la región crítica de nivel 0;05.
Esto es, cuánto más pequeño es su p-valor menos se valida la hipótesis nula.

Ejemplo 3.1.2 Sea un modelo de observaciones iid con densidad U (0; ) donde
puede ser 0 ó 1 : 1 > 0 . Queremos construir test óptimos para contrastar

H0 : = 0 versus
H1 : = 1:

1
L1 (x) = n 1[0; 1]
(x(n) )
1
1
L0 (x) = n 1[0; 0]
(x(n) )
0

de manera que los test con región crítica


1 K
A1 fx; n 1[0; 1]
(x(n) ) > n 1[0; 0]
(x(n) )g (3.2)
1 0
1 K
A0 fx; n 1[0; 1]
(x(n) ) < n 1[0; 0]
(x(n) )g; (3.3)
1 0

son óptimos. En particular si tomamos

A1 = fx; x(n) > Cg


n
con C 0 ; será un test óptimo. En efecto, basta tomar K =
0
n ; entonces si
1
A0 = fx; x(n) Cg y si x(n) C resultará que

1[0; 1]
(x(n) ) = 1[0; 0]
x(n) = 1;

y
fx; 1[0; 1]
(x(n) ) < 1[0; 0]
(x(n) )g =
con lo que
K 1 K
fx; 1[0; 1]
(x(n) ) < n 1[0; 0]
(x(n) )g A0 fx; n 1[0; 1]
(x(n) ) = n 1[0; 0]
(x(n) )g;
0 1 0

lo que implica que


1 K
A1 fx; n 1[0; 1]
(x(n) ) > n 1[0; 0]
(x(n) )g:
1 0
3.2. HIPÓTESIS COMPUESTAS 59

Podemos bucar ahora C para un nivel de signi…cación : Se debera cumplir que

P X0 (A1 ) = P 0 (X(n) > C) = ;

ahora bien

P 0 fX(n) > Cg = 1 P 0 fX(n) Cg


n
= 1 i=1 P 0 fXi Cg
n
C
= 1 =
0

con lo que p
n
C= 0 1 :
Podemos ahora calcular la potencia del test

= P X1 (A1 ) = P 1 (X(n) > C) = 1 P 1 fX(n) Cg


n
n C
= 1 i=1 P 1
fXi Cg = 1
1
n
0
= 1 (1 )
1

Notemos que
lm = 1;
n!1

con lo que el test es consistente.

3.2. Hipótesis compuestas


En el caso de hipótesis compuestas tenemos probabilidades de error de
primera especie, en plural:
P (A1 ); 2 0
y lo mismo para el error de segunda especie

P (A1 ); 2 1:

De…nición 3.2.1 Llamaremos tamaño del test (con región crítica A1 ) al valor

sup P (A1 )
2 0

De…nición 3.2.2 Diremos que un test es de nivel (de signi…cación) si

sup P (A1 )
2 0

De…nición 3.2.3 Llamaremos función de potencia del test a

( ) = P (A1 ); 2 1
60 CAPÍTULO 3. TEST DE HIPÓTESIS

Siguiendo el enfoque de Neyman, buscaremos entre los test de nivel pre-


…jado los que son uniformemente más potentes (UMP), es decir que para todo
valor de 2 1 su potencia es superior.
Desafortunadamente no tenemos un resultado general que nos permita con-
struir test UMP, pero veremos que en muchos casos los test de Neyman nos
permiten construir test UMP.

Proposición 3.2.1 Fijemos un nivel 2 [0; 1]; y sea A1 un test de Neyman


de nivel para contrastar

H0 : = 0 versus
H1 : = 1:

y que A1 no cambia al variar 1 2 1 : Supongamos también que existe 0 2 0


tal que sup 2 0 P (A1 ) = P 0 (A1 ). Entonces el test con región crítica A1 es
UMP al nivel para contrastar

H0 : 2 0 versus
H1 : 2 1:

Demostración. Sea A1 una región crítica en el contraste

H0 : 2 0 versus
H1 : 2 1:

y que tiene las propiedades anteriores.


Supongamos que NO es UMP a nivel , esto implicará que existe algún
valor de la alternativa, pongamos 1 ; tal que su potencia es superada por otra
región crítica (otro test), pongamos A~1 , de nivel : Si restringimos ambos test
a constrastar

H0 : = 0 versus
H1 : = 1:

resultará que son de nivel y que (A~1 ) > (A1 ) pero A1 es un test de Neyman
por tanto llegamos a una contradicción.

Ejemplo 3.2.1 Consideremos un modelo de observaciones iid con distribución


N ( ; 2 ) donde es conocida. Queremos contrastar

H0 : 0
H1 : > 0:

Sabemos por el ejemplo (3.1.1) que un test de Neyman de nivel para contrastar

H0 : = 0
H1 : = 1:
3.2. HIPÓTESIS COMPUESTAS 61

con 1 > 0 viene dado por la región crítica

A1 = fx; x > 0 +k p g
n
y esta región crítica No depende de 1: Por otro lado si tomamos 0 tenemos

P X (A1 ) = P fX > 0 + k p g
n
p p
n(X ) n
= P f > ( 0 )+k g
p
n
= P fN (0; 1) > ( 0 )+k g
P fN (0; 1) > k g (ya que 0 > 0)
= :

Con lo que sup 0


P (A1 ) = P 0 (A1 ): Por tanto A1 es una región crítica (de
un test) UMP.

Observación 3.2.1 Notemos que No podemos utilizar el procedimiento anteri-


or para construir un test UMP para el contraste

H0 : = 0
H1 : 6= 0;

con observaciones iid N ( ; 2 ) donde es conocida. De hecho podemos deducir


que no existe test UMP, ya que el test UMP, a nivel ; para contrastar

H0 : = 0
H1 : > 0;

tiene región crítica


A1 = fx; x > 0 +k p g
n
y el test UMP para contrastar

H0 : = 0
H1 : < 0;

tiene región crítica


A~1 = fx; x < 0 k p g:
n
No coinciden, de manera que si quisiéramos máxima potencia ”por la derecha”
no la tendríamos por la izquierda (de la unicidad del test de máxima potencia
en simple contra simple) y viceversa.

A priori no sabemos cómo construir una región crítica en le caso de hipótesis


compuestas. En algunos casos la metodología de intervalos de con…anza nos
permite construir test de hipótesis.
62 CAPÍTULO 3. TEST DE HIPÓTESIS

3.2.1. Construcción de test a partir de intervalos de con-


…anza
Supongamos que tenemos que contrastar

H0 : g( ) = 0 versus
H1 : g( ) 6= 0:

Notemos que en este tipo de contrastes tanto la hipótesis nula como la alterna-
tiva pueden ser compuestas. Sean I(x), x 2 X intervalos de con…anza para
g( ): De…namos la región crítica

A1 = fx; 0 62 I(x)g

entonces se trata de una región crítica de nivel = 1 . En efecto, por


construcción
P fx; g( ) 2 I(x)g ;8 2
Esto es
P X fx; g( ) 62 I(x)g 1 = ;8 2
en particular

P fx; g( ) 62 I(x)g ; 8 tal que g( ) = 0

Por tanto

P X (A1 ) = P X fx; 0 62 I(x)g ; 8 tal que g( ) = 0

y la región crítica A1 es de nivel = 1 : Notemos que en principio no podemos


concluir nada acerca de la potencia del test correspondiente, necesitaríamos
saber
P fx; 0 62 I(x)g para g( ) 6= 0 :
2
Ejemplo 3.2.2 Supongamos un modelo n de observaciones iid N ( ; );
conocida. Queremos contrastar

H0 : = 0
H1 : 6= 0;

En este caso la hipótesis nula es simple. Ya vimos que los intervalos de con…anza
para , venían dados por

x k =2 p x+k =2 p :
n n

De manera que una crítica de nivel vendrá dada por

A1 = fx; 0 <x k =2 p ó 0 >x+k =2 p g:


n n
3.2. HIPÓTESIS COMPUESTAS 63

En este caso podemos calcular fácilmente la función de potencia ( ).

P X (A1 ) = P (X k =2 p > 0 ) + P (X + k =2 p < 0 )


n n
p p
n(X ) n
= P > ( 0 ) + k =2
p p
n(X ) n
+P < ( 0 ) k =2
p
n
= P N (0; 1) > ( 0 ) + k =2
p
n
+P N (0; 1) < ( 0 ) k =2
p p
n n
= 1 ( ( 0 ) + k =2 ) + ( ( 0 ) k =2 )
2
Ejemplo 3.2.3 Supongamos un modelo n de observaciones iid N ( ; ); de-
sconocida. Queremos contrastar
H0 : = 0
H1 : 6= 0;

En este caso la hipótesis nula es compuesta. Ya vimos que los intervalos de


con…anza para , venían dados por
s~(x) s~(x)
x tn 1; =2 p x + tn 1; =2 p :
n n
De manera que una crítica de nivel vendrá dada por
s~(x) s~(x)
A1 = fx; 0 <x tn 1; =2 p ó 0 > x + tn 1; =2 p g:
n n
Si intentamos calcular la función de potencia ( ) sólo obtenemos un valor
aproximado:
s~(X) s~(X)
P X; (A1 ) = P ; X tn p > 0 + P ; X + tn 1; =2 p < 0
1; =2
n n
p p
n(X ) n
= P ; > ( ) + tn 1; =2
s~(X) s~(X) 0
p p
n(X ) n
+P ; < ( ) tn 1; =2
s~(X) s~(X) 0
p
n
= P ; tn 1 > ( ) + tn 1; =2
s~(X) 0
p
n
+P ; tn 1 < ( ) tn 1; =2
s~(X) 0
p p
n n
t 1 Ftn 1 ( 0 ) + tn 1; =2 + Ftn 1 ( ) tn 1; =2 ;
s~(x) s~(x) 0
64 CAPÍTULO 3. TEST DE HIPÓTESIS

donde Ftn 1 es la función de distribución de una tn 1 de Student.

Observación 3.2.2 Podríamos utilizar los intervalos que vimos en los proble-
mas de dos muestras para obtener los test de hipótesis correspondientes.

Si las hipótesis no tienen la forma anterior no podemos utilizar los inter-


valos de con…anza para obtener test. Sin embargo vamos a ver que existe un
procedimiento general para construir test cuando las hipótesis son compuestas.

3.2.2. Test de la razón de verosimilitudes.


Supongamos el problema de contrastar

H0 : 2 0 versus
H1 : 2 1:

el test de la razón de verosimilitudes (abreviaremos TRV) es el que tiene por


región crítica
A1 = fx; (x) Kg
donde
sup 2 0 L(x; )
(x) = ;
sup 2 L(x; )
y 0 < K < 1: Notemos que (x) 1 para todo x y que si ^ es el estimador
máximo verosímil también podemos escribir

sup 2L(x; )
0
(x) = ;
^
L(x; (x))

incluso si ~ es el estimador máximo verosímil con la restricción de que 2 0


podemos escribir más simplemente

L(x; ~(x))
(x) = ;
L(x; ^(x))

Proposición 3.2.2 Si las hipótesis son simples el test de la razón de verosimil-


itudes es un test de Neyman.

Demostración.
L(x; 0 )) L0 (x)
(x) = = ;
L(x; 0 ) _ L(x; 1) L0 (x) _ L1 (x)

de manera que

L0 (x)
(x) K () K
L0 (x) _ L1 (x)
L0 (x) K(L0 (x) _ L1 (x)) () L0 (x) KL1 (x));
3.2. HIPÓTESIS COMPUESTAS 65

ya que K < 1: En efecto si x es tal que L0 (x) L1 (x) la equivalencia es


inmediata y si x es tal que L0 (x) > L1 (x) no se puede cumplir ni la condición
de la izquierda ni la de la derecha. Por tanto
1
A1 = x; L1 (x)) L0 (x)
K
con lo que se trata de un test de Neyman.

Ejemplo 3.2.4 Consideremos un modelo de observaciones iid con distribución


N ( ; 2 ) donde es conocida. Queremos contrastar

H0 : 0
H1 : > 0:

como en el ejemplo (3.2.1). Vamos a construir el test de la razón de verosimil-


itudes.
n
1 1 X
L(x; ) = p n expf 2
(xi )2 g
2 2 i=1
n
1 1 X n
= p n expf 2
(xi x)2 g expf (x )2 g
2 2 i=1
2 2

de manera que el denominador del TRV


n
1 1 X
L(x; ^ ) = p n expf 2
(xi x)2 g
2 2 i=1

y el numerador
n
1 1 X n
sup L(x; ) = p n expf 2
(xi x)2 g sup expf (x )2 g:
0 2 2 i=1 0
2 2

de manera que
n
(x) = sup expf (x )2 g:
0
2 2
Ahora bien
n n
sup expf (x )2 g = expf nf (x )2 g
0
2 2 2 2 0

y
2
(x 0) si x
nf (x )2 = 0
0 0 si x < 0

de manera que
n 2
expf 2 2 (x 0 )) g si x 0
(x) = :
1 si x < 0
66 CAPÍTULO 3. TEST DE HIPÓTESIS

Así la región crítica vendrá dada por


A1 = fx; (x) Kg
n 2
= fx; x 0 y expf (x 0) g Kg
2 2
= fx; x 0 yx Cg
donde C es una constante mayor que 0 ya que K < 1: de manera que …nal-
mente
A1 = fx; x Cg:
Obtenemos las mismas regiones que en el ejemplo (3.2.1) donde ya vimos que
eran óptimas.
2
Ejemplo 3.2.5 Supongamos un modelo n de observaciones iid N ( ; ); ;
desconocidas. Queremos contrastar
H0 : = 0
H1 : 6= 0;

Vamos a construir el TRV.


n
1 1 X
L(x; ; ) = p n expf 2
(xi )2 g
2 2 i=1
n
1 1 X n
= p n expf 2
(xi x)2 g expf (x )2 g
2 2 i=1
2 2

El numerador será
n
1 1 X
sup L(x; ; 0) = p n expf 2 (xi x)2 g
2 0 2 0 i=1
2
1 n^
= p n expf g
2 0 2 20

y el denominador
n
1 1 X
L(x; ^ ; ^ ) = p n expf (xi x)2 g
2 ^ 2^ 2 i=1
1 n
= p n expf g
2 ^ 2

de manera que
n
^ n^ 2 n
(x) = expf 2 + g
0 2 0 2
y (x) > K (región de aceptación) equivale a que
^2 ^2
2 expf 2g C
0 0
3.2. HIPÓTESIS COMPUESTAS 67

y resolviendo la inecuación tendremos

^2
c1 < 2 < c2
0

donde c1 y c2 son las soluciones de la ecuación

u expf ug = C:

Notemos que obtendríamos lo mismo a partir de intervalos de con…anza. Sin


embargo aquí dado , c1 y c2 quedan …jados, en cambio los intervalos de coe…-
ciente = 1 se pueden escoger de muchas maneras, de hecho ya vimos que
el procedimiento mas simple era dejar =2 en cada ”cola” y en la práctica esto
es lo que se utiliza.

Comportamiento asintótico del test de la razón de verosimilitudes


Consideremos los siguiente ejemplos
2
Ejemplo 3.2.6 Sea un modelo de n observaciones iid N ( ; ); conocida y
queremos constrastar

H0 : = 0
H1 : 6= 0;

L(x; 0 )
(x) =
L(x; ^ )
P
p 1n expf 1
2 (xi x)2 g expf 2n2 (x 2
0) g
( 2 ) n 2
= P
p 1n expf 2 1 2 (xi x)2 g
( 2 ) n

n 2
= expf (x 0) g
2 2
de manera que
p 2
n(x 0)
W (x) := 2 log (x) =

y consecuentemente bajo H0

W (X) s (N (0; 1))2 = X12 :

Ejemplo 3.2.7 Sea un modelo asociado a variables iid


2
X1 ; X2 ; :::; Xn1 s N ( 1; 1 );

2
Xn1 +1 ; Xn1 +2 ; :::; Xn1 +n2 s N ( 2; 2 ); :::;
2
Xn1 +n2 +:::+nm 1 +1
; Xn1 +n2 +:::+nm 1 +2
; :::; Xn1 +n2 +:::+nm 1 +nm
s N( m; m)
68 CAPÍTULO 3. TEST DE HIPÓTESIS

es decir m muestras independientes de variables normales independientes con


medias diferentes y varianzas conocidas. Supongamos el contraste

H0 : ( 1; 2 ; :::; m) =( 01; 02 ; :::; 0m )


H1 : ( 1; 2 ; :::; m) 6= ( 01; 02 ; :::; 0m ):

Es facil ver que


m
X p 2
ni (xi 0i ) 2
2 log (x) = s Xm (bajo H0 ):
i=1 i

Si ahora hacemos el contraste

H0 : ( 1; 2) =( 01; 02 )
H1 : ( 1; 2) 6= ( 01; 02 ):

obtenemos
2
X p 2
ni (xi 0i )
2 log (x) = s X22 (bajo H0 )
i=1 i

notemos que los grados de libertad de la Ji cuadrado coinciden con la dimension


del espacio total de parámetros con la dimensión del espacio de parámetros bajo
la hipótesis nula:

dim = m
dim 0 = m 2:

Lo mismo ocurre en el caso anterior. De manera que la regla es:


2
2 log (x) s Xdim dim 0
:

El resultado general que vamos a ver a continuación es que si el tamaño muestral


es grande esto se cumple aproximadamente.

Proposición 3.2.3 Supongamos el problema de contraste

H0 : 2 0 versus
H1 : 2 1:

y que el modelo es regular (en el sentido del comportamiento del EMV). Sea
dim = d y dim 0 = l: Vamos a suponer asimismo que cualquier punto 2
se puede coordenar de la forma

= ( 1; 2 ; :::; l ; l+1 ; :::; d )

de manera que
0 =f 2 ; l+1 = kl+1 ; ::; d = kd g
3.2. HIPÓTESIS COMPUESTAS 69

para ciertas constantes ki : Sea n el tamaño de la muestra iid x y n (x) la razón


de verosimilitudes correspondiente entonces, bajo H0 ;
L 2
2 log n (X) ! Xdim dim 0
n!1

Demostración. (Abreviada) Sea ^ el EMV de ;


d
X
@ i log L(X; ) = @ 2i j
log L(X; (X))(^j (X) j ); i = 1; :::; d
j=1

donde (X) = ^(X) + (1 ) ;0 1, esto es


d
X 1
p 1 2 1
n(^j (X) j) = @ log L(X; (X)) p @ k
log L(X; );
n jk n
k=1
j = 1; :::; d

que el modelo sea regular va a signi…car que ^ es un estimador consistente de


y que
1 2 P
@ log L(X; (X)) ! I( )
n n!1

donde
I( ) = E ( @ 2 log L1 )
matriz d d que se conoce como matriz de información de Fisher. Como con-
secuencia y ya que, también debido a la regularidad,
1 L
p @ log L(X; ) ! Nd (0; I( ))
n n!1

tendremos que
p L
n(^(X) ) ! Nd (0; I 1
( ))
n!1

Escribamos

= ( 1; 2 ; :::; l ); =( l+1 ; :::; d ); 0 = (kl+1 ; ::; kd )

de manera que 0 = f( ; ); = 0 g; y

I I
I( ) = ;
I I

vamos a suponer también, sin pérdida de generalidad, que la parametrización es


ortogonal de manera que
I = 0; I = 0
y por tanto
1
1 I 0
I ( )= 1 :
0 I
70 CAPÍTULO 3. TEST DE HIPÓTESIS

Entonces, sea ^ 0 (x) = (~1 (x); ~2 (x); :::; ~l (x)) el EMV bajo H0 , tendremos
l
X
@ i log L(X; 1 ; :::; l; 0) = @ 2i j
log L(X; ~ (X); ~
0 )( j (X) j );
j=1
i = 1; :::; l
donde ~j (X) = j + (1 )~j (X); j = 1; :::; l; 0 1; esto es
p
n(~j (X) j)
l
X 1
1 1
= @ log L(X; ~ (X); 0) p @ k
log L(X; 1 ; :::; l; 0 );
n jk n
k=1
j = 1; :::; l;
por la regularidad del modelo, bajo H0
1 2 P
@ log L(X; ~ (X); 0) ! I ( ; 0)
n n!1

y
p L
n(^ 0 (X) ) ! Nl (0; I 1
):
n!1
Ahora bien, si tomamos =( ; 0 ), un punto de 0,

log L(X; ; 0) = log L(X; ^(X); ^(X))


d
1 X 2
+ @ log L(X; (X))(^j (X) ^
j )( i (X) i)
2 i;j=1 i j

log L(X; ; 0) = log L(X; ^ 0 (X); 0)


l
X
1
+ @2 log L(X; ~ (X))(~j (X) ~
j )( i (X) i)
2 i;j=1 i j

where and ~ son puntos intermedios de los segmentos ^ y ^ 0 , de aquí


obtenemos restando las dos expresiones, que si es un punto de 0 ,
2 log n (X) = 2(log L(X; ^ (X); ) log L(X; ^(X); ^(X))) 0 0
d
X
= @ i j
log L(X; (X))(^j (X) ^
j )( i (X) i)
i;j=1
l
X
@ i j
log L(X; ~ (X))(~j (X) ~
j )( i (X) i)
i;j=1
d
X l
X
L
! Iij Zi Zj (I )ij Zi Zj
n!1
i;j=1 i;j=1
d
X
= (I )ij Zi Zj
i;j=l+1
3.2. HIPÓTESIS COMPUESTAS 71

1
y donde (Zi )l+1 i;j d s Nd (0; I ( )); por tanto

d
X
(I )ij Zi Zj s Xd2 l :
i;j=l+1

Y este resultado no dependende del valor que tomemos en 0, por tanto el


resultado se puede enunaciar como "bajo H0 ,

Observación 3.2.3 Para calcular la región crítica del TRV lo haremos en fun-
ción del estadístico de Wilks W (x) = 2 log (x); así

A1 = fx; (x) Kg
= fx; 2 log (x) Cg
= fx; W (x) Cg;

entonces hallaremos C con la condición sup 2 0


P X (A1 ) = : Pero

sup P X (A1 ) t P fXdim


2
dim 0
Cg = ;
2 0

de manera que se toma como región crítica


2
A1 = fx; W (x) Xdim dim 0;
g

que tendrá aproximadamente nivel :


72 CAPÍTULO 3. TEST DE HIPÓTESIS
Capítulo 4

Test Ji-cuadrado

4.1. El modelo multinomial


Sea Z una variable aleatoria que puede tomar m valores distintos, z1 ; z2 ; :::; zm
con
Pn probabilidades respectivas p1 ; p2 ; :::; pm , tales que pi > 0 y por supuesto
i=1 pi = 1; diremos que Z es una variable multinomial. Sea X un vector
aleatorio m-dimensional que nos indica con un uno en la posición k-ésima que
ha ocurrido el resultado k y que el resto de su componentes son cero, es decir

X = (1fZ=z1 g ; 1fZ=z2 g ; :::; 1fZ=zm g )

De manera que X toma los valores

(1; 0; :m)
: :; 0) con probabilidad p1
(0; 1; :m)
: :; 0) con probabilidad p2
:::
(0; 0; :m)
: :; 1) con probabilidad pm ;

se dice entonces que X tiene una distribución Bernoulli m-dimensional de parámet-


ros p1 ; p2 ; :::; pm : Notemos que podemos escribir lo anterior de forma compacta
como
xi
P (X = (x1 ; :::; xm )) = m
i=1 pi :

Sea ahora el modelo correspondiente a n observaciones iid con distribución


Bernoulli m-dimensional de parámetros p1 ; p2 ; :::; pm diremos que nuestro mod-
elo es un modelo multinomial (notemos que es equivalente a n observaciones
independientes de la variable Z). La verosimilitud, dada una muestra x (que
consistirá en n- vectores m-dimensionales del tipo anterior) vendrá dada por

L(x; p1 ; p2 ; :::; pm )
= P (X1 = ((x11 ; :::; x1m ); X2 = (x21 ; :::; x2m ); :::; Xn = (xn1 ; :::; xnm ))
Pn
n m xji m j=1 xji m Ni (x)
= j=1 i=1 pi = p
i=1 i = i=1 pi :

73
74 CAPÍTULO 4. TEST JI-CUADRADO

Pn
Notemos que Ni (x) = j=1 xji cuenta el número de veces que ha ocurrido el
resultado i-ésimo en los n experimentos. Es facíl ver que
n!
P (N1 = n1 ; :::; Nm = nm ) = pn1 pn2 :::pnmm ;
n1 !n2 !:::nm ! 1 2
esta distribución se conoce como distribución multinomial. Observemos asimis-
mo que el espacio de parámetros del modelo multinomial
n
X
= f(p1 ; p2 ; :::; pm ); pi > 0; pi = 1g
i=1

de manera que su dimensión es m 1.

4.2. Test de ajuste en el modelo multinomial


4.2.1. Ajuste a una mutinomial concreta
En el modelo multinomial queremos hacer el contraste
H0 : (p1 ; p2 ; :::; pm ) = (p01; p02 ; :::; p0m )
H1 : (p1 ; p2 ; :::; pm ) 6= (p01; p02 ; :::; p0m ):
Vamos a construir el TRV,
L(x; p0 ) L(x; p0 )
(x) = =
sup L(x; p) L(x; p^)
donde utilizamos notación vectorial: p = (p1; p2 ; :::; pm ): Tenemos que
m Ni (x) m ni
L(x; p) = i=1 pi = i=1 pi

de manera que, tomando como variables libres, p1; p2 ; :::; pm 1 y como pm =


1 p1; p2 ::: pm 1 ; las condiciones de extremo son
ni nm
@pi log L(x; p) = = 0; i = 1; :::; m
pi pm
esto da
ni
p^i =; i = 1; :::; m:
n
Como, por la ley fuerte de los grandes números,
ni c:s:
! pi > 0
n
ni
podemos suponer que todos los ni son positivos, entonces L(x; p) = m i=1 pi
será cero si algún pi es cero con lo que el máximo estará en el interior de y
corresponderá a la única solución que hemos encontrado. Tenemos entonces que
m ni ni np^i
i=1 p0i m p0i m p0i
(x) = m p ni = i=1 = i=1
i=1 ^i p^i p^i
4.2. TEST DE AJUSTE EN EL MODELO MULTINOMIAL 75

y, bajo H0
m
X p0i 2
W (x) = 2 log (x) = 2n p^i log s Xm 1 (aprox.)
i=1
p^i

ya que dim =m 1 y dim 0 = 0: La región crítica de nivel será


2
A1 = fx; W (x) Xm 1; g
Sin embargo en la práctica se utiliza otro estadístico para construir la región
critica. Tenemos que
m
X p0i
W (x) = 2n p^i log
i=1
p^i
m
X p^i p^i
= 2n p0i log ;
i=1
p0i p0i
p^i c:s
sabemos que !
p0i n!1 1 y si desarrollamos la función u log u en torno del valor
u = 1; tenemos
1 1 1
u log u = u 1 + (u 1)2 (u 1)3
2 6u 2
con u un punto entre 1 y u: Tenemos así que
m
X m
X 2
p^i p^i
= 2n p0i 1 +n p0i 1
i=1
p0i i=1
p0i
Xm 3
n 1 p^i
p0i 2 1 ;
3 i=1
ui p0i
p^i
donde los ui son puntos entre 1 y p0i : El primer sumando se anula
m
X m
X m
X m
X
p^i
p0i 1 = (^
pi p0i ) = p^i p0i = 1 1 = 0;
i=1
p0i i=1 i=1 i=1

el tercero se va a cero cuando n tiende a in…nito:


m m p !3
X 1 p^i
3
1 X (1 p0i )3=2 n(^pi p0i ) P
n p0i 2 1 =p p ! 0
i=1
ui p0i n i=1 u 2 p1=2 p0i (1 p0i ) n!1
i 0i
ya que p
c:s:n(^
pi p0i ) L
ui ! 1 y p ! N (0; 1):
p0i (1 p0i )
En de…nitiva W (x) y
m
X 2
p^i
Dn (x) := n p0i 1
i=1
p0i
76 CAPÍTULO 4. TEST JI-CUADRADO

2
tienen el mismo comportamiento asintótico, se acercan a una Xm 1 : Este último
estadístico se llama estadístico de Pearson, que se puede escribir
m
X 2
p^i
Dn (x) = n p0i 1
i=1
p0i
m
X 2
(^
pi p0i )
= n
i=1
p0i
m
X 2
(n^
pi np0i )
=
i=1
np0i
Xm 2
(ni np0i )
=
i=1
np0i
m
X 2
(Oi Ei )
= ;
i=1
Ei

donde Oi es la frecuencia observada y Ei la esperada bajo H0 . Entonces la región


crítica de nivel (aproximado) será

A1 = fx; Dn (x) Xm 1; g:

La aproximación funciona bien si np0i 5 para todo i:

Ejemplo 4.2.1 Ejemplo 4.2.2 Se lanza un dado 2000 veces con los siguientes
resultados:
1 2 3 4 5 6
388 322 314 316 344 316
Se puede pensar que el dado está equilibrado? Es decir queremos hacer el con-
traste:
1 1 1 1 1 1
H0 : p=( ; ; ; ; ; )
6 6 6 6 6 6
1 1 1 1 1 1
H1 : p 6= ( ; ; ; ; ; )
6 6 6 6 6 6
Calculamos

Dn (x)
6
X (ni n 16 )2
=
i=1
n 61
(388 2000=6)2 (322 2000=6)2 (314 2000=6)2 (316 2000=6)2
= + + +
2000=6 2000=6 2000=6 2000=6
2 2
(344 2000=6) (316 2000=6)
+ +
2000=6 2000=6
= 12;616:
4.2. TEST DE AJUSTE EN EL MODELO MULTINOMIAL 77

La aproximación asintótica funciona bien ya que np0i = 2000


6 5. Si miramos
las tablas de una 25 obtenemos que 25;0;05 = 11;07. Por tanto Dn (x) > 25;0;05
y rechazamos H0 :Los datos habían sido simulados con una distribución teórica
p01 = 0;2; p02 = p03 = p04 = p05 = p06 = 0;16. Notemos que 1=6 = 0;167:

4.2.2. Ajuste a una familia de mutinomiales


En el modelo multinomial anterior podemos contrastar si nuestra multino-
mial pertenece a una familia de mutinomiales. Es decir podemos contrastar las
hipótesis

H0 : (p1 ; p2 ; :::; pm ) = (p1 ( ); p2 ( ); :::; pm ( ))


H1 : (p1 ; p2 ; :::; pm ) 6= (p1 ( ); p2 ( ); :::; pm ( )):
donde 2 Rl ; l < m 1 donde es una subvariedad de dimensión l
(de manera que podemos coordenar todos los valores de p con los valores de
y m 1 l coordenadas adicionales), sabemos que en tal caso y bajo H0 el
estadístico de Wilks W (x) = 2 log (x) tiene una distribución aproximada (si
2
n es grande) Xm l 1 : Tenemos que
!np^i
sup 2 m ni m ^ ni pi (^)
i=1 pi ( ) i=1 pi ( ) m
(x) = m p i n = m p ni = i=1
supp2 i=1 i i=1 ^i p^i
ni
con p^i = n. Haciendo desarrollos de Taylor análogos a los anteriores, se puede
ver que
2
m
X p^i pi (^)
W (x) = 2 log (x) = n + oP (1)
i=1 pi (^)
donde oP (1) indica términos que convergen en probabilidad a cero cuando n va
a in…nito. En la practica se utiliza entonces el estadístico de Pearson
2
m
X p^i pi (^)
Dn (x) = n
i=1 pi (^)
2
para construir la región crítica del test, y como Dn (x) s Xm l 1 (aprox.) si n
es grande tendremos que una región crítica de nivel aproximadamente vendrá
dada por
2
A1 = fx; Dn (x) Xm l 1; g

y la aproximación funciona bien si npi ( ni ) 5.


Ejemplo 4.2.3 Queremos contrastar:
2+ 1 1
H0 : p( ) = ; ; ; ; 2 (0; 1)
4 4 4 4
H1 : p 6= p( )
78 CAPÍTULO 4. TEST JI-CUADRADO

en la muestra se obtuvieron los siguientes resultados:

n1 n2 n3 n4
1997 906 904 32

Necesitamos calcular ^: La verosimilitud bajo H0 viene dada por


n1 n2 n3 n4
2+ 1 1
L(x; ) = (4.1)
4 4 4 4

de manera que
n1 n2 + n3 n4
@ log L(x; ) = + =0 (4.2)
2+ 1
implica
2
(n1 + n2 + n3 + n4 ) (n1 2n2 2n3 n4 ) 2n4 = 0: (4.3)

Esto es:
2
3839 + 1665 64 = 0: (4.4)
Las soluciones son: = 0;0355281 y = 0;469235. Por tanto ^ = 0;0355281 y
2 + 0;0355281
np1 (^) = 3839 = 1953;77
4
1 0;0355281
np2 (^) = np3 (^) = 3839 = 925;652
4
0;0355281
np4 (^) = 3839 = 34;0981
4
Entonces:

Dn (x)
4
X (ni npi (^))2
=
i=1 npi (^)
(1997 1953;77)2 (906 925;652)2 (904 925;652)2 (32 34;0981)2
= + + +
1953;77 925;652 925;652 34;0981
= 2;00931;
2 2
y si miramos las tablas de una 2 obtenemos 2;0;05 = 5;9914 por tanto estamos
en la región de aceptación.
4.2. TEST DE AJUSTE EN EL MODELO MULTINOMIAL 79

4.2.3. Test de independencia de dos multinomiales


Sean X e Y dos variables con r y s valores distintos respectivamente. Supong-
amos n observaciones independientes del par (X; Y ) queremos saber si X e Y son
independientes y esto lo traduciremos en un problema de contraste de hipótesis.
En primer lugar notemos que podemos indicar que el resultado de la observación
de (X; Y ) ha sido (xi ; yj ) de la siguiente forma

X Y y1 ::: yj ::: ys
x1 0 0 0
..
.
xi 0 1 0
..
.
xr 0 0 0

de manera que podemos pensar que observamos una muestra de tamaño n de


una Bernoulli r s-dimensional, con probabilidades

pij = P (X = xi ; Y = yj ); i = 1; ::; r; j = 1; :::; s:

El resultado de las n-observaciones independientes se puede escribir en la forma


de lo que se llama una tabla de contingencia

X Y y1 ::: yj ::: ys
x1 n11 n1j n1s n1
..
.
xi ni1 nij nis ni
..
.
xr nr1 nrj nrs nr
n1 nj ns n

Escribamos

pi = P (X = xi ); p j = P (Y = yj ); i = 1; ::; r; j = 1; :::; s:

Entonces X e Y serán independientes si y sólo si

pij = pi p j; i = 1; ::; r; j = 1; :::; s:

de manera que contrastar esta condición de independencia es equivalente a con-


siderar en el modelo multinomial r s-dimensional asociado, el contraste

H0 : (pij ) 1 i r = (pi p j )1 i r
1 j s 1 j s
H1 : (pij ) 1 i r 6= (pi p j )1 i r :
1 j s 1 j s
80 CAPÍTULO 4. TEST JI-CUADRADO

Notemos que se trata de un test de ajuste a una familia de multinomiales.


Utilizaremos entonces el estadístico de Pearson
r X
X s 2
(nij ncpi pcj )
Dn (x; y) =
i=1 j=1
pi pcj
nc

donde pci y pcj son los EMV de pi y p j respectivamente. Para calcularlos hay
que escribir la verosimilitud bajo H0 que vendrá dada por
r s nij r s nij
L(x; y; (pij )) = i=1 j=1 pij = i=1 j=1 (pi p j )
r ni s nj
= i=1 pi j=1 p j
P P
donde ni = j nij y n j = i nij : Entonces es inmediato que
ni nj
pc
i = ; pcj = :
n n
De manera que …nalmente
X s
r X 2
(nij ni n j =n)
Dn (x; y) = :
i=1 j=1
ni n j =n

Este estadístico, cuando n es grande (la regla es que nij 5) se comportará


como una Ji-cuadrado con grados de libertad dim dim 0 ;pero

dim = rs 1
y
dim 0 =r 1+s 1;
de manera que
dim dim 0 = rs 1 r+1 s+1
= rs r s+1
= (r 1)(s 1)
y la region crítica de nivel (aprox.) vendrá dada por
2
A1 = f(x; y); Dn (x; y) X(r 1)(s 1); g
Ejemplo 4.2.4 La siguiente tabla nos da el número de mujeres, de un grupo de
7477, de edades comprendidas entre 30 y 40 años con un grado de visión entre
1 y 4 en cada uno de los ojos. Queremos contrastar, a nivel = 0;05 si hay
independencia entre la visión de ambos ojos.
Ojo izquierdo!
1 2 3 4 Totales
Ojo derecho#
1 n11 = 1520 n12 = 266 n13 = 124 n14 = 66 n1 = 1976
2 n21 = 234 n22 = 1512 n23 = 432 n24 = 78 n2 = 2256
3 n31 = 117 n32 = 362 n33 = 1772 n34 = 205 n3 = 2456
4 n41 = 36 n42 = 82 n43 = 179 n44 = 492 n4 = 789
Totales n 1 = 1907 n 2 = 2222 n 3 = 2507 n 4 = 841 n = 7477
4.2. TEST DE AJUSTE EN EL MODELO MULTINOMIAL 81

Queremos hacer el contraste de hipótesis:

H0 : pij = pi p j (independencia) (4.5)


H1 : pij 6= pi pj (4.6)

Por tanto
Dn (x; y)
X
4 X
4
(nij ncpi pcj )2 X X (nij ni n j =n)2
4 4
= =
i=1 j=1
pi pcj
nc i=1 j=1
ni n j =n
1976 1907 2
(1520 7477
) (266 197674772222 )2 (124 197674772507 )2 (66 1976 7477
841 2
)
= 1976 1907 + 1976 2222 + 1976 2507 + 1976 841
7477 7477 7477 7477
(234 225674771907 )2 (1512 225674772222 )2 (432 225674772507 )2 (78 2256 841 2
7477
)
+ 2256 1907 + 2256 2222 + 2256 2507 + 2256 841
7477 7477 7477 7477
(117 245674771907 )2 (362 245674772222 )2 (1772 245674772507 )2 (205 2456 7477
841 2
)
+ 2456 1907 + 2456 2222 + 2456 2507 + 2456 841
7477 7477 7477 7477
1907 2 2222 2 2507 2
(36 7897477 ) (82 7897477 ) (179 7897477 ) (492 7897477841 )2
+ 789 1907 + 789 2222 + 789 2507 + 789 841
7477 7477 7477 7477
= 8096;88

Sabemos que Dn tiene aproximadamente una distribución 29 y si vamos a las


tablas obtenemos que P f 29 > 16;92g = 0;05 y el valor de Dn es muy superior
a 16;92; de hecho sólo con calcular el primer sumando hubiéramos obtenido
2048;32 y esto ya nos hubiera conducido a rechazar la hipótesis nula, esto es la
hipótesis de independencia.

Antes de continuar adelante notemos que la razón de verosimilitudes en el


caso del contraste anterior de independencia viene dado por
r ni s n r ni ni s nj n j
c
i=1 p i j=1 pcj j i=1 n j=1 n
(x; y) = r s n = nij nij
i=1 j=1 p ^ijij r s
i=1 j=1 n
r
n i=1 i
n ni sj=1 n j n j

= n r s nij
i=1 j=1 nij

Test de homogeneidad de varias multinomiales.


Supongamos r variables multinomiales independientes, Z1 ; Z2 ; :::; Zr que
pueden tomar cada una s valores z1 ; z2 ; :::; zs con probabilidades (desconocidas
obviamente) X
P (Zi = zj ) = pij ; pij > 0; pij = 1;
j

queremos saber si las variables Zi tienen la misma distribución, esto es si

pij = pj ; 8i; j
82 CAPÍTULO 4. TEST JI-CUADRADO

de manera que la probabilidad de observar el valor zj es la misma para todas


las variables Zi , esto es, P (Zi = zj ) sólo depende del indice j: Supongamos
que tenemos una muestra con ni observaciones de la variable Zi : Escribiremos
ni en lugar de ni . Cada variable Zi puede ser representada por una Bernoulli
s-dimensional, de manera que nuestro modelo estadístico será el de r Bernouil-
lis s-dimensionales independientes con parámetros pij , j = 1; :::; s; y tamaños
muestrales ni respectivamente. Se trata de un problema de r muestras. La
verosimilitud del modelo será
r s nij
L(x; (pij )) = i=1 j=1 pij
P P
donde j pij = 1 y j nij = ni : El resultado de las observaciones se puede
escribir también en forma de tabla de contingencia

V ariable resultado z1 ::: zj ::: zs


Z1 n11 n1j n1s n1
..
.
Zi ni1 nij nis ni
..
.
Zr nr1 nrj nrs nr
n1 nj ns n

En este modelo queremos hacer el contraste

H0 : (pij )1 j n = (pj )1 j n ; i = 1; :::; r


H1 : para algún i , (pij )1 j n 6= (pj )1 j n :

La verosimilitud bajo la hipótesis nula es


r s nij
L(x; (pj )) = i=1 j=1 pj
P
s i nij s n j
= j=1 pj = j=1 pj :

Podemos construir el TRV y obtenemos


s nj
j=1 pbj
(x) = r s nij
i=1 j=1 p cij
s nj nj
j=1 n
= nij
r s nij
i=1 j=1 ni
r
n i=1 i
nni sj=1 n j n j

= n r s nij
i=1 j=1 nij

la misma expresión que en el caso del contraste de independencia!. Si aplicamos


el teorema de Wilks tendremos que 2 log (X); si los tamaños muestrales
4.2. TEST DE AJUSTE EN EL MODELO MULTINOMIAL 83

son grandes, tendrá un distribución ji-cuadrado con grados de libertad dim


dim 0 ;pero
dim = r(s 1)
y
dim 0 =s 1;
de manera que

dim dim 0 = r(s 1) (s 1)


= (r 1)(s 1);

igual que en el caso del contraste de independencia!. Al igual que en el caso de


independencia se utiliza el estadístico de Pearson en lugar de 2 log (x), por
comparación con el caso de independencia, tendremos que
r X
X s 2
(nij ni n j =n)
Dn (x) = :
i=1 j=1
ni n j =n

seguirá aproximadamente una ji-cuadrado con (r 1)(s 1) grados de libertad.

Ejemplo 4.2.5 Disponemos de dos muestras de estudiantes, la primera de es-


cuelas privadas, la segunda de escuelas públicas. Los resultados son relativos a
un determinado test de conocimientos.

Puntuación del test!


0-275 276-350 351-425 426-450 Totales
Tipo de escuela#
Privada 6 14 17 9 46
Pública 30 32 17 3 82
Totales 36 46 34 12 128

Como hemos visto, contrastar la hipótesis de homogeneidad corresponde a con-


trastar la independencia entre las variables ”Puntuación del test” y ”Tipo de
escuela”. Por tanto hay que calcular

Dn (x)
X
2 X
4
(nij ni n j =n)2
=
i=1 j=1
ni n j =n
46 36 2 46 46 2 46 34 2 46 12 2
(6 128
) (14 128
) (17 128
) (9 128
)
= 46 36 + 46 46 + 46 34 + 46 12
128 128 128 128
(30 8212836 )2 (32 8212846 )2 (17 8212834 )2 (3 8212812 )2
+ 82 36 + 82 46 + 82 34 + 82 12
128 128 128 128
= 17;2858

Entonces como P f 23 > 7;815g = 0;05 resulta que estamos en la región crítica y
rechazamos la hipótesis de homogeneidad.
84 CAPÍTULO 4. TEST JI-CUADRADO

4.3. Test Ji-cuadrado de ajuste, independencia


y homogeneidad.
Si partimos de la observación de variables iid cualesquiera siempre podemos
substituirlas por variables multinomiales de manera aproximada agrupando los
datos cuando sea necesario. Una vez aproximadas las variables por multinomiales
podemos hacer los test anteriores y tendremos los llamados test Ji-cuadrado.
Vamos a ver un ejemplo de test Ji-cuadrado de ajuste a una familia.

Ejemplo 4.3.1 Disponemos de los tiempos de vida de 50 componentes elec-


trónicos del mismo tipo, queremos ver si se ajusta a una distribución exponen-
cial.
262.8 1.0 36.4 4.0 59.4 35.3 70.5 22.6 3.7 5.8
32.1 0.5 17.4 77.6 46.7 182.4 76.7 3.5 13.4 29.7
6.1 15.1 110.5 45.9 31.7 22.4 27.8 10.0 33.0 26.7
8.0 6.8 63.0 70.9 30.0 12.2 29.6 3.3 32.2 12.3
128.2 24.6 7.0 39.8 71.1 19.4 5.4 4.4 54.4 24.8

Hacemos una partición del intervalo [0; 1) mirando que el número de observa-
ciones en cada intervalo sea superior o igual a 5. Una posible es

I1 = [0; 20); I2 = [20; 40); I3 = [40; 70); I4 = [70; 1)

entonces el número de observaciones en cada intervalo es, respectivamente,

n1 = 20; n2 = 16; n3 = 5; n4 = 9:

Bajo la hipótesis nula

Ejemplo 4.3.2 los datos siguen una exponencial de parámetro de manera


que la probabilidad de observar resultados en un intervalo (a; b) viene por
Z b
p((a; b)) = e x dx = e a e b (4.7)
a

Así las probabilidades de observar resultados en los intervalos I1 ; I2 ; I3 ;y I4 , bajo


H0 , serán, respectivamente,
20 20 40 40 70 70
p1 ( ) = 1 e ; p2 ( ) = e e ; p3 ( ) = e e : ; p4 ( ) = e
(4.8)
Para estimar utilizaremos los datos sin agrupar, esto es calcularemos la esti-
mación máximo-verosímil de suponiendo que los 50 datos son exponenciales
en lugar de que los cuatro datos, ni ; i = 1; 2; 3; 4, son multinomiales con
parámetros pi ( ); i = 1; 2; 3; 4: Esto supone una aproximación al comportamien-
to asintótico del estadístico de Pearson:
4
X (ni npi (^ ))2
Dn (x) = ;
i=1
npi (^ )
4.3. TEST JI-CUADRADO DE AJUSTE, INDEPENDENCIA Y HOMOGENEIDAD.85

L 2 L 2 2
esto es, aproximadamente, Dn ! 2 , de hecho Dn ! 2 + 1 con
n!1 n!1
2 2
2 (0; 1) y y 2 independientes (ver Cherno¤ and Lehmann (1954)). n =
1
P4
i=1 ni = 50 es el tamaño muestral. La estimación máximo-verosímil de es
^ = P50n x = 0;0243: Esto hace que
i=1 i

np1 (^ ) = 19;25; p2 (^ ) = 11;8; p3 (^ ) = 6;35; p4 (^ ) = 12;6:

Dn (x)
4
X (ni npi (^ ))2
=
i=1
npi (^ )
(20 19;25)2 (16 11;8)2 (5 6;35)2 (9 12;6)2
= + + +
19;25 11;8 6;35 12;6
= 2;80162:

Cómo P f 22 > 5;99g = 0;05 resulta que 22; 0;05 = 5;99 y como Dn (x) < 22; 0;05
2
estaríamos en la región de aceptación, si consideramos que Dn 2 : Así es
razonable pensar que los datos siguen una distribución exponencial. Incluso el
nivel de signi…cación de nuestro test podría ser mayor ya que P f 23 > 5;99g =
0;11 con lo que se rea…rmaría la hipótesis de exponencialidad de los datos.
86 CAPÍTULO 4. TEST JI-CUADRADO

4.4. Test de ajuste y homogeneidad no paramétri-


cos.
4.4.1. La distribución empírica
Los test de ajuste y homogeneidad anteriores se basan en discretizar la vari-
able original, entonces uno se pregunta si no podríamos crear test que no re-
quieran este paso. Una función que caracteriza la ley de las observaciones es la
función de distribución y tenemos el equivalente ”empírico”.

De…nición 4.4.1 Sean n observaciones de variables iid, denominaremos fun-


ción de distribución empírica a la función de distribución, que depende de la
muestra x = (x1 ; x2 ; :::; xn ), dada por
n n
1X 1X
F^n (y)(x) := 1( 1;y] (xi ) = 1[x ;+1) (y):
n i=1 n i=1 i

Es una función escalonada continua por la derecha, que pega un salto n1 en


x(1) ; otro del mismo tamaño en x(2) y así sucesivamente hasta llegar al valor 1.
Si las n observaciones iid tienen función de distribución F , tenemos las
siguientes propiedades de F^n (y):

Proposición 4.4.1 Sea X = (X1 ; :::; Xn ); iid con función de distribución F:


a:s:
F^n (y)(X) ! F (y); 8y 2 R
n!1

Demostración. Por la ley fuerte de los grandes números


a:s:
F^n (y)(X) ! EF (1( 1;y] (X1 ))) = PF (X1 y) = F (y):
n!1

Incluso la convergencia es uniforme. De…namos, con las notaciones anteriores,


el estadístico
^
n (x) = sup Fn (y)(x) F (y) ;
y2R

tenemos el siguiente resultado,

Teorema 4.4.1 (Glivenko-Cantelli)


a:s:
n (X) ! 0
n!1

Demostración. Vamos a considerar solo el caso que F sea contínua. Si


F tiene puntos de discontinuidad estos son a lo sumo in…nito numerable y
tendremos convergencia uniforme en estos puntos por la proposición anteri-
(r) (r) (r) (r) (r)
or. Sean, 1 = y0 y1 y2 ; ::: yr 1 yr = 1; tales que 8i =
(r) (r) (r) (r)
1; :::; r, F (yi ) F (yi 1 ) = 1=r. Sea yi 1 y yi ;
(r) (r) (r) (r)
F^n (yi 1 )(X) F (yi 1) 1=r F^n (y)(X) F (y) F^n (yi )(X) F (yi ) + 1=r;
4.4. TEST DE AJUSTE Y HOMOGENEIDAD NO PARAMÉTRICOS. 87

con X = (X1 ; :::; Xn ). Esto es


(r) (r) (r) (r)
F^n (y)(X) F (y) max F^n (yi 1 )(X) F (yi 1) ; F^n (yi )(X) F (yi ) +1=r
0 i r

de manera que, casi seguramente, por la proposición anterior,

l m sup sup F^n (y)(X) F (y) 1=r;


n!1 y

el resultado se sigue tendiendo r a in…nito.

4.4.2. Test de Kolmogorov-Smirnov


A la vista de estas propiedades parece razonable comparar la función de
distribución empírica con la que suponemos es la teórica para ver si realmente
lo es. Por ejemplo, supongamos que en un modelo de observaciones iid con
función de distribución F queremos contrastar

H0 : F = F0
H1 : F 6= F0

donde F0 representa una función de distribución concreta. Entonces una región


crítica razonable consistiría en

A1 = fx; n (x) Kg

donde
n (x) = sup F^n (y) F0 (y)
y

es decir, si la función de distribución empírica di…ere mucho de la teórica rechaz-


amos la hipótesis nula. Pero para poder aplicar este test necesitamos conocer la
distribución de n al menos bajo F0 y así poder calcular K para que

PF 0 ( n K) =

y así poder tener un test de nivel : Afortunadamente tenemos la proposición:

Proposición 4.4.2 Si tenemos una muestra de tamaño n de variables iid con


una distribución continua F0 ; n tiene una distribución que no depende de F0 .

Demostración. Como F0 (y) y F^n (y)(X) son ambas crecientes

sup F^n (y)(X) F0 (y) = sup F^n (X(i) )(X) F0 (X(i) ) ; F^n (X(i) )(X) F0 (X(i) )
y i
i i 1
= sup F0 (X(i) ) ; F0 (X(i) )
i n n
i i 1
= sup U(i) ; U(i) ;
i n n
88 CAPÍTULO 4. TEST JI-CUADRADO

con Ui := F0 (Xi ) pero F0 (Xi ) s U (0; 1) (ya que las variables Xi son contínuas)
de manera que
i i 1
sup F^n (y)(X) F0 (y) s sup U(i) ; U(i)
y i n n

donde Ui son variables iid con ley uniforme en (0; 1):


Esta distribución está tabulada y permite construir lo que se llama el test
de ajuste de Kolmogorov-Smirnov.

Ejemplo 4.4.1 Queremos contrastar si el conjunto de datos siguiente se ajusta


a una distribución N(2; 1);

0;3; 0;7; 0;9; 1;2; 1;3; 1;4; 1;5; 1;6; 1;9; 2;0; 2;1; 2;2; 2;3; 2;5; 2;6;
2;7; 3;0; 3;8; 3;9; 4;0:

En este caso n = 20: Escribamos

(x(i) ) = max F^n (x(i) ) F0 (x(i) ) ; F^n (X(i) ) F0 (x(i) )

y para indicar la función de distribución de una N(0; 1): Tendremos

x 2 -1.7 -1.3 -1.1 -0.8 -0.7 -0.6 -0.5 -0.4 -0.1 0


10 F^n (x(i) ) 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
10 (x(i) ) 0.4 1 1.3 2.1 2.4 2.7 3.1 3.4 4.6 5
100 (x(i) ) 4 5 3 6 4 3 4 6 6 5

x 2 0.1 0.2 0.3 0.5 0.6 0.7 1 1.8 1.9 2


10 F^n (x(i) ) 5.5 5.6 6.5 7 7.5 8 8.5 9 9.5 10
10 (x(i) ) 5.4 5.8 6.2 6.9 7.3 7.6 8.4 9.6 9.7 9.8
100 (x(i) ) 4 3 3 4 3 4 4 11 7 3
Por tanto 20 (x) = 0;11; si vamos a las tablas obtenemos que 20;0;05 = 0;291
por tanto estamos en la región de aceptación.

También se puede contrastar la homogeneidad si tenemos dos muestras inde-


pendientes X1 ; X2 ; :::; Xn1 y Y1 ; Y2 ; :::; Yn2 con distribuciones continuas F1 ; F2 ;
esto es

H0 : F1 = F2
H1 : F1 6= F2

entonces la región crítica que propone el test de Kolmogorov-Smirnov es

A1 = f(x; y); n1 ;n2 (x; y) Kg

donde
n1 ;n2 (x; y) = sup F^n(1)
1
(z)(x) F^n(2)
2
(z)(y)
z
4.4. TEST DE AJUSTE Y HOMOGENEIDAD NO PARAMÉTRICOS. 89

Ejemplo 4.4.2 Los datos siguientes corresponden a las longitudes en cm de


plantas obtenidas en dos cultivos de manera independiente, fertilizadas con dos
tipos de adobe. Se quiere contrastar la hipótesis de que la distribución de las
longitudes es las misma en ambos casos.

Ejemplo 4.4.3

Adobe A: x 7 8 10 12 10 13 9 10
Adobe B: y 11 10 12 13 10 15 17 16

Tenemos entonces
z 7 8 9 10 11 12 13 14 15 16 17
(1)
F^n1 (z)(x) 1
8
2
8
3
8
6
8
6
8
7
8 1 1 1 1 1
(2)
F^n2 (z)(y) 0 0 0 2
8
3
8
4
8
5
8
5
8
6
8
7
8 1
(1) (2)
F^n1 (z)(x) F^n2 (z)(y) 1
8
2
8
3
8
4
8
3
8
3
8
3
8
3
8
2
8
1
8 0

por tanto 8;8 (x; y) = 84 : En las tablas se obtiene que 8;8;0;05 = 68 ; con lo
que estamos en la región de aceptación y podemos decir que ambos fertilizantes
producen el mismo efecto.
90 CAPÍTULO 4. TEST JI-CUADRADO
Capítulo 5

El modelo lineal

Supongamos un modelo estadístico que corresponde a n observaciones de


Y1 ; Y2 ; :::; Yn independientes y tales que
E(Yi ) = 0 + 1 xi1 + ::: + p 1 xip 1

y V ar(Yi ) = 2 ; i = 1; :::; n(n > p): Donde los j son parámetros desconoci-
dos (coe…cientes de regresión, parámetros,...) y los xij (regresores, covariables,
factores,...) son valores conocidos. Esto es
Yi = 0 + 1 xi1 + ::: + p 1 xip 1 + "i ;
2
E("i ) = 0; V ar("i ) = ; i = 1; :::; n
Diremos que tal modelo es un modelo lineal. Con notación vectorial
Y =X +"
donde
0 1 0 1
Y1 1 x11 x1p 1
B .. C B .. .. .. .. C
Y = @ . A ; X = @ . . . . A;
Yn 1 xnp 1 xnp 1
0 1 0 1
1 "1
B .. C B . C
= @ . A ; " = @ .. A :
n "n
Si la variable respuesta, Y; y las covariables x, son cuantitativas, diremos que
se trata de un modelo de regresión, si las covariables son cualitativas (0 ó 1)
el modelo se suele llamar de análisis de la varianza, si en las covariables hay
variables cuantitativas y cualitativas se suele llamar modelo de análisis de la
covarianza.
Estos modelos fueron introducidos por Legendre en 1805 (obtuvo lo que se
llama las ecuaciones normales) estudiados por Gauss (1823) y Fisher (1922) que
introdujo los modelos de análisis de la varianza.

91
92 CAPÍTULO 5. EL MODELO LINEAL

5.1. Estimación de los parámetros


Notemos que no hay verosimilitud ya que sólo está de…nida la estructura
de la media de las Y pero no su ley (modelo semiparamétrico). Sin embargo
podemos buscar de manera que las observaciones yi di…eran de 0 + 1 xi1 +
::: + p 1 xip 1 lo mínimo posible. Más concretamente
n
X
2
(yi ( 0 + 1 xi1 + ::: + p 1 xip 1 )) =mn
i=1

También podemos escribir, la condición anterior como

jjy X jj2 = m n;

donde jj jj representa la norma euclídea en Rn :Notemos que


0 1 0 1 0 1
1 x11 x1p 1
B .. C B .. C B .. C
X = 0@ . A+ 1@ . A + ::: + p 1 @ . A
1 xn1 xnp 1

De manera que fX ; 2 Rp g es el subespacio vectorial de Rn generado por las


columnas de X := R(X): Entonces ^ es una solución a nuestro problema si X ^
es la proyección ortogonal de y en R(X); en efecto

y X ^ ?R(X)

implica que

jjy X jj2 = jjy X ^ + X ^ X jj2


= jjy X ^ jj2 + jjX ^ X jj2 + 2hy X ^; X ^ X ji
= jjy X ^ jj2 + jjX ^ X jj2 jjy X ^ jj2 :

Si X es de rango pleno, es decir sus p columnas son linealmente independientes,


^ se puede determinar de manera única:

y X ^ ?R(X)

equivale a
X 0 (y X ^) = 0
donde la prima indica traspuesta. De manera que

X 0X ^ = X 0y

y como X 0 X es no singular al ser X de rango pleno, resulta


^ (y) = (X 0 X) 1
X 0 y:

Esta estimación se denomina mínimo-cuadrática.


5.1. ESTIMACIÓN DE LOS PARÁMETROS 93

5.1.1. Propiedades del estimador mínimo-cuadrático

^ (y) = (X 0 X) 1
X 0y
es lineal en Y :
^ (y) = By; con B = (X 0 X) 1
X 0;
es insesgado:
1
E (^) = E ( ^ (Y )) = E ((X 0 X) X 0Y )
1
= (X 0 X) X 0 E (Y )
1
= (X 0 X) X 0X = :

Su matriz de varianzas-covarianzas viene dada por

V ar ( ^ ) = V ar ( ^ (Y )) = V ar (BY ) = BV ar (Y )B 0
2 1 1 1
= (X 0 X) X 0 X (X 0 X) = 2
(X 0 X) :

Teorema 5.1.1 (Gauss-Markov) Sea c 2 Rp ; consideremos la función lineal de


; c0 ; donde la prima indica traspuesta. Entonces c0 ^ es el mejor estimador
lineal insesgado (BLUE: Best linear unbiased estimator).
Demostración. Sea T (y) := 0 y un estimador lineal insesgado de c0 ; se
deberá cumplir que
E (T ) = E ( 0 Y ) = c0 ; 8 ;
de manera que
0 0
E (Y ) = X = c0 ; 8
de manera que
0
X = c0 :
Comparemos su varianza con la de c0 ^ ;

V ar (T ) = V ar ( 0 Y ) = 0
V ar (Y )
2 0
= ;

por otra parte

V ar (c0 ^ ) = c0 V ar ( ^ )c
2 0 1
= c (X 0 X) c:

Por tanto
1
V ar (T ) V ar (c0 ^ ) = 2
( 0
c0 (X 0 X) c)
2 0 0 0 1
= ( X (X X) c)
2 0 1 2
= jj X (X X) cjj 0;
94 CAPÍTULO 5. EL MODELO LINEAL

en efecto
1 1 1
jj X (X 0 X) cjj2 = ( X (X 0 X) c)0 ( X (X 0 X) c)
1 1 0
0 0 0 0
= X (X X) c X (X X) c
1 0 1
+ X (X 0 X) c X (X 0 X) c
0 1 1 1
= 2 0 X (X 0 X) c + c0 (X 0 X) X 0 X (X 0 X) c
0 0 1 1
= 2 X (X 0 X) c + c0 (X 0 X) c
0 0 0 1 0 0 1
= 2 X (X X) c+ X (X X) c
0 0 0 1
= X (X X) c:

1
Observación 5.1.1 Notemos que habrá igualdad si y sólo si X (X 0 X) c=
1
0; de manera que T (y) = 0 y = c0 (X 0 X) X 0 y = c0 ^ (y):

2
5.1.2. Estimación mínimo cuadrática de :
Supongamos ahora que es también un parámetro a estimar. Notemos
primero ciertas propiedades. En primer lugar e^(y) := y X ^ (y); es una es-
timación de los errores, y como X ^ (y) es la proyección de y sobre R(X) ,
tenemos en particular que
0 1
1
B C
y X ^ (y)? @ ... A ;
1

con lo que
n
X n
X
e^i (y) = yi X ^ (y) = 0:
i
i=1 i=1

Asimismo
1
X ^ (y) = X (X 0 X) X 0y = P y
donde
1
P = X (X 0 X) X0
1
Proposición 5.1.1 P = X (X 0 X) X 0 es la matriz proyección ortogonal sobre
R(X): Es por tanto una matriz, simétrica, idempotente y existirá una matriz
ortogonal Q; (n n) tal que

Ip 0
P =Q Q0
0 0

donde Ip es la matriz identidad de dimensión p:


5.1. ESTIMACIÓN DE LOS PARÁMETROS 95

Demostración. Sea u 2 Rn ; entonces


1
P u = X (X 0 X) X 0 u = Xh 2 R(X)
1
con h = (X 0 X) X 0 u 2 Rp ; además
1
X 0 (u P u) = X 0 (In X (X 0 X) X 0 )u
1
= X0 X 0 X (X 0 X) X0 u
= (X 0 X 0 ) u = 0:

Por tanto es la matriz de proyección ortogonal sobre R(X):


Sea Q una matriz ortogonal cuyas p primeras columnas son vectores orto-
normales que constituyen una base de R(X): Obviamente tendremos

Ip 0
Q0 P Q = :
0 0

Observación 5.1.2 Es obvio también que In P será la matriz proyección


ortogonal sobre R(X)? (el complementario ortogonal) y existirá una matriz
ortogonal R tal que
In p 0
In P =R R0
0 0
El siguiente Lema nos ayudará en la obtención de un estimador insesgado
2
de .

Lema 5.1.1 Sea A una matriz n n determinista y Z un vector aleatorio n-


dimensional con E(Z) = y matriz de varianzas-covarianzas V ar(Z) = :
Entonces
E(Z 0 AZ) = traza(A ) + 0 A

Demostración.
0
E(Z 0 AZ) = E((Z ) A (Z )) + 0
A
0 0
= E(traza((Z ) A (Z )) + A ;

ahora bien
0
X
traza((Z ) A (Z ) = (Z )1i Aij (Z )j1
i;j
X
= Aij (Z )j1 (Z )1i
i;j
X 0
= Aij (Z ) (Z ) ji
i;j
0
= traza(A (Z ) (Z ) );
96 CAPÍTULO 5. EL MODELO LINEAL

de manera que
0
E(Z 0 AZ) = E(traza(A (Z ) (Z ))+ 0
A
0 0
= traza AE((Z ) (Z )) + A
0
= traza (A ) + A :

Proposición 5.1.2 (Gauss)


jjy X ^ (y)jj2
~ 2 (y) :=
n p
2
es un estimador insesgado de :
Demostración.
E ~2 = E ~ 2 (Y ) = E jjY X ^ jj2 = E (jj(In P )Y jj2 )
= E (Y 0 (In P )0 (In P )Y )
0
= E (Y (In P )Y )
2 0
= traza((In P) In ) + X 0 (In P )X
2
= (n p)
ya que al ser X 2 R(X); (In P )X = 0:

5.2. El modelo lineal normal


Hasta ahora las hipótesis en el modelo lineal sobre " eran E(") = 0 y matriz
de varianzas-covarianzas V (") = 2 In : Si añadimos que " tiene distribución
Gaussiana tendremos el modelo lineal normal. Notemos que como Y = X + ";
resultará que Y s Nn (X ; 2 In ): Tenemos una generalización del teorema de
Fisher.
1. Teorema 5.2.1
i) ^ s Np ( ; 2 (X 0 X) 1 )
X 0X
ii) ( ^ )0 2 ( ^ ) s Xp2

iii) ^ y ~ 2 son independientes


(n p)~ 2
iv) 2
s Xn2 p

Demostración. i) es trivial. ii):


X 0X ^
(^ )0 2
( ) = (^ )0 V ( ^ ) 1
(^ )

= (^ )0 V ( ^ ) 1=20
V (^) 1=2
(^ )
0
= ZZ
5.2. EL MODELO LINEAL NORMAL 97

con
Z = V (^) 1=2
(^ ) s Np (0; Ip ):
iii): Si demostramos que ^ (Y ) y ^"(Y ) = Y X ^ son independientes ya está
^
entonces como la conjunta de (Y ) y cualquier subconjunto de las ^"i (Y ) es
normal, bastará ver que la covarianza es cero.
1
Cov( ^ (Y ); Y X ^) = Cov((X 0 X) X 0 Y; (In P )Y )
1 0
0 0
= (X X) X Cov(Y; Y )(In P)
1 0
2
= (X 0 X) X 0 (In P ) = 0:

iv)

jjYX ^ jj2 Y 0 (In P )Y


~ 2 (Y ) = =
n p n p
(Y X )0 (In P )(Y X )
= ;
n p
ahora bien
In p 0
In P =R R0
0 0
con R ortogonal y
1
U := (Y X ) s Nn (0; In )
por tanto
n
Xp
(n p)~ 2
2
= Ui2 s Xn2 p
i=1

5.2.1. Estimación máximo verosímil


Es inmediato comprobar que el EMV de y el estimador mínimo-cuadrático
coinciden. Y que el EMV de 2 es
1
^ 2 (y) = jjy X ^ (y)jj2
n
y que por tanto tiene sesgo.

5.2.2. Intervalos de con…anza y predicción


2
Sabemos que ^ s Np ( ; 2 (X 0 X) 1 ) y (n p)~ 2 s Xn2 p independiente de
^ : De esta manera que si queremos dar un intervalo para la media de las ob-
servaciones cuando los regresores son (1; x1 ; x2 ; ::; xp 1 ) := x0 bastará tener en
cuenta que
x0 ^ s N (x0 ; 2 x0 (X 0 X) 1 x);
98 CAPÍTULO 5. EL MODELO LINEAL

y así
p x0 ^ x0
2 x0 (X 0 X) 1x
q s tn p
(n p)~ 2
(n p) 2

esto es
x0 ^ x0
q s tn p:
~ 2 x0 (X 0 X) 1x

Esto nos dará intervalos de con…anza para x0 :


q
0^
x (y) tn p; =2 ~ 2 (y)x0 (X 0 X) 1 x:

Si quisieramos dar un intervalo para una observación futura Yn+1 = x0 + "n+1 ;


entonces
Yn+1 x0 ^ (Y ) = x0 x0 ^ (Y ) + "n+1
de manera que

Yn+1 x0 ^ (Y ) s N (0; 2
(x0 (X 0 X) 1
x + 1))

tendremos así que un intervalo de predicción para Yn+1 vendrá dado por
q
x0 ^ (y) tn p; =2 ~ 2 (y)(1 + x0 (X 0 X) 1 x):

5.2.3. Contraste de hipótesis


Sea H una matriz q p de rango q y c 2 Rq : Consideremos el problema de
contrastar

H0 : H =c
H1 : H 6= c:

Vamos a calcular el test de la razón de verosimilitudes. Tenemos que la veros-


militud es
( n
)
1 1 X
L(y; ; ) = p n exp (yi (X (y))i )2 :
2 2 2 i=1

entonces
sup ; ;H =c L(y; ; )
(y) =
L(y; ^ ; ^ )
L(y; ^ H ; ^ H )
=
L(y; ^ ; ^ )
5.2. EL MODELO LINEAL NORMAL 99

donde ^ H ; ^ H son los estimadores máximo verosímiles con la restricción H =


c:Es inmediato que
1
^ 2H (Y ) = jjY X ^ H (Y )jj2 ;
n
y que
n
^ 2 (y) 2
(y) = :
^ 2H (y)
Se acostumbra a escribir

RSS(Y ) = jjY X ^ (Y )jj2 y RSSH (Y ) = jjY X ^ H (Y )jj2 (RSS: residual sum of squares),

de manera que
n
^ 2 (y) 2

(y) =
^ 2H (y)
n ! n2
RSS(y) 2
1
= = RSSH (y) RSS(y)
RSSH (y) 1+ RSS
0 1 n2
@ 1 A
= q (RSSH (y) RSS(y))=q
1+ n p RSS(y)=(n p)

Entonces
(RSSH (y) RSS(y)) =q
(y) K, C
RSS(y)= (n p)
De manera que la región crítica del TRV sería
(RSSH (y) RSS(y)) =q
A1 = y; C ;
RSS(y)= (n p)
resulta que C lo podemos calcular fácilmente si …jamos el nivel de signi…cación
por el siguiente resultado.

Proposición 5.2.1 Bajo H0


(RSSH (Y ) RSS(Y )) =q
s Fq;n p;
RSS(Y )= (n p)

Lema 5.2.1 Si U s Xr2 y V s Xl2 con r > l y V y U V son independientes,


entonces U V s Xr2 l :

Demostración. Sea 'U ( ) la función generatriz de momentos de U: En-


tonces 'U ( ) = h( )r para una cierta función h: Entonces 'V ( ) = h( )l :Por
otro lado, al ser V y U V independientes 'U ( ) = 'U V ( )'V ( ) con lo que
'U V ( ) = h( )r l :
Demostración. (De la proposición). Sabemos que RSS(Y )= 2 s Xn2 p
(esto se cumple bajo la hipótesis general en particular bajo H0 ): Veamos que
100 CAPÍTULO 5. EL MODELO LINEAL

bajo H0 ; RSSH (Y )= 2 s Xn2 (p q) : Basta considerar el caso c = 0, si c 6= 0


podemos tomar 0 tal que H 0 = c y tomar

Y~ : =Y X 0 = X( 0) +"
= X~ + "

b
y ahora H0 : H ~ = 0; además jjY~ X ~ H (Y )jj2 = jjY X 0 X( b H (Y )
2 b 2
0 )jj = jjY X H jj = RSSH : Notemos ahora que H := fX ; H = 0g es
un subespacio de dimensión p q de R(X); por tanto el estimador mínimo-
cuadrático )(=EMV) será un b H tal que X b H (Y ) = PH Y y tendremos

= jj(In PH )Y jj2
= Y 0 (In PH )Y
0
= (Y X H) (In PH )(Y X H)

0 In (p q) 0
= (Y X H) L L0 (Y X H );
0 0

Y X
con L ortogonal, y como bajo H0 , H
s N (0; In ); resultará que

jjY X b H (Y )jj2
2
s Xn2 (p q) :

Por último,

RSSH (Y ) = jjY X b H jj2 = jjY X b jj2 + jjX b X b H jj2


= RSS(Y ) + jj(In PH )X b jj2

de manera que

RSSH (Y ) RSS(Y ) = jj(In PH )X b (Y )jj2

independiente de RSS(Y ) (por el teorema 5.2.1, b (Y ) es independiente de


RSS(Y )) de manera que por el lema anterior RSSH (Y ) RSS(Y ) s Xq2 y
como es independiente de RSS(Y );

(RSSH (Y ) RSS(Y )) =q
s Fq;n p
RSS(Y )= (n p)

Observación 5.2.1 Particularmente interesante es el llamado test de la regre-


sión

H0 : 1 = 2 = ::: = p 1 =0
H1 : no todos los i; i 1 son cero.
5.2. EL MODELO LINEAL NORMAL 101

Es un caso particular de los anteriores con c = 0 y H = (0; Ip 1 ) (toda la


primera columna ceros). De esta manera q = p 1: Bajo H0 el modelo consiste
en
Y = 0+"
y ^ 0H (y) = y; de manera que RSSH (Y ) = jjY Y jj2 y RSSH (Y ) = RSS(Y ) +
jjX b Y jj2 : Una medida del ajuste de la regresión es

RSSH (y) RSS(y)


R2 = :
RSSH (y)

También podría gustarte