0% encontró este documento útil (0 votos)

102 vistas200 páginas

Apuntes Models No Parametrics

Este documento presenta un curso sobre modelos no paramétricos. Incluye contrastes no paramétricos clásicos como pruebas de bondad de ajuste, localización y comparación de muestras. También cubre estimación no paramétrica de densidad utilizando métodos como el histograma y el estimador núcleo. Por último, explica la estimación no paramétrica de funciones de regresión a través de estimadores núcleo y polinomios locales.

Cargado por

izyfer

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

102 vistas200 páginas

Apuntes Models No Parametrics

Cargado por

izyfer

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

Curso de Modelos no Parametricos

Pedro Delicado
Departament dEstadstica i Investigaci o Operativa
Universitat Polit`ecnica de Catalunya
14 de septiembre de 2008

Indice general
Prefacio V
1. Contrastes no parametricos clasicos 1
1.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. Contrastes de bondad de ajuste . . . . . . . . . . . . . . . . . 1
1.2.1. La funcion de distribucion emprica . . . . . . . . . . . 2
1.2.2. El contraste de Kolmogorov-Smirnov . . . . . . . . . . 7
1.2.3. Bondad de ajuste a un modelo parametrico. . . . . . . 9
1.3. Contrastes de localizacion . . . . . . . . . . . . . . . . . . . . 9
1.3.1. El test del signo . . . . . . . . . . . . . . . . . . . . . . 10
1.3.2. Test de Wilcoxon de los rangos signados . . . . . . . . 12
1.4. Comparacion de dos muestras independientes . . . . . . . . . 15
1.4.1. Test de Kolmogorov-Smirnov para dos muestras . . . . 16
1.4.2. Test de Mann-Whitney-Wilcoxon . . . . . . . . . . . . 17
1.5. Comparacion de mas de dos muestras . . . . . . . . . . . . . . 19
1.5.1. Muestras independientes: Test de Kruskal-Wallis . . . . 19
1.5.2. Muestras relacionadas: Test de Friedman . . . . . . . . 20
1.6. Medida de la dependencia . . . . . . . . . . . . . . . . . . . . 21
1.6.1. Coeciente de Kendall . . . . . . . . . . . . . . . . . 22
1.6.2. Coeciente de correlacion de rangos de Spearman . . . 23
1.7. Comentarios nales . . . . . . . . . . . . . . . . . . . . . . . . 25
2. Introduccion a los metodos de suavizado 29
2.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.2. Usos de los metodos de suavizado. . . . . . . . . . . . . . . . . 35
3. Estimacion no parametrica de la densidad 39
3.1. La estimacion de la densidad . . . . . . . . . . . . . . . . . . . 39
3.2. El histograma y el polgono de frecuencias . . . . . . . . . . . 40
3.2.1. Motivaci on del histograma . . . . . . . . . . . . . . . . 41
i
ii

INDICE GENERAL
3.2.2. Caractersticas del histograma . . . . . . . . . . . . . . 42
3.2.3. Propiedades locales del estimador histograma . . . . . 44
3.2.4. Propiedades globales del estimador histograma . . . . . 47
3.2.5. Eleccion del parametro de suavizado b . . . . . . . . . 49
3.2.6. El polgono de frecuencias . . . . . . . . . . . . . . . . 51
3.2.7. Comportamiento asintotico del polgono de frecuencias 52
3.3. Estimador n ucleo de la densidad . . . . . . . . . . . . . . . . . 53
3.3.1. Comportamiento asint otico del estimador n ucleo de la
densidad . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.3.2. Problemas de los estimadores n ucleo y algunas soluciones 68
3.4. Seleccion automatica del parametro de suavizado . . . . . . . 77
3.4.1. Regla de referencia a la normal . . . . . . . . . . . . . 77
3.4.2. Sobresuavizado . . . . . . . . . . . . . . . . . . . . . . 77
3.4.3. Validaci on cruzada por mnimos cuadrados . . . . . . . 79
3.4.4. Plug-in directo . . . . . . . . . . . . . . . . . . . . . . 81
3.4.5. Validaci on cruzada por maxima verosimilitud . . . . . 83
3.4.6. Otros metodos . . . . . . . . . . . . . . . . . . . . . . 83
3.5. Estimacion de la densidad multivariante . . . . . . . . . . . . 85
3.5.1. Eleccion de la matriz ventana . . . . . . . . . . . . . . 89
3.5.2. Representaci on de densidades tri-variantes . . . . . . . 91
3.5.3. La maldicion de la dimensionalidad . . . . . . . . . . . 93
3.6. Inferencia basada en la estimacion de la densidad . . . . . . . 95
3.6.1. Bandas de variabilidad . . . . . . . . . . . . . . . . . . 95
3.6.2. Contraste de normalidad . . . . . . . . . . . . . . . . . 97
3.6.3. Bandas de referencia normal . . . . . . . . . . . . . . . 100
3.6.4. Contraste de independencia . . . . . . . . . . . . . . . 101
3.6.5. Bootstrap en la estimacion de la densidad . . . . . . . 102
3.6.6. Contraste de igualdad de distribuciones . . . . . . . . . 103
3.6.7. Discriminacion no parametrica basada en estimacion
de la densidad . . . . . . . . . . . . . . . . . . . . . . . 104
3.7. Otros estimadores de la densidad . . . . . . . . . . . . . . . . 108
3.7.1. Los k vecinos mas cercanos . . . . . . . . . . . . . . . 108
3.7.2. Desarrollos en series de funciones ortogonales . . . . . 110
3.7.3. Maxima verosimilitud penalizada . . . . . . . . . . . . 111
3.7.4. Verosimilitud local . . . . . . . . . . . . . . . . . . . . 113
3.7.5. Representaci on general . . . . . . . . . . . . . . . . . . 113
3.8. Software . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
3.8.1. Estimacion de la densidad en R . . . . . . . . . . . . . 113
3.8.2. Estimacion de la densidad en MATLAB . . . . . . . . 113

INDICE GENERAL iii

4. Estimacion de la funcion de regresion 115
4.1. El modelo de regresion no parametrica . . . . . . . . . . . . . 117
4.2. Estimadores n ucleo y polinomios locales . . . . . . . . . . . . 119
4.2.1. Derivaci on directa del estimador n ucleo de la regresion 125
4.2.2. Expresion matricial del estimador por polinomios locales127
4.2.3. Propiedades locales de los estimadores por polinomios
locales . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
4.2.4. Comportamiento en la frontera del soporte de x . . . . 131
4.2.5. Eleccion del grado del polinomio local . . . . . . . . . . 131
4.3. Eleccion del parametro de suavizado . . . . . . . . . . . . . . 134
4.3.1. Error de prediccion en una muestra test . . . . . . . . 135
4.3.2. Validaci on cruzada . . . . . . . . . . . . . . . . . . . . 135
4.3.3. Validaci on cruzada generalizada. . . . . . . . . . . . . . 136
4.3.4. Plug-in . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
4.3.5. Comportamiento asintotico de selectores de h . . . . . 143
4.3.6. Ventana variable . . . . . . . . . . . . . . . . . . . . . 143
4.4. Verosimilitud local . . . . . . . . . . . . . . . . . . . . . . . . 144
4.4.1. Discriminacion no parametrica mediante regresion bi-
naria local . . . . . . . . . . . . . . . . . . . . . . . . . 144
4.4.2. Modelo de verosimilitud local . . . . . . . . . . . . . . 148
4.5. Inferencia en el modelo de regresion no parametrica . . . . . . 151
4.5.1. Bandas de variabilidad . . . . . . . . . . . . . . . . . . 152
4.5.2. Contraste de ausencia de efectos . . . . . . . . . . . . . 153
4.5.3. Contraste de un modelo lineal . . . . . . . . . . . . . . 155
4.5.4. Contraste de un modelo lineal generalizado . . . . . . . 156
4.5.5. Igualdad de curvas de regresion . . . . . . . . . . . . . 157
5. Estimacion por splines 161
5.1. Estimacion mnimo cuadratica penalizada . . . . . . . . . . . 161
5.2. Splines y splines c ubicos. Interpolacion por splines . . . . . . . 163
5.3. Suavizado por splines . . . . . . . . . . . . . . . . . . . . . . . 166
5.4. Propiedades del estimador spline de m(x) . . . . . . . . . . . . 169
5.5. B-splines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
5.6. Ajuste de un modelo no parametrico general . . . . . . . . . . 173
6. Regresion m ultiple y modelo aditivo generalizado 175
6.1. Regresion m ultiple . . . . . . . . . . . . . . . . . . . . . . . . 175
6.2. Modelos aditivos . . . . . . . . . . . . . . . . . . . . . . . . . 179
6.3. Regresion projection pursuit . . . . . . . . . . . . . . . . . . . 182
6.4. Modelos aditivos generalizados . . . . . . . . . . . . . . . . . . 183
6.5. Modelos semiparametricos . . . . . . . . . . . . . . . . . . . . 186
iv

INDICE GENERAL
A. Apendice. Algunos conceptos y resultados matematicos 187
Referencias 190
Prefacio
Modelos parametricos versus no parametricos
Sea X variable aleatoria con distribucion de probabilidad dada por la
funcion de distribucion F. Diremos que la v.a. X sigue un modelo pa-
ram

etrico si su distribucion de probabilidad F pertenece a una familia de

distribuciones indexada por un parametro de dimension nita:
X F F

= {F

: R
k
}.
La familia de distribuciones F

recibe el nombre de modelo estad

stico
param

etrico.
Diremos que la v.a. X sigue un modelo estad

stico no param

etrico
si sobre su distribucion F unicamente se suponen algunas condiciones de
regularidad. Algunos ejemplos de estas condiciones son los siguientes:
F es una funcion de distribucion absolutamente continua,
F es simetrica en torno a su mediana,
F tiene funcion de densidad f con dos derivadas continuas.
Las restricciones impuestas sobre F indican que esta distribucion pertenece a
un subconjunto de todas las posibles distribuciones de probabilidad, pero este
subconjunto tiene dimension innita (no se puede indexar por un parametro
de dimension nita).
Metodos no parametricos
Son metodos de inferencia estadstica validos cuando no se hacen hipotesis
parametricas sobre la distribucion de los datos. Distinguiremos dos familias
de metodos. La primera fue desarrollada principalmente en las decadas de
los 40 y 50 del siglo XX, y la segunda en el ultimo tercio de ese siglo.
v
vi PREFACIO
Metodos no parametricos clasicos
Tienen por objetivo hacer inferencia sobre la distribucion de probabilidad
F de X o sobre alguna caracterstica suya que este bien denida sea cual sea
la distribucion F (por ejemplo, la mediana o el rango intercuartlico de F).
Como no se conoce la distribucion F los metodos que se proponen se
basan en estadsticos cuya distribucion en el muestreo no depende de F. Por
ello se conocen como m

etodos libres de la distribuci

on de los da-
tos, o m

etodos de distribuci

on libre (una mala traduccion del termino

distribution-free en ingles).

Estos son los metodos que trataremos en el Captulo 1. Concretamente

nos centraremos en contrastes de hipotesis no parametricos.
Estimacion no parametrica de curvas
Son tecnicas que permiten estimar funciones relacionadas con la distri-
bucion de probabilidad de los datos. Por ejemplo se puede tener interes en
estimar la funcion de distribucion F(x), la funcion de densidad f(x), la tasa
de fallo (x) = f(x)/(1F(x)), la funcion de regresion m(x) = E(Y |X = x)
o la varianza condicional
2
(x) = V (Y |X = x). A estas tecnicas se dedicaran
los restantes captulos.
Captulo 1
Contrastes no parametricos
clasicos
Referencias: Pratt y Gibbons (1981), Gibbons y
Chakraborti (1992), Gibbons (1993a), Gibbons (1993b),
Gibbons (1997), Hollander y Wolfe (1999), Leach (1982)
1.1. Introduccion
En este captulo presentamos algunos de los contrastes de hipotesis no
parametricos clasicos. Todos tienen en com un que no precisan hacer hipotesis
parametricas sobre la distribucion de probabilidad F de los datos, pues se
basan en estadsticos cuya distribucion en el muestreo no depende de F.
Son por tanto contrastes libres de la distribuci

on de los datos
(distrbution-free tests).
Veremos en primer lugar contrastes de bondad de ajuste basados en la
distribucion emprica de los datos. Despues veremos contrastes de localizacion
para una muestra (o para dos muestras apareadas), contrastes que igualdad
de dos muestras, versiones no parametricas de los contrastes ANOVA clasicos
y, por ultimo, medidas no parametricas de la dependencia entre dos variables.
1.2. Contrastes de bondad de ajuste
Nos planteamos el problema de saber si una variable aleatoria sigue o
no una distribucion determinada. Sea X v.a. con funcion de distribucion F
desconocida. Sea F
0
una funcion de distribucion conocida. Se desea contrastar
H
0
: F = F
0
frente a H
1
: F = F
0
.
1
2 CAP

ITULO 1. CONTRASTES NO PARAM

ETRICOS CL

ASICOS
Para ello se dispone de una muestra aleatoria simple (m.a.s.) X
1
, . . . , X
n
de
X. Tambien consideramos las hipotesis alternativas unilaterales H
1
: F(x) >
F
0
(x) para todo x, o H
1
: F(x) < F
0
(x) para todo x.
Vamos a estudiar el contraste de Kolmogorov-Smirnov (existen otras for-
mas de realizar contrastes de bondad de ajuste, por ejemplo los contrastes
de la
2
, basados en la categorizacion de los datos).
El contraste de Kolmogorov-Smirnov se basa en calcular una distancia
entre la funcion de distribucion emprica de los datos, F
n
, y la funcion de
distribucion F
0
postulada bajo H
0
. Recordemos la denicion y propiedades
de la funcion de distribucion emprica.
1.2.1. La funcion de distribucion emprica
Sea la variable aleatoria X con funcion de distribucion F. Consideramos
una muestra aleatoria simple de tama no n de X, es decir, X
1
, . . . , X
n
v.a.i.i.d.
con distribucion dada por F. Sea x
1
, . . . , x
n
una realizacion de esa m.a.s.
Se llama funci

on de distribuci

on emp

rica a la funcion
F
n
(x) =
1
n
#{x
i
x : i = 1 . . . n} =
1
n
n

i=1
I
(,x]
(x
i
),
donde
I
(,x]
(x
i
) =
_
1, si x
i
x
0, si x
i
> x,
que a cada n umero real x le asigna la proporcion de valores observados que
son menores o iguales que x.
Es inmediato comprobar que la funcion F
n
as denida es una funcion de
distribucion:
1. F
n
(x) [0, 1] para todo x R.
2. F
n
es continua por la derecha.
3. F
n
es no decreciente.
4. lm
x
F
n
(x) = 0.
5. lm
x
F
n
(x) = 1.
Concretamente, F
n
es la funcion de distribucion de una variable aleatoria
discreta (que podemos llamar X
e
) que pone masa 1/n en cada uno de los n
puntos x
i
observados:
1.2. CONTRASTES DE BONDAD DE AJUSTE 3
x
i
x
1
x
2
x
n
p
i
= P(X
e
= x
i
) 1/n 1/n 1/n
A la distribucion de X
e
se le llama distribuci

on emp

rica asociada al
conjunto de valores {x
1
, . . . , x
n
}.
Observese que si jamos el valor de x y dejamos variar la muestra, lo que
obtenemos es una variable aleatoria. En efecto, se tiene entonces que
F
n
(x) =
1
n
n

i=1
I
(,x]
(X
i
),
donde
I
(,x]
(X
i
) =
_
1, si X
i
x
0, si X
i
> x
y, por lo tanto, cada termino I
(,x]
(X
i
) es una variable aleatoria de Bernoulli
con probabilidad de exito
p = P(I
(,x]
(X
i
) = 1) = P(X
i
x) = F(x).
De ah se deduce que F
n
es una variable aleatoria y que nF
n
(x) tiene distri-
bucion binomial con parametros n y p = F(x).
De lo anterior se sigue que la funcion de distribucion emprica es un pro-
ceso estocastico: si consideramos un espacio probabilstico (, A, P) donde
estan denidas las sucesiones de variables aleatorias {X
n
}
n1
a partir de las
cuales deniremos la funcion de distribucion emprica, tenemos que
F
n
: (, A, P) (R, B) [0, 1]
(, x) F
n
(x)() =
1
n

n
i=1
I
(,x]
(X
i
()).
Fijado x, F
n
(x)() : (, A, P) [0, 1] es una variable aleatoria. Fijado ,
F
n
()() : R [0, 1] es una funcion de distribucion (en la notacion usual
se omite la dependencia de ). Por lo tanto, la funcion de distribucion
emprica es una funcion de distribucion aleatoria.
El siguiente teorema recoge algunas de las propiedades de la funcion de
distribucion emprica.
Teorema 1.1 Sea {X
n
}
n1
, sucesion de variables aleatorias independientes
e identicamente distribuidas denidas en el espacio de probabilidad (, A, P)
con funcion de distribucion com un F. Se denota por F
n
la funcion de distri-
bucion emprica obtenida de las n primeras variables aleatorias X
1
, . . . , X
n
.
Sea x R. Se verica lo siguiente:
(a) P(F
n
(x) =
j
n
) =
_
n
j
_
F(x)
j
(1 F(x))
nj
, j = 0, . . . , n.
4 CAP

ITULO 1. CONTRASTES NO PARAM

ETRICOS CL

ASICOS
(b) E(F
n
(x)) = F(x), Var (F
n
(x)) = (1/n)F(x)(1 F(x)).
(c) F
n
(x) F(x) casi seguro.
(d)

n(F
n
(x) F(x))
_
F(x)(1 F(x))

D
Z,
donde Z es una variable aleatoria con distribucion normal estandar y
la convergencia es convergencia en distribucion.
Demostracion: Los apartados (a) y (b) son consecuencia inmediata del
hecho de que nF
n
(x) B(n, p = F(x)). Por otro lado, si denimos Y
i
=
I
(,x]
(X
i
), se tiene que F
n
(x) =

Y
n
, la media aritmetica de las variables
aleatorias Y
1
, . . . , Y
n
. As, el apartado (c) es una aplicacion inmediata de
la ley fuerte de los grandes n umeros y el apartado (d) es consecuencia del
teorema central de lmite. 2
El siguiente teorema refuerza el resultado (c) anterior, puesto que arma
que la convergencia de F
n
(x) a F(x) se da uniformemente.
Teorema 1.2 (Teorema de Glivenko-Cantelli) Sea {X
n
}
n1
una suce-
sion de variables aleatorias independientes e identicamente distribuidas de-
nidas en el espacio de probabilidad (, A, P) con funcion de distribucion
com un F. Se denota por F
n
la funcion de distribucion emprica obtenida de
las n primeras variables aleatorias X
1
, . . . , X
n
. Entonces,
sup
xR
|F
n
(x) F(x)| 0 casi seguro.
Demostracion: Presentamos aqu la demostracion que hacen Velez y Garca
(1993), p. 36. (otras demostraciones pueden encontrarse en Garca-Nogales
1998, p. 88, y en Cristobal 1992, p. 66). En el Teorema 1.1 se probo que, por
la ley fuerte de los grandes n umeros, F
n
(x) F(x) casi seguro, es decir,
para cada x R existe A
x
A tal que P(A
x
) = 1 y lm
n
F
n
(x)() = F(x) si
A
x
. Se ha denotado por F
n
(x)() a la funcion de distribucion emprica
obtenida al observar X
1
(), . . . , X
n
(), siendo un elemento del espacio .
De la ley fuerte de los grandes n umeros tambien se sigue (tomando ahora
I
(,x)
en vez de I
(,x]
) que para cada x R, existe B
x
A tal que
P(B
x
) = 1 y lm
n
F
n
(x

)() = F(x

) si B
x
, donde g(x

) denota el
lmite por la izquierda de una funcion g en x.
Para cada n umero natural k, y cada j = 1, . . . , k, se consideran los puntos
x
jk
= mn
_
x R : F(x

)
j
k
F(x)
_
1.2. CONTRASTES DE BONDAD DE AJUSTE 5
y los sucesos de A siguientes:
A
jk
= A
x
jk
= {w : F
n
(x
jk
) F(x
jk
)}
B
jk
= B
x
jk
= {w : F
n
(x

jk
) F(x

jk
)}
D
k
=
k

j=1
(A
jk
B
jk
), D =

k=1
D
k
.
D
k
es el suceso denido por la condicion de que la funcion de distribucion
emprica converja a la teorica para todos los puntos x
jk
(y tambien para los
lmites por la izquierda), para un k jo. D es el suceso en que esto ocurre
simultaneamente para todo k. Seg un la ley fuerte de los grandes n umeros,
P(A
jk
) = P(B
jk
) = 1 para todo j y todo k, luego P(D
k
) = 1 para todo k y,
por tanto, P(D) = 1.
Observese que si x [x
jk
, x
(j+1)k
), por ser F y F
n
funciones de distribu-
cion se tiene que
F(x
jk
) F(x) F(x

(j+1)k
), y F
n
(x
jk
) F
n
(x) F
n
(x

(j+1)k
).
Como ademas F(x

(j+1)k
) F(x
jk
) 1/k,
F
n
(x) F(x) F
n
(x

(j+1)k
) F(x
jk
) F
n
(x

(j+1)k
) F(x

(j+1)k
) +
1
k
y
F
n
(x) F(x) F
n
(x
jk
) F(x

(j+1)k
) F
n
(x
jk
) F(x
jk
)
1
k
con lo cual, si
(k)
n
es la mayor entre todas las diferencias |F
n
(x
jk
) F(x
jk
)|
y |F
n
(x

jk
) F(x

jk
)| (para n y k jos), se tiene que
F
n
(x) F(x)
(k)
n
+
1
k
y F
n
(x) F(x)
(k)
n

1
k
As, para cualquier k IN,
sup
xR
|F
n
(x) F(x)|
(k)
n
+
1
k
.
Observese que si se verica el suceso D, para cualquier k IN y cualquier
> 0, se tiene que
(k)
n
< a partir de un cierto n, de forma que
sup
xR
|F
n
(x) F(x)| < +
1
k
6 CAP

ITULO 1. CONTRASTES NO PARAM

ETRICOS CL

ASICOS
a partir de cierto n. Por lo tanto,
sup
xR
|F
n
(x) F(x)|
n
0
siempre que se verique D. Como P(D) = 1, se sigue que
sup
xR
|F
n
(x) F(x)|
n
0 casi seguro.
2
Ejemplo 1.1
En la gura siguiente se muestra la funcion de distribucion de una variable
aleatoria N(0, 1) y la funcion de distribucion emprica de dos muestras de
esa variable aleatoria una de tama no n = 10 (la mas alejada de la teorica)
y la otra de tama no n = 100. Se aprecia que cuando n crece la proximidad
entre la funcion de distribucion emprica y la teorica es cada vez mayor.
3 2 1 0 1 2 3
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
F.distr. de la N(0,1) y f.distr.emp. de dos muestras (n=10, n=100)
x
F
x
. .
1.2. CONTRASTES DE BONDAD DE AJUSTE 7
1.2.2. El contraste de Kolmogorov-Smirnov
El Teorema de Glivenko-Cantelli da pie a basar el contraste de bondad
de ajuste en el estadstico
D
n
= sup
x
|F
n
(x) F
0
(x)|
que se llama estad

stico bilateral de Kolmogorov-Smirnov. Tam-

bien seran utiles los estad

sticos unilaterales de Kolmogorov-Smirnov:

D
+
n
= sup
x
(F
n
(x) F
0
(x)), D

n
= sup
x
(F
0
(x) F
n
(x))
para los contrastes unilaterales. Bajo H
0
se tiene que estos estadsticos con-
vergen a 0 casi seguro cuando n . Observar que
D
n
= max{D
+
n
, D

n
}.
La siguiente tabla resume la forma de llevar a cabo los contrastes de bondad
de ajuste:
Hipotesis Hipotesis Region crtica
nula alternativa (nivel ) p-valor
F(x) = F
0
(x) F(x) = F
0
(x) D
Obs
n
> D
n,
P(D
n
> D
Obs
n
)
F(x) = F
0
(x) F(x) > F
0
(x) D
+,Obs
n
> D
+
n,
P(D
+
n
> D
+,Obs
n
)
F(x) = F
0
(x) F(x) < F
0
(x) D
,Obs
n
> D

n,
P(D

n
> D
,Obs
n
)
Los valores D
Obs
n
, D
+,Obs
n
y D
,Obs
n
son los valores observados de los estadsti-
cos D
n
, D
+
n
y D

n
, respectivamente. Los valores D
n,
, D
+
n,
y D

n,
son los que
dejan a su derecha una probabilidad en las distribuciones bajo H
0
de D
n
,
D
+
n
y D

n
, respectivamente.
Para encontrar los valores D
n,
, D
+
n,
y D

n,
o calcular los p-valores es
necesario conocer la distribucion de los estadsticos D
n
, D
+
n
y D

n
. Vamos a
estudiar estas distribuciones a continuaci on.
La siguiente proposicion establece que si F
0
es absolutamente continua
y estrctamente creciente los contrastes basados en estos estadsticos son de
distribucion libre.
Proposicion 1.1 Supongamos que F
0
es absolutamente continua y estrcta-
mente creciente. Bajo H
0
la distribucion de D
n
, D
+
n
y D

n
no depende de
F
0
.
Demostracion: Recordar que si F
0
es absolutamente continua y estrcta-
mente creciente, se tienen las siguientes propiedades:
8 CAP

ITULO 1. CONTRASTES NO PARAM

ETRICOS CL

ASICOS
Si X F
0
entonces F
0
(X) U([0, 1]).
Si U U([0, 1]) entonces F
1
0
(U) F
0
.
Observar que la funcion de distribucion emprica puede reescribirse as:
F
n
(x) =
1
n
n

i=1
I
(,x]
(X
i
) =
1
n
n

i=1
I
(,x]
(F
1
0
(U
i
)) =
1
n
n

i=1
I
(,F
0
(x)]
(U
i
) = F
U
n
(F
0
(x)),
donde U
1
, . . . , U
n
es una m.a.s. de una U([0, 1]) y F
U
n
es su funcion de distri-
bucion emprica. As,
D
n
= sup
xR
|F
n
(x) F
0
(x)| = sup
xR
|F
U
n
(F
0
(x)) F
0
(x)| = sup
u[0,1]
|F
U
n
(u) u|,
que es el valor del estadstico de Kolmogorov-Smirnov calculado a partir de
una m.a.s. de una U([0, 1]). Por lo tanto la distribucion de D
n
no depende
de F
0
. Analogos argumentos pueden hacerse para D
+
n
y D

n
. 2
Distribuci

on exacta.
La distribucion exacta de D
n
, D
+
n
y D

n
puede calcularse para cualquier ta-
ma no muestral n utilizando tecnicas estandar de calculos de probabilidades
a partir de la funcion de densidad conjunta de la variable aleatoria multi-
variante (U
1
, . . . , U
n
). Tambien pueden aproximarse esas distribuciones me-
diante simulaci on. Estas distribuciones estan tabuladas en muchos libros de
estadstica (ver Gibbons 1997 o Hollander y Wolfe 1999, por ejemplo).
Observese que la distribucion de D

n
coincide con la de D
+
n
para cualquier
tama no muestral.
Distribuci

on asint

otica.
Si el tama no muestrral n es grande (en la practica, n 30 es suciente),
la distribucion de los estadsticos D
n
, D
+
n
y D

n
bajo H
0
puede aproximarse
seg un indica la sigiente proposicion.
Proposicion 1.2 1. Para z > 0
lm
n
P(

nD
n
z) = 1 2

i=1
(1)
i1
e
2i
2
z
2
.
2. Para z > 0
lm
n
P(

nD
+
n
z) = 1 e
2z
2
.
1.3. CONTRASTES DE LOCALIZACI

ON 9
3. Para tama nos muestrales n grandes
4n(D
+
n
)
2

2
2
.
4. Para tama nos muestrales n grandes y = 0,05
D
n,

1,36

n
, D
+
n,
= D

n,

1,22

n
.
1.2.3. Bondad de ajuste a un modelo parametrico.
Se trata de contrastar
H
0
: F = F

para alg un , frente a H

1
: F = F

para ning un .
Sea

el estimador maximo verosmil de calculado a partir de la muestra
observada. El estadstico del contraste de Kolmogorov-Smirnov queda modi-
cado como sigue:

D
n
= sup
xR
|F
n
(x) F

(x)|.
La distribucion de este estadstico no coincide con la de D
n
. Ademas esa dis-
tribucion depende de la familia parametrica que se especica en la hipotesis
nula. Algunos casos concretos estan tabulados (por ejemplo, en el caso de
contrastar normalidad este test se conoce como test de Lilliefors).
1.3. Contrastes de localizacion en una mues-
tra o en dos muestras apareadas
En sta seccion nos planteamos contrastar si la mediana de una muestra es
un valor dado, y si la diferencia entre los datos de dos muestras tiene mediana
igual a 0.
Sea X
1
, . . . , X
n
m.a.s. de X F. Sea M = mediana(F), desconocida, y
sea M
0
un valor conocido. Se desea contrastar
H
0
: M = M
0
frente a H
1
: M = M
0
(o H
1
: M > M
0
, o H
1
: M < M
0
).
En el caso de datos apareados, (X
1
, Y
1
), . . . , (X
n
, Y
n
) es una m.a.s. de (X, Y )
y se desea contrastar la hipotesis nula
H
0
: M
D
= M
0
,
donde M
D
es la mediana de la variable diferencia D = X Y . En este caso
el valor M
0
que se contrasta usualmente es M
0
= 0.
10 CAP

ITULO 1. CONTRASTES NO PARAM

ETRICOS CL

ASICOS
Ejemplo 1.2
Un grupo de 7 pacientes con temor al vomito siguen un tratamiento que
consiste en la exposicion repetida a una pelcula de 4 minutos de duracion en
la que aparecen escenas de gente vomitando. El efecto que se desea obtener
con esta terapia es la reduccion de la ansiedad causada por el vomito o
la sensacion de nauseas. Cada paciente paso un test, antes y despues del
tratamiento, que evaluaba su sensacion de temor (valores altos indican mas
temor). Los resultados de estos tests estan recogidos en la tabla siguiente:
Paciente Antes (X) Despues (Y ) Diferencia (D) Signo de D
1 10.60 7.15 3.45 +
2 7.90 9.36 -1.46 -
3 12.40 6.27 6.13 +
4 16.80 7.19 9.61 +
5 13.20 5.45 7.75 +
6 14.70 6.21 8.49 +
7 18.34 8.00 10.34 +
A la vista de los datos, puede armarse que el tratamiento tuvo los efec-
tos deseados?
Si el tratamiento no tuviese efectos, se esperara que las diferencias entre X
e Y fuesen positivas o negativas con igual probabilidad (H
0
: M
D
= 0). Pero
vemos que solo hay 1 diferencia negativa, mientras que 6 son positivas. Es
esta evidencia suciente para rechazar H
0
?
Si H
0
es cierta, ese resultado es tan probable como sacar 6 caras en 7 lanza-
mientos de una moneda. De hecho la probabilidad de obtener un resultado
tan o menos favorable a H
0
es
_
1
2
_
7
+ 7
_
1
2
_
6
1
2
= 0,0625,
que sera el p-valor del contraste de H
0
basado en el n umero de signos posi-
tivos y negativos. Por lo tanto, no podemos rechazar H
0
a nivel = 0,05.
. .
1.3.1. El test del signo
El ejemplo anterior es una aplicacion de un contraste general conocido
como el test del signo, que formalmente es como sigue.
Dada la muestra X
1
, . . . , X
n
de X F, que se supone absolutamente
continua y con mediana M, y planteada la hipotesis nula H
0
: M = M
0
,
1.3. CONTRASTES DE LOCALIZACI

ON 11
se asigna un signo + a cada observaci on X
i
> M
0
, y un signo - si X
i
< M
0
.
Se usa como estadstico del contraste
S = n umero de signos +.
Observese que bajo H
0
Y
i
= I{X
i
> M
0
} Bernoulli(p = 0,5)
y que
S =
n

i=1
Y
i
B(n, p = 0,5),
con lo que queda perfectamente determinada la distribuci

on exacta del
estadstico del contraste para cualquier tama no muestral. Observese que esta
distribucion es independiente de la distribucion F de los datos: el test del
signo es de distribuci

on libre.
Para n grande (n > 20 es suciente) se puede aproximar la distribucion
exacta de S por la distribucion normal de parametros = n/2 y
2
= n/4.
Es recomendable usar una correccion por continuidad en esta aproximacion
asintotica:
P(S r) P
_
Z
r n/2 + 0,5
_
n/4
_
,
donde Z N(0, 1).
La siguiente tabla resume la forma de llevar a cabo el test del signo:
Hipotesis Hipotesis
nula alternativa Rechazar H
0
si ... p-valor
M = M
0
M > M
0
S
Obs
grande P(S S
Obs
)
M = M
0
M < M
0
S
Obs
peque no P(S S
Obs
)
M = M
0
M = M
0
S
Obs
lejos de n/2 2 mn{1/2, P(S S
Obs
),
P(S S
Obs
)}
Vale la pena mencionar que el test del signo puede adaptarse trivialmente
para contrastar si el cuantil p de la distribucion F, al que llamaremos Q
p
(F),
es igual a un valor dado Q
0
frente a que es ditinto, mayor o menor que Q
0
.
El caso de la mediana corresponde a p = 0,5.
Por ultimo se nalemos que en el caso (muy improbable, al suponerse F
absolutamente continua) de que alguna observaci on sea igual a M
0
, se elimina
esta y se reduce el tama no muestral n consecuentemente.
12 CAP

ITULO 1. CONTRASTES NO PARAM

ETRICOS CL

ASICOS
1.3.2. Test de Wilcoxon de los rangos signados
El test del signo solo utiliza la informacion de si cada dato es mayor o
menor que la mediana M
0
propuesta bajo H
0
, pero desaprovecha la informa-
cion relativa a la magnitud de la diferencia entre las observaciones y M
0
. El
test de Wilcoxon de los rangos signados s tiene en cuenta esa informacion.
Para poder aplicarlo se requiere una hipotesis adicional: la distribucion F de
X ha de ser sim

etrica alrededor de su mediana M.

La hipotesis de simetra de X alrededor de su mediana permite reexpresar
esta variable como
X M + (2Z 1)A,
donde Z Bernoulli(1/2), A |X M|, y Z y A son variables aleatorias
independientes. Observar que (2Z 1) toma los valores 1 y 1 con probabi-
lidades 1/2.
Dada la muestra X
1
, . . . , X
n
de X F, que se supone absolutamente
continua y sim

etrica alrededor de su mediana M, y planteada la hipotesis

nula H
0
: M = M
0
, se descompone la informacion contenida en cada X
i
en
dos partes:
Se asigna un signo + a cada observacion X
i
> M
0
, y un signo - si
X
i
< M
0
, como en el test del signo. De forma equivalente se puede
denir Z
i
= I{X
i
> M
0
}.
Se calcula A
i
= |X
i
M
0
|.
Bajo la hipotesis nula, A
i
y Z
i
son independientes y, por lo tanto, es como
si los signos + y - se hubiesen asignado aleatoriamente, sin guardar relacion
con el tama no de A
i
. Por el contrario, si H
0
es falsa (para jar ideas podemos
suponer que M > M
0
) los signos + tenderan a acompa nar a valores grandes
de A
i
y los signos - corresponderan a valores peque nos de A
i
.
As, tiene sentido basar el contraste de H
0
en los siguientes estadsticos:
T
+
, denido como la suma de los rangos de los A
i
a los que corres-
ponden signos +.
T

, denido como la suma de los rangos de los A

i
a los que corres-
ponden signos -.
En estas deniciones, el rango de un valor A
i
= |X
i
M
0
| es el lugar
que ocupa este valor en la lista ordenada de los valores A
1
, . . . , A
n
. Mas
formalmente, sea
A
(1)
< A
(2)
< < A
(n)
1.3. CONTRASTES DE LOCALIZACI

ON 13
la muestra A
1
, . . . , A
n
ordenada. El rango de A
i
es R(i) = j si y solo si
A
(j)
= A
i
. Diremos tambien que i = R
1
(j).
Con esta notacion,
T
+
=
n

i=1
R(i)Z
i
=
n

j=1
jZ
R
1
(j)
,
T

=
n

i=1
R(i)(1 Z
i
) =
n

j=1
j(1 Z
R
1
(j)
),
Observar que la suma de T
+
y T

es una cantidad ja:

T
+
+T

=
n

j=1
j =
n(n + 1)
2
.
Por lo tanto basta usar uno de ellos (T
+
por ejemplo) como estadstico del
contraste.
Por otra parte, si B
1
, . . . , B
n
es una m.a.s. de una Bernoulli(p = 1/2),
entonces bajo H
0
T
+

j=1
jB
j
,
lo que implica, por un lado, que la distribucion de T
+
bajo H
0
no depende de
la distribucion desconocida F (el contraste basado en T
+
es de distribuci

on
libre) y, por el otro, que la distribucion exacta de T
+
es perfectamente
conocida: es una v.a. discreta que puede tomar los valores naturales del 0 al
n(n + 1)/2, y la probabilidad de que tome uno de esos valores t es
P(T
+
= t) =
n(t)
2
n
,
donde n(t) es el n umero de formas de asignar 0 y 1 a las variables B
1
, . . . , B
n
de tal forma que T
+
= T
+
(B
1
, . . . , B
n
) = t. El denominador 2
n
es el n umero
de asignaciones equiprobables de 0 y 1 a los B
i
. Esta distribucion esta tabu-
lada en muchos libros.
Observar que
E(T
+
) =
n

j=1
j
1
2
=
n(n + 1)
4
, V (T
+
) =
n

j=1
j
2
1
4
=
n(n + 1)(2n + 1)
24
.
Para n grande la distribucion de T
+
se puede aproximar por una normal
con esos valores como esperanza y varianza. Conviene hacer correccion por
continuidad.
14 CAP

ITULO 1. CONTRASTES NO PARAM

ETRICOS CL

ASICOS
Si se producen empates en los valores A
i
(cosa poco probable, dado que
se supone que F es absolutamente continua) se asigna a cada uno de los
valores empatados el promedio de los rangos que tendran si no hubiese habido
empates.
La siguiente tabla resume la forma de llevar a cabo el test de los rangos
signados de Wilcoxon:
Hipotesis Hipotesis
nula alternativa Rechazar H
0
si ... p-valor
M = M
0
M > M
0
T
+
Obs
grande P(T
+
T
+
Obs
)
M = M
0
M < M
0
T
+
Obs
peque no P(T
+
T
+
Obs
)
M = M
0
M = M
0
T
+
Obs
lejos 2 mn{1/2, P(T
+
T
+
Obs
),
de n(n + 1)/4 P(T
+
T
+
Obs
)}
Ejemplo 1.2, pagina 10. Continuacion. En el ejemplo de los pacientes
con temor al vomito, contrastaremos
H
0
: M
D
= 0 frente a H
1
: M
D
> 0,
donde M
D
es la mediana de la diferencia de puntuaciones Antes menos Des-
pues en los tests que miden ansiedad. Hemos visto antes que el test del signo
no encontraba evidencia suciente para rechazar la hipotesis nula en favor de
la alternativa. Veamos que ocurre si aplicamos el test de los rangos signados
de Wilcoxon.
La tabla siguiente recoge los calculos necesarios:
Antes Despues D
i
= Signo Rango
Paciente (X
i
) (Y
i
) X
i
Y
i
de D
i
A
i
= |D
i
| R
i
1 10.60 7.15 3.45 + 3.45 2
2 7.90 9.36 -1.46 - 1.46 1
3 12.40 6.27 6.13 + 6.13 3
4 16.80 7.19 9.61 + 9.61 6
5 13.20 5.45 7.75 + 7.75 4
6 14.70 6.21 8.49 + 8.49 5
7 18.34 8.00 10.34 + 10.34 7
As, el estadstico del test de Wilcoxon es
T
+
Obs
= 2 + 3 + 6 + 4 + 5 + 7 = 27,
1.4. COMPARACI

ON DE DOS MUESTRAS INDEPENDIENTES 15

mientras que T

Obs
= 1. El p-valor correspondiente a ese valor se determina
usando la tabla de la distribucion de T
+
. Para n = 7,
P(T
+
27) = 0,016
por lo que se rechaza H
0
a nivel = 0,05.
Observar que en este caso podemos calcular ese p-valor sin necesidad de
recurrir a las tablas:
P(T
+
27) = P(T
+
= 27) + P(T
+
= 28) =
n(27) +n(28)
2
7
=
2
2
7
=
1
64
= 0,015625 0,016.
Hemos usado que n(27) = n(28) = 1 puesto que unicamente las congura-
ciones
(+ + + + + +) y (+ + + + + + +)
dan lugar a valores del estadstico T
+
de 27 y 28, respectivamente.
. .
1.4. Comparacion de dos muestras indepen-
dientes
En esta seccion nos planteamos contrastar si dos variables aleatorias tie-
nen la misma distribucion. Sea X
1
, . . . , X
m
m.a.s. de X F
X
y sea Y
1
, . . . , Y
n
m.a.s. de Y F
Y
, muestras independientes una de otra. Se supone que F
X
y F
Y
son absolutamente continuas. Se desea contrastar
H
0
: F
X
(x) = F
Y
(x) para todo x R
frente a
H
1
: F
X
(x) = F
Y
(x) para alg un x R,
o
H
1
: F
X
(x) > F
Y
(x) para todo x R,
o
H
1
: F
X
(x) < F
Y
(x) para todo x R.
Veremos en primer lugar un test basado en las funciones de distribucion
empricas. Despues, se hara la hipotesis adicional de que F
X
y F
Y
a lo sumo
dieren en su mediana y se presentara un contraste de igualdad de medianas.
16 CAP

ITULO 1. CONTRASTES NO PARAM

ETRICOS CL

ASICOS
1.4.1. Test de Kolmogorov-Smirnov para dos muestras
Sean F
X,m
y F
Y,n
las funciones de distribucion empricas de ambas mues-
tras. Los estadsticos del contraste de Kolmogorov-Smirnov para dos muestras
son estos:
D
m,n
= sup
x
|F
X,m
(x) F
Y,n
(x)|,
D
+
m,n
= sup
x
(F
X,m
(x) F
Y,n
(x)), D

m,n
= sup
x
(F
Y,n
(x) F
X,m
(x)).
La siguiente tabla resume la forma de llevar a cabo los contrastes de
igualdad de distribuciones:
Hipotesis Hipotesis Region crtica
nula alternativa (nivel ) p-valor
F
X
(x) = F
Y
(x) F
X
(x) = F
Y
(x) D
Obs
m,n
> D
m,n,
P(D
m,n
> D
Obs
m,n
)
F
X
(x) = F
Y
(x) F
X
(x) > F
Y
(x) D
+,Obs
m,n
> D
+
m,n,
P(D
+
m,n
> D
+,Obs
m,n
)
F
X
(x) = F
Y
(x) F
X
(x) < F
Y
(x) D
,Obs
m,n
> D

m,n,
P(D

m,n
> D
,Obs
m,n
)
Para encontrar los valores D
m,n,
, D
+
m,n,
y D

m,n,
o calcular los p-valores
es necesario conocer la distribucion de los estadsticos D
m,n
, D
+
m,n
y D

m,n
.
Veamos que bajo H
0
, y con F
X
= F
Y
= F, esas distribuciones no depen-
den de la verdadera distribucion F desconocida.
Proposicion 1.3 Supongamos que H
0
es cierta, es decir que F
X
= F
Y
= F,
y que F es absolutamente continua. Entonces las distribuciones de D
m,n
,
D
+
m,n
y D

m,n
no dependen de F.
Demostracion: El argumento es analogo al que se siguio en la Proposicion
1.1. Razonando como all, se prueba que
F
X,m
(x) = F
U
m
(F(x)), F
Y,n
(x) = F
V
n
(F(x)),
donde F
U
m
es la funcion de distribucion emprica de U
1
, . . . , U
m
, una m.a.s.
de una U([0, 1]), y F
V
n
es la funcion de distribucion emprica de V
1
, . . . , V
n
,
otra m.a.s. de la U([0, 1]) independiente de la anterior. As,
D
m,n
= sup
xR
|F
X,m
(x) F
Y,n
(x)| = sup
xR
|F
U
m
(F(x)) F
V
n
(F(x))| =
sup
u[0,1]
|F
U
m
(u) F
V
n
(u)|,
que es el valor del estadstico de Kolmogorov-Smirnov para dos muestras
calculado a partir de dos m.a.s. independientes de una U([0, 1]). Por lo tanto
1.4. COMPARACI

ON DE DOS MUESTRAS INDEPENDIENTES 17

la distribucion de D
m,n
no depende de F
0
. Analogos argumentos pueden
hacerse para D
+
m,n
y D

m,n
. 2
Las distribuciones exactas de los estadsticos de Kolmogorov-Smirnov
para dos muestras se pueden calcular para cualquier tama no muestral (o pue-
den aproximarse mediante simulaci on) y estan tabuladas en las referencias
indicadas al principio del captulo.
Observese que la distribucion de D

m,n
coincide con la de D
+
n,m
para cua-
lesquiera tama nos muestrales m y n. Tambien se puede probar que estas
coinciden con las distribuciones de D
+
m,n
y D

n,m
.
En cuanto a la distribuci

on asint

otica de los estimadores, esta viene

dada en la siguiente proposicion.
Proposicion 1.4 1. Para z > 0
lm
m,n
P(
_
mn
m+n
D
m,n
z) = 1 2

i=1
(1)
i1
e
2i
2
z
2
.
2. Para z > 0
lm
m,n
P(
_
mn
m+n
D
+
m,n
z) = 1 e
2z
2
.
3. Para tama nos muestrales m, n grandes
4
mn
m+n
(D
+
m,n
)
2

2
2
.
4. Para tama nos muestrales n grandes y = 0,05
D
m,n,
1,36
_
m+n
mn
, D
+
m,n,
= D

m,n,
1,22
_
m+n
mn
.
1.4.2. Test de Mann-Whitney-Wilcoxon
Supongamos ahora que las distribuciones de X e Y solo pueden diferir en
su mediana. Es decir,
X = M
X
+
X
, Y = M
Y
+
Y
,
donde
X
F
0
,
Y
F
0
y F
0
es una distribucion con mediana 0. En este
contexto el contraste de igualdad de distribuciones se reduce a contrastar
igualdad de medianas:
H
0
: M
X
= M
Y
frente a H
1
: M
X
= M
Y
(o H
1
: M
X
> M
Y
, o H
1
: M
X
< M
Y
).
18 CAP

ITULO 1. CONTRASTES NO PARAM

ETRICOS CL

ASICOS
Sean X
1
, . . . , X
m
e Y
1
, . . . , Y
n
dos m.a.s. independientes de X e Y , respecti-
vamente.
Bajo la hipotesis nula, las m+n observaciones forman una m.a.s. de una
unica distribucion y su etiquetado como una X o una Y es totalmente
aleatorio. Por tanto, si ordenamos los (m+n) datos y les asignamos el rango
(posicion) correspondiente en la muestra conjunta, la suma T
X
de los rangos
de las observaciones etiquetadas con X (por ejemplo) no sera ni muy grande
ni muy peque no si H
0
es cierta, mientras que si realmente M
X
> M
Y
entonces
esta suma T
X
tendera a ser grande, y si M
X
< M
Y
entonces T
X
sera en
general peque no.
Ese estadstico T
X
es el propuesto por Wilcoxon para contrastar la igual-
dad de medianas. Mas formalmente, T
X
es
T
X
=
m+n

j=1
jI
j
,
donde
I
j
=
_
1 si la observaci on con rango j proviene de la muestra de X,
0 si la observaci on con rango j proviene de la muestra de Y .
El hecho de basarse en los rangos de los datos hace que su distribucion bajo
H
0
no dependa de la verdadera distribucion, com un a todos los datos en ese
caso.
La distribuci

on exacta puede calcularse para cualesquiera valores m

y n y esta tabulada en las referencias del captulo. Se puede probar que
E(T
X
) =
m(m+n + 1)
2
, V (T
X
) =
mn(m+n + 1)
12
.
La distribuci

on asint

otica de T
X
es normal con esos parametros.
Un estadstico alternativo a T
X
fue propuesto por Mann y Whitney. Se
trata de
U =
m

i=1
n

j=1
U
ij
, donde U
ij
=
_
1 si Y
j
< X
i
,
0 si Y
j
> X
i
.
Se puede probar que
U = T
X
m(m + 1)/2,
por lo que es equivalente basar el contraste en T
X
o en U. Por eso el test
recibe el nombre de Mann-Whitney-Wilcoxon.
La siguiente tabla resume la forma de llevar a cabo el contraste:
1.5. COMPARACI

ON DE M

AS DE DOS MUESTRAS 19
Hipotesis Hipotesis
nula alternativa Rechazar H
0
si ... p-valor
M
X
= M
Y
M
X
> M
Y
T
X,Obs
grande P(T
X
T
X,Obs
)
M
X
= M
Y
M
X
< M
Y
T
X,Obs
peque no P(T
X
T
X,Obs
)
M
X
= M
Y
M
X
= M
Y
T
X,Obs
lejos de 2 mn{1/2, P(T
X
T
X,Obs
),
m(m+n + 1)/2 P(T
X
T
X,Obs
)}
1.5. Comparacion de mas de dos muestras
1.5.1. Muestras independientes: Test de Kruskal-Wallis
En esta seccion se extiende al caso de mas de dos muestras el test de
Mann-Whitney-Wilcoxon para comparar medianas en dos muestras indepen-
dientes.
Sean X
1
, . . . , X
k
k variables aleatorias cuyas distribuciones pertenecen a
la familia de localizacion de la distribucion F con mediana 0. Es decir,
X
j
M
j
+
j
, j = 1, . . . , k,
donde
j
F y M
j
R es la mediana de X
j
, para j = 1, . . . , k. Se desea
contrastar
H
0
: M
1
= = M
k
frente a H
1
: No todas las medianas son iguales.
Para ello se observa una m.a.s. de longitud n
j
de cada X
j
, para j = 1, . . . , k.
Bajo H
0
las N = n
1
+ + n
k
observaciones forman una m.a.s. de una
unica distribucion y su pertenencia a una muestra u otra de las k posibles
es totalmente aleatoria. Por lo tanto si se asigna a cada observacion el ran-
go (posicion) que tiene en la muestra de los N datos ordenados de menor a
mayor, se tiene que bajo H
0
estos rangos corresponden a cada una de las k
muestras de forma aleatoria. Se espera por tanto que los rangos correspon-
dientes a cada muestra esten situados en torno al valor esperado del rango
de una observaci on cualquiera, que es (N + 1)/2.
Sea R
j
la suma de los rangos correspondientes a las n
j
observaciones de
la muestra j-esima, y sea R
j
= R
j
/n
j
el valor medio de los rangos en esa
muestra. Bajo H
0
se espera que R
j
sea proximo a (N + 1)/2, para todo
j. Por contra, si H
0
es falsa, las muestras correspondientes a poblaciones
con mediana M
j
peque nas (respectivamente, grandes) tenderan a concentrar
valores bajos (respectivamente, altos) de los rangos. Es decir, si H
0
es falsa
R
j
se situara lejos de (N +1)/2 para algunas de las muestras (o quizas para
todas ellas).
20 CAP

ITULO 1. CONTRASTES NO PARAM

ETRICOS CL

ASICOS
El estadstico del test de Kruskal-Wallis para contrastar H
0
frente a H
1
es
Q =

k
j=1
n
j
_
R
j

N+1
2
_
2
N(N+1)
12
=
12
N(N + 1)
k

j=1
R
2
j
n
j
3(N + 1).
Su distribuci

on exacta no depende de la verdadera distribucion F que

dene las v.a. X
j
, porque solo se usa la informacion de las posiciones que
ocupan los datos, y estas posiciones seran las mismas si transformasemos
los datos mediante F(x) para obtener muestras de la U([0, 1]). El calculo de
esta distribucion exacta se lleva a cabo teniedo en cuenta que bajo H
0
la
asignacion de rangos a los N datos es equivalente a asignarles aleatoriamente
una de las N! permutaciones de los n umeros 1, . . . , N. La aproximaci

on
asint

otica a esta distribucion es esta:

Q
2
k1
si mn
j
{n
j
} es grande.
Observese que el test de Kruskal-Wallis es la version no parametrica del
contraste de ausencia de efectos en un modelo ANOVA unifactorial.
1.5.2. Muestras relacionadas: Test de Friedman
En esta seccion se presenta un test no parametrico que corresponde al
contraste ANOVA de ausencia de efectos de un tratamiento en un dise no por
bloques completamente aleatorizado. Es decir, se trata de un dise no con dos
factores, uno de los cuales es el factor de interes (el tratamiento, con dos o
mas niveles) y el otro (el bloque) recoge las diferencias controlables entre los
individuos (por ejemplo, diferente instrumental de medida, diferente centro
de experimentaci on, etc.). Nos centraremos en el caso en que haya una unica
observacion por celda (cruce de factores).
Se tienen N = BT observaciones independientes, cada una de ellas con
distribucion dada por
X
ij
= +
i
+
j
+
ij
, i = 1, . . . , B, j = 1, . . . , T,
donde las variables
ij
son una m.a.s. de una distribucion F absolutamente
continua con mediana 0. Se desea contrastar que el tratamiento no tiene
efecto:
H
0
:
1
= =
T
frente a la alternativa de que no todos los
j
son iguales.
El test de Friedman utiliza los rangos de las observaciones ordenadas
dentro de cada bloque. Bajo H
0
la ordenacion de los datos en cada bloque
1.6. MEDIDA DE LA DEPENDENCIA 21
es una permutaci on aleatoria de los n umeros 1, . . . , T, y por tanto la suma
en toda la tabla de los rangos asignados a cada tratamiento tendera a ser
similar para todos los tratamientos. El valor esperado de esta suma es
B
T(T+1)
2
T
=
B(T + 1)
2
.
As, el estadstico del contraste es funcion de las diferencias entre las sumas
de rangos observadas en los tratamientos R
1
, . . . , R
T
y B(T + 1)/2. Concre-
tamente, el estadstico del test de Friedman es
S =
12
BT(T + 1)
T

i=1
_
R
i

B(T + 1)
2
_
2
=
12
BT(T + 1)
T

i=1
R
2
i
3B(T + 1).
Su distribuci

on exacta bajo H
0
no depende de la distribucion F desco-
nocida, ni de los valores ,
i
o
j
(iguales estos ultimos bajo H
0
). El calculo
de la distribucion exacta se realiza teniendo en cuenta que cada asignacion
de rangos es una de las (T!)
B
equiprobables. Asint

oticamente,
S
2
T1
si B es grande.
1.6. Medida de la dependencia
Problema: Sea (X
1
, Y
1
), . . . , (X
n
, Y
n
) una m.a.s. de la v.a. bivariante
(X, Y ) absolutamente continua, cuya distribucion conjunta F
XY
es descono-
cida. Se desea cuanticar el grado de dependencia de las variables X e Y .
Tambien se quiere contrastar
H
0
: X, Y son independientes, frente a H
1
: X, Y no son independientes.
El coeciente de correlacion usual (tambien denominado de Pearson) es
la medida de dependencia mas usada. En el caso de normalidad conjunta,
hay independencia si y solo si este coeciente es igual a 0. No obstante, la
distribucion en el muestreo del coeciente de correlacion de Pearson depende
de la verdadera distribucion de los datos y es en general desconocida (incluso
para el caso de normalidad), lo que fuerza al uso de aproximaciones asint oti-
cas. Por otra parte, el coeciente de correlacion de Pearson no es invariante
frente a transformaciones monotonas de los datos.
En esta seccion se presentan dos medidas no parametricas de asocia-
cion, cuya distribucion bajo la hipotesis de independencia no depende de las
distribuciones marginales de X e Y . Ademas su distribuci

on exacta es
conocida para todo tama no muestral n.
22 CAP

ITULO 1. CONTRASTES NO PARAM

ETRICOS CL

ASICOS
1.6.1. Coeciente de Kendall
Sean (X
1
, Y
1
) y (X
2
, Y
2
) dos observaciones independientes de (X, Y ), v.a.
absolutamente continua. Se denen la probabilidad de concordancia como

C
= P(X
1
< X
2
, Y
1
< Y
2
)+P(X
1
> X
2
, Y
1
> Y
2
) = P((X
1
X
2
)(Y
1
Y
2
) > 0)
y la probabilidad de discrepancia como

D
= P(X
1
< X
2
, Y
1
> Y
2
)+P(X
1
> X
2
, Y
1
< Y
2
) = P((X
1
X
2
)(Y
1
Y
2
) < 0).
Por ser (X, Y ) absolutamente continua se tiene que

C
+
D
= 1.
En el caso de que X e Y sean independientes se tiene que

C
=
D
=
1
2
.
Se dene el coeficiente de Kendall (poblacional) como
=
C

D
.
La letra griega se lee tau. Este coeciente tiene las siguientes propiedades:
[1, 1] y toma los valores 1 o -1 solo en el caso de relacion funcional
perfecta y monotona entre X e Y .
Si X e Y son independientes entonces = 0. El recproco no es cierto
en general.
Si (X, Y ) es normal bivariante con coeciente de correlacion de Pearson
, entonces
=
2

arcsin().
Por lo tanto, bajo normalidad independencia equivale a que sea igual
a 0.
Se dene el coeficiente
n
de Kendall (muestral) como el siguiente
estimador insesgado de :

n
=
1
_
n
2
_

i<j
A
ij
,
donde A
ij
= signo(X
i
X
j
) signo(Y
i
Y
j
).
Propiedades de
n
son las siguientes:
1.6. MEDIDA DE LA DEPENDENCIA 23
1.
n
[1, 1] y toma los valores 1 o -1 solo en el caso de que las dos
muestras esten ordenadas de la misma manera.
2.
n
solo depende de de los rangos de las observaciones, y no de sus
magnitudes.
3. E(
n
) = .
4. V (
n
) 0 cuando n .
5.
n
en probabilidad cuando n .
6. Bajo H
0
(independencia) la distribuci

on exacta de
n
es simetrica
y no depende de las distribuciones marginales de X e Y .
7. Bajo H
0
la distribuci

on asint

otica de
n
es la siguiente: cuando n
tiende a innito
3
_
n(n 1)
_
2(2n + 5)

n
N(0, 1) en distribucion.
El estadstico
n
sirve para contrastar independencia:
_
H
0
: X, Y son independientes,
H
1
:
XY
= 0 (o H
1
:
XY
< 0, o H
1
:
XY
> 0).
La siguiente tabla recoge como llevar a cabo el contraste:
Hipotesis Hipotesis
nula alternativa Rechazar H
0
si ... p-valor
X e Y indep.
XY
= 0 |
n,Obs
| grande 2P(
n
|
n,Obs
|)
X e Y indep.
XY
> 0
n,Obs
grande P(
n

n,Obs
)
X e Y indep.
XY
< 0
n,Obs
peque no P(
n

n,Obs
)
1.6.2. Coeciente de correlacion de rangos de Spear-
man
Sea (X
1
, Y
1
), . . . , (X
n
, Y
n
) una m.a.s. de la v.a. bivariante (X, Y ) abso-
lutamente continua. A cada observacion X
i
le asignamos su rango R
i
en
la muestra de las Xs ordenadas, y a la Y
i
le asignamos su rango S
i
en la
muestra ordenada de las Y s. A partir de ahora trabajaremos con la muestra
bivariante de los rangos: (R
1
, S
1
), . . . , (R
n
, S
n
).
24 CAP

ITULO 1. CONTRASTES NO PARAM

ETRICOS CL

ASICOS
El coeciente de correlacion de rangos de Spearman es el coeciente de
correlacion usual calculado con las muestras de los rangos (R
i
, S
i
):
R =

n
i=1
(R
i

R)(S
i

S)
_
(

n
i=1
(R
i

R)
2
)(

n
i=1
(S
i

S)
2
)
.
Es facil probar que los valores medios

R y

S valen (n+1)/2 y que las varianzas
del denominador son
n

i=1
(R
i

R)
2
=
n

i=1
(S
i

S)
2
=
n(n
2
1)
12
.
Por su parte el numerador se puede escribir como

n
i=1
R
i
S
i
n(n + 1)
2
/4.
As, el coeciente R tiene esta expresion alternativa:
12
n(n
2
1)
n

i=1
R
i
S
i
3
n + 1
n 1
.
Algunas de las propiedades de R son las siguientes:
1. R [1, 1] y toma los valores 1 o -1 solo en el caso de que las dos
muestras esten ordenadas de la misma manera.
2. R solo depende de de los rangos de las observaciones, y no de sus
magnitudes.
3. Bajo H
0
(independencia) la distribuci

on exacta de R es simetrica
y no depende de las distribuciones marginales de X e Y .
4. Bajo H
0
se tiene que E(R) = 0 y V (R) = 1/(n 1).
5. Bajo H
0
la distribuci

on asint

otica de R es la siguiente: cuando n

tiende a innito

n 1R N(0, 1) en distribucion.
El estadstico R sirve para contrastar independencia:
H
0
: X, Y son independientes, frente a H
1
: X, Y no son independientes
(o H
1
: X, Y estan relacionados positivamente, o H
1
: X, Y estan relacionados
negativamente.) La siguiente tabla recoge como llevar a cabo el contraste:
1.7. COMENTARIOS FINALES 25
Hipotesis Hipotesis
nula alternativa Rechazar H
0
si ... p-valor
X e Y indep. X, Y relacionados |R
Obs
| grande 2P(R |R
Obs
|)
X e Y indep. X, Y relac. posit. R
Obs
grande P(R R
Obs
)
X e Y indep. X, Y relac. negat. R
Obs
peque no P(R R
Obs
)
Se nalemos por ultimo que la aproximacion de R (estandarizado) a la
distribucion normal estandar es mas lenta que la de
n
(centrado y estanda-
rizado). Por otro lado,
n
es un estimador insesgado de la cantidad , que
tiene una interpretacion clara, mientras que no existe ning un parametro po-
blacional que sea estimado por el coeciente de correlacion de Spearman R.
Estos motivos hacen mas atractivo el uso del coeciente
n
que el de R.
1.7. Comentarios nales
Empates. Los metodos que hemos visto requieren la hipotesis de continui-
dad absoluta en la distribucion de las variables aleatorias observadas.
Por lo tanto, no contemplan la posibilidad de que haya empates entre
datos, lo cual es relevante especialmente en aquellos que se basan en
rangos. En la practica si el n umero de empates es peque no lo que se
suele hacer es asignar a los datos empatados el rango promedio que
tendran si no hubiese habido empate (guardando siempre el orden con
respecto a las restantes observaciones). De todos modos, existen ver-
siones de los estadsticos que permiten empates entre observaciones y
formas de hacer inferencia exacta en estas circunstancias. Ver Gibbons
(1993a) y Gibbons (1993b), por ejemplo.
Correccion por continuidad. En las aproximaciones asint oticas de las dis-
tribuciones de estadsticos que solo toman valores naturales es conve-
niente hacer siempre la correccion por continuidad.
Intervalos de conanza. Solo hemos visto procedimientos no parametri-
cos clasicos para contrastar hipotesis. La mayora de ellos pueden modi-
carse para dar intervalos de conanza para los parametros de interes:
mediana, diferencia de mediandas o coeciente poblacional. Por ejem-
plo, un test bilateral para la mediana puede usarse para dar un intervalo
de conanza para esta, deniendolo como
IC
(1)
(M) = {m R : no se rechaza H
0
: M = m a nivel }.
Ver Gibbons (1993a) y Gibbons (1993b), por ejemplo.
26 CAP

ITULO 1. CONTRASTES NO PARAM

ETRICOS CL

ASICOS
Comparaciones m ultiples de las medianas de mas de dos poblaciones.
Cuando se rechaza la hipotesis nula de igualdad de medianas en k 3
subpoblaciones, siempre es interesante saber que pares de medianas
pueden considerarse iguales y cuales distintas. Se trata pues de hacer
simultaneamente k(k 1)/2 contrastes de hipotesis. Estos contrastes
individuales se deben hacer a un nivel

tal que garantice que la pro-

babilidad de error de Tipo I global (probabilidad de rechazar al menos
una hipotesis de igualdad entre dos medianas, cuando la hipotesis nula
de igualdad entre todas ellas es cierta) sea igual al nivel deseado. En
Gibbons (1993b) puede verse como adaptar los contrastes de Kruskal-
Wallis y de Friedman para realizar comparaciones m ultiples entre cada
par de medianas.
Robustez. Se dice que un procedimento estadstico es robusto frente a la
presencia de observaciones atpicas si el resultado obtenido a partir de
una muestra no puede ser modicado arbitrariamente mediante la con-
taminacion de la muestra con una proporcion peque na de datos atpicos.
Por ejemplo, la media muestral no es robusta, porque alterando un uni-
co dato x
i
de forma que se le haga tender a innito, podemos hacer que
la media muestral vaya tambien a innito. Por contra, la mediana es
robusta porque aunque se modicase la mitad menos uno de los datos
no conseguiramos que el valor de la mediana se alejase innitamente
del valor inicial.
Los procedimientos estadsticos basados en el calculo de momentos (me-
dias, varianza, etc.) suelen presentar problemas de falta de robustez
frente a datos atpicos. En cambio, los procedimientos que trabajan
con los rangos de las observaciones son robustos. En este sentido los
contrastes no parametricos que hemos estudiado son mas robustos que
los correspondientes contrastes parametricos.
Eciencia relativa. La eciencia relativa asintotica de un procedimiento
de contraste A frente a otro B es el cociente del tama no muestral que
requiere el test B entre el que requiere el test A para obtener ambos
contrastes la misma potencia, cuando ambos trabajan al mismo nivel
de signicacion, las hipotesis sobre las distribuciones son las mismas y
los tama nos muestrales son grandes. Por ejemplo, la eciencia relativa
asintotica del test del signo frente al test basado en la t de Student es
de 0.67 para la distribucion normal. Eso signica que el test del signo
basado en una muestra de una distribucion normal de tama no 100, por
ejemplo, es tan eciente como el test de la t de Student basado en una
de tama no 67.
1.7. COMENTARIOS FINALES 27
La Tabla 1.1 recoge la informacion sobre eciencia relativa de los con-
trastes no parametricos que hemos estudiado frente a sus competidores
parametricos.
28 CAP

ITULO 1. CONTRASTES NO PARAM

ETRICOS CL

ASICOS
T
e
s
t
T
e
s
t
E
R
A
b
a
j
o
E
R
A
b
a
j
o
E
R
A
b
a
j
o
c
o
n
t
i
-
n
o
p
a
r
a
m
e
t
r
i
c
o
p
a
r
a
m
e
t
r
i
c
o
n
o
r
m
a
l
i
d
a
d
u
n
i
f
o
r
m
i
d
a
d
n
u
i
d
a
d
y
s
i
m
e
t
r

E
R
A

1
?
S
i
g
n
o
t
d
e
S
t
u
d
e
n
t
u
n
a
m
u
e
s
t
r
a
0
.
6
7

0
.
3
3
A
l
g
u
n
a
s
d
i
s
t
r
i
-
b
u
c
i
o
n
e
s
R
a
n
g
o
s
s
i
g
n
a
d
o
s
t
d
e
S
t
u
d
e
n
t
u
n
a
m
u
e
s
t
r
a
0
.
9
5
5
1

0
.
8
6
4
D
i
s
t
r
i
b
u
c
i
o
n
e
s
c
o
n
c
o
l
a
s
m
a
s
p
e
s
a
d
a
s
q
u
e
l
a
n
o
r
m
a
l
M
a
n
n
-
W
h
i
n
e
y
-
W
i
l
c
o
x
o
n
t
d
e
S
t
u
d
e
n
t
d
o
s
m
u
e
s
t
r
a
0
.
9
5
5
1

0
.
8
6
4
D
i
s
t
r
i
b
u
c
i
o
n
e
s
c
o
n
c
o
l
a
s
p
e
s
a
-
d
a
s
K
r
u
s
k
a
l
-
W
a
l
l
i
s
1
-
w
a
y
A
N
O
V
A
F
t
e
s
t
0
.
9
5
5
1

0
.
8
6
4
P
u
e
d
e
s
e
r
l
o
F
r
i
e
d
m
a
n
1
-
w
a
y
A
N
O
V
A
F
t
e
s
t
c
o
n
T
t
r
a
t
a
m
i
e
n
-
t
o
s
y
m
e
d
i
d
a
s
r
e
p
e
t
i
d
a
s
0
.
9
5
5
T
/
(
T
+
1
)
T
/
(
T
+
1
)

0
.
8
6
4
T
/
(
T
+
1
)
P
u
e
d
e
s
e
r
l
o
.
P
o
r
e
j
e
m
p
l
o
,
e
s
3
T
/
(
2
(
T
+
1
)
)
p
a
r
a
l
a
d
o
b
l
e
e
x
p
o
n
e
n
c
i
a
l

d
e
K
e
n
d
a
l
l
C
o
e
f
.
C
o
r
r
.
P
e
a
r
s
o
n
0
.
9
1
2
P
u
e
d
e
s
e
r
l
o
C
o
e
f
.
C
o
r
r
.
S
p
e
-
r
a
m
a
n
C
o
e
f
.
C
o
r
r
.
P
e
a
r
s
o
n
0
.
9
1
2
P
u
e
d
e
s
e
r
l
o
Cuadro 1.1: Eciencia Relativa Asintotica (ERA) de los contrastes no pa-
rametricos frente a los correspondientes tests parametricos.
Captulo 2
Introduccion a los metodos de
estimacion no parametrica de
curvas
Referencias: Captulo 1 de Simono (1996), Algunos
ejemplos de los captulos 1, 2 y 3 de Fan y Gijbels (1996).
Otras referencias: Bowman y Azzalini (1997). Silverman
(1986), Wand y Jones (1995), Wasserman (2006)
2.1. Introduccion
Los m

etodos de estimaci

on no param

etrica de curvas, tambien

conocidos como m

etodos de suavizado, son una coleccion de tecnicas

estadsticas que tienen por objetivo estimar una curva relacionada con la
distribucion de probabilidad de los datos observados, haciendo las menos
hipotesis posibles.
Las funciones que habitualmente se estiman son:
la funcion de densidad, sus derivadas o su integral (funcion de distri-
buci on):
X f(x), F(x) = P(X x) =
_
x

f(u)du, f(x) = F

(x).
la funcion de regresion o sus derivadas:
(X, Y ) F(x, y), m(x) = E(Y |X = x).
29
30CAP

ITULO 2. INTRODUCCI

ON A LOS M

ETODOS DE SUAVIZADO
la funcion de riesgo, sus derivadas o su integral (funcion de riesgo
acumulada):
X f(x), (x) =
f(x)
1 F(x)
, (x) =
_
x

(u)du, (x) =

(x).
la curva principal, que es una version no lineal de la primera compo-
nente principal.
Ejemplo 2.1
Estimacion de la densidad.
En el Captulo 1 de Simono (1996) se presenta el siguiente ejemplo. Se trata
de datos sobre el interes que pagan 69 entidades nancieras en uno de sus
productos llamado Certicados de Deposito. El conjunto de datos se conoce
como CD rate data. El chero cdrate.dat (ver la p`agina web que acompa na
al libro Simono 1996) contiene esos datos junto con una variable binaria
que indica si las entidades son bancos (0) o cajas de ahorros (1).
Una primera representaci on de los datos es mediante un diagrama de tallo
y hojas (Stem-and-Leaf Plot):
The decimal point is 1 digit(s) to the left of the |
74 | 167
76 | 15
78 | 2200
80 | 0000000000556157
82 | 0550003334556
84 | 0000000599900000000001257
86 | 550158
Este graco permite visualizar la distribucion de los datos (es como un his-
tograma girado) sin perder informacion del valor numerico de los datos.
Una mejor representaci on graca la obtenemos mediante un histograma
de los datos, tal como se recoge en el primer panel de la Figura 2.1. El his-
tograma es un estimador no parametrico de la funcion de densidad. Muestra
que zonas de la recta acumulan mas probabilidad y cuales menos. En este
ejemplo se aprecia bimodalidad en los datos. El histograma tiene un incon-
venienete fundamental: es una funcion poco suave (de hecho es discontinua
en los bordes de cada una de las cajas) y es constante a trozos. Estas carac-
tersticas no son las que acostumbran a tener las funciones de densidad. Otra
2.1. INTRODUCCI

ON 31
Histogram of CDrate
CDrate
D
e
n
s
i
t
y
7.6 8.0 8.4 8.8
0
.
0
0
.
5
1
.
0
1
.
5
2
.
0
7.6 8.0 8.4 8.8
0
.
0
0
.
4
0
.
8
1
.
2
Ajuste normal
x
f
(
x
)
7.6 8.0 8.4 8.8
0
.
0
0
.
5
1
.
0
1
.
5
Ajuste normal por separado
x
f
(
x
)
7.6 8.0 8.4 8.8
0
.
2
0
.
6
1
.
0
1
.
4
Mixtura de dos normales
x
f
(
x
)
7.6 8.0 8.4 8.8
0
.
0
0
.
5
1
.
0
1
.
5
Ajuste no paramtrico
x
f
(
x
)
|| | || | ||||||| ||| | | ||| | || || || | | | | ||| | | || ||||||| |||||| | ||||||||||||| | ||
Figura 2.1: Diferentes estimaciones parametricas y no parametricas de la
densidad de la variable CDrate.
32CAP

ITULO 2. INTRODUCCI

ON A LOS M

ETODOS DE SUAVIZADO
forma de tener un estimador de la densidad de la variable CDrate es hacer
una hipotesis parametrica. Por ejemplo podemos suponer que esta variable
es normal y estimar sus parametros mediante la media y la desviacion tpica
muestrales (ver segundo panel de la Figura 2.1). Esta alternativa tambien
tiene serios inconvenientes: el modelo parametrico no se ajusta bien a los da-
tos porque es excesivamente rgido (por ejemplo, el modelo normal impone
unimodalidad y simetra, lo que no es acorde con el histograma de los datos).
Dado que el histograma sugiere bimodalidad, podemos pensar que esta se
debe a que los datos provienen de mezclar dos poblaciones, bancos y cajas,
con distribuciones quizas diferentes. Ello nos hace pensar que un posible
modelo es la mixtura de dos normales. La segunda la de gracos de la
Figura 2.1 muestra los resultados de este ajuste: a la izquierda se muestran
las dos densidades normales ajustadas en cada subpoblacion y a la derecha
la mixtura de ambas. Se ha corregido la falta de asimetra del ajuste con una
unica normal, pero sigue habiendo unimodalidad.
Un estimador no parametrico de la densidad alternativo al histograma es
el estimador n ucleo (ver Captulo 3). Este estimador aplicado a los datos de
CDrate da como resultado la densidad representada en el ultimo graco de la
Figura 2.1. Este estimador es suave y respeta la bimodalidad y la asimetra
de los datos.
. .
Ejemplo 2.2
Regresion con respuesta continua.
Consideremos el siguiente ejemplo, en el que se analiza la relacion entre dos
variables del conjunto de datos referido a la vivienda en 506 barrios de Bos-
ton en 1978 (Boston Housing Data; ver por ejemplo
http://lib.stat.cmu.edu/datasets/boston_corrected.txt, o
http://www.ailab.si/orange/doc/datasets/housing.htm).
Concretamente, se busca expresar la variable room (n umero medio de ha-
bitaciones por vivienda) como funcion de la variable lstat (porcentaje de
poblacion con estatus social en la categora inferior). Para ello podemos uti-
lizar un modelo de regresion lineal que ajuste la variable room como funcion
de la variable lstat. El resultado se muestra en el panel superior izquierdo
de la Figura 2.2. Se observa que el patron lineal impuesto por el modelo pa-
rametrico elegido es muy rgido para adaptarse a la relacion existente entre
las variables. Esto se debe a que la relacion entre las variables no es lineal:
la variable room desciende bruscamente cuando la variable lstat pasa del 0 %
2.1. INTRODUCCI

ON 33
10 20 30
4
5
6
7
8
lstat
r
o
o
m
Ajuste lineal
10 20 30
4
5
6
7
8
lstat
r
o
o
m
Ajuste cuadrtico
10 20 30
4
5
6
7
8
lstat
r
o
o
m
Ajuste no paramtrico
Figura 2.2: Ajustes parametricos y no parametrico de la variable room como
funcion de la variable lstat.
34CAP

ITULO 2. INTRODUCCI

ON A LOS M

ETODOS DE SUAVIZADO
al 10 %, pero despues se mantiene practicamente constante. Una posible so-
lucion sera introducir un termino cuadratico (el cuadrado de lstat) en el
modelo de regresion para reejar la ausencia de linealidad. El segundo panel
de la Figura 2.2 muestra el resultado. Pero, a un as, el nuevo modelo de regre-
sion parametrico no consigue adaptarse totalmente a los datos observados.
Por ultimo, realizamos el ajuste no parametrico de la variable room como
funcion de la variable lstat (en el Captulo 4 se explicara con detalle como se
obtiene este ajuste). El panel inferior de la Figura 2.2 muestra los resultados
de este ajuste no parametrico. La relacion entre las variables es distinta
seg un si el porcentaje de poblacion de extraccion social mas baja (lstat)
es inferior al 10 %, esta entre el 10 % y el 20 %, o supera ese valor. En el
tramo intermedio, el n umero medio de habitaciones por vivienda (room) se
mantiene constante, mientras que en los otros tramos decrece al crecer lstat.
Ademas, la disminuci on es mas acusada en el primer tramo.
Este ejemplo muestra que la modelizacion no parametrica es mucho mas
exible que la parametrica y permite resaltar los patrones de dependencia
presentes en los datos.
. .
Ejemplo 2.3
Regresion con respuesta binaria.
En el siguiente ejemplo, extrado de Fan y Gijbels (1996), se relaciona la
probabilidad de supervivencia tras sufrir quemaduras de tercer grado con
la supercie de piel afectada. Son datos referidos a 435 adultos (entre 18 y
85 a nos de edad) que fueron tratados por quemaduras de tercer grado en
el Centro de Quemados del Hospital General de la University of Southern
California. Para cada paciente, se tienen dos variables: lgae, el logaritmo de
1 mas el area de las quemaduras de tercer grado, y superv, una variable 0-1
que indica si el paciente sobrevive o no. Observar que se trata de un problema
de regresion binaria, en el que la esperanza condicionada de superv dado un
nivel de lgae es la probabilidad condicionada de sobrevivir condicionada a
ese valor de lgae. En la Figura 2.3 se muestran los datos y las probabilida-
des de supervivencia ajustadas con un modelo logstico y con un metodo no
parametrico (la funcion menos suave).
. .
2.2. USOS DE LOS M

ETODOS DE SUAVIZADO. 35
1.4 1.6 1.8 2.0 2.2 2.4
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
Regresin 01 param. y no param.
lgae
s
u
p
e
r
v
Figura 2.3: Ajustes parametrico y no parametrico de la probabilidad de su-
pervivencia como funcion de la variable lgae.
Ejemplo 2.4
Curvas principales.
Dado un conjunto de datos con una conguracion no elptica, se busca la
curva que mejor ajusta los datos. Las curvas principales fueron denidas por
Hastie and Stuetzle (1989) como curvas parametrizadas suaves que atraviesan
una nube de puntos multidimensional por su parte central. Son generalizacio-
nes no lineales de la primera componente principal. La Figura 2.4 muestra
un conjunto de datos de dimension 3 que ha sido generado a nadiendo ruido a
posiciones aleatorias sobre una espiral unidimensional. Tambien se muestra
la curva principal estimada a partir de los datos.
. .
2.2. Usos de los metodos de suavizado.
Analisis exploratorio de datos. Permiten obtener gracos de la funcion
de densidad, la funcion de regresion, la funcion de riesgo o sus deri-
vadas (entre otras). En analisis multivariante permiten tener versiones
36CAP

ITULO 2. INTRODUCCI

ON A LOS M

ETODOS DE SUAVIZADO
1
0
1
2
3
4
5
6
1.5
1
0.5
0
0.5
1
1.5
1.5
1
0.5
0
0.5
1
1.5
Figura 2.4: Curva principal ajustada a un conjunto de datos articiales.
no lineales y no parametricas de las componentes principales (curvas
principales).
Construccion de modelos. A partir de una descripcion el de los datos
pueden proponerse modelos que se ajusten bien a los datos. Por ejem-
plo, si la densidad estimada resulta bimodal, podemos proponer una
mixtura de dos subpoblaciones como modelo para nuestros datos.
Bondad de ajuste de un modelo parametrico. Sea X f. Se trata de
contrastar
H
0
: f F

= {f

: R
k
}, frente a H
1
: f F

.
Un estadstico util para este contraste sera
T = d(f

,

f),
donde

es un estimador de (y por lo tanto f

es un estimador pa-
rametrico de f),

f es un estimador no parametrico de f y d(, ) es una
distancia entre funciones de densidad.
Estimacion parametrica. Si suponemos que X f

0
, con
0
, un
estimador de puede venir dado como

= arg mn

T = d(f

,

f).
Este tipo de estimadores se llaman de m

nima distancia.
2.2. USOS DE LOS M

ETODOS DE SUAVIZADO. 37
Denir nuevos metodos estadsticos. En muchos casos es posible mo-
dicar una metodologa parametrica estandar sustituyendo f

por

f.
Como ejemplo, veamos el caso del analisis discriminante.
El planteamiento general es que una poblacion se encuentra subdivida
en dos subpoblaciones, C
1
y C
2
, y que una variable aleatoria X (de
dimension k 1) observable en los individuas de esta poblacion tiene
distribucion distinta en C
1
y C
2
:
X|C
1
f
1
, X|C
2
f
2
.
Se observan los valores de X en n
1
individuos de C
1
y en n
2
de C
2
. En
base a esa informacion hay que denir una regla discriminante que
permita asignar a C
1
o a C
2
un nuevo individuo del que solo se sabe
que presenta un valor x de la variable X.
La Regla Disciminante Lineal de Fisher se basa en el supuesto de nor-
malidad con igual varianza en C
1
y C
2
:
X|C
1
N(
1
,
2
); X|C
2
N(
2
,
2
).
La forma de proceder es la siguiente: se estiman
1
y
2
a partir de las
muestras de cada subpoblacion. Se estima
2
conjuntamente a partir
de los (n
1
+n
2
) datos. La regla discriminante es esta:
Clasicar el individuo con valor x de X en C
1
si y solo si
f
(
1
,
2
)
(x) f
(
2
,
2
)
(x).
Se puede probar que esta regla equivale a calcular una funcion lineal de
x y clasicar la nueva observacion en C
1
si y solo si esa funcion lineal
es positiva.
Esta regla se puede modicar para obtener una regla discriminante
no param

etrica:
Clasicar el individuo con valor x de X en C
1
si y solo si

f
1
(x)

f
2
(x),
donde

f
1
(x) y

f
2
(x) son estimadores no parametricos de las densida-
des f
1
y f
2
, respectivamente, calculados a partir de las dos muestras
observadas.
38CAP

ITULO 2. INTRODUCCI

ON A LOS M

ETODOS DE SUAVIZADO
1.4 1.6 1.8 2.0 2.2 2.4
0
.
0
0
.
5
1
.
0
1
.
5
2
.
0
2
.
5
Densidad estimada segn superv
x
f
(
x
)
x=2.046
Figura 2.5: Estimacion de la densidad de lgae en las dos subpoblaciones de-
nidas por superv. La correspondiente a los no supervivientes es la densidad
que tiene la moda mas a la derecha.
Ejemplo 2.5
Consideremos de nuevo el ejemplo en que se relaciona la probabilidad
de supervivencia tras sufrir quemaduras de tercer grado con la super-
cie de piel afectada. Se aplica ah la regla discriminante no parametrica
basada en la estimacion de las densidades en cada subpoblacion. El
resultado (ver Figura 2.5) es clasicar como potenciales supervivientes
a los enfermos con valor de la variable lgae menor o igual que 2.046.
. .
Captulo 3
Estimacion no parametrica de
la densidad
Referencias: Silverman (1986), Scott (1992), Wand y
Jones (1995), Simono (1996), Fan y Gijbels (1996),
Bowman y Azzalini (1997), Wasserman (2006).
3.1. La estimacion de la densidad
Sean x
1
, . . . , x
n
observaciones independientes de una variable aleatoria X
que tiene funcion de densidad f. Sea x R. Se quiere estimar el valor de la
funcion de densidad f en x: f(x). Recordemos algunas propiedades conocidas
de la funcion de densidad:
Una funcion de densidad es cualquier funcion que verica
f(x) 0 para todo x R,
_

f(x)dx = 1.
f es funcion de densidad de X si y solo si para todo a, b reales con
a b se tiene que
P(a < X b) =
_
b
a
f(x)dx.
Si dx es una longitud peque na,
f(x)
P(X [x, x +dx])
dx
.
39
40CAP

ITULO 3. ESTIMACI

ON NO PARAM

ETRICA DE LA DENSIDAD
Sea F(x) la funcion de distribucion de X. Entonces,
F(x) =
_
x

f(u)du, f(x) =
d
dx
F(x) = F

(x).
Una forma de estimar f(x) es hacer supuestos parametricos sobre la dis-
tribucion de X:
f {f(x; ) : R
k
}.
Por ejemplo se podra suponer que X N(,
2
), y as k = 2, = (,
2
).
Bajo ese supuesto parametrico, se usa la muestra observada para estimar el
parametro mediante

(por ejemplo por maxima verosimilitud) y se toma
como estimador de f(x) el valor

(x) = f(x;

).
Este procedimiento, que se conoce como estimacion parametrica de la den-
sidad, es muy dependiente del modelo elegido. No tiene exibilidad para
detectar desviaciones de esa hipotesis.
Aqu vamos a abordar la estimacion no parametrica de la densidad.
3.2. El histograma y el polgono de frecuen-
cias
El primer estimador no parametrico de la densidad y quizas a un el mas
utilizado es el histograma. Se construye de la siguiente forma.
Se eligen marcas b
0
< b
1
< . . . < b
m
en R con
b
0
< mn
i=1...n
x
i
, max
i=1...n
x
i
b
m
y se denen los intervalos B
j
= (b
j1
, b
j
], j = 1, . . . , m. Sea n
j
el n umero de
observaciones que caen en B
j
, y f
j
la frecuencia relativa de este intervalo (la
proporcion de observaciones que caen en B
j
):
n
j
= #{x
i
: x
i
B
j
} =
n

i=1
I
B
j
(x
i
), f
j
=
n
j
n
=
1
n
n

i=1
I
B
j
(x
i
).
Sobre cada intervalo B
j
se dibuja un rectangulo que tiene B
j
por base y cuya
altura a
j
es tal que el area es igual a f
j
:
a
j
(b
j
b
j1
) = f
j
=
1
n
n

i=1
I
B
j
(x
i
) =a
j
=
f
j
b
j
b
j1
.
3.2. EL HISTOGRAMA Y EL POL

IGONO DE FRECUENCIAS 41
Sea x el punto donde se quiere estimar la densidad f(x). Si x no esta dentro
de ning un intervalo B
j
el estimador histograma de f(x) es 0. Si x B
j
, el
estimador histograma de f(x) es la altura a
j
del histograma en B
j
:

f
H
(x) =
f
j
b
j
b
j1
si x B
j
.
Observar que la funcion

f
H
(x) cumple las propiedades de una funcion de
densidad: es no negativa e integra 1.
Usualmente se toman todos los intervalos de la misma anchura: b
j
b
j1
=
b, j = 1, . . . , m. As

f
H
(x) = f
j
/b si x B
j
, lo que tambien podemos escribir
como

f
H
(x) =
m

j=1
f
j
b
I
B
j
(x) =
m

j=1
n
j
nb
I
B
j
(x) =
m

j=1
f
j
1
b
I
B
j
(x).
Observar que esta ultima expresion corresponde a la mixtura de m densida-
des, cada una de ellas uniforme en B
j
, con pesos iguales a las frecuencias
relativas de cada intervalo B
j
.
3.2.1. Motivaci on del histograma como estimador de
la densidad
Recordemos que
f(x) =
d
dx
F(x) = lm
h0
F(x +h) F(x)
h
= lm
u+v0
F(x +u) F(x v)
u +v
, u 0, v 0.
Si dividimos R en intervalos de amplitud b, con b peque no, y llamamos a los
extremos de los intervalos b
j
, j Z, un punto x R pertenecera a uno de
esos intervalos: x (b
j
, b
j+1
]. Sean
u = b
j+1
x, v = x b
j
=x +u = b
j+1
, x v = b
j
, u +v = b
j+1
b
j
= b.
As, si b es peque no,
f(x)
F(x +u) F(x v)
u +v
=
F(b
j+1
) F(b
j
)
b
.
Si se estima la funcion de distribucion F mediante la funcion de distribucion
emprica

F, se tiene que

F(b
j
) =
#{x
i
b
j
}
n
.
42CAP

ITULO 3. ESTIMACI

ON NO PARAM

ETRICA DE LA DENSIDAD
Si se sustituye en la expresion anterior de f(x), obtendremos el siguiente
estimador:

f(x) =

F(b
j+1
)

F(b
j
)
b
=
#{x
i
b
j+1
} #{x
i
b
j
}
nb
=
#{b
j
< x
i
b
j+1
}
nb
=
n
j
nb
=
f
j
b
=

f
H
(x).
Es decir, llegamos a la expresion del histograma que ya conocamos.
3.2.2. Caractersticas del histograma
1. El histograma es muy simple, tanto de calculo como de interpretaci on.
2. Su aspecto depende mucho de la anchura de los intervalos: b.
Ejemplo 3.1
Consideremos el conjunto de datos referido a la vivienda en 506 ba-
rrios de Boston (Boston Housing Data), que ya fue tratado en el
ejemplo 2.2 del Captulo 2. En la Figura 3.1 se muestran tres histogra-
mas de la variable LSTAT (porcentaje de poblacion con estatus social en
la categora inferior). Se han usado anchuras de intervalos b distintas,
y el aspecto que presentan los histogramas es bastante distinto. Por
ejemplo, el segundo de ellos muestra multimodalidad, mientras que es-
to pasa desapercibido en el primero.
. .
3. El aspecto del histograma depende del ancla del histograma, que es
el punto desde donde arranca el primer intervalo.
Ejemplo 3.2
La Figura 3.2 muestra la importancia del ancla del histograma. Se ha
usado el conjunto de datos relativos a tipos de interes en Certicados
de Deposito (ver Ejemplo 2.1, Captulo 2). La variable representada es
CDrate.
. .
3.2. EL HISTOGRAMA Y EL POL

IGONO DE FRECUENCIAS 43
Histogram of LSTAT
LSTAT
D
e
n
s
i
t
y
0 10 20 30 40
0
.
0
0
0
.
0
2
0
.
0
4
0
.
0
6
0
.
0
8
Histogram of LSTAT
LSTAT
D
e
n
s
i
t
y
0 10 20 30 40
0
.
0
0
0
.
0
2
0
.
0
4
0
.
0
6
0
.
0
8
Histogram of LSTAT
LSTAT
D
e
n
s
i
t
y
0 10 20 30 40
0
.
0
0
0
.
0
2
0
.
0
4
0
.
0
6
0
.
0
8
Figura 3.1: Histogramas de la variable LSTAT con distintos valores de la an-
chura de intervalo b.
Histogram of CDrate
CDrate
D
e
n
s
i
t
y
7.4 7.8 8.2 8.6
0
.
0
0
.
4
0
.
8
1
.
2
Histogram of CDrate
CDrate
D
e
n
s
i
t
y
7.6 8.0 8.4 8.8
0
.
0
0
.
5
1
.
0
1
.
5
2
.
0
Figura 3.2: Ilustracion de la importancia del ancla del histograma. La variable
representada es CDrate.
44CAP

ITULO 3. ESTIMACI

ON NO PARAM

ETRICA DE LA DENSIDAD
4. El histograma no es un estimador suave de la funcion de densidad: es
discontinuo y constante a intervalos.
5. La anchura de las cajas b tiene una inuencia importantsima en el
comportamiento del histograma como estimador de la funcion de den-
sidad (ademas de la ya mencionada inuencia en su aspecto), que puede
resumirse como sigue:
Si b es peque no, el histograma tiene poco sesgo y mucha varianza.
Si b es grande, el histograma tiene mucho sesgo y poca varianza.
Ejemplo 3.3
La Figura 3.3 muestra los histogramas estimados para muestras de ta-
ma no 100 simuladas a partir de una mixtura de normales con densidad
f(x) =
3
4
f
N
(x; = 0, = 1) +
1
4
f
N
(x; = 3/2, = 1/3),
donde f
N
(x; , ) es la funcion de densidad de una N(,
2
). Esta fun-
cion aparece como ejemplo en el segundo captulo de Wand y Jones
(1995). En el panel de la izquierda se representan, para 30 muestras,
sus histogramas construidos con anchura b de intervalos igual a 2 (b
grande), mientras que en el de la derecha se usa b = 0,5 (b peque no)
para otras 30 muestras. Se observa que a la izquierda el sesgo es grande
y la varianza peque na, mientras que lo contrario ocurre a la derecha.
. .
3.2.3. Propiedades locales del estimador histograma
En esta seccion nos ocuparemos de las propiedades asintoticas del histo-
grama evaluado en un punto x jo,

f
H
(x), como estimador del valor desco-
nocido f(x). Utilizaremos algunas de las herramientas que se incluyen en el
Apendice (pagina 187).
Como criterio para evaluar localmente un estimador de f(x) usaremos el
Error Cuadratico Medio:
MSE(

f
H
(x)) = E[(

f
H
(x) f(x))
2
] = (Sesgo(

f
H
(x)))
2
+V (

f
H
(x)).
Teorema 3.1 Supongamos que la anchura b = b
n
de los intervalos del his-
tograma decrece hacia 0 cuando n tiende a innito (b = o(1)). Si f tiene
segunda derivada continua y acotada, entonces
3.2. EL HISTOGRAMA Y EL POL

IGONO DE FRECUENCIAS 45
3 2 1 0 1 2 3
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
0.5
3 2 1 0 1 2 3
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
0.5
Figura 3.3: Inuencia de b en el sesgo y varianza del histograma como esti-
mador de la funcion de densidad.
1. si x (b
j
, b
j
+b],
E(

f
H
(x)) = f(x) +
1
2
f

(x)(b 2(x b
j
)) +O(b
2
) = f(x) +O(b),
2.
V (

f
H
(x)) =
f(x)
nb
+O
_
1
n
_
,
3. si x (b
j
, b
j
+b],
MSE(

f
H
(x)) =
f(x)
nb
+
1
4
(f

(x))
2
(b 2(x b
j
))
2
+O
_
1
n
_
+O(b
3
),
4. Si b = b
n
0 y nb
n
cuando n (es decir, b
n
tiende a 0
pero no demasiado deprisa) entonces

f
H
(x) f(x) en probabilidad cuando n .
Demostracion: Sea X
1
, . . . , X
n
m.a.s. de X f la muestra a partir de la
cual construimos el histograma. Hemos visto que

f
H
(x) =
n
j
nb
si x B
j
= (b
j
, b
j
+b],
46CAP

ITULO 3. ESTIMACI

ON NO PARAM

ETRICA DE LA DENSIDAD
donde n
j
es el n umero de observaciones X
1
, . . . , X
n
que caen en (b
j
, b
j
+ b].
Por lo tanto,
n
j
B(n, p
j
= F(b
j
+b) F(b
j
)) E(n
j
) = np
j
, V (n
j
) = np
j
(1 p
j
).
As
E(

f
H
(x)) =
p
j
b
, V (

f
H
(x)) =
p
j
(1 p
j
)
nb
2
=
p
j
nb
2

p
2
j
nb
2
.
Por el Teorema de Taylor,
F(b
j+1
) = F(x) +f(x)(b
j+1
x) +
1
2
f

(x)(b
j+1
x)
2
+O(b
3
),
F(b
j
) = F(x) +f(x)(b
j
x) +
1
2
f

(x)(b
j
x)
2
+O(b
3
).
Si restamos esas dos expresiones obtenemos que
p
j
= F(b
j+1
) F(b
j
) = f(x)b +
1
2
f

(x)
_
(b + (b
j
x))
2
(b
j
x)
2
_
+O(b
3
)
= f(x)b +
1
2
f

(x)(b
2
2b(x b
j
)) +O(b
3
).
As,
E(

f
H
(x)) = f(x) +
1
2
f

(x)(b 2(x b
j
)) +O(b
2
).
Estudiemos ahora la varianza de

f
H
(x). Observar que
p
j
nb
2
=
f(x)
nb
+
1
2
f

(x)
1
n

f

(x)(x b
j
)
nb
+O
_
b
2
n
_
.
Como b = o(1) cuando n tiende a innito O(b
2
/n) = o(1/n). Teniendo en
cuenta ademas que (x b
j
) = O(b), se sigue que
p
j
nb
2
=
f(x)
nb
+O
_
1
n
_
.
Por otro lado,
p
2
j
nb
2
= nb
2
_
p
j
nb
2
_
2
= nb
2
O
_
1
n
2
b
2
_
= O
_
1
n
_
.
As se tiene que
V (

f
H
(x)) =
f(x)
nb
+O
_
1
n
_
.
3.2. EL HISTOGRAMA Y EL POL

IGONO DE FRECUENCIAS 47
El resto del enunciado se sigue por argumentos estandares. 2
El Teorema anterior muestra que la convergencia del estimador histogra-
ma es mas rapida en los puntos centrales c
j
= (b
j
+b
j1
)/2 de los intervalos
B
j
que en los restantes puntos: el termino principal de la expresion asintotica
del sesgo
Sesgo(

f
H
(x)) =
1
2
f

(x)(b 2(xb
j
)) +O(b
2
) = f

(x)(b/2(xb
j
)) +O(b
2
),
se anula en c
j
. As que Sesgo(

f
H
(c
j
)) = O(b
2
), mientras que en general ese
sesgo es O(b), y
MSE(

f
H
(c
j
)) =
f(c
j
)
nb
+O
_
1
n
_
+O(b
4
),
cuando en general
MSE(

f
H
(x)) =
f(x)
nb
+O
_
1
n
_
+O(b
2
).
Ese buen comportamiento del histograma en los puntos centrales de las ca-
jas motivar a mas adelante las deniciones del pol

gono de frecuencias
(Seccion 3.2.6) y del estimador n

ucleo de la densidad (Seccion 3.3).

3.2.4. Propiedades globales del estimador histograma
Ahora nos ocuparemos del comportamiento de la funcion histograma

f
H
como estimador de la funcion de densidad f. Una forma de medir la distancia
entre estimador y funcion estimada es integrar el error cuadratico sobre todo
el soporte de f, que supondremos que es un intervalo I R acotado. Se tiene
as lo que se conoce como Error Cuadr

atico Integrado (Integrated

Square Error, en ingles):
ISE(

f
H
) =
_
I
(

f
H
(x) f(x))
2
dx,
que es una variable aleatoria porque depende de la muestra X
1
, . . . , X
n
de
X observada. Su valor esperado (respecto a las muestras X
1
, . . . , X
n
) es el
Error Cuadr

atico Integrado Medio (Mean Integrated Square Error,

en ingles):
MISE(

f
H
) = E[ISE(

f
H
)] = E
__
I
(

f
H
(x) f(x))
2
dx
_
.
48CAP

ITULO 3. ESTIMACI

ON NO PARAM

ETRICA DE LA DENSIDAD
Observar que
MISE(

f
H
) =
_ __
I
(

f
H
(x) f(x))
2
dx
_
dF
X
1
,...,X
n
(el Teorema de Fubini permite cambiar el orden de integraci on)
=
_
I
__
(

f
H
(x) f(x))
2
dF
X
1
,...,X
n
_
dx
=
_
I
MSE(

f
H
(x))dx = IMSE(

f
H
).
Por lo tanto el MISE, que es un promedio del error global, es igual al IMSE
(Error Cuadr

atico Medio Integrado, Integrated Mean Square Error,

en ingles), que es una medida del error puntual acumulado.
Teorema 3.2 Para el estimador histograma
MISE(

f
H
) =
1
nb
+
b
2
12
R(f

) +O
_
1
n
_
+o(b
2
),
donde para una funcion g denida en I R, R() =
_
I
(x)
2
dx.
3.2. EL HISTOGRAMA Y EL POL

IGONO DE FRECUENCIAS 49
Demostracion: Tenemos en cuenta que MISE(

f
H
) = IMSE(

f
H
), y para
cada x I llamamos j(x) al entero j tal que x B
j
. As,
IMSE(

f
H
) =
_
I
_
f(x)
nb
+
1
4
(f

(x))
2
(b 2(x b
j(x)
))
2
+O
_
1
n
_
+O(b
3
)
_
dx
=
1
nb
+
m

j=1
_
b
j+1
b
j
(f

(x))
2
_
b
2
(x b
j
)
_
2
dx +O
_
1
n
_
+O(b
3
)
(por el Teorema del Valor Medio Integral Generalizado,
y haciendo u = x b
j
)
=
1
nb
+
m

j=1
(f

(
j
))
2
_
b
0
_
b
2
u
_
2
du +O
_
1
n
_
+O(b
3
)
_
_
_
_
b
0
_
b
2
u
_
2
du =
_

1
3
_
b
2
u
_
3
_

b
0
=
1
3
b
3
8
+
1
3
b
3
8
=
b
3
12
_
_
_
=
1
nb
+
b
2
12
m

j=1
(f

(
j
))
2
b +O
_
1
n
_
+O(b
3
)
{la suma de Riemann
m

j=1
(f

(
j
))
2
b =
_
I
(f

(x))
2
dx +o(1),
donde o(1) 0 si b 0}
=
1
nb
+
b
2
12
_
I
(f

(x))
2
dx +O
_
1
n
_
+o(b
2
).
2
3.2.5. Eleccion del parametro de suavizado b
A los terminos principales de la expresion asintotica del MISE se les llama
AMISE (Asymptotic Mean Integrated Square Error, en ingles). En el caso del
histograma es
AMISE(

f
H
) =
1
nb
+
b
2
12
R(f

).
El primer sumando (1/nb) proviene de la integral sobre I de la varianza del
histograma, mientras que el segundo se debe a la integral del cuadrado del
sesgo. Observar el comportamiento de ambos terminos en funcion del ancho
b de las cajas del histograma:
El termino de la varianza (1/nb) es decreciente en b.
50CAP

ITULO 3. ESTIMACI

ON NO PARAM

ETRICA DE LA DENSIDAD
El termino del sesgo (proporcional a b
2
) crece con b.
Por lo tanto la correcta eleccion del par

ametro de suavizado b nos per-

mite buscar un compromiso entre sesgo y varianza del estimador de f. De
hecho, podemos buscar el valor de b que minimiza AMISE(

f
H
), al que como
funcion de b podemos denotar por g(b):
g(b) =
1
nb
+
b
2
12
R(f

).
Derivamos g respecto a b,
g

(b) =
1
nb
2
+
2b
12
R(f

)
e igualamos a 0,
g

(b
0
) = 0 b
3
0
=
6
nR(f

)
b
0
=
_
6
R(f

)
_
1/3
n
1/3
.
Para ese valor b
0
optimo el AMISE toma el valor
AMISE
0
= n
2/3
_
6
R(f

)
_
1/3
+n
2/3
R(f

)
1/3
6
1/3
12
=
_
9
16
R(f

)
_
1/3
n
2/3
.
El problema con la formula del parametro de suavizado optimo,
b
0
=
_
6
R(f

)
_
1/3
n
1/3
,
es que R(f

) =
_
I
f

(x)
2
dx es desconocido porque depende de la densidad
desconocida f que pretendemos estimar.
La forma mas sencilla de superar ese problema es calcular el valor que
tendra R(f

) si f perteneciese a un modelo parametrico. Concretamente, si

f fuese la densidad de una N(,
2
) entonces
R(f

) =
1
4

3
.
Tomando este como verdadero valor de R(f

), el valor de b
0
es
b

0
= (24

)
1/3
n
1/3
= 3,491n
1/3
.
Esta forma de elegir b
0
se conoce como regla de referencia a la nor-
mal (normal reference rule, en ingles).
3.2. EL HISTOGRAMA Y EL POL

IGONO DE FRECUENCIAS 51
El valor de se estima a partir de los datos observados mediante
= mn{S, IQR/1,35},
donde S
2
es la varianza muestral de los datos, y IQR es su rango intercuartli-
co (recordar que el rango intercuartlico de una N(,
2
) es 1,35). Se toma el
mnimo de esos dos estimadores naturales de para que el estimador nal
sea mas robusto frente a la presencia de datos atpicos.
3.2.6. El polgono de frecuencias
Una de las malas propiedades del histograma es que el estimador de la
funcion f a que da lugar es un funcion discontinua. El pol

gono de fre-
cuencias corrige ese defecto. Se dene como el interpolador lineal de los
valores del histograma en los puntos centrales de cada intervalo,
(c
j
,

f
H
(c
j
)), j = 0, . . . , m + 1,
donde c
0
= b
0
(b/2), c
m+1
= b
m
+ (b/2),

f
H
(c
0
) =

f
H
(c
m+1
) = 0.
Ejemplo 3.4
Consideremos de nuevo el conjunto de datos referido a la vivienda en 506
barrios de Boston. La Figura 3.4 muestra el polgono de frecuencias de la
variable LSTAT (porcentaje de poblacion con estatus social en la categora
inferior) construido a partir del histograma que tambien se muestra en trazo
discontinuo.
. .
Las siguientes son expresiones alternativas del polgono de frecuencias. Si
x [c
j
, c
j+1
],

f
PF
(x) =
f
j
b
+ (x c
j
)(f
j+1
f
j
)
1
b
2
=
1
b
_
f
j
c
j+1
x
b
+f
j+1
x c
j
b
_
=
1
b
2
(f
j
c
j+1
f
j+1
c
j
+ (f
j+1
f
j
)x) .
El polgono de frecuencias presenta ventajas respecto al histograma, la
mas clara de las cuales es que proporciona un estimador continuo de la fun-
cion de densidad. Su comportamiento asintotico tambien es mejor que el del
52CAP

ITULO 3. ESTIMACI

ON NO PARAM

ETRICA DE LA DENSIDAD
0 10 20 30 40
0
.
0
0
0
.
0
2
0
.
0
4
0
.
0
6
Frequency Polygon of LSTAT
LSTAT
d
e
n
s
Figura 3.4: Polgono de frecuencias de la variable LSTAT.
histograma, como se vera en la seccion siguiente. No obstante, la falta de
suavidad del polgono de frecuencias (no es derivable en los puntos c
j
) hace
recomendable buscar otros estimadores de la densidad (ver Seccion 3.3).
3.2.7. Comportamiento asintotico del polgono de fre-
cuencias
En la Seccion 3.2.3 se ha visto que la convergencia del estimador histogra-
ma es mas rapida en los puntos centrales c
j
= (b
j
+b
j1
)/2 de los intervalos
B
j
que en los restantes puntos. Para construir el polgono de frecuencias
solo se eval ua el histograma en esos puntos centrales c
j
, en los que el sesgo
puntual del histograma es O(b
2
), en vez del orden O(b) general. Se puede
probar que esa mejora se mantiene al hacer la interpolacion lineal y que,
por tanto, el polgono de frecuencias converge mas rapidamente que el his-
tograma al verdadero valor de la densidad en todos los puntos. Supongamos
que la densidad f tiene como soporte al intervalo acotado I R, que f es
derivable 3 veces y que R(f), R(f

), R(f

) y R(f

) son nitas (recordar

que R() =
_
I
(x)
2
dx). La siguientes son las propiedades asintoticas mas
relevantes del polgono de frecuencias.
3.3. ESTIMADOR N

UCLEO DE LA DENSIDAD 53
Error cuadratico medio integrado:
MISE(

f
PF
) =
2
3nb
+
49b
4
R(f

)
2880
+O
_
1
n
_
+O(b
6
).
Parametro de suavizado optimo: El ancho de los intervalos b que mini-
miza el AMISE es
b
0
= 2
_
15
49R(f

)
_
1/5
n
1/5
.
AMISE para b
0
: Para ese valor b
0
optimo el AMISE del polgono de fre-
cuencias toma el valor
AMISE
0
=
5
12
_
49
15
R(f

)
_
1/5
n
4/5
.
Observar que AMISE
0
= O(n
4/5
), lo que es una mejora respecto al
AMISE del histograma, que es O(n
2/3
). El AMISE que tendramos con
un estimador parametrico (suponiendo que el modelo fuese correcto)
sera O(n
1
). Con estimadores no parametricos nunca puede alcanzarse
esa velocidad de convergencia.
Regla de referencia a la normal: Si f fuese la densidad de una N(,
2
)
el ancho optimo de los intervalos para el polgono de frecuencias sera
b

0
= 2,15n
1/5
.
3.3. Estimador n ucleo de la densidad
El estimador no parametrico de la funcion de densidad mas usado, excep-
tuando el histograma, es el estimador n

ucleo. Este estimador introduce

dos mejoras destacadas respecto al estimador histograma:
Localizacion. En la Seccion 3.2.3 se ha visto que el histograma es mejor
estimador en el centro de cada intervalo que en otros puntos. Hagamos
pues que x, el punto donde queremos estimar la densidad, sea el centro
de uno de los intervalos del histograma: B
x
= [x b/2, x + b/2] =
[x h, x + h]. (Pasar de intervalos semi-abiertos a intervalos cerrados
no tiene implicaciones ni teoricas ni practicas). As, el estimador de
f(x) sera

f
U
(x) =
1
nb
n

i=1
I
[xb/2,x+b/2]
(x
i
) =
1
nh
n

i=1
1
2
I
[1,1]
_
x x
i
h
_
.
54CAP

ITULO 3. ESTIMACI

ON NO PARAM

ETRICA DE LA DENSIDAD
Cuando se desea estimar la densidad en otro punto x

, se sit ua el in-
tervalo del histograma alrededor de x

y se aplica la formula anterior.

Cuando x recorre R, la funcion

f
U
(x) as construida constituye un es-
timador de f. La Figura 3.5 muestra esta estimacion de la densidad
en el caso de una mixtura de normales, f(x) =
3
4
f
N
(x; = 0, =
1) +
1
4
f
N
(x; = 3/2, = 1/3), a partir de una muestra simulada de
tama no 100. Se ha usado h = 0,15.
3 2 1 0 1 2 3
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
x
f
x
| | | | || | | || | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | || | | | | | |
Figura 3.5: Estimacion de la densidad mediante un histograma movil (h =
0,15) o, dicho de otro modo, usando un estimador n ucleo con kernel uniforme.
Suavidad. La funcion

f
U
(x) anterior no es suave (es discontinua y constante
a trozos). La razon es que en su expresion aparece la funcion de densidad
de la v.a. U([1, 1]),
g(u) =
1
2
I
[1,1]
(u),
que es discontinua y constante a trozos. Si se sustituye esa densidad
por otra K(u) mas suave (por ejemplo, derivable unas cuantas veces)
se obtiene un estimador de la densidad que hereda esas propiedades de
suavidad. El estimador resultante

f
K
(x) =
1
nh
n

i=1
K
_
x x
i
h
_
=
1
n
n

i=1
1
h
K
_
x x
i
h
_
(3.1)
3.3. ESTIMADOR N

UCLEO DE LA DENSIDAD 55
se denomina estimador n

ucleo o estimador kernel.

La funcion K se llama funci

on n

ucleo (o kernel) y, en general, es

una funcion de densidad continua, unimodal y simetrica alrededor del 0.
El parametro h se conoce como par

ametro de suavizado.
Otra forma de interpretar el estimador n ucleo es observar que es la den-
sidad de la convoluci

on de la distribucion emprica y la distribucion con

densidad K
h
(e) = K(e/h)/h. En efecto, consideremos una v.a. X
K
que se
construye de la siguiente forma:
1. Generar un ruido de una v.a. con densidad K(e/h)/h.
2. Elegir al azar con equiprobabilidad uno de los n puntos observados
x
1
, . . . , x
n
. Sea x
E
el valor elegido.
3. Hacer X
K
= x
E
+
Entonces la v.a. X
K
tiene funcion de densidad igual a

f
K
(x). Este estimador
distribuye el peso 1/n de cada dato observado en un entorno suyo de forma
continua, tal como se ilustra en la Figura 3.6, donde hay cinco observaciones,
marcadas en la parte inferior.
1 0.5 0 0.5 1 1.5 2 2.5 3 3.5
0
0.5
1
1.5
2
2.5
3
datos
observados
densidad
estimada
h
funcin
ncleo
Figura 3.6: Estimacion de la funcion de densidad a partir de cinco observa-
ciones mediante un n ucleo gaussiano.
Observar que el estimador n ucleo puede expresarse como

f
K
(x) =
1
n
n

i=1
1
h
K
_
x x
i
h
_
=
1
n
n

i=1
K
h
(x x
i
).
56CAP

ITULO 3. ESTIMACI

ON NO PARAM

ETRICA DE LA DENSIDAD
Es decir,

f
K
es la mixtura de n densidades (con pesos 1/n) con la misma
forma que el n ucleo K, reescaladas seg un el parametro h, y centradas cada
una en observaci on x
i
, como se ve en la Figura 3.6.
De todo lo anterior se deduce que el estimador n ucleo es una funcion de
densidad (siempre que lo sea K).
El parametro de suavizado h (o ventana o bandwidth) controla la concen-
tracion del peso 1/n alrededor de cada x
i
: si h es peque no unicamente las
observaciones x
i
mas cercanas a x seran relevantes en la estimacion de f(x),
mientras que valores grandes de h permiten que observaciones mas alejadas
de x tambien intervengan en la estimacion

f(x). La Figura 3.7 ilustra el
efecto del parametro h en la apariencia del estimador n ucleo.
3 2 1 0 1 2 3
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
x
f
x
| | | | || | | || | | | | | | | | | | | | | | | | | | | | || | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | || | | | | | |
3 2 1 0 1 2 3
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
x
f
x
| | | | || | | || | | | | | | | | | | | | | | | | | | | | || | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | || | | | | | |
3 2 1 0 1 2 3
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
x
f
x
| | | | || | | || | | | | | | | | | | | | | | | | | | | | || | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | || | | | | | |
Figura 3.7: Efecto del parametro h en la apariencia del estimador n ucleo en
la estimacion de una mixtura de dos normales. Los valores de h son 0.1, 0.3
y 0.7, de derecha a izquierda.
La estimacion nal se ve notablemente afectada por cambios en la elec-
cion del parametro de suavizado, por lo que esta tarea resulta crucial en la
estimacion no parametrica de la densidad (en la seccion 3.4 se tratara en
detalle este problema). Valores grandes de h hacen que los estimadores de
la densidad sean muy estables de muestra a muestra (poca varianza) pero
las estimaciones presentan gran sesgo. Por el contrario, si h es peque no el
estimador vara mucho en muestras diferentes (mucha varianza), pero en
promedio estima bien la densidad desconocida (poco sesgo).
3.3. ESTIMADOR N

UCLEO DE LA DENSIDAD 57
2 0 2
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
0.5
h=1
2 0 2
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
0.5
h=.25
Figura 3.8: Inuencia de h en el sesgo y varianza del estimador n ucleo de la
densidad.
Ejemplo 3.5
La Figura 3.8 muestra un graco de variabilidad de 30 estimadores n ucleo (el
graco muestra el promedio de los estimadores y las bandas puntuales situa-
das a 2 desviaciones tpicas) construidos a partir de muestras de tama no
100 simuladas a partir de una mixtura de normales con densidad
f(x) =
3
4
f
N
(x; = 0, = 1) +
1
4
f
N
(x; = 3/2, = 1/3),
donde f
N
(x; , ) es la funcion de densidad de una N(,
2
). En el panel de
la izquierda se ha utilizado h = 1 (h grande), mientras que en el de la derecha
se usa h = 0,25 (h peque no). Se observa que a la derecha el sesgo es grande
y la varianza peque na, mientras que lo contrario ocurre a la izquierda. Se ha
usado un n ucleo biweight (ver Cuadro 3.1).
. .
Hay una serie de propiedades que hacen que una funcion K que cum-
pla algunas de ellas sea una funcion n ucleo (o kernel) satisfactoria para ser
utilizada en la denicion (3.1) del estimador n ucleo de la densidad.
1. K es simetrica alrededor de 0.
Es una propiedad deseable, pero no imprescindible. Implica que el peso
1/n de cada dato observado se reparte de forma simetrica alrededor de
la observacion.
58CAP

ITULO 3. ESTIMACI

ON NO PARAM

ETRICA DE LA DENSIDAD
2. K es unimodal (con moda en 0, si K es ademas simetrica).
Es una propiedad deseable, pero no imprescindible. Implica que el peso
1/n de cada dato observado se reparte de forma que queda mas peso
en las zonas mas cercanas a la observacion.
3. K es una funcion de densidad: K(u) 0 para todo u R y
_
R
K(u)du = 1.
Esta propiedad garantiza que el estimador n ucleo denido en (3.1) es
una funcion de densidad. No es una propiedad necesaria para que el
estimador n ucleo tenga buenas propiedades asint oticas.
4. K es positiva: K(u) 0 para todo u R.
No es una propiedad necesaria para que el estimador n ucleo tenga bue-
nas propiedades asint oticas.
5. K integra 1:
_
R
K(u)du = 1.

Esta es una propiedad necesaria para que el sesgo asintotico del esti-
mador sea nulo.
6. K tiene momento de orden 1 nulo:
_
R
uK(u)du = 0.
Se cumple si K es simetrica (y tiene esperanza). Si K no tiene esperanza
0 entonces el sesgo del estimador decrece mas lentamente hacia 0.
7. K tiene momento de orden 2 nito:
_
R
u
2
K(u)du =
2
K
< .
Que la varianza de K sea nita es necesario para que el estimador tenga
sesgo asint otico acotado. Por otra parte, se pueden construir n ucleos no
positivos con momento de orden 2 nulo que permiten reducir el sesgo
asintotico (son los llamados n ucleos de alto orden).
8. K es una funcion suave (tiene r derivadas continuas).
El estimador n ucleo hereda las propiedades de suavidad del n ucleo K a
partir del que se dene. Por tanto, es necesario utilizar n ucleos suaves
para obtener estimadores suaves.
9. K tiene soporte compacto.
Esta propiedad es deseable desde el punto de vista computacional. Si
K(u) se anula fuera del intervalo [c, c], entonces para evaluar

f
K
en un
punto x solo hay que utilizar los puntos x
i
situados en [x ch, x +ch].
3.3. ESTIMADOR N

UCLEO DE LA DENSIDAD 59
3.3.1. Comportamiento asintotico del estimador n ucleo
de la densidad
Comencemos por recordar la denicion de convoluci

on de dos den-
sidades.
Denicion 3.1 Sean X f, Y g dos variables aleatorias independientes.
La convolucion f g de las densidades f y g es la funcion de densidad de
X +Y y vale
(f g)(x) =
_
R
f(x y)g(y)dy
Si X f y K
h
son variables aleatorias independientes, con V (X) mucho
mayor que V (), la convoluci on f K
h
de las densidades f y K
h
es la funcion
de densidad de X +. La densidad f K
h
es un suavizado de la densidad f
(un difuminado de f) en el que se suavizan picos y valles.
Ejemplo 3.6
Consideremos f la densidad de la mixtura de 4 normales con medias situa-
das en -3, -1, 1 y 3, y desviacion tpica 0.5 com un a todas ellas. Sea K
h
la
densidad de una normal centrada en 0 y con desviacion tpica 0.5. Es facil
comprobar que la convoluci on f K
h
corresponde a la mixtura de 4 normales
con medias situadas en -3, -1, 1 y 3, y desviacion tpica com un igual a 1/

2.
Por lo tanto los marcados picos y los valles de f quedan atenuados en la
densidad f K
h
. Vease la gura 3.9.
. .
Consideremos ahora el problema de estimacion no parametrica de la den-
sidad: x
1
, . . . x
n
son n observaciones independientes de la v.a. X que tiene
funcion de densidad desconocida f(x). Sea

f(x) =
1
nh
n

i=1
K
_
x x
i
h
_
el estimador n ucleo de f(x).
Teorema 3.3 (Comportamiento local del estimador n ucleo) Se supo-
nen las siguientes hipotesis de regularidad:
1. f(x) es funcion con 3 derivadas continuas de x.
2. K es simetrica,
_
R
K(u)du = 1,
_
R
uK(u)du = 0 y
_
R
u
2
K(u)du < .
60CAP

ITULO 3. ESTIMACI

ON NO PARAM

ETRICA DE LA DENSIDAD
4 2 0 2 4
0
.
0
0
0
.
0
5
0
.
1
0
0
.
1
5
0
.
2
0
x
f
x
4 2 0 2 4
0
.
0
0
0
.
0
5
0
.
1
0
0
.
1
5
0
.
2
0
x
f
x
Figura 3.9: Convolucion. El graco de la derecha muestra la convoluci on de la
densidad de la izquierda con la densidad de un ruido normal con desviacion
tpica 0.5.
3. (x h, x +h) esta contenido en el soporte de f(x).
4. h 0 y nh cuando n .
El sesgo y la varianza asintoticos de

f(x) son de la siguiente forma:
Sesgo(

f(x)) = E(

f(x)) f(x) = (f K
h
)(x) f(x) =
f

(x)
2
K
h
2
2
+O(h
3
).
V (

f(x)) =
f(x)R(K)
nh
+O
_
1
n
_
.
En estas expresiones, R() =
_
R
(x)
2
dx,
2
K
=
_
R
u
2
K(u)du. As, el error
cuadratico medio es
MSE(

f(x)) =
f(x)R(K)
nh
+
(f

(x))
2

4
K
h
4
4
+O
_
1
n
_
+O(h
5
).
Por lo tanto

f(x) f(x) en probabilidad.
3.3. ESTIMADOR N

UCLEO DE LA DENSIDAD 61
Demostracion:
E(

f(x)) = E
_
1
n
n

i=1
1
h
K
_
x X
i
h
_
_
= E(K
h
(x X
i
))
=
_
R
K
h
(x u)f(u)du = (K
h
f)(x) =
_
R
1
h
K
_
x u
h
_
f(u)du
(por simetra de K)
=
_
R
1
h
K
_
u x
h
_
f(u)du
(cambio de variable: v = (u x)/h, dv = (1/h)du)
=
_
R
K(v)f(x +hv)dv
(Taylor: f(x +hv) = f(x) +f

(x)hv +
1
2
f

(x)h
2
v
2
+O(h
3
))
=
_
R
K(v)(f(x) +f

(x)hv +
1
2
f

(x)h
2
v
2
)dv +O(h
3
)
= f(x)
_
R
K(v)dv +f

(x)h
_
R
vK(v)dv +
1
2
f

(x)h
2
_
R
v
2
K(v)dv +O(h
3
)
= f(x) +
f

(x)
2
K
h
2
2
+O(h
3
).
62CAP

ITULO 3. ESTIMACI

ON NO PARAM

ETRICA DE LA DENSIDAD
V (

f(x)) = V
_
1
n
n

i=1
1
h
K
_
x X
i
h
_
_
=
1
n
V (K
h
(x X
i
))
=
1
n
_
E(K
2
h
(x X
i
)) E(K
h
(x X
i
))
2

=
1
n
_
_
R
K
2
u
(x u)f(u)du
__
R
K
u
(x u)f(u)du
_
2
_
=
1
n
_
(K
2
h
f)(x) (K
h
f)
2
(x)

(por simetra de K)
=
1
n
_
R
1
h
2
K
2
_
u x
h
_
f(u)du
1
n
_
f(x) +O(h
2
)
_
2
(cambio de variable: v = (u x)/h, dv = (1/h)du)
(el ultimo sumando es O(1/n))
=
1
nh
_
R
K
2
(v)f(x +hv)dv +O
_
1
n
_
(Taylor: f(x +hv) = f(x) +O(h))
=
1
nh
_
R
K
2
(v)f(x)dv +
1
nh
O(h) +O
_
1
n
_
=
f(x)
nh
_
R
K
2
(v)dv +O
_
1
n
_
=
f(x)R(K)
nh
+O
_
1
n
_
.
2
Comportamiento global: MISE y AMISE
A partir de los resultados anteriores sobre el comportamiento local del
estimador n ucleo de la densidad, integrando sobre toda la recta real se obtiene
lo siguiente:
MISE(

f) =
_
R
MSE(

f(x))dx =
R(K)
nh
+

4
K
h
4
4
R(f

) +O
_
1
n
_
+O(h
5
),
AMISE(

f) =
R(K)
nh
+

4
K
h
4
4
R(f

).
Derivando en h e igualando a 0, se obtiene que la ventana asintotica optima
(que minimiza el AMISE) es
h
0
=
_
R(K)

4
K
R(f

)
_1
5
n

1
5
.
3.3. ESTIMADOR N

UCLEO DE LA DENSIDAD 63
El AMISE para la ventana optima es
AMISE
0
=
5
4
(
K
R(K))
4
5
R(f

)
1
5
n

4
5
.
Observar que el AMISE optimo es del mismo orden que en el caso del polgono
de frecuencias, O(n
4/5
), mientras que el AMISE parametrico es O(n
1
) =
o(n
4/5
).
Ejemplo 3.7
Figura 2.5 de Wand y Jones (1995).
. .
64CAP

ITULO 3. ESTIMACI

ON NO PARAM

ETRICA DE LA DENSIDAD
Eciencia relativa de distintas funciones n ucleo
Analicemos la expresion del AMISE optimo:
AMISE
0
=
5
4
(
K
R(K))
4
5
R(f

)
1
5
n

4
5
.
El factor R(f

)
1/5
es una medida de la curvatura total de la funcion f(x) que
estamos estimando. Cuanto mas curvatura tiene f(x) mayor es el AMISE
0
.
Por otra parte, el factor (
K
R(K))
4
5
solo depende del n ucleo K empleado
en la construccion del estimador n ucleo. Dado que tenemos libertad para
elegir la funcion n ucleo K, surge la pregunta de que n ucleo K hace menor
esa cantidad. Eso equivale a plantearse el siguiente problema de calculo de
variaciones:
mn
K

K
R(K)
s.a.
_
R
K(u)du = 1
_
R
uK(u)du = 0
_
R
u
2
K(u)du = a
2
En la tercera restriccion se asigna un valor a
2
< arbitrario. Se puede
comprobar que si no se ja un valor de este segundo momento el problema no
esta bien determinado porque se puede obtener el mismo valor de la funcion
objetivo con los n ucleos K(u) y
K

(u) =
1

K
_
u

_
,
que solo dieren en el parametro de escala.
La solucion del problema anterior para a
2
= 1/5 es el n

ucleo de Epa-
nechnikov:
K

(u) =
3
4
(1 u
2
)I
[1,1]
(u).
El valor de la funcion objetivo para este n ucleo es

K
R(K

) =
3
5

5
= 0,2683.
La Figura 3.10 muestra la forma de algunas funciones n ucleo usadas en
estimacion no parametrica de la densidad. El Cuadro 3.1 muestra que la
3.3. ESTIMADOR N

UCLEO DE LA DENSIDAD 65
Eciencia=
N ucleo K Formula
K
R(K

)/
K
R(K)
Epanechnikov (K

) (3/4)(1 x
2
)I
[1,1]
(x) 1
Biweight (15/16)(1 x
2
)
2
I
[1,1]
(x) 0.994
Triweight (35/32)(1 x
2
)
3
I
[1,1]
(x) 0.987
Gaussiano (1/

2) exp(x
2
/2) 0.951
Triangular (1 |x|)I
[1,1]
(x) 0.986
Uniforme (1/2)I
[1,1]
(x) 0.930
Cuadro 3.1: Eciencia relativa de algunas funciones n ucleo.
perdida en eciencia es muy peque na si se usa un n ucleo distinto al optimo
(el de Epanechnikov). La eleccion del n ucleo debe obedecer mas a cuestiones
computacionales (mejor si tiene soporte compacto y si su evaluacion no es
muy costosa) o de suavidad (por ejemplo, el n ucleo de Epanechnikov no es
derivable en 1, mientras que los n ucleos Biweight o Triweight s lo son). Por
ultimo, cabe se nalar que es mucho mas importante la eleccion del parametro
de suavizado que la eleccion del n ucleo.
Eleccion de la ventana mediante la regla de referencia a la normal
Si se supone que la densidad f(x) corresponde a la de una N(,
2
) y se
usa un n ucleo K
G
gaussiano, la formula de la ventana optima da este valor:
h
0,K
G
=
_
R(K
G
)

4
K
G
R(f

)
_1
5
n

1
5
= 1,059n

1
5
.
El valor de =
_
V (X) se estima a partir de los datos como ya vimos en el
caso del histograma.
Si se usa otro n ucleo K distinto al gaussiano la ventana optima sera
h
0,K
=
_
R(K)

4
K
R(f

)
_1
5
n

1
5
y se tiene que el cociente de la ventanas optimas no depende de la funcion
de densidad desconocida:
h
0,K
h
0,K
G
=
_
R(K)/
4
K
R(K
G
)/
4
K
G
_
= c
K
.
66CAP

ITULO 3. ESTIMACI

ON NO PARAM

ETRICA DE LA DENSIDAD
1 0 1
0
0.2
0.4
0.6
0.8
1
Epanechnikov
1 0 1
0
0.2
0.4
0.6
0.8
1
Biweight
1 0 1
0
0.2
0.4
0.6
0.8
1
Triweight
5 0 5
0
0.1
0.2
0.3
0.4
Gaussiano
1 0 1
0
0.2
0.4
0.6
0.8
1
Triangular
1 0 1
0
0.2
0.4
0.6
0.8
1
Uniforme
Figura 3.10: Algunos de los n ucleos usados en estimacion de la densidad.
3.3. ESTIMADOR N

UCLEO DE LA DENSIDAD 67
N ucleo K Factor c
K
Epanechnikov 2.214
Biweight 2.623
Triweight 2.978
Triangular 2.432
Uniforme 1.740
Cuadro 3.2: Constante c
K
para algunas funciones n ucleo.
As,
h
0,K
= c
K
h
0,K
G
= c
K
1,059n

1
5
.
El Cuadro 3.2 recoge los valores de la constante c
K
para distintas funciones
n ucleo.
Funciones n ucleo con ventanas comparables
Algunos programas (por ejemplo la funcion density de R) utilizan ver-
siones ajustadas (reescaladas) de las funciones n ucleo usuales de tal modo
que la varianza de todas estas versiones reescaladas sea igual a 1. De esta
forma el parametros de suavizado h (la ventana) tiene para todos las fun-
ciones n ucleo el mismo signicado: es la desviacion tpica del n ucleo que se
utiliza en el suavizado. Es decir, si K(u) es un n ucleo ya reescalado para
tener varianza 1,

2
K
=
_
R
u
2
K(u)du = 1
y K
h
(u) = (1/h)K(u/h) se tiene que (con el cambio de variable v = u/h)

2
K
h
=
_
R
u
2
K
h
(u)du =
_
R
u
2
1
h
K
_
u
h
_
du = h
2
_
R
v
2
K(v)dv = h
2
.
Si K
0
(u) es un n ucleo con varianza
2
K
0
el n ucleo reescalado para que tenga
varianza 1 es K(u) =
K
0
K
0
(
K
0
u).
El Cuadro 3.3 muestra las ecuaciones de los n ucleos usuales reescaladas
para que el parametro h sea en todos ellos la desviacion tpica.
Las siguientes instrucciones dibujan en R las gracas de estos n ucleos. El
resultado se muestra en la gura 3.11 (Nota: El n ucleo triweight no esta im-
plementado; en su lugar se muestra el n ucleo cosine.)
par(mfrow=c(3,2))
68CAP

ITULO 3. ESTIMACI

ON NO PARAM

ETRICA DE LA DENSIDAD
Formula Varianza original Formula
N ucleo original K
2
K
=
_
R
u
2
K(u)du reescalada
Epanechnikov (3/4)(1 x
2
)I
[1,1]
(x) 1/5 (3/4

5)(1 x
2
/5)I
[

5]
(x)
Biweight (15/16)(1 x
2
)
2
I
[1,1]
(x) 1/7 (15/16

7)(1 x
2
/7)
2
I
[

7]
(x)
Triweight (35/32)(1 x
2
)
3
I
[1,1]
(x) 1/9 (35/96)(1 x
2
/9)
3
I
[3,3]
(x)
Gaussiano (1/

2) exp(x
2
/2) 1 (1/

2) exp(x
2
/2)
Triangular (1 |x|)I
[1,1]
(x) 1/6 (1/

6)(1 |x|/

6)I
[

6]
(x)
Uniforme (1/2)I
[1,1]
(x) 1/3 (1/2

3)I
[

3]
(x)
Cuadro 3.3: Ecuaciones de los n ucleos usuales reescaladas.
N ucleo K Factor c
K
Epanechnikov 1.01006
Biweight 1.00882
Triweight 0.99267
Triangular 1.00719
Uniforme 0.99540
Cuadro 3.4: Constante c
K
para algunas funciones n ucleo reescaladas.
nucleo <- c("epanechnikov", "biweight", "cosine",
"gaussian", "triangular", "rectangular")
sapply(nucleo, function(a) plot(density(c(0),bw=1,kernel=a),main=a))
par(mfrow=c(1,1))
En cuanto a la eleccion optima de la ventana, si se trabaja con n ucleos
ajustados para que tengan varianza 1 se tiene que
h
0,K
h
0,K
G
=
R(K)
R(K
G
)
= c
K
h
0,K
= c
K
h
0,K
G
= c
K
1,059n

1
5
.
El cuadro 3.4 recoge los valores de la constante c
K
para distintas funciones
n ucleo ajustadas.
3.3.2. Problemas de los estimadores n ucleo y algunas
soluciones
A continuacion se enumeran algunos de los problemas practicos que pre-
sentan los estimadores n ucleo de la densidad. Muchos de estos problemas no
son exclusivos de este tipo de estimadores.
3.3. ESTIMADOR N

UCLEO DE LA DENSIDAD 69
3 2 1 0 1 2 3
0
.
0
0
0
.
1
0
0
.
2
0
0
.
3
0
epanechnikov
N = 1 Bandwidth = 1
D
e
n
s
i
t
y
3 2 1 0 1 2 3
0
.
0
0
0
.
1
0
0
.
2
0
0
.
3
0
biweight
N = 1 Bandwidth = 1
D
e
n
s
i
t
y
3 2 1 0 1 2 3
0
.
0
0
.
1
0
.
2
0
.
3
cosine
N = 1 Bandwidth = 1
D
e
n
s
i
t
y
3 2 1 0 1 2 3
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
gaussian
N = 1 Bandwidth = 1
D
e
n
s
i
t
y
3 2 1 0 1 2 3
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
triangular
N = 1 Bandwidth = 1
D
e
n
s
i
t
y
3 2 1 0 1 2 3
0
.
0
0
0
.
1
0
0
.
2
0
0
.
3
0
rectangular
N = 1 Bandwidth = 1
D
e
n
s
i
t
y
Figura 3.11: Gracos en R de algunos de algunos n ucleos reescalados.
70CAP

ITULO 3. ESTIMACI

ON NO PARAM

ETRICA DE LA DENSIDAD
Histograma de CRIM
CRIM
D
e
n
s
i
t
y
0 5 10 15
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
1
.
2
0 5 10 15
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
1
.
2
Estimador ncleo de CRIM
N = 506 Bandwidth = 0.695
D
e
n
s
i
t
y
Figura 3.12: Problemas del estimador n ucleo en el extremos del soporte de
la densidad.
1. Sesgo en los extremos del soporte de f, si este es acotado.
La Figura 3.12 muestra la estimacion n ucleo de la densidad de la varia-
ble CRIM, tasa de criminalidad per capita en los 506 barrios de Boston,
junto con un histograma de la misma variable. A partir del histograma
parece claro que la densidad debera ser decreciente en [0, ], pero el
estimador n ucleo proporciona una densidad que no tiene su maximo
en 0. Por otra parte, de la denicion de la variable se sigue que su so-
porte es [0, ], pero el estimador n ucleo da probabilidad positiva a la
semirrecta negativa.
En la Figura 3.13 se representa la densidad de una exponencial de
parametro = 1 de la cual se ha extrado una muestra de tama no
n = 20. En el graco de la izquierda se muestra la funcion n ucleo
Gaussiana con h = 0,2 situada en torno al punto x = 0,15. Se aprecia
como el estimador n ucleo suaviza el maximo que la verdadera densidad
tiene en el 0. Ello se debe a que el estimador n ucleo compensa la alta
densidad de puntos a la derecha del 0 con la densidad nula que hay a la
izquierda de 0. Por otra parte, en el graco de la derecha se representa
3.3. ESTIMADOR N

UCLEO DE LA DENSIDAD 71
1 0 1 2 3 4 5
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
Exponencial(lambda=1)
x
f
(
x
)
+ + + +++ + + + + + + ++ + + + ++ +
1 0 1 2 3 4 5
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
Exponencial(lambda=1)
x
f
(
x
)
++ + + + + ++ + + + + + + + + + + + +
Figura 3.13: Estimacion de la densidad cerca del 0 en una exponencial de
parametro = 1.
la funcion n ucleo situada en torno al punto x = 0,15. Se observa como
la estimacion de la densidad es positiva en ese punto menor que 0.
Se puede probar que si X tiene soporte [0, ) y K tiene soporte com-
pacto en [1, 1], para x [0, h) el estimador n ucleo tiene sesgo de orden
O(1) (es decir, no va a 0 cuando n tiene a innito), en lugar de ser de
orden O(h
2
), como ocurre si x h o si el soporte de X es toda la recta
real.
Una primera solucion consiste en recortar y reponderar el n ucleo cerca
de la frontera del soporte de X para que de peso 1 a ese soporte. As,
el estimador n ucleo en un punto x cercano a la frontera (supongamos
x [0, h), como antes) sera

f(x) =
1
n
n

i=1
K
x,h
(x
i
)
donde
K
x,h
(x
i
) =
1
_

0
1
h
K
_
ux
h
_
du
1
h
K
_
x x
i
h
_
.
De este modo se consigue que el sesgo del estimador sea O(h) en la
frontera del soporte, una convergencia mas lenta a 0 que el O(h
2
) del
72CAP

ITULO 3. ESTIMACI

ON NO PARAM

ETRICA DE LA DENSIDAD
1 0 1 2 3 4 5
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
Exponencial(lambda=1)
x
f
(
x
)
+ + + ++ + + + + + + + ++ + + + ++ +
Figura 3.14: Estimacion de la densidad cerca del 0.
sesgo en el interior del soporte. Por lo tanto recortar y renormalizar no
es una solucion totalmente satisfactoria. La Figura 3.14 ilustra este pro-
cedimiento en el caso de la estimacion de la densidad de la exponencial
de parametro = 1.
2. El estimador n ucleo aplana picos y valles.
Recordemos la Figura 3.9. El graco de la derecha representa el valor
esperado del estimador n ucleo de la densidad representada en el panel
de la izquierda. Se aprecia que en efecto el estimador n ucleo aplana
picos y valles. Esto se debe a que el sesgo del estimador n ucleo es
Sesgo

f(x) =
h
2

2
K
f

(x)
2
+o(h
2
).
Por lo tanto el sesgo sera positivo (E(

f(x)) > f(x)) en los puntos x
donde f

(x) sea positiva y grande en valor absoluto (all donde haya

un valle de la funcion de densidad), mientras que el sesgo sera negativo
en x cuando f

(x) sea negativa y grande en valor absoluto (en los picos

de la densidad).
3. Falta de adaptacion a las caractersticas locales de la funcion
f.
El estimador n ucleo usual no permite niveles diferentes de suavizado en
3.3. ESTIMADOR N

UCLEO DE LA DENSIDAD 73
0 10 20 30 40
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
h=0.7
x
f
(
x
)
0 10 20 30 40
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
h=2
x
f
(
x
)
Figura 3.15: El estimador n ucleo no permite adaptar el grado de suaviza-
miento a las caractersticas locales de f(x).
partes diferentes del soporte de X. Por ejemplo, la Figura 3.15 mues-
tra la estimacion n ucleo de la densidad de la variable CRIM, tasa de
criminalidad per capita en los 506 barrios de Boston, en el intervalo
[0, 40]. Un valor peque no de h hace un buen trabajo cerca del 0 (donde
la densidad es alta), mientras que para valores grandes de x (donde
la verdadera densidad es baja) la estimacion es demasiado irregular.
Un valor grande de h se adapta bien a las zonas donde la densidad es
peque na, pero no permite observar los detalles all donde f(x) es alta.
Una justicacion de este fenomeno la ofrece la expresion del error
cuadratico medio de

f(x):
MSE(

f(x)) =
f(x)R(K)
nh
+
(f

(x))
2

4
K
h
4
4
+o
_
1
nh
_
+o(h
4
).
As que MSE(

f(x)) es creciente en f(x)/h y en h
4
(f

(x))
2
.
Por lo tanto, para reducir el error cuadratico medio de

f(x) el parame-
tro de suavizado h debera ser grande si f(x) es grande y debera ser
peque no si |f

(x)| es grande (zonas con mucha curvatura).

74CAP

ITULO 3. ESTIMACI

ON NO PARAM

ETRICA DE LA DENSIDAD
En la practica, las desventajas de un estimador n ucleo con h constante
se traducen en un sobresuavizado de las zonas con mucha estructura
(|f

(x)| grande) y un infrasuavizado en las colas de la distribucion

(donde f es casi plana: |f

(x)| 0).
A continuacion se listan algunos de los posibles ajustes y modicaciones
que pueden hacerse para corregir las deciencias practicas de los estimadores
n ucleo de la densidad que acabamos de enumerar.
1. Funciones n ucleo ajustadas en la frontera del soporte.
Se trata de encontrar funciones n ucleo K
x
especcas para la estimacion
de la densidad en cada punto x que diste menos de h de la frontera del
soporte. Estos n ucleos se deben ajustar de manera que el sesgo en la
estimacion de f(x) sea O(h
2
), como ocurre en el resto del soporte de f.
Para ello es necesario que el n ucleo K
x
tome valores negativos. Si bien
es cierto que este metodo consigue reducir el sesgo en la frontera, esta
reduccion se hace a costa de aumentar la varianza de la estimacion de
f(x) en esa zona. Para mas detalles vease la Seccion 3.3.1 de Simono
(1996).
2. N ucleos de alto orden.
Son n ucleos K con momento de orden 2 nulo (
_
R
u
2
K(u)du = 0). Por
lo tanto deben tomar valores negativos en algunas partes de su soporte.
El hecho de tener ese segundo momento nulo hace que en el desarrollo
de Taylor que permite aproximar el sesgo del estimador n ucleo se anule
el termino de orden O(h
2
) y como resultado se tenga que el sesgo de un
n ucleo de alto orden sea de orden O(h
4
) o inferior. El efecto practico
principal es que el estimador se ajusta mejor a los picos y valles de la
verdadera funcion de densidad.
3. Estimador n ucleo con ventana variable.
Como hemos visto antes, sera conveniente poder suavizar mas donde
|f

(x)| sea peque no, y menos donde ese valor sea grande. Esto se puede
hacer, al menos, de dos formas:
a) Estimador n

ucleo local. Se permite que la ventana h depen-

da del punto x donde se realiza la estimacion:

f
L
(x) =
1
nh(x)
n

i=1
K
_
x x
i
h(x)
_
.
Observese que el estimador

f
L
no es una verdadera funcion de
densidad (no tiene por que integrar 1).
3.3. ESTIMADOR N

UCLEO DE LA DENSIDAD 75
Se puede probar que el valor h(x) que minimiza el error cuadratico
medio asint otico del estimador es
h
AMSE
(x) =
_
R(K)f(x)

4
K
f

(x)
2
_
1/5
n
1/5
.
Por lo tanto, se necesita un estimador piloto de f(x) para poder
calcular en la practica ese valor.
Un caso particular de estimador n ucleo local es el conocido como
estimador n

ucleo de los k vecinos m

as cercanos (en
ingles, k-nearest neighbors kernel estimator). En este estimador se
usa un n ucleo K con soporte en [1, 1] y la ventana h(x) = h
k
(x)
se elige como el mnimo valor que permite que en [xh(x), x+h(x)]
entren k de las observaciones x
i
(seran las k observaciones mas
cercanas al punto x). El valor de k se puede elegir por validacion
cruzada (ver Seccion 3.4). En ocasiones se ja la proporcion de
datos k/n que se quiere usar en la estimacion de cada valor f(x)
en vez de jar k. A esa proporcion se le denomina span en algunos
paquetes estadsticos. Ver la Seccion 3.7 para mas detalles sobre
el estimador de los k vecinos mas cercanos.
b) Estimador n

ucleo de ventana variable. Cada una de las

observaciones x
i
tiene asociado un valor de la ventana:

f
V
(x) =
1
n
n

i=1
1
h(x
i
)
K
_
x x
i
h(x
i
)
_
.
Observese que

f
V
es una verdadera funcion de densidad.
Una buena eleccion de h(x
i
) es
h(x
i
) = h
V
f(x
i
)
1/2
.
As se reduce el sesgo de O(h
2
) a O(h
4
) y la varianza sigue siendo
O((nh)
1
). Si ademas se toma h
V
= O(n
1/9
) entonces MISE =
O(n
8/9
).
Se necesita una estimacion piloto de f(x
i
) para denir h(x
i
). Esta
estimacion piloto se realiza con una ventana ja. Tambien hay
que elegir el parametro de suavizado h
V
(ver Seccion 3.4). En la
practica la eleccion de h
V
tiene mas inuencia en el estimador nal
que la estimacion piloto de f(x
i
).
4. Estimacion basada en una transformacion.
Supongamos que x
1
, . . . , x
n
es una muestra aleatoria simple de X f
X
,
76CAP

ITULO 3. ESTIMACI

ON NO PARAM

ETRICA DE LA DENSIDAD
y que la estimacion de la funcion de densidad f
X
presenta alguna di-
cultad (por ejemplo, su soporte es acotado, o tiene una moda muy
pronunciada y al mismo tiempo colas altas). Es posible que transfor-
mando los datos obtengamos una densidad mas facilmente estimable
(por ejemplo, el soporte de la variable aleatoria transformada puede ser
toda la recta real).
Sea Y = g(X), con g una transformacion biyectiva del soporte de X
en el soporte de Y . Entonces
f
Y
(y) = f
X
(g
1
(y))
1
|g

(g
1
(y))|
,
f
X
(x) = f
Y
(g(x))|g

(x)|.
Los datos y
i
= g(x
i
), i = 1, . . . , n, forman una muestra aleatoria simple
de Y f
Y
, que podemos usar para estimar no parametricamente f
Y
:

f
Y
(y) =
1
nh
n

i=1
K
_
y y
i
h
_
.
A partir de el, se dene el estimador n

ucleo de f
X
basado en la
transformaci

on g como

f
X,g
(x) =

f
Y
(g(x))|g

(x)| =
1
nh
n

i=1
K
_
g(x) g(x
i
)
h
_
|g

(x)|.
Observar que, por el Teorema del valor Medio,
g(x) g(x
i
) = (x x
i
)g

(
i
)
para alg un punto
i
intermedio entre x y x
i
. As,

f
X,g
(x) =
1
n
n

i=1
1
h/|g

(x)|
K
_
x x
i
h/|g

(
i
)|
_
.
Se ha supuesto que K es simetrico, para poder escribir g

(
i
) en valor
absoluto.
Se tiene entonces que

f
X,g
(x) es un hbrido entre

f
L
(x) y

f
V
(x) porque
una ventana depende de x y otra de x y x
i
conjuntamente.
Una familia de transformaciones que resulta util es la de Box-Cox:
g(x;
1
,
2
) =
_
(x +
1
)

2
signo(
2
) si
2
= 0
log(x +
1
) si
2
= 0
con
1
> nf{Soporte(X)}. Se recomienda elegir
1
y
2
de manera
que f
Y
sea facil de estimar.
3.4. SELECCI

ON AUTOM

ATICA DEL PAR

AMETRO DE SUAVIZADO77
3.4. Seleccion automatica del parametro de
suavizado
Nos centraremos en la seleccion del parametro de suavizado en el estima-
dor n ucleo, pero las ideas y metodos que se presentan se trasladan a otros
estimadores con facilidad.
Esta seccion se basa principalmente en el Captulo 3 de Wand y Jones
(1995). Tambien puede consultarse la Seccion 2.4 de Bowman y Azzalini
(1997).
3.4.1. Regla de referencia a la normal
Este metodo ya ha sido presentado en la Seccion 3.3, pagina 65. Recor-
demos unicamente que el valor del parametro de suavizado h propuesto es
h
N
=
_
8

R(K)
3
4
K
_
1/5
n
1/5
= c
K
1,059 n
1/5
,
con
= mn{S, IQR/1,35},
donde S
2
es la varianza muestral de los datos, y IQR es su rango intercuartli-
co. La constante c
K
depende del n ucleo elegido y sus valores estan recogidos
en las tablas 3.2 y 3.4.
3.4.2. Sobresuavizado
Este metodo, del mismo modo que la regla de referencia a la normal
descrita anteriormente, ofrece una formula facil de evaluar y que en muchos
casos proporciona valores razonables del parametro de suavizado h. A veces
se usan uno u otro metodo como punto de partida de reglas mas complejas.
Recordemos que la expresion de h que minimiza el AMISE es
h
AMISE
=
_
R(K)

4
K
R(f

)
_
1/5
n
1/5
.
Si pudiesemos encontrar una cota inferior de R(f

) =
_
R
(f

(x))
2
dx, digamos
R

, entonces podramos armar que

h
AMISE

_
R(K)

4
K
R

_
1/5
n
1/5
= h
OS
,
78CAP

ITULO 3. ESTIMACI

ON NO PARAM

ETRICA DE LA DENSIDAD
y el valor h
OS
(OS viene de oversmoothing, que en ingles signica sobresuavi-
zado) denido arriba sera una cota superior de la ventana optima h
AMISE
.
Por lo tanto, usando h
OS
estamos seguros de que estamos sobresuavizando.
Scott (1992) se plantea el problema variacional siguiente:
mn
f
R(f

) =
_
R
(f

(x))
2
dx
s.a.
_
R
f(x)dx = 1
_
R
xf(x)dx = 0
_
R
x
2
f(x)dx = 1
La solucion es
f

(x) =
35
96
(1 x
2
/9)
3
I
[3,3]
(x),
que es la expresion del n ucleo Triweight reescalado parta tener varianza 1
(ver Tabla 3.3). Para esta funcion
R

= R((f

) =
35
243
.
Si se resuelve el problema con la restriccion
_
R
x
2
f(x)dx =
2
la solucion
optima es f

con un cambio de escala:

_
x

_
y
R

=
35
243
1

5
.
Por lo tanto,
h
AMISE
h
OS
=
_
243R(K)
35
4
K
_
1/5
n
1/5
.
El valor de se estima a partir de los datos como en el caso de la regla de
referencia a la normal.
Observar que
h
OS
=
_
243/35
8

/3
_
1/5
h
N
= 1,08h
N
.
3.4. SELECCI

ON AUTOM

ATICA DEL PAR

AMETRO DE SUAVIZADO79
Por lo tanto la regla de referencia a la normal proporciona valores de h muy
proximos al h de sobresuavizado. Se concluye que la regla de la normal tiende
a sobresuavizar.
En la practica el valor h
OS
sirve de gua para empezar la exploracion del h
adecuado. Pueden probarse los valores h
OS
, h
OS
/2, h
OS
/4, etc., y elegir entre
esos valores el que se considere mas adecuado visualmente. Naturalmente este
proceso no puede automatizarse.
3.4.3. Validaci on cruzada por mnimos cuadrados
El criterio que hemos utilizado para medir la bondad de un estimador

f(, h) (estimador n ucleo con ventana h) de la funcion de densidad f es el

error cuadratico integrado medio (MISE):
MISE(

f(, h)) = E
X
__
R
(

f(x, h) f(x))
2
dx
_
=
E
X
__
R

f(x, h)
2
dx
_
+
_
R
f(x)
2
dx 2E
X
__
R

f(x, h)f(x)dx
_
.
En esta expresion, X representa una m.a.s. de X de tama no n, y E
X
((X))
indica que se toma la esperanza de (X) con respecto a la distribucion con-
junta de X. Observar que el segundo sumando no depende de h. Queremos
buscar el h que minimice el MISE(

f(, h)), o de forma equivalente, que mi-
nimice
MISE(

f(, h))
_
R
f(x)
2
dx = E
X
__
R

f(x, h)
2
dx 2
_
R

f(x, h)f(x)dx
_
(3.2)
como funcion de h. Esta expresion depende de la funcion de densidad f
desconocida a traves de la segunda integral y a traves de la esperanza en
X, cuya densidad conjunta es f
n
. Por lo tanto no es posible evaluar esa
expresion, dado que f es desconocida. Lo que s es posible es construir un
estimador de esa cantidad, que dependera de h, y buscar el valor de h que
haga mnimo ese estimador. Para ello conviene observar lo siguiente:
E
X
__
R

f(x, h)f(x)dx
_
=
_
R
n
_
R

f(x, h)f(x)
n

i=1
f(x
i
)dxdx
1
. . . dx
n
= E
X,X
_

f(X, h)
_
,
donde X f y ademas X y X son independientes.
80CAP

ITULO 3. ESTIMACI

ON NO PARAM

ETRICA DE LA DENSIDAD
Una primera propuesta para estimar
_
R

f(x, h)f(x)dx = E
X
_

f(X, h)
_
es hacerlo mediante el estadstico
1
n
n

i=1

f(X
i
, h),
pero aqu la variable aleatoria X
i
donde se eval ua

f(, h) no es indepen-
diente de las observaciones que hemos usado para construir el estimador no
parametrico de f.
Una alternativa es tomar como estimador
1
n
n

i=1

f
i
(X
i
, h),
donde

f
i
(x, h) =
1
(n 1)h

j=i
K
_
x X
j
h
_
.
De este modo garantizamos independencia entre el argumento del estimador
no parametrico y los datos usados para construirlo.
As, se dene el estadstico
LSCV(h) =
_
R

f(x, h)
2
dx 2
1
n
n

i=1

f
i
(X
i
, h)
y se toma el valor h que lo minimiza:
h
LSCV
= arg mn
h
LSCV(h).
El procedimiento se llama validacion cruzada porque se valida la estima-
cion no parametrica evaluando (de forma cruzada) el estimador construido
con unas observaciones que no intervienen en su construccion. Esta metodo-
loga tambien se conoce como leave-one-out (dejar uno fuera).
Este procedimiento fue uno de los primeros intentos de buscar el parame-
tro h de forma automatica. Una de las desventajas que presenta es que la
funcion LSCV(h) puede tener varios mnimos locales. Las ventanas elegidas
seg un este procedimiento presentan mucha variabilidad.
3.4. SELECCI

ON AUTOM

ATICA DEL PAR

AMETRO DE SUAVIZADO81
3.4.4. Plug-in directo
Hoy en da el metodo de eleccion de h que da mejores resultados practicos
es el conocido como plug-in. Se basa en sustituir en la expresion del valor h
que minimiza el AMISE,
h
AMISE
=
_
R(K)

4
K
R(f

)
_
1/5
n
1/5
,
la cantidad desconocida R(f

) por una estimacion hecha a partir de los datos

observados.
Se puede probar que R(f

) =
4
(f), donde
j
(f) = E(f
(j)
(X)), X f
y f
(j)
es la derivada j-esima de f.
Por lo tanto, un estimador razonable de R(f

) es

4
(f) =
1
n
n

i=1

f
(iv)
L,g
(x
i
),
donde

f
L,g
es un estimador de la funcion de densidad f construido con n ucleo
L y ventana g.
Surge inmediatamente la pregunta de como ha de ser elegida la ventana g
para estimar
4
(f) de forma optima (en el sentido de que minimice el AMSE
de

4
(f) como estimador de
4
(f)).
Se puede probar que si se usa como L el mismo n ucleo K original y f es
sucientemente suave, entonces
g
AMSE
=
_
2K
(iv)
(0)

4
K

6
(f)
_
1/7
n
1/7
.
Esta regla tiene el mismo defecto que la regla plug-in para elegir h: necesita-
mos una estimacion de
6
(f) para poder estimar g
AMSE
.
Si se estima
6
(f) con el mismo n ucleo K se llega a que la ventana optima
de la estimacion depende de
8
, y as sucesivamente: la ventana optima para
estimar
r
depende de
r+2
.
La estrategia habitual es estimar una de las
4+2l
mediante la regla de
referencia a la normal (calculando su valor si f fuese la densidad de una
N(,
2
)).
Despues se van estimando con las ventanas g
AMSE
los valores
4+2j
,
j = l 1, l 2, . . . , 0.
Finalmente se toma como ventana de plug-in directo con l pasos, el valor
h
DPI,l
=
_
R(K)

4
K

4
_
1/5
n
1/5
.
82CAP

ITULO 3. ESTIMACI

ON NO PARAM

ETRICA DE LA DENSIDAD
Figura 3.16: Comportamiento del selector de ventana h
DPI,l
para varios va-
lores de l. (Figura 3.4 de Wand y Jones, 1995).
Observar que la regla de referencia a la normal que vimos anteriormente
es tambien la regla de plug-in directo con l = 0 pasos:
h
N
= h
DPI,0
.
La Figura 3.16 muestra como la estimacion de h mejora cuando l crece.
Es recomendable usar h
DPI,2
. A este procedimiento de seleccion de la
ventana tambien se le llama de Sheather y Jones, porque fueron estos autores
quienes lo propusieron (Sheather y Jones 1991).
El siguiente algoritmo muestra como se implementara este selector de
ventana.
1. Estimar
8
suponiendo normalidad:

N
8
=
105
32

9
.
3.4. SELECCI

ON AUTOM

ATICA DEL PAR

AMETRO DE SUAVIZADO83
2. Estimar
6
mediante

6
(g
1
), donde
g
1
=
_
2K
(vi)
(0)

4
K

N
8
(f)
_
1/9
n
1/9
.
3. Estimar
4
mediante

4
(g
2
), donde
g
2
=
_
2K
(iv)
(0)

4
K

6
(g
1
)
_
1/7
n
1/7
.
4. Seleccionar la ventana
h
DPI,2
=
_
R(K)

4
K

4
(g
2
)
_
1/5
n
1/5
.
3.4.5. Validaci on cruzada por maxima verosimilitud
Para la eleccion del parametro de suavizado h existen versiones de los
metodos conocidos como validacion cruzada. En concreto, para un valor dado
h se estima la verosimilitud de x
i
a partir del estimador no parametrico de
la densidad calculado con el resto de la muestra y ese valor de h:

f
h,(i)
(x
i
) =
1
(n 1)h
n

j=i
K
_
x
i
x
j
h
_
.
Despues se dene la verosimilitud de la muestra por validacion cruzada para
el valor h del parametro de suavizado como
L
CV
(h) =
n

i=1

f
h,(i)
(x
i
)
y se toma como valor de h aquel h
LCV
que hace maxima esa cantidad.
Este metodo no es el mas utilizado, pese a la sencillez de su planteamiento.
Vease la Seccion 3.4.4 de Silverman (1986) para mas detalles. En concreto se
recomienda usarlo con cautela cuando puede haber datos atpicos.
3.4.6. Otros metodos
Validaci on cruzada sesgada (biased cross-validation): h
BCV
.
Esta relacionada con la validacion cruzada por mnimos cuadrados. Se
84CAP

ITULO 3. ESTIMACI

ON NO PARAM

ETRICA DE LA DENSIDAD
Figura 3.17: Comparacion del comportamiento de h
LSCV
y h
BCV
como esti-
madores de la ventana h
MISE
que minimiza el MISE. (Figura 3.3 de Wand
y Jones, 1995).
renuncia a estimar de forma insesgada la funcion objetivo (3.2) depen-
diente de h, pero se consigue estimarla con menor varianza.
Como consecuencia, h
BCV
tiene menos varianza que h
LSCV
(es mas es-
table), aunque tiene algo de sesgo.
A veces el estimador de la funcion objetivo presenta mas de un mnimo
local.
En general, h
BCV
es preferible a h
LSCV
. Ver Figura 3.17.
Regla que resuelve una ecuacion (solve-the-equation): h
STE
.
Esta relacionada con la regla plug-in directo. En la expresion que apro-
xima el valor de h que minimiza el AMISE,

h
AMISE
=
_
R(K)

4
K

4
(g)
_
1/5
n
1/5
,
3.5. ESTIMACI

ON DE LA DENSIDAD MULTIVARIANTE 85
se puede probar que el valor de g que estima bien
4
puede expresarse
en terminos de h
AMISE
: g = g(h
AMISE
).
Por lo tanto se propone resolver numericamente en h la ecuacion implci-
ta siguiente:
h =
_
R(K)

4
K

4
(g(h))
_
1/5
n
1/5
.
Al valor resultante se le denota por h
STE
.
Scott, Tapia y Thompson (1977) proponen resolver la ecuacion implci-
ta
h =
_
R(K)

4
K

4
(h)
_
1/5
n
1/5
.
Al valor resultante se le llama ventana de Scott, Tapia y Thompson
(h
STT
). Este metodo plantea problemas de convergencia.
Validaci on cruzada suavizada (smooth cross-validation): h
SCV
.
Bootstrap suavizado: h
SB
.
Comparaciones y recomendaciones practicas
La Figura 3.18 compara distintos selectores automaticos del parametro de
suavizado en la estimacion de la densidad de una mixtura de dos normales.
A partir de este ejemplo y de otros estudios publicados, se concluye que
los selectores basados en plug-in directo y en resolver una ecuacion son los
mas recomendables y que ambos son comparables entre s. Tras ellos se sit ua
el basado en validacion cruzada sesgada y por ultimo quedara el basado en
validacion cruzada por mnimos cuadrados:
LSCV BCV
_
DPI
STE
3.5. Estimacion de la densidad multivariante
Sea ahora x
1
, . . . , x
n
una. m.a.s. de X, v.a. d-dimensional con densidad
f(x), x R
d
. Se desea estimar la funcion f(x). Existen versiones del histogra-
ma y del polgono de frecuencias para estimar f(x) con datos multivariantes,
pero no son muy satisfactorias desde el punto de vista descriptivo. Por lo
86CAP

ITULO 3. ESTIMACI

ON NO PARAM

ETRICA DE LA DENSIDAD
Figura 3.18: Comportamiento de varios selectores de ventana. (Figura 3.5 de
Wand y Jones, 1995).
3.5. ESTIMACI

ON DE LA DENSIDAD MULTIVARIANTE 87
tanto presentaremos directamente el estimador n ucleo de la densidad multi-
variante.
La generalizacion natural del estimador n ucleo univariante es esta,

f(x) =
1
n
n

i=1
K
d
(x x
i
),
donde K
d
: R
d
R es una funcion n ucleo d-dimensional que verica:
_
R
d
K
d
(u)du = 1,
_
R
d
uK
d
(u)du = 0 R
d
,
_
R
d
uu
T
K
d
(u)du = I
d
(la matriz identidad d d).
Usualmente se toma una funcion densidad centrada en el 0 R
d
. As,

f(x)
es una mixtura de n densidades, cada una de ellas centrada en una de las
observaciones x
i
R
d
.
Ejemplo 3.8
Consideremos el conjunto de datos referido a la vivienda en 506 barrios de
Boston. La Figura 3.19 muestra el estimador n ucleo bivariante de la densidad
conjunta de las variables LSTAT y RM (n umero medio de habitaciones por
domicilio) representada en 3 dimensiones y mediante curvas de nivel.
Se ha utilizado la librera sm en R y las instrucciones
sm.density(cbind(LSTAT,RM),h=c(1.5,.15),phi=30,theta=60,col=5)
sm.density(cbind(LSTAT,RM),h=c(1.5,.15),display="slice")
sm.density(cbind(LSTAT,RM),h=c(1.5,.15),display="slice",
add=T,col=2,props=c(90))
. .
La forma en la que se introduce distinto grado de suavizado en el estima-
dor es mediante lo que se conoce como matriz ventana H:

f(x) =
1
n|H|
n

i=1
K
d
_
H
1
(x x
i
)
_
,
donde H es una matriz d d no singular y |H| es el valor absoluto del
determinante de H. La matriz H representa una rotacion de los datos y
cambios de escala en cada variable. A continuacion se listan algunos ejemplos
de matrices H y los efectos que tiene su inclusion en el estimador:
88CAP

ITULO 3. ESTIMACI

ON NO PARAM

ETRICA DE LA DENSIDAD
L
S
T
A
T
10
20
30
R
M
4
5
6
7
8
D
e
n
s
i
t
y

f
u
n
c
t
i
o
n
0.00
0.01
0.02
0.03
0.04
0.05
5 10 15 20 25 30 35
4
5
6
7
8
LSTAT
R
M
Figura 3.19: Estimador n ucleo de la densidad conjunta de las variables LSTAT
y RM.
3.5. ESTIMACI

ON DE LA DENSIDAD MULTIVARIANTE 89
Un cambio de escala global: H = hI
d
, h > 0. Se consigue mayor (h
grande) o menor (h peque no) grado de suavidad del estimador n ucleo.
Un cambio de escala distinto en cada dimension: H = Diag(h
1
, . . . , h
d
),
h
j
> 0, j = 1, . . . , d.
Un cambio de escala distinto en cada dimension seguido de una rota-
cion: H = Diag(h
1
, . . . , h
d
)T, h
j
> 0, j = 1, . . . , d, y Q una matriz
ortonormal (QQ
T
= Q
T
Q = I
d
). Se consigue diferente grado de suavi-
dad en diferentes direcciones del espacio R
d
, que vienen dadas por las
columnas de Q.
Una practica usual es usar un n ucleo producto que, dado K un n ucleo
univariante, se dene como
K
d
(u
1
, . . . , u
d
) =
d

j=1
K(u
j
).
Las propiedades asintoticas del estimador n ucleo se resumen en la siguien-
te proposicion.
Proposicion 3.1 Se escribe H = hA, con |A| = 1 y h = |H|
1/d
R.
Entonces
AMISE(

f) =
R(K
d
)
nh
d
+
h
4
4
C(A, f),
donde C(A, f) es una constante que depende solo de f y de A. Si h tiende a
0 y nh
d
tiende a innito cuando n tiende a innito, entonces

f(x) converge
puntualmente en MSE y globalmente en MISE.
El valor de h que minimiza el AMISE y el AMISE correspondiente son
h
0
= O(n
1/(d+4)
), AMISE
0
= O(n
4/(d+4)
).
La principal consecuencia de este resultado es que cuanto mayor es la
dimension d de los datos, menor es la precision con la que se estima la den-
sidad. Eso se debe a que cuanto mayor es d mas alejado de 1 es el orden
de convergencia del AMISE
0
.
3.5.1. Eleccion de la matriz ventana
La matriz ventana H tiene d
2
elementos que hay que seleccionar. En la
practica las tres formas usuales de elegir esta matriz son las siguientes.
90CAP

ITULO 3. ESTIMACI

ON NO PARAM

ETRICA DE LA DENSIDAD
1. H = hI
d
.
Es razonable si la escala de las variables es comparable o si se ha estan-
darizado previamente. El valor de h se puede elegir por alg un criterio
analogo a los vistos en dimension 1 (plug-in o validacion cruzada, por
ejemplo).
2. H = Diag(h
1
, . . . , h
d
).
Es la opcion mas frecuente en los paquetes estadsticos que incorporan
estimacion no parametrica de densidades multivariantes. Si ademas se
usa un n ucleo producto, el estimador n ucleo de la densidad queda de
la forma

f(x) =
1
n

d
j=1
h
j
n

i=1
d

j=1
K
_
x
j
x
ij
h
j
_
donde h
j
es un parametro de suavizado adecuado para la j-esima coor-
denada de X.
Si se toma n ucleo producto gaussiano, el estimador de la densidad d
dimensional sera la mixtura de n densidades normales multivariantes
con d coordenadas independientes con varianzas h
2
j
, y cada densidad
estara centrada en una observaci on x
i
.
La eleccion de cada h
j
puede hacerse al menos de tres formas:
a) Se considera la muestra univariante formada por la componente
j-esima de los datos observados y a partir de ellos se elige h
j
con alguno de los metodos univariantes (plug-in, por ejemplo).
Despues se ajusta ese valor por el cambio de dimension:
h
j
= h
unidim
j
n
1/(d+4)
n
1/5
.
b) Se hace h
j
= a
j
, j = 1, . . . , d, y se utiliza alg un criterio (plug-in,
por ejemplo) analogo a los vistos en dimension 1 para elegir el
valor de a.
c) Regla de la normal: h
j
= 1,05
j
n
1/(d+4)
.
3. H = hC
1/2
, donde C es la matriz de covarianzas de los datos.
Esta es una forma de tener en cuenta la correlacion entre las coorde-
nadas de X. En vez de tomar n ucleos multivariantes con coordenadas
independientes (es lo que ocurre si tomamos el producto de n ucleos
univariantes) se toma como n ucleo la funcion de densidad de una va-
riable aleatoria cuya matriz de varianzas y covarianzas sea un m ultiplo
3.5. ESTIMACI

ON DE LA DENSIDAD MULTIVARIANTE 91
h
2
de la matriz de varianzas y covarianzas muestral C de los datos
(x
i1
, . . . , x
id
), i = 1, . . . , n.
Por ejemplo, si se toma un n ucleo gaussiano multivariante con estas
caractersticas se tiene que

f
K
(x) =
1
n(2)
d/2
h
d
|C|
1/2
n

i=1
exp
_

1
2h
(x x
i
)
T
C
1
(x x
i
)
_
.
El valor de h se elige mediante alguno de los criterios conocidos.
Existe una versi on multivariante de la regla de la normal:
H
N
=
_
4
d + 2
_
1/(d+4)

1/2
n
1/(d+4)
, = Var(X).
Dado que (4/(d +2))
1/(d+4)
(0,924, 1,059), ese valor se aproxima por
1. As, en la practica
H
N
= C
1/2
n
1/(d+4)
.
3.5.2. Representacion de densidades tri-variantes
Sea X es una variable aleatoria de dimension d = 3 con densidad f(x),
x R
3
. No es obvio como representar f(x) gracamente.
Una opcion consiste en representar los contornos de nivel, que son
analogos a las curvas de nivel cuando d = 2:
C
k
= {x R
3
: f(x) = k} R
3
.
Los conjuntos C
k
son supercies bidimensionales inmersas en R
3
y pueden
ser representadas mediante tecnicas estandar.
Ejemplo 3.9
Para el conjunto de datos referido a la vivienda en 506 barrios de Boston, la
Figura 3.20 muestra el estimador n ucleo trivariante de la densidad conjunta
de las variables CMEDV (valor medio de las casas ocupadas por sus propietarios,
en miles de dolares), LSTAT y RM mediante un contorno de nivel que encierra
una probabilidad de 0.75.
Se ha utilizado la librera sm en R y la instruccion
sm.density(cbind(LSTAT,CMEDV,RM),h=c(1.5,1.5,.15),
theta=-40,props=75)
92CAP

ITULO 3. ESTIMACI

ON NO PARAM

ETRICA DE LA DENSIDAD
LSTAT
CMEDV
RM
Figura 3.20: Contorno de nivel 0.75 de la densidad conjunta de las variables
CMEDV, LSTAT y RM.
. .
Otra opcion es representar las densidades bivariantes de dos de las tres
variables, condicionando a que la tercera variable pertenece a distintos in-
tervalos. Este metodo recibe el nombre de gr

aficos condicionales. Es la
unica alternativa para dimensiones d 4.
Ejemplo 3.10
Para el conjunto de datos referido a la vivienda en 506 barrios de Boston,
la Figura 3.20 muestra la densidad conjunta de las variables CMEDV, LSTAT y
RM mediante gracos de la densidad de CMEDV y LSTAT condicionales a tres
rangos de valores de la variable RM.
3.5. ESTIMACI

ON DE LA DENSIDAD MULTIVARIANTE 93
Se ha utilizado la librera sm en R y las instrucciones
par(mfrow=c(2,2))
sm.density(cbind(LSTAT,CMEDV),h=c(1.5,1.5),display="slice")
title(main="All data")
q33 <- quantile(RM,.33)
q66 <- quantile(RM,.66)
I1<-(RM<q33)
sm.density(cbind(LSTAT[I1],CMEDV[I1]),h=c(1.5,1.5),
display="slice",xlim=c(0,40),xlab="LSTAT",ylab="CMEDV")
title(main="RM<Q(.33)")
I2<-( (RM>=q33) & (RM<q66) )
sm.density(cbind(LSTAT[I2],CMEDV[I2]),h=c(1.5,1.5),
display="slice",xlim=c(0,40),xlab="LSTAT",ylab="CMEDV")
title(main="Q(.33)<=RM<Q(.66)")
I3<-(RM>=q66)
sm.density(cbind(LSTAT[I3],CMEDV[I3]),h=c(1.5,1.5),
display="slice",xlim=c(0,40),xlab="LSTAT",ylab="CMEDV")
title(main="Q(.66)<=RM")
. .
3.5.3. La maldicion de la dimensionalidad
Hemos visto mas arriba que cuanto mayor es la dimension d de los datos,
menor es la precision con la que se estima la funcion de densidad (el orden
de convergencia del AMISE
0
se aleja de 1 cuando d crece).

Esta es solo una muestra de la dicultad que entra na hacer estimacion

no parametrica de la densidad (y de otras funciones) cuando la dimension d
de los datos es grande.
En ingles este problema se conoce como the curse of dimensionality, que
puede traducirse como la maldici

on de la dimensionalidad. Se debe a
que en dimensiones altas los entornos de un punto estan practicamente vacos
de los puntos observados en una muestra.
Dicho de otro modo: si queremos construir una bola centrada en un punto
x
0
R
d
que contenga digamos el 25 % de los puntos observados, esa bola
debera ser tan grande que difcilmente podremos decir que representa un
entorno de x
0
.
94CAP

ITULO 3. ESTIMACI

ON NO PARAM

ETRICA DE LA DENSIDAD
5 10 15 20 25 30 35
1
0
2
0
3
0
4
0
5
0
LSTAT
C
M
E
D
V
All data
0 10 20 30 40
1
0
2
0
3
0
4
0
5
0
LSTAT
C
M
E
D
V
RM<Q(.33)
0 10 20 30 40
1
0
2
0
3
0
4
0
5
0
LSTAT
C
M
E
D
V
Q(.33)<=RM<Q(.66)
0 10 20 30 40
1
0
2
0
3
0
4
0
5
0
LSTAT
C
M
E
D
V
Q(.66)<=RM
Figura 3.21: Representacion de la densidad conjunta de las variables CMEDV,
LSTAT y RM mediante gracos de la densidad de CMEDV y LSTAT condicionales
a 3 niveles de la variable RM. En el primer graco se muestra la densidad de
CMEDV y LSTAT sin condicionar.
3.6. INFERENCIA BASADA EN LA ESTIMACI

ON DE LA DENSIDAD95
La siguiente tabla muestra este efecto. Sea X U([1, 1]
d
) una varia-
ble aleatoria uniforme en el hiper-cubo d dimensional de lado [1, 1]. Sea
B
d
(0
d
, 1) la bola centrada en el origen de R
d
de radio 1. Para distintas di-
mensiones d se calcula la probabilidad que X pone en esa bola, que podramos
considerar un entorno de 0
d
.
d P(X B
d
(0
d
, 1))
1 1
2 0.79
.
.
.
.
.
.
5 0.16
.
.
.
.
.
.
10 0.0025
3.6. Inferencia basada en la estimacion de la
densidad
En esta seccion se tratan algunos problemas de inferencia estadstica que
pueden abordarse mediante la estimacion no parametrica de funciones de
densidad. La referencia basica para esta seccion es el Captulo 2 de Bowman
y Azzalini (1997) y la librera sm de R (que acompa na el citado texto).
3.6.1. Bandas de variabilidad
Recordemos que el sesgo y la varianza puntuales del estimador n ucleo

f(x) =
1
nh
n

i=1
K
_
x x
i
nh
_
son aproximadamente
Sesgo(

f(x))
h
2

2
K
2
f

(x), Var(

f(x))
f(x)R(K)
h
.
Se puede probar que, para h jo, el estimador n ucleo es asintoticamente
normal:

f(x) AN
_
f(x) +
h
2

2
K
2
f

(x),
f(x)R(K)
nh
_
.
Si f

(x) y f(x) fuesen conocidos se conocera aproximadamente el sesgo

y la varianza de

f(x) y se podran dar intervalos de conanza asintoticos
96CAP

ITULO 3. ESTIMACI

ON NO PARAM

ETRICA DE LA DENSIDAD
(L(x), U(x)) para f(x) (aunque si f(x) fuese conocido no tendra mucho
interes dar intervalos de conanza para f(x)). En ese caso, diramos que las
funciones {(L(x), U(x)) : x R} son bandas de conanza puntuales para la
funcion f(x).
Dado que f

(x) y f(x) son desconocidos, no sera posible construir dichas

bandas de conanza, y nos limitaremos a dar bandas de variabilidad puntuales
para f(x) (que se deniran como bandas de conanza para E(

f(x))).
Nos basaremos en que

f(x) AN
_
E(

f(x)),
f(x)R(K)
nh
_
y en el Teorema de Cramer, tambien conocido como m

etodo delta.
Teorema 3.4 (Metodo delta) Si X
n
AN(a, b
n
) y t : R R es deri-
vable dos veces con t

continua en a, entonces
t(X
n
) AN(t(a), (t

(a))
2
b
n
).
La demostracion se basa en un desarrollo de Taylor de primer orden: t(X
n
)
t(a) +t

(a)(X
n
a).
As, si t es una funcion con dos derivadas continuas,
t(

f(x)) AN
_
t(E(

f(x))), (t

(E(

f(x))))
2
f(x)R(K)
nh
_
.
En la expresion de la varianza asint otica consideraremos despreciable el sesgo
asintotico (E(

f(x)) f(x)). Tenemos entonces que
t(

f(x)) AN
_
t(E(

f(x))), (t

(f(x)))
2
f(x)R(K)
nh
_
.
Para que la distribucion asint otica (o al menos su varianza) no depen-
da de la funcion desconocida f(x) deberamos elegir la funcion t tal que
(t

(f(x)))
2
f(x) fuese constante en x.
Eso se consigue si tomamos t(y) =

y, que tiene t

(y) = 1/(2

y). En
este caso la expresion anterior se particulariza as:
_

f(x) AN
_
_
E(

f(x)),
R(K)
4nh
_
.
As, un intervalo de conanza (1 ) asint otico para
_
E(

f(x)) sera
_
_

f(x) z
/2
_
R(K)
4nh
_
, x R,
3.6. INFERENCIA BASADA EN LA ESTIMACI

ON DE LA DENSIDAD97
donde z
p
es el cuantil (1p) de una N(0, 1). Elevando al cuadrado ambos ex-
tremos obtenemos lo que llamaremos bandas de variabilidad puntuales
para f(x):
_
_
_
_

f(x) z
/2
_
R(K)
4nh
_
2
,
_
_

f(x) +z
/2
_
R(K)
4nh
_
2
_
_
, x R.
Estas bandas dan una idea de como es la variabilidad del estimador no pa-
rametrico de la densidad f. Son bandas puntuales, no uniformes. Recordemos
que no son bandas de conanza, sino bandas de variabilidad.
La funcion sm.density de la librera sm de R dibuja estas bandas de
variabilidad en torno a la estimacion

f(x) si se usa la opcion display="se".
Ejemplo 3.11
Consideremos de nuevo el conjunto de datos referido a la vivienda en 506
barrios de Boston. La Figura 3.22 muestra las bandas de variabilidad para el
estimador de la densidad de la variables LSTAT (porcentaje de poblacion con
estatus social en la categora inferior).
. .
3.6.2. Contraste de normalidad
Sea x
1
, . . . , x
n
una m.a.s. de X f(x). Se quiere hacer un contraste de
bondad de ajuste de la distribucion normal a los datos observados. Dicho de
otro modo, se desea contrastar si X es normal:
_
H
0
: X N(,
2
) para algunos ,
2
desconocidos,
H
1
: X N(,
2
) para ningunos ,
2
.
Hay muchas formas de contrastar normalidad: tests basados en los coe-
cientes de asimetra y curtosis, tests de bondad de ajuste de la
2
o de
Kolmogorov-Smirnov (test de Lilliefors), test graco del QQ-plot, etc.
Tambien es posible denir un contraste de normalidad basado en la esti-
macion no parametrica de la densidad. Las ventajas que presenta son estas:
Puede detectar desviaciones de la normalidad que tengan una inter-
pretacion mas intuitiva (bimodalidad, asimetra, apuntamiento de la
moda no acorde con la normalidad, por exceso o por defecto, etc.) que
las detectadas por otros metodos. Ello se debe a que la estimacion de
la densidad permite visualizar esas caractersticas y compararlas con
las de la normal.
98CAP

ITULO 3. ESTIMACI

ON NO PARAM

ETRICA DE LA DENSIDAD
0 10 20 30 40
0
.
0
0
0
.
0
2
0
.
0
4
0
.
0
6
0
.
0
8
LSTAT
P
r
o
b
a
b
i
l
i
t
y

d
e
n
s
i
t
y

f
u
n
c
t
i
o
n
Figura 3.22: Estimador n ucleo de la densidad de la variable LSTAT, acom-
pa nado de bandas de variabilidad.
Puede generalizarse a dimensiones mayores que 1 mas facilmente que
otros contrastes.
En general, un contraste de bondad de ajuste de un modelo parametrico
basado en la estimacion no parametrica de la densidad tiene esta estructura.
Se trata de contrastar
H
0
: f F

= {f

: R
k
}, frente a H
1
: f F

Se usa como estadstico del contraste

T = d(f

,

f),
donde

es un estimador de (y por lo tanto f

es un estimador parametrico
de f),

f es un estimador no parametrico de f y d(, ) es una distancia entre
funciones de densidad.
3.6. INFERENCIA BASADA EN LA ESTIMACI

ON DE LA DENSIDAD99
La distribucion de T bajo la hipotesis nula es desconocida y puede ser
difcil de aproximar.
Veamos como puede hacerse esta aproximacion en el caso de un contraste
de normalidad.
Sea f
N
(x; ,
2
) la funcion de densidad de una N(,
2
). Recordemos que
si

f(x) es el estimador n ucleo de f con n ucleo K y ventana h, entonces su
valor esperado es (K
h
f)(x).
Bajo la hipotesis nula f(x) = f
N
(x; ,
2
). Si se usa como K el n ucleo
Gaussiano con desviacion tpica h, la densidad (K
h
f)(x) corresponde a la
suma de una N(,
2
) y de una N(0, h
2
) independientes, es decir,
(K
h
f)(x) = f
N
(x; ,
2
+h
2
).
Si suponemos H
0
cierta, tomaremos h mediante la regla de la normal.
As, es recomendable comparar

f(x) con f
N
(x; ,
2
+h
2
), en vez de hacer
la comparacion directa entre

f(x) y f
N
(x; ,
2
).
Como distancia se puede usar la norma L
2
. En ese caso el estadstico del
test sera
T =
_
R
_

f(x) f
N
(x; ,
2
+h
2
)
_
2
dx
Si se estandarizan los datos previamente (y
i
= (x
i
)/ ) y se corrige la
ventana del estimador de forma acorde (se toma h/ ), el estadstico T puede
expresarse como
T =
_
R
_

f
s
(y) f
N
(x; 0,
2
)
_
2
dy,
donde

f
s
es el estimador n ucleo construido a partir de los datos estandariza-
dos y
2
= 1 + (h/ )
2
. El valor de h adecuado en este caso es el dado por la
regla de referencia a laa normal, h
N
. As,

2
= 1 + (h
N
/ )
2
= 1 + (1,059 n
1/5
/ )
2
= 1 + (1,059n
1/5
)
2
.
La distribucion de T bajo H
0
se puede estudiar teoricamente, pero resulta
mucho mas sencillo aproximarla mediante simulaci on.
En el siguiente ejemplo se utiliza la funcion nise de la librera sm (Bow-
man y Azzalini 1997) para llevar a cabo un contraste de normalidad (nise
viene de Normal Integrated Square Error).
Ejemplo 3.12
Se realiza un contraste de normalidad para la variable LSTAT y logitLSTAT
<- log( (LSTAT/100) / 1 - (LSTAT/100)).
100CAP

ITULO 3. ESTIMACI

ON NO PARAM

ETRICA DE LA DENSIDAD
# Contraste de normalidad
nise.obs <- nise(LSTAT)*10000
logitLSTAT <- log( (LSTAT/100) / 1 - (LSTAT/100))
nise.obs.logit <- nise(logitLSTAT)*10000
n <- length(LSTAT)
S<-1000
sim.nise <- replicate(S, expr=nise(rnorm(n))*10000)
pval <- sum(sim.nise>nise.obs)/S
pval.logit <- sum(sim.nise>nise.obs.logit)/S
print(c(nise.obs,nise.obs.logit,quantile(sim.nise,.95),
pval,pval.logit))
nise.obs nise.obs.logit quantile(sim.nise,.95) pval pval.logit
46.324905 4.281054 2.000750 0.000000 0.002000
. .
3.6.3. Bandas de referencia normal
Una forma graca de contrastar normalidad es dibujar simult aneamente
el estimador no parametrico de la densidad

f(x) y el estimador parametrico
maximo verosmil bajo normalidad, corregido por el sesgo de la estimacion
n ucleo, f
N
(x; ,
2
+h
2
).
El graco es a un mas claro si se dibujan alrededor de f
N
(x; ,
2
+ h
2
)
unas bandas que reejen la variabilidad admisible en la estimacion n ucleo de
la densidad si los datos realmente viniesen de una normal.
Ya vimos en la demostracion del Teorema 3.3 (pagina 59) que si los datos
son normales y se usa n ucleo normal con desviacion tpica h, entonces
E(

f(x)) = f
N
(x; ,
2
+h
2
),
V (

f(x)) =
1
n
_
f
N
(0; 0, 2h
2
)f
N
(x; ,
2
+
1
2
h
2
) f
N
(x; ,
2
+h
2
)
2
_
.
As, las bandas de referencia normal seran
_

E(

f(x)) z
/2
_

V (

f(x))
_
.
En esta expresion se usan la media y la varianza muestrales como estimadores
de y
2
, respectivamente.
La funcion sm.density de la librera sm de R dibuja las bandas de refe-
rencia normal si se usa la opcion model="normal".
3.6. INFERENCIA BASADA EN LA ESTIMACI

ON DE LA DENSIDAD101
Ejemplo 3.13
La Figura 3.23 muestra las bandas de referencia a la normal para los es-
timadores de la densidad de las variables LSTAT (porcentaje de poblacion
con estatus social en la categora inferior) y de esta variable transformada
mediante la funcion logit:
logitLSTAT <- log( (LSTAT/100) / 1 - (LSTAT/100))
0 10 20 30 40
0
.
0
0
0
.
0
2
0
.
0
4
0
.
0
6
0
.
0
8
LSTAT
P
r
o
b
a
b
i
l
i
t
y

d
e
n
s
i
t
y

f
u
n
c
t
i
o
n
5 4 3 2 1 0
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
logitLSTAT
P
r
o
b
a
b
i
l
i
t
y

d
e
n
s
i
t
y

f
u
n
c
t
i
o
n
Figura 3.23: Estimadores n ucleo de la densidad de las variables LSTAT y
log(LSTAT), acompa nados de bandas de referencia a la normal.
. .
3.6.4. Contraste de independencia
Sea (x
1
, y
1
), . . . , (x
n
, y
n
) una m.a.s. de (X, Y ) f
XY
(x, y). Se desea con-
trastar la independencia de X e Y :
_
H
0
: X, Y independientes f
XY
(x, y) = f
X
(x)f
Y
(y) para todo x, y
H
1
: X, Y no son independientes existen x, y tales que f
XY
(x, y) = f
X
(x)f
Y
(y).
102CAP

ITULO 3. ESTIMACI

ON NO PARAM

ETRICA DE LA DENSIDAD
El estadstico de un contraste basado en la razon de verosimilitudes es
T =
1
n
n

i=1
log

f
XY
(x
i
, y
i
)

f
X
(x
i
)

f
Y
(y
i
)
,
donde

f
X
y

f
Y
son los estimadores n ucleo usuales y

f
XY
(x, y) =
1
nh
x
h
y
n

i=1
K
_
x x
i
h
x
_
K
_
y y
i
h
y
_
es un estimador n ucleo bidimensional de la densidad conjunta f
XY
(x, y) (vol-
veremos sobre este tipo de estimadores en la Seccion 3.5).
Para calcular los valores crticos de T se puede usar un test de permuta-
ciones:
1. Construir la muestra permutada
(x
1
, y

1
), . . . , (x
n
, y

n
)
donde (y

1
, . . . , y

n
) es una permutacion aleatoria de (y
1
, . . . , y
n
).
2. Calcular T

, el valor del estadstico T en la muestra permutada. Bajo

la hipotesis nula de independencia, la distribucion de T y la de T

coinciden.
3. Repetir los pasos 1 y 2 B veces: T

1
, . . . , T

B
.
4. Calcular el p-valor del test como
p valor =
#{T

b
T : b = 1 . . . B}
B
.
3.6.5. Bootstrap en la estimacion de la densidad
Sean x
1
, . . . , x
n
datos independientes identicamente distribuidos genera-
dos a partir de X f(x). Sea

f(x) el estimador n ucleo de la densidad f(x).
El procedimiento bootstrap que intenta imitar esa forma de generar datos
aleatorios funciona como sigue:
1. Generar una muestra bootstrap mediante alguno de los dos siguientes
esquemas:
Bootstrap usual: x

1
, . . . x

n
i.i.d. seg un la distribucion emprica de
x
1
, . . . , x
n
. Es decir, x

1
, . . . x

n
es una muestra de tama no n tomada
de la muestra original con reemplazamiento.
3.6. INFERENCIA BASADA EN LA ESTIMACI

ON DE LA DENSIDAD103
Bootstrap suavizado: x

1
, . . . x

n
i.i.d. seg un X

f(x).
2. Calcular el estimador n ucleo

f

(x) a partir de la muestra bootstrap.

3. Repetir los pasos anteriores B veces:

f

1
(x), . . . ,

f

B
(x).
Es de esperar que la distribucion de

f

b
(x) alrededor de

f(x) imite la
distribucion de

f(x) alrededor de f(x).
Si se usa el bootstrap usual se tiene que E(

f

b
(x)) =

f(x), es decir, no
hay sesgo. Por tanto el bootstrap usual no imita bien el sesgo del estimador
n ucleo. En cambio, el bootstrap suavizado s imita bien este sesgo.
Ambos procedimientos imitan bien la varianza del estimador n ucleo. Por
lo tanto, ambos procedimientos son utiles para construir bandas de variabi-
lidad.
Usando bootstrap suavizado se pueden construir bandas de conanza pun-
tuales. Sean

(x) y S
2
(

f

(x))
la media y la varianza muestrales de los B valores

f

b
(x). El sesgo del esti-
mador

f

(x) se estima mediante

(x)

f(x)
y esta misma cantidad sirve como estimador de

f(x).
As, las bandas de conanza para f(x) son
__

f(x) (

f

(x)

f(x))
_
z
/2
S(

f

(x)) : x R
_
.
3.6.6. Contraste de igualdad de distribuciones
Sea x
1
, . . . , x
n
una m.a.s. de X f
X
(x), y sea y
1
, . . . , y
m
una m.a.s. de
Y f
Y
(y). Se desea contrastar la igualdad de las distribuciones de X e Y :
_
H
0
: f
X
= f
Y
H
1
: f
X
= f
Y
Un estadstico para este contraste puede ser
T =
_
R
(

f
X
(u)

f
Y
(u))
2
du
donde

f
X
y

f
Y
son estimadores n ucleo de las densidades de X e Y , respecti-
vamente.
Para tabular la distribucion de T bajo la hipotesis nula se pueden obtener
pseudo-muestras generadas bajo el supuesto de igual distribucion. Dos formas
de hacer esto son las siguientes:
104CAP

ITULO 3. ESTIMACI

ON NO PARAM

ETRICA DE LA DENSIDAD
Bootstrap suavizado: Se estima una unica densidad

f a partir de las dos
muestras conjuntamente. Se generan n+m datos de esa densidad esti-
mada. Los primeros n se asignan a una muestra y los m restantes a la
otra.
Muestras permutadas: Se permutan aleatoriamente los n +m datos. Los
primeros n datos de la muestra permutada se asignan a una muestra y
los m restantes a la otra.
Se puede hacer un contraste graco como sigue. Observar que
V (
_

f
X

_

f
Y
) = V (
_

f
X
) + V (
_

f
Y
)
1
4
R(K)
nh
n
+
1
4
R(K)
nh
m
.
Si n = m,
V (
_

f
X

_

f
Y
)
1
2
R(K)
nh
.
Se construye el estimador promedio

f =
1
2
(

f
X
+

f
Y
)
y se dibujan las bandas
_
_
_
_
_
f(x) z
/2

R(K)

f(x)
nh
_
_
: x R
_
_
_
.
Si los estimadores

f
X
y

f
Y
entran en las bandas podemos aceptar la hipotesis
nula de igualdad de distribuciones.
La funcion sm.density.compare de la librera sm de R dibuja simultanea-
mente las bandas de aceptacion de la hipotesis nula y los dos estimadores.
3.6.7. Discriminacion no parametrica basada en esti-
macion de la densidad
En esta seccion trataremos el problema de discriminaci

on (o clasi-
cacion supervisada) desde una perspectiva no parametrica. El planteamiento
es el siguiente. Se observan p caractersticas, x = (x
1
, . . . , x
p
), en n indivi-
duos que pertenecen a una poblacion dividida en q subpoblaciones (o clases),
{C
1
, . . . , C
q
}. De cada individuo tambien se sabe la clase y
i
{1, . . . , q} a la
que pertenece. As, los datos de que se dispone son
(y
i
; x
i1
, . . . , x
ip
), i = 1, . . . , n.
3.6. INFERENCIA BASADA EN LA ESTIMACI

ON DE LA DENSIDAD105
El objetivo es buscar una regla discriminante que asigne un nuevo indi-
viduo (cuya clase desconocemos) a una de las q clases, a partir de sus valores
x
j
.
La regla optima, en el sentido de minimizar la probabilidad de mala cla-
sicacion, es la regla Bayes, que consiste en asignar el individuo con obser-
vaciones x a la clase j que tiene maxima probabilidad a posteriori:
f(x|C
j
)P(C
j
) = Max
k=1q
f(x|C
k
)P(C
k
).
La regla Bayes solo es aplicable si se conocen las probabilidades a priori
de cada clase, P(C
k
), y las funciones de densidad f(x|C
k
) del conjunto de va-
riables x para los individuos de cada clase. Las probabilidades a priori pueden
estimarse facilmente como las frecuencias relativas observadas de cada clase:

P(C
k
). La estimacion de las funciones de densidad f(x|C
k
) puede llevarse a
cabo mediante las tecnicas ya estudiadas.
Al estimar no parametricamente la densidad de x en cada una de las
q clases en las que esta dividida la poblacion, se usan exclusivamente las
observaciones que pertenecen a la clase cuya densidad se esta estimando.
Finalmente, la regla discriminante consistira en asignar el individuo con
observaciones x a la clase j que tiene maxima probabilidad a posteriori esti-
mada:
arg max
k=1q

f(x|C
k
)

P(C
k
).
Ejemplo 3.14
Apliquemos la tecnica descrita al ejemplo que venimos usando en este captu-
lo: los datos sobre viviendas en los barrios de Boston. Dividimos los datos en
dos clases, C
1
y C
2
, seg un si la variable RM es menor o mayor que su mediana
(que vale 6.2), respectivamente. As las probabilidades a priori de cada cla-
se seran iguales a 0.5. Como variables predictivas x tomaremos unicamente
la variable LSTAT (modelo univariante). Se estima la densidad de LSTAT en
cada clase usando transformacion logartmica, un n ucleo gaussiano y venta-
nas elegidas por el metodo plug-in. La Figura 3.24 muestra las estimaciones
obtenidas.
Se puede observar que la estimacion de la densidad correspondiente a la
clase C
1
es mayor que la correspondiente a C
2
si y solo si LSTAT es mayor
que 9.38. Por lo tanto la regla discriminante no parametrica asignara a C
1
todas las observaciones con valores de LSTAT mayores que 9.38 y asignara las
restantes a C
2
.
. .
106CAP

ITULO 3. ESTIMACI

ON NO PARAM

ETRICA DE LA DENSIDAD
0 5 10 15 20 25 30
0
.
0
0
0
.
0
5
0
.
1
0
0
.
1
5
lstat
d
e
n
s
i
d
a
d
e
s

e
s
t
i
m
a
d
a
s
oooooooooooo ooo oooo oooooooo oooo ooooooooo oooo oo ooooooooooooooooooooooooo oo ooo oo ooo ooooooooooooooooo o ooooooooooo oooooooooooooooooo oo ooooo ooooo oooo ooooooooooooooooo oooooooooooooooooooooooooooooooooooooooooooooooooooo oooooooooooooooooooooooooooo oooo oooooo o o
o ooooooooooooooooooooooooooooooooooooooooooooo oo ooooooooooooooooooooooooooooooooooo oooo oooooo oooo ooooooooooooooooo o ooooooooooooooooo ooooooo oooooooooooooooooooooooooooooooooooo ooo oooooo ooooooo oooooooooo oooo oooooooooooooooooo oooooooooooo oooooo oooo o o
l
s
t
a
t
=
9
.
3
8
Asignar a C2 Asignar a C1
f(x) en C2
f(x) en C1
Figura 3.24: Estimaciones de las funciones de densidad de LSTAT en las clases
C1 y C2 seg un la variable RM.
Ejemplo 3.15
En el ejemplo anterior, al solo existir una sola variable explicativa, no se ve
claramente la exibilidad de la discriminacion no parametrica. Para ilustrar
esta exibilidad incluimos AGE como variable explicativa adicional. La varia-
ble AGE mide en cada barrio de Boston el porcentaje de viviendas construidas
antes de 1940. Ahora son bivariantes las densidades que se han de estimar.
La Figura 3.25 muestra la estimacion de la densidad conjunta de (LSTAT,AGE)
en cada una de las dos clases en las que se ha dividido la muestra. Se aprecia
que la clase C
1
se concentra en valores relativamente altos de ambas variables
(la moda esta cerca del punto (LSTAT=15, AGE=90)), mientras que C
2
lo hace
en valores bajos (la moda se encuentra en torno a (LSTAT=5, AGE=30)).
Para obtener la regla discriminante se toma la diferencia de la densidad
estimada en la clase C
2
menos la estimada en C
1
, y se clasican en C
2
las
observaciones para las que esta diferencia sea positiva. En la Figura 3.26 se
ha representado esta diferencia y se ha se nalado en trazo grueso la frontera
entre las zonas que se clasicaran en una u otra clase, que es donde la dife-
rencia entre las densidades estimadas es igual a 0. Se han marcado con un
3.6. INFERENCIA BASADA EN LA ESTIMACI

ON DE LA DENSIDAD107
lstat
a
g
e
0 5 10 20 30
0
2
0
4
0
6
0
8
0
1
0
0
Clase C1: room < 6.2
lstat
a
g
e
0 5 10 20 30
0
2
0
4
0
6
0
8
0
1
0
0
Clase C2: room > 6.2
Figura 3.25: Estimacion de la densidad de (LSTAT, AGE) en las clases C
1
y
C
2
.
crculo los puntos de C
2
y con una cruz los de C
1
. Se ve claramente que los
discriminadores obtenidos mediante estimacion no parametrica de la densi-
dad pueden realizar clasicaciones no lineales.
. .
Recordemos que la estimacion no parametrica de la funcion de densidad
sufre de la maldicion de la dimensionalidad. Su efecto es menor sobre las
reglas discriminantes derivadas de los estimadores de las densidades (porque
para discriminar bien no es necesario estimar bien las funciones de densidad
completas, sino solo los valores relativos de las densidades en las distintas
subpoblaciones) pero a un as, no es recomendable usar el metodo de discri-
minacion descrito si la dimensionalidad p es grande (digamos mayor o igual
que 4).
Una forma de solventar este problema es usar un estimador de la funcion
de densidad construido bajo la hipotesis (poco verosmil en la mayor parte
de los casos) de que las p componentes de las variables x son independientes.
As basta estimar no parametricamente la densidad de cada variable expli-
cativa y multiplicar estas para obtener el estimador de la densidad conjunta.
108CAP

ITULO 3. ESTIMACI

ON NO PARAM

ETRICA DE LA DENSIDAD
lstat
a
g
e
0 5 10 15 20 25 30 35
0
2
0
4
0
6
0
8
0
1
0
0
Densidad en C2 menos densidad en C1
Figura 3.26: Diferencia de las densidades estimadas en las clases C
2
y C
1
.
La regla discriminante obtenida a partir de ese estimador se conoce como
regla Bayes naive y en la practica da buenos resultados. Para mas detalles
sobre este estimador puede consultarse la Seccion 6.3.3. de Hastie, Tibshirani
y Friedman (2001). Es evidente la analoga existente entre el paso de la esti-
macion de la densidad multivariante al estimador basado en independencia
de las marginales, y el paso del modelo de regresion m ultiple no parametrico
al modelo aditivo, que estudiaremos en el Captulo 6.
3.7. Otros estimadores de la densidad
3.7.1. Los k vecinos mas cercanos
En la Seccion 3.3.2, pagina 75, se presento el estimador n

ucleo de
los k vecinos m

as cercanos como caso particular de los estimadores

n ucleo locales.
Es posible motivar este estimador directamente a partir de la relacion
entre la funcion de densidad f(x) y la funcion de distribucion F(x), que
estimaremos mediante la funcion de distribucion emprica

F:
f(x) =
d
dx
F(x) = lm
h0
F(x +h) F(x h)
2h
3.7. OTROS ESTIMADORES DE LA DENSIDAD 109

F(x +h)

F(x h)
2h
=
k(x, h)/n
2h
,
donde se ha usado la notacion k(x, h) = #{x
i
: x
i
[x h, x +h]}. Fijar un
valor de h equivale a jar el denominador de la ultima fraccion y dejar que
el numerador dependa de x.
Tambien podramos estimar la derivada de F en x jando el numerador
y dejando que el denominador dependa de x:

f
k
(x) =
k/n
2h(x, k)
,
con h(x, k) igual a la distancia a x de su k-esimo vecino mas cercano.
Es facil probar que

f
k
(x) =
1
nh(x, k)
n

i=1
K
U
_
1
nh(x, k)
_
,
donde K
U
es el n ucleo uniforme en [1, 1]. Si se sustituye K
U
por otro n ucleo
K se obtiene un estimador que hereda las propiedades de suavidad de K.
As, la expresion generica de un estimador de la densidad por k vecinos mas
cercanos es

f
k
(x) =
1
nh(x, k)
n

i=1
K
_
1
nh(x, k)
_
.
Observar que f(x)

f
k
(x) = k/(2nh(x, k)) implica que h(x, k) k/(2nf(x)).
Es decir, el estimador de los k vecinos mas cercanos es un estimador n ucleo
local con h(x) = h(x, k) 1/f(x).
El estimador

f
k
(x) no necesariamente es una funcion de densidad. Puede
ser muy abrupto en algunos valores de x.
El parametro de suavizado de este estimador es k, el n umero de vecinos
involucrados en la estimacion de f(x). Para que

f
k
(x) converja a f(x) es
condicion suciente k dependa de n de forma que
lm
n
k(n) = , lm
n
k(n)
n
= 0.
Se puede probar que para un x jo el valor de k optimo (en el sentido del
MSE) es k(n) = O(n
4/5
).
La seleccion automatica del parametro de suavizado k se complica en
este caso porque el IMSE es en general no acotado. Se puede recurrir a la
validacion cruzada basada en maxima verosimilitud.
110CAP

ITULO 3. ESTIMACI

ON NO PARAM

ETRICA DE LA DENSIDAD
3.7.2. Desarrollos en series de funciones ortogonales
Supongamos que X tiene soporte en [, ] y que su funcion de densidad
es de cuadrado integrable en ese intervalo:
f L
2
([, ]) = { : [, ] R tal que
1
2
_

(x)
2
dx < }.
Ese espacio de funciones L
2
([, ]) es un espacio vectorial eucldeo (tiene
producto escalar: < f, g >= (1/(2))
_

f(x)g(x)dx) y una de sus bases

ortonormales la constituyen las funciones trigonometricas
{1, cos(x), sin(x), cos(2x), sin(2x), . . .}.
Por lo tanto, esa funcion de densidad f tiene un desarrollo en esa base de
funciones ortonormales, que se conoce como desarrollo en serie de Fou-
rier de f:
f(x) = a
0
+

k=1
(a
k
cos(kx) +b
k
sin(kx)).
Cada coeciente del desarrollo se puede calcular como
a
0
=< f(x), 1 >=
1
2
_

f(x)dx =
1
2
.
a
k
=< f(x), cos(kx) >=
1
2
_

f(x) cos(kx)dx =
1
2
E(cos(kX)),
b
k
=< f(x), sin(kx) >=
1
2
_

f(x) sin(kx)dx =
1
2
E(sin(kX)).
Los coecientes pueden estimarse a partir de la muestra de X observada:
a
k
=
1
2
1
n
n

i=1
cos(kx
i
),

b
k
=
1
2
1
n
n

i=1
sin(kx
i
).
Si se trunca el desarrollo de f en el termino m y se sustituyen los coe-
cientes desconocidos por sus estimaciones, se tiene un estimador de la funcion
de densidad:

f
m
(x) =
1
2
+
m

k=1
( a
k
cos(kx)/ +

b
k
sin(kx)/).
El parametro de suavizado aqu es m. Para tener convergencia puntual
del estimador al valor de la funcion de densidad es suciente que m = m(n)
vaya a innito y que m/n vaya a 0 cuando n tiende a innito.
Existen otras bases de funciones ortonormales no restringidas a [, ].
Volveremos sobre ello en el Captulo 5.
3.7. OTROS ESTIMADORES DE LA DENSIDAD 111
3.7.3. Maxima verosimilitud penalizada
El problema de la estimacion de la densidad se podra plantear como un
problema de estimacion parametrica, con la particularidad de que el espa-
cio parametrico tiene dimension innita. En efecto, sea R
R
el conjunto de
funciones de R en R. Se dene el espacio parametrico
= {f R
R
: f(x) 0 x R,
_
R
f(x)dx = 1}.
Consideramos la v.a. X con densidad f y una realizacion de una m.a.s.
de X: x
1
, . . . , x
n
. Estimar la densidad de X equivale a estimar el parametro
f. Observar que la dimension de no es nita.
En este contexto, el estimador maximo verosmil de no esta bien denido
porque la funcion de verosimilitud no esta acotada en . En efecto, la
funcion de verosimilitud y su logaritmo evaluadas en g son
L(g; x
1
, . . . , x
n
) =
n

i=1
g(x
i
), l(g; x
1
, . . . , x
n
) =
n

i=1
log g(x
i
).
La funcion de verosimilitud es no acotada,
sup
g
L(g; x
1
, . . . , x
n
) = ,
porque si tomamos como g
g

(x) =
1
n
n

i=1
1
2
I
[,]
(x)
tenemos que si es menor que la menor de las diferencias entre dos datos x
i
consecutivos,
L(g

; x
1
, . . . , x
n
) =
1
n
n
2
n

n
y
lm
0
L(g

; x
1
, . . . , x
n
) = .
Las funciones g que hacen que L(g

; x
1
, . . . , x
n
) tome valores grandes
son muy abruptas, porque tienen picos (maximos locales) muy pronunciados
en algunos o en todos los valores x
i
observados.
Una alternativa a la estimacion maximo verosmil es realizar una maximi-
zacion de la verosimilitud penalizando la falta de suavidad de las funciones
112CAP

ITULO 3. ESTIMACI

ON NO PARAM

ETRICA DE LA DENSIDAD
candidatas a maximo. Se tiene as el problema de la maxima verosimilitud
penalizada:
max
g

i=1
log g(x
i
) (log g),
donde () es un termino que mide la variabilidad de y

= {g :
(log g) esta bien denido}.
Por ejemplo, () =
_
R
(

(x))
2
dx es una de las medidas de variabilidad
que pueden ser usadas.
Este procedimiento expresa explcitamente lo que buscamos al estimar
la densidad no parametricamente: maximizar la verosimilitud descartando
funciones demasiado abruptas.
Si usamos la notacion
(x) = log g(x) g(x) =
e
(x)
_
R
e
(u)
du
el problema anterior es equivalente a este otro:
max
:RR
_
n

i=1
(x
i
)
_
R
(

(x))
2
nlog
_
R
e
(u)
du
_
.
Si

es el optimo, entonces el estimador no parametrico de la densidad de X
es
e

(x)
_
R
e

(u)
du
Se puede probar que la funcion optima

es una funcion spline de tercer grado
(un spline c ubico) con nodos en los puntos observados x
(1)
, . . . , x
(n)
.
Un spline c ubico es una funcion que a trozos (entre x
(i)
y x
(i+1)
) es un
polinomio de tercer grado, y en los puntos x
(i)
, las expresiones polinomicas
que denen la funcion a un lado y a otro enlazan bien, en el sentido de que
en esos puntos la funcion es continua y tiene sus dos primeras derivadas
continuas.
El parametro de suavizado es aqu el parametro que penaliza la falta
de suavidad. Si es grande la funcion estimada es suave, mientras que si
es peque no el estimador es mas abrupto. Si tiende a innito, se puede
probar que

tiende a un polinomio de primer grado y, por tanto, si se supone
soporte [0, ) la estimacion de la densidad tiende a ser la densidad de una
exponencial con parametro igual a su estimador maximo verosmil.
Volveremos a tratar la estimacion de funciones mediante splines en el
Captulo 5.
3.8. SOFTWARE 113
3.7.4. Verosimilitud local
Se trata de una tecnica que consiste en proponer un modelo parametrico
alrededor de cada punto x donde se desea estimar la densidad. Este modelo
se estima por maxima verosimilitud (localmente, alrededor de x). Despues se
enlazan las estimaciones parametricas locales para obtener un estimador no
parametrico global de la densidad. Puede verse el artculo Delicado (2006) y
las referencias incluidas en el.
En la seccion 4.4 volveremos a tratar el problema de estimar modelos no
parametricos mediante la formulacion de modelos parametricos localmente
validos. Sera entonces momento de profundizar en la estimacion de la densi-
dad por verosimilitud local.
3.7.5. Representacion general
Bajo condiciones no muy restrictivas se puede probar que cualquier es-
timador no parametrico de la densidad puede escribirse como un estimador
n ucleo generalizado:

f(x) =
1
n
n

i=1
1
h(x, x
i
)
K
x
_
x x
i
h(x, x
i
)
_
.
3.8. Software
3.8.1. Estimacion de la densidad en R
El paquete estadstico de distribucion libre R (http://www.r-project.org/,
http://cran.r-project.org/). Aqu puede usarse la funcion incluida por
defecto para estimacion de la densidad (density) o la librera sm que acom-
pa na el libro Bowman y Azzalini (1997) (en concreto, la funcion sm.density
y otras relacionadas con ella).
3.8.2. Estimacion de la densidad en MATLAB
El Profesor Christian Beardah (School of Biomedical and Natural Scien-
ces, Nottingham Trent University, UK) escribio una toolbox en MATLAB
llamada KDE (Kernel Density Estimation) en los a nos 90 del pasado si-
glo. Mas tarde estas funciones sirvieron de base a la toolbox kdetools de-
sarrollada en la seccion de Mathematical Statistics del Centre for Mathe-
matical Sciences de la Universidad de Lund (Suecia). Esta librera es par-
te de una toolbox mas amplia llamada WAFO, que puede descargarse en
http://www.maths.lth.se/matstat/wafo/.
114CAP

ITULO 3. ESTIMACI

ON NO PARAM

ETRICA DE LA DENSIDAD
Captulo 4
Estimacion de la funcion de
regresion
Referencias: Wand y Jones (1995), Simono (1996),
Fan y Gijbels (1996), Bowman y Azzalini (1997),
Wasserman (2006).
En este captulo estudiaremos la prediccion no parametrica del valor es-
perado de una variable aleatoria dependiente (Y ) condicionando a que otras
variables predictoras (X) toman unos valores conocidos (x), lo que se conoce
como funci

on de regresi

on:
m(x) = E(Y |X = x).
Habitualmente estas predicciones se derivaran de la propuesta y posterior
estimacion de modelos para la distribucion condicionada (Y |X = x).
Los modelos de regresi

on param

etricos suponen que los datos

observados provienen de variables aleatorias cuya distribucion es conocida,
salvo por la presencia de algunos parametros cuyo valor se desconoce. Por
ejemplo, la relacion entre el peso (y) y la altura (x) de un grupo de personas
puede modelarse mediante regresion lineal con errores normales:
y =
0
+
1
x +, con N(0,
2
).

Este es un modelo estadstico con tres parametros desconocidos:

0
,
1
y
2
.
Una formulaci on general de un modelo de regresion parametrico es la
siguiente:
y
i
= m(x
i
; ) +
i
, i = 1, . . . , n, R
p
,
donde m(x; ) es una funcion conocida de x y , que es desconocido,
1
, . . . ,
n
son v.a.i.i.d. con E(
i
) = 0 y V (
i
) =
2
. El modelo de regresion lineal simple
es un caso particular con = (
0
,
1
) y m(x;
0
,
1
) =
0
+
1
x.
115
116 CAP

ITULO 4. ESTIMACI

ON DE LA FUNCI

ON DE REGRESI

ON
Se dice que se ajusta el modelo parametrico cuando se estiman sus parame-
tros a partir de un conjunto de observaciones que siguen dicho modelo. Si
el modelo m(x; ) es correcto, la estimacion de los parametros (,
2
) puede
realizarse con una cantidad peque na de datos (por ejemplo, puede usarse el
metodo de mnimos cuadrados o el de maxima verosimilitud), pueden hacerse
predicciones de nuevos valores de y conocido el valor de x, y tener informacion
precisa acerca de la incertidumbre asociada a la estimacion y a la prediccion.

Estas son algunas de las buenas propiedades de los modelos parametricos.

Ademas, en muchas ocasiones los parametros tienen una interpretaci on in-
tuitiva en terminos relacionados con el problema en estudio (por ejemplo,
1
es la derivada de y respecto de x en el modelo de regresion anterior).
Sin embargo, si el modelo parametrico no es adecuado puede ser peor
tenerlo ajustado que no tener nada, porque el modelo parametrico conlleva un
grado de exactitud en las armaciones que de el se derivan que son adecuadas
cuando el modelo es correcto, pero que en caso contrario pueden estar muy
alejadas de la realidad.
Los modelos parametricos presentan un problema fundamental: su estruc-
tura es tan rgida que no pueden adaptarse a muchos conjuntos de datos.
Ejemplo 4.1
En el Ejemplo 2.2 se consideraba el conjunto de datos referido a la vivien-
da en 506 barrios de Boston en 1978 (Boston Housing Data). Ah se observa
que la relacion entre las variables RM (n umero medio de habitaciones por vi-
vienda) y LSTAT (porcentaje de poblacion con estatus social en la categora
inferior) no se puede modelizar ni con un modelo de regresion lineal ni con
uno cuadratico (ver Figura 4.1).
. .
En este captulo presentaremos una alternativa no parametrica a los mo-
delos de regresion parametricos usuales. Por ejemplo, la relacion entre el peso
y la altura de una persona podra modelizarse no parametricamente diciendo
que
y = m(x) +,
donde m(x) es una funcion (posiblemente continua o derivable) cuya forma
no se especica, y es una variable aleatoria con valor esperado igual a cero.
4.1. EL MODELO DE REGRESI

ON NO PARAM

ETRICA 117
10 20 30
4
5
6
7
8
lstat
r
o
o
m
Ajuste lineal
10 20 30
4
5
6
7
8
lstat
r
o
o
m
Ajuste cuadrtico
Figura 4.1: Ajustes parametricos de la variable RM como funcion de la variable
LSTAT.
4.1. El modelo de regresion no parametrica
Comencemos en el contexto del modelo de regresion simple: la variable
respuesta y es continua y solo hay una variable explicativa x, tambien con-
tinua (el caso de la regresion m ultiple lo abordaremos en el Captulo 6). Se
supone que se observan n pares de datos (x
i
, y
i
) que provienen del siguiente
modelo de regresion no parametrico:
y
i
= m(x
i
) +
i
, i = 1, . . . , n, (4.1)
donde
1
, . . . ,
n
son v.a. independientes con
E(
i
) = 0, V (
i
) =
2
para todo i,
y los valores de la variable explicativa x
1
, . . . , x
n
son conocidos, por lo que se
dice que el modelo tiene dise

no fijo.
Dado que la varianza de los errores
i
es constante diremos que el mode-
lo es homoced

astico. Esta hipotesis puede relajarse y suponerse que esa

varianza es funcion de la variable explicativa x: V (
i
) =
2
(x
i
). En ese caso
diremos que el modelo es heteroced

astico.
118 CAP

ITULO 4. ESTIMACI

ON DE LA FUNCI

ON DE REGRESI

ON
No se especica la forma funcional de la funcion de regresion m(x), aunque
s se supone que es una funcion sucientemente regular (por ejemplo, es
habitual la hipotesis de que m(x) tiene segunda derivada continua).
Tambien puede plantearse el modelo de regresion con dise

no alea-
torio. Sea (X, Y ) v.a. bivariante con densidad conjunta f(x, y). Se de-
ne la funci

on de regresi

on como m(x) = E(Y |X = x). Entonces

E(Y |X) = m(X). As, si denimos = Y m(X), se tiene que
Y = m(X) +, E(|X) = 0, V (|X) =
2
(X).
Sean (X
i
, Y
i
), i = 1, . . . , n una m.a.s. de (X, Y ). Estos datos siguen el modelo
de regresion no parametrico
Y
i
= m(X
i
) +
i
, i = 1, . . . , n.
Dado que en el modelo de regresion el interes es estudiar la esperanza
de Y condicionada a que X toma un valor conocido x, supondremos que
tenemos siempre un dise no jo.
Si necesitamos en alg un desarrollo una funcion de densidad f(x) aso-
ciada a la variable explicativa (sera la densidad de X en dise no aleatorio)
supondremos que los valores x
1
, . . . , x
n
provienen de un dise

no regular
de densidad f(x). Es decir, los x
i
se han obtenido as:
x
i
= F
1
_
i 1/2
n
_
, i = 1, . . . , n, con F(x) =
_
x

f(u)du.
Una vez establecido el modelo, el paso siguiente consiste en estimarlo
(o ajustarlo) a partir de las n observaciones disponibles. Es decir, hay que
construir un estimador m(x) de la funcion de regresion y un estimador
2
de
la varianza del error. Los procedimientos de estimacion de m(x) tambien se
conocen como m

etodos de suavizado (smoothing en ingles).

El abanico de tecnicas disponibles para estimar no parametricamente la
funcion de regresion es amplsimo e incluye, entre otras, las siguientes:
Ajuste local de modelos parametricos. Se basa en hacer varios (o incluso
innitos, desde un punto de vista teorico) ajustes parametricos tenien-
do en cuenta unicamente los datos cercanos al punto donde se desea
estimar la funcion. Son las que desarrollaremos en este captulo.
Metodos basados en series ortogonales de funciones. Se elige una base
ortonormal del espacio vectorial de funciones y se estiman los coecien-
tes del desarrollo en esa base de la funcion de regresion. Los ajustes por
4.2. ESTIMADORES N

UCLEO Y POLINOMIOS LOCALES 119

series de Fourier y mediante wavelets son los dos enfoques mas utiliza-
dos. En el Captulo 5 trataremos este tema mas ampliamente. Tambien
puede consultarse la Seccion 2.5 de Fan y Gijbels (1996), el Captulo 8
de Wasserman (2006) y las referencias all citadas.
Suavizado mediante splines. Se plantea el problema de buscar la fun-
cion m(x) que minimiza la suma de los cuadrados de los errores (e
i
=
y
i
m(x
i
)) mas un termino que penaliza la falta de suavidad de las
funciones m(x) candidatas (en terminos de la integral del cuadrado de
su derivada segunda). Se puede probar que la solucion es un spline
c ubico con nodos en los puntos x
i
observados. En el Captulo 5 se trata
a fondo este metodo de estimacion. Vease tambien el libro de Green y
Silverman (1994).
Tecnicas de aprendizaje supervisado. Las redes neuronales, los k vecinos
mas cercanos y los arboles de regresion se usan habitualmente para
estimar m(x). De hecho cualquier tecnica de aprendizaje supervisado
que admita respuesta continua y predictor continuo puede usarse para
estimar no parametricamente la funcion de regresion. Para una vision
de estos metodos desde un punto de vista estadstico pueden consultarse
los captulos 9, 11 y 13 de Hastie, Tibshirani y Friedman (2001).
En gran parte, este abanico de tecnicas de regresion tambien puede am-
pliarse al problema de discriminacion (en el que la respuesta es categorica),
tal como se vera en la Seccion 4.4.
4.2. Estimadores n ucleo y polinomios locales
Retomamos el ejemplo de los datos de los barrios de Boston. La obser-
vacion de la nube de puntos formada por las observaciones de las variables
LSTAT y RM, as como del resultado del ajuste de la regresion lineal simple a
estos datos mostrada en la Figura 4.1, sugieren que un unico modelo lineal
no es valido para todo el rango de la variable explicativa LSTAT. La primera
idea que surge para solventar ese problema es dividir el rango de esta variable
en intervalos, de forma que la relacion entre las dos variables sea aproxima-
damente lineal en cada intervalo. As, parece razonable considerar los cuatro
intervalos delimitados por los valores 10 %, 20 % y 30 % de la variable LSTAT.
Hecho esto, en cada intervalo se ajusta un modelo de regresion lineal simple
y se obtiene el resultado que muestra el graco de la derecha en la Figura
4.2. El calculo de la media muestral en cada uno de esos tramos dara lugar
120 CAP

ITULO 4. ESTIMACI

ON DE LA FUNCI

ON DE REGRESI

ON
10 20 30
4
5
6
7
8
LSTAT
R
O
O
M
Regresograma
10 20 30
4
5
6
7
8
LSTAT
R
O
O
M
Ajuste paramtrico por tramos
Figura 4.2: Regresograma de RM como funcion de LSTAT (izquierda) y ajuste
de modelos de regresion lineal simple en cuatro intervalos del recorrido de la
variable LSTAT (derecha).
4.2. ESTIMADORES N

UCLEO Y POLINOMIOS LOCALES 121

a lo que se conoce como regresograma, por su analoga con el histograma
(ver graco de la izquierda en la Figura 4.2).
Este sencillo ejercicio reeja todava mas claramente que los datos su-
gieren una relacion entre las dos variables que no se ajusta a una regresion
simple. Sin embargo el resultado obtenido dista mucho de ser completamente
satisfactorio por varios motivos. En primer lugar, la funcion de regresion es-
timada mediante este procedimiento es discontinua en los puntos que denen
los intervalos. En segundo lugar, en la estimacion del valor de la funcion de
regresion en puntos cercanos a los extremos de los intervalos (por ejemplo,
en LSTAT=9) no intervienen muchos datos cercanos a ese valor de la variable
explicativa y que pertenecen a un intervalo distinto (no se usan los datos para
los que LSTAT esta entre 10 y 14, por ejemplo) mientras que esa estimacion
s se ve afectada por algunos datos del mismo intervalo que estan mas lejos
(en nuestro ejemplo los datos para los que LSTAT es menor que 4).
Una forma de atacar la segunda de las deciencias mencionadas es la si-
guiente. Para estimar la funcion de regresion en un valor concreto t de la
variable explicativa, se debera usar un intervalo de la variable explicativa
especco para ese valor t, centrado en el valor t y que solo contenga datos
en los que la variable explicativa tome valores cercanos a t. As, si se desea
estimar la funcion de regresion en el valor LSTAT=9, se usaran unicamente las
observaciones para las cuales 4 < LSTAT < 14 (si es que queremos que los nue-
vos intervalos sigan teniendo 10 unidades de amplitud). Este procedimiento
se ilustra en el panel izquierdo de la Figura 4.3.
Pese a la apariencia de continuidad de la funcion de regresion representada
en este graco, el metodo descrito no proporciona estimadores continuos. Ello
se debe a que, al desplazar a la derecha el intervalo que determina los datos
activos para el calculo de la regresion simple local, habra puntos que dejen
de ser activos (los situados mas a la izquierda) y otros que pasen a serlo (los
que estaban cerca del intervalo en su parte derecha). El hecho de que un
dato pase de ser activo a no serlo, y viceversa, de forma abrupta (su peso en
la regresion simple pasa de ser 0 a ser 1) hace que la funcion de regresion
estimada no sea continua.
La continuidad del estimador puede conseguirse si se ponderan los datos
de forma que el peso de una observacion (x
i
, y
i
) sea funcion decreciente (que
tienda a 0 y sea continua) de la distancia de su ordenada x
i
al punto t
donde se realiza la estimacion. De esta forma, al desplazar el punto t, las
observaciones iran tomando todos los valores posibles de la funcion peso de
forma continua en t y, como resultado, se tendra un estimador continuo de
la funcion de regresion. Esto se ilustra en el panel derecho de la Figura 4.
La forma usual de asignar estos pesos es mediante una funcion n ucleo
(kernel) K (funcion simetrica no negativa, continua, decreciente en [0, ) y
122 CAP

ITULO 4. ESTIMACI

ON DE LA FUNCI

ON DE REGRESI

ON
10 20 30
4
5
6
7
8
lstat
r
o
o
m
Ajuste
Ncleo uniforme
10 20 30
4
5
6
7
8
lstat
r
o
o
m
h
Ncleo gaussiano
Ajuste lineal local
Figura 4.3: Ajuste lineal local en el punto LSTAT=9. Ponderaci on uniforme
(izda.). Con n ucleo gaussiano (dcha.).
4.2. ESTIMADORES N

UCLEO Y POLINOMIOS LOCALES 123

que tiende a 0 cuando el argumento tiende a innito). El peso de (x
i
, y
i
) en
la estimacion de m(t) sera
w
i
= w(t, x
i
) =
K
_
x
i
t
h
_
n

j=1
K
_
x
j
t
h
_
,
donde h es un parametro de escala que controla la concentracion del peso total
alrededor de t: si h es peque no unicamente las observaciones mas cercanas
a t tendran peso relevante, mientras que valores grandes de h permiten que
observaciones mas alejadas de t tambien intervengan en la estimacion de m(t).
A h se le denomina par

ametro de suavizado (o ventana) del estimador

no parametrico y permite controlar el grado de localidad (o globalidad) de la
estimacion. La estimacion nal se ve notablemente afectada por cambios en
la eleccion del parametro de suavizado, por lo que esta tarea resulta crucial
en la estimacion no parametrica. A la eleccion de h dedicaremos la Seccion
4.3.
Una vez determinados los pesos w
i
, se resuelve el problema de mnimos
cuadrados ponderados siguiente:
mn
a,b
n

i=1
w
i
(y
i
(a +b(x
i
t)))
2
.
Los parametros a y b as obtenidos dependen de t, porque los pesos w
i
de-
penden de t: a = a(t), b = b(t). La recta de regresion ajustada localmente
alrededor de t es
l
t
(x) = a(t) +b(t)(x t),
y la estimacion de la funcion de regresion en el punto t es el valor que toma
esa recta en x=t:
m(t) = l
t
(t) = a(t).
Ejemplo 4.2
El panel derecho de la Figura 4.3 muestra el estimador as construido para
los datos (LSTAT, RM). Se indica tambien la recta de regresion estimada por
mnimos cuadrados ponderados en el punto LSTAT=9. En este caso se ha
usado como funcion n ucleo K la funcion densidad de la variable aleatoria
normal estandar, que se conoce como n ucleo gaussiano. Se ha representado
el n ucleo en el mismo graco para ilustrar como se asignan los pesos a los
distintos datos seg un la proximidad a 9 de los valores de la variable LSTAT.
Se ha se nalado tambien el valor h = 2,5 del parametro de suavizado.
124 CAP

ITULO 4. ESTIMACI

ON DE LA FUNCI

ON DE REGRESI

ON
. .
Las funciones n ucleo usadas en estimacion no parametrica de la regresion
son las mismas que las utilizadas en la estimacion de la densidad (ver las
Tablas 3.1 y 3.3 y las Figuras 3.10 y 3.11).
Observese que usar un n ucleo uniforme es equivalente a estimar la re-
gresion localmente usando unicamente los puntos que estan en un intervalo
centrado en el punto donde se realiza la estimacion, todos ellos con identico
peso. Es decir, el procedimiento que seguimos para construir el estimador de
la funcion de regresion representada en el panel izquierdo de la Figura 4.3 es
el mismo que si usamos un n ucleo uniforme con ventana h = 5.
El estimador lineal local se generaliza facilmente al ajuste local de regre-
siones polinomicas de mayor grado. Una regresion polinomica es una regresion
lineal m ultiple en la que se incluyen variables que son potencias de la variable
explicativa. Es decir, de una variable x obtenemos el polinomio

0
+
1
x +
2
x
2
+
3
x
3
+ +
q
x
q
y se act ua como en una regresion lineal m ultiple con q regresores. En nuestro
caso, en vez del valor de x
i
, utilizaremos el valor (x
i
t). A partir de aqu, el
estimador de polinomios locales de grado q se construye como sigue. Primero
se asignan los pesos w
i
mediante una funcion n ucleo, tal como se hace en el
ajuste lineal local. Se plantea entonces el problema de regresion polinomica
ponderada
mn

0
,...,
q
n

i=1
w
i
(y
i
(
0
+
1
(x
i
t) + +
q
(x
i
t)
q
))
2
.
Observese que los coecientes obtenidos dependen del punto t donde se realiza
la estimacion:

j
=

j
(t). Finalmente, se da como estimador de m(t) el valor
del polinomio P
q,t
(x t) =

p
j=0

j
(x t)
j
estimado localmente en torno a
x = t:
m
q
(t) = P
q,t
(0) =

0
(t).
El hecho de ajustar polinomios de grado mayor que 1 permite que la funcion
estimada se ajuste mejor a los datos.
Ademas, a partir del polinomio P
q,t
(x t) estimado alrededor de t se
pueden dar estimadores de las primeras q derivadas de la funcion m en t. Por
ejemplo, la derivada s-esima de m en x = t se estima como
m
(s)
q
(t) =
d
s
dx
s
(P
q,t
(x t))

x=t
= s!

s
(t). (4.2)
4.2. ESTIMADORES N

UCLEO Y POLINOMIOS LOCALES 125

En el caso particular de que se ajuste localmente un polinomio de grado 0
(es decir una constante), se obtiene el conocido como estimador de Nadaraya-
Watson o estimador n ucleo de la regresion. Su expresion explcita es esta:
m
K
(t) =

n
i=1
K
_
x
i
t
h
_
y
i

n
i=1
K
_
x
i
t
h
_ =
n

i=1
w(t, x
i
)y
i
.
Historicamente el estimador de Nadaraya-Watson es anterior a los estimado-
res por polinomios locales. Observese que m
K
(t) es una media ponderada de
los valores de la variable respuesta, donde el peso de cada dato depende de la
distancia entre el valor de la variable explicativa y el punto t donde se esta es-
timando la funcion de regresion. Podemos ver el estimador n ucleo como una
media ponderada movil. De hecho, puede probarse que todo estimador por
polinomios locales puede expresarse como una media ponderada,
m
q
(t) =
n

i=1
w

q
(t, x
i
)y
i
.
aunque los pesos w

q
(t, x
i
) no necesariamente han de ser positivos.
4.2.1. Derivaci on directa del estimador n ucleo de la
regresion
El modelo de regresion no parametrica con dise no aleatorio, en el que la
funcion de regresion es
m(x) = E(Y |X = x) =
_
R
yf
Y
(y|X = x)dy =
_
R
y
f(x, y)
f
X
(x)
dy,
sugiere un estimador de m(x) obtenido a partir de los estimadores no pa-
rametricos de las densidades f
X
(x) y f(x, y). Sean estos estimadores

f(x, y) =
1
nh
X
h
Y
n

i=1
K
X
_
x x
i
h
X
_
K
Y
_
y y
i
h
Y
_
,

f
X
(x) =
1
nh
X
n

i=1
K
X
_
x x
i
h
X
_
=
_
R

f(x, y)dy.
El estimador de m(x) se obtiene sustituyendo las densidades desconocidas
por estos estimadores:
m(x) =
_
R
y

f(x, y)

f
X
(x)
dy =
126 CAP

ITULO 4. ESTIMACI

ON DE LA FUNCI

ON DE REGRESI

ON
_
R
y
1
nh
X
h
Y

n
i=1
K
X
_
xx
i
h
X
_
K
Y
_
yy
i
h
Y
_
1
nh
X

n
i=1
K
X
_
xx
i
h
X
_ dy =

n
i=1
K
X
_
xx
i
h
X
_
_
R
y
1
h
Y
K
Y
_
yy
i
h
Y
_
dy

n
i=1
K
X
_
xx
i
h
X
_ .
Haciendo el cambio de variable u = (y y
i
)/h
Y
(y = y
i
+ h
Y
u) la integral
del numerador es igual a
_
R
(y
i
+h
Y
u)K
Y
(u)du = y
i
,
si hemos usado un n ucleo K
Y
que integra 1 y cuyo momento de primer orden
vale 0. As, si hacemos h = h
X
y K = K
X
, se tiene que el estimador de m(x)
es igual a
m(x) =

n
i=1
K
_
xx
i
h
_
y
i

n
i=1
K
_
xx
i
h
_ ,
que es la expresion del estimador de Nadaraya-Watson.
Hay otras formas de asignar los pesos w(t, x
i
) en la formula generica
m
K
(t) =
n

i=1
w(t, x
i
)y
i
.
En particular, cabe mencionar el estimador n ucleo de Gasser-Muller, que solo
diere del de Nadaraya-Watson en la forma de denir estos pesos. Dada la
muestra (x
i
, y
i
), i = 1, . . . , n, ordenada seg un el orden creciente de las x
i
, se
denen los valores s
i
as:
s
0
= , s
i
=
x
i
+x
i+1
2
, i = 1, . . . , n 1, s
n
= .
A partir de estos valores, de un n ucleo K y un parametro de suavizado h, se
denen los pesos de Gasser-M uller
w(t, x
i
)
GM
=
_
s
i
s
i1
1
h
K
_
u t
h
_
du.
El estimador de Gasser-M uller es
m
GM
(t) =
n

i=1
w(t, x
i
)
GM
y
i
.
El estimador de Nadaraya-Watson es mas natural si el dise no es aleatorio,
mientras que para el dise no jo resulta mas intuitivo el de Gasser-M uller.
4.2. ESTIMADORES N

UCLEO Y POLINOMIOS LOCALES 127

4.2.2. Expresion matricial del estimador por polino-
mios locales
Se dene la matriz
X
t
=
_
_
_
1 (x
1
t) . . . (x
1
t)
q
.
.
.
.
.
.
.
.
.
.
.
.
1 (x
n
t) . . . (x
n
t)
q
_
_
_
.
Se denen los vectores Y = (y
1
, . . . , y
n
)
T
, = (
1
, . . . ,
n
)
T
, = (
0
, . . . ,
q
)
T
.
Se dene la matriz de pesos
W
t
= Diag(w(x
1
, t), . . . , w(x
n
, t)).
Ajustamos el modelo
Y = X +
por mnimos cuadrados generalizados (MCG):

= arg mn
R
q+1
(Y X
t
)
T
W
t
(Y X
t
).
La solucion es

=
_
X
T
t
W
t
X
t
_
1
X
T
t
W
t
Y.
Observese que pueden tomarse los pesos
w(x
i
, t) =
1
h
K
_
x
i
t
h
_
1
h

n
j=1
K
_
x
j
t
h
_
o simplemente
w(x
i
, t) = K
_
x
i
t
h
_
porque en la expresion de

la matriz W
t
aparece elevada a 1 y a (1), as que
se cancelan las constantes multiplicativas que pueda haber en W
t
.
Para j = 0, . . . , q, sea e
j
el vector (q + 1)-dimensional con todas sus
coordenadas iguales a 0, salvo la (j + 1)-esima, que vale 1. Entonces
m
q
(t) =

0
= e
T
0

= e
T
0
_
X
T
t
W
t
X
t
_
1
X
T
t
W
t
Y = S
t
Y,
donde S
t
= e
T
0
_
X
T
t
W
t
X
t
_
1
X
T
t
W
t
es un vector la n-dimensional. Se tiene
entonces que el estimador de la funcion de regresion por polinomios locales
es un estimador lineal en los datos y
1
, . . . , y
n
.
En general, si se quiere estimar la s-esima derivada de m en el punto t,
se toma
m
(s)
q
(t) = s!

s
(t) = s!e
T
s

,
que es tambien lineal en y
1
, . . . , y
n
.
128 CAP

ITULO 4. ESTIMACI

ON DE LA FUNCI

ON DE REGRESI

ON
4.2.3. Propiedades locales de los estimadores por po-
linomios locales
En el siguiente resultado se dan las expresiones del sesgo y varianza
asintoticos del estimador basado en polinomios locales. La demostracion pue-
de verse en Fan y Gijbels (1996).
Teorema 4.1 Se considera el modelo de regresion no parametrico
Y
i
= m(x
i
) +
i
, i = 1 . . . n
donde
1
, . . . ,
n
son v.a. independientes con E(
i
) = 0 y V (
i
) =
2
(x
i
), y
el dise no x
1
, . . . , x
n
es regular con funcion de densidad f(x).
Se suponen las siguientes hipotesis de regularidad:
1. f(x), m
(q+2)
(x) y
2
(x) son funciones continuas de x.
2. f(x) > 0.
3. K es simetrica con soporte en [1, 1] y
_
R
K(u)du = 1.
4. (x h, x +h) esta contenido en el soporte de f(x).
5. h 0 y nh cuando n .
Sea m
q
(x) el estimador no parametrico de m(x) basado en el ajuste local de
un polinomio de grado q. Su varianza asintotica es
V ( m
q
(x)) =
R(K
(q)
)
2
(x)
nhf(x)
+o
_
1
nh
_
.
El sesgo asintotico de m
q
(x) es como sigue:
Si q es impar, q = 2k + 1,
E( m
q
(x)) m(x) =
m
(q+1)
(x)
(q + 1)!
h
q+1

q+1
(K
(q+1)
) +o(h
q+1
) =
m
(2k+2)
(x)
(2k + 2)!
h
2k+2

2k+2
(K
(2k+2)
) +o(h
2k+2
).
Si q es par, q = 2k, (hay que suponer ademas que f

(x) es continua)
E( m
q
(x))m(x) =
_
m
(q+1)
(x)f

(x)
f(x)(q + 1)!
+
m
(q+2)
(x)
(q + 2)!
_
h
q+2

q+2
(K
(q+2)
)+o(h
q+2
) =
_
m
(2k+1)
(x)f

(x)
f(x)(2k + 1)!
+
m
(2k+2)
(x)
(2k + 2)!
_
h
2k+2

2k+2
(K
(2k+2)
) +o(h
2k+2
).
4.2. ESTIMADORES N

UCLEO Y POLINOMIOS LOCALES 129

En estas expresiones, R(g) =
_
R
g(x)
2
dx,
j
(K) =
_
R
u
j
K(u)du, y K
(j)
es
un n ucleo de orden j.
Observese que los grados del polinomio local q = 2k y q = 2k + 1 dan
resultados similares asint oticamente, puesto que en ambos casos
MSE( m
q
(x)) = O(h
4k+4
).
En particular el estimador n ucleo de Nadaraya-Watson (q = 0) y el es-
timador local lineal (q = 1) dan MSE del mismo orden asintotico (O(h
4
)).
Concretamente, para el estimador de Nadaraya-Watson
V ( m
NW
(x)) = V ( m
0
(x)) =
R(K)
2
(x)
nhf(x)
+o
_
1
nh
_
,
Sesgo( m
NW
(x)) = E( m
0
(x))m(x) =
_
m

(x)f

(x)
f(x)
+
m

(x)
2
_
h
2

2
(K)+o(h
2
).
Para el estimador local lineal,
V ( m
1
(x)) =
R(K)
2
(x)
nhf(x)
+o
_
1
nh
_
, (4.3)
Sesgo( m
1
(x)) = E( m
1
(x)) m(x) =
m

(x)
2
h
2

2
(K) + o(h
2
). (4.4)
Se puede probar que el estimador n ucleo de Gasser-M uller tiene el si-
guiente comportamiento en dise no jo:
V ( m
GM
(x)) =
R(K)
2
(x)
nhf(x)
+o
_
1
nh
_
,
Sesgo( m
GM
(x)) = E( m
GM
(x)) m(x) =
m

(x)
2
h
2

2
(K) + o(h
2
).
En dise no aleatorio, sin embargo, el termino principal de la varianza del
estimador de Gasser-M uller se ve multiplicado por un factor de 3/2, mientras
que las varianzas del estimador de Nadaraya-Watson y del estimador local
lineal no se alteran.
Es decir, el estimador local lineal a una las buenas propiedades del estima-
dor n ucleo de Nadaraya-Watson (varianzas iguales en dise no jo y aleatorio)
y las del estimador de Gasser-M uller (expresion del sesgo simple y no depen-
diente de la densidad del dise no).
Las expresiones asint oticas del sesgo son mas simples si q es impar (re-
cuerdan las expresiones estudiadas en la estimacion n ucleo de la densidad)
130 CAP

ITULO 4. ESTIMACI

ON DE LA FUNCI

ON DE REGRESI

ON
y no dependen de la densidad f(x) del dise no de las x
i
. Es como si los poli-
nomios locales de grado impar se adaptasen al dise no, es decir, a diferentes
grados de concentracion de la variable explicativa x.
Observese que si el dise no es uniforme (f(x) constante y, por tanto,
f

(x) = 0) el comportamiento asintotico de los polinomios locales de gra-

dos q = 2k y q = 2k + 1 es equivalente.
En general se recomienda usar el polinomio local de grado q = 2k + 1 en
vez de usar el de grado q = 2k.
Si se optimiza en h el valor asint otico del MSE de m
q
(x) se llega a que el
valor optimo de h para estimar m(x) es
h
AMSE
= O
_
n

1
4k+5
_
, para q = 2k o q = 2k + 1,
lo que da lugar a un valor optimo del AMSE
AMSE

= O
_
n

4k+4
4k+5
_
, para q = 2k o q = 2k + 1.
Por ejemplo, si q = 0 o q = 1,
h
AMSE
= O
_
n

1
5
_
, AMSE

= O
_
n

4
5
_
,
que son los ordenes de convergencia que habamos visto en estimacion de
densidades mediante estimadores n ucleo con n ucleos de orden 2.
Observese que los ordenes de convergencia que se consiguen con polino-
mios locales de grado 2k o 2k + 1 son analogos a los que se conseguan en
estimacion de la densidad usando n ucleos de alto orden (de orden 2k + 2,
concretamente). En regresion polinomica local se obtienen estos comporta-
mientos tan deseables en el sesgo de los estimadores de una forma mas natural
que en estimacion de la densidad (aumentando el grado del polinomio local,
en vez de construyendo n ucleos de alto orden).
Si se usan n ucleos con soporte compacto y hay zonas de la recta real
en las que la densidad del dise no es baja (hay pocos puntos x
i
observados)
puede ser que m
q
(x) no este denida porque no haya ning un dato (x
i
, y
i
) con
x
i
[x h, x + h]. Una forma de evitar esto es usar un n ucleo con soporte
en todo R (n ucleo Gaussiano, por ejemplo).
Otra posibilidad es utilizar un estimador n ucleo con ventana variable, en
la lnea de los k vecinos mas cercanos. Por ejemplo se puede usar h(x) tal que
en [xh(x), x+h(x)] haya una proporcion s dada de puntos x
i
, con s (0, 1).
A s se le suele llamar span en los paquetes de estimacion no parametrica.
En R, la funcion loess permite hacer estimacion polinomica local jando el
valor del span s.
4.2. ESTIMADORES N

UCLEO Y POLINOMIOS LOCALES 131

4.2.4. Comportamiento en la frontera del soporte de x
Los estimadores n ucleo de Nadaraya-Watson o de Gasser-M uller tienen
problemas en la frontera del soporte de la variable explicativa, de forma
parecida a lo que sucede en la estimacion n ucleo de la densidad.
En el caso de la regresion el sesgo de los estimadores n ucleo es de orden
O(h) en la frontera, mientras que en el interior del soporte es de orden O(h
2
).
Por su parte, se puede probar que el estimador lineal local corrige au-
tomaticamente el problema del sesgo en la frontera y tiene sesgo de orden
O(h
2
) en todo el soporte de x. Por contra, cerca de la frontera este estimador
tiene mayor varianza que el estimador de Nadaraya-Watson.
En general, el estimador polinomico local de grado impar q = 2k + 1
tiene menor sesgo en la frontera que el de grado par inmediatamente inferior
q = 2k. Vease el Ejemplo 4.3 y las dos primeras gracoas de la Figura 4.4.
4.2.5. Eleccion del grado del polinomio local
Daremos algunas recomendaciones generales para elegir el grado de los
polinomios que se ajustan localmente. Cuanto mayor es q, mejores son las
propiedades teoricas del estimador no parametrico, aunque en la practica no
se aconseja que q supere (s +1), donde s es el orden de la derivada de m(x)
que se desea estimar.
Para estimar la funcion de regresion, es preferible ajustar polinomios de
grado impar a ajustar los del grado par inmediatamente anterior, porque los
primeros se adaptan mejor a los datos en la frontera del soporte de la variable
explicativa, en el caso de que este no sea toda la recta real. Por tanto, el
estimador lineal local (q = 1) es preferible al estimador de Nadaraya-Watson
(q = 0). Se nalemos nalmente que el efecto que la eleccion del grado q tiene
en el estimador es mucho menor que el debido a la eleccion del parametro de
suavizado h.
Para decidir si vale la pena pasar de ajustar un modelo lineal local (q = 1)
a ajustar un modelo c ubico local (q = 3), hay que tener en cuenta la expresion
asintotica del sesgo del estimador local lineal:
Sesgo( m
1
(x)) =
m

(x)
2
h
2

2
(K) +o(h
2
).
Observese que el sesgo sera alto en zonas donde la funcion m(x) tenga gran
curvatura (|m

(x)| grande). Por tanto, si m(x) presenta cambios abruptos

conviene usar q = 3 en vez de q = 1.
132 CAP

ITULO 4. ESTIMACI

ON DE LA FUNCI

ON DE REGRESI

ON
Ejemplo 4.3
La Figura 4.4 muestra diversos ajustes por polinomios locales de la fun-
cion de regresion de RM sobre LSTAT (conjunto de datos de caractersticas de
las viviendas en los barrios de Boston). En todos se ha usado el n ucleo de
Epanechnikov y ventana h = 7.
Se observa que el ajuste en la frontera del soporte de la variable explicativa
mejora al aumentar el grado del polinomio local (la mejora es mas notable
al pasar de q = 0 a q = 1).
Tambien se aprecia que para q = 2 y q = 3 hay menos sesgo que para
q = 0 o q = 1 en las zonas en las que la funcion de regresion tiene mas
curvatura (con q = 2 y q = 3 se aprecia la presencia de un mnimo y un
maximo local cerca de LSTAT igual a 15 y a 20, respectivamente).
0 10 20 30 40
3
4
5
6
7
8
9
LSTAT
R
M
Grado pol. local: q = 0
0 10 20 30 40
3
4
5
6
7
8
9
LSTAT
R
M
Grado pol. local: q = 1
0 10 20 30 40
3
4
5
6
7
8
9
LSTAT
R
M
Grado pol. local: q = 2
0 10 20 30 40
3
4
5
6
7
8
9
LSTAT
R
M
Grado pol. local: q = 3
Figura 4.4: Ajustes polinomicos locales de la variable RM como funcion de
LSTAT. Se han usado grados q = 0, 1, 2, 3, de los polinomios locales.
. .
4.2. ESTIMADORES N

UCLEO Y POLINOMIOS LOCALES 133

Ejemplo 4.4
La Figura 4.5 muestra la estimacion de la derivada de la funcion de regresion
de RM sobre LSTAT. Se han ajustado polinomios locales de segundo grado. Se
ha usado el n ucleo de Epanechnikov y ventana h = 7.
0 5 10 15 20 25 30 35 40
3
4
5
6
7
8
9
0 5 10 15 20 25 30 35 40
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
0.05
Figura 4.5: Estimacion de la derivada de la funcion de regresion de RM sobre
LSTAT Se ha usado un polinomio local de grado 2.
. .
134 CAP

ITULO 4. ESTIMACI

ON DE LA FUNCI

ON DE REGRESI

ON
4.3. Eleccion del parametro de suavizado
Como se ha mencionado anteriormente, la eleccion del parametro de sua-
vizado h tiene una importancia crucial en el aspecto y propiedades del esti-
mador de la funcion de regresion. En la practica, valores distintos de h pue-
den producir estimadores completamente distintos. La Figura 4.6 muestra
tres estimaciones de la funcion de regresion correspondientes a otros tantos
valores del parametro de suavizado: h = 0,25 (excesivamente peque no: el
estimador es muy poco suave y tiene muchas irregularidades), h = 2,5 (es el
que se uso en la Figura 3; parece una buena eleccion) y h = 15 (demasiado
grande: se suaviza demasiado y el estimador no parametrico es casi igual al
parametrico, la recta de regresion).
10 20 30
4
5
6
7
8
lstat
r
o
o
m
Tres valores de h: 0.25, 2.5 y 15
Figura 4.6: Ajuste lineal local con n ucleo gaussiano y tres valores del parame-
tro de suavizado h.
El parametro de suavizado controla el equilibrio que el estimador no pa-
rametrico de la funcion de regresion debe mantener entre el buen ajuste a
los datos observados y la capacidad de predecir bien observaciones futuras.
Valores peque nos de h dan mucha exibilidad al estimador y le permiten
acercarse a todos los datos observados (cuando h tiende a 0 el estimador aca-
ba por interpolar los datos), pero los errores de prediccion asociados seran
altos. Hay, por tanto, sobreajuste (overtting). En el caso de que h tome un
4.3. ELECCI

ON DEL PAR

AMETRO DE SUAVIZADO 135

tama no moderado no se ajustara tan bien a las observaciones (tampoco es
necesario, dado que los datos pueden contener ruido aleatorio) pero prede-
cira mejor. En el otro extremo, si h es demasiado grande, tendremos falta
de ajuste (undertting), como puede ocurrir con los modelos parametricos
globales.
Buscar el valor adecuado del parametro de suavizado persigue conseguir
el equilibrio entre el sesgo y la varianza del estimador. Para h peque no el
estimador es muy variable (aplicado a muestras distintas provenientes del
mismo modelo da resultados muy distintos) y tiene poco sesgo (el promedio
de los estimadores obtenidos para muestras distintas es aproximadamente la
verdadera funcion de regresion). Si h es grande ocurre lo contrario.
El parametro de suavizado puede elegirse de forma manual: comparando
los resultados obtenidos para distintos valores de h y eligiendo aquel que, a
juicio del investigador, de el resultado mas satisfactorio visualmente, o el mas
informativo (el que mejor resuma la relacion existente entre los datos). Esta
forma de proceder esta sujeta a la opinion subjetiva del usuario y no puede
automatizarse, lo que la hace inviable cuando el n umero de estimaciones no
parametricas que se han de realizar es grande. Se necesitan, pues, metodos
automaticos de seleccion del parametro de suavizado. Citaremos aqu los mas
habituales.
4.3.1. Error de prediccion en una muestra test

Este es un metodo que suele usarse en los campos del aprendizaje au-
tomatico y la minera de datos para calibrar metodos de prediccion. Si la
cantidad de datos disponibles permite dividir estos en una muestra para
la estimacion del modelo (conjunto de entrenamiento) y una muestra test,
entonces una buena medida de la calidad de un valor h del parametro de
suavizado es el error cuadratico medio de prediccion en la muestra test:
ECMP
test
(h) =
1
n
t
n
t

i=1
(y
test
i
m(x
test
i
))
2
,
donde (x
test
i
, y
test
i
), i = 1, . . . , n
t
, es la muestra test y m(x) es el estimador no
parametrico construido con parametro de suavizado h usando la otra parte
de la muestra original (la de entrenamiento). Se elige como parametro de
suavizado el valor h
test
que minimiza esa funcion.
4.3.2. Validaci on cruzada
Es una tecnica usada en muchos campos para la eleccion de parametros
que controlan el equilibrio entre precision y variabilidad (o entre bondad
136 CAP

ITULO 4. ESTIMACI

ON DE LA FUNCI

ON DE REGRESI

ON
del ajuste y capacidad predictiva) cuando no hay posibilidad de disponer de
una muestra test. Consiste en sacar de la muestra consecutivamente cada
una de las observaciones x
i
, estimar el modelo con los restantes datos (sea
m
(i)
(x) el estimador as obtenido), predecir el dato ausente con ese estimador
(as se esta haciendo de hecho prediccion fuera de la muestra) y, nalmente,
comparar esa prediccion con el dato real. Esto se hace con cada posible valor
de h, lo que permite construir la funcion
ECMP
CV
(h) =
1
n
n

i=1
(y
i
m
(i)
(x
i
))
2
,
que mide el error de prediccion del estimador fuera de la muestra para cada
h. El valor que minimice esa funcion, h
CV
, sera el valor del parametro de
suavizado elegido.
Ejemplo 4.5
La Figura 4.7 muestra el graco de la funcion ECMP
CV
(h) en el ejemplo
que venimos usando (relacion entre las variable RM y LSTAT). Se han usado
polinomios de grado 1 con pesos dados por un n ucleo gaussiano.
Se observa que tanto los valores de h excesivamente peque nos como los
excesivamente grandes dan lugar a errores de prediccion fuera de la muestra
excesivamente grandes, y que el optimo se encuentra en un valor intermedio,
h
CV
= 2,12, que dista poco del valor h = 2,5 usado en el panel derecho de
la Figura 4.3.
. .
4.3.3. Validaci on cruzada generalizada.
En los estimadores de la funcion de regresion que, como el basado en
ajuste de polinomios locales, son lineales en las observaciones de la variable
dependiente se puede probar que para calcular el ECMP
CV
(error cuadratico
medio de prediccion) no es necesario ajustar las n regresiones que se tienen
dejando fuera de la muestra cada uno de los n casos observados (x
i
, y
i
).
En los estimadores lineales la prediccion de la funcion de regresion en
cada valor observado x
i
es
y
i
=
n

j=1
w

(x
i
, x
j
)y
j
.
4.3. ELECCI

ON DEL PAR

AMETRO DE SUAVIZADO 137

0 5 10 15
1
3
0
1
3
5
1
4
0
1
4
5
1
5
0
h
C
V
Funcin ECMP
CV
(h)
Mnimo de ECMP
CV
(h) en 2.12
Figura 4.7: Valores del error (validaci on cruzada) seg un el parametro de
suavizado h, en la estimacion lineal local de RM como funcion de LSTAT.
En forma matricial tenemos que

Y = SY,
donde los vectores columna Y e

Y tienen elementos y
i
e y, respectivamente,
y la matriz S (llamada matriz de suavizado) tiene su elemento (i, j), s
ij
,
igual a w

(x
i
, x
j
). La matriz de suavizado es analoga a la matriz sombrero
H = X(X
T
X)
1
X
T
en regresion lineal m ultiple:

Y
L
= X(X
T
X)
1
X
T
Y = HY.
Se puede demostrar que
ECMP
CV
(h) =
1
n
n

i=1
_
y
i
y
i
1 s
ii
_
2
,
(igual que ocurre en el modelo de regresion lineal m ultiple), con lo que para
evaluar esta funcion no es necesario ajustar n regresiones no parametricas,
sino que basta con ajustar unicamente la que hace intervenir todos los datos
y anotar la matriz S.
138 CAP

ITULO 4. ESTIMACI

ON DE LA FUNCI

ON DE REGRESI

ON
En estos modelos puede hacerse una modicacion del criterio de la va-
lidacion cruzada que se denomina validaci

on cruzada generalizada.
Esta modicacion consiste en sustituir en la formula anterior los valores s
ii
de la diagonal de S por su valor promedio:
ECMP
GCV
(h) =
1
n
n

i=1
_
y
i
y
i
1 /n
_
2
,
donde
= Traza(S) =
n

i=1
s
ii
es la suma de los elementos de la diagonal de S.
En el caso de la regresion lineal m ultiple (S = H) con k regresores (X es
una matriz n k) incluyendo el termino independiente, se tiene que
Traza(H) = Traza(X(X
T
X)
1
X
T
) =
Traza((X
T
X)
1
X
T
X) = Traza(I
k
) = k,
que es el n umero de parametros del modelo. Por eso a = Traza(S) se le
llama n

umero de par

ametros efectivos del estimador no parametrico

correspondiente a la matriz S.
Tras manipular esta expresion se tiene que
ECMP
GCV
(h) =
n
2

n
,
donde

2

=
1
n
n

i=1
(y
i
y
i
)
2
(4.5)
es un estimador de la varianza de los errores del modelo.
El valor h
GCV
que minimiza esa funcion es el parametro de suavizado
elegido por el criterio de validacion cruzada generalizada.
En general = (h) es decreciente en h. Dado que la interpretacion de ,
como n umero de parametros efectivos, es la misma sea cual sea el estimador
(siempre que sea lineal en el sentido expresado mas arriba) algunos paquetes
estadsticos admiten que el grado de suavidad de la estimacion no parametrica
se exprese en terminos de , en vez de hacerlo en terminos de h.
4.3. ELECCI

ON DEL PAR

AMETRO DE SUAVIZADO 139

4.3.4. Plug-in
Vamos a centrarnos ahora en el estimador lineal local, m(x). Supon-
dremos que la densidad del dise no f(x) tiene soporte [a, b] R. Tambien
supondremos que el modelo de regresion no parametrico es homocedastico
(V (Y |X = x) =
2
(x) =
2
). Presentamos la propuesta de Ruppert, Sheat-
her y Wand (1995) para elegir la ventana h por el metodo plug-in.
Una medida global del ajuste del estimador m a la verdadera funcion m
es el error cuadratico medio integrado:
MISE( m) = E
Z
(ISE( m)) = E
Z
__
b
a
( m(x) m(x))
2
f(x)dx
_
.
En esta ecuacion Z representa la muestra aleatoria de tama no n a partir de la
cual se construye el estimador no parametrico m: Z = {(x
i
, y
i
) : i = 1, . . . , n}.
Al igual que ocurra en estimacion de la densidad, se tiene que MISE( m) =
IMSE( m). Teniendo en cuenta las expresiones (4.3) y (4.4) de la varianza y
el sesgo asint oticos del estimador local lineal, se tiene que
MISE( m) = IMSE( m) =
h
4

2
2
(K)
4
_
b
a
(m

(x))
2
f(x)dx+
R(K)
2
nh
+o
_
h
4
+
1
nh
_
.
As, el valor de h que minimiza el AMISE (la parte principal del MISE) es
h
0
=
_
R(K)
2

2
2
(K)
_
b
a
(m

(x))
2
f(x)dx
_
1/5
n
1/5
.
El metodo de seleccion de h por plug-in, que lleva a seleccionar una ventana
que denotaremos por h
PI
, consiste en sustituir en esta expresion las cantida-
des desconocidas por estimaciones de ellas. En concreto, para dar un valor a
h
0
necesitamos:
(i) estimar
_
b
a
(m

(x))
2
f(x)dx,
(ii) estimar
2
= V (Y |X = x) = V ().
Estimar el valor esperado de (m

(X))
2
:
Para estimar
_
b
a
(m

(x))
2
f(x)dx = E[(m

(X))
2
],
140 CAP

ITULO 4. ESTIMACI

ON DE LA FUNCI

ON DE REGRESI

ON
donde X f(x), se puede seguir el siguiente procedimiento. Se ajusta a los
datos (x
i
, y
i
), i = 1, . . . , n, un estimador polinomico local de tercer grado
con pesos dados por el n ucleo K y una ventana g que habra que determinar:
w(x
i
, t) = K((x
i
t)/g). La estimacion de la segunda de derivada de m en
un punto t se calcula como vimos en la ecuacion (4.2).
De esta forma se estima m

(t) para t = x
1
, . . . , x
n
. Entonces E[(m

(X))
2
]
se estima como
1
n
n

i=1
( m

g
(x
i
))
2
.
El valor de g optimo para estimar la segunda derivada de m(x) es
g
0
= C
2
(K)
_

2
|
_
b
a
m

(x)m
(iv)
(x)f(x)dx|
_
1/7
n
1/7
.
La estimacion de m

(x) y m
(iv)
(x) se hace dividiendo el rango de los datos
x
i
en subintervalos y ajustando un polinomio de grado 4 (o mayor) en cada
subintervalo. Este metodo tambien da una primera estimacion de
2
.
Estimar el valor de
2
:
Hay varias opciones para estimar la varianza de los errores en el modelo
de regresion no parametrica.
1. Acabamos de ver una de ellas: dividir el rango de la variable explicativa
en subintervalos y ajustar modelos parametricos en cada uno de ellos.
2. La ecuacion (4.5) ofrece otra forma de estimar
2
= V (). All se usa la
suma de cuadrados de los errores en la muestra original divididos por n
menos el n umero de parametros efectivos del modelo no parametrico .
Esa ecuacion se sigue de la analoga entre el estimador de la regresion
lineal m ultiple y los estimadores no parametricos lineales.
3. Esta analoga puede sugerir a un otro estimador de
2
. En el modelo de
regresion lineal m ultiple con k regresores
Y = X +,

Y
L
= HY, = Y

Y
L
= (I H)Y.
Si N(0,
2
I) se tiene que
1

2

T
=
T
(I H)
T
(I H)
2
nk
.
4.3. ELECCI

ON DEL PAR

AMETRO DE SUAVIZADO 141

A la cantidad (n k) se le llama grados de libertad del modelo, y
esa cantidad es la traza de la matriz que dene la forma cuadratica en
:
Traza((I H)
T
(I H)) = Traza((I H)(I H)) =
Traza(I H) = Traza(I) Traza(H) = n k.
Observese que se ha utilizado que la matriz H es simetrica e idempo-
tente: H = H
T
y H
2
= H. Lo mismo le ocurre a (I H).
Como la esperanza de una
2
es igual a su n umero de grados de libertad,
se tiene que

2
=
1
n k

T
=
1
n k
n

i=1
(y
i
y
i
)
2
es un estimador insesgado de
2
.
En el caso de un estimador lineal de la regresion no parametrica, la
matriz de suavizado S hace el papel de la matriz sombrero H:

Y = SY .
As, el n umero de grados de libertad efectivos del modelo no
parametrico es
= Traza((I S)
T
(I S)) = Traza(I S
T
S +S
T
S) = (4.6)
n 2Traza(S) + Traza(S
T
S).
Observese que en este caso, la matriz S no es ni simetrica ni idempo-
tente y por lo tanto Traza(S) = Traza(S
T
S).
Ya se denio = Traza(S), como n umero de parametros efectivos del
modelo. Se puede denir = Traza(S
T
S). As, el n umero de grados de
libertad efectivos es
= n 2 + .
Se dene entonces el estimador de
2
como

2
=
1
n 2 +
n

i=1
(y
i
y
i
)
2
.
Con esta denicion
2
es insesgado si la funcion de regresion m(x) es
lineal. Tambien se puede probar que si m(x) es sucientemente suave
entonces
2
es un estimador consistente de
2
.
Esta estimacion de
2
requiere que se haya estimado de alguna manera
el modelo de regresion no parametrica. Si se ajusta un estimador lo-
cal lineal con n ucleo K, se puede probar que la ventana optima para
142 CAP

ITULO 4. ESTIMACI

ON DE LA FUNCI

ON DE REGRESI

ON
estimar
2
es
C
3
(K)
_

4
(
_
b
a
(m

(x))
2
f(x)dx)
2
_
n
2/9
.
En esta expresion,
2
y m

se estiman como se indico mas arriba:

dividiendo el rango de las x
i
en subintervalos y ajustando modelos
parametricos en cada uno de ellos.
4. Propuesta de Rice (1984).
Consideramos que en el modelo de regresion y
i
= m(x
i
) +
i
, i =
1, . . . , n, los datos estan ordenados seg un el orden creciente de x
i
. As,
y
i
y
i1
= m(x
i
) m(x
i1
) + (
i

i1
).
Por tanto,
V (y
i
y
i1
) = E
_
(y
i
y
i1
)
2

(m(x
i
)m(x
i1
))
2
= V
_
(
i

i1
)
2

= 2
2
.
Si la funcion m es sucientemente suave y los puntos x
i
y x
i1
son su-
cientemente proximos, la cantidad (m(x
i
) m(x
i1
))
2
es despreciable
comparada con E [(y
i
y
i1
)
2
], y se tiene que
E
_
(y
i
y
i1
)
2

2
2
,
de donde se sigue que

2
=
1
2(n 1)
n

i=2
(y
i
y
i1
)
2
es un estimador aproximadamente insesgado de
2
.
5. Propuesta de Gasser, Sroka y Jennen-Steinmetz (1986)
Se basa en realizar interpolaciones lineales alrededor de cada observa-
cion (x
i
, y
i
), usando para ello las observaciones (x
i1
, y
i1
) y (x
i+1
, y
i+1
)
(se supone que los datos estan ordenados seg un x
i
). Sea
y
i
=
x
i+1
x
i
x
i+1
x
i1
y
i1
+
x
i
x
i1
x
i+1
x
i1
y
i+1
= a
i
y
i1
+b
i
y
i+1
el interpolador lineal de (x
i1
, y
i1
) y (x
i+1
, y
i+1
) evaluado en x = x
i
.
Se dene

i
= y
i
y
i
= a
i
y
i1
+b
i
y
i+1
y
i
.
4.3. ELECCI

ON DEL PAR

AMETRO DE SUAVIZADO 143

Su esperanza es
E(
i
) = a
i
m(x
i1
) +b
i
m(x
i+1
) m(x
i
) = m
l
(x
i
) m(x
i
) 0,
donde m
l
(x
i
) es el interpolador lineal de (x
i1
, m(x
i1
)) y (x
i+1
, m(x
i+1
))
evaluado en x = x
i
, que es aproximadamente igual a m(x
i
) si la funcion
m es sucientemente suave y los puntos x
i1
y x
i+1
son sucientemente
proximos.
As,
E(
2
i
) V (
i
) = (a
2
i
+b
2
i
+ 1)
2
,
lo que implica que

2
=
1
n 2
n1

i=2
1
a
2
i
+b
2
i
+ 1

2
i
es un estimador aproximadamente insesgado de
2
.
4.3.5. Comportamiento asintotico de selectores de h
Hemos visto tres selectores del parametro de suavizado h que no requieren
de una muestra test: h
CV
, h
GCV
y h
PI
. Estos tres selectores convergen al
valor h
0
que minimiza el AMISE cuando n tiende a innito, pero lo hacen a
diferentes velocidades:
h
CV
h
0
1 = O
p
(n
1/10
),
h
GCV
h
0
1 = O
p
(n
1/10
),
h
PI
h
0
1 = O
p
(n
2/7
).
4.3.6. Ventana variable
La expresion de la ventana h
AMSE
que minimiza el error cuadratico me-
dio asint otico puntual, AMSE, del estimador lineal local m(t) como estimador
de m(t) es (ver ecuaciones 4.3 y 4.4)
h
AMSE
(t) =
_
R(K)
2
(t)

2
2
(K)f(t)(m

(t))
2
_
1/5
n
1/5
.
Esta expresion sugiere que en ocasiones es preferible usar parametros de
suavizado que dependan del punto t donde se esta estimando la funcion de
regresion (h(t)) o de los valores observados de la variable explicativa (h(x
i
)):
144 CAP

ITULO 4. ESTIMACI

ON DE LA FUNCI

ON DE REGRESI

ON
Cuando la densidad de la variable explicativa vare considerablemente
a lo largo de su recorrido (en zonas con muchos datos la ventana puede
ser mas peque na que en zonas donde haya pocas observaciones).
En el ejemplo que hemos seguido durante este captulo de la regresion
de la variable RM sobre la variable LSTAT vemos que la densidad de la
variable explicativa es mucho menor con valores altos de LSTAT.
Cuando la varianza de los errores sea funcion de la variable explicativa
(en zonas con gran variabilidad en los errores es recomendable usar
valores grandes de la ventana).
cuando la curvatura de la funcion de regresion sea diferente en diferen-
tes tramos del recorrido de la variable explicativa (en zonas donde la
variabilidad sea grande se deben usar valores mas peque nos de h).
La forma mas habitual de incluir una ventana variable en el estimador
no parametrico es jar la proporcion s de puntos que se desea usar en la
estimacion de cada valor m(t) y denir h(t) tal que el n umero de datos (x
i
, y
i
)
con x
i
perteneciente al intervalo (t h(t), t + h(t)) sea sn. La proporcion s
se denomina span.
Si se ajusta un polinomio de grado q = 0 (estimador de Nadaraya-
Watson), se usa el n ucleo uniforme y se elige s = k/n, el estimador resultante
es el estimador de los k vecinos mas cercanos (k-nearest neighbours, en ingles).
La eleccion de s (o de k = sn) puede hacerse mediante validaci on cruzada o
usando una muestra test.
4.4. Verosimilitud local
4.4.1. Discriminacion no parametrica mediante regre-
sion binaria local
La discriminacion no parametrica basada en la estimacion de las funciones
de densidad en cada subpoblacion (ver la Seccion 3.6.7) no es la unica va de
plantearse el problema de clasicacion desde una optica no parametrica. Este
problema puede tambien modelarse como uno de regresion no parametrica
en el que la respuesta (el indicador de la clase a la que pertenece cada dato)
es categorica. Aqu nos limitaremos a estudiar el caso en el que solo hay dos
clases (respuesta binaria). Estos modelos son una versi on no parametrica de
los modelos lineales generalizados.
4.4. VEROSIMILITUD LOCAL 145
Consideremos el problema de analisis discriminante con dos clases, C
0
y
C
1
, y observaciones asociadas
(y
i
; x
i1
, . . . , x
ip
), i = 1, . . . , n,
con y
i
igual a 0 o a 1, seg un si la observaci on i-esima pertenece a una u otra
clase.
Si la variable explicativa X es unidimensional, su densidad marginal es
la mixtura
f(x) =
0
f(x|C
0
) +
1
f(x|C
1
) =
0
f(x|Y = 0) +
1
f(x|Y = 1),
donde
i
= P(C
i
) = P(Y = i), i = 1, 2, son las probabilidades a priori de
cada clase.
Si dx es una longitud sucientemente peque na,
P(X [x, x +dx]) f(x)|dx| =
0
f(x|Y = 0)|dx| +
1
f(x|Y = 1)|dx|.
Por el Teorema de Bayes, para i = 0, 1 se tiene que
P(Y = i|X [x, x +dx])

i
f(x|Y = i)|dx|

0
f(x|Y = 0)|dx| +
1
f(x|Y = 1)|dx|
=
P(Y = i)f(x|Y = i)
f(x)
.
Concluimos que
m(x) = E(Y |X = x) P(Y = 1|X [x, x +dx])
P(Y = 1)f(x|Y = 1)
f(x)
.
Se puede probar que en efecto se da la igualdad
m(x) = E(Y |X = x) = P(Y = 1)f(x|Y = 1)/f(x).
El mismo tipo de razonamiento se puede hacer para una variable expli-
cativa X p-dimensional (el incremento dx tambien es p-dimensional y en las
expresiones anteriores |dx| debe leerse como volumen del hipercubo de lados
iguales a las componentes de dx).
Dados los datos
(y
i
; x
i1
, . . . , x
ip
), i = 1, . . . , n,
modelizamos y
i
como una variable aleatoria que toma los valores 1 y 0 con
probabilidades respectivas p
i
y 1 p
i
, donde p
i
es funcion de las variables
explicativas (x
i1
, . . . , x
ip
) :
p
i
= E(Y
i
|x
i1
, . . . , x
ip
) = P(Y
i
= 1|x
i1
, . . . , x
ip
) =
146 CAP

ITULO 4. ESTIMACI

ON DE LA FUNCI

ON DE REGRESI

ON
m(x
i1
, . . . , x
ip
) = P(Y = 1)f(x
i1
, . . . , x
ip
|Y = 1)/f(x
i1
, . . . , x
ip
).
La distribucion de probabilidad queda entonces totalmente determinada: y
i
sigue una Bernoulli de parametro p
i
= m(x
i1
, . . . , x
ip
).
Si la funcion m(x
i1
, . . . , x
ip
) fuese conocida, tendramos una forma sencilla
de clasicar una nueva observaciones de la que solo conociesemos las variables
explicativas x = (x
1
, . . . , x
p
): se clasicara en la poblacion C
1
si y solo si
p
x
= m(x
1
, . . . , x
p
) > 0,5
P(Y = 1)f(x
1
, . . . , x
p
|Y = 1) > P(Y = 0)f(x
1
, . . . , x
p
|Y = 0),
que es la regla Bayes.
Dado que en general la funcion m no sera conocida, lo que se propone
es sustituirla en esa regla de clasicacion por una estimacion suya hecha de
forma no parametrica.
La estimacion de p
x
= m(x
1
, . . . , x
p
) sera facil si un modelo parametrico
(digamos el modelo logstico) se adaptase bien a todo el rango de valores
de las variables explicativas. Esto no siempre es as y por eso precisamente
buscamos un estimador no parametrico. No obstante, aunque globalmente el
modelo logstico no sea una buena aproximacion de la funcion, s lo puede
ser localmente, en un entorno del punto x = (x
1
, . . . , x
p
). En realidad, es el
mismo tipo de aproximaci on que hacamos al estimar localmente mediante
un polinomio la funcion de regresion no parametrica.
Por lo tanto, suponemos que si x
i
= (x
i1
, . . . , x
ip
) esta en un entorno de
x = (x
1
, . . . , x
p
) entonces y
i
sigue un modelo logstico:
p
i
=
1
1 +e

T
x
i
, o de forma equivalente log
_
p
i
1 p
i
_
=
T
x
i
.
Observese que el vector de parametros es funcion del punto x = (x
1
, . . . , x
p
),
porque ese punto es el que dene que observaciones estan en su entorno y
cuales no.
Resulta pues que en un entorno de x = (x
1
, . . . , x
p
) ajustamos un modelo
parametrico que podemos estimar, por ejemplo, por maxima verosimilitud.
La contribuci on de cada observaci on a la funcion de log-verosimilitud es, por
tratarse de un modelo logstico,
y
i
log
_
p
i
1 p
i
_
+ log(1 p
i
).
Sumando sobre todas los observaciones y ponderando cada una por un peso
w
i
= w(x, x
i
) (decreciente en la distancia que separa x
i
de x) se obtiene la
4.4. VEROSIMILITUD LOCAL 147
llamada funcion de log-verosimilitud local:
l
x
() =
n

i=1
w
i
_
y
i
log
_
p
i
1 p
i
_
+ log(1 p
i
)
_
.
Maximizando esta funcion se obtiene un estimador de ,

, que permite
obtener una estimacion de p
x
= m(x
1
, . . . , x
p
):
m(x
1
, . . . , x
p
) = p
x
=
1
1 +e

T
x
.
Seg un si este valor es menor o mayor que 0.5, se clasicara la observacion
x = (x
1
, . . . , x
p
) en C
0
o en C
1
, respectivamente.
En la practica los pesos w
i
= w(x, x
i
) se denen a partir de funciones
n ucleo en dimension p, del mismo modo que se hace en estimacion no pa-
rametrica de la densidad multivariante.
El modelo logstico, elegido como aproximaci on parametrica local, puede
cambiarse por otro modelo parametrico de respuesta binaria. La variaci on
en los resultados es poco perceptible, porque la funcion de verosimilitud
local usa unicamente peque nas partes del modelo parametrico elegido, y dos
modelos parametricos distintos pueden tener partes peque nas semejantes,
aunque globalmente sean distintos.
Ejemplo 4.6
La Figura 4.8 muestra la puesta en practica de la regresion binaria no pa-
rametrica mediante el ajuste local del modelo logstico. En el conjunto de
datos sobre caractersticas de las viviendas en barrios de Boston, se desea
recuperar la variable binaria creada a partir de RM (y
i
= 0 si RM< 6,2, y
i
= 1
en caso contrario) como funcion de la variable LSTAT. En cada ajuste local
se han denido los pesos de cada observaci on seg un un n ucleo gaussiano con
ventana (desviacion tpica) igual a 3. El punto en el que la funcion de pro-
babilidad estimada cruza el valor 0.5 es LSTAT= 10. Por lo tanto, la regla de
regresion logstica no parametrica predice y = 0 cuando el valor observado de
LSTAT es mayor que 10, y predice y = 1 en caso contrario. Este resultado es
muy similar al obtenido con la regla discriminante vista en la seccion anterior
(9.38).
Completamos el ejemplo incluyendo una segunda variable explicativa
(AGE: porcentaje de viviendas construidas antes de 1940 en cada barrio de
Boston) en el modelo de regresion logstica local. La Figura 4.9 muestra las
curvas de nivel de la estimacion no parametrica de la probabilidad de per-
tenecer a la clase C
2
en funcion de (LSTAT, AGE). La lnea de trazo grueso
148 CAP

ITULO 4. ESTIMACI

ON DE LA FUNCI

ON DE REGRESI

ON
0 10 20 30 40
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
lstat
P
r
(
r
o
o
m
>
6
.
2
|
l
s
t
a
t
)
||| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| | ||||||||||| |||||||||||||||||| || ||||| ||||| |||| ||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||| ||||||||| ||||||||||||||||| ||| ||||| ||| ||| | | ||||| | |
| |||| ||||||||||||||||||||||||||||||||||||||||| || ||||||||||||||||||||||||||||||||||| |||| |||||| |||| ||||||||||||||||| | ||||||||||||||||| ||||||| |||||||||||||||||||||||||||||||||||| ||| |||||| ||||||| |||||||||| |||| | ||||||||||||||| || |||||||||| || || | ||| |||| | | |||| | |
Asignar a C2 Asignar a C1
l
s
t
a
t
=
1
0
Pr=0.5
Figura 4.8: Regla discriminante basada en regresion logstica local.
esta formada por aquellos puntos en los que la estimacion de esta probabi-
lidad es igual a 0.5. Por tanto esta lnea es la frontera de las zonas que se
clasicaran en C
1
(a la izquierda de la lnea) o en C
2
(a la derecha). Si se
compara esta gura con la Figura 14 se aprecian grandes similitudes, aunque
no hay una coincidencia total.
. .
4.4.2. Modelo de verosimilitud local
En esta seccion veremos que el modelo de regresion no parametrica, es-
timado mediante regresion lineal local, y el modelo de regresion binaria no
parametrica, estimado mediante regresion logstica local, son dos casos par-
ticulares de lo que podramos llamar modelo de regresion no parametrica
(general) estimado mediante el ajuste de modelos parametricos mediante ve-
rosimilitud local.
Consideremos el modelo de regresion 4.1 presentado al inicio de este
captulo:
y
i
= m(x
i
) +
i
, i = 1, . . . , n,
y supongamos que los residuos son independientes y normales:
i
N(0,
2
).
4.4. VEROSIMILITUD LOCAL 149
0 5 10 15 20 25 30 35
0
2
0
4
0
6
0
8
0
1
0
0
LSTAT
A
G
E

0
.
3

0
.
4

0
.
5

0
.6

0
.7

0
.
5

Probabilidad estimada de pertenecer a C2
Figura 4.9: Regla discriminante basada en regresion logstica local bivariante.
Otra forma de escribir esto es decir que
(Y
i
|X = x
i
) N(m(x
i
),
2
), i = 1, . . . , n.
El logaritmo de la verosimilitud de una funcion m, candidata a ser esti-
mador de la funcion m desconocida es
l( m) = log L( m) = C
1
2
2
n

i=1
(y
i
m(x
i
))
2
.
Con errores normales, maximizar la verosimilitud equivale a minimizar la
suma de cuadrados de los residuos ajustados.
Para evitar elegir como estimador de m una funcion m que interpole los
datos ( m(x
i
) = y
i
, i = 1, . . . , n), se maximiza localmente la verosimilitud de
un modelo parametrico:
l
[t,w]
(
0
,
1
) = C
1
2
2
n

i=1
(y
i
(
0
+
1
(x
i
t)))
2
w(x
i
, t).
Los parametros optimos (alrededor de x = t y usando los pesos dados por la
funcion w) son (

0
(t),

1
(t)), y la funcion estimada es
m(t) =

0
(t).
150 CAP

ITULO 4. ESTIMACI

ON DE LA FUNCI

ON DE REGRESI

Este es otro modo de llegar al metodo de regresion lineal local.

Por su parte, en el modelo de regresion binaria local que hemos expuesto
mas arriba se tiene el modelo
(Y
i
|X = x
i
) Bernoulli(m(x
i1
, . . . , x
ip
)).
All se estimo la funcion m mediante ajustes locales de modelos logsticos
(con logit(p
i
) lineal en (x
i1
, . . . , x
ip
)) mediante maxima verosimilitud local.
En un problema de regresion no parametrica general se quiere estimar la
esperanza condicionada de una variable Y dado el valor x de una variable
explicativa X (posiblemente multivariante)
m(x) = E(Y |X = x).
La propuesta basada en verosimilitud local consiste en proponer un modelo
parametrico que se ajuste bien localmente a la distribucion de de (Y |X = x):
(Y |X = x) f(y; (x)). (4.7)
En este modelo habra alguna forma estandar de calcular E(Y |X = x) en
funcion de los parametros (x): m(x) = g((x)). Si se desea que m(x) sea
una funcion suave de x, implcitamente se esta pidiendo que (x) tambien lo
sea.
El modelo parametrico local f(y; (x)) debe tener en cuenta las carac-
tersticas de (Y |X = x). Por ejemplo, la variable Y puede ser una variable
de conteo, o su soporte puede estar restringido a R
+
o a [0, 1]. En esos caso,
podran usarse como modelos parametricos locales los de Poisson, Gamma
o Beta, respectivamente. En general, los modelos lineales generalizados son
una buena coleccion entre la que buscar candidatos a modelos parametricos
locales.
La forma de ajustar el modelo parametrico local es mediante maxima
verosimilitud local, especicando una forma funcional sencilla para (x) como
funcion de x. Concretamente, la modelizacion de (x) como un polinomio de
primer grado en x da buenos resultados (es la que se ha usado en los casos
de distribucion condicionada normal o Bernoulli), aunque podra usarse un
grado mayor que 1.
El logaritmo de la funcion de verosimilitud local alrededor de x = t es
l
[t,w]
(
0
, ) =
n

i=1
l
i
(
0
, )w(x
i
, t),
donde l
i
(
0
, ) = log f(y
i
;
0
+
T
(x
i
t)), w(x
i
, t) es el peso de la observaci on
x
i
en la stimacion de (t), y se realiza un ajuste lineal local (se toma (x) =
4.5. INFERENCIA EN EL MODELO DE REGRESI

ON NO PARAM

ETRICA151

0
+
T
(x t)). El peso w(x
i
, t) vendr a dado usualmente por una funcion
n ucleo:
w(x
i
, t) K
_
x
i
t
h
_
.
Los parametros (
0
, ) as estimados seran (

0
(t),

(t)). Entonces,

(t) =

0
(t) +

(t)
T
(t t) =

0
(t),
y
m(x) =

E(Y |X = x) = g(

(t)) = g(

0
(t)).
El modelo parametrico ajustado localmente tambien proporciona estima-
ciones de la varianza del estimador local del parametro ,
V (

(x)) = h((x)),

V (

(x)) = h(

(x)),
que pueden ser utiles para posteriores fases de la inferencia.
Por otra parte, ademas de la esperanza condicionada otras caractersticas
de la distribucion condicionada (Y |X = x) tambien pueden ser calculadas a
partir de (x). Por ejemplo, puede ser de interes estudiar la V (Y |X = x) o
un determinado quantil de (Y |X = x).
La estimacion no parametrica mediante verosimilitud local que acabamos
de exponer tambien puede sufrir los efectos de la maldicion de la dimensiona-
lidad si hay muchas variables explicativas en x (dimension alta). Los modelos
aditivos generalizados (ver Captulo 6) consiguen evitar el problema de for-
ma analoga a como los modelos aditivos lo eluden en el modelo de regresion
m ultiple no parametrico: se pierde exibilidad del modelo para ganar en capa-
cidad de estimacion y de interpretacion. Los modelos aditivos generalizados
extienden los modelos aditivos al caso en el que la variable respuesta no es
continua o, en caso de serlo, esta no sigue una distribucion normal (dado el
valor de la variable explicativa). Es el mismo tipo de extension que permite
pasar del modelo de regresion lineal m ultiple al modelo lineal generalizado.
4.5. Inferencia en el modelo de regresion no
parametrica
En esta seccion se listan algunos problemas de inferencia estadstica que se
pueden abordar usando estimacion no parametrica de la funcion de regresion.
Los contenidos aqu expuestos se inspiran principalmente en los Captulos 4,
5 y 6 del libro de Bowman y Azzalini (1997).
152 CAP

ITULO 4. ESTIMACI

ON DE LA FUNCI

ON DE REGRESI

ON
4.5.1. Bandas de variabilidad
En el modelo de regresion no parametrico homocedastico (4.1), hemos
visto que el estimador lineal local tiene sesgo
E( m(x)) m(x) =
h
2
m

(x)
2
(K)
2
+o(h
2
)
y varianza
V ( m(x)) =
R(K)
2
(x)
nhf(x)
+o
_
1
nh
_
.
Esta varianza se puede estimar mediante

V ( m(x)) =
R(K)
2
(x)
nhf(x)
+o
_
1
nh
_
,
donde
2
es alguno de los estimadores de
2
que se presentaron en la Seccion
4.3.4, pagina 140.
Para un valor de h jo, se puede probar que
m(x) E( m(x))
_
V ( m(x))
N(0, 1) en ley cuando n .
Esto permite construir intervalos de conanza para E( m(x)), a los que llama-
remos bandas de variabilidad de m(x). Observese que no son intervalos
de conanza para m(x). Si = 0,05,
IC
1

_
m(x) 1,96
_

V ( m(x))
_
.
En los modelos de verosimilitud local, cada estimacion local del modelo
parametrico da lugar a una estimacion del parametro local,

(x), y de su
varianza,

V (

(x)).
Teniendo en cuenta que
m(x) =

E(Y |X = x) = g(

(x))
y usando el metodo delta, se tiene el siguiente estimador de V ( m(x)):

V ( m(x)) = g(

(x))
T

V (

(x))g(

(x)),
donde g() es el gradiente de la funcion g evaluado en el punto .
Observese que las bandas de variabilidad son bandas puntuales para
E( m(x)). Las armaciones sobre la probabilidad (aproximada) de cobertura
4.5. INFERENCIA EN EL MODELO DE REGRESI

ON NO PARAM

ETRICA153
del verdadero valor de E( m(x)) son validas cuando se realizan para un punto
x concreto, pero no lo son cuando se hacen para todo x simultaneamente.
Este tipo de armaciones seran unifores en x, y tendran la forma
P (L(x) E( m(x)) U(x), para todo x R) 1 ,
donde L(x) y U(x) seran funciones aleatorias (dependientes de la muestra
observada).
En la Seccion 5.7 de Wasserman (2006) se presenta una forma de construir
bandas de conanza uniformes para m(x).
4.5.2. Contraste de ausencia de efectos
En el modelo de regresion no parametrico homocedastico (4.1),
Y
i
= m(x
i
) +
i
, i = 1, . . . , n,
nos planteamos contrastar la hipotesis nula de ausencia de efectos:
_
H
0
: m(x) es constante e igual a
Y
= E(Y ),
H
1
: m(x) no es constante.
Por analoga con el modelo de regresion lineal se propone usar como estadsti-
co del contraste
F =
(SCR
0
SCR
1
)/(gl
0
gl
1
)
SCR
1
/gl
1
,
donde las sumas de cuadrados de los residuos (SCR) y los correspondientes
grados de libertad (gl) son
SCR
0
=
n

i=1
(y
i
y)
2
, gl
0
= n 1,
SCR
1
=
n

i=1
(y
i
m(x
i
))
2
,
con m(x) un estimador no parametrico de m(x), que tiene gl
1
grados de
libertad efectivos, calculados como se vio en la ecuacion (4.6).
Observese que la distribucion de F no tiene por que ser una F de Snedecor,
ni siquiera en el caso en el que los residuos del modelo tengan distribucion
normal.
La tabulacion la distribucion de F bajo la hipotesis nula se hace como en
un test de permutaciones. Bajo H
0
, cualquier permutaci on de y
1
, . . . , y
n
es
igualmente probable para x
1
, . . . , x
n
jo. As, se realizan los siguientes pasos:
154 CAP

ITULO 4. ESTIMACI

ON DE LA FUNCI

ON DE REGRESI

ON
1. Se permuta y
1
, . . . , y
n
aleatoriamente y se obtiene y
i
1
, . . . , y
i
n
. Se cons-
truye la muestra permutada
(x
j
, y
i
j
), j = 1, . . . , n.
2. Se calcula el valor del estadstico F en la muestra permutada: F
P
.
3. Se repiten B veces los pasos 1 y 2: F
1
P
, . . . , F
B
P
.
4. Se compara el valor de F observado en la muestra original, F
obs
, con
F
1
P
, . . . , F
B
P
, y se obtiene el p-valor del test:
p-valor =
#{F
b
P
> F
obs
}
B
.
En el paso 2 se estima la funcion de regresion para cada muestra permu-
tada. Si se representan las B funciones estimadas simult aneamente se obtiene
una banda de referencia del modelo sin efectos, que permite con-
trastar gracamente de forma aproximada la hipotesis nula de ausencia de
efectos: si la funcion estimada en la muestra original sale fuera de la banda
de referencia, se rechaza la hipotesis nula.
Hay otra forma de construir una banda de referencia del mode-
lo sin efectos que no precisa de la obtencion de muestras permutadas.
Observese que bajo la hipotesis nula (m(x) =
Y
, constante en x) el estima-
dor local lineal es insesgado:
m(x) =
n

i=1
w

(x
i
, x)y
i
=E( m(x)) =
n

i=1
w

(x
i
, x)
Y
=
Y
= m(x).
Sea y la media muestral de y
1
, . . . , y
n
.

Este es tambien un estimador insesgado
de
Y
. As, para todo x,
E( m(x) y) = 0,
V ( m(x) y) = V (
n

i=1
w

(x
i
, x)y
i

i=1
(1/n)y
i
) =
2
n

i=1
(w

(x
i
, x) (1/n))
2
.
Teniendo en cuenta la normalidad asint otica, se tiene que
_
_
y 1,96

_

2
n

i=1
(w

(x
i
, x) (1/n))
2
_
_
es una banda de referencia aproximada, de conanza 0,95, para la hipotesis
nula de ausencia de efectos. Si la estimacion no parametrica m(x) sale fuera
de esa banda H
0
debera rechazarse.
4.5. INFERENCIA EN EL MODELO DE REGRESI

ON NO PARAM

ETRICA155
Debe recordarse siempre que un contraste graco tiene utilidad principal-
mente como herramienta descriptiva, y que es mucho menos preciso que un
contraste basado en un test de permutaciones.
En el procedimeiento de contraste anterior se deja jo el valor del parame-
tro de suavizado h en todas las estimaciones no parametricas de m(x) que se
hacen usando las muestras permutadas que se generan en el paso 2. Por lo
tanto, el p-valor del test y el resultado del contraste pueden depender del h
elegido.
Por lo tanto es util realizar gracos de (h, p-valor(h)) que muestren si el
resultado del contraste se mantiene inalterado para un gran rango de valores
del parametro de suavizado h, o por el contrario es grande la inuencia de la
eleccion de este parametro.
4.5.3. Contraste de un modelo lineal
En el modelo de regresion no parametrico homocedastico (4.1),
Y
i
= m(x
i
) +
i
, i = 1, . . . , n,
nos planteamos contrastar la hipotesis nula de que la funcion de regresion es
lineal:
_
H
0
: m(x) =
T
x,
H
1
: m(x) no es lineal.
Sea Y el vector de los n datos y
i
, X la matriz de dise no y H = X(X
T
X)
1
X
T
la matriz sombrero. As, los vectores de valores ajustados y de los residuos
en el modelo lineal son, respectivamente,

Y
L
= HY,
L
= Y

Y
L
= (I
n
H)Y.
El contraste del modelo lineal se puede expresar como un contraste de ausen-
cia de efectos en la relacion entre los residuos estimados en el modelo lineal,

L,i
, y la variable explicativa x
i
:
_
H
0
: E(
L,i
) = 0,
H
1
: E(
L,i
) = m(x
i
)
T
x
i
.
Se aplica entonces todo lo expuesto en la Seccion 4.5.2.
En particular, una banda de referencia aproximada, de conanza 0,95,
para la hipotesis nula de linealidad viene dada por
_
_

T
x 1,96

_

2
n

i=1
(w

(x
i
, x) h(x
i
, x))
2
_
_
,
156 CAP

ITULO 4. ESTIMACI

ON DE LA FUNCI

ON DE REGRESI

ON
donde h(x
i
, x) es el elemento i-esimo del vector la
h(x) = x(X
T
X)
1
X
T
, que hace y
x
=

T
x = x
T

= x(X
T
X)
1
X
T
Y = h(x)Y.
Si la estimacion no parametrica m(x) sale fuera de esa banda H
0
debera
rechazarse.
4.5.4. Contraste de un modelo lineal generalizado
Consideramos el modelo de regresion no parametrica general (4.7) en
el que se establece que la distribucion condicionada de Y dado x sigue un
modelo parametrico local
(Y |X = x) f(y; (x))
con (x) R. Vamos a suponer que este modelo admite una parametrizacion
en terminos de m(x) = E(Y |X = x) = g((x)) y, quizas, de un parametro
de dispersion , que no depende de x:
(Y |X = x) f(y; m(x), ).
En el modelo de regresion con errores normales, es la varianza residual
2
.
En el modelo de regresion logstica este parametro adicional no aparece.
En este modelo nos planteamos contrastar la hipotesis nula de que el
modelo adecuado es un modelo lineal generalizado, frente a que m(x) sigue
un modelo no parametrico. Es decir, contrastar que la funcion (x) es lineal
frente a que no lo es:
_
H
0
: (x) =
T
x (m(x) = g(
T
x)),
H
1
: (x) no es lineal en x.
Para realizar este contraste se propone usar un test de razon de pseudoverosi-
militudes (pseudo-likelihood ratio test), que guarda analoga con el contraste
de razon de verosimilitudes en los modelos parametricos.
El estadstico del test sera
PLRT = 2
n

i=1
_
log f(y; m(x
i
),

NP
) log f(y; g(

T
x
i
),

GLM
)
_
,
donde m(x) es un estimador no parametrico de m(x) (posiblemente el obte-
nido mediante verosimilitud local),

NP
es el estimador de que proporciona
la estimacion no parametrica de m(x), mientras que

y

GLM
son las estima-
ciones de los parametros ajustando el modelo lineal general que se propone
en la hipotesis nula.
4.5. INFERENCIA EN EL MODELO DE REGRESI

ON NO PARAM

ETRICA157
La tabulacion de la distribucion del estadstico PLRT bajo la hipotesis
nula se hace mediante el procedimiento llamado bootstrap param

etrico,
que permite la generacion de muestras aleatorias que verican la hipotesis
nula y guardan similitudes con la muestra observada. Se realizan los siguientes
pasos:
1. Se estima el modelo lineal generalizado a partir de la muestra original:

GLM
.
2. Se genera una muestra bootstrap: para cada valor de x
i
, se simula y

i
del modelo
(Y |X = x
i
) f(y;

T
x
i
,

GLM
).
3. Se calcula el valor del estadstico PLRT en la muestra bootstrap: PLRT

.
4. Se repiten B veces los pasos 2 y 3: PLRT

1
, . . . , PLRT

B
.
5. Se compara el valor de PLRT observado en la muestra original, PLRT
obs
,
con PLRT

1
, . . . , PLRT

B
, y se obtiene el p-valor del test:
p-valor =
#{PLRT

b
> PLRT
obs
}
B
.
Al igual que en el contraste de ausencia de efectos o en el de lineali-
dad, tambien aqu es posible construir bandas alrededor de la estimacion
parametrica que permiten hacer un contraste visual.
4.5.5. Igualdad de curvas de regresion
Supongamos que tenemos observaciones procedentes de I subpoblacio-
nes, en cada una de las cuales los datos siguen el modelo de regresion no
parametrica (4.1):
y
ij
= m
i
(x
ij
) +
ij
, j = 1, . . . , n
i
, i = 1, . . . , I.
Nos planteamos contrastar la igualdad de las I curvas de regresion:
_
H
0
: m
i
(x) = m(x), i = 1, . . . , I, para todo x,
H
1
: no todas las funciones de regresion son iguales.
Se propone usar como estadstico del test el siguiente:
T
I
=

I
i=1

n
i
j=1
( m
i
(x
ij
) m(x
ij
))
2

2
,
donde
158 CAP

ITULO 4. ESTIMACI

ON DE LA FUNCI

ON DE REGRESI

ON
m(x) es la estimacion no parametrica de m(x) bajo la hipotesis nula,
es decir, usando todas las observaciones disponibles conjuntamente;
m
i
(x) es la estimacion no parametrica de m(x) usando los datos de la
subpoblacion i, i = 1, . . . , I;

2
es la estimacion de
2
= V (
ij
), que se construye a partir de las
estimaciones de
2
obtenidas al estimar m(x) en cada subpoblacion,

2
=

I
i=1

i

2
i

I
i=1

i
,
siendo
i
el n umero de grados de libertad efectivos en la estimacion
de m(x) en la subpoblacion i-esima, tal como se dene en la ecuacion
(4.6).
Observar que el estadstico T
I
responde a la estructura usual de los con-
trastes ANOVA: es el cociente de la variabilidad entre subpoblaciones dividida
por la variabilidad dentro de las subpoblaciones.
Para tabular la distribucion de T
I
bajo la hipotesis nula hay varias alter-
nativas. Una de ellas consiste en hacer un test de permutaciones. Si H
0
es
cierta, pueden intercambiarse las etiquetas que indican la subpoblacion a la
que pertenece cada individuo sin por ello alterar la distribucion del estadstico
T
I
. As, se generan B muestras en las que estas etiquetas se permutan alea-
toriamente y se calcula en cada una de ellas el estadstico T
I
, obteniendose
los valores T
b
I
, b = 1, . . . , B. El p-valor del contraste sera
p-valor =
#{T
b
I
> T
I,obs
}
B
.
Otra forma de aproximar la distribucion de T
I
bajo H
0
es utilizar boots-
trap:
1. Se calculan los residuos de los modelos no parametricos estimados en
cada subpoblacion,
e
ij
= y
ij
m
i
(x
ij
), j = 1, . . . , n
i
, i = 1, . . . , I,
y se dene el conjunto E = { e
ij
, j = 1, . . . , n
i
, i = 1, . . . , I}.
2. Se genera una muestra bootstrap as: para j = 1, . . . , n
i
, i = 1, . . . , I,
y

ij
= m(x
ij
) + e

ij
,
donde e

ij
se extraen de E con reemplazamiento y de forma indepen-
diente.
4.5. INFERENCIA EN EL MODELO DE REGRESI

ON NO PARAM

ETRICA159
3. Se calcula el valor del estadstico T
I
en la muestra bootstrap: T

I
.
4. Se repiten B veces los pasos 2 y 3: T

I,1
, . . . , T

I,B
.
5. Se compara el valor de T
I
observado en la muestra original, T
I,obs
, con
T

I,1
, . . . , T

I,B
, y se obtiene el p-valor del test:
p-valor =
#{T

I,b
> T

I,obs
}
B
.
En el caso de dos subpoblaciones (I = 2), el contraste anterior se puede
complementar con un contraste graco aproximado. Se trata de construir una
banda alrededor del estimador global m(x) de forma que si la hipotesis nula
es cierta las estimaciones de m(x) en ambas subpoblaciones caeran dentro de
dicha banda con alta probabilidad.
Bajo la hipotesis nula, d(x) = m
1
(x) m
2
(x) = 0 para todo x. Sea

d(x) = m
1
(x) m
2
(x)
el estimador de la funcion diferencia. Su varianza es
V (

d(x)) = V ( m
1
(x)) +V ( m
2
(x))
y puede ser estimada siguiendo las indicaciones dadas en la Seccion 4.5.1.
Finalmente, para = 0,05, las bandas de aceptacion de la hipotesis nula
son
C(x)
_
1
2
( m
1
(x) + m
2
(x))
1, 96
2
_

V (

d(x))
_
.
Es facil comprobar que
m
1
(x) C(x) m
2
(x) C(x) |

d(x)| > 1,96

V (

d(x)).
Observar que estas bandas de aceptacion son bandas puntuales (no son uni-
formes en x).
Las bandas anteriores sugieren utilizar un estadstico alternativo a T
I
:
T
d
=
_
R
(

d(x))
2

V (

d(x))
f(x)dx.
Su distribucion bajo la hiotesis nula se puede aproximar mediante la genera-
cion de muestras permutadas o de muestras bootstrap.
160 CAP

ITULO 4. ESTIMACI

ON DE LA FUNCI

ON DE REGRESI

ON
Captulo 5
Estimacion de la regresion
mediante splines
Referencias: Green y Silverman (1994). Fan y Gijbels
(1996), Hastie, Tibshirani y Friedman (2001), Wasserman
(2006).
5.1. Estimacion mnimo cuadratica penaliza-
da
Consideramos de nuevo el modelo de regresion no parametrica (4.1):
y
i
= m(x
i
) +
i
, i = 1, . . . , n,
donde
1
, . . . ,
n
son v.a. independientes con
E(
i
) = 0, V (
i
) =
2
para todo i,
y los valores x
1
, . . . , x
n
son conocidos.
En el Captulo 4 se propuesieron unos estimadores de la funcion de regre-
sion m(x) (los ajustes por polinomios locales) y se estudiaron sus propiedades.
Ahora abordaremos la estimacion de m(x) de otra forma. Plantearemos
un problema de optimizacion cuya solucion dara lugar a una familia de esti-
madores no parametricos.
Por analoga a la estimacion mnimo cuadratica de un modelo parametrico
de regresion, podemos plantear la estimacion de m(x) como la resolucion del
problema de minimizacion de la suma de cuadrados de los residuos:
mn
m:RR
n

i=1
(y
i
m(x
i
))
2
.
161
162 CAP

ITULO 5. ESTIMACI

ON POR SPLINES
La solucion a este problema es cualquier funcion que interpole los datos
(x
i
, y
i
), i = 1, . . . , n.
El problema de este planteamiento es que una funcion m(x) que interpola
los datos no es en general una funcion suave de x. Si queremos imponer que
la solucion m(x) del problema de optimizacion tenga ciertas caractersticas
de suavidad, hay que incluir en la funcion objetivo una penalizacion por falta
de suavidad. Eso se consigue planteando el problema de mnimos cuadrados
penalizados
mn
mM
_
n

i=1
(y
i
m(x
i
))
2
+( m)
_
, (5.1)
donde M es una clase de funciones suaves (por ejemplo, que tengan p deri-
vadas continuas) y ( m) es un funcional ( : MR) que penaliza la falta
de suavidad de m.
Si los datos x
i
estan en un intervalo [a, b] R una eleccion usual es
tomar como M el espacio de las funciones de cuadrado integrable en [a, b]
con segunda derivada de cuadrado integrable en [a, b],
M= W
2
2
[a, b] =
_
m : [a, b] R :
_
b
a
(m(x))
2
dx < , existe m

(x) y
_
b
a
(m

(x))
2
dx <
_
,
y como funcional de penalizacion
(m) =
_
b
a
(m

(x))
2
dx, > 0.
El espacio W
2
2
[a, b] recibe el nombre de espacio de Sobolev de segundo
orden en [a, b].
De este modo el problema (5.1) se escribe como
mn
mW
2
2
[a,b]
_
n

i=1
(y
i
m(x
i
))
2
+
_
b
a
( m

(x))
2
dx
_
. (5.2)
En la seccion siguiente veremos que este es un problema cuya solucion
es una funci

on spline c

ubica con nodos en los valores observados de la

variable explicativa x
1
, . . . , x
n
.
5.2. SPLINES Y SPLINES C

UBICOS. INTERPOLACI

ON POR SPLINES163
5.2. Splines y splines c ubicos. Interpolacion
por splines
Denicion 5.1 (Funcion spline) La funcion s : [a, b] R es una fun-
ci

on spline (o un spline) de grado p con nodos t

1
, . . . , t
k
si se verica lo
siguiente:
1. a < t
1
< < t
k
< b (denotaremos t
0
= a, t
k+1
= b).
2. En cada intervalo [t
j
, t
j+1
], j = 0, . . . , k, s(x) es un polinomio de grado
p (o inferior).
3. La funcion s(x) tiene (p 1) derivadas continuas en [a, b] (es decir,
los polinomios que denen la funcion s(x) en los intervalos [t
j1
, t
j
] y
[t
j
, t
j+1
] enlazan bien en t
j
).
Ejemplo 5.1
Splines c ubicos. Las funciones splines mas com unmente utilizadas son las
de grado 3, o c ubicas. Son polinomios de grado 3 a trozos, que en los nodos
son continuos con primera y segunda derivada continua. Se dice que el ojo
humano no es capaz de apreciar discontinuidades en la derivada tercera (o
superiores) de una funcion. Por lo tanto las funciones splines c ubicas repre-
sentan adecuadamente el concepto poco formal de funcion suave.
. .
Se dice que un spline es peri

odico si s(a) = s(b).

Se dice que un spline de grado p es natural si p es impar, p = 2l 1
con l 2, y satisface que
s
(l+j)
(a) = s
(l+j)
(b) = 0, j = 0, 1, . . . , l 1.
Observese que estas son p + 1 = 2l restricciones.
Ejemplo 5.2
Splines c ubicos naturales. Si p = 3, entonces l = 2, y las 4 restricciones
que debe vericar un spline c ubico para ser natural son estas:
s

(a) = s

(b) = 0, s

(a) = s

(b) = 0.
164 CAP

ITULO 5. ESTIMACI

ON POR SPLINES
Por lo tanto un spline c ubico natural s(x) es lineal en [a, t
1
] y [t
k
, b]. Ademas,
s

(t
1
) = s

(t
k
) = 0.
. .
Proposicion 5.1 Sea S[p; a = t
0
, t
1
, . . . , t
k
, t
k+1
= b] el conjunto de splines
de grado p con nodos t
1
, . . . , t
k
denidos en [a, b]. S[p; a = t
0
, t
1
, . . . , t
k
, t
k+1
=
b] es un espacio vectorial de dimension p +k + 1.
Demostracion: El hecho de que S[p; a = t
0
, t
1
, . . . , t
k
, t
k+1
= b] sea un
espacio vectorial se sigue de que es cerrado por sumas y por productos por
escalares.
El calculo de la dimension de S[p; a = t
0
, t
1
, . . . , t
k
, t
k+1
= b] puede hacerse
como sigue. Para denir uno de estos splines s(x) hay que dar los (p + 1)
coecientes que denen el polinomio de grado p en cada uno de los (k + 1)
intervalos en los que los nodos dividen el intervalo [a, b]. Por tanto intervienen
(p + 1)(k + 1) = pk +p +k + 1 parametros en la denicion de s(x).
Pero estos parametros estan sujetos a una serie de restricciones lineales
que garantizan que los polinomios de grado p enlazan bien en cada nodo: las
derivadas laterales de orden l, l = 0, 1, . . . , p 1, de s(x) coinciden en t
j
,
j = 1, . . . , k. Por tanto hay pk restricciones lineales.
As, la dimension de S[p; a = t
0
, t
1
, . . . , t
k
, t
k+1
= b] es
pk +p +k + 1 pk = p +k + 1.
2
Ejemplo 5.3
Los splines c ubicos tiene dimension 3 +k +1 = k +4. Una base de S[p; a =
t
0
, t
1
, . . . , t
k
, t
k+1
= b] viene dada as:
s
1
(x) = 1, s
2
(x) = x, s
3
(x) = x
2
, s
4
(x) = x
3
,
s
j
(x) = (x t
j
)
3
+
, j = 1, . . . , k,
donde para cualquier n umero real u, u
+
= max{0, u} es la parte positiva de
u.
Esta no es la unica base de S[p; a = t
0
, t
1
, . . . , t
k
, t
k+1
= b], y de hecho
hay otras bases que son mas adecuadas para realizar calculos numericos (las
bases de B-splines, por ejemplo, que veremos mas adelante).
. .
5.2. SPLINES Y SPLINES C

UBICOS. INTERPOLACI

ON POR SPLINES165
Proposicion 5.2 Sea N[p; a = t
0
, t
1
, . . . , t
k
, t
k+1
= b] el conjunto de spli-
nes naturales de grado p con nodos t
1
, . . . , t
k
denidos en [a, b]. N[p; a =
t
0
, t
1
, . . . , t
k
, t
k+1
= b] es un espacio vectorial de dimension k.
Demostracion: A las restricciones propias de S[p; a = t
0
, t
1
, . . . , t
k
, t
k+1
= b]
hay que a nadir las 2l = p + 1 restricciones que deben vericar los splines
naturales. As, la dimension de N[p; a = t
0
, t
1
, . . . , t
k
, t
k+1
= b] es
pk +p +k + 1 pk (p + 1) = k.
2
Proposicion 5.3 Dados (x
i
, y
i
), i = 1, . . . , n, n 2, a < x
1
< < x
n
< b,
existe un unico spline natural s(x) de grado p con nodos en x
i
, i = 1, . . . , n,
que interpola esos datos:
s(x
i
) = y
i
, i = 1, . . . , n.
Demostracion: Sea {s
1
(x), . . . , s
n
(x)} una base de N[p; a, x
1
, . . . , x
n
, b]. Si
s(x) N[p; a, x
1
, . . . , x
n
, b] entonces
s(x) =
n

j=1

j
s
j
(x) (
1
, . . . ,
n
).
Cada restriccion que s(x) debe cumplir para interpolar los datos, s(x
i
) = y
i
,
es una restriccion lineal en los coecientes
j
:
n

j=1

j
s
j
(x
i
) = y
i
, i = 1, . . . , n.
Tenemos pues un sistema de n ecuaciones lineales con n incognitas (
j
, j =
1, . . . , n). La matriz de coecientes de este sistema es
(s
j
(x
i
)), i = 1, . . . , n, j = 1, . . . , n,
que tiene rango completo (en caso contrario los elementos de la base no seran
linealmente independientes). Ello implica que la solucion del sistema existe y
es unica. Esa solucion

j
, j = 1, . . . , n, determina el unico spline interpolador
s

(x) =
n

j=1

j
s
j
(x).
2
166 CAP

ITULO 5. ESTIMACI

ON POR SPLINES
5.3. Suavizado por splines
Nos centraremos a partir de ahora en los splines c ubicos naturales. El
siguiente resultado (cuya demostracion ha sido extrada de Green y Silverman
1994) muestra que estas funciones tienen una propiedad de optimalidad que
sera util mas adelante.
Proposicion 5.4 Sea n 2 y sea s(x) el spline c ubico natural que interpola
los datos (x
i
, y
i
), i = 1, . . . , n, con a < x
1
< < x
n
< b. Sea g(x) otra
funcion cualquiera de M= W
2
2
[a, b] que tambien interpola los datos (g(x
i
) =
y
i
, i = 1, . . . , n). Entonces
_
b
a
(s

(x))
2
dx
_
b
a
(g

(x))
2
dx
con igualdad si y solo si g(x) = s(x) para todo x [a, b].
Demostracion: Sea h(x) = g(x) s(x). Entonces h(x
i
) = 0, i = 1, . . . , n.
Integrando por partes, se tiene que
I =
_
b
a
s

(x)h

(x)dx =
_
u = s

(x) =du = s

(x)dx
dv = h

(x)dx =v = h

(x)
_
=
(h

(x)s

(x))|
b
a

_
b
a
h

(x)s

(x)dx =
_
b
a
h

(x)s

(x)dx.
La ultima igualdad se tiene porque s

(a) = s

(b) = 0, al ser s(x) un spline

natural. Por el mismo motivo s

(x) es nula en [a, x

1
) y (x
n
, b].
Por otra parte, por ser s(x) spline c ubico s

(x) es constante entre cada

par de nodos: s

(x) = s

(x
+
i
) si x [x
i
, x
i+1
), i = 1, . . . , n 1. As,
I =
_
b
a
h

(x)s

(x)dx =
n1

i=1
s

(x
+
i
)
_
x
i+1
x
i
h

(x)dx =

i=1
s

(x
+
i
)(h(x
i+1
) h(x
i
)) = 0.
De lo anterior se deduce lo siguiente:
_
b
a
(g

(x))
2
dx =
_
b
a
((g

(x) s

(x)) +s

(x))
2
dx =
5.3. SUAVIZADO POR SPLINES 167
_
b
a
(h

(x))
2
dx
. .
0
+
_
b
a
(s

(x))
2
dx + 2
_
b
a
s

(x)h

(x)dx
. .
=I=0

_
b
a
(s

(x))
2
dx.
La igualdad se da si y solo si
_
b
a
(h

(x))
2
dx = 0, lo que equivale a pedir que
h

(x) = 0 para todo x [a, b]. Esto es equivalente a pedir que h(x) sea
lineal en [a, b], pero como h(x
i
) = 0, i = 1, . . . , n y n 2, se tiene que la
igualdad es equivalente a pedir que h(x) = 0 para todo x [a, b], es decir,
que g(x) = s(x) para todo x [a, b]. 2
Proposicion 5.5 Sea n 3 y sean los datos (x
i
, y
i
), i = 1, . . . , n, con
a < x
1
< < x
n
< b. Dado un valor del parametro > 0, la solucion del
problema (5.2),
mn
mW
2
2
[a,b]
( m) =
_
n

i=1
(y
i
m(x
i
))
2
+
_
b
a
( m

(x))
2
dx
_
,
es un spline c ubico natural con nodos en x
1
, . . . , x
n
.
Demostracion: Sea g(x) W
2
2
[a, b] que no es spline c ubico natural con
nodos en las x
i
observadas. Sea s
g
(x) el spline c ubico natural con nodos en
las x
i
que interpola los puntos (x
i
, g(x
i
)), i = 1, . . . , n. As, s
g
(x
i
) = g(x
i
),
i = 1, . . . , n y por tanto
n

i=1
(y
i
g(x
i
))
2
=
n

i=1
(y
i
s
g
(x
i
))
2
.
Por otra parte, por la Proposicion 5.4 se tiene que
_
b
a
(s

g
(x))
2
dx <
_
b
a
(g

(x))
2
dx.
As, (s
g
) < (g) y, por tanto, el optimo de (m) hay que buscarlo entre
los splines c ubicos naturales con nodos en x
1
, . . . , x
n
. 2
Resumamos lo visto hasta aqu. La Proposicion 5.5 garantiza que para
buscar la funcion m que soluciona el problema de optimizacion (5.2) basta
con buscar entre las funciones que pertenecen a N(3; a, x
1
, . . . , x
n
, b), que
sabemos que es un espacio vectorial de dimension n. Si se ja una base
{N
1
(x), . . . , N
n
(x)}, de ese espacio vectorial, solucionar el problema (5.2)
equivale a buscar las coordenadas (
1
, . . . ,
n
) del elemento de N(3; a, x
1
, . . . , x
n
, b)
168 CAP

ITULO 5. ESTIMACI

ON POR SPLINES
que hace mnima la funcion objetivo de (5.2). Por lo tanto, hemos consegui-
do transformar un problema de optimizacion en un espacio de dimension
innita, W
2
2
[a, b], en uno de optimizacion en dimension n nita.
Vamos a ver que podemos encontrar la solucion explcita del problema
(5.2). Este problema, por la Proposicion 5.5, se puede expresar as:
mn
sN(3;a,x
1
,...,x
n
,b)
_
n

i=1
(y
i
s(x
i
))
2
+
_
b
a
(s

(x))
2
dx
_
. (5.3)
Sea
s(x) =
n

j=1

j
N
j
(x) =
T
N(x),
donde = (
1
, . . . ,
n
)
T
y N(x) = (N
1
(x), . . . , N
n
(x))
T
, la expresion de s(x)
en la base {N
1
(x), . . . , N
n
(x)} de N(3; a, x
1
, . . . , x
n
, b). As,
s

(x) =
n

j=1

j
N

j
(x) =
T
N

(x)
y
_
b
a
(s

(x))
2
dx =
_
b
a
s

(x)s

(x)
T
dx =

T
_
b
a
N

(x)(N

(x))
T
dx =
T
A,
donde A es una matriz n n cuyo elemento (i, j) es
_
b
a
N

i
(x)N

j
(x)dx.
Sea Y = (y
1
, . . . , y
n
)
T
y sea N
x
la matriz nn cuyo elemento (i, j) es N
j
(x
i
).
Entonces
n

i=1
(y
i
s(x
i
))
2
= (Y N
x
)
T
(Y N
x
).
Por lo tanto, el problema 5.3 puede reexpresarse como
mn
R
n
() = (Y N
x
)
T
(Y N
x
) +
T
A, (5.4)
que es resoluble explcitamente. En efecto,
() = 2N
T
x
(Y N
x
) + 2A.
5.4. PROPIEDADES DEL ESTIMADOR SPLINE DE M(X) 169
Igualando a 0 ese gradiente y despejando , tenemos que el valor optimo de
es
=
_
N
T
x
N
x
+A
_
1
N
T
x
Y. (5.5)
Por tanto, el vector de valores y
i
ajustados sera

Y = N
x
= N
x
_
N
T
x
N
x
+A
_
1
N
T
x
Y = SY.
Es decir, el estimador spline es lineal en Y . Como consecuencia, es valido
aqu todo lo discutido en la Seccion 4.3 sobre la eleccion del parametro de
suavizado (en este caso el parametro ) por validaci on cruzada, validaci on
cruzada generalizada, sobre n umero efectivo de parametros (traza de S) y
n umero efectivo de grados de libertad para la estimacion de la varianza resi-
dual.
5.4. Propiedades del estimador spline de m(x)
Sea m

(x) el estimador spline de m(x) cuando se usa como parametro de

suavizado. Se puede probar que si 0 y n
1/4
cuando n ,
entonces
Sesgo( m

(x)) = O(), Var( m

(x)) = O
_
1
n
1/4
_
,

AMSE
= O
_
n
4/9
_
, MSE(
AMSE
) = O
_
n
8/9
_
.
Se puede establecer una relacion entre el estimador spline y un estimador
n ucleo de m(x) con ventana variable: si x (a, b),
m

(x)
1
nf(x)h(x)
n

i=1
K
_
x x
i
h(x)
_
y
i
=
1
nh(x)

n
i=1
K
_
xx
i
h(x)
_
y
i
f(x)
,
donde
K(u) =
1
2
e
|u|/

2
sin
_
|u|

2
+

4
_
,
que es un n ucleo de orden 4, y
h(x) =
1/4
f(x)
1/4
.
170 CAP

ITULO 5. ESTIMACI

ON POR SPLINES
5.5. B-splines
En esta seccion presentamos una base del espacio vectorioal de fun-
ciones splines de grado p con nodos t
1
, . . . , t
k
denidos en [a, b], S[p; a =
t
0
, t
1
, . . . , t
k
, t
k+1
= b], que presenta ventajas computacionales respecto a las
bases del tipo presentado en el Ejemplo 5.3 para los splines c ubicos.
Se trata de las bases de B-splines, que se denen recursivamente. Sea
M = (p+1). Ademas de los k nodos t
1
, . . . , t
k
se denen 2M nodos auxiliares:

1

M
t
0
, t
k+1

k+M+1

k+2M
.
La eleccion de estos nodos es arbitraria y puede hacerse

1
= =
M
= t
0
, t
k+1
= =
k+M+1
=
k+2M
.
Se renombran los nodos originales

M+j
= t
j
, j = 1, . . . , k.
Se dene la base de B-splines de orden 1 as:
B
j,1
= I
[
j
,
j+1
]
, j = 1, . . . , k + 2M 1.
Para m = 2, . . . , M, se denen los B-splines de orden m como
B
j,m
=
x
j

j+m1

j
B
j,m1
+

j+m
x

j+m

j+1
B
j+1,m1
,
para j = 1, . . . , k +2Mm, entendiendo que uno de esos cocientes es 0 si el
denominador es 0.
Se tiene que si m = M = 4 entonces las funciones {B
j,m
, j = 1, . . . , k+4}
forman una base del conjunto de splines c ubicos con nodos t
1
, . . . , t
k
denidos
en [a, b], llamada base de B-splines c

ubicos.
Ejemplo 5.4
La Figura 5.1 representa las 13 funciones que forman la base de B-splines
c ubicos denidos en [0, 1] con nueve nodos equiespaciados en 0,1, . . . , 0,9.
Para construirla se tomaron

1
= =
4
= 0,
14
= =
17
= 1.
. .
5.5. B-SPLINES 171
0.0 0.2 0.4 0.6 0.8 1.0
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
x
b
a
s
e
[
,

i
]
Figura 5.1: Base de B-splines c ubicos denidos en [0, 1] con nueve nodos
equiespaciados en 0,1, . . . , 0,9.
172 CAP

ITULO 5. ESTIMACI

ON POR SPLINES
Entre las propiedades de los B-splines c ubicos, cabe destacar las siguien-
tes:
1. B
j,4
(x) 0 para todo x [a, b].
2. B
j,4
(x) = 0 si x [
j
,
j+4
].
3. Si j {4, . . . , k + 1}, B
(l)
j,4
(
j
) = 0, B
(l)
j,4
(
j+4
) = 0, para l = 0, 1, 2.
La segunda de estas propiedades (cada base es distinta de 0 solo en un
peque no subintervalo de [a, b]) es la responsable de las ventajas computacio-
nales que presenta la base de B-splines c ubicos. Consideremos el problema
analogo a (5.4), pero en el que la optimizacion se realiza en el conjunto de
splines c ubicos (sin limitarse a aquellos que son naturales),
mn
R
n+4
() = (Y B
x
)
T
(Y B
x
) +
T
B, (5.6)
donde B es la matriz (n + 4) (n + 4) cuyo elemento (i, j) es
_
b
a
B

i
(x)B

j
(x)dx,
y B
x
la matriz n (n + 4) cuyo elemento (i, j) es B
j
(x
i
). Razonando igual
que se hizo para llegar a la ecuacion (5.5), se tiene que ahora la solucion es

=
_
B
T
x
B
x
+B
_
1
B
T
x
Y. (5.7)
Observese que en este caso las matrices B
T
x
B
x
y B son matrices banda, con
elementos (i, j) iguales a 0 si |i j| > 4. Esto facilita la inversi on de la matriz
necesaria para determinar

(puede usarse la descomposicion de Cholesky).
A partir de una base de B-splines c ubicos de S[p; a = t
0
, t
1
, . . . , t
k
, t
k+1
=
b], con k + 4 elementos, es posible construir una base de B-splines c ubicos
naturales, con k elementos que sera base de N[p; a = t
0
, t
1
, . . . , t
k
, t
k+1
= b].
Se hace
N
j
= B
j+2
, j = 3, . . . , k 2.
Por otra parte, B
3
, B
4
, B
k+1
, B
k+2
se modican para que sean splines c ubicos
naturales, dando lugar a N
1
, N
2
, N
k1
, N
k
, respectivamente. Se eliminan B
1
,
B
2
, B
k+3
y B
k+4
.
En la practica resulta practicamente equivalente estimar el mejor spline
c ubico (resolver el problema (5.6)) que estimar el mejor spline c ubico natural
(resolver el problema (5.4)). La funcion de penalizacion hace que el mejor
spline c ubico tenga un valor bajo (o nulo) fuera del intervalo [x
1
, x
n
], lo que
lleva a que ambos problemas tengan soluciones muy proximas.
5.6. AJUSTE DE UN MODELO NO PARAM

ETRICO GENERAL 173

En terminos practicos tampoco es necesario que se busque el mejor spline
c ubico (o el mejor spline c ubico natural) con nodos en todos los x
i
obser-
vados. De hecho esto hace que el coste computacional sea muy elevado si
n es grande. Basta con tomar un n umero k de nodos sucientemente gran-
de (k = O(log(n)), por ejemplo) y tomarlos de forma que el nodo t
j
sea el
quantil (j/(k + 1)) de los datos x
1
, . . . , x
n
.
5.6. Ajuste de un modelo no parametrico ge-
neral
Supongamos que la variable aleatoria Y tiene una distribucion condicio-
nada a X = x dada por
(Y |X = x) f(y|(x)),
donde (x) R es una funcion suave de x. Dada una muestra
(x
i
, y
i
), i = 1, . . . , n
acorde con este modelo, se puede plantear el problema de maximizar la ve-
rosimilitud penalizando por falta de suavidad:
max
W
2
2
[a,b]
_
n

i=1
log(f(y
i
|(x))) +
_
b
a
(

(x))
2
dx
_
. (5.8)
Razonando como en el modelo de regresion, basta con optimizar en el con-
junto de splines naturales con nodos en x
1
, . . . , x
n
. En este caso, sin embargo,
no se tendra una solucion cerrada del optimo y habra que recurrir a metodos
numericos de optimizacion.
La regresion binaria no parametrica es un caso particular de este modelo.
174 CAP

ITULO 5. ESTIMACI

ON POR SPLINES
Captulo 6
Regresion m ultiple y modelo
aditivo generalizado
Referencias:
Hastie, Tibshirani y Friedman (2001) (secciones 9.1 y 11.2),
Fan y Gijbels (1996) (captulo 7),
Bowman y Azzalini (1997) (captulo 8),
Wasserman (2006) (seccion 5.12), Hastie y Tibshirani
(1990), Ruppert, Wand y Carroll (2003)
6.1. Regresion m ultiple
Hasta ahora hemos visto modelos de regresion con una variable de res-
puesta y una sola variable de entrada (regresor). La extension del modelo de
regresion no parametrica al caso en el que hay p regresores es directa:
y
i
= m(x
i1
, . . . , x
ip
) +
i
, (6.1)
con E(
i
) = 0 y V (
i
) =
2
, para i = 1, . . . , n. Aqu la funcion de regresion
m indica como vara y en funcion de la variable explicativa x = (x
1
, . . . , x
p
)
de dimension p.
Para denir en este marco los estimadores de la funcion de regresion
mediante polinomios locales, necesitamos, por una parte, denir los pesos
w
i
de cada observaci on y, por otra, especicar que variables explicativas se
incluyen en cada modelo de regresion local.
La denicion de los pesos w
i
ha de seguir la misma logica que en el caso
univariante: si se quiere estimar r en el punto t = (t
1
, . . . , t
p
) , los datos
(y
i
; x
i1
, . . . , x
ip
) que mas peso deben tener son aquellos con valores de las
variables explicativas x = (x
1
, . . . , x
p
) mas cercanos a t = (t
1
, . . . , t
p
). Hay
175
176CAP

ITULO 6. REGRESI

ON M

ULTIPLE Y MODELO ADITIVO GENERALIZADO

que tener en cuenta que ahora las distancias entre x y t se deben medir en
un espacio de dimension p, y que hay muchas formas razonables de denir
estas distancias.
Una forma sencilla de asignar pesos w
i
que da buenos resultados en la
practica es la siguiente:
w
i
= w(t, x
i
)
p

j=1
K
_
x
ij
t
j
h
j
_
,
donde K es un n ucleo univariante, h
j
es un parametro de suavizado adecuado
para la j-esima variable explicativa y el smbolo indica proporcionalidad.
Si se toman n ucleos gaussianos, esto equivale a asignar pesos alrededor de t
usando como n ucleo p-dimensional la funcion de densidad de una normal mul-
tivariante con p coordenadas independientes, cada una de ellas con varianza
h
2
j
.
La denicion de la distancia entre x
i
y t sera mas precisa si se tiene
en cuenta como es la relacion de las variables explicativas entre s. Para
ello, en vez de tomar n ucleos multivariantes con coordenadas independientes
(es lo que ocurre si tomamos el producto de n ucleos univariantes) se toma
como n ucleo la funcion de densidad de una variable aleatoria cuya matriz
de varianzas y covarianzas sea un m ultiplo h de la matriz de varianzas y
covarianzas muestral C de los datos (x
i1
, . . . , x
ip
), i = 1, . . . , n. Por ejemplo,
si se toma un n ucleo gaussiano multivariante con estas caractersticas se tiene
que
w
i
= w(t, x
i
)
1
h
p
exp
_

1
2h
(x
i
t)
T
C
1
(x
i
t)
_
.
La denicion de los modelos de regresion polinomica ponderada que se
ajustan localmente sigue tambien la logica de lo expuesto en el caso univa-
riante. Si se desea ajustar polinomios p-variantes de grado q, se deben incluir
todos los terminos posibles de la forma

s
1
s
p
p

j=1
(x
ij
t
j
)
s
j
,
cuyo grado,
p

j=1
s
j
,
sea menor o igual que q. La estimacion de la funcion de regresion sera el
termino independiente del polinomio ajustado alrededor del punto t:
m(t) = m(t
1
, . . . , t
p
) =

00
.
6.1. REGRESI

ON M

ULTIPLE 177
Por ejemplo, si hay dos variables explicativas el polinomio de grado 2 ajustado
sera

00
+
10
(x
i1
t
1
)+
01
(x
i2
t
2
)+
11
(x
i1
t
1
)(x
i2
t
2
)+
20
(x
i1
t
1
)
2
+
02
(x
i2
t
2
)
2
y la estimacion de m(t) en t = (t
1
, t
2
) sera

00
, el estimador del termino
independiente del polinomio.
Ejemplo 6.1
La Figura 6.1 muestra la regresion no parametrica bivariante de la varia-
ble ROOM (n umero medio de habitaciones por domicilio) como funcion de las
variables LSTAT (porcentaje de poblacion con estatus social en la categora
inferior) y AGE (porcentaje de viviendas construidas antes de 1940 en cada
barrio de Boston). Se ha usado un n ucleo producto de dos n ucleos gaussianos
univariantes. Los valores de los parametros de suavizado son h
1
= 2,5 en la
dimension LSTAT, y h
2
= 10 en la dimension AGE. Puede observarse que, para
cualquier valor jo de la variable LSTAT, el n umero de habitaciones tiene un
maximo en un valor alto de la variable AGE (aproximadamente en el 75 % de
viviendas anteriores a 1940). Posiblemente lo que ocurre es que las vivien-
das anteriores a 1940 eran en promedio mas grandes que las construidas con
posterioridad, y eso hace que el tama no medio de las viviendas sea mayor
en barrios con un porcentaje considerable de casas anteriores a esa fecha. El
maximo local que la funcion de regresion estimada tiene en niveles altos de la
primera variable explicativa y valores intermedios de la segunda, indica que
la diferencia entre tama nos medios de las viviendas seg un la antig uedad de
las mismas es mas acentuada en los barrios pobres (valores altos de LSTAT)
que en los ricos.
. .
Tal como hemos expuesto el problema de la regresion m ultiple no pa-
rametrica, parece que no tiene caractersticas diferenciadas de la regresion
simple. Sin embargo, la regresion m ultiple plantea un problema especco
difcil de solventar. Es el fenomeno conocido como la maldicion de la di-
mensionalidad (curse of dimensionality, en ingles), que consiste en que en
dimensiones altas en los entornos de un punto t casi no hay datos observa-
dos (esos entornos estan casi vacos). Ya nos ocupamos de este tema en el
captulo 3, dedicado a la estimacion de la densidad.
La unica forma de superar la maldicion de la dimensionalidad es disponer
de muestras de datos de enorme tama no (esto suele ocurrir en problemas
de minera de datos). Si este no es el caso, hay que ser consciente de que el
178CAP

ITULO 6. REGRESI

ON M

ULTIPLE Y MODELO ADITIVO GENERALIZADO

ls
t
a
t
10
20
30 a
g
e
20
40
60
80
r
o
o
m
5.0
5.5
6.0
6.5
7.0
7.5
8.0
Figura 6.1: Regresion no parametrica bivariante de la variable ROOM en fun-
cion de las variables LSTAT y AGE.
6.2. MODELOS ADITIVOS 179
comportamiento de los estimadores basados en polinomios locales se deteriora
al aumentar el n umero de variables explicativas. Es recomendable no ir mas
alla de 3 o 4 dimensiones.
Existen metodos alternativos para estudiar la relacion funcional entre la
variable de respuesta y las variables explicativas a los que afecta menos la
maldicion de la dimensionalidad. Aqu expondremos unicamente los modelos
aditivos y de la regresion mediante projection pursuit. En el Captulo 7 de Fan
y Gijbels (1996) o en la Seccion 5.12 de Wasserman (2006) puede encontrarse
informacion sobre otras posibilidades.
6.2. Modelos aditivos
Se plantea un modelo de regresion m ultiple no parametrico menos e-
xible que el que hemos visto hasta ahora. La perdida en exibilidad se ve
compensada por el hecho de que el modelo es mas facilmente interpretable
y se puede estimar con buenos resultados, incluso con alta dimensionalidad
(muchas variables explicativas). El modelo aditivo es este:
y
i
= +
p

j=1
g
j
(x
ij
) +
i
, (6.2)
con E(
i
) = 0 y V (
i
) =
2
para todo i = 1, . . . , n , y, ademas, E(g
j
(x
j
)) = 0
para todo j = 1, . . . , p .
Las funciones g
j
(x
j
) tendran que ser estimadas no parametricamente,
puesto que no se especica que forma tienen. La unica hipotesis adicional que
se a nade al modelo (6.1) es que las funciones g
j
(x
j
) se combinan aditivamente
para dar lugar a la funcion conjunta que relaciona la variable respuesta con
las p variables explicativas. En cierto modo el modelo aditivo esta a medio
camino entre el modelo de regresion lineal m ultiple parametrico (que combina
aditivamente transformaciones lineales de las variables,
j
x
ij
) y el modelo de
regresion m ultiple no parametrico.
Observese que E(y
i
) = (ya que E(
i
) = 0 y E(g
j
(x
j
)) = 0). Ademas,
si el parametro y todas las funciones g
j
fuesen conocidas, excepto la fun-
cion g
k
, entonces esta podra estimarse mediante cualquier estimador no pa-
rametrico univariante (por ejemplo, mediante un ajuste lineal local). Bastara
con aplicar ese estimador al conjunto de datos (x
i
, y
(k)
i
) , donde
y
(k)
i
= y
i

p

j=1,j=k
g
j
(x
ij
).
180CAP

ITULO 6. REGRESI

ON M

ULTIPLE Y MODELO ADITIVO GENERALIZADO

Esta observaci on lleva a proponer el algoritmo conocido como backtting para
estimar el modelo aditivo:
ALGORITMO Backtting
Estimar mediante = (1/n)

n
i=1
y
i
Dar como estimaciones iniciales de las funciones g
k
funciones cua-
lesquiera g
k
= g
0
k
, para k = 1, . . . , p
(por ejemplo, g
0
k
(x
ik
) =

k
x
ik
, donde los coecientes

k
son los
estimados en el modelo de regresion lineal m ultiple).
REPETIR
PARA CADA k = 1, . . . , p,
estimar g
k
mediante el ajuste no parametrico univariante
de los datos (x
i
, y
(k)
i
), donde
y
(k)
i
= y
i

p

j=1,j=k
g
j
(x
ij
).
FIN PARA
HASTA convergencia.
FIN ALGORITMO
En Hastie y Tibshirani (1990) pueden encontrarse mas detalles sobre este
algoritmo y, en particular, sobre su convergencia y la unicidad de la solucion
a la que converge.
Ejemplo 6.2
Se ha ajustado un modelo aditivo a los datos de viviendas en los barrios
de Boston. Se ha usado la librera mgcv del paquete R, que como estimador
no parametrico univariante usa el suavizado mediante splines. La Figura 6.2
muestra los resultados. Se ha representado la estimacion de la funcion de
regresion bivariante de ROOM sobre LSTAT y AGE en el panel superior. La
comparacion de este graco con la Figura 7 revela que el modelo aditivo no
puede recoger el maximo local (situado alrededor de LSTAT=35, AGE=50) que
vimos antes. Esto es una muestra de que este modelo es mas rgido que el
modelo de regresion no parametrico.
En la Figura 6.3 se han representado las estimaciones no parametricas de
las contribuciones aditivas de cada variable explicativa, g
LSTAT
() y g
AGE
(). En
las etiquetas que acompa nan a los ejes de ordenadas puede verse el n umero
6.2. MODELOS ADITIVOS 181
ls
t
a
t
20
40
a
g
e
50
100
l
i
n
e
a
r

p
r
e
d
i
c
t
o
r
6
8
r
o
o
m
Figura 6.2: Modelo aditivo para el ajuste de ROOM como funcion de LSTAT y
AGE. Funcion de regresion estimada.
182CAP

ITULO 6. REGRESI

ON M

ULTIPLE Y MODELO ADITIVO GENERALIZADO

10 20 30

1
.
5

0
.
5
0
.
5
1
.
5
lstat
s
(
l
s
t
a
t
,
6
.
3
8
)
0 20 40 60 80 100

1
.
5

0
.
5
0
.
5
1
.
5
age
s
(
a
g
e
,
5
.
7
4
)
Figura 6.3: Estimaciones no parametricas de las contribuciones aditivas g
k
()
de cada variable explicativa.
de parametros equivalentes de ambas estimaciones. Se puede constatar que
el graco de g
LSTAT
() es (si se le suma la media global de ROOM) muy similar
a la estimacion de la funcion de regresion univariante de ROOM) sobre LSTAT.
Observese que si se dan cortes al graco tridimensional, paralelos al plano
(LSTAT, ROOM), los perles que se obtienen son copias de la funcion g
LSTAT
().
Analogo resultado se obtiene si los cortes son paralelos al plano (AGE, ROOM).
De hecho la supercie representada se puede obtener desplazando la funcion
g
LSTAT
() en el espacio, apoyada sobre la funcion g
AGE
() (o viceversa) y suman-
do la media global de ROOM.
. .
6.3. Regresion projection pursuit
El modelo de regresion basado en projection pursuit es el siguiente:
y
i
= +
M

j=1
g
j
(
T
j
x
i
) +
i
, (6.3)
con E(
i
) = 0 y V (
i
) =
2
para todo i = 1, . . . , n, y cada
j
es un vector
unitario (norma igual a 1) de R
p
. Ademas se supone que E(g
j
(
T
x)) = 0
6.4. MODELOS ADITIVOS GENERALIZADOS 183
para todo j = 1, . . . , M.
Observese que cada z
j
=
T
j
x es la proyecci on del vector x en la direc-
cion de
j
y que el modelo (6.3) puede reescribirse como un modelo aditivo
en z
1
, . . . , z
M
. Las direcciones
j
se buscan para que la variabilidad de y
i
explicada por el modelo sea maxima. De ah viene el nombre de projection
pursuit, que podra traducirse como b usqueda de la proyeccion.
El siguiente algoritmo permite ajustar el modelo de regresion basado en
projection pursuit:
Paso 1. Hacer j = 0, = y
n
e inicializar los residuos
i
= y
i
.
Paso 2. Encontrar el vector unitario (la direccion)
j
que minimiza
SCE() =
n

i=1
(
i
g(
T
j
x
i
))
2
,
donde g es un estimador no parametrico de la regresion de
i
sobre

T
j
x
i
. Llamar g
j
a la funcion g correspondiente al valor optimo
j
.
Paso 3. Actualizar los residuos
i
=
i
g
j
(
T
j
x
i
) y hacer j = j + 1.
Paso 4. Volver al Paso 2 si no se cumplen las reglas de parada:
(a) Si j = M, parar.
(b) Si SCE(
j
)/

n
i=1
(y
i
y
n
)
2
< , parar.
Los valores M y/o se pueden elegir por validaci on cruzada.
6.4. Modelos aditivos generalizados
Supongamos que la variable aleatoria Y tiene una distribucion condicio-
nada a X = (x
1
, . . . , x
p
) R
p
, dada por
(Y |X = (x
1
, . . . , x
p
)) f(y|(x
1
, . . . , x
p
)), (6.4)
donde (x
1
, . . . , x
p
) R es una funcion suave de x = (x
1
, . . . , x
p
). Usual-
mente (x
1
, . . . , x
p
) es una funcion biyectiva de (x
1
, . . . , x
p
) = E(Y |X =
(x
1
, . . . , x
p
)). Por ejemplo, si (Y |X = (x
1
, . . . , x
p
)) Bern((x
1
, . . . , x
p
)) la
funcion (x
1
, . . . , x
p
) puede denirse a partir de mediante la transformacion
logit:
(x
1
, . . . , x
p
) = log
_
(x
1
, . . . , x
p
)
1 (x
1
, . . . , x
p
)
_
.
184CAP

ITULO 6. REGRESI

ON M

ULTIPLE Y MODELO ADITIVO GENERALIZADO

De esta forma (x
1
, . . . , x
p
) esta libre de las restricciones que s debe vericar
(x
1
, . . . , x
p
). Otras funciones link que suelen utilizarse para denir en
funcion de son estas: = si (Y |X = x) es Gaussiana (se tiene entonces
el modelo aditivo), y = log() si (Y |X = x) es Poisson o Gamma.
La estimacion del modelo 6.4 por verosimilitud local, tal y como se ex-
plico en la Seccion 4.4.2, se encuentra en este caso, en el que la variable expli-
cativa es p-dimensional, con el problema de la maldicion de la dimension del
mismo modo que este aparece en la estimacion del modelo de regresion m ulti-
ple no parametrica (6.1) mediante la tecnica de ajuste de polinomios locales.
Para poder solventar este problema, se propone aqu una simplicacion del
modelo 6.4 analoga a la que da lugar a los modelos aditivos (6.2). Al modelo
resultante le llamaremos modelo aditivo generalizado y se expresa como
sigue:
(Y |X = (x
1
, . . . , x
p
)) f(y|(x
1
, . . . , x
p
)), (x
1
, . . . , x
p
) = +
p

j=1
g
j
(x
j
).
(6.5)
Observese que si a este modelo se a nade la restriccion de que las funciones
sean lineales se obtiene la formulaci on general del modelo lineal generalizado.
Por lo tanto, el modelo aditivo generalizado esta a medio camino entre el mo-
delo de verosimilitud local multivariante 6.4 y el modelo lineal generalizado.
La forma de estimar un modelo aditivo generalizado combina el algoritmo
backtting (descrito en la Seccion 6.2) con alg un algoritmo de maximizacion
de la verosimilitd usado en el ajuste de modelos lineales generalizados. En
concreto, un algoritmo usado habitualmente en la estimacion de modelos
lineales generalizados es el basado en la iteracion de ajustes por mnimos
cuadrados reponderados. En este tipo de algoritmo, cada ajuste de una re-
gresion m ultiple por mnimos cuadrados ponderados se sustituye por el ajuste
de un modelo aditivo ponderado mediante backtting. De este modo se acaba
ajustando el modelo aditivo generalizado en vez de ajustar el correspondiente
modelo lineal generalizado. Vease el algoritmo contenido en la Figura 6.4.
El libro de Hastie y Tibshirani (1990) constituye la principal referencia
sobre estos modelos, aunque se pueden encontrar introducciones a ellos en
Hastie, Tibshirani y Friedman (2001) (seccion 9.1) o Bowman y Azzalini
(1997) (captulo 8). La funcion gam, de la librera mgcv de R, permite ajustar
modelos aditivos generalizados con gran exibilidad.
6.4. MODELOS ADITIVOS GENERALIZADOS 185
Figura 6.4: Algoritmo para la estimaacion de un modelo aditivo generalizado.
(Fuente: Hastie, Tibshirani y Friedman, 2001)
186CAP

ITULO 6. REGRESI

ON M

ULTIPLE Y MODELO ADITIVO GENERALIZADO

6.5. Modelos semiparametricos
En ocasiones algunas de las variables explicativas que intervienen en la
denicion de un modelo aditivo generalizado (6.5) (o en un modelo aditivo
(6.2)) afectan a la variable respuesta de forma lineal. Si esto es conocido,
el modelo (6.5) puede reformularse permitiendo que algunas de las funciones
g
j
(x
j
) sean lineales: g
j
(x
j
) =
j
(x
j
). Otras posibles modicaciones del modelo
(6.5) son las siguientes:
Estimar noparametricamente el efecto conjunto de dos (o mas) variables
explicativas. Ello supone, por ejemplo, sustituir g
j
(x
j
) + g
h
(x
h
) por
g
j,h
(x
j
, x
h
) en (6.5).
Estimar el efecto de una variable x
j
de forma diferente en cada una de
las clases determinadas por otra variable categorica x
h
. Estos efectos
podras ser estimados lineal o noparametricamente.
Los modelos obtenidos al incorporar estas modicaciones al modelo (6.5)
se conocen como modelo semiparametricos y pueden ser ajustados usando la
funcion gam la librera mgcv de R.
El libro de Ruppert, Wand y Carroll (2003) esta dedicado a los modelos
semiparametricos. Estos autores han desarrollado paralelamente la librera
SemiPar de R, que permite ajustar estos modelos. Concretamente la funcion
spm tiene similitudes con la funcion gam, aunque incorpora algunas opciones
nuevas.
Apendice A
Algunos conceptos y resultados
matematicos
Denicion A.1 (Lmites superior e inferior de una sucesion) Sea {x
n
}
n
,
una sucesion de n umeros reales. Se dene su lmite superior como
lmsup
n
=nf
n
sup
mn
x
n
= lm
n
sup
mn
x
n
.
Se dene su lmite inferior como
lminf
n
= sup
n
nf
mn
x
n
= lm
n
nf
mn
x
n
.
Denicion A.2 (

Ordenes de convergencia de sucesiones) Sean {x

n
}
n
,
{y
n
}
n
dos sucesiones de n umeros reales. Cuando n tiende a
1. x
n
= O(y
n
) lmsup
n

x
n
y
n

< .
2. x
n
= o(y
n
) lm
n

x
n
y
n

= 0.
Denicion A.3 (

Ordenes de convergencia de sucesiones de v.a.) Sean

{X
n
}
n
, {Y
n
}
n
dos sucesiones de variables aleatorias. Cuando n tiende a
1. x
n
= O
p
(y
n
) si y solo si para todo > 0 existen > 0 y N IN tales
que para todo n N
P
_

X
n
Y
n

>
_
< ,
es decir, si y solo si |X
n
/Y
n
| esta acotada en probabilidad.
187
188AP

ENDICE A. ALGUNOS CONCEPTOS Y RESULTADOS MATEM

ATICOS
2. X
n
= o
p
(Y
n
) si y solo si para todo > 0
lm
n
P
_

x
n
y
n

>
_
= 0,
es decir, si y solo si X
n
/Y
n
tiende a 0 en probabilidad.
Teorema A.1 (Teorema de Taylor) Sea f(x) una funcion con (r + 1)
derivadas en un intervalo I R. Para cada par de puntos x, a de I se tiene
que
f(x) = f(a) +f

(a)(x a) +
1
2
f

(a)(x a)
2
+
+
1
r!
f
(r)
(a)(x a)
r
+
1
(r + 1)!
f
(r+1)
((x, a))(x a)
r+1
donde (x, a) es un punto intermedio entre x y a (luego |(x, a)a| |xa|).
Al ultimo sumando se le llama resto de Taylor, se le denota por R
f,r
(x, a)
y admite otras expresiones:
R
f,r
(x, a) =
1
(r + 1)!
f
(r+1)
( (x, a))(x a)(x (x, a))
r
,
y, si f
(r+1)
es integrable en I,
R
f,r
(x, a) =
_
x
a
1
r!
f
(r+1)
(t)(x t)
r
dt
(suponiendo que a < x).
Corolario A.1 Si f
(r+1)
es acotada en I entonces
R
f,r
(x, a) = o((x a)
r
) cuando (x a) 0,
R
f,r
(x, a) = O((x a)
r+1
) cuando (x a) 0.
Teorema A.2 (Teorema del Valor Medio Integral) Si f es continua en
[a, b], entonces
_
b
a
f(t)dt = f()(b a)
para alg un [a, b].
Teorema A.3 (Teorema del Valor Medio Integral Generalizado) Si f
y g son continuas en [a, b] y g(t) 0 para todo t [a, b], entonces
_
b
a
f(t)g(t)dt = f()
_
b
a
g(t)dt
para alg un [a, b].
189
Denicion A.4 (Consistencia en Error Cuadratico Medio) Un estima-
dor

n
=

(X
1
. . . , X
n
) es consistente en Error Cuadratico Medio para el
parametro si
lm
n
MSE(

n
) = 0,
donde MSE, el Error Cuadratico Medio (Mean Square Error, en ingles), se
dene como
MSE(

n
) = E[(

n
)
2
] = (Sesgo(

n
))
2
+V (

n
),
donde Sesgo(

n
) = E(

n
) es el sesgo de

n
como estimador de .
La desigualdad de Chebychev garantiza el siguiente resultado.
Proposicion A.1 Si

n
es un estimador consistente en Error Cuadratico
Medio de entonces

n

n
en probabilidad.
190AP

ENDICE A. ALGUNOS CONCEPTOS Y RESULTADOS MATEM

ATICOS
Referencias
Bowman, A. W. y A. Azzalini (1997). Applied Smoothing Techniques for
Data Analysis. Oxford: Oxford University Press.
Cristobal, J.A (1992). Inferencia Estadstica. Universidad de Zaragoza.
Delicado, P. (2006). Local likelihood density estimation based on smooth
truncation. Biometrika, 93, 472480. http://www-eio.upc.es/delica-
do/research.html.
Fan, J. y I. Gijbels (1996). Local polynomial modelling and its applications.
London: Chapman & Hall.
Garca-Nogales, A. (1998). Estadstica Matematica. Universidad de Extre-
madura.
Gasser, T., L. Sroka y C. Jennen-Steinmetz (1986). Residual variance and
residual pattern in nonlinear regression. Biometrika (3), 625633.
Gibbons, J. D. (1993a). Nonparametric Measures of Association. Number
07-091 in Sage University Papers series on Quantitative Applications
in the Social Sciences. Newbury Park, CA: Sage.
Gibbons, J. D. (1993b). Nonparametric Statistics: An Introduction. Num-
ber 07-090 in Sage University Papers series on Quantitative Applica-
tions in the Social Sciences. Newbury Park, CA: Sage.
Gibbons, J. D. (1997). Nonparametric Methods for Quantitative Analysis
(Third ed.). Syracuse, N.Y.: American Sciences Press.
Gibbons, J. D. y S. Chakraborti (1992). Nonparametric Statistical Infe-
rence (Third ed.). New York: Marcewl Dekker.
Green, P.J. y B.W. Silverman (1994). Nonparametric Regression and Gene-
ralized Linear Models: A Roughness Penalty Approach. London: Chap-
man & Hall.
Hastie, T., R. Tibshirani y J. Friedman (2001). The Elements of Statistical
Learning. Data Mining, Inference, and Prediction. Springer.
191
192 REFERENCIAS
Hastie, T. J. y R. J. Tibshirani (1990). Generalized additive models. Mo-
nographs on Statistics and Applied Probability. London: Chapman and
Hall Ltd.
Hollander, M. y D. A. Wolfe (1999). Nonparametric Statistical Methods
(Second ed.). Wiley & Sons.
Leach, C. (1982). Fundamentos de Estadstica. Enfoque no Parametrico
para Ciencias Sociales. Mexico: Limusa.
Pratt, J. W. y J. D. Gibbons (1981). Concepts of Nonparametric Theory.
New York: Springer-Verlag.
Rice, J. (1984). Bandwidth choice for nonparametric regression. Ann. Sta-
tist. (4), 12151230.
Ruppert, D., S. J. Sheather y M. P. Wand (1995). An eective bandwidth
selector for local least squares regression. J. Amer. Statist. Assoc. (432),
12571270.
Ruppert, D., M. P. Wand y R. J. Carroll (2003). Semiparametric Regres-
sion. Cambridge Series in Statistical and Probabilistic Mathematics.
Cambridge University Press.
Scott, D. W. (1992). Multivariate Density Estimation: Theory, Practice,
and Visualization. New York: Wiley.
Scott, D. W., R. A. Tapia y J. R. Thompson (1977). Kernel density esti-
mation revisited. Nonlinear Anal., 1, 339372.
Sheather, S. J. y M. C. Jones (1991). A reliable data-based bandwidth
selection method for kernel density estimation. Journal of the Royal
Statistical Society, Series B, Methodological, 53, 683690.
Silverman, B. W. (1986). Density Estimation for Statistics and Data
Analysis. London: Chapman and Hall.
Simono, J. S. (1996). Smoothing methods in statistics. New York: Sprin-
ger.
Velez, R. y A. Garca (1993). Principios de Inferencia Estadstica. UNED.
Wand, M. P. y M. C. Jones (1995). Kernel smoothing. London: Chapman
and Hall.
Wasserman, L. (2006). All of Nonparametric Statistics. New York: Sprin-
ger.

También podría gustarte

Curso de Modelos No Paramétricos
Aún no hay calificaciones
Curso de Modelos No Paramétricos
218 páginas
Estimadores de Momentos en Econometría
Aún no hay calificaciones
Estimadores de Momentos en Econometría
210 páginas
Introducción a la Inferencia Estadística
Aún no hay calificaciones
Introducción a la Inferencia Estadística
207 páginas
Fundamentos de Modelos Lineales
Aún no hay calificaciones
Fundamentos de Modelos Lineales
243 páginas
Modelos Lineales F Carmona PDF
Aún no hay calificaciones
Modelos Lineales F Carmona PDF
262 páginas
Libro de Modelos Lineales
Aún no hay calificaciones
Libro de Modelos Lineales
262 páginas
Análisis de Datos con R en Ingeniería
Aún no hay calificaciones
Análisis de Datos con R en Ingeniería
184 páginas
Regresión y Gretl para Economistas
Aún no hay calificaciones
Regresión y Gretl para Economistas
170 páginas
Regresión en R PDF
Aún no hay calificaciones
Regresión en R PDF
259 páginas
NOTASDECLASEESTADISTICAIIIv 01 PDF
Aún no hay calificaciones
NOTASDECLASEESTADISTICAIIIv 01 PDF
407 páginas
Ad 08
Aún no hay calificaciones
Ad 08
155 páginas
Anaalisis de Datos Con R
Aún no hay calificaciones
Anaalisis de Datos Con R
155 páginas
Introducción a R para Estadística III
Aún no hay calificaciones
Introducción a R para Estadística III
407 páginas
Descarga de script.luar-0.8.1
Aún no hay calificaciones
Descarga de script.luar-0.8.1
407 páginas
Manual Estadístico USACH 2018
Aún no hay calificaciones
Manual Estadístico USACH 2018
117 páginas
Curso de Inferencia y Decisión Estadística
100% (1)
Curso de Inferencia y Decisión Estadística
253 páginas
Introduccion A La Estadistica Bayesiana PDF
100% (2)
Introduccion A La Estadistica Bayesiana PDF
205 páginas
Análisis de Regresión Lineal en R
Aún no hay calificaciones
Análisis de Regresión Lineal en R
280 páginas
Apunte Regresion Lineal Szretter
Aún no hay calificaciones
Apunte Regresion Lineal Szretter
249 páginas
Inferencia Estadística y Teorema Central
100% (1)
Inferencia Estadística y Teorema Central
260 páginas
Notas de Clase de Estadística Aplicada
Aún no hay calificaciones
Notas de Clase de Estadística Aplicada
175 páginas
Econometría y Predicción en Regresión
Aún no hay calificaciones
Econometría y Predicción en Regresión
16 páginas
Modelos de Regresión en R: Guía Práctica
Aún no hay calificaciones
Modelos de Regresión en R: Guía Práctica
148 páginas
Reglas de Nelson en Estadística
100% (1)
Reglas de Nelson en Estadística
50 páginas
Regresion Lineal Alfonso Castro
Aún no hay calificaciones
Regresion Lineal Alfonso Castro
213 páginas
Manual de Estadística Multivariante
Aún no hay calificaciones
Manual de Estadística Multivariante
96 páginas
Estad 5
Aún no hay calificaciones
Estad 5
105 páginas
Econometría Aplicada con Gretl
Aún no hay calificaciones
Econometría Aplicada con Gretl
182 páginas
Analisis de Datos Con R PDF
Aún no hay calificaciones
Analisis de Datos Con R PDF
163 páginas
Inferencia Estad¡stica Teor¡a y Problemas, 2a Edici N - Espejo Et Al. (2016)
100% (1)
Inferencia Estad¡stica Teor¡a y Problemas, 2a Edici N - Espejo Et Al. (2016)
290 páginas
Inferencia Estadística
100% (5)
Inferencia Estadística
290 páginas
CARMONA
Aún no hay calificaciones
CARMONA
11 páginas
Notas Econometria
100% (2)
Notas Econometria
136 páginas
Guía de Estadística Espacial en R
Aún no hay calificaciones
Guía de Estadística Espacial en R
136 páginas
Bioestadística en Ciencias de la Salud
Aún no hay calificaciones
Bioestadística en Ciencias de la Salud
167 páginas
Manual de Estadística Multivariante
100% (2)
Manual de Estadística Multivariante
71 páginas
Fundamentos de Econometría Clásica
Aún no hay calificaciones
Fundamentos de Econometría Clásica
255 páginas
Version Digital - Inferencia Estadistica para Estudiantes de Ciencias - Vazquez - 19-09-2020
100% (1)
Version Digital - Inferencia Estadistica para Estudiantes de Ciencias - Vazquez - 19-09-2020
385 páginas
Inferencia Estadistica para Estud. - Color - PP
100% (5)
Inferencia Estadistica para Estud. - Color - PP
382 páginas
Econometria I - Ventosa
0% (1)
Econometria I - Ventosa
524 páginas
Estadística Matemática
100% (2)
Estadística Matemática
91 páginas
Cenam MMM PT 003 PDF
100% (1)
Cenam MMM PT 003 PDF
151 páginas
Introducción a la Mecánica de Fluidos
100% (2)
Introducción a la Mecánica de Fluidos
41 páginas
Toma de Decisones en Incertidumbre
Aún no hay calificaciones
Toma de Decisones en Incertidumbre
10 páginas
Ruta óptima en el problema de la diligencia
Aún no hay calificaciones
Ruta óptima en el problema de la diligencia
21 páginas
Introducción a la Investigación de Operaciones
100% (4)
Introducción a la Investigación de Operaciones
26 páginas
A1 - Diseño Plan Estratègico
100% (2)
A1 - Diseño Plan Estratègico
41 páginas
Copia de Pruebas No Parametricas Vic No ResueltosMM
50% (2)
Copia de Pruebas No Parametricas Vic No ResueltosMM
20 páginas
Solicitud de descuento por multas de verificación
Aún no hay calificaciones
Solicitud de descuento por multas de verificación
1 página
Introducción a la Distribución Multinomial
100% (1)
Introducción a la Distribución Multinomial
4 páginas
Introducción a la Distribución Multinomial
100% (1)
Introducción a la Distribución Multinomial
4 páginas
Garantia Hipotecaria Individual
Aún no hay calificaciones
Garantia Hipotecaria Individual
25 páginas
Introducción a la Distribución Multinomial
100% (1)
Introducción a la Distribución Multinomial
4 páginas
Posters Buenas Practicas de Documentacion
100% (1)
Posters Buenas Practicas de Documentacion
2 páginas