P-Splines: Guía para Estadísticos
P-Splines: Guía para Estadísticos
Introducción:
Hace casi 20 años, acuñamos el nombre P-splines para una simple combinación de dos
ideas para el ajuste de curvas: regresión sobre la base de B-splines y una penalización de
diferencia en los coeficientes de regresión. En un artículo posterior desarrollamos
completamente esta idea. Utilizando nudos igualmente espaciados y un gran número de B-
splines, el papel de la base se reduce a poco más que un dispositivo de interpolación suave
conveniente. La penalización es el ingrediente principal del modelo: la suavidad se ajusta
cambiando su peso.
La idea básica no es nueva: O’Sullivan publicó una propuesta similar. Su penalización era
más complicada, ya que era discreta, pero derivada de la segunda derivada cuadrada
integrada de la curva ajustada. Por el contrario, P-splines utilizan una penalización
puramente discreta, por lo que es casi trivial utilizar diferencias de cualquier orden. No hay
que pagar ningún precio por esta simplicidad.
Curiosamente, la idea de O'Sullivan fue revivida recientemente por Wand y Ormerod, que
también suministraban código R. Ruppert y Carroll propusieron un enfoque de la
competencia para suavizar, basado en funciones de potencia (TDF) truncadas, nudos
desigualmente espaciados (quantiles de x), y una penalización de cresta. El material se
ampliado en gran medida en un libro. Tanto P-splines como TPF se han vuelto populares en
las estadísticas y en los campos aplicados, como se puede juzgar a partir de los recuentos de
citas. En un artículo general, Ruppert, Wand y Carroll recientemente 314 referencias, del
período 2003-2007.
Con la creciente popularidad, el apodo P-splines ha crecido gradualmente hasta convertirse
en un catch-all(algo que sirve para todo), difuminando la distinción entre las diferencias en
la base funciones y el tipo de penalización. Esto puede ser confuso para las personas que
entran en el campo. Uno de los objetivos de este artículo es discutir e ilustrar las diferencias
cualitativas entre los dos sistemas y ayudar a los usuarios a tomar una decisión bien
informada. Como principio, proponemos más apodos precisos: PB-splines (para B-splines
penalizados) y PT-splines (para los TPTF penalizados).
Nuestro segundo objetivo es discutir algunos aspectos numéricos de ambos sistemas. La
condición numérica de cálculos rectos con PT-splines puede ser problemática,
especialmente para splines cuadráticas o cúbicas.
Por otro lado, como es bien sabido en la literatura B-splines se pueden calcular a partir de
TPF calculando diferencias repetidas. Esto es muy útil estudiar equivalencias y diferencias
entre las dos formas de penalizar. El algoritmo de diferencia para B-splines no tiene una
buena reputación con respecto a la estabilidad numérica, pero demostramos que no hay
necesidad de preocupación.
Un tercer objetivo es hacer una declaración convincente para nudos espaciados al mismo
tiempo, también para PT-splines. Las ventajas son más claras cuando se interpolan o
extrapolan datos sin problemas. Al mismo tiempo, atacamos la idea ampliamente sostenida
de que el número de splines tiene que ser menor que el número de observaciones. Esto
simplemente no es cierto. De forma sorprendente, la penalización maneja la situación de
forma automática y correcta, incluso si hay muchas más splines que puntos de datos.
Un cuarto objetivo es demostrar que la diferencia penalización se presta adaptativamente a
las prórrogas y generalizaciones, por ejemplo, las "sanciones de diseño". Algunos ejemplos
son: suavizado de la circular de datos periódicos y reducción de "rebasamiento" mediante el
uso de múltiples sanciones. Los PT-splines conducen inmediatamente a un modelo mixto
enfoque, porque contienen una parte no penalizada y una parte penalizada desde el
principio. La primera (la parte polinómica global) se puede interpretar como el componente
fijo y el segundo como el componente aleatorio. Mostramos que los PB-splines pueden ser
presionados en el mismo mold por una simple transformación de la base B-spline y la
adición de una base de poderes de x. Sin embargo, es más elegante y fácil introducir un
modelo con solo componentes aleatorios, en el que no se produce un componente
fijo explícito en absoluto, ya que se cuida automáticamente. Este es también un punto de
partida conveniente para un modelo bayesiano, utilizando el sampler Gibbs.
(B B + λD dDd) ˆα = B y. (2)
Tenga en cuenta que para el valor lambda=0 esto se reduce a la ecuaciones normales para la
regresión lineal de y en B. El número funciones de base en B se elige "demasiado grande",
lo que significa que para el valor lambda= 0 la curva ajustada se ajusta en exceso los datos,
dando un resultado con demasiadas fluctuaciones.
Dependiendo de la aplicación, el tamaño de la base puede ser en cualquier lugar de 10 a
más de 1000. Al aumentar la suavidad, se puede ajustar la suavidad. En el límite de un se
obtiene un ajuste lineal (d = 2) o cuadrático (d = 3).
Alternativamente, los PT-splines utilizan una base, F, de TTP.
Para un grado dado p, la columna j de F es dada por
X X X F F X F F + κI β b = X y F y . (7)
B B + λD D or F F + κI.
SPLINES Y NUDOS
En esta sección, veremos las funciones básicas y sus relaciones mutuas con más detalle.
Comenzamos nuestra presentación con TPF y nudos igualmente espaciados ya que son algo
más fáciles de explicar, y b-splines pueden derivarse de ellos. Nuevamente, dejemos que
los datos sean pares (xi, yi), i = 1. . .m. Para simplificar la presentación sin pérdida de
generalidad, suponemos que todas las x se encuentran entre 0 y 1. Está claro que cualquier
conjunto de x se puede transformar linealmente para conformar a esta condición Sea tj = (j
- 1) / n, j = 2,. . , n ser un conjunto de n - 1 nudos igualmente espaciados.
El sistema más simple de TPF usa p = 0; consiste de funciones escalonadas con saltos de
tamaño 1 en los nudos. La rama derecha de un TPF de grado p se parece a la derecha rama
de (x - tj) p; la rama izquierda es cero. Figura 1 muestra bases lineales y cuadráticas de
TPF, con igual nudos espaciados.
Las splines B se pueden calcular como diferencias de TPF. Tome, como ejemplo, TPF de
grado cero. La diferencia
Donde h es la distancia entre nudos. Estos resultados solo aguanta para nudos igualmente
espaciados. Algo más se pueden obtener resultados complicados para arbitrariamente nudos
espaciados, usando diferencias divididas. Sin embargo, debería quedar claro en las
aplicaciones que discuta, no hay necesidad de elegir desigualmente nudos espaciados, ya
sea que usemos TPF o B-splines.
Tenga en cuenta que necesitamos 2p + 2 nudos adicionales para el TPF, conocido como la
base expandida F, para generar una base B-spline completa. Así, en general,
se realiza en n + 1 + 2p diferentes (p + 1) tuplas de polinomios truncados de grado p que
dan como resultado n + k B-splines. En lenguajes como R y Matlab, es casi trivial para
calcular una base de TPF y tomar diferencias a obtener una base B-spline, como el
siguiente fragmento de código muestra.
La Figura 2 muestra bases lineales y cúbicas de [Link] las funciones básicas tienen
la misma forma, pero se desplazan horizontalmente por un múltiplo del nudo distancia.
Esto también es cierto en los límites, en contraste con otros esquemas, como las B-splines
naturales, donde cerca de los límites, las funciones básicas tienen diferentes formas
Sorprendentemente, el algoritmo de diferencia no se usa a menudo. Más bien una fórmula
recursiva, derivando B-spline de grado p de los de grado p - 1, comenzando en
p = 0, es más popular Usamos el término "grado" para indicar B-splines que consisten en (p
+ 1) segmentos de grado p. En el Literatura B-spline, es común usar "orden", que es p + 1.
Tomamos esta decisión para evitar confusiones con El orden de penalización por
diferencia.
Uno podría estar preocupado por este enfoque simple para el cálculo de bases B-spline. de
Boor advierte contra la computación de splines B como diferencias de TPF. Eso Es
interesante estudiar esto con cierto detalle. Considere una B-spline cúbica. Solo cuatro
segmentos son distintos de cero En los segmentos a la izquierda no hay error se hará,
porque los TPF son todos cero allí y así serán sus diferencias. A la derecha allí Es una
oportunidad para cometer errores. El peor caso ocurrirá para las B-splines más a la
izquierda en el extremo derecho del dominio La Figura 3 muestra el valor absoluto de una
spline B cúbica, escalada a un máximo de [Link] distancia entre los nudos es 0.01. Vemos que
el El error más grande es del orden de 10. Para entender mejor la advertencia de De Boor,
nosotros debemos tener en cuenta que hizo su investigación en el 1970, cuando la precisión
única (4 bytes) era la predeterminada. En las computadoras actuales es la doble precisión
IEEE 754 estándar. IEEE 754 precisión simple tiene un precisión relativa de 223, o un poco
menos de 7 dígitos, mientras que es 254, o más de 16 dígitos, en doble precisión.
También de Boor consideró B-spline de muy alto grado (hasta 20, en su Ejercicio 9.2).
Sin embargo, si el error es pequeño o no, nosotros podemos eliminarlo por completo de una
manera muy simple: nosotros saber que una spline B tiene que ser cero después de su
cuarto nudo, así que simplemente podemos darle un valor cero allí, lo que resulta sin error
La tendencia del error sugiere que en el (nominalmente) parte distinta de cero de la B-
spline el error es muy pequeña. Esto fue confirmado por una comparación directa con el
algoritmo recursivo de De Boor.
SANCIONES Y COEFICIENTES
Las PB-splines utilizan sanciones discretas para ajustar la cantidad de suavidad EM puso
una penalización de diferencia en el coeficientes de las funciones básicas de B-spline. El
grado de las B-splines y el orden de la penalización puede ser Elegido independientemente.
Asesoramiento para investigar varios órdenes de la sanción y trazar un criterio de
información (por ejemplo, AIC) o una medida de validación cruzada contra la dimensión
efectiva para tener una buena impresión de El comportamiento limitante (que podría indicar
un polinomio modelo). Los splines PT de RWC siempre tienen una cresta penalización en
el TPF, sea cual sea su grado. Lo haremos demostrar que esto es equivalente a una base B-
spline y el orden de la penalización por diferencia igual a uno más alto que el grado de
estos TPF. Sin pérdida de generalidad, dejemos el dominio de x
corre de 0 a 1, y deja que el espaciado de los nudos sea 1 / n.
Entonces los n - p TPFs de grado p en la base F comienzan
en las posiciones de nudo p / n a (n - 1) / n. A B-spline base B
de grado p contiene n + p B-splines. Para calcular B como
diferencias de orden p + 1 de una base de TPF ˘F, hay
ser n + 2p + 1 funciones básicas en ˘F, correspondientes
a los nudos p / n a (n + p) / n. En B = ˘F
RE p + 1, el orden p + 1 matriz de diferenciación ˘D p + 1 tiene n + 2p + 1
columnas y n + p filas. Podemos escribir F = ˘FS si S es la matriz de identidad de tamaño
n- p, delimitada por p + 1 filas de ceros en la parte superior e inferior.
Por lo tanto, la post-multiplicación por S selecciona el medio n – p columnas de ˘F.
Tenemos que S S = In − p y también que
p + 1S = D
p + 1, la transposición de la n - p por n + p matriz de diferenciación de orden p + 1.
Escriba una sp-PB y la sp-PT se ajusta como
Bα = B(γ + a) = Xβ + Fb = ˘F (11)
VISUALIZACIÓN
Se pueden visualizar los detalles de un modelo PB-spline de una manera atractiva Esto no
es importante para suavizado diario, pero puede ser útil e instructivo al presentar nuevos
usuarios al método. Figura 4 ilustra datos simulados que se han ajustado con una rica base
B-spline y una penalización de segundo orden. Se muestran las B-splines individuales,
escaladas por su coeficientes También se muestran, como puntos grandes, los coeficientes
de las splines B individuales en las posiciones de sus máximos (posiciones de nudos para
grados impares, a medio camino entre nudos para un grado uniforme). Estos puntos son
cerca de la curva ajustada y presentar el esqueleto del ajuste. Las estrías B ponen la carne
en este esqueleto, es suavidad determinada por su grado. Este tipo de presentación también
ayuda a hacer claro qué está haciendo la diferencia de penalidad: obliga el esqueleto, es
decir, los coeficientes, para seguir un suave modelo. En consecuencia, la curva completa
que se sigue de ellos también serán suaves. Observe que también los coeficientes del
extremo “se presentan splines ". Los puntos nos recuerdan el ‘Puntos de control’ que se
utilizan en el diseño asistido por computadora y software gráfico para dar forma a las
curvas de Bezier.15 Las splines PT con TPF no se prestan a Una presentación tan
perspicaz. La figura 5 muestra un ejemplo. Los coeficientes no se pueden conectar a la
datos (son segundas diferencias de los coeficientes de la base B-spline correspondiente) y
una gráfica de la funciones básicas escaladas muestran muchos cruces rectos líneas.
INTERPOLACIÓN Y EXTRAPOLACIÓN
Las splines penalizadas permiten una sencilla interpolación y extrapolación. En esta área el
poder de sanciones se hace más claramente visible, ya que vemos que la elección de los
nudos es influyente. En la Figura 6 ilustramos la interpolación y extrapolación con PB-
splines, usando B-splines cúbicas en una fina cuadrícula de nudos y una penalización de
segundo orden. También se muestran las splines B individuales y los coeficientes. Observe
que en grandes partes del dominio de x no hay datos, sino nudos amplios. Sin embargo, las
curvas de interpolación generadas automáticamente son suaves y se ven naturales. Este es
el trabajo de la penalización. Al interpolar, los coeficientes B-spline formar una secuencia
polinómia de grado 2d - 1, y para la extrapolación el grado es d - 1. Por lo tanto, cuando d
=2, obtenemos interpolación cúbica y extrapolación lineal.
Deje que W sea una matriz de peso diagonal. Considere interpolación: dado que una parte
de la diagonal de W en BWB contiene ceros, un número de filas (igual a el número de ceros
en la diagonal de W) de BWB, así como los elementos correspondientes de BWy,
contendrá sólo ceros. Si el pd =DdDd, se desprende de (BWB DDDd) á - BWy que
k pjk- k = 0 mantiene para estas filas. Considere las partes superiores izquierdas de Pd para
órdenes 1 y 2:
(12)
FIGURA 6 Suavizado e interpolación de datos simulados con una base grande de B-splines
cúbicas y una penalización de segundo orden (a 10). Las B-splines a escala se muestran en la
parte inferior del gráfico. Su suma da la línea completa, que es la curva ajustada. Los puntos
rodeados representan el valor de los coeficientes B-spline.
Que 2d-k = 0 para la parte interpolada de la que corresponde a cero filas de BWB. Esto sólo
retendrá si esa parte de la parte de la parte de la parte de la parte de la parte de la parte de la
parte es un polinomio (en el índice) grado 2d - 1. Los coeficientes de este polinómico están
determinados por las "condiciones límite" impuestas por las ecuaciones circundantes con
filas distintas de cero de BWB. No será fácil mostrar algebraicamente que la conexión es
suave, pero cualquier conexión no suave aumentaría innecesariamente la penalización.
A primera vista puede parecer que el mismo razonamiento contiene para la extrapolación,
pero esto no es cierto. En D 1D1 las filas 2 a n -1 corresponden a los coeficientes de
segundas diferencias y, por lo tanto, permitirían una secuencia de lineal para la parte
correspondiente de . Pero la primera fila dice que los dos primeros elementos de la palabra
"" tienen que ser iguales, aniquilando la parte lineal. Por lo tanto, extrapolación será por un
valor constante cuando d - 1. Del mismo modo, las filas 3 y posteriores de D2D2
permitirían una secuencia cúbica para la parte extrapolada de, pero las dos primeras
ecuaciones aniquilarían los componentes cuadráticos y cúbico. En este caso, la
extrapolación se realiza mediante una secuencia lineal. Este razonamiento se aplica a
cualquier valor de d: las primeras ecuaciones d aniquilan componentes de grado mayor que
d. Por simetría, lo mismo se mantiene para extrapolación a la derecha.
Con PB-splines, el comportamiento detallado de la curva entre los nudos depende del grado
de la B-splines. Para obtener una curva de interpolación cúbica (cuando d =2), las b-splines
también deben ser cúbicas. Sin embargo, si el número de nudos es grande bien puede ser
que la interpolación lineal entre los nudos sea aceptable y entonces una base b-spline lineal
será suficiente.
Tal vez sorprendentemente, la interpolación PT-spline con TPF lineal, una penalización de
cresta, y nudos igualmente espaciados da el mismo resultado agradable, como muestra la
Figura 7. Por supuesto, debería, en vista de la equivalencia matemática con una base B-
spline lineal y un segundo orden penalización. Tenga en cuenta, sin embargo, que entre el
nudos la curva consta de piezas lineales. El PT spline esquema de RWC no permite
opciones separadas de grado de la base y el orden de la sanción.
Una opción natural puede ser subir a la base TPF cúbica funciones, pero luego elegimos
implícitamente un penalización de cuarto orden en el modelo P-spline equivalente. La
interpolación (extrapolación) será en un séptimo (tercer) grado polinomio (en los
coeficientes), lo que podría introducir más flexibilidad de la necesaria.
Tomar nudos como cuantiles de x generalmente no es una buena idea en la interpolación,
como se muestra en la Figura 8. Para ilustrar este punto en el caso extremo, un nudo se
coloca en cada x medida, (un caso extremo de tomar quantiles). La brecha en el medio está
puenteada por un segmento lineal, que es menos atractivo que el con muchos nudos
igualmente espaciados (Figura 7). En este caso, el ajuste a los datos disponibles es peor.
RWC enfatizar fuertemente el uso de nudos no equiespacidos. En vista de los resultados
presentados aquí nudos cuantiles evitar que la penalización haga lo mejor que pueda.
En teoría, los nudos igualmente espaciados llevan consigo el peligro de una mala condición
numérica. Sin una penalización, la regresión sobre la base B-spline o TPF generalmente
conducirá a ecuaciones singulares. La sanción elimina la singularidad, pero aun así la
condición podría ser deficiente cuando los datos muestran un gran vacío. En la práctica,
este peligro puede ser descuidado, como un experimento numérico muestra. Simulamos
100 observaciones por igual en el dominio de 0 a 1 y dejamos fuera una brecha en
el medio; véase la Figura 9. La relación entre la matriz más grande y el valor singular más
pequeño de la matriz aumentada
[B-D] se calcula como el número de condición. Para valores muy pequeños y muy grandes
de este número puede llegar a ser mayor que 10, pero es muy improbable que se utilice un
valor muy pequeño de lambda en la práctica.
El criterio de validación cruzada de en el gráfico inferior izquierdo de Figura 9 apunta
claramente a un valor en la vecindad de la sección 10. El gráfico superior derecho muestra
los datos y el ajuste para este valor de lambda=10. Si se elige un valor demasiado pequeño,
puede producirse un pasado de largo fuerte, como se muestra en el gráfico inferior derecho.
ASPECTOS COMPUTACIONALES
En principio, TPF se puede utilizar directamente como base para regresión. Esto no es
recomendable, ya que su condición numérica puede ser pobre, especialmente cuando el
número de nudos es grande y p>= 1. El logaritmo (base 10) del número de condición (la
relación de los valores singulares máximo a mínimo) aproximadamente indica el número de
números significativos que pueden perderse al resolver problemas de regresión con esta
base. Esto se mantiene si los cálculos no están organizados cuidadosamente, utilizando una
descomposición QR o rotaciones de hogar. Si, sin embargo, los productos internos están
involucrados, duplicar el número de dígitos puede perderse.16 Es se recomienda una buena
práctica para evitar problemas de condición en los cálculos estadísticos. Figura 10 muestra
los números de condición para TPF bases de grados uno, dos y tres, con varios números de
(n) diferentes de nudos equiespacidos y diferentes…
FIGURA 9. Una ilustración de suavizado e interpolación óptimos con muchas B-splines y un
gran hueco. El panel superior izquierdo muestra la condición numérica y el panel inferior
izquierdo el perfil de validación cruzada de salida uno. Los paneles muestran los resultados
del suavizado para el de aproximadamente óptimo y para los pequeños, este último muestra el
rebasamiento. El número de B-splines cúbicos es 53 y el orden de la penalización es 2.
ESTIMATION DERIVATIVO
Frecuentemente uno no sólo está interesado en una curva ajustada, sino también en sus
derivados. Por ejemplo, en mecánica uno podría querer estimar la velocidad y la
aceleración de las mediciones de posición. Específicamente en estudios de crecimiento
humano, uno puede estar interesado en el crecimiento incremento repentino, que se
caracterizan por primera y segunda derivados de la altura de un individuo.
Las splines penalizadas permiten un fácil cálculo de derivados. Esto es claro para TPF: sólo
hay que diferenciar las ramas polinómicos y sumarlas, ponderadas por los coeficientes
estimados. Para B-splines la situación es un poco más complicada. Sin embargo, si los
nudos están igualmente espaciados, hay un simple fórmula explícita para calcular la
derivada de una suma ponderada de B-splines:
D (13)…
Supongamos que estamos interesados en una curva de la derivada segunda. Esto significa
que mínimamente nos gusta para ver un resultado lineal por parte. De ello se deduce que la
base TPF o B-spline tiene que ser cúbica. Cuando se necesita un la interpolación sustancial.
Si la curva interpolante tiene grado 2d a 1, su segunda derivada tiene grado 2d a 3. Para un
mejor que lineal, d a 3 debe ser el mínimo. Como se discutió en la sección anterior, los
TPF cúbicos tienen un número de condición muy pobre, por lo que se requiere una gran
atención con la implementación de cálculos para la estimación de derivados. No se
producen tales problemas con B-splines.
DISCRETE SMOOTHING
En muchos casos no hay necesidad de interpolar con B-splines, porque los datos son una
serie discreta, muestreada distancias iguales, y sólo un suavizado discreto distancias, y sólo
un suavizado discreto distancias, y sólo un suavizado discreto distancias, y sólo un
suavizado discreto distancias, y sólo un suavizado discreto distancias, y sólo un suavizado
discreto distancias, y sólo un suavizado discreto distancias serie es necesaria. Las series
temporales y los espectros son típicos ejemplos. En tal entorno, una base B-spline de grado
cero, con un nudo en cada observación, puede ser una opción atractiva. La base entonces es
la matriz de identidad, el sistema de ecuaciones se convierte (I + λD_ dDd) ˆ α = y
Y los coeficientes y la serie suave de coincidencia. Esto nos trae de vuelta el círculo
completo a Whittaker, que utilizó este enfoque para suavizar las tablas de vida. El
suavizado discreto es muy atractivo para largas series de datos, siempre que uno tenga
acceso a software matrix disperso. Por ejemplo, una serie de observaciones de 100 a
1000 se pueden suavizar en pocos segundos, incluida la validación cruzada de la salida.
Consulte la referencia 10 para obtener más información. Por supuesto, la escasez es
esencial en aplicaciones a gran escala y TPF no funcionará en tales
ajustes. Una aplicación de menor escala en la que el enfoque discreto puede ser apropiado
es el suavizado del histograma. Para estimar una densidad se construye un histograma
con muchos, digamos, 200, bins estrechos. Tal histogram a gráfico se verá poco atractivo y
poco informativo, pero suavizado lineal generalizado con splines penalizados cambia por
completo la presentación. En un ajuste de regresión de Poisson, Eilers y Marx presentaron
suavizado de histograma con PB-splines y demostraron que bins estrechos no son
problemáticos.
El número de nudos es esencialmente inmaterial, siempre y cuando sea lo suficientemente
grande por lo tanto, en el caso limitante de un nudo por bin todavía obtener un histograma
bien suavizado. Para conservar la varianza, es aconsejable utilizar una penalización de
tercer orden.
MULTIDIMENSIONAL SMOOTHING
Los productos de B-splines son una opción de natural y atractiva para suavizar en dos
dimensiones y superior. Sin embargo, sin penalización sorpresas desagradables puede
ocurrir cuando los datos no se muy uniformemente distribuidos en el dominio de las
variables independientes. Incluso en dos dimensiones, uno encuentra con frecuencia
esquinas vacías. En tal situación, hay poco o ningún apoyo para algunos de los productos
tensor es y un sistema singular o mal acondicionado de ecuaciones normales Resultará
La superficie ajustada mostrará fluctuaciones salvajes en los bordes, o no se puede estimar
en absoluto.
Con las sanciones desaparecen estos problemas, como hicieron para la interpolación y la
extrapolación en una dimensión. Si los datos son triples (xi, yi, zi) para i 1, . . . ,m
y los productos tensores se escriben como Bj(xi) -Bk(yi),
entonces la superficie ajustada puede expresarse por
yi =Bj(xi)˜Bk(yi)αjk,
Dado el peso de la pena, la solución del problema de los mínimos cuadrados penalizado es
sencilla. Las de iteraciones son necesarias con un componente lineal generalizado, pero
estos tienden a comportarse bien. Este puede ser suficiente, porque el peso de la
penalización se ha pasado de antemano, o algún ensayo y error con el examen visual
puede ser suficiente. En muchos casos, sin embargo, uno querrá utilizar los datos para
determinar lambda o k. Existen tres estrategias generales: 1) optimizar un criterio de
rendimiento, como la validación cruzada o un criterio de información; (2) aplicar un ajuste
de modelo mixto; o 3) utilizar la tecnología bayesiana. EM aboga exclusivamente por la
validación cruzada o el uso de AIC, y esto de una manera bastante primitiva: cambiar
los parámetros de penalización en una cuadrícula "agradable" y, dependiendo
en el criterio, buscar el mínimo o máximo medida de rendimiento. La cuadrícula suele ser
lineal en una escala logarítmica. En una dimensión esta receta es bastante eficaz, porque en
la práctica no hay necesidad de determinar hasta muchos decimales. En más de las
dimensiones la cantidad de trabajo aumenta rápidamente (aunque todavía razonablemente a
la luz de muchos miles de ajustes modelo que se aceptan rutinariamente en MCMC o
similar es métodos de Bayesianos).
Hay mucho espacio para mejora aquí, ya sea utilizando métodos de búsqueda más
avanzados, como el simplex, o con algoritmos Newton, como esos24 utilizan para splines
de placa delgada. EM ignora la conexión entre las penalizaciones y los modelos mixtos.
RWC discutir explícitamente esto. Si escribimos Eq. (5) como
y = Xβ + Fb + e
Reconocemos un modelo mixto con parte fija X, parte aleatoria Fb y error e. Los
componentes de varianza son σ2 = var(e) and τ 2 = var(b) and in Eq. (7)
Reconocemos las ecuaciones de los modelos mixtos, con el valor de 2/2. La belleza
de este enfoque es que se puede utilizar el software de modelo mixto existente para la
estimación. En la práctica, se necesita un trabajo adicional, ya que la mala condición
numérica de la base TPF puede conducir a inestabilidades. Una solución es
calcular la descomposición del valor singular de F, y deflate los vectores singulares que
corresponden a valores singulares muy pequeños.
Observamos que los modelos mixtos son atractivos cuando la respuesta es gaussiana. Esto
no es necesariamente el caso con los datos no gaussianos, para los cuales robust es el
software de modelo mixto es escaso. Véase la introducción de la Referencia 25. El software
para modelos lineales generalizados mixtos está menos disponible en general y se basa en
aproximaciones que no funcionan bien con pequeños números de observación (recuentos de
Poisson o denominadores binomiales). AIC y una búsqueda en la red podrían ser una
elección competitiva Tanto P-splines como TPF se enfrentan con este problema, por lo que
no lo investigamos más aquí.
Nos gusta destacar que no hay nada natural o sagrado sobre los modelos mixtos en el
contexto de smoothing, pero la existencia de un modelo mixto robusto software en varias
plataformas lo convierte en una excelente elección. Una buena tecnología para estimar
componentes de varianza está disponible, por lo que no hay que molestarse en
escribir nuevos algoritmos.
TPF son una base natural para modelos mixtos, pero no la única opción posible. Eilers26
propuso utilizar
μ = Bα = Xγ + Za, (14)
with Z = BD_d(DdD_ d)−1,
Nuestra experiencia demuestra que un simple híbrido entre el enfoque bayesiano y los
modelos mixtos puede ser bastante eficaz. Considere el suavizado de los datos gaussianos.
En el sentido del modelo mixto, se puede interpretar como la relación entre la varianza de
y, b, 2, y la varianza de D, 2. El primero de ellos se puede estimar as 2y - B - 2/(m - ED) y
el segundo como á 2 D - D - 2/ED, cuando la dimensión efectiva se toma como
ED = tr[(B_B + λD_D)−1B_B].
ED = tr[(B_WB + λD_D)−1B_WB],
donde los pesos en W siguen del algoritmo iterativo reponderado penalizado mínimos para
smoothing de datos no normales con PB-splines.
SUAVIZADO PERIÓDICO
Los datos periódicos son comunes, debido a naturales (diarios, anuales, lunares) o sociales
(semanales, mensuales) o ciclos, debido a vibraciones armónicas (estrellas periódicas, radio
señales). Al suavizar estos datos en un eje lineal, puede suceder que ambos extremos no se
unan sin problemas. Esto se puede evitar mediante el uso de una base periódica adecuada.
Con B-splines esto es bastante fácil: simplemente envolver alrededor las funciones base en
el 'final' al 'frente'. Más específicamente: una base b-splines 'lineal' de grado p tiene n
funciones de base p. Mantenga las primeras n columnas en una nueva matriz, digamos C, y
agregue las últimas columnas p de B a las primeras columnas p de C. Este procedimiento se
ilustra la vista en perspectiva de la Figura 12. La penalización por diferencia también tiene
que ser cambiada. Una solución simple es envolverlo de la misma manera como para la
base B-spline. Una mejora es usar (αj − 2φαj−1 + αj−2), también con un envoltorio
adecuado en los extremos y s cos(2o/n), donde n es del tamaño de la base B-spline. El
límite para un aleteo fuerte será entonces el número de c1 cos(2-j/n) c2 sin(2-j/n), con
c1 y c2 determinados a partir de los mínimos cuadrados que se ajusten a los
datos.
FIGURA 11 Elección automática del parámetro de suavizado con el algoritmo híbrido para
la estimación de varianza. Datos simulados. Línea rota: verdadera
curva; línea completa: suavizado estimado automáticamente.
Si los datos tienen una media que no está cerca de cero, es posible que el límite de
seno/coseno no encaje bien. Un simple cambio en la penalización resolverá esto. Denotar la
matriz correspondiente 'diferenciación' por y dejar Que D1 sea la (envuelta)
matriz que forma las primeras diferencias. Utilice la penalización D12.
SANCIONES DE DISEÑADOR
FIGURA 14 (a) Respuesta de impulso de una P-spline más suave con una sola penalización de
diferencia de primer o segundo orden; (b) respuesta de impulso de un P-spline
más suave con penalizaciones de segundo y primer orden: pluma de la pluma de la pluma de
la pluma de la letra de la pluma D2o 2 2 D1o 2.
DISCUSSION
Hemos comparado dos enfoques con spline penalizada smoothing: PB-splines (B-splines
con una diferencia penalización) y PT-splines (TPTF con penalización de cresta).
Encontramos que:
• En nuestra experiencia práctica, los nudos igualmente espaciados siempre deben
preferirse.
• Una penalización de cresta en TPF equivale a una penalización de diferencia de (orden
fijo) en B-splines; B-splines permiten una elección flexible del orden de la penalización.
• Las B-splines y las penalizaciones por diferencia se adapta fácilmente al suavizado de los
datos periódicos.
• Sanciones de diseño, generalizaciones de diferencia sanciones que hacen que el enfoque
de la curva suave límites especiales (exponenciales o periódicos), se implementan
fácilmente en el marco B-spline. A la luz de la lista anterior, no somos conscientes de
ninguna ventaja de PT-splines, o TPF (con nudos no uniformes) y la penalización de la
cresta, por encima de los P-splines originales o PB-splines (B-splines con sanciones de
diferencia). Sin embargo, si los TTP deben ser elegidos, entonces recomendamos utilizar
nudos igualmente espaciados.