Inf Est Mark
Inf Est Mark
aplicaciones actuariales
F. Baltazar-Larios
20 de febrero de 2023
ii
Índice general
2. Procesos estocásticos 5
2.2.2. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2.5. Periodo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2.11. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3.1. Definición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
iii
iv ÍNDICE GENERAL
2.3.5. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
5.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
6.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
C. Códigos en R 93
D. Códigos en Julia 95
Bibliografı́a 111
vi ÍNDICE GENERAL
Capı́tulo 1
En este capı́tulo se estudian los conceptos básicos para realizar inferencia estadı́stica mediante el método
de máxima verosimilitud. La función de verosimilitud, el estimador de máxima verosimilitud y sus pro-
piedades como: insesgamiento, consistencia y eficiencia asintótica son estudiados en este capı́tulo. Estos
conceptos se utilizan en el Capı́tulo 4 para encontrar el estimador máximo verosı́mil de los procesos de
Markov con espacio de estados finito y probar sus propiedades estadı́sticas. Para este capı́tulo se utilizó
principalmente [? ].
Definición 1.2. La función de verosimilitud L(θ) = L(θ; x) es la función de θ que para cada x ∈ X está
dada por
L(θ) = L(θ; x) = fθ (x), θ ∈ Θ.
La función de log-verosimilitud está dada por
Nuestro objetivo es encontrar un estimador de θ a partir de una muestra observada, la función de verosi-
militud es una herramienta muy importante para determinar buenos candidatos. Por ejemplo si tenemos
que la razón de verosimilitud L(θ2 )/L(θ1 ) = 10 para θ1 , θ2 ∈ Θ, esto significa que bajo Pθ2 la observación
x es 10 veces más probable que bajo la medida Pθ1 . En esta situación nosotros estamos más inclinados a
1
2 CAPÍTULO 1. CONCEPTOS BÁSICOS DE ESTADÍSTICA
Una observación que vale la pena mencionar es que cuando el estimador máximo verosı́mil θ̂(x) se en-
cuentra en el interior de Θ, éste resuelve la ecuación de verosimilitud.
Dado que ahora tenemos un posible candidato para estimar el verdadero parámetro θ, una situación ópti-
ma serı́a cuando la distribución del estimador bajo la medida Pθ puede ser calculada. Esto permite hacer
declaraciones de la cercanı́a con respecto al verdadero parámetro.
Definición 1.4. Se define el error cuadrático medio (ECM (θ̃)) de un estimador θ̃ como
ECM (θ̃) = Eθ [(θ̃(X) − θ)2 ] = V arθ [θ̃(X)] + Eθ [(E[θ̃(X)] − θ)2 ]
donde Eθ y V arθ son la esperanza y varianza respecto a la medida de probabilidad Pθ respectivamente.
El error cuadrático medio es una medida de la cercanı́a que tiene el estimador con respecto al verdadero
parámetro.
Definición 1.5. Un estimador θ̃ : X −→ Θ se dice insesgado si
Eθ [θ̃(X)] = θ , para cada θ ∈ Θ.
Por otro lado si un estimador no es insesgado, diremos que es sesgado.
Los estimadores insesgados son preferidos respecto a los sesgados, pues su error cuadrático medio es
menor.
Ejemplo 1.1. Sea X1 , . . . , Xn variables aleatorias i.i.d. (independientes e idénticamente distribuidas) con
densidad
β exp(−βx), x > 0,
Donde β > 0 es el parámetro. La función de log-verosimilitud es
l(β) = n(log(β) − β x̄),
aquı́ el estimador máximo verosı́mil es β̂ = X̄ −1 .
Ya que X̄ tiene una distribución gamma, la media del estimador es
n
Eβ [β̂] = β 6= β,
n−1
De este modo β̂ no es un estimador insesgado. Si en lugar del parámetro β nosotros consideramos el
parámetro 1/β , encontramos que el estimador máximo verosı́mil del nuevo parámetro es
1/β̂ = X̄.
Claramente E1/β [1/β̂] = 1/β, entonces X̄ es un estimador insesgado respecto al nuevo parámetro.
1.2. PROPIEDADES ASINTÓTICAS DE LOS ESTIMADORES 3
El ejemplo anterior muestra que el estimador máximo verosı́mil no es en general insesgado. También este
ejemplo muestra que el insesgamiento se relaciona tanto con el estimador y la parametrización en cuestión,
por tanto algunas parametrizaciones son más útiles que otras.
Definición 1.6. La variable aleatoria
∂l(θ, X)
U (θ) = ,
∂θ
es llamada la función score. La matriz
∂ 2 l(θ, X)
j(θ) = − ,
∂θ∂θT
es llamada la información observada, mientras que la esperanza de j(θ)
i(θ) = Eθ [j(θ)],
es llamada la información de Fisher o información esperada, esta matriz es importante porque bajo ciertas
condiciones los estimadores cumplen
d
(θ̃(X) − θ)i(θ)1/2 −
→ N (0̄, In )
Intuitivamente mientras más grande sea la muestra, es posible tener una noción más precisa del valor
del verdadero parámetro. Por esta razón es de vital importancia estudiar propiedades de los estimadores
cuando el tamaño de la muestra crece.
Una propiedad deseable es que la esperanza del estimador converja al verdadero parámetro cuando el
tamaño de la muestra tienda a infinito.
Definición 1.7. Un estimador θ̃ : X −→ Θ se dice asintóticamente insesgado si
La propiedad anterior es más débil que la propiedad de insesgamiento, esto nos permite estudiar una gran
cantidad de estimadores, ya que algunos estimadores pueden ser asintóticamente insesgados pero no son
insesgados (ver Ejemplo 1.1).
La siguiente propiedad es muy importante para el estudio de propiedades asintóticas de los estimadore.
Definición 1.8. Un estimador θ̃ : X −→ Θ se dice consistente si para cada θ ∈ Θ
c.s.
θ̃(X) −−→ θ.
Hasta ahora sólo hemos analizado propiedades de la media de los estimadores la cual nos permite medir el
promedio del valor del estimador, sin embargo debemos analizar la varianza de este para poder determinar
qué tan alejados en promedio nos encontramos del verdadero parámetro.
Definición 1.9. Decimos que un estimador θ̃ : X −→ Θ es asintóticamente eficiente si
d
(θ̃(X) − θ)i(θ)1/2 −
→ N (0̂, In ).
Para una matriz semi-definida positiva B, nosotros denotamos por B 1/2 su correspondiente raı́z cuadrada.
La propiedad anterior muestra que nosotros podemos aproximar la distribución del máximo verosı́mil
mediante una normal multivariada con media θ y matriz de covarianzas i(θ)−1 cuando el tamaño de la
muestra es grande. Un ejemplo de estimador que cumpla ser asintóticamente eficiente es el estimador de
1/β del Ejemplo 1.1. La importancia de esta propiedad radica en que si la muestra es grande podemos
calcular la probabilidad de que nuestro verdadero parámetro θ se encuentre en cierta región de Rd .
Capı́tulo 2
En este capı́tulo se presenta una introducción breve al tema de los procesos estocásticos con espacio
de estados a lo más numerable. Se explican algunos conceptos y propiedades generales de este tipo de
procesos y se estudian brevemente algunos ejemplos particulares de procesos estocásticos. El contenido
de este capı́tulo será usado en los capı́tulos tres y cuatro, en donde consideraremos procesos estocásticos
con espacio de estados finito. La bibligrafı́a básica para este capı́tulo es principalmente [? ], [? ] y [? ].
En esta sección se presentan los resultados fundamentales de procesos estocásticos. Se describen sus
caracterı́sticas principales, se realiza una clasificación básica y se dan algunos ejemplos.
Comenzaremos dando una definición formal de un proceso estocástico.
Definición 2.1. Un proceso estocástico X = {Xt }t∈T es una colección de variables aleatorias (definidas
en el mismo espacio de probabilidad) que toman valores en un conjunto E con parámetro T , es decir,
para cada t ∈ T , Xt es una variable aleatoria.
Siguiendo la definición de proceso estocástico, se le puede ver como una función de dos variables
X : T × Ω → E,
tal que a cada pareja (t, ω) ∈ (T , Ω) se le asocia X(t, ω) = Xt (ω) y de esta manera para cada t ∈ T la
función de
ω → Xt (ω)
5
6 CAPÍTULO 2. PROCESOS ESTOCÁSTICOS
t → Xt (ω)
Según las caracteristicas del espacio parametral se puede hacer la primera distinción entre procesos es-
tocásticos.
Definición 2.3. Proceso estocástico a tiempo continuo Cuando T sea un conjunto infinito no
numerable, se dice que X es un proceso estocástico a tiempo continuo, para este caso T = [0, s] ó [0, ∞).
y en será denotado por X = {Xt }t≥0 .
En cuanto al conjunto donde las variables aleatorias toman valores, se le conoce como espacio de estados
del proceso y de manera análoga este también puede ser discreto o continuo.
Para esta sección de cadenas de Markov se utilizaron los libros [? ] y [? ], en donde se pueden consultar
las demostraciones de los resultados aquı́ enunciados.
Definición 2.5. Se dice que la cadena de Markov {Xn }n≥0 con espacio de estados E y distribución inicial
π es homogénea si
P[Xn+1 = j|Xn = i] = P[X1 = j|X0 = i]
para cada i, j ∈ E y para cada n ≥ 0. En este caso definimos para cada i, j ∈ E
y para m ≥ 1
(m)
pij = P[Xm+n = j|Xn = i],
2.2.2. Ejemplos
Un individuo está parado e inica una caminata en el cual sólo se mueve hacia adelante con probabilidad p
o hacia atrás con probabilidad 1 − p. Definiendo a Xn como la posición del individuo después de n−pasos,
se tiene entonces que E = Z y las probabilidades de transición para cualquier n ≥ 0 e i, j ∈ E están dadas
por:
p
j =i+1
pij = 1 − p j = i − 1
0 e.o.c.
8 CAPÍTULO 2. PROCESOS ESTOCÁSTICOS
Suponga que un jugador A apuesta $1 sucesivamente contra otro jugador B. A inicia con k unidades y
B con N − k. En cada apuesta, A gana con probabilidad p y pierde con probabilidad 1 − p. Si definimos
Xn como la fortuna de A al tiempo n, entonces X = {Xn }n≥0 define una cadena de Markov.
Ejemplo 2.4. Cadena de Ehrenfest.
Se tienen dos urnas, entre ambas hay un total de k bolas. En cada paso se elige una de las bolas al azar y
se cambia de urna. Si Xn = número de bolas en la urna A después de n ensayos, entonces X = {Xn }n≥0
define una cadena de Markov.
(n)
Este resultado nos dice que pij es la entrada ij de la n−ésima potencia de P. En general, no es posible
calcular explı́citamente las potecias de la matriz de transición. Sin embargo, nos podemos auxiliar de
paquetes computacionales para esta tarea.
Proposición 2.2. Propiedad de corrimiento.
Sea X = {Xn }n≥0 una cadena de Markov con espacio de estados E y con matriz de transición P . Sean
n, k ∈ N fijos y x0 , x1 , . . . , xn , . . . , xn+k ∈ E entonces
Definición 2.7. Sea X = {Xn }n≥0 una cadena de Markov con espacio de estados E y con matriz de
transición P . Sean i e j dos estados de E, se dice que el estado j es accesible desde el estado i si existe
(n)
n ∈ N, tal que pij > 0 (i → j). Si i → j e j → i entonces, i y j se dice que se comunican, y cuando
esto ocurre escribimos i ↔ j.
A las clases de equivalencia inducidas por esta relación les llamaremos clases de comunicación.
Definición 2.8. Sea X = {Xn }n≥0 una cadena de Markov con espacio de estados E y con matriz de
transición P , decimos que la cadena es irreducible si para cada i, j ∈ E tenemos que i ↔ j.
Ci = {j ∈ E : i ↔ j}.
2.2.5. Periodo
Definición 2.9. El periodo de un estado i ∈ E es un número entero no negativo denotado por d(i), y
definido como sigue:
(n)
d(i) = m.c.d{n ≥ 1 : pii > 0},
(n)
en donde m.c.d significa máximo común divisor. Cuando pii = 0 para toda n ≥ 1, se define d(i) = 0. En
particular, se dice que un estado i ∈ E es aperiódico si d(i) = 1. Cuando d(i) = k ≥ 2 se dice que i es
periódico de periodo k.
Proposición 2.4. Si los estados i, j ∈ E pertenecen a la misma clase de comunicación, entonces tienen
el mismo periodo.
Una extensión de la propiedad de Markov es la presentada a tiempos aleatorios conocida como propiedad
fuerte de Markov. Comenzaremos esta sección dando la definición de tiempos aleatorios.
Definición 2.10. Un tiempo aleatorio es una variable aleatoria
τ : Ω → N ∩ {∞}.
Definición 2.11. Sea X = {Xn }n≥0 una cadena de Markov con espacio de estados E y con matriz de
transición P . Un tiempo aleatorio τ es un tiempo de paro respecto a la cadena X = {Xn }n≥0 si para
n ∈ N existe An ⊂ E n+1 tal que
{τ = n} = {(X0 , . . . , Xn ) ∈ An }.
A la variable aleatoria tiempo de paro la podemos interpretar como el tiempo que se obtiene de observar
una trayectoria hasta que se cumpla cierta condición.
Teorema 2.1. Propiedad Fuerte de Markov. Sea {Xn }n≥0 una cadena de Markov con matriz de
transición P y τ un tiempo de paro. Entonces condicionado sobre {τ < ∞} ∩ {Xτ = i} el proceso
{Xτ +m }m≥0 es una cadena de Markov que comienza en i con matriz de transición P y es independiente
de las variables X0 , X1 , . . . , Xτ .
10 CAPÍTULO 2. PROCESOS ESTOCÁSTICOS
En el estudio de las cadenas de Markov resulta de particular interés el estudio de los tiempos aleatorios
de la ocurrencia de eventos relacionados con la llegada a un estado o un conjunto de estados del espacio
de la cadena. En está sección estudiaremos este tipo de variables aleatorias.
A la m-ésima vez que la cadena accede a A un subconjunto del espacio de estados,
Definición 2.12. Sea τm
es decir (
A ∞ Xn ∈ E − A para toda n
τm = A
mı́n{n > τm−1 : Xn ∈ A} e.o.c
donde se define τ0A = 0
A < ∞ para cada m y por el Teorema 2.1 tenemos que {τ A }
Nota 2.1. Bajo la hipótesis de que τm m m≥1 son
i.i.d.
Además definimos (
(0) 1 si i = j
fij =
0 e.o.c
(n)
1. f01 = q n−1 p.
(n)
2. f00 = pn−1 q.
De acuerdo a las propiedades que tiene cada estado en una cadena de Markov en cuanto a la probabilidad
de regresar a él, los estados pueden ser clasificados de la siguiente manera.
2.2. CADENAS DE MARKOV A TIEMPO DISCRETO 11
Definición 2.14. Sea X = {Xn }n≥0 una cadena de Markov con espacio de estados E y con matriz de
transición P . Se dice que un estado i es recurrente si la probabilidad de (eventualmente) regresar a i,
es uno, es decir, si
P[τ1i < ∞|X0 = i] = 1.
Un estado que no es recurrente se llama transitorio.
Tratar de clasificar los estado en recurrentes y transitorios partiendo de la definición no resulta, en general,
tarea fácil. Una manera distinta de enunciar estos conceptos es la siguiente forma.
(1)
El estado i es recurrente si fi = 1, en particular si fxx = 1 el estado se le llama absorbente.
Definición 2.16. Definiendo al número de visitas al estado j hasta el tiempo n como la variable aleatoria
n
X
Vij (n) = I{Xk =j} , cuando X0 = i
k=1
Proposición 2.6.
P (n)
1. Un estado i es recurrente si y sólo si n pii = ∞.
P (n)
2. Un estado i es transitorio si y sólo si n pii < ∞.
Este resultado nos proporciona una equivalencia, en términos de las matrices de transición, para que un
estado sea recurrente.
Proposición 2.7. Sean i, j ∈ E tales que se comunican, si i es transitorio entonces j también es transi-
torio.
Este resultado tiene como consecuencia que la transitoriedad o recurrencia son propiedades de clase.
Proposición 2.9. Si el espacio de estados es finito, una clase es recurrente si y sólo si es cerrada.
Corolario 2.1. En una cadena de Markov irreducible con espacio de estados finito todos sus estados son
recurrentes.
Corolario 2.2. Toda cadena de Markov con espacio de estados finito tiene por lo menos un estado
recurrentes.
Nota 2.3. En general, el análisis de recurrencia y transitoriedad, en cadenas con espacio de estados
infinito, es más complicado.
Siguiendo la clasificación de estados, resulta importante conocer el número esperado de pasos para regresar
a i, es decir,
∞
(n)
X
µi = nfii ,
n=1
Nota 2.4. Puede darse el caso de que siendo i un estado recurrente el tiempo medio de recurrencia, µi ,
sea infinito; siendo éste el caso en el que aunque el regreso a i es cierto se necesita un tiempo infinito. Ası́,
realizamos la siguiente distinción entre los estados recurrentes obteniendo una subclasificación de estos.
Proposición 2.10. En una cadena irreducible con espacio de estados finito, todos los estados son recu-
rrentes positivos.
Ejemplo 2.6. Veamos que la cadena de Markov de racha de éxitos es una cadena recurrente positiva.
∞ ∞ ∞
X (n)
X X 1
µ0 = nf00 = n(1 − p)pn−1 = (1 − p) npn−1 = < ∞.
1−p
n=1 n=1 n=1
El siguiente resultado se sigue de la teorı́a que los promedios temporales son iguales a los promedios
espaciales.
Teorema 2.2. Teorema ergódico para cadenas de Markov Sea X = {Xn }n≥0 una cadena de Markov
con espacio de estados E y con matriz de transición P . Sean i, j cualesquiera estados de una cadena de
Markov irreducible se cumple que
Vij (n) 1
lı́m =
n→∞ n µj
casi seguramente.
2.2. CADENAS DE MARKOV A TIEMPO DISCRETO 13
Ejemplo 2.7. Considere una cadena de Markov con espacio de estados {0, . . . , 5} y matriz de transición
1 1
2 2 0 0 0 0
1 2
3 3 0 0 0 0
1 7
0 0 0 0
P = 8 8
1 1
0 0 1 1
4 4 4 4
0 3 1
0 4 0 4 0
1 1 1 2
0 5 0 5 5 5
Determine que estados son transitorios y cuales recurrentes. Calcular y estimar tiempos medios de recu-
rrencia y número esperado de visitas a cada estado.
Definición 2.18. Sea ν ∈ R|E| , decimos que ν es una distribución invariante o estacionaria de la
cadena de Markov con matriz de transición P , si satisface
νP = ν.
Nota 2.5. La interpretación de una distribución invariante es que una variable aleatoria con dicha
distribución mantendrá su distribución en la evolución de la cadena de Markov en el tiempo.
Desde que encontrar una distribución estacionaria en una cadena de Markov consiste en resolver un sis-
tema de |E| + 1 ecuaciones y |E| incógnitas podemos no tener solución, una infinidad de soluciones o una
única solución.
Los siguientes resultados son de gran utilidad en el cálculo de la distribución estacionaria de una cadena
de Markov.
Proposición 2.12. Sea ν una distribución estacionaria para una cadena de Markov. Si i es un estado
transitorio o recurrente nulo, entonces νi = 0.
Una propiedad importante de una distribución invariante es que si X0 tiene distribución ν, entonces Xn
tendrá la misma distribución para toda n.
Proposición 2.13. Toda cadena de Markov que es irreducible y recurrente positiva tiene una única
distribución estacionaria dada por
1
νi = > 0.
µi
Teorema 2.3. Para una cadena irreducible las siguientes condiciones son equivalentes.
14 CAPÍTULO 2. PROCESOS ESTOCÁSTICOS
Ejemplo 2.8.
1/2 1/2
P =
1/4 3/4
ν = (1/3, 2/3).
Ejemplo 2.9. Cadena de Ehrenfest. Como esta cadena de Markov es irreducible y con espacio de
estados finito se tiene que es recurrente positiva y por los resultados anteriores tiene una única distribución
invariante ν.
En esta sección presentaremos resultados del comportamiento de una cadena de Markov recurrente cuando
la trayectoria es lo suficientemente grande. Otro concepto importante en el estudio de las cadenas de
Markov es el relacionado con la posible periodicidad con la que se visita a cada estado.
Definición 2.19. Decimos que una cadena de Markov {Xn } con espacio de estados finito es regular si
existe una potencia de la matriz de transición con todas las entradas positivas.
3. El lı́mite de las potencias de P es una matriz estocástica para la cual todos sus renglones son la
distribución lı́mite.
Teorema 2.5. Si la cadena de Markov es irreducible, aperiódica y recurrente positiva existen las proba-
bilidades lı́mite y son la única distribución invariante.
2.2. CADENAS DE MARKOV A TIEMPO DISCRETO 15
2.2.11. Ejemplos
Ejemplo 2.10. Consideremos la cadena de Markov del Ejemplo 2.4, el espacio de estados es E =
{0, 1, 2, . . . , k} y la matriz de transición asociada es
0 1 0 0 ... 0 0
1/k 0 (k − 1)/k 0 ... 0 0
0 2/k 0 (k − 2)/k . . . 0 0
P = . .. .
.. .. .. .. ..
.. . . . . . .
0 0 0 0 . . . 0 1/k
0 0 0 0 ... 1 0
Es fácil mostrar que esta cadena es irreducible, por lo tanto existe una única clase de comunicación
{0, 1, 2, . . . , k}.
Por la Proposición 2.4 sabemos que el periodo para todos los estados es el mismo, además sabemos
(n)
{n ≥ 1 : p00 > 0} = {n ≥ 1 : n es par},
En esta sección consideraremos procesos de Markov a tiempo continuo, homogéneos y con espacio de
estados numerable, describiremos caracterı́sticas relevantes de dichos procesos que nos serán de utilidad
para simular trayectorias de ellos.
2.3.1. Definición
Definición 2.21. Un proceso de saltos de Markov (que abreviaremos como PSM) es un proceso de Markov
en tiempo continuo {Xt }t≥0 , con espacio de estados a lo más numerable E y que cumple las siguientes
condiciones:
2. Para cualesquiera estados x0 , x1 , . . . , xn+1 y para cualesquiera ti < ti+1 = si+1 +ti con i ∈ {0, . . . , n},
con t0 = 0 se cumple:
Demostración. Sea s ≥ 0, consideremos una trayectoria fija del proceso, supongamos que Xs = x0 , como
el espacio de estado es finito, existe u > 0 tal que ningún estado en E salvo x0 se encuentra en el intervalo
(x0 − u, x0 + u). Como el proceso es continuo por la derecha entonces existe δ > 0 tal que el proceso en
[s, s + δ) se encuentra en el intervalo (x0 − u, x0 + u), pero como en este intervalo solo vive x0 , entonces
se concluye que el proceso es constante en [s, s + δ).
Definición 2.23. Considere un PSM {Xt }t≥0 con espacio de estados E, se define la matriz de transición
al tiempo t ≥ 0 como
Definición 2.24. A la familia {P (t)}t≥0 se le llama semigrupo de transición del proceso de Markov.
Proposición 2.15. El semigrupo de transición {P (t)}t≥0 de un PSM {Xt }t≥0 es estándar, es decir
lı́m P (t) = I,
t→0+
Concluimos que
(
1 si x = y,
lı́m pxy (t) =
t→0+ 0 si x 6= y.
Proposición 2.16. (Ecuación de Chapman-Kolmogorov) Considere un PSM {Xt }t≥0 con espacio
de estados E, entonces para cualesquiera par de numeros t y s positivos y para todo x, y ∈ E tenemos
X
pxy (t + s) = pxz (t)pzy (s).
z∈E
Debido a que un PSM es constante por pedazos, ahora nos interesa con qué frecuencia este proceso cambia
de estado.
Definición 2.25. Se define el tiempo de estancia en el estado Xt de un PSM {Xt }t≥0 como
para todo t ≥ 0.
Nota 2.8. Esta variable aleatoria está bien definida porque el proceso es constante por pedazos.
Definición 2.26. Se define el tiempo de primer salto de un PSM {Xt }t≥0 como
T1 := ı́nf{t > 0 : Xt 6= X0 }
Teorema 2.6. Considere un PSM {Xt }t≥0 con espacio de estados E, si en el tiempo t ≥ 0 ∆(t) < ∞
entonces para todo x ∈ E existe λx > 0, independiente de t, tal que
La función h es continua por la derecha, ya que es función de sobrevivencia, además 0 ≤ h(s) ≤ 1 para
toda s ≥ 0, lo cual implica que la única solución debe ser
donde λx > 0.
Ahora demostraremos un importante teorema que nos muestra la manera de como simular procesos de
tipo PSM.
Teorema 2.7. Considere un PSM {Xt }t≥0 con T1 < ∞, entonces para cualesquiera estados x0 , x1 , . . . , xk
y para cualesquiera tiempos ti < ti+1 = si+1 + ti con i ∈ {0, . . . , k − 1} y t0 = 0, x0 = y 6= x se tienen las
siguientes dos afirmaciones
1.
P[XT1 = y|T1 ≥ t, X0 = x]
no depende de t, es decir la distribución de salto es independiente del tiempo de primer salto.
2.
k−1
Y
P[XT1 +ti = xi , ∀i ≤ k|T1 ≥ t, X0 = x] = P[XT1 = y|T1 ≥ t, X0 = x] P[Xsj+1 = xj+1 |X0 = xj ],
j=0
Demostración. Considere el proceso estocástico definido por Ynm = Xn/2m , con n ∈ {0, 1, . . .}, es fácil
darse cuenta que es de Markov homogéneo en el tiempo.
Se define
Y2m+1
m+1 σ
m
= X2m+1 σm /2m+1 = Xσm = Y2m
mσ
m
6= X0 ,
1
por lo que tenemos 2m+1 σm ≥ 2m+1 σm+1 para toda m ∈ N, además σm − T1 < 2m para toda m ∈ N.
Demostraremos la segunda afirmación del teorema.
2.3. PROCESOS DE SALTOS DE MARKOV 19
n
Denotemos a nm como el menor entero n tal que 2m ≥ t, debido a que {Xt }t≥0 es continuo por la derecha
P[XT1 +ti = xi , ∀i ≤ k, T1 ≥ t, X0 = x]
por lo anterior
∞
X
P[T1 ≥ t|X0 = x] = lı́m (1 − P[X1/2m = x|X0 = x]) P[X1/2m = x|X0 = x]n−1
m→∞
n=nm
por lo tanto
P[XT1 +ti = xi , ∀i ≤ k|T1 ≥ t, X0 = x]
k−1
Y P[X1/2m = y|X0 = x]
= P[Xsj+1 = xj+1 |X0 = xj ] lı́m
m→∞ 1 − P[X1/2m = x|X0 = x]
j=0
tomando k = 0, se concluye
P[X1/2m = y|X0 = x]
P[XT1 = y|T1 ≥ t, X0 = x] = lı́m
m→∞ 1 − P[X1/2m = x|X0 = x]
Definición 2.27. Dado un PSM {Xt }t≥0 con espacio de estados E, se define la matriz de transición
asociada a la distribución de salto como:
Teorema 2.8. Considere un PSM {Xt }t≥0 con espacio de estados E, supongamos que T1 < . . . <
Tn < ∞, entonces para cualesquiera tiempos t1 , . . . , tn−1 , tn , 0 = s0 < . . . < sm y cualesquiera estados
x0 , x1 , . . . , xn = y0 , y1 , . . . , ym ∈ E.
Bajo estas condiciones se tienen las siguientes dos afirmaciones:
20 CAPÍTULO 2. PROCESOS ESTOCÁSTICOS
= P[Xsk = yk , 0 ≤ k ≤ m|X0 = y0 ].
Nota 2.9. Por el Teorema 2.6 y el Teorema 2.8 podemos concluir que para todo n ∈ N
Definición 2.28. Dado un PSM {Xt }t≥0 , el Teorema 2.8 nos asegura que el proceso estocástico definido
como:
En esta parte del trabajo, nosotros caracterizaremos a un PSM mediante los cambios infinitesimales que
ocurren en intervalos de tiempo muy pequeños.
Considere un PSM {Xt }t≥0 con espacio de estados E, con Xt = x. Ahora, estamos interesados en analizar
que pasa en intervalos de tiempo infinitesimales (t, t + h), tenemos los siguientes casos.
1. El proceso puede estar en el mismo estado al tiempo t+h y esto ocurre con probabilidad pxx (h)+o(h),
donde o(h) representa la posibilidad que el proceso se salga y regrese al estado i en el intervalo de
tiempo.
2. El proceso se mueva al estado y en t + h y esto ocurre con probabilidad pxy (h) + o(h), donde o(h)
representa la posibilidad que el proceso realize dos o más transiciones en el intervalo de tiempo.
Ahora estamos interesados en el comportamiento de pxy (h) para h pequeña, para esto consideremos la
siguiente proposición.
2.3. PROCESOS DE SALTOS DE MARKOV 21
Proposición 2.17. Considere un PSM {Xt }t≥0 con espacio de estados E, entonces para cualesquiera
x, y ∈ E
βt
sn−1 exp(−s)
Z
P[Tn ≤ t] ≤ ds.
0 (n − 1)!
Además si sumamos sobre n obtenemos
∞
X
P[Tn ≤ t] ≤ βt.
n=1
Definición 2.29. Dado un PSM {Xt }t≥0 se define la variable que cuanta los saltos hasta el instante t
como
Nt = máx{n ≥ 1 : Tn ≤ t}.
Por lo anterior
lı́m h−1 pxy (h) = qxy .
h→0+
Caso 2. x = y.
Por el Caso 1 se tiene
Definición 2.30. El generador infinitesimal de un PSM, es la matriz Q = qxy x,y∈E con entradas.
qxy = λx pxy si x 6= y y qxx = −λx .
Nota 2.10. Observemos que el generador infinitesimal contiene toda la información del proceso, tanto
las intensidades de los tiempos de salto λx como la distribución de los saltos exp(−λx t).
El siguiente Teorema nos muestra que el generador infinitesimal de un PSM es suficiente para construir
las probabilidades de transición {pxy (t)}x,y∈E .
Teorema 2.9. Dado un PSM {Xt }t≥0 con espacio de estados E y Q su correspondiente generador infi-
nitesimal, entonces se satisface el siguiente sistema de ecuaciones diferenciales.
∂P (t)
= QP (t).
∂t
Nota 2.11. El teorema 2.9 muestra que P (t) cumple la ecuación diferencial
∂P (t)
= QP (t),
∂t
P∞ tn Qn
si la matriz Q es diagonalizable, entonces P (t) = exp(tQ) = n=0 n! , es la única solución al sistema.
Ahora bien, como la tasa de saltos λx es independiente del tiempo t ≥ 0 y sólo depende del estado x ∈ E,
clasificaremos a los estados.
Definición 2.31. Sea x ∈ E con tasa de salto asociada λx , entonces x se define como:
1. Permanente, si λx = 0.
2. Estable, si 0 < λx < ∞.
3. Instantáneo, si λx = ∞.
Sea {Xt }t≥0 un PSM con Xt = x a tiempo t ≥ 0, estudiaremos las consecuencias del proceso dependiendo
cada tipo de estado.
Proposición 2.18. (Regularidad). Considere un PSM {Xt }t≥0 y T1 < . . . < Tn sus respectivos n
tiempos de salto, asumamos que su correspondiente generador infinitesimal tiene entradas estrictamente
negativas y finitas en la diagonal, bajo estas condiciones se tiene que
n−1
X
P[Tn ≤ t] ≤ 1 − exp(−βt) (βt)j /j!.
j=0
Nota 2.12. A partir de ahora solo consideraremos procesos cuyos generadores infinitesimales tengan
entradas en la diagonal estrictamente negativas. La existencia de estos procesos se probará más adelante,
especı́ficamente en el Teorema 3.2.
Definición 2.33. Dado un PSM {Xt }t≥0 se define el tiempo de llegada hacia el estado x como:
Un PSM se dice ser recurrente positivo si para todo x ∈ E se tiene que E[τx |X0 = x] < ∞.
Definición 2.34. Un PSM {Xt }t≥0 se dice ergódico si es irreducible y recurrente positivo.
En lo que resta de este capı́tulo enunciaremos resultados que son análosgos al caso de cadenas de Markov
en tiempo discreto y sus demostraciones serán omitidas y podran ser consultadas en [? ].
Proposición 2.19. Considere un PSM {Xt }t≥0 que es recurrente e irreducible, entonces {Xt }t≥0 es
ergódico.
Definición 2.35. Considere un PSM {Xt }t≥0 , una medida de probabilidad ν = {νy }y∈E sobre E es una
distribución estacionaria si para todo y ∈ E y t ≥ 0
X
νy = νx pxy (t).
x∈E
Teorema 2.10. Considere un PSM {Xt }t≥0 ergódico, entonces las siguientes afirmaciones son válidas.
Teorema 2.11. (Ergódico). Dado un PSM ergódico {Xt }t≥0 con distribución estacionaria ν y una
función f : E → R, Z t X
−1
lı́m t f (Xs )ds = f (x)νx casi seguramente.
t→∞ 0 x∈E
2.3. PROCESOS DE SALTOS DE MARKOV 25
Definición 2.36. Dado un PSM {Xt }t≥0 se define la distribución lı́mite como
Este lı́mite puede entenderse como el promedio de transiciónes de B desde A por unidad de tiempo.
2.3.5. Ejemplos
Donde λ0 , λ1 , . . . y α1 , α2 , . . . son constantes positivas conocidas como las tasas instantáneas de nacimiento
y muerte, respectivamente. De acuerdo a lo desarrollado antes, a partir de esta matriz podemos concluir
que el tiempo de estancia en cualquier estado x ∈ E tiene distribución exp(λx + αx ), en donde se define
α0 = 0. Las probabilidades de saltos de un estado a otro son
λx
λx +αx si y = x + 1,
αx
pxy = λx +αx si y = x − 1, (2.1)
0 otro caso.
26 CAPÍTULO 2. PROCESOS ESTOCÁSTICOS
De este modo, un proceso de nacimiento y muerte permanece en cada uno de sus estados un tiempo
exponencial, al cabo del cual salta una unidad hacia arriba o una unidad hacia abajo de acuerdo a las
probabilidades de (2.1). Un salto hacia arriba se interpreta como un nacimiento, mientras que un salto
hacia abajo representa una muerte. La variable Xt puede interpretarse como el número de individuos en
una población al tiempo t, en donde pueden presentarse nacimientos y muertes de individuos, uno a la
vez. Como λ0 > 0 y α0 = 0, la población puede crecer cuando se encuentre en el estado cero, pero nunca
decrecer por debajo de ese nivel.
Nos concentraremos en el caso donde E = {0, 1, . . . , k} y las tasas sean estrictamente positivas, podemos
notar que para este caso λk = 0, esto quiere decir que la población no puede ser mayor que k.
Por el Teorema 2.9 sabemos que P (t) cumple el siguiente sistema de ecuaciones diferenciales.
∂P (t)
= QP (t).
∂t
Donde Q es el generador infinitesimal y P (t) es la matriz de transición al tiempo t. Para encontrar
P (t) debemos probar primero que Q es diagonalizable, y por la teorı́a de ecuaciones diferenciales podemos
concluir que
P (t) = exp(Qt).
Sea D ∈ Mk+1×k+1 una matriz diagonal con entradas positivas en la diagonal
d0 0 0 0 . . . 0
0 d1 0 0 . . . 0
D = 0 0 d2 0 . . . 0 ,
.. .. .. .. .. ..
. . . . . .
0 0 0 0 0 dk
Nuestro objetivo es encontrar una matriz D diagonal tal que D−1 QD sea una matriz simétrica, de este
modo se forma el siguiente sistema de ecuaciones
d0 d1
α1 = λ0
d1 d0
d1 d2
α2 = λ1
d2 d1
..
.
dk−1 dk
αk = λk−1 .
dk dk−1
por el Teorema espectral ([? ] página 481) U puede descomponerse en U = V −1 W V , con W una matriz
diagonal con valores reales.
En conclusión Q es diagonalizable y se puede descomponer en
que se traduce en
−λ0 ν0 + α1 ν1 = 0
λ0 ν0 − (λ1 + α1 )ν1 + α2 ν2 = 0
λ1 ν1 − (λ2 + α2 )ν2 + α3 ν3 = 0
..
.
λk−2 νk−2 − (λk−1 + αk−1 )νk−1 + αk νk = 0
−αk νk + λk−1 νk−1 = 0
α1 ν1 − λ0 ν0 = 0
α2 ν2 − λ1 ν1 = α1 ν1 − λ0 ν0
α3 ν3 − λ2 ν2 = α2 ν2 − λ1 ν1
..
.
αk νk − λk−1 νk−1 = αk−1 νk−1 − λk−2 νk−2
αk νk − λk−1 νk−1 = 0
Ejemplo 2.12. (Proceso de Poisson) El proceso de Poisson homogéneo es un PSM que empieza en 0
es decir, la distribución inicial tiene el valor 1 en el estado 0. Los tiempos de estancia son exponenciales
de parámetro λ = qx y las probabilidades de salto de un estado a otro son
(
1 si y = x + 1,
pxy =
0 si y 6= x + 1.
Ası́ con nuestro generador infinitesimal podremos ir evolucionando el proceso de Poisson hasta un tiempo
T , el cual es definido como: (
λ si y = x + 1,
qxy =
0 e.o.c.
Considerando Q ∈ MN ×N : (
qxy si y 6= x,
Q(x, y) =
−λ si y = x.
Ası́ tenemos:
−λ λ 0 0 0 ...
0 −λ λ 0 0 ...
Q= 0
0 −λ λ 0 ...
0
0 0 −λ λ ...
.. .. .. .. . .
. . . . . ...
Como el proceso siempre va creciendo, el proceso se degenera y no tiene solución. Ası́ sugeriremos condi-
ciones de frontera con espacio de estados E = {0, 1, 2, 3, ..., N }, tomando el sistema de N + 1 ecuaciones,
ası́ obtendrı́amos el siguiente generador infinitesimal:
−λ λ 0 0 0 ··· 0 0 0
0 −λ λ 0 0 · · · 0 0 0
0 0 −λ λ 0 · · · 0 0 0
Q= .
. .. .. .. . . .. .. ..
.
. . . . ··· . . .
0 0 0 0 0 · · · 0 −λ λ
0 0 0 0 0 ··· 0 0 0
Del cual obtenemos el siguiente sistema de ecuaciones:
−λν0 = 0
λν0 − λν1 = 0
λν1 − λν2 = 0
..
.
λνN −1 = 0
ν1 + ν2 + ν3 + ... + νN = 1
2.3. PROCESOS DE SALTOS DE MARKOV 29
Ası́ νN = 1 y la distribución estacionaria del proceso de poisson con condiciones de frontera serı́a 1 en la
última entrada: ν = (0, 0, 0, · · · , 1)
30 CAPÍTULO 2. PROCESOS ESTOCÁSTICOS
Capı́tulo 3
En este capı́tulo se pretende mostrar las principales técnicas de simulación de algunos procesos estocásti-
cos, en particular nos concentraremos en los procesos estocásticos de Markov cuyas aplicaciones van desde
las finanzas computacionales e investigación de operaciones hasta la genética y genómica humana. Este
capı́tulo se centra en dos tipos de procesos de Markov, primero estudiaremos las técnicas de simulación
sobre cadenas de Markov en tiempo discreto ası́ como su respectiva justificación matemática, para poste-
riormente resolver algunos problemas analı́ticos mediante la simulación de cadenas de Markov. Posterior-
mente trabajaremos con procesos de saltos de Markov, mostraremos algunos resultados matemáticos que
nos permitirán justificar la simulación de dichos procesos y finalmente resolveremos problemas analı́ticos
mediante la simulación de dichos procesos. La bibligrafı́a básica para este capı́tulo es [? ].
Sabemos que dada una cadena de Markov homogénea podemos obtener su matriz de transición y su
distribución inicial, ahora nos preguntamos si dada una matriz estocástica y una distribución inicial, es
posible generar una cadena de Markov. El siguiente resultado nos asegura que sı́ se puede y además
proporciona herramientas para generar trayectorias de cadenas de Markov.
Teorema 3.1. Dada una matriz estocástica P = {pij }1≤i,j≤N ∈ MN ×N , una distribución inicial π sobre
el espacio de estados E = {1, 2, . . . , N }, existe un espacio de probabilidad en el que están definidas una
sucesión de variables aleatorias {Xn }n∈N en E, que conforman una cadena de Markov homogénea con
espacio de estados E, matriz de transición P y distribución inicial π.
Demostración. Consideremos un espacio de probabilidad (Ω, F , P) en el cual está definida una sucesión
{Un }n∈N de variables aleatorias independientes uniformes en el intervalo (0,1). Definimos φi (y) como la
función de cuantiles (ver A.1) sobre E asociada a la distribución {pij }1≤j≤N y a φ0 (y) como la función
de cuantiles sobre E asociada a la distribución π, con y ∈ (0, 1).
Sea X0 = φ0 (U0 ) y Xn+1 = φXn (Un+1 ) para n ≥ 0.
31
32 CAPÍTULO 3. SIMULACIÓN DE PROCESOS DE MARKOV
Mostraremos que la sucesión de variables aleatorias {Xn }n∈N , cumple la propiedad de Markov.
Por lo tanto {Xn }n∈N es una cadena de Markov, con distribución inicial π y matriz de transición P .
El teorema anterior nos proporcionó la forma de generar trayectorias de una cadena de Markov homogénea
sobre E con distribución inicial y matriz de transición dadas. A continuación daremos una construcción
alternativa que nos servirá más adelante, sin embargo no se probará que esta construcción produce una
cadena de Markov ya que es similar a la propuesta en el Teorema 3.1
Definición 3.1. (Construcción 2 Cadenas de Markov). Supongamos las mismas hipótesis que en
el Teorema 3.1. Consideremos un espacio de probabilidad donde están definidas {wi,k }i∈E,k∈N variables
aleatorias independientes tales que
El resultado anterior nos proporciona una justificación de la existencia de cadenas de Markov, ası́ como
también nos señala una técnica para su simulación misma que se describe a continuación.
3.1. CADENAS DE MARKOV 33
Algoritmo 3.1. Cadenas de Markov a tiempo discreto. Este algoritmo genera trayectorias de una
cadena de Markov homogénea con distribución inicial π y matriz de transición P hasta el horizonte de
tiempo m.
2. Inicializamos n=1.
0.2 0.1 0.5 0.2
0.5 0.2 0.2 0.1
P =
0.2
0.5 0.1 0.2
0.3 0.5 0.1 0.1
vector de distribución inicial π:
0.2 0.4 0.2 0.2
vector de espacio de estados E:
1 2 3 4 .
Con horizonte de tiempo m=40.
En la figura ?? podemos observar la gráfica de una trayectoria simulada.
0 0 1 0
En el Ejemplo 2.10 mostramos analı́ticamente que la cadena es irreducible. La función del Código D.7
determina cuales son las clases de comunicación de una cadena de Markov, como resultado nos muestra
que para la cadena de Ehrenfest existe una única clase de comunicación
{0, 1, 2, 3},
resultado nos muestra que la cadena de Ehrenfest tiene periodo 2, este resultado coincide con las conclu-
siones del Ejemplo 2.10.
Siguiendo con nuestro análisis la función del Código D.9 nos muestra cuales son los estados recurrentes
de una cadena de Markov dada, en el caso de la cadena de Ehrenfest nos muestra que todos los estados
son recurrentes.
En el Ejemplo 2.10 calculamos analı́ticamente la única distribución estacionaria de la cadena de Ehrenfest,
para el caso k = 3 obtenemos
ν = (1/8, 3/8, 3/8, 1/8),
mientras que con la función del Código D.10 con un horizonte de tiempo m = 10000 produce una distri-
bución estacionaria aproximada de
(0.1247, 0.3787, 0.3753, 0.1213).
En esta sección daremos una justificación formal para la simulación de procesos de Markov en tiempo
continuo con espacio de estados finito E = {1, . . . , N }.
Anteriormente estudiamos los procesos de saltos de Markov, ahora nos interesa simular trayectorias de
dichos procesos, para ello debemos primero mostrar su existencia, debido a la Nota 2.9 podemos plan-
tearnos como hacer la construcción de un PSM.
Definición 3.2. Definamos S0 = 0 y {Sn }n≥1 variables aleatorias i.i.d. con distribución exponencial de
parámetro 1 y {λx }x∈E números estrictamente positivos.
Tomemos también {Zn }n∈N una cadena de Markov con espacio de estados E independiente de la sucesión
de variables {Sn }n≥0 , definimos el proceso en tiempo continuo dado por :
∞ n n+1
X X Sj X Sj
Xt = Zn I ≤t< . (3.2)
λZj−1 λZj−1
n=0 j=0 j=0
3.2. PROCESOS DE SALTOS DE MARKOV 35
Nos preguntamos si este nuevo proceso es un proceso PSM, la respuesta es afirmativa y es parte del
siguiente Teorema.
Teorema 3.2. (Existencia de PSM).
Sea Q = (qxy )x,y∈E una matriz con entradas qxy = λx pxy si x 6= y y qxx = −λx , en donde {λx }x∈E son
números mayores que cero y para todo x ∈ E {pxy }y∈E conforma una distribución sobre E tal que pxx = 0,
permitir además ser a π ∈ RN una distribucion inicial en E.
Bajo estas condiciones existe un espacio de probabilidad, donde está definido un PSM {Xt }t≥0 con espacio
de estados E, con distribución inicial π y cuyo generador infinitesimal está dado por Q.
Demostración. Definamos el proceso estocástico {Xt }t≥0 como en la Definición 3.2 en donde la cadena
de Markov {Zn }n∈N tiene matriz de transición P = {pxy }x,y∈E y distribucion inicial π.
Para demostrar la afirmación basta con demostrar que para x0 , x1 , . . . , xn+1 ∈ E y para cualesquiera
ti < ti+1 = si+1 + ti con i ∈ {0, . . . , n}, con t0 = 0
P∞
Definamos Nt = n=1 I{Tn ≤t} el número de saltos que el proceso ha realizado hasta el instante t, con
Tn = nj=0 Sj /λZj−1 si n ≥ 0, entonces
P
∞
X
P[Xtn+1 = xn+1 |Xtn = xn , . . . , Xt0 = x0 ] = [am + bm ]P[Ntn = m|Xtn = xn , . . . , Xt0 = x0 ]. (3.3)
m=0
En donde
Debido a que Sm+1 es independiente a {(Zk , Tk )}k≤m y por la propiedad de pérdida de memoria de la
exponencial se tienen las siguientes igualdades.
Por otro lado condicionando respecto a Tm+1 y respecto a XTm+1 = Zm+1 y haciendo un par de desarrollos
se tiene:
X Z sn+1
bm = fXtn +sn+1 |Tm+1 ,Zm+1 ,Ntn ,Xtn ,...,Xt0 (xn+1 |tn + v, k, m, xn , . . . , x0 )
k6=xn 0
fXtn +sn+1 |Tm+1 ,Zm+1 ,Ntn ,Xtn ,...,Xt0 (xn+1 |tn +v, k, m, xn , . . . , x0 ) = P[Xsn+1 −v = xn+1 |X0 = k] = pkxn (sn+1 −v).
Por un argumento análogo al que se utilizó para calcular am y por la independencia que existe entre la
cadena de Markov {Zn }n∈N y la sucesión {Sn }n∈N obtenemos
fZm+1 ,Tm+1 |Ntn ,Xtn ,...,Xt0 (k, tn + v|m, xn , . . . , x0 ) = λxn exp(−λxn v)pxn k .
36 CAPÍTULO 3. SIMULACIÓN DE PROCESOS DE MARKOV
Cuya cantidad no depende del tiempo anterior a tn , ni tampoco depende de tn y haciendo un cálculo
sencillo se tiene además que
P[Xsn+1 = xn+1 |X0 = xn ]
es igual a
X Z sn+1
I{xn+1 =xn } exp(−λxn sn+1 ) + pkxn (sn+1 − v) ∗ λxn exp(−λxn v)pxn k dv.
k6=xn 0
Por lo anterior afirmamos que es un proceso de Markov continuo por la derecha y por los Teoremas 2.6,
2.7 y 2.8 se sigue que el proceso anteriormente construido posee la distribución π y generador infinitesimal
Q.
Definición 3.3. (Construcción 2 de un PSM). Supongamos las mismas hipótesis que en el Teorema
3.2. Sean {Si,0 = 0}i∈E , {Si,n }i∈E,n≥1 variables aleatorias i.i.d. con distribución exponencial de parámetro
1 y {λx }x∈E números estrictamente positivos, consideremos también {Zn }n∈N una cadena de Markov con
espacio de estados E, matriz de transición P y distribución inicial π, dicha cadena como en la Definición
3.1, e independiente de la sucesión de variables {Si,n }i∈E,n≥1 , definimos el proceso en tiempo continuo
dado por
∞ n S n+1
X SZj−1 ,nZj−1 (j)
X X Zj−1 ,nZj−1 (j) SZ0 ,1
Xt = Zn I ≤ t < + Z0 I 0 ≤ t < . (3.4)
λZj−1 λZj−1 λZ0
n=1 j=1 j=1
Donde ni (m) es la variable asociada al número de transiciónes de i a cualquier estado hasta el tiempo m
asociada a la cadena {Zn }n∈N .
Análogamente como en el Teorema 3.2 se demuestra que {Xt }t≥0 es un PSM con los mismos parámetros
dados en este teorema.
El Teorema 3.2 da lugar al siguiente algoritmo para simular un PSM.
Algoritmo 3.2. PSM. Este algoritmo genera trayectorias de un PSM con distribución inicial π y gene-
rador infinitesimal Q, hasta el horizonte de tiempo T.
2. Dado que se está en el estado Zi , simular Ti+1 v.a. exponencial de parámetro λZi .
3.2. PROCESOS DE SALTOS DE MARKOV 37
4. Simular una v.a. Zi+1 de la distribución de salto {fXT1 |X0 (y|Zi )}y∈E independientemente del tiempo
en el que ocurrió.
5. Hacer i = i + 1.
Ejemplo 3.3. Se simuló una trayectoria de un PSM usando el Algoritmo 3.2 con la función del Código
D.4 en el software Julia con las siguientes caracterı́sticas:
Con generador infinitesimal:
−.13 .04 .01 .08
.02 −.10 .04 .04
Q=
.2 .1 −.6 .3
.05 .15 .1 −.3
vector de espacio de estados E:
1 2 3 4
vector de distribución inicial π:
.2 .2 .1 .5 .
Ejemplo 3.4. Considere la cadena de Markov del Ejemplo 2.11 con k=3 y λ0 = 1, λ1 = 2, λ2 = 1,
µ1 = 2, µ2 = 1, µ3 = 2 por lo anterior el espacio de estados es E = {0, 1, 2, 3} y el generador infinitesimal
es
−1 1 0 0
2 −4 2 0
Q= ,
0 1 −2 1
0 0 2 −2
mientras que la matriz de transición asociada a la cadena de saltos es
0 1 0 0
0.5 0 0.5 0
P = 0 0.5 0 0.5 .
0 0 1 0
38 CAPÍTULO 3. SIMULACIÓN DE PROCESOS DE MARKOV
donde
0.210527 0.2 0.5 −0.640487
−0.891808 −0.4 0.5 −0.151198
D̃−1 = ,
0.34064 −0.4 0.5 0.395843
−0.210527 0.8 0.5 0.640487
exp(−5.23607t) 0.0 0.0 0.0
0.0 exp(−3t) 0.0 0.0
exp(W t) = ,
0.0 0.0 exp((1.53006e − 19)t) 0.0
0.0 0.0 0.0 exp(−0.763932t)
−0.362866 −0.768563 0.58713 −0.181433
0.333333 −0.333333 −0.666667 0.666667
D̃ =
0.666667
.
0.333333 0.666667 0.333333
−0.817513 −0.0964944 0.505251 0.408757
La distribución estacionaria esta dada por
mientras que la aproximación implementando la función del Código D.15 con horizonte de tiempo T =
10000 es
(0.332264, 0.16706, 0.332738, 0.16797).
3.2. PROCESOS DE SALTOS DE MARKOV 39
Para poder modelar estocásticamente el fenómeno consideremos las variables aleatorias discretas:
Como el modelo no considera muertes consideraremos una población con N habitantes, es decir S(t), I(t) ∈
{0, 1, 2, ..., N } con t ∈ [0, ∞).
Para entender el modelo como uno de PSM, necesitamos encontrar las probabilidades de transición.
Denotamos a las as probabilidades de transición asociadas al proceso estocástico como:
Las cuales dependen del tiempo entre los eventos, es decir de M t y no especı́ficamente del tiempo t ası́
tenemos un proceso de tiempo homogéneo. Además dado el estado actual al tiempo t > 0, el estado
futuro al tiempo t+ M t no depende de tiempos anteriores a t, por lo que cumple la propiedad de Markov;
entonces consideraremos las probabilidades de transición definidas de la siguiente manera:
S
βi N M t + o(M t) si (k, j) = (−1, +1),
γi M t + o(M t) si (k, j) = (0, −1),
p(s,i),(s+k,i+j) (M t) =
S
1 − βi N + γi M t + o(M t) si (k, j) = (0, 0),
o(M t) e.o.c.
Donde β es la tasa de transmisión y γ la tasa de recuperación.
En resumen mostraremo los cambios asociados con los eventos de infección y recuperación en la siguiente
tabla.
40 CAPÍTULO 3. SIMULACIÓN DE PROCESOS DE MARKOV
Tamaño de la población N=200 Tiempo de observación t=50 tasa de infección beta=0.30 tasa de recu-
peración gamma=0.15 condiciones iniciales S0 = N-2 I0 = 2 R0 = 0
Capı́tulo 4
Supóngase que se tiene observada una trayectoria de una cadena de Markov con espacio de estados E,
nuestro problema ahora es tratar de estimar las probabilidades de transición de la cadena mediante
el método de máxima verosimilitud. La siguiente proposición nos proporciona las condiciones para la
existencia y unicidad del estimador máximo verosı́mil para la matriz de transición de una cadena de
Markov homogénea con espacio de estados finito.
Proposición 4.1. Dada una trayectoria observada {xn }n∈{0,1,...,m} de una cadena de Markov homogénea e
irreducible X = {Xn }n∈N con espacio de estados E = {1, 2, . . . , N } y matriz de transición P, el estimador
máximo verosı́mil de la matriz de transición está dado por
nij (m)
P̂ (m) = {p̂ij (m) = }i,j∈E .
ni (m)
Donde m denota el horizonte de tiempo, nij (m) es el número de veces en el que la trayectoria pasó del
estado
PN i al j en un paso y ni (m) es el número de visitas al estado i hasta el tiempo m-1, y está dado por
j=1 nij (m) para todo i ∈ E.
Nota 4.1. Una observación que vale la pena mencionar es que la existencia de este estimador está
condicionada a que ni (m) > 0 para todo i ∈ E, que es equivalente a pedir que hasta el tiempo m − 1 el
proceso haya visitado todos los estados, lo cual se logra debido a la irreducibilidad.
41
42 CAPÍTULO 4. INFERENCIA SOBRE PROCESOS DE MARKOV
Derivando con respecto a pij e igualando a cero tenemos las siguientes ecuaciones:
nij (m)
− λi = 0 para todo i, j ∈ E. (4.1)
pij
Entonces
nij (m)
pij = para todo i, j ∈ E.
λi
Sumando sobre j para todo i ∈ E se tiene
N
X ni (m)
1= pij = para todo i ∈ E,
λi
j=1
por tanto
nij (m)
λi = ni (m) y p̂ij (m) = para todo i, j ∈ E.
ni (m)
Hasta aquı́ se vió que {p̂ij (m) = nij (m)/ni (m)}i,j∈E es un punto crı́tico de H en P. Ahora queremos
ver que en este punto hay un máximo. Sabemos que L(P ; {xn }m n=0 ) es una función continua y el espacio
parametral anteriormente definido es un conjunto compacto en el espacio euclidiano, por esto existe P̂ (m)
tal que L(P ; {xn }m m m
n=0 ) ≤ L(P̂ (m); {xn }n=0 ) y L(P̂ (m); {xn }n=0 ) > 0, entonces se tiene para cada P en el
espacio parametral y donde esté bien definida la log-verosimilitud
l(P̂ (m); {xn }m m
n=0 ) ≤ l(P̂ (m); {xn }n=0 ).
Por el Teorema del multiplicador de Lagrange (ver [? ] página 414) P̂ (m) satisface las ecuaciones (4.1) y
por lo anteriormente mostrado se tiene
nij (m)
P̂ (m) = {p̂ij (m) = }i,j∈E ,
ni (m)
es el estimador máximo verosı́mil.
4.1. CADENAS DE MARKOV 43
Ejemplo 4.1. Estimación por máxima verosimilitud de la matriz de transición correspondiente a la tra-
yectoria simulada en el Ejemplo 3.1, la función que se utilizó se encuentra en el Código D.2.
0.181818 0.0909091 0.636364 0.0909091
0.454545 0.181818 0.181818 0.181818
P̂ (m) =
0.166667 0.416667 0.166667
.
0.25
0.333333 0.5 0.166667 0.0
Ahora mostraremos que el estimador máximo verosı́mil de la matriz de transición cumple propiedades
estadı́sticas muy importantes como son consistencia y eficiencia asintótica.
Denotemos por ν = (ν1 , . . . , νN ) a la distribución estacionaria (si existe) de la cadena de Markov {Xn }n≥0 .
Nota 4.2. Una observación que vale la pena mencionar es que si la cadena {Xn }n∈N es irreducible y
recurrente positiva entonces ν existe y νi es estrictamente positiva para todo i ∈ E.
Teorema 4.1. (consistencia). Dada una Cadena de Markov irreducible y recurrente positiva con espacio
n (m)
de estados E y matriz de transición P, los estimadores p̂ij (m) = niji (m) convergen casi seguramente al
verdadero parámetro pij cuando m tiende a infinito para todo i, j ∈ E. Más aún
c.s.
||P − P̂(m)|| −−−−→ 0.
m→∞
Donde || ∗ || denota la norma usual en el espacio euclidiano. En otras palabras el estimador P̂(m) es
consistente.
Por otro lado sabemos que {Xn }n≥0 es recurrente positiva, lo que implica P[τ1i < ∞] = 1. Por la propiedad
de Markov y debido a que τ1i es un tiempo de paro tenemos:
∞
X
P[X1+τ i = j] = P[X1+τ i = j, τ1i = k]
1 1
k=1
X∞
= P[X1+k = j, τ1i = k]
k=1
∞
X
= pij P[τ1i = k]
k=1
= pij .
44 CAPÍTULO 4. INFERENCIA SOBRE PROCESOS DE MARKOV
Por lo tanto
c.s.
||P − P̂(m)|| −−−−→ 0.
m→∞
Ejemplo 4.2. Se simuló una trayectoria de la cadena de Markov del Ejemplo 3.1 con horizonte m=10000.
En la figura 4.1 se muestra ||P̂ (n) − P || para cada n ≤ 10000, para este análisis se utilizó el Código D.3 .
Ahora nos concentraremos en demostrar que el estimador máximo verosı́mil de la matriz de transición
P̂ (m) tiene la propiedad de eficiencia asintótica, esta propiedad nos ayudará a hacer estimación por
intervalo de la matriz de transición de una cadena de Markov.
Para lograr este objetivo primero debemos demostrar el siguiente lema.
Lema 4.1. Sean {(gi1 (m), . . . , giN (m))}1≤i≤N una familia independiente de vectores aleatorios sobre RN
tal que para cada i ∈ E
Entonces
d
G(m) −−−−→ N (0̄, Γ).
m→∞
En donde
gij (m) − mpij
G(m) = { √ }i,j∈E
m
4.1. CADENAS DE MARKOV 45
y 0̄ denota la matriz de tamaño N × N con todas las entradas iguales a cero, mientras que la matriz de
varianzas y covarianzas tiene dimensión N 2 × N 2 y está dada por
En donde
(
1 si i = k,
δik =
0 si i 6= k.
g (m)−mp
Demostración. Denotemos por Gi (m) el vector cuyas entradas están dadas por Gi (m)j = ij √m ij para
todo i, j ∈ E.
A continuación probaremos que la función generadora de momentos de Gi (m) converge a la generadora
de momentos de un vector aleatorio que se distribuye normal, y ası́ concluir lo que se desea demostrar.
Sea t̄ = (t1 , . . . , tN ) ∈ RN y h∗, ∗i que denota el producto interno usual en el espacio euclidiano de dos
matrices de igual dimensión.
Si Z = (z1 , . . . , zN ) ∼ multinomial(m, p1 , p2 , . . . , pN ) su función generadora de momentos está dada por
"N #m
X
MZ (t̄) = pk exp(ti ) .
k=1
Esta última igualdad se deduce fácilmente de la función generadora de momentos de una multinomial de
parámetros (m, pi1 , . . . , piN ).
Desarrollando la serie de Taylor de la función generadora de momentos E [exp (ht̄, Gi (m)i)] en el punto
(0, . . . , 0) ∈ RN tenemos que
N N N X
N N
" !#
X 1 X X X pij
pij exp √ tj − tk pik =1+ tk1 tk2 (δk j − pik1 )(δk2 j − pik2 )
m 2m 1
j=1 k=1 k1 =1 k2 =1 j=1
N X
N X
N N N
" !#
X X pij 1 X
+ tk1 tk2 tk3 3/2
exp √ tm,j − tm,k pik (δk1 j − pik1 )(δk2 j − pik2 )(δk3 j − pik3 ).
6m m
k1 =1 k2 =1 k3 =1 j=1 k=1
Donde (tm,1 , . . . , tm,N ) = αm t̄ para alguna αm ∈ (0,1) y las derivadas parciales de E [exp (ht̄, Gi (m)i)]
están dadas por
N N N N
" !# " !#
∂ X 1 X X 1 X 1
pij exp √ tj − tk pik = pij exp √ tj − tk pik √ (δjk1 − pik1 ) = 0.
∂tk1 m m m
j=1 k=1 j=1 k=1
N N
" !#
∂2 X 1 X
pij exp √ tj − tk pik
∂tk2 ∂tk1 m
j=1 k=1
46 CAPÍTULO 4. INFERENCIA SOBRE PROCESOS DE MARKOV
N N
" !#
X 1 X 1 1
= pij exp √ tj − tk pik √ (δjk1 − pik1 ) √ (δjk2 − pik2 ).
m m m
j=1 k=1
y por último
N N
" !#
∂3 X 1 X
pij exp √ tj − tk pik
∂tk3 ∂tk2 ∂tk1 m
j=1 k=1
N N
" !#
X 1 X 1 1 1
= pij exp √ tj − tk pik √ (δjk1 − pik1 ) √ (δjk2 − pik2 ) √ (δjk3 − pik3 ).
m m m m
j=1 k=1
Es fácil darse cuenta que el último sumando de la serie de Taylor de la función E [exp (ht̄, Gi (m)i)] en
valor absoluto puede ser acotado por mM 3/2 para alguna M > 0, por lo anterior concluimos que para toda
m > 0 suficientemente grande se tiene
m
N X N N
X X p ij M
1 + tk1 tk2 (δk j − pik1 )(δk2 j − pik2 ) − 3/2 ≤ E [exp(ht̄, Gi (m)i)]
2m 1 m
k1 =1 k2 =1 j=1
m
N X N N
X X pij M
≤ 1 + tk1 tk2 (δk1 j − pik1 )(δk2 j − pik2 ) + 3/2 .
2m m
k =1 k =1
1 2 j=1
De donde obtenemos
1 T i
E [exp(ht̄, Gi (m)i)] −−−−→ exp t̄ Σ t̄ .
m→∞ 2
Donde Σi = {pik1 (δk2 k1 − pik2 )}k1 ,k2 ∈E y t̄T es el vector transpuesto asociado a t̄, por lo anterior y por la
independencia de los vectores {Gi (m)}i∈E podemos afirmar que la matriz G(m) cuyo i-ésimo renglón es
Gi (m) tiende en distribución a una normal con media cero y matriz de varianzas y covarianzas
Γ = {δik (δjl pij − pij pil )}i,j,l,k∈E .
Teorema 4.2. Sea X = {Xn }n∈N una cadena de Markov con matriz de transición P = {pij }i,j∈E y
con espacio de estados E, suponemos además que es irreducible y recurrente positiva, con distribución
estacionaria ν = (ν1 , . . . , νN ), entonces
√2 d
m(P̂(m) − P ) −−−−→ N (0̄, Σ).
m→∞
1
Donde Σ es una matriz de dimensión N 2 × N 2 con entradas Σij,kl = νi δik (δjl pij − pij pil ) para todo
i, j, l, k ∈ E.
4.1. CADENAS DE MARKOV 47
Demostración. Sin perdida de generalidad podemos suponer que la cadena {Xn }n∈N está definida como
en la Definición 3.1, pues como se vio anteriormente esta construcción conserva la misma ley.
Se sabe que (ni1 (m), . . . , niN (m)) es el vector de frecuencias de (wi,1 , . . . , wi,ni (m) ). Ahora denotemos por
(hi1 (m), . . . , hiN (m)) el correspondiente vector de frecuencias de (wi,1 , . . . , wi,dmνi e ), es facil darse cuenta
que sigue una distribución multinomial de parámetros (dmνi e , pi1 , . . . , piN ).
Además (hi1 (m), . . . , hiN (m)) es independiente al vector (hj1 (m), . . . , hjN (m)) si i 6= j.
Por el Lema 4.1 podemos afirmar que
d
H(m) −−−−→ N (0, Γ). (4.2)
m→∞
En donde
hij (m) − dmνi e pij
H(m) = { p }i,j∈E
dmνi e
y la matriz de varianzas y covarianzas está dada por
Sabemos que
( ! √ !)
√ nij (m) − pij ni (m) m
m P̂ (m) − P = p p
ni (m) ni (m) i,j∈E
nij (m) − pij ni (m) m
= √
m ni (m) i,j∈E
nij (m) − pij ni (m) m
= √ − H̃(m)i,j + H̃(m)i,j .
m ni (m) i,j∈E
Donde
hij (m) − dmνi e pij
H̃(m) = { √ }1≤i,j≤N .
m
Supongamos por el momento que
nij (m) − pij ni (m) m p
√ − H̃(m)i,j −−−−→ 0 para todo i, j ∈ E.
m ni (m) m→∞
Por lo anterior y por la Proposición B.9 basta con mostrar la convergencia para
m
H̃(m)i,j .
ni (m) i,j∈E
por lo anterior, por (4.2) y por la Proposición B.7 concluimos que basta con mostrar la convergencia para
el vector
1
H(m)i,j √ .
νi i,j∈E
Debido a que H(m) tiende en distribución a un vector aleatorio normal, entonces se deduce que
√
2 d
m(P̂(m) − P ) −−−−→ N (0̄, Σ).
m→∞
1
Donde Σ es una matriz de dimensiones N 2 ×N 2 , con Σ la matriz con entradas Σij,kl = νi δik (δjl pij −pijpil)
para todo i, j, l, k ∈ E.
Ahora mostraremos que
nij (m) − pij ni (m) m p
√ − H̃(m)i,j −−−−→ 0.
m ni (m) m→∞
Por la Proposición B.7 y el Teorema ergódico (2.2) basta con probar la convergencia
nij (m) − pij ni (m) p
√ − H̃(m)i,j −−−−→ 0.
m m→∞
Sea ε > 0.
Por el Teorema ergódico (2.2) podemos afirmar que existe k tal que para todo m > k se cumple
Denotemos a
n
X
Snij = I{wi,r =j} − pij n.
r=1
Por lo anterior
√ i
nij (m) − pij ni (m) h
ij
P | √ − H̃(m)i,j |> ε ≤ ε + P max{| Snij − Sdmνie
|:| n − dmνi e |≤ mε 3
} > ε m
m
√
ij 3 ε m
≤ ε + 2P max | Sn |: 1 ≤ n ≤ mε > .
2
Lo anterior se traduce en
nij (m) − pij ni (m) m p
√ − H̃(m)i,j −−−−→ 0.
m ni (m) m→∞
Sea X = {Xn }n∈N una cadena de Markov con espacio de estados E y con matriz de transición P =
{pij }i,j∈E . Supongamos que todas las probabilidades de transición son estrictamente positivas, esto con
4.1. CADENAS DE MARKOV 49
el objeto de tener un espacio parametral abierto y ası́ poder definir la matriz de información de Fisher.
Definimos a nuestro espacio parametral como
N
X −1
Θ = {P̃ ∈ MN ×N −1 : pij > 0 para todo i ∈ E , 1 ≤ j ≤ N − 1 y pij < 1 para todo i ∈ E}.
j=1
El espacio parametral anterior ahora es un conjunto abierto con la norma usual, además nos permitió
quitar las dependencias entre las probabilidades de transición correspondientes a cada renglón.
Nota 4.3. Por simplicidad adoptamos la notación L(P ; {xn }mn=0 ), para referirnos a la función de vero-
similitud de la muestra {xn }m
n=0 de la cadena de Markov {Xt } t≥0 con parámetro P̃ .
En lo que resta de esta sección vamos a trabajar especı́ficamente con el espacio parametral anteriormente
definido.
Proposición 4.2. Sea {Xn }n∈N una Cadena de Markov homogénea con espacio de estados E = {1, 2, . . . , N }
y P su correspondiente matriz de transición con todas sus entradas estrictamente positivas.
Entonces la matriz de información de Fisher está dada por
1 1
(im (P̃ ))i1 j1 ,i2 j2 = δi1 i2 E[ni1 (m)] δj1 j2 + .
p i1 j1 p i1 N
con i1 , i2 ∈ E y 1 ≤ j1 , j2 ≤ N − 1.
Demostración. Se sabe que el espacio Θ es abierto y no vacı́o, además se tiene que por la definición de Θ
El conjunto
.
Por otra parte ya que X
L(P ; {xn }m
n=0 ) = 1
x0 ,x1 ,...,xm ∈E
para todo i1 ∈ E y 1 ≤ j1 ≤ N − 1 Lo que significa que im (P̃ )i1 j1 ,i2 j2 es igual a la covarianza entre los
siguientes términos
∂log(L(P ; {Xn }m
n=0 ))
∂pi1 j1
y
∂log(L(P ; {Xn }m
n=0 ))
.
∂pi2 j2
Por lo que se concluye que la matriz de información de Fisher es una matriz semi-definida positiva.
Además
" #
ni1 j1 (m) ni1 N (m)
im (P̃ )i1 j1 ,i2 j2 = δi1 i2 E δj1 j2 + P −1
p2i1 j1 (1 − N j=1 pi1 j )
2
" #
1 1
= δi1 i2 E[ni1 (m)] δj1 j2 + P −1 .
pi1 j1 (1 − N j=1 pi1 j )
h i
Sean {Ai }i∈E matrices de dimensión N − 1 × N − 1 tales que Aij1 j2 = δj1 j2 pij1 + piN
1
para todo i ∈ E y
1
0 < j1 , j2 < N , entonces se tiene
E[n1 (m)]A1
0 ··· 0
0 E[n2 (m)]A2 · · · 0
im (P̃ ) = .
.. .. .. ..
. . . .
0 0 · · · E[nN (m)]A N
Ahora queremos probar que esta matriz es invertible, basta con probar que las matrices {Ai }i∈E lo son.
Realizando operaciones elementales se muestra que la matrices {Ai }i∈E son invertibles y además
(Ai )−1
j1 j2 = (δj1 j2 pij1 − pij1 pij2 )
Esto se obtiene por las hipótesis de recurrencia positiva e irreducibilidad cuando m es grande.
4.2. PROCESOS DE SALTOS DE MARKOV 51
Teorema 4.3. (Eficiencia Asintótica) Sea {Xn }n∈N una Cadena de Markov homogénea con espacio
de estados E = {1, 2, . . . , N } suponemos además que es irreducible y recurrente positiva entonces
√
m(P̃ˆ (m) − P̃ ) −−−−→ N (0̃, Σ̃)
2 d
m→∞
Donde
Σ̃ = lı́m m(im (P̃ ))−1 ,
m→∞
P̃ˆ (m) es la matriz P̂ (m) quitándole la última columna y 0̃ es la matriz de dimensión N × (N − 1) con
todas sus entradas iguales a cero.
Demostración. La prueba de este Teorema se sigue de los Teoremas 2.2, 4.2 y la Proposición 4.2.
Ejemplo 4.3. Se simuló una cadena de Markov con espacio de estados E = {1, 2}, distribución inicial
π = (0.5, 0.5)
y matriz de transición
0.2 0.8
P = ,
0.8 0.2
Mientras que la inversa de la matriz de información de Fisher estimada esta dada por
−1
0.32075 0.0
m i\
m (P̃ ) = .
0.0 0.323248
Nuestro objetivo en esta sección es estimar el generador infinitesimal dada una trayectoria de un PSM,
ası́ como también demostrar algunas propiedades estadı́sticas del estimador de máxima verosimilitud.
En secciones pasadas estudiamos la importancia del generador infinitesimal, por lo cual nuestro objetivo
será estimar sus parámetros vı́a máxima verosimilitud.
A partir de ahora sólo consideraremos procesos cuyos generadores infinitesimales tengan entradas en la
diagonal estrictamente negativas, esto implica que los tiempos de saltos sean finitos casi seguramente. La
existencia de estos procesos se probó en el Teorema 3.2.
52 CAPÍTULO 4. INFERENCIA SOBRE PROCESOS DE MARKOV
La siguiente proposición demuestra la existencia del estimador máximo verosı́mil correspondiente a una
observación en tiempo continuo {xt }0≤t≤T de un PSM.
Proposición 4.3. Supongamos que tenemos una trayectoria observada en tiempo continuo {xt }0≤t≤T de
un PSM {Xt }t≥0 con espacio de estados E y generador infinitesimal Q, entonces el estimador máximo
verosı́mil del generador infinitesimal dado que el proceso inicio en el estado x0 está dado por :
donde
(
Nxy (T )/Rx (T ) para x 6= y
q̂xy (T ) =
−Nx (T )/Rx (T ) para x = y.
Donde T es el horizonte de tiempo, Q̂(T ) denota el estimador máximo verosı́mil del generador infinitesi-
mal, Nxy (T ) es el número de veces observadas que el proceso saltó del estado x al estado y en un tiempo
RT
Pdt, es el tiempo total observado en el cual el proceso se mantuvo
de salto, mientras que Rx (T ) = 0 I{Xt =x}
en el estado x, denotemos por Nx (T ) = y6=x Nxy (T ).
Nota 4.4. Una observación que vale la pena mencionar es que la existencia de este estimador está
condicionada a que Nx (T ) > 0 para todo x ∈ E.
Demostración. Asumimos que el proceso tuvo n saltos, sean 0 = t0 < t1 < . . . < tn los tiempos observados
de salto hasta el tiempo T . Por los Teoremas 2.6, 2.7 y 2.8 la función de verosimilitud es igual a
L(Q; {xt }0≤t≤T ) = fT1 ,XT1 ,T2 ,XT2 ,...,Tn ,XTn ,NT |X0 (t1 , xt1 , t2 , xt2 , . . . , tn , xtn , n|x0 )
= fT1 ,XT1 ,T2 ,XT2 ,...,Tn ,XTn |X0 (t1 , xt1 , t2 , xt2 , . . . , tn , xtn |x0 )P[Tn+1 − Tn > T − tn |XTn = xtn ]
= (λx0 e−λx0 t1 px0 xt1 )fT1 ,XT1 ,T2 ,XT ,...,Tn−1 ,XTn−1 |X0 (t2 , xt2 , . . . , tn , xtn |xt1 ) exp(−λxtn (T − tn )).
La última expresión depende sólo de las entradas fuera de la diagonal de la matriz Q, esto quiere decir
que no tenemos ninguna restricción adicional a la no negatividad sobre las {qxy }x,y∈E,x6=y , por lo cual
derivando la log-verosimilitud e igualando a cero tenemos como punto crı́tico
(
Nxy (T )/Rx (T ) para x 6= y
q̂xy (T ) = (4.3)
−Nx (T )/Rx (T ) para x = y.
es un punto crı́tico de l(Q; {xt }0≤t≤T ) sobre Q, ahora sólo falta probar que es un punto máximo. Nótese
que
X X X
l(Q; {xt }0≤t≤T ) = ( Nxy (T ) log(qxy )) + ( qxx Rx (T )), (4.5)
x∈E y∈Ex x∈E
Ejemplo 4.4. Estimación por máxima verosimilitud del generador infinitesimal correspondiente a la tra-
yectoria simulada en el Ejemplo 3.3, la función que se utilizó se encuentra en el Código D.5.
−0.144964 0.0362409 0.0181205 0.0906023
0.0304693 −0.182816 0.0761733 0.0761733
Q̂(T ) = .
0.187188 0.140391 −0.655159 0.32758
0.0172995 0.121096 0.138396 −0.276792
A continuación mostraremos algunas propiedades del estimador de máxima verosimilitud del generador
infinitesimal de un PSM dado, dichas caracterı́sticas prueban la importancia de utilizar este estimador.
El siguiente teorema prueba que nuestro estimador converge al verdadero parámetro conforme la muestra
crece.
54 CAPÍTULO 4. INFERENCIA SOBRE PROCESOS DE MARKOV
Propiedades asintóticas
Teorema 4.4. (Consistencia) Sea un PSM {Xt }t≥0 ergódico con generador infinitesimal Q y con
espacio de estados E, el estimador máximo verosı́mil del generador infinitesimal Q̂(T ) dado por Q̂(T ) =
{q̂xy (T )}x,y∈E converge casi seguramente al verdadero parámetro Q cuando T(horizonte) tiende a infinito.
En otras palabras el estimador es consistente.
c.s.
||Q − Q̂(T )|| −−−−→ 0 cuando T −→ ∞.
T →∞
Ejemplo 4.5. Se simuló una trayectoria del PSM del Ejemplo 3.3 con horizonte T=10000.
En la figura 4.2 se muestra ||Q̂(t) − Q|| para cada t ≤ 10000, para este análisis se utilizó el Código D.6.
Al igual que en el caso de las cadenas de Markov a tiempo discreto, es posible probar en el caso de PSM
que su estimador máximo verosı́mil asociado al generador infinitesimal, es asintóticamente eficiente. Para
mostrar esta propiedad, requerimos el siguiente lema.
4.2. PROCESOS DE SALTOS DE MARKOV 55
Lema 4.2. Sean 0 = T0 < T1 < . . . < Tn < ∞ los tiempos de salto de un PSM {Xt }t≥0 con espacio de
estados E y generador infinitesimal Q, entonces
E[T − TNT ]
√ −−−−→ 0.
T T →∞
Demostración.
∞
X
E[T − TNT ] = T P[NT = 0] + E[(T − TNT )I{NT =n} ]
n=1
X∞
= T P[NT = 0] + E[(T − Tn )I{Tn ≤T <Tn+1 } ]
n=1
X∞ Z T Z ∞
= T P[NT = 0] + (T − u)fTn ,Tn+1 (u, v)dvdu
n=1 0 T
X∞ X Z T Z ∞
= T P[NT = 0] + (T − u)fTn ,XTn (u, x)fT0 |X0 =x (v − u)dvdu.
n=1 x∈E 0 T
La igualdad anterior se debe al Teorema 2.8, dicho lo anterior integrando y sumando sobre x ∈ E
obtenemos
XZ T Z ∞ XZ T
(T − u)fTn ,XTn (u, x)fT0 |X0 =x (v − u)dvdu = (T − u)fTn ,XTn (u, x) exp−λx (T −u) du
x∈E 0 T x∈E 0
Z T
≤ (T − u)fTn (u) exp−α(T −u) du.
0
Donde α=mı́n{λx : x ∈ E}, ahora integramos por partes el término anterior y obtenemos
Z T
(T − u)fTn (u) exp−α(T −u) du =
0
1
Z T−α Z T
−FTn (u) exp−α(T −u) [α(T − u) − 1]du + −FTn (u) exp−α(T −u) [α(T − u) − 1]du. (4.6)
1
0 T−α
El primer término de (4.6) es negativo mientras que el segundo es positivo, por esta razón se sigue del
Lema 2.1 la siguiente desigualdad, donde β =máx{λx : x ∈ E}
∞ Z
X T Z T
(T − u)fTn (u) exp−α(T −u) du ≤ βu exp−α(T −u) [1 − α(T − u)]du.
1
n=1 0 T−α
Z 1
exp(−1) α
= + βv exp−αv dv.
α 0
El segundo sumando de la última igualdad es menor o igual que la esperanza de una exponencial de
parámetro α multiplicada por αβ , por esta razón tenemos
X exp(−1) +β/α
E[T − TNT ] ≤ T P[X0 = 0] exp−λx T + .
α
x∈E
Cocluimos la convergencia
E[T − TNT ]
√ −−−−→ 0.
T T →∞
Teorema 4.5. Considere un PSM {Xt }t≥0 ergódico con espacio de estados E y generador infinitesimal
Q, entonces
√
2 ˆ ) − Q̃) −−− d
T (Q̃(T −→ N (0̃, Λ).
T →∞
ˆ ) y Q̃ son el estimador y el generador infinitesimal sin la diagonal, es decir matrices de
Donde Q̃(T
dimensión N × (N − 1) y Λ ∈ M(N 2 −N )×(N 2 −N ) es la matriz con entradas Λx1 y1 ,x2 y2 = νx1 δx1 x2 δy1 y2 qx1 y1
1
para todo x1 , y1 , x2 , y2 ∈ E con x1 6= y1 y x2 6= y2 .
Demostración. Sin pérdida de generalidad suponemos que el proceso {Xt }t≥0 está construido como en la
Definición 3.3.
√ √
ˆ ) − Q̃) = Nxy (T )
T (Q̃(T T − qxy
Rx (T ) x∈E,y6=x
√
Nxy (T ) Nxy (T ) Nxy (T )
= T − λx + λx − qxy
Rx (T ) Nx (T ) Nx (T ) x∈E,y6=x
√
Nxy (T ) Nx (T ) Nxy (T )
= T − λx + λx − pxy
Nx (T ) Rx (T ) Nx (T ) x∈E,y6=x
T Nxy (T ) Nx (T ) − λx Rx (T ) λx T Nxy (T ) − pxy Nx (T )
= √ + √ .
Nx (T )Rx (T ) T Nx (T ) T x∈E,y6=x
PdT νx λx e
Nxy (T ) − pxy Nx (T ) r=1 I{wx,r =y} − pxy dT νx λx e p
| √ − √ |−−−−→ 0. (4.9)
T T T →∞
y
T Nxy (T ) λx T
ZT = (ξ x (T )) + (ρxy (T )) .
Nx (T )Rx (T ) Nx (T ) x∈E,y6=x
√ ˆ
Bajo la notación anterior tenemos que T (Q̃(T ) − Q̃) = Y T + Z T .
Por otro lado por los Teoremas 2.11 y 2.13 sabemos que
y
pxy 1
Z2T = x
ξ (T ) + xy
ρ (T ) .
νx νx x∈E,y6=x
p
Bajo la notación anterior tenemos que Z T = Z1T + Z2T , a continuación mostraremos que Z1T −−−−→ 0 y
T →∞
por la Proposición B.9 bastarı́a con mostrar la convergencia para Z2T .
Por la Definición 3.3 sabemos que {Sx,r }r≥1 y {wi,r }i≥1 son independientes y por el Teorema central
del lı́mite tenemos que
d
ξ x (T ) −−−−→ N (0, νx λx )
T →∞
y
d
ρxy (T ) −−−−→ N (0, νx λx pxy ).
T →∞
Por otro lado por los Teoremas 2.11 y 2.13 y por la Proposición B.7 tenemos que
p
Z1 (T ) −−−−→ 0.
T →∞
Por lo anterior basta ver la convergencia de Z2 (T ) y por la Definición 3.3 sabemos que {Sx,r }r≥1 y
{wi,r }i≥1 son independientes, por tanto ξ x (T ) es independiente a ρxy (T ). Por otro lado por el Teorema
de Curtiss (B.3) basta analizar la convergencia para los siguientes dos términos
!
N X N PdT νx λx e
X pxy dT νx λx e − r=0 Sx,r
E exp uxy √
νx T
x∈E y6=x
58 CAPÍTULO 4. INFERENCIA SOBRE PROCESOS DE MARKOV
y
N X
N PdT νx λx e !
X 1 r=1 I{wx,r =y} − pxy dT νx λx e
E exp uxy √ .
νx T
x∈E y6=x
Donde U = {uxy }x,y∈E,x6=y es cualquier matriz de dimensión N × (N − 1). El primer término se puede
escribir como PdT ν λ e p
Y dT νx λx e − r=0x x Sx,r X pxy dT νx λx e
E[exp(( p ) uxy √ )]
x∈E
dT νx λx e y6=x
νx T
Donde Λx1 y1 ,x2 y2 = νx1 δx1 x2 δy1 y2 qx1 y1 para todo x1 , y1 , x2 , y2 ∈ E con x1 6= y1 y x2 6= y2 .
1
Ahora sólo resta probar
PdT ν λ e Sx,r
Nx (T )−λx Rx (T ) dT νx λx e−λx r=0x x λx p
1. | √
T
− √
T
|−−−−→ 0.
T →∞
PdT νx λx e
Nxy (T )−pxy Nx (T ) r=1 I{wx,r =y} −pxy dT νx λx e p
2. | √
T
− √
T
|−−−−→ 0.
T →∞
Sea ε > 0.
Por el Teorema 2.13 podemos afirmar que existe k tal que para todo T > k se cumple
Denotemos a
n
X
Vnxy = n − Sx,r .
r=0
Por lo anterior
xy
√
ε + P[max{| Vnxy − VdT 3
νx λx e |:| n − dT νx λx e |≤ T ε } > ε T ]
Lo anterior se traduce en
PdT νx λx e Sx,r
Nx (T ) − λx Rx (T ) dT νx λx e − λx r=0 λx p
| √ − √ |−−−−→ 0.
T T T →∞
Denotemos a
n
X
Snxy = I{wx,r =y} − pxy n.
r=1
Por lo anterior
" PdT νx λx e #
Nxy (T ) − pxy Nx (T ) r=1 I{wx,r =y} − pxy dT νx λx e
P | √ − √ |> ε
T T
es menor o igual que
xy
√
ε + P[max{| Snxy − SdT νx λx e |:| n − dmνi e |≤ T ε3
} > ε T]
Lo anterior se traduce en
PdT νx λx e
Nxy (T ) − pxy Nx (T ) r=1 I{wx,r =y} − pxy dT νx λx e p
| √ − √ |−−−−→ 0.
T T T →∞
Sea un PSM X = {Xt }t≥0 con espacio de estados E y con generador infinitesimal Q = {qxy }x,y∈E .
Supongamos que todas las probabilidades de transición {pxy }x∈E,y∈E−{x} son estrictamente positivas,
esto con el objeto de tener un espacio parametral abierto y ası́ poder definir la matriz de información de
Fisher.
Definimos a nuestro espacio parametral como
El espacio parametral anterior ahora es un conjunto abierto con la norma usual, además nos permitió
quitar las dependencias entre la diagonal del generador infinitesimal y las otras entradas de la matriz.
Nota 4.5. Por simplicidad adoptamos la notación L(Q; {xt }0≤t≤T ), para referirnos a la función de ve-
rosimilitud de la muestra {xt }0≤t≤T del PSM {Xt }t≥0 con parámetro Q̃.
En lo que resta de esta sección vamos a trabajar especı́ficamente con el espacio parametral anteriormente
definido.
Proposición 4.4. Sea un PSM {Xt }t≥0 con espacio de estados E = {1, 2, . . . , N } y Q su correspondiente
generador infinitesimal, entonces la matriz de información de Fisher está dada por
E[Nx1 y1 (T )]
(iT (Q̃))x1 y1 ,x2 y2 = δx1 x2 δy1 y2 .
qx21 ,y1
Demostración. Se sabe que el espacio Θ es abierto y no vacı́o, además se tiene que por la definición de Θ
el conjunto
se tiene que
∂ 2 L(Q; {xt }0≤t≤T )
∂qx1 y1 ∂qx2 y2
existe y es finita para todo x1 , x2 ∈ E, y1 ∈ E − {x1 }, y2 ∈ E − {x2 }.
Por estas últimas observaciones se sabe que la matriz de información de Fisher también puede ser calcu-
lada como
2
∂ log(L(Q; {Xt }0≤t≤T ))
(iT (Q̃))x1 y1 ,x2 y2 = E −
∂qx1 y1 ∂qx2 y2
por la demostración de la Proposición 4.3
Nx y (T ) E[Nx1 y1 (T )]
(iT (Q̃))x1 y1 ,x2 y2 = E δx1 x2 δy1 y2 12 1 = δx1 x2 δy1 y2 .
qx1 y1 qx21 ,y1
Por lo que se concluye que la matriz de información de Fisher es semi-definida positiva, pues es una matriz
diagonal y en la diagonal sus entradas son no negativas.
Gracias a la forma de la matriz de información de Fisher tenemos que
qx21 y1
(iT (Q̃))−1
x1 y1 ,x2 y2 = δx1 x2 δy1 y2 .
E[Nx1 y1 (T )]
Nótese que para que la inversa este bien definida necesitamos que
E[Nx1 y1 (T )] > 0 para todo x1 ∈ E, y1 ∈ E − {x1 }.
Esto se obtiene por las hipótesis de ergodicidad cuando T es grande.
Teorema 4.6. (Eficiencia Asintótica) Sea un PSM {Xt }t≥0 con espacio de estados E = {1, 2, . . . , N }
y Q su correspondiente generador infinitesimal, suponemos además que es ergódico entonces
√2 ˆ ) − Q̃) −−−
d
T (Q̃(T −→ N (0̃, Λ).
T →∞
Donde
Λ = lı́m T (iT (Q̃))−1 .
T →∞
Demostración. La prueba de este teorema se obtiene de aplicar el Teorema 4.5, la Proposición 4.4 y el
Teorema 2.13.
Ejemplo 4.6. Se simuló un PSM con espacio de estados E = {1, 2, 3}, distribución inicial
π = (1/3, 1/3, 1/3)
y generador infinitesimal
−2 1 1
Q = 1 −2 1 ,
1 1 −2
con horizonte T = 10000.
Es fácil mostrar que (1/3, 1/3, 1/3) es la única distribución estacionaria, por lo tanto
3 0 0 0 0 0
0 3 0 0 0 0
0 0 3 0 0 0
Λ= 0
.
0 0 3 0 0
0 0 0 0 3 0
0 0 0 0 0 3
62 CAPÍTULO 4. INFERENCIA SOBRE PROCESOS DE MARKOV
Mientras que la inversa de la matriz de información de Fisher estimada esta dada por
3.13155 0 0 0 0 0
0 2.96953 0 0 0 0
−1
0 0 3.00593 0 0 0
T i\
T ( Q̃) = .
0 0 0 2.92098 0 0
0 0 0 0 3.09605 0
0 0 0 0 0 3.04055
En esta sección estudiaremos un método para generar trayectorias de un PSM condicionado a puntos
finales. Además analizaremos la rapidez y precisión del método. Usaremos el método para estimar el
generador infinitesimal de un PSM a través del método Monte Carlo de una Cadena de Markov y la
Estimación de Máxima Verosimilitud.
Empezaremos con la definción de Puente de Markov nedesaria para la explicación de esta sección.
Definición 4.1. Un puente de Markov con parámetros s, a, b es un proceso estocástico con parámetro
t ∈ [0, s] y con la misma distribución de un Proceso de Saltos de Markov {Xt }st=0 condicionado a X0 = a
y Xs = b, con a, b ∈ E y s > 0.
Especı́ficamente trayectorias que no cumplieron la condición este algoritmo simula una trayectoria del
PSM condicionando la posición inicial X0 = a y termina hasta generar una trayectoria con posición final
Xs = b, rechazando todas aquellas.
2. Simulamos una trayectoria Xs ∼ P SM (s) (PSM con tiempo de horizonte s, generador infinitesimal
Q y distribución inicial α).
Ya que el algoritmo rechaza trayectorias hasta encontrar una trayectoria que cumpla las condiciones men-
cionadas anteriormente, entonces es importante mencionar la siguiente proposición:
Proposición 4.5. En el método REJ, la probabilidad de alcanzar el estado final observado es pab (T ).
Tendremos en consideración los tiempos de ejecución excesivos, ya que muchas rutas se rechazan si:
4.2. PROCESOS DE SALTOS DE MARKOV 63
T es grande y πb es pequeño, o,
T es pequeño y a 6= b.
Ası́, junto al código D.1 visualizaremos estos casos con los siguientes ejemplos. En el primer caso conside-
ramos una trayectoria con T = 1000 y para que π1 sea pequeño bastara hacer el generador infinitesimal
−56.00 5 3 2 3 8 7 9 10 9.00
0.00
−43 9 7 2 7 4 4 2 8.00
0.00
10 −56 8 5 7 9 8 8 1.00
0.00
4 10 −55 10 6 6 9 1 9.00
0.00 1 8 8 −41 1 6 7 8 2.00
Q=
0.00
1 4 9 4 −42 2 7 6 9.00
0.00
2 1 1 7 5 −40 9 7 8.00
0.00
3 7 3 7 5 5 −41 2 9.00
0.00 3 7 5 6 10 1 2 −42 8.00
0.05 3 3 3 7 8 9 7 5 −45.05
y π = (1/10, 1/10, 1/10, 1/10, 1/10, 1/10, 1/10, 1/10, 1/10, 1/10). Para el segundo caso donde el tiempo es
pequeño y a distinto de b, consideremos un puente de Markov con T =0.0005, a = 1 y b = 2.
64 CAPÍTULO 4. INFERENCIA SOBRE PROCESOS DE MARKOV
Capı́tulo 5
En 1828 el botánico Robert Brown observó que los granos de polen suspendidos en una cierta substancia
presentan movimientos irregulares (véase [5]). Con la contribución del trabajo presentado por Albert Eins-
tein en 1905 (véase [8]), se explicó que este movimiento es producto de las múltiples colisiones aleatorias
de las moléculas de la substancia con los granos de polen. Se puede decir que un movimiento de este tipo
tiene las siguientes caracterı́sticas:
1. Es un movimiento continuo.
3. Los desplazamientos pueden modelarse por variables aleatorias gausianas (teorema central del lı́mite,
véase [9]).
En 1923 el matemático Norbert Wiener demostró que existe un proceso estocástico con estas propiedades.
1. W0 = 0 casi seguramente.
Pruebas a detalle de la existencia un proceso con estas caracterı́sticas se pueden encontrar en [4].
65
66 CAPÍTULO 5. ECUACIONES DIFERENCIALES ESTOCÁSTICAS (EDE)
Desde que los incrementos de un movimento Browniamo siguen una distribución Normal, son indepen-
dientes y las propiedades de la distribución Nomal, podemos simular una trayectia de un movimiento
Browniano en un intervalo de tiempo [0, T ] con T > 0 usando el siguiente algoritmo
Algoritmo 5.1. Dividimos al intervalo [0, T ] en n subintervalos de la misma longitud ∆ = ti − ti−1 para
i = 1, . . . , n donde 0 = t0 < t1 < . . . < tn = T . Hacemos i = 0, Wi = 0 y luego
Código 5.1.
1 # ##################################
2 # Drawn Paths of Brownian Motion
3 # ##################################
4 BM = function (n , Delta )
5
6 trayMB = zeros ( Float64 ,( n +1) )
7 trayMB [1]=0
8 times =[0: Delta : T ]
9
10 for i =1: n
11 trayMB [ i +1]= trayMB [ i ]+ rand ( Normal (0 ,1) ) * Delta
12 end
13
14 plot ( times , trayMB )
15 ylabel ( " W " ) ;
16 xlabel ( " Tiempo " )
17
18 return ( trayMB )
19
20 end
En la Figura ?? podemos ver una trayectoria de un caminata aleatoria con T = 1, y cuando n = 10,
n = 100 y n = 1, 000. Podemos ver la convergencia conforme n crece.
Consideremos una sucesión {Xi }ni=1 de variables aleatorias independientes tales que
Si definimos
n
X
Sn = Xi ,
i=1
entonces si n crece a ∞ tenemos por el Teorema del Lı́mite Central tenemos que
S[nt]
Pr[ √ < x] −→ Pr[Wt < x],
n
es decir
S d
√n −
→ N(0, 1).
n
La aproximación de la Figura ?? fue generada usando el Código 5.2 para diferentes valores de n.
Código 5.2.
1
2 # ##################################
3 # Approx MOVIMIENTO BROWNNIANO CAMINATA ALEATORIA
4 # ##################################
5 AMBCA = function (n , T )
6
7 Delta = T / n
8
9 E =[ -1 ,1]
10 p =[0.5 ,0.5]
11 p = WeightVec ( p )
12 S = cumsum ( sample (E , n ) )
13 times =[0: Delta : T ]
14
15
16
17 labels = n * times
18 tl = length ( labels ) - count ( c -> ( 0 < c ) , labels )
19
20
Nota 5.1. Es importante notar que es remondable usar el Algoritmo 5.1 cuando sólo se necesita simular
una posición especı́fica de un movimiento Browniano, por ejemplo, en la evaluación del pauoff de un
subyacente en una opción Europea. Por otro lado, si se requiere conocer información sobre la evolución
de la trayectoria del proceso, se pueden utilizar cualquiera de las formas de simulación presentadas, por
ejemplo, en la valuación de opciones Americanas, Asiáticas y exóticas.
68 CAPÍTULO 5. ECUACIONES DIFERENCIALES ESTOCÁSTICAS (EDE)
Definición 5.2. Se define como puente Browniano al movimiento Browniano {Wtp , t ∈ [t0 , T ] : Wt0 =
x, WT = y} que empieza en x al tiempo t0 y termina en y al tiempo T y está dado por
t − t0
Wtp = x − Wt−t0 − (WT −t0 − y + x).
T − t0
El Código 5.3 es una implementación para simular trayectorias de un puente Browniano usando la Defi-
nición 5.2.
Código 5.3.
1 # ###############################
2 # Puente Browniano de t0 a T
3 # ###############################
4 BBridge = function (x ,y ,n , t0 , T )
5
6 Delta =( T - t0 ) / n
7 t0 = t0 / n
8
26 end
En la Figura 5.1 presentamos algunas trayectorias de un puente Browniano {Wtp , t ∈ [0, 1] : Wt0 = 0, WT =
0}.
Es común modelar la evolución en el tiempo de un sistema por ecuaciones diferenciales, las cuales usual-
mente describen la razón de cambio del sistema. Si denotamos por Xt el estado del sistema al tiempo t
para t ≥ 0, podemos caracterizar la evolución del sistema en el tiempo por la siguiente ecuación,
d(Xt )
= a(t)Xt , (5.1)
dt
5.2. ECUACIONES DIFERENCIALES ESTOCÁSTICAS 69
donde X0 = x0 es el estado inicial del sistema y a(t) representa la función de cambio al tiempo t. Este
modelo es adecuado cuando la función de cambio es completamente conocida. En muchos casos esta
función no es completamente conocida, pero es razonable asumir que está sujeta a algún tipo de efecto
aleatorio, entonces tenemos que
donde no es totalmente conocido el comportamiento del término ruido, pero sabemos que está regido por
una distribución de probabilidad. Entonces una forma (heurı́stica) más general de escribir a la ecuación
(5.1) es:
d(Xt )
= b(t, Xt ) + σ(t, Xt ) × ruido (5.3)
dt
donde b, σ son funciones reales conocidas. Para modelar el término de ruido se utilizan los incrementos
de un proceso de Wiener. Si la evolución del sistema es observado en el intervalo de tiempo [0, T ] y
consideramos una partición de este intervalo, 0 = t0 < t1 < . . . < tn = T , podemos escribir a la ecuación
(5.3) en forma de incrementos como sigue
donde Xi = Xti , ∆Wi = Wti+1 −Wti y ∆ti = ti+1 −ti . De esta forma, utilizando la ecuación (5.3) podemos
describir la evolución del proceso X = {Xt }Tt=0 por:
n−1
X n−1
X
Xt = X0 + b(ti , Xi )(∆ti ) + σ(ti , Xi ) × (∆Wi ). (5.5)
i=1 i=1
Dado que esta ecuación depende de la partición del intervalo, el modelo resulta ser más adecuado en el
lı́mite ∆ti → 0. Esto nos lleva a la siguiente ecuación
Z t Z t
Xt = X0 + b(ti , Xi )ds + σ(ti , Xi )dWs , (5.6)
0 0
donde el último término es conocido como integral estocástica. Podemos escribir la ecuación anterior en
forma diferencial
dXt = b(t, Xt )dt + σ(t, Xt )dWt (5.7)
para toda t ≥ 0 y X0 = x0 , a ecuaciones de este tipo se les conoce como ecuaciones diferenciales estocásti-
cas.
llamada integral de Itô o integral estocástica respecto al proceso de Wiener y puede ser interpretada
de la siguiente forma.
donde 0 = t0 < t1 < . . . < tn = T entendiendo el lı́mite en el sentido que la distancia máxima entre dos
puntos de la partición tiende a cero.
Para que la definición anterior tenga sentido se necesita que el proceso X sea adaptado a la filtración
natural del proceso de Wiener.
RT
1. E[ 0 Xs dWs ] = 0.
RT RT
2. V ar[ 0 Xs dWs ] = 0 E[Xs2 ]dWs , isometrı́a de Itô.
5.3. PROCESOS DE DIFUSIÓN 71
linealidad.
RT
4. 0 aWs dWs = aW (T ).
RT WT2 T
5. 0 Ws dWs = 2 − 2.
RT
6. El proceso Mt = M0 + 0 Xs dWs es una martingala.
Definición 5.4. Un proceso de difusión X = {Xt }t≥0 es la solución a una ecuación de la forma
(5.6) o (5.7), donde los coeficientes b(t, x) y σ(t, x) son funciones reales de t y x, y se les conoce como
coeficiente de deriva y difusión respectivamente. Denotemos por I = [r, s] al espacio de estados.
En la definición anterior b(t, x) y σ(t, x) pueden ser interpretados como la media y varianza infinitesimal
de los incrementos del proceso X, es decir, si ∆hXt = Xt+h − Xt y x ∈ I, entonces
1
limh↓0 E[∆hXt |Xt = x] = b(t, x)
h
y
1
limh↓0 P[(∆hXt )2 |Xt = x] = σ(t, x)
h
Al proceso de difusión se le interpreta como el estado del sistema que evoluciona de manera determinista
gobernado por la parte no aleatoria de la ecuación pero perturbado por un ruido aditivo dado por la
integral estocástica.
Para que una ecuación de la forma (5.7) tenga alguna solución se deben imponer condiciones a sus
coeficientes. Existen resultados de existencia y unicidad para ecuaciones diferenciales estocásticas que
establecen condiciones de regularidad para sus coeficientes. El siguiente resultado es básico para dichas
condiciones.
Teorema 5.1. Si los coeficientes b(t, x) y σ(t, x) de la ecuación (5.7) satisfacen la condición de Lipschitz
para toda x ∈ R,
|b(t, x) − b(t, y)|2 + |σ(t, x) − σ(t, y)|2 ≤ K|x − y|2 ,
y la condición de crecimiento en x
|b(t, x)|2 + |σ(t, x)|2 ≤ K(1 + |x|2 ),
con K > 0 una constante, entonces existe un proceso de difusión X = {Xt }t≥0 solución de (5.7) que es
adaptado, continuo, uniformemente acotado en L2 y es único en el sentido de indistinguibilidad 1 .
A esta solución se le conoce como solución fuerte. Una prueba de este resultado se puede encontrar en
[15].
1
{Xt } y {Yt } son indistinguibles si P (Xt = Yt ) = 1 para cada t ≥ 0
72 CAPÍTULO 5. ECUACIONES DIFERENCIALES ESTOCÁSTICAS (EDE)
Si un proceso de difusión es ergódico entonces, para cualquier función medible f , se tiene que con proba-
bilidad 1:
1 T
Z Z
f (Xs )ds → f (x)π(x)dx = E[h(U )],
T 0 R
donde π es la densidad estacionaria del proceso de difusión y U es una varibale aleatoria con densidad π.
Nota 5.2. Si un proceso de difusión X tiene distribución estacionaria, ésta está dada por
m(x)
π(x) = , (5.9)
M
donde
1
m(x) = , (5.10)
σ 2 (x)s(x)
es la medida de velocidad, Z x
b(y)
s(x) = exp −2 dy , (5.11)
x0 σ 2 (y)
es la medida de escala y M la constante de normailzación.
Dado que los procesos de difusión tienen la propiedad de Markov, tiene sentido definir las probabilidades
de transición del estado x al tiempo s al estado y en un tiempo posterior t (0 ≤ s < t). Denotamos esas
propabilidades por
p(t − s, y|x) := P[Xt = y|Xs = x].
Las probabilidades de transición satisfacen las ecuaciones de Kolmogorov (ver [15]), forward,
d2 2 d
2
(σ (x)π(x)) = 2 (b(x)π(x)).
dx dx
De esta ecuación es fácil obtener
1 d
b(x) = 2
(2π(x)) (σ 2 (x)π(x)),
dx dx
e integrando tenemos que Z x
2 2
σ (x) = b(y)π(y)dy.
π(x) 0
5.4. FÓRMULA DE ITÔ 73
Generador infinitesimal
Definición 5.5. A una solución de la ecuación 6.2 en el intervalo [t1 , t2 ] (0 ≤ t1 < t2 ≤ ∞) tal que
Xt1 = a y Xt2 = b, con a, b ∈ I, se le llama puente de difusión puente (t1 , a, t2 , b).
Ejemplo 5.1. Consideremos el proceso Ornstein-Uhlenbeck que es solución a la ecuación
Por otro lado, en [3] proponen un algoritmo para generar el puente de difusión (0, a, 1, b) de forma exacta
pero que resulta numericamente más estable. El algortimo se presenta en el siguiente lema.
Lema 5.1. Consideremos los momentos en el tiempo 0 = t0 < t1 ≤< tn < tn + 1 = 1 y sea X0 = a. Si
Otro resultado importante en teorı́a de procesos de difusión es la fórmula de Itô, que ayuda a encontrar
soluciones a ecuaciones diferenciales estocásticas.
Teorema 5.2. (Fórmula de Itô) Si X = {Xt }t≥0 es un proceso de difusión dado por la ecuación (5.7)
y f (t, x) una función de clase C 1 como función de t y de clase C 2 como función de x, entonces el proceso
Yt = f (t, Xt ) es también un proceso de difusión y es solución a la ecuación
1
dYt = ft (t, Xt )dt + fx (t, Xt )dXt + fxx (t, Xt )(dXt )2 . (5.15)
2
En la ecuación (5.15) los subı́ndices denotan las derivadas, los detalles de las demostraciones se pueden
ver en [15].
74 CAPÍTULO 5. ECUACIONES DIFERENCIALES ESTOCÁSTICAS (EDE)
y si hacemos
f (t, x) = S0 exp (r − σ 2 /2)t + σx ,
Este modelo fue utilizado por Black-Scholes-Merton en el contexto financiero para modelar precios de
acciones (ver [13]) donde r es intepretado como la tasa de interés y σ como la volatilidad de los activos
riesgosos. Si S0 = s0 y hacemos
η = log(s0 ) + (r − σ 2 /2)t
y
ν = σ 2 t,
de 5.16 tenemos que para este proceso las densidades de tarnsición tienen distribución log-normal de
parámetros η y ν, es decir,
(log(y) − η)2
1
p(t − s, y|s0 ) = √ exp .
yν 2π 2ν 2
El Código 5.4 simula trayectorias de una difusión determinada por la ecuación 5.2 basado en las proba-
bilidades de transición obtenidas.
Código 5.4.
1 # ####################################
2 # BG - BSM
3 # ####################################
4 BGBSM = function (x ,r , sigma ,n , T )
5
6 Delta = T / n
7
25 end
5.4. FÓRMULA DE ITÔ 75
Con base a las densidades de transición podemos simular trayectorias de este proceso de difusió. Con el
Código 5.5 de podemos generar trayactorias.
Código 5.5.
1 # ######################################
2 # OU - Vasicek
3 # ######################################
4 Vasicek = function (x , alpha , lambda , sigma ,n , T )
5
6 Delta = T / n
7
8 vas = zeros ( Float32 , n +1)
9 vas [1]= x
10
11
12 for i =2: n +1
13 vas [ i ]= lambda / alpha + exp ( - alpha * Delta ) *( vas [i -1] - lambda / alpha ) + sigma ^2*(1 -
exp ( -2* alpha * Delta ) ) /(2* alpha ) * rand ( Normal () )
14
15 end
16
λ σ2
Nota 5.3. Este proceso es ergódico y tiene distribución invariante Gausiana de parámetros α y 2α .
Ejemplo 5.4. Cox-Ingersoll-Ross. Este proceso de difusión es usado en el ambiente financiero para
modelar tasas de interés a corto plazo (ver [6].) y es la solución a la ecuación diferencias estocástica
p
dXt = (λ − αXt )dt + σ Xt dWt , (5.19)
Una de las principales caracteristicas estudiadas en sistemas dinámicos es la estacionalidad de los procesos
que describen el equilibrio del sistema. Aquı́ enunciaremos los procesos de disfusión más populares es esta
área.
Ejemplo 5.5. Modelo tipo N . Este proceso es solución a la siguiente ecuación diferencial estocástica
√
dXt = r(θ − Xt )dt + dWt ,
con r, > 0.
Ejemplo 5.6. Modelo tipo N . Este proceso es solución a la siguiente ecuación diferencial estocástica
p
dXt = r(θ − Xt )dt + Xt (1 − Xt )dWt ,
con r, > 0.
Ejemplo 5.7. Modelo tipo N . Este proceso es solución a la siguiente ecuación diferencial estocástica
√
dXt = r(θ − Xt )dt + dWt ,
con r, > 0.
Difusiones en epidemiologı́a
Para tener un panorama general de la teorı́a matemática en modelos de epidemiologı́a se puede consultar
[2]. Supongamos que Xt representa la fracción de población infectada al tiempo t, en general, la tasa de
cambio es modelada con el proceso de difusión que es la solución a:
p
dXt = (aXt (1 − Xt ) − bXt + c(1 − Xt ))dt + Xt (1 − Xt )dWt , (5.20)
donde a > 0 es la tasa de transmisión (persona a persona), b > 0 representa la tasa de recuperación y
c > 0 es la tasa de transmisión desde una fuente externa y > 0.
Una aplicación de la fórmula de Itô muy importante en las áreas de simulación y estimación de parámetros
para escuaciones diferenciales estocásticas es transformación estándar conocida como transformada de
Lamperti dada por transformation Z x
1
h(x) = dy, (5.21)
x ∗ σ(y)
donde x∗ es un elemento arbitrario en el espacio de estados de X. Entonces, por la fórmula de Itô
Yt = hβ (Xt )
donde
b(h−1 (y)) 1
µ(y) = − σ 0 (h−1 (y)),
σ(h−1 (y)) 2
donde σ 0 (x) denota la derivada de σ con respecto a x.
Sea S
5.5. Ejercicios
1. Encontrar las probabilidades de transición del CIR e implementar un algoritmo para simular tra-
yectorias de este proceso de difusión.
En esta sección presentaremos los dos métodos más importantes para la simulación de trayectorias a
soluciones de ecuaciones diferenciales estocásticas. Estos métodos son utilizados cuando no se conoce
explicitamente las probabilidades de transición o aún cuando se conocen resulta difı́cil de simular. Debido
a que estos métodos están basados en aproximaciones a tiempo discreto a los procesos en tiempo continuo
es importante empezar definiendo el tipo de convergencia de los procesos discretos a los continuos.
Definición 6.1. Convergencia Fuerte. Se dice que una aproximación a tiempo discreto X δ de un
proceso a tiempo continuo X, donde δ denota el incremento de tiempo máximo en la discretización, se
dice que es de nivel fuerte de convergencia τ si
E[|Xtδ − Xt |] ≤ Cδ τ
Definición 6.2. Convergencia Débil. Considerando otra vez la aproximación a tiempo discreto X δ de
un proceso a tiempo continuo X, se dice que es de nivel débil de convergencia τ si
Consideremos un proceso de difusión X = {Xt }t≥0 que es solución a la ecuación diferencial estocástica
79
80CAPÍTULO 6. INFERENCIA ESTADÍSTICA PARA ECUACIONES DIFERENCIALES ESTOCÁSTICAS
para i = 0, 1, . . . , n − 1, con Y0 = x0 y
∆i = ti+1 − ti ,
∆Wi = Wti+1 − Wti
Por otro lado como entre cualesquiera dos momentos de observación ti y ti+1 , el proceso puede ser definido
diferenciable. Una propuesta natural es considererar una interpolación lineal para Yt definida por
t − ti
Yt = Yti + (Yti+1 − Yti )
ti+1
4
5 function Euler ( theta , init , delta , n )
6
7 brow_inc = rand ( Normal (0 , sqrt ( delta ) ) ,n )
8 tray = zeros ( Float64 ,( n +1) )
9 tray [1]= init
10
11 for i =1: n
12 tray [ i +1]= tray [ i ]+ b ( tray [ i ] , theta ) * delta + sigma ( tray [ i ] , theta ) * brow_inc [
i]
13 end
14
15 tray
16
17 end
Ejemplo 6.1. Aquı́, se presenta una simulación de un proceso de difusión con el esquema de Euler,
consideramos el proceso de Ornstein-Uhlenbeck, que es una solución de la ecuación diferencial estocástica
donde α > 0 y σ > 0 son los parámetros del proceso W es un proceso de Wiener estándar. Si suponemos
que X0 = 0 y consideremos un intervalo de realización [0, 10] con un nivel de discretización 0 = t0 < t1 <
... < tn = 10, donde n = 100 y ∆ = ∆i = 0.1, para todo i = 1, 2, ..., n − 1, entonces el método de Euler
para este proceso es:
1
Yti+1 = Yti + b(Yti , ti )∆i + σ(Yti , ti )∆Wi + σ(Yti , ti )σ 0 (Yti , ti )ti [(∆Wi )2 − ∆i ],
2
Código 6.2.
1 #
######################################################################################
4
5 function Milstein ( theta , init , delta , n )
6
7 brow_inc = rand ( Normal (0 , sqrt ( delta ) ) ,n )
8 tray = zeros ( Float64 ,( n +1) )
9 tray [1]= init
10
11 for i =1: n
12 tray [ i +1]= tray [ i ]+ b ( tray [ i ] , theta ) * delta + sigma ( tray [ i ] , theta ) * brow_inc [
i ]+(1/2) * sigma ( tray [ i ] , theta ) * sigma_x ( tray [ i ] , theta ) *( brow_inc [ i ]^2 -
delta )
13 end
14
15 tray
16
17 end
Ejemplo 6.2. Para ejemplificar el uso de este método de simulación cosideremos el movimiento Brow-
niano geométrico, el cual es solución a la ecuación diferencial estocástica
dXt = θ1 Xt dt + θ2 Xt dWt ,
para este proceso, tenemos que b(x, t) = θ1 x, σ(x, t) = θ2 x y σx (x, t) = θ2 entonces el esquema de Milstein
para este proceso es
82CAPÍTULO 6. INFERENCIA ESTADÍSTICA PARA ECUACIONES DIFERENCIALES ESTOCÁSTICAS
1
Yti+1 = Yti + θ1 Yti ∆i + θ2 ∆Yti Wi + θ2 Yti [(∆Wi )2 − ∆i ]
2
θ 2 θ2
= Yti (1 + ∆θ1 − 2 ) + θ2 ∆Wi + 2 Yti (∆Wi )2
2 2
En esta sección presentaremos un algoritmo para simular puentes de difusión presentado en [3].
Sea X un proceso de difusión solución de 6.2, con espacio de estados I = (r, s) y que los coeficientes
satisfacen las condiciones del teorema 5.1. Sea a, b ∈ I y W 1 y W 2 dos procesos de Wiener independientes
y X 1 y X 2 soluciones de
dXti = b(Xti )dt + σ(Xti )dWti (6.1)
i = 1, 2, X01 = a y X02 = b. En el siguiente teorema utilizaremos estos dos procesos para aproximar el
puente (0, a, ∆, b)
Teorema 6.1. Sea τ = inf{0 ≤ t ≤ ∆|Xt1 = X∆−t
2 }y
Xt1 si 0 ≤ t ≤ τ
Zt =
2
X∆−t si τ < t ≤ ∆
Entonces la distribución de Z = {Zt }0≤t≤∆ , condicionado a {τ ≤ ∆}, es igual a la distribución de un
puente (0, a, ∆, b), condicionado al evento que el puente es alcanzado por una difusión (independiente)
con EDE (6.2) y distribución inicial con densidad p∆ (b, ∗).
Usando los métodos de Monte-Carlo se puede estimar algunas cosas, poner ejemplos financieros (precios
de opciones). Revisar las técnicas de Malliavin en [14] y el método presentado en [12].
Abordaremos el problema de estimación de parámetros en procesos de difusión cuando éstos han sido
observados a tiempo discreto. Consideremos que las difusiones son observadas en el intervalo de tiempo
[0, T ] en n momentos 0 = t1 < t2 < . . . < tn = T y el tiempo entre cada observación es igual entre
cualesquiera dos observaciones consecutivas, es decir, ∆ = ti − ti−1 para i = 2, . . . , n con los siguientes
tipos de información:
6.2. ESTIMACIÓN POR MÁXIMA VEROSIMÍLITUD 83
2. Alta frecuencia: Se hace tender a cero a ∆ conforme aumenta n y el intervalo de observación [0, T ]
se mantiene fijo.
Consideremos un proceso de difusión X = {Xt }t≥0 que es solución a la ecuación diferencial estocástica
b:R×Θ→R
y
σ : R × Θ → (0, ∞)
son conocidas y cumplen con condiciones para la existencia de una solución de (6.2) (ver Teorema 5.1).
Denotamos por I = (l, r) con −∞ ≤ l < r < ∞ al espacio de estados y supongamos que es el mismo para
toda θ. Supongamos la solución X de (6.2) tiene valor inicial determinista Xt0 = x0 y que se cumplen las
condiciones para la exitencia de la distribución estacionaria πθ .
Cuando se tiene el proceso observado a tiempo continuo, la estimación del parámetro resulta eficiente. En
particular, desde que la variación cuadrática de un proceso de difusión que es solución de (6.2) está dada
por (ver [15])
Z T
< X, X >T = σ 2 (Xs , θ)ds, (6.3)
0
entonces,
2n
Z T X
2
< X, X >T = σ (Xs , θ)ds = lı́m (XT ∧k/2n − XT ∧(k−1)/2n )2
0 n→∞
k=1
en probabilidad bajo la medida Pθ (La distribución de X). Si asumimos que σ(x, θ) = σ(x) y que el resto
de los parámetros están sólo en la deriva, entonces, éstos pueden ser estimados por máxima verosimilitud.
T T
µ2 (Xs , θ)
Z Z
µ(Xs , θ) 1
LT (θ) = exp dXs − ds . (6.4)
0 σ 2 (Xs ) 2 0 σ 2 (Xs )
escribir como llevar a esta
Nota 6.1. Podemos afirmar que esta situación ocurre con probabilidad cero.
84CAPÍTULO 6. INFERENCIA ESTADÍSTICA PARA ECUACIONES DIFERENCIALES ESTOCÁSTICAS
Suponemos que tenemos el proceso observado a tiempo discreto en el intervalo [0, T ] a los tiempos {0 =
t1 < t2 < . . . < tn = T }, es decir, la información que se tiene es Xobs = {Xt1 = x1 , . . . , Xtn = xn }.
Denotamos por Fn = σ{xi ; 1 ≤ i ≤ n} a la σ-álgebra generada por las n observaciones y por F0 a la
σ-álgebra trivial. Si denotamos a las densidades de transición (entre las observaciones) por pθ (∆, xi |xi−1 ),
por la propiedad de Markov de los procesos de difusión podemos escribir la función de verosimilitud
basada en Xobs como
n
Y
Ln (θ) = pθ (∆, xi |xi−1 )pθ (x0 ) (6.5)
i=1
y la log-verosimilitud es
n
X
`n (θ) = log pθ (∆, xi |xi−1 ) + log pθ (x0 ).
i=1
Nota 6.2. Bajo condiciones de regularidad las probabildides de transición pθ (∆, xi |xi−1 ) satisfacen las
ecuación de Kolmogorov 5.12 y 5.13 pero unicamente en casos muy sencillos se puede resolver estas
ecuaciones diferenciales parciales.
Consideremos el siguiente conjunto de hipótesis necesarias para asegurar suficiencia y consistencia asintóti-
ca de los estimadores máximo verosimiles que presentaremos, para ver los detalles ver [7] y [10].
1. Creciento lineal. Existe una constante C (independiente de θ) tal que, para todo x ∈ I
4. Momentos acotados Para todo k > 0, todos los momentos de orden k existen y
Nota 6.3. Si los parámetros de los coeficientes de deriva y difusión son separables, la tasa de convergencia
es más rápida en el parámetro de difusión y es posibe utilizar la propuesta presentanda en [16] para
√
encontrar√los estimadores. Generalmente la tasa de convergencia del coefiente de difusión es n y la de
la deriva n∆n (condicionado a n∆3n → 0).
Large sample, ∆ = 1
n α=1 2.5 % - 97.5 % β=3 2.5 % - 97.5 % σ=2 2.5 % - 97.5 %
100 1.2016 (0.71783,2.1760) 3.5340 (2.05939,6.4328) 2.0797 (1.68729,2.8068)
200 0.99640 (0.69757,1.4247) 3.19439 (2.19813,4.6007) 2.05284 (1.779,2.4380)
500 1.0033 (0.80208,1.2556) 3.057849 (2.42023,3.848) 2.038970 (1.85789,2.2646)
1000 1.0111 (0.86386,1.1839) 3.1094 (2.63914,3.6573) 2.0143 (1.88388,2.1667)
Cuadro 6.1:
High-frequency, T = 100
∆ α=1 2.5 % - 97.5 % β=3 2.5 % - 97.5 % σ=2 2.5 % - 97.5 %
1 0.9326945 (0.55658,1.5430) 2.91223 (1.68594,4.8569) 1.99326 (1.4897,2.548636)
1/2 0.8664383 (0.56497,1.2216) 2.74615 (1.71730,3.9431) 2.01957 (1.7898,2.2935)
1/5 0.9653574 (0.67449,1.2742) 2.99912 (2.02426,4.0291) 1.97410 (1.8987,2.1169)
1/10 1.0138 (0.72397,1.3124) 2.7642 (1.88794,3.6641) 1.94155 (1.85554,2.0347)
Cuadro 6.2:
n
2α̂ X
σ̂ 2 = −2∆α̂
(Xi − Xi−1 e−∆α̂ )2 .
n(1 − e )
i=1
6.4. Ejercicios
1. Mostrar que el método de Euler tiene orden fuerte de convergencia con τ = 1/2.
2. Mostrar que esta aproximación tiene convergencia débil y fuerte de orden uno.
High-frequency
∆ n α=1 2.5 % - 97.5 % β = 3 2.5 % - 97.5 % σ=2 2.5 % - 97.5 %
1/1000 1000 3.9832 (-1.2793, 9.2737) 8.0231 (-1.9707,18.0656) 2.0301 (1.9442, 2.1227)
Cuadro 6.3:
86CAPÍTULO 6. INFERENCIA ESTADÍSTICA PARA ECUACIONES DIFERENCIALES ESTOCÁSTICAS
Apéndice A
Definición A.1. Sea X variable aleatoria con soporte en E = {x1 , x2 , . . . , xn } con x1 < x2 < . . . < xn y
f su función de densidad asociada
Se define
Lema A.1. Considérese U una v.a. uniforme en (0, 1) y X una v.a. con soporte en E = {x1 , x2 , . . . , xn }
con x1 < x2 < . . . < xn , con función de distribución f y con función de cuantiles φ, entonces se tiene que
φ(U ) tiene la misma distribución que X.
Demostración.
i
X
P[φ(U ) ≤ xj ] = P[min{i; f (xk ) ≥ U } ≤ j].
k=1
j
X
= P[U ≤ f (xk )].
k=1
j
X
= f (xk ).
k=1
87
88 APÉNDICE A. SIMULACIÓN DE VARIABLES ALEATORIAS
Apéndice B
En este apéndice se presentan los modos de convergencia de vectores aleatorios, ası́ como también sus
respectivas relaciones y los principales resultados que se utilizan a lo largo del trabajo. Este apéndice está
basado principalmente en [? ], [? ] y [? ].
Convergencia casi segura
En algunas situaciones la convergencia puntual resulta ser una condición muy fuerte pues se pide la con-
vergencia de la sucesión evaluada en todos y cada uno de los elementos del espacio muestral. Se puede ser
menos estricto y pedir, por ejemplo, que la convergencia se verifique en todo el espacio Ω excepto en un
subconjunto de probabilidad cero.
Definición B.1. (Convergencia casi segura). La sucesión de variables aleatorias ξ1 , ξ2 , . . .converge casi
seguramente a la variable ξ, si P {ω ∈ Ω : lı́m ξn (ω) = ξ(ω)} = 1.
n−→∞
Es decir, en la convergencia casi segura se permite que para algunos valores de ω, la sucesión numérica
ξ1 (ω), ξ2 (ω), . . . pueda no converger, sin embargo el subconjunto de Ω en donde esto suceda debe tener
c.s.
probabilidad cero. Para indicar la convergencia casi segura se escribe ξn −−→ ξ , o bien lı́m ξn = ξ c.s. A
n−→∞
menudo se utiliza el término convergencia casi donde quiera, o bien convergencia casi siempre para de-
notar este tipo de convergencia. Observe que omitiendo el argumento ω, la condición para la convergencia
casi segura se escribe en la forma más corta: P[lı́mn−→∞ ξn = ξ] = 1 , o simplemente P[ξn −→ ξ] = 1. Es
posible demostrar que el conjunto {ω ∈ Ω : ξn (ω) −→ ξ(ω)} es medible de modo que tiene sentido aplicar
la probabilidad. Puede también demostrarse que bajo este tipo de convergencia, el lı́mite es único casi
seguramente, es decir, si ξn converge a ξ c.s. y también converge a η c.s., entonces ξ = η casi seguramente.
Convergencia en probabilidad
Un tipo de convergencia aún menos restrictiva que la convergencia casi segura es la convergencia en pro-
babilidad la cual se define a continuación.
89
90APÉNDICE B. CONVERGENCIA DE VARIABLES ALEATORIAS Y EL TEOREMA CENTRAL DEL LÍMITE.
Cuando hablamos de vectores solo cambiamos el valos absoluto por la norma euclidiana.
p
Para denotar la convergencia en probabilidad se escribe ξn →
− ξ, y omitiendo el argumento ω la condición
se escribe lı́mn−→∞ P[| ξn − ξ |> ] = 0. Nuevamente puede comprobarse que el lı́mite es único casi segu-
ramente.
Convergencia en media
En este tipo de convergencia se usa la esperanza para determinar la cercanı́a entre dos variables aleatorias.
m L1
A este tipo de convergencia también se le llama convergencia en L1 y se le denota por ξn −→ ξ, o ξn −→ ξ.
A partir de la definición de convergencia en media es inmediato preguntarse si de allı́ se sigue la conver-
gencia de la sucesión de medias. La respuesta es afirmativa.
lı́m E[| ξn − ξ |2 ] = 0.
n−→∞
En este tipo de convergencia se presupone que tanto los elementos de la sucesión como el lı́mite mismo
son variables aleatorias con segundo momento finito. A este tipo de convergencia también se le llama
m.c. L2
convergencia en L2 , y se le denota por ξn −−→ ξ, o ξn −→ ξ.
En general puede definirse la convergencia en Lk , para cada entero k ≥ 1, cuando se cumple la condición
E[| ξn − ξ |k ] −→ 0. Resulta que mientras mayor es el valor de k, más restrictiva es la condición de
convergencia.
Convergencia en distribución
Este es el tipo de convergencia menos restrictiva de todas las mencionadas. En contextos más generales
se le llama también convergencia débil.
Todos los resultados anteriores de esta sección pueden ser consultados en [? ] en la parte de Convergencia
Capı́tulo 7.
Definición B.6. Sean ξ, ξ1 , ξ2 , . . . vectores aleatorios, entonces la sucesión {ξn }n∈N converge casi segura-
mente (en probabilidad) a ξ si la sucesión || ξ − ξn || converge c.s. (en probabilidad), en tal caso escribimos
c.s. p
ξn −−→ ξ (ξn →
− ξ).
p
Lema B.1. (Criterio de subsucesión)Sean ξ, ξ1 , ξ2 , . . . vectores aleatorios. Entonces ξn →
− ξ si y sólo si
cada subsuceción N 0 ⊂ N tiene una subsucesión N 00 ⊂ N 0 de tal manera que ξn → ξ c.s. através de la
p
subsucesión N 00 .En particular, ξn → ξ c.s. implica ξn →
− ξ.
Demostración. Sea > 0 y δ > 0, sabemos que existe N ∈ N tal que para toda n ≥ N se tiene que
P(| ηn |> δ) < δ y por tanto
1
lı́m sup P(| ξn ηn |> ) ≤ δ + P(| ξ |> ).
n→∞ δ
Proposición B.8. Sean X̂, X̂1 , X̂2 , . . . vectores aleatorios, las siguientes afirmaciones son equivalentes
2. Para toda función de valores reales f uniformemente continua y acotada E[f (X̂n )] → E[f (X̂)].
3. Para toda función de valores reales f continua y acotada E[f (X̂n )] → E[f (X̂)].
Si alguna de estas condiciones se cumple se dice que X̂n converge en distribución o converge débilmente
d
a X̂ que se escribe X̂n −
→ X̂
Proposición B.9. Sean X̂, X̂1 , X̂2 , . . . y Ŷ, Ŷ1 , Ŷ2 , . . . vectores aleatorios sobre Rk y Rp respectivamente,
d p
tales que X̂n −
→ X̂ y Ŷn →
− Ŷ entonces
d
(X̂n , Ŷn ) − → (X̂, Ŷ)
Donde Ŷ es un vector constante
| E[H(X̂n , Ŷn )] − E[H(X̂, Ŷ)] |≤ E[| H(X̂n , Ŷn ) − H(X̂n , Ŷ) |]+ | E[H(X̂n , Ŷ)] − E[H(X̂, Ŷ)] |
El primer sumando tiende a cero por que H es acotada y uniformemente continua, mientras que el segundo
tiende a cero por que Ŷ es constante y por la Proposición anterior
Teorema B.1. (Ley fuerte de los grandes números). Sea ξ1 , ξ2 , . . . una sucesión de variables alea-
torias independientes e idénticamente distribuidas con media µ. Entonces
n
1 X c.s.
ξi −−→ µ.
n
i=1
Teorema B.2. (Teorema Central del Lı́mite). Sea ξ1 , ξ2 , . . . una sucesión de variables aleatorias
independientes e idénticamente distribuidas con media µ y varianza finita σ. Entonces
n
X ξi − µ d
√ −
→ N (0, 1).
nσ
i=1
Teorema B.3. (Teorema de Curtiss). Sea ξ, ξ1 , ξ2 , . . . una sucesión de vectores aleatorios con funcio-
nes generadoras de momentos M, M1 , M2 , . . . finitas en algún abierto D que contenga al cero.
d
Si Mn (t) −−−→ M (t) para t ∈ D se tiene que ξn −−−→ ξ.
n→∞ n→∞
Apéndice C
Códigos en R
1. N ; tamaño de la población
93
94 APÉNDICE C. CÓDIGOS EN R
23 R <- R
24 } else {
25 I <- I + eventos
26 S <- S
27 R <- R + 1
28 }
29 It <- append ( It , I )
30 St <- append ( St , S )
31 }
32 return ( data . frame ( It = It , St = St , times = times ) )
33 }
Apéndice D
Códigos en Julia
El código D.1 crea un método llamado trayectoria que recibe como parámetros:
El método nos proporciona una trayectoria de la cadena de Markov, es decir un vector y nos muestra la
gráfica de la trayectoria simulada.
Código D.1.
1 Pkg . add ( " QuantEcon " )
2 Pkg . add ( " StatsBase " )
3 Pkg . add ( " Distributions " )
4 Pkg . add ( " PyPlot " )
5 using PyPlot
6 using StatsBase
7 using Distributions
8 using QuantEcon
9
10
11 function trayectoria ( matrixtrans , distinicial , tiempo , E )
12 dim = length ( E )
13 posicion = collect (1:1: dim )
14 estado =0
15 simulaciones = zeros ( tiempo +1)
16 estado = wsample ( posicion , distinicial ,1) [1]
17 simulaciones [1]= E [ estado ]
18
19 k =2
20 sim = zeros ( dim )
21 while k <= tiempo +1
22 h =1
95
96 APÉNDICE D. CÓDIGOS EN JULIA
33
34 return hcat (x , simulaciones )
35 end
36
37 matrixtrans =[.2 .1 .5 .2;.5 .2 .2 .1;.2 .5 .1 .2;.3 .5 .1 .1]
38 distinicial =[.2 ,.4 ,.2 ,.2]
39 E =[1 ,2 ,3 ,4]
40 tiempo =30
41 trayecto = trayectoria ( matrixtrans , distinicial , tiempo , E )
42 plot ( trayecto [1: end ,1] , trayecto [1: end ,2] , " . " )
43 axis ([0 , tiempo , E [1] -1 , E [ end ]+1])
44 title ( " Trayectoria de una Cadena de Markov " )
El código D.2 crea un método llamado inf erencia que calcula los estimadores máximo verosı́miles de
las probabilidades de transición teniendo como información una trayectoria observada de una cadena de
Markov con espacio de estados E, recibe como parámetros:
20 end
21 while (l <= t )
22 u =1
23 while ( trayecto [ l ]!= E [ u ])
24 u = u +1
25 end
26 P [k , u ]=1+ P [k , u ]
27 n [ k ]=1+ n [ k ]
28 k=u
29 l = l +1
30 end
31 i =1
32 j =1
33 while (i <= N )
34 j =1
35 while (j <= N )
36 P [i , j ]= P [i , j ]/ n [ i ]
37 j = j +1
38 end
39 i = i +1
40 end
41 return P
42
43 end
44 estimador = inferencia ( trayecto [1: end ,2] , E )
El código D.3 crea un método para analizar la convergencia de la distancia entre la matriz de transición
real y la estimada conforme el horizonte de tiempo converge a infinito, recibe los siguientes parámetros:
El código D.4 crea un método llamado P SM que simula una cadena de Markov en tiempo continuo
(PSM), recibe como parámetros :
El código D.5 crea un método llamado inf erenciaP SM , calcula el estimador máximo verosı́mil del ge-
nerador infinitesimal de una trayectoria dada de un PSM, los parámetros del método son:
1. tiempos; es un vector que almacena los tiempos entre saltos, es decir los tiempos de inter arribo del
proceso.
2. estados; es un vector que almacena los estados visitados del proceso en cada transición
El método nos proporciona una matriz de N × N, la cual representa el estimador máximo verosı́mil del
generador infinitesimal de la trayectoria dada.
Código D.5.
1
2
100 APÉNDICE D. CÓDIGOS EN JULIA
El código D.6 crea un método llamado convergencia que sirve para analizar la convergencia de la distancia
entre el generador infinitesimal real y el estimado conforme el horizonte de tiempo tiende a infinito, recibe
los siguientes parámetros:
3. tiempo; es el tiempo hasta el cual se quiere analizar la convergencia, al menos debe ser 100
101
Como resultado nos proporciona todas las clases de comunicación de la cadena de Markov
Código D.7.
1 function c la se sco mu ni ca ci on ( matrixtrans , E )
2 mc = MarkovChain ( matrixtrans )
3 clases = c o m m u n i c a t i o n _ c l a s s e s ( mc )
102 APÉNDICE D. CÓDIGOS EN JULIA
4 tam1 = length ( c o m m u n i c a t i o n _ c l a s s e s ( mc ) )
5 for i in 1: tam1
6 tam2 = length ( c o m m u n i c a t i o n _ c l a s s e s ( mc ) [ i ])
7 for j in 1: tam2
8 clases [ i ][ j ]= E [ clases [ i ][ j ]]
9 end
10 end
11
12 return clases
13 end
14
15 matrixtrans =[0 1 0 0;1/3 0 2/3 0;0 2/3 0 1/3;0 0 1 0]
16 E =[0 ,1 ,2 ,3]
17 cl as es co mu ni ca ci on ( matrixtrans , E )
Como resultado nos muestra el periodo asociado a la cadena de Markov, suponiendo que dicha cadena es
irreducible.
Código D.8.
1 function periodo ( matrixtrans )
2 mc = MarkovChain ( matrixtrans )
3 return period ( mc )
4 end
5
6 matrixtrans =[0 1 0 0;1/3 0 2/3 0;0 2/3 0 1/3;0 0 1 0]
7 periodo ( matrixtrans )
Como resultado nos muestra el conjunto de estados de la cadena que son recurrentes.
Código D.9.
1 function e st ad osr ec ur re nt es ( matrixtrans , E )
2 mc = MarkovChain ( matrixtrans )
3 recurrentes = recu rrent_ classe s ( mc ) [1][1: end ]
4 for i in 1: length ( recurrentes )
5 recurrentes [ i ]= E [ recurrentes [ i ]]
6 end
7
8 return recurrentes
9 end
10
11 matrixtrans =[0 1 0 0;1/3 0 2/3 0;0 2/3 0 1/3;0 0 1 0]
12 E =[0 ,1 ,2 ,3]
13 es ta do sr ec ur re nt es ( matrixtrans , E )
103
El código D.10 crea un método llamado estacionaria que sirve para dar una aproximación de la distribu-
ción estacionaria, recibe como parámetros:
13 end
14
15 end
16 return nu / tiempo
17 end
18
19 tiempo =10000
20 matrixtrans =[0 1 0 0;1/3 0 2/3 0;0 2/3 0 1/3;0 0 1 0]
21 E =[0 ,1 ,2 ,3]
22 estacionaria ( matrixtrans ,E , tiempo )
Código D.11.
1
20 end
21 convergencia [ k ]= norm (( nu /(1000* k ) ) - vectorinvariante ,2)
22 end
23
24 plot ( collect (1000:1000: tiempo ) , convergencia [1: end ])
25 hlines ( xmin =0 , y =0 , xmax = d *1000)
26 axis ([0 , d *1000 , -.01 , maximum ( convergencia [1: end ]) ])
27 xlabel (" tiempo ")
28 ylabel (" norma ")
29 title (" Convergencia al vector estacionario ")
30 return convergencia
31 end
32
33 tiempo =100000
34 matrixtrans =[0 1 0 0;1/3 0 2/3 0;0 2/3 0 1/3;0 0 1 0]
35 E =[0 ,1 ,2 ,3]
36 vectorinvariante =[1/8 ,3/8 ,3/8 ,1/8]
37 c o n v e r g e n c i a e s t a c i o n a r i a ( matrixtrans ,E , tiempo , vectorinvariante )
El código D.12 llamado probatransicion sirve para encontrar la matriz de probabilidades de transición al
tiempo t del PSM, recibe un sólo parámetro:
La función muestra la diagonalización del generador infinitesimal, para después expresar a la matriz de
probabilidades de transición al tiempo t del PSM.
Código D.12.
1 function probatransicion ( generador )
2 dim = length ( generador [1: end ,1])
3 I = zeros ( dim , dim )
4 for i in 1: dim
5 I [i , i ]= eig ( generador ) [1][ i ]
6 end
105
Como resultado nos proporciona todas las clases de comunicación de la cadena de saltos asociada al PSM.
Código D.13.
1 function c l a s e s c o m u n i c a c i o n P S M ( generador , E )
2
3 d = length ( E )
4 matrixtrans = zeros (d , d )
5 k =0
6 for i in 1: d
7 k = generador [i , i ]
8 for j in 1: d
9 matrixtrans [i , j ]= - generador [i , j ]/ k
10 end
11 matrixtrans [i , i ]=0
12 end
13
14 mc = MarkovChain ( matrixtrans )
15 clases = c o m m u n i c a t i o n _ c l a s s e s ( mc )
16 tam1 = length ( c o m m u n i c a t i o n _ c l a s s e s ( mc ) )
17 for i in 1: tam1
18 tam2 = length ( c o m m u n i c a t i o n _ c l a s s e s ( mc ) [ i ])
19 for j in 1: tam2
20 clases [ i ][ j ]= E [ clases [ i ][ j ]]
21 end
22 end
23
24 return clases
25 end
26
27 generador =[ -1 1 0 0;2 -4 2 0;0 1 -2 1;0 0 2 -2]
28 E =[0 ,1 ,2 ,3]
29 cl a s e s c o m u n i c a c i o n P S M ( generador , E )
Como resultado nos muestra el conjunto de estados del PSM que son recurrentes.
106 APÉNDICE D. CÓDIGOS EN JULIA
Código D.14.
1 function e s t a d o s r e c u r r e n t e s P S M ( generador , E )
2 d = length ( E )
3 matrixtrans = zeros (d , d )
4 k =0
5 for i in 1: d
6 k = generador [i , i ]
7 for j in 1: d
8 matrixtrans [i , j ]= - generador [i , j ]/ k
9 end
10 matrixtrans [i , i ]=0
11 end
12 mc = MarkovChain ( matrixtrans )
13 recurrentes = recu rrent_ classe s ( mc ) [1][1: end ]
14 for i in 1: length ( recurrentes )
15 recurrentes [ i ]= E [ recurrentes [ i ]]
16 end
17
18 return recurrentes
19 end
20
21 generador =[ -1 1 0 0;2 -4 2 0;0 1 -2 1;0 0 2 -2]
22 E =[0 ,1 ,2 ,3]
23 es t a d o s r e c u r r e n t e s P S M ( generador , E )
Como resultado nos muestra la aproximación de la distribución estacionaria que es un vector de la misma
longitud que E.
Código D.15.
1
22 end
23 estado = wsample ( posicion , sim ,1) [1]
24 s =( log ( rand () ) / generador [ estado , estado ])
25 k=s+k
26 tiempoestancia [ estado ]= s + tiempoestancia [ estado ]
27 end
28 tiempoestancia [ estado ]= tiempoestancia [ estado ] - s +k - l *1000
29 convergencia [ l ]= norm ( vectorinvariante -( tiempoestancia /( l *1000) ) ,2)
30 tiempoestancia [ estado ]= tiempoestancia [ estado ]+ s - k + l *1000
31 end
32
33 plot ( collect (1000:1000: tiempo ) , convergencia [1: end ])
34 hlines ( xmin =0 , y =0 , xmax = d *1000)
35 axis ([0 , d *1000 , -.01 , maximum ( convergencia [1: end ]) ])
36 xlabel (" tiempo ")
37 ylabel (" norma ")
38 title (" Convergencia al vector estacionario ")
39 return convergencia
40
41 return convergencia
42 end
43
44
45 generador =[ -1 1 0 0;2 -4 2 0;0 1 -2 1;0 0 2 -2]
46 E =[0 ,1 ,2 ,3]
47 tiempo =100000
48 vectorinvariante =[1/3 ,1/6 ,1/3 ,1/6]
49 c o n v e r g e n c i a e s t a c i o n a r i a P S M ( generador , tiempo ,E , vectorinvariante )
El código D.17 crea un método llamado asintotica que recibe los siguientes parámetros:
10 u =1
11 while ( trayecto [1]!= E [ k ])
12 k = k +1
13 end
14 while (l <= t )
15 u =1
16 while ( trayecto [ l ]!= E [ u ])
17 u = u +1
18 end
19 P [k , u ]=1+ P [k , u ]
20 n [ k ]=1+ n [ k ]
21 k=u
22 l = l +1
23 end
24
25 for i in 1: N
26 for j1 in 1: N -1
27 for j2 in 1: N -1
28 if j1 == j2
29 matrixFisher [(( i -1) *( N -1) ) + j1 ,(( i -1) *( N -1) ) + j2 ]=(( P [i , j1 ]/ n [ i ]) -( P [i , j1 ]/ n [ i ])
^2) /( n [ i ]/ tiempo )
30 else
31 matrixFisher [(( i -1) *( N -1) ) + j1 ,(( i -1) *( N -1) ) + j2 ]=( -( P [i , j1 ]/ n [ i ]) ^2) /( n [ i ]/
tiempo )
32 end
33 end
34 end
35 end
36 return matrixFisher
37
38 end
39 E =[1 ,2]
40 matrixtrans =[.2 .8 ; .8 .2]
41 distinicial =[.5 ,.5]
42 tiempo =100000
43 asintotica ( matrixtrans , distinicial , tiempo , E )
2
3 function asintoticaPSM ( generador , distinicial , tiempo , E )
4 simulaciones = PSM ( generador , distinicial , tiempo , E )
5 tiempos = simulaciones [1: end ,3] - simulaciones [1: end ,2]
6 estados = simulaciones [1: end ,1]
7 N = length ( E )
8 matrixFisher = zeros ( N ^2 -N , N ^2 - N )
9 Q = zeros (N , N )
10 R = zeros ( N )
11 t = length ( estados )
12 k =1
13 l =2
14 u =1
15 while ( estados [1]!= E [ k ])
16 k = k +1
17 end
18
19 while (l <= t )
20 u =1
21 while ( estados [ l ]!= E [ u ])
22 u = u +1
23 end
24 Q [k , u ]=1+ Q [k , u ]
25 Q [k , k ]=1+ Q [k , k ]
26 R [ k ]= R [ k ]+ tiempos [l -1]
27 k=u
28 l = l +1
29 end
30 R [ u ]= R [ u ]+ tiempos [ t ]
31
32
33 for i in 1: N
34
35 j1 =1
36 l =0
37 while j1 <= N
38 if i == j1
39 l =1
40 j1 = j1 +1
41 else
42 matrixFisher [(( i -1) *( N -1) ) + j1 -l ,(( i -1) *( N -1) ) + j1 - l ]=( Q [i , j1 ]/ R [ i ]) ^2/( Q [i , j1 ]/
tiempo )
43 j1 = j1 +1
44 end
45
46 end
47 end
48 return matrixFisher
49 end
50
51
52 E =[1 ,2 ,3]
53 distinicial =[1/3 ,1/3 ,1/3]
54 generador =[ -2 1 1 ;1 -2 1;1 1 -2 ]
55 tiempo =10000
56 asintoticaPSM ( generador , distinicial , tiempo , E )
111
[1] S. Asmussen and P. W. Glynn. Stochastic Simulation: Algorithms and Analysis. Springer, Stochastic
Modelling and Applied Probability, 2007.
[3] M. Bladt and M. Sõrensen. Simple simulation of diffusion bridges with application to likelihood
inference for diffusions. Bernoulli, 2(20):645–675, 2014.
[5] R. Brown. A brief account of microscopical observations made in the months of june, july, and
august, 1827, on the particles contained in the pollen of plants; and on the general existence of active
molecules in organic and inorganic bodies. Philosophical Magazine N. S., (4):161–173, 1828.
[6] I. J. R. S. Cox, J.C. A theory of the term structure of interest rates,. Econometrica, (53):385–408,
1985.
[7] D. Dacunha-Castelle and D. Florens-Zmirou. Estimation of the coefficients of a diffusion from discrete
observations. Stochastics,, 19:263–284, 1986.
[8] A. Einstein. Investigations on the theory of the Brownian movement. Dover, 1956.
[9] W. Feller. An Introduction to Probability Theory and Its Applications, volume 1. Wiley Series in
Probability and Mathematical Statistics, 3 edition, 196.
[10] S. Iacus. Simulation and Inference for Stochastic Differential Equations with R Examples. Springer
Series in Statistics, 2008.
[11] Y. Kutoyants. Statistical Inference for Ergodic Diffusion Processes. Springer-Verlag, London, 2004.
[12] P. É. Lapayre, B. and R. Sentis. Introduction to Monte-Carlo Methods for Transportation and
Diffusion Equations. Oxford University Press, New York, 2003.
[13] R. Merton. Theory of rational option pricing. Bell J. Econ. Manage. Sci., 4(1):141–183, 1973.
[14] N. Newton. Variance reduction for simulated diffusions. SIAMJ.Appl. Math, 54(6):1780–1805, 1994.
[16] N. Yoshida. Estimation for diffusion processes from discrete observation. J. Multivar. Anal.,
41(2):220–242, 1992.
113