0% encontró este documento útil (0 votos)
61 vistas68 páginas

Introducción a Procesos Estocásticos

Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
61 vistas68 páginas

Introducción a Procesos Estocásticos

Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

ez

om
Introducción a los Procesos
Estocásticos 1
Sample book subtitle 2
G
C ÉSAR G ÓMEZ3
ar

24 de febrero de 2021
es
C

1 Thisis a footnote.
2 Thisis yet another footnote.
3 [Link]
C II
es
ar
G
om
ez
C
es
Dedicated
ar
G
om
ez
C IV
es
ar
G
om
ez
ez
Índice general

om
1. Introducción 1
1.1. Conceptos básicos . . . . . . . . . . . . . . . . . . . . . . . 1

2. Cadenas de Markov En Tiempo Discreto 5


2.1. Clasificación de Estados . . . . . . . . . . . . . . . . . . . . 9
2.1.1. Tiempos de primer arribo . . . . . . . . . . . . . . . 9
G
2.1.2. Otra clasificación importante de estados. . . . . . . 10
2.2. Clasificación de cadenas . . . . . . . . . . . . . . . . . . . 13
2.3. Distribuciones Estacionarias y el Teorema del Límite . . . . 15
ar

2.3.1. Distribuciones Estacionarias . . . . . . . . . . . . . 16


2.3.2. Teoremas del Límite . . . . . . . . . . . . . . . . . . 18
2.4. Cadenas absorbentes . . . . . . . . . . . . . . . . . . . . . 23
2.4.1. Número esperado de visitas a estados transitorios . 28
es

2.4.2. Tiempo esperado de absorsión . . . . . . . . . . . . 28


2.4.3. Patrones en secuencias . . . . . . . . . . . . . . . . 29
2.5. Cadenas Reversibles una forma de simular muestras de
¡cualquier! distribución . . . . . . . . . . . . . . . . . . . . . 31
2.6. Proceso de Ramificación . . . . . . . . . . . . . . . . . . . 34
C

2.6.1. Función Generadora de probabilidad . . . . . . . . . 35


2.6.2. Volviendo al Proceso de Ramificación . . . . . . . . 39

V
VI ÍNDICE GENERAL

3. Un ejemplo de estimación Bayessiana. 41


3.0.1. La distribución beta . . . . . . . . . . . . . . . . . . 43
3.1. Estimación de parámetros . . . . . . . . . . . . . . . . . . . 46

ez
3.2. Predicción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.3. Estimación para cadenas de Markov en tiempo discreto ho-
mogeneas . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.3.1. Distribuciones apriori conjugadas . . . . . . . . . . . 51

om
3.4. Predicción en el corto plazo . . . . . . . . . . . . . . . . . . 53
3.5. Predicción en el régimen estacionario (largo plazo) . . . . . 55

4. El Proceso de Poisson 57
4.1. Tiempos de inter-ocurrencia y tiempos de espera (o llegada) 63
4.1.1. Propiedad de no-memoria de la distribución expo-
G
nencial . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.2. Reducción (Thinning) y superposición de Procesos de Pois-
son . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.2.1. Distribución condicional de los tiempos de Espera . 73
ar

4.3. Extenciones del proceso de Poisson . . . . . . . . . . . . . 78


4.3.1. Proceso de Poisson No Homogeneo . . . . . . . . . 78
4.3.2. Proceso de Poisson compuesto . . . . . . . . . . . 81
es

4.4. Estadística del proceso de Poisson homogéneo . . . . . . . 82


4.4.1. Intervalos de confianza y pruebas en λ . . . . . . . 84
4.4.2. Estimación Bayesiana, análisis conjugado . . . . . . 88
4.4.3. Caso de estudio, la ocurrencia de terremotos . . . . 90
4.4.4. Datos . . . . . . . . . . . . . . . . . . . . . . . . . . 90
C

4.5. Procesos de Renovación . . . . . . . . . . . . . . . . . . . 95


4.5.1. Procesos de renovación rencompensados . . . . . . 98
ÍNDICE GENERAL VII

5. Cadenas de Markov en tiempo continuo 103


5.1. Tasas instantáneas de transición . . . . . . . . . . . . . . . 106
5.2. Generador Infinitesimal . . . . . . . . . . . . . . . . . . . . 107

ez
5.2.1. Matriz exponencial . . . . . . . . . . . . . . . . . . . 110
5.2.2. Diagonalización . . . . . . . . . . . . . . . . . . . . 110
5.3. Comportamiento en el largo plazo . . . . . . . . . . . . . . 113
5.4. Cadenas absorbentes . . . . . . . . . . . . . . . . . . . . . 122

om
5.5. Filas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
5.5.1. Proceso de nacimiento-muerte . . . . . . . . . . . . 125
5.5.2. La Fila M/M/c . . . . . . . . . . . . . . . . . . . . . 131

6. Movimiento Browniano 137


6.0.1. Algunas Propiedades del MB . . . . . . . . . . . . . 143
G
6.0.2. Distribución condicional de WT dado que Wt∗ = a . . 146
6.1. Procesos Gaussianos . . . . . . . . . . . . . . . . . . . . . 147
6.2. Variaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
ar

7. Procesos Estacionarios 155


7.1. Algunos ejemplos . . . . . . . . . . . . . . . . . . . . . . . 159
7.2. Teoremas Ergódicos . . . . . . . . . . . . . . . . . . . . . . 168
7.3. Procesos CARMA (Escrbir) . . . . . . . . . . . . . . . . . . 172
es

7.4. Representación espectral de los procesos estacionarios (Pasar a Anexos)172


7.4.1. Funciones ortogónales . . . . . . . . . . . . . . . . 172
7.4.2. Representación de Fourier de una secuencia finita . 175
7.4.3. Representación en términos de harmónicos complejos176
7.5. Representación de Fourier de una secuencia periodica . . 181
C

7.6. Representación de Fourier de secuencias nó periodicas . . 182


7.6.1. Representación de Fourier de funciones continuas . 184
VIII ÍNDICE GENERAL

7.6.2. Representació0n de Fourier de funciones nó perio-


dicas . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
7.7. Representación espectral de la función de autocovarianza . 189

ez
om
G
ar
es
C
ez
Índice de figuras

om
2.1. Una red conformada por 7 páginas web. . . . . . . . . . . . 21
2.2. Secuencia de acido nucleico en formato digital . . . . . . . 30
2.3. Caminata aleatoria. . . . . . . . . . . . . . . . . . . . . . . 33
2.4. Proceso de ramificación. . . . . . . . . . . . . . . . . . . . . 35

3.1. Distribución beta. . . . . . . . . . . . . . . . . . . . . . . . . 44


G
4.1. tiempos inter-ocurrencia y tiempos de espera. . . . . . . . . 64
4.2. Función de intensidad. . . . . . . . . . . . . . . . . . . . . . 80
4.3. Distribución gamma. . . . . . . . . . . . . . . . . . . . . . . 89
ar

4.5. duración de un ciclo. . . . . . . . . . . . . . . . . . . . . . . 99

5.1. cadenas de Marcov en tiempo continuo. . . . . . . . . . . . 103


5.2. Tasas de transición. . . . . . . . . . . . . . . . . . . . . . . 107
es

5.3. Tasas de transición. . . . . . . . . . . . . . . . . . . . . . . 116


5.4. Probabilidades de transición estimadas para los estados de
Cirrhosis. Fuente: Bartolomeo et al.(2011) . . . . . . . . . . 125
5.5. Proceso de nacimiento-muerte (birth and death process) . . 126
5.6. Filas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
C

6.1. Realización de una trayectoria del MBen [0, 1] . . . . . . . . 140


6.2. Los 2 caminos tienen como máximo el valor a en [0, T ] . . . 144

IX
X ÍNDICE DE FIGURAS

6.3. Distribución condicional de WT dado que Wt∗ = a, t∗ < T . . 147

7.1. Con n = 10, las funciones cos(2πkt/n), k = 0, 1, 2, 3, 4, 5. . 174

ez
7.2. Con n = 10, las funciones sin(2πkt/n), k = 1, 2, 3, 4. . . . 175
7.3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
7.4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197
7.5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197

om
G
ar
es
C
ez
Índice de cuadros

om
2.1. Ranking de las páginas . . . . . . . . . . . . . . . . . . . . 23

3.1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

4.1. x2 = o(x). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
G
ar
es
C

XI
XII ÍNDICE DE CUADROS

ez
om
G
ar
es
C
ez
Capítulo 1

om
Introducción

1.1. Conceptos básicos

ESTAS NOTAS DE CLASE SE BASAN PRINCIPALMENTE EN LA


G
REFERENCIA [3]. Otras fuentes bibliográficas de interés son [6], [4] y [2],
además de las referencias citadas por estos textos.
Estocástico proviene del griego stokhazesthaies una palabra sofisti-
ar

cada, para referirse de forma equivalente a algo que es aleatorio. Bien


podría hablarse de un proceso aleatorio, se trata simplemente de una tra-
dición que en gran parte de la literatura sobre el tema se haga referencia
a los procesos estocásticos.
es

Tenemos aplicaciones en campos o áreas tan diversas como

Biologia - modelos estocásticos de crecimiento, modelamiento esto-


cástico de la evolución de una enefermedad (cadenas de Markov en
tiempo Discreto).
C

Ciencias físicas e ingenierias (por ejemplo en la teoria de la comuni-


cación), modelos de confiabilidad- modelos estocásticos para la tasa

1
2 CAPÍTULO 1. INTRODUCCIÓN

de fallas.

Economia, finanzas, área de actuaria y seguros. Modelos estocásti-

ez
cos para la evolución de los precios de las acciones y otros activos fi-
nancieros, tasas de interés. Cuantificación de siniestros,frecuencias
y tasas de accidentalidad, etc.

Definición 1 Un Proceso Estocástico (que en varias ocaciones abrevia-

om
remos) (PE) es una colección de variables aleatórias {Xt , t ∈ I}. Donde I
es un conjunto denominado conjunto de indices del [Link] variables
aleatórias están definidas en un mismo espacio muestral Ω.

El conjunto de indices I puede ser continuo o discreto. En la mayoría


de aplicaciones I se toma por ejemplo como N el conjunto de los números
G
naturales para el caso de un proceso en tiempo discreto o [0, T ), [0, ∞)
para un proceso en tiempo continuo. En el caso de un proceso espacial
I puede estar constituido por los nodos de un reticulo Z × Z o en el caso
continuo, por ejemplo el plano R2 .
ar

Así un proceso estocástico Xt en realidad es una función de 2 variables

Xt = X(t, ω), con t ∈ I, ω ∈ Ω.


es

El gráfico de la función X(t, ω) versus t para un elemento o resultado


fijo ω del espacio muestral Ω se denomina una trayectoria o realización del
PE.
De otro lado recordemos que para cada t∗ ∈ I fijo Xt∗ es una variable
aleatória (va).
C

Usualmente para denotar un proceso estocástico, omitimos ω y sim-


plemente, escribimos Xt .
1.1. CONCEPTOS BÁSICOS 3

Ejemplo 1 Una secuencia i.i.d de va de Bernoulli




 0 con prob p
Xtn = Xn = 

ez
 1 con prob 1 − p

Una realización particular podría ser por ejemplo

X0 , X1 , X2 , . . . = 01100001 · · · . (1.1)

om
Para completar la descripción de un proceso, se debe especificar en
que forma la familia de variables aleatorias que lo constituyen X = {X1 , X2 , X3 . . .}
varian de forma conjunta entre si.
Esto se lleva a cabo a través de las distribuciones finito-dimencionales

Definición 2 Sean t1 , t2 , . . . , tk , elementos cualesquiera del conjunto de


G
indices I. La distribución finito-dimensional asociada a las variables
Xt1 , Xt2 , . . . , Xtk es igual a su respectiva función distribución conjunta.

Para cualesquiera k valores en R, xt1 , xt2 , . . . , xtk la función de distribu-


ar

ción conjunta de las variables Xt1 , Xt2 , . . . , Xtk es

Ft1 ,t2 ,...,tk (xt1 , xt2 , . . . , xtk ) = P (Xt1 ≤ xt1 , Xt2 ≤ xt2 , . . . , Xtk ≤ xtk ) . (1.2)
es

Ejemplo 2 Considera una secuencia {t : t = 1, 2, . . .} de variables iid


distribuidas N (0, 1).

Definición 3 Para un proceso estocástico dado X = {Xt , t ∈ T } la fun-


ción media del proceso es
C

µX (t) = E[Xt ].
4 CAPÍTULO 1. INTRODUCCIÓN

La función de autocorrelación del proceso es la función

RX (t, s) = Cov(Xt , Xs ) = E [(Xt − µX (t))(Xs − µX (s))]

ez
om
G
ar
es
C
ez
Capítulo 2

om
Cadenas de Markov En Tiempo
Discreto

Definición 4 Decimos que un proceso estocástico en tiempo discreto X =


G
{Xn }∞
n=0 cumple con la propiedad de Markov o es un proceso de Markov

si
ar

P (Xn+1 = s|X0 = x0 , X1 = x1 , . . . , Xn = xn ) = P (Xn+1 = s|Xn = xn ) .


(2.1)
Para cada valor de n, y cualesquiera x0 , x1 , x2 , . . . , xn , s ∈ S
es

Es decir si la distribución del “futuro” condicional en la historia presente


y pasada del proceso, solo depende del estado presente, representado en
2.1 por el valor de Xn .
Si el espacio de estados S es finito o contable, nos referimos al proceso
C

Xn como una cadena de Markov en tiempo discreto.


Cabe mensionar también que la condición de Markov en (2.1) posee

5
6 CAPÍTULO 2. CADENAS DE MARKOV EN TIEMPO DISCRETO

otras formulaciones equivalentes y una de las más útiles y cómunes es

ez
P (Xj = s|Xi1 = x1 , Xi2 = x2 , Xi3 = x3 . . . , Xin = xn ) = P (Xj = s|Xin = xn ) .
(2.2)
donde i1 < i2 < · · · < in < j.
La evolución en el transcurso del tiempo de la cadena Xn es decrita
por las probabilidades de transición

om
P (Xn+1 = j|Xn = i) .

Estas probabilidades de transición en general dependen de las 3 can-


tidades representadas por el tiempo n y los 2 estados i, j.
Nos vamos a concentrar en el caso en que las probabilidades de tran-
G
sición en (2) no dependen del tiempo n. En este caso decimos que la
cadena Xn es una cadena de Markov homogénea, en este caso

P (Xn+1 = j|Xn = i) = P (X1 = j|X0 = i) = pij . (2.3)


ar

La matríz de transición denotada por P es la matriz de orden |S| × |S|


con entradas P = (pij ) es decir las entradas corresponden a las probabi-
lidades de transición.
es

Siempre se tiene que la mátriz de transición P constituye una matriz


estocástica es decir que satisface las siguientes 2 propiedades.

1. P posee entradas nó negativas, es decir pij ≥ 0 para todo i, j ∈ S.

2. La suma de todas las entradas de una misma fila sumán 1. Ó sea


C

X
pij = 1. (2.4)
j
7

Ejemplo 3 Lanzamientos sucesivos de una moneda constituyen el “mo-


delo” en principio ideal para una secuencia de eventos independientes. En
el artículo.

ez
[Link]. Dynamical bias in coin tossing. SIAM review, 49(2):211-
235, 2007.
El autor muestra que los lanzamientos de moneda simpre están lige-
ramente sesgados para caer mostrando el lado que mostraba la moneda

om
al principio. “Para lanzamientos naturales” asegura el autor, las posibili-
dades de que tras el lanzamiento se muestre el lado que inicialmente se
mostraba es en realidad aproximadamente 0.51. En este caso tenemos la
siguiente matriz de transición

C S
 
G
C  0.51 0.49 
P =   (2.5)
S 0.49 0.51

Es interesante estudiar el comportamiento de una cadena tanto en una


ar

escala “corta” de tiempo como en una escala una escala “larga”.

Definición 5 La matriz de transición de n pasos, la denotaremos por Pn =


(pij (n)) donde
es

pij (n) = P (Xm+n = j|Xm = i) = P (Xn = j|X0 = i). (2.6)

Es claro que denbemos tener P1 = P .


C

Teorema 1 Ecuaciones de Chapman-Kolmogorov

X
pij (m + n) = pik (m)pkj (n). (2.7)
k
8 CAPÍTULO 2. CADENAS DE MARKOV EN TIEMPO DISCRETO

O también matricialmente

Pm+n = Pm Pn = Pn Pm . (2.8)

ez
De este teorema se deduce imediatamente que

Pn = P n , (2.9)

om
Es decir la matriz de transición de n pasos Pn no es más que la poten-
sia n-ésima de la matriz de transición P .
Vamos también a denotar por µn un vector fila de dimensión |S| y que
representa la función de masa de probabilidad (fmp) o marginal de la va-
riable Xn es decir

(n)
µi = P (Xn = i), para cada estado, i ∈ S. (2.10)
G
(n) (n) (n) (n)
µ(n) = [µ1 µ2 µ3 · · · µd ]. (2.11)
ar

Lema 1
µ(n+m) = µ(m) Pn , y también µ(n) = µ(0) P n (2.12)

Ejemplo 4 (Estados del tiempo) Un modelo muy básico del estado del
tiempo en un determinado lugar puede modelarse por medio de una ca-
es

dena de Markov. Por ejemplo la matriz de transición que rige la evolución


de la cadena podría ser

LL N S
 
LL  0.2 0.4 0.4 
C

 
P = N  0.4 0.4 0.2  (2.13)
 
 
 
S 0.2 0.3 0.5
2.1. CLASIFICACIÓN DE ESTADOS 9

donde el espacio de estados es S = {LL, N, S}. LL denota lluvia,N y S


denotan tiempo nublado y tiempo seco respectivamente.

ez
2.1. Clasificación de Estados

Definición 6 El estado i se denomina recurrente (o persistente) si

P (Xn = i para algún n|X0 = i) = 1. (2.14)

om
Si esta probabilidad es menor que 1, entonces decimos que el estado
i es transitorio.

2.1.1. Tiempos de primer arribo

Sea
G
fij (n) = P (Xn = j, Xn−1 6= j, Xn−2 6= j, · · · , X1 6= j|X0 = i), (2.15)

La probabilidad de que la primera visita al estado j, comenzando en el


ar

estado i ocurra exactamente en el instante n.


Definimos tambien


X
es

fij = fij (n), (2.16)


n=1
La probabilidad de que comenzando en i la cadena visite en algún
momento a j.
por supuesto un estado i es recurrente si y solo si fii = 1 !.

Proposición 1 1. El estado j es recurrente si pjj (n) = ∞, y si


P
C

n=1

esto ocurre entonces pij (n) = ∞ para todo estado i tal que fij >
P
n

0.
10 CAPÍTULO 2. CADENAS DE MARKOV EN TIEMPO DISCRETO

2. El estado j es transitorio si pjj (n) < ∞, y si esto ocurre enton-


P
n=1

ces pij (n) < ∞ para todo estado i.


P
n

ez
Corolario 1 Si j es transitorio, entonces pij (n) −→ 0 cuando n −→ ∞
para todo i.

2.1.2. Otra clasificación importante de estados.

om
Sea

Tj = mı́n{n ≥ 1 : Xn = j}, (2.17)

Es una v.a. El tiempo del primer arribo a j, con la convención de que


Tj = ∞ si la visita nunca ocurre.
asi
G
P (Ti = ∞|X0 = i) > 0

si y solo si i es transitorio y en este caso

E[Ti |X0 = i] = ∞
ar

Definición 7 El tiempo medio de recurrencia µi del estado i se define


como
es


P
n nfii (n) si i es recurrente






µi = E[Ti |X0 = i] = (2.18)






 si i es transitorio

Nota: µi puede ser infinito aún si i es recurrente.


C

Definición 8 A un estado recurrente i lo denominamos nulo si µi = ∞ y


no-nulo (o positivo) si µi < ∞.
2.1. CLASIFICACIÓN DE ESTADOS 11

Teorema 2 Un estado i recurrente es nulo si y solo si pii (n) −→ 0 cuando


n −→ ∞ y si esto ocurre entonces pji (n) −→ 0 para todo j.

ez
Es también de interes notar en que instantes es posible el regreso a
un estado.

Definición 9 El periodo d(i) del estado i esta definido por d(i) = mcd{n :
pii (n) > 0}. Denominamos el estado i periodico si d(i) > 1 y aperiodico

om
si d(i) = 1.

La idea es que pii (n) > 0 si y solo si n es un multiplo de d(i).

Ejemplo 5  
1 1
2 2
0 0 0 0
 
1 3


4 4
0 0 0 0

G
 
 
1 1 1 1
0 0
4 4 4 4 
(2.19)
 
 
1 1 1 1
4

0 4 4
0 4

 
0 1 1
0 0 0


 2 2
ar
 
 1 1
0 0 0 0 2 2

Como acá para cada estado i, pii (1) > 0 entonces cada estado es
aperiodico.
es

Definición 10 Un estado recurrente no-nulo, aperiodico se denomina er-


gódico.

Ejemplo 6 Considere una cadena de Markov Xn en el espacio de estados


S = {0, 1} con matriz de transición
C

 
1 1
2 2
P =  (2.20)
1 3
 
4 4
12 CAPÍTULO 2. CADENAS DE MARKOV EN TIEMPO DISCRETO

En este ejemplo vamos a calcular Pn

En primer lugar, recuerde que si una matriz P se puede diagonalizar,

ez
entonces se puede reescribir como

 
λ1 0 ··· 0 
 
 
0
 λ2 0 ··· 0

−1  −1
P = V DV =V 
 . .. .. V (2.21)
 .

om
 . . .


 
 
0 0 ··· 0 λd
 

donde la matriz V está formada por columnas que son los autovectores
de los correspondientes autovalores λ1 , λ2 , . . . , λn .
G
de (6) tenemos entonces que

 
n
λ1 0 ··· 0
ar


 
 

 0 λn2 0 ··· 0

n n −1  −1
P =VD V =V V (2.22)

 .. .. ..
. . .
 
 
 
 
n
0 0 ··· 0 λd

es

En efecto se puede verificar que

     
1 1
2 2 1 1  1 0   31 2
3 
P =  =    (2.23)
C

1 3
  1
 1
 2 2

4 4
1 −2 0 4 3
−3

por lo tanto
2.2. CLASIFICACIÓN DE CADENAS 13

     
1 1
2 2 1 1  1n 0   13 2
3
Pn = 

=

ez
   n   
1 3
  1
 1
 2 2

4 4
1 −2 0 4 3
−3
 
1 2 2 2
3 + 3·4n 3
− 3·4n 
 
=
 
 
 
 
1 1 2 1
3
− 3·4n 3
+ 3·4n

om
(2.24)

2.2. Clasificación de cadenas

Definición 11 Decimos que el estado i se comunica con el estado j, y


escribimos i → j, si pij (m) > 0 para algún m ≥ 0.
G
Decimos que los estados i y j están intercomunicados si i → j y j → i
en cuyo caso escribimos i ↔ j.

Si i 6= j, entonces i → j si y solo si fij > 0.


ar

Claramente i → i pues pii (0) = 1. En realidad se tiene que ↔ es una


relación de equivalencia.

Teorema 3 Si i ↔ j entonces
es

1. i y j poseen el mismo periodo.

2. i es transitorio si y solo si j es transitorio.

3. i es recurrente nulo si y solo si j es recurrente nulo.


C

Definición 12 Un conjunto C de estados se denomina

1. Cerrado si pij = 0 para todo i ∈ C y j ∈


/ C.
14 CAPÍTULO 2. CADENAS DE MARKOV EN TIEMPO DISCRETO

2. Irreducible si i ↔ j para todos i, j ∈ C.

Una vez que una cadena visita un estado en un conjunto cerrado C

ez
permanece en dicho conjunto en lo sucesivo.
Un conjunto cerrado que consiste de exactamente de un estado i se
denomina absorbente (el respectivo estado se denomina absorbente).

Ejemplo 7 Todo subconjunto de un conjunto irreducible es irreducible. En

om
la cadena cuya matriz de transició es como en el ejemplo 5 tenemos que:

Todo el conjunto S = {1, 2, 3, 4, 5, 6} es irreducible pero no cerrado.

Los conjuntos {1, 2} y {5, 6} son cerrados e irreducibles.

Finalmente denominamos un conjunto C irreducible aperiodico (o re-


G
currente , o nulo, etc) si todos los estados de dicho conjunto poseen dicha
propiedad.

Teorema 4 [Teorema de Descomposición] El espacio de estados S puede


ar

ser particionado (de manera única) como

S = T ∪ C1 ∪ C2 ∪ · · · (2.25)

donde T es el conjunto de estados transitorios y los conjuntos Ci s son


es

conjuntos cerrados irreducibles de estados recurrentes.

Ejemplo 8 Por ejemplo con la matriz del ejemplo 5 tenemos que

T ∪ C1 ∪ C2 = {3, 4} ∪ {1, 2} ∪ {5, 6} (2.26)


C

Este teorema describe de forma general el comportamiento de una


cadena. Por ejemplo si la cadena comiensa en uno de los Ci la cadena
2.3. DISTRIBUCIONES ESTACIONARIAS Y EL TEOREMA DEL LÍMITE15

siempre permanecera en dicho conjunto y podemos redefinir el espacio


de estados como siendo Ci .
Si la cadena comiensa en T entoces puede quedarce siempre en dicho

ez
conjunto o puede eventualmente migrar a uno de los conjuntos Ci .
Tenemos que si el conjunto S es finito siempre debe haber almenos un
estado recurrente.

om
Proposición 2 Si S es finito entonces al menos un estado es recurrente
y todos los estados rrecurrentes son no-nulos.

Dem 1 Sea i cualquier estado, si todos los estados son transitorios enton-
ces por el corolario 1 llegariamos a la contradicción

X
1 = lı́m pij (n) = 0, (2.27)
G
n→∞
j

por que la suma contiene un número finito de terminos.


ar

2.3. Distribuciones Estacionarias y el Teorema


del Límite

¿Como es el comportamiento de una cadena Xn para valores grandes


es

del timpo n?. Por supuesto Xn no puede converger a un número pues la


cadena siempre estará sometida a las fluctuaciones aleatorias inducidas
por la matriz de transición P . Pero en algunos casos puede suceder que
la distribución de Xn puede comenzar a estabilizarce.
C

Definición 13 Sea X0 , X1 , . . . una cadena de Markov con matriz de tran-


sición P. Una distribución límite para la cadena de Markov es una fmp
16 CAPÍTULO 2. CADENAS DE MARKOV EN TIEMPO DISCRETO

representada por un vector fila λ con una componete por cada estado tal
que, para i y j cualesquiera

ez
lı́m pij (n) = λj .
n→∞
(2.28)

2.3.1. Distribuciones Estacionarias

om
Veremos que la existencia de una distribución límite para Xn cuando
n → ∞, está relacionada con la existencia de una distribución estaciona-
ria.

Definición 14 El vector π se denomina una distribución estacionaria de


la cadena si π posee entradas π = [πj , j ∈ S] tales que :
G
1. πj ≥ 0 para todo j, y
P
i πi = 1.

2. πP = π, o equivalentemente πj = πi pij para todo j.


P
i
ar

Tal distribución se denomina estacionaria por la razón de que


Si tenemos que P (X0 = i) = πi , es decir µ(0) = π entonces

µ(1) = πP = π, (2.29)
es

Es decir π continua siendo la distribución de X1 de la misma manera,


para cualquier n µn = π es decir π es la distribución de Xn pues

µ(n) = πP n = π. (2.30)
C

Teorema 5 Una cadena irreducible posee una distribución estacionaria π


si y solo si todos los estados son recurrentes no nulos.
2.3. DISTRIBUCIONES ESTACIONARIAS Y EL TEOREMA DEL LÍMITE17

En este caso existe una única distribución estacionaria π y biene dada


por πi = µ−1
i para cada estado i ∈ S, donde µi es el tiempo medio de
recurrencia del estado i.

ez
Ejemplo 9 Encuentre la distribución estacionaria π para la cadena Xn cu-
ya matriz de transición P biene dada por
 
1 1
2 2
0

om
 
 
P = 1 0 3 (2.31)
4 4
 
 
1 3
0 4 4

Claramente la cadena es irreducible y aperiodica.


Lo primero entonces es resolver el sistema lineal
 
1 1
2 2
0
G
 
 
[x1 x2 x3 ]  1 3 = [x1 x2 x3 ], (2.32)
4 0 4
 
 
1 3
0 4 4

O equivalentemente
ar

0 0
(xP ) = x
0 0
P x = x0
0 0
(I − P )x = 0.
es

(2.33)

Es decir

    
1 1
− 2 4
0  x1
0
C

  
    
 1 −1 1 x2 

= 0
 
(2.34)
 2 4 
 
  
 
 
x3 0
 
3
0 4
− 41
18 CAPÍTULO 2. CADENAS DE MARKOV EN TIEMPO DISCRETO

     
1 1 1 1 1 1
− 2 4
0  − 2 4
0  − 2 4
0

ez
     
1  1+2 1  2+3
     
 1
 2 −1 4 
→   0 − 34 4 
→   0 − 34 1
4
(2.35)
     
     
3
0 4
− 41 0 3
4
− 14 0 0 0

Por lo tanto para la sulución [x1 x2 x3 ] debemos tener

om x3 = 3x2

x2 = 2x1

Asi podemos tomar [x1 x2 x3 ] = [1 2 6] y tomamos


(2.36)
G
xi
πi = P . (2.37)
j xj

de modo que
ar

1 2 3
[π1 π2 π3 ] = [ ] (2.38)
9 9 9

es la distribución estacionaria.
es

2.3.2. Teoremas del Límite

Ahora exploramos la relación entre la existencia de una distribución


estacionaria y comportamiento en el límite de las probabilidades pij (n)
C

cuando n → ∞. El siguiente ejemplo ilustra la dificultad que se origina


con estados periódicos.
2.3. DISTRIBUCIONES ESTACIONARIAS Y EL TEOREMA DEL LÍMITE19

Ejemplo 10 Recuerde la cadena de Markov Xn en S = {0, 1} con matriz


de transición

ez
 
1 1
2 2
 



 (2.39)
 
 
1 3
4 4

encontramos que

om
   
1 2 1 2 2 1
p00 (n) p01 (n) 3 + · 3 4n 3
− ·3 4n 
   
Pn = 


 = 


 (2.40)
   
   
1
p10 (n) p11 (n) 3
− 13 · 1
4n
2
3
+ 13 · 1
4n

de tal modo que

1 2
G
pi0 (n) → y pi1 (n) → , cuando n → ∞. (2.41)
3 3

Se puede verificar que [1/3 2/3] es la distribución estacionaria, pues

 
ar

1 1
2 2
1 2   1 2
[ ] =[ ]. (2.42)
 

3 3 


 3 3
1 3
4 4

Ejemplo 11 Suponga que S = {1, 2}, y que la matriz de transición es


es

 
0 1
P =



1 0

p12 = p21 = 1 entonces


C



 0 si n es impar
p11 (n) = p22 (n) = (2.43)
1 si n es par


20 CAPÍTULO 2. CADENAS DE MARKOV EN TIEMPO DISCRETO

Claramente pii (n) no converge cuando n → ∞ la razón es que ambos


estados son periódicos con periodo d = 2.

ez
Teorema 6 Para una cadena irreducible y aperiódica , se tiene que

1
pij (n) → , cuando n → ∞, para todo i, j (2.44)
µj

Nota 1 1. Si la cadena es transitoria o recurrente nula entonces pij (n) →

om
0, para todo i y j, debido a que µi = ∞ para cada estado i.

2. Si la cadena es recurrente no nula entonces

1
pij (n) → πj = , (2.45)
µj

donde π es el vector fila que corresponde a la única distribución


G
estacionaria de la cadena.

3. Se sigue del teorema 6 que el límite de la probabilidad lı́mn→∞ pij (n)


no depende del estado en que inicia la cadena X0 = i.
ar

4. También se tiene que lı́mn→∞ P (Xn = j) = 1/µj , pues


X
lı́m P (Xn = j) =
n−→∞
lı́m
n−→∞
P (Xn = j|X0 = i)P (X0 = i)
i
es

X
= lı́m
n−→∞
pij (n)P (X0 = i),
i
X 
= lı́m pij (n) P (X0 = i),
n−→∞
i
" #
X 1
= P (X0 = i),
i µj
" #
1 X
C

= P (X0 = i),
µj i
1
= (2.46)
µj
2.3. DISTRIBUCIONES ESTACIONARIAS Y EL TEOREMA DEL LÍMITE21

En conclusión si la cadena es aperiodica e irreducible, se cumple:

ez
1
lı́m pij (n) = ,
n−→∞ µj
1
lı́m P (Xn = j) = ,
n−→∞ µj

om
(2.47)
G
Ejemplo 12 (Ranking de páginas) La “matriz de transición” asociada a
ar
es
C

Figura 2.1: Una red conformada por 7 páginas web.


22 CAPÍTULO 2. CADENAS DE MARKOV EN TIEMPO DISCRETO

la red ilustrada en (2.1) sería

A B C D E F G

ez
 
A 0 0 0 0 1/2 1/2 0 
 
B
 1/3 0 1/3 0 0 1/3 0 

 
 
C
 0 0 0 1/2 0 1/2 0 
 
P = D
 0 0 0 0 0 0 0  (2.48)
 

om
 
E
 1/4 0 0 1/4 0 1/4 1/4 

 
 
F
 1/2 1/2 0 0 0 0 0 
 
G 1/3 0 0 0 1/3 1/3 0
Observe que esta no es una matriz estocastica debido a que el nodo
D sin salida.
Pero vamos a considerar nuevas probabilidades de transición p∗ij del
G
sigueinte modo

p∗ij = P (Ir de i a j siguiendo los links) P (No saltar de página)


ar

+ P (Ir de i a otra de forma uniforme)P (Saltar de página)


1
= pij · p + (1 − p)
7
(2.49)
es

O equivalentemente

P ∗ = pP + (1 − p)J, (2.50)

donde J es la matriz k × k = 7 × 7 cuyas entradas son todas iguales a


C

1/7. Considerando p = 0.85.

la distribución estacionaria es en este caso


2.4. CADENAS ABSORBENTES 23

πA πB πC πD πE πF πG
0.2374 0.1419 0.0666 0.0882 0.1499 0.2584 0.0576

ez
Cuadro 2.1: Ranking de las páginas

Recuerde que

lı́m P (Xn = i) = πi , i ∈ {A, B, C, D, E, F, G}. (2.51)

om
n→∞

2.4. Cadenas absorbentes

Definición 15 Un estado i se denomina absorbente si pii = 1. Una cade-


na de Markov se denomina una cadena absorbente si tiene al menos un
estado absorbente.
G
Ejemplo 13 (Tomado de Hoel-Port-Stone) Un jugador comienza con un
cierto capital inicial en dolares a hacer una serie de apuestasde 1$ contra
el casino. El jugador posee probabilidades p y q = 1 − p de ganar y perder
ar

en cada apuesta respectivamente. Ahora

Si su capital se pierde por completo, ósea si en algún momento el


capital es cero entonces seguirá siendo cero de este instante en
es

adelante y el jugador entra en ruina.

Si su capital alcanza digamos d = 6$ dolares, entonces el jugador se


retirara con esta suma.

Sea Xn , n ≥ 0 el capital del jugador en el instante n.


C

1. Verifique si Xn es o no una cadena de Markov y en caso afirmativo


escriba la matriz de transición P .
24 CAPÍTULO 2. CADENAS DE MARKOV EN TIEMPO DISCRETO

2. Clasifique los estados.

ez
Acá la matriz P de la cadena Xn es

0 1 2 3 4 5 d
 
0 1 0 0 0 0 0 0

om
 
1 − p
1 0 p 0 0 0 0

 
 
2
 0 1−p 0 p 0 0 0

 
P = 3

0 0 1−p 0 p 0 0

(2.52)
 
 
4
 0 0 0 1−p 0 p 0

 
 
5
 0 0 0 0 1−p 0 p

 
d 0 0 0 0 0 0 1
G
Se tiene que los estados 0 Y d = 6 son absorbentes. Los estados
{1, 2, 3, 4, 5} son todos transitorios.
ar

Considere una cadena de Markov absorbente en k estados, de los


cuales t son transitorios y k − t son absorbentes

Los estados pueden ser reordenados de acuerdo con el teorema de


es

descomposición y podemos escribir la matriz de transición P por bloques


del siguiente modo.

 
Q R 
P =
  (2.53)
0 I
C

donde Q es una matriz t × t , R es t × (k − t), 0 es (k − t) × t y I es la


2.4. CADENAS ABSORBENTES 25

matriz identidad (k − t) × (k − t). Asi por ejemplo en la cadena del jugador

ez
1 2 3 4 5 0 d
 
1 0 p 0 0 0 1−p 0
 
1 − p
2 0 p 0 0 0 0

 
 
3
 0 1−p 0 p 0 0 0

 
P = 4 1−p p (2.54)
 0 0 0 0 0
 

om

 
5
 0 0 0 1−p 0 0 p

 
 
0
 0 0 0 0 0 1 0

 
d 0 0 0 0 0 0 1

acá
G
 
 0 p 0 0 0
 
1 − p 0 p 0 0
 
 
 
Q=  0
 1−p 0 p 0
 (2.55)
 
ar

1−p
 
 0
 0 0 p

 
0 0 0 1−p 0

 
1 − p 0
es

 
0 0
 

 
 
R= 
 0 0
 (2.56)
 
 

 0 0

 
0 p
C

Observe que al multiplicar iterativamente la matriz P en bloques con


sigo misma tenemos
26 CAPÍTULO 2. CADENAS DE MARKOV EN TIEMPO DISCRETO

    
2
Q R  Q R  Q (I + Q)R 
P2 =  =
 

ez
  
0 I 0 I 0 I

    
2 3 2
 Q (I + Q)R   Q R   Q (I + Q + Q )R 
P3 =    = 
0 I 0 I 0 I

y en general

Pn = 

 Q
0
n

om(I + Q + · · · + Q
I

Para encontrar el límite lı́mn→∞ P n hacemos uso del siguiente resulta-


n−1

)R 
 (2.57)
G
do de algebra lineal

Proposición 3 Sea A una matriz cuadrada con la propiedad de que An →


0, cuando n → 0 entonces
ar


An = (I − A)−1 .
X
(2.58)
n=0

Utilizando este resultado tenemos entonces que


es

 
−1
 0 (I + Q) R 
lı́m P n =   (2.59)
n→∞
0 I

consideremos la interpretación de la matriz límite F R = (I − Q)−1 R.


La matriz es indexada por filas transitorias y columnas absorbentes. la
C

entrada F Rij es la probabilidad a largo plazo (n → ∞) de que la cadena


comenzando en i termine finalmente siendo absorvida en j.
2.4. CADENAS ABSORBENTES 27

Si la cadena de Markov solo posee un estado absorbente, la submatriz


F R vendría siendo un vector columna con (k − 1) componentes, una para
cada estado transitorio.

ez
En lo sucesivo vamos a denominar a la matriz F = (I − Q)−1 la matriz
fundamental.

Ejemplo 14 En el caso de la cadena del jugador (Gambler´s ruin) con

om
probabilidad de ganar p = 0.4 tenemos

1 2 3 4 5 0 d
 
1 0 0.4 0 0 0 0.6 0 
 
2
 0.6 0 0.4 0 0 0 0 

 
 
3
 0 0.6 0 0.4 0 0 0 
 
P = 4

0 0 0.6 0 0.4 0 0 

(2.60)
G
 
 
5
 0 0 0 0.6 0 0 0.4 

 
 
0
 0 0 0 0 0 1 0 
 
d 0 0 0 0 0 0 1
ar

 
 0 0.4 0 0 0
 
0.6 0 0.4 0 0
 
 
 
Q=  0
 0.6 0 0.4 0
 (2.61)
 
es

 
 0 0 0.6 0 0.4
 
 
0 0 0 0.6 0
 
0.6 0
 
 0 0
 
 
 
R=  0 0 (2.62)
C

 
 
 
 0 0 
 
 
0 0.4
28 CAPÍTULO 2. CADENAS DE MARKOV EN TIEMPO DISCRETO

Tenemos que

ez
0 d
 −1    
 1 −0.4 0 0 0  0.6 0 1  0.9519 0.0481 
     
−0.6 1 −0.4 0 0   0 0 2 0.8797 0.1203 
     

     
F R = (I−Q)−1 R =
     
 0
 −0.6 1 −0.4 0 
 0
 0 
 = 3
 0.7714 0.2286 

     
−0.6 −0.4
     
 0 0 1  0 0 4
 0.6090 0.3910 

om

    
     
0 0 0 −0.6 1 0 0.4 5 0.3654 0.6346
(2.63)

2.4.1. Número esperado de visitas a estados transito-


rios
G
Teorema 7 Considere una cadena de Markov abserbente con t estados
transitorios. Considere la matriz fundamental t×t, F = (I −Q)−1 indexada
por estados transitorios, donde Fij es el número esperado de visitas al
ar

estado j dado que la cadena comienza en i. Entonces

F = (I − Q)−1 . (2.64)
es

2.4.2. Tiempo esperado de absorsión

Para una cadena de Markov que comienza en el estado i, sea ai el


tiempo esperado de absorsión es decir el número esperado de pasos
necesarios para alcanzar algún estado absorbente. entonces
C

X
ai = Fij , (2.65)
j∈A
2.4. CADENAS ABSORBENTES 29

donde A es el conjunto de los estados Transitorios.


Asi sumas de las filas de la matriz fundamental dan los tiempos espe-
rados de absobsión de cada estado transitorio.

ez
Ejemplo 15 En el caso de la cadena de la ruina del jugador con d = 6,
tenemos

om
   
1  1.5865 0.9774 0.5714 0.3008 0.1203  3.5564
   
2 1.4662 2.4436 1.4286 0.7519 0.3008  6.3910
   
   
 suma por filas 
F = (I−Q)−1 =
 
3
 1.2857 2.1429 2.7143 1.4286 0.5714 
 → 8.1429
 
   
   
4
 1.0150 1.6917 2.1429 2.4436 0.9774 

8.2707
 
   
5 0.6090 1.0150 1.2857 1.4662 1.5865 5.9624
(2.66)
G
2.4.3. Patrones en secuencias
ar

En genética en ocaciones se hace necesario identificar patrones o se-


cuencias especificas de nucleotidos, en una secuencia completa de ADN.

Ejemplo 16 Una moneda bien balanceada es tirada repetidas veces, cuan-


tos lanzamientos son necesarios en promedio para observar por primera
es

vez el patrón CSSC?

Suponga que los elemnetos de un conjunto S son repetidamente mues-


trados. Un patrón (pattern) de n elementos es una secuencia ordenada
finita (e1 , e2 , . . . , en ) de elementos de S.
C

Veamos un método para problemas que envuelven patrones en mues-


tras aleatorias.
30 CAPÍTULO 2. CADENAS DE MARKOV EN TIEMPO DISCRETO

Para k = 1, 2, . . . , n sea sk = (e1 , e2 , . . . , ek ) la secuencia que consiste


en los primeros k elementos del patrón.

ez
construiremos una cadena de Markov en el espacio de estados S1 =
{0, s1 , s2 , . . . , sn } donde el patrón deseado sn sea el único estado absor-
bente.

El tiempo de absorbsión para esta cadena de Markov es igual al tiem-

om
po en que el patón aparece por primera vez en un muestreo repetido de
elementos de S

Para resolver el ejemplo 16 vamos a construir una cadena en


G
S1 = {0, C, CS, CSS, CSSC}
ar
es
C

Figura 2.2: Secuencia de acido nucleico en formato digital


2.5. CADENAS REVERSIBLES UNA FORMA DE SIMULAR MUESTRAS DE ¡CUALQUIER! DIST

donde el estado CSSC sea el único estado absorbente.

0 C CS CSS CSSC

ez
 
1 1
0  2 2
0 0 0 
 
1 1
C 0 0 0
 
2 2

 
 
P = CS 0 1 1 (2.67)
 2
0 2
0 

 
1 1 
CSS 
2 0 0 0 2


 

om
CSSC 0 0 0 0 1
Entonces acá

 −1    
1
 2
− 12 0 0  4 8 4 2 18
     
1

0 − 21 0  2

8 4 2 16
 
F = (I−Q)−1 = 2
  
  =   suma por filas  
− 21 − 12 
     

 0 1 
2
 6 4 2

14
 
     
− 12
G
0 0 1 2 4 2 2 10
la suma de la primera fila de la matriz fundamental es 18. es decir en
promedio se necesitán 18 lanzamientos para observar CSSC por primera
vez.
ar

2.5. Cadenas Reversibles una forma de simu-


lar muestras de ¡cualquier! distribución
es

Suponga que {Xn : 0 ≤ n ≤ N } es una cadena de Markov irreducible


de estados recurrentes no-nulos, con matriz de transición P y distribución
estacionaria π, suponga más aún que Xn posee distribución π para todo
n.
C

Definición 16 Definimos la “ Cadena en reversa” {Yn } por Yn = XN −n


para n = 0, 1, 2, . . . , N .
32 CAPÍTULO 2. CADENAS DE MARKOV EN TIEMPO DISCRETO

Lo primero que vamos a verificar es que la secuencia Yn también cons-


tituye una cadena de Markov.

ez
Teorema 8 La secuencia Yn = XN −n es una cadena de Markov con pro-
babilidades de transición con probabilidades de transición

πj
pYij = P (Yn+1 = j|Yn = i) = pji . (2.68)
πi

om
Dem 2

P (Yn+1 = in+1 | Yn = in , Yn−1 = in−1 , . . . , Y0 = i0 )

P (Yk = ik : k = 0, 1, . . . , n + 1)
= ,
P (Yk = ik : k = 0, 1, . . . , n)

P (XN −(n+1) = in+1 , XN −n = in , . . . , X0 = i0 )


G
=
P (XN −n = in , . . . , X0 = i0 )

πin+1 pin+1 ,in pin ,in−1 · · · pi1 ,i0


=
πin pin ,in−1 pin−1 ,in−2 · · · pi1 ,i0
ar

πin+1
= pi ,i = pYin ,in+1 .
πin n+1 n
(2.69)
es

Q.E.D

Definición 17 Sea {Xn : 0 ≤ n ≤ N } una cadena de Markov irreducible


tal que Xn posee la distribución estacionaria π para todo n. La cadena se
denomina irreversible Si las matrices de transición de Xn y su cadena en
C

reversa Yn = XN −n son la misma, es decir, si

πi pij = πj pji . para todo i,j. (2.70)


2.5. CADENAS REVERSIBLES UNA FORMA DE SIMULAR MUESTRAS DE ¡CUALQUIER! DIST

ez
Figura 2.3: Caminata aleatoria.

om
Teorema 9 Sea P la matriz de transición de una cadena irreducible Xn ,
suponga que existe una distribución π tal que πi pij = πj pji para todo i y j.
Entonces Xn es una cadena reversible y π es su distribución estacionaria.

Ejemplo 17 [ Algoritmo de Hastings-Metropolis, Tomado de [Link]]


G
Dada una cadena de Markov {Xn } irreducible con probabilidades de
transición pij y cualquier vector de probabilidad positiva para los estados
π = [π1 · · · πd ] (ósea πi > 0 para todo i). Verifique que la cadena de Markov
ar

{Yn } con matriz de transición Q = (qij ) donde

pji X
qij = mı́n(pij , πj ), qii = 1 − qij . (2.71)
πi j6=i
es

1. Verifique que la cadena {Yn } es time-reversible.

2. Verifique que π es la distribución estacionaria de {Yn }.

Sol. Para responder ambos items basta verificar que en realidad


C

πi qij = πj qji . (2.72)


34 CAPÍTULO 2. CADENAS DE MARKOV EN TIEMPO DISCRETO

Observe que si tenemos

πj πi
πi qij = πi pij ⇐⇒ pij < pji ⇐⇒ pij < pji , (2.73)

ez
πi πj
πi
En consecuencia de la última desigualdad qji = p
πj ij
y por tanto

πj qji = πi pij . (2.74)

que teniamos que verificar.

om
Si de otra forma

πj πi
πi qij = πj pji ⇐⇒ pji < pij ⇐⇒ pji < pij (2.75)
πi πj
En consecuencia de la última desigualdad qji = pji y por tanto sustitu-
yendo qji por pji en la primera igualdad
G
πi qij = πj qji . (2.76)

Que se queria probar.


ar

Asi por ejemplo simulando la cadena Yn con n suficientemente grande,


se obtienen muestras de una distribución muy aproximada a π.

2.6. Proceso de Ramificación


es

Son modelos para la evolución de una población.


Suponga que una población se desarrolla o evoluciona en generacio-
nes, sea Zn el número de miembros de la n-ésima generación.
Cada miembro de la n-ésima generación dá lugar a una familia (desen-
C

dencia) posiblemente vacia de miembros de la (n + 1)ésima generación,


Zn constituye una cadena de Markov, solo que es complicado especificar
2.6. PROCESO DE RAMIFICACIÓN 35

su matriz de transición , la metodología que se utiliza en vez hace uso del


concepto de función generadora de probabilidad.
El tamaño de las familias es modelado por una v.a X, hacemos los

ez
siguientes supuestos sobre los tamaños de estas familias:

1. Los tamaños de las familias de los individuos en el proceso de rami-


ficación forman una colección iid de [Link].

om
2. El tamaño de cualquier familia posee la misma función de masa de
probabilidad f (x) en N = {0, 1, 2, 3, . . .}

2.6.1. Función Generadora de probabilidad

Definición 18 La función generadora de probabilidad de una va X es la


función denotada GX (s) definida por
G
GX (s) = E[sX ]. (2.77)

Bajo condiciones de regularidad vastantes “generales” en la función


ar

de dstribución se puede mostrar que si 2 vas X y Y poseen la misma


es
C

Figura 2.4: Proceso de ramificación.


36 CAPÍTULO 2. CADENAS DE MARKOV EN TIEMPO DISCRETO

función generadora de probabilidad, entonces X y Y poseen la misma


distribución.

ez
Ejemplo 18 [Variables constantes]

Si P (X = c) = 1 entonces G(s) = E[sX ] = sc .

om
[variables de Bernoulli]

Si P (X = 1) = p y P (X = 0) = 1 − p entonces G(s) = [sX ] =


s0 · (1 − p) + sp = 1 − p + sp.

[Distribución geométrica]
G
Una v.a X posee distribución geométrica con parámetro p si P (X =
k) = p(1 − p)k−1 para k ≥ 1. tenemos que
ar

G(s) = E[sX ]

sk p(1 − p)k−1
X
=
k=1

es

[s(1 − p)]k
X
= sp
k=0
sp
= .
1 − s(1 − p)
(2.78)
C

[Distribución de Poisson]

Si X ∼ Poiss(λ) entonces
2.6. PROCESO DE RAMIFICACIÓN 37

G(s) = E[sX ],

ez

λk
sk e−λ
X
= ,
k=0 k!

(sλ)k
= e−λ
X
,
k=0 k!
= exp (λ(s − 1)) . (2.79)

om
Entre las aplicaciones de las funciones generadoras de probabilidad
hay 2 aplicaciones importantes.

Para calcular los momentos de una va.

Para facilitar calculos con la distribución da la suma de vas indepen-


dientes.
G
Proposición 4 Si X es una va con f.g.p G(s) entonces

1. E[X] = G0 (1). De forma más general. si mf (k) denota el k-ésimo


ar

momento factorial de X, entonces

2.

mf (k) = E[X(X − 1)(X2 ) · · · (X − K + 1)],


es

= G(k) (1).

donde G(k) denota la k-ésima derivada de la f.g.p G(s).

Proposición 5 Si X y Y son vas independientes entonces


C

GX+Y (s) = GX (s)GY (s). (2.80)


38 CAPÍTULO 2. CADENAS DE MARKOV EN TIEMPO DISCRETO

Ejemplo 19 Suponga que X ∼ Poiss(λ) y Y ∼ Poiss(µ),


entonces X + Y ∼?
Tenemos que

ez
GX+Y (s) = GX (s)GY (s) = exp (λ(s − 1)) exp (µ(s − 1)) = exp ((λ + µ)(s − 1)) .
(2.81)
Por lo tanto X + Y ∼ Poiss(λ + µ).

SN =
N
X
om
Proposición 6 Si X1 , X2 , X3 , . . . una secuencia i.i.d de [Link] con f.g.p co-
mún GX (s) y N es otra va independiente de X1 , X2 , X3 , . . . con f.g.p GN (s).
Entonces para la va SN definida por

Xn = X1 + X2 + · · · + XN , (2.82)
G
n=1

(Suma de un número aleatorio de terminos aleatorios)

GSN (s) = GN (GX (s)). (2.83)


ar

Ejemplo 20 Suponga que una persona con cierta infección tiene contac-
to(está próxima) con N personas durante 1 dia, donde N ∼ Poiss(λ), cada
una de estas personas puede o no contraer la infección de manera inde-
es

pendiente con probabilidades p y 1 − p respectivamente.


Cúal es la probabilidad de que 0, 1, 2, 3, . . . etc. Se infecten durante 1
dia.
Sol: Observe que el número de personas que la primera alcanza a
infectar en el dia es SN donde
C

SN = X1 + X2 + · · · + XN , (2.84)
2.6. PROCESO DE RAMIFICACIÓN 39

donde



 1 con prob p.

ez
Xi =  (2.85)
 0 con prob (1 − p).

Para conocer algo hacerca de la distribución de SN calculamos su f.g.p

GSN (s) = GN (GX (s)). (2.86)

om
donde GN (s) = exp (λ(s − 1)) y GX (s) = 1 − p + sp. por lo tanto

GSN (s) = GN (GX (s))

= exp (λ(1 − p + sp − 1))

= exp (λp(s − 1)) . (2.87)


G
es decir SN ∼ Poiss(λp).
ar

2.6.2. Volviendo al Proceso de Ramificación

Denotemos por Gn (s) = E[sZn ], la f.g.p de la n-ésima generación. En-


tonces
es

Proposición 7 Sea G(s) la f.g.p común de los tamaños de las familias.


Entonces tenemos que:

1. Gm+n (s) = Gm (Gn (s)). de donde


C

2.
Gn (s) = G(G(G(· · · ))) (2.88)
| {z }
n composiciones
40 CAPÍTULO 2. CADENAS DE MARKOV EN TIEMPO DISCRETO

En los procesos de ramificación es de primera importancia la siguiente


probabilidad

ez
lı́m P(Zn = 0) = P (De Extinción final) . (2.89)
n→∞

Proposición 8 Sea µ = E[Z1 ] , σ 2 = Var[Z1 ] la media y la varianza del


tamaño de una familia en general. Entonces

om
E[Zn ] = µn .



 nσ 2 si µ = 1.
var[Zn ] = 2 n n−1
(2.90)
 σ (µ −1)µ

, si µ 6= 1.
µ−1

Teorema 10 Sea
G
η = lı́m
n→
P (Zn = 0) = P (De Extinción final) . (2.91)

Entonces η es la menor raíz no-negativa de la ecuación G(s) = s.


Además
ar

η = 1 si µ < 1.

η < 1 si µ > 1.
es

Si µ = 1 entonces η = 1 siempre y cuando la distribución del tamaño


de las familias posee una varianza estrictamente pósitiva.
C
ez
Capítulo 3

om
Un ejemplo de estimación
Bayessiana.

Este cápitulo se basa en la referencia [5]. El propósito de este cápitulo


G
consiste en exponer los principios elementales de la metodología Bayes-
siana para la estimación de la matriz de probabilidades de transición de
una cadena de Markov en tiempo discreto. A nivel conseptual una de las
ar

mayores ventajas de la metodología Bayessiana es la facilidad con que


las ideas básicas se pueden exponer.
Uno de los objetivos típicos de la estadística consiste en indagar sobre
el valor de uno o varios parámetros, que representaremos por θ y que
es

caracterizan la evolución de un fenómeno estocástico de interés.


Para conocer algo sobre el valor de θ, el fenómeno es observado y se
registran datos muestráles x = (x1 , x2 , x3 , . . . , xn ). Con estos se calcula la
densidad condicional o función de probabilidad de los datos dado el valor
de θ que denotamos por f (x|θ).
C

Esta densidad condicional, cuando se la considera como función de


los parámetros θ se denomina generalmente función de verosimilitud y es

41
42 CAPÍTULO 3. UN EJEMPLO DE ESTIMACIÓN BAYESSIANA.

denotada por l(θ|x) o l(θ|data) cuando la notación deviene muy engorrosa.


En lo sucesivo vamos a suponer que X = (X1 , X2 , . . . , Xn ) son con-
dicionalmente independiente e identicamente distribuidas (ciid) dado

ez
θ.
A parte de la función de verosimilitud, la metodología Bayessiana tam-
bién tiene en cuenta otra fuente de información sobre los parámetros θ.
En muchas ocaciones un analista puede tener acceso a otras fuentes ex-

om
ternas de información como por ejemplo la información proporcionada por
expertos, o información basada en experiencias anteriores o otros estu-
dios previos relacionados. Esta información externa es incorporada en el
análisis Bayessiano por medio de una función distribución f (θ) denomi-
nada distribución apriori, nos referiremos simplemente a la apriori.
La apriori y la función de verosimilitud se pueden combinar via el teo-
G
rema de Bayes para conseguir la denominada distribución aposteriori
f (θ|x).
De forma más precisa el teorema de Bayes propone que
ar

f (x|θ)f (θ)
f (θ|x) = R ∝ f (x|θ)f (θ) (3.1)
f (x|θ)f (θ)dθ
Es decir la distribución aposteriori es la distribución de los parámetros
dada la muestra observada x. La aposteriori resume toda la información
es

disponible sobre el parámetro y puede utilizarce para resolver los proble-


mas básicos de la estadística como estimación puntual o por intervalos o
pruebas de hipótesis.

Ejemplo 21 Se intenta modelar el logaritmo Xi , de los flujos que ingresan


en una represa en un mes determinado. Suponemos que X1 , X2 , . . . , Xn
C

son ciid N (θ, σ 2 ) dados θ y σ 2 . Donde se supone que σ 2 es conocida. En


ausencia de información apriori podría utilizarce una distribución apriori
43

uniforme, impropia para θ, ó sea f (θ) ∝ 1. En general cuando una apriori


hace pocos supuestos sobre el valor de θ se la denomina una apriori no
informativa.

ez
Algunas cuentas simples muestran que

" #!
n θ2 − 2x̄θ
f (θ|x) ∝ exp − (3.2)
2 σ2
por lo tanto

om
θ|x ∼ N x̄,
σ2
n
!

Ahora vamos a suponer que se dispone de información apriori sobre el


parámetro θ y que puede ser modelada como θ ∼ N (µ0 , σ02 ). Como antes,
algunas cuentas simples muestran que
(3.3)
G
" # " #!
θ2 n 1 nx̄ µ0
f (θ|x) ∝ exp − + 2
− 2θ + 2 (3.4)
2 σ 2 σ0 σ2 σ0
y por consiguiente
ar

 !−1 
nx̄/σ 2 + µ0 /σ02 n 1
θ|x ∼ N  2 2
, 2
+ 2  (3.5)
n/σ + 1/σ0 σ σ0

Note que cuando se hace la varianza de la apriori cresca indefinida-


es

mente (σ02 → ∞) entonces la distribución apriori aproxima una distribución


uniforme y la distribución aposteriori aproxima la distribución en (3.2)

3.0.1. La distribución beta


C

La distribución beta proporciona densidad pósitiva solo para X dentro


de un intervalo finito.
44 CAPÍTULO 3. UN EJEMPLO DE ESTIMACIÓN BAYESSIANA.

Definición 19 Decimos que una va X que toma valores en el intervalo


[0, 1] posee una distribución beta estándar con parámetros α > 0 y β > 0
y escribimos X ∼ Be(α, β) si la pdf de X es

ez
Γ(α + β) α−1
b(x; α, β) = x (1 − x)β−1 , 0≤x≤1 (3.6)
Γ(α)Γ(β)
R ∞ α−1 −x
Donde Γ(α) = 0 x e dx es la función gamma.
Γ(α)Γ(β)
La función beta es B(α, β) =

om
Γ(α+β)

G
Figura 3.1: Distribución beta.
ar

También se puede definir la distribución beta para una va X que tome


valores en un intervalo [A, B] en este caso la densidad es
es

α−1  β−1
1 1 x−A B−x

f (x; α, β, A, B) = (3.7)
B − A B(α, β) B − A B−A

La média y la varianza de esta distribución, están dadas por


C

α (B − A)2 αβ
µ = A + (B − A) · , σ2 = . (3.8)
α+β (α + B)2 (α + β + 1)
En el caso de la distribución beta estándar A = 0 y B = 1.
45

Ejemplo 22 Un problema clásico de la teoría de los procesos estocásti-


cos se conoce como el problema de la ruina del jugador. Un jugador con
un monto inicial de $x0 , apuesta al lanzamiento de una moneda, en cada

ez
turno, el apostador gana o pierde $1 dependiendo de si la moneda cae
cara o sello. El apostador continua a jugar hasta que quede en bancarro-
ta o bien con sus ganancias alcance un monto digamos $m. Sea Xn el
tamaño del monto del jugador despues de n turnos. Suponemos que los

om
lanzamientos de la moneda son iid con probabilidad p de que caiga en
cara, en cada turno. Entonces Xn es una cadena de Markov homogenea
con

p00 = pmm = 1, pii+1 = p, pii−1 = 1 − p, para i = 1, 2, . . . , m − 1.


G
pij = 0, para i ∈ {0, 1, . . . , m} y j 6= i.

(3.9)

Supongamos ahora que el jugador no conoce el valor exacto de (θ =)p


ar

de que la modeda caiga cara. Sin embargo el jugador “cree” con un cierto
grado de incertidumbre que la modena puede estar ligeramente sesgada.

Dicha incertidumbre sobre el parámetro p es representada por medio


es

de una apriori que consiste en una distribución beta simétrica, centrada


en 0.5. (p ∼ Be(5, 5)).
Vamos a suponer también que antes de que el juego comience en
serio, el jugador tiene la oportunidad de observar 12 lanzamientos de la
moneda sin costo.
C

Vamos a suponer que en los 12 lanzamientos el jugardor observa 9


caras y 3 sellos. Entonces la distribución aposteriori sería
46 CAPÍTULO 3. UN EJEMPLO DE ESTIMACIÓN BAYESSIANA.

f (p|x) ∝ f (x|p)f (p)

ez
!
12 9 1
∝ p (1 − p)3 p5−1 (1 − p)5−1
9 B(5, 5)

∝ p14−1 (1 − p)8−1 .

om
(3.10)

Por lo tanto

p|x ∼ Be(14, 8).

FIGURA
G
3.1. Estimación de parámetros

La distribución aposteriori puede utilizarce para estimación puntual.


ar

Por ejemplo si se quiere resumir una distribución por una medida de ten-
dencia central, entonces se puede utilizar por ejemplo la media aposteriori

Z
es

E[θ|x] = θf (θ|x)dθ. (3.11)

O en el caso univariado, por medio de la mediana aposteriori

θmed ∈ {y : P (θ ≤ y) = 1/2; P (θ ≥ y) = 1/2}. (3.12)

ó por medio de una moda aposteriori


C

θmod = arg máx f (θ|x). (3.13)


3.2. PREDICCIÓN 47

Ejemplo 23 Así en el ejemplo (21) la distribución aposteriori es una nor-


mal, que es simétrica y unimodal. Por lo tanto la media , la mediana y la
moda son todas iguales.

ez
En particular en el caso en que una apriori uniforme fue utilizada todas
estas estimaciones puntuales resultaron ser iguales a x̄, el cual es el MLE
de θ.
Cuando una apriori informativa se utilizó , todas las estimaciónes pun-

om
tuales acavaron siendo iguales a

! !
nx̄/σ 2 + µ0 /σ02 n/σ 2 1/σ02
= x̄ + µ0 (3.14)
n/σ 2 + 1/σ02 n/σ 2 + 1/σ02 n/σ 2 + 1/σ02
que corresponde a una media ponderada del MLE y la media apriori
con pesos proporcionales a las precisiones del MLE y la media apriori
G
respectivamente.

En el caso del ejemplo 22, la distribución aposteriori es asimétrica y


por lo tanto la media , la mediana y la moda son diferentes, en particular.
ar

Estimación aposteriori
p̂med 0.6364
p̂med 0.6406
p̂mod 0.65
es

Cuadro 3.1

3.2. Predicción
C

En muchas aplicaciones también es importante la predicción de obser-


vaciones futuras. En el caso de procesos estocásticos dependiendo de la
48 CAPÍTULO 3. UN EJEMPLO DE ESTIMACIÓN BAYESSIANA.

aplicación se hace importante predecir el comportamiento a corto o largo


plazo.
Para la predicción de valores futuros Y del fenómeno de interés, se

ez
utiliza una distribución predictiva.
Para esto, dada una muestra de datos x, si supieramos el valor de
θ utilizaríamos la distribución predictiva condicional f (y|x, θ), ahora bien
la incertidumbre en el valor de θ es modelada a travéz de la aposteriori

om
f (θ|x), integrando ambas obtenemos la densidad predictiva

Z
f (y|x) = f (y|x, θ)f (θ|x)dθ. (3.15)

Note que en el caso en que los valores muestreados del fenómeno


sean condicionalmente IID la expresión (3.15) se simplifica a
G
Z
f (y|x) = f (y|θ)f (θ|x)dθ. (3.16)

sin embargo esta simplificación no es posible en general para predecir


ar

los valores futuros de un proceso estocástico. La densidad predictiva pue-


de utilizarse para obtener pronósticos puntuales o por intervalos de las
observaciones futuras.
es

Ejemplo 24 En el ejemplo 21 para predecir la próxima observación Y =


Xn+1 , en el caso en que una apriori uniforme fué aplicada , tenemos que

n+1 2
Xn+1 |x ∼ N (x̄, σ ). (3.17)
n

Entonces un intervalo de probabilidad predictivo al 100(1 − α) % es


C

q q
[x̄ − zα/2 σ (n + 1)/n, x̄ + zα/2 σ (n + 1)/n] (3.18)
3.2. PREDICCIÓN 49

Ejemplo 25 En el ejemplo del apostador, supongase que el jugador co-


mienza el juego con un monto inicial de x0 = 2 y que gana retirandose del
juego si alcanza un monto de d = 10.

ez
El jugador puede estar interesado en la probabilidad de ruina en los
próximos turnos, por ejemplo:

Es claro que P (x1 = 0|x) = 0.

om
Z 1
P (x2 = 0|x) = (1 − p)2 f (p|x)dp,
0
Z 1
1
= (1 − p)2 p13 (1 − p)7 dp
0 B(14, 8)
B(14, 10)
= = 0.1423. (3.19)
B(14, 8)
En forma similar se obtiene que P (x3 = 0|x) = 0.1423.
G
También

Z 1
P (x4 = 0|x) = (1 − p)2 [1 + 2p(1 − p)]f (p|x)dp
ar

0
1
= [B(14, 10) + 2B(15, 11)] ,
B(14, 8)
= 0.2087. (3.20)

Estas probabilidades se deducen de


es

0 1 2 3 4 5 0 1 2 3 4 5
   
0 1 0 0 0 0 0  1 0 0 0 0 0
   
 (1 − p)
1 0 p 0 0   (1 − p)
0 0 p 0 0 0


   
P2 =
C

2 0 (1 − p) 0 p 0 0 0 (1 − p) 0 p 0 0
   

   
   
3
 0 0 (1 − p) 0 p 0 
  0 0 (1 − p) 0 p 0

   
4 0 0 0 (1 − p) 0 p 0 0 0 (1 − p) 0 p
50 CAPÍTULO 3. UN EJEMPLO DE ESTIMACIÓN BAYESSIANA.

0 1 2 3 4 5
 
1 0 0 0 0 0

ez

 
0 1 2 3 4 5  (1 − p) 0 p 0 0 0
  



2 (1 − p)2 0 2p(1 − p) 0 p 0 0 (1 − p) 0 p 0 0 P =
 

 
 

 0 0 (1 − p) 0 p 0

 
0 0 0 (1 − p) 0 p

2

0

(1 − p)2
1

2p(1 − p)2
2

?om 3

?
4

?
5









 (1 − p)
 
0
0
0

1
1

0
0
(1 − p)
0
2

0
p
0
(1 − p)
3

0
0
p
0
4

0
0
0
p
5

0
0


0



0

=


G
 
0 0 0 (1 − p) 0 p

3.3. Estimación para cadenas de Markov en tiem-


ar

po discreto homogeneas

En esta sección se aplicaran los conceptos básicos de estadística ba-


yesiana para estimar la matriz de transición P de una cadena de Markov
es

homogenea Xn en el espacio de estados S = {1, 2, 3, . . . , K}.


Suponemos que en cierta experiencia se han observado m transicio-
nes sucesivas de la cadena de markov, digamos X1 = x1 , . . . , Xm = xm
dado un estado inicial X0 = x0 .
En esta caso la función de verosimilitud es
C

K Y
K
Y nij
l(P |x) = pij , (3.21)
i=1 j=1
3.3. ESTIMACIÓN PARA CADENAS DE MARKOV EN TIEMPO DISCRETO HOMOGENEAS 51

donde nij ≥ 0 es el número observado de transiciones del estado i


PK PK
al estado j y i=1 j=1 nij = m.
se puede mostrar que con la verosimilitud en (3.21) el estimador clá-

ez
sico de máxima verosimilitud de P es la matriz P̂ con entradas que son
las correspondientes proporciones observadas de transiciones, así

K
nij X
p̂ij = , donde ni· = nij . (3.22)
ni· j=1

om
Sin embargo, especialmente en cadenas donde el número de estados
K es grande y por lo tanto el número de transiciones posibles K 2 es tam-
bién grande, algunas transiciones pueden no ser observadas por lo que
en la correspondiente estimación obtendríamos p̂ij = 0.

3.3.1. Distribuciones apriori conjugadas


G
Una distribución apriori natural para P (con K = 3, pero realmente se
puede para cualquier valor de K) consiste en asignar a pi = (pi1 , pi2 , pi3 )
una distribución de Dirichlet, ó sea
ar

pi ∼ Dir(αi ), donde αi = (αi1 , αi2 , αi3 ) (3.23)

y
es

Γ (αi1 + αi2 + αi3 ) αi1 −1 αi2 −1


f (pi ) = p pi2 (1 − pi1 − pi2 )αi3 −1 . (3.24)
Γ(αi1 )Γ(αi2 )Γ(αi3 ) i1
La distribución de Dirichlet k-variada para un vector
X = (X1 , X2 , . . . , XK ) ∼ Dir(Θ) es
C

P 
K
Γ i=1 θi
K K
θi −1
Y X
f (x) = QK xi , 0 < xi < 1, xi = 1. (3.25)
i=1 Γ(θi ) i=1 i=1
52 CAPÍTULO 3. UN EJEMPLO DE ESTIMACIÓN BAYESSIANA.

donde θi > 0 para i = 1, 2, l . . . , K, y

K
θj θj (θ0 − θj )

ez
X
E[Xj ] = , V [Xj ] = 2 , con θ0 = θi . (3.26)
θ0 θ0 (θ0 + 1) i=1

Dada la distribución apriori en (3.24) y la verosimilitud en (3.21) la dis-


tribución aposteriori también posee la misma forma, de modo tal que

om
0 0
pi |x ∼ Dir(αi ), donde αij = αij +nij , para i, j = 1, 2, . . . , K. (3.27)

Cuando hay poca información apriori disponible, una posibilidad na-


tural es utilizar una distribución Beta matricial con αij = 1/2 para todo
i, j = 1, 2, . . . , K (que se denomina la aproiori de Jeffrey).

Ejemplo 26 Los niveles de lluvia en varias áreas de Sydney son regis-


trados por el centro climatológico de Australia. Los siguientes datos son
G
tomados de [Link] y registran la ocurrencia (2) o la no ocu-
rrencia (1) de lluvia entre Febrero 1 y Marzo 20, 2008. Los datos deben
ser leidos consecutivamente de izquierda a derecha.
ar

2 2 2 2 2 2 2 2 2 2
1 1 2 1 1 1 1 1 1 1
2 2 1 1 1 1 2 2 2 1
2 1 1 1 1 1 2 1 1 1
es

1 1 1 1 1 1 1 1 1

La ocurrencia diaria de lluvia es modelada por medio de una cadena


de Markov con matríz de transición
C

 
 p11 1 − p11 
P =  (3.28)
1 − p22 p22
3.4. PREDICCIÓN EN EL CORTO PLAZO 53

Utilizando una distribución apriori de Jeffrey, donde pii ∼ Be(1/2, 1/2),


para i = 1, 2, condicionado en que a llovido en Febrero 1, la distribición
aposteriori para la matriz de transición biene dada por

ez
p11 |x ∼ Be(25.5, 5.5), p22 |x ∼ Be(12.5, 6.5). (3.29)

La media aposteriori de la matriz de transición P es

om
 
0.823 0.177
E[P |x] =   (3.30)
0.342 0.658

3.4. Predicción en el corto plazo


G
Suponga que se quieren predecir valores futuros de la cadena. Por
ejemplo si quicieramos predecir el próximo valor de la cadena, es decir el
valor en el instante n + 1, consideramos
ar

Z
P (Xn+1 = j|x) = P (Xn+1 = j|x, P )f (P |x)dP
Z
= pxn j f (P |x)dP
es

= E[pxn ,j |x]

α xn j + n xn j
= .
αxn · + nxn ·
(3.31)
C

PK PK
Donde αi · = j=1 αij y similarmente ni· = j=1 nij .
La predicción de un estado t > 1 periodos hacia el futuro deviene
54 CAPÍTULO 3. UN EJEMPLO DE ESTIMACIÓN BAYESSIANA.

ligeramente más complicada. Para t pequeño se puede usar

ez
Z
P (Xn+1 = j|x) = (P t )xn j f (P |x)dP , (3.32)

Esta expresión al final resulta en una suma valores esperados bajo la


distribución de Dirichlet. Ahora bien a medida que el valor de t aumenta,

om
la expresión (3.15) se hace computacionalmente pesada. Una alternati-
va simple consiste en utilizar un algoritmo Monte Carlo para simular los
valores futuros de la cadena del siguiente modo:

For r = 1, . . . , N :
Generate P (r) from f (P |x).
(r) (r)
Generate xn+1 , . . . , xn+t de la cadena de Markov con P (r)
G
y estado inicial xn .
1 PN
Entonces, P (Xn+t = j|x) ≈ N r=1 Ix(r) =j I es una función indicadora
n+t
1 PN (r)
y E[Xn+t |x] ≈ N r=1 xn+t .
ar

Ejemplo 27 Suponiendo que ahora se quiciera predecir el estado del tiem-


po en Sydney en Marzo 21 y 22. Dado que no ha llovido en Marzo 20,
es

entonces tendriamos

P (sin lluvia en Marzo 21|x) = E[p11 |x] = 0.823,

P (sin lluvia en Marzo 22|x) = E[p211 + p12 p21 |x] = 0.742,


C

P (sin lluvia en ambos |x) = E[p211 |x] = 0.681,


3.5. PREDICCIÓN EN EL RÉGIMEN ESTACIONARIO (LARGO PLAZO)55

3.5. Predicción en el régimen estacionario (lar-


go plazo)

ez
Comunmente también puede haber interés en la distribución estacio-
naria de la [Link] predicción de valores futuros ara cadenas en un
espacio de estados de baja dimensión no ofrese mayores dificulatades
debido a que la distribución estacionaria o de equilibrio puede ser calcu-

om
lada de forma exacta.
 
 p11 1 − p11 
Ejemplo 28 Supongamos que K = 2 y P =  .
1 − p22 p22
entonces la probabilidad en equilibrio (estacionaria) de estar en el es-
tado 1 biene dada por

1 − p22
G
π1 =
2 − p11 − p22
y la distribución predictiva estacionaria es

1 − p22
ar
Z 1Z 1
E[π1 |x] = π1 = f (p11 , p22 |x)dx (3.33)
0 0 2 − p11 − p22
la cual puede ser evaluada con alguna técnica numérica de integra-
ción.
es

Ejemplo 29 En el ejemplo del modelamiento de lsa lluvia en Sydney, se


tiene " #
1 − p22
E[π1 |x] = E π1 = x = 0.655. (3.34)
2 − p11 − p22
Es decir la predicción es que no habrá lluvia en aproximadamente 65 %
de los dias en la región.
C

Para cadenas de dimemnsión mas alta, es más simple utilizar el méto-


do de Monte Carlo para muestrear P (1) , . . . , P (N ) a partir de la distribución
56 CAPÍTULO 3. UN EJEMPLO DE ESTIMACIÓN BAYESSIANA.

aposteriori de P , entonces la distribución estacionaria puede se estimada


como

ez
N
1 X
E[π|x] ≈ π (r) . (3.35)
N r=1

om
G
ar
es
C

También podría gustarte