Stochastic Processes PDF
Stochastic Processes PDF
Procesos Estocásticos
Versión Preliminar
NOTAS DE CLASE
PROCESOS ESTOCÁSTICOS
Versión Preliminar
No está permitido reproducir esta publicación o transmitirla por cualquier forma o medio, electrónico, mecánico, fotocopiado, escaneo ó
de otro tipo excepto para citas cortas, sin el permiso de la Editorial.
1. Probabilidades—Teorı́a. 2. Matemáticas
519.2
G887c
Diagramación en LaTeX.
Impresión:
Editorial ...
Índice general
1. Teorı́a de Probabilidades 1
1.6. Martingalas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.7. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.8. Soluciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.1. Desigualdades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
v
vi
2.3. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.4. Soluciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3. Procesos Estocásticos 45
3.4. Causalidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.4.1. Ergodicidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.6. Aplicaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.7. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.8. Soluciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.3. Aplicaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
4.4. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
4.5. Soluciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
B. Notas 209
Índice de figuras
ix
x
CAPÍTULO 1
Teorı́a de Probabilidades
"He who loves practice without theory is like the sailor who boards ship without a rudder and
compass and never knows where he may be cast.- Leonardo da Vinci, 1452-1519
Definición 1.1.2. Una σ-álgebra F sobre Ω es una colección de subconjuntos de Ω que satisfacen
las siguientes condiciones:
1. Ω∈F
2. A ∈ F ⇒ Ac ∈ F
n
3. Si {A1 , A2 , · · ·} es una sucesión de elementos de F entonces Ai ∈ F.
i=1
1
2
Los subconjuntos de Ω que est án en F se llaman eventos. Luego A ∈ F equivale a afirmar que
A es un evento y A ⊆ Ω .
Definición 1.1.3. Una probabilidad P(.) es una funci ón P : F −→ [0, 1] que cumple las condi-
ciones:
1. P(Ω) = 1
2. P(φ) = 0
Proposición 1.1.1. Suponga que P es una probabilidad sobre una σ- álgebra F y que toda A es
un evento, entonces las siguientes propiedades son consecuencia de las propiedades anteriores.
1. P(Ac ) = 1 − P(A).
Los tres elementos (Ω, F , P ) se asumen dados. Es evidente que F ⊆ P(Ω), donde P(Ω) es el
conjunto de partes de Ω, sin embargo la σ-álgebra no se toma en general igual a P(Ω) sino que
se asume que es un conjunto más pequeño, concretamente se asume que contiene solamente los
eventos que interesan con respecto al experimento aleatorio en consideración.
2. Si A, B ∈ F la colección
Note que A1 ⊂ A2 ⊂ F y que A1 es la menor σ-álgebra que contiene la colecci ón {A}, y A2 es
la menor σ-álgebra que contiene la colecci ón {A, B}.
Teorema 1.1.1. Dada una colección de eventos A = {A, B, · · ·} ⊆ F siempre existe una
σ-álgebra mı́nima que la contiene, la σ- álgebra generada por A , σ(A).
1. R ∈ B1 , φ ∈ B1
A = {(−∞, a] × (−∞, b] : a, b ∈ R}
A = {(−∞, a1 ] × · · · × (−∞, an ] : a1 , · · · an ∈ R}
Definición 1.1.8. La notaci ón X : Ω → R se refiere a una función con dominio Ω y rango
X(Ω) ⊆ R. Si B ⊆ R la notaci ón X −1 (B) define el subconjunto de Ω dado por
X −1 (B) = {ω ∈ Ω : X(ω) ∈ B}
Definición 1.1.9 ( Variable Aleatoria ). Una funci ón X : Ω → R se dice variable aleatoria si
para cada B ∈ B1 se cumple que X −1 (B) ∈ F.
2. (X ≤ a) ∈ σ(X) ∀a ∈ R
El lı́mite a izquierda es
lı́m FX (x) = FX (a−) = P(X < a)
x↑a
En general P(X < a) ≤ P(X ≤ a). La función FX (x) frecuentemente toma dos formas:
1. FX (x) constante excepto por saltos en una serie de puntos En este caso los saltos son iguales
a la diferencia FX (xi ) − FX (xi −) = P(X ≤ xi ) − P(X < xi ), y la variable aleatoria se
dice discreta. Los valores de los saltos son las probabilidades P(X = x i ).
x
∞
2. FX (x) = fX (u)du para una función fX (u) que es positiva e integrable, con fX (u)du =
−∞ −∞
1. Si fX (u) es continua en x se tiene FX (x) = fX (x).
Definición 1.1.12 ( Información generada por (X1 , X2 )). Es la σ-álgebra generada por la
colección de eventos A = (X1 , X2 )−1 (B) : B ∈ B2 y se denota por σ(X1 , X2 ).
Nota 1.1.1. En σ(X1 , X2 ) están por ejemplo todos los eventos de la forma
(X1 ≤ a , X2 ≤ b). También σ(X1 , X2 ) = (X1 , X2 )−1 (B2 ) es la imágen inversa de la σ-álgebra
B2 . Además σ(X1 , X2 ) ⊆ F y se tiene σ(X1 ) ⊆ σ(X1 , X2 ) y σ(X2 ) ⊆ σ(X1 , X2 )
(X1 , X2 , · · · , Xn ) : Ω → Rn
6
que cumple
(X1 , X2 , · · · , Xn )−1 (B) ∈ F para cada B ∈ Bn
donde
Note que en esta σ-álgebra están los conjuntos de la forma (X1 ≤ x1 , · · · , Xn ≤ xn ) para
x1 , · · · , xn ∈ R
Definición 1.1.16 ( Función de distribución conjunta de (X1 , X2 , · · · , Xn )).
Como (X1 ≤ x1 , X2 ≤ x2 , · · · , Xn ≤ xn ) es un evento, su probabilidad depende de (x 1 , x2 , · · · , xn)
y la funci ón ası́ definida se denomina funci ón de distribuci ón conjunta y se denota por
donde E(Xi ) = µi , V ar(Xi ) = σi2 , Cov(X1 , X2 ) = ρσ1 σ2 , si la fdp conjunta est á dada por:
2 2
1 1 x1 − µ1 x2 − µ2
f(x1 , x2) = exp − +
2πσ1 σ2 1 − ρ 2 2(1 − ρ2 ) σ1 σ2
x1 − µ1 x2 − µ2
−2ρ
σ1 σ2
obtenemos 2
x1 −µ1
1
fX1 (x1 ) = √ e− 12 σ1
σ1 2π
8
por tanto,
f(x1 , x2 )
fX2 (x2 | X1 = x1 ) =
fX1 (x1 )
1 x2 − µ2 − ρ σ21 (x1 − µ1 ) 2
σ
1
= √ exp −
2πσ2 1 − ρ2 2 σ2 1 − ρ2
de donde
σ2
X2 | X1 = x1 ∼ N (µ2 + ρ (x1 − µ1 ) , σ22 (1 − ρ2 ))
σ1
Cov(X1 ,X2 )
Nótese que ρ σσ21 = V ar(X1 )
.
0.4(4)
Solución. X2 | X1 = 1 ∼ N (2 + 1 (1 − 1), 42 (1 − 0.42 )) = N (2, 42(1 − 0.42 )) =
N (2, 13.44) luego
1−2
P(X2 > 1 | X1 = 1) = P(N (2, 13.44) > 1) = 1 − φ( √ ) = 1 − φ(−0.272) = 0.60
13.44
f(x1 , x2 , · · · , xn )
fXn (xn | X1 = x1 , X2 = x2 , · · · , Xn−1 = xn−1 ) = ,
fX1 ,X2 ,··· ,Xn−1 (x1 , x2 , · · · , xn−1 )
Ejercicio 1.2.1. Suponga que el vector (X, Y, Z) tiene fdp conjunta dada por
1 −z
f(x, y, z) = e θ para θ>0 y 0 < x < y < z.
θ3
Compruebe que
1 −y
1. fX,Y (x, y) = e θ , 0<x<y
θ2
9
1 − z−y
2. fZ (z | X = x, Y = y) = e θ , 0<x<y<z
θ
3. E(Z | X = x, Y = y) = θ + y
Igualmente
E(Y | X1 = x1 , X2 = x2 , · · · , Xn = xn )
es una función de (x1 , x2 , · · · , xn ) y E(Y | X1 , X2 , · · · , Xn ) es una función real del vector
(X1 , X2 , · · · , Xn ) y es una variable aleatoria.
Propiedades
E(Y | X1 , X2 , · · · , Xn ) = E(Y )
E(Y | X1 , X2 , · · · , Xn ) = Y
E(X1 | X1 , X2 , · · · , Xn ) = X1
10
E(c | X1 , X2 , · · · , Xn ) = c
Demostración.
∞
E(E(Y | X)) = E(Y | X = x)fX (x)dx
−∞
∞ ∞
= yfY (y | X = x)fX (x)dydx
−∞ −∞
4. E(E(Y | X1 , X2 , · · · , Xn ) = E(Y )
5. Si 1 ≤ k < n entonces
E(E(Y | X1 , X2 , · · · , Xn ) | X1 , , X2 , · · · , Xk ) = E(Y | X1 , X2 , · · · , Xk )
E(E(Y | X1 , X2 , · · · , Xk ) | X1 , X2 , · · · , Xn ) = E(Y | X1 , X2 , · · · , Xk )
E(g(X)Y | X) = g(X)E(Y | X)
además
E(g(X)Y | X = x) = g(x)E(Y | X = x)
11
por tanto
V ar(Y | X) = E(Y 2 | X) − E2 (Y | X)
que es otra expresión equivalente para la esperanza condicional de Y dado X.
2. E(Z) = θ + E(Y ).
Demostración. Nótese que E(V ar(Y | X)) = E(E(Y 2 | X)) − E(E2 (Y | X)). Luego, usando
la propiedad 3) tenemos E(E(Y 2 | X)) = E(Y 2 ), por tanto
En algunos problemas se define la fdp condicional directamente, por ejemplo, se dá la expresión
para fY (Y | X = x). Entonces se denota
Y | X = x ∼ fY (Y | X = x)
Ejemplo 1.2.5. De la distribuci ón Exponencial de parámetro θ sabemos que si Y ∼ ExP(θ), θ >
0 entonces fY (y) = (1/θ)e−y/θ , y ≥ 0, E(Y ) = θ, V ar(Y ) = θ2 . Suponga que X ∼ U [− 31 , 13 ]
y Y | X ∼ ExP(3X + 1). Entonces
1
e−
y
fY (y | X = x) = 3x+1
3x + 1
y tenemos E(Y | X) = 3X + 1 y V ar(Y | X) = (3X + 1)2 por lo tanto, aplicando propiedades
de esperanza condicional:
E(Y ) = E(E(Y | X)) = 3E(X) + 1 = 1
V ar(Y ) = E(V ar(Y | X)) + V ar(E(Y | X)) = E((3X + 1)2 ) + V ar(3X + 1)
= E(9X 2 + 6X + 1) + 9V ar(X) = 9E(X 2 ) + 6E(X) + 1 + 9V ar(X) = 1 + 2/3.
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Generaciones = 9
Ejemplo 1.3.1. En la figura (1.1) se muestra un ejemplo de una realizaci ón de un proceso GW,
asumiendo X0 = 1, y la distribuci ón de las variables Zj (n) dada por p k = 0.3, 0.3, 0.2, 0.1, 0.1,
para k = 0, 1, 2, 3, 4. El programa para graficaci ón en Matlab es de R.Gaigalas e I.Kaj 1 .
Ahora calculamos la esperanza y la varianza del proceso Xn , utilizando algunas de las propiedades
de la esperanza condicional.
Xn
E(Xn+1 | Xn ) = E Zj (n) | Xn = Xn E(Zj (n) | Xn ) = Xn µ
j=1
luego
E(Xn+1 ) = E(E(Xn+1 | Xn )) = µE(Xn ) n = 0, 1, 2, · · ·
por tanto
E(Xn ) = µn E(X0 )
1 http://www.math.uu.se/ ikaj/courses/matlab/
14
2. Cálculo de V ar(Xn ). Utilizando V ar(Y ) = E(V ar(Y | X)) + V ar(E(Y | X)) con
Y = Xn+1 , X = Xn obtenemos
Xn
V ar(Xn+1 | Xn ) = V ar Zj (n) | Xn = σ 2 Xn
j=1
y
Xn
E(Xn+1 | Xn ) = E Zj (n) | Xn = µXn
j=1
luego
E(V ar(Xn+1 | Xn )) = σ 2 E(Xn )
y
V ar(E(Xn+1 | Xn )) = µ2 V ar(Xn )
luego
luego
2
σn+1 = µ2 σn2 + σ 2 µn E(X0 ) , n = 0, 1, · · ·
σn2 = µ2 σn−1
2
+σ µ2 n−1
E(X0 ) , n = 1, 2, · · ·
n
Utilizando x n = axn−1 + bn , n = 1, 2, · · · de donde xn = an x0 + a−j bj , n =
j=1
1, 2, · · · obtenemos
n
σn2 = µ2n σ02 + σ 2 E(X0 ) µ−2j µj−1
j=1
n
= µ2n σ02 + σ 2 E(X0 ) µ−j−1
j=1
3. Caso µ = 1.
n
n
µ−j−1 = µ−1 µ−j
j=1 j=1
−1 µ−1 − µ−(n+1)
=µ
1 − µ−1
15
1 − µ−n
= µ−1
µ−1
n
µ −1
= µ−(n+1)
µ−1
luego
µn − 1
σn2 = µ2n σ02 2
+ σ E(X0 )µ n−1
µ−1
SupongaP(X0 =1) = 1, es decir E(X0 ) = 1 , V ar(X0 ) = σ02 = 0 entonces σn2 =
µn − 1
σ 2 µn−1 1. En Conclusión, si P(X0 = 1) = 1 y µ = 1 entonces
, µ=
µ−1
E(Xn ) = µn
2 n−1 µn − 1
V ar(Xn ) = σ µ , n = 1, 2, · · ·
µ−1
σ12 = σ 2
σ22 = 2σ 2
..
.
σn2 = V ar(Xn ) = nσ 2 n≥1
E(Xn ) µn
P(Xn ≥ k) < = →0 , n→∞
k k
lo cual indicarı́a que la población se extingue con probabilidad 1. La definición formal de Extinción
de un proceso GW es la siguiente.
3. Si µ > 1
∞
π0 = P(E) = P(E | X1 = j)P(X1 = j)
j=1
y
X0
X1 = Zj (0) = Z1 (0)
j=1
luego
P(X1 = j) = P(Z1 (0) = j) = pj
por tanto
∞
π0 = P(E | X1 = j)pj
j=1
(ver (Medhi 1978) pag. 247) Dado X 1 = j la población se extingue si y solo si cada una
de las j familias iniciadas por los miembros de la primera generación se extinguen. Se
asumió que las familias evolucionan independientemente, luego
P(E | X1 = j) = π0j
entonces
∞
π0 = pj π0j
j=1
∞
Si se define la función P(ζ) = pj ζ j la función generadora de probabilidad de Z j (n) entonces
j=0
π0 es una raı́z de la ecuación ζ = P(ζ) con ζ ∈ [0, 1]. Note que ζ = 1 es raı́z. Se puede probar
que en el caso µ > 1 solo hay una raı́z π0 ∈ (0, 1) de ζ = P(ζ).
1
Ejemplo 1.3.2. Suponga que las variables aleatorias Z j (n) ∈ {0, 1, 2} con p0 = 9
p1 = 49 , p2 = 49 entonces
∞
π0 = π0j pj
j=0
17
1 4 4
= + π0 + π02
9 9 9
2
9π0 = 1 + 4π0 + 4π0
0 = 4π02 − 5π0 + 1
de donde π0 = 1 ó π0 = 0.25
por tanto
∞
π0 = π0j pj
j=0
∞
= π0j (1 − P )pj
j=0
∞
= (1 − p) (π0 p)j
j=0
1
= (1 − p)
1 − π0 p
(1 − π0 p)π0 = 1 − p
0 = pπ02 − π0 + 1 − p
1−p
de donde obtenemos que π0 = 1 o π0 =
p
q p
Si π0 = < 1 es porque > 1 es decir µ > 1.
p q
3
3 p 4 1−p 1
Por ejemplo si p = 4
entonces µ = 1−p
= 1 = 3 > 1 entonces π0 = p
= 3
4
e−λ λk
Ejemplo 1.3.4. Supongamos que p k = , k = 0, 1, 2, · · · µ = λ > 1 entonces
k!
∞
∞
λj π j
π0 = π0j pj = e−λ 0
j!
j=0 j=0
∞
(λπ0 )j
= e−λ
j!
j=0
= e−λ eλπ0
= e−λ(1−π0 )
18
Teorema 1.3.1. (ver Medhi (1978), pag. 248 ) Para n, r = 0, 1, 2, · · ·E(X n+r | Xn ) = Xn µr .
y por tanto
Definición 1.4.1. Suponga una sucesi ón de variables aleatorias i.i.d, (X n , n = 1, 2, . . .), con
valores en {−1, 1}, y tales que P(Xj = 1) = p y P(Xj = −1) = q = 1 − p, donde p ∈ (0, 1).
Y defina el proceso (Zn , n = 0, 1, . . .), como Z0 = 0, Zn = X1 + . . . + Xn , n ≥ 1. El proceso
Zn se denomina “Marcha Aleatoria no Restringida”.
son independientes.
Demostración.
Ejercicio 1.4.1. Compruebe que la Marcha Aleatoria no Restringida tiene incrementos indepen-
dientes y por tanto es un proceso Markov.
Ejercicio 1.4.2. Si Zn Marcha Aleatoria no Restringida, aplique las propiedades anteriores para
resolver lo siguiente:
1. Compruebe: Zn = Zn−1 + Xn , n = 1, 2, . . ..
2. Compruebe que si se define Rj = (Xj +1)/2 y Rn = nj=1 Rj entonces Rn ∼ Bin(n, p).
Además, compruebe que se tiene Rn = (Zn + n)/2 y E(Zn ) = n(p − q).
4. Calcule E(Z5 Z8 ).
2. Las partı́culas que se diluyen dentro de un medio realizan marchas aleatorias entre los
átomos.
1. N0 = 0.
2. Si 0 < t1 < t2 < t3 < t4 entonces Nt4 − Nt3 y Nt2 − Nt1 son independientes.
( λ h )k
P( Nt+h − Nt = k ) = e−λ h k = 0, 1, · · ·
k!
k
1. P(Nt = k) = e−λ t ( λk!t )
2. P( Nt+h − Nt ≥ 2)/h → 0 si h → 0+
3. E( Nt ) = V ar( Nt ) = λ t , E( Nt2 ) = λ t + λ2 t2
8. Se puede probar que si T1 T2 , · · · es la sucesión de tiempos en los que que ocurren los
saltos, entonces las variables T1 , T2 − T1 , T3 − T2 , · · · son independientes e idénticamente
distribuı́das Exp(1/λ). Entonces E( T j − Tj−1 ) = λ1 , V ar( Tj − Tj−1 ) = λ12 y P( Tj −
Tj−1 > t ) = e− λ , por propiedades de la distribución Exponencial.
t
11. k k
1 λ
MTk ( t ) = = para t<λ
1− t
λ
λ−t
12. Identidad Nt ≥ k ⇐⇒ Tk ≤ t
Ejemplo 1.5.1. (ver Parzen (1972), Ejemplo 3c, pag. 47 y Ross (1989) pag. 216) Considere una
componente, por ejemplo, una l ámpara, que se utiliza hasta que falla y entonces se reemplaza por
otra nueva. Las vidas Y1 , Y2 , · · · de las componentes sucesivas forman una sucesión de variables
aleatorias i.i.d. distribuı́das Exponencial con media λ. Para cada t > 0 definimos N t como el
número de componentes que han fallado hasta t, es decir, N t = Max { j : Y1 +Y2 +· · ·+Yj ≤ t},
donde Yj ∼ Exp(λ). Entonces Nt ∼ Poisson( λ t ).
Suponga que Y j ∼ Exp(λ) con λ = 1000 horas, donde P( Yj > t ) = e−λ t = e−1000 t . Luego
P( Nt = k) =
e−λ −1
( λ−1 t )k
t
k = 0, 1, 2, · · ·
k!
Por ejemplo,
5000 3 1 e−5 53 = 0.14
P( N5000 = 3 ) = e− 1000
5000
=
1000 3! 3!
E( N5000 ) = 5
22
Nota 1.5.1. Si los tiempos de entre-arribo Y j no son exponenciales pero son iid y se definen las
variables siguientes:
n
1. S0 = 0 , Sn = Yj , n ≥ 1.
j=1
∞
2. Nt = M ax{n : Sn ≤ t} = j=1 I( Sj ≤ t ), t ≥ 0
donde I(A) es la funci ón indicadora del evento A, igual a 1 cuando A es cierto e igual a 0 en
caso contrario, entonces el proceso (Nt , t ≥ 0) se denomina Proceso de Renovación .
N
Demostración. 1. E(Y ) = E(E(Y | N )) = E(E( j=1 Xj | N )). Pero E(Y | N ) =
N N
E( j=1 Xj | N ) = N E(Xj | N ) = N E(Xj ) = N µX . V ar(Y | N ) = V ar( j=1 Xj |
2
N ) = N V ar(Xj | N ) = N σX .
2
2. V ar(Y ) = E(V ar(Y | N )) + V ar(E(Y | N )). Pero E(V ar(Y | N )) = E(N σX )∗
2
V ar(N µX ) y V ar(E(Y | N )) = µN σX + µ2X σN
2
.
23
De las relaciones anteriores se concluye que el valor s, al ser R(0) = s, es el superávit inicial, o
mejor, la reserva inicial de capital. También, Π es el valor de la prima anual que pagan quienes
adquieren el seguro, al inicio de la vigencia en t = 0, pero se asume que los pagos se hacen
continuamente de tal forma que Πt es el total pagado hasta el tiempo t. Si en algún tiempo t > 0
se obtiene R(t) < 0 se habla de un “superávit negativo en t”, o ruina. Se tienen los siguientes
resultados.
Ejemplo de Ruina La gráfica (1.3) muestra una trayectoria del proceso R(t) = s + ct − S(t),
N(t)
S(t) = j=1 Xj , con Xj ∼ Exp(5), N (t) ∼ P oisson(λt), con λ = 1, con s = 30, P = 6,
para t ∈ [0, 50]. Es este caso la probabilidad de ruina es ϕ(30) = P (R(t) < 0, en algún t ≥
0) = 0.306.
1.6. Martingalas.
1. E(|Sn |) < ∞
2. E(Sn+1 | X1 , X2 , · · · , Xn ) = Sn
Ejemplo 1.6.1. (ver (Medhi 1978) pag. 248 ) Suponga que X n es el proceso Galton-Watson tal
que
Xn
Xn+1 = Zj (n) , n = 0, 1, 2, · · ·
j=1
entonces
Si n ≥ 2 entonces
luego
E(Sn ) = c
E(Sm | X1 , X2 , · · · , Xn ) = Sn
1.7. Problemas
1. Suponga que X1 ∼ P oisson(2) y X2 |X1 ∼ Bin(3 + 2X1 , 1/2)
Encuentre:
3. Suponga que la variable Y es discreta con valores 0,1 tal que P(Y = 1|X = x) =
e−1+2x /(1 + e−1+2x ), donde X es una variable discreta con fdp dada por: P(X = x) =
1/3, x = 0, 1, 2.
b) Encuentre E(Y ).
Compruebe
Xn
Xn+1 = Zj (n), n = 0, 1, 2, . . .
j=1
a) Utilice el resultado del Teorema (1.3.1), pag. 18, para comprobar que se cumple
E(Xn Xn+r ) = µr E(Xn2 ).
b) Calcule Cov(Xn , Xn+r ) y Corr(Xn , Xn+r ).
c) Si se asume que Zj (n) ∼ Poisson(λ) encuentre una expresión para P(Xn+1 =
r|Xn = m), donde r, m son enteros con r ≥ 0, m > 0.
d) Si se asume que Zj (n) ∼ Geo(p) encuentre una expresión para P(Xn+1 = r|Xn =
m), donde r, m son enteros con r ≥ 0, m > 0.
e) Asuma que Zj (n) tiene una distribución discreta con valores en {0, 1, 2, 3}, y distribu-
ción de probabilidades dada por el vector (p k , k = 0, 1, 2, 3) = (3/16, 5/16, 6/16, 2/16),
donde p0 = P(Z = 0) = 3/16. Encuentre µ, σ2 . Encuentre la probabilidad de ex-
∞
tinción ρ resolviendo al ecuación g(ρ) = ρ, donde g(x) = k=0 xk pk . En clase se
mencionó que, para procesos GW con µ > 1, llamados “supercrı́ticos", se cumple
que:
P(Extinción) + P( lı́m Xn = +∞) = 1
n→∞
entonces
Y − E(Y )
Z= ∼ N (0, 1)
V ar(Y )
Y − uY
entonces P(Z > 1.645) = 0.05 y por tanto > 1.645 implica Y > uY + 1.645σY .
σY
Entonces el intervalo [u Y + 1.645σY , ∞) = [279.9, ∞) = [280, ∞), es un intervalo con
una probabilidad de contener los costos totales en un 5 % de los casos. En otras palabras,
los costos no superaran los 280 millones con un 95 % de probabilidad.
Adicionalmente, la prima neta se puede definir como
E(Y )
π=
n
230 23
Suponga que hay n = 6.000 pólizas de forma que 6.000 = 600 = 0.038. La prima neta
230
serı́a π = 6.000 = 0.038 millones por asegurado.
1.8. Soluciones
1. a) Como X ∼ Bin(n, p) entonces E(X) = np, luego E(X2 |X1 ) = (3 + 2X1 )(1/2).
Además, como V ar(X) = np(1−p) entonces V ar(X2 |X1 ) = (3+2X1 )(1/2)(1/2) =
(3 + 2X1 )/4
b) Utilizando la identidad E(E(X|Y )) = E(X) tenemos
para i = 0, 1, . . ., j = 0, 1, . . . , 3 + 2i.
2. Ejercicio.
2.1. Desigualdades
Las desigualdades son útiles para establecer cotas superiores o inferiores para probabilidades, o
para la solución de un problema de convergencia. Las desigualdades más útiles son las siguientes:
2. Desigualdad Triangular
1 1 1
E(|X + Y |r ) r ≤ E(|X|r ) r + E(|Y |r ) r para r≥1
29
30
donde Cr = 1 si r ≤ 1 y Cr = 2r−1 si r ≥ 1.
4. Desigualdad de Markov
Si para algún r > 0 se tiene E(|X|r ) < ∞ entonces, para todo a > 0 se cumple
E(|X|r )
P(|X|r ≥ a) ≤
ar
N
Ejemplo 2.1.1. Si Y = Xj es suma aleatoria de variables aleatorias independientes
j=1
con Xj positivas y N ∈ {0, 1, 2, · · ·} entonces
pero
n
P Xj ≥ 0 = 1 ∀n ≥ 1
j=1
luego
∞
P(Y ≥ 0) = pn = 1
n=0
5. Desigualdad de Chebyshev
Si V ar(X) < ∞ entonces colocando r = 2 y X − E(x) en lugar de X en la desigualdad
de Markov se obtiene
V ar(X)
P(|X − µX | ≥ a) ≤ ∀a > 0
a2
31
Recuérdese que |x − µX | ≥ a ⇐⇒ x ≤ µX − a ó x ≥ µX + a.
2
Si X ∼ N (µX , σX ) y a = 1.645 entonces
2
σX
P(|X − µX | ≥ 1.645σX ) ≤ 2 = 0.369
1.6452σX
pero
6. Desigualdad de Cauchy-Schwarz
|E(XY )| ≤ E(|XY |) ≤ E(X 2 ) E(Y 2 )
luego
|ρXY | ≤ 1
7. Desigualdad de Lyapunov
1 1
Si 0 < s ≤ r entonces E(|X|s ) s ≤ E(|X|r ) r .
de donde
E(X 2 ) − E 2 (X) = V ar(X) ≥ 0
8. Identidad La siguiente identidad es útil para calcular momentos de una variable aleatoria.
∞
E(|X| ) = r
r
xr−1 P(|X| > x)dx ≤ +∞, r = 1, 2, . . .
0
9. Desigualdad de Jensen
Una función f(x) se dice convexa en [a, b] si la lı́nea que une los puntos (a, f(a)), (b, f(b))
está siempre por encima de la gráfica (x, f(x)). Una condición suficiente para que f sea
convexa es que exista f (x) y cumpla f (x) > 0 en ese intervalo. En este caso, si X es una
variable aleatoria, f es convexa en el rango de X, y E(f(X)) existe, entonces se cumple:
f(E(X)) ≤ E(f(X))
Una función f(x) se dice cóncava en [a, b] si la lı́nea que une los puntos (a, f(a)), (b, f(b))
está siempre por debajo de la gráfica (x, f(x)). Una condición suficiente para que f sea
cóncava es que exista f (x) y cumpla f (x) < 0 en un intervalo. En este caso, si X es una
variable aleatoria, f es cóncava y E(f(X)) existe, entonces se cumple:
E(f(X)) ≤ f(E(X))
Ejemplo 2.1.4. a) Si f(x) = 1/x, x > 0, entonces f (x) = 2/x3 > 0, x > 0. Por
tanto, f es convexa en (0, ∞). Si X es una variable aleatoria con valores en (0, ∞)
aplicando la desigualdad obtenemos 1/E(X) ≤ E(1/X).
b) Si f(x) = ln(x) entonces f (x) < 0, x > 0. Por tanto, f es cóncava. Si X es una
variable aleatoria con valores en (0, ∞) entonces se cumple E(ln(X)) ≤ ln(E(X)).
Ejemplo 2.1.5. Suponga que X 1 y X2 son variables aleatorias con medias 0 varianzas 1 y
correlación ρ > 0. Comprobar que
E(max(X12 , X22 )) ≤ 1 + 1 − ρ2
1
Utilizando la desigualdad de Cauchy-Schwarz y las identidades: max(a, b) = 2 (a + b + |a − b|),
a2 − b2 = (a + b)(a − b).
Ejemplo 2.1.6. Para cualquier par de variables aleatorias X 1 , X2 con coeficiente de correlación
ρ y para cualquier λ > 0
1
P(|X1 − µ1 | ≥ λσ1 ) ∪ ((|X2 − µ2 | ≥ λσ2 ) ≤ (1 + 1 − ρ2 )
λ2
2
|X1 − µ1 | 1 X1 − µ1
P(A) = P ≥λ ≤ E
σ1 λ2 σ1
2
|X2 − µ2 | 1 X2 − µ2
P(B) = P ≥λ ≤ E
σ2 λ2 σ2
P(A ∪ B) ≤ P(A) + P(B)
2
≤ 2
λ
2 2
X1 − µ1 X2 − µ2
∴ E max , ≤ 1 + 1 − ρ2
σ1 σ2
X1 − µ1 X2 − µ2 cov(X1 , X2 )
cov , = =ρ
σ1 σ2 σ1 σ2
Se trata de definir la convergencia de una sucesión de variables aleatorias (Xn )n=0,1,2,···. Hay
cinco modos básicos de convergencia de Xn a un lı́mite X cuando n −→ ∞ que son
1. Con probabilidad 1.
2. En media r , r = 1, 2, · · ·
3. En Media cuadrática.
4. En Probabilidad.
5. En Distribución.
34
P( lı́m Xn = X) = 1
n→∞
Lo anterior significa que Xn converge a X como si fuera una sucesión de números, excepto en un
evento N que tiene probabilidad cero, donde N = {w ∈ Ω : lı́m n→∞ Xn = X}. .
si se cumple
si se cumple
1. E(Xn2 ) < ∞ , n = 1, 2, · · ·
2. E(|Xn − X|2 ) −→ 0 , n −→ ∞
si
∀ > 0 P(|Xn − X| ≥ ) −→ 0 cuando n −→ ∞
si ∀x FX (t) continua en x
Las relaciones entre los modos de convergencia está dado por las siguientes implicaciones; estas
establecen un orden de prioridad entre los cinco modos de convergencia.
Proposición 2.2.1.
cp1 p d
Xn → X ⇒ Xn → X ⇒ Xn → X
r p d
Xn → X ⇒ Xn → X ⇒ Xn → X
requieren condiciones adicionales para ser válidas. Es decir, no siempre se cumplen. Por ejemplo,
p cp1 p
no es cierto en general que Xn −→ X ⇒ Xn −→ X, sin embargo, si Xn −→ X existe una
cp1
sub-sucesión (nk ) tal que Xnk −→ X.
Ejemplo 2.2.1. Es fácil comprobar que
1 p
Xn −→ X =⇒ Xn −→ X
luego si > 0
E(|Xn − X|) E((Xn − X)2 )
P(|Xn − X| ≥ ) ≤ ≤
P
de donde si E((Xn − X)2 ) −→ 0 entonces Xn −→ X cuando n −→ ∞
Teorema 2.2.2. (La Ley Débil de Grandes Números) Suponga que X n , n = 0, 1, 2 . . . es una
sucesión de variables aleatorias i.i.d. con media E(X n ) = µ y varianza finita V ar(X n ) = σ 2 <
n
∞, entonces se cumple que X̄n = (1/n) j=1 Xj converge en probabilidad a µ.
n
Demostración. Aplicando la desigualdad de Chebyshev a la variable X̄n = (1/n) j=1 Xj ,
tenemos que, para > 0, P(|X̄n − µ| ≥ ) ≤ V ar(X̄n )/2 . Pero V ar(X̄n ) = nV ar(X1 )/n2 =
σ 2 /n. Entonces
σ2
lı́m P(|X̄n − µ| ≥ ) ≤ lı́m =0
n→∞ n→∞ n2
p
es decir, X̄n → µ, n → ∞.
Teorema 2.2.3. (La Ley Fuerte de Grandes Números) Suponga que X n , n = 0, 1, 2 . . . es una
sucesión de variables aleatorias i.i.d. con media finita E(|X n |) = µ, entonces se cumple que
n
X̄n = (1/n) j=1 Xj converge cp1 a µ.
Nótese que si se define Y = eX , es decir, Y es una variable Lognormal, entonces existen todos
los momentos de orden k de Y, E(Y k ) = E(ekX ) = MX (k), sin embargo, la fgm de Y no existe,
MY (t) = E(exp(teX )) = +∞ para todo t = 0
Teorema 2.2.5. Si (Yn )n=1,2,··· es una sucesión de variables aleatorias tales que tienen fgm
MYn (t) para −h < t < h y existe una variable aleatoria Y con fgm M Y (t) para |t| ≤ h1 < h
tal que MYn (t) −→ MY (t) n −→ ∞ entonces
d
Yn −→ Y cuando n −→ ∞
Ejemplo 2.2.7. Suponga que Y n ∼ Bin(n, pn ) tal que p n = µn para n = 1, 2, · · · donde µ > 0
es una constante. Entonces
n
µ(et − 1)
MYn (t) = E(etYn ) = (1 − pn + pn et )n = 1 +
n
Utilizando el resultado
α n
1+ −→ eα cuando n −→ ∞
n
se obtiene
MYn (t) −→ exp(µ(et − 1))
t
−1)
Como para Y ∼ P oison(µ) se tiene MY (t) = eµ(e entonces
d
Yn −→ Y cuando n −→ ∞
a
En la práctica si n > 30 se coloca Yn ∼ N (0, 1).
38
et − 1
4. Compruebe que MXn (t) −→ t = 0 recuerde que
t
−n 1 − eh
lı́m 10n (1 − et10 ) = t lı́m = −t
n→∞ h→0 h
d
5. Concluya que Xn −→ X X ∼ U (0, 1)
Sabemos que
2
Xn −→ X si n −→ ∞ ⇐⇒ E((Xn − X)2 ) −→ 0 si n −→ ∞
por tanto si
2
1. Xn −→ X cuando n −→ ∞ entonces
Demostración.
además
|E(Xn ) − E(X)| ≤ E(|Xn − X|) ≤ E(|Xn − X|2 )
39
2
Nota 2.2.2. Es evidente que Xn −→ X entonces V ar(Xn ) −→ V ar(X)
2
2. (ver Parzen (1972) pág. 112 Teo 4B ) Si Xn ∼ N (µn , σn2 ) y Xn −→ X entonces
X ∼ N (µ, σ 2 ) con µ = lı́m µn y σ 2 = lı́m σn2 .
n→∞ n→∞
Demostración.
2
Si Xn −→ X entonces µn −→ µ = E(X) y σn2 −→ σ 2 = V ar(X) además la fgm de Xn
es
MXn (t) = eµn t+ 2 σn t t ∈ R
1 2 2
M (t) = eµt+ 2 σ
1 2 2
t
, t∈R
2
3. Si Xn → X cuando n → ∞ y E(Xn2 ) < ∞ para todo n ≥ 1 entonces E(X 2 ) < ∞.
40
Demostración.
Utilizando la desigualdad triangular general
1 1 1
E(|X + Y |r ) r ≤ E(|X|r ) r + E(|Y |r ) r para r≥1
con Xn = X , Y = X − Xn , r = 2 se tiene
E(X 2 ) ≤ E(Xn2 ) + E((X − Xn )2 )
4. Si se considera el conjunto
L2 = {X , E(X 2 ) < ∞}
entonces se cumple que
a) c ∈ R , X ∈ L2 =⇒ cX ∈ L2
b) X , Y ∈ L2 =⇒ X + Y ∈ L2
c) X , Y = E(XY ) satisface
1) X , Y = Y , X
2) X + Y , Z = X , Z + Y , Z
3) cX , Y = cX , Y
4) X , X ≥ 0 X , X = 0 ⇐⇒ X = 0
d) Si X = E(X 2 ) entonces
1) X ≥ 0 X = 0 ⇐⇒ X = 0
2) X + Y ≤ X + Y
3) cX = |c|X
e) Si Xn , n = 1, 2, . . . es una sucesión de variables aleatorias en L2 , tales que Xn −
2
Xm → 0, n, m → ∞ entonces existe X tal que Xn → X, n → ∞.
2 2
5. Si Xn → X , Yn → Y entonces E(Xn Yn ) → E(XY ) cuando n −→ ∞
Demostración.
2
6. Xn −→ X ⇐⇒ ∃ c ∈ R tal que E(Xn Xm ) −→ c para n , m → ∞
Demostración.
[ ⇐= ]
Si E(Xn Xm ) −→ c entonces
2 2 2
7. Si Xn −→ X y Yn −→ Y entonces aXn + bYn −→ aX + bY
2 2
8. Si Xn −→ X y an −→ a entonces an Xn −→ aX
Proposición 2.2.4. El conjunto L 2 con X − Y = E(X − Y )2 y X , Y = E(XY ) es un
espacio de Hilbert que además es completo.
Proposición 2.2.5. ( ver Grimmett and Stirzaker (1994), pag 309, teo 7.8.1. ) Si (S n , n =
1, 2, · · · ) es una martingala con E(S n2 ) < M < ∞ para alg ún M y para todo n, entonces existe
una variable aleatoria S tal que S n −→ S casi en todas partes y en media cuadr ática.
Xn
Ejemplo 2.2.8. Considere Xn el proceso Galton-Watson con µ > 1 y S n = para n ≥ 1.
µn
Entonces Sn es martingala con respecto a Xn .
Xn2 V ar(Xn ) + E 2 (Xn )
E =
µ2n µ2n
n
µ −1
V ar(Xn ) = σ 2 µn−1
µ−1
E(Xn ) = µn
1 σ 2 µ2n (1 − µ−n )
∴ E(Sn2 ) = 2n µ + 2n
µ µ(µ − 1)
2 −n
σ (1 − µ )
=1+
µ(µ − 1)
σ2
<1+ =M
µ(µ − 1)
2
luego existe S tal que Sn −→ S si n −→ ∞.
42
2.3. Problemas
1. Suponga que N ∼ P oisson(λ), y δ > 0 es una constante. Se define la variable X =
N −δj t
j=0 e . Utilice el resultado: E(e tN ) = eλ(e −1) y la desigualdad de Markov para
encontrar una cota superior para la probabilidad P(X > a), a > 0.
2. (ver Parzen (1972), pag 33. problema 1C), generalización a dos dimensiones de la de-
sigualdad de Chebyshev). Sean X1 y X2 variables aleatorias con medias 0, varianzas 1 y
coeficiente de correlación ρ. Demostrar que:
E[M ax(X12 , X22 )] ≤ 1 + 1 − ρ2
c) Con los resultados anteriores encuentre E(X n2 ), y utilı́celo para encontrar una cota
superior para E(X10 X20 ) y una para E((X10 − X20 )2 )
d) Utilice la desigualdad de Markov para comprobar que el proceso converge en proba-
p
bilidad a cero: Xn → 0, n → ∞. Se puede decir que converge en media cuadrática a
2
cero: Xn → 0 ?. Explique.
2.4. Soluciones
n
1. Primero utilizamos la identidad para la suma de una serie geométrica: j=0 r j = (1 −
r n+1 )/(1 − r), para 0 < r < 1. Entonces X = (1 − e−δ(N+1) )/(1 − e−δ ). Aplicando la
desigualdad de Markov tenemos: P (X > a) ≤ E(X)/a. Ahora desarrollamos la esperanza
E(X) y sustituı́mos en la desigualdad anterior:
E(X) = E (1 − e−δ(N+1) )/(1 − e−δ )
= (1 − E(e−δ(N+1) ))/(1 − e−δ )
= (1 − e−δ E(e−δN ))/(1 − e−δ )
= (1 − e−(δ+λ)+λ exp(−δ) )/(1 − e−δ )
2. Ejercicio.
4. Ejercicio.
5. Ejercicio.
6. Ejercicio.
44
CAPÍTULO 3
Procesos Estocásticos
1. Xt : Ω −→ R
2. ∀a ∈ R , ( Xt ≤ a ) ∈ F
45
46
X : T × Ω −→ R
( t, ω ) −→ X( t, ω ) = Xt ( ω ).
A la funci ón FTn se la denomina funci ón de distribuci ón finito dimensional del proceso X t . La
distribuci ón de cada variable Xt se denomina distribuci ón marginal.
(i) (Simetrı́a) F tk1 ,...,tkn (xk1 , . . . , xkn ) = Ft1,...,tn (x1 , . . . , xn) para cualquier permutación
k1 , . . . , kn de 1, 2, . . . , n.
Existen distintas maneras de definir un proceso estocástico. Por ejemplo, a partir de relaciones
recursivas, como en los procesos de ramificación. O mediante una formulación axiomática de
ciertas funciones de intensidad, como en el proceso Poisson. Otros tipos de procesos, como los
gaussianos solamente requieren que se especifiquen las caracterı́sticas de segundo orden, media y
covarianza. Otros, como los markovianos requieren especificar una función de transición.
Para desarrollar la teorı́a de procesos es necesario hacer supuestos, que son propiedades que
se asume posee cada proceso considerado. Dar propiedades aumenta las posibilidades de aplicar,
realizar cálculos y desarrollar la teorı́a. Las propiedades iniciales tienen que ver con la continuidad
del proceso.
Definición 3.1.3. Un proceso X = ( Xt , t ∈ T ) se dice
P( lı́m Xt+h = Xt ) = 1.
h→0
luego
E (Nt+h − Nt )2 = 2
E(Nt+h ) + E(Nt2 ) − 2E(Nt+h Nt ),
= λ2 h2 + λ(t + h + t) − 2λ mı́n( t + h , t ),
= λ2 h2 + λ(t + h + t) − λ(t + h + t − |t + h − t|),
= λ2 h2 + λ|h| → 0 , h → 0,
2 mı́n(a, b) = a + b − |a − b|.
Nótese que, sin embargo, las trayectorias de Nt son discontinuas con probabilidad 1, ya que son
funciones escalonadas con saltos unitarios, continuas a derecha.
48
P( | Xt+h − Xt | ≥ ) → 0 , h → 0.
k
Si observamos la sucesión an , k = para n = 1, 2, · · · , k = 0, 1, 2, · · · , n, entonces an , k ∈
n
[ 0, 1 ]. La colección de eventos X k ≤ x = An , k es una sucesión contable o numerable con
n
dos contadores luego
∞ n n
∞
An , k = Xk ≤ x
n
n=1 k=0 n=1 k=0
es un evento y en principio se puede calcular su probabilidad.
Proposición 3.1.2. Si Xt , t ∈ T es continuo en probabilidad en T entonces
1. Los conjuntos de la forma Xt ≤ x , ∀t ∈ [ a, b ] son eventos. Además
n
∞
P Xt ≤ x , ∀t ∈ [ a, b ] = P Xa+( b−a ) k ≤ x
n
n=1 k=0
b
2. Se pueden definir las integrales sobre las trayectorias muestrales: a Xt (ω) dt.
b
3. Se puede definir la integral Z = a Xt dt como una variable aleatoria y E(Z) =
b
a E(Xt )dt.
49
En algunos casos es necesario considerar procesos estocásticos con valores complejos. Si Xt,i , i =
1, 2 son dos procesos con valores reales se puede definir el proceso de valor complejo Xt =
Xt,1 + iXt,2 , con i2 = −1. Sin embargo, si no se menciona lo contrario, todos los procesos
considerados en adelante se asumirán de valor real.
Definición 3.2.1. Un proceso (Xt , t ∈ T ) se dice de segundo orden si E(Xt2 ) < ∞ para todo
t ∈ T.
El conjunto de los procesos de segundo orden es unespacio vectorial sobre los reales, con producto
interno Xt , Yt := E(Xt Yt ) y norma ||Xt || := E(Xt2 ) (ver pag. 40).
Definición 3.2.2. Para un proceso de segundo orden (Xt , t ∈ T ) se definen las siguientes
funciones:
6. Sumas positivas. Una constante C positiva es una función de autocovarianza. Por tanto, si
Rj (s, t), j = 1, . . . , n son funciones de autocovarianza y Cj , j = 1, . . . , n son constantes
n
positivas entonces R(s, t) = j=1 Cj Rj (s, t) es nuevamente una función de autocovari-
anza.
8. Formas bilineales. Si σ(t) es una función entonces R(s, t) = σ(s)σ(t) es una fun-
ción de autocovarianza. Basta definir Xt = σ(t)X con X ∼ N (0, 1) porque entonces
Cov(Xs , Xt ) = E(X 2 )σ(s)σ(t) = σ(s)σ(t).
RXY ( s , t ) = Cov( Xs , Yt )
Compruebe que
RX+Y ( s , t ) = RX ( s , t ) + RY ( s , t ) + RXY ( s , t ) + RY X ( s , t )
Una clase muy importante de procesos estocásticos es la de procesos estacionarios. Esta clase se
divide en dos subclases:
51
Definición 3.2.3. Un proceso (Xt , t ∈ T ) se dice que es Estacionario Estricto si para todo
n ≥ 1 y t1 , . . . , tn ∈ T , t1 + h, . . . , tn + h ∈ T , se cumple que la distribuci ón conjunta de
(Xt1 , . . . , Xtn ) es igual a la distribuci ón conjunta de (X t1 +h , . . . , Xtn +h ). De otra forma, un
proceso es Estacionario Estricto si cualquiera de sus distribuciones conjuntas de dimensi ón finita
es invariante por translaciones en el tiempo.
2. Suponga un proceso estacionario estricto (X t , t ∈ T ) y una funci ón real g(.) continua
definida en el espacio de estados de Xt . Entonces Yt = g(Xt ) es estacionario estricto. Si
se tiene que E(|g(Xt0 )|) < ∞, para algún t0 ∈ T . Entonces E(g(Xt )) no depende de t.
2. Existe una función R(r), r ∈ R, par, es decir R(−r) = R(r), con R(0) > 0 tal que
Cov(Xs , Xt ) = R(t − s). Es decir, la covarianza entre Xs y Xt depende únicamente de
|t − s|
En la figura (3.1) siguiente se muestra una trayectoria de un proceso que corresponde a las
aceleraciones verticales del terremoto de Kobe. Más adelante se comprueba que corresponde a un
proceso estacionario en covarianza.
Figura 3.1: Gráfica del Sismógrafo (aceleración vertical, nm/sq.sec) del terremoto de Kobe(Japón),
grabado en la Universidad de Tasmania, Hobart, Australia el 16 de Enero de 1995 empezando
a las 20:56:51 (GMT) y continuando por 51 minutos a intervalos de 1 segundo. Fuente: Data
management centre, Washington University
Como E( Xt ) = c entonces E( Xt+h − Xt ) = 0, por tanto V ar( Xt+h − Xt ) = E ( Xt+h −
Xt )2 = V ( h ).
Figura 3.2: Ejemplos de Procesos Estacionarios con funciones de autocovarianza que decrecen a
cero con velocidades distintas
Inversamente, si R(h) decrece rápidamente a cero entonces V (h) = 2 R( 0 ) − R( h ) −→
2 R( 0 ) rápidamente cuando t → ∞. La interpretación es que al aumentar h la autocorrelación
disminuye y aumenta V ( h ) = Xt+h − Xt 2 lo cual se puede tomar como un aumento en las
oscilaciones del proceso.
Según (Franks 1986) pag. 200, “Si un proceso presenta fluctuaciones rápidas ( frecuencias elevadas
) las muestras correspondientes a separaciones en el tiempo relativamente pequeñas rendrán una
correlación pequeña".
Ejemplo 3.2.3. ((Svesnikov 1968), pags. 184, 313 ) Compruebe que si f(t) es una funci ón de t no
aleatoria y R(t, s) es la funci ón de autocovarianza del proceso X t , entonces la autocovarianza
del proceso Yt = f(t) + Xt es también R(t, s).
luego
3.4. Causalidad
En esta sección se desarrollan algunos conceptos útiles para análisis posteriores. El concepto de
causalidad y el teorema de Wold son herramientas para establecer el carácter estacionario de
algunos procesos. El concepto de ruido blanco es básico.
Definición 3.4.1 (Ruido Blanco). Un proceso (Zn , n ∈ Z ) se denomina Ruido Blanco ( White
Noise ) en tiempo discreto, si cumple
1. E( Zn ) ≡ 0.
2. V ar( Zn ) ≡ σ 2 .
3. Cov( Zn , Zn+m ) = 0, ∀ n, m ∈ Z, m = 0.
Definición 3.4.2. Sea Zn ∼ RB(0, σ 2 ) un proceso ruido blanco. Un proceso estoc ástico (Xn , n ∈
Z) se dice causal (ó función causal de un ruido blanco) si existe una sucesi ón de números reales
∞
(θj , j = 0, 1, . . .), que cumple j=0 |θj | < ∞, tal que
∞
Xn = θj Zn−j . (3.3)
j=0
Bajo ciertas condiciones, todo proceso que pueda representarse de la forma (3.3) es estacionario
en covarianza. Concretamente se tiene el siguiente resultado.
∞
Proposición 3.4.1. Si (θj , j = 0, 1, . . .) es una sucesión de números reales que cumple j=0 |θj | <
∞, y (Zj , j ∈ Z) es una sucesión de variables aleatorias que cumplen E(|Z j |) < M, ∀j, para
∞
cierta constante M > 0, entonces la serie j=0 θj Zn−j converge absolutamente, con probabil-
idad uno.
(n) m
Demostración. Para cada n = 0, 1, . . . defina la sucesión Xm = j=0 |θj ||Zn−j |. Esta suce-
(n) (n) (n)
sión cumple 0 ≤ X0 ≤ X1 ≤ X2 ≤ . . ., con probabilidad uno. Además, converge con
∞
probabilidad uno a la suma X n = j=0 |θj ||Zn−j |. Se puede aplicar el Teorema de Convergen-
cia Monótona (ver Teo 2.2.1, pag. 35), que permite intercambiar lı́mite con esperanza y obtener
(n)
lı́mm→∞ E(Xm ) = E(Xn ), es decir
n ∞
lı́m E( |θj ||Zn−j |) = E( |θj ||Zn−j |).
n→∞
j=0 j=0
Pero
n
n
n ∞
E( |θj ||Zn−j |) = |θj |E(|Zn−j |) ≤ M |θj | ≤ M |θj | < ∞,
j=0 j=0 j=0 j=0
∞ ∞
luego E( j=0 |θj ||Zn−j |) < ∞. Este resultado implica que el evento( j=0 |θj ||Zn−j | = +∞)
debe tener probabilidad cero porque de tener probabilidad positiva el valor esperado serı́a infinito.
Luego P( ∞ j=0 |θj ||Zn−j | < ∞) = 1 y la serie converge absolutamente con probabilidad uno.
∞
De esto se concluye que la serie j=0 θj Zn−j también converge con probabilidad uno.
∞
entonces el proceso Xn = j=0 θj Zn−j es estacionario en covarianza, con funci ón de autoco-
varianza
∞
∞
rX (h) = θj θk rZ (h − j + k) (3.4)
j=0 k=0
∞
rX (h) = σ 2 θj θj+h (3.5)
j=0
El resultado siguiente puede verse como un recı́proco, aunque parcial, del anterior (3.4.2). Si
un proceso es estacionario en covarianza y no contiene componente determinı́stica puede rep-
∞
resentarse de la forma Xn =
∞ ∞ 2 j=0 θj Zn−j , n ∈ Z, solo que no se cumple la condición
j=0 |θj | < ∞, sino j=0 θj < ∞. Se puede demostrar que
∞
∞
|θj | < ∞ ⇒ θj2 < ∞.
j=0 j=0
Teorema 3.4.1. (Teorema de Wold) Sea (Xn , n ∈ Z) un proceso estocástico sin componente
determinı́stica. Entonces es estacionario en covarianza si y solo si existe una sucesi ón de números
∞ ∞
reales (θj , j = 0, 1, . . .), θ0 = 1, tales que θj2 < ∞ y tales que Xn = j=0 θj Zn−j , donde
j=0
Zj ∼ RB(0, σ 2 ) es ruido blanco.
Pronósticos con Procesos Estacionarios. Se definió el espacio vectorial L2 de todas las v.a.
X con E(X 2 ) < ∞. Suponga que (Xn , n ∈ Z) es un proceso estacionario en covarianza de
media cero y función de autocovarianza R(h). Considere el subespacio lineal de L2 generado por
n
{X1 , . . . , Xn }, Mn = { j=1 αj Xj , αj ∈ R}. La proyección de una v.a. Y en L2 sobre Mn se
n
define como PM (Y ) = j=1 αj Xj , para cierto vector de coeficientes α = (α1 , . . . , αn ) . Y si
Y = Xn+k , k = 1, 2, . . ., entonces la proyección de Xn+k sobre Mn se denomina el pronóstico
en el perı́odo n + k, X n+k = n αj Xj . Denote Rn = [R(i − j)]n , la
n+k . Es decir, X
j=1 i,j=1
matriz de va-rianzas y covarianzas de {X1 , . . . , Xn }, y γn = (R(1), . . . , R(n)) , entonces, en el
caso de que Rn sea no-singular, se cumple (αn , . . . , α1) = R−1
n γn
57
3.4.1. Ergodicidad
La ergodicidad de un proceso estocástico es una propiedad relacionada con las leyes de grandes
números (2.2.2, 2.2.3), solamente que en lugar de sucesiones i.i.d. se considera un proceso
estocástico (Xn , n ∈ Z), es decir, una sucesión de variables con un grado de dependencia dado.
Un proceso en tiempo discreto se dice ergódico si cumple una ley de grandes números. En este
caso “ergódico” podrı́a asimilarse a “asintóticamente i.i.d.”. O, equivalentemente, un proceso
“no-ergódico” corresponderı́a a un proceso con una fuerte dependencia, tanta como para que no
sea válida una ley de grandes números.
E( Xn Xn+k ) = E( Xn E( Xn+k | Xn ))
= E( Xn2 µk )
= µk E( Xn2 )
luego
Cov( Xn , Xn+k ) = µk E( Xn2 ) − E( Xn ) E( Xn+k )
µn − 1
pero V ar( Xn ) = σ 2 µn−1 si µ = 1, y V ar( Xn ) = nσ 2 si µ = 1, por lo que el
µ−1
proceso de Galton - Watson no es estacionario en covarianza.
Para la covarianza, en el caso p = 12 tenemos que Cov(Zn , Zn+m ) = E(Zn Zn+m ). Suponga
m > 0. Luego Zn+m = Zn +Xn+1 +. . .+Xn+m y Zn Zn+m = Zn ( Zn +Xn+1 +. . .+Xn+m ) =
Zn2 + Zn Xn+1 + · · · + Zn Xn+m . Entonces E( Zn Zn+m ) = E( Zn2 ) + E( Zn Xn+1 ) + · · · +
E( Zn Xn+m ). Pero, debido a la independencia de las variables X n , puede colocarse
2
2
E( Zn−m Zn ) = E( Zn−m ) + E Zn−m ( Xn−m+1 + · · · + Xn ) = E( Zn−m )
Ejemplo 3.5.4 (Proceso Incremento Poisson). Defina el proceso Xt = Nt+h − Nt , h > 0 fijo,
t ≥ 0 y s > 0 entonces E(Xt ) ≡ λh y
E( Xt Xt+s ) = E ( Nt+h − Nt ) ( Nt+s+h − Nt+s )
= E( Nt+h Nt+s+h − Nt+h Nt+s − Nt+s+h Nt + Nt Nt+s )
= λ2 ( t + h ) (t + h + s ) + λ( t + h ) − λ2 ( t + h ) ( t + s )
− λ( t + s ∧ h ) − λ2 ( t + h + s ) t − λ t + λ2 t (t + s ) + λ t
= λ2 h2 + λ( h − s ∧ h )
= λ2 h2 + λ( h − s )+ ,
utilizando las propiedades del proceso Poisson junto con min(s, h) = s ∧ h, la funci ón “parte
positiva” x + = x si x > 0, y x+ = 0 si x ≤ 0, y la identidad (que se comprueba de manera
inmediata): ∀h, s ∈ R, h = s ∧ h + ( h − s ) + . Luego Cov(Xt , Xt+s ) = λ(h − s)+ . Se puede
comprobar, con un procedimiento similar que, para s < 0, Cov(X t , Xt+s ) = λ(h + s)+ . Luego
Cov(Xt , Xt+s ) = R(s) = λ(h − |s|)+ .
3.6. Aplicaciones
En esta sección se muestran algunas aplicaciones de los procesos considerados en este capı́tulo.
3.7. Problemas
1. Si (Xt , t ∈ R) es un proceso estacionario de 2do orden, y se define el proceso Yt =
Xt − Xt−1 , compruebe que Yt también es estacionario de 2do orden.
3.8. Soluciones
1. Ejercicio.
2. Ejercicio.
3. Ejercicio.
4. Ejercicio.
5. Ejercicio.
6. Las dos primeras cumplen con la condición de ser funciones pares y satisfacen ρ(0) = 1. La
tercera aunque es par no cumple esta última condición por lo que no puede ser una función
de autocorrelación.
a)
ya que
∞ ∞
eλt + e−λt 1 ( λt )k ( −λt )k ( λt )2k
cosh(λt ) = = + =
2 2 k! k! ( 2k!
k=0 k=0
además
luego
Similarmente
d)
por tanto
E( Xt1 Xt2 ) = e−2λ| t2 −t1 | t1 , t2 ≥ 0.
e)
E( Xt Xt+h ) = e−2λ| h | ,
E(Xt )E(Xt+h ) = e−2λt−2λ(t+h) = e−2λ(2t+h),
luego
Cov( Xt , Xt+h ) = e−2λ| h | − e−2λ(2t+h)
f ) Es inmediato.
CAPÍTULO 4
Los procesos Autorregresivos de Media Móvil ó ARMA son modelos básicos mediante los cuales
se pueden definir otros modelos más complejos, como los modelos ARIMA y los modelos de
Transferencia, capaces de describir adecuadamente muchas clases de fenómenos en varias áreas.
Se denominan también “modelos de caja negra”, debido a que sirven para modelar señales para
las cuales no se especifica un modelo determinado. La teorı́a y aplicaciones sobre estos modelos
se puede ampliar en Brockwell and Davis (1987). Un concepto útil para definir estos modelos es
el de operador rezago.
Definición 4.0.1. (Operador Rezago) Si Xn es un proceso, el operador rezago L (L : Lag,
rezago en inglés), se define como L( Xn ) = Xn−1 , y el operador Lk se define como Lk (Xn ) =
L(Lk−1 (Xn )) = Xn−k , k = 1, 2, · · · , con L0 = I el operador identidad. Entonces se puede
utilizar este operador para definir varios procesos. N ótese que en Matlab el operador rezago L
se denota por q −1 , y que en varios textos se usa la letra B en lugar de L.
63
64
donde Zn ∼ RB(0, σ 2 ).
ϕ(L) = I − ϕ1 L − . . . − ϕp Lp
θ(L) = I + θ1 L + . . . + θq Lq
Un proceso ARMA(p,q) puede verse como un proceso autorregresivo AR(p) con un ruido del
tipo media móvil, MA(q) , de manera que un ARMA(p,q) se diferencia de un AR(p) en que su
término de error es un ruido débilmente autocorrelacionado, en el sentido de que la función de
autocorrelación del MA(q) es cero a partir del rezago q+1, como se comprueba a continuación.
Para establecer las condiciones para que un proceso ARMA(p,q), Xn sea estacionario en covari-
anza se consideran los polinomios ϕ(z) = 1 − ϕz − . . . − ϕp z p , θ(z) = 1 + θ1 z + . . . + θq z q ,
para z ∈ C. ϕ(z) es el polinomio autorregresivo.
Teorema 4.1.1. (ver Fan and Yao (2003), pag. 31, Theorem 2.1) Suponga que X n es un proceso
ARMA(p,q) para el cual los polinomios ϕ(z) y θ(z) no tienen raı́ces comunes. Entonces Xn es
estacionario en covarianza si
Demostración. Sean z1 , . . . , zp las raı́ces de ϕ(z) = 0. Entonces |zj | > 1 y se puede escribir
$n ∞
ϕ(z) = j=1 (1 − z/zj ). Pero (1 − z/zj )−1 = k=0 (z/zj )k , |z| < 1, por desarrollo en serie
$ ∞
de Taylor de (1 − z)−1 . Luego ϕ(z)−1 = pj=1 k=0 (z/z
k
j ) . Un producto de p series es
∞
nuevamente una serie, por lo que se puede escribir ϕ(z)−1 = j=0 cj z j , |z| < 1. Pero
∞
∞
%
p
%
p
|cj | ≤ 1/|zj | k
= (1 − 1/|zj |)−1 < ∞
j=0 j=1 k=0 j=1
65
La condición (4.4) se expresa como: “ las raı́ces del polinomio autorregresivos están por fuera del
cı́rculo unitario”. Puede demostrarse que en todo proceso ARMA(p,q), X n , la condición (4.4) es
equivalente ser Xn causal (ver Brockwell and Davis (1987, pag. 85)). Pero ser Xn estacionario
en covarianza, de media cero, implica, por el teorema de Wold (ver Teo. (3.4.1), 56), que es de la
∞ ∞
forma Xn = j=0 θj Zn−j , con j=0 θj2 < ∞. Pero no es necesariamente causal y por tanto,
ser estacionario en covarianza no implica la condición (4.4).
Nota 4.1.1. Se definió un proceso Xn ∼ ARM A(p, q) para n ∈ Z. En caso de ser estacionario,
al definirlo para n = 0, 1, . . . puede dejar de serlo si se define X 0 de manera arbitraria. En el
2
caso de asumir Zn un ruido blanco gaussiano y ser X n estacionario, colocando X 0 ∼ N (0, σX ),
2
con σX = V ar(Xn ), se garantiza que Xn es estacionario para n = 0, 1, . . ..
En esta sección se analizan los casos de procesos ARMA siguientes: MA(q), AR(1) y ARMA(1,1).
El énfasis es en calcular la función de autocovarianza. Hay al menos tres métodos diferentes para
calcular autocovarianzas en este tipo de procesos (ver Brockwell and Davis (1987, pag. 91)).
1 + θ1 z + θ2 z 2 + . . . + θq z q = (1 − ϕ1 z − . . . − ϕp z p )(ψ0 + ψ1 z + ψ2 z 2 + . . .)
ψ0 = 1,
ψ1 = θ1 + ϕ1 ,
ψ2 = θ2 + ϕ2 + ϕ1 θ1 + ϕ21 , (4.6)
66
...
3) Método con base en una fórmula recursiva. A partir de la representación ϕ(L)Xn = θ(L)Zn
se multiplica a ambos lados de esta ecuación por Xn−k , para k ≥ 0, y se toma valor esperado.
Entonces se obtiene
Luego
En (4.10) aparecen algunos valores ψj que es necesario calcular con el Método 2). El resultado
en (4.10) muestra que RX (k) se puede calcular recursivamente a partir de q + 1 valores iniciales.
Procesos MA(q)
q
Proposición 4.1.1. Un proceso MA(q) dado por X n = j=0 θj Zn−j , θ0 = 1, n ∈ Z, con
Zj ∼ RB(0, σ 2 ), es estacionario en covarianza para todo vector de par ámetros (θ1 , . . . , θq ) ∈
Rq . Además, se cumple que
1. E(Xn ) = 0, n ∈ Z.
3.
σ 2 m |
q−|
θj θj+| m | para |m| ≤ q
RX (m) = j=0 (4.11)
0 para |m| > q
67
∞
Demostración. Se puede representar Xn como un proceso causal, de la forma Xn = j=0 dj Zn−j ,
con dj = θj , 0 ≤ j ≤ q, dj = 0, j ≥ q + 1. Por el Teorema 3.4.2, (pag. 55), se concluye que
Xn es estacionario en covarianza.
E(Xn ) = 0, ∀ n ∈ Z, es inmediato pues E(Zj ) = 0, ∀ j.
q q
= j=0 θj2 V ar( Zn−j ) = σ 2 j=0 θj2 , por la in-
q
Ahora, V ar(Xn ) = V ar j=0 θj Zn−j
correlación de las Zj . Para la función de autocovarianza RX (m), con m ≥ 0, tenemos
Si n−i = n+m−j entonces E( Zn−i Zn+m−j ) = σ 2 , cero en otro caso. Pero n−i = n+m−j
equivale a i = j − m, y la doble sumatoria (4.12) se convierte en sumatoria simple. Como i > 0
entonces j ≥ m y como j ≤ q los lı́mites de la sumatoria son m ≤ j ≤ q, luego
q
q
q
q−m
E( Xn Xn+m ) = θi θj E( Zn−i Zn+m−j ) = σ 2 θj θj−m = σ 2 θj θj+m
i=0 j=0 j=m j=0
2−| m |
RX ( m ) = 9 θj θj+| m | para |m| ≤ 2
j=0
2
RX ( 0 ) = 9 θj2 = 9( 1 + 2(0.42) ) = V ar( Xn ) = 11.88
j=0
2−1
1
RX ( 1 ) = 9 θj θj+1 = 9 θj θj+1 = 9( θ0 θ1 + θ1 θ2 ) = 9( −0.4 − 0.42 ) = −5.04
j=0 j=0
Proceso AR(1)
|m|
σ 2 ϕ1
RX (m) = , (4.13)
1 − ϕ21
|m|
ρX (m) = ϕ1 , m ∈ Z. (4.14)
∞ j
Además, es válida la representaci ón causal Xn = j=0 ϕ1 Zn−j , (con probabilidad uno y en
m.c.).
Xn = Zn + ϕ1 ( ϕ1 Xn−2 + Zn−1 )
= Zn + ϕ1 Zn−2 + ϕ21 Xn−2
= Zn + ϕ1 Zn−1 + ϕ21 Zn−2 + ϕ31 Xn−3
..
.
k
= ϕj1 Zn−j + ϕk+1
1 Xn−k−1 .
j=0
k
Veamos que la sucesión Sk = j=0 ϕj1 Zn−j , k = 0, 1, 2, · · · , converge en media cuadrática.
Utilizamos el criterio 6, para convergencia en m.c. (ver pag. 41): Si existe una constante c tal que
E(Sn Sm ) → c, m, n → ∞, entonces converge. Pero
n
m
E(Sn Sm ) = E ϕj+s
1 Zn−j Zn−s
j=0 s=0
n m
= ϕj+s
1 E Zn−j Zn−s .
j=0 s=0
69
n∧m ∞
E(Sn Sm ) = σ 2 ϕ2j
1 →c = σ ϕ2j
1 < ∞, m, n → ∞.
j=0 j=0
k
2(k+1)
Xn − ϕj1 Zn−j 2 = ϕ1 Xn−k−1 2 → 0 si k → ∞,
j=0
y por tanto
k
2
ϕj1 Zn−j −→ Xn si k → ∞,
j=0
o sea
∞
ϕj1 Zn−j = Xn en media cuadrática
j=0
∞
Si ϕj1 Zn−j = Xn en media cuadrática entonces
j=0
∞
E( Xn ) = ϕj1 E( Zn−j ) = 0
j=0
∞ ∞
Cov( Xn , Xn+m ) = E( Xn Xn+m ) = E ϕj1 Zn−j ϕs1 Zn+m−s
j=0 s=0
∞
∞
= ϕj+s
1 E( Zn−j Zn+m−s )
j=0 s=0
∞
2
=σ ϕ2s−m
1 si n − j = n + m − s, es decir j = s − m ≥ 0
s=m
∞ ∞
2(s+m)−m
= σ2 ϕ1 = σ2 ϕ2s+m
1
s=0 s=0
σ 2 ϕm
1
= para m ≥ 0.
1 − ϕ21
|m|
σ 2 ϕ1 |m|
De donde RX (m) = 1−ϕ21
y ρX (m) = ϕ1 , m ∈ Z.
Pero
j ∞
1
= ϕ1 si − 1 < ϕ1 < 1,
1 − ϕ1 j=0
luego
∞ j ∞
1
= ( ϕ1 L )j = ϕ1 Lj ,
1 − ϕ1 L
j=0 j=0
de donde
∞
Xn = ϕj1 Zn−j .
j=0
(1 + θ12 + 2θ1 ϕ1 )
RX (0) = σ2 , (4.15)
1 − ϕ21
(ϕ1 + θ1 )(1 + ϕ1 θ1 )
RX (m) = σ 2 ϕm−1
1 , m ≥ 1. (4.16)
1 − ϕ21
1 + θ1 z
= ψ0 + ψ1 z + ψ2 z 2 + · · · .
1 − ϕ1 z
Entonces 1 +θ1 z = (ψ0 +ψ1 z +ψ2 z 2 +· · · )(1 −ϕ1 z). Luego, igualando coeficientes obtenemos:
ψ0 = 1
ψ1 = ϕ1 + θ1
ψ2 = ψ1 ϕ1 = ϕ1 ( ϕ1 + θ1 )
ψ3 = ψ2 ϕ1 = ϕ21 ( ϕ1 + θ1 )
..
.
71
1
N−k
R(k) = ( Xj − X )( Xj+k − X ) k = 0, 1, · · ·
N
j=1
Note que
1
N
R(0) = ( Xj − X )2 = σ
2
N j=1
Nota 4.2.1. Con respecto al Ejemplo (3.2.3), si f(t) es una funci ón de t no aleatoria, y R(h)
es la función de autocovarianza del proceso estacionario en covarianza X t , entonces el proceso
Yt = f(t) + Xt también tiene autocovarianza R(s). Sin embargo, Y t no es estacionario en
covarianza. Y, aunque se cumpla ρX (k) = ρY (k), la fac muestral no cumple
ρ* *
X( k ) = ρY (k)
y
T T
t=k+1 ( Yt − Y )( Yt−k − Y ) t=k+1 ( Xt − X )( Xt−k −X)
T = T
t=1 ( Yt −Y )2 t=1 ( Xt − X )
2
1 1
T T
Y = Yt = f( t ) + Xt
T t=1 T t=1
1
T
= f( t ) + X = f + X
T t=1
Según Box and Luceño (2002), pag. 114-115, el variograma permite identificar cuándo un pro-
ceso Xn es estacionario en covarianza. El variograma tiene la ventaja de que puede representar
también el comportamiento de muchas series de tiempo no estacionarias. Si R(k) converge a cero
rápidamente cuando k → ∞ entonces V (k) es un estimador de
R( 0 ) − R( k ) R( 0 )
Vk = −→ , k → ∞,
R( 0 ) − R( 1 ) R( 0 ) − R( 1 )
por eso, la gráfica de V (k) en el caso estacionario debe mostrar que se acerca a un valor constante.
En caso de mostrar una gráfica que tiene pendiente positiva constante serı́a un indicador de no
estacionariedad. En la teorı́a de series de tiempo existen varias pruebas de hipótesis, denominadas
pruebas de raiz unitaria, que tienen como hipótesis nula la no estacionariedad del proceso.
73
1. α(1) = Corr( X1 , X2 )
a0 a1 a2 α3 ··· αk−1
···
α1 a0 a1 a2 αk−2
a2 α1 α0 a1 ··· αk−3 (4.17)
.. .. .. .. .. ..
. . . . . .
ak−1 ak−2 ak−3 ak−4 ··· a0
Nótese que es una matriz simétrica.
Teorema 4.2.1. Para un proceso Xn estacionario en covarianza la funci ón de autocorrelaci ón
parcial α(k) = φ kk satisface el siguiente sistema lineal:
ρ0 ρ1 ρ2 ρ3 ··· ρk−1 φk1 ρ1
···
ρ1 ρ0 ρ1 ρ2 ρk−2 φk2 ρ2
ρ2 ρ1 ρ0 ρ1 ··· ρk−3 φk3 = ρ3 k = 1, 2, · · · (4.18)
.. .. .. .. .. .. .. ..
. . . . . . . .
ρk−1 ρk−2 ρk−3 ρk−4 ··· ρ0 φkk ρk
Matlab posee varios Toolbox para análisis de señales y series de tiempo . En esta sección se
introducen algunas funciones que permiten implementar dos pasos básicos en el análisis de
procesos ARMA: i) identificación de los órdenes p y q, y ii) estimación del modelo y verificación
del ajuste. Se incluye también una función que permite la simulación de procesos ARMA.
a) armabat: función para identificar la pareja (p,q) que produce el modelo con menor
criterio de información de Akaike (AIC). Es una función escrita por H. Hurd. 1
b) armax: función que estima los parémetros del modelo ARMA(p,q). Matlab provee
varias funciones para estimación de modelos pero solamente se considerará ésta.
c) resid: función para calcular los residuos del modelo con el fin de poder realizar pruebas
de hipótesis para determinar si es ruido blanco, como la prueba de Ljung-Box.
d) lbt: función para realizar la prueba de Ljung-Box.
e) compare: función para examinar la calidad de los pronósticos que se pueden hacer con
el modelo ajustado con el fin de determinar su adecuación.
Notación Matlab. En lugar de la letra L, Matlab utiliza q −1 , luego q −1 (Xn ) = Xn−1 . Por ejemplo,
un modelo ARMA(4,2) se expresa en Matlab ası́:
figure(1)
subplot(2,2,1), plot(x);
1 http://www.stat.unc.edu/faculty/hurd/stat185Data/progdoc.html
75
ylabel(’Xn’)
title(’Trayectoria’)
[fac_y,m]=autocorr(x,[],2);
subplot(2,2,2), autocorr(x,[],2)
title(’fac’);
v = (fac_y(1)-fac_y)/(fac_y(1)-fac_y(2));
subplot(2,2,4), stem(m,v);
grid
title(’Variograma’)
2. En un proceso AR(p) la facp muestral debe mostrar las primeras p autocorrelaciones par-
ciales por fuera de las bandas de Bartlett, es decir, deben ser significativamente diferentes
de cero. La fac muestral debe mostrar una forma decreciente a cero.
En un proceso MA(q) la fac muestral debe mostrar las primeras q autocorrelaciones por
fuera de las bandas de Bartlett, es decir, deben ser significativamente diferentes de cero. La
facp muestral debe exhibir un patrón decreciente a cero.
Después de una posible identificación del tipo de proceso se procede a especificar los
órdenes p y q del proceso. En caso de no ser posible identificar un AR ó un MA, se toma
inicialmente el rango p, q = 1, 2, 3, 4, 5, 6, y se corre la función “armabat” como se indica
a continuación. Esta función busca la pareja (p,q), en el rango establecido, que minimiza el
“criterio de información de Akaike”.
Antes de aplicar la función es conveniente restar la media para obtener un proceso de media
cero, asumiendo que el proceso es estacionario en covarianza: “xt = x - mean(x);”.
% eliminar la media
xt = x -mean(x);
% explora el orden
pvec = [1 2 3 4 5 6];
qvec = [1 2 3 4 5 6];
[mbest,minaic,pbest,qbest]=armabat(xt,pvec,qvec);
pbest
qbest
En las variables “pbest” y “qbest” están los valores de los órdenes p y q que mejor describen
el proceso.
3. Estimación los parámetros del modelo ARMA(p,q). Para esto se utiliza la función “armax”
con la pareja (p, q) escogida en el punto anterior con la instrucción, por ejemplo, “arma42
= armax(xt,[4 2]);", la cual corresponde a un proceso ARMA(4,2). Esta instrucción crea un
objeto de nombre “arma42” que contiene varios campos con información sobre el modelo
76
estimado. Para expresar la ecuación del modelo estimado de la forma A(L)Xn = B(L)Zn ,
se obtienen los vectores de coeficientes estimados arma42.a = (1, −ϕ̂1 , . . . , −ϕˆp ).
arma42 = armax(xt,[pbest qbest]);
present(arma42)
arma42.a
arma42.c
5. Para completar el análisis es necesario chequear si los residuos del modelo ajustado son
ruido blanco. Los residuos son valores estimados del proceso Z n . La forma de hacerlo
es calculando la fac y la fac parcial con los residuos. Si los residuos resultan ruido blanco
ambas funciones deben mostrar todos los valores dentro de las bandas de Bartlett. El cálculo
de los residuos se puede hacer con los siguientes comandos.
dato = iddata(xt);
rarma42 = resid(arma42,dato);
et = rarma42.OutputData;
figure(3)
subplot(2,2,1), plot(et);
title(’Residuos’)
[fac_x,m] = autocorr(et,30,[],2);
subplot(2,2,2), autocorr(et,30,[],2);
title(’fac muestral’)
subplot(2,2,3), parcorr(et,30,[],2);
title(’facp muestral’)
v = (fac_x(1)-fac_x)/(fac_x(1)-fac_x(2));
subplot(2,2,4), stem(m,v);
grid
title(’Variograma’)
6. Una manera de chequear si el modelo propuesto ajustó bien los datos es ajustar el modelo con
la primera mitad de los datos y utilizar la parte restante para comparar con los pronósticos
a un paso: se compara Xn con el pronóstico de X n realizado con el modelo. La función
“compare” de Matlab hace este cálculo.
77
Sample Autocorrelation
2
0.4
1
0.2
0 0
−1 −0.2
−0.4
−2
−0.6
−3
−0.8
500 1000 1500 2000 2500 3000 0 5 10 15 20 25 30
Lag
0.8
12
Sample Partial Autocorrelations
0.6
10
0.4
0.2 8
0 6
−0.2
4
−0.4
2
−0.6
−0.8 0
0 5 10 15 20 25 30 0 5 10 15 20 25 30
Lag
figure(4)
% uso de la funcion "compare"
mitad = floor(length(xt)/2);
ye = xt(1:mitad);
yv = xt(mitad+1:end);
model= armax(ye,[pbest qbest]);
compare(yv,model,1);
Ejemplo 4.2.1. En la figura (4.1) se aprecian la fac y la fac parcial estimadas. Seg ún lo explicado
acerca de la identificación de modelos tipo ARMA, corresponden a un proceso autorregresivo
AR(p) con p entre 15 y 20. La estimación se realizó de acuerdo a las indicaciones anteriores y
se obtuvo un modelo AR(16). Antes de estimar el modelo se elimina la media, que tiene un valor
µ = 2.6456e + 003. El modelo ajustado para la serie X n − µ es:
El residuo ó error, indicado en Matlab con e(t) corresponde a un ruido blanco Z n con varianza
estimada dada por σ *2 = 2.2193e+005. La comprobación de que los residuos e(t) son ruido blanco
se realiza con la prueba Ljung-Box. En este caso no se rechaza la hipótesis de incorrelación de
e(t). Además, todos los coeficientes resultan significativamente diferentes de cero. Los números
que aparecen entre paréntesis con +- son las desviaciones estándar sφj de los coeficientes φj .
En este caso, como se explicó, se puede ver que la dividir el coeficiente por su desviación se
obtiene un valor mayor de 1.96 en valor absoluto por lo que se puede considerar que todos son
significativamente diferentes de cero. Este modelo podrı́a servir por ejemplo, para simular las
aceleraciones de un sismo sobre una estructura.
n = 100;
t = (1:n)’;
z = normrnd(0,2,n,1);
x = filter([1 -0.4 0.4],[1],z);
autocorr(x,20,[],2);
[r, k] = autocorr(x, 20, [\ ], 2);
v = (r(1)-r)/(r(1)-r(2));
stem(k,v)
produce una gráfica del variograma V (k) que muestra el proceso estacionario del proceso. La
gráfica de autocorr es la gráfica de ρ*
X ( k ) , k = 0, 1, 2, · · · , 20. Nótese que en este caso se
conocen los valores de la fac ρX ( 0 ) = 1, ρX ( 1 ) = −0.42 , ρX ( 2 ) = 0.3 , ρX ( k ) = 0 para
k ≥ 3.
4.3. Aplicaciones
En esta sección se relacionan algunas aplicaciones de los procesos considerados en este capı́tulo.
Son aplicaciones de Series de Tiempo. Esta área tiene aplicaciones en neurofisiologı́a, astrofı́sica,
economı́a, biologı́a, control, procesamiento de señales y comunicaciones.
1. Nota sobre las aplicaciones de los procesos AR(1). Los procesos AR(1) forman parte
de un tipo de procesos más general, de la forma Xn = An Xn−1 + Yn , n = 1, 2, . . ..
Según Vervaat (1979), “Estos modelos aparecen en economı́a, fı́sica, biologı́a y sociologı́a.
En todas las aplicaciones Xn representa un número de unidades de un cierto objeto en el
tiempo n, Yn es la cantidad añadida inmediatamente antes del tiempo n ( o retirada, en el
caso Yn < 0), y el factor An representa la tasa de incremento o decremento de la cantidad
Xn−1 entre los tiempos n-1 y n. Un ejemplo de aplicación consiste en asumir que X n es
79
Cuando los autores examinaron los residuos Z n estimados encontraron que no tenı́an una
distribución Normal sino una de tipo Hiperbólico,Hyp(α, β, δ, µ). La función de densidad
de una distribución Hiperbólica está dada por:
α2 − β 2
f(x) = exp(−α δ 2 + (x − µ)2 ),
2αδK1 (δ α2 − β 2 )
donde δ > 0, µ ∈ R y 0 ≤ |β| < α. La función K1 (.) es la función modificada de Bessel de
ı́ndice 1. Los valores estimados de los parámetros fueron: α̂ = 1.671304, β̂ = −0.09879,
δ̂ = 0.298285, µ̂ = 0.076975. Los autores compararon los pronósticos obtenidos con
el modelo ARMA(1,6)-Hyp versus los pronósticos provistos por la entidad oficial CAISO
(California System Operator) y concluyeron que los obtenidos por el modelo eran superiores,
utilizando un error MAPE porcentual. El modelo presentaba un valor 1.24 mientras que
CAISO un valor 1.70. Los autores señalan: “ Es relativamente fácil obtener pronósticos de
demanda con valores MAPE porcentual cercanos a 10.0. Sin embargo, los costos financieros
de un error son tan grandes que la investigación está dedicada a reducir estos valores aún
en algunos puntos porcentuales.”(ver Nowicka-Zagrajek and Weron (2002), pag. 1904).
3. Ingenierı́a. En el artı́culo (Reed and Scanlan (1983)), los autores utilizaron un modelo
ARMA para analizar las series de tiempo correspondientes a las cargas de viento sobre
torres de enfriamiento de forma circular. Una de las aplicaciones de este modelo fué la
simulación de cargas de viento. Además, utilizaron modelos que relacionan la velocidad
con un diferencial de presión del viento.
Abstract. The use of system identification to determine linear Auto Regressive Moving Av-
erage eXogenous inputs (ARMAX) models for smart structures has been scarcely reported
in the literature. However, these models can be used as a basis for a linear discrete-time
controller design. This work presents a smart structure vibration control scheme developed
using an ARMAX model of the structure and compares its performance to an empirically
designed velocity feedback controller. The smart structure is comprised of piezoceramic
(such as PZT) actuators and strain gauge sensors attached to a cantilever beam and interfaced
to a PC, which provides the control software platform. System identification is carried out in
three phases: data collection, model characterization and parameter estimation. Input-output
data are collected by stimulating the piezoactuators with a bipolar square wave signal and
monitoring the strain gauge response. The model is characterized with second-order plant
dynamics and a least-squares estimation algorithm calculates the model parameters. The
controller is designed using pole placement to achieve the desired closed-loop response.
The ARMAX model is used to calculate the pole placement controllers by solution of the
Diophantine equation for the prescribed closed-loop pole positions. Results show that the
pole placement controller can match the performance of a velocity feedback controller and
maintain this performance when the sampling rate is greatly reduced.
4.4. Problemas
1. Suponga que (Xn , n = 0, 1, . . .), es un proceso AR(1) definido para n ≥ 1, en lugar de
n ∈ Z, mediante las relaciones siguientes:
2
σ
a) X0 tiene media y varianza dados por: (0, 1−ϕ 2 ).
b) Xn = ϕXn−1 + Zn , n = 1, 2, . . ..
Entonces, por el teorema de Wold (Teo 3.4.1, pag. 56), si se cumple (4.20), se cumple la
identidad (entendida como lı́mite en media cuadrática):
∞
Xn = ψj Zn−j (4.21)
j=0
∞
donde j=0 ψj2 < ∞.
a) Utilice la identidad (4.21) para comprobar que se cumple E(Z n Xn−k ) = 0 para
k = 1, 2, . . . .
b) Multiplique la ecuación (4.19) por X n−k y utilice el resultado anterior para comprobar
que la función de autocovarianza R(k) del proceso Xn satisface la ecuación en
diferencias:
R(k) = ϕ1 R(k − 1) + ϕ2 R(k − 2), k = 1, 2, . . . (4.22)
donde σ 2 es la varianza del ruido blanco Zn . Utilice la ecuación (4.22) para obtener
R(1) y R(2) en función de R(0) y R(1). Estas ecuaciones junto con la (4.23) confor-
man un sistema de tres ecuaciones y tres incógnitas, tal que al resolverlo se obtienen
expresiones para R(0), R(1) y R(2). Compruebe que
(1 − ϕ2 )σ 2
R(0) = V ar(Xn ) = (4.24)
(1 + ϕ2 )((1 − ϕ2 )2 − ϕ21 )
3. El modelo MA(1). Suponga un proceso Media Móvil, MA(1), (X n , n ∈ Z), definido por la
relación:
Xn = Zn + θZn−1 , n ∈ Z (4.25)
donde θ ∈ R es un parámetro y (Zn , n ∈ Z) es ruido blanco de varianza σ 2 .
b) Se puede probar que la FACP de un proceso MA(1) está dada por la expresión
αk = (−θ)k+1 (1 − θ2 )/(1 − θ2(k+1) ), para k = 1, 2, . . .. Compruebe esta fórmula
calculando directamente los casos αk , k = 1, 2.
c) Considere el proceso Yn = Xn − Xn−1 . Debe ser también estacionario en covarianza
(por qué?). Encuentre la función de autocovarianza. Compruebe que R Y (0) > RX (0).
Qué indica este resultado?.
a) Xn = Zn − 12 Zn−1 − 12 Zn−2
b) Xn = Zn + 0.6Zn−1 − 0.3Zn−2 − 0.1Zn−3
5. (ver Brockwell and Davis (1987), pag. 92) Utilice el Método 2 para encontrar la función de
autocovarianza del proceso (I − L + (1/4)L2 )Xn = (I + L)Zn , con Zn ∼ RB(0, σ 2 ).
a)
n
Xn = ( 1 − α )n Z1 + α ( 1 − α )n−j Zj
j=1
n−1
= ( 1 − α )n Z1 + α ( 1 − α )j Zn−j
j=0
Denote Un = Zn + θ1 Zn−1 .
m
Xn+m = ϕm
1 Xn + ϕ−j
1 Uj+n , m ≥ 1. (4.28)
j=1
σ 2 (ϕ1 + θ1 )(1 + ϕ1 θ1 )
RX (1) = E(Xn Xn+1 ) = ϕ1 σ02 + θ1 σ 2 =
1 − ϕ21
4.5. Soluciones
1. a) Utilizando la fórmula
n
x n = an x 0 + a−j bj
j=1
obtenemos
n
Xn = ϕn X0 + ϕn−j ξj
j=1
y por tanto
n
E( Xn ) = ϕn E( X0 ) + ϕn−j · 0 = ϕn E( X0 )
j=1
también
n+m
Xn+m = ϕn+m X0 + ϕ−j ξj
j=1
n+m
= ϕm ϕn X0 + ϕn−j ξj
j=1
n
n+m
m n n−j
=ϕ ϕ X0 + ϕ ξj + ϕn−j ξj
j=1 j=n+1
n+m
= ϕm Xn + ϕn−j ξj
j=n+1
m
−j
= ϕm Xn + ϕ ξn+j
j=1
y por tanto
m
Xn Xn+m = ϕm Xn2 + ϕ−j Xn ξn+j
j=1
m
E( Xn Xn+m ) = ϕm E( Xn2 ) + ϕ−j E( Xn ξn+j )
j=1
Obsérvese que E(Zn |Xn−1 ) no puede simplificarse porque la expresión para Xn−1 =
n−1
ϕn−1 (X0 + j=1 ϕ−j Zj ), depende de las Zj para j = 1, . . . , n − 1, y solamente se
asume que las Zj son incorrelacionadas pero no independientes. Podemos decir que
E(Zn |Xn−1 ) es una variable de media cero porque E(E(Zn |Xn−1 )) = E(Zn ) = 0,
pero no podemos concluı́r que E(Z n |Xn−1 ) = 0. Más adelante en el curso se verá que,
si se asume que las Zj son i.i.d. Normales, entonces E(Xn |Xn−1 ) = ϕXn−1
d) Utilizando la Nota sobre la definición de pronósticos en procesos estacionarios en
covarianza, tenemos que calcular X 3 = α1 X1 + α2 X2 , donde (α2 , α1 ) = R−1 γ2 .
2
Tenemos, de las definiciones en la Nota y el proceso AR(1):
R(0) R(1) σ2 1 ϕ
R2 = =
R(1) R(0) 1 − ϕ2 ϕ 1
1 1 −ϕ R(1) σ2 ϕ
R−1
2 = 2 , γ2 = =
σ −ϕ 1 R(2) 1 − ϕ2 ϕ2
2. Ejercicio.
3. Ejercicio.
4. Ejercicio.
6. Ejercicio.
7. Ejercicio.
c) Desarrollar el cuadrado:
n 2
Xn2 = ϕ2n
1 X0 + ϕ−j
1 Uj
j=1
n
n
n
−(j+i)
= ϕ2n
1 X02 + 2X0 ϕ−j
1 Uj + ϕ1 Uj Ui ,
j=1 i=1 j=1
−(j+i)
luego E( Xn2 ) = ϕ2n
1 σ02 + 0 + ni=1 nj=1 ϕ1 E( Uj Ui ) . Pero E(Uj Ui ) es
la covarianza de un proceso media móvil MA(1), luego, utilizando la fórmula (4.11),
pag. 66,
1−|i−j|
E(Ui Uj ) = RU (i − j) = σ 2 θs θs+|i−j|.
s=0
2
Si i = j entonces RU (0) = σ (1 + θ12 ), y si |i − j| = 1 entonces RU (1) = σ 2 θ1 .
Luego se tiene que
n
n
−(j+i)
n
n
−(j+i)
ϕ1 E(Uj Ui ) = ϕ1 RU (i − j)
i=1 j=1 i=1 j=1
n
n
= σ 2 (1 + θ12 ) ϕ−2j
1 + 2σ 2 θ1 ϕ1 ϕ−2i
1
j=1 i=1
2
σ (1 + θ12 + 2θ1 ϕ1 )(1 − ϕ−2n
1 )
=− ,
1 − ϕ21
n 1−ϕ−2n
utilizando i=1 ϕ−2i
1 =− 1
1−ϕ21
. Luego
σ 2 (1 + θ12 − 2θ1 ϕ1 ) σ 2 (1 + θ12 − 2θ1 ϕ1 ) −2n
E( Xn2 ) = ϕ2n
1 σ02 − + ϕ1
1 − ϕ21 1 − ϕ21
reemplazamos
σ 2 (1 + θ12 + 2θ1 ϕ1 )
RX (0) = σ02 =
1 − ϕ21
y obtenemos V ar( Xn ) = RX (0) = σ02 , n = 0, 1, 2, · · · .
d) Reemplazando m = 1 en (4.28) obtenemos
Xn Xn+1 = ϕ1 Xn2 + ϕ−1
1 Xn Un+1
pero
n
E( Xn Zn+1 ) = ϕn1 E( X0 Zn+1 ) + ϕn−j
1 E( Uj Zn+1 )
j=1
87
n
= ϕn−j
1 E( Zj Zn+1 + θ1 Zj−1 Zn+1 ) = 0,
j=1
n
E( Xn Zn ) = ϕn1 E( X0 Zn ) + ϕn−j
1 E( Uj Zn )
j=1
n
= ϕn−j
1 E( Zj Zn + θ1 Zj−1 Zn ) = σ 2 .
j=1
Luego
E( Xn Xn+1 ) = ϕ1 σ02 + θ1 σ 2
y
σ 2 ( ϕ1 + θ1 )( 1 + ϕ1 θ1 )
RX ( 1 ) = ϕ1 σ02 + θ1 σ 2 =
1 − ϕ21
9. Para m ≥ 2 se tiene
m
Xn Xn+m = ϕm
1 Xn2 + ϕ−j
1 Xn Uj+n
j=1
m
E( Xn Xn+m ) = ϕm
1 σ02 + ϕ−j
1 E( Xn Uj+n )
j=1
−j
m+1
2
E( Xn Xn+m+1 ) = ϕm+1
1 σ 0 + ϕ1 E( Xn Uj+n )
j=1
m
−(m+1)
= ϕm+1
1 σ02 + ϕ1 E( Xn Un+m+1 ) + ϕ−j
1 E( Xn Uj+n )
j=1
= ϕ1 E( Xn Xn+m ) + E( Xn Un+m+1 )
El cálculo en Media Cuadrática consiste en una serie de resultados que permiten extender algunas
de las operaciones del Cálculo diferencial e integral a procesos en tiempo continuo. La aplicación
de estas operaciones en procesos permite transformar ciertas ecuaciones diferenciales ordinar-
ias en ecuaciones diferenciales con procesos estocásticos, lo cual permite formular modelos de
fenómenos fı́sicos sujetos a condiciones aletorias. En este caso un modelo especificado a partir
de alguna condición teórica se denominarı́a “modelo de caja blanca” en oposición a los modelos
tipo ARMA de la sección anterior, que podrı́an denominarse “modelos de caja negra”. El cálculo
en media cuadrática es útil pero tiene algunas limitaciones relacionadas con las reglas de difer-
enciación de un producto y la regla de la cadena cuando los procesos son de tipo “ruido blanco”.
En el capı́tulo 5 se introduce el Cálculo de Ito, que es una generalización del cálculo en media
cuadrática y en el cual se superan tales limitaciones.
89
90
Proposición 5.1.1. (cf. Cramer, Leadbetter Cramér and Leadbetter (1968) pag. 83) El proceso
( Xt , t ∈ T ) es continuo en media cuadr ática en T si y solo si E( X t1 Xt2 ) es continua en cada
( t , t ) ∈ T × T es decir,
Demostración. 1) [⇐= ]
Suponga que E( Xt1 Xt2 ) → E( Xt2 ) cuando t1 → t y t2 → t, entonces se debe probar que
Xt → Xs cuando t → s, es decir que
E ( Xt − Xs )2 → 0 cuando t → s
pero
E ( Xt − Xs )2 = E Xt )2 + E Xs )2 − 2E Xt Xs
y
E Xt2 → E Xs )2 y E Xt Xs → E Xs2 cuando t→s
luego
E ( Xt − Xs )2 → 0 cuando t→s
[=⇒ ]
Si Xt es continua en media cuadrática en T y ( t1 , t2 ) ∈ T × T y t ∈ T veamos que
pero
| E( Xt1 Xt2 ) − E( Xt Xt ) | = E ( Xt1 − Xt ) Xt2 + ( Xt2 − Xt ) Xt
≤ E | ( Xt1 − Xt ) Xt2 + ( Xt2 − Xt ) Xt |
≤ E | ( Xt1 − Xt ) Xt2 | + E | ( Xt2 − Xt ) Xt |
≤ E ( Xt1 − Xt )2 Xt22 + E ( Xt2 − Xt )2 E( Xt2 )
Si t1 → t , t2 → t entonces
luego es continuo en media cuadrática. Nótese que ya se habı́a probado la continuidad en media
cuadrática cuando se vió que:
lı́m E ( Nt+h − Nt )2 = 0.
h→0
Xt+h − Xt 2
−→ Zt si h→0
h
lo cual equivale a decir que para cada t ∈ T se cumple
1 1
1 Xt+h − Xt 1
1 − Zt 1
1 h 1 −→ 0 si h→0
E( Xn ( t ) Xr ( t ) ) −→ c( t ) h → h0 r→h
Nota 5.2.1. De la teorı́a de Cálculo en varias variables, se sabe que si existe el lı́mite
lı́m F(x, y) = L
( x , y )→( x0 , y0 )
entonces se cumple
lı́m lı́m f( x , y ) = lı́m lı́m f( x , y ) = L
x→x0 y→y0 y→y0 x→x0
lı́m F(x, y )
( x , y )→( x0 , y0 )
2
Ejemplo 5.2.1. Suponga que E( X s Xt ) = e−α(t−s) , α > 0 , t , s ∈ R para un proceso
( Xt , t ∈ R ). Entonces
X − Xt Xt+r − Xt 1
E(Xt+h Xt+r ) − E(Xt+h Xt ) − E(Xt Et+r ) + E(Xt2 )
t+h
E · =
h r hr
93
1 −α(r−h)2 2 2
=e − e−αh − e−αr + 1
hr
√
Suponga que ( h , r ) ( 0 , 0 ) con h2 + r 2 < , > 0 pequeño entonces usando eθ 1 + θ
para θ pequeño
1 −α(r−h)2 2 2
1
e − e−αh − e−αr + 1 = 1 − α(r − h)2 − (1 − αh2 ) − (1 − αr 2 ) + 1
hr hr
α 2
= h + r 2 − ( r − h )2 = 2α
hr
luego
Xt+h − Xt Xt+r − Xt
lı́m E · = 2α
(h,r)→(0,0) h r
2
Si existe un proceso Xt , t ∈ R tal que E( Xt Xs ) = e−α(t−s) entonces tiene derivada en media
cuadrática Xt en cada t.
Ejemplo 5.2.2. Si existe un proceso Xt , t ∈ R tal que para α > 0 E( X s Xt ) = e−α| t−s |
entonces, no tiene derivada en media cuadrática en cualquier t.
Xt+h − Xt Xt+r − Xt 1
E · = e−α| h−r | − e−α| h | − e−α| r |
h r hr
√
si h2 + r 2 < entonces h 0 , r 0 luego
Xt+h − Xt Xt+r − Xt α
E · = −| h − r | + | h | + | r |
h r hr
entonces
Xt+h − Xt Xt+r − Xt α α( 2h ) 2α
E · = −r + h + h + r = =
h r hr hr r
luego
Xt+h − Xt Xt+r − Xt
lı́m E · = +∞
( h , r )→( 0 , 0 ) h r
y por tanto el lı́mite no es igual a una constante.
Teorema 5.2.2.
Demostración.
X 1
t+h − Xt Xt+r − Xt
E · = E(Xt+h Xt+r ) − E(Xt+h Xt ) − E(Xt Et+r ) + E(Xt2 )
h r hr
1
= R(h − r) − R(h) − R(t) + R(0)
hr
94
Si existe R (0), por desarrollo de Maclaurin de R(t) alrededor de t = 0 se tiene R(t) ≈
R(0) + R (0)t + R (0)t2 /2, luego
1
R(h − r) − R(h) − R(t) + R(0) ≈ −2rR (0) − hrR (0)
hr
pero R (0) = limt→0 R(t)−R(−t)
2t = 0, por ser R(t) función par, luego
X 1
t+h − Xt Xt+r − Xt
lı́m E · = lı́m −hrR (0) = −R (0)
h→0,r→0 h r h→0,r→0 hr
2
Ejemplo 5.2.3. Xt es estacionario en covarianza con R(h) = σ 2 e−αh , α > 0 entonce es
derivable en media cuadrática. Ocurre lo mismo con
α
R(h) = σ 2 e−α| h | (1 + α| h |) y R(h) = σ2 e−α| h | cos (βt) + sen(β| h |)
β
Teorema 5.2.3. Si (Xt , t ∈ R) es derivable en media cuadrática en t, entonces es continuo en
media cuadrática en t.
2
2
2 Xt+h −Xt
Demostración. E (Xt+h − Xt ) = h E h
−X
Si Xt es derivable entonces t+hh t converge en media cuadrática a la variable aleatoria Xt ,
X
Demostración. X
d Xt+h − Xt t+h − Xt
E(Xt ) = lı́m = lı́m E
dt h→0 h h→0 h
2
pero se vió que si Xn −→ X cuando n → ∞ entonces E(Xn ) −→ E(X) cuando h → 0 y como
Xt+h − Xt 2
−→ Xt
h
95
entonces
Xt+h − Xt
E −→ E(Xt ) cuando h→0
h
luego
d
E(Xt ) = E(Xt )
dt
Teorema 5.2.5. Si Xt y Yt son derivables en media cuadrática y a , b son números reales entonces
aXt + bYt es derivable en media cuadrática y
aXt + bYt = aXt + bYt
∂
1. E(Xs Yt ) = E(Xs Yt )
∂s
∂
2. E(Xs Yt ) = E(Xs Yt )
∂t
∂2
3. E(Xs Yt ) = E(Xs Yt )
∂s ∂t
Demostración. Como la demostración de las dos primeras es similar haremos solamente la primera
y la tercera.
2
1). Utilizando X n −→ X, entonces E(Xn Y ) −→ E(X Y ) pues
| E(Xn Y ) − E(X Y ) | ≤ E | (Xn − X)Y | ≤ Xn − X Y −→ 0
Xs+h − Xs Xs+h − Xs 2
aplicando a · Yt . Como −→ Xs cuando h → 0 entonces
h h
X
s+h − Xs
E · Yt −→ E Xs Yt ) cuando h → 0
h
luego
X − Xs
E(Xs Yt ) = lı́m E
s+h
· Yt
h→0 h
E(Xs+h Yt ) − E(Xs Yt )
= lı́m
h→0 h
∂
= E(Xs Yt )
∂s
96
3).
X − Xs
E(Xs Yt ) = lı́m E · Yt
s+h
h→0 h
∂
= E(Xs Yt )
∂s
∂ Xt+k − Yt
= lı́m E Xs
∂s h→0 k
2
∂
= E(Xs Yt )
∂s ∂t
∀t ∈ [a , b] Xt = 0 ⇐⇒ Xt = Z
⇐=.
Si Xt = Z ∀t ∈ [a , b] entonces
Xt+h − Xt Z−Z
= =0
h h
luego Xt = 0.
[ =⇒]
Si Xt = 0 ∀t ∈ [a , b] entonces
∂ ∂
E(Xs Xt ) = E(Xs Xt ) = 0 y E(Xs Xt ) = E(Xs Xt ) = 0
∂s ∂t
luego E(Xs Xt ) = C ∀(s , t) ∈ [a , b]2 luego para cualquier t ∈ [a , b]
E (Xt − Xt )2 = E(Xt2 ) − 2E(Xt Xt ) + E(Xt2 )
97
= C − 2C + C = 0
∂
de donde Xt = Xt , ∀t , t ∈ [a , b] ya que si Xt = 0 entonces E(Xt ) = 0 y por tanto
∂t
E(Xt ) = k , ∀t ∈ [a , b] luego
E (Xt − Xt )2 = V ar(Xt − Xt ) = 0
Demostración.
g(t + h)Xt+h − g(t)Xt g(t + h) − g(t) Xt+h − Xt
= · Xt+h + g(t) ·
h h h
2
−→ g (t) Xt + g(t) Xt cuando h→0
luego
1 1
1 g(t + h)Xt+h − g(t)Xt 1
1
− g (t) Xt − g(t) Xt 1 1
1 h
1 X
1 t+h − Xt
=11 g(t) − X
t
h
g(t + h) − g(t) 1
1
+ − g (t) Xt+h + +g (t) Xt+h − Xt 1
h 1
g(t + h) − g(t)
≤ | g(t) | An + − g (t) Xt+h
h
+ |g (t)| Xt+h − Xt → 0 cuando h→0
1 1
1 X −X 1
con An = 1 t+hh t − Xt 1 →= 0 cuando h → 0
Teorema 5.2.10. Si ϕ(t) es función real derivable para todo t ∈ R y X t es derivable en media
cuadrática y además se cumple que
1. E ϕ2 (Xt ) < ∞ para todo t.
2
2. E ϕ (Xt ) Xt < ∞ para todo t.
ϕ(X − ϕ(Xt ) 2
t+h )
3. E < ∞ para todo t y todo h = 0.
h
98
2
Xt+h −Xt
4. E h
ϕ (Xt ) < ∞ para todo t y todo h = 0.
Ejemplo 5.2.4. El procesos Poisson no es derivable en media cuadr ática. Se requiere probar que
N
t+h − Nt Nt+r − Nt
E
h r
converge a un lı́mite si h , r → 0
1
E Nt+h Nt+r − Nt Nt+h −Nt Nt+r + Nt2
hr
1 2
= λ (t + h)(t + r) + λ(t + r) − λ2 t(t + h) + λt
hr
− λ2 t(t + r) + λt + λ2 t2 + λt
1
(λ2 hr + λr ) = Λ2 λh si 0 < r < h
= hr
1 2 2 λ
hr
(λ hr + λt) = λ + h si 0 < h < r
Nota 5.2.3. Aunque el Proceso Poisson no es derivable en m.c. se puede definir su derivada de
Nt
manera formal como el proceso Nt = j=1 δ(t − Tj ), donde Tj , j = 1, 2, ... es la sucesión de
tiempos de arribo del proceso Poisson y δ(.) es la funci ón Delta de Dirac.
b
En éste capı́tulo se define la integral g(t) Xt dt donde ( Xt , t ∈ R ) es un proceso y g(t) es una
a
función real o compleja.
tal que si n aumenta entonces máx 1≤j≤n {tj+1 − tj } → 0. Se forma la sucesión de variables
aleatorias
n
Sn = g( tj ) Xtj ( tj+1 − tj ).
j=1
2
Si existe una variable aleatoria Z tal que S n −→ Z cuando n → ∞ es decir, si existe Z tal que
b
E ( Sn − Z )2 −→ 0 cuando n → ∞ entonces se dice que existe la integral g(t) Xt dt en
a
media cuadrática y Z se indica con el sı́mbolo integral
b
Z= g(t) Xt dt
a
b
g(t) Xt dt en media cuadrática.
a
a = t1 < t2 < t3 < · · · < tn < tn+1 = b y a = u1 < u2 < u3 < · · · un < un+1 = b
(t) (u)
Sean Sn y Sn las sumas correspondientes, entonces
m
(t) (u) n
E ( Sn Sn ) = E g(tj ) g(uk ) Xtj Xuk (tj+1 − tj ) (uk+1 − uk )
j=1 k=1
m
n
= g(tj ) g(uk ) E( Xtj Xuk ) (tj+1 − tj ) (uk+1 − uk )
j=1 k=1
que existe debido a que E( Xt Xs ) y g(t) g(s) son funciones continuas en [a.b] × [a, b]. Por lo
tanto, aplicando el criterio para convergencia en media cuadrática de una sucesión de variables
aleatorias Xn , dada por ( propiedad 7 ) Xn converge en media cuadrática cuando n → ∞ ⇐⇒
E( Xn Xm ) −→ C cuando n , m → ∞ para una C constante; colocando
b b
C= g(t) g(s) E( Xt Xs ) dt ds
a a
tenemos que Sn converge en media cuadrática a una variable aleatoria Z; ésta variable Z se denota
b
por g(t) Xt dt.
a
100
b
Propiedades de la Integral g(t) Xt dt.
a
b
b
1. E g(t) Xt dt = g(t) E( Xt ) dt
a a
2
b
b
b
2. E a
g(t) Xt dt = g(t) g(s) E(Xt Xs ) dt ds
a a
b
b b
3. V ar g(t) Xt dt = a a g(t) g(s) R(s, t) ds dt
a
b
d
b
d
4. E g(t) Xt dt · g(s) Xs ds = a c
g(t) g(s) E( Xt Xs ) ds dt
a c
b
d
b d
5. Cov g(t) Xt dt , g(s) Xs ds = a c g(t) g(s) R( s , t )) ds dt
a c
c
b
c
6. Si a < b < c entonces a g(t)Xt dt = a g(t)Xt dt + b g(t)Xt dt.
b
b
7. || a g(t)Xt dt|| ≤ a |g(t)| ||Xt||dt ≤ (b − a)Max{a≤t≤b} |g(t)| ||Xt ||
Demostración.
b
b
2
1. Como Sn −→ g(t) Xt dt cuando n → ∞, entonces E( Sn ) −→ E g(t) Xt dt
a a
cuando n → ∞ pero
n
E( Sn ) = g(tj ) E( Xtj ) (tj+1 − tj )
j=1
b
y ésta suma converge a la integral g(t) Xt dt luego
a
b b
E g(t) Xt dt = g(t) E(Xt ) dt
a a
0 Obviamente 5). =⇒ 3).
101
2
b
2. Si g(t) , Xt son reales, entonces también como Sn −→ g(t) Xt dt se tiene que
a
2
b
E Sn2 −→ E g(t) Xt dt cuando n→∞
a
Además E Sn2 = E( Sn Sn ). Utilizando el resultado de la prueba de la proposición
anterior b b
E( Sn Sn ) −→ g(t) g(s) E( Xt Xs ) dt ds
a a
luego
b 2 b b
E g(t) Xt dt = g(t) g(s) E( Xt Xs ) dt ds
a a a
3. Sabemos que
b b 2 b
2
V ar g(t) Xt dt = E g(t) Xt dt −E g(t) Xt dt
a a
a
b b
= g(t) g(s) E( Xt Xs ) dt ds
a a
b b
− g(t) g(s) E( Xt ) E( Xs ) dt ds
a a
b b
= g(t) g(s) R( s , t ) dt ds
a a
(1) 2
b (2) 2
b
4. Utilizando Sn −→ y Sm −→ cuando n , m → ∞ dos sumas que aproximan en
a a
media cuadrática las integrales, entonces utilizando una propiedad de la convergencia en
media cuadrática tenemos
b d
(1) (2)
E Sn Sm −→ E cuando n → ∞
a c
pero
m
n
E Sn(1) Sm
(2)
=E g(tj ) g(uk ) Xtj Xuk (tj+1 − tj ) (uk+1 − uk )
j=1 k=1
n m
= g(tj ) g(uk ) E( Xtj Xuk ) (tj+1 − tj ) (uk+1 − uk )
j=1 k=1
que tiende a
b d
g(t) g(s) E( Xt Xs ) ds dt cuando n→∞
a c
igualando los términos se tiene la prueba.
102
5. Es inmediata.
b
Se pueden considerar otros tipos de integrales en media cuadrática tales como Xt dG(t) y
a
b
G(t) dXt denominadas integrales RS ( Riemann - Stieltjès )
a
b
Definición 5.3.2. ( Definición de G(t) dXt ) Si Xt existe y es continua en media cuadrática y
a
G (t) existe y es continua en [a, b] entonces se define
b b b
G(t) dXt = G(t) Xt − Xt g(t) dt donde g(t) = G (t)
a a a
Sea Xt un proceso en tiempo continuo con t ∈ R, derivable en media cuadrática con X t continua
en media cuadrática. Sean a(t) , b(t) , t ∈ R funciones reales continuas, y Yt , t ∈ R proceso
continuo en media cuadrática. Suponga que Xt , Xt , Yt satisfacen la ecuación diferencial
estocástica
entonces
t
t
Xt − a(t) Xt = Xt e− 0 a(s) ds − a(t) e− 0
a(s) ds
Xt
= Xt e − 0t a(s) ds
103
de donde
t
t
s
Xt = e 0
a(s) ds
X0 + b(s) e− 0 a(u) du Ys ds
0
es la solución de la ecuación diferencial.
t
t
E(Xt ) = e b(s) e
t
0
a(s) ds
E(X0 ) + s
a(u) du
E(Ys ) ds
0
y
t
t t
V ar(Xt ) = e2 0
a(s) ds
V ar(X0 ) + G(s1 ) G(s2 ) Cov(Ys1 , Ys2 ) ds1 ds2
0 0
con
G(s) = b(s) e−
s
0 a(u) du
Ejemplo 5.4.1. (Boyce and DiPrima (1983), problema No 20, pag. 87)
Asumiendo que yt es un proceso estocástico derivable en m.c. que satisface la siguiente ecuaci ón
diferencial:
yt
y t = v(rt − ), t ≥ 0 (5.1)
V
y0 = 0
y que el proceso rt es estacionario con media E(r t ) = r, y covarianza Cov(rs , rt) = Rr (t−s) =
2
σ 2 e−α(t−s) , donde α > 0 y σ > 0 son parámetros conocidos. A continuaci ón se desarrolla un
análisis del proceso definido por la soluci ón de (5.1).
4. Finalmente, encontramos expresiones para E(y t ) y V ar(y t ), y para los lı́mites respectivos
cuando t → ∞. A partir de la ecuación (5.1), se obtiene la expresión para la media y la
varianza de yt :
E(y t ) = v(E(rt ) − E(yt )/V ) = vre−vt/V
y V ar(y t ) = v2 (V ar(rt ) + V ar(yt )/V 2 − (2/V )Cov(rt , yt )). Pero V ar(rt ) = σ 2 , y la
expresión para V ar(yt ) se indicó anteriormente. Para encontrar Cov(rt , yt ) utilizamos
La expresión para V ar(yt ) es poco útil porque no tiene una expresión manejable, pero se
podrı́a tomar lı́mite cuando t → ∞ y reemplazar los valores de los parámetros. El resultado
es aprox. 10−5 .
5.5. Problemas
1. Considere un proceso estacionario (Xt , t ∈ R) con función de covarianza R(x) = (1 +
|x|)e−|x|, x ∈ R.
2. (ver Papoulis (1965), problema 9.16, pag. 334). El proceso (Y t , t ≥ 0) es tal que Y0 = 1,
y Yt + 2Yt = Xt , t > 0, donde Xt es un proceso estacionario con E(Xt ) ≡ 2 y RX (τ ) =
4 + 2e−|τ| . Encuente E(Yt ) y Cov(Yt , Ys ).
4. Suponga dos procesos Z1,t , Z2,t , t ≥ 0 con media cero, varianzas constantes iguales a σ2 ,
autocorrelaciones y correlaciones constantes iguales a ρ. Considere el sistema de ecuaciones
diferenciales:
5. Considere una partı́cula de masa unidad suspendida en un lı́quido y suponga que, debido
al lı́quido, existe una fuerza viscosa que retarda la velocidad de la partı́cula a una tasa
106
b) Se puede comprobar que Cov(Xt , Xt+h ) = Cov(Zt , Zt+h ). Encuentre una expresión
para Cov(Zt , Zt+h ) en forma de integral. No se requiere calcularla. Es posible resolver
esta integral y llegar a la fórmula:
σ 2 ke−kh
Cov(Xt , Xt+h ) = (α − (α + k)e−2kt +
α2 − k 2
+ ke−(α+k)t + ke−(α+k)t+(k−α)h − ke(k−α)h ).
5.6. Soluciones
1. a) Por el criterio de derivabilidad para procesos estacionarios, X t existe si existe la
segunda derivada de R(h) = (1 + |h|)e−|h|. Pero
2. Aplicar directamente la fórmula de solución de las ecuaciones lineales de primer orden. Para
Cov(Yt , Ys ) solamente plantear la integral. Utilice Cov(a + bX, c + dY ) = bdCov(X, Y ).
en el plano. Dividiendo este rectángulo en dos triángulos con la diagonal e integrando sobre
cada uno de éstos se puede resolver la integral observando que Cov(Nu , Nv ) = λu si
u < v (triángulo inferior) y Cov(N u , Nv ) = λv si u > v (triángulo superior). La integral
se puede simplificar con la fórmula:
eδs
seδs ds = 2 ((δs − 1) + 1)
δ
4. Ejercicio.
5. Ejercicio.
6. Ejercicio.
7. Ejercicio.
CAPÍTULO 6
Una clase importante de procesos estocásticos son los procesos Gaussianos. En su definición se
utiliza el concepto de vector de variables distribuı́do normal multrivariado.
1
MX (t1 , · · · tn ) = exp(t E(X) + t Rt)
2
n
1 n n
= exp tj E(Xtj ) + tj tk Cov(Xtj , Xtk )
2
j=1 j=1 k=1
109
110
donde
R = Cov(Xtj , Xtk ) = R(t1 , t2 , · · · , tn ) = R(t)
3
R = E (X − E(X) ) (X − E(X ) = [Cov(Xtj , Xtk ) ] = [R(tj , tk ) ]
1. Xtj | Xtk ∼ N E(Xtj | Xtk ) , V ar(Xtj | Xtk ) con
ρj , k σj
E(Xtj | Xtk ) = µj + Xtk − µk
σk
V ar(Xtj | Xtk ) = σj 1 − ρ2j , k
2
n−1
µ = E Xtn | Xt1 , · · · , Xtn−1 = µn + aj (Xtj − µj )
j=1
2
σ = Q−1
n×n = V ar Xtn | Xt1 , · · · , Xtn−1
Qjn
aj = −
Qnn
µj = E(Xtj )
111
3. Si se define
Y = Xtn − E Xtn | Xt1 , · · · , Xtn−1
n−1
= Xtn − µn − aj (Xtj − µj )
j=1
entonces
Ejemplo 6.1.1. Suponga un proceso estoc ástico Xt , t ≥ 0, con media cero E(Xt ) ≡ 0 y función
de autocovarianza
2 2
R(t, s) = e−3(t +s )+2 ts .
2. E(Wt Ws ) = mı́n(s , t) = s ∧ t s , t ≥ 0
Nota 6.1.1. (Wong and Hajek (1971), pag. 68 ) “El proceso de Wiener es m ás que un ejemplo de
proceso Gaussiano. Posee una gran cantidad de propiedades ... Adem ás, a partir de este proceso
se pueden definir muchos otros, que siguen poseyendo algunas de sus propiedades, y que pueden
ser utilizados como modelos de fen ómenos fı́sicos y económicos”.
R = [R(tj , tk )] = [ mı́n(tj , tk )]
= Z 1 Z1 t1 + Z 1 Z2 t1 + · · · + Z 1 Zn t1
+ Z 2 Z1 t1 + Z 2 Z2 t2 + · · · + Z 2 Zn t2
+ Z 3 Z1 t1 + Z 3 Z2 t2 + · · · + Z 3 Zn t3
..
.
+ Z n Z1 t1 + Z n Z2 t2 + · · · + Z n Zn tn
n
n
n
= tj Z j Zj + tj Z j Zk + tj Zj Zk
j=1 k=j+1 k=j+1
pero
n
n
n
n
Z j Zj + Z j Zk + Zj Zk = Zk + Zj Z k + Zj
k=j+1 k=j+1 k=j+1 k=j+1
n
n
− Zk Zk
k=j+1 k=j+1
n 2 n 2
=
Zk − Zk
k=j+1 k=j+1
luego
2 n 2
n
n
n
n
Z j Zk (tj ∧ tk ) =
tj
Zk − Zk
j=1 k=1 j=1 k=j+1 k=j+1
n
= tj (aj − aj+1 ) con an+1 = 0
j=1
n
n
= tj a j − tj aj+1
j=1 j=1
n n
= tj a j − aj tj−1 con t0 = 0
j=1 j=1
n
= (tj − tj−1 ) aj
j=1
113
2
n
n
=
(tj − tj−1 ) Zk > 0
j=1 k=j+1
Nota 6.1.2. Este resultado garantiza la existencia del proceso Wiener y tambi én la funci ón de
densidad del vector (Xt1 , · · · , Xtn ) .
1. V ar(Wt ) = E(Wt2 ) = t , t ≥ 0
Pero esto implica que Wv − Wu y Wt − Ws son incorrelacionadas y por ser variables con
distribución normal conjunta deben ser independientes. Por tanto, W t tiene incrementos
independientes.
5. P(W0 = 0) = 1.
utilizando
1
s∧t = t + s − |t − s| y |t − s| → 0 si t→s
2
Nota 6.1.3. Wt es por tanto continuo en probabilidad. Adem ás, las trayectorias muestrales
del proceso Wt , como funciones de t tienen la propiedad de ser continuas pero no derivables,
un hecho notable en el an álisis matem ático, cuya demostración se debe a Norbert Wiener,
de quien tom ó el nombre el proceso. El proceso Wt también se denomina “movimiento
browniano” ó “marcha aleatoria”.
Utilizando estas propiedades se puede encontrar la fdp conjunta de (W t1 , · · · , Wtn ) para 0 <
t1 < t2 < · · · < tn considerando la transformación
X1 = Wt1
115
X2 = Wt2 − Wt1
X3 = Wt3 − Wt2
..
.
Xn = Wtn − Wtn−1
entonces
1 0 0 ··· 0 Wt1
−1 ···
1 0 0 Wt2
(X1 , · · · , Xn ) =
0 −1 1 ··· 0
Wt3
.. .. .. .. .. ..
. . . . . .
0 0 0 ··· 1 Wtn
o sea X = P W luego
=
e t1 t2 −t1 tn −tn−1
12
n
(2π) 2 t1 (t2 − t1 ) · · · (tn − tn−1 )
fWs Wt (x , b)
fWs (x | Wt = b) =
fWt (b)
fWs (x) fWt−s (b − x)
=
fWt (b)
2
√ 1
2π s
e− 1 x2
2 s ·√ 1
2π(t−s)
e− 1 (b−x)
2 t−s
=
√1
2π t
e− 1 b2
2 t
116
2
x− bs
− 12
t
1
=2 e s 1− s
t
2π s 1 − st
bs s
con lo cual Ws | Wt = b ∼ N , s 1− , 0 < s < t, ası́
t t
bs s
E(Ws | Wt = b) = y V ar(Ws | Wt = b) = s 1 −
t t
Definición 6.1.3. Si g(t) tiene derivada continua en [0, t) en media cuadr ática entonces la integral
t
g(s) dWs se define por
0
t t
t
g(s) dWs = g(s) Ws − g (s) Ws ds
0 0 0
b
b
Xt dWt donde Xt es un proceso, y se considera la integral g(t) dWt como un caso particular.
a a
b
Algunas propiedades de la integral g(t) dWt se dan a continuación.
a
Demostración.
t t
t
E g(s) dWs = E g(s) Ws − E(Ws ) g (s) ds = 0
0 0 0
t 2
t
2. E g(s) dWs = g2 (s) ds
0 0
Demostración. Veamos que si f(t) y g(t) son funciones con derivadas continuas entonces
t t t
E f(s) dWs g(s) dWs = f(s) g(s) ds
0 0 0
De las relaciones
t t
f(s) dWs = f(t) Wt − f (s) Ws ds
0 0
t t
g(s) dWs = g(t) Wt − g (s) Ws ds
0 0
t t t
E f(s) dWs g(s) dWs =E f(t) g(t) Wt2 − E f(t) Wt g(s) Ws ds
0 0 0
t
− E g(t) Wt f (s) Ws ds
0
t t
+E f (s) Ws ds g (s) Ws ds
0 0
t t
= f(t) g(t) t − f(t) g (s) s ds − g(t) f (s) s ds
0 0
t t
+ f (u) g (v) E Wu Wv du dv
0 0
t
= f(t) g(t) t − f(t) tg(t) − g(s) ds
0
t
− g(t) tf(t) − f(s) ds
0
t t
+ f (u) g (v) mı́n(u , v )du dv
0 0
pero
t t t t
f (u) g (v) mı́n(u , v )du dv = f (u) g (v) mı́n(u , v )dv du
0 0 0 0
y
t t t
g (v) mı́n(u , v )dv = g (v) v dv + g (v) u dv
0 0 0
u
= ug(u) − g(v) dv + u g(t) − g(u)
0u
= ug(t) − g(v) dv
0
luego
t t t t
f (u) g (v) mı́n(u , v )dv du = f (u) ug(t) − g(v) dv du
0 0 0 0
t t u
= g(t) uf (u) du − f (u) g(v) dv du
0 0 0
118
t t
= g(t) tf(t) − f(s) ds − f(t) g(s) ds
0 0
t
+ f(u) g(u) du
0
con lo cual t t
V ar g(s) dWs = g2 (s) ds
0 0
3. Suponga 0 ≤ a ≤ b ≤ c ≤ d entonces
b d
E f(s) dWs g(s) dWs =0
a c
4.
t1 t2 mı́n(t1 , t2 )
E f(s) dWs g(s) dWs = f(s) g(s) ds
a a a
t
Proposición 6.1.4. El proceso Zt = g(s) dWs satisface
0
1. Es gaussiano
t mı́n(s
, t)
2. E(Zt ) = 0 , V ar(Zt ) = g2 (s) ds , Cov(Zs , Zt ) = g2 (x) dx
0 0
Demostración.
t
Zt = g(t) Wt − g (s) Ws ds pero
0
s n
Sn = −αs e j=1 g (tj ) Wtj (tj+1 −tj )+g(tn+1 )Wtn+1
0
luego Zt es gaussiano.
entonces Xt cumple
119
1. E(Xt ) = 0
2.
t 2 t 2
V ar(Xt ) = E eαt e−αs dWs = e2αt E e−αsdWs
0 0
e−2αsds = e2αt e
t −2αs t
= e2αt −2α 0
0
=
e2αt 1 − e−2αt
=
1
e2αt
−1
2α 2α
3.
s t
Cov(Xs , Xt ) = E(Xs Xt ) = E eαs e−αudWu eαt e−αv dWv
0 0
s t s∧t
= eα(s+t) E e−αu dWu e−αv dWv = eα(s+t) e−2αudu
0 0 0
= eα(s+t) e−2αu s∧t = eα(s+t) 1 − e−2α(s∧t)
−2α 0 2α
1
=
2α
eα(s+t) − eα|t−s| s , t ≥ 0
utilizando la identidad: 2(s ∧ t) = s + t − |t − s|.
2. Si existe R (h) entonces Xt es derivable en media cuadrática. Además, Xt es Gaussiano
estacionario en covarianza con
E(Xt ) = 0
V ar(Xt ) = −R (0)
RX (h) = −R (h) = Cov(Xt , Xt+h
) = E(Xt Xt+h )
120
es Gaussiano con
t t
µt = E
g(s) Xs ds = µX g(s) ds µX = E(Xt )
0 0
t t t
2
σt = V ar g(s) Xs ds = g(u) g(v) R(u − v) du dv
0 0 0
t s
Cov(Zs , Zt ) = g(u) g(v) R(u − v) du dv
0 0
Demostración.
n
2
b
2. Defina Sn = g(tj ) Xtj (tj+1 − tj ) entonces Sn2 −→ I = g(t) Xt dt cuando n → ∞
j=1 a
n
pero para cada n , Sn = aj Xtj es normal porque X = (Xt1 , · · · , Xtn ) es normal
j=1
2
multivariado ya que X t es Gaussiano. Luego si Sn −→ I , n → ∞ se cumple que
I ∼ N (µI , σI2 ). Las expresiones para µt y σt2 se siguen de propiedades vistas anteriormente,
al igual que Cov(Zs , Zt )
Xt+h − Xt 2 Xt+h − Xt
3. Sabemos que −→ Xt cuando h → 0 pero para h = 0 es normal
h h
debido a que Xt es Gaussiano, luego Xt es Gaussiano
b b b
V ar = h(s) h(t) R(t − s) ds dt
a a a
b d b d
Cov h(u) Xu du , h(v) Xv dv = h(u) h(v) R(u − v) dv du
a c a c
121
t
Xs ds es Gaussiano con
0
E(Zt ) = 0
t s
Cov(Zs , Zt ) = σ 2 cos (λ(x − y)) dx dy
0 0
1
= 2
cos (λ(t − s)) − cos (λs) − cos (λt) + 1
λ
2
V ar(Zt ) = 2 (1 − cos (λt))
λ
luego Zt no es estacionario en covarianza.
t
Ejemplo 6.2.2. Suponga Z t = Xu du con (Xt , t ≥ 0) un proceso estacionario de segundo
0
orden con
E(Xt ) = δ
Encontrar
1. E(Zt )
2. V ar(Zt )
t
Demostración. 1. E(Zt ) = E(Xu ) du = δt t≥0
0
t
t
2. V ar(Zt ) = R(u − v) du dv y podemos usar la siguiente identidad:
0 0
Si R(·) es una funci ón par entonces R(x) = R(−x)
Entonces
T T T
R(t − s) dt ds = 2 (T − u) R(u) du
0 0 0
luego
t t t t
(t − u) e−αu du
2
2
R(u − v) du dv = 2 (t − u) R(u) du = 2σ
0 0 0 0
122
por tanto
t t t
(t − u) e −αu2
e −αu2
ue−αu du
2
2 2 2
V ar(Zt ) = 2σ du = 2σ t du − 2σ
0 0 0
pero
t
t t
1 −αu2
ue−αu du = −
1
(−2αu)e−au du = − e 1
e
2 2
−αt2
= 1 −
0 2α 0 2α 0 2α
Usando la identidad
t
1 u2
√ e− 2σ2 du = P 0 ≤ N (0 , σ2 ) ≤ t = φ σt − 12
0 2π σ
y utilizando
b b cb x
k 1
f(x) dx = k f(kx) dx = f dx
a a
k
c ca c
entonces
√
t t 2
u2
e −αu2
du = √
1
e− 2/α du
0 2 0
√ √
1 2π 1/α t 2 − 2/α u2
= √ √ e du
2 2π 1/α 0
2 1
π √
= P 0 ≤ N 0, ≤t 2
α α
2
π √ 1
= φ(t 2α ) −
α 2
luego 2
t √
e −αu2
du =
π
α
φ(t 2α ) −
1
2
0
y por tanto
2
√ 1 σ2 π
1 − e−αt
2
2
V ar(Zt ) = 2σ t φ(t 2α ) − −
2 α α
s t s t
Cov(Zs , Zt ) = R(u − v) du dv = σ 2 e−a(u−v)2 du dv
0 0 0 0
3. Encontrar E eZt .
Como Zt ∼ N δt , V ar(Zt )) para cada t ≥ 0 y como X ∼ N (µ , σ2 implica
E etX = etµ+
t2 σ 2
2
tenemos
E eZ t
= eδt+ 2 V ar(Zt )
1
123
Observación α grande implica V ar(Zt ) 0 y E eZ t
eδt
Los procesos gaussianos con incrementos estacionarios sirven como modelos en teorı́a de teleco-
municaciones para el tráfico en escalas de tiempo grandes.
Definición 6.4.1. Un proceso (Xt , t ∈ R) gaussiano tiene incrementos estacionarios si se cumple
que X0 = 0 y para cualquier t0 ∈ R los procesos Xt y Xt0 +t − Xt0 tienen las mismas
distribuciones
124
6.5. Problemas
1. Suponga que X1 y X2 son dos variables aleatorias distribuı́das conjuntamente Normal,
con medias µ1 , µ2 , varianzas σ12 , σ22 , respectivamente, y correlación ρ. Defina (Zj )j∈Z una
sucesión i.i.d de variables Normales N (0, σ 2 ), independientes de X1 y de X2 . Defina el
proceso Yt = X1 + tX2 + Zt , t ∈ Z.
a) Encuentre E(Xn Xm ).
b) Considere el siguiente resultado: Un proceso X n converge en media cuadrática a una
2
variable X, Xn → X, si y solo si E(Xn Xm ) converge a una constante c cuando
n, m → ∞.
Compruebe que para el proceso que se está considerando se cumple: E(Xn Xm ) →
c, n, m → ∞, y encuentre la constante c.
125
Yn = ϕYn−1 + Xn , n = 1, 2, . . .
Lema 6.5.1. Si X1 , X2 son dos variables aleatorias distribuı́das Normal con media cero
y varianzas σ12 , σ22 , independientes, entonces la variable X = X1 X2 / X12 + X22 se
distribuye Normal con media cero y varianza σ 12 σ22 /(σ1 + σ2 )2 .
Xn−1 Zn
Xn = , n = 1, 2, . . . (6.2)
2
Xn−1 + Zn2
6.6. Soluciones
1. a) Para comprobar que Yt es gaussiano se toman k números reales ai y k tiempos ti ∈ Z,
k
i = 1, . . . , k, y se determina si i=1 ai Yti es una variable Normal. Reemplazando en
la sumatoria anterior Yt por su definición se obtiene:
k
k
k
k
k
ai Yti = ai (X1 + ti X2 + Zti ) = X1 ai + X2 a i ti + ai Zti .
i=1 i=1 i=1 i=1 i=1
k k
Entonces, por ser X1 i=1 ai + X2 i=1 ai ti una combinación lineal de un vec-
tor (X , X ) Normal bivariado, se distribuye como una variable Normal. Además,
k 1 2
i=1 ai Zti es una combinación lineal de variables independientes Normales por lo
que se distribuye Normal. Finalmente, la suma de estas dos variables Normales in-
dependientes debe distribuı́rse Normal, con lo cual se comprueba que el proceso es
gaussiano.
b) Como (Ys , Yt ) se distribuye normal bivariado, por propiedad de las distribuciones
Normales multivariadas se cumple que la variable condicionada Yt |Ys se distribuye
Normal, con media y varianza dadas por:
Cov(Yt , Ys )
E(Yt |Ys ) = E(Yt ) + (Ys − E(Ys ))
V ar(Ys )
V ar(Yt |Ys ) = V ar(Yt )(1 − Corr(Yt , Ys )2 ).
Las distintas cantidades que intervienen en las expresiones anteriores se calculan con
fórmulas estándar de la teorı́a. Para la media: E(Yt ) = E(X1 +tX2 +Zt ) = µ1 +tµ2 .
Luego
Cov(Yt , Ys ) = E(Yt Ys ) − (µ1 + tµ2 )(µ1 + sµ2 ).
Desarrollando E(Yt Ys ), tenemos
Luego
Además, V ar(Yt ) = σ12 +t2 σ22 +2tσ1,2 . La expresión para Corr(Ys , Yt ) se obtiene de
las cantidades anteriores, lo mismo que V ar(Yt |Ys ) = V ar(Yt )(1 − Corr(Yt , Ys )2 ).
127
2. De las definiciones tenemos V ar(Xt ) = a2 (t+τ (t)+2Cov(Wt , Wτ(t) )). Podemos calcular
t
t
la covarianza escribiendo Wt = 0 dWs y Wτ(t) = 0 e−s dWs . Entonces,
t t
Cov(Wt , Wτ(t) )) = E( dWs . e−s dWs )
0 0
t
= e−s ds
0
E(Xs2 Xt2 |Xs ) = Xs2 E(Xt2 |Xs ) = Xs2 (V ar(Xt |Xs ) + E2 (Xt |Xs ))
2
2 2 2 R(s, t)
= Xs σt (1 − ρs,t ) + 0 + (Xs − 0)
R(s, s)
= Xs2 (σt2 − σs,t
2
/σs2 + σs,t
2
Xs2 /σs4 ),
La razón por la
cual se concluye
que la última expresión es cero es porque la esperanza
condicional E √ Z21 2 |X0 se calcula reemplazando el valor de X0 y luego quitando
X0 +Z1
128
Procesos de Markov
7.1. Definiciones
129
130
A1 ∈ σ Xs , 0 ≤ s ≤ t1 ) , A2 ∈ σ Xs , t2 ≤ s entonces
P A1 A2 | Xt = P A1 | Xt P A2 | Xt
Definición 7.1.2. Para el caso de ser Xt variables aleatorias continuas, la funci ón
F s , x ; t , y = P Xt ≤ y | Xs = x 0 ≤ s ≤ t
tal que
1 si y≤x
F s , x ; s , y = I(y ≤ x =
0 si y>x
se denomina funci ón de transici ón del proceso de Markov Xt . Si existe una funci ón de densidad ,
es decir, si existe fXt u | Xs = x tal que, para s < t
y
P Xt ≤ y | Xs = x = fXt u | Xs = x du
−∞
entonces fXt u | Xs = x se denomina densidad de transici ón. Se debe cumplir
d
P Xt ≤ y | Xs = x = fXt y | Xs = x
dy
Para el caso en el que Xt sean variables aleatorias discretas las definiciones son similares.
luego
d
P Xt ≤ y | Xs = x = P Xt ≤ y | Xu = v P Xu ≤ v | Xs = x dv
R dv
2. Proceso Wiener.
3. Proceso Poisson.
Ejemplo 7.1.2. La siguiente expresión es una funci ón de transici ón para un proceso Xt , t ≥ 0
√
con Xt ∈ R. f(s, x; t, y) = ceu−v (v/u)q/2 Iq (2 uv), donde u = cxe−θ2∆ , v = cy, q =
2θ2 θ1 /θ32 −1, y Iq (.) es la función de Bessel de primera clase de orden q. Corresponde a un proceso
√
descrito por una ecuación diferencial estoc ástica de la forma X t = θ2 (θ1 − Xt ) + θ3 Xt Wt ,
una ecuación diferencial de Ito,
Nota 7.1.2. Suponga que se conoce la distribuci ón de la posici ón inicial del proceso, es decir,
d
P X0 ≤ x y fX0 (x) = P X0 ≤ x y se conoce F (s , x ; t , y) , 0 ≤ s ≤ t entonces
dx
utilizando el teorema de probabilidad total tenemos
P Xt ≤ y = P Xt ≤ y | X0 = x fX0 (x) dx
R
= F 0 , x ; t , y) fX0 (x) dx
R
Proposición 7.1.2. Dada una fda F (x) y una funci ón de transici ón F s , x ; t , y) para s , t ≥ 0,
entonces siempre se puede suponer que existe un proceso de Markov (Xt , t ≥ 0) tal que
P Xt ≤ y | Xs = x coincide con F (s , x ; t , y) y tal que X0 ∼ F (x).
1. Xt sea homogéneo.
Definición 7.2.1 (Cadena de Markov). Una Cadena de Markov se define como un proceso
estocástico de Markov, en tiempo discreto, (Xn , n = 0, 1, . . .), con espacio de estados un
conjunto contable E. La cadena se denomina finita si E es finito, y se coloca por simplicidad
E = {1, · · · , d}.
133
Pi,j = P(Xn+1 = j | Xn = i)
= P(Xn+1 = j | Xn = i, Xn−1 = in−1 , . . . , X1 = i1 , X0 = i0 )
En la figura 7.1 siguiente se puede ver un diagrama que muestra c ómo están interconectados los
estados. Un ejemplo de evento en esta cadena es
P X0 = 4 , X1 = 2 , X2 = 3, X3 = 4 , X4 = 2 (7.1)
La propiedad de Markov de la cadena se puede utilizar para calcular probabilidades. Por ejemplo,
para calcular (7.1), se procede aplicando una regla de probabilidad elemental para desarrollar la
probabilidad de la intersecci ón de n eventos, P(A1 ∩A2 ∩. . .∩An ) = P(A1 )P(A2 |A1 ) . . . P(An |A1 ∩
. . . ∩ An−1 ). Concretamente,
P(X0 = 4 , X1 = 2 , X2 = 3, X3 = 4 , X4 = 2 = P X0 = 4 P X1 = 2 | X0 = 4
· P X2 = 3 | X1 = 2 , X0 = 4
· P X3 = 4 | X2 = 3 , X1 = 2 , X0 = 4
· P X4 = 2 | X3 = 4, X2 = 3, X1 = 2, X0 = 4
= P X0 = 4)(0.2)(0.5)(0.6)(0.2)
= 0.012 P X0 = 4 .
Ejemplo 7.2.2 (Cadena de Ehrenfest, ver Hoel et al. Hoel, Port, and Stone (1972),sec. 1.3).
134
donde
d
P Xn+m = j | X0 = i = P Xn+m = j | Xn = k P Xn = k | X0 = i
k=0
135
luego
(n+m)
d
(m) (n)
Pij = Pkj Pik
k=0
es la ecuación de Chapman Kolmogorov, pero ésta ecuación es similar al elemento
n
(AB)ij = Aik Bkj luego, la ecuación de Chapman-Kolmogorov equivale a P (n+m) =
k=1
P (n) P (m) con n , m ≥ 0. De aqui se concluye que P (m) = P m entendida ésta como la potencia
m-ésima de P ya que como P (1) = P entonces P (2) = P · P = P 2 y en general P (n) = P n lo
(n)
cual dice que Pij = Pijn .
Ejemplo 7.2.5. Si
0.49 0.12 0.21 0.18
0.35 0.2 0.3
0.15
P2 =
0.2 0.12 0.2 0.48
0.1 0.16 0.1 0.64
2 (2)
entonces por ejemplo, P13 = P13 = P Xn+2 = 3 | Xn = 1 = 0.21.
Conclusión. Al definir
(m)
Pij = P Xn+m = j | Xn = i
se establece que la cadena de Markov Xn es un proceso de Markov homogéneo. La función de
transición F (n , i ; n + m , j) depende de n + m − n = m , i , j.
Además, Xn puede tener una distribución invariante con el tiempo. Por teorema de probabilidad
total si n ≥ 1
d
P Xn = j = P Xn = j | X0 = k P X0 = k
k=0
luego si P Xn = j = gj y P X0 = k = gk donde j = 1, · · · , d es una fdp entonces
d
gj = n
Pkj gk ⇔ g = gP n , n ≥ 1,
k=0
luego
g = gP ⇔ P g = g ⇔ P − I g = 0.
Luego g es el vector propio correspondiente al valor propio 1 de la matriz p .
Tenemos g = 0.449 , 0.269 , 0.269 , 0.808 /1.796.
Como el proceso es Markov, tiene distribución homogénea y tiene una distribución invariante,
entonces es estacionario de segundo orden y Cov(Xn+m , Xn ) depende de m , E(Xn ) , V ar(Xn )
cte.
Cov(Xn+m , Xn ) = E Xn Xn+m − E Xn E Xn+m
136
d
d
E Xn Xn+m = jkP Xn = j Xn+m = k
j=0 k=0
d
d
= jkP Xn+m = k | Xn = j gj
j=0 k=0
d
d
= jkpm
jk gj = función de m
j=0 k=0
Por tanto, Cov(Xn+m , Xn ) es función de m ya que E Xn E Xn+m es una constante.
Demostración.
[=⇒] Si el proceso Xt es de Markov la identidad se cumple inmediatamente
por tanto
V ar Y | Xt1 , · · · , Xtn−1 = E Y 2 | Xt1 , · · · , Xtn = E Y 2
V ar Y | Xtn−1 = E Y 2 | Xtn−1 = E Y 2
luego
E Y 2 | Xt1 , · · · , Xtn = E Y 2 | Xtn−1
pero
E Y 2 | Xt1 , · · · , Xtn = V ar Xtn | Xt1 , · · · , Xtn−1
E Y 2 | Xtn−1 = V ar Xtn | Xtn−1
La otra es similar.
Proposición 7.3.2. (Feller (1978), Teo 1, pag. 126) El proceso (Xt , t ∈ R) Gaussiano es de
Markov si y solo si se cumple que
ρj , n = ρj , k ρk , n ∀k , j ≤ k ≤ n
donde ρj , n = Corr Xtj , Xtn
Además, como
ρn , n−1 σn
E Xtn | Xtn−1 = µn − Xtn−1 − µn−1
σn−1
138
entonces
ρn , n−1 σn
Y Xtj = Xtn Xtj − µXtj − Xtn−1 Xtj − µn−1 Xtj
σn−1
ρn , n−1 σn
luego
0 = E Xtn Xtj − µµj − E Xtn−1 Xtj − µn−1 µj
σn−1
y por tanto
ρn , n−1 σn
Cov Xtn , Xtj = Cov Xtn−1 , Xtj
σn−1
de donde se obtiene
Cov Xtn , Xtj Cov Xtn−1 , Xtj
= ρn , n−1
σn σj σn−1 σj
lo que es equivalente a
ρj , n = ρj , n−1 ρn−1 , n
si tomamos k con j < k < n entonces
luego
E Xtn | Xt1 , · · · , Xtn−1 = E Xtn | Xtn−1
luego
R(t) R(h) R(t + h)
· =
R(0) R(0) R(0)
R(t)
Si f(t) = entonces se cumple la ecuación funcional
R(0)
Resultado Si f(t) es la soluci ón distinta de f(t) = 0 para t > 0, de la ecuaci ón f(t) f(h) =
f(t + h) entonces f(t) = eαt para cierta constante α. Luego R(t)
R(0)
= eαt para t > 0. Como
R(t) debe ser par entonces
Además, como debe tenerse | R(t) | ≤ R(0) , α debe ser negativa, y se coloca R(t) = R(0)e−αt ,
con α > 0.
calculada en r = h es
1 2 2
2
E Xt+h − Xt = 2 R(0) − R(h)
h h
140
2σ 2
=
h2
1 − e−α| h |
Ejemplo 7.3.6. Si para t 1 < t2 se cumple que Xt2 − Xt1 es independiente de Xt para t ≤ t1
entonces Xt es de Markov pues
P Xtn ≤ xn | Xt1 , · · · , Xtn−1 = P Xtn − Xtn−1 ≤ xn − xn−1 | Xt1 , · · · , Xtn −1
= P Xtn − Xtn−1 ≤ xn − xn−1 | Xtn−1 = xn−1
= P Xtn ≤ xn | Xtn −1 = xn−1
y fdp de transición
∂F
f(t , x ; s , y) = (t , x ; s , y)
∂y
De las propiedades de Markov se tiene
F (t1 , x ; t2 , y) = F (t , z ; t2 , y) f(t1 , x ; t , z) dz ∀t ∈ (t1 , t2 )
R
∂f ∂ 2 f
4. , existen y son continuas.
∂x ∂x2
Definición 7.4.1. Un proceso X de Markov, continuo, de valores reales que satisfaga las condi-
ciones anteriores se denomina un proceso de Difusi ón. La funci ón a(t, x) se denomina la media
infinitesimal y b(t, x) la varianza infinitesimal.
Proposición 7.4.1. Sea X un proceso de difusi ón tal que la fdp f(t , x ; s , y) tiene derivadas
∂f ∂f ∂2f
, , continuas, entonces f(t , x ; s , y) satisface la ecuaci ón diferencial parcial
∂t ∂x ∂x2
siguiente,
∂f ∂f b(t, x) ∂ 2 f
+ a(t, x) + =0
∂t ∂x 2 ∂x2
denominada ecuaci ón retrospectiva.
Proposición 7.4.2. Sea X un proceso de difusi ón con funciones a(t, x) , b(t, x) tal que la fdp de
transición f(t , x ; s , y) s > t, satisface que
∂f ∂ ∂2
a(s, y) f(t , x ; s , y) 2
b(s, t) f(t , x ; s , y)
∂s ∂y ∂y
existen y son continuas. Entonces f(t , x ; s , y) satisface la ecuaci ón diferencial parcial
∂f 1 ∂2 ∂
= b(s, y) f − a(s, y) f
∂s 2 ∂y2 ∂y
para t < s , y ∈ R denominada ecuaci ón prospectiva [ Ecuación de Fokker-Planck ]
∂f σ2 ∂ 2 f
=−
∂t 2 ∂x2
Una soluci ón de ésta ecuación es
(y−x)2
1
f(y , s ; x , t) = e− 2(s−t)σ 2 y∈R
σ 2π(s − t)
σ 2π(s − t)
Igualmente la funci ón f satisface la ecuaci ón prospectiva
∂f σ2 ∂ 2 f
=
∂s 2 ∂y2
Luego, el proceso de Wiener es un proceso de difusión.
luego
1
lı́m
E = a(x) = a(t, x)
h
h→0
En este caso
E Xt+h − Xt | Xt = x = a(t) h + o(h) −→ a(t) h→0
∂f 1 ∂2 2 ∂ σ2 ∂ 2 f ∂
= 2
σ f − −β y f = 2
+β yf
∂s 2 ∂y ∂y 2 ∂y ∂y
1. f(y , s | x , t) −→ 0 si y → ±∞
∂f
2. y −→ 0 si y → ±∞
∂y
Considere la fc de Ut
ϕ θ , s | x , t) = eiθy f(y , s | x , t) dy
R
entonces de
∂f σ2 ∂ 2 f ∂[y f]
= +β
∂s 2 ∂y2 ∂y
se tiene
∂f
∂s
eiθy dy = ∂s
∂
ϕ(θ , s | x , t)
R
por la condición de frontera y=∞
∂f
∂y
eiθy =0
y=−∞
luego
y=∞
σ2 ∂2f σ2 ∂f iθy
2 ∂y2
e
iθy
dy =
2 ∂y
e − iθ e dy
∂f iθy
R y=−∞ R ∂y
iθσ 2 y=∞
=−
2
e iθy
ϕ − iθ f eiθy dy
y=−∞ R
145
θ2 σ 2
=− ϕ
2
y
∞
e ∂y dy = e y f − iθ eiθy y f dy
iθy ∂[y f] iθy
R −∞ R
∂ iθy
= 0−θ e f dy
R ∂θ
∂φ
= −θ
∂θ
luego la ecuación prospectiva transformada es
∂ϕ θ2 σ 2 ∂ϕ
=− ϕ − βθ
∂s 2 ∂θ
es decir
∂ϕ ∂ϕ θ2 σ 2
+ βθ =− ϕ
∂s ∂θ 2
La solución de ésta ecuación diferencial de primer orden es la función
1 2 2
ϕ(s , θ | x , t) = exp iθxe−β(s−t) − θ σ 1 − e−2β(s−t)
4β
lo cual equivale a que
y − xe−β(s−t)
F y , s | x , t) = φ
σ
√
2 β
1 − e−2β(s−t)
es decir
σ2
Us | Ut = x ∼ N xe −β(s−t)
, 1−e −2β(s−t)
2β
Nota 7.4.3. Si Ut = e−βt W σ 2 e2βt , s > t , β > 0 entonces
2 2βt
P Us ≤ y | Ut = x = P e−βs W σ 2 e2βs ≤ y | e−βtW σ e =x
= P W σ 2 e2βs ≤ yeβs | W σ 2 e2βt = xeβt
= P Wσ2 e2βs − Wσ2 e2βt ≤ yeβs − xeβt | Wσ2 e2βt = xeβt
= P N 0 , σ 2 e2βs − e2βt ≤ yeβs − xeβt
= φ
y e βs
− x eβt
1
σ e 2βs
−e 2βt 2
= φ
y − x e −β(s−t)
1
σ 1−e −2β(s−t) 2
146
Luego
E Ut+h − Ut | Ut = µ
lı́m = −βµ
h→0 h
V ar Ut+h − Ut | Ut = µ = V ar Wt+h − Wt = σ 2
por tanto
V ar Ut+h − Ut | Ut = µ
lı́m = σ2
h→0 h
P | Us − Ut | > δ | Ut = x = P | − βUt + Ws − Wt | > δ | Ut = x
= P | Ws − Wt − βx | > δ
= 1 − P | Ws − Wt − βx | ≤ δ
= 1 − P | N (−βx , σ 2 (s − t)) | ≤ δ
= 1 − P N (−βx , σ 2 (s − t)) ≤ −δ
+P N (−βx , σ 2 (s − t)) ≥ δ
−δ + βx δ + βx
=1− φ √ +1−φ √
σ s−t σ s−t
δ + βx −δ + βx
=φ √ −φ √
σ s−t σ s−t
δ+βx
√
σ s−t
= n(s) ds
−∞
7.5. Problemas
a) N bolas negras y N bolas blancas se distribuyen aleatoriamente en dos urnas tal que
cada urna contiene N bolas. En cada paso se selecciona una bola al azar en cada urna
y ambas bolas se intercambian de urna. El estado del sistema en el tiempo n se define
como el número de bolas blancas en la urna número uno.
b)
7.6. Soluciones
148
CAPÍTULO 8
Cálculo de Ito.
8.1. Definiciones
σ(Yt ) ⊆ σ(Ws , 0 ≤ s ≤ t)
para cada t ≥ 0.
σ(W 4t ) ⊆ σ(Ws , 0 ≤ s ≤ t)
σ(W2t ) ⊆ σ(Ws , 0 ≤ s ≤ t)
σ(Yt ) ⊆ σ(Ws , 0 ≤ s ≤ t)
149
150
La definición se hace primero para procesos simples, que son procesos estoásticos similares a las
funciones escalonadas, y luego se hace para procesos adaptados en general.
Definición 8.1.2. Un proceso (Yt , t ∈ [a, b]) , 0 ≤ a ≤ b se dice simple si existe una partici ón
del intervalo [a, b] , a = t 0 < t1 < t2 < · · · < tn−1 < tn = b y n variables aleatorias
Y0 , Y1 , · · · , Yn−1 que cumplan
E Yj2 < ∞ y σ(Yj ) ⊆ σ(Ws , 0 ≤ s ≤ tj ) j = 0, · · ·
y
n−1
Yt = Yj I(tj ≤ t ≤ tj+1 ) t ∈ [a, b]
j=0
entonces
σ(Yt ) ⊆ σ(Ws , 0 ≤ s ≤ t)
y el proceso es adaptado.
Además
b b n−1 n−1
E Yt2 dt = E Yj2 I tj ≤ t ≤ tj+1 dt = E Yj2 (tj+1 − tj ) < ∞
a a j=0 j=0
151
Definición 8.1.3. La integral de Ito del proceso simple Y t entre a y b se define como
b
n−1
Yt dWt = Yj (Wtj+1 − Wtj )
a j=0
n−1 tj+1
= Yj dWt
j=0 tj
n−1
= Yj (Wtj+1 − Wtj )
j=0
1 1 1
Ejemplo 8.1.2. Si a = 4 , b = 1 , n = 2 y t0 = 4 , t1 = 2 , t2 = 1, Y0 = W 12 , Y1 = 2W 12 .
4 2
Entonces
b
n−1
Yt dWt = Yj (Wtj+1 − Wtj
a j=0
= W 12 (W 1 − W 1 ) + 2W 12 (W1 − W 1 )
4 2 4 2 2
b
c
b
1. a<c<b, Yt dWt = Yt dWt + Yt dWt
a a c
b
b
b
2. c1 Yt + c2 Xt dWt = c1 Yt dWt + c2 Xt dWt
a a a
b
3. E Ys dWs = 0
a
Demostración. Como
b n−1
E Ys dWs = E Yj (Wtj+1 − Wtj )
a j=0
b 2
b
4. E Ys dWs = E Ys2 ds
a a
y por tanto
b 2 n−1
n−1
n−1
E Ys dWs =E Yj2 (Wtj+1 2
− Wtj ) + 2 Yj Yk ∆Wtj ∆Wtu
a j=0 j=0 k=j+1
n−1
n−1
n−1
= E Yj2 (tj+1 − tj ) + 2 E Yj Yk ∆Wtj DeltaWtk
j=0 j=0 k=j+1
n−1
= E Yj2 (tj+1 − tj )
j=0
pero
n−1
2 n−1
E Ys2 = E Yj I(tj ≤ s ≤ tj+1 ) = E Yj2 I(tj ≤ s ≤ tj+1 )
j=0 j=0
y
b n−1 b
E Yj2 ds = E Yj2 I(tj ≤ s ≤ tj+1 ) ds
a j=0 a
n−1
= E Yj2 (tj+1 − tj )
j=0
y por tanto
b 2 b b
E Ys dWs = E Ys2 ds = V ar Ys dWs
a a a
t
Definición 8.1.4. Si (Yt , t ≥ 0) es un proceso adaptado a (W t , t ≥ 0) que cumple E Ys2 ds <
0
∞ para t > 0, entonces existe una sucesión de procesos simples
(n)
t (n)
(Ys , n = 1, 2, · · ·), definidos en s ∈ [0, t] adaptados a (W t , t ≥ 0) que cumplen E (Ys )2 ds <
0
∞ tales que
t (n)
1. Ys − Ys ds −→ 0 cuando n→∞
0
t (n)
2. Las variables Yn , t = Ys dWs convergen en media cuadrática a una variable eleatoria
0
Xt .
Para este caso general se puede comprobar que se cumplen las mismas propiedades que las que
se cumplen cuando Ys es simple. Además
t
t
M
1. ∃ M > 0 , P Ys dWs ≥ C ≤ 2 + P Ys2 ds > M
0 C 0
t
2. Xt = Ys dWs es una variable cuya información está contenida en σ(Ws , 0 ≤ s ≤ t).
0
t
3. Xt = Ys dWs es continua con probabilidad uno.
0
entonces se dice que Yt tiene un diferencial estoc ástico en [0, T ] dado por
dYt = at dt + bt dWt
154
t
Note que si 0 E a2s ds < ∞ entonces
t 1 t
E | as | ds ≤ E a2s + 1 ds < ∞.
0 2 0
Yt = at + bt Wt
donde Wt es el ruido blanco continuo definido en (??), pag. ??. El problema radica en que W t no
existe como proceso estocástico ya que Wt no es derivable en media cuadrática. En algunos textos
se usa esta expresión pero haciendo la aclaración de que es una forma equivalente de escribir el
diferencial estocástico.
La ventaja del Cálculo de Ito sobre el cálculo en media cuadrática es que las reglas de la cadena y
el producto están definidas en el primero cuando se involucran derivadas de ruidos blancos Wiener
y Poisson, mientras que en el segundo no.
(1) (2)
1. Si Wt , Wt son procesos Wiener independientes ( correlacionados ) entonces se asumen
como dadas las siguientes reglas para el producto de diferenciales.
a) dt · dt = 0
b) dt · dWt = 0
c) dWt · dWt = dt
(1) (2)
d) dWt dWt = 0 (= ρ dt)
dXt = at dt + bt dWt
dYt = ht dt + gt dWt
3. Regla del Producto. Para la regla del diferencial de un producto se toma en cuenta la regla
para multiplicación de diferenciales dt y dW t . La regla es
d Xt Yt = dXt · Yt + Xt dYt + bt gt dt
luego
d Xt Yt = at dt + bt dWt Yt + Xt ht dt + gt dWt + bt gt dt
= at Yt + ht Xt dt + bt Yt + gt Xt dWt + bt gt dt
= at Yt + ht Xt + bt gt dt + bt Yt + gt Xt dWt
(1) (2) (1) (2)
Ejercicio 8.1.1. Si dXt = at dt + bt dWt y dYt = ht dt + gt dWt con dWt dWt =
ρ dt, encuentre d(Xt Yt ).
n n−1 n(n−1) n−2
4. d Wt = n Wt dWt + 2 Wt dt , n≥2
Para comparar este resultado con el cálculo integral suponga que f(x) es una funci ón real
derivable, con f(0) = 0. Entonces
t t
1 t d 2 f 2 (x)
f(x) df(x) = f(x) f (x) dx = f (x) dx =
0 0 2 0 dx 2
dXt = at dt + bt dWt
La fórmula de Ito se utilizará entre otras cosas, para encontrar la solución de ecuaciones
diferenciales estocásticas lineales de primer orden.
T
1. E (at + µt Xt )2 dt < ∞
0
T
2. E (bt + σt Xt )2 dt < ∞
0
dXt = at + µt Xt dt + bt + σt Xt dWt (8.1)
si para 0 ≤ t ≤ T se cumple
t
t
Xt = X0 + as + µs Xs ds + bs + σs Xs dWs
0 0
1. Autónoma. Si µt = σt = 0.
2. Homogénea. Si at = bt = 0.
1. Primer paso.
Definamos el proceso auxiliar
t σs2
t
Yt = exp − µs − ds − σs dWs
0 2 0
157
= exp Gt
donde σ2
dGt = − µt − t dt − σt dWt
2
por Lema de Ito con
F (t , x) = ex , Ft = 0 , Fx = ex , Fxx = ex
entonces σ2 σ2
dYt = Ft − µt − t Fx + t Fxx dt − σt Fx dWt
2 2
pero
Fx = Fxx = eZt = Yt
luego
σ2 σ2
dYt = − µt − t Yt + t Yt dt − σt Yt dWt
2 2
2
= −µt + σt Yt dt − σt Yt dWt
2. Segundo paso.
Se define el proceso Zt = Yt Xt luego, aplicando la regla para diferenciales de productos,
con
dXt = at + µt Xt dt + bt + σt Xt dWt
dYt = −µt + σt2 Yt dt − σt Yt dWt
d Xt Yt = Xt dYt + Yt dXt + bt + σt Xt −σt Yt dt
reemplazando y simplificando
dZt = at − bt σt Yt dt + bt Yt dWt
t t
luego, Zt = Z0 + as − bs σs Ys ds + bs Ys dWs
0 0
de donde, Xt = Yt−1 Zt
Z0 = X0
Ejemplo 8.2.1. Soluci ón de la ecuación diferencial estoc ástica homogénea o sea cuando at =
bt = 0 en donde
dXt = µt Xt dt + σt Xt dWt t≥0
con µt , σt funciones.
158
1. Primer paso.
t σ2
t
Yt = exp − µs − s ds − σs dWs
0 2 0
El exponente t
σ2 t
βt = µs − s ds + σs dWs
0 2 0
t
es un proceso Gaussiano ya que σs dWs es Gaussiano y βt ∼ N µβ (t) , σβ2 (t) , con
0
t
σ2
µβ (t) = µs − s ds,
0 2
t t
σβ2 (t) = V ar σs dWs = σs2 ds,
0 0
s∧t
2
Covβ (s , t) = σu du.
0
Además, suponiendo P X0 = k = 1 con k > 0 el proceso
t
µβ (t)+ σs dWs
Xt = k e 0
t
s
s
t
pero σu dWu y σu dWu son independientes ya que E σu dWu σu dWu = 0 y ambos
s 0 0 s
son Gaussianos de media cero, luego
t x
= P exp µβ (t) − µβ (s) + σu dWu ≤
y
s
t x
=P σu dWu ≤ ln − µβ (t) − µβ (s)
s y
159
t
t
y como σu dWu ∼ N 0 , s σu2 du tenemos
s
t σv2
ln xy − s µv − 2
dv
P Xt ≤ x | Xs = y = φ
t 2
σ du
s u
Ejemplo 8.2.2. Soluci ón de la ecuación diferencial estoc ástica aut ónoma, es decir cuando µt =
σt = 0 en cuyo caso
dXt = at dt + bt dWt t≥0
La solución viene dada por
t t
Yt = exp − 0ds − 0 dWs = 1
0 0
Xt = Yt−1 Zt = Zt
t t
Zt = X0 + as Ys ds + bs Ys dWs
0 0
t t
= X0 + as ds + bs dWs = Xt
0 0
que es un proceso Gaussiano si se toma X 0 ∼ N µ0 , σ02 independiente de Wt , t ≥ 0 y Xt
tiene incrementos independientes distribuı́dos normales ya que si 0 < s < t
t t
Xt − Xs = au du + bu dWu
s s
y
t
E Xt − Xs = au du
s
t
V ar Xt − Xs = b2u du
s
t t
2
Xt − Xs ∼ N au du , bu du
s s
Para el análisis de (8.1) consideramos dos casos: i) σt = 0 y ii) σ t = 0. En el caso ii) la solución no
es en general un proceso gaussiano y las distribuciones de las soluciones son difı́ciles o imposibles
de encontrar.
Nótese que la ecuación (8.3) puede escribirse como una ecuación diferencial lineal ordinaria de
la forma Xt = at + µt Xt + bt Wt , considerando derivadas en lugar de diferenciales y colocando
el sı́mbolo Wt en lugar del cociente dWt /dt. Procediendo como si se tratara de una ecuación
diferencial ordinaria se obtiene la solución
t
t
Xt = e 0 e 0
s
µs ds − µv dv
C+ as + bs Ws ds .
0
Podemos observar que, al reemplazar en la expresión anterior Ws ds por dWs , se obtiene la
solución (8.4).
Proposición 8.3.1. Sea Xt la soluci ón (8.4) de la ecuación (8.3), asumiendo E C 2 < ∞.
t
Entonces, colocando Yt = exp(− 0 µs ds), se tiene
t
1) E(Xt ) = Yt−1 E(C) + 0 Ys as ds .
s∧t
2) Cov(Xs , Xt ) = Ys−1 Yt−1 V ar(C) + 0 Yu2 b2u du .
t
3) V ar(Xt ) = Yt−2 V ar(C) + 0 Yu2 b2u du .
s t
Cov Xs , Xt = E Ys−1 C − E C + Yu bu dWu Yt−1 C − E C + Yv bv dWv
0 0
s t
−1 −1
2
= Ys Yt E C −E C +E Yu bu dWu Yv bv dWv
0 0
161
s∧t
= Ys−1 Yt−1 V ar C + Yu2 b2u du ,
0
t
donde se ha utilizado la independencia entre C y Yu bu dWu para simplificar las últimas expre-
0
siones.
Ejercicio 8.3.1. 1. Defina m(t) = E(Xt ) en (8.3.1.1). Compruebe que m(t) es solución de
la ecuación diferencial ordinaria
2. Defina v(t) = V ar Xt en (8.3.1.3). Compruebe que v(t) es solución de la ecuación
diferencial ordinaria
y por tanto
t t
s
2 −2
v(t) = e e
µs ds µτ dτ
0 v(0) + 0 b2s ds .
0
t
t
En la demostración de (8.3) se obtuvo la expresión X t = Yt−1 C+Yt−1 0 Ys as ds+Yt−1 0 Ys bs dWs .
t
Como C es independiente de Ys−1 bs dWs se puede concluı́r que si C se distribuye Normal en-
0
t
tonces Xt es un proceso Gaussiano ya que Yt−1 Ys bs dWs es Gaussiano.
0
t
Demostración. La última parte es cierta debido a que Ys−1 bs dWs tiene incrementos indepen-
0
dientes.
Un caso en el cual la solución de la EDE Lineal es estacionaria en covarianza y Gaussiana está dada
por
162
dXt = (a − µ Xt ) dt + σdWt t ≥ 0 , X0 = C,
1. µ > 0,
a σ2
2. C∼N , , independiente de Wt , t ≥ 0 ,
µ 2µ
entonces Xt , t ≥ 0 es Gaussiano y estacionario en covarianza.
σ2
s∧t
Cov Xs , Xt = e−µ(s+t) + σ2 e2µτ dτ
2µ 0
s∧t 1
pero 0 e2µτ dτ = 2µ e2µ(s∧t) − 1 , por tanto
σ2 σ 2 2µ(s∧t)
Cov Xs , Xt = e−µ(s+t) + e −1
2µ 2µ
σ 2 −µ(s+t−2(s∧t)) σ 2 −µ |t−s|
=
2µ
e =
2µ
e ,
σ2
luego V ar Xt = .
2µ
Nótese que de la expresión para Xt se concluye que es un proceso Gaussiano.
Nota 8.3.1. El siguiente resultado es útil para simplificar algunas expresiones. Si f(t) es una
t
función continua y se define el proceso Xt = f(s) dWs entonces Xt = Wτ(t) con τ (t) =
0
163
t
f 2 (s) ds. La justificaci ón es inmediata ya que al ser X t y Wτ(t) Gaussianos y tener la misma
0
media y la misma covarianza, deben ser idénticos. La igualdad de las covarianzas se puede
comprobar inmediatamente.
s∧t
Cov Xs , Xt = f 2 (u) du.
0
s t
Cov Wτ(s) , Wτ(t) = mı́n τ (s) , τ (t) = mı́n f 2 (u) du , f 2 (v) dv
0 0
s∧t
2
= f (u) du,
0
de donde Cov Xs , Xt = Cov Wτ(s) , Wτ(t) .
Ejemplo 8.3.2. (ver Schuss (1980) pag. 11, Arnold (1974) pag. 134, sec 8.3) La EDE Lineal
con solución t t
Xt = Yt−1 C + as − bs σs Ys ds + bs Ys dWs
0 0
donde
t σs2
t
Yt = exp − µs − ds − σs dWs
0 2 0
164
donde
t σ2
t
Yt−1 = exp µs − s ds + σs dWs = eZt
0 2 0
con
t σs2
t
Zt ∼ N µs − ds , σs2 ds
0 2 0
t
Demostración. Como C es independiente de σs dWs entonces C es independiente de Yt−1 por
0
tanto
E Xtk = E C k Yt−k = E C k E Yt−k
Como
k2 σZ (t)
E Yt−k = E ekZt = ekµZ (t)+ 2
siempre existe, se tiene que E Xtk existe si y solo si E C k existe.
Una razón por la cual las EDE son útiles es porque las soluciones son procesos Markovianos. La
propiedad de Markov es muy útil, entre otras cosas porque si (X t , t0 ≤ t ≤ T ) es Markov y se
conoce la distribución de X t0 es decir, se conoce F0 (x) = P Xt0 ≤ x , y se conboce la función
de transición para t0 ≤ s ≤ t ≤ T se puede calcular la probabilidad
x1 xn
P Xt1 ≤ x1 , · · · , Xtn ≤ xn = ··· fXt1 ···Xtn (µ1 , · · · , µn ) dµ1 · · · dµn
−∞ −∞
pero
fXt1 ···Xtn (µ1 , · · · , µn ) = fXt1 (µ1 )fXt2 µ2 | Xt1 = µ1 · · · fXtn µn | Xtn−1 = µn−1
donde
dX = dµn dµn−1 · · · dµ1 dµ0
esta integral puede calcularse porque las densidades de transición fXt x | Xs = y se asumen
conocidas, lo mismo que fXt0 µ .
Consideremos la EDE
dXt = a t , Xt dt + b t , Xt dWt
para 0 ≤ t ≤ T con X0 = C donde C es una variable aleatoria arbitraria, independiente de
Wt − Wt0 , t ≥ 0.
Considere ahora la misma EDE pero en el intervalo [s, T ] para 0 ≤ s ≤ T y con valor inicial
Xs = x luego
dXt = a t , Xt dt + b t , Xt dWt s≤t≤T
con Xs = x que es equivalente a
t t
Xt = x + a u , Xu du + b u , Xu dWu
s s
σ C , Ws , 0 ≤ s ≤ t Información generada por Ws , s ≤ t y C.
σ Ws − Wt , s ≥ t Información generada por Ws − Wt , s ≥ t con t fijo.
σ Xs , 0 ≤ s ≤ t Información generada por Xs , 0 ≤ s ≤ t
luego
σ Xu , t0 ≤ u ≤ t ⊆ σ C , Wu , 0 ≤ u ≤ t
por tanto
P Xt ≤ y | Xu , 0 ≤ u ≤ s = P Xt ≤ y | C , Wu , 0 ≤ u ≤ s
Zx : R × Ω → Ω
(x, ω) −→ Zx (ω) = Z(x, w) ∈ R
que cumpla que para cada x ∈ R , Zx es independiente de σ C , Wu , 0 ≤ u ≤ s se tenga los
siguiente:
E ZXs | C , Wu , 0 ≤ u ≤ s = E ZXs | Xs = E ZXs
Si Xt (s, x) es la solución de
dXt = a t, Xt dt + b t , Xt dWt s≤t≤T
y se coloca Zx = I Xt (s , x) ≤ y entonces ésta variable es independiente de
σ C , Wu , 0 ≤ u ≤ s ya que Xt (x , s) es la solución en [s, T ] y
t t
Xt (s, x) = x + a u, Xu du + b u, Xu dWu
s s
está adaptada a Wu − Ws , u ≥ s y por tanto es independiente de σ C , Wu , 0 ≤ u ≤ s .
Si denotamos Xt la solución de
dXt = a t, Xt dt + b t, Xt dWt
luego Xt se puede escribir similar a Xt (0, C) como Xt = Xt (s, Xs ) pero Xs = Xs (0, C) luego
Xt = Xt s, Xs (0, C) = Xt s, Xs s≤t≤T
De ésta forma ZXs = I Xt (s, Xs ) ≤ y y la ecuación
E ZXs | C , Wu , 0 ≤ u ≤ s = E ZXs | Xs = E ZXs
(n)
El conjunto de éstas Zx es denso en el conjunto de todas las Zx .
Tenemos
(n) n
(n)
E ZXs | C , Wu , 0 ≤ u ≤ s = Yj (Xs ) E Zj = E ZXs | Xs
j=1
T
3. E Xt2 dt < ∞
t0
5. Xt es de Markov con
p Xt ≤ y | Xs = x = p Xt (x , s) ≤ y t0 < s < t < T
Como
P Xt ≤ y | Xs = x = P Xt (x , s) ≤ y t0 < s < t < T
pero
t
t
Xt (s , x) = Yt−1 x+ au − bu σu Yu du + bu Yu dWu
s s
con
t σ2
t
Yt = exp − uv − v dv − σv dWv
s 2 s
luego
y − E Xt (s , x)
P Xt ≤ y | Xs = x = Φ
V ar Xt (s , x
con
t t
E Xt (s , x) = e− s uv dv x + e
u
ur dr
s au du
s
t t
V ar Xt (s , x) = e−s s uv dv e 2 su uv dv 2
bu du
0
3 22
entonces a = 3 , u = 2 , σ = 2 , u0 = 2
, σ02 = 4
= 1 y la solución es
3 t
Xt = X0 e−2t + 1 − e−2t + 2e−2t e2s dWs
2 0
Como
Xt | Xs ∼ N E Xt | Xs , V ar Xt | Xs
entonces
Corr Xs , Xt σt
E Xt | Xs = E Xt + Xs − E Xs
σs
3 Corr X s , X t 3
= + Xs −
2 V ar Xs 2
= + e−2| t−s | Xs −
3 3
2 2
V ar Xt | Xs = V ar Xt 1 − Corr 2 Xt , Xs
= 1 − Cov2 Xt , Xs
= 1 − e−4| t−s |
luego
3 3
Xt | Xs ∼ N + e−2| t−s | Xs − , 1 − e−4| t−s |
2 2
y
y − 32 − e−2| t−s | x − 32
p Xt ≤ y | Xs = x = Φ
1 − e−4| t−s |
también
t
3
Xt = X0 e −2t
+ 1−e −2t
+ 2e−2t
e2u dWu
2 0
s
3
Xs = X0 e−2s
+ 1−e−2s
+ 2e −2s
e2v dWv
2 0
171
s
e−2(t−s)Xs = X0 e−2t + 32 e−2(t−s) 1 − e−2s + 2e−2t e2v dWv
0
t
3
∴ Xt = e−2(t−s)Xs + 1 − e−2t + 2e−2t e2u dWu
2 0
s
− e−2(t−s) 1 − e−2s − 2e−2t
3
2
e−2u dWu
0
t
3
= e−2(t−s)Xs + 1 − e−2(t−s) + 2e−2t e2u dWu
2 s
3
E Xt | Xs = e−2(t−s)Xs + 1 − e−2(t−s)
2
3
= +e
3 −2(t−s)
Xs −
2 2
t
V ar Xt | Xs = 4e−4t e4u du
s
=e −4t
e4t − e4s
= 1 − e−4(t−s)
y como
P Xt ≤ y | Xs = x = P Xt (s , x) ≤ y
y
t
3
Xt (s , x) = xe−2(t−s) + 1 − e−2(t−s) + 2e−2t e2u dWu
2 s
3
∼ N xe−2(t−s) + 1 − e−2(t−s) , 1 − e−4(t−s)
2
luego
y − 32 − e−2(t−s) x − 32
P Xt (s , x) ≤ y = Φ
1 − e−4(t−s)
con aj constantes reales, an = 1. Una solución de la ecuación anterior es una función x(t) , n
veces derivable en un intervalo, tal que satisface la ecuación diferencial.
172
(k)
Ejemplo 8.5.1. x1 (t) satisface x1 (0) = 1 , x1 (0) = 0 , k = 1, · · · , n − 1.
Por el teorema fundamental del álgebra el polinomio P (x) se puede factorizar de la forma
P(x) = x − r1 x − r2 · · · x − rn
rj = Re(rj ) + i Im(rj ) j = 1, 2, · · · , n
Definición 8.5.2. La ecuación (8.5) se dice estable si Re(rj ) < 0 para todo j.
xn(k) = δk , n−1
es decir
xn (0) = 0
xn (0) = 0
..
.
x(n−2)
n (0) = 0
x(n−1)
n = 1.
n
aj x(j)(t) = g(t) t≥0
j=0
(k)
n
(k)
n
Xh , 0 = Cj−1 xj (0) = Cj−1 δk , j−1 = Ck k = 0, 1, · · · , n − 1
j=1 j=1
y las condiciones
(k)
X0 = 0 k = 0, 1, · · · , n − 1
y las condiciones
(k)
X0 = 0 k = 0, 1
t t
t
Xt = σ
h(t − s) dWs = σh(t − s) Ws + σ
h (t − s) Ws ds
0 0 0
t
= σh(0) Wt + σ h (t − s) Ws ds
0
pero, por definición, tenemos que h(t) = x2 (t) donde x2 (t) es la solución de la ecuación
diferencial
x(t) + a1 x(t) + a0 x(t) = 0 con x2 (0) = 0 x2 (0) = 1
entonces h(0) = x2 (0) = 0 luego
t
Xt = σ h (t − s) Ws ds
0
175
además
t t s
Xs ds = σ h (s − u) Wu du ds
0 0 0
t t
=σ Wu h (s − u) ds du
0 u
t
=σ Wu h(t − u) du
0
t
=σ h(t − s) Ws ds
0
y también
t
d
Xt = σ h (t − s) Ws ds
dt 0
usando
t t
∂ ∂
f(t , s) ds = f(t , t) + f(t , s) ds
∂t 0 0 ∂t
luego t
Xt = σh (0)Wt + σ h (t − s) Ws ds
0
pero h (0) = 1 luego se tiene que
t
Xt = σWt + σ h (t − s) Ws ds
0
donde x1 (t), x2 (t), · · · , xn (t) son las n soluciones de la ecuaci ón dieferncial ordinaria
n−1
x(n)(t) + aj x(j)(t) = 0
j=0
tales que
(k)
xj (0) = δk , j−1 j = 1, 2, · · · , n k = 0, 1, · · · , n − 1
(k)
y C0 , C1 , · · · , Cn−1 son variables aleatorias que satisfacen x 0 = Ck independientes, e inde-
pendientes de (Wt , t ≥ 0) con h(t) = xn (t) I(t ≥ 0).
Proposición 8.5.1. La solución Xt (8.8) de la ecuación (8.7) tiene los siguientes momentos
básicos.
n
1) E Xt = E Cj−1 xj (t)
j=1
n
s∧t
2) Cov Xs , Xt = V ar Cj−1 xj (s)xj (t) + σ 2 h(t − u) h(s − u) du
j=1 0
n
t
3) V ar Xt = V ar Cj−1 x2j (t) + σ 2 h2 (s) ds
j=1 0
Demostración.
n
s
E Xs − E(Xj ) Xt −E(Xt ) = E Cj−1 − E(Cj−1 ) xj (s) + h(s − u) dWu
j=1 0
n
t
× Cj−1 − E(Cj−1 ) xj (t) + σ h(t − u) dWu
j=1 0
n s∧t
= V ar(Cj−1 )xj (s)xj (t) + σ 2 h(t − u) h(s − u)du
j=1 0
8.5.1. El Caso n = 2
La ecuación diferencial estocástica lineal de orden 2 con coeficientes constantes está definida por
dXt = − a1 Xt + a0 Xt dt + σ dWt t≥0
177
donde x1 (t) , x2 (t) son las dos soluciones de la ecuación diferencial homogénea
que cumplen
El polinomio caracterı́stico es
P (x) = x2 + a1 x + a0
y la ecuación caracterı́stica P (x) = 0 tiene raı́ces
−a1 + a21 − 4a0 −a1 − a21 − 4a0
r1 = r2 =
2 2
que origina lo siguiente:
1. Si a21 − 4a0 > 0 hay dos raı́ces reales y distintas y las soluciones de la ecuación diferencial
ordinaria homogénea
x (t) + a1 x (t) + a0 x(t) = 0
son x1 (t) y x2 (t) que satisfacen
r1 er2 t − r2 er1 t
x1 (t) =
r1 − r2
x2 (t) =
e r1 t
− er2 t
r1 − r2
= α + iβ
r2 = α − iβ
y por tanto
x1 (t) = eαt cos (βt) − sen(βt)
α
β
x2 (t) = e sen(βt)
1 αt
β
x1 (t) = e−
a1
2 t
x2 (t) = te−
a1
2 t
Ejemplo 8.5.2. (ver Hoel, Port, and Stone (1972)) Considere la ecuaci ón diferencial lineal
dXt + 2Xt + 2Xt dt = dWt t≥0
luego
t
Xt = C0 x1 (t) + C1 x2 (t) + h(t − s) dWs ,
0
t
= e−t sen t + e−(t−s) sen(t − s) dWs .
0
−
e−(s+t) cos (t − s) − cos (s + t) + sen(s + t)
4 2 2
179
Si s = t + h entonces
Cov Xt , Xt+h →
e−| h | sen h + cos h t→∞
8
Además E Xt → 0 cuando t → ∞.
Por lo que se puede definir un proceso estacionario Gaussiano X e , t definido por la covarianza
r(h) =
e−| h | sen |h| + cos h h∈R
8
de media cero tal que
Xt − Xe , t −→ 0 , t→∞
Caso mas General (ver Hoel, Port, and Stone (1972), ec. (44) cap. 6 ) También pueden consid-
erarse ecuaciones diferenciales estocásticas mas generales, de la forma
(n) (n−1)
Xt + an−1 Xt + · · · + a0 Xt = Yt , t ≥ 0,
n t
(n) (e)
Xt Cj−1Xj (t) + h(t − s) Ys ds = Xt + Xt ,
j=1 0
que satisfacen
dk 1 si k = j − 1,
xj (t) =
k
dt t=0 0 si k = j − 1.
(h)
En consecuencia, Xt es derivable n veces y satisface
(k)
X0 = Ck k = 0, 1, · · · , n − 1,
h(t) = xn (t) I( t ≥ 0 ).
180
xj (t) −→ 0 , t→∞
para j = 1, 2, · · · , n entonces
(h) 2
Xt −→ 0 , t→∞
y por tanto
(e) 2
Xt − Xt −→ 0 , t→∞
Además, la soluci ón t
(e)
Xt = h(t − s) Ys ds
0
tiene
t
(e) t
E Xt = h(t − s) E Ys ds = µY h(t − s) ds
0 0
s t
(e)
Cov Xt , Xs(e) = h(t − u) h(s − v) g(u − v) du dv
0 0
donde g(u) = Cov Yt , Yt+u .
σ 2 −α| t−s |
Ejemplo 8.5.3. Si Y t es proceso OU con E Yt = 0 , Cov Ys , Yt =
2α
e , α>0y
se tiene la E. D. E. Lineal de segundo orden
Xt + 2Xt + 2Xt = Yt , t ≥ 0 X0 = 0 X0 = 1
entonces
x1 (t) = e−t cos t + sen t
luego t
xt = e−t sen t + e−(t−s) sen(t − s) Ys ds
0
8.6. Notas
1. Fórmulas sobre integrales estocásticas
t
t
a) Si Xt es un proceso adaptado a σ(Ws , 0 ≤ s ≤ t) entonces s
Xu dWu ∼ N (0, s
E(Xu2 )du).
Además, se cumple:
181
b
c
b∧c
b) E( a
Xs dWs .Xu dWu ) = a E(Xs2 )ds.
a
t
c) El proceso Yt = 0 Xs dWs tiene incrementos independientes.
t
2. Identidad útil del proceso Wiener. Se puede comprobar que si X t = f(s)dWs , con f(t)
t 0
función continua, entonces X t = Wτ(t) , donde τ (t) = 0 f 2 (s)ds.
donde c es una variable aleatoria independiente de (Wt , t ≥ 0), con E(c2 ) < ∞.
µs ds − 0s µv dv − 0s µv dv
Xt = e 0 c+ as e ds + bs e dWs
0 0
con media
t
s
t
E(Xt ) = e 0
µs ds
E(c) + as e− 0
µv dv
ds
0
y covarianza
s
t∧s
v
µv dv+ 0t µv dv
Cov(Xs , Xt ) = e 0 V ar(c) + b2v e−2 0
µr dr
dv
0
182
8.7. Aplicaciones
es una ecuación para la tasa de crecimiento del tumor (ver Ferrante y otros, Ferrante (2000)).
En el problema (9) se resuelve esta ecuación.
5. En Fı́sica. Si Xt es una señal ( voz , música ) se somete a una modulación antes de enviarse.
La A M es una transformación
√
Xt −→ Xt 2 sen(ω0 t)
8.8. Problemas
1. Suponga que X1 y X2 son dos variables aleatorias distribuı́das conjuntamente Normal,
con medias µ1 , µ2 , varianzas σ12 , σ22 , respectivamente, y correlación ρ. Defina (Ej )j∈Z una
sucesión i.i.d de variables Normales N (0, σ 2 ), independientes de X1 y de X2 . Defina el
proceso Yt = X1 + tX2 + Et , t ∈ Z. Compruebe que es un proceso Gaussiano.
y t = v(r − yt /V ), t ≥ 0 (8.12)
y0 = 0
Por ejemplo, r = 4, σ = 1.3, v = 0.25 y V = 30 indicarı́a que está ingresando aire, el cual
contiene en promedio 4 % de CO2 por m3 , con desviación estándar 1.3 %, a un cuarto de
30m3 , a una velocidad de 0.25m3 /min.
9. En el artı́culo de Ferrante et al. Ferrante (2000) se estudia un modelo para la evolución del
tamaño Xt de un tumor canceroso. Este modelo es una versión estocástica de la ecuación de
Gompertz que se puede consultar en el texto de Braun Braun (1986). El modelo estocástico
propuesto es utilizado para medir la sensibilidad al tratamiento con drogas denominadas
anti-angiogénicas, que detienen el crecimiento del tumor impidiendo que éste extraiga
oxı́geno y nutrientes del tejido circundante. El modelo está dado por la ecuación no lineal
siguiente:
dXt = Xt (a − b ln(Xt ))dt + σXt dWt , t ≥ 0, X0 = xo (8.14)
10. En la ecuación diferencial estocástica dXt + (3Xt + 2Xt )dt = dWt , con X0 = X0 =
0 encuentre V ar(Xt ). Si la ecuación es estable encuentre la expresión para el estado
estacionario.
11. si Qt es la carga en el condensador de un circuito RLC con un voltaje de entrada dado por X t
entonces Qt satisface la ecuación de segundo orden lineal: LQt +rQt +(1/C)Qt = Xt , t ≥
0, con condiciones iniciales Q0 , Q0 constantes dadas. Asumiendo L = C = 1, 0 < R < 2
y Xt ruido blanco, de tal forma que la ecuación anterior se escribe dQt + (RQt + Qt )dt =
σdWt , encuentre E(Qt ), V ar(Qt ). Qué tipo de proceso es Qt ?.
12. En matemáticas financieras se define la tasa continua de interés como la función µ(t) tal
t
que $1.00 colocado a la tasa µ(t) en el perı́odo [0, t] se convierte en: exp( 0 µ(s)ds). La
anterior expresion se denomina el factor de capitalización hasta t. Supongamos que µ(t) se
modela mediante un proceso Xt definido por la ecuación diferencial estocástica:
Este modelo se conoce en economı́a y finanzas como el modelo de Vasicek, ver Vasicek
(1977). En los problemas siguientes se desarrollan algunas propiedades y ejemplos de
aplicación de este modelo.
x−b
µ(s, t, x) = b(t − s) + (1 − e−α(t−s))
α
d) Defina la covarianza condicional como:
y aplique la identidad
t t t
V ar( (Xu |Xs = x)du) = cov(Xu , Xv |Xs = x)dudv
s s s
t
Compruebe que si V ar( s
(Xu |Xs = x)du) = σ 2 (s, t, x), entonces:
σ2
σ 2 (s, t, x) = (2α(t − s) + 4e−α(t−s) − e−2α(t−s) − 3)
2α3
e) El factor de capitalización esperado, en el perı́odo [s, t], se define como
t
(Xu |Xs =x)du
C(s, t, x) = E(e s )
encuentre esta función. Este factor permite estimar el rendimiento de una inversión en
un fondo con tasa de rendimientos aleatoria, en el perı́odo [s, t].
APÉNDICE A
Las variables normales son básicas porque tienen muchos resultados analı́ticos precisos y fórmulas
manejables. Si una variable se sabe que se distribuye aproximadamente normal usualmente se
asume que es normal para aprovechar estos resultados. En lo que sigue X denota un vector
columna aleatorio y X su transpuesto, un vector fila. Si X ∈ R n es un vector aleatorio, y
X = (X1 , X2 , . . . , Xn ) , entonces cada componente Xi se asume que es una variable aleatoria.
Una matriz A, n × m, se indica por A ∈ Rn×m . Los vectores escalares se indican por minúsculas:
a = (a1 , a2 , · · · , an ) . Si X, Y ∈ Rn son vectores aleatorios entonces utilizando producto
matricial a · X ∈ R y X · Y ∈ Rn×n . Si A y B son matrices n × n entonces A B = (B A) .
n
A es simétrica si A = A. La matriz α X ∈ R es simétrica y (α X) = X α = αi Xi . Si se
i=1
considera α A α ∈ R se tiene
n
n
α A α = αi αj Aij
i=1 j=1
187
188
Usando producto de matrices podemos escribir esta combinación lineal como una variable real
Y = α X; luego debe tenerse que Y ∼ N (µY , σy2 ) para ciertos µy , σy2 . Se trata de encontrar µY
y σY2 en función de α, las medias de las xi y las covarianzas de las xi .
Expresión para µY
Como
n
n
n
µy = E(Y ) = E(α X) = E( αj Xj = αj E(Xj ) = αj µj = α µ
j=1 j=1 j=1
entonces µY = α µ. Es decir
E(a X) = a E(X) = a µ
luego
n
n
σY2 = αi αj E (Xi − µi )(Xj − µj )
i=1 j=1
n n
= αi αj Cov(Xi , Xj )
i=1 j=1
n n
= αi αj Rij
i=1 j=1
= α R α
µY = α µ σY2 = α R α
y es única si existe.
Proposición A.1.1.
En el caso de que un vector aleatorio X tenga una fgm de la forma anterior para µ ∈ Rn y R
matriz simétrica, entonces X debe ser normal multivariada por la unicidad de la fgm.
es decir
Z ∼ Nk (Aµ, ARA )
luego
et ev = MX (v) = e v
Z X µ+ 12 v R v
MZ (t) = E =E
Pero
v µ = (A t) µ = t A µ = t (A µ)
y
v R v = (A t) RA t = t ARA t
Luego
MZ (t) = e t A µ+ 2 t ARA
1
t
Como
(ARA ) = A(AR) = AR A = ARA
191
Z ∼ Nk (A µ, ARA )
y
5 −3 1 −3
1 48
V ar(Y ) = α R α = [−3, −1, 1] −3 12 −4 −1 = = 2.823
17 17
1 −4 7 1
luego
48
Y ∼ N (−10, )
17
2. Si
2 3 −1
A=
4 −2 2
2×3
y se define
x1
2 3 −1 2x1 + 3x2 − x3 Z1
Z =AX = x2 = =
4 −2 2 4x1 − 2x2 + 2x3 Z2
x3
192
con
3
2 3 −1 13
E(Z) = A µ = 3 =
4 −2 2 10
2
y
1 119 −102
E (Z − E(Z))(Z − E(Z)) = ARA =
17 −102 252
luego
102
Cov(Z1 , Z2 ) = Cov(2x1 + 3x2 − x3 , 4x1 − 2x2 + 2x3 ) = −
17
y
− 102
17
Corr(Z1 , Z2 ) = = −0.589
119 252
17 · 17
La matriz de covarianzas
R = [Cov(Xi , Xj )] = E (X − µ)(X − µ)
1. Es simétrica M = M
Proposición A.1.3. Si M es semidefinida positiva entonces existe una matriz P no singular tal
que M = P Ir P donde Ir es una matriz n × n de la forma
1 ··· 0 0
. .
.. . . ... ...
Ir = 0 · · · 1 0
.. .. ..
. ··· . .
0 ··· 0 0
con r ≤ n
En este caso M se dice que tiene rango r. Además M es definida positiva si y solo si r = n.
Y = α X ∼ N (α µ , α R α )
Si α1 = 1 y α2 = −1 se tiene
α A α = 3 + 1 − 8 = −4 < 0
1. Z = P −1 (X − µ) ∼ Nn (0 , Ir )
P −1 X ∼ Nn (P −1 µ , P −1 R(P −1 ) )
Pero
P −1 R(P −1 ) ) = P −1 (P Ir P )(P −1 ) ) = (P −1 P )Ir (P (P )−1 ) = Ir
luego
P −1 X ∼ Nn (P −1 µ , Ir )
por tanto
Z = P −1 (X − µ) = P −1 X − P −1 µ ∼ Nn (0 , Ir )
La fgm de Z es
MZ (t) = et = e2
·0+ 12 t Ir t 1
t Ir t
194
pero
n
n
r
t Ir t = ti tj (Ir )i,j = t2j
i=1 j=1 j=1
luego n
MZ (t) = e 2 t2j
1
j=1
La fgm de una variable aleatoria N (0, 1) es M (t) = e 2 luego si se acepta que N (0, 0) es una
t2
=⇒.
Si las Xj son independientes entonces Cov(Xi , Xj ) = 0 para i = j luego Rij = 0 para i = j.
Por tanto R es diagonal con R ii = Cov(Xi , Xi ) = V ar(Xi ) = σi2 .
⇐=
Si X ∼ Nn (µ , R) y R = Diag(σ12 , · · · , σn2 ) entonces
1
MX (t) = exp t µ + t R t
2
n
1 2
n
= exp ti µi + t Rii
i=1
2 i=1 i
n
1 2 2
= exp ti µi + ti σi
2
i=1
%
n
1
= exp(ti µi + t2i σi2 )
i=1
2
= MX1 (t1 ) · · · MXn (tn )
para x ∈ Rn .
2
1. Xj | Xi ∼ N (µi,j , σi,j ) para i = j. Definiendo
Cov(Xi , Xj ) Rij
ρij = Corr(Xi , Xj ) = =
σi σj Rii Rjj
se tiene que µij = E(Xj | Xi ) es
ρij σj
µij = µj + (xi − µi )
σi
196
Cov(Xi , Xj )
= µj + (Xi − µi )
σi2
Rij
= µj + (Xi − µi )
Rii
además
2
σij = σj2 (1 − ρ2ij ) = V ar(Xj | Xi )
y por tanto no depende de X i .
luego
además
V ar(X4 | X1 = −3, X2 = 2, X3 = 3) = R44 − r (3)R−1 r(3) = 1
y por tanto
X4 | X1 = −3, X2 = 2, X3 = 3 ∼ N (−2, 1)
Ejercicio A.1.1. Para toda matriz A simétrica existe una matriz ortogonal C tal que C AC = A
con A diagonal con los valores propios de A que son reales. Si A es definida positiva los valores
propios son positivos
A2 X = λA X = λ2 X = A X = λ X
luego
λ2 X = λ X ∴ (λ2 − λ) X = 0
lo que conduce a que λ = 0 ó λ = 1.
Ejemplo A.1.4.
Si X = (X1 , X2 ) tiene una distribuci ón normal conjunta con media µ = (2, 3) y matriz de
covarianzas:
10 2
R=
2 1
4. Solución
luego
1 −3 2 −7
E(Z) = Aµ = =
2 −1 3 1
Matriz de covarianzas de Z es
1 −3 10 2 1 2 7 9
ARA = =
2 −1 2 1 −3 −1 9 33
6. La correlación es:
ρZ1 ,Z2 = (ARA )1,2 / (ARA )1,1 (ARA )2,2 = 9/ 7(33) = 0.59
Ejemplo A.1.5. 1. Suponga que X es un vector aleatorio con distribuci ón normal multivari-
ada con vector de medias µ y matriz de covarianzas R. Suponga que S es una matriz
simétrica fija. Considere la variable real V dada por: V = X SX.
2. Compruebe que se cumple E(V ) = µSµ + tr(SR), donde tr(A) indica la traza de una
n
matriz cuadrada A, es decir, la suma de los elementos de su diagonal, tr(A) = j=1 Aj,j .
Utilice además la expresión para el elemento (j,j) del producto de dos matrices A y B,
n
ABj,j = k=1 Aj,k Bk,j .
4 −22
Si S = encuentre E(V ) con los datos de la distribuci ón de X del problema
−22 1
anterior (??).
3. Solución
a)
n
n
E(V ) = E(X SX) = E( Sj,k Xj Xk )
j=1 k=1
n
n
= Sj,k E(Xj Xk )
j=1 k=1
n n
= Sj,k (cov(Xj , Xk ) + E(Xj )E(Xk ))
j=1 k=1
199
n
n
n
n
= Sj,k cov(Xj , Xk ) + Sj,k µj µk
j=1 k=1 j=1 k=1
n
n
n
n
= Sj,k Rk,j + Sj,k µj µk
j=1 k=1 j=1 k=1
n
= (SR)j,j + µ Sµ = tr(SR) + µ Sµ
j=1
4 −22 2
b) µ Sµ = (2, 3) = −239
−22 1 3
Además
4 −22 10 2 −4 −14
SR = =
−22 1 2 1 −218 −43
luego tr(SR) = −4 − 43 = −47. Por tanto, E(V ) = −239 − 47 = −286.
En esta sección se describen dos procedimientos para encontrar una matriz P tal que R = P P ,
en el caso de ser R definida positiva.
Suponga R definida positiva simétrica. sea B matriz ortogonal B = B −1 formada por los valores
propios de R normalizados. Entonces se cumplen las identidades: B RB = Λ, R = BΛB , donde
Λ = Diag(λ1 , λ2 , · · · , λn ) es una matriz diagonal, con λi ∈ R+ . Si se definen las matrices:
1 1
Λ 2 = Diag( λ1 , λ2 , · · · , λn ) y P = BΛ 2 B
Factorización de Cholesky
Programa Matlab
0.6155 −0.1453 0 0
−0.1453 0.7608
0 0
p=
0 0 0.8944 −0.4472
0 0 −0.4472 1.3436
p1 (X − µ) = Z = (Z1 , Z1 Z3 , Z4 ) ∼ N4 (0, I4 )
Las Zj son N (0, 1) independientes.
Si Z = normrnd(0, 1, 4, 1) se genera un vector N4 (0, I4 ) y por tanto X = µ + p ∗ Z es un vector
R4 ∼ N4 (µ, R).
0.9758 1 0.6155 −0.1453 0 0 −0.4326
−1.2044 0 −0.1453 0.7608 −1.6656
0 0
← +
1.9834 2 0 0 0.8944 −0.4472 0.1253
−0.6701 −1 0 0 −0.4472 1.3436 0.2877
201
X ∼ N4 (µ, R)
X1 = (X1 , X2 , · · · , Xs ) s<n
X2 = (Xs+1 , Xs+2 , · · · , Xn )
además
2. X2 es normal multivariada con media µ2 y matriz de covarianzas R22 y X2 ∼ Nn−s (µ2 , R22)
y
t1
..
.
R11 R12 ts
t R t = [t1 , · · · , ts , ts+1 , · · · , tn ]
R21 R22 ts+1
..
.
tn
R11 R12 t1
= [t1 , t2 ]
R21 R22 t2
= t1 R11 t1 + t1 R12 t2 + t2 R21 t1 + t2 R22 t2
= t1 R11 t1 + 2t1 R12t2 + t2 R22 t2
donde t1 R12 t2 = t2 R21 t2 y t1 es de orden 1 × s, R11 es de orden s × s por tanto t 1 R11 es de
orden 1 × s luego t 1 R11 t1 es de orden 1 × 1.
Similarmente t1 R12 t1 es de orden (1 × s)(s × (n − s)) = 1 × (n − s) y t1 R12 t2 es de orden
(1 × (n − s))(n − s) × 1 = 1 × 1 etc.
n
ΨX1 (t1 , · · · , ts ) = Eleft(e i i=1 ti Xi
right)
= ΨX1 (t1 , · · · , ts , 0, · · · , 0)
n
= E ei i=1 ti Xi
203
Luego
ΨX1 (t1 , · · · , ts ) = ei t1 µ1 − 2 µ1 R11 µ1
1
por tanto
X1 ∼ Ns (µ1 , R11)
igualmente para X2 ∼ Nn−s (µ2 , R22 ).
Nota A.2.1. A partir del resultado anterior se puede concluı́r también que cada Xi es normal,
con Xi ∼ N (µi , σi2 ) , σi2 = Rii elemento i-ésimo de la diagonal de R.
Distribuciones Condicionales
y
1
fX2 ( x2 ) = n−s 1
e− 1
2( x2 −µ2 ) R−1
22 ( x2 −µ2 )
(2π) 2 [R22 ] 2
luego
1
[R22] 2
e− ( x−µ ) R−1 ( x−µ)−( x2 −µ2 ) R−1
1
f X1 ( x1 | X2 = x2 ) = 2 22 ( x2 −µ2 )
s 1
(2π) 2 [R] 2
pero
I −R12 R−1
22 R11 R12 I 0
= R1 RR2
0 I R21 R22 −R−1
22 R12 I
R11 − R12 R−1
22 R12 0
= =C
0 R22
donde
C = R1 RR2 R = R−1 −1
1 CR2
C = Diag R11 − R12 R−1
−1 −1
22 R12 ) , R−1
22 R−1 = R2 C −1 R1
Tomando determinantes a ambos lados se tiene
luego
|R22 | 1
=
|R| |R11 − R12R−1
22 R12|
204
además
( x − µ ) R−1 ( x − µ) =
I 0 (R11 − R12 R−1 −1
22 R12 ) 0
= [( x1 − µ1 ) , ( x2 − µ2 ) ]
−R−1
22 R12 I 0 R−1
22
I −R12 R−1 22
[( x1 − µ1 ) , ( x2 − µ2 ) ] =
0 I
= (x1 − µ1 ) − ( x2 − µ2 ) R−1
22 R12 , ( x2 − µ2 )
(R11 − R12 R−1 −1
22 R12 ) 0
−1 x1 − µ1 − R12R−122 ( x2 − µ2 ), x2 − µ2
0 R22
y la matriz de covarianzas de X1 | X2 = x2 es
y por tanto
X1 | X2 = x2 ∼ Ns µ1 + R12R−1 −1
22 ( x2 − µ2 ), R11 − R12 R22 R12
donde
Cov(X1 , X3 ) = Cov(X3 , X1 ) = 2
V ar(X1 ) = 2
V ar(X3 ) = 11
µY = (0, 0)
si Y = (x1 , x3 )
Sabemos que
1
1 e
− 12 ( y−µ ) R−1
13 ( y−µ )
fY ( y ) = 2
Y Y
(2π) |R13| 2
2
donde
2 2
|R13 | = = 22 − 4 = 18
2 11
−1 1 11 −2
R13 =
18 −2 2
luego
1 11 −2 x1
( y − µY ) R−1
13 ( y − µY ) = [x1 x3 ]
18 −2 2 x3
1 x1
= [11x1 − 2x3 , −2x1 + 2x3 ]
18 x3
1
= (11x21 − 2x1 x3 − 2x1 x3 + 2x23 )
18
1
= (11x21 − 4x1 x3 + 2x23 )
18
Luego
1
e− 11x21−4x1x3 +2x23
1
fY ( y ) = 2 √ 36
(2π) 2 18
X2 | X1 , X3 ∼ N1 (µ2|1,3 , R2|1,3)
donde
2 −12
R = −1 1 −3
2 −3 11
R22 es la matriz de covarianzas de las variables en el condicional X 1 y X3 por tanto
2 2 −1 1 11 −2
R22 = y R22 =
2 11 18 −2 2
además
luego
1 11 −2 −1
R11 − R12 R−1
22 R21 = 1 − [−1 , −3]
18 −2 2 −3
1 −1
= 1 − [−5 − 4]
18 −3
1
=1− (5 + 12)
18
17 1
=1− =
18 18
además µ1 = µ2 = 1 y µ2 = (0, 0) y por tanto
µ1|2 = µ1 + R12R−1
22 (X2 − µ2 )
1 11 −2 x1
= 1 + [−1 , −3]
18 −2 2 x3
1 x1
= 1 + [−5 , −4]
18 x3
1
=1− (5x1 + 4x3 )
18
Luego
1 1
X2 | X1 , X3 ∼ N 1 − (5x1 + 4x3 ) ,
18 18
Ejercicio A.2.1. Si X ∼ Nn ( µ , R) y
Xs ∼ N (µs , Rs )
207
Notas
Esta sección contiene algunas fórmulas útiles para resolver algunos de los problemas.
2
σ2 /2
1. Si X ∼ N (µ, σ 2 ), entonces la fgm de X es MX (t) = etµ+t , para t ∈ R.
2. Si X ∼ Geo(p) entonces
3. Si X ∼ BN (n, p) entonces
n+k−1
a) P(X = k) = q n pk , k = 0, 1, 2, . . .
k
b) Si X1 , . . . , Xn son n variables aleatorias i.i.d, distribuı́das Geo(p), entonces X =
X1 + . . . + Xn ∼ BN (n, p). La suma de n variables i.i.d Geométricas es Binomial
Negativa.
c) E(X) = np/q, V ar(X) = np/q2 .
209
210
4. Si X ∼ P oisson(λ) entonces
fX (x) = (1/θ)e−x/θ , x ≥ 0
FX (x) = 1 − e−x/θ , x ≥ 0
E(X) = θ, V ar(X) = θ2
MX (t) = 1/(1 − tθ), t < 1/θ
8. Si X es una variable aleatoria continua con fda F X (x), para x ≥ 0, entonces el k-ésimo
momento de X, E(X k ), k = 1, 2, . . ., se puede calcular mediante la expresión: E(X k ) =
∞
k 0 xk−1 (1 − FX (x))dx. Esta integral puede dar +∞.
Arnold, L. (1974): Stochastic Differential Equations. Theory and Applications. John Wiley
and Sons, New York.
Box, G., and A. Luceño (2002): Statistical Control by Monitoring and Feedback Adjustment.
John Wiley and Sons, New York.
Boyce, W. E., and R. DiPrima (1983): Ecuaciones Diferenciales y Problemas con Valores
en la Frontera. Limusa, México.
Brockwell, P. J., and R. Davis (1987): Time Series: Theory and Methods. Springer Verlag,
New York.
Cramér, H., and M. R. Leadbetter (1968): Stationary and Related Stochastic Processes.
John Wiley and Sons, New York.
Fan, J., and Q. Yao (2003): Nonlinear Time Series. Springer-Verlag New York, Inc., New
York.
213
214
Grimmett, G., and D. Stirzaker (1994): Probability and Stochastic Processes. Oxford
University Press, Inc., New York.
Jazwinski, A. H. (1970): Stochastic Processes and Filtering Theory. Academic Press, Inc.,
San Diego, CA.
Lange, K. (2003): Applied Probability. Springer-Verlag New York, Inc., New York.
Medhi, V. (1978): Stochastic Processes. Jhon Wiley and Sons, New York.
Reed, D., and R. H. Scanlan (1983): “Time Series Analysis of Cooling Tower Wind
Loading,” Journal of Structural Engineering, 109(2), 538–554.
Ross, S. (1989): Stochastic Processes. John Wiley and Sons, New York.
Schuss, Z. (1980): Theory and Applications of Stochastic Differential Equations. John Wiley
and Sons, New York.
Svesnikov, V. (1968): Problems in Probability and Random Functions. W. Saunders and Co.,
Philadelphia.
Vasicek, O. (1977): “An Equilibrium Characterization of the Term Structure,” Journal of Fi-
nancial Economics, 5, 177–188.
Wong, E., and B. Hajek (1971): Stochastic Processes in Engineering Systems. Springer-
Verlag, New York.
Índice alfabético
Continuidad, 47 Ecuación
con probabilidad uno, 47 de Chapman-Kolmogorov, 130
en media cuadrática, 47, 89, 90 de Fokker-Plank, 142
en probabilidad, 47 Prospectiva, 142
Convergencia, 33 Retrospectiva, 142
con Probabilidad 1, 34 Esperanza Condicional, 9
en Distribución, 34 Estacionario Estricto, 51
en Media r = 1, 2, . . ., 34
en Media Cuadrática, 34 Función
en Probabilidad, 34 cóncava, 32
Convergencia convexa, 32
en Media Cuadrática de autocorrelación
Propiedades, 38 muestral, 71
Correlograma, 72 de autocorrelación parcial, 73
de densidad de transición, 130
Derivada en Media Cuadrática, 91 de distribución finito dimensional, 46
Desigualdad de Transición, 130
de Cauchy-Schwarz, 31 fluctuación cuadrática media, 52
de Chebyshev, 30 Generadora de Momentos, 36
de Jensen, 32 Generadora de Momentos
de Lyapunov, 31 de una Normal, 36
de Markov, 30 de una Poisson, 36
Triangular General, 29
Diferencial Estocástico, 153 Incremento Poisson, 59
215
216