0% encontró este documento útil (0 votos)
262 vistas226 páginas

Stochastic Processes PDF

Cargado por

Justo Belenguer
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
262 vistas226 páginas

Stochastic Processes PDF

Cargado por

Justo Belenguer
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Notas de Clase

Procesos Estocásticos
Versión Preliminar
NOTAS DE CLASE
PROCESOS ESTOCÁSTICOS
Versión Preliminar

NORMAN GIRALDO GÓMEZ


Profesor Asociado
Escuela de Estadı́stica
Universidad Nacional de Colombia
Medellı́n

Universidad Nacional de Colombia


Medellín
Copyright 2006
c Universidad Nacional de Colombia.
Profesor Norman Diego Giraldo Gómez.

Publicado por Editorial ...


ISBN 000-000-000-0

No está permitido reproducir esta publicación o transmitirla por cualquier forma o medio, electrónico, mecánico, fotocopiado, escaneo ó
de otro tipo excepto para citas cortas, sin el permiso de la Editorial.

Biblioteca Leopoldo Guerra Portocarrero U.N.:

Procesos Estocásticos / Norman Diego Giraldo Gómez.

p. cm.—(Colección Notas de Clase)

“Universidad Nacional de Colombia."

Incluye refereciasl bibliográficas e ı́ndice.

ISBN 0-000-00000-0 (pbk.)

1. Probabilidades—Teorı́a. 2. Matemáticas

Ciencias—Investigación—Teorı́a. I. Giraldo, Norman D. II. Series.

519.2

G887c

Diagramación en LaTeX.
Impresión:
Editorial ...
Índice general

1. Teorı́a de Probabilidades 1

1.1. Definiciones de la Teorı́a de Probabilidades. . . . . . . . . . . . . . . . . . . . . 1

1.2. Esperanza Condicional. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.2.1. Propiedades de la Esperanza Condicional . . . . . . . . . . . . . . . . . 9

1.3. Procesos de Ramificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

1.4. Marcha Aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

1.5. El Proceso Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

1.5.1. Modelo de Riesgo Colectivo . . . . . . . . . . . . . . . . . . . . . . . . 22

1.6. Martingalas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

1.7. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

1.8. Soluciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

2. Desigualdades y Modos de Convergencia 29

2.1. Desigualdades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

2.2. Modos de Convergencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

v
vi

2.2.1. Propiedades de la Convergencia en Distribución. . . . . . . . . . . . . . 36

2.2.2. Propiedades de la Convergencia en Media Cuadrática. . . . . . . . . . . 38

2.3. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

2.4. Soluciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

3. Procesos Estocásticos 45

3.1. Definición de Proceso Estocástico . . . . . . . . . . . . . . . . . . . . . . . . . 45

3.2. Procesos Estacionarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

3.3. Densidad Espectral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

3.4. Causalidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

3.4.1. Ergodicidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

3.5. Ejemplos de Procesos Estacionarios en Covarianza . . . . . . . . . . . . . . . . 57

3.6. Aplicaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

3.7. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

3.8. Soluciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

4. Procesos Estocásticos Lineales 63

4.1. Procesos ARMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

4.2. Análisis Estadı́stico de Procesos ARMA . . . . . . . . . . . . . . . . . . . . . . 71

4.3. Aplicaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

4.4. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

4.5. Soluciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

5. Cálculo en Media Cuadrática 89

5.1. Continuidad en Media Cuadrática . . . . . . . . . . . . . . . . . . . . . . . . . 90

5.2. Derivada en Media Cuadrática . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

5.3. Integral en Media Cuadrática. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

5.4. Ecuaciones Diferenciales Lineales . . . . . . . . . . . . . . . . . . . . . . . . . 102


vii

5.5. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

5.6. Soluciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

6. Procesos Gaussianos y Procesos de Wiener. 109

6.1. Procesos Gaussianos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

6.2. Procesos Estacionarios Gaussianos. Derivadas e Integrales . . . . . . . . . . . . 119

6.3. Procesos con Incrementos Independientes . . . . . . . . . . . . . . . . . . . . . 123

6.4. Procesos Gaussianos con Incrementos Independientes . . . . . . . . . . . . . . . 123

6.5. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124

6.6. Soluciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126

7. Procesos de Markov 129

7.1. Definiciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129

7.2. Cadenas de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132

7.3. Relación entre Procesos de Markov y Procesos Gaussianos . . . . . . . . . . . . 136

7.4. Procesos de Difusión. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141

7.4.1. Solución de la Ecuación Prospectiva . . . . . . . . . . . . . . . . . . . . 144

7.4.2. Proceso Ornstein-Uhlenbeck. . . . . . . . . . . . . . . . . . . . . . . . 146

7.5. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146

7.6. Soluciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147

8. Cálculo de Ito. 149

8.1. Definiciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149

8.2. Solución de la Ecuación Lineal. . . . . . . . . . . . . . . . . . . . . . . . . . . 156

8.3. Propiedades de las soluciones de las EDE Lineales . . . . . . . . . . . . . . . . 159

8.4. Soluciones de las EDE como procesos de Markov . . . . . . . . . . . . . . . . . 164

8.5. EDE Lineales de orden n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171

8.5.1. El Caso n = 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176


viii

8.6. Notas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180

8.7. Aplicaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182

8.8. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183

A. Variables Aleatorias Normales Multivariadas. 187

A.1. Distribución Normal Multivariada . . . . . . . . . . . . . . . . . . . . . . . . . 187

A.1.1. Procedimientos de Factorización . . . . . . . . . . . . . . . . . . . . . . 199

A.2. Distribuciones Marginales y Condicionales . . . . . . . . . . . . . . . . . . . . 201

B. Notas 209
Índice de figuras

1.1. Realización en forma de árbol de un proceso Galton-Watson . . . . . . . . . . . 13

1.2. Trayectoria de un proceso Poisson con λ = 6/10 . . . . . . . . . . . . . . . . . 21

1.3. Trayectorias de procesos de riesgo . . . . . . . . . . . . . . . . . . . . . . . . . 24

3.1. Gráfica del Sismógrafo del terremoto de Kobe(Japón) . . . . . . . . . . . . . . . 52

3.2. Ejemplos de Procesos Estacionarios con funciones de autocovarianza que decrecen


a cero con velocidades distintas . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

4.1. Análisis de la Serie de aceleraciones verticales del sismo de Kobe . . . . . . . . 77

7.1. Gráfica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134

ix
x
CAPÍTULO 1

Teorı́a de Probabilidades

"He who loves practice without theory is like the sailor who boards ship without a rudder and
compass and never knows where he may be cast.- Leonardo da Vinci, 1452-1519

1.1. Definiciones de la Teorı́a de Probabilidades.

Definición 1.1.1. Espacio Muestral Ω es el conjunto de todos los resultados w de un experimento


aleatorio.
ω ∈ Ω ⇐⇒ ω es un resultado

Definición 1.1.2. Una σ-álgebra F sobre Ω es una colección de subconjuntos de Ω que satisfacen
las siguientes condiciones:

1. Ω∈F

2. A ∈ F ⇒ Ac ∈ F

n
3. Si {A1 , A2 , · · ·} es una sucesión de elementos de F entonces Ai ∈ F.
i=1

1
2

Los subconjuntos de Ω que est án en F se llaman eventos. Luego A ∈ F equivale a afirmar que
A es un evento y A ⊆ Ω .

Definición 1.1.3. Una probabilidad P(.) es una funci ón P : F −→ [0, 1] que cumple las condi-
ciones:

1. P(Ω) = 1

2. P(φ) = 0

3. Si {A1 , A2 , · · ·} es una sucesión de eventos mutuamente disjuntos, es decir,


Ai ∩ Aj = φ, para i = j, entonces:
∞  ∞
 
P Ai = P(Ai ).
i=1 i=1

Algunas propiedades de las probabilidades se enuncian a continuación.

Proposición 1.1.1. Suponga que P es una probabilidad sobre una σ- álgebra F y que toda A es
un evento, entonces las siguientes propiedades son consecuencia de las propiedades anteriores.

1. P(Ac ) = 1 − P(A).

2. Si A1 ⊂ A2 entonces P(A1 ) ≤ P(A2 ).


∞ ∞
3. P ( i=1 Ai ) ≤ i=1 P(Ai ).

4. Si An , n = 1, 2, . . . es una sucesión creciente de eventos, An ⊆ An+1 , entonces se cumple


∞
que P ( i=1 Ai ) = lı́mn→∞ P(An ).

5. Si An , n = 1, 2, . . . es una sucesión decreciente de eventos, An ⊇ An+1 , entonces se



cumple que P ( ∞i=1 Ai ) = lı́mn→∞ P(An ).

Los tres elementos (Ω, F , P ) se asumen dados. Es evidente que F ⊆ P(Ω), donde P(Ω) es el
conjunto de partes de Ω, sin embargo la σ-álgebra no se toma en general igual a P(Ω) sino que
se asume que es un conjunto más pequeño, concretamente se asume que contiene solamente los
eventos que interesan con respecto al experimento aleatorio en consideración.

Ejemplo 1.1.1. Pueden haber varias σ-álgebra sobre un mismo conjunto Ω.

1. Si A ∈ F entonces la colección A1 = {φ, Ω, A, Ac} es una σ-álgebra que está contenida


en F .
3

2. Si A, B ∈ F la colección

A2 = {φ, Ω, A, B, Ac, B c , A ∪ B, AB, Ac ∪ B c , AcB c , AcB, Ac ∪ B, AB c , A ∪ B c }

es una σ-álgebra contenida en F

Note que A1 ⊂ A2 ⊂ F y que A1 es la menor σ-álgebra que contiene la colecci ón {A}, y A2 es
la menor σ-álgebra que contiene la colecci ón {A, B}.

Teorema 1.1.1. Dada una colección de eventos A = {A, B, · · ·} ⊆ F siempre existe una
σ-álgebra mı́nima que la contiene, la σ- álgebra generada por A , σ(A).

Definición 1.1.4 ( σ-álgebra de Borel en R ). Si tomamos Ω = R y la colecci ón de subconjuntos


es A = {(−∞, a] : a ∈ R} es decir la colección de todos los semi intervalos cerrados a la
derecha, entonces la σ-álgebra generada por esta colección se denomina σ- álgebra de Borel, y
se denota por B1 = σ ((−∞, a]; a ∈ R)

Nótese que se cumple lo siguiente:

1. R ∈ B1 , φ ∈ B1

2. Si a < b, entonces (−∞, a] , (−∞, b] ∈ B1 luego (−∞, a]c = (a, ∞) ∈ B1 y (a, ∞) ∩


(−∞, b] = (a, b] ∈ B1

3. Cualquier intervalo real está en B 1

Definición 1.1.5 ( σ-álgebra de Borel en R2 ). Si tomamos Ω = R 2 y

A = {(−∞, a] × (−∞, b] : a, b ∈ R}

entonces la σ-álgebra generada por A se llama la σ- álgebra de Borel en R2 y se denota por


B2 = σ ((−∞, a] × (−∞, b] : a, b ∈ R).

Tenemos que se cumple: R2 ∈ B2 y también (−∞, a] × R ∈ B2

Definición 1.1.6 ( σ-álgebra de Borel en Rn ). Si tomamos Ω = R n y

A = {(−∞, a1 ] × · · · × (−∞, an ] : a1 , · · · an ∈ R}

entonces la σ-álgebra generada por A se denomina la σ- álgebra de Borel en Rn y se denota por


Bn = σ ((−∞, a1 ] × · · · × (−∞, an ] : a1 , · · · an ∈ R).

Se cumple Rn ∈ Bn y además también conjuntos de la forma (−∞, a] × Rn−1 , a ∈ R.

Definición 1.1.7. Si A ∈ F y P(A) = 0 se dice que A es un evento nulo. Si A ∈ F y P(A) = 1


se dice que A es un evento casi seguro.
4

Se asumirá siempre que si A es un evento nulo y B ⊂ A entonces B ∈ F y como P(B) ≤ P(A),


se debe cumplir que P(B) = 0.

Definición 1.1.8. La notaci ón X : Ω → R se refiere a una función con dominio Ω y rango
X(Ω) ⊆ R. Si B ⊆ R la notaci ón X −1 (B) define el subconjunto de Ω dado por

X −1 (B) = {ω ∈ Ω : X(ω) ∈ B}

Definición 1.1.9 ( Variable Aleatoria ). Una funci ón X : Ω → R se dice variable aleatoria si
para cada B ∈ B1 se cumple que X −1 (B) ∈ F.

En particular, si B = (−∞, a] entonces X −1 (B) es el evento {ω ∈ Ω : X(ω) ≤ a} y se indica


por (X ≤ a).

Proposición 1.1.2. Si X : Ω → R es una variable aleatoria entonces la colecci ón de eventos


 −1
X (B) : B ∈ B1 = X −1 (B1 ) es una σ-álgebra, denotada por σ(X), y se denomina la
informaci ón generada por X, y satisface:

1. A ∈ σ(X) ⇐⇒ existe B ∈ B1 tal que X −1 (B) = A

2. (X ≤ a) ∈ σ(X) ∀a ∈ R

Demostración Como R ∈ B1 y Ω = X −1 (R) entonces Ω ∈ σ(X). Además, si A ∈ σ(X)


existe BA ∈ B1 tal que A = X −1 (BA ), pero entonces Ac = X −1 (BA c
) por propiedades de las
imágenes inversas. Luego A ∈ σ(X).
c

Si A1 , A2 , · · · es una sucesión de eventos en σ(X) entonces existe una sucesión de eventos en B1


llamados B1 , B2 , · · · tal que Ai = X −1 (Bi ) , i = 1, 2, · · · y entonces
∞ ∞
∞ 
  
Ai = X −1 (Bi ) = X −1 Bi = X −1 (B)
i=1 i=1 i=1
∞ ∞
donde B = i=1 Bi ∈ B1 luego i=1 Ai ∈ σ(X).

Definición 1.1.10 (Función de Distribución). Como para cada x ∈ R , (X ≤ x) ∈ F, entonces


puede calcularse su probabilidad, ésta es una funci ón de x, y se denota FX (x) = P(X ≤ x).
Esta función tiene las siguientes propiedades:

1. FX (x) es monótona creciente con FX (x) → 0 , x → −∞ y FX (x) → 1 , x → ∞.

2. FX (x) es continua a la derecha. Significa entonces que

FX (a) = lı́m FX (x) = FX (a+)


x↓a
5

El lı́mite a izquierda es
lı́m FX (x) = FX (a−) = P(X < a)
x↑a

En general P(X < a) ≤ P(X ≤ a). La función FX (x) frecuentemente toma dos formas:

1. FX (x) constante excepto por saltos en una serie de puntos En este caso los saltos son iguales
a la diferencia FX (xi ) − FX (xi −) = P(X ≤ xi ) − P(X < xi ), y la variable aleatoria se
dice discreta. Los valores de los saltos son las probabilidades P(X = x i ).

x

2. FX (x) = fX (u)du para una función fX (u) que es positiva e integrable, con fX (u)du =
−∞ −∞

1. Si fX (u) es continua en x se tiene FX (x) = fX (x).

Definición 1.1.11. Una variable aleatoria bidimensional (X 1 , X2 ) es una función

(X1 , X2 ) : Ω → R2 tal que para cada B ∈ B2

se cumple que (X1 , X2 )−1 (B) ∈ F donde

(X1 , X2 )−1 (B) = {ω ∈ Ω : (X1 (ω), X2 (ω)) ∈ B2 }

Un conjunto en B 2 es B = (−∞, a] × (−∞, b]. Entonces

(X1 , X2 )−1 (B) = {ω ∈ Ω : X1 (ω) ≤ a , X2 (ω) ≤ b}

se denota por (X1 ≤ a , X2 ≤ b) y es igual a (X1 ≤ a) ∩ (X2 ≤ b)

Definición 1.1.12 ( Información generada por (X1 , X2 )). Es la σ-álgebra generada por la

colección de eventos A = (X1 , X2 )−1 (B) : B ∈ B2 y se denota por σ(X1 , X2 ).

Nota 1.1.1. En σ(X1 , X2 ) están por ejemplo todos los eventos de la forma
(X1 ≤ a , X2 ≤ b). También σ(X1 , X2 ) = (X1 , X2 )−1 (B2 ) es la imágen inversa de la σ-álgebra
B2 . Además σ(X1 , X2 ) ⊆ F y se tiene σ(X1 ) ⊆ σ(X1 , X2 ) y σ(X2 ) ⊆ σ(X1 , X2 )

Definición 1.1.13 ( La función de distribución conjunta de (X1 , X2 ) ).


Para (X1 , X2 ) ∈ R2 , el evento (X1 ≤ x1 , X2 ≤ x2 ) está en F y su probabilidad depende de
(x1 , x2 ). La función que se determina se denota por

FX1 ,X2 (x1 , x2 ) = P(X1 ≤ x1 , X2 ≤ x2 )

y es la función de distribuci ón conjunta de (X 1 , X2 ).

Definición 1.1.14 (Vector Aleatorio (X1 , X2 , · · · , Xn )).


Vector Aleatorio (X1 , X2 , · · · , Xn ) es una función

(X1 , X2 , · · · , Xn ) : Ω → Rn
6

que cumple
(X1 , X2 , · · · , Xn )−1 (B) ∈ F para cada B ∈ Bn
donde

(X1 , X2 , · · · , Xn )−1 (B) = {ω ∈ Ω : (X1 (ω), X2 (ω), · · · , Xn (ω)) ∈ B}

Definición 1.1.15 ( Información generada por por (X1 , X2 , · · · , Xn ) ).


Informaci ón generada por (X1 , X2 , · · · , Xn ) es la σ-álgebra generada por la colecci ón de
eventos en F

A = (X1 , X2 , · · · , Xn )−1 (B) : B ∈ Bn
y se denota por σ(X1 , X2 , · · · , Xn ).

Note que en esta σ-álgebra están los conjuntos de la forma (X1 ≤ x1 , · · · , Xn ≤ xn ) para
x1 , · · · , xn ∈ R
Definición 1.1.16 ( Función de distribución conjunta de (X1 , X2 , · · · , Xn )).
Como (X1 ≤ x1 , X2 ≤ x2 , · · · , Xn ≤ xn ) es un evento, su probabilidad depende de (x 1 , x2 , · · · , xn)
y la funci ón ası́ definida se denomina funci ón de distribuci ón conjunta y se denota por

FX1 ,X2 ,··· ,Xn (x1 , x2 , · · · , xn ) = P(X1 ≤ x1 , X2 ≤ x2 , · · · , Xn ≤ xn )

Si X1 , X2 , · · · es una sucesión de vectores aleatorios que representa los sucesivos estados de


un sistema, entonces σ(X1 , X2 , · · · , Xn ) es todo lo que puede suceder hasta n. Es el conjunto
de todos los resultados de interés. Si se tiene una sucesión de vectores aleatorios X 1 , X2 , · · · ,
entonces se cumple que

σ(X1 ) ⊆ σ(X1 , X2 ) ⊆ σ(X1 , X2 , X3 ) ⊆ · · ·

Ejemplo 1.1.2. Si n = 18 entonces A = (Xi ≤ 3.1 , ∀ i = 1, · · · , 18) y por tanto A ∈


σ(X1 , X2 , · · · , X18 )

Ejemplo 1.1.3. Si A = (X10 > 7) entonces A ∈ σ(X1 , X2 , · · · , X10 ) pero


A∈/ σ(X1 , X2 , . . . , X9 )

1.2. Esperanza Condicional.

El objetivo es definir y establecer las propiedades de la esperanza condicional E(Y | X1 , X2 , · · · Xn ).


Definición 1.2.1. Si (X, Y ) son dos variables aleatorias con fdp conjunta f(x, y) donde (x, y) ∈
G ⊆ R2 , y

fX (x) := f(x, y)dy
−∞
7

fY (y) := f(x, y)dx
−∞

son las fdp marginales, la fdp condicional de Y dado X = x, se define como

fY (y | X = x)) := f(x, y)/fX (x)

siempre que fX (x) = 0, y la esperanza condicional de Y dado X = x se define como



E(Y | X = x) = yfY (y | X = x)dy
−∞

Ejemplo 1.2.1 (La Normal Bivariada). El vector (X 1 , X2 ) se distribuye Normal Bivariado,


  
µ1 σ12 ρσ1 σ2
(X1 , X2 ) ∼ N2 ,
µ2 ρσ1 σ2 σ22

donde E(Xi ) = µi , V ar(Xi ) = σi2 , Cov(X1 , X2 ) = ρσ1 σ2 , si la fdp conjunta est á dada por:

 2  2
1 1 x1 − µ1 x2 − µ2
f(x1 , x2) =  exp − +
2πσ1 σ2 1 − ρ 2 2(1 − ρ2 ) σ1 σ2
  
x1 − µ1 x2 − µ2
−2ρ
σ1 σ2

para (x1 , x2) ∈ R2 .

Para calcular la fdp condicional de X2 dado X1 = x1 , utilizamos completación de cuadrados para


escribir la conjunta de la forma siguiente:
 
1 1  x1 − µ1 2
f(x1 , x2 ) = √ exp −
2πσ1 2 σ1
 
1  x2 − µ2 − ρ( σ21 )(x1 − µ1 ) 2
σ
1
× √  exp − 
2πσ2 1 − ρ2 2 σ2 1 − ρ2

luego, integrando con respecto a x 2 entre −∞ e ∞, y aplicando la indentidad:



1
e−
2

1
2 ( x−u
σ ) dx = σ

−∞

obtenemos  2
x1 −µ1
1
fX1 (x1 ) = √ e− 12 σ1

σ1 2π
8

por tanto,

f(x1 , x2 )
fX2 (x2 | X1 = x1 ) =
fX1 (x1 )
 
1  x2 − µ2 − ρ σ21 (x1 − µ1 ) 2
σ
1
= √  exp − 
2πσ2 1 − ρ2 2 σ2 1 − ρ2

de donde
σ2
X2 | X1 = x1 ∼ N (µ2 + ρ (x1 − µ1 ) , σ22 (1 − ρ2 ))
σ1

Cov(X1 ,X2 )
Nótese que ρ σσ21 = V ar(X1 )
.

Ejemplo 1.2.2. Supongamos que µ 1 = 1 , µ2 = 2 , σ1 = 1 , σ2 = 4 , ρ = 0.4. Encuentre


P(X2 > 1 | X1 = 1).

0.4(4)
Solución. X2 | X1 = 1 ∼ N (2 + 1 (1 − 1), 42 (1 − 0.42 )) = N (2, 42(1 − 0.42 )) =
N (2, 13.44) luego

1−2
P(X2 > 1 | X1 = 1) = P(N (2, 13.44) > 1) = 1 − φ( √ ) = 1 − φ(−0.272) = 0.60
13.44

Definición 1.2.2. Si (X1 , X2 , · · · , Xn ) es un vector aleatorio con fdp conjunta

f(x1 , x2 , · · · , xn ) , para (x1 , x2 , · · · , xn) ∈ G ⊆ Rn

la fdp marginal de (X 1 , X2 , · · · , Xn−1 ) se define como



fX1 ,X2 ,··· ,Xn−1 (x1 , x2 , · · · , xn−1) = f(x1 , x2 , · · · , xn )dxn ,
−∞

y la fdp condicional de X n dados X1 = x1 , X2 = x2 , · · · , Xn−1 = xn−1 se define por

f(x1 , x2 , · · · , xn )
fXn (xn | X1 = x1 , X2 = x2 , · · · , Xn−1 = xn−1 ) = ,
fX1 ,X2 ,··· ,Xn−1 (x1 , x2 , · · · , xn−1 )

siempre que el denominador sea diferente de cero.

Ejercicio 1.2.1. Suponga que el vector (X, Y, Z) tiene fdp conjunta dada por

1 −z
f(x, y, z) = e θ para θ>0 y 0 < x < y < z.
θ3
Compruebe que

1 −y
1. fX,Y (x, y) = e θ , 0<x<y
θ2
9

1 − z−y
2. fZ (z | X = x, Y = y) = e θ , 0<x<y<z
θ
3. E(Z | X = x, Y = y) = θ + y

Definición 1.2.3 (Variables Aleatorias Independientes). Las variables aleatorias X 1 , X2 , · · ·


se dicen independientes si se cumple que para todo n ≥ 1 , x 1 , x2 , · · · , xn reales

P(X1 ≤ x1 , X2 ≤ x2 , · · · , Xn ≤ xn ) = P(X1 ≤ x1 )P(X2 ≤ x2 ) · · · P(Xn ≤ xn )

También, se dice que X1 , X2 , . . . , Xn y Y son independientes si se cumple

P(X1 ≤ x1 , . . . , Xn ≤ xn , Y ≤ y) = P(X1 ≤ x1 , . . . , Xn ≤ xn )P(Y ≤ y)

1.2.1. Propiedades de la Esperanza Condicional

La esperanza condicional E(Y | X = x) se puede escribir E(Y | X). En el caso E(Y | X = x) es


una función de x. En el caso E(Y | X) es una función de X, y por tanto, es una variable aleatoria.
Puede escribirse por ejemplo E(E(Y | X)) y calcularse como la esperanza de una función de X,
g(X). Si fX (x) es la fdp de X entonces

E(E(Y | X)) = E(Y | X = x)fX (x)dx
−∞

Igualmente
E(Y | X1 = x1 , X2 = x2 , · · · , Xn = xn )
es una función de (x1 , x2 , · · · , xn ) y E(Y | X1 , X2 , · · · , Xn ) es una función real del vector
(X1 , X2 , · · · , Xn ) y es una variable aleatoria.

La esperanza condicional tiene las siguientes propiedades

Propiedades

1. Si Y es independiente de (X1 , X2 , · · · , Xn ) entonces

E(Y | X1 , X2 , · · · , Xn ) = E(Y )

2. Si Y es función de (X1 , X2 , · · · , Xn ), de la forma Y = f(X1 , X2 , · · · , Xn ) entonces

E(Y | X1 , X2 , · · · , Xn ) = Y

Ejemplo 1.2.3. Como Y = X1 es función de (X1 , X2 , · · · , Xn ) entonces

E(X1 | X1 , X2 , · · · , Xn ) = X1
10

Ejemplo 1.2.4. Si Y = c = cte entonces es función de (X1 , X2 , · · · , Xn ) y

E(c | X1 , X2 , · · · , Xn ) = c

3. E(E(Y | X)) = E(Y ). La demostración, en el caso continuo, es simple.

Demostración.

E(E(Y | X)) = E(Y | X = x)fX (x)dx
−∞
∞ ∞
= yfY (y | X = x)fX (x)dydx
−∞ −∞

pero fY (y | X = x)fX (x) = f(x, y) luego


∞ ∞
E(E(Y | X)) = yf(x, y)dydx
−∞ −∞
∞ ∞
= y f(x, y)dxdy
−∞ −∞

= yfY (y)dy = E(Y )
−∞

4. E(E(Y | X1 , X2 , · · · , Xn ) = E(Y )

5. Si 1 ≤ k < n entonces

E(E(Y | X1 , X2 , · · · , Xn ) | X1 , , X2 , · · · , Xk ) = E(Y | X1 , X2 , · · · , Xk )

Obsérvese que el caso

E(E(Y | X1 , X2 , · · · , Xk ) | X1 , X2 , · · · , Xn ) = E(Y | X1 , X2 , · · · , Xk )

es válido, a partir de la propiedad 2 ya que E(Y | X 1 , X2 , · · · , Xk ) es una función de


(X1 , X2 , · · · , Xk ) y por tanto es función de (X 1 , X2 , · · · , Xn ). En ambos casos se puede
resumir diciendo que el resultado final depende siempre de la menor de las informaciones.

6. Si g(x) es una función tal que E(g(X) | Y ) existe y es finita, entonces

E(g(X)Y | X) = g(X)E(Y | X)

además
E(g(X)Y | X = x) = g(x)E(Y | X = x)
11

Definición 1.2.4. La varianza condicional de Y dado X se define como

V ar(Y | X) = E((Y − E(Y | X))2 | X) (1.1)

Nótese que si se desarrolla el cuadrado en el término de la derecha, en la definición anterior,


obtenemos:

E((Y − E(Y | X))2 | X) = E(Y 2 − 2Y E(Y | X) + E2 (Y | X) | X)


= E(Y 2 | X) − 2 E(Y E(Y | X) | X) + E(E2 (Y | X) | X)

Pero si g(X) = E(Y | X) entonces

E(Y E(Y | X) | X) = E(Y g(X) | X) = g(X)E(Y | X) = E2 (Y | X)

por la propiedad 6), además, por la propiedad 2)

E(E2 (Y | X) | X) = E(g2 (X) | X) = g2 (X) = E2 (Y | X)

por tanto
V ar(Y | X) = E(Y 2 | X) − E2 (Y | X)
que es otra expresión equivalente para la esperanza condicional de Y dado X.

Ejercicio 1.2.2. En el Ejercicio (1.2.1) se propone probar: E(Z | X, Y ) = θ + Y . A partir de


este resultado compruebe:

1. E(Z | X) = θ + E(Y | X).

2. E(Z) = θ + E(Y ).

Proposición 1.2.1. Para cualesquier variables aleatorias X, Y , se cumple la siguiente identidad.

V ar(Y ) = E(V ar(Y | X)) + V ar(E(Y | X)) (1.2)

Demostración. Nótese que E(V ar(Y | X)) = E(E(Y 2 | X)) − E(E2 (Y | X)). Luego, usando
la propiedad 3) tenemos E(E(Y 2 | X)) = E(Y 2 ), por tanto

E(V ar(Y | X)) = E(Y 2 ) − E(E 2 (Y | X)) (1)

también V ar(E(Y | X)) = E(E2 (Y | X)) − E2 (E(Y | X)).


Pero E2 (E(Y | X)) = E2 (Y ), luego

V ar(E(Y | X)) = E(E2 (Y | X)) − E2 (Y ) (2)

Sumando (1) y (2) se tiene

E(V ar(Y | X)) + V ar(E(Y | X)) = E(Y 2 ) − E2 (Y ) = V ar(Y )


12

obteniendo la identidad general


V ar(Y ) = E(V ar(Y | X)) + V ar(E(Y | X))

En algunos problemas se define la fdp condicional directamente, por ejemplo, se dá la expresión
para fY (Y | X = x). Entonces se denota
Y | X = x ∼ fY (Y | X = x)
Ejemplo 1.2.5. De la distribuci ón Exponencial de parámetro θ sabemos que si Y ∼ ExP(θ), θ >
0 entonces fY (y) = (1/θ)e−y/θ , y ≥ 0, E(Y ) = θ, V ar(Y ) = θ2 . Suponga que X ∼ U [− 31 , 13 ]
y Y | X ∼ ExP(3X + 1). Entonces
1
e−
y
fY (y | X = x) = 3x+1
3x + 1
y tenemos E(Y | X) = 3X + 1 y V ar(Y | X) = (3X + 1)2 por lo tanto, aplicando propiedades
de esperanza condicional:
E(Y ) = E(E(Y | X)) = 3E(X) + 1 = 1
V ar(Y ) = E(V ar(Y | X)) + V ar(E(Y | X)) = E((3X + 1)2 ) + V ar(3X + 1)
= E(9X 2 + 6X + 1) + 9V ar(X) = 9E(X 2 ) + 6E(X) + 1 + 9V ar(X) = 1 + 2/3.

1.3. Procesos de Ramificaci ón

Introducción. Los procesos de Ramificación ó de Galton-Watson, son modelos para sistemas de


partı́culas que, después de un perı́odo de tiempo fijo, se subdividen o reproducen en un número
aleatorio de nuevas partı́culas, para luego desaparecer, dando lugar a la evolución del sistema. Los
textos de Lange (Lange 2003) y Medhi (Medhi 1978), contienen más información y ejemplos de
aplicaciones sobre los procesos Galton-Watson.

Denote por Xn , n = 0, 1, 2, · · · el número de individuos de la generación n-ésima con X n ∈


{0, 1, 2, · · · } y X0 es el número inicial de individuos. Cada miembro de la generación n-ésima
dá lugar a un número de descendientes que pertenecen a la generación n + 1. Denote por Zj (n),
para n = 0, 1, 2, · · · , j = 1, 2, 3, · · · el total de descendientes del j-ésimo individuo de la
generación n-ésima. Suponemos que Zj (n) ∈ {0, 1, 2, · · ·}, son independientes idénticamente
distribuı́das, iid.
Definición 1.3.1. El proceso Galton-Watson (X n , n = 0, 1, 2, · · ·) es un proceso estocástico
definido en {0, 1, · · ·} mediante la ecuaci ón recursiva

Xn
Xn+1 = Zj (n) , n = 0, 1, 2, · · ·
j=1
13

0.9

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Generaciones = 9

Figura 1.1: Realización en forma de árbol de un proceso Galton-Watson

Las variables Zj (n) , j = 0, 1, 2, · · · se asumen independientes idénticamente distribuı́das disc-


retas con valores en {0, 1, 2, · · · }, con fdp común P(Zj (n) = k) = pk , k = 0, 1, 2, · · · , y donde
se asume que p0 + p1 < 1.

Note que si p1 = 1 entonces Xn = X0 , ∀n ≥ 1, ya que P(Zj (n) = 1) = 1 y Xn+1 =


n
X
Zj (n) = Xn , n = 0, 1, 2, · · · . Denote µ = E(Zj (n)) , σ 2 = V ar(Zj (n)). Los casos
j=1
µ < 1, = 1, > 1 se denominan sub-crı́tico, crı́tico y super-crı́tico.

Ejemplo 1.3.1. En la figura (1.1) se muestra un ejemplo de una realizaci ón de un proceso GW,
asumiendo X0 = 1, y la distribuci ón de las variables Zj (n) dada por p k = 0.3, 0.3, 0.2, 0.1, 0.1,
para k = 0, 1, 2, 3, 4. El programa para graficaci ón en Matlab es de R.Gaigalas e I.Kaj 1 .

Ahora calculamos la esperanza y la varianza del proceso Xn , utilizando algunas de las propiedades
de la esperanza condicional.

1. Cálculo de E(Xn ). Sabemos que E(Xn+1 ) = E(E(Xn+1 | Xn )) pero


Xn 
E(Xn+1 | Xn ) = E Zj (n) | Xn = Xn E(Zj (n) | Xn ) = Xn µ
j=1

luego
E(Xn+1 ) = E(E(Xn+1 | Xn )) = µE(Xn ) n = 0, 1, 2, · · ·

por tanto
E(Xn ) = µn E(X0 )
1 http://www.math.uu.se/ ikaj/courses/matlab/
14

2. Cálculo de V ar(Xn ). Utilizando V ar(Y ) = E(V ar(Y | X)) + V ar(E(Y | X)) con
Y = Xn+1 , X = Xn obtenemos


Xn 
V ar(Xn+1 | Xn ) = V ar Zj (n) | Xn = σ 2 Xn
j=1

y

Xn 
E(Xn+1 | Xn ) = E Zj (n) | Xn = µXn
j=1

luego
E(V ar(Xn+1 | Xn )) = σ 2 E(Xn )

y
V ar(E(Xn+1 | Xn )) = µ2 V ar(Xn )

luego

V ar(Xn+1 ) = σ 2 E(Xn ) + µ2 V ar(Xn )


= σ 2 µn E(X0 ) + µ2 V ar(Xn )

luego

2
σn+1 = µ2 σn2 + σ 2 µn E(X0 ) , n = 0, 1, · · ·
σn2 = µ2 σn−1
2
+σ µ2 n−1
E(X0 ) , n = 1, 2, · · ·
 
n 
Utilizando x n = axn−1 + bn , n = 1, 2, · · · de donde xn = an x0 + a−j bj , n =
j=1
1, 2, · · · obtenemos
 
n 
σn2 = µ2n σ02 + σ 2 E(X0 ) µ−2j µj−1
j=1
 
n 
= µ2n σ02 + σ 2 E(X0 ) µ−j−1
j=1

En este punto es necesario considerar los casos µ = 1 y µ = 1.

3. Caso µ = 1.


n 
n
µ−j−1 = µ−1 µ−j
j=1 j=1
 
−1 µ−1 − µ−(n+1)

1 − µ−1
15
 
1 − µ−n
= µ−1
µ−1
 n 
µ −1
= µ−(n+1)
µ−1

luego  
µn − 1
σn2 = µ2n σ02 2
+ σ E(X0 )µ n−1
µ−1
SupongaP(X0 =1) = 1, es decir E(X0 ) = 1 , V ar(X0 ) = σ02 = 0 entonces σn2 =
µn − 1
σ 2 µn−1  1. En Conclusión, si P(X0 = 1) = 1 y µ = 1 entonces
, µ=
µ−1

E(Xn ) = µn
 
2 n−1 µn − 1
V ar(Xn ) = σ µ , n = 1, 2, · · ·
µ−1

4. Caso u = 1. En este caso E(Xn ) = 1 y σn2 = σn−1


2
+ σ 2 , n ≥ 1 luego

σ12 = σ 2
σ22 = 2σ 2
..
.
σn2 = V ar(Xn ) = nσ 2 n≥1

Si µ < 1 entonces µn → 0 cuando n → ∞ por tanto E(X n) → 0 cuando n → ∞ y V ar(Xn ) → 0


cuando n → ∞ y si k > 0 es un número positivo cualquiera, entonces

E(Xn ) µn
P(Xn ≥ k) < = →0 , n→∞
k k
lo cual indicarı́a que la población se extingue con probabilidad 1. La definición formal de Extinción
de un proceso GW es la siguiente.

Definición 1.3.2. . Se define el evento Extinción y su correspondiente probabilidad, como:



∞ 
π0 = P(Extinción) = P (Xn = 0) = lı́m P(Xn = 0)
n→∞
n=1

La probabilidad de que P(Xn = 0) es la probabilidad de que el proceso termine en un tiempo


menor o igual a n también P(X1 = 0) = p0 . Si p0 = 0 no hay extinción.

El problema de determinar π0 lo planteó en 1889 Francis Galton, con relación al problema de la


extinción de apellidos.
16

1. si µ < 1 entonces π0 = 1 ( proceso subcrı́tico )



 ∞

µn = E(Xn ) = jP(Xn = j) ≥ P(Xn = j) = P(Xn ≥ 1)
j=1 j=1

luego, como µn −→ 0 , P(Xn ≥ 1) −→ 0 , n −→ ∞ por tanto P(X n = 0) −→ 1 , n −→


∞.

2. Si µ = 1 se puede probar que π0 = 1

3. Si µ > 1


π0 = P(E) = P(E | X1 = j)P(X1 = j)
j=1
y

X0
X1 = Zj (0) = Z1 (0)
j=1

luego
P(X1 = j) = P(Z1 (0) = j) = pj
por tanto


π0 = P(E | X1 = j)pj
j=1

(ver (Medhi 1978) pag. 247) Dado X 1 = j la población se extingue si y solo si cada una
de las j familias iniciadas por los miembros de la primera generación se extinguen. Se
asumió que las familias evolucionan independientemente, luego

P(E | X1 = j) = π0j

entonces


π0 = pj π0j
j=1



Si se define la función P(ζ) = pj ζ j la función generadora de probabilidad de Z j (n) entonces
j=0
π0 es una raı́z de la ecuación ζ = P(ζ) con ζ ∈ [0, 1]. Note que ζ = 1 es raı́z. Se puede probar
que en el caso µ > 1 solo hay una raı́z π0 ∈ (0, 1) de ζ = P(ζ).
1
Ejemplo 1.3.2. Suponga que las variables aleatorias Z j (n) ∈ {0, 1, 2} con p0 = 9
p1 = 49 , p2 = 49 entonces


π0 = π0j pj
j=0
17

1 4 4
= + π0 + π02
9 9 9
2
9π0 = 1 + 4π0 + 4π0
0 = 4π02 − 5π0 + 1

de donde π0 = 1 ó π0 = 0.25

Ejemplo 1.3.3. Sea pk = (1 − p)pk , k = 0, 1, 2, · · · entonces



 p
µ= k(1 − p)pk = , p ∈ (0, 1)
1−p
k=0

por tanto


π0 = π0j pj
j=0


= π0j (1 − P )pj
j=0


= (1 − p) (π0 p)j
j=0
1
= (1 − p)
1 − π0 p
(1 − π0 p)π0 = 1 − p
0 = pπ02 − π0 + 1 − p

1−p
de donde obtenemos que π0 = 1 o π0 =
p

q p
Si π0 = < 1 es porque > 1 es decir µ > 1.
p q
3
3 p 4 1−p 1
Por ejemplo si p = 4
entonces µ = 1−p
= 1 = 3 > 1 entonces π0 = p
= 3
4

e−λ λk
Ejemplo 1.3.4. Supongamos que p k = , k = 0, 1, 2, · · · µ = λ > 1 entonces
k!

 ∞
 λj π j
π0 = π0j pj = e−λ 0
j!
j=0 j=0

 (λπ0 )j
= e−λ
j!
j=0

= e−λ eλπ0
= e−λ(1−π0 )
18

Por ejemplo si λ = 3 , x = e−3(1−x) la solución aproximada es x = π 0 = 0.0595

Teorema 1.3.1. (ver Medhi (1978), pag. 248 ) Para n, r = 0, 1, 2, · · ·E(X n+r | Xn ) = Xn µr .

Demostración. Si r = 1 , n ≥ 0 entonces E(Xn+1 | Xn ) = µXn .


Supongamos que es válida para r = k entonces para r = k + 1 se tiene

E(Xn+k+1 | Xn ) = E(E(Xn+k+1 | Xn , Xn+1 , · · · , Xn+k ) | Xn )


= E(E(Xn+k+1 | Xn+k ) | Xn )
= E(µXn+k | Xn )
= µk+1 Xn

por tanto el resultado es válido para r = k + 1 y por el principio de inducción el resultado es


válido para cualquier r ≥ 1.

Nota 1.3.1. Por la definici ón de Xn se tiene que

P(Xn+1 = k | Xn = kn , Xn−1 = kn−1 , · · · , X1 = k1 ) = P(Xn+1 = k | Xn = kn )

y por tanto

E(Xn+1 | Xn = kn , Xn−1 = kn−1 , · · · , X1 = k1 ) = E(Xn+1 | Xn = kn )

1.4. Marcha Aleatoria

Definición 1.4.1. Suponga una sucesi ón de variables aleatorias i.i.d, (X n , n = 1, 2, . . .), con
valores en {−1, 1}, y tales que P(Xj = 1) = p y P(Xj = −1) = q = 1 − p, donde p ∈ (0, 1).
Y defina el proceso (Zn , n = 0, 1, . . .), como Z0 = 0, Zn = X1 + . . . + Xn , n ≥ 1. El proceso
Zn se denomina “Marcha Aleatoria no Restringida”.

Definición 1.4.2. Un proceso Zn , n = 1, 2, . . . se dice que tiene incrementos independientes si


para cualesquier 0 < n1 < . . . < nk enteros positivos se cumple que las variables:

Z0 , Zn1 − Z0 , Zn3 − Zn2 , . . . , Znk − Znk−1

son independientes.

Definición 1.4.3. Un proceso Zn , n = 1, 2, . . . se dice de Markov si para cualesquier 0 < n1 <


. . . < nk enteros positivos se cumple

P(Znk ≤ y | Z0 , Zn1 , Zn2 , . . . , Znk−1 = x) = P(Znk ≤ y | Znk−1 = x)

Proposición 1.4.1. Cualquier proceso con incrementos independientes es Markov.


19

Demostración.

P(Znk ≤ y|Z0 , Zn1 , Zn2 , . . . , Znk−1 = x) =


P(Znk − Znk−1 ≤ y − x|Z0 , Zn1 − Z0 , Zn2 − Zn1 , . . . , Znk−1 − Znk−2 ) =
P(Znk − Znk−1 ≤ y − x) =
P(Znk − Znk−1 ≤ y − x|Znk−1 − Z0 , Z0 ) =
P(Znk ≤ y|Znk−1 = x)

Ejercicio 1.4.1. Compruebe que la Marcha Aleatoria no Restringida tiene incrementos indepen-
dientes y por tanto es un proceso Markov.

Ejercicio 1.4.2. Si Zn Marcha Aleatoria no Restringida, aplique las propiedades anteriores para
resolver lo siguiente:

1. Compruebe: Zn = Zn−1 + Xn , n = 1, 2, . . ..

2. Compruebe que si se define Rj = (Xj +1)/2 y Rn = nj=1 Rj entonces Rn ∼ Bin(n, p).
Además, compruebe que se tiene Rn = (Zn + n)/2 y E(Zn ) = n(p − q).

3. Calcule P(Z5 = 1, Z7 = 3, Z13 = 9). Sugerencia: esta probabilidad es igual a: P(Z 5 =


1, Z7 −Z5 = 3−1, Z13 −Z7 = 9−3). Aplique la propiedad de incrementos independientes
y transforme con Rn .

4. Calcule E(Z5 Z8 ).

5. Calcule E(Z11 |Z5 ).

El modelo de marcha aleatoria anterior tiene varias aplicaciones.

1. La difusión de moléculas en un gas, asumiendo que hay independencia de los desplaza-


mientos entre colisiones.

2. Las partı́culas que se diluyen dentro de un medio realizan marchas aleatorias entre los
átomos.

1.5. El Proceso Poisson


 
El proceso Poisson homogéneo Nt , t ≥ 0 es un proceso con espacio de estados E = {0, 1, . . .}
en tiempo continuo t ≥ 0, definido de la siguiente manera.
20

Definición 1.5.1. Un proceso Nt , t ≥ 0 se dice que es un proceso de conteo si Nt mide el número


de ocurrencias de un fenómeno aleatorio en el intervalo [ 0, t ]. Si h > 0, la variable N t+h − Nt
es el número de ocurrencias en el intervalo ( t , t + h ]. El proceso de Poisson se define como un
proceso de conteo que satisface las siguientes condiciones.

1. N0 = 0.

2. Si 0 < t1 < t2 < t3 < t4 entonces Nt4 − Nt3 y Nt2 − Nt1 son independientes.

3. Si h > 0 , Nt+h − Nt ∼ Poisson(λ h ) para cierto λ > 0 es decir

( λ h )k
P( Nt+h − Nt = k ) = e−λ h k = 0, 1, · · ·
k!

Se pueden demostrar las siguientes propiedades del proceso Poisson.

k
1. P(Nt = k) = e−λ t ( λk!t )

2. P( Nt+h − Nt ≥ 2)/h → 0 si h → 0+

3. E( Nt ) = V ar( Nt ) = λ t , E( Nt2 ) = λ t + λ2 t2

4. Si 0 < t1 < t2 < t3 < t4 entonces


 
E ( Nt4 − Nt2 ) ( Nt3 − Nt1 ) = λ2 ( t4 − t2 ) ( t3 − t1 ) + λ( t3 − t2 )

5. E( Nt1 Nt2 ) = λ2 t1 t2 + λ mı́n( t1 , t2 ) t1 , t2 ≥ 0. La demostración se basa en la


propiedad 4), colocando que t 1 = t2 = 0, t4 = t1 , t3 = t2 ,, y luego t2 ≤ t1 de donde
E( Nt1 Nt2 ) = λ2 t1 t2 + λ t2 = λ2 t1 t2 + λ mı́n ( t1 , t2 ).

6. Cov(Nt1 , Nt2 ) = E(Nt1 Nt2 ) − E(Nt1 )E(Nt2 ) = λ mı́n(t1 , t2 ).

7. Las trayectorias muestrales de Nt son funciones escalonadas, continuas a derecha, con


saltos de magnitud 1 en ciertos tiempos T j , j = 1, 2, · · · por la propiedad 2).

8. Se puede probar que si T1 T2 , · · · es la sucesión de tiempos en los que que ocurren los
saltos, entonces las variables T1 , T2 − T1 , T3 − T2 , · · · son independientes e idénticamente
distribuı́das Exp(1/λ). Entonces E( T j − Tj−1 ) = λ1 , V ar( Tj − Tj−1 ) = λ12 y P( Tj −
Tj−1 > t ) = e− λ , por propiedades de la distribución Exponencial.
t

9. Al sumar T1 + ( T2 − T1 ) + · · · + ( Tk − Tk−1 ) = Tk se obtiene una suma de k variables


 
exponenciales independientes, Luego Tk ∼ Gamma k , λ1 y
k
E( Tk ) =
λ
k
V ar( Tk ) = 2
λ
21

Figura 1.2: Trayectoria de un proceso Poisson con λ = 6/10

10. La fgm de Nt ∼ Poisson( λ t ) es


 
eθ N = eλ t( e
θ
−1 )
MNt ( θ ) = E t
∀θ ∈ R

11.  k  k
1 λ
MTk ( t ) = = para t<λ
1− t
λ
λ−t
12. Identidad Nt ≥ k ⇐⇒ Tk ≤ t

Ejemplo 1.5.1. (ver Parzen (1972), Ejemplo 3c, pag. 47 y Ross (1989) pag. 216) Considere una
componente, por ejemplo, una l ámpara, que se utiliza hasta que falla y entonces se reemplaza por
otra nueva. Las vidas Y1 , Y2 , · · · de las componentes sucesivas forman una sucesión de variables
aleatorias i.i.d. distribuı́das Exponencial con media λ. Para cada t > 0 definimos N t como el
número de componentes que han fallado hasta t, es decir, N t = Max { j : Y1 +Y2 +· · ·+Yj ≤ t},
donde Yj ∼ Exp(λ). Entonces Nt ∼ Poisson( λ t ).

Suponga que Y j ∼ Exp(λ) con λ = 1000 horas, donde P( Yj > t ) = e−λ t = e−1000 t . Luego

P( Nt = k) =
e−λ −1
( λ−1 t )k
t
k = 0, 1, 2, · · ·
k!
Por ejemplo,
 5000 3 1 e−5 53 = 0.14
P( N5000 = 3 ) = e− 1000
5000
=
1000 3! 3!
E( N5000 ) = 5
22

Nota 1.5.1. Si los tiempos de entre-arribo Y j no son exponenciales pero son iid y se definen las
variables siguientes:


n
1. S0 = 0 , Sn = Yj , n ≥ 1.
j=1
∞
2. Nt = M ax{n : Sn ≤ t} = j=1 I( Sj ≤ t ), t ≥ 0

donde I(A) es la funci ón indicadora del evento A, igual a 1 cuando A es cierto e igual a 0 en
caso contrario, entonces el proceso (Nt , t ≥ 0) se denomina Proceso de Renovación .

Nota 1.5.2. Si Y ∼ Exp( θ ) entonces E( Y ) = θ, V ar( Y ) = θ 2 de donde el coeficiente de



variación CV = E(Y )/ V ar(Y ) = 1. Aunque no es una prueba formal se puede calcular el
cociente Y /sY y ver si es aproximadamente igual a uno para suponer que las variables Y se
distribuyen Exponencial.

1.5.1. Modelo de Riesgo Colectivo

Un tipo de proceso estocástico que ha demostrado ser particularmente útil en aplicaciones es el


denominado Modelo de Riesgo Colectivo. Sus aplicaciones son principalmente en el diseño de
seguros de bienes ó seguros generales. Su definición se basa en la de “suma aleatoria de variables
aleatorias”.

Definición 1.5.2. Si N es una variable aleatoria discreta con valores en {0, 1, 2, · · · } y X 1 , X2 , · · ·


es una sucesión de variables aleatorias iid definidas en [0, ∞), independientes de N , entonces la

N
variable aleatoria Y = Xi , con Y = 0 si N = 0, se define como la suma aleatoria de N
j=1
variables aleatorias independientes.

Proposición 1.5.1. Denote por pn = P(N = n), n = 0, 1, · · · la fdp de N y µN = E(N ),


2 2
σN = V ar(N ), F (x) = P(X ≤ x), la fda de X y µX = E(X), σX = V ar(X), entonces

E(Y ) = E(N µX ) = µN µX , (1.3)


2
V ar(Y ) = µN σX + µ2X σN
2
. (1.4)

N
Demostración. 1. E(Y ) = E(E(Y | N )) = E(E( j=1 Xj | N )). Pero E(Y | N ) =
N N
E( j=1 Xj | N ) = N E(Xj | N ) = N E(Xj ) = N µX . V ar(Y | N ) = V ar( j=1 Xj |
2
N ) = N V ar(Xj | N ) = N σX .
2
2. V ar(Y ) = E(V ar(Y | N )) + V ar(E(Y | N )). Pero E(V ar(Y | N )) = E(N σX )∗
2
V ar(N µX ) y V ar(E(Y | N )) = µN σX + µ2X σN
2
.
23

El modelo básico de Riesgo Colectivo se define a apartir de un proceso Poisson homogéneo


(Nt , t ≥ 0) con tasa λ, y una sucesión de variables aleatorias iid, (Xj )j=1,2,... con fda F (x) =
P (Xj ≤ x), independientes de Nt . Con estas variables se definen dos procesos estocásticos: un
Nt
proceso S(t) = j=1 Xj , que es una suma aleatoria de variables aleatorias, y el proceso de
Riesgo Colectivo definido como R(t) = s + Πt − S(t), t ≥ 0, donde s, Π > 0 son constantes
dadas.

La interpretación del modelo es como sigue.

(N (t), t ≥ 0) : es el número de reclamos hasta el tiempo t.

(Xj )j=1,2,... : es el costo de cada reclamo, con µ = E(Xj ).


Nt
S(t) = j=1 Xj : es el costo total acumulado hasta el tiempo t.

R(t) = s + Πt − S(t): es el superávit en el tiempo t

De las relaciones anteriores se concluye que el valor s, al ser R(0) = s, es el superávit inicial, o
mejor, la reserva inicial de capital. También, Π es el valor de la prima anual que pagan quienes
adquieren el seguro, al inicio de la vigencia en t = 0, pero se asume que los pagos se hacen
continuamente de tal forma que Πt es el total pagado hasta el tiempo t. Si en algún tiempo t > 0
se obtiene R(t) < 0 se habla de un “superávit negativo en t”, o ruina. Se tienen los siguientes
resultados.

1. E(R(t)) = E(s + Πt − S(t)) = s + (Π − λµ)t.

2. Evento Ruina: (R(t) < 0, en algún t ≥ 0).

3. Probabilidad de ruina: ϕ(s) = P(R(t) < 0, en algún t ≥ 0), s ≥ 0.

4. Si se define el valor A > 0 que es solución de la ecuación 1 + ΠA/λ = E(eAXj ) entonces


se cumple la “Cota Cramer-Lundberg”: ϕ(s) ≤ e−As . Para la validez de este resultado se
requiere que los siniestros denominados de “baja severidad”, lo cual se interpreta como que
las Xj cumplen E(etXj ) < ∞ para t < δ, δ > 0 y E(etXj ) → ∞ cuando t → δ−.

Ejemplo de Ruina La gráfica (1.3) muestra una trayectoria del proceso R(t) = s + ct − S(t),
N(t)
S(t) = j=1 Xj , con Xj ∼ Exp(5), N (t) ∼ P oisson(λt), con λ = 1, con s = 30, P = 6,
para t ∈ [0, 50]. Es este caso la probabilidad de ruina es ϕ(30) = P (R(t) < 0, en algún t ≥
0) = 0.306.

El modelo se desarrolla escogiendo distribuciones particulares para las variables N y X j . Por


ejemplo N = Poison , Binomial Negativa y X j = Gamma , LogNormal , Pareto.
24

Figura 1.3: Trayectorias de procesos de riesgo

1.6. Martingalas.

Definición 1.6.1. Un proceso estocástico en tiempo discreto (S n , n = 1, 2, · · · ) es una martin-


gala con respecto a la sucesión (Xn , n = 1, 2, · · ·) si para todo n ≥ 1

1. E(|Sn |) < ∞

2. E(Sn+1 | X1 , X2 , · · · , Xn ) = Sn

Ejemplo 1.6.1. (ver (Medhi 1978) pag. 248 ) Suponga que X n es el proceso Galton-Watson tal
que
Xn
Xn+1 = Zj (n) , n = 0, 1, 2, · · ·
j=1

entonces

E(Xn+1 | X1 , X2 , · · · , Xn ) = E(Xn+1 | Xn ) = µXn y E(Xn ) = µn


Xn
Definamos Sn = entonces
µn
 
Xn+1 µXn Xn
E(Sn+1 | X1 , X2 , · · · , Xn ) = E | X1 , X2 , · · · , Xn = = n = Sn
µn+1 µn+1 µ
luego
E(Sn+1 | X1 , X2 , · · · , Xn ) = Sn y (Sn , n = 1, 2, · · · )
es una martingala con respecto a (X n , n ≥ 1).

Proposición 1.6.1. Si (Sn , n = 1, 2, · · · ) es una martingala entonces E(S n ) = c para todo


n≥0
25

Si n ≥ 2 entonces

E(Sn ) = E(E(Sn | X1 , 2, · · · , Sn−1 ) = E(Sn−1 )

luego
E(Sn ) = c

Proposición 1.6.2. Si (Sn , n ≥ 1) es martingala entonces para 1 ≤ n ≤ m se tiene

E(Sm | X1 , X2 , · · · , Xn ) = Sn

Demostración. Para m = n + 1 es válida por definición.


Para m = n + 2

E(Sn+2 | X1 , X2 , · · · , Xn ) = E(E(Sn+2 | X1 , X2 , · · · , Xn+1 ) | X1 , X2 , · · · , Xn )


= E(Sn+1 | X1 , X2 , · · · , Xn ) = Sn

de igual manera se prueban los casos m = n + 3 , m = n + 4 , · · ·

1.7. Problemas
1. Suponga que X1 ∼ P oisson(2) y X2 |X1 ∼ Bin(3 + 2X1 , 1/2)
Encuentre:

a) E(X2 |X1 ) y V ar(X2 |X1 )


b) E(X2 ) y V ar(X2 )
c) El rango y la fdp conjunta de (X 1 , X2 )

2. Si Y |X ∼ Exp(2 + X) y X ∼ U (2, 4), encuentre:

a) E(Y |X), V ar(Y |X)


b) E(Y ), V ar(Y )
c) E(Y X |X = 3)
d) El rango y la fdp conjunta de (X,Y).

3. Suponga que la variable Y es discreta con valores 0,1 tal que P(Y = 1|X = x) =
e−1+2x /(1 + e−1+2x ), donde X es una variable discreta con fdp dada por: P(X = x) =
1/3, x = 0, 1, 2.

a) Encuentre P(Y = 1).


26

b) Encuentre E(Y ).

4. Si (X, Y, Z) tienen fdp conjunta dada por:



e−z/θ
θ3 si 0 < x < y < z
fX,Y,Z (x, y, z) =
0 en otro caso

Compruebe

a) Resuelva el Ejercicio 1.2.2, pag. 11.


b) E(Z | Y ) = θ + Y
c) E(Y | X) = θ + X.

5. Consideremos un proceso de Galton-Watson (X n , n = 0, 1, . . .) definido de manera recur-


siva por medio de la relación:


Xn
Xn+1 = Zj (n), n = 0, 1, 2, . . .
j=1

donde las variables aleatorias Zj (n), n = 0, 1, . . ., j = 1, 2, . . . se asumen i.i.d, con valores


en {0, 1, 2, . . .}, con función de densidad pk = P(Zj (n) = k) < 1, k = 0, 1, 2, . . ., p0 >
0. Denotemos por µ y por σ 2 , el valor esperado y la varianza, respectivamente de una
cualquiera de las Z’s. En el análisis siguiente se asumirá que µ = 1.

a) Utilice el resultado del Teorema (1.3.1), pag. 18, para comprobar que se cumple
E(Xn Xn+r ) = µr E(Xn2 ).
b) Calcule Cov(Xn , Xn+r ) y Corr(Xn , Xn+r ).
c) Si se asume que Zj (n) ∼ Poisson(λ) encuentre una expresión para P(Xn+1 =
r|Xn = m), donde r, m son enteros con r ≥ 0, m > 0.
d) Si se asume que Zj (n) ∼ Geo(p) encuentre una expresión para P(Xn+1 = r|Xn =
m), donde r, m son enteros con r ≥ 0, m > 0.
e) Asuma que Zj (n) tiene una distribución discreta con valores en {0, 1, 2, 3}, y distribu-
ción de probabilidades dada por el vector (p k , k = 0, 1, 2, 3) = (3/16, 5/16, 6/16, 2/16),
donde p0 = P(Z = 0) = 3/16. Encuentre µ, σ2 . Encuentre la probabilidad de ex-
∞
tinción ρ resolviendo al ecuación g(ρ) = ρ, donde g(x) = k=0 xk pk . En clase se
mencionó que, para procesos GW con µ > 1, llamados “supercrı́ticos", se cumple
que:
P(Extinción) + P( lı́m Xn = +∞) = 1
n→∞

Es decir, un proceso supercrı́ticos o se extingue o diverje a infinito. Cuál es la proba-


bilidad de este último evento en este ejemplo?.
27

6. Suponga que N y Xj tienen medias y varianzas dadas por

µN = E(N ) = 230 , σN = 30 , µX = E(Xj ) = 1 millón , σ X = 0.3 (300.000)

entonces

E(Y ) = 230 × 1 = 230.000.000


 
σY = V ar(Y ) = [230(0.3)2 + 12 (30)2 ] = 30.34 millones

Suponga que fuera válida la afirmación siguiente:

Y − E(Y )
Z= ∼ N (0, 1)
V ar(Y )

Y − uY
entonces P(Z > 1.645) = 0.05 y por tanto > 1.645 implica Y > uY + 1.645σY .
σY
Entonces el intervalo [u Y + 1.645σY , ∞) = [279.9, ∞) = [280, ∞), es un intervalo con
una probabilidad de contener los costos totales en un 5 % de los casos. En otras palabras,
los costos no superaran los 280 millones con un 95 % de probabilidad.
Adicionalmente, la prima neta se puede definir como

E(Y )
π=
n
230 23
Suponga que hay n = 6.000 pólizas de forma que 6.000 = 600 = 0.038. La prima neta
230
serı́a π = 6.000 = 0.038 millones por asegurado.

1.8. Soluciones
1. a) Como X ∼ Bin(n, p) entonces E(X) = np, luego E(X2 |X1 ) = (3 + 2X1 )(1/2).
Además, como V ar(X) = np(1−p) entonces V ar(X2 |X1 ) = (3+2X1 )(1/2)(1/2) =
(3 + 2X1 )/4
b) Utilizando la identidad E(E(X|Y )) = E(X) tenemos

E(X2 ) = E(E(X2 |X1 )) = E((3 + 2X1 )/2) = 3/2 + (1/2)E(X1 )

Como E(X1 ) = 2 entonces E(X2 ) = 3/2 + 1. Utilizando la identidad V ar(X) =


V ar(E(Y |X))+E(V ar(Y |X)) se tiene que V ar(E(X2 |X1 )) = V ar((3+2X1 )/2) =
V ar(X1 ) = 2, además, E(V ar(X2 |X1 )) = E((3 + 2X1 )/4) = (3 + 4)/4. Luego
V ar(X2 ) = 7/4 + 2
c) Como una binomial tiene rango de 0 a n, y X 2 |X1 ∼ Bin(3 + 2X1 , 1/2) la variable
X2 |X1 tiene un rango que depende de X1 , dado por {0, 1, . . ., 3 + 2X1 }. Como
28

X1 ∼ Poisson(2) entonces su rango es {0, 1, . . .}. Luego el rango conjunto es {(i, j) :


i = 0, 1, . . . , j = 0, 1, . . ., 3 +2i}. La fdp conjunta se encuentra haciendo el producto
 
e−2 2−(3+i) 3 + 2i
fX2 (j|X1 = i).fX1 (i) =
i! j

para i = 0, 1, . . ., j = 0, 1, . . . , 3 + 2i.

2. Ejercicio.

3. Ejercicio. Utilice las fórmulas sobre probabilidad total en las Notas.

4. a) Aplicando la propiedad 5) de esperanza condicional, con k = 1 y n = 2, tenemos

E(E(Z | X, Y ) | X) = E(Z | X) = θ + E(Y | X).

Para la segunda identidad, utilizando la propiedad 3) tenemos: E(E(Z | X, Y )) =


E(Z) = E(θ + E(Y | X)) = θ + E(Y ).
b) Ejercicio.
c) Ejercicio.

5. a) Utilice E(Xn Xn+r ) = E(E(Xn Xn+r |Xn )) y aplique el resultado anterior.


b) Para la covarianza utilizamos Cov(Xn , Xn+r ) = E(Xn Xn+r ) − E(Xn )E(Xn+r ).
Todos estos valores se conocen y solo falta reemplazarlos. Igual para la correlación.
c) Use la propiedad de sumas i.i.d de Poisson.
d) Use la propiedad de sumas i.i.d de Geométricas.
e) Ejercicio.
CAPÍTULO 2

Desigualdades y Modos de Convergencia

2.1. Desigualdades

Las desigualdades son útiles para establecer cotas superiores o inferiores para probabilidades, o
para la solución de un problema de convergencia. Las desigualdades más útiles son las siguientes:

1. Si E(|X|) < ∞ entonces |E(X)| ≤ E(|X|)

2. Desigualdad Triangular

E(|X ± Y |) ≤ E(|X|) + E(|Y |)


además
|E(X) − E(Y )| ≤ E(|X − Y |) ≤ E(|X|) + E(|Y |)

3. Desigualdad Triangular General

1 1 1
E(|X + Y |r ) r ≤ E(|X|r ) r + E(|Y |r ) r para r≥1

también se tiene otra versión de esta desigualdad, dada por

E(|X + Y |r ) ≤ Cr (E(|X|r ) + E(|Y |r )) para r>0

29
30

donde Cr = 1 si r ≤ 1 y Cr = 2r−1 si r ≥ 1.

4. Desigualdad de Markov
Si para algún r > 0 se tiene E(|X|r ) < ∞ entonces, para todo a > 0 se cumple
E(|X|r )
P(|X|r ≥ a) ≤
ar

N
Ejemplo 2.1.1. Si Y = Xj es suma aleatoria de variables aleatorias independientes
j=1
con Xj positivas y N ∈ {0, 1, 2, · · ·} entonces

a) P(Y ≥ 0) = 1 ya que por teorema de probabilidad total




P(Y ≥ 0) = P(Y ≥ 0 | N = n)P(N = n)
n=0

 
n 
= p0 + P Xj ≥ 0 P(N = n)
n=1 j=1

pero

n 
P Xj ≥ 0 = 1 ∀n ≥ 1
j=1

luego


P(Y ≥ 0) = pn = 1
n=0

b) Para todo a > 0


E(Y )
P(|Y | ≥ a) = P(Y > a) ≤
a
luego como E(Y ) = µN µX entonces
µN µX
P(|Y | ≥ a) ≤
a
Como Ejemplo si µ N = 230 y µX = 1 mill ón y Y son los costos totales entonces
E(Y ) 230
P(Y ≥ 280 millones ) ≤ = = 0.821
280 280
con la aproximaci ón normal

P(Y ≥ 280) = 0.05 < 0.821

5. Desigualdad de Chebyshev
Si V ar(X) < ∞ entonces colocando r = 2 y X − E(x) en lugar de X en la desigualdad
de Markov se obtiene
V ar(X)
P(|X − µX | ≥ a) ≤ ∀a > 0
a2
31

Recuérdese que |x − µX | ≥ a ⇐⇒ x ≤ µX − a ó x ≥ µX + a.
2
Si X ∼ N (µX , σX ) y a = 1.645 entonces
2
σX
P(|X − µX | ≥ 1.645σX ) ≤ 2 = 0.369
1.6452σX
pero

P(|X − µX | ≥ 1.645σX ) = 1 − P(|X − µX | ≤ 1.645σX ) = 1 − 0.95 = 0.05

6. Desigualdad de Cauchy-Schwarz

 
|E(XY )| ≤ E(|XY |) ≤ E(X 2 ) E(Y 2 )

Ejemplo 2.1.2. Como Cov(X, Y ) = E((X − µ X )(Y − µY )) entonces


 
|Cov(X, Y )| ≤ E(|X − µX ||Y − µY |) ≤ E((X − µX )2 ) E((Y − µY )2 ) = σX σY

luego
|ρXY | ≤ 1

Definición 2.1.1. La esperanza E(X r ) , r = 1, 2, · · · se llama momento de orden r, y


E(|X|r ) se llama momento absoluto de orden r.

7. Desigualdad de Lyapunov
 1  1
Si 0 < s ≤ r entonces E(|X|s ) s ≤ E(|X|r ) r .

Ejemplo 2.1.3. Si X es variable aleatoria en R y s = 1 , r = 2 entonces


1
E(|X|) ≤ [E((X 2 ))] 2 es decir E 2 (|X|) ≤ E(X 2 ) y como |E(X)| ≤ E(|X|) entonces

E 2 (X) ≤ E 2 (|X|) ≤ E(X 2 )

de donde
E(X 2 ) − E 2 (X) = V ar(X) ≥ 0

8. Identidad La siguiente identidad es útil para calcular momentos de una variable aleatoria.

E(|X| ) = r
r
xr−1 P(|X| > x)dx ≤ +∞, r = 1, 2, . . .
0

α 2.1.1. Si X es una variable aleatoria en [0, ∞) con fda P(X ≤ x) = 1 −


Ejercicio

λ
λ+x , λ > 0 , α > 0, se dice que se distribuye P areto(λ, α). Compruebe que si α > 1
entonces E(X) = λ
α−1
y, si α = 2, entonces E(X 2 ) = +∞.
32

Demostración. Usando la identidad anterior con r=2 tenemos:


∞ 
λ2 
E(X 2 ) = 2 x 1− dx
0 (λ + x)2
t(t2 + λt + 2λ2 ) t
= − 2λ2 ln(1 + ) → ∞, t → ∞
t+λ λ
luego E(X 2 ) = +∞.

9. Desigualdad de Jensen

Una función f(x) se dice convexa en [a, b] si la lı́nea que une los puntos (a, f(a)), (b, f(b))
está siempre por encima de la gráfica (x, f(x)). Una condición suficiente para que f sea
convexa es que exista f  (x) y cumpla f  (x) > 0 en ese intervalo. En este caso, si X es una
variable aleatoria, f es convexa en el rango de X, y E(f(X)) existe, entonces se cumple:

f(E(X)) ≤ E(f(X))

Una función f(x) se dice cóncava en [a, b] si la lı́nea que une los puntos (a, f(a)), (b, f(b))
está siempre por debajo de la gráfica (x, f(x)). Una condición suficiente para que f sea
cóncava es que exista f  (x) y cumpla f  (x) < 0 en un intervalo. En este caso, si X es una
variable aleatoria, f es cóncava y E(f(X)) existe, entonces se cumple:

E(f(X)) ≤ f(E(X))

Ejemplo 2.1.4. a) Si f(x) = 1/x, x > 0, entonces f  (x) = 2/x3 > 0, x > 0. Por
tanto, f es convexa en (0, ∞). Si X es una variable aleatoria con valores en (0, ∞)
aplicando la desigualdad obtenemos 1/E(X) ≤ E(1/X).
b) Si f(x) = ln(x) entonces f  (x) < 0, x > 0. Por tanto, f es cóncava. Si X es una
variable aleatoria con valores en (0, ∞) entonces se cumple E(ln(X)) ≤ ln(E(X)).

Ejemplo 2.1.5. Suponga que X 1 y X2 son variables aleatorias con medias 0 varianzas 1 y
correlación ρ > 0. Comprobar que

E(max(X12 , X22 )) ≤ 1 + 1 − ρ2
1
Utilizando la desigualdad de Cauchy-Schwarz y las identidades: max(a, b) = 2 (a + b + |a − b|),
a2 − b2 = (a + b)(a − b).

Aplicando las identidades anteriores tenemos

2E(max(X12 , X22 )) = E(X12 ) + E(X22 ) + E(|X12 − X22 |)


= E(X12 ) + E(X22 ) + E(|X1 − X2 ||X1 + X2 |)
33

≤ E(X12 ) + E(X22 ) +
E((X1 + X2 )2 )E((X1 − X2 )2 )
 1
= E(X12 ) + E(X22 ) + E(X12 ) + E(X22 ) + 2E(X1 X2 ) 2 .
 1
E(X12 ) + E(X22 ) − 2E(X1 X2 ) 2
 
= 2 + 2 + 2ρ 2 − 2ρ

= 2 + 2 1 − ρ2

de donde E(max(X12 , X22 )) ≤ 1 + 1 − ρ2 .

Ejemplo 2.1.6. Para cualquier par de variables aleatorias X 1 , X2 con coeficiente de correlación
ρ y para cualquier λ > 0
1 
P(|X1 − µ1 | ≥ λσ1 ) ∪ ((|X2 − µ2 | ≥ λσ2 ) ≤ (1 + 1 − ρ2 )
λ2

   2 
|X1 − µ1 | 1 X1 − µ1
P(A) = P ≥λ ≤ E
σ1 λ2 σ1
   2 
|X2 − µ2 | 1 X2 − µ2
P(B) = P ≥λ ≤ E
σ2 λ2 σ2
P(A ∪ B) ≤ P(A) + P(B)
2
≤ 2
  λ
2  2  
X1 − µ1 X2 − µ2
∴ E max , ≤ 1 + 1 − ρ2
σ1 σ2
 
X1 − µ1 X2 − µ2 cov(X1 , X2 )
cov , = =ρ
σ1 σ2 σ1 σ2

2.2. Modos de Convergencia

Se trata de definir la convergencia de una sucesión de variables aleatorias (Xn )n=0,1,2,···. Hay
cinco modos básicos de convergencia de Xn a un lı́mite X cuando n −→ ∞ que son

1. Con probabilidad 1.

2. En media r , r = 1, 2, · · ·

3. En Media cuadrática.

4. En Probabilidad.

5. En Distribución.
34

Definición 2.2.1 (Convergencia con Probabilidad 1 ). Xn converge a X con probabilidad 1,


cp1
indicada por X n −→ X cuando n −→ ∞ si se cumple que

P( lı́m Xn = X) = 1
n→∞

Lo anterior significa que Xn converge a X como si fuera una sucesión de números, excepto en un
evento N que tiene probabilidad cero, donde N = {w ∈ Ω : lı́m n→∞ Xn = X}. .

Definición 2.2.2 (Convergencia en Media r = 1, 2, . . .). Si r es un entero positivo r = 1, 2, 3, · · ·


se dice que Xn converge a X en media r, indicado por
r
Xn −→ X , n −→ ∞

si se cumple

1. E(|Xn |r ) < ∞ para n = 1, 2, · · ·

2. E(|Xn − X|r ) −→ 0 cuando n −→ ∞

Definición 2.2.3 (Convergencia en Media Cuadrática). Es la convergencia en media r con


r = 2, y es el caso más útil en la pr áctica, o el que más va a utilizarse. Xn converge a X en media
cuadrática, denotados por
2
Xn −→ X , n −→ ∞

si se cumple

1. E(Xn2 ) < ∞ , n = 1, 2, · · ·

2. E(|Xn − X|2 ) −→ 0 , n −→ ∞

Definición 2.2.4 (Convergencia en Probabilidad). Xn converge a X en probabilidad, denotada


por
p
Xn −→ X , n −→ ∞

si
∀ > 0 P(|Xn − X| ≥ ) −→ 0 cuando n −→ ∞

Definición 2.2.5 (Convergencia en Distribución). Xn converge a X en distribución, denotado


por
d
Xn −→ X , n −→ ∞

si ∀x FX (t) continua en x

FXn (x) −→ F (x) n −→ ∞


35

Las relaciones entre los modos de convergencia está dado por las siguientes implicaciones; estas
establecen un orden de prioridad entre los cinco modos de convergencia.
Proposición 2.2.1.
cp1 p d
Xn → X ⇒ Xn → X ⇒ Xn → X
r p d
Xn → X ⇒ Xn → X ⇒ Xn → X

Otras implicaciones como por ejemplo


cp1 r
Xn −→ X ⇒ Xn −→ X
p cp1
Xn −→ X ⇒ Xn −→ X

requieren condiciones adicionales para ser válidas. Es decir, no siempre se cumplen. Por ejemplo,
p cp1 p
no es cierto en general que Xn −→ X ⇒ Xn −→ X, sin embargo, si Xn −→ X existe una
cp1
sub-sucesión (nk ) tal que Xnk −→ X.
Ejemplo 2.2.1. Es fácil comprobar que
1 p
Xn −→ X =⇒ Xn −→ X

utilizando la desigualdad de Markov.

Demostración. Si > 0 y se asume que E(|Xn − X|) −→ 0 entonces


E(|Xn − X|)
P(|Xn − X| ≥ ) ≤ −→ 0 cuando n −→ ∞

p
luego Xn −→ X.
2 p
Ejemplo 2.2.2. Si Xn −→ X =⇒ Xn −→ X

Demostración. Utilizando la desigualdad de Lyapunov con s = 1 , r = 2



E(|Xn − X|) ≤ E(|Xn − X|2 )

luego si > 0 
E(|Xn − X|) E((Xn − X)2 )
P(|Xn − X| ≥ ) ≤ ≤

P
de donde si E((Xn − X)2 ) −→ 0 entonces Xn −→ X cuando n −→ ∞

Teorema 2.2.1. (Teorema de Convergencia Monótona) Suponga que X n , n = 0, 1, 2 . . . es una


sucesión de variables aleatorias, mon ótonas no decrecientes y no negativas cp1, 0 ≤ X0 ≤ X1 ≤
X2 ≤ . . ., que converge cp1 a X. Entonces se cumple que

lı́m E(Xn ) = E(X). (2.1)


n→∞
36

Teorema 2.2.2. (La Ley Débil de Grandes Números) Suponga que X n , n = 0, 1, 2 . . . es una
sucesión de variables aleatorias i.i.d. con media E(X n ) = µ y varianza finita V ar(X n ) = σ 2 <
n
∞, entonces se cumple que X̄n = (1/n) j=1 Xj converge en probabilidad a µ.

n
Demostración. Aplicando la desigualdad de Chebyshev a la variable X̄n = (1/n) j=1 Xj ,
tenemos que, para > 0, P(|X̄n − µ| ≥ ) ≤ V ar(X̄n )/ 2 . Pero V ar(X̄n ) = nV ar(X1 )/n2 =
σ 2 /n. Entonces
σ2
lı́m P(|X̄n − µ| ≥ ) ≤ lı́m =0
n→∞ n→∞ n 2
p
es decir, X̄n → µ, n → ∞.

Teorema 2.2.3. (La Ley Fuerte de Grandes Números) Suponga que X n , n = 0, 1, 2 . . . es una
sucesión de variables aleatorias i.i.d. con media finita E(|X n |) = µ, entonces se cumple que
n
X̄n = (1/n) j=1 Xj converge cp1 a µ.

2.2.1. Propiedades de la Convergencia en Distribución.

Definición 2.2.6 (Función Generadora de Momentos). Si X es una variable aleatoria, suponga


que existe h > 0 tal que para cada t , −h < t < h existe la esperanza E(etX ), entonces la
correspondiente función de t se denota por MX (t) y es la fgm de X. Luego

MX (t) = etj P(X = j) si X es discreta
j

= etx fX (x)dx si X es continua
−∞

Es evidente que MX (0) = 1.



dk MX (t) 
Proposición 2.2.2. = E(X k ) k = 1, 2, · · ·
dtk  t=0

Ejemplo 2.2.3. La fgm de una Normal. Si X ∼ N (µ, σ 2 ) entonces MX (t) = exp(µt + 12 t2 σ 2 )



luego MX (t) = (µ + tσ 2 )MX (t). Por tanto, MX
 
(t)|t=0 = µ. Además, MX (t) = σ 2 MX (t) +
2 2  2 2 2
(µ + tσ ) MX (t) y MX (t)|t=0 = σ + µ = E(X ).

Nótese que si se define Y = eX , es decir, Y es una variable Lognormal, entonces existen todos
los momentos de orden k de Y, E(Y k ) = E(ekX ) = MX (k), sin embargo, la fgm de Y no existe,
MY (t) = E(exp(teX )) = +∞ para todo t = 0

Ejemplo 2.2.4. La fgm de una Poisson. Si N ∼ P oison(λ), λ > 0, entonces P(N = k) =


e−λ λk ∞ etk e−λ λk ∞ t k

k! k = 0, 1, 2, · · ·, y MN (t) = E(etN ) = k=0 k! = e−λ k=0 (e k!λ) =


t t
e−λ eλe = eλ(e −1). Luego, MX 
(t) = λet MN (t), por tanto M X (t)|t=0 = λ. Además, MX
(t) =
t 2  2 2 2
λe MN (t) + (λe ) MN (t) y MX (t)|t=0 = λ + λ , luego E(N ) = λ + λ y V ar(N ) = λ.
t
37

Ejemplo 2.2.5. La fgm de una Exponencial. Si X ∼ Exp(θ) , θ > 0 entonces f X (x) =


1 −x 1 1
e θ x ≥ 0 y MX (t) = para t < .
θ 1 − tθ θ
Ejemplo 2.2.6. La fgm de una
 Gamma.
 Si X ∼ Gamma(α, θ) , θ , α > 0 entonces f X (x) =
x α
xα−1 e− θ 1
θ k Γ(α)
, x ≥ 0 y MX (t) = 1−tθ
para t < 1θ .

Teorema 2.2.4. Si X1 , X2 , · · · , Xn son variables aleatorias independientes con fgm M Xj (t) , j =


1, 2, · · · , n para −h < t < h entonces X = X1 + X2 + · · · + Xn tiene fgm MX (t) =
MX1 (t)MX2 (t) · · · MXn (t) e inversamente, si la fgm MX (t) se puede expresar como el producto
de las fgm de las Xj entonces éstas son independientes.

Teorema 2.2.5. Si (Yn )n=1,2,··· es una sucesión de variables aleatorias tales que tienen fgm
MYn (t) para −h < t < h y existe una variable aleatoria Y con fgm M Y (t) para |t| ≤ h1 < h
tal que MYn (t) −→ MY (t) n −→ ∞ entonces
d
Yn −→ Y cuando n −→ ∞

Ejemplo 2.2.7. Suponga que Y n ∼ Bin(n, pn ) tal que p n = µn para n = 1, 2, · · · donde µ > 0
es una constante. Entonces
 n
µ(et − 1)
MYn (t) = E(etYn ) = (1 − pn + pn et )n = 1 +
n

Utilizando el resultado
 α n
1+ −→ eα cuando n −→ ∞
n
se obtiene
MYn (t) −→ exp(µ(et − 1))
t
−1)
Como para Y ∼ P oison(µ) se tiene MY (t) = eµ(e entonces
d
Yn −→ Y cuando n −→ ∞

Nota 2.2.1. Usualmente se utiliza el resultado de que si X ∼ Bin(n, p) con p << 12 y n


a a
grande, por ejemplo, n > 100, entonces X ∼ P oisson(np), donde el sı́mbolo “ ∼" significa
“aproximadamente distribuı́do como", lo que se denomina Aproximaci ón Poison a la Binomial.

Proposición 2.2.3. (Teorema del Lı́mite Central, TLC) Si (X n , n = 1, 2, . . .) es una sucesión


de variables aleatorias i.i.d. con E(X i ) = µ y V ar(Xi ) = σ 2 entonces la sucesión Yn =
√ n
n(X̄n − µ)/σ, donde X̄n = (1/n) j=1 Xj , converge en distribución a una variable aleatoria
d
Y ∼ N (0, 1) es decir Yn → Y, n → ∞.

a
En la práctica si n > 30 se coloca Yn ∼ N (0, 1).
38

Ejercicio 2.2.1. 1. Compruebe que si Y ∼ U (0, 1) entonces


 t
e −1
t
para t = 0
MY (t) =
1 para t = 0

2. Encuentre MY (t) si Y ∼ U {0, 1, · · · , 9}



n
3. Considere (Yn )n=1,2,··· con Yn ∼ iid U {0, 1, 2, · · · , 9} y Xn = 10−j Yj .
j=1
Encuentre
1 1 − et
MXn (t) = t = 0
10n 1 − et10−n
= 1 t=0

et − 1
4. Compruebe que MXn (t) −→ t = 0 recuerde que
t
−n 1 − eh
lı́m 10n (1 − et10 ) = t lı́m = −t
n→∞ h→0 h
d
5. Concluya que Xn −→ X X ∼ U (0, 1)

2.2.2. Propiedades de la Convergencia en Media Cuadrática.

Sabemos que
2
Xn −→ X si n −→ ∞ ⇐⇒ E((Xn − X)2 ) −→ 0 si n −→ ∞

por tanto si

2
1. Xn −→ X cuando n −→ ∞ entonces

a) E(Xn ) −→ E(X) cuando n −→ ∞


b) E(Xn2 ) −→ E(X 2 ) cuando n −→ ∞

Demostración.

a) Por Lyapunov con s = 1 , r = 2 tenemos



E(|Xn − X|) ≤ E(|Xn − X|2 )

además 
|E(Xn ) − E(X)| ≤ E(|Xn − X|) ≤ E(|Xn − X|2 )
39

luego como E((Xn − X)2 ) −→ 0 cuando n −→ ∞ se tiene

E(Xn ) −→ E(X) cuando n −→ ∞

b) La siguiente desigualdad es válida


  2
0≤ E(Xn2 ) − E(X 2 ) ≤ E((Xn − X)2 )

ya que desarrollando ambos miembros de la desigualdad obtenemos



E(Xn2 ) + E(X 2 ) − 2 E(Xn2 )E(X 2 ) ≤ E(Xn2 ) + E(X 2 ) − 2E(Xn X)

que a su vez equivale a



E(Xn X) ≤ E(Xn2 )E(X 2 )

la cual es cierta por c. s.



E(Xn X) ≤ E(|Xn X|) ≤ E(Xn2 )E(X 2 )

2
Nota 2.2.2. Es evidente que Xn −→ X entonces V ar(Xn ) −→ V ar(X)

2
2. (ver Parzen (1972) pág. 112 Teo 4B ) Si Xn ∼ N (µn , σn2 ) y Xn −→ X entonces
X ∼ N (µ, σ 2 ) con µ = lı́m µn y σ 2 = lı́m σn2 .
n→∞ n→∞

Demostración.
2
Si Xn −→ X entonces µn −→ µ = E(X) y σn2 −→ σ 2 = V ar(X) además la fgm de Xn
es
MXn (t) = eµn t+ 2 σn t t ∈ R
1 2 2

luego MXn (t) −→ M (t) cuando n −→ ∞ donde

M (t) = eµt+ 2 σ
1 2 2
t
, t∈R

lo cual significa que Xn converge en distribución a una variable aleatoria distribuı́da


N (µ, σ 2 ). Pero como
2 D
Xn −→ X =⇒ Xn −→ X

ésta variable debe ser X, por tanto X ∼ N (µ, σ 2 ).

2
3. Si Xn → X cuando n → ∞ y E(Xn2 ) < ∞ para todo n ≥ 1 entonces E(X 2 ) < ∞.
40

Demostración.
Utilizando la desigualdad triangular general
1 1 1
E(|X + Y |r ) r ≤ E(|X|r ) r + E(|Y |r ) r para r≥1

con Xn = X , Y = X − Xn , r = 2 se tiene
  
E(X 2 ) ≤ E(Xn2 ) + E((X − Xn )2 )

como E((Xn − X)2 ) −→ 0 cuando n −→ ∞ y E(Xn2 ) < ∞ para todo n ≥ 1 entonces


E(X 2 ) < ∞.

4. Si se considera el conjunto
L2 = {X , E(X 2 ) < ∞}
entonces se cumple que

a) c ∈ R , X ∈ L2 =⇒ cX ∈ L2
b) X , Y ∈ L2 =⇒ X + Y ∈ L2
c) X , Y  = E(XY ) satisface
1) X , Y  = Y , X
2) X + Y , Z = X , Z + Y , Z
3) cX , Y  = cX , Y 
4) X , X ≥ 0 X , X = 0 ⇐⇒ X = 0

d) Si X = E(X 2 ) entonces
1) X ≥ 0 X = 0 ⇐⇒ X = 0
2) X + Y  ≤ X + Y 
3) cX = |c|X
e) Si Xn , n = 1, 2, . . . es una sucesión de variables aleatorias en L2 , tales que Xn −
2
Xm  → 0, n, m → ∞ entonces existe X tal que Xn → X, n → ∞.
2 2
5. Si Xn → X , Yn → Y entonces E(Xn Yn ) → E(XY ) cuando n −→ ∞

Demostración.

|E(Xn Yn ) − E(XY )| ≤ E(|Xn Yn − XY |) = E(|(Xn − X)Y + (Yn − Y )Xn |)


≤ E(|(Xn − X)Y |) + E(|(Yn − Y )Xn |)
 1  1
≤ E((Xn − X)2 )E(Y 2 ) 2 + E((Yn − Y )2 )E(Xn2 ) 2

Como E(Y 2 ) < ∞ se cumple que si n −→ ∞ entonces la última expresión tiende a


cero.
41

2
6. Xn −→ X ⇐⇒ ∃ c ∈ R tal que E(Xn Xm ) −→ c para n , m → ∞

Demostración.
[ ⇐= ]
Si E(Xn Xm ) −→ c entonces

E((Xn − Xm )2 ) = E(Xn2 ) + E(Xm


2
) − 2E(Xn Xm ) → c + c − 2c = 0

y (Xn ) es una sucesión de Cauchy en L2


[ =⇒ ]
2
Si Xn → X entonces E(Xn Xm ) → E(X 2 ) = c cuando n → ∞

2 2 2
7. Si Xn −→ X y Yn −→ Y entonces aXn + bYn −→ aX + bY
2 2
8. Si Xn −→ X y an −→ a entonces an Xn −→ aX

Proposición 2.2.4. El conjunto L 2 con X − Y  = E(X − Y )2 y X , Y  = E(XY ) es un
espacio de Hilbert que además es completo.

Proposición 2.2.5. ( ver Grimmett and Stirzaker (1994), pag 309, teo 7.8.1. ) Si (S n , n =
1, 2, · · · ) es una martingala con E(S n2 ) < M < ∞ para alg ún M y para todo n, entonces existe
una variable aleatoria S tal que S n −→ S casi en todas partes y en media cuadr ática.

Xn
Ejemplo 2.2.8. Considere Xn el proceso Galton-Watson con µ > 1 y S n = para n ≥ 1.
µn
Entonces Sn es martingala con respecto a Xn .

 
Xn2 V ar(Xn ) + E 2 (Xn )
E =
µ2n µ2n
 n 
µ −1
V ar(Xn ) = σ 2 µn−1
µ−1
E(Xn ) = µn
 
1 σ 2 µ2n (1 − µ−n )
∴ E(Sn2 ) = 2n µ + 2n
µ µ(µ − 1)
2 −n
σ (1 − µ )
=1+
µ(µ − 1)
σ2
<1+ =M
µ(µ − 1)
2
luego existe S tal que Sn −→ S si n −→ ∞.
42

2.3. Problemas
1. Suponga que N ∼ P oisson(λ), y δ > 0 es una constante. Se define la variable X =
N −δj t
j=0 e . Utilice el resultado: E(e tN ) = eλ(e −1) y la desigualdad de Markov para
encontrar una cota superior para la probabilidad P(X > a), a > 0.

2. (ver Parzen (1972), pag 33. problema 1C), generalización a dos dimensiones de la de-
sigualdad de Chebyshev). Sean X1 y X2 variables aleatorias con medias 0, varianzas 1 y
coeficiente de correlación ρ. Demostrar que:

E[M ax(X12 , X22 )] ≤ 1 + 1 − ρ2

Sugerencia: utilice la identidad: M ax(a, b) = (a + b + |a − b|)/2, y la desigualdad de


Cauchy-Schwarz. Recuerde que a2 − b2 = (a − b)(a + b).

3. Suponga una sucesión de variables Normales, Xn ∼ N (0, σn2 ), n = 1, 2, . . ., tales que


σn2 → 0, n → ∞.
2
a) Compruebe que Xn → 0, n → ∞.
b) Si aceptamos que es válida la operación dt d
E(etXn ) = E( dt
d tXn
e ), compruebe que
2
2 σn
d
dt M Xn (t)| t=1 = E(Xn eXn
) = σ n e /2
.
c) Compruebe que eXn − 1 − Xn /Xn  → 0, n → ∞.(Nota: El desarrollo de Taylor
de orden 1 alrededor de x = 0 de la función f(x) = e x está dado por ex = 1+x+r(x),
donde r(x) es el residuo que cumple lı́mx→0 |r(x)/x| = 0. El problema propuesto
puede verse como una generalización estocástica de este resultado de cálculo).
2 2
4. Suponga que Xn → X y Yn → Y . Si a, b son constantes y (an ) es una sucesión que
converge a a. Compruebe que:
2
a) aXn + bYn → aX + bY . Use la desigualdad triangular.
2
b) an Xn → aX. Use la desigualdad tringular.
c) Corr(Xn , Yn ) → Corr(X, Y ).

5. Resolver los puntos del Ejercicio (2.2.1), pag. 38.

6. (Tema parcial 1 semestre 01/2001). Suponga el proceso estocástico (Xn , n = 0, 1, . . .),


definido por las siguientes condiciones:

i) X0 ∼ ExP(1/ 2)

ii) Xn |Xn−1 ∼ ExP(Xn−1 / 2), n = 1, 2, . . .

a) Encuentre E(Xn |Xn−1 ). Y luego E(Xn ) en función de E(Xn−1 ). Compruebe que:

E(Xn ) = 2−(n+1)/2 (2.2)


43

b) Encuentre V ar(Xn |Xn−1 ). Y luego V ar(Xn ) en función de V ar(Xn−1 ). Com-


pruebe que:
V ar(Xn ) = 1 − 2−(n+1) (2.3)

c) Con los resultados anteriores encuentre E(X n2 ), y utilı́celo para encontrar una cota
superior para E(X10 X20 ) y una para E((X10 − X20 )2 )
d) Utilice la desigualdad de Markov para comprobar que el proceso converge en proba-
p
bilidad a cero: Xn → 0, n → ∞. Se puede decir que converge en media cuadrática a
2
cero: Xn → 0 ?. Explique.

2.4. Soluciones
n
1. Primero utilizamos la identidad para la suma de una serie geométrica: j=0 r j = (1 −
r n+1 )/(1 − r), para 0 < r < 1. Entonces X = (1 − e−δ(N+1) )/(1 − e−δ ). Aplicando la
desigualdad de Markov tenemos: P (X > a) ≤ E(X)/a. Ahora desarrollamos la esperanza
E(X) y sustituı́mos en la desigualdad anterior:
 
E(X) = E (1 − e−δ(N+1) )/(1 − e−δ )
= (1 − E(e−δ(N+1) ))/(1 − e−δ )
= (1 − e−δ E(e−δN ))/(1 − e−δ )
= (1 − e−(δ+λ)+λ exp(−δ) )/(1 − e−δ )

2. Ejercicio.

3. a) La sucesión Xn converge a cero en m.c. porque Xn 2 = σn2 → 0, n → 0.


b) De las notas se tiene que para Xn ∼ N (0, σn2 ) entonces la fgm es MXn (t) =
exp(t2 σn2 /2). Derivando con respecto a t y evaluando en t = 0 se obtiene E(Xn eXn ) =
σn2 exp(σn2 /2).
c) Desarrolle: eXn − 1 − Xn 2 = E((eXn − 1 − Xn )2 ). Luego divida por Xn  y
encuentre el lı́mite.

4. Ejercicio.

5. Ejercicio.

6. Ejercicio.
44
CAPÍTULO 3

Procesos Estocásticos

3.1. Definición de Proceso Estoc ástico

Definición 3.1.1. Considere un espacio de probabilidades (Ω, F , P ), y un n úmero τ , −∞ ≤ τ <


∞, y el intervalo T = [τ, ∞) , y para cada t ∈ T suponga que X t es una variable aleatoria que
satisface

1. Xt : Ω −→ R
2. ∀a ∈ R , ( Xt ≤ a ) ∈ F

El conjunto X = (X t : t ∈ T ) se denomina proceso estocástico.

El conjunto T se denomina conjunto de tiempos. Si X t ∈ E ⊆ R para todo t ∈ T , entonces el


conjunto E se denomina el espacio de estados. Algunos ejemplos de combinaciones de conjunto
de tiempos y espacio de estados son:

1. Xn , n = 0, 1, . . . , Xn ∈ E = {0, 1, . . .}. El proceso Xn es de tiempo discreto y sus valores


son también discretos.
2. Xn , n = 0, 1, . . ., Xn ∈ E = R. El proceso Xn es de tiempo discreto pero sus valores son
número reales.

45
46

3. Xt , t ≥ 0, Xt ∈ E = {0, ±1, ±2 . . .}. El proceso Xt es de tiempo continuo y sus valores


son discretos.

4. Xt , t ≥ 0, Xt ∈ E = R. El proceso Xt es de tiempo continuo y sus valores son números


reales.

Como ∀t ∈ T , Xt es una función de Ω en R entonces el proceso se puede re-definir como una


función de dos variables ( t, ω )

X : T × Ω −→ R
( t, ω ) −→ X( t, ω ) = Xt ( ω ).

Entonces, para cada ω ∈ Ω fijo , Xt ( ω ) es una función de t, denominada trayectoria muestral .

Definición 3.1.2. Sea (Xt , t ∈ T ) un proceso estocástico real y Tn = {t1 , t2 , . . . , tn } ⊂ T una


colección finita de tiempos en T , entonces las variables aleatorias {X t1 , . . . , Xtn } tienen una
función de distribuci ón conjunta dada por:

FTn = Ft1...tn (x1 , . . . , xn ) = P (Xt1 ≤ x1 , . . . , Xtn ≤ xn ). (3.1)

A la funci ón FTn se la denomina funci ón de distribuci ón finito dimensional del proceso X t . La
distribuci ón de cada variable Xt se denomina distribuci ón marginal.

El conjunto de distribuciones finito dimensionales {F Tn } satisface dos condiciones, denominadas


de simetrı́a y de consistencia, dadas por

(i) (Simetrı́a) F tk1 ,...,tkn (xk1 , . . . , xkn ) = Ft1,...,tn (x1 , . . . , xn) para cualquier permutación
k1 , . . . , kn de 1, 2, . . . , n.

(ii) (Consistencia) Para cualquier 1 ≤ k ≤ n y x 1 , . . . , xk ∈ R se satisface:

Ft1 ,...,tk (x1 , . . . , xk ) = Ft1,...,tn (x1 , . . . , xk , ∞, . . ., ∞).

Un teorema importante debido a A. N. Kolmogorov establece que, dada un conjunto de dis-


tribuciones finito dimensional que cumpla las condiciones de simetrı́a y consistencia, siempre se
podrá asociar un proceso cuyas distribuciones finito dimensionales coincidan con las de tal con-
junto. Puesto de otra forma, para que un proceso estocástico esté bien definido sus distribuciones
finito dimensionales deben satisfacer las condiciones de simetrı́a y consistencia.

Teorema 3.1.1. (Teorema de Consistencia de Kolmogorov) Suponga que {F Tn } es un conjunto


de funciones de distribuciones finito dimensionales para cada T n = {t1 , t2 , . . . , tn } ⊂ T , que
satisfacen las condiciones de asimetrı́a y consistencia, entonces existe un proceso estocástico
(Xt , t ∈ T ) de valor real cuyas distribuciones finito dimensionales est án dadas por {F Tn }.
47

Existen distintas maneras de definir un proceso estocástico. Por ejemplo, a partir de relaciones
recursivas, como en los procesos de ramificación. O mediante una formulación axiomática de
ciertas funciones de intensidad, como en el proceso Poisson. Otros tipos de procesos, como los
gaussianos solamente requieren que se especifiquen las caracterı́sticas de segundo orden, media y
covarianza. Otros, como los markovianos requieren especificar una función de transición.

Para desarrollar la teorı́a de procesos es necesario hacer supuestos, que son propiedades que
se asume posee cada proceso considerado. Dar propiedades aumenta las posibilidades de aplicar,
realizar cálculos y desarrollar la teorı́a. Las propiedades iniciales tienen que ver con la continuidad
del proceso.
Definición 3.1.3. Un proceso X = ( Xt , t ∈ T ) se dice

1. Continuo con probabilidad uno si ∀t ∈ T

P( lı́m Xt+h = Xt ) = 1.
h→0

2. En media si para alg ún r = 1, 2, · · · se cumple E( | Xt+h − Xt |r ) → 0 , h → 0. En


particular es importante el caso r = 2. Si E( ( X t+h − Xt )2 ) → 0 , h → 0 , X se dice
continuo en media cuadr ática .

3. En probabilidad si ∀ > 0, P( | X t+h − Xt | ≥ ) → 0 , h → 0.


Ejemplo 3.1.1. Considerando un proceso Poisson homog éneo Nt ∼ P oisson(λt), por la
propiedad (5), pag. 20, E(N t1 Nt2 ) = λ2 t1 t2 +λ mı́n(t1 , t2 ). Entonces, reemplazando t1 = t > 0
y t2 = t + h > 0, se tiene:

E(Nt2 ) = λ2 t2 + λ mı́n(t, t) = λ2 t2 + λt,


2
E(Nt+h ) = λ2 (t + h)2 + λ mı́n(t + h, t + h) = λ2 (t + h)2 + λ(t + h),
E(Nt+h Nt ) = λ2 t(t + h) + λ mı́n(t + h, t),

luego
 
E (Nt+h − Nt )2 = 2
E(Nt+h ) + E(Nt2 ) − 2E(Nt+h Nt ),
= λ2 h2 + λ(t + h + t) − 2λ mı́n( t + h , t ),
= λ2 h2 + λ(t + h + t) − λ(t + h + t − |t + h − t|),
= λ2 h2 + λ|h| → 0 , h → 0,

de donde Nt es continuo en media cuadr ática en todo t ≥ 0. En la simplificaci ón se utiliz ó la


identidad siguiente, v álida para todo a, b ∈ R:

2 mı́n(a, b) = a + b − |a − b|.

Nótese que, sin embargo, las trayectorias de Nt son discontinuas con probabilidad 1, ya que son
funciones escalonadas con saltos unitarios, continuas a derecha.
48

Proposición 3.1.1. Un proceso X = ( Xt , t ∈ T ) continuo en media r ≥ 1 es continuo en


probabilidad.

Demostración. Si > 0 entonces para cualquier r ≥ 1


 1
E( | Xt+h − Xt | ) E( | Xt+h − Xt |r ) r
P( | Xt+h − Xt | ≥ ) ≤ ≤


por las desigualdades de Markov y Lyapunov, luego si E | Xt+h − Xt | ) → 0 , h → 0 entonces
r

P( | Xt+h − Xt | ≥ ) → 0 , h → 0.

Suponga que se quiere calcular la probabilidad P( X t ≤ x , ∀t ∈ [ 0, 1 ] ). El conjunto



( Xt ≤ x , ∀t ∈ [ 0, 1 ] ) = ( Xt ≤ x )
0≤t≤1

es la intersección de un número no contable de eventos y el axioma 3 de probabilidades dice


∞
solamente que si A1 , A2 , · · · es una sucesión de eventos entonces i=1 Ai es un evento luego

∞ c ∞

Ai = Aci
i=1 i=1
es un evento.

El axioma 3 garantiza que la intersección de un número contable de eventos es un evento, pero


 la intersección de unnúmero no contable sea un evento. Luego no se puede
no garantiza que
garantizar que Xt ≤ x , ∀t ∈ [ 0, 1 ] = A sea un evento , A ∈ F.

k
Si observamos la sucesión an , k = para n = 1, 2, · · · , k = 0, 1, 2, · · · , n, entonces an , k ∈
 n 
[ 0, 1 ]. La colección de eventos X k ≤ x = An , k es una sucesión contable o numerable con
n
dos contadores luego
∞ n n 
∞ 
 
An , k = Xk ≤ x
n
n=1 k=0 n=1 k=0
es un evento y en principio se puede calcular su probabilidad.
 
Proposición 3.1.2. Si Xt , t ∈ T es continuo en probabilidad en T entonces
 
1. Los conjuntos de la forma Xt ≤ x , ∀t ∈ [ a, b ] son eventos. Además
   n 
∞  
P Xt ≤ x , ∀t ∈ [ a, b ] = P Xa+( b−a ) k ≤ x
n
n=1 k=0

b
2. Se pueden definir las integrales sobre las trayectorias muestrales: a Xt (ω) dt.

b
3. Se puede definir la integral Z = a Xt dt como una variable aleatoria y E(Z) =

b
a E(Xt )dt.
49

3.2. Procesos Estacionarios

En algunos casos es necesario considerar procesos estocásticos con valores complejos. Si Xt,i , i =
1, 2 son dos procesos con valores reales se puede definir el proceso de valor complejo Xt =
Xt,1 + iXt,2 , con i2 = −1. Sin embargo, si no se menciona lo contrario, todos los procesos
considerados en adelante se asumirán de valor real.

Definición 3.2.1. Un proceso (Xt , t ∈ T ) se dice de segundo orden si E(Xt2 ) < ∞ para todo
t ∈ T.

Los procesos de segundo orden tienen varias propiedades

1. Si Xt , Yt son procesos de segundo orden y a, b ∈ R entonces aXt + bYt tambien es de


segundo orden pues basta observar que
        2
E ( aXt + bYt )2 ≤ E ( aXt )2 + E ( bYt )2 <∞

2. | E( Xt Yt ) | < ∞ ya que | Xt Yt | ≤ 12 Xt2 + 12 Yt2 siempre, luego E( | Xt Yt | ) < ∞.

El conjunto de los procesos de segundo orden es unespacio vectorial sobre los reales, con producto
interno Xt , Yt  := E(Xt Yt ) y norma ||Xt || := E(Xt2 ) (ver pag. 40).

Definición 3.2.2. Para un proceso de segundo orden (Xt , t ∈ T ) se definen las siguientes
funciones:

Media: µ(t) = E(Xt ).

Autocovarianza: R(s, t) = Cov(Xs , Xt ).


R(s, t)
Autocorrelación: ρ(s, t) =  .
R(s, s) R(t, t)

En el caso de un proceso de valores complejos la función de autocovarianza se define como


R(s, t) = E[(Xs − µ(s)))(Xt − µ(t))].

Propiedades de las funciones de Autocovarianza R(s, t)


 
1. Desigualdad de Schwarz. |R(s, t)| = |Cov(Xs , Xt )| ≤ V ar(Xs ) V ar(Xt ) luego

|R(s, t)| ≤ R(s, s) R(t, t)

2. Simetrı́a. R(s, t) = R(t, s). En el caso de Xt complejo es R(s, t) = R(t, s).


50

3. Semi-definida positiva. Una función R(s, t) real ó compleja, definida en T × T , se dice


que es definida positiva si para cualquier vector (a 1 , a2 , . . . , an ) ∈ Cn , y t1 , t2 , . . . , tn
conjunto de tiempos en T se cumple que

n 
n
aj ak R(tj , tk ) ≥ 0. (3.2)
j=1 k=1

Si R(s, t) es la función de autocovarianza de un proceso Xt entonces es semi-definida


positiva. E inversamente, si R(s, t) es función semi-definida positiva entonces siempre
existe un proceso de segundo orden Xt con R(s, t) su función de autocovarianza.

4. Cerrada bajo multiplicación. Si R 1 (s, t) y R2 (s, t) son dos funciones de autocovarianza


entonces su producto es nuevamente una función de autocovarianza, es decir, R(s, t) =
R1 (s, t)R2 (s, t) es simétrica y definida positiva.

5. Cerrada bajo suma. La suma de dos funciones de autocovarianza R1 (s, t) + R2 (s, t) es


nuevamente una función de autocovarianza, es decir, es simétrica y definida positiva.

6. Sumas positivas. Una constante C positiva es una función de autocovarianza. Por tanto, si
Rj (s, t), j = 1, . . . , n son funciones de autocovarianza y Cj , j = 1, . . . , n son constantes
n
positivas entonces R(s, t) = j=1 Cj Rj (s, t) es nuevamente una función de autocovari-
anza.

7. Lı́mites. Si Rj (s, t), j = 1, 2, . . . es una sucesión de funciones de autocovarianza que


convergen a R(s, t) cuando j → ∞, para cada (s, t) ∈ T × T , entonces R(s, t) es una
función de autocovarianza.

8. Formas bilineales. Si σ(t) es una función entonces R(s, t) = σ(s)σ(t) es una fun-
ción de autocovarianza. Basta definir Xt = σ(t)X con X ∼ N (0, 1) porque entonces
Cov(Xs , Xt ) = E(X 2 )σ(s)σ(t) = σ(s)σ(t).

Ejercicio 3.2.1. Si Xt , Yt son procesos de segundo orden con funciones de covarianza R X ( s , t ) , RY ( s , t )


y se define la covarianza cruzada de Xt y Yt como la funci ón

RXY ( s , t ) = Cov( Xs , Yt )

Compruebe que

RX+Y ( s , t ) = RX ( s , t ) + RY ( s , t ) + RXY ( s , t ) + RY X ( s , t )

Ejemplo 3.2.1. Considerando un proceso Poisson homog éneo Nt ∼ P oisson(λt), su función de


autocovarianza se obtuvo en (6), pag. 20, Cov(N t1 , Nt2 ) = λ mı́n(t1 , t2 ).

Una clase muy importante de procesos estocásticos es la de procesos estacionarios. Esta clase se
divide en dos subclases:
51

1. Procesos Estacionarios Estrictos.

2. Procesos Estacionarios en Covarianza ó Estacionarios de Segundo Orden.

Definición 3.2.3. Un proceso (Xt , t ∈ T ) se dice que es Estacionario Estricto si para todo
n ≥ 1 y t1 , . . . , tn ∈ T , t1 + h, . . . , tn + h ∈ T , se cumple que la distribuci ón conjunta de
(Xt1 , . . . , Xtn ) es igual a la distribuci ón conjunta de (X t1 +h , . . . , Xtn +h ). De otra forma, un
proceso es Estacionario Estricto si cualquiera de sus distribuciones conjuntas de dimensi ón finita
es invariante por translaciones en el tiempo.

Ejemplo 3.2.2. Dos ejemplos de procesos estacionarios estrictos son:

1. Una sucesión de variables iid.

2. Suponga un proceso estacionario estricto (X t , t ∈ T ) y una funci ón real g(.) continua
definida en el espacio de estados de Xt . Entonces Yt = g(Xt ) es estacionario estricto. Si
se tiene que E(|g(Xt0 )|) < ∞, para algún t0 ∈ T . Entonces E(g(Xt )) no depende de t.

Definición 3.2.4. Un proceso (Xt , t ∈ T ) de segundo orden se dice que es Estacionario en


Covarianza si cumple:

1. E(Xt ) = c, ∀t ∈ T . Es decir, la media es constante.

2. Existe una función R(r), r ∈ R, par, es decir R(−r) = R(r), con R(0) > 0 tal que
Cov(Xs , Xt ) = R(t − s). Es decir, la covarianza entre Xs y Xt depende únicamente de
|t − s|

Si Xt es estacionario en covarianza entonces la función de autocovarianza se puede escribir


R(s, t) = R(t − s). Además, V ar(Xt ) = R(0) y Corr(s, t) = R(t − s)/R(0). Xt estacionario
en covarianza equivale a decir que Xt y Xt+h tienen la misma media y la misma covarianza, y
son finitas. Nótese que para que un proceso estacionario estricto sea estacionario en covarianza es
suficiente que tenga varianza finita. Sin embargo, no necesariamente un proceso estacionario en
covarianza es estacionario estricto.

En la figura (3.1) siguiente se muestra una trayectoria de un proceso que corresponde a las
aceleraciones verticales del terremoto de Kobe. Más adelante se comprueba que corresponde a un
proceso estacionario en covarianza.

Algunos ejemplos de funciones de autocovarianza para procesos estacionarios en covarianza se


muestran a continuación.

1. R(h) = σ2 e−α|h| , α > 0.

2. R(h) = σ2 e−α|h| cos (βh), α > 0, β ∈ R


52

Figura 3.1: Gráfica del Sismógrafo (aceleración vertical, nm/sq.sec) del terremoto de Kobe(Japón),
grabado en la Universidad de Tasmania, Hobart, Australia el 16 de Enero de 1995 empezando
a las 20:56:51 (GMT) y continuando por 51 minutos a intervalos de 1 segundo. Fuente: Data
management centre, Washington University

3. R(h) = σ2 e−α|h| ( cos (βh) + α


β sin(β|h|)), α > 0, β ∈ R
2
4. R(h) = 2ασ2 (1 − 2αh2 )e−αh , α > 0
2
h2
5. R(h) = σ2 e−α , α>0

6. R(h) = σ2 e−α|h| (1 + α|h| + α2 h2 /3), α > 0

Definición 3.2.5 (Fluctuación cuadrática media). Dado un proceso estacionario en covarianza


Xt se define la función fluctuaci ón cuadrática media como:
 
V ( h ) =  Xt+h − Xt 2 = E ( Xt+h − Xt )2
2
= E( Xt+h ) + E( Xt2 ) − 2 E( Xt Xt+h )
 
= 2 R( 0 ) − R( h )


Como E( Xt ) = c entonces E( Xt+h − Xt ) = 0, por tanto V ar( Xt+h − Xt ) = E ( Xt+h −

Xt )2 = V ( h ).

Algunas caracterı́sticas de las función de autocorrelación y fluctuación media cuadrática están


relacionadas con las trayectorias del proceso. Suponga un proceso Xt , t ∈ T estacionario en
covarianza con función de autocovarianza R(h) tal que tiende lentamente a cero cuando h → ∞
(ver las figuras de la parte superior de la Figura 3.2. Entonces R(h) ≈ R(0) para valores de
h cercanos a cero, y ρ(h) ≈ 1, con lo cual el proceso tiene alta autocorrelación positiva. Sus
trayectorias muestrales deben mostrar fluctuaciones lentas, o sea frecuencias bajas. La función de
autocovarianza es relativamente “ancha”.
53

Figura 3.2: Ejemplos de Procesos Estacionarios con funciones de autocovarianza que decrecen a
cero con velocidades distintas

 
Inversamente, si R(h) decrece rápidamente a cero entonces V (h) = 2 R( 0 ) − R( h ) −→
2 R( 0 ) rápidamente cuando t → ∞. La interpretación es que al aumentar h la autocorrelación
disminuye y aumenta V ( h ) =  Xt+h − Xt 2 lo cual se puede tomar como un aumento en las
oscilaciones del proceso.

Según (Franks 1986) pag. 200, “Si un proceso presenta fluctuaciones rápidas ( frecuencias elevadas
) las muestras correspondientes a separaciones en el tiempo relativamente pequeñas rendrán una
correlación pequeña".

Ejemplo 3.2.3. ((Svesnikov 1968), pags. 184, 313 ) Compruebe que si f(t) es una funci ón de t no
aleatoria y R(t, s) es la funci ón de autocovarianza del proceso X t , entonces la autocovarianza
del proceso Yt = f(t) + Xt es también R(t, s).

Demostración. Como E( Yt ) = f( t ) + E( Xt ) entonces


 
E( Yt Yt+k ) = E( f( t ) + Xt ) f(t + k) + Xt+k )
 
= E ft f(t + k) + ft Xt+k + f(t + k) Xt + Xt Xt+k
= ft f(t + k) + ft E( Xt+k ) + f(t + k) E( Xt ) + E( Xt Xt+k )

luego

Cov( Yt , Yt+k ) = ft f(t + k) + ft E( Xt+k ) + f(t + k) E( Xt ) + E( Xt Xt+k )


− ft f(t + k) − ft E( Xt+k ) − f(t + k) E( Xt ) − E( Xt ) E( Xt+k )
= Cov( Xt , Xt+k )
54

Ejemplo 3.2.4. Si Y t = Z + Xt , Z independiente de Xt entonces


Cov( Yt , Ys ) = V ar( Z ) + Cov( Xt , Xs )
pues
   
E ( Z + Xt )( Z + Xs ) = E( Z 2 ) + E( Xt Xs ) + E( Z ) E( Xt ) + E( Xs )

3.3. Densidad Espectral

La densidad espectral ó espectro de potencia es una de las caracterı́sticas más importantes de un


proceso estacionario estricto ó estacionario en covarianza.

3.4. Causalidad

En esta sección se desarrollan algunos conceptos útiles para análisis posteriores. El concepto de
causalidad y el teorema de Wold son herramientas para establecer el carácter estacionario de
algunos procesos. El concepto de ruido blanco es básico.
Definición 3.4.1 (Ruido Blanco). Un proceso (Zn , n ∈ Z ) se denomina Ruido Blanco ( White
Noise ) en tiempo discreto, si cumple

1. E( Zn ) ≡ 0.
2. V ar( Zn ) ≡ σ 2 .

3. Cov( Zn , Zn+m ) = 0, ∀ n, m ∈ Z, m = 0.

Un proceso de ruido blanco se denotar á por Zn ∼ RB(0, σ 2 ).

En el caso de ser Zn ∼ N (0, σ 2 ) se denomina ruido blanco gaussiano. Nótese que si E( Zn ) = 0


la condición 3) es E( Zn Zn+m ) = 0, ∀m = 0. Un proceso Zn ruido blanco es estacionario en
covarianza ya que en este caso R( m ) = 0 para todo m = 0 y R( 0 ) = σ2 . Una sucesión de
variables aleatorias i.i.d. con media cero es un ejemplo de ruido blanco. Varios ejemplos de ruido
blanco que no son sucesiones i.i.d. son los procesos tipo GARCH que se introducen en el capı́tulo
siguiente.

El concepto de ruido blanco es una abstracción de ciertos fenómenos fı́sicos. Concretamente,


en fı́sica existe el ruido termal producido en resistencias en circuitos, por efecto del movimiento
browniano de moléculas ionizadas. Es un ruido que no puede ser eliminado. De manera semejante,
existe un ruido producido por el flujo de electrones en un campo eléctrico, como el generado en
semiconductores, denominado “granalla".
55

Definición 3.4.2. Sea Zn ∼ RB(0, σ 2 ) un proceso ruido blanco. Un proceso estoc ástico (Xn , n ∈
Z) se dice causal (ó función causal de un ruido blanco) si existe una sucesi ón de números reales
∞
(θj , j = 0, 1, . . .), que cumple j=0 |θj | < ∞, tal que



Xn = θj Zn−j . (3.3)
j=0

Bajo ciertas condiciones, todo proceso que pueda representarse de la forma (3.3) es estacionario
en covarianza. Concretamente se tiene el siguiente resultado.
∞
Proposición 3.4.1. Si (θj , j = 0, 1, . . .) es una sucesión de números reales que cumple j=0 |θj | <
∞, y (Zj , j ∈ Z) es una sucesión de variables aleatorias que cumplen E(|Z j |) < M, ∀j, para
∞
cierta constante M > 0, entonces la serie j=0 θj Zn−j converge absolutamente, con probabil-
idad uno.

(n) m
Demostración. Para cada n = 0, 1, . . . defina la sucesión Xm = j=0 |θj ||Zn−j |. Esta suce-
(n) (n) (n)
sión cumple 0 ≤ X0 ≤ X1 ≤ X2 ≤ . . ., con probabilidad uno. Además, converge con
∞
probabilidad uno a la suma X n = j=0 |θj ||Zn−j |. Se puede aplicar el Teorema de Convergen-
cia Monótona (ver Teo 2.2.1, pag. 35), que permite intercambiar lı́mite con esperanza y obtener
(n)
lı́mm→∞ E(Xm ) = E(Xn ), es decir

n ∞
lı́m E( |θj ||Zn−j |) = E( |θj ||Zn−j |).
n→∞
j=0 j=0

Pero
n 
n 
n ∞

E( |θj ||Zn−j |) = |θj |E(|Zn−j |) ≤ M |θj | ≤ M |θj | < ∞,
j=0 j=0 j=0 j=0
∞ ∞
luego E( j=0 |θj ||Zn−j |) < ∞. Este resultado implica que el evento( j=0 |θj ||Zn−j | = +∞)
debe tener probabilidad cero porque de tener probabilidad positiva el valor esperado serı́a infinito.

Luego P( ∞ j=0 |θj ||Zn−j | < ∞) = 1 y la serie converge absolutamente con probabilidad uno.
∞
De esto se concluye que la serie j=0 θj Zn−j también converge con probabilidad uno.

El resultado anterior se puede aplicar al caso de (Zn ) un proceso estacionario en covarianza



porque al ser E(Zn2 ) = c, ∀n, entonces E(|Zn |) ≤ c y se puede definir el proceso Xn =
∞ ∞
j=0 θj Zn−j , n ∈ Z, para (θj ) sucesión de números reales con j=0 |θj | < ∞. El proceso Xn
resulta también estacionario en covarianza. El caso Zn ∼ RB(0, σ 2 ) queda obviamente incluı́do.
∞
Proposición 3.4.2. Si (θj , j = 0, 1, . . .) es una sucesión de números reales que cumple j=0 |θj | <
∞, y (Zj , j ∈ Z) es un proceso estacionario en covarianza, con funci ón de autocovarianza r Z (h),
56

∞
entonces el proceso Xn = j=0 θj Zn−j es estacionario en covarianza, con funci ón de autoco-
varianza
∞ 
 ∞
rX (h) = θj θk rZ (h − j + k) (3.4)
j=0 k=0

En el caso de ser Zj ∼ RB(0, σ 2 ) en la expresión anterior (3.4) se tiene que, si h ≥ 0,


rZ (h − j + k) = σ 2 si k + h = j, y rZ (h − j + k) = 0 si j = k + h, por lo que se reduce a



rX (h) = σ 2 θj θj+h (3.5)
j=0

El resultado siguiente puede verse como un recı́proco, aunque parcial, del anterior (3.4.2). Si
un proceso es estacionario en covarianza y no contiene componente determinı́stica puede rep-
∞
resentarse de la forma Xn =
∞ ∞ 2 j=0 θj Zn−j , n ∈ Z, solo que no se cumple la condición
j=0 |θj | < ∞, sino j=0 θj < ∞. Se puede demostrar que


 ∞

|θj | < ∞ ⇒ θj2 < ∞.
j=0 j=0

Sin embargo, la recı́proca no es válida.

Teorema 3.4.1. (Teorema de Wold) Sea (Xn , n ∈ Z) un proceso estocástico sin componente
determinı́stica. Entonces es estacionario en covarianza si y solo si existe una sucesi ón de números

∞ ∞
reales (θj , j = 0, 1, . . .), θ0 = 1, tales que θj2 < ∞ y tales que Xn = j=0 θj Zn−j , donde
j=0
Zj ∼ RB(0, σ 2 ) es ruido blanco.

Es decir, todo proceso estacionario en covarianza que no tenga componente determinı́stica se



puede representar como un proceso “lineal” de la forma ∞ j=0 θj Zn−j , pero no necesariamente
∞
es causal. Solo cuando se cumple j=0 |θj | < ∞, es causal.

Pronósticos con Procesos Estacionarios. Se definió el espacio vectorial L2 de todas las v.a.
X con E(X 2 ) < ∞. Suponga que (Xn , n ∈ Z) es un proceso estacionario en covarianza de
media cero y función de autocovarianza R(h). Considere el subespacio lineal de L2 generado por
n
{X1 , . . . , Xn }, Mn = { j=1 αj Xj , αj ∈ R}. La proyección de una v.a. Y en L2 sobre Mn se
n
define como PM (Y ) = j=1 αj Xj , para cierto vector de coeficientes α = (α1 , . . . , αn ) . Y si
Y = Xn+k , k = 1, 2, . . ., entonces la proyección de Xn+k sobre Mn se denomina el pronóstico
en el perı́odo n + k, X n+k = n αj Xj . Denote Rn = [R(i − j)]n , la
n+k . Es decir, X
j=1 i,j=1
matriz de va-rianzas y covarianzas de {X1 , . . . , Xn }, y γn = (R(1), . . . , R(n)) , entonces, en el
caso de que Rn sea no-singular, se cumple (αn , . . . , α1) = R−1
n γn
57

3.4.1. Ergodicidad

La ergodicidad de un proceso estocástico es una propiedad relacionada con las leyes de grandes
números (2.2.2, 2.2.3), solamente que en lugar de sucesiones i.i.d. se considera un proceso
estocástico (Xn , n ∈ Z), es decir, una sucesión de variables con un grado de dependencia dado.
Un proceso en tiempo discreto se dice ergódico si cumple una ley de grandes números. En este
caso “ergódico” podrı́a asimilarse a “asintóticamente i.i.d.”. O, equivalentemente, un proceso
“no-ergódico” corresponderı́a a un proceso con una fuerte dependencia, tanta como para que no
sea válida una ley de grandes números.

Definición 3.4.3. Un proceso estocástico estacionario estricto (X n , n ∈ Z) se dice ergódico


si para toda funci ón h : Rk → R continua acotada, para k ≥ 1, se cumple que la sucesi ón
n
n−1 j=1 h(Xj , . . . , Xj+k−1 ) converge con probabilidad uno a E(h(X 1 , . . . , Xk )).

Proposición 3.4.3. 1. Toda sucesión de variables aleatorias iid es erg ódica.

2. Si g : R∞ → R es una función continua, y Zt es un proceso ergódico entonces Xt =


g(Zt , Zt−1 , . . .) es ergódico.

3.5. Ejemplos de Procesos Estacionarios en Covarianza

En esta sección se muestran ejemplos de procesos estacionarios en covarianza. El énfasis en


los ejemplos es calcular la función de autocovarianza. En el capı́tulo siguiente se introducen
los modelos ARMA que comprenden una clase muy amplia y muy utilizada en la definición
de modelos estacionarios en muchas áreas. Igualmente se introducen modelos no lineales tipo
GARCH, los cuales amplı́an los modelos de ruido blanco y permiten, en vista del teorema de
Wold, ampliar mucho la clase de procesos estacionarios.
X
n−1
Ejemplo 3.5.1. Si Xn = Zj ( n − 1 ) , n ≥ 1 , k > 0 entonces
n=1

E( Xn Xn+k ) = E( Xn E( Xn+k | Xn ))
= E( Xn2 µk )
= µk E( Xn2 )

luego
Cov( Xn , Xn+k ) = µk E( Xn2 ) − E( Xn ) E( Xn+k )

pero E( Xn+k ) = µk E( Xn ) luego

Cov( Xn , Xn+k ) = µk V ar( Xn )


58

 µn − 1 
pero V ar( Xn ) = σ 2 µn−1 si µ = 1, y V ar( Xn ) = nσ 2 si µ = 1, por lo que el
µ−1
proceso de Galton - Watson no es estacionario en covarianza.

Ejemplo 3.5.2. Una Martingala no es necesariamente un proceso estacionario en covarianza


pues aunque tiene media constante (cf. Proposicion 1.6.2), para la covarianza se tiene que si
k≥1
E( Xn Xn+k ) = E( Xn E( Xn+k | Xn ) ),
 
pero E( Xn+k | Xn ) = E E( Xn+k | X1 , · · · , Xn ) | Xn = E( Xn | Xn ) = Xn , luego

E( Xn Xn+k ) = E( Xn2 ) y Cov( Xn , Xn+k ) = V ar( Xn )

pero no necesariamente V ar( Xn ) ≡ cte.

Ejemplo 3.5.3. La marcha aleatoria sin restricciones. Es un proceso Z n , n = 0, 1, 2, · · · definido


por Zn = X1 +X2 +· · ·+Xn , n ≥ 1, y Z0 = 0, donde las variables aleatorias X 1 , X2 , · · · , son
i.i.d. distribuı́das con valores { −1, 1 } tales que P(Xj = 1) = p, P(Xj = −1) = 1 − p = q. Se
puede ver que Zn = Zn−1 +Xn , n = 1, 2, · · · . Es Zn estacionario en covarianza?. Examinando
la media tenemos:
E( Zn ) = n E( X1 ) = n( p − q ) = n( 2p − 1 )

por tanto, para que se cumpla E( Z n ) ≡ µ se debe tener p = q = 12 . En este caso E( Zn ) ≡ 0.

Para la covarianza, en el caso p = 12 tenemos que Cov(Zn , Zn+m ) = E(Zn Zn+m ). Suponga
m > 0. Luego Zn+m = Zn +Xn+1 +. . .+Xn+m y Zn Zn+m = Zn ( Zn +Xn+1 +. . .+Xn+m ) =
Zn2 + Zn Xn+1 + · · · + Zn Xn+m . Entonces E( Zn Zn+m ) = E( Zn2 ) + E( Zn Xn+1 ) + · · · +
E( Zn Xn+m ). Pero, debido a la independencia de las variables X n , puede colocarse

E( Zn Xn+1 ) = E( Zn ) E( Xn+2 ) = . . . = E(Zn Xn+m ) = 0,

de donde Cov(Zn , Zn+m ) = E(Zn2 ) = V ar(Zn ) = nV ar(X1 ), con lo cual Zn no es Suponga


m > 0 y n−m > 0 entonces Cov( Zn−m , Zn ) = E( Zn−m Zn ) pero Zn = Zn−m +Xn−m+1 +
· · · + Xn luego Zn no es estacionario en covarianza.

2
  2
E( Zn−m Zn ) = E( Zn−m ) + E Zn−m ( Xn−m+1 + · · · + Xn ) = E( Zn−m )

En los casos anteriores se concluye que Cov( Zn , Zn+m ) no depende de m, no es estacionario.

En este caso R( x ) no está definida por no ser estacionario.

Ejercicio 3.5.1. Si Xt = Z1 cos ( λt ) + Z2 sen( λt ) , Z1 , Z2 ∼ N ( 0 , σ 2 ) independientes


estacionario en Cov con R( h ) = σ 2 cos ( λh ) además
√ 1
 Xt+h − Xt  = σ 2( 1 − cos ( λh ) ) 2
59

Ejemplo 3.5.4 (Proceso Incremento Poisson). Defina el proceso Xt = Nt+h − Nt , h > 0 fijo,
t ≥ 0 y s > 0 entonces E(Xt ) ≡ λh y
 
E( Xt Xt+s ) = E ( Nt+h − Nt ) ( Nt+s+h − Nt+s )
= E( Nt+h Nt+s+h − Nt+h Nt+s − Nt+s+h Nt + Nt Nt+s )
= λ2 ( t + h ) (t + h + s ) + λ( t + h ) − λ2 ( t + h ) ( t + s )
− λ( t + s ∧ h ) − λ2 ( t + h + s ) t − λ t + λ2 t (t + s ) + λ t
= λ2 h2 + λ( h − s ∧ h )
= λ2 h2 + λ( h − s )+ ,

utilizando las propiedades del proceso Poisson junto con min(s, h) = s ∧ h, la funci ón “parte
positiva” x + = x si x > 0, y x+ = 0 si x ≤ 0, y la identidad (que se comprueba de manera
inmediata): ∀h, s ∈ R, h = s ∧ h + ( h − s ) + . Luego Cov(Xt , Xt+s ) = λ(h − s)+ . Se puede
comprobar, con un procedimiento similar que, para s < 0, Cov(X t , Xt+s ) = λ(h + s)+ . Luego
Cov(Xt , Xt+s ) = R(s) = λ(h − |s|)+ .

Es fácil comprobar que la gr áfica de R(s) es un triángulo de base [−h, h] y altura en s = 0 de


longitud λh, es decir, es una funci ón par. Por tanto, Xt es estacionario en covarianza.

3.6. Aplicaciones

En esta sección se muestran algunas aplicaciones de los procesos considerados en este capı́tulo.

3.7. Problemas
1. Si (Xt , t ∈ R) es un proceso estacionario de 2do orden, y se define el proceso Yt =
Xt − Xt−1 , compruebe que Yt también es estacionario de 2do orden.

2. Si (Xt , t ∈ R) es un proceso estacionario de 2do orden, y se define el proceso Yt =


a + bt + Xt , para a, b constantes, compruebe que Yt − Yt−1 es estacionario de 2do orden.

3. Si (Xt , t ∈ R) es un proceso estacionario con función de autocovarianza R(t). Utilice la


desigualdad de Chebyshev para comprobar que si M > 0 es una constante entonces:
2(R(0) − R(h))
P(|Xt+h − Xt | ≥ M ) ≤
M2

4. Sean Z1 , Z2 variables aleatorias independientes distribuı́das N (0, σ 2 ), y λ ∈ R una con-


stante real. Defina el proceso Xt = Z1 cos(λt) + Z2 sen(λt), t ∈ R. Compruebe que es un
proceso estacionario en covarianza y encuentre la media y la función R(h).
60

5. Sea Zn , n ∈ Z un proceso ruido blanco, y Z una variable aleatoria independiente de las


Zn . Defina el proceso Yn = Z + Zn , n ∈ Z. Compruebe que es un proceso estacionario en
covarianza, encuentre la media y la función de autocovarianza.

6. Justifique si cada una de las siguientes funciones ρn , n ∈ Z puede ser la función de


autocorrelación de un proceso estacionario en covarianza Xn , n ∈ Z.
2
1) ρn = e−n ,



1, si n = 0
2) ρn = 0.7, si n = −1, 1


0, en otro caso,

10 − |n|, si n = 0, ±1, . . . , ±10
3) ρn =
0, en otro caso.

7. El proceso “señal telegráfica” se define como Xt = (−1)Nt , t ≥ 0, donde Nt es un Proceso


Poisson homogéneo con E(Nt ) = λt. Es evidente que Xt solamente toma dos valores -1,
1 y X0 = 1. Compruebe las siguientes propiedades del proceso.

a) P(Xt = 1) = e−λt cosh(λt), P( Xt = −1 ) = e−λt senh( λt ).


b) E(Xt ) = e−2λt .
c) Compruebe las siguientes identidades:

P( Xt1 = 1 , Xt2 = 1 ) = P( Xt2 = 1 | Xt1 = 1 )P( Xt1 = 1 )


= e−λτ cosh( λτ ) e−λt1 cosh ( λt1 ),
P( Xt1 = −1 , Xt2 = −1 ) = e−λτ cosh( λτ ) e−λt1 senh( λt1 ),
P( Xt1 = −1 , Xt2 = 1 ) = e−λτ senh( λτ ) e−λt1 senh( λt1 ),
P( Xt1 = 1 , Xt2 = −1 ) = e−λτ senh( λτ ) e−λt1 cosh ( λt1 ), t2 > t1 > 0.

d) E( Xt1 Xt2 ) = e−2λ| t2−t1 | t1 , t2 ≥ 0.


−2λ| h |
e) Cov( Xt , Xt+h ) = e − e−2λ(2t+h) . Esta expresión depende de t y h por lo
que Xt no es estacionario en covarianza. Nótese que E(Xt ) y V ar(Xt ) = 1 − e−4λt
no son constantes.
f ) Si t → ∞ compruebe los siguientes lı́mites:

Cov(Xt , Xt+h ) → e−2λ| h | ,


E(Xt ) → 0,
V ar(Xt ) → 1.

Luego si t es grande, se puede afirmar que Xt es aproximadamente estacionario en


covarianza.
61

3.8. Soluciones

1. Ejercicio.

2. Ejercicio.

3. Ejercicio.

4. Ejercicio.

5. Ejercicio.

6. Las dos primeras cumplen con la condición de ser funciones pares y satisfacen ρ(0) = 1. La
tercera aunque es par no cumple esta última condición por lo que no puede ser una función
de autocorrelación.

7. El proceso “señal telegráfica"Xt = (−1)Nt , t ≥ 0, satisface: X0 = 1 y toma solamente


dos valores: -1,1.

a)

P(Xt = 1) = P(Nt par ) = P((Nt = 0) ∪ (Nt = 2) ∪ · · · )



 ∞
 e−λt ( λt )2k
= P( Nt = 2k ) =
( 2k )!
k=0 k=0
−λt
=e cosh ( λt )

ya que
∞   ∞
eλt + e−λt 1  ( λt )k ( −λt )k ( λt )2k
cosh(λt ) = = + =
2 2 k! k! ( 2k!
k=0 k=0

además

P(Xt = −1) = 1 − P( Xt = 1 ) = 1 − e−λt cosh ( λt )


 
= e−λt eλt − cosh ( λt )
e−λt  λt 
= 2e − eλt − e−λt
2
 λt − e−λt 
−λt e
=e
2
−λt
=e senh( λt )
 
b) E( Xt ) = 1 · P( Xt = 1 ) − 1 · P( Xt = −1 ) = e−λt cosh ( λt ) − senh( λt )
 
= e−λt e−λt = e−2λt
62

c) Sabemos que P( Xt1 = 1 ) = e−λt1 cosh( λt1 ) y

P( Xt2 = 1 | Xt1 = 1 ) = P( Nt2 −t1 par )


= e−λτ cosh ( λτ ), τ = t2 − t1 > 0,

luego

P( Xt1 = 1 , Xt2 = 1 ) = P( Xt2 = 1 | Xt1 = 1 )P( Xt1 = 1 )


= e−λτ cosh ( λτ ) e−λt1 cosh ( λt1 ).

Similarmente

P( Xt1 = −1 , Xt2 = −1 ) = e−λτ cosh( λτ ) e−λt1 senh( λt1 ),


P( Xt1 = −1 , Xt2 = 1 ) = e−λτ senh( λτ ) e−λt1 senh( λt1 ),
P( Xt1 = 1 , Xt2 = −1 ) = e−λτ senh( λτ ) e−λt1 cosh ( λt1 ).

d)

E( Xt1 Xt2 ) = 1 · P( Xt1 = 1 , Xt2 = 1 ) + 1 · P( Xt1 = −1 , Xt2 = −1 )


− 1 · P( Xt1 = 1 , Xt2 = −1 ) − 1 · P( Xt1 = −1 , Xt2 = 1 )
= e−λτ cosh ( λτ )e−λt1 eλt1 − e−λτ senh( λτ )e−λt1 eλt1
 
= e−λτ cosh ( λτ ) − senh( λτ )
= e−2λτ = e−2λ(t2 −t1) si t 2 > t1 ,

por tanto
E( Xt1 Xt2 ) = e−2λ| t2 −t1 | t1 , t2 ≥ 0.

e)

E( Xt Xt+h ) = e−2λ| h | ,
E(Xt )E(Xt+h ) = e−2λt−2λ(t+h) = e−2λ(2t+h),

luego
Cov( Xt , Xt+h ) = e−2λ| h | − e−2λ(2t+h)

f ) Es inmediato.
CAPÍTULO 4

Procesos Estocásticos Lineales

Los procesos Autorregresivos de Media Móvil ó ARMA son modelos básicos mediante los cuales
se pueden definir otros modelos más complejos, como los modelos ARIMA y los modelos de
Transferencia, capaces de describir adecuadamente muchas clases de fenómenos en varias áreas.
Se denominan también “modelos de caja negra”, debido a que sirven para modelar señales para
las cuales no se especifica un modelo determinado. La teorı́a y aplicaciones sobre estos modelos
se puede ampliar en Brockwell and Davis (1987). Un concepto útil para definir estos modelos es
el de operador rezago.
Definición 4.0.1. (Operador Rezago) Si Xn es un proceso, el operador rezago L (L : Lag,
rezago en inglés), se define como L( Xn ) = Xn−1 , y el operador Lk se define como Lk (Xn ) =
L(Lk−1 (Xn )) = Xn−k , k = 1, 2, · · · , con L0 = I el operador identidad. Entonces se puede
utilizar este operador para definir varios procesos. N ótese que en Matlab el operador rezago L
se denota por q −1 , y que en varios textos se usa la letra B en lugar de L.

4.1. Procesos ARMA

Definición 4.1.1. (Procesos ARMA(p,q)) Si p, q son enteros no negativos, se define un proceso


ARMA(p,q) como un proceso Xn , n ∈ Z, de media cero, que satisface la relación recursiva:
Xn = ϕ1 Xn−1 + . . . + ϕp Xn−p + Zn + θ1 Zn−1 + θ2 Zn−2 + · · · + θq Zn−q , (4.1)

63
64

donde Zn ∼ RB(0, σ 2 ).

Utilizando la notación con rezagos, se definen los operadores

ϕ(L) = I − ϕ1 L − . . . − ϕp Lp
θ(L) = I + θ1 L + . . . + θq Lq

se escribe el modelo de la forma más compacta ϕ(L)Xn = θ(L)Zn .

Si q = 0, p ≥ 1 un proceso ARMA(p,0) se denomina proceso autorregresivo de orden p, y se


denota por AR(p). En este caso el proceso satisface la relación

Xn = ϕ1 Xn−1 + . . . + ϕp Xn−p + Zn . (4.2)

Si p = 0 q ≥ 1 un proceso ARMA(p,0) se denomina proceso de Media Móvil de orden q, y se


denota por MA(q). En este caso el proceso satisface la relación

Xn = Zn + θ1 Zn−1 + θ2 Zn−2 + · · · + θq Zn−q . (4.3)

Un proceso ARMA(p,q) puede verse como un proceso autorregresivo AR(p) con un ruido del
tipo media móvil, MA(q) , de manera que un ARMA(p,q) se diferencia de un AR(p) en que su
término de error es un ruido débilmente autocorrelacionado, en el sentido de que la función de
autocorrelación del MA(q) es cero a partir del rezago q+1, como se comprueba a continuación.

Para establecer las condiciones para que un proceso ARMA(p,q), Xn sea estacionario en covari-
anza se consideran los polinomios ϕ(z) = 1 − ϕz − . . . − ϕp z p , θ(z) = 1 + θ1 z + . . . + θq z q ,
para z ∈ C. ϕ(z) es el polinomio autorregresivo.

Teorema 4.1.1. (ver Fan and Yao (2003), pag. 31, Theorem 2.1) Suponga que X n es un proceso
ARMA(p,q) para el cual los polinomios ϕ(z) y θ(z) no tienen raı́ces comunes. Entonces Xn es
estacionario en covarianza si

ϕ(z) = 0, ∀z ∈ C, |z| ≤ 1. (4.4)

Demostración. Sean z1 , . . . , zp las raı́ces de ϕ(z) = 0. Entonces |zj | > 1 y se puede escribir
$n ∞
ϕ(z) = j=1 (1 − z/zj ). Pero (1 − z/zj )−1 = k=0 (z/zj )k , |z| < 1, por desarrollo en serie
$ ∞ 
de Taylor de (1 − z)−1 . Luego ϕ(z)−1 = pj=1 k=0 (z/z
k
j ) . Un producto de p series es
 ∞
nuevamente una serie, por lo que se puede escribir ϕ(z)−1 = j=0 cj z j , |z| < 1. Pero


 ∞

 %
p
 %
p
|cj | ≤ 1/|zj | k
= (1 − 1/|zj |)−1 < ∞
j=0 j=1 k=0 j=1
65

De la identidadϕ(z)−1 ϕ(z) ≡ 1 se sigue Xn = ϕ(L)−1 ϕ(L)Xn = ϕ(L)−1 θ(L)Zn . Pero


∞
ϕ(z)−1 θ(z) = j=0 cj z
j
(1 + θ1 z + . . . + θq z q ) es de nuevo una serie de potencias, por
∞ ∞
ejemplo, j=0 dj z j , y puede justificarse que j=0 |dj | < ∞. Entonces, se puede representar
∞
Xn como un proceso causal, de la forma Xn = j=0 dj Zn−j . Por el Teorema 3.4.2, (pag. 55),
se concluye que Xn es estacionario en covarianza.

La condición (4.4) se expresa como: “ las raı́ces del polinomio autorregresivos están por fuera del
cı́rculo unitario”. Puede demostrarse que en todo proceso ARMA(p,q), X n , la condición (4.4) es
equivalente ser Xn causal (ver Brockwell and Davis (1987, pag. 85)). Pero ser Xn estacionario
en covarianza, de media cero, implica, por el teorema de Wold (ver Teo. (3.4.1), 56), que es de la
∞ ∞
forma Xn = j=0 θj Zn−j , con j=0 θj2 < ∞. Pero no es necesariamente causal y por tanto,
ser estacionario en covarianza no implica la condición (4.4).

Nota 4.1.1. Se definió un proceso Xn ∼ ARM A(p, q) para n ∈ Z. En caso de ser estacionario,
al definirlo para n = 0, 1, . . . puede dejar de serlo si se define X 0 de manera arbitraria. En el
2
caso de asumir Zn un ruido blanco gaussiano y ser X n estacionario, colocando X 0 ∼ N (0, σX ),
2
con σX = V ar(Xn ), se garantiza que Xn es estacionario para n = 0, 1, . . ..

En esta sección se analizan los casos de procesos ARMA siguientes: MA(q), AR(1) y ARMA(1,1).
El énfasis es en calcular la función de autocovarianza. Hay al menos tres métodos diferentes para
calcular autocovarianzas en este tipo de procesos (ver Brockwell and Davis (1987, pag. 91)).

1) Método directo. Calcular directamente Cov(Xn , Xn+m ).

2) Método con base en la representación causal. Si un proceso ARMA(p,q), satisface la


∞
condición (4.4) entonces se puede expresar como Xn = ψ(L)Zn = j=0 ψj Zn−j , donde
∞
j=0 ψj z , |z| < 1. Además, la función de autocovarianza de Xn
j
ψ(z) = θ(z)/ϕ(z) =
está dada por (3.5), pag. (56),


2
RX (h) = σ ψj ψj+h , h = 0, 1, . . . (4.5)
j=0

Para determinar los ψj se coloca θ(z) = ϕ(z)ψ(z) en la forma

1 + θ1 z + θ2 z 2 + . . . + θq z q = (1 − ϕ1 z − . . . − ϕp z p )(ψ0 + ψ1 z + ψ2 z 2 + . . .)

y se igualan los coeficientes de potencias iguales de z en ambos miembros de la ecuación anterior.


Por ejemplo,

ψ0 = 1,
ψ1 = θ1 + ϕ1 ,
ψ2 = θ2 + ϕ2 + ϕ1 θ1 + ϕ21 , (4.6)
66

...

Una vez que se determinan los ψj , j = 0, 1, . . . se reemplazan en (4.5).

3) Método con base en una fórmula recursiva. A partir de la representación ϕ(L)Xn = θ(L)Zn
se multiplica a ambos lados de esta ecuación por Xn−k , para k ≥ 0, y se toma valor esperado.
Entonces se obtiene

E(Xn Xn−k ) − ϕ1 E(Xn−1 Xn−k ) − . . . − ϕp E(Xn−p Xn−k ) =


E(Zn Xn−k ) + θ1 E(Zn−1 Xn−k ) + . . . + θq E(Zn−q Xn−k ). (4.7)

Luego

E(Xn Xn−k ) − ϕ1 E(Xn−1 Xn−k ) − . . . − ϕp E(Xn−p Xn−k ) =


RX (k) − ϕ1 RX (k − 1) − . . . − ϕp RX (k − p). (4.8)

Además, no es difı́cil comprobar el siguiente resultado, para i = 0, 1, . . . , q



σ 2 ψi−k , si k = 0, 1, . . . , q,
E(Zn−i Xn−k ) = (4.9)
0, si k = q + 1, . . .

Por lo que reemplazando (4.8) y (4.9) en (4.7) se obtiene


 q
p
σ 2 i=k θi ψi−k , si k = 0, 1, . . . , q,
RX (k) − ϕj RX (k − j) = (4.10)
j=1 0, si k = q + 1, . . .

En (4.10) aparecen algunos valores ψj que es necesario calcular con el Método 2). El resultado
en (4.10) muestra que RX (k) se puede calcular recursivamente a partir de q + 1 valores iniciales.

Procesos MA(q)
q
Proposición 4.1.1. Un proceso MA(q) dado por X n = j=0 θj Zn−j , θ0 = 1, n ∈ Z, con
Zj ∼ RB(0, σ 2 ), es estacionario en covarianza para todo vector de par ámetros (θ1 , . . . , θq ) ∈
Rq . Además, se cumple que

1. E(Xn ) = 0, n ∈ Z.

2. V ar(Xn ) = σ 2 (1 + θ12 + · · · + θq2 ), n ∈ Z,

3. 

σ 2 m |
q−|
θj θj+| m | para |m| ≤ q
RX (m) = j=0 (4.11)


0 para |m| > q
67

∞
Demostración. Se puede representar Xn como un proceso causal, de la forma Xn = j=0 dj Zn−j ,
con dj = θj , 0 ≤ j ≤ q, dj = 0, j ≥ q + 1. Por el Teorema 3.4.2, (pag. 55), se concluye que
Xn es estacionario en covarianza.
 E(Xn ) = 0, ∀ n ∈ Z, es inmediato pues E(Zj ) = 0, ∀ j.
q q
= j=0 θj2 V ar( Zn−j ) = σ 2 j=0 θj2 , por la in-
q
Ahora, V ar(Xn ) = V ar j=0 θj Zn−j
correlación de las Zj . Para la función de autocovarianza RX (m), con m ≥ 0, tenemos

RX (m) = Cov(Xn , Xn+m ) = E(Xn Xn+m )


 
q q 
= E θi Zn−i θj Zn+m−j
i=0 j=0

q 
q
= θj θi E( Zn−i Zn+m−j ) (4.12)
i=0 j=0

Si n−i = n+m−j entonces E( Zn−i Zn+m−j ) = σ 2 , cero en otro caso. Pero n−i = n+m−j
equivale a i = j − m, y la doble sumatoria (4.12) se convierte en sumatoria simple. Como i > 0
entonces j ≥ m y como j ≤ q los lı́mites de la sumatoria son m ≤ j ≤ q, luego


q 
q 
q 
q−m
E( Xn Xn+m ) = θi θj E( Zn−i Zn+m−j ) = σ 2 θj θj−m = σ 2 θj θj+m
i=0 j=0 j=m j=0

para 0 ≤ m ≤ q. Luego el proceso es estacionario en covarianza con




σ 2 
q−|m|
θj θj+|m| para |m| ≤ q
RX (m) = j=0 .


0 para |m| > q

Ejemplo 4.1.1. Considere el proceso Xn , n ∈ Z un proceso media móvil de orden 2 donde


Zn ∼ ( 0 , 9 ) dado por Xn = Zn − 0.4Zn−1 + 0.4Zn−2 con n ∈ Z entonces θ1 = −0.4 y
θ2 = 0.4 por tanto

2−| m |

RX ( m ) = 9 θj θj+| m | para |m| ≤ 2
j=0
2

RX ( 0 ) = 9 θj2 = 9( 1 + 2(0.42) ) = V ar( Xn ) = 11.88
j=0
2−1
 1

RX ( 1 ) = 9 θj θj+1 = 9 θj θj+1 = 9( θ0 θ1 + θ1 θ2 ) = 9( −0.4 − 0.42 ) = −5.04
j=0 j=0

RX ( 2 ) = 9(θ0 θ2 ) = 9(0.4) = 3.6


68

Luego la funci ón de autocorrelaci ón FAC es




 1 para m=0



 5.04
R( m ) − 11.88 = −0.42 para m = ±1
ρX (m) = = 3.6
R( 0 ) 
 m = ±2

 = 0.30 para

 11.88
 0 en otro caso

Proceso AR(1)

Proposición 4.1.2. Para un proceso AR(1) estacionario en covarianza Xn = ϕ1 Xn−1 +Zn , n ∈


Z y −1 < ϕ1 < 1, con Zn ∼ RB(0, σ 2 ), las funciones de autocovarianza y autocorrelaci ón son:

|m|
σ 2 ϕ1
RX (m) = , (4.13)
1 − ϕ21
|m|
ρX (m) = ϕ1 , m ∈ Z. (4.14)
∞ j
Además, es válida la representaci ón causal Xn = j=0 ϕ1 Zn−j , (con probabilidad uno y en
m.c.).

Demostración. Iterando k + 1 veces en la ecuación Xn = ϕ1 Xn−1 + Zn obtenemos

Xn = Zn + ϕ1 ( ϕ1 Xn−2 + Zn−1 )
= Zn + ϕ1 Zn−2 + ϕ21 Xn−2
= Zn + ϕ1 Zn−1 + ϕ21 Zn−2 + ϕ31 Xn−3
..
.

k
= ϕj1 Zn−j + ϕk+1
1 Xn−k−1 .
j=0

k
Veamos que la sucesión Sk = j=0 ϕj1 Zn−j , k = 0, 1, 2, · · · , converge en media cuadrática.
Utilizamos el criterio 6, para convergencia en m.c. (ver pag. 41): Si existe una constante c tal que
E(Sn Sm ) → c, m, n → ∞, entonces converge. Pero

n 
m 
E(Sn Sm ) = E ϕj+s
1 Zn−j Zn−s
j=0 s=0

n m
 
= ϕj+s
1 E Zn−j Zn−s .
j=0 s=0
69

Si n − j = n − s es decir si j = s se tiene E( Zn−j Zn−s ) = σ 2 , en el caso j = s se tiene


E( Zn−j Zn−s ) = 0, luego


n∧m ∞

E(Sn Sm ) = σ 2 ϕ2j
1 →c = σ ϕ2j
1 < ∞, m, n → ∞.
j=0 j=0

Como Xn es estacionario en covarianza se tiene E( Xn2 ) =  Xn 2 = (cte) luego


k
2(k+1)
 Xn − ϕj1 Zn−j 2 = ϕ1  Xn−k−1 2 → 0 si k → ∞,
j=0

y por tanto

k
2
ϕj1 Zn−j −→ Xn si k → ∞,
j=0
o sea


ϕj1 Zn−j = Xn en media cuadrática
j=0



Si ϕj1 Zn−j = Xn en media cuadrática entonces
j=0



E( Xn ) = ϕj1 E( Zn−j ) = 0
j=0

∞ ∞
 
Cov( Xn , Xn+m ) = E( Xn Xn+m ) = E ϕj1 Zn−j ϕs1 Zn+m−s
j=0 s=0
∞ 
 ∞
= ϕj+s
1 E( Zn−j Zn+m−s )
j=0 s=0
∞
2
=σ ϕ2s−m
1 si n − j = n + m − s, es decir j = s − m ≥ 0
s=m
∞ ∞

2(s+m)−m
= σ2 ϕ1 = σ2 ϕ2s+m
1
s=0 s=0
σ 2 ϕm
1
= para m ≥ 0.
1 − ϕ21

|m|
σ 2 ϕ1 |m|
De donde RX (m) = 1−ϕ21
y ρX (m) = ϕ1 , m ∈ Z.

Si utilizamos el operador rezago obtenemos (I − ϕ 1 L)(Xn ) = Zn , de donde


1
Xn = (Zn ).
1 − ϕ1 L
70

Pero
 j ∞
1
= ϕ1 si − 1 < ϕ1 < 1,
1 − ϕ1 j=0

luego
 ∞  j ∞
1
= ( ϕ1 L )j = ϕ1 Lj ,
1 − ϕ1 L
j=0 j=0

de donde


Xn = ϕj1 Zn−j .
j=0

Proceso ARMA(1,1) Un proceso autorregresivo de orden 1, de media móvil de orden 1,


(Xn , n ∈ Z), con media cero, está definido mediante la relación: Xn = ϕ1 Xn−1 +Zn +θ1 Zn−1 ,
donde −1 < ϕ1 < 1 es el parámetro autorregresivo, −1 < θ1 < 1 es el parámetro de media
móvil y Zn ∼ RB(0, σ 2 ).

Proposición 4.1.3. En un proceso ARMA(1,1) la funci ón de autocovarianza R X (m), m = 0, 1, . . .


está dada por

(1 + θ12 + 2θ1 ϕ1 )
RX (0) = σ2 , (4.15)
1 − ϕ21
(ϕ1 + θ1 )(1 + ϕ1 θ1 )
RX (m) = σ 2 ϕm−1
1 , m ≥ 1. (4.16)
1 − ϕ21

Demostración. Aplicamos el Método 2. Primero se calculan los coeficientes ψj , j = 0, 1, . . .


con (4.6). El proceso ARMA(1,1) se escribe con el operador rezago como (I − ϕ1 L )Xn =
(I + θ1 L )Zn . Consideramos el desarrollo en serie de Taylor alrededor de z = 0, para |z| < 1:

1 + θ1 z
= ψ0 + ψ1 z + ψ2 z 2 + · · · .
1 − ϕ1 z

Entonces 1 +θ1 z = (ψ0 +ψ1 z +ψ2 z 2 +· · · )(1 −ϕ1 z). Luego, igualando coeficientes obtenemos:

ψ0 = 1
ψ1 = ϕ1 + θ1
ψ2 = ψ1 ϕ1 = ϕ1 ( ϕ1 + θ1 )
ψ3 = ψ2 ϕ1 = ϕ21 ( ϕ1 + θ1 )
..
.
71

por lo que ψ j = ϕj−1


1 (ϕ1 + θ1 ), j ≥ 1. Una vez obtenida la sucesión ψj se reemplaza en la
expresión general para la función de autocovarianza del proceso, (4.5). Obtenemos, para m > 1
ym=0

 ∞

RX (m) = σ2 ψj ψj+m = σ 2 ψ0 ψm + σ 2 ψj ψj+m
j=0 j=1

 2(j−1)+m
= σ 2 ϕm−1
1 (ϕ1 + θ1 ) + σ 2
ϕ1 (ϕ1 − θ1 )2
j=1
 


= σ 2 ϕm−1
1 (ϕ1 + θ1 ) 1 + ϕ1 (ϕ1 + θ1 ) ϕ2j
1

j=0
 
ϕ1 (ϕ1 + θ1 )
= σ 2 ϕm−1
1 (ϕ1 + θ1 ) 1 +
1 − ϕ21
(ϕ1 + θ1 )(1 + ϕ1 θ1 )
= σ 2 ϕm−1
1 ,
1 − ϕ21
∞ ∞  
(ϕ1 + θ1 )2
RX (0) = σ2 ψj2 = σ 2 (1 + (ϕ1 + θ1 )2 ϕ2j
1 ) = σ 2
1 +
j=0 j=0
1 − ϕ21
(1 + θ12 + 2θ1 ϕ1 )
= σ2 .
1 − ϕ21

4.2. Análisis Estadı́stico de Procesos ARMA

En esta sección se define un estimador de la función de autocorrelación de un proceso estacionario


en covarianza con base en una muestra del mismo. También se define la función de autocorrelación
parcial y un estimador de la misma, y un estimador de la fluctuación cuadrática media, conocido
como variograma.

Definición 4.2.1 (Función de Autocorrelación Muestral). Suponga un proceso (Xn , n ∈ Z)


estacionario en covarianza y funci ón de autocovarianza R(k), k = 0, 1, . . . y una muestra de
tamaño N de Xn , X1 , X2 , · · · , XN . Se define un estimador de R(k), como el estadı́stico:

1 
N−k

R(k) = ( Xj − X )( Xj+k − X ) k = 0, 1, · · ·
N
j=1

y un estimador de la funci ón de autocorrelaci ón como el estadı́stico


N−k
j=1 ( Xj − X )( Xj+k − X )
ρ(k) = N−k k = 0, 1, · · ·
2
j=1 ( Xj − X )
72

Note que
1 
N

R(0) = ( Xj − X )2 = σ
2
N j=1

La gráfica de (k, ρ(k)), k = 1, 2, . . . , m se denomina “correlograma". El valor m es el número


de rezagos que se utilizan en la gr áfica. No hay una regla precisa para escoger m. Una guı́a puede
ser m igual a la parte entera de N/4.

Nota 4.2.1. Con respecto al Ejemplo (3.2.3), si f(t) es una funci ón de t no aleatoria, y R(h)
es la función de autocovarianza del proceso estacionario en covarianza X t , entonces el proceso
Yt = f(t) + Xt también tiene autocovarianza R(s). Sin embargo, Y t no es estacionario en
covarianza. Y, aunque se cumpla ρX (k) = ρY (k), la fac muestral no cumple

ρ* *
X( k ) = ρY (k)

y
T T
t=k+1 ( Yt − Y )( Yt−k − Y ) t=k+1 ( Xt − X )( Xt−k −X)
T = T
t=1 ( Yt −Y )2 t=1 ( Xt − X )
2

1  1 
T T
Y = Yt = f( t ) + Xt
T t=1 T t=1

1 
T
= f( t ) + X = f + X
T t=1

porque el proceso no cumple que E( Yt ) = cte.

Definición 4.2.2 (Variograma). Un estimador de la fluctuaci ón media cuadrática es el variogra-


ma, definido como el estadı́stico:

R(0) 
− R(k) 1 − ρ(k)
V (k) = = , k = 0, 1, · · · , m.
 
R(0) − R(1) 1 − ρ(1)

Según Box and Luceño (2002), pag. 114-115, el variograma permite identificar cuándo un pro-
ceso Xn es estacionario en covarianza. El variograma tiene la ventaja de que puede representar
también el comportamiento de muchas series de tiempo no estacionarias. Si R(k) converge a cero
rápidamente cuando k → ∞ entonces V (k) es un estimador de
R( 0 ) − R( k ) R( 0 )
Vk = −→ , k → ∞,
R( 0 ) − R( 1 ) R( 0 ) − R( 1 )

por eso, la gráfica de V (k) en el caso estacionario debe mostrar que se acerca a un valor constante.
En caso de mostrar una gráfica que tiene pendiente positiva constante serı́a un indicador de no
estacionariedad. En la teorı́a de series de tiempo existen varias pruebas de hipótesis, denominadas
pruebas de raiz unitaria, que tienen como hipótesis nula la no estacionariedad del proceso.
73

Definición 4.2.3. Dado un proceso Xn , n ∈ Z, estacionario en covarianza, la funci ón de


autocorrelación parcial α(k) , k = 1, 2, · · · se define como

1. α(1) = Corr( X1 , X2 )

2. α( k ) = Corr( ξk , ξ1 ) k ≥ 2, donde ξk = Xk+1 − E( Xk+1 | X2 , · · · , Xk ) y ξ1 =


X1 − E( X1 | X2 , · · · , Xk )

Definición 4.2.4. (Matriz de Toeplitz) Dado un vector A = (a 0 , a1 , . . . , ak−1), la matriz de


Toeplitz asociada a A se define como

 
a0 a1 a2 α3 ··· αk−1
 ··· 
 α1 a0 a1 a2 αk−2 
 
 a2 α1 α0 a1 ··· αk−3  (4.17)
 
 .. .. .. .. .. .. 
 . . . . . . 
ak−1 ak−2 ak−3 ak−4 ··· a0
Nótese que es una matriz simétrica.

Considere un proceso estacionario en covarianza Xn , con función de autocovarianza R(h),


y el vector X n = (X1 , . . . , Xn ) . La matriz de varianzas-covarianzas de Xn es una matriz
simétrica nxn con n elementos distintos dados por la matriz de Toeplitz asociada al vector
(R(0), R(1), . . . , R(n − 1)). La matriz de correlaciones es igual a esta matriz dividida por R(0).
Con esta matriz se puede definir la función de autocorrelación parcial mediante el siguiente
resultado.

Teorema 4.2.1. Para un proceso Xn estacionario en covarianza la funci ón de autocorrelaci ón
parcial α(k) = φ kk satisface el siguiente sistema lineal:
    
ρ0 ρ1 ρ2 ρ3 ··· ρk−1 φk1 ρ1
 ···     
 ρ1 ρ0 ρ1 ρ2 ρk−2   φk2   ρ2 
     
 ρ2 ρ1 ρ0 ρ1 ··· ρk−3   φk3 = ρ3  k = 1, 2, · · · (4.18)
     
 .. .. .. .. .. ..   ..   .. 
 . . . . . .   .   . 
ρk−1 ρk−2 ρk−3 ρk−4 ··· ρ0 φkk ρk

y ρj = Corr( Xn , Xn+j ) = R( j )/R( 0 )

 k se obtiene reemplazando ρj por ρj


Definición 4.2.5. La función de autocorrelaci ón muestral α
en el sistema lineal anterior (4.18).

Si k = 1 [ρ0 ]φ11 = ρ1 , luego α(1) = ρ1 pues ρ0 = 1. Se coloca α(0) = 1 usualmente.


74

Análisis con Matlab

Matlab posee varios Toolbox para análisis de señales y series de tiempo . En esta sección se
introducen algunas funciones que permiten implementar dos pasos básicos en el análisis de
procesos ARMA: i) identificación de los órdenes p y q, y ii) estimación del modelo y verificación
del ajuste. Se incluye también una función que permite la simulación de procesos ARMA.

1. Funciones para identificación:

a) autocorr: calcula y grafica la función de autocorrelación estimada.


b) parrcorr: calcula y grafica la función de autocorrelación parcial estimada.

2. Funciones para estimación y ajuste:

a) armabat: función para identificar la pareja (p,q) que produce el modelo con menor
criterio de información de Akaike (AIC). Es una función escrita por H. Hurd. 1
b) armax: función que estima los parémetros del modelo ARMA(p,q). Matlab provee
varias funciones para estimación de modelos pero solamente se considerará ésta.
c) resid: función para calcular los residuos del modelo con el fin de poder realizar pruebas
de hipótesis para determinar si es ruido blanco, como la prueba de Ljung-Box.
d) lbt: función para realizar la prueba de Ljung-Box.
e) compare: función para examinar la calidad de los pronósticos que se pueden hacer con
el modelo ajustado con el fin de determinar su adecuación.

Notación Matlab. En lugar de la letra L, Matlab utiliza q −1 , luego q −1 (Xn ) = Xn−1 . Por ejemplo,
un modelo ARMA(4,2) se expresa en Matlab ası́:

A(q −1 )Xn = B(q −1 )Zn


A(q −1 ) = 1 − 0.8875q −1 + 0.6884q −2 − 0.8956q −3 + 0.7022q −4
B(q −1 ) = 1 + 0.2434q −1 + 0.4649q −2

Pasos para el análisis con las funciones de Matlab

1. Graficar la trayectoria del proceso, la FAC estimada, la FACP estimada y el Variograma.


Las instrucciones a continuación muestran cómo hacerlo.

figure(1)

subplot(2,2,1), plot(x);

1 http://www.stat.unc.edu/faculty/hurd/stat185Data/progdoc.html
75

ylabel(’Xn’)
title(’Trayectoria’)

[fac_y,m]=autocorr(x,[],2);
subplot(2,2,2), autocorr(x,[],2)
title(’fac’);

[facp_y, mp] = parcorr(x,[],2);


subplot(2,2,3), parcorr(x,[],2)
title(’facp’);

v = (fac_y(1)-fac_y)/(fac_y(1)-fac_y(2));
subplot(2,2,4), stem(m,v);
grid
title(’Variograma’)

2. En un proceso AR(p) la facp muestral debe mostrar las primeras p autocorrelaciones par-
ciales por fuera de las bandas de Bartlett, es decir, deben ser significativamente diferentes
de cero. La fac muestral debe mostrar una forma decreciente a cero.
En un proceso MA(q) la fac muestral debe mostrar las primeras q autocorrelaciones por
fuera de las bandas de Bartlett, es decir, deben ser significativamente diferentes de cero. La
facp muestral debe exhibir un patrón decreciente a cero.
Después de una posible identificación del tipo de proceso se procede a especificar los
órdenes p y q del proceso. En caso de no ser posible identificar un AR ó un MA, se toma
inicialmente el rango p, q = 1, 2, 3, 4, 5, 6, y se corre la función “armabat” como se indica
a continuación. Esta función busca la pareja (p,q), en el rango establecido, que minimiza el
“criterio de información de Akaike”.
Antes de aplicar la función es conveniente restar la media para obtener un proceso de media
cero, asumiendo que el proceso es estacionario en covarianza: “xt = x - mean(x);”.

% eliminar la media
xt = x -mean(x);

% explora el orden
pvec = [1 2 3 4 5 6];
qvec = [1 2 3 4 5 6];
[mbest,minaic,pbest,qbest]=armabat(xt,pvec,qvec);
pbest
qbest

En las variables “pbest” y “qbest” están los valores de los órdenes p y q que mejor describen
el proceso.

3. Estimación los parámetros del modelo ARMA(p,q). Para esto se utiliza la función “armax”
con la pareja (p, q) escogida en el punto anterior con la instrucción, por ejemplo, “arma42
= armax(xt,[4 2]);", la cual corresponde a un proceso ARMA(4,2). Esta instrucción crea un
objeto de nombre “arma42” que contiene varios campos con información sobre el modelo
76

estimado. Para expresar la ecuación del modelo estimado de la forma A(L)Xn = B(L)Zn ,
se obtienen los vectores de coeficientes estimados arma42.a = (1, −ϕ̂1 , . . . , −ϕˆp ).
arma42 = armax(xt,[pbest qbest]);
present(arma42)
arma42.a
arma42.c

4. Pruebas de significación de los Parámetros. La instrucción


tcrit = arma42.ParameterVector./sqrt(diag(arma41.CovarianceMatrix))
calcula un vector de cocientes tj = φj /Sφj , donde Sφj es la desviación estándar del
coeficiente φj .
Cada valor tj es el valor de un estadı́stico t de Student que sirve para probar la hipótesis de
que los coeficientes son significativamente diferentes de cero, es decir, se acepta la hipótesis
Ho : φj = 0 al nivel de 5 % si observamos que |tj | < 1.96; en caso contrario se rechaza.
También se puede calcular el valor estimado de la varianza del ruido blanco, σ 2 , mediante
la instrucción: arma42.NoiseVariance.

5. Para completar el análisis es necesario chequear si los residuos del modelo ajustado son
ruido blanco. Los residuos son valores estimados del proceso Z n . La forma de hacerlo
es calculando la fac y la fac parcial con los residuos. Si los residuos resultan ruido blanco
ambas funciones deben mostrar todos los valores dentro de las bandas de Bartlett. El cálculo
de los residuos se puede hacer con los siguientes comandos.
dato = iddata(xt);
rarma42 = resid(arma42,dato);
et = rarma42.OutputData;

figure(3)

subplot(2,2,1), plot(et);
title(’Residuos’)

[fac_x,m] = autocorr(et,30,[],2);
subplot(2,2,2), autocorr(et,30,[],2);
title(’fac muestral’)

subplot(2,2,3), parcorr(et,30,[],2);
title(’facp muestral’)

v = (fac_x(1)-fac_x)/(fac_x(1)-fac_x(2));
subplot(2,2,4), stem(m,v);
grid
title(’Variograma’)

6. Una manera de chequear si el modelo propuesto ajustó bien los datos es ajustar el modelo con
la primera mitad de los datos y utilizar la parte restante para comparar con los pronósticos
a un paso: se compara Xn con el pronóstico de X n realizado con el modelo. La función
“compare” de Matlab hace este cálculo.
77

4 Trayectoria fac muestral


x 10
1
4
0.8
3
0.6

Sample Autocorrelation
2
0.4

1
0.2

0 0

−1 −0.2

−0.4
−2
−0.6
−3
−0.8
500 1000 1500 2000 2500 3000 0 5 10 15 20 25 30
Lag

facp muestral Variograma


1 14

0.8
12
Sample Partial Autocorrelations

0.6
10
0.4

0.2 8

0 6

−0.2
4
−0.4
2
−0.6

−0.8 0
0 5 10 15 20 25 30 0 5 10 15 20 25 30
Lag

Figura 4.1: Análisis de la Serie de aceleraciones verticales del sismo de Kobe

figure(4)
% uso de la funcion "compare"
mitad = floor(length(xt)/2);
ye = xt(1:mitad);
yv = xt(mitad+1:end);
model= armax(ye,[pbest qbest]);
compare(yv,model,1);

Ejemplo 4.2.1. En la figura (4.1) se aprecian la fac y la fac parcial estimadas. Seg ún lo explicado
acerca de la identificación de modelos tipo ARMA, corresponden a un proceso autorregresivo
AR(p) con p entre 15 y 20. La estimación se realizó de acuerdo a las indicaciones anteriores y
se obtuvo un modelo AR(16). Antes de estimar el modelo se elimina la media, que tiene un valor
µ = 2.6456e + 003. El modelo ajustado para la serie X n − µ es:

Discrete-time IDPOLY model: A(q)y(t) = e(t)


A(q) = 1 - 3.999 (+-0.01792) qˆ-1 + 9.588 (+-0.0735) qˆ-2 - 17.46 (
+-0.1841) qˆ-3 + 26.05 (+-0.3536) qˆ-4 - 33.53 (+-0.5615) qˆ-5
+ 38.26 (+-0.7725) qˆ-6 - 39.16 (+-0.9453) qˆ-7 + 36.47 (
+-1.042) qˆ-8 - 30.87 (+-1.041) qˆ-9 + 23.72 (+-0.9451) qˆ-10
- 16.43 (+-0.7722) qˆ-11 + 10.06 (+-0.5611) qˆ-12 - 5.337 (
+-0.3533) qˆ-13 + 2.342 (+-0.1839) qˆ-14 - 0.7668 (+-0.07339) qˆ-15 +
0.1638 (+-0.01789) qˆ-16.
78

El residuo ó error, indicado en Matlab con e(t) corresponde a un ruido blanco Z n con varianza
estimada dada por σ *2 = 2.2193e+005. La comprobación de que los residuos e(t) son ruido blanco
se realiza con la prueba Ljung-Box. En este caso no se rechaza la hipótesis de incorrelación de
e(t). Además, todos los coeficientes resultan significativamente diferentes de cero. Los números
que aparecen entre paréntesis con +- son las desviaciones estándar sφj de los coeficientes φj .
En este caso, como se explicó, se puede ver que la dividir el coeficiente por su desviación se
obtiene un valor mayor de 1.96 en valor absoluto por lo que se puede considerar que todos son
significativamente diferentes de cero. Este modelo podrı́a servir por ejemplo, para simular las
aceleraciones de un sismo sobre una estructura.

Ejemplo 4.2.2. Suponga que X n = Zn − 0.4Zn−1 + 0.4Zn−2 n ∈ Z, con Zn una sucesión


i.i.d. N (0, σ 2 ). Para simular con Matlab una trayectoria de X n y calcular la fac muestral, se
utilizan los siguientes comandos.

n = 100;
t = (1:n)’;
z = normrnd(0,2,n,1);
x = filter([1 -0.4 0.4],[1],z);
autocorr(x,20,[],2);
[r, k] = autocorr(x, 20, [\ ], 2);
v = (r(1)-r)/(r(1)-r(2));
stem(k,v)

produce una gráfica del variograma V (k) que muestra el proceso estacionario del proceso. La
gráfica de autocorr es la gráfica de ρ*
X ( k ) , k = 0, 1, 2, · · · , 20. Nótese que en este caso se
conocen los valores de la fac ρX ( 0 ) = 1, ρX ( 1 ) = −0.42 , ρX ( 2 ) = 0.3 , ρX ( k ) = 0 para
k ≥ 3.

4.3. Aplicaciones

En esta sección se relacionan algunas aplicaciones de los procesos considerados en este capı́tulo.
Son aplicaciones de Series de Tiempo. Esta área tiene aplicaciones en neurofisiologı́a, astrofı́sica,
economı́a, biologı́a, control, procesamiento de señales y comunicaciones.

1. Nota sobre las aplicaciones de los procesos AR(1). Los procesos AR(1) forman parte
de un tipo de procesos más general, de la forma Xn = An Xn−1 + Yn , n = 1, 2, . . ..
Según Vervaat (1979), “Estos modelos aparecen en economı́a, fı́sica, biologı́a y sociologı́a.
En todas las aplicaciones Xn representa un número de unidades de un cierto objeto en el
tiempo n, Yn es la cantidad añadida inmediatamente antes del tiempo n ( o retirada, en el
caso Yn < 0), y el factor An representa la tasa de incremento o decremento de la cantidad
Xn−1 entre los tiempos n-1 y n. Un ejemplo de aplicación consiste en asumir que X n es
79

el saldo en pesos de una cuenta en algún fondo de inversiones, Y n es un depósito o retiro,


realizado antes del tiempo n, y An es un factor que representa el capital más intereses
generados entre los tiempos n-1 y n, por una unidad de capital".

2. Ingenierı́a. En el artı́culo (Nowicka-Zagrajek and Weron (2002)), los autores desarrollaron


un modelo para calcular pronósticos de la demanda de energı́a eléctrica en California
(EUA). Los datos correspondı́an a la demanda de energı́a en cada hora durante el perı́odo
entre abril 1 de 1998 y diciembre 31 de 2000. Debido a que los datos presentaban una fuerte
componente periódica diaria, se generó una serie diaria que comprendı́a dos años completos,
entre enero 1 de 1999 y diciembre 31 de 2000, para 730 datos. Esta serie aún presentaba
una componente estacional semanal y otra anual, las cuales se removieron. Los datos des-
estacionalizados, con media cero, se ajustaron a un modelo ARMA de la forma (4.1, pag.
63). El modelo escogido, entre varios examinados, fué un ARMA(1,6) con θ 4 = θ5 = 0,
dado por:

Xn = 0.332776Xn−1 + Zn − 0.383245Zn−1 − 0.12908Zn−2


−0.149307Zn−3 − 0.0531862Zn−6

Cuando los autores examinaron los residuos Z n estimados encontraron que no tenı́an una
distribución Normal sino una de tipo Hiperbólico,Hyp(α, β, δ, µ). La función de densidad
de una distribución Hiperbólica está dada por:

α2 − β 2 
f(x) =  exp(−α δ 2 + (x − µ)2 ),
2αδK1 (δ α2 − β 2 )
donde δ > 0, µ ∈ R y 0 ≤ |β| < α. La función K1 (.) es la función modificada de Bessel de
ı́ndice 1. Los valores estimados de los parámetros fueron: α̂ = 1.671304, β̂ = −0.09879,
δ̂ = 0.298285, µ̂ = 0.076975. Los autores compararon los pronósticos obtenidos con
el modelo ARMA(1,6)-Hyp versus los pronósticos provistos por la entidad oficial CAISO
(California System Operator) y concluyeron que los obtenidos por el modelo eran superiores,
utilizando un error MAPE porcentual. El modelo presentaba un valor 1.24 mientras que
CAISO un valor 1.70. Los autores señalan: “ Es relativamente fácil obtener pronósticos de
demanda con valores MAPE porcentual cercanos a 10.0. Sin embargo, los costos financieros
de un error son tan grandes que la investigación está dedicada a reducir estos valores aún
en algunos puntos porcentuales.”(ver Nowicka-Zagrajek and Weron (2002), pag. 1904).

3. Ingenierı́a. En el artı́culo (Reed and Scanlan (1983)), los autores utilizaron un modelo
ARMA para analizar las series de tiempo correspondientes a las cargas de viento sobre
torres de enfriamiento de forma circular. Una de las aplicaciones de este modelo fué la
simulación de cargas de viento. Además, utilizaron modelos que relacionan la velocidad
con un diferencial de presión del viento.

4. Ingenierı́a.Vibration control of a flexible beam with integrated actuators and sensors W J


Manning et al 2000 Smart Mater. Struct. 9 932-939 doi:10.1088/0964-1726/9/6/325
80

Abstract. The use of system identification to determine linear Auto Regressive Moving Av-
erage eXogenous inputs (ARMAX) models for smart structures has been scarcely reported
in the literature. However, these models can be used as a basis for a linear discrete-time
controller design. This work presents a smart structure vibration control scheme developed
using an ARMAX model of the structure and compares its performance to an empirically
designed velocity feedback controller. The smart structure is comprised of piezoceramic
(such as PZT) actuators and strain gauge sensors attached to a cantilever beam and interfaced
to a PC, which provides the control software platform. System identification is carried out in
three phases: data collection, model characterization and parameter estimation. Input-output
data are collected by stimulating the piezoactuators with a bipolar square wave signal and
monitoring the strain gauge response. The model is characterized with second-order plant
dynamics and a least-squares estimation algorithm calculates the model parameters. The
controller is designed using pole placement to achieve the desired closed-loop response.
The ARMAX model is used to calculate the pole placement controllers by solution of the
Diophantine equation for the prescribed closed-loop pole positions. Results show that the
pole placement controller can match the performance of a velocity feedback controller and
maintain this performance when the sampling rate is greatly reduced.

4.4. Problemas
1. Suponga que (Xn , n = 0, 1, . . .), es un proceso AR(1) definido para n ≥ 1, en lugar de
n ∈ Z, mediante las relaciones siguientes:
2
σ
a) X0 tiene media y varianza dados por: (0, 1−ϕ 2 ).

b) Xn = ϕXn−1 + Zn , n = 1, 2, . . ..

donde Zn , n = 1, 2, . . . es ruido blanco con V ar(Zn ) = σ 2 , X0 se asume independiente


de las variables Zn , y ϕ ∈ (−1, 1) es un parámetro.
 n 
a) Encuentre E(Xn ) utilizando la fórmula x n = an x0 + j=1 a−j bj de la solución
de la ecuación recursiva lineal de primer orden: x n = axn−1 + bn , n ≥ 0, x0 dado.
b) Encuentre E(Xn Xm )
c)Encuentre E(Xn |Xn−1 ).
3 = E(X3 |X1 = 2.2, X2 = 1.3), asumiendo que ϕ = 0.8 y σ 2 = 3.
d) Encuentre X

2. Modelo AR(2) (Proceso de Yule). Suponga que (Z n , n ∈ Z) es ruido blanco. Un proceso


(Xn , n ∈ Z), de media cero, se denomina AR(2) si cumple:

Xn = ϕ1 Xn−1 + ϕ2 Xn−2 + Zn , n ∈ Z, (4.19)

donde ϕ1 y ϕ2 son parámetros.


81

La condición para que Xn sea estacionario en covarianza es que 1 − ϕ1 z − ϕ2 z 2 = 0, para


todo z ∈ C tal que |z| ≤ 1. Esta condición a su vez es equivalente a la siguiente:

|ϕ1 | < 1, ϕ2 + ϕ1 < 1, ϕ2 − ϕ1 < 1. (4.20)

Entonces, por el teorema de Wold (Teo 3.4.1, pag. 56), si se cumple (4.20), se cumple la
identidad (entendida como lı́mite en media cuadrática):


Xn = ψj Zn−j (4.21)
j=0
∞
donde j=0 ψj2 < ∞.

a) Utilice la identidad (4.21) para comprobar que se cumple E(Z n Xn−k ) = 0 para
k = 1, 2, . . . .
b) Multiplique la ecuación (4.19) por X n−k y utilice el resultado anterior para comprobar
que la función de autocovarianza R(k) del proceso Xn satisface la ecuación en
diferencias:
R(k) = ϕ1 R(k − 1) + ϕ2 R(k − 2), k = 1, 2, . . . (4.22)

c) Multiplicando la ecuación (4.19) por X n se comprueba que se cumple la ecuación

R(0) = ϕ1 R(1) + ϕ2 R(2) + σ 2 (4.23)

donde σ 2 es la varianza del ruido blanco Zn . Utilice la ecuación (4.22) para obtener
R(1) y R(2) en función de R(0) y R(1). Estas ecuaciones junto con la (4.23) confor-
man un sistema de tres ecuaciones y tres incógnitas, tal que al resolverlo se obtienen
expresiones para R(0), R(1) y R(2). Compruebe que

(1 − ϕ2 )σ 2
R(0) = V ar(Xn ) = (4.24)
(1 + ϕ2 )((1 − ϕ2 )2 − ϕ21 )

d) Decida si el proceso Xn = 1.3Xn−1 − 0.4Xn−2 + Zn , n ∈ Z es estacionario en


covarianza.
e) Además, evalúe las cantidades ||Xn+k − Xn ||, k = 1, 2.

3. El modelo MA(1). Suponga un proceso Media Móvil, MA(1), (X n , n ∈ Z), definido por la
relación:
Xn = Zn + θZn−1 , n ∈ Z (4.25)
donde θ ∈ R es un parámetro y (Zn , n ∈ Z) es ruido blanco de varianza σ 2 .

a) Compruebe que la función de autocovarianza de Xn , RX (m), m ∈ Z, está dada por:


RX (0) = σ 2 (1 + θ2 ), RX (1) = σ 2 θ, RX (m) = 0, m ≥ 2.
82

b) Se puede probar que la FACP de un proceso MA(1) está dada por la expresión
αk = (−θ)k+1 (1 − θ2 )/(1 − θ2(k+1) ), para k = 1, 2, . . .. Compruebe esta fórmula
calculando directamente los casos αk , k = 1, 2.
c) Considere el proceso Yn = Xn − Xn−1 . Debe ser también estacionario en covarianza
(por qué?). Encuentre la función de autocovarianza. Compruebe que R Y (0) > RX (0).
Qué indica este resultado?.

4. Encuentre la función de autocovarianza y autocorrelación de los procesos

a) Xn = Zn − 12 Zn−1 − 12 Zn−2
b) Xn = Zn + 0.6Zn−1 − 0.3Zn−2 − 0.1Zn−3

5. (ver Brockwell and Davis (1987), pag. 92) Utilice el Método 2 para encontrar la función de
autocovarianza del proceso (I − L + (1/4)L2 )Xn = (I + L)Zn , con Zn ∼ RB(0, σ 2 ).

6. Suponga que Zn , n ∈ Z es una sucesión i.i.d. N (µ1 , σ 2 ). Defina el proceso


X0 = Z1
Xn = α Zn + ( 1 − α )Xn−1 para n = 1, 2, · · ·
Compruebe que

a)

n
Xn = ( 1 − α )n Z1 + α ( 1 − α )n−j Zj
j=1


n−1
= ( 1 − α )n Z1 + α ( 1 − α )j Zn−j
j=0

b) Encuentre E( Xn ) , V ar( Xn ) y compruebe que V ar( Xn ) < σ 2

7. El modelo ARCH(1), auto-regresivo condicionalmente heterocedástico, es un modelo que


hace parte de una familia más amplia y se utiliza para modelar fenómenos que no tienen
carácter gaussiano. Se define mediante la relación:
Xn = µ + (a0 + a1 (Xn−1 − µ)2 )1/2 Zn , n = 1, 2, . . . (4.26)
donde µ ∈ R, a0 > 0, a1 ∈ (0, 1) y la sucesión (Zn ), n = 1, 2, . . . es una sucesión
de variables independientes, con Zn independiente de Xn−1 , idénticamente distribuı́das
N (0, 1). Encuentre V ar(Xn ) y compruebe que lı́mn→∞ V ar(Xn ) = a0 /(1 − a1 ).

8. Considere un proceso ARMA(1,1), Xn = ϕ1 Xn−1 + Zn + θ1 Zn−1 , para n = 1, 2, . . ..


Suponga que X0 es independiente de Zj , j ≥ 0, tal que E(X0 ) = 0 y V ar(X0 ) = RX (0)
para RX (0) dada en (4.15):
(1 + θ12 + 2θ1 ϕ1 )
RX (0) = σ 2 .
1 − ϕ21
83

Denote Un = Zn + θ1 Zn−1 .

a) Compruebe las identidades


 
n 
Xn = ϕn1 X0 + ϕ−j
1 Uj . (4.27)
j=1

 
m 
Xn+m = ϕm
1 Xn + ϕ−j
1 Uj+n , m ≥ 1. (4.28)
j=1

b) Compruebe que E(Xn ) = 0, n ≥ 0.


c) Con base en (4.27) compruebe que V ar(Xn ) = E(Xn2 ) = RX (0).
d) Reemplazando m = 1 en (4.28), compruebe:

σ 2 (ϕ1 + θ1 )(1 + ϕ1 θ1 )
RX (1) = E(Xn Xn+1 ) = ϕ1 σ02 + θ1 σ 2 =
1 − ϕ21

Sugerencia: al evaluar E(Xn Xn+1 ) se requieren dos resultados: E(Xn Zn+1 ) = 0 y


E(Xn Zn ) = σ 2 .
e) Verifique que RX (m + 1) = ϕ1 RX (m), m ≥ 2.

4.5. Soluciones
1. a) Utilizando la fórmula
 
n

x n = an x 0 + a−j bj
j=1

obtenemos

n
Xn = ϕn X0 + ϕn−j ξj
j=1

y por tanto

n
E( Xn ) = ϕn E( X0 ) + ϕn−j · 0 = ϕn E( X0 )
j=1

Si asumimos que E( X0 ) = 0 entonces E( Xn ) = 0


b) Cov( Xn , Xn+m ) para n, m ≥ 0
Suponga que m > 0 y Cov( Xn , Xn+m ) = E( Xn Xn+m ) pero si
 
n 
Xn = ϕn X0 + ϕ−j ξj
j=1
84

también
 
n+m 
Xn+m = ϕn+m X0 + ϕ−j ξj
j=1
 
n+m 
= ϕm ϕn X0 + ϕn−j ξj
j=1
 
n 
n+m 
m n n−j
=ϕ ϕ X0 + ϕ ξj + ϕn−j ξj
j=1 j=n+1
 
n+m 
= ϕm Xn + ϕn−j ξj
j=n+1
 m 
−j
= ϕm Xn + ϕ ξn+j
j=1

y por tanto
 
m 
Xn Xn+m = ϕm Xn2 + ϕ−j Xn ξn+j
j=1
 
m 
E( Xn Xn+m ) = ϕm E( Xn2 ) + ϕ−j E( Xn ξn+j )
j=1

pero si E( Xn ξn+j ) = 0 para j ≥ 1 ya que las ξj son no correlacionadas entonces


E( Xn Xn+m ) = ϕm E( Xn2 ) y por tanto
  n 
E( Xn2 ) = V ar( Xn ) = V ar ϕn X0 + ϕ−j ξj
j=1
 n 
2n −2j 2
=ϕ V ar( X0 ) + ϕ σ
j=1
 
ϕ−2 − ϕ−2(n+1)
= ϕ2n σ02 + σ 2
1 − ϕ−2
 
1 − ϕ−2n
= ϕ2n σ02 − σ 2
1 − ϕ2
σ2
Si escogemos σ02 = entonces
1 − ϕ2
σ2   σ2
V ar( Xn ) = E( Xn2 ) = ϕ2n
1 − ( 1 − ϕ−2n
) = = cte
1 − ϕ2 1 − ϕ2
c) Para la esperanza condicional se tiene:

E(Xn |Xn−1 ) = E(ϕXn−1 + Zn |Xn−1 )


85

= ϕXn−1 + E(Zn |Xn−1 )

Obsérvese que E(Zn |Xn−1 ) no puede simplificarse porque la expresión para Xn−1 =
n−1
ϕn−1 (X0 + j=1 ϕ−j Zj ), depende de las Zj para j = 1, . . . , n − 1, y solamente se
asume que las Zj son incorrelacionadas pero no independientes. Podemos decir que
E(Zn |Xn−1 ) es una variable de media cero porque E(E(Zn |Xn−1 )) = E(Zn ) = 0,
pero no podemos concluı́r que E(Z n |Xn−1 ) = 0. Más adelante en el curso se verá que,
si se asume que las Zj son i.i.d. Normales, entonces E(Xn |Xn−1 ) = ϕXn−1
d) Utilizando la Nota sobre la definición de pronósticos en procesos estacionarios en
covarianza, tenemos que calcular X 3 = α1 X1 + α2 X2 , donde (α2 , α1 ) = R−1 γ2 .
2
Tenemos, de las definiciones en la Nota y el proceso AR(1):

R(0) R(1) σ2 1 ϕ
R2 = =
R(1) R(0) 1 − ϕ2 ϕ 1

1 1 −ϕ R(1) σ2 ϕ
R−1
2 = 2 , γ2 = =
σ −ϕ 1 R(2) 1 − ϕ2 ϕ2

luego (α2 , α1 ) = R−1  


2 γ2 = (ϕ, 0) , y por tanto, X3 = ϕX2 = 0.8(1.3) = 1.04.

2. Ejercicio.

3. Ejercicio.

4. Ejercicio.

5. De la identidad 1 + z = (1 − z + z 2 /4)(w0 + w1 z + w2 z 2 + . . .), al igualar coeficientes


de las potencias de z se obtiene w0 = 1, w1 = 2 y la ecuación recursiva wj = wj−1 −
(1/4)wj−2, j ≥ 2. La solución de este tipo de ecuaciones en diferencias está en la sección
de Notas de este capı́tulo. Finalmente se obtiene RX (m) = σ 2 2−m (32/3 + 8m), m ≥ 2.

6. Ejercicio.

7. Ejercicio.

8. Nótese que si Un = Zn + θ1 Zn−1 entonces Un es un MA(1).


 n 
a) La identidad Xn = ϕn1 X0 + j=1 ϕ−j 1 U j se obtiene de la solución de la ecuación
n
recursiva xn = axn−1 + bn , n = 1, 2, . . . , dada por: xn = an (x0 + j=1 a−j bj ).
 m 
La otra identidad Xn+m = ϕm 1 Xn + j=1 ϕ−j 1 Uj+n , se obtiene de la anterior
cambiando n por n + m y reemplazando la expresión para Xn .
 n 
b) E(Xn ) = ϕn1 E(X0 ) + j=1 ϕ−j 1 E(Uj ) = 0
86

c) Desarrollar el cuadrado:
 
n 2
Xn2 = ϕ2n
1 X0 + ϕ−j
1 Uj
j=1
 
n 
n 
n 
−(j+i)
= ϕ2n
1 X02 + 2X0 ϕ−j
1 Uj + ϕ1 Uj Ui ,
j=1 i=1 j=1
   
−(j+i)
luego E( Xn2 ) = ϕ2n
1 σ02 + 0 + ni=1 nj=1 ϕ1 E( Uj Ui ) . Pero E(Uj Ui ) es
la covarianza de un proceso media móvil MA(1), luego, utilizando la fórmula (4.11),
pag. 66,
1−|i−j|

E(Ui Uj ) = RU (i − j) = σ 2 θs θs+|i−j|.
s=0
2
Si i = j entonces RU (0) = σ (1 + θ12 ), y si |i − j| = 1 entonces RU (1) = σ 2 θ1 .
Luego se tiene que

n 
n
−(j+i)

n 
n
−(j+i)
ϕ1 E(Uj Ui ) = ϕ1 RU (i − j)
i=1 j=1 i=1 j=1

n 
n
= σ 2 (1 + θ12 ) ϕ−2j
1 + 2σ 2 θ1 ϕ1 ϕ−2i
1
j=1 i=1
2
σ (1 + θ12 + 2θ1 ϕ1 )(1 − ϕ−2n
1 )
=− ,
1 − ϕ21
n 1−ϕ−2n
utilizando i=1 ϕ−2i
1 =− 1
1−ϕ21
. Luego

 
σ 2 (1 + θ12 − 2θ1 ϕ1 ) σ 2 (1 + θ12 − 2θ1 ϕ1 ) −2n
E( Xn2 ) = ϕ2n
1 σ02 − + ϕ1
1 − ϕ21 1 − ϕ21
reemplazamos
σ 2 (1 + θ12 + 2θ1 ϕ1 )
RX (0) = σ02 =
1 − ϕ21
y obtenemos V ar( Xn ) = RX (0) = σ02 , n = 0, 1, 2, · · · .
d) Reemplazando m = 1 en (4.28) obtenemos
 
Xn Xn+1 = ϕ1 Xn2 + ϕ−1
1 Xn Un+1

y E( Xn Xn+1 ) = ϕ1 E( Xn2 ) + E( Xn Un+1 )


 
= ϕ1 σ02 + E Xn ( Zn+1 + θ1 Zn )

pero

n
E( Xn Zn+1 ) = ϕn1 E( X0 Zn+1 ) + ϕn−j
1 E( Uj Zn+1 )
j=1
87


n
= ϕn−j
1 E( Zj Zn+1 + θ1 Zj−1 Zn+1 ) = 0,
j=1

n
E( Xn Zn ) = ϕn1 E( X0 Zn ) + ϕn−j
1 E( Uj Zn )
j=1

n
= ϕn−j
1 E( Zj Zn + θ1 Zj−1 Zn ) = σ 2 .
j=1

Luego
E( Xn Xn+1 ) = ϕ1 σ02 + θ1 σ 2
y
σ 2 ( ϕ1 + θ1 )( 1 + ϕ1 θ1 )
RX ( 1 ) = ϕ1 σ02 + θ1 σ 2 =
1 − ϕ21

9. Para m ≥ 2 se tiene
 
m 
Xn Xn+m = ϕm
1 Xn2 + ϕ−j
1 Xn Uj+n
j=1
 
m 
E( Xn Xn+m ) = ϕm
1 σ02 + ϕ−j
1 E( Xn Uj+n )
j=1
  −j
m+1 
2
E( Xn Xn+m+1 ) = ϕm+1
1 σ 0 + ϕ1 E( Xn Uj+n )
j=1
 
m 
−(m+1)
= ϕm+1
1 σ02 + ϕ1 E( Xn Un+m+1 ) + ϕ−j
1 E( Xn Uj+n )
j=1

= ϕ1 E( Xn Xn+m ) + E( Xn Un+m+1 )

pero Un+m+1 = Zn+m+1 +θ1 Zn+m y Xn depende de Zj +θ1 Zj−1 , j = 1, 2, · · · , n, por lo


que E( Xn Un+m+1 ) = 0, y obtenemos finalmente que RX ( m+1 ) = ϕ1 RX ( m ), m ≥ 2.
88
CAPÍTULO 5

Cálculo en Media Cuadrática

El cálculo en Media Cuadrática consiste en una serie de resultados que permiten extender algunas
de las operaciones del Cálculo diferencial e integral a procesos en tiempo continuo. La aplicación
de estas operaciones en procesos permite transformar ciertas ecuaciones diferenciales ordinar-
ias en ecuaciones diferenciales con procesos estocásticos, lo cual permite formular modelos de
fenómenos fı́sicos sujetos a condiciones aletorias. En este caso un modelo especificado a partir
de alguna condición teórica se denominarı́a “modelo de caja blanca” en oposición a los modelos
tipo ARMA de la sección anterior, que podrı́an denominarse “modelos de caja negra”. El cálculo
en media cuadrática es útil pero tiene algunas limitaciones relacionadas con las reglas de difer-
enciación de un producto y la regla de la cadena cuando los procesos son de tipo “ruido blanco”.
En el capı́tulo 5 se introduce el Cálculo de Ito, que es una generalización del cálculo en media
cuadrática y en el cual se superan tales limitaciones.

En la definición 3.1.3 se introdujo la continuidad en media cuadrática de un proceso: Un proceso


X = ( Xt , t ∈ T ) se dice continuo en media cuadrática en T si ∀t ∈ T , E( | Xt+h − Xt |2 ) →
0 , h → 0..

89
90

5.1. Continuidad en Media Cuadrática

Proposición 5.1.1. (cf. Cramer, Leadbetter Cramér and Leadbetter (1968) pag. 83) El proceso
( Xt , t ∈ T ) es continuo en media cuadr ática en T si y solo si E( X t1 Xt2 ) es continua en cada
( t , t ) ∈ T × T es decir,

lı́m E( Xt1 Xt2 ) = E( Xt2 )


( t1 , t2 )→( t , t )

para cada ( t , t ) ∈ T × T . Si E( Xt1 Xt2 ) es continua en cada ( t , t ) ∈ T × T entonces es


continua en todo T × T .

Demostración. 1) [⇐= ]
Suponga que E( Xt1 Xt2 ) → E( Xt2 ) cuando t1 → t y t2 → t, entonces se debe probar que
Xt → Xs cuando t → s, es decir que
 
E ( Xt − Xs )2 → 0 cuando t → s

pero
       
E ( Xt − Xs )2 = E Xt )2 + E Xs )2 − 2E Xt Xs
y
       
E Xt2 → E Xs )2 y E Xt Xs → E Xs2 cuando t→s
luego
 
E ( Xt − Xs )2 → 0 cuando t→s
[=⇒ ]
Si Xt es continua en media cuadrática en T y ( t1 , t2 ) ∈ T × T y t ∈ T veamos que

E( Xt1 Xt2 ) → E( Xt2 ) cuando t1 → t y t 2 → t

pero
  
| E( Xt1 Xt2 ) − E( Xt Xt ) | =  E ( Xt1 − Xt ) Xt2 + ( Xt2 − Xt ) Xt 
 
≤ E | ( Xt1 − Xt ) Xt2 + ( Xt2 − Xt ) Xt |
   
≤ E | ( Xt1 − Xt ) Xt2 | + E | ( Xt2 − Xt ) Xt |
    
≤ E ( Xt1 − Xt )2 Xt22 + E ( Xt2 − Xt )2 E( Xt2 )

Pero Xt es continuo en media cuadrática lo que implica que


   
E ( Xt1 − Xt )2 → 0 y E ( Xt2 − Xt )2 → 0 si t1 → t y t2 → t

Además E( Xt22 ) → E( Xt2 ) si t2 → t luego

E( Xt1 Xt2 ) → E( Xt2 ) cuando t1 → t y t 2 → t


91

En el caso de ser T = Z = {· · · , −1, 0, 1, · · · } o de ser T = N0 = {0, 1, 2, · · · } la función de


covarianza es R( n , m ). En este caso el proceso ( Xn , n ∈ T ) es un proceso entiempo discreto
y no aplica la definición de continuidad en media cuadrática que es solamente para procesos en
tiempo continuo con T = ( −∞ , ∞ ) , T = [ 0, ∞ ) , T = [ 0 , 1 ] etc.

Ejemplo 5.1.1. Si Xt es tal que E( Xt ) = 0 para todo t ∈ T y E( Xs Xt ) = e−α ( t −t


2 1 )2
es
continua en todo ( t , t )

Ejemplo 5.1.2. Si ( Nt , t ≥ 0 ) es el proceso Poisson se tiene

E( Nt1 Nt2 ) = λ t1 t2 + λ mı́n( t1 , t2 ) Cov( Nt1 , Nt2 ) = λ mı́n( t1 , t2 )

Si t1 → t , t2 → t entonces

E( Nt1 Nt2 ) → λ t2 + λ t = E( Nt2 ),

luego es continuo en media cuadrática. Nótese que ya se habı́a probado la continuidad en media
cuadrática cuando se vió que:
 
lı́m E ( Nt+h − Nt )2 = 0.
h→0

5.2. Derivada en Media Cuadr ática

Definición 5.2.1. Si Xt , t ∈ T es un proceso de segundo orden en tiempo continuo, se dice


derivable en media cuadrática en t ∈ T si existe un proceso Zt tal que

Xt+h − Xt 2
−→ Zt si h→0
h
lo cual equivale a decir que para cada t ∈ T se cumple
1 1
1 Xt+h − Xt 1
1 − Zt 1
1 h 1 −→ 0 si h→0

entonces Zt se denomina la derivada en media cuadr ática de Xt en t o sea que Xt = Zt .

Una condición necesaria y suficiente para que exista Xt es la siguiente:

Teorema 5.2.1. Si Xt , t ∈ T es un proceso de segundo orden, una condici ón necesaria y


suficiente para que exista Xt es que exista el lı́mite
  
Xt+h − Xt Xt+r − Xt
lı́m E = c( t )
(u , r )→( 0 , 0 ) h r
92

Demostración. La demostración se basa en una adaptación de la condición necesaria y suficiente


para que una sucesión Xn converja en media cuadrática dada por:

Xn converge en media cuadrática a una variable aleatoria X cuando n → ∞ si y solo si


E( Xn Xm ) → c c = cte cuando n → ∞ y m → ∞

Xn ( t ) converge en media cuadrática a Xt cuando h → h0


si y solo si existe c( t ) función tal que

E( Xn ( t ) Xr ( t ) ) −→ c( t ) h → h0 r→h

Luego aplicando ésta condición a


Xt+h − Xt Xt+r − Xt
Xn ( t ) = y Xr ( t ) =
h r
tenemos que
Xt+h − Xt
h
converge a una variable aleatoria Zt cuando h → 0 si y solo si
 
Xt+h − Xt Xt+r − Xt
E . −→ c( t ) h→0 r→0
h r

Nota 5.2.1. De la teorı́a de Cálculo en varias variables, se sabe que si existe el lı́mite

lı́m F(x, y) = L
( x , y )→( x0 , y0 )

y si existen los lı́mites


lı́m F ( x , y ) lı́m F ( x , y )
x→x0 y→y0

entonces se cumple
   
lı́m lı́m f( x , y ) = lı́m lı́m f( x , y ) = L
x→x0 y→y0 y→y0 x→x0

Que estos lı́mites existan no implica que existe

lı́m F(x, y )
( x , y )→( x0 , y0 )

2
Ejemplo 5.2.1. Suponga que E( X s Xt ) = e−α(t−s) , α > 0 , t , s ∈ R para un proceso
( Xt , t ∈ R ). Entonces
X − Xt Xt+r − Xt  1 
E(Xt+h Xt+r ) − E(Xt+h Xt ) − E(Xt Et+r ) + E(Xt2 )
t+h
E · =
h r hr
93

1  −α(r−h)2 2 2

=e − e−αh − e−αr + 1
hr

Suponga que ( h , r )  ( 0 , 0 ) con h2 + r 2 < , > 0 pequeño entonces usando eθ  1 + θ
para θ pequeño
1  −α(r−h)2 2 2
 1 
e − e−αh − e−αr + 1 = 1 − α(r − h)2 − (1 − αh2 ) − (1 − αr 2 ) + 1
hr hr
α 2 
= h + r 2 − ( r − h )2 = 2α
hr
luego  
Xt+h − Xt Xt+r − Xt
lı́m E · = 2α
(h,r)→(0,0) h r
2
Si existe un proceso Xt , t ∈ R tal que E( Xt Xs ) = e−α(t−s) entonces tiene derivada en media
cuadrática Xt en cada t.

Ejemplo 5.2.2. Si existe un proceso Xt , t ∈ R tal que para α > 0 E( X s Xt ) = e−α| t−s |
entonces, no tiene derivada en media cuadrática en cualquier t.
   
Xt+h − Xt Xt+r − Xt 1
E · = e−α| h−r | − e−α| h | − e−α| r |
h r hr

si h2 + r 2 < entonces h  0 , r  0 luego
 
Xt+h − Xt Xt+r − Xt α 
E · = −| h − r | + | h | + | r |
h r hr
entonces
 
Xt+h − Xt Xt+r − Xt α  α( 2h ) 2α
E · = −r + h + h + r = =
h r hr hr r
luego  
Xt+h − Xt Xt+r − Xt
lı́m E · = +∞
( h , r )→( 0 , 0 ) h r
y por tanto el lı́mite no es igual a una constante.

Teorema 5.2.2.

Sea Xt estacionario en covarianza. Si existe R  (0) entonces Xt es derivable en media cuadrática.


Nótese que una condici ón más genera es si R(h) tiene segunda derivada en todo h.

Demostración.
X  1 
t+h − Xt Xt+r − Xt
E · = E(Xt+h Xt+r ) − E(Xt+h Xt ) − E(Xt Et+r ) + E(Xt2 )
h r hr
1 
= R(h − r) − R(h) − R(t) + R(0)
hr
94

Si existe R (0), por desarrollo de Maclaurin de R(t) alrededor de t = 0 se tiene R(t) ≈
R(0) + R (0)t + R (0)t2 /2, luego
1 
R(h − r) − R(h) − R(t) + R(0) ≈ −2rR (0) − hrR (0)
hr
pero R (0) = limt→0 R(t)−R(−t)
2t = 0, por ser R(t) función par, luego
X  1 
t+h − Xt Xt+r − Xt
lı́m E · = lı́m −hrR (0) = −R (0)
h→0,r→0 h r h→0,r→0 hr

por tanto X t es derivable en media cuadrática.

2
Ejemplo 5.2.3. Xt es estacionario en covarianza con R(h) = σ 2 e−αh , α > 0 entonce es
derivable en media cuadrática. Ocurre lo mismo con
 α 
R(h) = σ 2 e−α| h | (1 + α| h |) y R(h) = σ2 e−α| h | cos (βt) + sen(β| h |)
β
Teorema 5.2.3. Si (Xt , t ∈ R) es derivable en media cuadrática en t, entonces es continuo en
media cuadrática en t.
 2 
 2
 2 Xt+h −Xt
Demostración. E (Xt+h − Xt ) = h E h
−X
Si Xt es derivable entonces t+hh t converge en media cuadrática a la variable aleatoria Xt ,
X

que es un proceso de segundo orden cuando h → 0 luego


 
Xt+h − Xt 2  
E −→ E (Xt )2 < ∞ cuando h → 0
h
y por tanto
 
Xt+h − Xt 2  
h2 E −→ 0 · E (Xt )2 = 0 cuando h→0
h
luego Xt es continuo en t.

Teorema 5.2.4. Si Xt es derivable en media cuadrática entonces m(t) = E(Xt ) es derivable y


d d
m(t) = E(Xt ) = E(Xt )
dt dt

Demostración. X 
d Xt+h − Xt t+h − Xt
E(Xt ) = lı́m = lı́m E
dt h→0 h h→0 h
2
pero se vió que si Xn −→ X cuando n → ∞ entonces E(Xn ) −→ E(X) cuando h → 0 y como
Xt+h − Xt 2
−→ Xt
h
95

entonces  
Xt+h − Xt
E −→ E(Xt ) cuando h→0
h
luego
d
E(Xt ) = E(Xt )
dt

Teorema 5.2.5. Si Xt y Yt son derivables en media cuadrática y a , b son números reales entonces
aXt + bYt es derivable en media cuadrática y
 
aXt + bYt = aXt + bYt

Nota 5.2.2. Si Xt es derivable en media cuadrática y f(t) es derivable entonces Yt = f(t) + Xt


es derivable en media cuadrática y

Yt = f  (t) + Xt

Teorema 5.2.6. Si Xt y Yt son derivables en media cuadrática entonces


1. E(Xs Yt ) = E(Xs Yt )
∂s

2. E(Xs Yt ) = E(Xs Yt )
∂t
∂2
3. E(Xs Yt ) = E(Xs Yt )
∂s ∂t

Demostración. Como la demostración de las dos primeras es similar haremos solamente la primera
y la tercera.

2
1). Utilizando X n −→ X, entonces E(Xn Y ) −→ E(X Y ) pues
 
| E(Xn Y ) − E(X Y ) | ≤ E | (Xn − X)Y | ≤  Xn − X   Y  −→ 0
Xs+h − Xs Xs+h − Xs 2
aplicando a · Yt . Como −→ Xs cuando h → 0 entonces
h h
X  
s+h − Xs
E · Yt −→ E Xs Yt ) cuando h → 0
h
luego
X − Xs 
E(Xs Yt ) = lı́m E
s+h
· Yt
h→0 h
E(Xs+h Yt ) − E(Xs Yt )
= lı́m
h→0 h

= E(Xs Yt )
∂s
96

3).
X − Xs 
E(Xs Yt ) = lı́m E · Yt
s+h
h→0 h

= E(Xs Yt )
∂s
∂   Xt+k − Yt 
= lı́m E Xs
∂s h→0 k
2

= E(Xs Yt )
∂s ∂t

Teorema 5.2.7. Si Xt es derivable en media cuadrática y es estacionario en covarianza entonces


Xt es estacionario en covarianza. Además, si RX (t) es la función de covarianza de Xt , entonces
existe −RX (t) y es la función de covarianza de Xt .

Demostración. Sabemos que E(Xt ) = 0 y si Yt = Xt entonces



    ∂ 2 RX (t2 − t1 ) 
E Xs Xs+t =  t1 = s = −RX (t) = RX  (t)
∂t2 ∂t1
t2 = s + t

Teorema 5.2.8. Si Xt es derivable en media cuadrática en [a , b] entonces

∀t ∈ [a , b] Xt = 0 ⇐⇒ Xt = Z

siendo Z una variable aleatoria.

⇐=.
Si Xt = Z ∀t ∈ [a , b] entonces
Xt+h − Xt Z−Z
= =0
h h
luego Xt = 0.

[ =⇒]
Si Xt = 0 ∀t ∈ [a , b] entonces
∂ ∂
E(Xs Xt ) = E(Xs Xt ) = 0 y E(Xs Xt ) = E(Xs Xt ) = 0
∂s ∂t
luego E(Xs Xt ) = C ∀(s , t) ∈ [a , b]2 luego para cualquier t ∈ [a , b]
 
E (Xt − Xt )2 = E(Xt2 ) − 2E(Xt Xt ) + E(Xt2 )
97

= C − 2C + C = 0


de donde Xt = Xt , ∀t , t ∈ [a , b] ya que si Xt = 0 entonces E(Xt ) = 0 y por tanto
∂t
E(Xt ) = k , ∀t ∈ [a , b] luego
 
E (Xt − Xt )2 = V ar(Xt − Xt ) = 0

lo que implica que Xt − Xt = 0 o sea que Xt = Xt = Z , ∀t , t ∈ [a , b]

Teorema 5.2.9. Si Xt , t ∈ [a , b] es derivable en media cuadrática en t y g(t) : [a , b] → R es


una funci ón derivable en t entonces g(t)Xt es derivable en media cuadrática en t y
 
g(t) Xt = g (t) Xt + g(t) Xt

Demostración.
g(t + h)Xt+h − g(t)Xt g(t + h) − g(t) Xt+h − Xt
= · Xt+h + g(t) ·
h h h
2
−→ g (t) Xt + g(t) Xt cuando h→0

luego
1 1
1 g(t + h)Xt+h − g(t)Xt 1
1 
− g (t) Xt − g(t) Xt 1 1
1 h
1 X 
1 t+h − Xt
=11 g(t) − X 
t
h
 g(t + h) − g(t)  1
  1
+ − g (t) Xt+h + +g (t) Xt+h − Xt 1
h 1
 
 g(t + h) − g(t) 

≤ | g(t) | An +  − g (t)  Xt+h 

h
+ |g (t)| Xt+h − Xt  → 0 cuando h→0
1 1
1 X −X 1
con An = 1 t+hh t − Xt 1 →= 0 cuando h → 0

Teorema 5.2.10. Si ϕ(t) es función real derivable para todo t ∈ R y X t es derivable en media
cuadrática y además se cumple que

 
1. E ϕ2 (Xt ) < ∞ para todo t.
 2 
2. E ϕ (Xt ) Xt < ∞ para todo t.
 ϕ(X − ϕ(Xt ) 2
t+h )
3. E < ∞ para todo t y todo h = 0.
h
98

 2
Xt+h −Xt
4. E h
ϕ (Xt ) < ∞ para todo t y todo h = 0.

entonces ϕ(Xt ) es derivable en media cuadrática y


 
ϕ(Xt ) = ϕ (Xt ) Xt

Ejemplo 5.2.4. El procesos Poisson no es derivable en media cuadr ática. Se requiere probar que
N 
t+h − Nt Nt+r − Nt
E
h r
converge a un lı́mite si h , r → 0
1  
E Nt+h Nt+r − Nt Nt+h −Nt Nt+r + Nt2
hr
1 2  
= λ (t + h)(t + r) + λ(t + r) − λ2 t(t + h) + λt
hr 
 
− λ2 t(t + r) + λt + λ2 t2 + λt

1
(λ2 hr + λr ) = Λ2 λh si 0 < r < h
= hr
1 2 2 λ
hr
(λ hr + λt) = λ + h si 0 < h < r

luego el lı́mite no existe y el proceso Poisson no es derivable en media cuadr ática.

Nota 5.2.3. Aunque el Proceso Poisson no es derivable en m.c. se puede definir su derivada de
Nt
manera formal como el proceso Nt = j=1 δ(t − Tj ), donde Tj , j = 1, 2, ... es la sucesión de
tiempos de arribo del proceso Poisson y δ(.) es la funci ón Delta de Dirac.

5.3. Integral en Media Cuadr ática.


b
En éste capı́tulo se define la integral g(t) Xt dt donde ( Xt , t ∈ R ) es un proceso y g(t) es una
a
función real o compleja.

El proceso ( Xt ) se asume de segundo orden, continuo en media cuadrática. Por un resultado


anterior, para que Xt sea continuo en media cuadrática es suficiente ( y necesario ) que

E( Xt1 Xt2 ) −→ E( Xt2 ) cuando ( t 1 , t2 ) → ( t , t ) t ∈ T



b
La integral g(t) Xt dt se define de manera similar a una integral de Riemann, como el lı́mite de
a
una suma.

Definición 5.3.1. En el intervalo [ a, b ] se toma una partici ón dada por

a = t1 < t2 < t3 < · · · < tn < tn+1 = b


99

tal que si n aumenta entonces máx 1≤j≤n {tj+1 − tj } → 0. Se forma la sucesión de variables
aleatorias
n
Sn = g( tj ) Xtj ( tj+1 − tj ).
j=1
2
Si existe una variable aleatoria Z tal que S n −→ Z cuando n → ∞ es decir, si existe Z tal que
 
b
E ( Sn − Z )2 −→ 0 cuando n → ∞ entonces se dice que existe la integral g(t) Xt dt en
a
media cuadrática y Z se indica con el sı́mbolo integral
b
Z= g(t) Xt dt
a

La siguiente es una condición suficiente para la existencia de la integral en media cuadrática.


Proposición 5.3.1. (Cramér and Leadbetter (1968), pag. 86) Si ( X t , t ∈ [a, b] ) es continuo en
media cuadrática y la funci ón g(t) : [a, b] → R es continua en [a, b], entonces existe la integral

b
g(t) Xt dt en media cuadrática.
a

Demostración. Considere dos particiones de [a, b], dadas por

a = t1 < t2 < t3 < · · · < tn < tn+1 = b y a = u1 < u2 < u3 < · · · un < un+1 = b
(t) (u)
Sean Sn y Sn las sumas correspondientes, entonces
 m  
 (t) (u)  n
E ( Sn Sn ) = E g(tj ) g(uk ) Xtj Xuk (tj+1 − tj ) (uk+1 − uk )
j=1 k=1

m 
n
= g(tj ) g(uk ) E( Xtj Xuk ) (tj+1 − tj ) (uk+1 − uk )
j=1 k=1

Si m , n → ∞ entonces la suma anterior tiende a la integral


b b
g(t) g(s) E( Xt Xs ) dt ds
a a

que existe debido a que E( Xt Xs ) y g(t) g(s) son funciones continuas en [a.b] × [a, b]. Por lo
tanto, aplicando el criterio para convergencia en media cuadrática de una sucesión de variables
aleatorias Xn , dada por ( propiedad 7 ) Xn converge en media cuadrática cuando n → ∞ ⇐⇒
E( Xn Xm ) −→ C cuando n , m → ∞ para una C constante; colocando
b b
C= g(t) g(s) E( Xt Xs ) dt ds
a a

tenemos que Sn converge en media cuadrática a una variable aleatoria Z; ésta variable Z se denota

b
por g(t) Xt dt.
a
100

Nota 5.3.1. Xt continua en media cuadr ática =⇒ E( Xt1 Xt2 ) continua en ( t, t ) =⇒


E( Xt1 Xt2 ) es continua en T × T ( parte b) del criterio de continuidad en media cuadr ática )


b
Propiedades de la Integral g(t) Xt dt.
a


b 
b
1. E g(t) Xt dt = g(t) E( Xt ) dt
a a

2 
b
b
b
2. E a
g(t) Xt dt = g(t) g(s) E(Xt Xs ) dt ds
a a

b 

b b
3. V ar g(t) Xt dt = a a g(t) g(s) R(s, t) ds dt
a

b
d 
b
d
4. E g(t) Xt dt · g(s) Xs ds = a c
g(t) g(s) E( Xt Xs ) ds dt
a c

b
d 

b d
5. Cov g(t) Xt dt , g(s) Xs ds = a c g(t) g(s) R( s , t )) ds dt
a c

c
b
c
6. Si a < b < c entonces a g(t)Xt dt = a g(t)Xt dt + b g(t)Xt dt.

b
b
7. || a g(t)Xt dt|| ≤ a |g(t)| ||Xt||dt ≤ (b − a)Max{a≤t≤b} |g(t)| ||Xt ||

8. Teorema Fundamental del Cálculo (TFC). Si Xt , t ≥ 0, es un proceso de segundo orden


continuo en media cuadrática en (0, ∞), Z es una variable aleatoria y se define Yt =

t
Z + 0 Xs ds, entonces Yt es derivable en media cuadrática y se cumple Yt = Xt .

Demostración.


b 
b 
2
1. Como Sn −→ g(t) Xt dt cuando n → ∞, entonces E( Sn ) −→ E g(t) Xt dt
a a
cuando n → ∞ pero

n
E( Sn ) = g(tj ) E( Xtj ) (tj+1 − tj )
j=1


b
y ésta suma converge a la integral g(t) Xt dt luego
a

 b  b
E g(t) Xt dt = g(t) E(Xt ) dt
a a
0 Obviamente 5). =⇒ 3).
101

2
b
2. Si g(t) , Xt son reales, entonces también como Sn −→ g(t) Xt dt se tiene que
a
  2 
  b
E Sn2 −→ E g(t) Xt dt cuando n→∞
a
 
Además E Sn2 = E( Sn Sn ). Utilizando el resultado de la prueba de la proposición
anterior b b
E( Sn Sn ) −→ g(t) g(s) E( Xt Xs ) dt ds
a a
luego
  b 2  b b
E g(t) Xt dt = g(t) g(s) E( Xt Xs ) dt ds
a a a

3. Sabemos que

 b    b 2   b 
2
V ar g(t) Xt dt = E g(t) Xt dt −E g(t) Xt dt
a a
a
b b
= g(t) g(s) E( Xt Xs ) dt ds
a a
b b
− g(t) g(s) E( Xt ) E( Xs ) dt ds
a a
b b
= g(t) g(s) R( s , t ) dt ds
a a

(1) 2
b (2) 2
b
4. Utilizando Sn −→ y Sm −→ cuando n , m → ∞ dos sumas que aproximan en
a a
media cuadrática las integrales, entonces utilizando una propiedad de la convergencia en
media cuadrática tenemos
   b d 
(1) (2)
E Sn Sm −→ E cuando n → ∞
a c
pero
  
m 
n 
E Sn(1) Sm
(2)
=E g(tj ) g(uk ) Xtj Xuk (tj+1 − tj ) (uk+1 − uk )
j=1 k=1

n m
= g(tj ) g(uk ) E( Xtj Xuk ) (tj+1 − tj ) (uk+1 − uk )
j=1 k=1

que tiende a
b d
g(t) g(s) E( Xt Xs ) ds dt cuando n→∞
a c
igualando los términos se tiene la prueba.
102

5. Es inmediata.

Nota 5.3.2. En el caso de que g(t) y Xt sean complejos se tiene


b 2 
b
b


1. E  g(t) Xt dt = g(t) g(s) E( Xt Xs ) dt ds
a a a
b 


d
b
d
2. E g(t) Xt dt g(s) Xs ds = g(t) g(s) E( Xt Xs ) dt ds
a c a c


b
Se pueden considerar otros tipos de integrales en media cuadrática tales como Xt dG(t) y
a

b
G(t) dXt denominadas integrales RS ( Riemann - Stieltjès )
a


b
Definición 5.3.2. ( Definición de G(t) dXt ) Si Xt existe y es continua en media cuadrática y
a
G (t) existe y es continua en [a, b] entonces se define
b b b

G(t) dXt = G(t) Xt  − Xt g(t) dt donde g(t) = G (t)
a a a

La definición anterior se aplicará más adelante en conexión con el proceso de Wiener.

5.4. Ecuaciones Diferenciales Lineales

Sea Xt un proceso en tiempo continuo con t ∈ R, derivable en media cuadrática con X t continua
en media cuadrática. Sean a(t) , b(t) , t ∈ R funciones reales continuas, y Yt , t ∈ R proceso
continuo en media cuadrática. Suponga que Xt , Xt , Yt satisfacen la ecuación diferencial
estocástica

Xt = a(t) Xt + b(t) Yt t≥0


X0 = variable aleatoria independiente de Yt t≥0

entonces

t
t
Xt − a(t) Xt = Xt e− 0 a(s) ds − a(t) e− 0
a(s) ds
Xt



= Xt e − 0t a(s) ds
103

entendiendo la derivada en media cuadrática, luego



t

t
Xt e− 0 a(s) ds = b(t) e− 0 a(s) ds Yt

aplicando el TFC e integrando en [0, t] obtenemos



t
t
s
Xt e− 0 a(s) ds − X0 = b(s) e− 0 a(u) du Ys ds
0

de donde

t
 t
s

Xt = e 0
a(s) ds
X0 + b(s) e− 0 a(u) du Ys ds
0
es la solución de la ecuación diferencial.

Utilizando propiedades de la integral


t
t
E(Xt ) = e b(s) e
t
0
a(s) ds
E(X0 ) + s
a(u) du
E(Ys ) ds
0
y

t
 t t 
V ar(Xt ) = e2 0
a(s) ds
V ar(X0 ) + G(s1 ) G(s2 ) Cov(Ys1 , Ys2 ) ds1 ds2
0 0
con

G(s) = b(s) e−
s
0 a(u) du

Ejemplo 5.4.1. (Boyce and DiPrima (1983), problema No 20, pag. 87)

Un cuarto de volumen V contiene aire libre de CO 2 en t = 0. En ese momento se introduce aire a


una velocidad v, el cual tiene una concentraci ón de CO2 variable con el tiempo, según el proceso
rt , t ≥ 0. El aire ingresa al cuarto, se circula y vuelve a salir a la misma velocidad. Sea y t la
cantidad de CO 2 en el cuarto, en el tiempo t.

Asumiendo que yt es un proceso estocástico derivable en m.c. que satisface la siguiente ecuaci ón
diferencial:
yt
y t = v(rt − ), t ≥ 0 (5.1)
V
y0 = 0

y que el proceso rt es estacionario con media E(r t ) = r, y covarianza Cov(rs , rt) = Rr (t−s) =
2
σ 2 e−α(t−s) , donde α > 0 y σ > 0 son parámetros conocidos. A continuaci ón se desarrolla un
análisis del proceso definido por la soluci ón de (5.1).

1. La solución de la ecuación (5.1) se obtiene directamente con la fórmula de solución de


ecuaciones lineales de primer orden. Entonces
t
yt = ve−vt/V evs/V rs ds. (5.2)
0
104

t
2. Para la media del proceso yt tenemos: µ(t) = E(yt ) = vevt/V 0 e−vs/V E(rs )ds. Reem-
plazando E(rs ) = r obtenemos m(t) = rV (1 − e−vt/V ). Además, lı́mt→∞ µ(t) = rV , lo
cual se interpreta como que el porcentaje de CO2 en el cuarto, después de transcurrir un
tiempo suficientemente largo, debe ser r.

3. Para la varianza y la covarianza encontramos las integrales correspondientes a V ar(yt ) y


Cov(ys , yt ). Para la varianza
t
V (yt ) = V ar(ve−vt/V evs/V rs ds)
0
 t 
2 −2vt/V
= v e V ar evs/V rs ds
0
t t
= v2 e−2vt/V ev(x+y)/V Cov(rx , ry )dxdy
0 0
t t
2
2 2 −2vt/V
= σ v e ev(x+y)/V −α(x−y) dxdy.
0 0

s
t
t
t
La covarianza Cov(ys , yt ) es similar, colocando 0 0 en lugar de 0 0 , y e−v(s+t)/V en
lugar de e−2vt/V .
s t
2
Cov(ys , yt ) = σ 2 v2 e−v(s+t)/V ev(x+y)/V −α(x−y) dxdy. (5.3)
0 0

Para encontrar la expresión de la integral en un t cualquiera se pueden utilizar programas


como Maple ó Derive. Es una expresión algebráicamente complicada. Sin embargo, también
se puede comprobar que
2   
v2 π v
2
lı́m V ar(yt ) = σ vV e 4αV 2 1−φ √ , (5.4)
t→∞ α 2 αV

donde φ(z) es el valor de la distribución acumulada de la Normal Estándar. Asumiendo los


valores siguientes de los parámetros: r = 0.04 %CO 2/m3 , V = 32m3 , v = 0.25 m3 /min,
σ = 0.013 %CO2/m3 , α = 10, el valor de lı́mt→∞ V ar(yt ) es 9.4(10−5 ), por lo que la
desviación estándar es 0.0097. Como la desviación estándar del contenido de CO 2 que
ingresa es 0.013, el resultado obtenido indica que la variabilidad del contenido de CO 2 en
el cuarto es menor.

4. Finalmente, encontramos expresiones para E(y t ) y V ar(y t ), y para los lı́mites respectivos
cuando t → ∞. A partir de la ecuación (5.1), se obtiene la expresión para la media y la
varianza de yt :
E(y t ) = v(E(rt ) − E(yt )/V ) = vre−vt/V
y V ar(y t ) = v2 (V ar(rt ) + V ar(yt )/V 2 − (2/V )Cov(rt , yt )). Pero V ar(rt ) = σ 2 , y la
expresión para V ar(yt ) se indicó anteriormente. Para encontrar Cov(rt , yt ) utilizamos

Cov(rt , yt ) = E(rt yt ) − rm(t)


105
t t
= ve−vt/V evs/V E(rt rs )ds − ve−vt/V evs/V E(rt )E(rs )ds
0 0
t
−vt/V vs/V
= ve e Cov(rt , rs )ds
0
t
2
= σ 2 ve−vt/V evs/V −α(t−s) ds
0

La expresión para V ar(yt ) es poco útil porque no tiene una expresión manejable, pero se
podrı́a tomar lı́mite cuando t → ∞ y reemplazar los valores de los parámetros. El resultado
es aprox. 10−5 .

5.5. Problemas
1. Considere un proceso estacionario (Xt , t ∈ R) con función de covarianza R(x) = (1 +
|x|)e−|x|, x ∈ R.

a) Compruebe que Xt es derivable en m.c.


b) Encuentre E(Xt ), V ar(Xt ) y Cov(Xt , Xt+h

).
c) Compruebe que Xt y Xt tienen covarianza nula.

2. (ver Papoulis (1965), problema 9.16, pag. 334). El proceso (Y t , t ≥ 0) es tal que Y0 = 1,
y Yt + 2Yt = Xt , t > 0, donde Xt es un proceso estacionario con E(Xt ) ≡ 2 y RX (τ ) =
4 + 2e−|τ| . Encuente E(Yt ) y Cov(Yt , Ys ).

3. Sea (Nt , t ≥ 0) un proceso Poisson de parámetro λ. Defina Yt mediante la ecuación


diferencial: Yt = −δYt + Nt , t > 0, con δ > 0 una constante dada, y Y0 = 0. Encuentre
E(Yt ) y V ar(Yt ).

4. Suponga dos procesos Z1,t , Z2,t , t ≥ 0 con media cero, varianzas constantes iguales a σ2 ,
autocorrelaciones y correlaciones constantes iguales a ρ. Considere el sistema de ecuaciones
diferenciales:

Yt = aYt + Z1,t


Xt = bXt + Z2,t , t > 0

donde a > 0, b > 0 son constantes dadas y X0 = Y0 = 0. Encuentre la correlación entre


Xt y Yt , y el lı́mite de ésta cuando t → ∞.

5. Considere una partı́cula de masa unidad suspendida en un lı́quido y suponga que, debido
al lı́quido, existe una fuerza viscosa que retarda la velocidad de la partı́cula a una tasa
106

proporcional a la velocidad V t = −βVt . Suponga que adicionalmente la velocidad cambia


de acuerdo a un múltiplo constante de la derivada del proceso Y t , Yt . Entonces
Vt = −βVt + αYt
Compruebe que
t
Vt = V0 e −βt
+α e−β(t−s) Ys ds
0
 t 
Vt = V0 e−βt + α Xt − β Xs e−β(t−s) ds
0

6. La alimentación intravenosa con glucosa es una técnica médica importante. Se define Xt


como la cantidad de glucosa presente en la sangre de un paciente en el tiempo t. Se supone
que la glucosa se suministra al sistema sanguı́neo a una tasa constante de k gramos por
minuto y que al mismo tiempo la glucosa se transforma a una tasa α > 0 proporcional a la
cantidad de glucosa presente. La función Xt satisface entonces la ecuación diferencial de
primer orden:
Xt = k − αXt , t ≥ 0, X0 = c (5.5)

La ecuación (5.5) se puede transformar en una ecuación diferencial estocástica en media


cuadrática cambiando la constante k por k + Yt , asumiendo que Yt , t ∈ R es estacionario
8
en covarianza con media cero y función de autocovarianza RY (h) = 2e−0.001h .
a) Escriba y Resuelva la ecuación estocástica resultante.
b) Encuentre E(Xt ) y lı́mt→∞ E(Xt ). Interprete el resultado.
c) Calcule Corr(Yt , Yt+k ) para k = 1 y k = 4. Interprete asumiendo que el tiempo t es
en minutos.
7. Suponga un cuerpo con temperatura Xt en el tiempo t ≥ 0. El cuerpo está en un medio
con temperatura variable dada por el proceso estocástico (Yt , t ≥ 0). La relación entre Xt
y Yt se expresa mediante la ecuación diferencial en m.c. siguiente (ley de enfriamiento de
Newton) :
Xt = −k(Xt − Yt ), t ≥ 0 (5.6)
donde k > 0 es una constante dada, relacionada con la conductividad termal del cuerpo,
y (Yt , t ≥ 0) es un proceso estacionario en covarianza con E(Yt ) = µ y Cov(Ys , Yt ) =
σ 2 e−α|t−s|.

a) Compruebe que la solución de la ecuación (5.6) está dada por X t = X0 e−kt + Zt ,


donde asumimos que X0 es una constante conocida (no una variable aleatoria) y
t
−kt
Zt = ke eks Ys ds (5.7)
0

Encuentre E(Xt ) y lı́mt→∞ E(Xt ).


107

b) Se puede comprobar que Cov(Xt , Xt+h ) = Cov(Zt , Zt+h ). Encuentre una expresión
para Cov(Zt , Zt+h ) en forma de integral. No se requiere calcularla. Es posible resolver
esta integral y llegar a la fórmula:

σ 2 ke−kh
Cov(Xt , Xt+h ) = (α − (α + k)e−2kt +
α2 − k 2
+ ke−(α+k)t + ke−(α+k)t+(k−α)h − ke(k−α)h ).

Compruebe que lı́mt→∞ Cov(Xt , Xt+h ) es una función r(h).


(e)
c) Definamos el “estado estacionario"de la ecuación (5.6) como el proceso Xt , esta-
cionario de 2do orden con media igual a lı́m t→∞ E(Xt ) y covarianza igual a r(h).
(e)
Compruebe que V ar(Xt ) < V ar(Yt ). Qué explicación podrı́a darse a esta desigual-
dad?.

5.6. Soluciones
1. a) Por el criterio de derivabilidad para procesos estacionarios, X t existe si existe la
segunda derivada de R(h) = (1 + |h|)e−|h|. Pero

R (h) = −(1 − |h|)e−|h|

Esto se puede comprobar calculando la derivada para h positivo y ne-gativo y com-


probando que se obtiene esta expresión. Observemos que R  (h) = −he−|h| . Luego
Xt es estacionario en covarianza con función de autocovarianza RX  (h) = −R (h).
b) Es inmediato que E(Xt ) = 0, V ar(Xt ) = −R (0) = 1 y Cov(Xt , Xt+h

) =

−R (h).
c) Para comprobar que la covarianza de Xt y Xt es cero tenemos que probar que
E(Xt Xt ) = 0. Utilizando la identidad:

∂ 

E(Xu Xv ) = E(Xu Xv )
∂u

u=v=t
∂ 
= RX (u − v)
∂u u=v=t
= RX (0) = 0

2. Aplicar directamente la fórmula de solución de las ecuaciones lineales de primer orden. Para
Cov(Yt , Ys ) solamente plantear la integral. Utilice Cov(a + bX, c + dY ) = bdCov(X, Y ).

3. Aplicar directamente la fórmula de solución de las ecuaciones lineales de primer orden.


Cuando se calcula la varianza de Yt resulta una integral doble sobre el rectángulo [0, t]x[0, t]
108

en el plano. Dividiendo este rectángulo en dos triángulos con la diagonal e integrando sobre
cada uno de éstos se puede resolver la integral observando que Cov(Nu , Nv ) = λu si
u < v (triángulo inferior) y Cov(N u , Nv ) = λv si u > v (triángulo superior). La integral
se puede simplificar con la fórmula:

eδs
seδs ds = 2 ((δs − 1) + 1)
δ

4. Ejercicio.

5. Ejercicio.

6. Ejercicio.

7. Ejercicio.
CAPÍTULO 6

Procesos Gaussianos y Procesos de Wiener.

6.1. Procesos Gaussianos

Una clase importante de procesos estocásticos son los procesos Gaussianos. En su definición se
utiliza el concepto de vector de variables distribuı́do normal multrivariado.

Definición 6.1.1. Un proceso (Xt , t ∈ T ) es un proceso Gaussiano si para cualquier entero n y


un subconjunto cualquiera {t 1 , t2 , · · · , tn } de T , el vector X = (Xt1 , · · · , Xtn ) se distribuye
normal multivariado.

De acuerdo a las definiciones de normal multivariada la definición anterior es equivalente a


afirmar que para cualesquier conjunto α1 , α2 , · · · , αn de números reales la variable aleatoria

n
X= αj Xtj es una variable aleatoria normal.
j=1

La fgm de X = (Xt1 , · · · , Xtn ) es de la forma

1
MX (t1 , · · · tn ) = exp(t E(X) + t Rt)
 2 
n
1 n  n
= exp  tj E(Xtj ) + tj tk Cov(Xtj , Xtk )
2
j=1 j=1 k=1

109
110

donde
 
R = Cov(Xtj , Xtk ) = R(t1 , t2 , · · · , tn ) = R(t)
3

En conclusión, para definir un proceso Gaussiano (Xt , t ∈ T ), en tiempo discreto ó continuo, es


suficiente definir

1. Su media, m(t) = E(Xt ).

2. Su función de auto-covarianza R(s, t) = Cov(Xs , Xt ), tal que para tiempos cualesquiera


t1 , . . . , tk ∈ T se cumpla que la matriz [R(ti , tj )] sea definida positiva.

La distribución de X = (X t1 , · · · , Xtn ) es Normal Multivariada con

 
R = E (X − E(X) ) (X − E(X ) = [Cov(Xtj , Xtk ) ] = [R(tj , tk ) ]

Algunos resultados de la teorı́a de la distribución Normal Multivariada (ver Apéndice A) se pueden


aplicar directamente a los procesos Gaussianos.

Suponga que (Xt , t ∈ R) es Gaussiano, entonces para n ≥ 1 y t1 , t2 , · · · , tn ∈ R, el vector


 
X = Xt1 , · · · , Xtn tiene una distribución normal multivariada entonces

 
1. Xtj | Xtk ∼ N E(Xtj | Xtk ) , V ar(Xtj | Xtk ) con
ρj , k σj  
E(Xtj | Xtk ) = µj + Xtk − µk
σk
 
V ar(Xtj | Xtk ) = σj 1 − ρ2j , k
2

σj2 = Cov(Xtj , Xtj ) = R(tj , tj )


ρj , k = Cov(Xtj , Xtk )/σj σk

2. Se define la matriz Q = R−1 , R = [ Cov(Xtj , Xtk ) ]n×n con j , k = 1, 2, · · · , n


entonces
 
Xtn | Xt1 , Xt2 · · · , Xtn−1 ∼ N µ , σ 2
donde

  
n−1
µ = E Xtn | Xt1 , · · · , Xtn−1 = µn + aj (Xtj − µj )
j=1
2
 
σ = Q−1
n×n = V ar Xtn | Xt1 , · · · , Xtn−1
Qjn
aj = −
Qnn
µj = E(Xtj )
111

3. Si se define
 
Y = Xtn − E Xtn | Xt1 , · · · , Xtn−1

n−1
= Xtn − µn − aj (Xtj − µj )
j=1

entonces

a) Y es independiente de las variables Xt1 , · · · , Xtn−1


b) Si se tuviera Y = Xtn − Z, con Y independiente de las variables Xt1 , · · · , Xtn−1 y
normal, entonces
 
Z = E Xtn | Xt1 , · · · , Xtn−1

Ejemplo 6.1.1. Suponga un proceso estoc ástico Xt , t ≥ 0, con media cero E(Xt ) ≡ 0 y función
de autocovarianza
2 2
R(t, s) = e−3(t +s )+2 ts .

Un ejemplo muy importante de proceso Gaussiano en tiempo continuo es el proceso de Wiener.

Definición 6.1.2. (Proceso de Wiener o Movimiento Browniano)


Un proceso (Wt , t ≥ 0) Gaussiano se denomina proceso de Wiener si

1. E(Wt ) = 0 para todo t ≥ 0

2. E(Wt Ws ) = mı́n(s , t) = s ∧ t s , t ≥ 0

Nota 6.1.1. (Wong and Hajek (1971), pag. 68 ) “El proceso de Wiener es m ás que un ejemplo de
proceso Gaussiano. Posee una gran cantidad de propiedades ... Adem ás, a partir de este proceso
se pueden definir muchos otros, que siguen poseyendo algunas de sus propiedades, y que pueden
ser utilizados como modelos de fen ómenos fı́sicos y económicos”.

Proposición 6.1.1. (Grimmett and Stirzaker (1994), pag. 212)


Sean 0 < t1 < · · · < tn entonces la matriz R igual a

R = [R(tj , tk )] = [ mı́n(tj , tk )]

es definida positiva y por tanto det(R) = 0.

Demostración. Si Z1 , · · · , Zn son n números complejos y 0 = t0 < t1 < · · · < tn . Hay que


probar que
n n
Z j Zk R(tj , tk ) > 0
j=1 k=1
112

pero R(tj , tk ) = mı́n(tj , tk ) luego



n 
n 
n 
n
Z j Zk R(tj , tk ) = Z j Zk (tj ∧ tk )
j=1 k=1 j=1 k=1

= Z 1 Z1 t1 + Z 1 Z2 t1 + · · · + Z 1 Zn t1
+ Z 2 Z1 t1 + Z 2 Z2 t2 + · · · + Z 2 Zn t2
+ Z 3 Z1 t1 + Z 3 Z2 t2 + · · · + Z 3 Zn t3
..
.
+ Z n Z1 t1 + Z n Z2 t2 + · · · + Z n Zn tn

n 
n 
n
= tj Z j Zj + tj Z j Zk + tj Zj Zk
j=1 k=j+1 k=j+1

= diag + triangular superior + triangular inferior



n
 
n 
n

= tj |Zj |2 + Z j Zk + Zj Zk
j=1 k=j+1 k=j+1

pero

n 
n  
n  
n 
Z j Zj + Z j Zk + Zj Zk = Zk + Zj Z k + Zj
k=j+1 k=j+1 k=j+1 k=j+1
  n  
n 
− Zk Zk
k=j+1 k=j+1
 n 2  n 2
     

=  
Zk  −  Zk 
k=j+1 k=j+1

luego
  2  n 2 

n 
n 
n
 n    
Z j Zk (tj ∧ tk ) = 
tj   
Zk  −  Zk 
j=1 k=1 j=1 k=j+1 k=j+1

n
= tj (aj − aj+1 ) con an+1 = 0
j=1

n 
n
= tj a j − tj aj+1
j=1 j=1
n n
= tj a j − aj tj−1 con t0 = 0
j=1 j=1
n
= (tj − tj−1 ) aj
j=1
113

   2
n
 n 
= 
(tj − tj−1 ) Zk  > 0
j=1 k=j+1

Nota 6.1.2. Este resultado garantiza la existencia del proceso Wiener y tambi én la funci ón de
densidad del vector (Xt1 , · · · , Xtn ) .

Propiedades del Proceso de Wiener


Proposición 6.1.2. Varias propiedades del proceso Wiener se dan a continuaci ón.

1. V ar(Wt ) = E(Wt2 ) = t , t ≥ 0

Demostración. E(Wt2 ) = Cov(Wt , Wt ) = t

2. El proceso de Wiener tiene incrementos independientes. Wtj − Wsj , j = 1, 2, · · · , n son


independientes siempre que los intervalos (s j , tj ] sean disjuntos.

Demostración. Suponga 0 ≤ u ≤ v ≤ s ≤ t. Como Wt es Gaussiano los incrementos


Wv −Wu y Wt −Ws tienen una distribución normal bivariada porque cualquier combinación
lineal es normal. Además
 
E (Wv − Wu )(Wt − Ws ) = R(v , t) − R(v , s) + R(u , s) − R(u , t)
= v−v+u−u= 0

Pero esto implica que Wv − Wu y Wt − Ws son incorrelacionadas y por ser variables con
distribución normal conjunta deben ser independientes. Por tanto, W t tiene incrementos
independientes.

3. El proceso de Wiener tiene incrementos estacionarios es decir, la distribuci ón de Wt − Ws


depende de t − s solamente.

Demostración. La variable Wt − Ws tiene distribución normal con media cero. Además


 
E (Wt − Ws )2 = R(t , t) − 2R(t , s) + R(s , s) = t − 2s + s = t − s

Luego la distribución de W t − Ws ∼ N (0 , t − s) depende de t − s solamente.

4. El proceso Wiener no es estacionario en covarianza ya que, aunque E(W t ) = 0 constante,


para todo t se tiene
1
R(s, t) = mı́n(s, t) = (s + t − |t − s|)
2
para s, t > 0 y no se cumple que R(s, t) sea una funci ón par de t − s.
114

5. P(W0 = 0) = 1.

Demostración. Como W0 ∼ N (0, 0) entonces se puede tomar W0 como una variable


aleatoria concentrada en el valor cero tal que P(W0 = 0) = 1
 2 
6. Wt es continuo en media cuadr ática pues E Wt − Ws −→ 0 si t → s ya que
 2 
E Wt − Ws = E(Wt2 ) − 2E(Wt Ws ) + E(Ws2 )
= t − 2(s ∧ t) + s
= |t − s|

utilizando
1 
s∧t = t + s − |t − s| y |t − s| → 0 si t→s
2
Nota 6.1.3. Wt es por tanto continuo en probabilidad. Adem ás, las trayectorias muestrales
del proceso Wt , como funciones de t tienen la propiedad de ser continuas pero no derivables,
un hecho notable en el an álisis matem ático, cuya demostración se debe a Norbert Wiener,
de quien tom ó el nombre el proceso. El proceso Wt también se denomina “movimiento
browniano” ó “marcha aleatoria”.

7. Wt no es derivable en media cuadrática. Utilizando el criterio visto X t es derivable en


media cuadrática en t ∈ T si y solo si para r , h tales que t + h , t + r ∈ T − {t} entonces
 
Xt+h − Xt Xt+r − Xt
E ···
h r

converge cuando h , r → 0 independientemente.


Utilizando h = r > 0 tenemos
    2 
1 1 h 1
E Wt+h − Wt Wt+r − Wt = 2 E Wt+h − Wt = 2 =
hr h h h
1
pero no converge si h → 0. Luego Wt no es derivable en media cuadrática.
h
8. Sea Ta el primer tiempo en el cual Wt = a, para a > 0. Entonces P(Ta ≤ τ ) =
2(1 − φ(a/τ )).

9. Defina Mτ = M ax(Ws , 0 ≤ s ≤ τ ). Entonces P(Mt ≥ a) = P(Ta ≤ τ ).

Utilizando estas propiedades se puede encontrar la fdp conjunta de (W t1 , · · · , Wtn ) para 0 <
t1 < t2 < · · · < tn considerando la transformación

X1 = Wt1
115

X2 = Wt2 − Wt1
X3 = Wt3 − Wt2
..
.
Xn = Wtn − Wtn−1

entonces   
1 0 0 ··· 0 Wt1
 −1 ···   
 1 0 0   Wt2 
   
(X1 , · · · , Xn ) = 

0 −1 1 ··· 0 



Wt3 

 .. .. .. .. ..   .. 
 . . . . .   . 
0 0 0 ··· 1 Wtn
o sea X = P W luego

fW (w1 , · · · , wn ) = fX (P w) | det(P ) | = fX (P w),

pero la fdp de X, teniendo en cuenta que las variables X1 , · · · , Xn son independientes y Xj ∼


N (0 , tj − tj−1 ), entonces

fX (P w) = fX1 (x1 ) fX2 (x2 − x1 ) · · · fXn (xn − xn−1 )


2 2 2
1 1 x1 1 (xn −xn−1 )
e− 2 t1 ·  1 e− 1
e−
1 (x2 −x1 )
= √ 2 t2 −t1
···  2 tn −tn−1

2π t1 2π (t2 − t1 ) 2π(tn − tn−1 )


 x2 (x −x )2 2

(xn −x n−1 )
− 12 1 + 2 1 +···+

=
e t1 t2 −t1 tn −tn−1

  12
n
(2π) 2 t1 (t2 − t1 ) · · · (tn − tn−1 )

= fWt1 ···Wtn (x1 , · · · , xn )

= fWt1 Wt2 −t1 ···Wtn −tn−1 (x1 , x2 − x1 , · · · , xn − xn−1 )

= fWt2 (x1 ) fWt2 −Wt1 (x2 − x1 ) · · · fWtn −Wtn−1 (xn − xn−1 )

Ejemplo 6.1.2. Para s < t y Wt = b, la fdp condicional de W s dado Wt = b se obtiene como

fWs Wt (x , b)
fWs (x | Wt = b) =
fWt (b)
fWs (x) fWt−s (b − x)
=
fWt (b)
2
√ 1
2π s
e− 1 x2
2 s ·√ 1
2π(t−s)
e− 1 (b−x)
2 t−s

=
√1
2π t
e− 1 b2
2 t
116
 2
x− bs
− 12 
t 
1
=2   e s 1− s
t

2π s 1 − st
 bs  s 
con lo cual Ws | Wt = b ∼ N , s 1− , 0 < s < t, ası́
t t
bs  s
E(Ws | Wt = b) = y V ar(Ws | Wt = b) = s 1 −
t t
Definición 6.1.3. Si g(t) tiene derivada continua en [0, t) en media cuadr ática entonces la integral

t
g(s) dWs se define por
0
t t
t 
g(s) dWs = g(s) Ws  − g (s) Ws ds
0 0 0

y la integral de la derecha existe siempre.



b
Proposición 6.1.3. Si g(t) es continua existe la integral g(t) dWt .
a

La demostración no es posible darla en este momento. En un capı́tulo posterior se define la integral

b
b
Xt dWt donde Xt es un proceso, y se considera la integral g(t) dWt como un caso particular.
a a


b
Algunas propiedades de la integral g(t) dWt se dan a continuación.
a

1. Si g(t) tiene derivada continua en [a, b) entonces


 t 
E g(s) dWs = 0
0

Demostración.
   t  t
t 
E g(s) dWs = E g(s) Ws  − E(Ws ) g (s) ds = 0
0 0 0

 t 2 


t
2. E g(s) dWs = g2 (s) ds
0 0

Demostración. Veamos que si f(t) y g(t) son funciones con derivadas continuas entonces
 t t  t
E f(s) dWs g(s) dWs = f(s) g(s) ds
0 0 0

si se demuestra esto, entonces colocando f = g se obtiene b)


117

De las relaciones
t t
f(s) dWs = f(t) Wt − f  (s) Ws ds
0 0
t t
g(s) dWs = g(t) Wt − g (s) Ws ds
0 0

 t t     t 
E f(s) dWs g(s) dWs =E f(t) g(t) Wt2 − E f(t) Wt g(s) Ws ds
0 0 0
 t 
− E g(t) Wt f  (s) Ws ds
0
 t t 
+E f  (s) Ws ds g (s) Ws ds
0 0
t t
= f(t) g(t) t − f(t) g (s) s ds − g(t) f  (s) s ds
0 0
t t
 
+ f  (u) g (v) E Wu Wv du dv
0 0
 t 
= f(t) g(t) t − f(t) tg(t) − g(s) ds
0
 t 
− g(t) tf(t) − f(s) ds
0
t t
+ f  (u) g (v) mı́n(u , v )du dv
0 0

pero
t t t  t 
f  (u) g (v) mı́n(u , v )du dv = f  (u) g (v) mı́n(u , v )dv du
0 0 0 0

y
t t t
g (v) mı́n(u , v )dv = g (v) v dv + g (v) u dv
0 0 0
u
 
= ug(u) − g(v) dv + u g(t) − g(u)
0u
= ug(t) − g(v) dv
0

luego
t  t  t  t 
f  (u) g (v) mı́n(u , v )dv du = f  (u) ug(t) − g(v) dv du
0 0 0 0
t t u
 
= g(t) uf (u) du − f (u) g(v) dv du
0 0 0
118

 t  t
= g(t) tf(t) − f(s) ds − f(t) g(s) ds
0 0
t
+ f(u) g(u) du
0

al reemplazar ésta expresión obtenemos


 t t  t
E f(s) dWs g(s) dWs = f(s) g(s) ds
0 0 0

con lo cual  t  t
V ar g(s) dWs = g2 (s) ds
0 0

3. Suponga 0 ≤ a ≤ b ≤ c ≤ d entonces
 b d 
E f(s) dWs g(s) dWs =0
a c

4.  
t1 t2 mı́n(t1 , t2 )
E f(s) dWs g(s) dWs = f(s) g(s) ds
a a a


t
Proposición 6.1.4. El proceso Zt = g(s) dWs satisface
0

1. Es gaussiano

t mı́n(s

, t)
2. E(Zt ) = 0 , V ar(Zt ) = g2 (s) ds , Cov(Zs , Zt ) = g2 (x) dx
0 0

Demostración.

t
Zt = g(t) Wt − g (s) Ws ds pero
0
s n
Sn = −αs e j=1 g (tj ) Wtj (tj+1 −tj )+g(tn+1 )Wtn+1
0

con tn+1 = t para todo n ≥ 1 es normal y


t
Sn −→ − g (s) Ws ds + g(t) Wt cuando n→∞
0

luego Zt es gaussiano.

Ejemplo 6.1.3. Se define el proceso Xt mediante la expresión


t
Xt = eα(t−s)dWs para t ≥ 0 α > 0
0

entonces Xt cumple
119

1. E(Xt ) = 0

2.
 t 2    t 2 
V ar(Xt ) = E eαt e−αs dWs = e2αt E e−αsdWs
0 0

e−2αsds = e2αt e 
t −2αs t
= e2αt −2α 0
0

=
e2αt  1 − e−2αt

=
1 
e2αt
−1

2α 2α

3.
 s t 
Cov(Xs , Xt ) = E(Xs Xt ) = E eαs e−αudWu eαt e−αv dWv
0 0
 s t  s∧t
= eα(s+t) E e−αu dWu e−αv dWv = eα(s+t) e−2αudu
0 0 0

= eα(s+t) e−2αu s∧t = eα(s+t) 1 − e−2α(s∧t)
−2α 0 2α
1  
=

eα(s+t) − eα|t−s| s , t ≥ 0
utilizando la identidad: 2(s ∧ t) = s + t − |t − s|.

6.2. Procesos Estacionarios Gaussianos. Derivadas e Integrales

Si (Xt , t ∈ R) es un proceso estacionario en covarianza Gaussiano, con función de autoco-


varianza R(h) y media µ entonces basta especificar estas cantidades para obtener la distribución
multivariada de cualquier vector X = (X t1 , · · · , Xtn ) , ti ∈ R , i = 1, 2, · · · , n, es decir,
el proceso queda completamente definido. Algunas propiedades de los procesos estacionarios
gaussianos se dan a continuación.

Proposición 6.2.1. 1. Xt es continuo en media cuadr ática si y solo si R(h) es continua en


h = 0.

2. Si existe R (h) entonces Xt es derivable en media cuadrática. Además, Xt es Gaussiano
estacionario en covarianza con

E(Xt ) = 0
V ar(Xt ) = −R (0)
RX  (h) = −R (h) = Cov(Xt , Xt+h

) = E(Xt Xt+h )
120

3. Si Xt es continuo en media cuadr ática y g(t) es función continua entonces


t
Zt = g(s) Xs ds t∈R
0

es Gaussiano con
  t t
µt = E
g(s) Xs ds = µX g(s) ds µX = E(Xt )
0 0
 t  t t
2
σt = V ar g(s) Xs ds = g(u) g(v) R(u − v) du dv
0 0 0
t s
Cov(Zs , Zt ) = g(u) g(v) R(u − v) du dv
0 0

Demostración.

1. La demostración es inmediata a partir del criterio para continuidad en media cuadrática.


n
2
b
2. Defina Sn = g(tj ) Xtj (tj+1 − tj ) entonces Sn2 −→ I = g(t) Xt dt cuando n → ∞
j=1 a

n
pero para cada n , Sn = aj Xtj es normal porque X = (Xt1 , · · · , Xtn ) es normal
j=1
2
multivariado ya que X t es Gaussiano. Luego si Sn −→ I , n → ∞ se cumple que
I ∼ N (µI , σI2 ). Las expresiones para µt y σt2 se siguen de propiedades vistas anteriormente,
al igual que Cov(Zs , Zt )

Xt+h − Xt 2 Xt+h − Xt
3. Sabemos que −→ Xt cuando h → 0 pero para h = 0 es normal
h h
debido a que Xt es Gaussiano, luego Xt es Gaussiano

Nota 6.2.1. Aunque Xt sea estacionario en covarianza Zt no es necesariamente estacionario en


covarianza

 b  b b
V ar = h(s) h(t) R(t − s) ds dt
a a a
 b d  b d
Cov h(u) Xu du , h(v) Xv dv = h(u) h(v) R(u − v) dv du
a c a c
121

Ejemplo 6.2.1. Si Xt = Z1 cos (λt)+Z2 sen(λt) , t ∈ R , Z1 , Z2 ∼ N (0 , σ 2 ) independientes,


entonces Xt estacionario con R X (u) = σ 2 cos (λt). Además es Gaussiano. Entonces Zt =

t
Xs ds es Gaussiano con
0

E(Zt ) = 0
t s
Cov(Zs , Zt ) = σ 2 cos (λ(x − y)) dx dy
0 0
1 
= 2
cos (λ(t − s)) − cos (λs) − cos (λt) + 1
λ
2
V ar(Zt ) = 2 (1 − cos (λt))
λ
luego Zt no es estacionario en covarianza.

t
Ejemplo 6.2.2. Suponga Z t = Xu du con (Xt , t ≥ 0) un proceso estacionario de segundo
0
orden con

E(Xt ) = δ

R(s , t) = R(t − s) = σ 2 e−α(t−s)


2
α>0

Encontrar

1. E(Zt )

2. V ar(Zt )

3. Si Yt = eZt encuentre E(Yt )


t
Demostración. 1. E(Zt ) = E(Xu ) du = δt t≥0
0


t
t
2. V ar(Zt ) = R(u − v) du dv y podemos usar la siguiente identidad:
0 0
Si R(·) es una funci ón par entonces R(x) = R(−x)
Entonces
T T T
R(t − s) dt ds = 2 (T − u) R(u) du
0 0 0

luego
t t t t
(t − u) e−αu du
2
2
R(u − v) du dv = 2 (t − u) R(u) du = 2σ
0 0 0 0
122

por tanto
t t t
(t − u) e −αu2
e −αu2
ue−αu du
2
2 2 2
V ar(Zt ) = 2σ du = 2σ t du − 2σ
0 0 0
pero
t  
t t
1 −αu2 
ue−αu du = −
1
(−2αu)e−au du = − e 1
e
2 2
−αt2
 = 1 −
0 2α 0 2α 0 2α
Usando la identidad
t  
1 u2  
√ e− 2σ2 du = P 0 ≤ N (0 , σ2 ) ≤ t = φ σt − 12
0 2π σ
y utilizando
b b cb x
k 1
f(x) dx = k f(kx) dx = f dx
a a
k
c ca c
entonces

t t 2
u2
e −αu2
du = √
1
e− 2/α du
0 2 0
√  √
1 2π 1/α t 2 − 2/α u2
= √ √  e du
2 2π 1/α 0
2   1 
π √
= P 0 ≤ N 0, ≤t 2
α α
2  
π √ 1
= φ(t 2α ) −
α 2
luego 2  
t √
e −αu2
du =
π
α
φ(t 2α ) −
1
2
0
y por tanto
  2
 
√ 1 σ2 π
1 − e−αt
2
2
V ar(Zt ) = 2σ t φ(t 2α ) − −
2 α α
s t s t
Cov(Zs , Zt ) = R(u − v) du dv = σ 2 e−a(u−v)2 du dv
0 0 0 0
 
3. Encontrar E eZt .
 
Como Zt ∼ N δt , V ar(Zt )) para cada t ≥ 0 y como X ∼ N (µ , σ2 implica
 
E etX = etµ+
t2 σ 2
2

tenemos
 
E eZ t
= eδt+ 2 V ar(Zt )
1
123
 
Observación α grande implica V ar(Zt )  0 y E eZ t
 eδt

Ejemplo 6.2.3. Supongamos se tiene s = 5 , t = 10 , α = 2 , σ 2 = 4 y δ = 1 entonces


Cov(Z5 , Z10 ) = 4(6.016)
E(Z10 ) = δ(10) = 10
E(Z5 ) = 5
V ar(Z5 ) = 4(5.766)
Cov(Z5 , Z10 ) = 4(6.016)
Cov(Z5 , Z10 )
E(Z10 | Z5 = 3) = E(Z10 ) + (Z5 − E(Z5 ) )
V ar(Z5 )
6.016
= 10 + (3 − 5) = 7.913
5.766

6.3. Procesos con Incrementos Independientes

Definición 6.3.1. Un proceso estocástico (Xt , t ≥ 0) tiene Incrementos Independientes si para


cualquier subconjunto finito {t 0 , . . . , tn } ⊆ [0, +∞) con 0 ≤ t0 < t1 < . . . < tn los incrementos
Xt0 , Xt1 − Xt0 , Xt2 − Xt1 , . . . , Xtn − Xtn−1 son v.a. independientes.

Observación Si el conjunto de ı́ndices es discreto, digamos T = {0, 1, 2, . . .} entonces un


proceso con incrementos independientes es simplemente una sucesión de v.a. independientes
Z0 = X0 ; Z1 = X1 − X0 ; . . . , Zn = Xn − Xn−1 , . . . con n = 1, 2, . . .
Definición 6.3.2. Decimos que el proceso estocástico real {Xt , t ≥ 0} tiene incrementos esta-
cionarios si la distribuci ón de los incrementos Xt+h − Xt depende sólo de la longitud h del
intervalo.
Es decir, si {Xt , t ≥ 0} tiene incrementos estacionarios entonces
Xt2 +h − Xt1 +h = Xt2 − Xt1 , ∀t1 < t2 , h > 0. (6.1)

6.4. Procesos Gaussianos con Incrementos Independientes

Los procesos gaussianos con incrementos estacionarios sirven como modelos en teorı́a de teleco-
municaciones para el tráfico en escalas de tiempo grandes.
Definición 6.4.1. Un proceso (Xt , t ∈ R) gaussiano tiene incrementos estacionarios si se cumple
que X0 = 0 y para cualquier t0 ∈ R los procesos Xt y Xt0 +t − Xt0 tienen las mismas
distribuciones
124

Un ejemplo de proceso gaussiano con incrementos estacionarios es el proceso de Wiener fraccional


ó movimiento Browniano fraccional (FBM). El proceso FBM tiene varianza v(t) = t 2H , donde el
parámetro de autosimilaridad es H ∈ (0, 1). Su propiedad más importante es la autosimilaridad:
los procesos Zat y aHZt tienen la misma distribución para todo a > 0. Si H > 1 el proceso FBM
tiene dependencia de rango extendido.

6.5. Problemas
1. Suponga que X1 y X2 son dos variables aleatorias distribuı́das conjuntamente Normal,
con medias µ1 , µ2 , varianzas σ12 , σ22 , respectivamente, y correlación ρ. Defina (Zj )j∈Z una
sucesión i.i.d de variables Normales N (0, σ 2 ), independientes de X1 y de X2 . Defina el
proceso Yt = X1 + tX2 + Zt , t ∈ Z.

a) Compruebe que Yt es un proceso Gaussiano.


b) Encuentre la distribución de Y t |Ys para s < t.

2. Si Xt = δt + a(Wt + Wτ(t) ), t ≥ 0, donde δ, a ∈ R son constantes dadas y τ (t) =


(1 − e−2t )/2, encuentre V ar(Xt ).

3. Suponga que Xt , t ∈ R es un proceso gaussiano de media cero y función de autocovarianza


R(s, t) = E(Xs Xt ) = σs,t. Defina el proceso Yt = Xt2 .

a) Encuentre la media y la covarianza de Yt .



1
b) Aplique el resultado para encontrar la media y la covarianza de 0
Wt2 dt, donde Wt
es el proceso de Wiener.
c) Consider un proceso ruido blanco con varianza σ 2 , Zn , n ∈ Z. Aplique el resultado
para comprobar que Zn2 es un proceso incorrelacionado.
d) Si Xn es un proceso AR(1) estacionario en covarianza de media cero, entonces si las
distribuciones marginales son variables distribuı́das normal, compruebe que X n2 es un
proceso que tiene función de autocovarianza similar a la de un AR(1).

4. Suponga un proceso gaussiano (Xj , j ∈ Z) tal que E(Xj ) = µ exp(−1/j) y Cov(Xi , Xj ) =


R(i, j) = σ 2 exp(−|1/i − 1/j|), donde µ y σ se asumen conocidos.

a) Encuentre E(Xn Xm ).
b) Considere el siguiente resultado: Un proceso X n converge en media cuadrática a una
2
variable X, Xn → X, si y solo si E(Xn Xm ) converge a una constante c cuando
n, m → ∞.
Compruebe que para el proceso que se está considerando se cumple: E(Xn Xm ) →
c, n, m → ∞, y encuentre la constante c.
125

c) Encuentre la distribución de la variable X a la cual converge el proceso X n . Note que


cada variable Xn está distribuı́da normal.
d) Se define el proceso (Yj : j = 0, 1, . . .) mediante la ecuación recursiva siguiente:

Yn = ϕYn−1 + Xn , n = 1, 2, . . .

donde ϕ ∈ (−1, 1), y Y0 ∼ N (µ, σ 2 ), es independiente de Xn , n = 1, 2, . . ..


Encuentre Yn utilizando la fórmula de la solución de ecuaciones de la forma
xn = axn−1 + bn .
e) Encuentre una expresión para V ar(Yn ). Utilice la varianza de variables de la forma:
 
α X, α ∈ Rn , dada por V ar(α X) = i j αi αj Ri,j
2
f ) Se puede probar que Yn → Y , para cierta variable Y . Encuentre Y a partir de la
2
ecuación recursiva Yn = ϕYn−1 +Xn . (Utilice el resultado: aX n +bYn → aX +bY ).

5. Suponga el siguiente resultado auxiliar:

Lema 6.5.1. Si X1 , X2 son dos variables aleatorias distribuı́das Normal con media cero

y varianzas σ12 , σ22 , independientes, entonces la variable X = X1 X2 / X12 + X22 se
distribuye Normal con media cero y varianza σ 12 σ22 /(σ1 + σ2 )2 .

Defina el proceso estocástico Xn como la sucesión que cumple la relación recursiva:

Xn−1 Zn
Xn =  , n = 1, 2, . . . (6.2)
2
Xn−1 + Zn2

con X0 ∼ N (0, 1) y Zn ∼ i.i.d. N (0, 1), independientes de X0 . Compruebe que cada Xn


es una variable aleatoria Normal, pero (Xn , n = 1, 2, . . .) no es un proceso Gaussiano (1 ) .

6. Suponga un proceso gaussiano estacionario en covarianza, Xt , t ∈ R, con media E(Xt ) = µ


y función de autocovarianza Cov(Xt , Xt+h ) = σ 2 exp(−αh2 ), α > 0. Defina Yt =

t
Y0 + 0 Xs ds, donde Y0 es una variable aleatoria y Ct = E(exp(Yt )|Y0 ). Encuentre
C1 , utilizando
1 1
2 √
exp(−α2 (u − v)2 )dudv = (e−α − 1)/α2 + π(φ(α) − 1/2)/α
0 0

La cantidad C1 se puede interpretar como un análogo de c 1 = 1 + i, donde i ∈ (0, 1) es


una tasa de interés para capitalización en un perı́odo [0, 1]. C 1 es un factor de capitalización
estocástica esperado.
1 P. Chigansky en http://www.eng.tau.ac.il/p̃avelm/Public/Random Processes/rp.html
126

6.6. Soluciones
1. a) Para comprobar que Yt es gaussiano se toman k números reales ai y k tiempos ti ∈ Z,
k
i = 1, . . . , k, y se determina si i=1 ai Yti es una variable Normal. Reemplazando en
la sumatoria anterior Yt por su definición se obtiene:

k 
k 
k 
k 
k
ai Yti = ai (X1 + ti X2 + Zti ) = X1 ai + X2 a i ti + ai Zti .
i=1 i=1 i=1 i=1 i=1
k k
Entonces, por ser X1 i=1 ai + X2 i=1 ai ti una combinación lineal de un vec-
tor (X , X ) Normal bivariado, se distribuye como una variable Normal. Además,
k 1 2
i=1 ai Zti es una combinación lineal de variables independientes Normales por lo
que se distribuye Normal. Finalmente, la suma de estas dos variables Normales in-
dependientes debe distribuı́rse Normal, con lo cual se comprueba que el proceso es
gaussiano.
b) Como (Ys , Yt ) se distribuye normal bivariado, por propiedad de las distribuciones
Normales multivariadas se cumple que la variable condicionada Yt |Ys se distribuye
Normal, con media y varianza dadas por:
Cov(Yt , Ys )
E(Yt |Ys ) = E(Yt ) + (Ys − E(Ys ))
V ar(Ys )
V ar(Yt |Ys ) = V ar(Yt )(1 − Corr(Yt , Ys )2 ).

Las distintas cantidades que intervienen en las expresiones anteriores se calculan con
fórmulas estándar de la teorı́a. Para la media: E(Yt ) = E(X1 +tX2 +Zt ) = µ1 +tµ2 .
Luego
Cov(Yt , Ys ) = E(Yt Ys ) − (µ1 + tµ2 )(µ1 + sµ2 ).
Desarrollando E(Yt Ys ), tenemos

E(Ys Yt ) = E((X1 + sX2 + Zs )(X1 + tX2 + Zt ))


= E(X12 + tX1 X2 + X1 Zt + sX1 X2 + stX22 + sX2 Zt +
Zs X1 + tX2 Zs + Zs Zt )
= E(X12 ) + tE(X1 X2 ) + 0 + sE(X1 X2 ) + stE(X12 ) + 0 + 0 + 0 + 0
= E(X12 ) + (t + s)E(X1 X2 ) + stE(X12 ).

Luego

Cov(Ys , Yt ) = E(X12 ) + (t + s)E(X1 X2 ) + stE(X12 ) − (µ1 + tµ2 )(µ1 + sµ2 )


= σ12 + stσ22 + (s + t)σ1,2

Además, V ar(Yt ) = σ12 +t2 σ22 +2tσ1,2 . La expresión para Corr(Ys , Yt ) se obtiene de
las cantidades anteriores, lo mismo que V ar(Yt |Ys ) = V ar(Yt )(1 − Corr(Yt , Ys )2 ).
127

2. De las definiciones tenemos V ar(Xt ) = a2 (t+τ (t)+2Cov(Wt , Wτ(t) )). Podemos calcular

t
t
la covarianza escribiendo Wt = 0 dWs y Wτ(t) = 0 e−s dWs . Entonces,
t t
Cov(Wt , Wτ(t) )) = E( dWs . e−s dWs )
0 0
t
= e−s ds
0

reemplazando se tiene V ar(Xt ) = a (3 + t − 2e−t − (1/2)e−2t ).


2

3. Tenemos: E(Yt ) = E(Xt2 ) = V ar(Xt ) = R(t, t) = σt2 . Para la covarianza se tiene:


Cov(Ys , Yt ) = E(Xs2 Xt2 )−σs2 σt2 . Ahora, E(Xs2 Xt2 ) = E(E(Xs2 Xt2 |Xs )), por propiedades
de la esperanza condicional, y

E(Xs2 Xt2 |Xs ) = Xs2 E(Xt2 |Xs ) = Xs2 (V ar(Xt |Xs ) + E2 (Xt |Xs ))
 2
2 2 2 R(s, t)
= Xs σt (1 − ρs,t ) + 0 + (Xs − 0)
R(s, s)
= Xs2 (σt2 − σs,t
2
/σs2 + σs,t
2
Xs2 /σs4 ),

donde ρs,t = σs,t/(σs σt ) es la correlación. Utilizando E(Xs4 ) = 3σs4 , se obtiene

E(Xs2 Xt2 ) = E(E(Xs2 Xt2 |Xs ))


= E(Xs2 (σt2 − σs,t
2
/σs2 + σs,t
2
Xs2 /σs4 ))
= σs2 σt2 − σs,t
2 2
+ 3σs,t .

Simplificando se llega a Cov(Ys , Yt ) = E(Xs2 Xt2 ) − σs2 σt2 = 2σs,t


2
= 2R(s, t)2 .

4. Veamos que X1 ∼ N ormal. Como X1 = √X02Z1 y X0 , Z1 son variables distribuı́das


X0 +Z12
Normal con media cero ambas e independientes, entonces por el resultado auxiliar X1
se distribuye Normal con media cero ( y varianza 1/4). Repitiendo este razonamiento se
prueba que X2 se distribuye Normal con media cero, y por medio de un razonamiento por
inducción se concluye que Xn se distribuye Normal con media cero para todo n = 1, 2, . . ..
Considere ahora la variable bidimensional (X 0 , X1 ). Si se supone que (Xn ) es un proceso
Gaussiano entonces (X0 , X1 ) se distribuye Normal bivariada. Pero E(X 0 X1 ) = 0 porque
    
X0 Z1 X02 Z1
E(X0 X1 ) = E X0  =E E  |X0
X02 + Z12 X02 + Z12
  
2 Z1
= E X0 E  |X0 = 0.
X02 + Z12

La razón por la
 cual se concluye
 que la última expresión es cero es porque la esperanza
condicional E √ Z21 2 |X0 se calcula reemplazando el valor de X0 y luego quitando
X0 +Z1
128

el condicional porque X 0 y Z1 son independientes, y finalmente observando que es la


esperanza de una función impar de una variable Normal de media cero, por lo cual debe
ser nula. Finalmente, si X1 y X0 son independientes se debe cumplir que E(X12 |X0 ) no
deberı́a depender de X0 . Sin embargo, se puede comprobar que E(X12 |X0 = 0) = 0 y
E(X12 |X0 = 1) = 0 (ejercicio!).
CAPÍTULO 7

Procesos de Markov

7.1. Definiciones

La teorı́a de procesos de Markov, iniciada por A. A. Markov en 1906, se basa en el principio de


que en ciertos fenómenos el futuro es independiente del pasado cuando se conoce el presente. Este
principio se denomina en fı́sica el principio de causalidad. Un ejemplo es un sistema descrito por
una ecuación diferencial yt = f(t , yt ) , y0 = dado , t ≥ 0 en el cual para conocer yt , t > 0 es
suficiente la condición inicial y 0 y la regla en la cual evoluciona el sistema. Por eso yt es función
de y0 . La información acerca de ys , para s < 0 no se requiere para encontrar yt , t > 0.

La propiedad de Markov para un proceso Xt es la traducción estocástica del principio de causali-


dad.

Definición 7.1.1. Un proceso estocástico (Xt , t ∈ T ) , T ⊆ [0, ∞) se dice proceso de Markov


si se cumple que para n ≥ 1 y 0 ≤ t1 < t2 < · · · < tn < t en T , x ∈ R
   
P Xt ≤ x | Xt1 , · · · , Xtn = P Xt ≤ x | Xtn

Un proceso de Markov cumple con la siguiente propiedad


 
Proposición 7.1.1. Si Ft = σ Xs , 0 ≤ s ≤ t es la informaci ón hasta t y t1 < t < t2 y

129
130
  
A1 ∈ σ Xs , 0 ≤ s ≤ t1 ) , A2 ∈ σ Xs , t2 ≤ s entonces
      
P A1 A2 | Xt = P A1 | Xt P A2 | Xt

Definición 7.1.2. Para el caso de ser Xt variables aleatorias continuas, la funci ón
   
F s , x ; t , y = P Xt ≤ y | Xs = x 0 ≤ s ≤ t

tal que

   1 si y≤x
F s , x ; s , y = I(y ≤ x =
0 si y>x
se denomina funci ón de transici ón del proceso de Markov Xt . Si existe una funci ón de densidad ,
 
es decir, si existe fXt u | Xs = x tal que, para s < t
y
   
P Xt ≤ y | Xs = x = fXt u | Xs = x du
−∞
 
entonces fXt u | Xs = x se denomina densidad de transici ón. Se debe cumplir

d    
P Xt ≤ y | Xs = x = fXt y | Xs = x
dy

Para el caso en el que Xt sean variables aleatorias discretas las definiciones son similares.

Teorema 7.1.1 (Ecuación Chapman - Kolmogorov ). Para 0 < s ≤ u ≤ t , x , y ∈ R se tiene



    
P Xt ≤ y | Xs = x = P Xt ≤ y | Xu = v fXu (v | Xs = x dv
−∞

   
= F u , v ; t , y fXu v | Xs = x dv
−∞

Demostración. Sabemos que


   
P Xt ≤ y | Xs = P Xt ≤ y | σ(Xs )
   
y como s ≤ u ≤ t entonces σ Xs ⊂ σ Xs , 0 ≤ s ≤ u y
   
P Xt ≤ y | Xs = E I(Xt ≤ y) | Xs = x
   
= E E I(Xt ≤ y) | Xs , 0 ≤ s ≤ u | Xs = x
   
= E P Xt ≤ y | Xs , 0 ≤ s ≤ u | Xs = x
   
= E P Xt ≤ y | Xu | Xs = x

  d  
= P Xt ≤ y | Xu = v P Xu ≤ v | Xs = x dv
R dv
131

luego

    d  
P Xt ≤ y | Xs = x = P Xt ≤ y | Xu = v P Xu ≤ v | Xs = x dv
R dv

Ejemplo 7.1.1. 1. Proceso de ramificación.

2. Proceso Wiener.

3. Proceso Poisson.

Ejemplo 7.1.2. La siguiente expresión es una funci ón de transici ón para un proceso Xt , t ≥ 0

con Xt ∈ R. f(s, x; t, y) = ceu−v (v/u)q/2 Iq (2 uv), donde u = cxe−θ2∆ , v = cy, q =
2θ2 θ1 /θ32 −1, y Iq (.) es la función de Bessel de primera clase de orden q. Corresponde a un proceso

descrito por una ecuación diferencial estoc ástica de la forma X t = θ2 (θ1 − Xt ) + θ3 Xt Wt ,
una ecuación diferencial de Ito,

Nota 7.1.1. La ecuación de Chapman - Kolmogorov con densidad de transici ón



    d  
P Xt ≤ y | Xs = x = P Xt ≤ y | Xs = x P Xu ≤ v | Xu = v dv
R dv

derivando con respecto a y obtenemos



     
fXt y | Xs = x = fXt y | Xu = v fXu v | Xs = x dv,
R

para s < u < t.

Nota 7.1.2. Suponga que se conoce la distribuci ón de la posici ón inicial del proceso, es decir,
  d  
P X0 ≤ x y fX0 (x) = P X0 ≤ x y se conoce F (s , x ; t , y) , 0 ≤ s ≤ t entonces
dx
utilizando el teorema de probabilidad total tenemos

   
P Xt ≤ y = P Xt ≤ y | X0 = x fX0 (x) dx
R

= F 0 , x ; t , y) fX0 (x) dx
R

Proposición 7.1.2. Dada una fda F (x) y una funci ón de transici ón F s , x ; t , y) para s , t ≥ 0,
entonces siempre se puede suponer que existe un proceso de Markov (Xt , t ≥ 0) tal que
 
P Xt ≤ y | Xs = x coincide con F (s , x ; t , y) y tal que X0 ∼ F (x).

Definición 7.1.3. Un proceso de Markov se dice homogéneo si se cumple que


   
P Xt+h ≤ y | Xs+h = x = P Xt ≤ y | Xs = x
132

para todos s ≤ t y h tal que 0 ≤ s + h ≤ t + h. Luego si X t es homogéneo y s ≤ t


   
P Xt ≤ y | Xs = x = P Xt−s ≤ y | X0 = x

luego la funci ón de transici ón F (s , x ; t , y) depende de t − s , x , y, y se puede escribir como


F (t − s , x , y) luego
 
P Xt ≤ y | Xs = x = F (t − s , x , y)
Definición 7.1.4. El proceso Xt se dice que posee una distribuci ón invariante G(x) si X 0 ∼ G
implica Xt ∼ G para todo t > 0.

Es decir, si G(x) es invariante se debe cumplir que, si en la identidad



FXt (x) = F (0 , x ; t , y) fX0 (x) dx
R

se reemplaza fX0 (x) por g(x) = G (x) entonces

FXt (x) = F (0 , x ; t , y) g(x) dx = G(x)
R

es decir X0 ∼ G implica Xt ∼ G , t > 0.


Proposición 7.1.3. Una condición suficiente para que un proceso de Markov sea estacionario en
covarianza es que

1. Xt sea homogéneo.

2. Existe una distribuci ón invariante F X .

Demostración. Si se escoge FX0 como la distribución invariante F X , es decir, si X0 ∼ FX


entonces Xt ∼ FX , t ≥ 0. Luego E(Xt ) = c1 , constante y V ar(Xt ) = c2 , constante. Asumiendo
  
t1 < t2 se tiene fXt1 , Xt2 (x1 , x2 ) = fXt2 x2 | Xt1 = x1 fXt1 (x1 ). Pero fXt2 x2 | Xt1 =

x1 depende de t2 − t1 , x1 , x2 y como se asume que X0 ∼ FX la distribución invariante,
entonces fXt1 (x1 ) no depende de t1 por tanto E(X t1 Xt2 ) depende solamente de t2 − t1 . En el
caso t1 > t2 el razonamiento es el mismo, condicionando Xt1 con respecto a Xt2 , con lo cual
E(Xt1 Xt2 ) depende de t1 − t2 . Es decir, E(Xt1 Xt2 ) depende de |t2 − t1 |, por lo que el proceso
es estacionario de segundo orden.

7.2. Cadenas de Markov

Definición 7.2.1 (Cadena de Markov). Una Cadena de Markov se define como un proceso
estocástico de Markov, en tiempo discreto, (Xn , n = 0, 1, . . .), con espacio de estados un
conjunto contable E. La cadena se denomina finita si E es finito, y se coloca por simplicidad
E = {1, · · · , d}.
133

Si Xn = i ∈ E se dice que el proceso está en el estado i en el tiempo t = n. La cadena se define a


partir de una matriz P = [Pi,j ], con 0 ≤ Pij ≤ 1, i, j ∈ E, tal que Pi,j representa la probabilidad
de transición del estado i al estado j en un paso, definida por:

Pi,j = P(Xn+1 = j | Xn = i)
= P(Xn+1 = j | Xn = i, Xn−1 = in−1 , . . . , X1 = i1 , X0 = i0 )

A partir de esta definición se deduce que, para cada i ∈ E,


 
Pi,j = P(Xn+1 = j | Xn = i)
j∈E j∈E
= P(Xn+1 ∈ E | Xn = i) = 1

Es decir, la matriz P tiene entradas no negativas y cada fila suma uno.

Ejemplo 7.2.1. Suponga una cadena de Markov (X n , n = 0, 1, . . .), definida en E = {1, 2, 3, 4}


con matriz de transiciones P dada por
 
0.7 0 0.3 0
 
 0 0.5 0.5 0 
P = 
 0 0.4 0 0.6 
0 0.2 0 0.8

En la figura 7.1 siguiente se puede ver un diagrama que muestra c ómo están interconectados los
estados. Un ejemplo de evento en esta cadena es
 
P X0 = 4 , X1 = 2 , X2 = 3, X3 = 4 , X4 = 2 (7.1)

La propiedad de Markov de la cadena se puede utilizar para calcular probabilidades. Por ejemplo,
para calcular (7.1), se procede aplicando una regla de probabilidad elemental para desarrollar la
probabilidad de la intersecci ón de n eventos, P(A1 ∩A2 ∩. . .∩An ) = P(A1 )P(A2 |A1 ) . . . P(An |A1 ∩
. . . ∩ An−1 ). Concretamente,
    
P(X0 = 4 , X1 = 2 , X2 = 3, X3 = 4 , X4 = 2 = P X0 = 4 P X1 = 2 | X0 = 4
 
· P X2 = 3 | X1 = 2 , X0 = 4
 
· P X3 = 4 | X2 = 3 , X1 = 2 , X0 = 4
 
· P X4 = 2 | X3 = 4, X2 = 3, X1 = 2, X0 = 4

= P X0 = 4)(0.2)(0.5)(0.6)(0.2)
 
= 0.012 P X0 = 4 .

Si el proceso arranca en X0 = 4 con probabilidad 1, la probabilidad es 0.012.

Ejemplo 7.2.2 (Cadena de Ehrenfest, ver Hoel et al. Hoel, Port, and Stone (1972),sec. 1.3).
134

Figura 7.1: Gráfica

Ejemplo 7.2.3 (Ruina del Jugador).

Ejemplo 7.2.4 (Colas M/M/1).

colocar ejemplo de la funcion de transicion modelo erhrenfest de difusion, otros en librito de


ejercicios de tackas
(m)  
Definición 7.2.2. La probabilidad P ij = P Xn+m = j | Xn = i se define como la
probabilidad de transici ón de i a j en m pasos, m ≥ 1 , n ≥ 0 , i , j ≥ 0
(m)
Nota 7.2.1. Note que P (m) = [Pij ] es una matriz d × d de Markov.

La ecuación de Chapman-Kolmogorov en tiempo continuo para variables continuas es



    d  
P Xt ≤ y | Xs = x = P Xt ≤ y | Xu = v P Xu ≤ v | Xs = x dv
R dv

Se puede colocar t = n + m , s = 0 , u = n , y = j , x = i , v = k y reemplazar


   
P Xt ≤ y | Xs = x por P Xn+m = j | X0 = i
   
P Xt ≤ y | Xu = v por P Xn+m = j | Xn = k
   
P Xu ≤ v | Xs = x por P Xn = k | X0 = i

donde

  d
   
P Xn+m = j | X0 = i = P Xn+m = j | Xn = k P Xn = k | X0 = i
k=0
135

luego
(n+m)

d
(m) (n)
Pij = Pkj Pik
k=0
es la ecuación de Chapman Kolmogorov, pero ésta ecuación es similar al elemento
n
(AB)ij = Aik Bkj luego, la ecuación de Chapman-Kolmogorov equivale a P (n+m) =
k=1
P (n) P (m) con n , m ≥ 0. De aqui se concluye que P (m) = P m entendida ésta como la potencia
m-ésima de P ya que como P (1) = P entonces P (2) = P · P = P 2 y en general P (n) = P n lo
(n)
cual dice que Pij = Pijn .
Ejemplo 7.2.5. Si  
0.49 0.12 0.21 0.18
 0.35 0.2 0.3 
 0.15 
P2 =  
 0.2 0.12 0.2 0.48 
0.1 0.16 0.1 0.64
2 (2)  
entonces por ejemplo, P13 = P13 = P Xn+2 = 3 | Xn = 1 = 0.21.

Conclusión. Al definir  
(m)
Pij = P Xn+m = j | Xn = i
se establece que la cadena de Markov Xn es un proceso de Markov homogéneo. La función de
transición F (n , i ; n + m , j) depende de n + m − n = m , i , j.

Además, Xn puede tener una distribución invariante con el tiempo. Por teorema de probabilidad
total si n ≥ 1
   d
   
P Xn = j = P Xn = j | X0 = k P X0 = k
k=0
   
luego si P Xn = j = gj y P X0 = k = gk donde j = 1, · · · , d es una fdp entonces


d
gj = n
Pkj gk ⇔ g = gP n , n ≥ 1,
k=0

luego
 
g = gP ⇔ P  g = g ⇔ P  − I g = 0.
Luego g es el vector propio correspondiente al valor propio 1 de la matriz p  .
 
Tenemos g = 0.449 , 0.269 , 0.269 , 0.808 /1.796.

Como el proceso es Markov, tiene distribución homogénea y tiene una distribución invariante,
entonces es estacionario de segundo orden y Cov(Xn+m , Xn ) depende de m , E(Xn ) , V ar(Xn )
cte.
     
Cov(Xn+m , Xn ) = E Xn Xn+m − E Xn E Xn+m
136

  d 
d
 
E Xn Xn+m = jkP Xn = j Xn+m = k
j=0 k=0


d 
d
 
= jkP Xn+m = k | Xn = j gj
j=0 k=0


d 
d
= jkpm
jk gj = función de m
j=0 k=0
   
Por tanto, Cov(Xn+m , Xn ) es función de m ya que E Xn E Xn+m es una constante.

7.3. Relaci ón entre Procesos de Markov y Procesos Gaussianos

Proposición 7.3.1. El proceso (Xt , t ∈ R) Gaussiano, es de Markov si y solo si


   
E Xtn | Xt1 , · · · , Xtn−1 = E Xtn | Xtn−1

para todo n ≥ 1 y t 1 < t2 < · · · < tn .

Demostración.
[=⇒] Si el proceso Xt es de Markov la identidad se cumple inmediatamente

[⇐=] Suponga que Xt es Gaussiano y que cumple


   
E Xtn | Xt1 , · · · , Xtn−1 = E Xtn | Xtn−1

entonces hay que demostrar que ∀n ≥ 1 y t1 < t2 < · · · < tn


   
P Xtn ≤ x | Xt1 , · · · , Xtn = P Xtn ≤ x | Xtn−1

Si Xt , t ∈ R es Gaussiano entonces las distribuciones condicionales de la expresión anterior


son ambas Gaussianas unidimensionales y por tanto, están caracterizadas por sus medias y sus
varianzas por tanto, para demostrala es suficiente comprobar que
   
E Xtn | Xt1 , · · · , Xtn−1 = E Xtn | Xtn−1
   
V ar Xtn | Xt1 , · · · , Xtn−1 = V ar Xtn | Xtn−1

La primera es inmediata porque es la hipótesis.

Para la segunda, definimos


 
Y = Xtn − E Xtn | Xt1 , · · · , Xtn−1
 
luego Y = Xtn − E Xtn | Xtn−1 .
137

Además, Y es independiente de Xt1 , · · · , Xtn−1 y


 
E(Y ) = E(Xtn ) − E E(Xtn | Xt1 , · · · , Xtn−1 ) = E(Xtn ) − E(Xtn ) = 0

por tanto
     
V ar Y | Xt1 , · · · , Xtn−1 = E Y 2 | Xt1 , · · · , Xtn = E Y 2
     
V ar Y | Xtn−1 = E Y 2 | Xtn−1 = E Y 2

luego
   
E Y 2 | Xt1 , · · · , Xtn = E Y 2 | Xtn−1
pero
   
E Y 2 | Xt1 , · · · , Xtn = V ar Xtn | Xt1 , · · · , Xtn−1
   
E Y 2 | Xtn−1 = V ar Xtn | Xtn−1

y de aqui obtenemos lo que se querı́a pues


   
V ar Xtn | Xtn−1 = E Y 2 | Xtn−1
 2 
= E Xtk − E(Xtk | Xtn−1 ) | Xtn−1
     
= E Xt2n − 2Xtn E Xtn | Xtn−1 + E2 Xtn | Xtn−1 | Xtn−1
     
= E Xt2n | Xtn−1 − 2E2 Xtn | Xtn−1 + E 2 Xtn | Xtn−1
   
= E Xt2n | Xtn−1 − E2 Xtn | Xtn−1
 
= V ar Xtn | Xtn−1

La otra es similar.

Proposición 7.3.2. (Feller (1978), Teo 1, pag. 126) El proceso (Xt , t ∈ R) Gaussiano es de
Markov si y solo si se cumple que

ρj , n = ρj , k ρk , n ∀k , j ≤ k ≤ n
 
donde ρj , n = Corr Xtj , Xtn

Demostración. Supongamos que Xt es Gaussiano.


[=⇒] Si Xt es de Markov, veamos que ρj , n = ρj , k ρk , n .
 
Pero si Xt es de Markov, en la demostración anterior se vió que Y = Xtn − E Xtn | Xtn−1
es normal, con E(Y ) = 0 y además es independiente de Xtj , para j = 1, 2, · · · , n − 1 luego
 
E Y Xtj = 0.

Además, como
  ρn , n−1 σn  
E Xtn | Xtn−1 = µn − Xtn−1 − µn−1
σn−1
138

entonces
ρn , n−1 σn  
Y Xtj = Xtn Xtj − µXtj − Xtn−1 Xtj − µn−1 Xtj
σn−1

ρn , n−1 σn   
luego
  
0 = E Xtn Xtj − µµj − E Xtn−1 Xtj − µn−1 µj
σn−1
y por tanto
  ρn , n−1 σn  
Cov Xtn , Xtj = Cov Xtn−1 , Xtj
σn−1
de donde se obtiene
   
Cov Xtn , Xtj Cov Xtn−1 , Xtj
= ρn , n−1
σn σj σn−1 σj
lo que es equivalente a
ρj , n = ρj , n−1 ρn−1 , n
si tomamos k con j < k < n entonces

ρj , n = ρj , n−2 ρn−2 , n−1 ρn−1 , n


= ρj , n−2 ρn−2 , n
= ρj , n−3 ρn−3 , n
..
.
= ρj , k ρk , n

[ ⇐= ] Si se supone que se cumple ρj , n = ρj , k ρk , n con j < k < n entonces ρj , n =


ρj , n−1 ρn−1 , n .
 
Reversando la demostración anterior se llega a que si Y = Xtn − E Xtn | Xtn−1 entonces
 
E Y Xtj = 0 para j = 1, 2, · · · , n − 1. Luego Y es independiente de Xt1 , · · · , Xtn−1 . Pero la
única variable que cumple ésta condición es
 
Y = Xtn − E Xtn | Xt1 , · · · , Xtn−1

luego
   
E Xtn | Xt1 , · · · , Xtn−1 = E Xtn | Xtn−1

Ejemplo 7.3.1. Suponga que (X t , t ∈ R) es estacionario en Covarianza, Gaussiano y Markov,


 
con función de Covarianza R(h) = Cov Xt , Xt+h .

Como es Gaussiano y Markov satisface ρ 0 , t ρt , t+h = ρ0 , t+h por tanto

R(t) R(h) R(t + h)


ρ0 , t = ρt , t+h = ρ0 , t+h =
R(0) R(0) R(0)
139

luego
R(t) R(h) R(t + h)
· =
R(0) R(0) R(0)
R(t)
Si f(t) = entonces se cumple la ecuación funcional
R(0)

f(t) f(h) = f(t + h)

Resultado Si f(t) es la soluci ón distinta de f(t) = 0 para t > 0, de la ecuaci ón f(t) f(h) =
f(t + h) entonces f(t) = eαt para cierta constante α. Luego R(t)
R(0)
= eαt para t > 0. Como
R(t) debe ser par entonces

R(t) = R(0)eα|t| = σ 2 eα|t| t ∈ R.

Además, como debe tenerse | R(t) | ≤ R(0) , α debe ser negativa, y se coloca R(t) = R(0)e−αt ,
con α > 0.

Definición 7.3.1. Un proceso (Xt , t ∈ R) estacionario, Gaussiano y Markov siempre tiene


covarianza de la forma
R(h) = σ 2 e−α| h |

Se denomina el proceso Ornstein-Uhlenbeck (OU).

Propiedades del Proceso OU

1. Si se define el proceso Xt = e−αtWτ(t) donde τ (t) = σ 2 e2αt para t ≥ 0, con Wt el


proceso de Wiener, entonces
 
Cov Xs , Xt = σ 2 e−α| t−s |

y por tanto X t es un proceso OU de media cero, E(Xt ) = 0 para t ≥ 0.

2. El proceso O U es continuo en media cuadrática pues R(h) = σ2 e−α| h | es continua en


h = 0.

3. No es derivable en media cuadrática pues


 
Xt+h − Xt Xt+r − Xt
E ·
h r

calculada en r = h es
1  2  2 
2
E Xt+h − Xt = 2 R(0) − R(h)
h h
140

2σ 2  
=
h2
1 − e−α| h |

Si h ≈ 0 entonces e−α| h | ≈ 1 − α| h | y por tanto


1  2  2σ 2   2σ 2 α| h |
E X t+h − X t ≈ 1 − (1 − α| h |) =
h2 h2 h2
que no converge cuando h → 0.
4. Como el proceso Xt OU es estacionario en covarianza y Gaussiano, tiene trayectorias
R(h) − R(0)
continuas si existe c ∈ (0, 2] tal que existe el lı́mite lı́m pero
h→0 | h |c
   
R(h) − R(0) = σ 2 e−α| h | − 1 ≈ −σ 2 α| h |
Con c = 1 se obtiene
 
g(h) − g(0) σ2 e−α| h | − 1
= → −σ 2 α
|h| |h|

t
Ejercicio 7.3.1. Defina Yt = Y0 + Xs ds ( Kovalenko p 214 ) entonces
0
t+h  
Yt+h − Yt = Xs ds ∼ N hc , 2σ 2 α| h |
t
Además Yt2 − Yt1 y Yt1 − Yt0 son independientes para t 0 < t1 < t2 . Es decir, Yt es un proceso
Gaussiano con incrementos independientes.
Ejercicio 7.3.2. Es Yt Markov ? R/Sı́ por tener incrementos independientes.
Ejemplo 7.3.2. El proceso AR(1) Xn = αXn−1 + Zn , n = 1, 2, · · · con α ∈ (−1, 1) y X0 tal
σ2
que E(X0 ) = 0 , V ar(X0 ) = , X0 independiente de Zn , n = 0, 1, . . ., que se asume ruido
1 − α2  
2
blanco con V ar(Zn ) = σ , es Markov pues P Xn ≤ x | X0 , · · · , Xn−1 depende solamente
del valor que tome Xn−1 es decir
   
P Xn ≤ x | X0 , · · · , Xn−1 = P Xn ≤ x | Xn−1
Si Xn−1 = x1 entonces
   
P Xn ≤ x | Xn−1 = x1 = P αx1 + Zn ≤ x
 
= P Zn ≤ x − αx1
Xn−1
Ejemplo 7.3.3. Proceso de Galton-Watson X n = Zj (n)
  j=1
P Xn = m | X0 , X1 , · · · , Xn−1 depende solamente del valor de Xn−1 .
Si Xn−1 = r entonces
  
r 
P Xn = m | X0 , X1 , · · · , .Xn−1 = r = P Zj (n) = m
j=1
141

Ejemplo 7.3.4. El proceso AR(2) Xn = ϕ1 Xn−1 + ϕ2 Xn−2 + Zn , n = 2, 3, · · · no es de


Markov

Ejemplo 7.3.5. Un proceso MA(1) Xn = Zn + θZn−1 no es de Markov.

Ejemplo 7.3.6. Si para t 1 < t2 se cumple que Xt2 − Xt1 es independiente de Xt para t ≤ t1
entonces Xt es de Markov pues
   
P Xtn ≤ xn | Xt1 , · · · , Xtn−1 = P Xtn − Xtn−1 ≤ xn − xn−1 | Xt1 , · · · , Xtn −1
 
= P Xtn − Xtn−1 ≤ xn − xn−1 | Xtn−1 = xn−1
 
= P Xtn ≤ xn | Xtn −1 = xn−1

1. Nt , t ≥ 0 Poisson cumple Nt2 − Nt1 es independiente de Nt − N0 = Nt , t ≤ t1 luego


el proceso Poisson es Markov.

2. Wt , t ≥ 0 proceso de Wiener cumple Wt2 −Wt1 es independiente de Wt −W0 = Wt , t ≤


t1 luego el proceso de Wiener es de Markov.

t
Ejemplo 7.3.7. Xt = g(s) dWs cumple
0
t2
Xt2 − Xt1 = g(s) dWs
t1
 
es independiente de Xt − X0 = Xt porque es Gaussiano y Cov Xt2 − Xt1 , Xt − X0 = 0
luego Xt es de Markov

7.4. Procesos de Difusi ón.

Sea X = {Xt : t ≥ 0} un proceso de Markov con trayectorias continuas, definido en R y sea


F (y , t2 | x , t1 ) la función de probabilidad de transición dada por
 
F (t , x ; s , y) = P Xs ≤ y | Xt = x s>t

y fdp de transición
∂F
f(t , x ; s , y) = (t , x ; s , y)
∂y
De las propiedades de Markov se tiene

F (t1 , x ; t2 , y) = F (t , z ; t2 , y) f(t1 , x ; t , z) dz ∀t ∈ (t1 , t2 )
R

ésta se denomina la ecuación de Chapman-Kolmogorov.

Existen funciones a(t, x) , b(t, x) tales que


142
 
1. P | Xt+h − Xt | > | Xt = x = o(h) , h → 0 , ∀ > 0
 
2. E Xt+h − Xt | Xt = x = a(t, x)h + o(h) , h → 0
 2 
3. E Xt+h − Xt | Xt = x = b(t, x)h + o(h) , h → 0

∂f ∂ 2 f
4. , existen y son continuas.
∂x ∂x2
Definición 7.4.1. Un proceso X de Markov, continuo, de valores reales que satisfaga las condi-
ciones anteriores se denomina un proceso de Difusi ón. La funci ón a(t, x) se denomina la media
infinitesimal y b(t, x) la varianza infinitesimal.

Proposición 7.4.1. Sea X un proceso de difusi ón tal que la fdp f(t , x ; s , y) tiene derivadas
∂f ∂f ∂2f
, , continuas, entonces f(t , x ; s , y) satisface la ecuaci ón diferencial parcial
∂t ∂x ∂x2
siguiente,
∂f ∂f b(t, x) ∂ 2 f
+ a(t, x) + =0
∂t ∂x 2 ∂x2
denominada ecuaci ón retrospectiva.

Proposición 7.4.2. Sea X un proceso de difusi ón con funciones a(t, x) , b(t, x) tal que la fdp de
transición f(t , x ; s , y) s > t, satisface que

∂f ∂   ∂2  
a(s, y) f(t , x ; s , y) 2
b(s, t) f(t , x ; s , y)
∂s ∂y ∂y

existen y son continuas. Entonces f(t , x ; s , y) satisface la ecuaci ón diferencial parcial

∂f 1 ∂2   ∂  
= b(s, y) f − a(s, y) f
∂s 2 ∂y2 ∂y
para t < s , y ∈ R denominada ecuaci ón prospectiva [ Ecuación de Fokker-Planck ]

Ejemplo 7.4.1. Proceso de Wiener.


Colocando a(t, x) = 0 , b(t, x) = σ 2 > 0 la ecuación retrospectiva es

∂f σ2 ∂ 2 f
=−
∂t 2 ∂x2
Una soluci ón de ésta ecuación es
(y−x)2
1
f(y , s ; x , t) =  e− 2(s−t)σ 2 y∈R
σ 2π(s − t)

para s > t. Pero si W es el proceso de Wiener entonces, con s > t


 
F (y , s ; x , t) = P σWs ≤ y | σWt = x
 
= P σ(Ws − Wt ) ≤ y − x | σWt = x
143
 y−x 
=φ √
σ s−t
lo cual equivale a
(y−x)2
1
f(y , s ; x , t) =  e− 2(s−t)σ 2

σ 2π(s − t)
Igualmente la funci ón f satisface la ecuaci ón prospectiva

∂f σ2 ∂ 2 f
=
∂s 2 ∂y2
Luego, el proceso de Wiener es un proceso de difusión.

Ejemplo 7.4.2. Proceso de Wiener con tendencia.


En este caso a(t, x) = m , b(t, x) = σ2 .
La ecuación prospectiva es
∂f σ2 ∂ 2 f ∂f
= 2
−m
∂s 2 ∂y ∂y
Defina el proceso Dt por Dt = σWt + mt entonces su fda de transici ón es s > t
 
F (t , x ; s , y) = P Ds ≤ y | Dt = x
 
= P σWs + ms ≤ y | σWt + mt = x
 
= P σ(Ws − Wt ) + m(s − t) ≤ y − x | σWt = x − mt
 y − x − m(s − t) 
= P Ws − Wt =
σ
 y − x − m(s − t) 
=φ √
σ s−t
pero
1 (y−x−mh)2
f(y , s ; x , t) = √ e− 2σ2 h con h = s−t
2πh
satisface la ecuación prospectiva.

Nota 7.4.1. Si X es homogéneo, es decir, si su fda de transición F (y , s | x , t) puede escribirse


como F (y , s − t | x), una funci ón que depende de y , s − t , x para s > t, entonces se cumple
que para h ∈ R

 
E Xt+h − Xt | Xt = x = (y − x) f(y , h | x) dy
R
= a(t, x) h + o(h) h→0

luego
1
lı́m
E = a(x) = a(t, x)
h
h→0

igualmente b(t, x) = b(x) no depende de t.


144

Nota 7.4.2. Si el proceso es aditivo, es decir, dado Xt = x el incremento Xs − Xt depende de


t , s solamente entonces
 
F (y , s ; x , t) = P Xs − Xt ≤ y − x | Xt = x = F (y − x , s | t)

En este caso
 
E Xt+h − Xt | Xt = x = a(t) h + o(h) −→ a(t) h→0

donde a(t, x) = a(t).

Igualmente b(t, x) = b(t).

Con a(t, x) = −βx , b(t, x) = σ 2 la ecuación prospectiva para f(y , s | x , t) es

∂f 1 ∂2  2  ∂   σ2 ∂ 2 f ∂  
= 2
σ f − −β y f = 2
+β yf
∂s 2 ∂y ∂y 2 ∂y ∂y

1. f(y , s | x , t) −→ 0 si y → ±∞
∂f
2. y −→ 0 si y → ±∞
∂y

7.4.1. Solución de la Ecuación Prospectiva

Considere la fc de Ut


ϕ θ , s | x , t) = eiθy f(y , s | x , t) dy
R

entonces de
∂f σ2 ∂ 2 f ∂[y f]
= +β
∂s 2 ∂y2 ∂y
se tiene
∂f  
∂s
eiθy dy = ∂s

ϕ(θ , s | x , t)
R
por la condición de frontera y=∞
∂f 
∂y
eiθy  =0
y=−∞

luego
 y=∞ 
σ2 ∂2f σ2 ∂f iθy 
2 ∂y2
e
iθy
dy =
2 ∂y
e  − iθ e dy
∂f iθy
R y=−∞ R ∂y
  
iθσ 2 y=∞
=−
2
e iθy 
ϕ − iθ f eiθy dy
y=−∞ R
145

θ2 σ 2
=− ϕ
2
y
∞

e ∂y dy = e y f  − iθ eiθy y f dy
iθy ∂[y f] iθy 
R −∞ R

∂ iθy
= 0−θ e f dy
R ∂θ
∂φ
= −θ
∂θ
luego la ecuación prospectiva transformada es
∂ϕ θ2 σ 2 ∂ϕ
=− ϕ − βθ
∂s 2 ∂θ
es decir
∂ϕ ∂ϕ θ2 σ 2
+ βθ =− ϕ
∂s ∂θ 2
La solución de ésta ecuación diferencial de primer orden es la función
 1 2 2 
ϕ(s , θ | x , t) = exp iθxe−β(s−t) − θ σ 1 − e−2β(s−t)

lo cual equivale a que
 
 y − xe−β(s−t)
F y , s | x , t) = φ 
σ

2 β
1 − e−2β(s−t)

es decir  
σ2 
Us | Ut = x ∼ N xe −β(s−t)
, 1−e −2β(s−t)

 
Nota 7.4.3. Si Ut = e−βt W σ 2 e2βt , s > t , β > 0 entonces
      2 2βt  
P Us ≤ y | Ut = x = P e−βs W σ 2 e2βs ≤ y | e−βtW σ e =x
     
= P W σ 2 e2βs ≤ yeβs | W σ 2 e2βt = xeβt
 
= P Wσ2 e2βs − Wσ2 e2βt ≤ yeβs − xeβt | Wσ2 e2βt = xeβt
    
= P N 0 , σ 2 e2βs − e2βt ≤ yeβs − xeβt
 

= φ 
y e βs
− x eβt
1 
σ e 2βs
−e 2βt 2
 
= φ 
y − x e −β(s−t)
1 
σ 1−e −2β(s−t) 2
146

7.4.2. Proceso Ornstein-Uhlenbeck.

Considere un proceso U , Markov continuo, tal que su dinámica infinitesimal ( en el intervalo


(t, t + h) ) esté dado por Ut+h − Ut = −βUt + Wt+h − Wt con β > 0 y W es un proceso de
Wiener, independiente de U . Entonces
   
E Ut+h − Ut | Ut = µ = E −βUt + Wt+h − Wt | Ut = µ
 
= −βµ + E Wt+h − Wt = 0

Luego
 
E Ut+h − Ut | Ut = µ
lı́m = −βµ
h→0 h
   
V ar Ut+h − Ut | Ut = µ = V ar Wt+h − Wt = σ 2

por tanto
 
V ar Ut+h − Ut | Ut = µ
lı́m = σ2
h→0 h
   
P | Us − Ut | > δ | Ut = x = P | − βUt + Ws − Wt | > δ | Ut = x
 
= P | Ws − Wt − βx | > δ
 
= 1 − P | Ws − Wt − βx | ≤ δ
 
= 1 − P | N (−βx , σ 2 (s − t)) | ≤ δ
  
= 1 − P N (−βx , σ 2 (s − t)) ≤ −δ
 
+P N (−βx , σ 2 (s − t)) ≥ δ
    
−δ + βx δ + βx
=1− φ √ +1−φ √
σ s−t σ s−t
   
δ + βx −δ + βx
=φ √ −φ √
σ s−t σ s−t
δ+βx

σ s−t
= n(s) ds
−∞

7.5. Problemas

1. Suponga un proceso Xt , t ≥ 0, gaussiano estacionario con función de autocovarianza


R(h) = (1 + 2|h|)e−2|h|, h ∈ R.

a) Si t1 = 5, t2 = 10, t3 = 15 encuentre las correlaciones ρ1,2 , ρ2,3 , ρ1,3 .


147

b) Un proceso gaussiano es markoviano si y solo si se cumple que, para cualesquier


tiempos ti < tj < tk , entonces: ρi,k = ρi,j ρj,k . Utilizando este resultado decida si el
proceso Xt es markoviano. Sugerencia: note que si hay tres tiempos t i , tj , tk para los
cuales no se cumple esta identidad entonces el proceso Xt no puede ser markoviano.

2. Si (Xn , n = 0, 1, . . .) es una cadena de Markov con espacio de estados E = {0, 1, 2} y la


distribución de X 0 está dada por el vector (1/4, 1/2, 1/4) y la matriz de transición está dada
por:  
1/4 3/4 0
 
P =  1/3 1/3 1/3 
0 1/4 3/4

a) Calcule P(X0 = 0, X1 = 1, X2 = 1).


b) Muestre que P(X1 = 1, X2 = 1|X − 0 = 0) = P01 P11 .
(2)
c) Calcule P01 . Interprete el resultado.

3. Determine la matriz de transición P de las siguientes cadenas de Markov.

a) N bolas negras y N bolas blancas se distribuyen aleatoriamente en dos urnas tal que
cada urna contiene N bolas. En cada paso se selecciona una bola al azar en cada urna
y ambas bolas se intercambian de urna. El estado del sistema en el tiempo n se define
como el número de bolas blancas en la urna número uno.
b)

7.6. Soluciones
148
CAPÍTULO 8

Cálculo de Ito.

8.1. Definiciones

Definición 8.1.1. Supongamos un proceso de Wiener (W t , t ≥ 0).


Un proceso (Yt , t ≥ 0) se dice adaptado a (W t , t ≥ 0) si se cumple que

σ(Yt ) ⊆ σ(Ws , 0 ≤ s ≤ t)

para cada t ≥ 0.

Ejemplo 8.1.1. Yt = W t4 está adaptado ya que

σ(W 4t ) ⊆ σ(Ws , 0 ≤ s ≤ t)

sin embargo Yt = W2t no está adaptado pues

σ(W2t ) ⊆ σ(Ws , 0 ≤ s ≤ t)

Un proceso Yt adaptado a (Wt , t ≥ 0) tiene la propiedad de que Yt es independiente de Wt+h −Wt ,


para h > 0 , t > 0 ya que Wt+h − Wt es independiente de Ws , 0 ≤ s ≤ t y por tanto, como

σ(Yt ) ⊆ σ(Ws , 0 ≤ s ≤ t)

149
150

cualquier evento de Yt es independiente de cualquier evento de Wt+h − Wt .

Suponga que Yt está adaptado a (Wt , t ≥ 0) y que además se cumple


t  
E Ys2 ds < ∞ t≥0
0

Conociendo σ(Ws , 0 ≤ s ≤ t) se sabe si ocurre o nó cualquier evento de Yt .



t
El objetivo es definir la integral de Ito de Y t , 0 Ys dWs . No se trata de definir esta integral para
cualquier proceso Yt , por ejemplo, para Yt Gaussiano continuo en media cuadrática, sino sólo
para procesos adaptados al proceso Wiener. Note que si Ys se reemplaza por una función de s por

t
ejemplo y(s), la integral 0 y(s) dWs ya se definió en el capı́tulo anterior, asumiendo que y(s)
es derivable y la derivada es continua. Nótese sin embargo que este caso, queda incluı́do en esta
definición porque una función es un proceso adaptado ya que se cumple siempre que:
 
σ Y (t) = {Ω , Φ} ⊆ σ(Ws , 0 ≤ s ≤ t).

La definición se hace primero para procesos simples, que son procesos estoásticos similares a las
funciones escalonadas, y luego se hace para procesos adaptados en general.

Definición 8.1.2. Un proceso (Yt , t ∈ [a, b]) , 0 ≤ a ≤ b se dice simple si existe una partici ón
del intervalo [a, b] , a = t 0 < t1 < t2 < · · · < tn−1 < tn = b y n variables aleatorias
Y0 , Y1 , · · · , Yn−1 que cumplan
 
E Yj2 < ∞ y σ(Yj ) ⊆ σ(Ws , 0 ≤ s ≤ tj ) j = 0, · · ·

y

n−1
Yt = Yj I(tj ≤ t ≤ tj+1 ) t ∈ [a, b]
j=0

Note que si t ∈ [tj , tj+1 ] entonces Yt = Yj y como

σ(Yj ) ⊆ σ(Ws , 0 ≤ s ≤ tj ) ⊆ σ(Ws , 0 ≤ s ≤ t) ∀j

entonces
σ(Yt ) ⊆ σ(Ws , 0 ≤ s ≤ t)

y el proceso es adaptado.

Además
   
b   b n−1     n−1
E Yt2 dt = E Yj2 I tj ≤ t ≤ tj+1 dt = E Yj2 (tj+1 − tj ) < ∞
a a j=0 j=0
151

Definición 8.1.3. La integral de Ito del proceso simple Y t entre a y b se define como
b 
n−1
Yt dWt = Yj (Wtj+1 − Wtj )
a j=0

Nótese que al proceder a integrar se obtiene el resultado de la definición.


b 
n−1 b
Yt dWt = Yj I(tj ≤ t ≤ tj+1 ) dWt
a j=0 a


n−1 tj+1
= Yj dWt
j=0 tj


n−1
= Yj (Wtj+1 − Wtj )
j=0

1 1 1
Ejemplo 8.1.2. Si a = 4 , b = 1 , n = 2 y t0 = 4 , t1 = 2 , t2 = 1, Y0 = W 12 , Y1 = 2W 12 .
4 2
Entonces
b 
n−1
Yt dWt = Yj (Wtj+1 − Wtj
a j=0

= W 12 (W 1 − W 1 ) + 2W 12 (W1 − W 1 )
4 2 4 2 2

Propiedades de la Integral de Ito en el caso de Procesos Simples

Para Xt y Yt procesos simples, se cumple lo siguiente:


b
c
b
1. a<c<b, Yt dWt = Yt dWt + Yt dWt
a a c


b  
b
b
2. c1 Yt + c2 Xt dWt = c1 Yt dWt + c2 Xt dWt
a a a

b 
3. E Ys dWs = 0
a

Demostración. Como
 b  n−1
  
E Ys dWs = E Yj (Wtj+1 − Wtj )
a j=0

pero σ(Yj ) ⊆ σ(Ws , 0 ≤ s ≤ tj ) y Wtj+1 − Wtj es independiente de Ws , s ≤ tj


luego Yj es independiente de Wtj+1 − Wtj y como E(Wtj+1 − Wtj ) = 0 se cumple

b 
E Ys dWs = 0
a
152


b 2 
b  
4. E Ys dWs = E Ys2 ds
a a

Demostración. Si llamamos ∆Wtj = Wtj+1 − Wtj y ∆Wtk = Wtk+1 − Wtk entonces


    
E Yj Yk ∆Wtj ∆Wtk = E E Yj Yk ∆Wtj ∆Wtk | Yj Yk ∆Wtj
  
= E Yj Yk ∆Wtj E ∆Wtk = 0

y por tanto

 b 2  n−1
  n−1
n−1  
E Ys dWs =E Yj2 (Wtj+1 2
− Wtj ) + 2 Yj Yk ∆Wtj ∆Wtu
a j=0 j=0 k=j+1


n−1
   n−1
n−1   
= E Yj2 (tj+1 − tj ) + 2 E Yj Yk ∆Wtj DeltaWtk
j=0 j=0 k=j+1


n−1
 
= E Yj2 (tj+1 − tj )
j=0

pero

  n−1
 2  n−1
  
E Ys2 = E Yj I(tj ≤ s ≤ tj+1 ) = E Yj2 I(tj ≤ s ≤ tj+1 )
j=0 j=0

y
  
b   n−1 b
E Yj2 ds = E Yj2 I(tj ≤ s ≤ tj+1 ) ds
a j=0 a


n−1
 
= E Yj2 (tj+1 − tj )
j=0

y por tanto
 b 2  b    b 
E Ys dWs = E Ys2 ds = V ar Ys dWs
a a a

5. Para 0 < s , t , Yt , Gt procesos adaptados simples


 t s  s∧t  
E Yu dWu Gu dWu = E Yu Gu du
0 0 0
153


t  
Definición 8.1.4. Si (Yt , t ≥ 0) es un proceso adaptado a (W t , t ≥ 0) que cumple E Ys2 ds <
0
∞ para t > 0, entonces existe una sucesión de procesos simples
(n)
t  (n) 
(Ys , n = 1, 2, · · ·), definidos en s ∈ [0, t] adaptados a (W t , t ≥ 0) que cumplen E (Ys )2 ds <
0
∞ tales que


t (n)
1.  Ys − Ys  ds −→ 0 cuando n→∞
0


t (n)
2. Las variables Yn , t = Ys dWs convergen en media cuadrática a una variable eleatoria
0
Xt .

El proceso Xt se denomina la integral de Ito de Y en [0, t]


t
Xt = Ys dWs
0

Para este caso general se puede comprobar que se cumplen las mismas propiedades que las que
se cumplen cuando Ys es simple. Además

 
t   
t 
  M
1. ∃ M > 0 , P  Ys dWs  ≥ C ≤ 2 + P Ys2 ds > M
0 C 0


t
2. Xt = Ys dWs es una variable cuya información está contenida en σ(Ws , 0 ≤ s ≤ t).
0


t
3. Xt = Ys dWs es continua con probabilidad uno.
0

Definición 8.1.5 (Diferencial Estocástico ). Suponga que a t , bt son procesos adaptados a


(Wt , t ≥ 0) que cumplen

T   T  
E b2s ds < ∞, E a2s ds < ∞, T >0
0 0

y suponga que el proceso Yt satisface la relaci ón


t t
Yt = Y0 + as ds + bs dWs 0≤t≤T
0 0

entonces se dice que Yt tiene un diferencial estoc ástico en [0, T ] dado por

dYt = at dt + bt dWt
154

t  
Note que si 0 E a2s ds < ∞ entonces

t   1 t  
E | as | ds ≤ E a2s + 1 ds < ∞.
0 2 0

El diferencial estocástico significa la relación


t t
Yt = Y0 + as ds + bs dWs 0≤t≤T
0 0

pero también se podrı́a pensar que es equivalente a

Yt = at + bt Wt

donde Wt es el ruido blanco continuo definido en (??), pag. ??. El problema radica en que W t no
existe como proceso estocástico ya que Wt no es derivable en media cuadrática. En algunos textos
se usa esta expresión pero haciendo la aclaración de que es una forma equivalente de escribir el
diferencial estocástico.

La ventaja del Cálculo de Ito sobre el cálculo en media cuadrática es que las reglas de la cadena y
el producto están definidas en el primero cuando se involucran derivadas de ruidos blancos Wiener
y Poisson, mientras que en el segundo no.

El cálculo de Ito permite resolver ecuaciones diferenciales estocásticas de la forma dXt =


a(t, Xt ) dt + b(t, Xt ) dWt , X0 dado, donde a(t, x) y b(t, x) son funciones reales conocidas que
deben cumplir algunas condiciones técnicas para garantizar la existencia de la solución X t .

Reglas para el manejo de Diferenciales Estocásticos.

(1) (2)
1. Si Wt , Wt son procesos Wiener independientes ( correlacionados ) entonces se asumen
como dadas las siguientes reglas para el producto de diferenciales.

a) dt · dt = 0
b) dt · dWt = 0
c) dWt · dWt = dt
(1) (2)
d) dWt dWt = 0 (= ρ dt)

2. Los diferenciales son operadores lineales

dXt = at dt + bt dWt
dYt = ht dt + gt dWt

entonces Zt = Xt + Yt tiene por diferencial


   
dZt = dXt + dYt = at + ht dt + bt + gt dWt
155

3. Regla del Producto. Para la regla del diferencial de un producto se toma en cuenta la regla
para multiplicación de diferenciales dt y dW t . La regla es
 
d Xt Yt = dXt · Yt + Xt dYt + bt gt dt

luego
     
d Xt Yt = at dt + bt dWt Yt + Xt ht dt + gt dWt + bt gt dt
   
= at Yt + ht Xt dt + bt Yt + gt Xt dWt + bt gt dt
   
= at Yt + ht Xt + bt gt dt + bt Yt + gt Xt dWt
(1) (2) (1) (2)
Ejercicio 8.1.1. Si dXt = at dt + bt dWt y dYt = ht dt + gt dWt con dWt dWt =
ρ dt, encuentre d(Xt Yt ).
 n  n−1 n(n−1)  n−2
4. d Wt = n Wt dWt + 2 Wt dt , n≥2

Ejemplo 8.1.3. dWt2 = 2Wt dWt + dt entonces


t t 
1 t 1  W2 t
Ws dWs = dWs2 − ds = Wt2 − t = t −
0 2 0 0 2 2 2

Para comparar este resultado con el cálculo integral suponga que f(x) es una funci ón real
derivable, con f(0) = 0. Entonces
t t
1 t d  2  f 2 (x)
f(x) df(x) = f(x) f  (x) dx = f (x) dx =
0 0 2 0 dx 2

5. Si P (x) es un polinomio en x entonces


  1  
dP (Wt ) = P  Wt dWt + P  Wt dt
2
   
Ejemplo 8.1.4. d 3Wt3 − 2Wt = 9Wt2 − 2 dWt + 9dt

6. Si f(x) tiene segunda derivada


    1  
df Wt = f  Wt dWt + f  Wt dt
2
 σW 
Ejemplo 8.1.5. d e t = σ eσWt dWt + σ2 eσWt dt
2

7. Lema de Ito.[ Regla de la Cadena ]


Si F (t , x) es una función real de (t , x) para t ≥ 0 , x ∈ R con derivadas parciales
∂F ∂F ∂2F
, , , son continuas entonces el proceso Zt = F (t , x) tiene diferencial
∂t ∂x ∂x2
estocástico  ∂F ∂F b2 ∂ 2 F  ∂F
dZt = + at + t 2
dt + bt dWt
∂t ∂x 2 ∂x ∂x
156

donde las derivadas parciales están evaluadas en (t , Xt ) y Xt tiene diferencial

dXt = at dt + bt dWt

La fórmula de Ito se utilizará entre otras cosas, para encontrar la solución de ecuaciones
diferenciales estocásticas lineales de primer orden.

Definición 8.1.6. Suponga que a t , µt , bt , σt son funciones definidas en [0, T ] y X t es un


proceso adaptado a (W t , t ≥ 0), que cumple


T  
1. E (at + µt Xt )2 dt < ∞
0


T  
2. E (bt + σt Xt )2 dt < ∞
0

Xt se dice que es solución de la ecuación diferencial estoc ástica lineal

   
dXt = at + µt Xt dt + bt + σt Xt dWt (8.1)

si para 0 ≤ t ≤ T se cumple
t
 t 
Xt = X0 + as + µs Xs ds + bs + σs Xs dWs
0 0

Dos casos de interés de la ecuación (8.1) son:

1. Autónoma. Si µt = σt = 0.

2. Homogénea. Si at = bt = 0.

8.2. Solución de la Ecuaci ón Lineal.

Para deducir la solución de la ecuación diferencial estocástica lineal


   
dXt = at + µt Xt dt + bt + σt Xt dWt

se procede en dos pasos:

1. Primer paso.
Definamos el proceso auxiliar
 t σs2 
t 
Yt = exp − µs − ds − σs dWs
0 2 0
157
 
= exp Gt

donde  σ2 
dGt = − µt − t dt − σt dWt
2
por Lema de Ito con

F (t , x) = ex , Ft = 0 , Fx = ex , Fxx = ex

entonces   σ2  σ2 
dYt = Ft − µt − t Fx + t Fxx dt − σt Fx dWt
2 2
pero
Fx = Fxx = eZt = Yt
luego
  σ2  σ2 
dYt = − µt − t Yt + t Yt dt − σt Yt dWt
 2 2
2
= −µt + σt Yt dt − σt Yt dWt

2. Segundo paso.
Se define el proceso Zt = Yt Xt luego, aplicando la regla para diferenciales de productos,
con
   
dXt = at + µt Xt dt + bt + σt Xt dWt
 
dYt = −µt + σt2 Yt dt − σt Yt dWt
    
d Xt Yt = Xt dYt + Yt dXt + bt + σt Xt −σt Yt dt

reemplazando y simplificando
 
dZt = at − bt σt Yt dt + bt Yt dWt
t t
 
luego, Zt = Z0 + as − bs σs Ys ds + bs Ys dWs
0 0
de donde, Xt = Yt−1 Zt
Z0 = X0

es la solución de la ecuación diferencial estocástica lineal.

Ejemplo 8.2.1. Soluci ón de la ecuación diferencial estoc ástica homogénea o sea cuando at =
bt = 0 en donde
dXt = µt Xt dt + σt Xt dWt t≥0
con µt , σt funciones.
158

1. Primer paso.
 t σ2 
t 
Yt = exp − µs − s ds − σs dWs
0 2 0

2. Segundo paso. Como Xt = Yt−1 Zt con Zt = X0 + 0 = X0 entonces


 t σs2 
t 
Xt = X0 exp − µs − ds − σs dWs = X0 eβt .
0 2 0

El exponente t
σ2  t
βt = µs − s ds + σs dWs
0 2 0

t  
es un proceso Gaussiano ya que σs dWs es Gaussiano y βt ∼ N µβ (t) , σβ2 (t) , con
0
t
σ2 
µβ (t) = µs − s ds,
0 2
 t  t
σβ2 (t) = V ar σs dWs = σs2 ds,
0 0
s∧t
2
Covβ (s , t) = σu du.
0

 
Además, suponiendo P X0 = k = 1 con k > 0 el proceso

t
µβ (t)+ σs dWs
Xt = k e 0

es positivo (con probabilidad uno). Luego, si t > s > 0 y x, y > 0 tenemos


  
  Xt x
P Xt ≤ x | Xs = y = P ≤  Xs = y
Xs y

t  s  y 
µβ (t)−µβ (s)+ σu dWu x 
=P e s ≤  µβ (s) + σu dWu = ln
y 0 k


t
s 
s
t 
pero σu dWu y σu dWu son independientes ya que E σu dWu σu dWu = 0 y ambos
s 0 0 s
son Gaussianos de media cero, luego

  t  x
= P exp µβ (t) − µβ (s) + σu dWu ≤
y
s
 t x  

=P σu dWu ≤ ln − µβ (t) − µβ (s)
s y
159


t 
t 
y como σu dWu ∼ N 0 , s σu2 du tenemos
s
  
 
t σv2 
  ln xy − s µv − 2
dv
P Xt ≤ x | Xs = y = φ  

t 2
σ du
s u

Ejemplo 8.2.2. Soluci ón de la ecuación diferencial estoc ástica aut ónoma, es decir cuando µt =
σt = 0 en cuyo caso
dXt = at dt + bt dWt t≥0
La solución viene dada por
 t t 
Yt = exp − 0ds − 0 dWs = 1
0 0
Xt = Yt−1 Zt = Zt
t t
Zt = X0 + as Ys ds + bs Ys dWs
0 0
t t
= X0 + as ds + bs dWs = Xt
0 0
 
que es un proceso Gaussiano si se toma X 0 ∼ N µ0 , σ02 independiente de Wt , t ≥ 0 y Xt
tiene incrementos independientes distribuı́dos normales ya que si 0 < s < t
t t
Xt − Xs = au du + bu dWu
s s
y

  t
E Xt − Xs = au du
s

  t
V ar Xt − Xs = b2u du
s
 t t 
2
Xt − Xs ∼ N au du , bu du
s s

8.3. Propiedades de las soluciones de las EDE Lineales

Consideremos la EDE Lineal (8.1)


   
dXt = at + µt Xt dt + bt + σt Xt dWt t≥0 X0 = C (8.2)

donde at , µt , bt , σt son funciones continuas y acotadas en [0, T ]. ( más general, medibles y


acotadas ) y Ces una v. a. independiente de Wt − W0 , t ≥ 0.
160

Para el análisis de (8.1) consideramos dos casos: i) σt = 0 y ii) σ t = 0. En el caso ii) la solución no
es en general un proceso gaussiano y las distribuciones de las soluciones son difı́ciles o imposibles
de encontrar.

Caso σt = 0 , t ≥ 0 . La ecuación (8.1) queda de la forma


 
dXt = at + µt Xt dt + bt dWt , X0 = C, t ≥ 0, (8.3)

y su solución está dada por



t
 t
 t
 
Xt = e 0 µs ds C + e− 0 µv dv as ds + e− 0 µv dv bs dWs .
s s
(8.4)
0 0

Nótese que la ecuación (8.3) puede escribirse como una ecuación diferencial lineal ordinaria de
la forma Xt = at + µt Xt + bt Wt , considerando derivadas en lugar de diferenciales y colocando
el sı́mbolo Wt en lugar del cociente dWt /dt. Procediendo como si se tratara de una ecuación
diferencial ordinaria se obtiene la solución
 t
 

t 
Xt = e 0 e 0
s
µs ds − µv dv 
C+ as + bs Ws ds .
0

Podemos observar que, al reemplazar en la expresión anterior Ws ds por dWs , se obtiene la
solución (8.4).
 
Proposición 8.3.1. Sea Xt la soluci ón (8.4) de la ecuación (8.3), asumiendo E C 2 < ∞.

t
Entonces, colocando Yt = exp(− 0 µs ds), se tiene


t 
1) E(Xt ) = Yt−1 E(C) + 0 Ys as ds .

s∧t 
2) Cov(Xs , Xt ) = Ys−1 Yt−1 V ar(C) + 0 Yu2 b2u du .

t 
3) V ar(Xt ) = Yt−2 V ar(C) + 0 Yu2 b2u du .

Demostración. Solamente se demuestra la parte 2). La parte 1) es directa y 3) es consecuencia


inmediata de 2). Tenemos

Cov(Xs , Xt ) = E(Xs − E(Xs ))(Xt − E(Xt ))


    
t 
pero Xt − E Xt = Yt−1 C − E C + 0 Yv bv dWv , luego

  s   t 
     
Cov Xs , Xt = E Ys−1 C − E C + Yu bu dWu Yt−1 C − E C + Yv bv dWv
0 0
  s t 
−1 −1
  2
= Ys Yt E C −E C +E Yu bu dWu Yv bv dWv
0 0
161

 
  s∧t
= Ys−1 Yt−1 V ar C + Yu2 b2u du ,
0


t
donde se ha utilizado la independencia entre C y Yu bu dWu para simplificar las últimas expre-
0
siones.

Ejercicio 8.3.1. 1. Defina m(t) = E(Xt ) en (8.3.1.1). Compruebe que m(t) es solución de
la ecuación diferencial ordinaria

m (t) = µt m(t) + at , t ≥ 0, m(0) = E(C).

 
2. Defina v(t) = V ar Xt en (8.3.1.3). Compruebe que v(t) es solución de la ecuación
diferencial ordinaria

v (t) = 2µt v(t) + b2t , t ≥ 0, v(0) > 0, dado,

y por tanto

t  t
s 
2 −2
v(t) = e e
µs ds µτ dτ
0 v(0) + 0 b2s ds .
0


t
t
En la demostración de (8.3) se obtuvo la expresión X t = Yt−1 C+Yt−1 0 Ys as ds+Yt−1 0 Ys bs dWs .

t
Como C es independiente de Ys−1 bs dWs se puede concluı́r que si C se distribuye Normal en-
0

t
tonces Xt es un proceso Gaussiano ya que Yt−1 Ys bs dWs es Gaussiano.
0

Proposición 8.3.2. La variable aleatoria C se distribuye Normal si y solo si X t es un proceso


Gaussiano. Además, Xt tiene incrementos independientes si y solo si C es constante.


t
Demostración. La última parte es cierta debido a que Ys−1 bs dWs tiene incrementos indepen-
0
dientes.

Corolario 8.3.0.1. Si C es constante entonces Xt es Markov.

Ejemplo 8.3.1. Si dXt = (2 + 0.1Xt ) dt + 2dWt donde t ≥ 0 , X0 = 1 , entonces el proceso


solución Xt es Gaussiano y Markov.

Un caso en el cual la solución de la EDE Lineal es estacionaria en covarianza y Gaussiana está dada
por
162

Proposición 8.3.3. Sea Xt la soluci ón de la ecuación

dXt = (a − µ Xt ) dt + σdWt t ≥ 0 , X0 = C,

con las condiciones

1. µ > 0,
a σ2   
2. C∼N , , independiente de Wt , t ≥ 0 ,
µ 2µ
 
entonces Xt , t ≥ 0 es Gaussiano y estacionario en covarianza.

Demostración. Aplicado la fórmula (8.4) obtenemos



a  t
Xt = C e−µt + 1 − e−µt + σ e−µt eµs dWs , t ≥ 0.
µ 0

Y aplicando las fórmulas de (8.3.1) obtenemos


    a  a a  a
E Xt = E C e−µt + 1 − e−µt = e−µt + 1 − e−ut = ,
µ µ µ µ
 s∧t 
   
Cov Xs , Xt = Ys−1 Yt−1 V ar C + Yu2 b2u du
0

reemplazando Yt = e0 = eµt y bu = σ obtenemos


µ ds

 σ2 
  s∧t
Cov Xs , Xt = e−µ(s+t) + σ2 e2µτ dτ
2µ 0


s∧t 1  
pero 0 e2µτ dτ = 2µ e2µ(s∧t) − 1 , por tanto

   σ2 σ 2  2µ(s∧t) 
Cov Xs , Xt = e−µ(s+t) + e −1
2µ 2µ
σ 2 −µ(s+t−2(s∧t)) σ 2 −µ |t−s|
=

e =

e ,
  σ2
luego V ar Xt = .

Nótese que de la expresión para Xt se concluye que es un proceso Gaussiano.

Nota 8.3.1. El siguiente resultado es útil para simplificar algunas expresiones. Si f(t) es una

t
función continua y se define el proceso Xt = f(s) dWs entonces Xt = Wτ(t) con τ (t) =
0
163

t
f 2 (s) ds. La justificaci ón es inmediata ya que al ser X t y Wτ(t) Gaussianos y tener la misma
0
media y la misma covarianza, deben ser idénticos. La igualdad de las covarianzas se puede
comprobar inmediatamente.
s∧t
 
Cov Xs , Xt = f 2 (u) du.
0
     s t 
Cov Wτ(s) , Wτ(t) = mı́n τ (s) , τ (t) = mı́n f 2 (u) du , f 2 (v) dv
0 0
s∧t
2
= f (u) du,
0
   
de donde Cov Xs , Xt = Cov Wτ(s) , Wτ(t) .

Aplicando esta identidada Xt de laproposición (8.3.3) anterior, el resultado


 se puede expresar
como Xt = e C + µ 1 − e
−µt a −µt
+ σe −µt
Wτ(t) , con τ (t) = 2µ e − 1 y f(t) = eµt .
1 2µt

Ejemplo 8.3.2. (ver Schuss (1980) pag. 11, Arnold (1974) pag. 134, sec 8.3) La EDE Lineal

dXt = −αXt dt + σ dWt , t ≥ 0, α > 0, σ > 0,

se denomina la ecuación de Langevin. Su soluci ón es el proceso OU y es un modelo para cada


una de las componentes de la velocidad vt ∈ R3 de una partı́cula en movimiento browniano.
El proceso Xt , t ≥ 0, se puede utilizar como una aproximaci ón más aceptable, desde el punto
de vista fı́sico, del ruido blanco (ver Schuss (1980), pag. 11 ). De acuerdo con lo obtenido, la
solución única de la ecuación de Langevin es
 t 
Xt = e−αt C + σ eαs dWs , t ≥ 0.
0
 
Si X0 ∼ N (0, σ 2 /(2α)), entonces el proceso es estacionario y Gaussiano. Además, E Xt =
   
0, Cov Xs , Xt = 2α e
σ2 −α |t−s| 2
y V ar Xt = σ2α . Luego Xt es un proceso tipo Ornstein-
Uhlenbeck (OU) (ver pag. ??, definición (??)). N ótese que, adicionalmente se puede escribir
Xt = e−at Wτ(t) con τ (t) = σ2α e2αt .
2

Caso σt = 0 , t ≥ 0 . Retomando la EDE Lineal general (8.1):


   
dXt = at + µt Xt dt + bt + σt Xt dWt t ∈ [0, T ] X0 = C

con solución t t
   
Xt = Yt−1 C + as − bs σs Ys ds + bs Ys dWs
0 0
donde
 t σs2 
t 
Yt = exp − µs − ds − σs dWs
0 2 0
164

Puede obtenerse un resultado en el caso homogéneo at = bt = 0 , t ≥ 0, ya que la solución es de


la forma Xt = CYt−1 donde C es independiente de Yt−1 .

Teorema 8.3.1. En el caso homogéneo la solución Xt tiene momentos k-ésimos de cualquier


 
orden E Xtk , k = 1, 2, · · · si y solo si C los tiene, y además
     
E Xtk = E C k E Yt−k

donde
 t  σ2 
t 
Yt−1 = exp µs − s ds + σs dWs = eZt
0 2 0
con
 t  σs2 
t 
Zt ∼ N µs − ds , σs2 ds
0 2 0


t
Demostración. Como C es independiente de σs dWs entonces C es independiente de Yt−1 por
0
tanto
       
E Xtk = E C k Yt−k = E C k E Yt−k
Como
    k2 σZ (t)
E Yt−k = E ekZt = ekµZ (t)+ 2
   
siempre existe, se tiene que E Xtk existe si y solo si E C k existe.

8.4. Soluciones de las EDE como procesos de Markov

Una razón por la cual las EDE son útiles es porque las soluciones son procesos Markovianos. La
propiedad de Markov es muy útil, entre otras cosas porque si (X t , t0 ≤ t ≤ T ) es Markov y se
 
conoce la distribución de X t0 es decir, se conoce F0 (x) = P Xt0 ≤ x , y se conboce la función
de transición para t0 ≤ s ≤ t ≤ T se puede calcular la probabilidad
x1 xn
 
P Xt1 ≤ x1 , · · · , Xtn ≤ xn = ··· fXt1 ···Xtn (µ1 , · · · , µn ) dµ1 · · · dµn
−∞ −∞

pero
   
fXt1 ···Xtn (µ1 , · · · , µn ) = fXt1 (µ1 )fXt2 µ2 | Xt1 = µ1 · · · fXtn µn | Xtn−1 = µn−1

todas son conocidas excepto fXt1 (µ1 ) luego


 
p Xt1 ≤ µ1 , · · · , Xtn ≤ µn
x1 xn
   
= ··· fXt1 (µ1 )fXt2 µ2 | Xt1 = µ1 · · · fXtn µn | Xtn−1 = µn−1 dµ1 · · · dµn
−∞ −∞
165

finalmente se puede reemplazar fXt1 (µ1 ) por



   
fXt1 µ1 | Xt0 = µ1 fXt0 µ0 dµ0
R
   
Como fXt1 µ1 | Xt0 = µ1 y fXt0 µ0 son conocidas entonces
 
p Xt1 ≤ x1 , · · · , Xtn ≤ xn
x1 xn
     
= ··· fXtn µn | Xtn−1 = µn−1 · · · fXt1 µ1 | Xt0 = µ1 fXt0 µ0 dX
R −∞ −∞

donde
dX = dµn dµn−1 · · · dµ1 dµ0
 
esta integral puede calcularse porque las densidades de transición fXt x | Xs = y se asumen
 
conocidas, lo mismo que fXt0 µ .

Consideremos la EDE
   
dXt = a t , Xt dt + b t , Xt dWt
para 0 ≤ t ≤ T con X0 = C donde C es una variable aleatoria arbitraria, independiente de
Wt − Wt0 , t ≥ 0.

Considere ahora la misma EDE pero en el intervalo [s, T ] para 0 ≤ s ≤ T y con valor inicial
Xs = x luego
   
dXt = a t , Xt dt + b t , Xt dWt s≤t≤T
con Xs = x que es equivalente a

t   t  
Xt = x + a u , Xu du + b u , Xu dWu
s s

Con estas definiciones se plantea el siguiente resultado, que es importante.

Teorema 8.4.1. Si la EDE


   
dXt = a t , Xt dt + b t , Xt dWt

satisface las condiciones de existencia y unicidad de soluciones, la soluci ón Xt es un proceso de


Markov en el intervalo [0, T ], tal que su funci ón de transici ón está dada por
   
P Xt ≤ y | Xs = x = P Xt (s , x) ≤ y t≥s

donde Xt (s , x) es la solución única de la EDE


   
dXt = a t , Xt dt + b t , Xt dWt s≤t≤T

en el intervalo [s, T ], con condici ón inicial X s = x.


166
 
Nota 8.4.1. Este resultado significa que la probabilidad condicional P Xt ≤ y | Xs = x
 
se puede calcular con la probabilidad no condicional P Xt (s , x) ≤ y donde Xt (s, x) es la
solución de
   
dXt = a t , Xt dt + b t , Xt dWt

en el intervalo [s, T ], con condici ón inicial X s = x.

Además, la probabilidad de transici ón no depende de la condici ón inicial C.

Demostración. Considere (Ω , F , p). Defina las siguientes informaciones:

 
σ C , Ws , 0 ≤ s ≤ t Información generada por Ws , s ≤ t y C.
 
σ Ws − Wt , s ≥ t Información generada por Ws − Wt , s ≥ t con t fijo.
 
σ Xs , 0 ≤ s ≤ t Información generada por Xs , 0 ≤ s ≤ t

Vamos a comprobar que Xt es Markov, es decir que


   
P Xt ≤ y | Xu , 0 ≤ u ≤ s = P Xt ≤ y | Xs

(con probabilidad uno) para 0 ≤ s ≤ t ≤ T .

Pero Xt está adaptado a Wu , 0 ≤ u ≤ t, y a C en el sentido


   
σ Xt ⊆ σ C , Wu , 0 ≤ u ≤ t

luego
   
σ Xu , t0 ≤ u ≤ t ⊆ σ C , Wu , 0 ≤ u ≤ t

por tanto
   
P Xt ≤ y | Xu , 0 ≤ u ≤ s = P Xt ≤ y | C , Wu , 0 ≤ u ≤ s

utilizando el resultado de que


     
E X | I2 = E E(X | I2 ) | I1 = E X | I1
 
donde I1 ⊂ I2 y X = I Xt ≤ y con
       
E X = P Xt ≤ y I1 = σ Xu , 0 ≤ u ≤ s I2 = σ C , Wu , 0 ≤ u ≤ s

Luego, lo que hay que probar es que


   
P Xt ≤ y | C , Wu , 0 ≤ u ≤ s = P Xt ≤ y | Xs
167

pero para probar que


   
P Xt ≤ y | C , Wu , 0 ≤ u ≤ s = P Xt ≤ y | Xs

es cierto, es suficiente probar lo siguiente:

Para cada proceso

Zx : R × Ω → Ω
(x, ω) −→ Zx (ω) = Z(x, w) ∈ R
 
que cumpla que para cada x ∈ R , Zx es independiente de σ C , Wu , 0 ≤ u ≤ s se tenga los
siguiente:
     
E ZXs | C , Wu , 0 ≤ u ≤ s = E ZXs | Xs = E ZXs
Si Xt (s, x) es la solución de
   
dXt = a t, Xt dt + b t , Xt dWt s≤t≤T
 
y se coloca Zx = I Xt (s , x) ≤ y entonces ésta variable es independiente de
 
σ C , Wu , 0 ≤ u ≤ s ya que Xt (x , s) es la solución en [s, T ] y

t   t  
Xt (s, x) = x + a u, Xu du + b u, Xu dWu
s s
 
está adaptada a Wu − Ws , u ≥ s y por tanto es independiente de σ C , Wu , 0 ≤ u ≤ s .

Si denotamos Xt la solución de
   
dXt = a t, Xt dt + b t, Xt dWt

y escribimos Xt = Xt (0, C) pero entonces si s ≤ t ≤ T



t   t  
Xt = Xs + a u, Xu du + b u, Xu dWu
s s

luego Xt se puede escribir similar a Xt (0, C) como Xt = Xt (s, Xs ) pero Xs = Xs (0, C) luego
   
Xt = Xt s, Xs (0, C) = Xt s, Xs s≤t≤T
 
De ésta forma ZXs = I Xt (s, Xs ) ≤ y y la ecuación
     
E ZXs | C , Wu , 0 ≤ u ≤ s = E ZXs | Xs = E ZXs

que hay que demostrar es igual a


     
E ZXs | C , Wu , 0 ≤ u ≤ s = E I Xt (s, Xs ) ≤ y | C , Wu , 0 ≤ u ≤ s
168
 
pero Xt (s, Xs ) es independiente de σ C , Wu , 0 ≤ u ≤ s luego se puede simplificar y tenemos
   
E ZXs | C , Wu , 0 ≤ u ≤ s = E ZXs | Xs
 
= p Xt (s , Xs ) ≤ y X =x
s
 
= P Xt (s , x) ≤ y
 
= P Xt (s , Xs ) ≤ y | Xu , 0 ≤ u ≤ s
 
= P Xt (t0 , C) ≤ y | Xu , 0 ≤ u ≤ s

Solamente falta demostrar la igualdad


   
E ZXs | 0 , Wu , 0 ≤ u ≤ s = E ZXs | Xs

Suponga que Zx es de la forma



n
 
Zx(n) = Yj (x)Zj Zj independiente de σ C , Wu , 0 ≤ u ≤ s
j=1

(n)
El conjunto de éstas Zx es denso en el conjunto de todas las Zx .

Tenemos
 (n)  n
   (n) 
E ZXs | C , Wu , 0 ≤ u ≤ s = Yj (Xs ) E Zj = E ZXs | Xs
j=1

Recordando la definición de proceso de Markov homogéneo se tiene que si X t , t ≥ 0 es


 
homogéneo Markov entonces su función de transición F Xt y | Xs = x se puede escribir como
una función de x, y, t − s donde 0 < s < t < T es decir
   
FXt y | Xs = x = F x, y, t − s

Recordar que la definición de proceso homogéneo Markov es


   
FXt+h y | Xs+h = x | x = FXt y | Xs = x

para todo h > 0.

Como resumen de las propiedades de las soluciones de las EDE se tiene:


Teorema 8.4.2. (ver Jazwinski (1970), pag. 105, Teo 4.5 ) Si se satisfacen las condiciones de
existencia y unicidad de la ecuaci ón
   
dXt = a t , Xt dt + b t , Wt dWt
 
en el intervalo [t0 , T ], con Xt0 = C una variable aleatoria con E Xt20 < ∞, independiente de
Wt , t ≥ t0 entonces la soluci ón Xt tiene las siguientes propiedades.
169

1. Xt es continua en media cuadr ática en [t0 , T ].


 
2. E Xt2 < ∞ para todo t ∈ [t 0 , T ].


T  
3. E Xt2 dt < ∞
t0

4. Xt − Xt0 es independiente de Wτ − Wt , t0 < t < τ .

5. Xt es de Markov con
   
p Xt ≤ y | Xs = x = p Xt (x , s) ≤ y t0 < s < t < T

donde Xt (x , s) es la solución de la ecuación en el intervalo [s, T ], que cumple Xs =


x , x ∈ R constante.

6. Xt es la única soluci ón en media cuadrática.

Como
   
P Xt ≤ y | Xs = x = P Xt (x , s) ≤ y t0 < s < t < T

pero
 t 
 t
Xt (s , x) = Yt−1 x+ au − bu σu Yu du + bu Yu dWu
s s
con
 t σ2 
t

Yt = exp − uv − v dv − σv dWv
s 2 s

En el caso en el cual σt = 0 y Xs = x, constante, entonces



 t
u
t

Xt (s , x) = e− e bu e
t u
s
uv dv
x+ s
ur dr
au du + s
ur dr
dWu ∼ Normal
s s

luego   
  y − E Xt (s , x)
P Xt ≤ y | Xs = x = Φ    

V ar Xt (s , x
con
 
 
t t

E Xt (s , x) = e− s uv dv x + e
u
ur dr
s au du
s

 
t t

V ar Xt (s , x) = e−s s uv dv e 2 su uv dv 2
bu du
0

Ejemplo 8.4.1. Considerando la ecuaci ón diferencial lineal


 
dXt = (3 − 2Xt )dt + 2dWt X0 ∼ N u0 , σ02 t≥0
170

3 22
entonces a = 3 , u = 2 , σ = 2 , u0 = 2
, σ02 = 4
= 1 y la solución es

3  t
Xt = X0 e−2t + 1 − e−2t + 2e−2t e2s dWs
2 0

es un proceso Gaussiano estacionario Markov donde


  3    
E Xt = V ar Xt = 1 Cov Xs , Xt = e−2| t−s |
2
luego
3 
Xt ∼ N ,1
2
para todo t ≥ 0.

Que distribuci ón tiene Xt | Xs para t > s ?

Como
    
Xt | Xs ∼ N E Xt | Xs , V ar Xt | Xs
entonces
 
    Corr Xs , Xt σt   
E Xt | Xs = E Xt + Xs − E Xs
σs
 
3 Corr X s , X t 3
= +   Xs −
2 V ar Xs 2
 
= + e−2| t−s | Xs −
3 3
2 2
     
V ar Xt | Xs = V ar Xt 1 − Corr 2 Xt , Xs
 
= 1 − Cov2 Xt , Xs

= 1 − e−4| t−s |

luego
3  3 
Xt | Xs ∼ N + e−2| t−s | Xs − , 1 − e−4| t−s |
2 2
y   
  y − 32 − e−2| t−s | x − 32
p Xt ≤ y | Xs = x = Φ   
1 − e−4| t−s |
también
t
3 
Xt = X0 e −2t
+ 1−e −2t
+ 2e−2t
e2u dWu
2 0
s
3 
Xs = X0 e−2s
+ 1−e−2s
+ 2e −2s
e2v dWv
2 0
171

  s
e−2(t−s)Xs = X0 e−2t + 32 e−2(t−s) 1 − e−2s + 2e−2t e2v dWv
0
t
3 
∴ Xt = e−2(t−s)Xs + 1 − e−2t + 2e−2t e2u dWu
2 0
  s
− e−2(t−s) 1 − e−2s − 2e−2t
3
2
e−2u dWu
0
t
3 
= e−2(t−s)Xs + 1 − e−2(t−s) + 2e−2t e2u dWu
2 s
  3 
E Xt | Xs = e−2(t−s)Xs + 1 − e−2(t−s)
2
 3
= +e
3 −2(t−s)
Xs −
2 2
t
 
V ar Xt | Xs = 4e−4t e4u du
s
 
=e −4t
e4t − e4s
= 1 − e−4(t−s)

y como
   
P Xt ≤ y | Xs = x = P Xt (s , x) ≤ y
y
t
3 
Xt (s , x) = xe−2(t−s) + 1 − e−2(t−s) + 2e−2t e2u dWu
2 s
 3  
∼ N xe−2(t−s) + 1 − e−2(t−s) , 1 − e−4(t−s)
2
luego   
  y − 32 − e−2(t−s) x − 32
P Xt (s , x) ≤ y = Φ   
1 − e−4(t−s)

8.5. EDE Lineales de orden n

Considere la ecuación diferencial homogénea



n
aj x(j)(t) = 0 (8.5)
j=0

con aj constantes reales, an = 1. Una solución de la ecuación anterior es una función x(t) , n
veces derivable en un intervalo, tal que satisface la ecuación diferencial.
172

Para cada j , j = 1, 2, · · · , n, existe una solución xj (t) t ≥ 0 tal que



(k) 1 si k = j − 1
xj (0) =
0 si k = j − 1

(k)
Ejemplo 8.5.1. x1 (t) satisface x1 (0) = 1 , x1 (0) = 0 , k = 1, · · · , n − 1.

Si n = 1 , x (t) + a0 x(t) = 0, entonces x1 (t) = e−a0 t satisface x1 (0) = 1.

Para cada n−pla (C 0 , C1, · · · , Cn−1) la funci ón



n
x(t) = Cj−1xj (t)
j=1

es la solución única de la ecuación que satisface las condiciones iniciales

x(0) = C0 , x (0) = C1 ··· x(n−1)(0) = Cn−1

Definición 8.5.1. El polinomio

P (x) = a0 xn + a1 xn−1 + · · · + an−1 x + an

se denomina el polinomio caracterı́stico asociado a la ecuaci ón homogénea.

Por el teorema fundamental del álgebra el polinomio P (x) se puede factorizar de la forma
    
P(x) = x − r1 x − r2 · · · x − rn

donde r1 , r2 , · · · , rn son las n raı́ces de la ecuación P (r) = 0, no necesariamente distintas y


posiblemente complejas, tales que

rj = Re(rj ) + i Im(rj ) j = 1, 2, · · · , n

Si rj ∈ R entonces Re(rj ) = rj y Im(rj ) = 0.

Definición 8.5.2. La ecuación (8.5) se dice estable si Re(rj ) < 0 para todo j.

Definición 8.5.3. Si g(t) es una funci ón continua, la ecuaci ón



n
aj x(j) = g(t) (8.6)
j=0

se dice que es no-homogénea.

Definición 8.5.4. La función respuesta al impulso de la ecuaci ón



n
aj x(j)(t) = 0
j=0
173

se define como la función


h(x) = xn (x) I( x ≥ 0 )
donde xn (x) es la solución que satisface

xn(k) = δk , n−1

es decir

xn (0) = 0
xn (0) = 0
..
.
x(n−2)
n (0) = 0
x(n−1)
n = 1.

El resultado siguiente expresa la solución de la ecuación no-homogénea mediante la función


respuesta al impulso.

Teorema 8.5.1. (ver Braun (1986), pag. 231) La funci ón


t
xp (t) = h(t − x) g(x) dx
0

es la solución en [0, ∞) de la ecuación diferencial no - homog énea


n
aj x(j)(t) = g(t) t≥0
j=0

que satisface las condiciones iniciales

x(0) = 0 , x (0) = 0 , ··· x(n−1)(0) = 0.

Definición 8.5.5. Suponga un proceso (X t , t ≥ 0) derivable en media cuadrática n − 1 veces,


tal que satisface
t
(n−1)  (n−2)   
Xt − Cn−1 + an−1 Xt − Cn−2 + · · · + an Xt − C0 + a0 Xs ds = σ Wt (8.7)
0

para t ≥ 0, donde C0 , C1 , · · · , Cn−1 son variables aleatorias independientes de (W t , t ≥ 0)


e independientes. Entonces se dice que Xt es solución de la ecuación diferencial estoc ástica de
orden n
(n−1)  (n−1) 
dXt + an−1 Xt + · · · + a0 Xt dt = σ dWt t≥0
(n−1)
con condiciones iniciales X 0 = C0 , X0 = C1 , · · · , X0 = Cn−1
174

Lema 8.5.1. El proceso



n
Xh , t = Cj−1 xj (t)
j=0

es derivable en media cuadrática n veces y satisface en media cuadrática la ecuaci ón


(n) (n−1)
Xt + an−1 Xt + · · · + a1 Xt + a0 Xt = 0

y las condiciones iniciales

(k)

n
(k)

n
Xh , 0 = Cj−1 xj (0) = Cj−1 δk , j−1 = Ck k = 0, 1, · · · , n − 1
j=1 j=1

Lema 8.5.2. El proceso


t
Xp , t = σ h(t − s) dWs h(t) = xn (t)
0

es derivable en media cuadrática n − 1 veces y satisface


t
(n−1) (n−2)
Xt + an−1 Xt + · · · + a1 Xt + a0 Xs ds = σ Wt
0

y las condiciones
(k)
X0 = 0 k = 0, 1, · · · , n − 1

Demostración. Se presenta la demostración para el caso n = 2. Es decir, consideramos la ecuación


t
Xt + a1 Xt + a0 Xs ds = σ Wt
0

y las condiciones
(k)
X0 = 0 k = 0, 1

t t
t 
Xt = σ 
h(t − s) dWs = σh(t − s) Ws  + σ

h (t − s) Ws ds
0 0 0
t

= σh(0) Wt + σ h (t − s) Ws ds
0

pero, por definición, tenemos que h(t) = x2 (t) donde x2 (t) es la solución de la ecuación
diferencial
  
x(t) + a1 x(t) + a0 x(t) = 0 con x2 (0) = 0 x2 (0) = 1
entonces h(0) = x2 (0) = 0 luego
t

Xt = σ h (t − s) Ws ds
0
175

además
t t s

Xs ds = σ h (s − u) Wu du ds
0 0 0
t t

=σ Wu h (s − u) ds du
0 u
t
=σ Wu h(t − u) du
0
t
=σ h(t − s) Ws ds
0

y también
t
 d 
Xt = σ h (t − s) Ws ds
dt 0
usando
t t
∂ ∂
f(t , s) ds = f(t , t) + f(t , s) ds
∂t 0 0 ∂t
luego t
  
Xt = σh (0)Wt + σ h (t − s) Ws ds
0

pero h (0) = 1 luego se tiene que
t
 
Xt = σWt + σ h (t − s) Ws ds
0

luego reemplazando estas expresiones en la identidad de la definición anterior obtenemos


t t
     
Xt − X0 + a1 Xt − X0 + a0 Xs ds = Xt + a1 Xt + a0 Xs ds
0 0
 t  t t
 
= σWt + σ h (t − s) Ws ds + a1 σ h (t − s) Ws ds + a0 σ h(t − s) Ws ds
0 0 0
t 
 
= σWt + σ h (t − s) + a1 h (t − s) + a0 h(t − s) Ws ds.
0

pero h es la solución de la E. D. Homogénea, luego la integral se anula y se obtiene con X0 =



X0 = 0
t

Xt + a1 Xt + a0 Xs ds = σWt
0
es decir
   
dXt + a1 Xt + a0 Xt dt = σdWt t ≥ 0,
X0 = 0,

X0 = 0.
176

Teorema 8.5.2. La solución de la ecuación anterior en [0, ∞) está dada por


n t
Xt = Cj−1 xj (t) + σ h(t − s) dWs (8.8)
j=1 0

donde x1 (t), x2 (t), · · · , xn (t) son las n soluciones de la ecuaci ón dieferncial ordinaria


n−1
x(n)(t) + aj x(j)(t) = 0
j=0

tales que
(k)
xj (0) = δk , j−1 j = 1, 2, · · · , n k = 0, 1, · · · , n − 1
(k)
y C0 , C1 , · · · , Cn−1 son variables aleatorias que satisfacen x 0 = Ck independientes, e inde-
pendientes de (Wt , t ≥ 0) con h(t) = xn (t) I(t ≥ 0).

Proposición 8.5.1. La solución Xt (8.8) de la ecuación (8.7) tiene los siguientes momentos
básicos.
   n  
1) E Xt = E Cj−1 xj (t)
j=1

  n  

s∧t
2) Cov Xs , Xt = V ar Cj−1 xj (s)xj (t) + σ 2 h(t − u) h(s − u) du
j=1 0

   n  
t
3) V ar Xt = V ar Cj−1 x2j (t) + σ 2 h2 (s) ds
j=1 0

Demostración.
 
   n
  s
E Xs − E(Xj ) Xt −E(Xt ) = E Cj−1 − E(Cj−1 ) xj (s) + h(s − u) dWu
j=1 0

 
n
  t
× Cj−1 − E(Cj−1 ) xj (t) + σ h(t − u) dWu
j=1 0


n s∧t
= V ar(Cj−1 )xj (s)xj (t) + σ 2 h(t − u) h(s − u)du
j=1 0

8.5.1. El Caso n = 2

La ecuación diferencial estocástica lineal de orden 2 con coeficientes constantes está definida por
 
dXt = − a1 Xt + a0 Xt dt + σ dWt t≥0
177

tal que X0 = C0 , X0 = C1 , donde C0 , C1 son variables aleatorias independientes de


(Wt , t ≥ 0), e independientes.

La solución está dada por el proceso


t
Xt = C0 x1 (t) + C1 x2 (t) + σ h(t − s) dWs t≥0
0

donde x1 (t) , x2 (t) son las dos soluciones de la ecuación diferencial homogénea

x (t) + a1 x (t) + a0 x(t) = 0

que cumplen

x1 (0) = 1 , x1 (0) = 0 , x2 (0) = 0 , x2 (0) = 1 y h(t) = x2 (t)

El polinomio caracterı́stico es
P (x) = x2 + a1 x + a0
y la ecuación caracterı́stica P (x) = 0 tiene raı́ces
 
−a1 + a21 − 4a0 −a1 − a21 − 4a0
r1 = r2 =
2 2
que origina lo siguiente:

1. Si a21 − 4a0 > 0 hay dos raı́ces reales y distintas y las soluciones de la ecuación diferencial
ordinaria homogénea
x (t) + a1 x (t) + a0 x(t) = 0
son x1 (t) y x2 (t) que satisfacen

x1 (0) = 1 , x1 (0) = 0 , x2 (0) = 0 , x2 (0) = 1

las podemos escribir como

r1 er2 t − r2 er1 t
x1 (t) =
r1 − r2

x2 (t) =
e r1 t
− er2 t
r1 − r2

2. Si a21 − 4a0 < 0 entonces



−a1 + i 4a0 − a21
r1 =
2
a1 4a0 − a21
=− +i
2 2
178

= α + iβ
r2 = α − iβ

y por tanto
 
x1 (t) = eαt cos (βt) − sen(βt)
α
β

x2 (t) = e sen(βt)
1 αt
β

3. Si a21 − 4a0 = 0 entonces r1 = r2 = − a20 y por tanto

x1 (t) = e−
a1
2 t

x2 (t) = te−
a1
2 t

Ejemplo 8.5.2. (ver Hoel, Port, and Stone (1972)) Considere la ecuaci ón diferencial lineal
 
dXt + 2Xt + 2Xt dt = dWt t≥0

que satisface X0 = 0 , X0 = 1 es decir, C0 = 0 , C1 = 1. Entonces P (x) = x2 + 2x + 2 = 0


tiene raı́ces r1 = −1 + i r2 = −1 − i, por tanto
 
x1 (t) = e−t cos t + sen t , x2 (t) = e−t sen t,

luego
t
Xt = C0 x1 (t) + C1 x2 (t) + h(t − s) dWs ,
0
t
= e−t sen t + e−(t−s) sen(t − s) dWs .
0

Xt es Gaussiano, Markov y satisface


 
E Xt = e−t sen t
   s t 
Cov Xs , Xt = E e−(s−u) sen(s − u) dWs e−(t−v) sen(t − v) dWv
0 0
s∧t
= e−(s−u)−(t−u) sen(s − u) sen(t − u) du
0
s∧t
=e −(s+t)
e2u sen(s − u) sen(t − u) du
0
1 −| t−s |  
=
8
e sen(t − s) + cos (t − s)


e−(s+t)  cos (t − s) − cos (s + t) + sen(s + t) 
4 2 2
179

Si s = t + h entonces

 
Cov Xt , Xt+h →
e−| h | sen h + cos h t→∞
8
 
Además E Xt → 0 cuando t → ∞.

Por lo que se puede definir un proceso estacionario Gaussiano X e , t definido por la covarianza

r(h) =
e−| h | sen |h| + cos h h∈R
8
de media cero tal que
Xt − Xe , t  −→ 0 , t→∞

Caso mas General (ver Hoel, Port, and Stone (1972), ec. (44) cap. 6 ) También pueden consid-
erarse ecuaciones diferenciales estocásticas mas generales, de la forma
(n) (n−1)
Xt + an−1 Xt + · · · + a0 Xt = Yt , t ≥ 0,

donde (Yt , t ∈ R) es un proceso de segundo orden estacionario continuo en media cuadrática.


Una solución Xt es un proceso derivable en media cuadrática n veces estacionario de segundo
orden que satisface la ecuación diferencial anterior. Esta solución tiene la forma


n t
(n) (e)
Xt Cj−1Xj (t) + h(t − s) Ys ds = Xt + Xt ,
j=1 0

donde xj (t) , j = 1, 2, · · · , n son las n soluciones linealmente independientes de la ecuación


diferencial ordinaria

n−1
x(n) (t) + aj x(j)(t) = 0,
j=0

que satisfacen
 
dk  1 si k = j − 1,

xj (t)  =
k
dt t=0 0 si k = j − 1.
(h)
En consecuencia, Xt es derivable n veces y satisface
(k)
X0 = Ck k = 0, 1, · · · , n − 1,

donde C0 , C1 , · · · , Cn−1 son variables aleatorias independientes de Yt e independientes y

h(t) = xn (t) I( t ≥ 0 ).
180

Proposición 8.5.2. Si se considera una ecuación estable tal que

xj (t) −→ 0 , t→∞

para j = 1, 2, · · · , n entonces
(h) 2
Xt −→ 0 , t→∞

y por tanto
(e) 2
Xt − Xt −→ 0 , t→∞
Además, la soluci ón t
(e)
Xt = h(t − s) Ys ds
0
tiene
t
 (e)  t  
E Xt = h(t − s) E Ys ds = µY h(t − s) ds
0 0
s t
 (e) 
Cov Xt , Xs(e) = h(t − u) h(s − v) g(u − v) du dv
0 0
 
donde g(u) = Cov Yt , Yt+u .
    σ 2 −α| t−s |
Ejemplo 8.5.3. Si Y t es proceso OU con E Yt = 0 , Cov Ys , Yt =

e , α>0y
se tiene la E. D. E. Lineal de segundo orden
  
Xt + 2Xt + 2Xt = Yt , t ≥ 0 X0 = 0 X0 = 1

entonces
 
x1 (t) = e−t cos t + sen t

x2 (t) = e−t sen t

luego t
xt = e−t sen t + e−(t−s) sen(t − s) Ys ds
0

8.6. Notas
1. Fórmulas sobre integrales estocásticas

t
t
a) Si Xt es un proceso adaptado a σ(Ws , 0 ≤ s ≤ t) entonces s
Xu dWu ∼ N (0, s
E(Xu2 )du).
Además, se cumple:
181


b
c
b∧c
b) E( a
Xs dWs .Xu dWu ) = a E(Xs2 )ds.
a

t
c) El proceso Yt = 0 Xs dWs tiene incrementos independientes.

t
2. Identidad útil del proceso Wiener. Se puede comprobar que si X t = f(s)dWs , con f(t)

t 0
función continua, entonces X t = Wτ(t) , donde τ (t) = 0 f 2 (s)ds.

3. Regla de Ito (regla de la cadena). Si Xt es un proceso con diferencial estocástico dXt =


at dt + bt dWt y se define el proceso Zt = F (Xt , t), donde F (x, t) es una función con
derivadas parcial en t, ∂F/∂t continua, y derivadas parciales en x, ∂F/∂x, ∂ 2 F/∂x2 ,
continuas, entonces el diferencial estocástico de Zt está dado por:
 
∂F ∂F b2t ∂ 2 F ∂F
dZt = + at + 2
dt + bt dWt (8.9)
∂t ∂x 2 ∂x ∂x
todas las derivadas se evalúan en (Xt , t).

4. Fórmulas para la ecuación diferencial estocástica lineal general:

dXt = (at + µt Xt )dt + (bt + σt Xt )dWt , X0 = c (8.10)

donde c es una variable aleatoria independiente de (Wt , t ≥ 0), con E(c2 ) < ∞.

a) La solución Xt es un proceso continuo en m.c., de segundo orden. Además cumple



t 2
0 E(Xt )dt < ∞, ∀t ≥ 0.
b) El proceso Xt es Markov.
c) Fórmula de la solución:
 t t 
1
Xt = c+ (as − bs σs )Ys ds + bs Ys dWs
Yt 0 0

donde Yt es el proceso auxiliar dado por:


 t t 
1 2
Yt = exp − µs − σs ds − σs dWs
0 2 0

5. En el caso σ(t) ≡ 0 la solución Xt es un proceso gaussiano. La solución general es de la


forma:

t
 t


µs ds − 0s µv dv − 0s µv dv
Xt = e 0 c+ as e ds + bs e dWs
0 0
con media

 t
s

t
E(Xt ) = e 0
µs ds
E(c) + as e− 0
µv dv
ds
0
y covarianza

s

 t∧s
v

µv dv+ 0t µv dv
Cov(Xs , Xt ) = e 0 V ar(c) + b2v e−2 0
µr dr
dv
0
182

8.7. Aplicaciones

1. En Bioestadı́stica. Una ecuación utilizada en Oncologı́a para modelar el crecimiento de


tumores cancerosos. Si Xt es el volumen del tumor en el tiempo t
 
dXt = aXt − bXt lnXt dt + σXt dWt

es una ecuación para la tasa de crecimiento del tumor (ver Ferrante y otros, Ferrante (2000)).
En el problema (9) se resuelve esta ecuación.

2. En Ecologı́a. Para modelar el crecimiento de poblaciones



dXt = γt Xt − α Xt dWt

donde Xt es el tamaño de la población en t , γt es la tasa de crecimiento de la población.


(ver ?, Tuckwell (1974))

3. En Medio Ambiente En estudios sobre efecto de eliminación de polución en el aire con la


lluvia.
 
dXt = qt − γt Xt dt + σ Xt dWt

donde Xt es la tasa de remoción de polución, γt es un proceso que define la cantidad de


lluvia en un intervalo de tiempo τ y que q t es un proceso denominado de infusión.

4. En Finanzas. donde el factor de capitalización de en [0, t] a la tasa i e. a. es (1 + i)t se



t δs ds 
reemplaza por E e0 donde

dδt = α(b − δt ) dt + σ dWt

se denomina el modelo de Vasicek.(ver Vasicek ( 1977 ), Vasicek (1977)). En el problema


(12) se desarrolla esta aplicación.

5. En Fı́sica. Si Xt es una señal ( voz , música ) se somete a una modulación antes de enviarse.
La A M es una transformación

Xt −→ Xt 2 sen(ω0 t)

donde ω0 es una frecuencia alta de la portadora. La señal transmitida tiene ruido, y se


modula por
√ 
dYt = Xt 2 sen(ω0 t) dt + 2N0 dWt

donde N0 es la intensidad del ruido.(ver Schuss, Schuss (1980), pag. 252 )


183

8.8. Problemas
1. Suponga que X1 y X2 son dos variables aleatorias distribuı́das conjuntamente Normal,
con medias µ1 , µ2 , varianzas σ12 , σ22 , respectivamente, y correlación ρ. Defina (Ej )j∈Z una
sucesión i.i.d de variables Normales N (0, σ 2 ), independientes de X1 y de X2 . Defina el
proceso Yt = X1 + tX2 + Et , t ∈ Z. Compruebe que es un proceso Gaussiano.

2. Defina el proceso Zt = e−bWt , con b ∈ R. Compruebe utilizando el lema de Ito que Z t


satisface la ecuación: dZt = (b2 /2)Zt dt − bZt dWt , t ≥ 0.

3. Considere el proceso Xt = ( a + bWt )2 , para t ≥ 0, a > 0, b ∈ R.

a) Compruebe por medio de la regla de Ito que X t es solución de la ecuación estocástica



no lineal: dX t = b2 dt + b Xt dWt , t ≥ 0, con X0 = a.
b) Encuentre E(Xt ).
c) (opcional) Encuentre Cov(Xs , Xt ), s, t > 0.

4. Si Xt = δt + a(Wt + Wτ(t) ), t ≥ 0, donde δ, a ∈ R son constantes dadas y τ (t) =


(1 − e−2t )/2, encuentre V ar(Xt ).

5. Si Xt es la solución de la ecuación lineal general en el caso σt ≡ 0, compruebe que


v(t) = V ar(Xt ) satisface la ecuación diferencial v (t) = 2µt v(t) + b2t .

6. Considere la ecuación lineal: dXt = (3 + t)−2 dt + e−t dWt , X0 = 0

a) Resuelva la ecuación anterior.


b) Encuentre la distribución de X t .
c) Encuentre la distribución condicional de X t dado Xs = x, 0 < s < t
d) Encuentre la función de autocorrelación: Corr(X t , Xt+h ).

7. Considere la ecuación lineal:


 
1
dXt = − aXt dt + b dWt , t ≥ 0 (8.11)
b + ceat

donde a, b, c > 0 y X0 = x0 ∈ R es una constante.

a) Encuentre E(Xt ) y lı́mt→∞ E(Xt ).


b) Encuentre Cov(Xt , Xt+h ) y lı́mt→∞ Cov(Xt , Xt+h ). Compruebe que este lı́mite es
una función para de h.
c) Clasifique el proceso Xt : gaussiano, markov, estacionario.
d) Encuentre distribución condicional de X t dado Xs , 0 < s < t.
184

8. Un cuarto contiene V m3 de aire, libre de CO2 , en t = 0. En ese momento se introduce aire


a una velocidad v m3 /min, con una concentración r de CO2 . Se supone que el aire ingresa
al cuarto, se circula y vuelve a salir a la misma velocidad. Denotemos por yt la cantidad de
CO2 en el cuarto, en el tiempo t, medida en m3 de CO2, de tal forma que yt /V tiene las
mismas unidades de r. La ecuación diferencial para yt es:

y t = v(r − yt /V ), t ≥ 0 (8.12)
y0 = 0

La ecuación diferencial (8.12), se puede escribir con diferenciales de la forma: dyt =


v(rdt − (yt /V )dt). Reemplazamos rdt por rdt + σdWt , donde r > 0 y σ > 0 son
parámetros. Ahora yt se define como la solución de la ecuación diferencial estocástica
lineal:

dyt = v(r − yt /V )dt + vσdWt , t ≥ 0 (8.13)


y0 = 0

Por ejemplo, r = 4, σ = 1.3, v = 0.25 y V = 30 indicarı́a que está ingresando aire, el cual
contiene en promedio 4 % de CO2 por m3 , con desviación estándar 1.3 %, a un cuarto de
30m3 , a una velocidad de 0.25m3 /min.

a) Resuelva la ecuación diferencial estocástica (8.13).


b) Por qué puede afirmarse que el proceso yt es gaussiano y markov?.
c) Encuentre µ(t) = E(yt ) y lı́mt→∞ µ(t).
d) Encuentre V ar(yt ) y lı́mt→∞ V ar(yt ).
e) Encuentre Cov(yt , yt+h ) para h > 0, y lı́mt→∞ Cov(yt , yt+h ). Compruebe que este
lı́mite solamente depende de h.
f ) El proceso tiene un estado transitorio y luego pasa a un estado estacionario el cual
está definido como el proceso estacionario de 2do orden con media, varianza y covar-
ianza iguales a las obtenidas en los lı́mites de los puntos anteriores. Se puede hacer
una estimación del tiempo Te en el que se llega al estado estacionario, utilizando la
regla “cinco-tau". Encuentre Te como el valor Te = 5τ donde τ es la solución de la
ecuación µ(τ ) = 0.63 lı́mt→∞ µ(t).
g) Utilizando la fórmula para la distribución condicional de y t |ys = x, para 0 < s < t,
dada por: yt |ys = x ∼ N (E(yt |ys = x), V ar(yt |ys = x)), donde:
E(yt |ys = x) = µ(t) + Corr(yt , ys )σt (x − µ(s))/σs
V ar(yt |ys = x) = σt2 (1 − Corr 2 (yt , ys ))
donde σt2 = V ar(yt ), encuentre expresiones simplificadas para esta media y varianza
condicionales.
185

9. En el artı́culo de Ferrante et al. Ferrante (2000) se estudia un modelo para la evolución del
tamaño Xt de un tumor canceroso. Este modelo es una versión estocástica de la ecuación de
Gompertz que se puede consultar en el texto de Braun Braun (1986). El modelo estocástico
propuesto es utilizado para medir la sensibilidad al tratamiento con drogas denominadas
anti-angiogénicas, que detienen el crecimiento del tumor impidiendo que éste extraiga
oxı́geno y nutrientes del tejido circundante. El modelo está dado por la ecuación no lineal
siguiente:
dXt = Xt (a − b ln(Xt ))dt + σXt dWt , t ≥ 0, X0 = xo (8.14)

Resuelva esta ecuación definiendo la transformación: Yt = ln(Xt ) y luego utilizando el


lema de Ito para obtener una ecuación lineal para el proceso Yt . Obtenga la expresión para
Xt . Encuentre E(Xt ) y V ar(Xt ). Qué tipo de proceso es Xt ?.

10. En la ecuación diferencial estocástica dXt + (3Xt + 2Xt )dt = dWt , con X0 = X0 =
0 encuentre V ar(Xt ). Si la ecuación es estable encuentre la expresión para el estado
estacionario.

11. si Qt es la carga en el condensador de un circuito RLC con un voltaje de entrada dado por X t
entonces Qt satisface la ecuación de segundo orden lineal: LQt +rQt +(1/C)Qt = Xt , t ≥
0, con condiciones iniciales Q0 , Q0 constantes dadas. Asumiendo L = C = 1, 0 < R < 2
y Xt ruido blanco, de tal forma que la ecuación anterior se escribe dQt + (RQt + Qt )dt =
σdWt , encuentre E(Qt ), V ar(Qt ). Qué tipo de proceso es Qt ?.

12. En matemáticas financieras se define la tasa continua de interés como la función µ(t) tal

t
que $1.00 colocado a la tasa µ(t) en el perı́odo [0, t] se convierte en: exp( 0 µ(s)ds). La
anterior expresion se denomina el factor de capitalización hasta t. Supongamos que µ(t) se
modela mediante un proceso Xt definido por la ecuación diferencial estocástica:

dXt = α(b − Xt )dt + σdWt (8.15)

Este modelo se conoce en economı́a y finanzas como el modelo de Vasicek, ver Vasicek
(1977). En los problemas siguientes se desarrollan algunas propiedades y ejemplos de
aplicación de este modelo.

a) Si 0 < s < t compruebe la identidad:


t
Xt = Xs e−α(t−s) + b(1 − e−α(t−s)) + σe−αt eαu dWu
s

b) Compruebe que si 0 < s < t entonces Xt |Xs = x ∼ N (µV , σV2 ), donde µV =


σ2
xe−α(t−s) + b(1 − e−αt ) y σV2 = 2α (1 − e−2α(t−s))
c) Como el proceso Xt es gaussiano entonces también se cumple:
t
(Xu |Xs = x)du ∼ N (µ(s, t, x), σ 2(s, t, x))
s
186

t
donde µ(s, t, x) = E( s (Xu |Xs = x)du). Compruebe que

x−b
µ(s, t, x) = b(t − s) + (1 − e−α(t−s))
α
d) Defina la covarianza condicional como:

cov(Xu , Xv |Xs = x) = E [(Xu − E(Xu |Xs = x))(Xv − E(Xv |Xs = x))]

y aplique la identidad
t t t
V ar( (Xu |Xs = x)du) = cov(Xu , Xv |Xs = x)dudv
s s s

t
Compruebe que si V ar( s
(Xu |Xs = x)du) = σ 2 (s, t, x), entonces:

σ2
σ 2 (s, t, x) = (2α(t − s) + 4e−α(t−s) − e−2α(t−s) − 3)
2α3
e) El factor de capitalización esperado, en el perı́odo [s, t], se define como

t
(Xu |Xs =x)du
C(s, t, x) = E(e s )

encuentre esta función. Este factor permite estimar el rendimiento de una inversión en
un fondo con tasa de rendimientos aleatoria, en el perı́odo [s, t].
APÉNDICE A

Variables Aleatorias Normales Multivariadas.

A.1. Distribución Normal Multivariada

Las variables normales son básicas porque tienen muchos resultados analı́ticos precisos y fórmulas
manejables. Si una variable se sabe que se distribuye aproximadamente normal usualmente se
asume que es normal para aprovechar estos resultados. En lo que sigue X denota un vector
columna aleatorio y X  su transpuesto, un vector fila. Si X ∈ R n es un vector aleatorio, y
X = (X1 , X2 , . . . , Xn ) , entonces cada componente Xi se asume que es una variable aleatoria.
Una matriz A, n × m, se indica por A ∈ Rn×m . Los vectores escalares se indican por minúsculas:
a = (a1 , a2 , · · · , an ) . Si X, Y ∈ Rn son vectores aleatorios entonces utilizando producto
matricial a · X ∈ R y X · Y  ∈ Rn×n . Si A y B son matrices n × n entonces A B = (B  A) .
n
A es simétrica si A = A. La matriz α X ∈ R es simétrica y (α X) = X  α = αi Xi . Si se
i=1
considera α A α ∈ R se tiene


n 
n
α A α = αi αj Aij
i=1 j=1

187
188

Definición A.1.1. Dado el vector aleatorio X definimos el vector de medias como

µ = E(X) = (E(X1 ), · · · , E(Xn )) = (µ1 , · · · , µn )

y la matriz de varianzas y covarianzas R


 
R = Cov(Xi , Xj ) n×n

Nota A.1.1. Si se define la matriz n × n (X − µ)(X − µ)  entonces se puede definir su valor


esperado como
    
E((X − µ)(X − µ) ) = E (Xi − µi )(Xj − µj ) = Cov(Xi , Xj ) = R
 
por tanto R = E (X − µ)(X − µ) .

Definición A.1.2. Un vector aleatorio X = (X1 , X2 , . . . , Xn ) se dice que se distribuye normal


multivariado si se cumple que toda combinaci ón lineal de la forma Y = α 1 X1 + α2 X2 + . . . +
αn Xn con α1 , α2, · · · , αn números reales, es una variable normal. Si µ es el vector de medias
de X y R es su matriz de varianzas y covarianzas entonces se escribe X ∼ Nn (µ, R).

Usando producto de matrices podemos escribir esta combinación lineal como una variable real
Y = α X; luego debe tenerse que Y ∼ N (µY , σy2 ) para ciertos µy , σy2 . Se trata de encontrar µY
y σY2 en función de α, las medias de las xi y las covarianzas de las xi .

Expresión para µY

Como
n 
n 
n
µy = E(Y ) = E(α X) = E( αj Xj = αj E(Xj ) = αj µj = α µ
j=1 j=1 j=1

entonces µY = α µ. Es decir

E(a X) = a E(X) = a µ

Expresión para σY2

Sabemos que σy2 = E((Y − E(Y ))2 ) pero

(Y − E(Y ))2 = (α X − α µ)2


  
= α (X − µ α (X − µ)
= α (X − µ)(X − µ) α
189
 
= α (X − µ)(X − µ) α

n 
n
= αi αj (Xi − µi )(Xj − µj )
i=1 j=1

luego

n 
n
 
σY2 = αi αj E (Xi − µi )(Xj − µj )
i=1 j=1
n  n
= αi αj Cov(Xi , Xj )
i=1 j=1
n  n
= αi αj Rij
i=1 j=1

= α R α

En resumen, si X se distribuye normal multivariada y α es un vector de escalares, Y = α X se


distribuye N (µ Y , σY2 ) ( por definición ) con

µY = α µ σY2 = α R α

Definición A.1.3. Función generadora de Momentos de X se define como la funci ón de t,


MX (t) = E(etX ) para aquellos t ∈ I ⊆ R tales que E(e tX ) < ∞. Como E(e0X ) < ∞ entonces
0 ∈ I.

Definición A.1.4. Función generadora de momentos de X = (X1 , X2 , · · · , Xn ) se define como


la funci ón de t = (t1 , t2 , · · · , tn ) ,
 
et

X
MX(t ) = E

siempre que MX (t) < ∞.

X con fdp multivariada f X (x1 , x2 , · · · , xn) entonces



MX (t) = e t X fX (x)dx
Rn

y es única si existe.

Proposición A.1.1.

1. Si X = (X1 , X2 , · · · , Xn ) tiene fgm MX (t), las Xj son independientes si y solo si

MX (t) = MX1 (t1 )MX2 (t2 ) · · · MXn (tn )


190
 1

2. Para X ∼ Nn (µ, R) se tiene MX (t) = exp t µ + 2 t R t para todo t ∈ R n y es única.

Prueba de 2). Si t ∈ Rn entonces Y = t X ∼ N (µy , σY2 ) con µY = t µ , σY2 = t R t y por


tanto  
MY (1) = e = E(e
2
µY + 12 σY 1·Y  1 
) = exp t µ + t R t = MX (t)
2

Además MX (t) < ∞ para todo t ∈ Rn . La unicidad no se demuestra.

En el caso de que un vector aleatorio X tenga una fgm de la forma anterior para µ ∈ Rn y R
matriz simétrica, entonces X debe ser normal multivariada por la unicidad de la fgm.

Consideremos el caso de X ∼ Nn (µ, R) y una matriz Ak×n entonces Z = AX es un vector


aleatorio en Rk que es un vector distribuı́do normal multivariado.

Proposición A.1.2. Si X ∼ Nn (µ, R) y A es una matriz k × n entonces Z = AX es un vector


aleatorio distribuı́do normal multivariado en R k tal que
 
E(Z) = Aµ y E (Z − E(Z))(Z − E(Z)) = ARA

es decir
Z ∼ Nk (Aµ, ARA )

Demostración. Si t = (t1 , t2 , · · · , tk ) ∈ Rk entonces la fgm de Z es


 
et

Z
MZ (t) = E

Colocando v = A t que es de orden (n × k)(k × 1) = n × 1 entonces

t Z = t (A X) = (A X) t = X  A t = X  (A t) = (A t) X = v X

luego
   
et ev = MX (v) = e v
  
Z X µ+ 12 v  R v
MZ (t) = E =E

Pero
v µ = (A t) µ = t A µ = t (A µ)

y
v R v = (A t) RA t = t ARA t
Luego
MZ (t) = e t A µ+ 2 t ARA
 1  
t

Como
(ARA ) = A(AR) = AR A = ARA
191

la matriz ARA es simétrica. Por la unicidad de la fgm se tiene que

Z ∼ Nk (A µ, ARA )

Ejemplo A.1.1. Suponga que X ∈ R 3 distribuı́da normal multivariada con µ = (3, 3, 2)  y la


matriz de covarianzas es  
5 −3 1
1  
R=  −3 12 −4 
17
1 −4 7
entonces
5
V ar(X1 ) =
17 3
Cov(X1 , X2 ) = Cov(X2 , X1 ) = −
12 17
V ar(X2 ) =
17 4
Cov(X2 , X3 ) = Cov(X3 , X2 ) = −
7 17
V ar(X3 ) =
17
y
3
17
corr(X1 , X2 ) = ρ12 = −   = −0.387
5 12
17 17

1. Si α = (−3, −1, 1) entonces la variable Y = α  X = −3X1 − X2 + X3 es normal con

E(Y ) = α µ = (−3, −1, 1)(3, 3, 2) = −9 − 3 + 2 = −10

y
   
5 −3 1 −3
1     48
V ar(Y ) = α R α = [−3, −1, 1]  −3 12 −4   −1  = = 2.823
17 17
1 −4 7 1

luego
48
Y ∼ N (−10, )
17
2. Si
2 3 −1
A=
4 −2 2
2×3

y se define
 
x1
2 3 −1   2x1 + 3x2 − x3 Z1
Z =AX =  x2  = =
4 −2 2 4x1 − 2x2 + 2x3 Z2
x3
192

con  
3
2 3 −1   13
E(Z) = A µ =  3 =
4 −2 2 10
2
y
  1 119 −102
E (Z − E(Z))(Z − E(Z)) = ARA =
17 −102 252
luego
102
Cov(Z1 , Z2 ) = Cov(2x1 + 3x2 − x3 , 4x1 − 2x2 + 2x3 ) = −
17
y
− 102
17
Corr(Z1 , Z2 ) =  = −0.589
119 252
17 · 17

La matriz de covarianzas
 
R = [Cov(Xi , Xj )] = E (X − µ)(X − µ)

además de ser simétrica posee la propiedad de ser semidefinida positiva.

Definición A.1.5. Una matriz real n × n, M , se dice semidefinida positiva si cumple

1. Es simétrica M  = M

2. Para todo α ∈ Rn se cumple α M α ≥ 0

Si para todo α ∈ R n , α = 0 se cumple α M α > 0 entonces M se dice definida positiva.

Proposición A.1.3. Si M es semidefinida positiva entonces existe una matriz P no singular tal
que M = P Ir P  donde Ir es una matriz n × n de la forma
 
1 ··· 0 0
 . . 
 .. . . ... ... 
 
 
Ir =  0 · · · 1 0 
 
 .. .. .. 
 . ··· . . 
0 ··· 0 0

con r ≤ n

En este caso M se dice que tiene rango r. Además M es definida positiva si y solo si r = n.

Proposición A.1.4. Toda matriz de covarianzas R n × n es semidefinida positiva


193

Demostración. Sea α ∈ Rn y X ∼ Nn (µ, R) entonces

Y = α X ∼ N (α µ , α R α )

Como V ar(Y ) ≥ 0 entonces α R α ≥ 0.

Ejemplo A.1.2. Suponga que


3 4
A=
4 1
Es A semidefinida positiva ?
Si α = (α1 , α2 ) entonces

 3 4 α1
α A α = [α1 , α2] = 3α21 + α22 + 8α1 α2
4 1 α2

Si α1 = 1 y α2 = −1 se tiene

α A α = 3 + 1 − 8 = −4 < 0

luego A no es semidefinida positiva.

Proposición A.1.5. Para cualquier X ∼ Nn (µ, R) puede encontrarse una matriz P , n × n no


singular tal que R = P I r P  y

1. Z = P −1 (X − µ) ∼ Nn (0 , Ir )

2. Z = (Z1 , Z2 , · · · , Zn ) las Zi son variables aleatorias independientes N (0, 1) para j =


1, 2, · · · , r y Zj = 0 para j = r + 1, · · · , n

Demostración. Como R es semidefinida positiva existe P no singular n × n tal que R = P I r P  .


Definamos el vector P −1 X entonces por resultado anterior.

P −1 X ∼ Nn (P −1 µ , P −1 R(P −1 ) )

Pero
P −1 R(P −1 ) ) = P −1 (P Ir P  )(P −1 ) ) = (P −1 P )Ir (P  (P  )−1 ) = Ir
luego
P −1 X ∼ Nn (P −1 µ , Ir )
por tanto
Z = P −1 (X − µ) = P −1 X − P −1 µ ∼ Nn (0 , Ir )
La fgm de Z es
MZ (t) = et = e2

·0+ 12 t Ir t 1
t  Ir t
194

pero

n 
n 
r
t Ir t = ti tj (Ir )i,j = t2j
i=1 j=1 j=1

luego n
MZ (t) = e 2 t2j
1
j=1

La fgm de una variable aleatoria N (0, 1) es M (t) = e 2 luego si se acepta que N (0, 0) es una
t2

variable aleatoria normal concentrada en X = 0 su fgm es M (t) = e0 = 1 luego la fgm de Z es


el producto de n fgm de variables aleatorias normales

MZ (t) = MZ1 (t1 ) · · · MZr (tr ) · 1 · · · 1

luego las Zj son independientes.

Proposición A.1.6. Si X ∼ Nn (µ, R) entonces las Xj son independientes si y solo si R es


diagonal n × n de la forma

R = Diag(σ12 , · · · , σn2 ) donde σj2 = V ar(Xj )

=⇒.
Si las Xj son independientes entonces Cov(Xi , Xj ) = 0 para i = j luego Rij = 0 para i = j.
Por tanto R es diagonal con R ii = Cov(Xi , Xi ) = V ar(Xi ) = σi2 .

⇐=
Si X ∼ Nn (µ , R) y R = Diag(σ12 , · · · , σn2 ) entonces
 
 1 
MX (t) = exp t µ + t R t
2
 n 
 1 2
n
= exp ti µi + t Rii
i=1
2 i=1 i
 n 
 1 2 2
= exp ti µi + ti σi
2
i=1
%
n
1
= exp(ti µi + t2i σi2 )
i=1
2
= MX1 (t1 ) · · · MXn (tn )

Por tanto las Xi son independientes.

Proposición A.1.7. Si X ∼ Nn (µ, R) y R es definida positiva por tanto, no singular entonces la


fdp conjunta de (X 1 , X2 , · · · , Xn ) está dada por
1 1  −1
fX (x) = n  12 exp(− 2 (x − µ) R (x − µ))
(2π) det(R)
2
195

para x ∈ Rn .

Demostración. Como R es definida positiva existe P no singular tal que R = P P . Luego el


vector
Z = (Z1 , Z2 , · · · , Zn ) ∼ Nn (P −1 µ, I)
Llamando m = P −1 µ se tiene aue las Zi son independientes normales Zi ∼ N (mj , 1). Por
tanto la fdp conjunta de las Z j es el producto de las fdp de las Z.

fZ (Z) = fZ1 (Z1 ) · · · fZn (Zn )


%n  
1 1 2
= √ exp − (Zj − mj )
i=1
2π 2
 
1
n
1 2
= n exp − (Zi − mi )
(2π) 2 2 i=1
 
1 1 
= n exp − (Z − m) (Z − m)
(2π) 2 2
La transformación g(Z) = P Z = X es uno a uno y sobre de Rn en Rn y su inversa es
g← (X) = P −1 X = Z que es continuamente diferenciable. Luego, puede encontrarse la fdp
conjunta de X en función de f Z y P −1
  ∂g← 
fX (x) = fZ P −1 x | det
∂x
 −1 
= fZ P x | det(P −1 )
1
Como R = P P  entonces det(R) = det2 (P ) y | det(P −1 )| = det(R)− 2 luego
 
1 1  −1   −1 
fX (x) = n 1 exp − P (x − µ) P (x − µ)
(2π) 2 det(R) 2 2
 
1 1  −1
= n 1 exp − (x − µ) R (x − µ)
(2π) 2 det(R) 2 2

ya que (P  )−1 P −1 = (P P  )−1 = R−1

Si suponemos que X ∼ Nn (µ, R) podemos obtener resultados adicionales tales como

2
1. Xj | Xi ∼ N (µi,j , σi,j ) para i = j. Definiendo

Cov(Xi , Xj ) Rij
ρij = Corr(Xi , Xj ) = = 
σi σj Rii Rjj
se tiene que µij = E(Xj | Xi ) es
ρij σj
µij = µj + (xi − µi )
σi
196

Cov(Xi , Xj )
= µj + (Xi − µi )
σi2
Rij
= µj + (Xi − µi )
Rii
además
2
σij = σj2 (1 − ρ2ij ) = V ar(Xj | Xi )
y por tanto no depende de X i .

2. Xn | X1 , · · · , Xn−1 ∼ N (·, ·).


Para definir E(Xn | X1 , · · · , Xn−1 ) y V ar(Xn | X1 , · · · , Xn−1 ) denotemos por R(n − 1)
la matriz de covarianzas de X n−1 = (X1 , · · · , Xn−1 ) tal que R(n) se particiona en

R(n − 1) r  (n − 1)
R(n) =
r  (n − 1) Rn,n

con r(n − 1) = (R1,n , R2,n, · · · , Rn−1,n) vector columna (n − 1) × 1 luego

E(Xn | X1 , · · · , Xn−1 ) = µn + r  (n − 1)R−1 (n − 1)(X n−1 − µn−1 )

donde µn−1 = (µ1 , µ2 , · · · , µn−1) . y

V ar(Xn | X1 , · · · , Xn−1 ) = Rn,n − r  (n − 1)R−1 (n − 1)r(n − 1)


Ejemplo A.1.3. X ∼ N4 (µ, R) µ = (1, 0, 2, −1) y
 
2/5 −1/5 0 0
 −1/5 
 3/5 0 0 
R= 
 0 0 1 −1 
0 0 −1 2
Encontrar la distribuci ón de X4 | X1 , X2 , X3 .
Llamemos
   
2/5 −1/5 0 0 1
 −1/5   
 3/5 0 0   0 
R = R(4) =   y µ= 
 0 0 1 −1   2 
0 0 −1 2 −1
entonces    
2/5 −1/5 0 3 1 0
   
R(3) =  −1/5 3/5 0  R−1 (3) =  1 2 0 
0 0 1 0 0 1
y por tanto     
0 x1 1
     
r(3) =  0  X 3 =  x2  µ3 =  0 
−1 x3 2
197

luego

E(X4 | X1 = −3, X2 = 2, X3 = 3) = µ4 + r  (3)R−1 (3)(X 3 − µ3 )


     
3 1 0 −3 1
     
= −1 + [0, 0, −1]  1 2 0   2  −  0  = −2
0 01 3 2

además
V ar(X4 | X1 = −3, X2 = 2, X3 = 3) = R44 − r  (3)R−1 r(3) = 1
y por tanto
X4 | X1 = −3, X2 = 2, X3 = 3 ∼ N (−2, 1)

Ejercicio A.1.1. Para toda matriz A simétrica existe una matriz ortogonal C tal que C  AC = A
con A diagonal con los valores propios de A que son reales. Si A es definida positiva los valores
propios son positivos

Ejercicio A.1.2. Una matriz A se dice simétrica idempotente si A = A  y A = A2

Ejercicio A.1.3. Los valores propios de una matriz idenpotente son 0 ó 1.

Demostración. Sea λ valor propio de A. Existe X = 0 tal que AX = λX luego

A2 X = λA X = λ2 X = A X = λ X

luego
λ2 X = λ X ∴ (λ2 − λ) X = 0
lo que conduce a que λ = 0 ó λ = 1.

Ejercicio A.1.4. Si A es simétrica idempotente no singular entonces A = I.

Ejemplo A.1.4.

Si X = (X1 , X2 ) tiene una distribuci ón normal conjunta con media µ = (2, 3)  y matriz de
covarianzas:
10 2
R=
2 1

y se definen las variables: W1 = X1 − 3X2 , W2 = 2X1 − X2 , W = (W1 , W2 ) , entonces:

1. Compruebe que R es definida positiva, es decir, compruebe que

∀α ∈ R2 , α = (0, 0) , α Rα > 0

2. Encuentre E(W ) y la matriz de covarianzas de W .


198

3. Encuentre la correlación entre W1 y W2 .

4. Solución

5. Podemos escribir Z = AX donde



1 −3
A=
2 −1

luego    
1 −3 2 −7
E(Z) = Aµ = =
2 −1 3 1
Matriz de covarianzas de Z es

1 −3 10 2 1 2 7 9
ARA = =
2 −1 2 1 −3 −1 9 33

6. La correlación es:
 
ρZ1 ,Z2 = (ARA )1,2 / (ARA )1,1 (ARA )2,2 = 9/ 7(33) = 0.59

Ejemplo A.1.5. 1. Suponga que X es un vector aleatorio con distribuci ón normal multivari-
ada con vector de medias µ y matriz de covarianzas R. Suponga que S es una matriz
simétrica fija. Considere la variable real V dada por: V = X  SX.

2. Compruebe que se cumple E(V ) = µSµ + tr(SR), donde tr(A) indica la traza de una
n
matriz cuadrada A, es decir, la suma de los elementos de su diagonal, tr(A) = j=1 Aj,j .
Utilice además la expresión para el elemento (j,j) del producto de dos matrices A y B,
n
ABj,j = k=1 Aj,k Bk,j .

4 −22
Si S = encuentre E(V ) con los datos de la distribuci ón de X del problema
−22 1
anterior (??).

3. Solución

a)
n 
n
E(V ) = E(X  SX) = E( Sj,k Xj Xk )
j=1 k=1

n 
n
= Sj,k E(Xj Xk )
j=1 k=1
n  n
= Sj,k (cov(Xj , Xk ) + E(Xj )E(Xk ))
j=1 k=1
199
 n 

n  
n 
n
= Sj,k cov(Xj , Xk ) + Sj,k µj µk
j=1 k=1 j=1 k=1
 n 

n  
n 
n
= Sj,k Rk,j + Sj,k µj µk
j=1 k=1 j=1 k=1
n
= (SR)j,j + µ Sµ = tr(SR) + µ Sµ
j=1
 
4 −22 2
b) µ Sµ = (2, 3) = −239
−22 1 3
Además
4 −22 10 2 −4 −14
SR = =
−22 1 2 1 −218 −43
luego tr(SR) = −4 − 43 = −47. Por tanto, E(V ) = −239 − 47 = −286.

A.1.1. Procedimientos de Factorización

En esta sección se describen dos procedimientos para encontrar una matriz P tal que R = P P  ,
en el caso de ser R definida positiva.

Factorización Espectral ó Raı́z Cuadrada

Suponga R definida positiva simétrica. sea B matriz ortogonal B  = B −1 formada por los valores
propios de R normalizados. Entonces se cumplen las identidades: B  RB = Λ, R = BΛB , donde
Λ = Diag(λ1 , λ2 , · · · , λn ) es una matriz diagonal, con λi ∈ R+ . Si se definen las matrices:
1    1
Λ 2 = Diag( λ1 , λ2 , · · · , λn ) y P = BΛ 2 B 

entonces P es simétrica, ya que


1 1 1
P  = (BΛ 2 B  ) = B(BΛ 2 ) = BΛ 2 B 

Además, es la única matriz que cumple P 2 = R, ya que


1 1 1 1
P 2 = BΛ 2 B  BΛ 2 B  = BΛ 2 Λ 2 B  = BΛB  = R.
1
Por lo anterior P se puede definir como la raı́z cuadrada de R y se puede escribir R 2 = P . Como
se cumple R = P P  se obtiene inmediatamente que, si Y ∼ N (µ, R) con R definida positiva
entonces
1
Z = R− 2 (Y − µ) ∼ Nn (0, In ).

En Matlab las matrices B y Λ se calculan con la instrucción [B,D] = eig(R).


200

Factorización de Cholesky

R siempre puede escribirse R = LU donde U = L es no singular, con U triangular superior, es


decir las entradas debajo de la diagonal principal son nulas. Llamando P = L entonces R = P P 
y por tanto
Z = P −1 (Y − µ) ∼ Nn (0, In ).
Matlab calcula U con la instrucción U = Chol(R).
Ejemplo A.1.6.
   
2/5 −1/5 0 0 1
 −1/5   
 3/5 0 0   0 
R=  µ=  X ∼ Nn (µ, R)
 0 0 1 −1   2 
0 0 −1 2 −1

Programa Matlab

r = [2/5 -1/5 0 0 ;-1/5 3/5 0 0 ; 0 0 1 -1 ; 0 0 -1 2 ];


[b,d] = eig(r);
mu = [ 1 ; 0 ; 2 ; -1 ];
p = b*sqrt(d)*b’;
p*p’
r
p_1 = inv(p)
z = normrnd(0,1,4,1);
x = mu + p*z;
c = Chol(r)’;
c*c’, r
z_1 = normrnd(0,1,4,1);
x_1 = mu + c*z_1

 
0.6155 −0.1453 0 0
 −0.1453 0.7608 
 0 0 
p= 
 0 0 0.8944 −0.4472 
0 0 −0.4472 1.3436
p1 (X − µ) = Z = (Z1 , Z1 Z3 , Z4 ) ∼ N4 (0, I4 )
Las Zj son N (0, 1) independientes.
Si Z = normrnd(0, 1, 4, 1) se genera un vector N4 (0, I4 ) y por tanto X = µ + p ∗ Z es un vector
R4 ∼ N4 (µ, R).
      
0.9758 1 0.6155 −0.1453 0 0 −0.4326
 −1.2044   0   −0.1453 0.7608   −1.6656 
     0 0  
 ← +  
 1.9834   2   0 0 0.8944 −0.4472   0.1253 
−0.6701 −1 0 0 −0.4472 1.3436 0.2877
201

X ∼ N4 (µ, R)

A.2. Distribuciones Marginales y Condicionales

Las distribuciones condicionadas normales multivariadas juegan un papel importante en la teorı́a


de estimación y detección.

El resultado básico es el siguiente: si X = (X 1 , X2 , · · · , Xn ) es un vector aleatorio normal


multivariado y se particiona en dos X = (X 1 , X2 ) donde

X1 = (X1 , X2 , · · · , Xs ) s<n
X2 = (Xs+1 , Xs+2 , · · · , Xn )

Entonces X1 y X2 tienen distribuciones normales multivariadas.

Si µ = (µ1 , µ2 , · · · , µn ) es el vector de medias y se particiona en



 µ1
µ = (µ1 , µ2 ) =
µ2

además

R = [Cov(Xi − µi )(Xj − µj )]n×n


= E((X − µ)(X − µ) )

es la matriz de covarianzas particionada en la forma siguiente:



R11 R12
R= con R11 , R22 no singulares
R21 R22

donde R11 es s × s, R12 es s × (n − s), R21 es (n − s) × s y R22 es (n − 2) × (n − s) entonces


se cumple que

1. X1 es normal multivariada con media µ1 y matriz de covarianzas R11 y X1 ∼ Ns (µ1 , R11).

2. X2 es normal multivariada con media µ2 y matriz de covarianzas R22 y X2 ∼ Nn−s (µ2 , R22)

La prueba se hace por medio de la función caracterı́stica.


202

Sabemos que ΨX (t1 , t2 , · · · , tn ) = ei t1 µ− 2 t


1 
Rt
pero
 
µ1
 .. 
 . 
 
 
  µs 
t µ = [t1 , · · · , ts , ts+1 , · · · , tn ]  
 µs+1 
 
 .. 
 . 
µn
= t1 µ1 + t2 µ2
= (t1 , t2 )(µ1 , µ2 )

µ 1
= [t1 , t2 ] = R12
µ2

y
 
t1
 .. 
 . 
 
 
R11 R12  ts 
t R t = [t1 , · · · , ts , ts+1 , · · · , tn ]  
R21 R22  ts+1 
 
 .. 
 . 
tn

R11 R12 t1
= [t1 , t2 ]
R21 R22 t2
= t1 R11 t1 + t1 R12 t2 + t2 R21 t1 + t2 R22 t2
= t1 R11 t1 + 2t1 R12t2 + t2 R22 t2

donde t1 R12 t2 = t2 R21 t2 y t1 es de orden 1 × s, R11 es de orden s × s por tanto t 1 R11 es de
orden 1 × s luego t 1 R11 t1 es de orden 1 × 1.
Similarmente t1 R12 t1 es de orden (1 × s)(s × (n − s)) = 1 × (n − s) y t1 R12 t2 es de orden
(1 × (n − s))(n − s) × 1 = 1 × 1 etc.

La fc de X1 se obtiene colocando t2 = 0 ya que

n
ΨX1 (t1 , · · · , ts ) = Eleft(e i i=1 ti Xi
right)

= ΨX1 (t1 , · · · , ts , 0, · · · , 0)
 n 
= E ei i=1 ti Xi
203

Luego
ΨX1 (t1 , · · · , ts ) = ei t1 µ1 − 2 µ1 R11 µ1
1 

por tanto
X1 ∼ Ns (µ1 , R11)
igualmente para X2 ∼ Nn−s (µ2 , R22 ).

Nota A.2.1. A partir del resultado anterior se puede concluı́r también que cada Xi es normal,
con Xi ∼ N (µi , σi2 ) , σi2 = Rii elemento i-ésimo de la diagonal de R.

Distribuciones Condicionales

La función de densidad de X1 dada X2 está definida por


fX ( x )
f X1 ( x1 | X2 = x2 ) =
fX2 ( x2 )
pero
1
fX ( x ) = n 1 e− 1
2( x−µ ) R−1 ( x−µ)
(2π) [R] 2 2

y
1
fX2 ( x2 ) = n−s 1
e− 1
2( x2 −µ2 ) R−1
22 ( x2 −µ2 )

(2π) 2 [R22 ] 2

luego
1  
[R22] 2
e− ( x−µ ) R−1 ( x−µ)−( x2 −µ2 ) R−1
1
f X1 ( x1 | X2 = x2 ) = 2 22 ( x2 −µ2 )
s 1
(2π) 2 [R] 2
pero

I −R12 R−1
22 R11 R12 I 0
= R1 RR2
0 I R21 R22 −R−1 
22 R12 I

R11 − R12 R−1 
22 R12 0
= =C
0 R22

donde
C = R1 RR2 R = R−1 −1
1 CR2
 
C = Diag R11 − R12 R−1
−1  −1
22 R12 ) , R−1
22 R−1 = R2 C −1 R1
Tomando determinantes a ambos lados se tiene

|R| = |R11 − R12 R−1 


22 R12 ||R22|

luego
|R22 | 1
=
|R| |R11 − R12R−1 
22 R12|
204

además

( x − µ ) R−1 ( x − µ) =

  I 0 (R11 − R12 R−1  −1
22 R12 ) 0
= [( x1 − µ1 ) , ( x2 − µ2 ) ]
−R−1 
22 R12 I 0 R−1
22

I −R12 R−1 22
[( x1 − µ1 ) , ( x2 − µ2 ) ] =
0 I
 
= (x1 − µ1 ) − ( x2 − µ2 ) R−1 
22 R12 , ( x2 − µ2 )


(R11 − R12 R−1  −1
22 R12 ) 0  
−1 x1 − µ1 − R12R−122 ( x2 − µ2 ), x2 − µ2
0 R22

El resultado puede expresarse ası́:

Proposición A.2.1. La variable condicionada X 1 | X2 = x2 se distribuye normal multivariada


con media
E( X1 | X2 = x2 ) = X1 = µ1 + R12 R−1 22 ( X2 − µ2 )

y la matriz de covarianzas de X1 | X2 = x2 es

RX1 | X2 = R11 − R12 R−1 


22 R12

y por tanto
 
X1 | X2 = x2 ∼ Ns µ1 + R12R−1 −1 
22 ( x2 − µ2 ), R11 − R12 R22 R12

Ejemplo A.2.1. Suponga que X = (X 1 , X2 , X3 ) se distribuye normal multivariada con


 
2 −1 2
 
µ = (0, 1, 0) R =  −1 1 −3 
2 −3 11
entonces

1. R es definida positiva ya que, utilizando el criterio de Sylvester se tiene


 
 2 −1 
 
∆1 = 2 > 0 ∆2 =  =1>0 ∆3 = |R| = 1 > 0
 −1 1 

2. Encuentre la matriz de covarianzas de Y = (X2 , X3 ) el vector de medias µY y la fdp


conjunta.
2 2
RY = R13
2 11
205

donde

Cov(X1 , X3 ) = Cov(X3 , X1 ) = 2
V ar(X1 ) = 2
V ar(X3 ) = 11
µY = (0, 0)
si Y = (x1 , x3 )

Sabemos que  
1
1 e
− 12 ( y−µ ) R−1
13 ( y−µ )
fY ( y ) = 2
Y Y
(2π) |R13| 2
2

donde
 
 2 2 
 
|R13 | =   = 22 − 4 = 18
 2 11 

−1 1 11 −2
R13 =
18 −2 2

luego

 1 11 −2 x1
( y − µY ) R−1
13 ( y − µY ) = [x1 x3 ]
18 −2 2 x3

1 x1
= [11x1 − 2x3 , −2x1 + 2x3 ]
18 x3
1
= (11x21 − 2x1 x3 − 2x1 x3 + 2x23 )
18
1
= (11x21 − 4x1 x3 + 2x23 )
18
Luego  
1
e− 11x21−4x1x3 +2x23
1
fY ( y ) = 2 √ 36

(2π) 2 18

3. Encuentre la distribuci ón de X2 | X1 , X3

X2 | X1 , X3 ∼ N1 (µ2|1,3 , R2|1,3)

Sabemos en general que si X1 ∈ Rs y X2 ∈ Rn−s

X1 | X2 ∼ Ns (µ1|2 , R1|2 ) s=1


µ1|2 = µ1 + R12 R−1
22 (X2 − µ2 ) 1×1
R1|2 = R11 − R12 R−1 
22 R12 1×1
206

donde  
2 −12
 
R =  −1 1 −3 
2 −3 11
R22 es la matriz de covarianzas de las variables en el condicional X 1 y X3 por tanto

2 2 −1 1 11 −2
R22 = y R22 =
2 11 18 −2 2

además

R12 = [−1 , −3]


R11 = 1

−1
R21 =
−3

luego

1 11 −2 −1
R11 − R12 R−1
22 R21 = 1 − [−1 , −3]
18 −2 2 −3

1 −1
= 1 − [−5 − 4]
18 −3
1
=1− (5 + 12)
18
17 1
=1− =
18 18
además µ1 = µ2 = 1 y µ2 = (0, 0) y por tanto

µ1|2 = µ1 + R12R−1
22 (X2 − µ2 )

1 11 −2 x1
= 1 + [−1 , −3]
18 −2 2 x3

1 x1
= 1 + [−5 , −4]
18 x3
1
=1− (5x1 + 4x3 )
18
Luego
 1 1
X2 | X1 , X3 ∼ N 1 − (5x1 + 4x3 ) ,
18 18
Ejercicio A.2.1. Si X ∼ Nn ( µ , R) y

Xs ∼ N (µs , Rs )
207

Xn−s ∼ N (µn−s , Rn−s )

entonces αs Xs y αn−s Xn−s se distribuyen normal bivariada encuentre

Cov(αs Xs , αn−s Xn−s )


208
APÉNDICE B

Notas

Esta sección contiene algunas fórmulas útiles para resolver algunos de los problemas.

2
σ2 /2
1. Si X ∼ N (µ, σ 2 ), entonces la fgm de X es MX (t) = etµ+t , para t ∈ R.

2. Si X ∼ Geo(p) entonces

P(X = k) = qpk , k = 0, 1, 2, . . ., p ∈ (0, 1), q = 1 − p.


E(X) = p/q, V ar(X) = p/q2 .
MX (t) = E(etx) = q/(1 − pet ), t < ln(1/p)

Ver Devore ((Devore 2001), pag. 127) y el Help de Matlab.

3. Si X ∼ BN (n, p) entonces
 
n+k−1
a) P(X = k) = q n pk , k = 0, 1, 2, . . .
k
b) Si X1 , . . . , Xn son n variables aleatorias i.i.d, distribuı́das Geo(p), entonces X =
X1 + . . . + Xn ∼ BN (n, p). La suma de n variables i.i.d Geométricas es Binomial
Negativa.
c) E(X) = np/q, V ar(X) = np/q2 .

209
210

d) MX (t) = [q/(1 − pet )]n , t < ln(1/p)

4. Si X ∼ P oisson(λ) entonces

P(X = k) = e−λ λk /k!, k = 0, 1, 2, . . ..


E(X) = V ar(X) = λ
t
−1)
MX (t) = E(etX ) = eλ(e , t ∈ R.
Si X1 , . . . , Xn son n variables aleatorias i.i.d, distribuı́das Poisson(λ), entonces S =
X1 + . . . + Xn ∼ Poisson(nλ). La suma de n variables i.i.d Poisson es nuevamente
Poisson.

5. Si X ∼ ExP(θ), θ > 0 entonces

fX (x) = (1/θ)e−x/θ , x ≥ 0
FX (x) = 1 − e−x/θ , x ≥ 0
E(X) = θ, V ar(X) = θ2
MX (t) = 1/(1 − tθ), t < 1/θ

6. Si X ∼ U (a, b), Uniforme en (a, b), entonces

fX (x) = I(a ≤ x ≤ b)/(b − a), donde I(A) es la función indicadora de la condición


A, con I(A) = 1 si A es cierta e I(A) = 0, si A es falsa.
E(X) = (a + b)/2
E(X 2 ) = (b3 − a3 )/(3(b − a))
V ar(X) = (b − a)2 /12

7. (Unas fórmulas asociadas al teorema de probabilidad total). Si X y N son variables aleatorias


y P(N = n) = pn , n = 0, 1, . . . es la fdp de N , entonces si se define la variable Z =
f(X, N ) donde f(x, y) es una función de dos variables, se pueden calcular probabilidades
para Z con la ayuda del teorema de probabilidad total. Por ejemplo,


P(Z ≤ t) = P(Z ≤ t|N = n)P(N = n)
n=0
∞
= P(f(X, n) ≤ t|N = n)pn
n=0

En el caso de ser X y N independientes la última expresión se reduce a




P(f(X, n) ≤ t)pn
n=0
211

Si además se pudiera calcular la probabilidad P(f(X, n) ≤ t) el problema de calcular


P(Z ≤ t) estarı́a resuelto. Lo mismo puede hacerse cuando se intenta calcular un valor
esperado como E(Z) = E(f(X, N )) reemplazando las probabilidades condicionales por
esperanzas condicionales.

8. Si X es una variable aleatoria continua con fda F X (x), para x ≥ 0, entonces el k-ésimo
momento de X, E(X k ), k = 1, 2, . . ., se puede calcular mediante la expresión: E(X k ) =


k 0 xk−1 (1 − FX (x))dx. Esta integral puede dar +∞.

9. La ecuación recursiva xn = axn−1 + bn , n = 1, 2, . . . , donde a es una constante conocida


n
y (bn ) es una sucesión conocida, tiene solución dada por: x n = an (x0 + j=1 a−j bj ), n =
1, 2, . . ..
212
Bibliografı́a

Arnold, L. (1974): Stochastic Differential Equations. Theory and Applications. John Wiley
and Sons, New York.

Box, G., and A. Luceño (2002): Statistical Control by Monitoring and Feedback Adjustment.
John Wiley and Sons, New York.

Boyce, W. E., and R. DiPrima (1983): Ecuaciones Diferenciales y Problemas con Valores
en la Frontera. Limusa, México.

Braun, M. (1986): Ecuaciones Diferenciales. Wadsworth, México.

Brockwell, P. J., and R. Davis (1987): Time Series: Theory and Methods. Springer Verlag,
New York.

Cramér, H., and M. R. Leadbetter (1968): Stationary and Related Stochastic Processes.
John Wiley and Sons, New York.

Devore, J. (2001): Probabilidad y Estadı́stica para Ingenierı́a y Ciencias. Thompson Learning,


México.

Fan, J., and Q. Yao (2003): Nonlinear Time Series. Springer-Verlag New York, Inc., New
York.

Feller, W. (1978): Introducci ón a la Teorı́a de Probabilidades y sus Aplicaciones. Vol. 2.


Editorial Limusa, México.

Ferrante, L. (2000): “Parameter Estimation in a Gompertzian Stochastic Model of Tumor


Growth,” Biometrics, 56, 1076–1081.

213
214

Franks, L. (1986): Teorı́a de la Señal. Ed. Reverté, Madrid.

Grimmett, G., and D. Stirzaker (1994): Probability and Stochastic Processes. Oxford
University Press, Inc., New York.

Hoel, P. G., S. C. Port, and C. J. Stone (1972): Introduction to Stochastic Processes.


Houghton Mifflin Co., Boston, MA.

Jazwinski, A. H. (1970): Stochastic Processes and Filtering Theory. Academic Press, Inc.,
San Diego, CA.

Lange, K. (2003): Applied Probability. Springer-Verlag New York, Inc., New York.

Medhi, V. (1978): Stochastic Processes. Jhon Wiley and Sons, New York.

Nowicka-Zagrajek, J., and R. Weron (2002): “Modeling electricity loads in California:


ARMA models with hyperbolic noise,” Signal Processing, 82, 1903–1925.

Papoulis, A. (1965): Probability, Random Variables, and Stochastic Processes. McGraw-Hill


Book Co., New York.

Parzen, E. (1972): Procesos Estocásticos. Ed. Paraninfo, Madrid.

Reed, D., and R. H. Scanlan (1983): “Time Series Analysis of Cooling Tower Wind
Loading,” Journal of Structural Engineering, 109(2), 538–554.

Ross, S. (1989): Stochastic Processes. John Wiley and Sons, New York.

Schuss, Z. (1980): Theory and Applications of Stochastic Differential Equations. John Wiley
and Sons, New York.

Svesnikov, V. (1968): Problems in Probability and Random Functions. W. Saunders and Co.,
Philadelphia.

Tuckwell, H. (1974): “A Study of Some Diffusion Models of Population Growth,” Theoretical


Population Biology, 5, 345–357.

Vasicek, O. (1977): “An Equilibrium Characterization of the Term Structure,” Journal of Fi-
nancial Economics, 5, 177–188.

Vervaat, W. (1979): “On a Stochastic Difference Equation,” Advances in Applied Probability,


11, 750–783.

Wong, E., and B. Hajek (1971): Stochastic Processes in Engineering Systems. Springer-
Verlag, New York.
Índice alfabético

Autocorrelación Muestral, 71 Distribución


Hiperbólica, 79
Análisis de Series de Tiempo, 74 Invariante, 132

Continuidad, 47 Ecuación
con probabilidad uno, 47 de Chapman-Kolmogorov, 130
en media cuadrática, 47, 89, 90 de Fokker-Plank, 142
en probabilidad, 47 Prospectiva, 142
Convergencia, 33 Retrospectiva, 142
con Probabilidad 1, 34 Esperanza Condicional, 9
en Distribución, 34 Estacionario Estricto, 51
en Media r = 1, 2, . . ., 34
en Media Cuadrática, 34 Función
en Probabilidad, 34 cóncava, 32
Convergencia convexa, 32
en Media Cuadrática de autocorrelación
Propiedades, 38 muestral, 71
Correlograma, 72 de autocorrelación parcial, 73
de densidad de transición, 130
Derivada en Media Cuadrática, 91 de distribución finito dimensional, 46
Desigualdad de Transición, 130
de Cauchy-Schwarz, 31 fluctuación cuadrática media, 52
de Chebyshev, 30 Generadora de Momentos, 36
de Jensen, 32 Generadora de Momentos
de Lyapunov, 31 de una Normal, 36
de Markov, 30 de una Poisson, 36
Triangular General, 29
Diferencial Estocástico, 153 Incremento Poisson, 59

215
216

Lema de Ito, 155 Señal Telegráfica, 60, 61


Ley Débil de Grandes Números, 36 Proceso Martingala
Ley Fuerte de Grandes Números, 36 en tiempo discreto, 24
Pronósticos, 56
Matriz
de Toeplitz, 73 Ruido blanco Poisson, 98
Modelo Ruido Blanco tiempo discreto, 54
de Riesgo Colectivo, 22
Momento Suma Aleatoria de Variables Aleatorias, 22
absoluto de orden r, 31
Teorema
de Orden r, 31
Consistencia de Kolmogorov, 46
Poisson Shot Noise, 98 Convergencia Monótona, 35
Probabilidad de Extinción, 15 de Wold, 56
Proceso Teorema del Lı́mite Central, 37
Movimiento Browniano, 111 Trayectoria muestral, 46
adaptado, 149
Variables Aleatorias Normales Multivariadas,
AR(1), 68
187
AR(2), 80
Varianza Condicional, 11
AR(p), 64
Variograma, 72
ARMA(1,1), 70
ARMA(p,q), 63
Cadena de Markov, 132
Causal, 55
de difusión, 142
de Galton-Watson, 12
de incrementos independientes, 18
de Markov, 18, 129
de Markov
homogéneo, 131
de Ornstein-Uhlenbeck, 139, 146, 163
de Poisson, 20
de Ramificación, 12
de Renovación, 22
de Wiener, 111
Ergódico, 57
Estocástico, 45
Gaussiano, 109
Incremento Poisson, 59
MA(q), 64
Marcha Aleatoria No Restringida, 18

También podría gustarte