0% encontró este documento útil (0 votos)

72 vistas383 páginas

Curso Intermedio de Probabilidad UNAM

Este documento presenta un curso intermedio de probabilidad dividido en 9 capítulos. Cubre temas como espacios de probabilidad, variables aleatorias, vectores aleatorias, esperanza condicional, transformaciones, distribuciones muestrales y dos teoremas límite. Incluye ejemplos y ejercicios para cada capítulo con el objetivo de que los estudiantes adquieran confianza en los conceptos probabilísticos.

Cargado por

Rodrigo Teran Argote

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

72 vistas383 páginas

Curso Intermedio de Probabilidad UNAM

Cargado por

Rodrigo Teran Argote

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

Curso intermedio de

PROBABILIDAD

Luis Rincón
Departamento de Matemáticas
Facultad de Ciencias UNAM
Circuito Exterior de CU
04510 México DF

Versión: Abril 2007

Una versión actualizada del presente texto se encuentra disponible en formato

electrónico en la dirección http://www.matematicas.unam.mx/lars
ii
Contenido

1. Espacios de probabilidad 1
1.1. Espacios de probabilidad . . . . . . . . . . . . . . . . . . . . . 1
1.2. σ-álgebras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3. Medidas de probabilidad . . . . . . . . . . . . . . . . . . . . . 20
1.4. Independencia de eventos . . . . . . . . . . . . . . . . . . . . 33
1.5. Lema de Borel-Cantelli . . . . . . . . . . . . . . . . . . . . . . 37
1.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

2. Variables aleatorias 57
2.1. Variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . 57
2.2. Función de distribución . . . . . . . . . . . . . . . . . . . . . 67
2.3. Tipos de variables aleatorias . . . . . . . . . . . . . . . . . . . 73
2.4. Integral de Riemann-Stieltjes . . . . . . . . . . . . . . . . . . 80
2.5. Caracterı́sticas numéricas . . . . . . . . . . . . . . . . . . . . 83
2.6. Distribuciones discretas . . . . . . . . . . . . . . . . . . . . . 93
2.7. Distribuciones continuas . . . . . . . . . . . . . . . . . . . . . 100
2.8. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

3. Vectores aleatorios 141

3.1. Vectores aleatorios . . . . . . . . . . . . . . . . . . . . . . . . 141
3.2. Distribución conjunta . . . . . . . . . . . . . . . . . . . . . . 143
3.3. Densidad conjunta . . . . . . . . . . . . . . . . . . . . . . . . 148
3.4. Distribución marginal . . . . . . . . . . . . . . . . . . . . . . 154
3.5. Distribución condicional . . . . . . . . . . . . . . . . . . . . . 158

iii
3.6. Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . 160
3.7. Esperanza de una función de un vector aleatorio . . . . . . . 165
3.8. Covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
3.9. Coeficiente de correlación . . . . . . . . . . . . . . . . . . . . 171
3.10. Esperanza y varianza de un vector aleatorio . . . . . . . . . . 176
3.11. Distribuciones multivariadas discretas . . . . . . . . . . . . . 178
3.12. Distribuciones multivariadas continuas . . . . . . . . . . . . . 180
3.13. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183

4. Esperanza condicional 209

4.1. Esperanza condicional . . . . . . . . . . . . . . . . . . . . . . 209
4.2. Varianza condicional . . . . . . . . . . . . . . . . . . . . . . . 215
4.3. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218

5. Transformaciones 221
5.1. Transformación de una variable aleatoria . . . . . . . . . . . . 221
5.2. Transformación de un vector aleatorio . . . . . . . . . . . . . 227
5.3. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242

6. Dist. muestrales y estadı́sticas de orden 251

6.1. Distribuciones muestrales . . . . . . . . . . . . . . . . . . . . 253
6.2. Estadı́sticas de orden . . . . . . . . . . . . . . . . . . . . . . . 261
6.3. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271

7. Convergencia 277
7.1. Tipos de convergencia . . . . . . . . . . . . . . . . . . . . . . 277
7.2. Relaciones entre los tipos de convergencia . . . . . . . . . . . 285
7.3. Dos resultados importantes de convergencia . . . . . . . . . . 291
7.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294

8. Funciones generadoras 299

8.1. Función generadora de probabilidad . . . . . . . . . . . . . . 299
8.2. Función generadora de momentos . . . . . . . . . . . . . . . . 304
8.3. Función caracterı́stica . . . . . . . . . . . . . . . . . . . . . . 311
8.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 324

iv
9. Dos teoremas lı́mite 335
9.1. Algunas desigualdades . . . . . . . . . . . . . . . . . . . . . . 335
9.2. Ley de los grandes números . . . . . . . . . . . . . . . . . . . 340
9.3. Teorema central del lı́mite . . . . . . . . . . . . . . . . . . . . 344
9.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 347

A. Distribuciones de probabilidad 351

B. Conceptos y resultados varios 359

v
vi
Prólogo

El presente texto está dirigido a estudiantes de mitad de carrera de las

licenciaturas de matemáticas, actuarı́a, y áreas afines. Contiene el material
básico para un segundo curso de probabilidad, y tiene como origen las notas
de clase del curso semestral de Probabilidad II, que he impartido durante
los últimos años en la Facultad de Ciencias de la UNAM.

El énfasis de este segundo curso se centra en la formalización de algunos

conceptos estudiados en un primer curso de probabilidad, y en el estudio
de vectores aleatorios y sus varios conceptos relacionados. El lector puede
comprobar que se hace poco énfasis en las aplicaciones, y que la exposición
cubre principalmente el desarrollo matemático. El objetivo es que después
de este curso, el estudiante pueda continuar con facilidad con un curso de
estadı́stica matemática, de procesos estocásticos, o tal vez un curso avan-
zado de probabilidad o de teorı́a de la medida, teniendo como elementos
básicos los conceptos teóricos aquı́ desarrollados. En particular se incluye
un capı́tulo sobre esperanza condicional, cuyo uso y aplicación es cada vez
más frecuente. También se incluye un capı́tulo sobre distribuciones mues-
trales y estadı́sticas de orden, con aplicaciones inmediatas en temas de la
estadı́stica matemática.

Al final de cada capı́tiulo el lector encontrará una lista de ejercicios separa-

dos por temas. La mayorı́a de estos ejercicios son de tipo mecánico, algunos
de ellos son muy sencillos de modo que el término ejercicios me parece
justo y adecuado. Pocos de estos ejercicios son originales, la mayor parte de

vii
ellos son modificaciones de ejemplos o resultados clásicos que se encuentran
en la larga literatura existente. La intención de contar con este material es
la de crear confianza y soltura por parte del alumno en el manejo de los
conceptos y notación involucrados. El número de ejercicios excede lo que
normalmente puede realizarse en un semestre, y el objetivo que siempre
tuve en mente estos años fue el tener un número suficiente de ellos para
presentar algunos en clase, dejar otros para trabajo en casa, y asignar algu-
nos otros para preguntas de examen, usando material ligeramente distinto
cada semestre para evitar repeticiones. Durante la exposición de los temas
el lector encontrará también algunos otros ejercicios propuestos y algunos
ejemplos resueltos.

La presentación del material mantiene la estructura de las notas de clase,

y creo que será particularmente útil al estudiante con poco tiempo para
leer párrafos completos, y quien sólo busca una definición, un resultado, un
ejemplo, un ejercicio, o tal vez orientación breve acerca de un concepto. En
este sentido, el libro contiene tablas a manera de resumen, y los enunciados
estn enmarcados para su fácil localización. También he intentado que la no-
tación fuera lo más simple y mı́nima posible. Personalmente me gustan los
libros con imágenes y diagramas, y he buscado plasmar ese gusto en este
texto. Este material fue escrito en LATEX, y las gráficas fueron elaboradas
usando el paquete pstricks, lo cual ha sido realmente un placer. Al final
del texto aparece una lista de referencias que me permito sugerir al lector
consultar para profundizar y a veces precisar en determinados temas. Algu-
nos de estos textos no han sido mencionados explı́citamente pero aparecen
en la lista por que en algún momento he obtenido inspiración de ellos.

Agradezco sinceramente a todas aquellas personas, alumnos y profesores,

quienes a través de sus comentarios y sugerencias, han contribuido al me-
joramiento de este texto. Cualquier corrección o comentario acerca de este
trabajo será muy bien recibido en el correo electrónico que aparece abajo.
Es mi intención mantener en el futuro, hasta donde me sea posible, una
versión electrónica actualizada, corregida y gratuita del presente texto. La
página web donde puede obtenerse es

viii
http://www.matematicas.unam.mx/lars

Por último, me parece importante mencionar que este texto ha sido posible,
en gran medida, al excelente ambiente de trabajo y de libertad académica
que he tenido la fortuna de encontrar en el Departamento de Matemáticas
de la Facultad de Ciencias de la UNAM. Gracias a todos por su confianza
y apoyo.

Luis Rincón
Diciembre 2006
Ciudad Universitaria UNAM
[email protected]

ix
Capı́tulo 1

Espacios de probabilidad

La teorı́a de la probabilidad es la parte de las matemáticas que se encarga

del estudio de los fenómenos o experimentos aleatorios. Se entiende por
experimento aleatorio todo aquel experimento tal que cuando se le repite
bajo las mismas condiciones iniciales, el resultado que se obtiene no siempre
es el mismo. A menudo, y por muy diversas razones, es necesario aceptar
que no es posible predecir el resultado de un experimento particular aún
cuando se le haya efectuado con anterioridad varias veces bajo las mismas
condiciones iniciales, y en consecuencia se considera aleatorio. Bajo estas
circunstancias, la teorı́a de la probabilidad tiene el objetivo de modelar
matemáticamente cualquier experimento aleatorio de interés.

1.1. Espacios de probabilidad

El modelo matemático creado durante el primer tercio del siglo XX para

estudiar los experimentos aleatorios es el ası́ llamado espacio de probabili-
dad. Este modelo consiste de una terna ordenada, denotada usualmente por
(Ω, F , P ), en donde Ω es un conjunto arbitrario, F es una σ-álgebra de
subconjuntos de Ω, y P es una medida de probabilidad definida sobre F .
Explicamos a continuación brevemente cada uno de estos elementos.

1
2 1.1. Espacios de probabilidad

Espacio muestral. El conjunto Ω es llamado espacio muestral o espacio

muestra, y tiene como objetivo agrupar a todos los posibles resultados del
experimento aleatorio en cuestión. No es imprescindible darle esta interpre-
tación al conjunto Ω, y matemáticamente se le considera entonces como un
conjunto arbitrario.

σ-álgebra. Una clase o colección no vacı́a F de subconjuntos de Ω es

una σ-álgebra si es cerrada bajo las operaciones de tomar complementos
y uniones numerables. El término σ-álgebra se lee “sigma-álgebra”. A los
elementos de una σ-álgebra se les llama eventos , sucesos, o conjuntos me-
dibles. Debido a su uso extendido, se usa el término medible, aunque tal
vez lo correcto sea decir mensurable. En particular, un evento es simple o
elemental si consta de a lo más un elemento de Ω, y es compuesto cuando
consta de dos o más elementos de Ω.

Medida de probabilidad. Una función P definida sobre una σ-álgebra F

y con valores en el intervalo [0, 1] es una medida de probabilidad si P (Ω) = 1
y es σ-aditiva, es decir, si cumple que
∞
[ ∞
X
P( An ) = P (An ),
n=1 n=1

cuando A1 , A2 , . . . son elementos de F que cumplen con la condición de

ser ajenos dos a dos, esto es, Ai ∩ Aj = ∅ para valores de i y j distintos.
El número P (A) representa una forma de medir la posibilidad de observar
la ocurrencia del evento A, al efectuar una vez el experimento aleatorio.
Tenemos entonces formalmente la siguiente definición.

Definición. (Espacio de probabilidad). Un espacio de probabilidad

es una terna (Ω, F , P ), en donde Ω es un conjunto arbitrario, F es una
σ-álgebra de subconjuntos de Ω, y P es una medida de probabilidad
definida sobre F .

El objetivo es asociar un espacio de probabilidad al experimento aleatorio

de interés. No existen reglas establecidas para ello y además la posible asig-
nación no es única, pues dependiendo del interés del observador, se puede
Capı́tulo 1. Espacios de probabilidad 3

asociar un espacio de probabilidad u otro. En este primer capı́tulo se estu-

dian con más detalle los conceptos de σ-álgebra y medida de probabilidad.
Empecemos con el primero.

1.2. σ-álgebras

En esta sección se estudia el concepto de σ-álgebra y se define la mı́nima

σ-álgebra generada por una colección arbitraria. Recordemos nuevamente
la definición de esta estructura.

Definición. (σ-álgebra, espacio medible, evento). Una colección

F de subconjuntos de Ω es una σ-álgebra si cumple las siguientes con-
diciones:

1. Ω ∈ F .

2. Si A ∈ F , entonces Ac ∈ F .
∞
[
3. Si A1 , A2 , . . . ∈ F , entonces An ∈ F .
n=1

A la pareja (Ω, F ) se le llama espacio medible y a los elementos de F

se les llama eventos o conjuntos medibles.

En palabras, una σ-álgebra es una colección de subconjuntos de Ω que no

es vacı́a y que es cerrada bajo las operaciones de tomar complemento y
efectuar uniones infinitas numerables. En probabilidad elemental el con-
junto Ω denota el espacio muestral o conjunto de posibles resultados de
un experimento aleatorio, y los elementos de F representan eventos en el
experimento aleatorio. Una σ-álgebra es entonces una estructura que nos
permite agrupar ciertos subconjuntos de Ω de interés, aquellos a los cuales
se desea calcular su probabilidad, y esta estructura constituye el dominio de
definición de una medida de probabilidad. A menudo no pueden definirse
4 1.2. σ-álgebras

medidas de probabilidad sobre colecciones de subconjuntos más completas o

naturales, como podrı́a ser el conjunto potencia de Ω, la teorı́a de la medida
garantiza que por lo menos el concepto de medida de probabilidad, con los
axiomas mencionados antes, puede obtenerse sobre σ-álgebras, y por ello es
que se estudian estas estructuras. En general existen varias σ-álgebras que
pueden asociarse a un conjunto cualquiera no vacı́o Ω como se muestra a
continuación.

Ejercicio. Sea Ω un conjunto cualquiera no vacı́o. Demuestre que cada una de

las siguientes colecciones es una σ-álgebra de subconjuntos de Ω.

a) F1 = {∅, Ω}.
b) F2 = {∅, A, Ac , Ω}, en donde A ⊆ Ω.
c) F3 = 2Ω , conjunto potencia.

La σ-álgebra del primer inciso es la σ-álgebra más pequeña que podemos asociar a
un conjunto cualquiera Ω, y la σ-álgebra del último inciso es la más grande. ◦

Ejercicio. Sea Ω un conjunto no numerable. Demuestre que la colección F dada

por {A ⊆ Ω : A o Ac es finito o numerable} es una σ-álgebra. ◦

En la Figura 1.1 puede observarse una representación gráfica de una σ-

álgebra como una colección de subconjuntos de Ω.

Ejemplo. Sean A y B subconjuntos de Ω tales que A ⊆ B. La colección

F = {∅, A, B, Ac , B c , B − A, (B − A)c , Ω}

es una σ-álgebra de subconjuntos de Ω que contiene explı́citamente a los conjuntos

A y B. ¿Puede usted verificar tal afirmación con la ayuda de un diagrama de Venn?
◦

En la sección de ejercicios se pueden encontrar algunos otros ejemplos de

σ-álgebras. El uso de la letra F para denotar una σ-álgebra proviene del
Capı́tulo 1. Espacios de probabilidad 5

B C

A
E
D
Ω

Figura 1.1: Una σ-álgebra es una colección F = {A, B, C, D, E, . . .} de subcon-

juntos que no es vacı́a y es cerrada bajo complementos y uniones numerables.

nombre en inglés “field” que significa campo. A menudo se usa también

el término σ-campo en lugar de σ-álgebra. Observe con cuidado el uso y
significado de los sı́mbolos de contención y pertenencia: A ⊆ Ω y A ∈ F .
Demostraremos a continuación algunas otras propiedades generales de las
σ-álgebras.

Proposición. Sea F una σ-álgebra de subconjuntos de Ω. Entonces

1. ∅ ∈ F .
∞
\
2. Si A1 , A2 , . . . ∈ F , entonces An ∈ F .
n=1

3. Si A, B ∈ F , entonces A − B ∈ F , y A△B ∈ F .

Demostración.

1. Como Ω ∈ F y F es una colección cerrada bajo complementos, en-

tonces Ωc = ∅ ∈ F .
S
2. Si A1 , A2 , . . . ∈ F , entonces Ac1 , Ac2 , . . . ∈ F . Por lo tanto ∞ c
n=1 An ∈
F . Tomando complementos y usando las leyes de De Morgan se ob-
6 1.2. σ-álgebras

tiene el resultado.

3. Estas proposiciones se siguen de lo demostrado antes y de las defini-

ciones A − B = A ∩ B c , y A△B = (A − B) ∪ (B − A).

La proposición anterior establece entonces que las σ-álgebras son estruc-

turas también cerradas bajo las operaciones de diferencia e intersecciones
numerables. En la sección de ejercicios pueden encontrarse algunas otras de-
finiciones de σ-álgebra equivalentes a la que hemos enunciado, y que involu-
cran las operaciones de la proposición anterior. Una operación de particular
importancia es aquella en la que se intersectan dos σ-álgebras produciendo
una nueva σ-álgebra, este es el contenido del siguiente resultado.

Proposición. La intersección de dos σ-álgebras es una σ-álgebra.

Demostración. Sean F1 y F2 dos σ-álgebras de subconjuntos de Ω. En-

tonces F1 ∩ F2 es aquella colección de subconjuntos de Ω cuyos elementos
pertenecen tanto a F1 como a F2 . Demostraremos que F1 ∩ F2 es una
σ-álgebra.
a) Como F1 y F2 son σ-álgebras, entonces Ω ∈ F1 y Ω ∈ F2 . Por lo
tanto Ω ∈ F1 ∩ F2 .

b) Sea A un elemento en F1 ∩ F2 . Entonces A ∈ F1 y A ∈ F2 . Por lo

tanto Ac ∈ F1 y Ac ∈ F2 , es decir, Ac ∈ F1 ∩ F2 .

S en F1 ∩F2 . Entonces
c) Sea A1 , A2 , . . . una sucesión de elementos S∞ A1 , A2 , . . . ∈
F1 y A1 ,SA2 , . . . ∈ F2 . Por lo tanto ∞ n=1 An ∈ F1 y n=1 A n ∈ F2 ,
es decir, ∞ n=1 n A ∈ F1 ∩ F 2 .
Capı́tulo 1. Espacios de probabilidad 7

Hemos entonces comprobado que si F1 y F2 son dos σ-álgebras de un mismo

conjunto Ω, entonces F1 ∩F2 es nuevamente una σ-álgebra de subconjuntos
de Ω, naturalmente más pequeña que F1 y F2 en el sentido F1 ∩ F2 ⊆
F1 , F2 . La siguiente pregunta consiste en verificar si la unión de dos σ-
álgebras produce nuevamente una σ-álgebra. En este caso la respuesta es
negativa. En general no es cierto que la unión de dos σ-álgebras produce una
nueva σ-álgebra. Véanse por ejemplo los ejercicios 9 y 10 a este respecto. Por
otro lado se puede extender la validez de la proposición recién demostrada
a intersecciones más generales como indica el siguiente resultado.

Proposición. La intersección finita, infinita numerable o bien arbitraria

de σ-álgebras es nuevamente una σ-álgebra.

Demostración. Sea T un conjunto arbitrario distinto del vacı́o. Suponga

T cada t en T se tiene una σ-álgebra Ft de subconjuntos de Ω. Sea
que para
F = t∈T Ft . Siguiendo los mismos pasos que en la demostración anterior
es fácil probar que F es una σ-álgebra. Observe que como T es un conjunto
arbitrario, la σ-álgebra F es efectivamente una intersección arbitraria de
σ-álgebras.

Lo demostrado anteriormente garantiza que la siguiente definición tiene sen-

tido.

Definición. (σ-álgebra generada). Sea C una colección no vacı́a de

subconjuntos de Ω. La σ-álgebra generada por C , denotada por σ(C ),
es la colección
\
σ(C ) = {F : F es σ-álgebra y C ⊆ F }.

Es decir, la colección σ(C ) es la intersección de todas aquellas σ-álgebras

que contienen a C . Por la proposición anterior sabemos que σ(C ) es una
8 1.2. σ-álgebras

σ-álgebra. A σ(C ) también se le llama mı́nima σ-álgebra generada por C ,

y el adjetivo mı́nima es claro a partir del hecho de que es la σ-álgebra más
pequeña que contiene a la colección C . Es decir, si F es una σ-álgebra
que contiene a C , entonces forzosamente σ(C ) ⊆ F . Observe que C ⊆
σ(C ) pues a la colección C se le han añadido posiblemente algunos otros
subconjuntos para convertirla en la σ-álgebra σ(C ).

Ejemplo. Sean A, B ⊆ Ω con A y B ajenos. Defina la colección C = {A, B}. En

general esta colección no es una σ-álgebra pero podemos añadirle algunos subcon-
juntos de Ω para encontrar la σ-álgebra generada por C . Esto es,

σ(C ) = {∅, A, B, (A ∪ B)c , A ∪ B, Ac , B c , Ω}.

Resulta que ésta es la mı́nima σ-álgebra que contiene a la colección C . ¿Puede

usted demostrar tal afirmación? ◦

Los siguientes dos resultados son proposiciones sencillas y naturales acer-

ca de σ-álgebras generadas. Las demostraciones son cortas pero requieren
algunos momentos de reflexión en una primera lectura.

Proposición. Sean C1 y C2 dos colecciones de subconjuntos de Ω tales

que C1 ⊆ C2 . Entonces σ(C1 ) ⊆ σ(C2 ).

Demostración. Claramente C1 ⊆ C2 ⊆ σ(C2 ). Entonces σ(C2 ) es una σ-

álgebra que contiene a la colección C1 . Por lo tanto σ(C1 ) ⊆ σ(C2 ).

Proposición. Si F es una σ-álgebra, entonces σ(F ) = F .

Demostración. Sabemos que F ⊆ σ(F ). Por otro lado como F es una σ-

álgebra que contiene a F , entonces σ(F ) ⊆ F . Esto demuestra la igualdad.
Capı́tulo 1. Espacios de probabilidad 9

Ejercicio. Demuestre que σ(σ(C )) = σ(C ), en donde C una colección de sub-

conjuntos de Ω. ◦

Ejercicio. Demuestre que σ(C1 ∪ C2 ) = σ( σ(C1 ) ∪ σ(C2 ) ), en donde C1 y C2

son dos colecciones no vacı́as de subconjuntos de Ω. ◦

Otras estructuras de subconjuntos

En esta sección se presentan los conceptos de álgebra y semi-álgebra, y su

relación con σ-álgebras. No estudiaremos estas estructuras con detalle pero
las mencionamos porque desempeñan un papel importante en la construc-
ción y extensión de medidas de probabilidad.

Definición. (Álgebra). Una colección A de subconjuntos de Ω es una

álgebra si cumple las siguientes condiciones:

1. Ω ∈ A .

2. Si A ∈ A , entonces Ac ∈ A .
n
[
3. Si A1 , . . . , An ∈ A , entonces Ak ∈ A .
k=1

La diferencia entre una álgebra y una σ-álgebra estriba en que para la

primera se pide que sea una colección cerrada bajo uniones finitas mientras
que la segunda es una colección cerrada bajo uniones infinitas numerables.
Claramente toda σ-álgebra es una álgebra.
10 1.2. σ-álgebras

Definición. (Semiálgebra). Una colección S de subconjuntos de Ω

es una semiálgebra si cumple las siguientes condiciones:

1. Ω ∈ S .

2. Si A, B ∈ S , entonces A ∩ B ∈ S .

3. Si A, A1 ∈ S son tales que A1 ⊆ A, entonces existen A2 , . . . , An ∈

S tales que
[n
A= Ak ,
k=1

en donde los subconjuntos A1 , . . . , An son ajenos dos a dos.

Los conceptos de σ-álgebra, álgebra y semiálgebra están relacionados como

se muestra en la Figura 1.2. En la sección de ejercicios se pide demostrar
las implicaciones y no implicaciones que se obtienen de este diagrama.

σ-álgebras

álgebras

semiálgebras

Figura 1.2: Relación general entre σ-álgebras, álgebras y semiálgebras.

A continuación se estudia un ejemplo particular de σ-álgebra de subconjun-

tos de números reales: la σ-álgebra de Borel.
Capı́tulo 1. Espacios de probabilidad 11

Conjuntos de Borel

Considere la colección de todos los intervalos abiertos (a, b) de R, en donde

a ≤ b. A la mı́nima σ-álgebra generada por esta colección se le llama σ-
álgebra de Borel de R, y se le denota por B(R).

Definición. (σ-álgebra de Borel de R).

B(R) = σ {(a, b) ⊆ R : a ≤ b} .

A los elementos de B(R) se les llama conjuntos de Borel , Borelianos o

conjuntos Borel medibles. De esta forma se puede asociar la σ-álgebra B(R)
al conjunto de números reales, y obtener ası́ el espacio medible (R, B(R)).
Se muestran a continuación algunos elementos explı́citos de esta σ-álgebra.

Proposición. Para cualesquiera números reales a ≤ b, los intervalos

[a, b], (a, ∞), (−∞, b), [a, b), (a, b] y {a}, son todos elementos de B(R).

Demostración. Primeramente observe que los intervalos cerrados [a, b] son

conjuntos Borelianos, pues podemos escribirlos en términos de una intersec-
ción numerable de intervalos abiertos de la siguiente forma

∞
\ 1 1
[a, b] = (a − , b + ).
n n
n=1

Observe que cada elemento de la intersección anterior es un conjunto Bore-

liano. Siendo B(R) una σ-álgebra, la intersección infinita es un elemento de
B(R). De esta forma se concluye que cada intervalo cerrado es un conjunto
12 1.2. σ-álgebras

de Borel. As mismo tenemos que

∞
[
(a, ∞) = (a, a + n) ∈ B(R),
n=1
[∞
y (−∞, b) = (b − n, b) ∈ B(R).
n=1

Por lo tanto
∞
\ 1
[a, ∞) = (a − , ∞) ∈ B(R),
n
n=1
∞
\ 1
y (−∞, b] = (−∞, b + ) ∈ B(R).
n=1
n

De forma análoga se puede hacer ver que los intervalos semiabiertos de la

forma [a, b) y (a, b] son conjuntos Borelianos. Los conjuntos que constan de
un solo número también son conjuntos Borelianos pues
∞
\ 1 1
{a} = (a − , a + ).
n n
n=1

Complementos, intersecciones y uniones numerables de estos conjuntos son

todos ellos Borelianos. Este hecho puede utilizarse para comprobar los si-
guientes resultados.

Ejercicio. Demuestre directamente que N, Z y Q son elementos de B(R). De-

muestre además que el conjunto de números irracionales es un conjunto de Borel
de R. ◦
Capı́tulo 1. Espacios de probabilidad 13

Además de la definición enunciada, existen otras formas equivalentes de

generar a los conjuntos Borelianos. Este es el contenido de la siguiente pro-
posición.

Proposición. Las siguientes σ-álgebras son todas idénticas a B(R).

1. σ{[a, b] : a ≤ b}. 4. σ{(a, ∞) : a ∈ R}.

2. σ{(a, b] : a ≤ b}. 5. σ{(−∞, b) : b ∈ R}.
3. σ{[a, b) : a ≤ b}.

Demostración. Se prueba únicamente el primer inciso, el resto de ellos se

demuestra usando el mismo procedimiento. Para demostrar que B(R) =
σ{[a, b] : a ≤ b} se verifican ambas contenciones. Claramente [a, b] ∈ B(R),
por lo tanto {[a, b] : a ≤ b} ⊆ B(R). Entonces

σ{[a, b] : a ≤ b} ⊆ B(R).

Ahora se demuestra Sla contención contraria. Sabemos que (a, b) ∈ σ{[a, b] :

a ≤ b} pues (a, b) = ∞ 1 1
n=1 [a + n , b − n ]. Entonces

{(a, b) : a ≤ b} ⊆ σ{[a, b] : a ≤ b}.

Por lo tanto B(R) ⊆ σ{[a, b] : a ≤ b}.

De manera equivalente se puede definir a B(R) como la mı́nima σ-álgebra

generada por todos los subconjuntos abiertos de R. En ambos casos la σ-
álgebra generada es B(R).

Es natural preguntarse si la colección B(R) contiene a todos los subconjun-

tos de R. La respuesta es negativa, es decir, puede demostrarse que existe
un subconjunto de los números reales que no pertenece a la colección B(R).
La construcción del tal conjunto no es sencilla, y puede obtenerse indirecta-
mente de la siguiente forma: la colección B(R) está contenida en una clase
más amplia llamada la colección de conjuntos Lebesgue medibles de R, y se
14 1.2. σ-álgebras

demuestra que existen subconjuntos de R que no son Lebesgue medibles, y

por tanto tampoco Borel medibles. Los detalles de estas afirmaciones pueden
encontrarse en textos de teorı́a de la medida, como por ejemplo [5] o [14].

Es posible también considerar la σ-álgebra de conjuntos de Borel restringi-

dos a una porción de los números reales como se indica a continuación.

Definición. Sea A ∈ B(R). La σ-álgebra de Borel de A, denotada por

B(A) o por A ∩ B(R), se define como sigue

B(A) = {A ∩ B : B ∈ B(R)}.

No es difı́cil comprobar que la colección B(A) es efectivamente una σ-álge-

bra de subconjuntos de A. Observe que el nuevo conjunto total es A y no
R. El concepto de σ-álgebra de Borel de R puede extenderse a dimensio-
nes mayores de la siguiente forma. Considere la colección C de todas los
rectángulos abiertos de R2 , es decir,
C = {(a, b) × (c, d) : a ≤ b, c ≤ d}.
Se definen los conjuntos de Borel de R2 como los elementos de la mı́nima
σ-álgebra generada por la colección C , es decir, B(R2 ) = σ(C ). De manera
equivalente se puede definir B(R2 ) = σ(B(R) × B(R)). En forma análoga
se define B(Rn ) usando productos cartesianos de intervalos.

Definición. (σ-álgebra de Borel de Rn ).

B(Rn ) = σ(B(R) × · · · × B(R)).

En general el producto cartesiano de dos σ-álgebras no es una σ-álgebra

de subconjuntos del espacio producto, de modo que debe anteponerse la
operación σ a tal colección para convertirla en una σ-álgebra.

Ejercicio. (σ-álgebra producto). Demuestre que el producto cartesiano de

Capı́tulo 1. Espacios de probabilidad 15

dos σ-álgebras no es necesariamente σ-álgebra. Esto es, suponga que (Ω1 , F1 ) y

(Ω2 , F2 ) son dos espacios medibles. Mediante un ejemplo muestre que F1 × F2 no
necesariamente es una σ-álgebra de subconjuntos del espacio producto Ω1 × Ω2 . Se
define entonces la σ-álgebra producto como σ(F1 × F2 ). ◦

Ejercicio. Demuestre que B(R2 ) = σ(B(R) × B(R)). ◦

Sucesiones de eventos

En esta sección se estudia el concepto de convergencia de una sucesión infi-

nita de eventos. Para enunciar tal concepto necesitaremos antes las defini-
ciones de lı́mite superior y lı́mite inferior para conjuntos. Estas definiciones
son análogas al caso de sucesiones numéricas como puede consultarse en un
apéndice al final del texto.

Definición. (Lı́mite superior e inferior). Para una sucesión de

eventos {An : n ∈ N}, se define el lı́mite superior y el lı́mite inferior
como sigue:
∞ [
\ ∞
1. lı́m sup An = Ak .
n→∞
n=1 k=n

∞ \
[ ∞
2. lı́m inf An = Ak .
n→∞
n=1 k=n

Tanto el lı́mite superior como el lı́mite inferior son operaciones bien defini-
das, es decir, el resultado siempre existe y es único. En cada caso, el conjunto
resultante es siempre un evento, es decir, un conjunto medible. Es sencillo
16 1.2. σ-álgebras

también comprobar que

lı́m inf An ⊆ lı́m sup An .
n→∞ n→∞
Tampoco es difı́cil verificar que un elemento pertenece al evento lı́mite su-
perior si, y sólo si, pertenece a una infinidad de elementos de la sucesión. En
algunos textos de habla inglesa el evento lı́mite superior se escribe (An i.o.),
en donde las letras i.o. significan “infinitely often”. Por otro lado un ele-
mento pertenece al evento lı́mite inferior si, y sólo si, pertenece a todos
los elementos de la sucesión excepto un número finito de ellos. Con estos
conceptos podemos ahora establecer la definición de convergencia de una
sucesión de eventos.

Definición. (Convergencia de eventos). Sea {An : n ∈ N} una

sucesión de eventos. Si existe un evento A tal que

lı́m inf An = lı́m sup An = A,

n→∞ n→∞

entonces se dice que la sucesión converge al evento A, y se escribe

lı́m An = A.
n→∞

Para calcular el posible lı́mite de una sucesión de eventos debemos entonces

calcular el lı́mite superior y el lı́mite inferior, y cuando el resultado de ambas
operaciones coincida, entonces a tal resultado común se le llama el lı́mite de
la sucesión.

Ejemplo. Para cada número natural n defina el conjunto An = [−1/n, 0] si n es

impar, y An = [0, 1/n] si n es par. Entonces lı́m An = {0} pues
n→∞
∞
\ ∞
[ ∞
\
lı́m sup An = Ak = [−1/n, 1/n] = {0},
n→∞
n=1 k=n n=1
[∞ \ ∞ [∞
y lı́m inf An = Ak = {0} = {0}.
n→∞
n=1 k=n n=1
◦
Capı́tulo 1. Espacios de probabilidad 17

Ejercicio. Sea A un evento. Demuestre que la siguiente sucesión de eventos no

es convergente.
A si n es impar,
An =
Ac si n es par.
◦

Como el ejercicio anterior muestra, no todas las sucesiones de eventos con-

vergen. Demostramos a continuación que en particular toda sucesión monóto-
na es convergente. Más adelante presentaremos algunos otros ejemplos con-
cretos de sucesiones de eventos, y en la sección de ejercicios se encuentran
algunos otros.

Proposición. Sea {An : n ∈ N} una sucesión monótona de eventos.

∞
[
1. Si A1 ⊆ A2 ⊆ · · · , entonces lı́m An = An .
n→∞
n=1
∞
\
2. Si A1 ⊇ A2 ⊇ · · · , entonces lı́m An = An .
n→∞
n=1

Demostración.
1. Como la sucesión es creciente, entonces (observe el valor inicial del
subı́ndice en las operaciones de unión e intersección),
∞
[ ∞
[
Ak = Ak ,
k=n k=1
\∞
y Ak = An .
k=n
18 1.2. σ-álgebras

Por lo tanto
∞ [
\ ∞ ∞ [
\ ∞ ∞
[
lı́m sup An = Ak = Ak = Ak ,
n→∞
n=1 k=n n=1 k=1 k=1
[∞ \ ∞ [∞
y lı́m inf An = Ak = An .
n→∞
n=1 k=n n=1

2. El procedimiento es completamente análogo al inciso anterior. En este

caso como la sucesión es decreciente se tiene que
∞
\ ∞
\
Ak = Ak ,
k=n k=1
[∞
y Ak = An .
k=n

Entonces
∞ [
\ ∞ ∞
\
lı́m sup An = Ak = An ,
n→∞
n=1 k=n n=1
[∞ \ ∞ [∞ \∞ ∞
\
y lı́m inf An = Ak = Ak = Ak .
n→∞
n=1 k=n n=1 k=1 k=1

El siguiente resultado establece que a partir de una sucesión de eventos

puede construirse otra sucesión cuyos elementos son ajenos dos a dos, y cuya
unión es la unión de la sucesión original. Este procedimiento de separación
será de utilidad más adelante.
Capı́tulo 1. Espacios de probabilidad 19

Proposición. Sea {An : n ∈ N} una sucesión de eventos. Defina

n−1
[
B1 = A1 , y Bn = An − Ak , para n ≥ 2.
k=1

Entonces la sucesión de eventos {Bn : n ∈ N} satisface las siguientes

propiedades:

1. Bn ⊆ An .

2. Bn ∩ Bm = ∅, si n 6= m.
∞
[ ∞
[
3. Bn = An .
n=1 n=1

Demostración.

1. Esto evidente a partir de la definición de Bn .

2. Sin pérdida de generalidad suponga n < m, entonces

n−1
[ m−1
[
Bn ∩ Bm = (An − Ak ) ∩ (Am − Ak )
k=1 k=1
n−1
\ m−1
\
= (An ∩ Ack ) ∩ (Am ∩ Ack )
k=1 k=1
⊆ An ∩ Acn
= ∅.

3. Consideraremos cada contención por separado. Como cada Bn está con-

tenido en An , entonces el lado izquierdo es efectivamente un sub-
conjunto del lado derecho. Por el contrario, sea x un elemento en
20 1.3. Medidas de probabilidad

S∞
n=1 An . Entonces existe un ı́ndice n tal que x ∈ An . Sea n0 el pri-
tal que x ∈ An0 y x ∈
mer ı́ndice S / Aj para 1 ≤ j ≤ n0 − S 1. Entonces
x ∈ An0 − nn=10 −1
An = Bn0 . Por lo tanto x pertenece a ∞ n=1 Bn .

1.3. Medidas de probabilidad

En esta sección y en lo que resta del presente capı́tulo se estudian algunas

propiedades de las medidas de probabilidad. Empezaremos por recordar
nuevamente la definición de este concepto.

Definición. (Medida de probabilidad). Sea (Ω, F ) un espacio me-

dible. Una medida de probabilidad es una función P : F → [0, 1] que
satisface

1. P (Ω) = 1.

2. P (A) ≥ 0, para cualquier A ∈ F .

3. Si A1 , A2 , . . . ∈ F son ajenos dos a dos, esto es, An ∩ Am = ∅ para

∞
[ ∞
X
n 6= m, entonces P ( An ) = P (An ).
n=1 n=1

Entonces toda función P definida sobre una σ-álgebra F , con valores en el

intervalo [0, 1] y que cumpla los tres postulados anteriores se le llama medida
de probabilidad o probabilidad axiomática. Estos axiomas fueron establecidos
por A. N. Kolmogorov en 1933. En particular, la tercera propiedad se conoce
con el nombre de σ-aditividad.

Ejemplo. (Probabilidad clásica). Considere un experimento aleatorio con

espacio muestral un conjunto finito Ω. Asocie a este conjunto la σ-álgebra 2Ω , y
Capı́tulo 1. Espacios de probabilidad 21

para cualquier subconjunto A de Ω defina

#A
P (A) = .
#Ω
Entonces P es una medida de probabilidad, y es llamada probabilidad clásica. De
acuerdo a esta definición, para calcular la probabilidad de un evento es necesario
entonces conocer su cardinalidad. En los inicios de la teorı́a de la probabilidad se
consideraban únicamente modelos de este tipo, los cuales eran estudiados en el
contexto de los juegos de azar. De esta forma de calcular probabilidades surgen
muchos y muy variados problemas de conteo, algunos de los cuales pueden no ser
fáciles de resolver. Por ejemplo, si cuatro parejas se sientan al azar en una mesa cir-
cular, ¿cuál es la probabilidad de que ninguna persona se siente junto a su pareja? ◦

Ejemplo. Considere un experimento aleatorio con espacio muestral el conjunto

de números naturales N. Asocie a este conjunto la σ-álgebra 2N . Para cualquier
subconjunto A de N defina
X 1
P (A) = .
2n
n∈A

Es decir, el número natural n tiene asociada la probabilidad 1/2n, como se muestra

en la Figura 1.3. No es difı́cil verificar que P es efectivamente una medida de
probabilidad concentrada en el conjunto de números naturales.

P (X = x)
1 b

2
b

b
b
b b
x
1 2 3 4 5 6 ···
Figura 1.3: Una medida de probabilidad concentrada en los números naturales.

◦
22 1.3. Medidas de probabilidad

Ejemplo. Considere el espacio medible (R, B(R)). Sea f : R → [0, ∞) una fun-
ción no negativa y continua, tal que su integral sobre el intervalo (−∞, ∞) es uno.
Para cualquier conjunto de Borel A defina
Z
P (A) = f (x) dx.
A

Se puede demostrar que P es una medida de probabilidad sobre B(R). ◦

Ejemplo. (Probabilidad geométrica). Sea Ω ⊆ R2 una región tal que su área

es positiva y finita. Sea F una σ-álgebra de subconjuntos de Ω para los cuales el
concepto de área esté bien definido. Para cada A en F defina
Área (A)
P (A) = .
Área (Ω)
La función P resulta ser una medida de probabilidad, y es llamada probabilidad
geométrica. Esta definición puede extenderse a espacios de dimensión mayor de
manera evidente. Un ejemplo en donde se utiliza esta forma de calcular proba-
bilidades es el siguiente. Suponga que dos personas deciden llegar a su cita de
encuentro completamente al azar dentro del lapso de una hora especificada, y es-
perarse a lo sumo 15 minutos en caso de que la otra persona no haya llegado, ¿cuál
es la probabilidad de que las personas se encuentren? ◦

En la siguiente sección estudiaremos algunas propiedades generales que cum-

ple toda medida de probabilidad, y a lo largo del texto consideraremos varios
modelos particulares para el cálculo de probabilidades.

Propiedades elementales

A partir de los postulados enunciados en la sección anterior es posible de-

mostrar una extensa serie de propiedades que cumplen todas las medidas de
probabilidad. En esta sección se estudian algunas propiedades elementales
que posiblemente ya conoce el lector, y más adelante se demuestran otras
propiedades ligeramente más avanzadas.
Capı́tulo 1. Espacios de probabilidad 23

Proposición. Sea (Ω, F , P ) un espacio de probabilidad. Entonces

1. P (∅) = 0.

2. Si A1 , . . . , An ∈ F son ajenos dos a dos, entonces

n
[ n
X
P( Ak ) = P (Ak ).
k=1 k=1

3. P (Ac ) = 1 − P (A).

4. Si A ⊆ B, entonces P (B − A) = P (B) − P (A).

5. Si A ⊆ B, entonces P (A) ≤ P (B).

6. 0 ≤ P (A) ≤ 1.

7. P (A ∪ B) = P (A) + P (B) − P (A ∩ B).

8. P (A ∪ B) ≤ P (A) + P (B).

Demostración.

Como ∅ = ∅ ∪ ∅ ∪ · · · , por la σ-aditividad se tiene que P (∅) =

1. P
∞
n=1 P (∅), lo cual sucede únicamente cuando P (∅) = 0.

2. Se toma An+1 = An+2 = · · · = ∅, y la igualdad se obtiene al aplicar la

σ-aditividad y la propiedad anterior.

3. Se expresa a Ω como la unión disjunta A ∪ Ac . Aplicamos P y obte-

nemos la igualdad requerida.

4. Escribimos B = A ∪ (B − A). Aplicando P obtenemos P (B) − P (A) =

P (B − A).

5. Como la probabilidad de cualquier evento es un número no negativo,

el resultado se sigue de la propiedad anterior.
24 1.3. Medidas de probabilidad

6. La primera desigualdad es el segundo axioma, y la segunda es conse-

cuencia de la propiedad anterior cuando B = Ω y el primer axioma.

7. Descomponemos el evento A ∪ B como la siguiente unión de tres even-

tos disjuntos dos a dos: A ∪ B = (A − B) ∪ (A ∩ B) ∪ (B − A) =
(A − A ∩ B) ∪ (A ∩ B) ∪ (B − A ∩ B). Por lo tanto P (A ∪ B) =
P (A) − P (A ∩ B) + P (A ∩ B) + P (B) − P (A ∩ B).

8. Esta propiedad es consecuencia de la anterior y el segundo axioma.

La propiedad (2) establece que las probabilidades son funciones finitamente

aditivas, y la propiedad (5) que son funciones monótonas. La desigualdad (8)
dice que las probabilidades son funciones finitamente subaditivas. Veamos
algunas otras propiedades de las medidas de probabilidad.

Proposición. (Desigualdades de Boole). Sea {An : n ∈ N} una

sucesión de eventos. Entonces
∞
[ ∞
X
1. P ( An ) ≤ P (An ).
n=1 n=1
∞
\ ∞
X
2. P ( An ) ≥ 1 − P (Acn ).
n=1 n=1

Demostración.

1. Tome B1 = A1 , y para n ≥ 2 defina

n−1
[
Bn = An − Ak .
k=1
Capı́tulo 1. Espacios de probabilidad 25

Hemos demostrado antes que {Bn : n ∈ N}S es una sucesión

S∞ de eventos
disjuntos dos a dos tales que Bn ⊆ An y ∞
n=1 An = n=1 Bn . Por lo
tanto
∞
[ ∞
[
P( An ) = P ( Bn )
n=1 n=1
∞
X
= P (Bn )
n=1
X∞
≤ P (An ).
n=1

2. Esta desigualdad se sigue de la primera al considerar la sucesión de

los complementos.

Proposición. Sea {An : n ∈ N} una sucesión de eventos.

T
1. Si P (An ) = 1 para toda n, entonces P ( ∞n=1 An ) = 1.
S
2. Si P (An ) = 1 para alguna n, entonces P ( ∞n=1 An ) = 1.
T
3. Si P (An ) = 0 para alguna n, entonces P ( ∞n=1 An ) = 0.
S
4. Si P (An ) = 0 para toda n, entonces P ( ∞n=1 An ) = 0.

Demostración.
26 1.3. Medidas de probabilidad

1. Por las leyes de De Morgan y la desigualdad de Boole,

∞
\ ∞
[
P( An ) = 1 − P ( Acn )
n=1 n=1
∞
X
≥ 1− P (Acn )
n=1
= 1.
∞
[ ∞
[
2. Como An ⊆ An , se tiene que 1 = P (An ) ≤ P ( An ).
n=1 n=1
∞
\ ∞
\
3. Como An ⊆ An , entonces P ( An ) ≤ P (An ) = 0.
n=1 n=1
∞
[ ∞
X
4. Por la desigualdad de Boole, P ( An ) ≤ P (An ) = 0.
n=1 n=1

Las propiedades (1) y (4) de la proposición anterior pueden interpretarse

de la siguiente forma. Intersectar dos eventos produce en general un evento
más pequeño, o por lo menos no mayor a los intersectandos. Sin embargo la
propiedad (1) establece que la intersección, aún infinita, de eventos con pro-
babilidad uno produce un evento con probabilidad uno. Análogamente, unir
dos eventos produce en general un evento mayor, pero por la propiedad (4),
la unión, aún infinita, de eventos con probabilidad cero tiene probabilidad
cero.

Dos de las propiedades elementales más conocidas y de amplia aplicación

son la fórmula de probabilidad total y la fórmula de Bayes.

Ejercicio. (Teorema de probabilidad total). Sea (Ω, F , P ) un espacio de

probabilidad, y sea {A1 , A2 , . . .} una partición de Ω tal que cada elemento de la
Capı́tulo 1. Espacios de probabilidad 27

partición es un evento con probabilidad estrictamente positiva. Demuestre que para

cualquier evento B,
∞
X
P (B) = P (B | An )P (An ).
n=1
◦

Ejercicio. (Teorema de Bayes). Sea (Ω, F , P ) un espacio de probabilidad, y

sea A1 , A2 , . . . una partición de Ω tal que cada elemento de la partición es un evento
con probabilidad estrictamente positiva. Demuestre que para cualquier evento B
tal que P (B) > 0, y para cualquier m ≥ 1 fijo,

P (B | Am )P (Am )
P (Am | B) = ∞ .
X
P (B|An )P (An )
n=1

Ejercicio. (Completación de espacios). Se dice que un espacio de probabili-

dad (Ω, F , P ) es completo si cada vez que se tenga la situación A ⊆ B con B ∈ F y
P (B) = 0, entonces también se tiene que A ∈ F y P (A) = 0. Un espacio de proba-
bilidad (Ω, F , P ) que no es completo puede ser completado de la siguiente forma.
Se toma el mismo Ω y se define la colección F¯ de todos aquellos subconjuntos
A ⊆ Ω para los cuales existan B y C en F con P (C) = 0, tales que

B ⊆ A ⊆ B ∪ C.

Para tal conjunto A se define P̄ (A) = P (B). Entonces resulta que (Ω, F¯ , P̄ ) es
un espacio de probabilidad completo, y se llama la completación de (Ω, F , P ).
Verifique esta afirmación demostrando los siguientes incisos.

a) F¯ es efectivamente una σ-álgebra.

b) F ⊆ F¯ .
c) La definición de P̄ (A) no depende del subconjunto B asociado, es decir, la
definición es única.
d) P̄ es una medida de probabilidad sobre F¯ .
28 1.3. Medidas de probabilidad

e) P̄ (A) = P (A), para cada A en F .

f) El espacio de probabilidad (Ω, F¯ , P̄ ) es completo.
g) (Ω, F¯ , P̄ ) es el espacio de probabilidad completo más pequeño que contiene
a (Ω, F , P ), es decir, si (Ω, F1 , P1 ) es otro espacio de probabilidad completo
tal que F ⊆ F1 y P1 = P sobre F , entonces F¯ ⊆ F1 y P̄ = P1 sobre F¯ .

Continuidad

Ahora demostraremos que las medidas de probabilidad son funciones con-

tinuas. Primero se prueba este resultado importante para dos tipos de su-
cesiones particulares, aquellas que son monótonas crecientes o decrecientes,
y después se prueba en general. Empezaremos con el caso de sucesiones
crecientes.

Proposición. Sea {An : n ∈ N} una sucesión no decreciente de eventos,

esto es, A1 ⊆ A2 ⊆ · · · . Entonces
∞
[
P( An ) = lı́m P (An ).
n→∞
n=1

Demostración. Como An ⊆ An+1 , tenemos que P (An ) ≤ P (An+1 ). Por lo

tanto la sucesión numérica {P (An ) : n ∈ N} es no decreciente y acotada
superiormente por uno. Entonces el lı́mite de esta sucesión existe y el lado
derecho de la igualdad tiene sentido. Defina los eventos

B1 = A1 ,
y Bn = An − An−1 , para n ≥ 2.
Capı́tulo 1. Espacios de probabilidad 29

La sucesión {Bn : n ∈ N} es una colección de eventos disjuntos dos a dos,

y es tal que
∞
[ [∞
An = Bn .
n=1 n=1

Por lo tanto
∞
[ ∞
[
P( An ) = P ( Bn )
n=1 n=1
∞
X
= P (Bn )
n=1
∞
X
= P (B1 ) + P (Bn )
n=2
X∞
= P (A1 ) + P (An − An−1 )
n=2
X∞
= P (A1 ) + P (An ) − P (An−1 )
n=2
m
X
= P (A1 ) + lı́m P (An ) − P (An−1 )
m→∞
n=2
= P (A1 ) + lı́m P (Am ) − P (A1 )
m→∞
= lı́m P (Am ).
m→∞

Las medidas de probabilidad también son continuas respecto de sucesio-

nes no crecientes de eventos. Esta afirmación es el contenido del siguiente
resultado que se demuestra a partir de la proposición anterior.
30 1.3. Medidas de probabilidad

Proposición. Sea {An : n ∈ N} una sucesión no creciente de eventos,

esto es, A1 ⊇ A2 ⊇ · · · . Entonces
∞
\
P( An ) = lı́m P (An ).
n→∞
n=1

Demostración. Observe que si An ⊇ An+1 , entonces Acn ⊆ Acn+1 . Por la

proposición anterior,
∞
[
P( Acn ) = lı́m P (Acn ).
n→∞
n=1

Aplicando las leyes de De Morgan,

∞
\
1 − P( An ) = lı́m (1 − P (An )),
n→∞
n=1

de donde se sigue inmediatamente el resultado.

Ahora se enuncia un resultado más fuerte. Demostraremos que las medidas

de probabilidad son funciones continuas. Esta propiedad es muy útil pues
permite el cálculo de probabilidades en procedimientos lı́mite, y se encuentra
siempre presente de manera implı́cita en toda la teorı́a que se desarrolla más
adelante.

Proposición. (Continuidad de la probabilidad). Sea {An : n ∈

N} una sucesión de eventos convergente al evento A. Entonces

lı́m P (An ) = P (A).

n→∞

Demostración. La prueba se basa en las siguientes dos desigualdades:

Capı́tulo 1. Espacios de probabilidad 31

a) lı́m sup P (An ) ≤ P (lı́m sup An ).

n→∞ n→∞

b) P (lı́m inf An ) ≤ lı́m inf P (An ).

n→∞ n→∞

Como la sucesión de eventos es convergente al evento A, entonces el lı́mi-

te superior y el lı́mite inferior son iguales a A. Se sigue entonces de las
desigualdades (a) y (b) que

lı́m sup P (An ) ≤ P (lı́m sup An )

n→∞ n→∞
= P (A)
= P (lı́m inf An )
n→∞
≤ lı́m inf P (An ).
n→∞

De donde se concluye el resultado. Nos concentraremos ahora en demostrar

las desigualdades enunciadas.

S∞
a) Como An ⊆ k=n Ak , entonces
∞
[
P (An ) ≤ P ( Ak ),
k=n
S
en donde { ∞k=n Ak : n ∈ N} es una sucesión decreciente de eventos.
32 1.3. Medidas de probabilidad

Tomando el lı́mite superior se obtiene

∞
[
lı́m sup P (An ) ≤ lı́m sup P ( Ak )
n→∞ n→∞
k=n
∞
[
= lı́m P ( Ak )
n→∞
k=n
[∞
= P ( lı́m Ak )
n→∞
k=n
∞ [
\ ∞
= P( Ak )
n=1 k=n
= P (lı́m sup An ).
n→∞

T∞
b) Como k=n Ak ⊆ An , entonces
∞
\
P( Ak ) ≤ P (An ),
k=n
T
en donde { ∞k=n Ak : n ∈ N} es una sucesión creciente de eventos.
Tomando el lı́mite inferior se obtiene
∞
\
lı́m inf P (An ) ≥ lı́m inf P ( Ak )
n→∞ n→∞
k=n
∞
\
= lı́m P ( Ak )
n→∞
k=n
\∞
= P ( lı́m Ak )
n→∞
k=n
∞ \
[ ∞
= P( Ak )
n=1 k=n
= P (lı́m inf An ).
n→∞
Capı́tulo 1. Espacios de probabilidad 33

Ejemplo. Se lanza un dado equilibrado una infinidad de veces. Sea An el evento

correspondiente a obtener el evento A = {2, 4, 6} en cada uno de los primeros n
lanzamientos del dado. Entonces claramente An ⊇ An+1 y P (An ) = 1/2n para
cualquier n en N. Por lo tanto
∞
\
lı́m An = An .
n→∞
n=1

Entonces
∞
\
P( An ) = P ( lı́m An ) = lı́m P (An ) = lı́m 1/2n = 0.
n→∞ n→∞ n→∞
n=1
T∞
El evento n=1 An se interpreta como aquel conjunto de resultados en el que siem-
pre se obtiene un número par en cada uno de los lanzamientos. Hemos demostrado
que la probabilidad de tal evento es cero. En consecuencia la probabilidad de que
eventualmente aparezca un número impar es uno. Observe que el argumento pre-
sentado funciona de la misma forma cuando el evento A es cualquier subconjunto
propio de Ω distinto del vacı́o. Por ejemplo, si A = {1, 2, 3, 4, 5}, entonces la pro-
babilidad de nunca obtener “6” es cero. Por lo tanto, con probabilidad uno, cada
una de las caras del dado aparecerá eventualmente. Puede demostrarse además que
cada una de las caras aparecerá una infinidad de veces con probabilidad uno. ◦

1.4. Independencia de eventos

En esta sección se define el concepto importante de independencia de even-

tos. La independencia es un tema central en la teorı́a de la probabilidad,
y uno de sus rasgos distintivos de otras ramas de las matemáticas. De ma-
nera natural la independencia aparecerá con frecuencia a lo largo del texto
a partir de ahora, y ayudará a simplificar el cálculo de probabilidades. La
definición matemática es la siguiente.
34 1.4. Independencia de eventos

Definición. (Independencia de dos eventos). Dos eventos A y B

son independientes, y se escribe A ⊥ B, cuando

P (A ∩ B) = P (A)P (B).

A menudo aceptar la hipótesis de que dos eventos son independientes es una

cuestión de apreciación por parte del observador. La independencia puede
interpretarse en el sentido de que la ocurrencia de uno de los eventos no
proporciona información que modifique la probabilidad de ocurrencia del
segundo evento. Contrario a alguna primera concepción intuitiva errónea,
el hecho de que dos eventos sean independientes no implica que ellos sean
ajenos. La proposición contraria tampoco es válida, dos eventos ajenos no
necesariamente son independientes.

Ejercicio. Demuestre que un evento es independiente consigo mismo si, y sólo

si, su probabilidad es cero o uno. ◦

Ejercicio. Demuestre que un evento que tiene probabilidad cero o uno, es inde-
pendiente de cualquier otro evento, incluyendo él mismo. ◦

Ejercicio. Demuestre que los eventos A y B son independientes si, y sólo si,
a) A y B c lo son.
b) Ac y B lo son.
c) Ac y B c lo son.

La definición de independencia puede extenderse a colecciones finitas e in-

cluso infinitas de eventos del siguiente modo.
Capı́tulo 1. Espacios de probabilidad 35

Definición. (Independencia de varios eventos). Los eventos

A1 , . . . , An son independientes si se cumplen todas y cada una de las
siguientes condiciones:

P (Ai ∩ Aj ) = P (Ai )P (Aj ), i, j distintos. (1.1)

P (Ai ∩ Aj ∩ Ak ) = P (Ai )P (Aj )P (Ak ), i, j, k distintos. (1.2)
..
.
P (A1 ∩ · · · ∩ An ) = P (A1 ) · · · P (An ).

Más generalmente, una colección infinita de eventos es independiente si

cualquier subcolección finita lo es.

Observe que de acuerdo a la definición anterior, se necesitan verificar o

suponer varias condiciones para que n eventos sean independientes entre sı́.
De hecho el número total de igualdades a demostrar es 2n − n − 1. ¿Puede
usted demostrar esta afirmación? En la siguiente sección haremos uso del
siguiente resultado.

Ejercicio. Demuestre que los eventos A1 , . . . , An son independientes si, y sólo

si, los eventos Ac1 , . . . , Acn lo son. ◦

Es posible además demostrar que la independencia dos a dos, igualdad (1.1),

no implica en general la independencia tres a tres, igualdad (1.2), ni vice-
versa.

Ejercicio. Se lanza una moneda equilibrada tres veces. Defina los eventos
A = “Se obtiene el mismo resultado en el 1er. y 2do. lanzamiento”.
B = “Se obtiene el mismo resultado en el 2do. y 3er. lanzamiento”.
C = “Se obtiene el mismo resultado en el 3er. y 1er. lanzamiento”.
Demuestre que los eventos A, B y C son independientes dos a dos, pero no inde-
pendientes en su conjunto. ◦
36 1.4. Independencia de eventos

Ejercicio. Sean A y B eventos no independientes, y sea C = ∅. Demuestre que

A, B y C son independientes tres a tres pero no son independientes dos a dos. ◦

También se tiene la noción de independencia entre dos o mas clases de

eventos. La definición es la siguiente, como siempre se presupone un espacio
de probabilidad (Ω, F , P ) dado.

Definición. (Independencia de clases). Las clases no vacı́as de

eventos C1 , . . . , Cn son independientes si los eventos A1 , . . . , An lo son
para cualesquiera Ai en Ci , i = 1, . . . , n. Más generalmente, un conjun-
to infinito de clases no vacı́as de eventos es independiente si cualquier
subconjunto finito lo es.

En particular, dos sub-σ-álgebras F1 y F2 son independientes si para cada A

en F1 y cada B en F2 se cumple que P (A∩B) = P (A)P (B). Análogamente
para un número finito de sub-σ-álgebras F1 , . . . , Fn , o bien un número
infinito de ellas.

Ejemplo. (El problema del mono). Un mono escribe caracteres al azar en

una máquina de escribir. ¿Cuál es la probabilidad de que eventualmente obtenga
exactamente, y sin ningún error, las obras completas de Shakespeare?

Figura 1.4: Mono escribiendo al azar.

Demostramos a continuación que la probabilidad de este raro evento es uno. Ima-

gine entonces que un mono escribe caracteres al azar en una máquina de escribir,
y que lo hace de manera continua generando una sucesión lineal de caracteres. Sea
m el total de caracteres disponibles en una máquina de escribir, y sea N el total
de caracteres de los que constan las obras completas de Shakespeare. Segmentamos
Capı́tulo 1. Espacios de probabilidad 37

el arreglo lineal de caracteres generados por el mono en bloques disjuntos de N

caracteres, uno después de otro, y observamos si algún bloque contiene las obras
de Shakespeare. Por ejemplo,

Xku
| · · · aT s} hwW · · · pzq Ot · · ·
{z | {z }
N N

Para cada número natural k defina el evento Ak correspondiente a que el k-ésimo

bloque contiene exactamente, y sin error alguno, las obras completas de Shakes-
peare. Observe que los eventos Ak son independientes pues los bloques no se sobre-
ponen, además P (Ak ) = (1/m)N = p, o bien P (Ack ) = 1 − p. Defina el evento Bk
como Ac1 ∩ · · · ∩ Ack , que indica la situación en la que el mono no obtiene éxito en
los primeros k bloques. Observe que Bk+1 ⊆ Bk , es decir la sucesión es decreciente,
por lo tanto
∞
\
lı́m Bk = Bk ,
k→∞
k=1
T∞
en donde el evento k=1 Bk se interpreta como aquel en el que el mono nunca tiene
éxito. Entonces, usando la propiedad de continuidad de las medidas de probabilidad
para sucesiones decrecientes, se tiene que
∞
\
P( Bk ) = lı́m P (Bk ) = lı́m (1 − p)k = 0.
k→∞ k→∞
k=1

Por lo tanto la probabilidad del evento complemento es uno, es decir, la probabili-

dad de que eventualmente el mono obtenga éxito es uno. Más adelante se presen-
tarán otras formas de resolver este mismo problema. ◦

1.5. Lema de Borel-Cantelli

Concluimos este capı́tulo con el enunciado y demostración del famoso lema

de Borel-Cantelli. El objetivo es demostrar este resultado y con ello poner
en práctica algunas propiedades de las medidas de probabilidad, aunque
también lo usaremos para presentar un par de aplicaciones y para demostrar
la ley fuerte de los grandes números en la última parte del curso.
38 1.5. Lema de Borel-Cantelli

Proposición. (Lema de Borel-Cantelli). Sea {An : n ∈ N} una

sucesión de eventos, y defina A = lı́m sup An .
n→∞
∞
X
1. Si P (An ) < ∞, entonces P (A) = 0.
n=1 ∞
X
2. Si A1 , A2 , . . . son independientes y P (An ) = ∞, entonces
n=1
P (A) = 1.

Demostración.
1. Para cada número natural n,
∞
[ ∞
X
P (A) ≤ P ( Ak ) ≤ P (Ak ).
k=n k=n
P
Como ∞ n=1 P (An ) < ∞, el lado derecho tiende a cero cuando n tiende
a infinito. Esto implica que P (A) = 0.

2. Es suficienteSdemostrar que para todo número natural n se cumple la

igualdad P ( ∞ k=n Ak ) = 1, pues la intersección numerable de eventos
con probabilidad uno tiene probabilidad uno. Para cada m > n,
∞
[ m
[
1 − P( Ak ) ≤ 1 − P ( Ak )
k=n k=n
m
\
= P( Ack )
k=n
m
Y
= [1 − P (Ak )]
k=n
m
X
≤ exp(− P (Ak )).
k=n
Capı́tulo 1. Espacios de probabilidad 39

Para obtener la última expresión se usa la desigualdad:

P∞ 1 − x ≤ e−x ,
válida para cualquier número real x. Como n=1 P (An ) = ∞, el
ladoS∞derecho tiende a cero cuando m tiende a infinito. Por lo tanto
P ( k=n Ak ) = 1 para cualquier valor de n y entonces P (A) = 1.

Ejemplo. (El problema del mono, nuevamente). El problema de encontrar

la probabilidad de que un mono que escribe caracteres al azar en una máquina de es-
cribir, eventualmente escriba las obras completas de Shakespeare, puede resolverse
también usando el lema de Borel-Cantelli. Suponga que N es el total de caracteres
de los que constan las obras completas de Shakespeare y considere nuevamente la
división por bloques de longitud N :

x1 , . . . , xN , xN +1 , . . . , x2N , . . .
| {z } | {z }
El evento Ak se define nuevamente como aquel en el que el mono tiene éxito en el k-
ésimo bloque. Si nuevamente m denota el total de caracteres disponibles, entonces la
probabilidad del evento Ak es (1/m)N , y claramente la sucesión A1 , A2 , . . . constitu-
P∞ P∞
ye una sucesión de eventos independientes tales que k=1 P (Ak ) = k=1 (1/m)N =
∞. Entonces por la segunda parte del lema de Borel-Cantelli, la probabilidad del
lı́mite superior de la sucesión Ak es uno. Ahora sólo hay que recordar que el evento
lı́m supk→∞ Ak corresponde a aquel en el que una infinidad de eventos Ak ocurren.
Es decir, con probabilidad uno, el mono tiene, no uno, sino ¡una infinidad de éxitos!
◦

Ejercicio. Se lanza una moneda honesta una infinidad de veces. Use el lema de
Borel-Cantelli para demostrar que la probabilidad de que cada cara aparezca una
infinidad de veces es uno. ◦

Ejercicio. Considere el experimento aleatorio de lanzar una infinidad de veces

una moneda. Sea x1 · · · xn una sucesión de resultados consecutivos particular, es
decir, cada xi , para i = 1, 2, . . . , n, es un resultado particular de la moneda. Use el
lema de Borel-Cantelli para calcular la probabilidad de que aparezca una infinidad
40 1.5. Lema de Borel-Cantelli

de veces la sucesión mencionada. ◦

Capı́tulo 1. Espacios de probabilidad 41

Andrey Nikolaevich Kolmogorov (Rusia 1903–

1987). Creció bajo el amparo de su tı́a Vera Yakovlena,
pues su madre murió en el parto y su padre fue exiliado.
Trabajó un tiempo como conductor de trenes. En 1920 in-
gresó a la Universidad Estatal de Moscú, en donde además
de matemáticas tomó cursos de metalurgia e historia de
Rusia. Aún siendo estudiante de licenciatura empezó a
publicar trabajos de investigación graduandose en 1925.
Terminó su doctorado en 1929, y para entonces ya tenı́a 18
publicaciones. Contribuyó brillantemente en varias áreas
de las matemáticas como: análisis, probabilidad, proce-
sos estocásticos, lógica, análisis funcional, geometrı́a, to-
pologı́a, sistemas dinámicos, movimiento de los planetas,
turbulencia, etc. Kolmogorov tenı́a particular interés en
proveer de atención y educación especial a niños con ha-
bilidades sobresalientes. Recibió un sinnúmero de premios
y reconocimientos de distintos paises, y fue miembro de
varias sociedades y academias cientı́ficas. Fuente: Archivo
MacTutor, Universidad de St. Andrews.
42 1.6. Ejercicios

1.6. Ejercicios

σ-álgebras

1. Definición alternativa de σ-álgebra. Demuestre que F es una

σ-álgebra de subconjuntos de Ω si, y sólo si, satisface las siguientes
propiedades:

a) ∅ ∈ F .
b) A ∈ F ⇒ Ac ∈ F .
T∞
c) Si A1 , A2 , . . . ∈ F , entonces n=1 An ∈ F.

2. Definición alternativa de σ-álgebra. Demuestre que F es una

σ-álgebra de subconjuntos de Ω si, y sólo si, satisface las siguientes
propiedades:

a) Ω ∈ F .
b) A, B ∈ F ⇒ A − B ∈ F .
T∞
c) Si A1 , A2 , . . . ∈ F , entonces n=1 An ∈ F.

3. Sean A1 , . . . , An eventos de un espacio muestral Ω. Demuestre que el

conjunto de elementos de Ω que pertenecen a exactamente k de estos
eventos es un evento, 1 ≤ k ≤ n.

4. Sea F una σ-álgebra de subconjuntos de Ω. Demuestre que la colección

F c = {F c : F ∈ F } es una σ-álgebra. Compruebe que F c y F
coinciden.

5. Sea Ω = {a, b, c, d}, y sean A = {a, b} y B = {b, c}. Defina la colección

C = {A, B}. Claramente C no es una σ-álgebra. Encuentre σ(C ).

6. Sea F una σ-álgebra de subconjuntos de Ω y sea A un elemento de

F . Demuestre que la colección {A ∩ F : F ∈ F } es una σ-álgebra de
subconjuntos de A. Se usan los sı́mbolos FA ó A ∩ F para denotar a
esta colección.
Capı́tulo 1. Espacios de probabilidad 43

7. Sean Ω1 y Ω2 dos conjuntos arbitrarios, y sea X : Ω1 → Ω2 una función

en donde (Ω2 , F2 ) es un espacio medible. Demuestre que la siguiente
colección es una σ-álgebra de subconjuntos de Ω1 :

X −1 F2 = {X −1 F : F ∈ F2 }.

8. ¿Es la diferencia de dos σ-álgebras una σ-álgebra? Demuestre o pro-

porcione un contraejemplo.

9. Sean F1 y F2 dos σ-álgebras de subconjuntos de Ω. Demuestre que

F1 ∪ F2 no necesariamente es una σ-álgebra. Para ello considere el
espacio Ω = {1, 2, 3} y las σ-álgebras F1 = {∅, {1}, {2, 3}, Ω} y F2 =
{∅, {1, 2}, {3}, Ω}.

10. Sean F1 y F2 dos σ-álgebras de subconjuntos de Ω tales que F1 ⊆ F2 .

Demuestre que F1 ∪ F2 es una σ-álgebra.

11. Sea T un conjunto arbitrario distinto del vacı́o. Suponga que para cada
t en T se tiene T
una σ-álgebra Ft de subconjuntos de Ω. Demuestre
con detalle que t∈T Ft es una σ-álgebra.

12. Sean A, B ⊆ Ω arbitrarios. Demuestre que la cardinalidad de σ{A, B}

es a lo sumo 16.

13. Sean A, B ⊆ Ω arbitrarios. Encuentre explı́citamente todos los ele-

mentos de σ{A, B}. Por el ejercicio anterior, el total de elementos en
σ{A, B} es, en el caso más general, 16.

14. Sea {A1 , . . . , An } una partición finita de Ω, es decir, la unión de todos

estos conjuntos es Ω, ninguno de ellos es vacı́o y la intersección de
cualesquiera dos de ellos es vacı́a. Demuestre que la cardinalidad de
σ{A1 , . . . , An } es 2n .

15. Demuestre que toda σ-álgebra de un espacio muestral finito contiene

un número par de elementos.

16. Sea {A, B, C} una partición de Ω. Encuentre explı́citamente los ocho

elementos de σ{A, B, C}.
44 1.6. Ejercicios

17. Sea C una colección de subconjuntos de Ω. Diga falso o verdadero

justificando en cada caso: C ⊆ σ(C ) ⊆ 2Ω .
18. Demuestre que 2Ω es una σ-álgebra de subconjuntos de Ω y que no
existe una σ-álgebra de subconjuntos de Ω que sea más grande.

19. Sea Ω un conjunto, F una σ-álgebra de subconjuntos de Ω y sea A

un evento cualquiera. De cada una de las dos expresiones siguientes
determine la que es notacionalmente correcta. Explique su respuesta.

a) Ω ∈ F ó Ω ⊆ F .
b) A ∈ Ω ó A ⊆ Ω.
c) ∅ ∈ F ó ∅ ⊆ F .
d) A ∈ F ó A ⊆ F .

σ-álgebras, álgebras y semiálgebras

20. Definición alternativa de álgebra. Demuestre que F es una

álgebra de subconjuntos de Ω si, y sólo si, cumple las siguientes con-
diciones:
a) Ω ∈ F .
b) Si A, B ∈ F , entonces A − B ∈ F .

21. Demuestre que

F es σ-álgebra ⇒ F es álgebra ⇒ F es semiálgebra.

6
22. álgebra =⇒ σ-álgebra. Sea Ω = (0, 1] y defina la colección F de
subconjuntos de la forma
n
[
(ai , bi ],
i=1

en donde (ai , bi ] ⊆ (0, 1] con (ai , bi ] ∩ (aj , bj ] = ∅ para i 6= j y n ∈ N.

Demuestre que F es una álgebra pero no una σ-álgebra.
Capı́tulo 1. Espacios de probabilidad 45

23. Mediante un contraejemplo demuestre que no toda semiálgebra es una

álgebra.

Conjuntos de Borel

24. Demuestre que B(R) = σ{(a, b] : a ≤ b}.

25. Demuestre que B(R) = σ{[a, b) : a ≤ b}.

26. Demuestre que B(R) = σ{(a, ∞) : a ∈ R}.

27. Demuestre que B(R) = σ{[a, ∞) : a ∈ R}.

28. Demuestre que B(R) = σ{(−∞, b) : b ∈ R}.

29. Demuestre que B(R) = σ{(−∞, b] : b ∈ R}.

30. Sea A ∈ B(R). Demuestre que B(A) es efectivamente una σ-álgebra

de subconjuntos de A.

31. Diga falso o verdadero. Justifique su respuesta.

1
a) σ{ ( n+1 , n1 ] : n ∈ N } = B(0, 1].
b) σ{ (0, n1 ] : n ∈ N } = B(0, 1].
1
c) σ{ ( n+1 , n1 ] : n ∈ N } = σ{ (0, n1 ] : n ∈ N }.

32. Demuestre que B(R2 ) = σ{[a, b] × [c, d] : a ≤ b, c ≤ d}.

33. Demuestre que B(R2 ) = σ{(−∞, a) × (−∞, b) : a, b ∈ R}.

34. Demuestre que B(R2 ) = σ{(a, ∞) × (b, ∞) : a, b ∈ R}.

Sucesiones de eventos

35. Sea {An : n ∈ N} una sucesión de eventos. Demuestre que

a) lı́m sup An es un evento.

n→∞
46 1.6. Ejercicios

b) lı́m inf An es un evento.

n→∞
c) lı́m inf An ⊆ lı́m sup An .
n→∞ n→∞

36. Demuestre que el evento

a) lı́m sup An coincide con el conjunto

n→∞
{ω ∈ An para una infinidad de valores de n}.
b) lı́m inf An coincide con el conjunto
n→∞
{ω ∈ An para toda n excepto un número finito de ellas}.

37. Suponga An ⊆ Bn para cada n en N. Demuestre que

a) lı́m sup An ⊆ lı́m sup Bn .

n→∞ n→∞
b) lı́m inf An ⊆ lı́m inf Bn .
n→∞ n→∞
c) lı́m sup An ⊆ lı́m inf Bn .
n→∞ n→∞

38. Sea {An : n ∈ N} una sucesión de eventos. Demuestre que

a) ( lı́m inf An )c = lı́m sup Acn .

n→∞ n→∞
b) ( lı́m sup An )c = lı́m inf Acn .
n→∞ n→∞

c) P ( lı́m inf An ) = 1 − P ( lı́m sup Acn ).

n→∞ n→∞
d) P ( lı́m sup An ) = 1 − P ( lı́m inf Acn ).
n→∞ n→∞

39. Sea {An : n ∈ N} una sucesión de eventos. Demuestre que

a) lı́m An = A ⇐⇒ lı́m Acn = Ac .

n→∞ n→∞
b) lı́m An = A ⇐⇒ lı́m 1An = 1A .
n→∞ n→∞

El sı́mbolo 1A denota la función indicadora del conjunto A. Véase el

apéndice al final del texto para la definición y algunas propiedades de
esta función.
Capı́tulo 1. Espacios de probabilidad 47

40. Sea {an : n ∈ N} una sucesión de números no negativos convergente

al número a ≥ 0. Sea An = [0, an ]. Calcule lı́m inf An y lı́m sup An .
n→∞ n→∞

41. Determine si cada una de las siguientes sucesiones de conjuntos es

convergente.

a) An = (1/n, 2 + (−1)n ) ⊆ R.
b) An = {(x, y) ∈ R2 : x2 + y 2 ≤ (1 + 1/n)n }.
c) An = {(x, y) ∈ R2 : x2 + y 2 ≤ 2 + sen(nπ/2)}.

42. Demuestre que las siguientes sucesiones de eventos no son convergen-

tes.

a) An = ∅ si n es impar, y An = Ω si n es par.
b) An = (0, 1 + (−1)n ) ⊆ R.

43. Suponga que lı́m An = A, y lı́m Bn = B. Determine si la siguiente

n→∞ n→∞
sucesión es convergente.

An si n es impar,
Cn =
Bn si n es par.

44. Encuentre condiciones sobre los eventos A y B para que la siguiente

sucesión de eventos sea convergente.

A si n es impar,
An =
B si n es par.

45. Suponga que lı́m An = A. Demuestre que para cualquier evento B,

n→∞

a) lı́m (An ∩ B) = A ∩ B.
n→∞
b) lı́m (An ∪ B) = A ∪ B.
n→∞
c) lı́m (An − B) = A − B.
n→∞
d) lı́m (An △B) = A△B.
n→∞
48 1.6. Ejercicios

46. Suponga que lı́m An = A y lı́m Bn = B. Diga falso o verdadero.

n→∞ n→∞
Demuestre en cada caso.

a) lı́m lı́m (An ∩ Bm ) = A ∩ B.

n→∞ m→∞
b) lı́m lı́m (An ∪ Bm ) = A ∪ B.
n→∞ m→∞
c) lı́m lı́m (An − Bm ) = A − B.
n→∞ m→∞
d) lı́m lı́m (An △Bm ) = A△B.
n→∞ m→∞

47. Suponga que lı́m An = A y lı́m Bn = B. Diga falso o verdadero.

n→∞ n→∞
Demuestre en cada caso.

a) lı́m (An ∩ Bn ) = A ∩ B.
n→∞
b) lı́m (An ∪ Bn ) = A ∪ B.
n→∞
c) lı́m (An − Bn ) = A − B.
n→∞
d) lı́m (An △Bn ) = A△B.
n→∞

Medidas de probabilidad

48. Determine completamente un espacio de probabilidad (Ω, F , P ) para

el experimento aleatorio de

a) lanzar una moneda equilibrada.

b) lanzar un dado equilibrado.
c) escoger al azar un número real dentro del intervalo unitario [0, 1].
d) extraer dos bolas de una urna en donde hay dos bolas blancas y
dos negras.
e) lanzar una moneda honesta repetidas veces hasta que hayan apa-
recido ambas caras.
Capı́tulo 1. Espacios de probabilidad 49

49. Medida de probabilidad discreta. Sea {xn : n ∈ N} una suce-

sión de números reales y seaP{an : n ∈ N} otra sucesión de números
reales no negativos tal que ∞ n=1 an = 1. Demuestre que la función
P : B(R) → [0, 1] definida de la siguiente forma es una medida de
probabilidad.
∞
X
P (A) = an · 1{n : xn ∈A} (n).
n=1

50. Sean P y Q dos medidas de probabilidad definidas sobre una misma σ-

álgebra. Demuestre que αP + (1 − α)Q es una medida de probabilidad
para cada α en [0, 1].

51. Sea P una medida de probabilidad. Determine si las siguientes fun-

ciones también son medidas de probabilidad:

a) 1 − P . c) P 2 . √ (1 − P ).
e) 4P
b) (1 + P )/2. d) |P |. f) P.
52. Determine si las siguientes funciones son medidas de probabilidad.

a) P (Ω) = 1 y P (A) = 0 para cualquier otro evento A.

b) P (∅) = 0 y P (A) = 1 para cualquier otro evento A.

53. Considere el espacio medible (N, 2N ). Demuestre en cada caso que P

es una medida de probabilidad. Para cada A ∈ 2N defina:
X
a) P (A) = 2/3n .
n∈A
X
b) P (A) = 1/2n .
n∈A

54. Sea Ω = {1, . . . , n}, y considere el espacio medible (Ω, 2Ω ). Investigue

en cada caso si P es una medida de probabilidad. Para cada A ∈ 2Ω
defina:
X 2k
a) P (A) = .
n(n + 1)
k∈A
50 1.6. Ejercicios

Y 1
b) P (A) = (1 − ).
k
k∈A

55. Considere el espacio medible ((0, 1), B(0, 1)). Demuestre en cada caso
que P es una medida de probabilidad. Para cada A ∈ B(0, 1) defina:
Z
a) P (A) = 2x dx.
A
Z
3√
b) P (A) = x dx.
A 2

56. Probabilidad condicional. Sea (Ω, F , P ) un espacio de proba-

bilidad, y sea B un evento con probabilidad estrictamente positiva.
Demuestre que la probabilidad condicional definida para cada A en
F como sigue:
P (A ∩ B)
P (A | B) = ,
P (B)
es una medida de probabilidad. En consecuencia, toda propiedad váli-
da para una medida de probabilidad es también válida para la proba-
bilidad condicional.

57. Sea P una medida de probabilidad, y sean P1 ( · ) = P ( · | B) y P2 ( · ) =

P1 ( · | C), en donde P (B) > 0 y P (C) > 0. Demuestre que para cual-
quier evento A, P2 (A) = P (A | B ∩ C).

58. Demuestre que P (A | B) ≥ 1 − P (Ac )/P (B), en donde P (B) > 0.

59. Sea P una medida de probabilidad definida sobre la σ-álgebra F .

Demuestre que la colección {A ∈ F : P (A) = 0 ó P (A) = 1} es una
sub σ-álgebra de F .

Propiedades elementales

60. Demuestre que P (∅) = 0, sin usar P (Ω) = 1.

61. Demuestre que P (A ∩ B) − P (A)P (B) = P (Ac )P (B) − P (Ac ∩ B).

Capı́tulo 1. Espacios de probabilidad 51

62. Demuestre que

P (A∩B) ≤ mı́n{P (A), P (B)} ≤ P (A) ≤ máx{P (A), P (B)} ≤ P (A∪B).

63. Demuestre que

P (A ∪ B ∪ C) = P (A) + P (B) + P (C)
−P (A ∩ B) − P (A ∩ C) − P (B ∩ C)
+P (A ∩ B ∩ C).

64. Demuestre que

P (A ∪ B ∪ C) = P (A) + P (Ac ∩ B) + (Ac ∩ B c ∩ C).

65. Demuestre que

∞
[
P( Ai ) = P (A1 ) + P (Ac1 ∩ A2 ) + P (Ac1 ∩ Ac2 ∩ A3 ) + · · ·
i=1
+P (Ac1 ∩ · · · ∩ Acn−1 ∩ An ) + · · ·

66. Fórmula de inclusión y exclusión. Demuestre que

n
[ n
X X
P( Ai ) = P (Ai ) − P (Ai ∩ Aj )
i=1 i=1 i<j
X
+ P (Ai ∩ Aj ∩ Ak )
i<j<k

− · · · + (−1)n+1 P (A1 ∩ · · · ∩ An ).

67. Demuestre que

n
\ n
X X
P( Ai ) = P (Ai ) − P (Ai ∪ Aj )
i=1 i=1 i<j
X
+ P (Ai ∪ Aj ∪ Ak )
i<j<k

− · · · + (−1)n+1 P (A1 ∪ · · · ∪ An ).
52 1.6. Ejercicios

n
\ n
X
68. Demuestre que P ( Ak ) ≥ 1 − P (Ack ).
k=1 k=1

69. Demuestre que

0 ≤ P (A ∩ B) ≤ P (A) ≤ P (A ∪ B) ≤ P (A) + P (B) ≤ 2.

70. Diga falso o verdadero. Demuestre en cada caso.

a) P (B − A) = P (B) − P (A).
b) P (A ∪ B) = P (A − B) + P (B − A).
c) P (A) > 0 ⇒ P (A ∪ B) > 0.
d) P (A) > 0 ⇒ P (A ∩ B) > 0.
e) P (A) < 1 ⇒ P (A ∪ B) < 1.
f ) P (A) < 1 ⇒ P (A ∩ B) < 1.

71. Diga falso o verdadero. Demuestre en cada caso.

a) P (A) = 0 ⇒ P (A ∪ B) = 0.
b) P (A) = 0 ⇒ P (A ∩ B) = 0.
c) P (A ∪ B) = 0 ⇒ P (A) = 0.
d) P (A ∩ B) = 0 ⇒ P (A) = 0.
e) P (A) = 1 ⇒ P (A ∪ B) = 1.
f ) P (A) = 1 ⇒ P (A ∩ B) = 1.
g) P (A ∪ B) = 1 ⇒ P (A) = 1.
h) P (A ∩ B) = 1 ⇒ P (A) = 1.

72. Diga falso o verdadero. Demuestre en cada caso.

a) P (A ∩ B) ≥ P (A) − P (B c ).
b) P (A − B) = P (A) − P (A ∩ B).
c) P (A ∩ B) ≤ P (A)P (B).
Capı́tulo 1. Espacios de probabilidad 53

d) P (A ∪ B) ≤ P (A) + P (B).
e) P (A | B) ≤ P (A).
f ) P (A | B) ≥ P (A) ⇒ P (B | A) ≥ P (B).
73. Se lanza una moneda tantas veces como indica un dado previamente
lanzado. Tanto la moneda como el dado estan equilibrados. Calcule la
probabilidad de que:
a) se obtengan ambas caras de la moneda igual número de veces.
b) se obtenga una misma cara siempre.
74. En una primera caja se encuentran dos canicas blancas y tres negras,
en una segunda caja hay tres blancas y cinco negras, y en una tercera
caja hay dos blancas y una negra. De la primera caja se extrae al
azar una canica y se deposita en la segunda caja, después se extrae
nuevamente al azar una canica de la segunda caja y se deposita en la
tercera caja. Después de este proceso se obtiene al azar una canica de
la tercera caja, encuentre la probabilidad de que ésta sea blanca.
75. Un dado equilibrado se lanza tres veces consecutivas, y resulta que la
suma de los tres números obtenidos es 11. Encuentre la probabilidad
de que en el primer lanzamiento se haya obtenido un 5.
76. Una primera caja contiene tres canicas blancas y dos negras. Una
segunda caja contiene dos canicas blancas y cuatro negras. Se escoge
una caja al azar y se extrae un canica. Únicamente se conoce que la
canica obtenida es blanca, encuentre la probabilidad de que ésta haya
sido obtenida de la primera caja.
77. Regla del producto. Demuestre que
P (A1 ∩· · ·∩An ) = P (A1 )P (A2 |A1 )P (A3 |A1 ∩A2 ) · · · P (An |A1 ∩· · ·∩An−1 ).

78. Desigualdad de Bonferroni. Demuestre que

n
[ n
X X
P( Ai ) ≥ P (Ai ) − P (Ai ∩ Aj ).
i=1 i=1 i<j
54 1.6. Ejercicios

79. Desigualdad de Kounias. Demuestre que

n
[ n
X n
X
P( Ai ) ≤ mı́n { P (Ai ) − P (Ai ∩ Aj ) }.
j
i=1 i=1 i=1
i6=j

Continuidad

80. Se lanza una moneda honesta una infinidad de veces. Demuestre que la
probabilidad de que eventualmente cada una de las dos caras aparezca
es uno.

81. Se lanza un dado equilibrado una infinidad de veces. Demuestre que la

probabilidad de que eventualmente cada una de las seis caras aparezca
es uno.
82. Sea A un evento con probabilidad estrictamente positiva. Demuestre
que si se efectúa una infinidad de ensayos independientes del experi-
mento aleatorio, la probabilidad de que nunca ocurra el evento A es
cero.

Independencia de eventos

83. Diga falso o verdadero. Demuestre o proporcione un contraejemplo.

a) A ⊥ A. c) A ⊥ ∅.
b) A ⊥ Ac . d) A ⊥ Ω.
84. ¿Es la independencia de dos eventos una relación de equivalencia?
85. Mediante un contraejemplo demuestre que

a) si A y B son independientes, entonces no necesariamente son

ajenos.
b) si A y B son ajenos, entonces no necesariamente son indepen-
dientes.
Capı́tulo 1. Espacios de probabilidad 55

86. Sean A1 , . . . , An independientes. Demuestre que

n
[ n
Y
P( Ak ) = 1 − [1 − P (Ak )].
k=1 k=1

87. Sea A1 , A2 , . . . una sucesión infinita de eventos. Defina

∞
[ ∞
\
Bn = Ak y Cn = Ak .
k=n k=n

Demuestre que si Bn y Cn son independientes para cada n, entonces

lo eventos lı́mite superior y lı́mite inferior de la sucesión An también
son independientes. En particular, cuando la sucesión An converge al
evento A, entonces A tiene probabilidad cero o uno.

88. Sean A y B independientes. Demuestre que σ{A} y σ{B} son inde-

pendientes.

Lema de Borel-Cantelli

89. Se lanza un dado equilibrado una infinidad de veces. Demuestre que

con probabilidad uno cada una de las seis caras aparece una infinidad
de veces.

90. Sea A un evento con probabilidad positiva. Use el lema de Borel-

Cantelli para demostrar que si se efectúa una infinidad de ensayos
independientes del experimento aleatorio, la probabilidad de que ocu-
rra una infinidad de veces el evento A, es uno.
Capı́tulo 2

Variables aleatorias

En este capı́tulo se estudian los conceptos de variable aleatoria, función de

distribución, función de densidad y esperanza. Se estudian también algunas
distribuciones de probabilidad de variables aleatorias discretas y continuas
particulares. A partir de ahora y en el resto del curso consideraremos como
elemento base un espacio de probabilidad (Ω, F , P ).

2.1. Variables aleatorias

El concepto de variable aleatoria es fundamental en la teorı́a de la probabili-

dad. Una vez que enunciemos su definición, el término aparecerá con mucha
frecuencia a lo largo del curso.

Definición. (Variable aleatoria). Una variable aleatoria real es

una función X : Ω → R tal que para cualquier conjunto Boreliano B, se
cumple que el conjunto X −1 B es un elemento de F .

Gráficamente una variable aleatoria puede representarse como se muestra

en la Figura 2.1.

57
58 2.1. Variables aleatorias

b b

ω X(ω)

Ω R

Figura 2.1: Una variable aleatoria es una función medible de Ω en R.

Esto es, una variable aleatoria (a veces se escribe simplemente v.a.) es una
función de Ω en R tal que la imagen inversa de cualquier conjunto Boreliano
es un elemento de la σ-álgebra del espacio de probabilidad. Esta condición se
conoce como medibilidad en teorı́a de la medida, y se dice entonces que dicha
función es medible respecto de las σ-álgebras F y B(R). En un apéndice
al final del texto aparece una sección que contiene una discusión breve del
concepto de imagen inversa de una función, que para el caso de variables
aleatorias puede ilustrarse gráficamente como se indica en la Figura 2.2.

X −1

X −1 B B
Ω R

Figura 2.2: La imagen inversa de un conjunto de Borel.

Explicamos a continuación la razón técnica por la cual se le pide a una fun-

ción X : Ω → R que cumpla la condición de medibilidad. Recordemos que P
es una medida de probabilidad definida sobre el espacio medible (Ω, F ). Si
X es una variable aleatoria, entonces podemos trasladar la medida de pro-
babilidad P al espacio medible (R, B(R)) del siguiente modo: Si B es un
conjunto Boreliano definimos PX (B) = P (X −1 B), lo cual es posible pues
Capı́tulo 2. Variables aleatorias 59

el conjunto X −1 B es un elemento de F , dominio de definición de P . La

función PX : B(R) → [0, 1] resulta ser una medida de probabilidad, y se le
llama por tanto la medida de probabilidad inducida por la variable aleatoria.
De este modo se construye el espacio de probabilidad (R, B(R), PX ).

Si B es un conjunto Boreliano, se usan los sı́mbolos X −1 B y (X ∈ B)

para denotar el conjunto {ω ∈ Ω : X(ω) ∈ B}. Por ejemplo, el conjunto
{ω ∈ Ω : X(ω) ∈ [0, ∞)} puede ser denotado por X −1 [0, ∞) o (X ∈ [0, ∞)),
o simplemente por (X ≥ 0), incluyendo los paréntesis. Veamos otro ejemplo,
si (a, b) es un intervalo de la recta real, se puede usar el sı́mbolo X −1 (a, b), o
(X ∈ (a, b)), o bien (a < X < b) para denotar el conjunto {ω ∈ Ω : X(ω) ∈
(a, b)}. Para hacer la escritura más corta, a menudo se omite el argumento
ω de una variable X y se omite también el término variable aleatoria para
X asumiendo, en la mayorı́a de las veces, que lo es.

Para comprobar que una función X : Ω → R es realmente una variable alea-

toria, la definición requiere verificar la condición X −1 B ∈ F para cualquier
conjunto Boreliano B. En muy pocos casos tal condición puede comprobarse
de manera tan directa. La siguiente proposición establece que no es necesa-
rio demostrar la condición de medibilidad para cualquier conjunto Boreliano
B, sino que es suficiente tomar intervalos de la forma (−∞, x], para cada x
en R. Este resultado, como uno puede imaginar, es de suma utilidad y lo
usaremos con frecuencia en el resto del capı́tulo.

Proposición. Una función X : Ω → R es una variable aleatoria si, y

sólo si, para cada x en R se cumple que (X ≤ x) ∈ F .

Demostración.
(⇒) Si X es variable aleatoria, entonces claramente se cumple que para
cualquier número real x el conjunto (X ≤ x) es un elemento de F .

(⇐) Ahora suponga que para cada real x, el conjunto (X ≤ x) es un

60 2.1. Variables aleatorias

elemento de F . Sean B y C las colecciones

B = {B ∈ B(R) : X −1 B ∈ F },
y C = {(−∞, x] : x ∈ R}.
Entonces claramente C ⊆ B ⊆ B(R). La primera contención es por
hipótesis, y la segunda es por definición de la colección B. Suponga por
un momento que B es una σ-álgebra de subconjuntos de R. Entonces
B es una σ-álgebra que contiene a C . Por lo tanto σ(C ) = B(R) ⊆ B.
Esto implica que B = B(R), y entonces X es variable aleatoria. Resta
entonces hacer ver que B es efectivamente una σ-álgebra.
a) Primeramente tenemos que R ∈ B, pues R ∈ B(R) y X −1 R =
Ω ∈ F.
b) Sea B ∈ B. Entonces B ∈ B(R) y X −1 B ∈ F . Por lo tanto
B c ∈ B(R) y X −1 B c = (X −1 B)c ∈ F . Es decir, B c ∈ B.
c) Sea B1 , B2 , . . . una sucesión en B. Es decir, para cadaS∞ número
natural Sn, Bn ∈ B(R) y XS −1 B ∈ F . Entonces Bn ∈
n Sn=1
∞ −1 −1 ∞ ∞
B(R) y n=1 X Bn = X n=1 Bn ∈ F . Es decir, n=1 Bn ∈
B.

Además de la condición anterior para demostrar que una función es variable

aleatoria, existen otras condiciones igualmente equivalentes y útiles. Por
ejemplo, X es variable aleatoria si para cada x en R, (X < x) ∈ F , o (X >
x) ∈ F , o (X ≥ x) ∈ F . Cualquiera de estas condiciones es necesaria y
suficiente para que X sea variable aleatoria. También la condición (a < X <
b) ∈ F , para cualquier intervalo (a, b) de R, es necesaria y suficiente para
que X sea variable aleatoria. La demostración de todas estas aseveraciones
es completamente análoga al caso demostrado arriba y se pide desarrollar
los detalles en la sección de ejercicios.

Considere ahora los espacios medibles (Ω, F ) y (R, B(R)). Si X es una

función de Ω en R, entonces se denota por σ(X) a la mı́nima σ-álgebra de
Capı́tulo 2. Variables aleatorias 61

subconjuntos de Ω respecto de la cual X es variable aleatoria. Es decir,

σ(X) = {X −1 B : B ∈ B(R)}.

Es sencillo probar que tal colección de imágenes inversas es efectivamente

una σ-álgebra, y claramente X es variable aleatoria si, y sólo si, σ(X) ⊆ F .
En particular, se dice que una función g : R → R es Borel medible si
g−1 B ∈ B(R), para cada B en B(R).

A continuación se demuestra que algunas operaciones básicas entre varia-

bles aleatorias producen nuevas variables aleatorias. Suponga entonces que
(Ω, F , P ) es un espacio de probabilidad dado. Todas las variables aleatorias
que se consideran a continuación están definidas sobre este mismo espacio
de probabilidad.

Proposición. La función constante X = c es una variable aleatoria.

Demostración. Sea B un elemento cualquiera de B(R). Para la función

constante X = c se tiene que X −1 B = Ω si c ∈ B, y X −1 B = ∅ si c ∈/ B.
En ambos casos el conjunto X −1 B es un elemento de F , por lo tanto X es
variable aleatoria.

Proposición. Si X es variable aleatoria y c es una constante, entonces

cX también es variable aleatoria.

Demostración. Comprobaremos que para cada número real x, la imagen

inversa del conjunto (−∞, x], bajo la función cX, es un elemento de F .
Tenemos tres casos: Si c > 0, entonces el conjunto (cX ≤ x) = (X ≤ x/c) es
un elemento de F , pues X es v.a. Si c < 0, entonces nuevamente el conjunto
(cX ≤ x) = (X ≥ x/c) es un elemento de F pues X es v.a. Finalmente
si c = 0, entonces es claro que cX es la constante cero que es v.a. por la
proposición anterior.
62 2.1. Variables aleatorias

Proposición. Si X y Y son v.a.s, entonces X + Y es variable aleatoria.

Demostración. Probaremos que para cada número real x, el conjunto (X +

Y > x) es un elemento de F . Para ello usaremos la igualdad
[
(X + Y > x) = (X > r) ∩ (Y > x − r). (2.1)
r∈Q

Es claro que a partir de esta igualdad se concluye que el conjunto (X + Y >

x) es un elemento de F , pues tanto X como Y son variables aleatorias,
y la operación de unión involucrada es numerable. Resta entonces demos-
trar (2.1).

(⊆) Sea ω en Ω tal que X(ω) + Y (ω) > x. Entonces X(ω) > x − Y (ω).
Como los números racionales son un conjunto denso en R, tenemos
que existe un número racional r tal que X(ω) > r > x − Y (ω). Por
lo tanto X(ω) > r y Y (ω) > x − r. De aqui se desprende que ω es un
elemento del lado derecho.
S
(⊇) Sea ahora ω un elemento de r∈Q (X > r) ∩ (Y > x − r). Entonces
existe un número racional r0 tal que X(ω) > r0 y Y (ω) > x − r0 .
Sumando obtenemos X(ω) + Y (ω) > x, y por lo tanto ω es también
un elemento del lado izquierdo.

Proposición. Si X y Y son v.a.s, entonces XY es variable aleatoria.

Demostración. Suponga primero el caso particular X = Y . Entonces ne-

cesitamos probar que para todo número real x, el conjunto (X 2 ≤ x) es
un elemento de F . Pero esto es cierto pues (X 2 ≤ x) = ∅ si x < 0, y
√ √
(X 2 ≤ x) = (− x ≤ X ≤ x) si x ≥ 0. En ambos casos, el conjunto
Capı́tulo 2. Variables aleatorias 63

(X 2 ≤ x) es un elemento de F . Para el caso general, X 6= Y , usamos la

fórmula
1
XY = [ (X + Y )2 − (X − Y )2 ].
4
Por lo demostrado antes, el producto XY es efectivamente una variable
aleatoria.

Como consecuencia se cumple que si multiplicamos X por si misma n veces,

entonces X n es variable aleatoria. Por lo tanto toda función polinomial de
una variable aleatoria es también variable aleatoria.

Proposición. Sean X y Y v.a.s con Y 6= 0. Entonces X/Y es variable

aleatoria.

Demostración. Como el producto de variables aleatorias es nuevamente una

variable aleatoria, es suficiente demostrar que 1/Y es variable aleatoria. Para
cualquier número real y > 0 tenemos que
1 1 1
( ≤ y) = ( ≤ y, Y > 0) ∪ ( ≤ y, Y < 0)
Y Y Y
1 1
= (Y ≥ , Y > 0) ∪ (Y ≤ , Y < 0)
y y
1
= (Y ≥ ) ∪ (Y < 0),
y
que es un elemento de F puesto que Y es variable aleatoria. Por otro lado,
si y < 0 tenemos que
1 1 1
( ≤ y) = ( ≤ y, Y > 0) ∪ ( ≤ y, Y < 0)
Y Y Y
1 1
= (Y ≤ , Y > 0) ∪ (Y ≥ , Y < 0)
y y
1
= ∅ ∪ (Y ≥ , Y < 0)
y
1
= ( ≤ Y < 0).
y
64 2.1. Variables aleatorias

Nuevamente vemos que este conjunto es un elemento de F , puesto que Y

es v.a. Finalmente cuando y = 0 obtenemos una vez mas un elemento de F
pues
1 1 1
( ≤ 0) = ( ≤ 0, Y > 0) ∪ ( ≤ 0, Y < 0)
Y Y Y
= ∅ ∪ (Y < 0)
= (Y < 0).

Proposición. Si X y Y son variables aleatorias, entonces máx{X, Y }

y mı́n{X, Y } también lo son.

Demostración. Para cualquier número real x,

(máx{X, Y } ≤ x) = (X ≤ x, Y ≤ x) = (X ≤ x) ∩ (Y ≤ x).

Análogamente,

(mı́n{X, Y } ≥ x) = (X ≥ x, Y ≥ x) = (X ≥ x) ∩ (Y ≥ x).

Como consecuencia se obtiene que tanto X + = máx{0, X} como X − =

− mı́n{0, X} son variables aleatorias.

Proposición. Si X es variable aleatoria, entonces |X| es variable alea-

toria.

Demostración. Si x ≥ 0, entonces (|X| ≤ x) = (−x ≤ X ≤ x), y si x <

0, entonces (|X| ≤ x) = ∅ ∈ F , de modo que |X| es variable aleatoria.
Alternativamente se puede escribir |X| = X + + X − , y por lo expuesto
anteriormente obtener la misma conclusión.
Capı́tulo 2. Variables aleatorias 65

Se muestra a continuación que en general el recı́proco de la proposición

anterior es falso, esto es, si X : Ω → R es una función tal que |X| es
variable aleatoria, entonces no necesariamente X es variable aleatoria.

Ejemplo. Considere el espacio muestral Ω = {−1, 0, 1} junto con la σ-álgebra

F = {∅, {0}, {−1, 1}, Ω}. Sea X : Ω → R la función identidad X(ω) = ω. Entonces
|X| es variable aleatoria pues para cualquier conjunto Boreliano B,


 Ω si 0, 1 ∈ B,

{−1, 1} si 0 ∈/ B y 1 ∈ B,
|X|−1 B =

 {0} si 0 ∈ B y1∈ / B,

∅ si 0, 1 ∈
/ B.
Es decir, |X|−1 B es un elemento de F . Sin embargo X no es variable aleatoria
pues el conjunto X −1 {−1} = {−1} no es un elemento de F . ◦

Ahora consideraremos algunas operaciones lı́mite en sucesiones infinitas de

variables aleatorias. Sólo consideraremos variables aleatorias con valores fi-
nitos, de modo que impondremos condiciones sobre la finitud del resultado
al tomar tales operaciones lı́mite.

Proposición. Sea X1 , X2 , . . . una sucesión infinita de variables aleato-

rias tales que para cada ω en Ω, los números

sup {X1 (ω), X2 (ω), . . .} e ı́nf {X1 (ω), X2 (ω), . . .}

son finitos. Entonces las funciones sup {Xn } e ı́nf {Xn } son variables
n≥0 n≥0
aleatorias.

Demostración. Para cualquier número real x,

∞
\
( sup Xn ≤ x ) = (Xn ≤ x),
n≥0 n=1
\∞
e ( ı́nf Xn ≥ x ) = (Xn ≥ x).
n≥0
n=1
66 2.1. Variables aleatorias

El siguiente resultado hace uso de las operaciones de lı́mite superior e inferior

para sucesiones numéricas, el lector puede encontrar una revisión breve de
estas operaciones al final del texto.

Proposición. Sea X1 , X2 , . . . una sucesión infinita de variables aleato-

rias tales que para cada ω en Ω, los números

lı́m sup {X1 (ω), X2 (ω), . . .} y lı́m inf {X1 (ω), X2 (ω), . . .}

son finitos. Entonces las funciones lı́m sup Xn y lı́m inf Xn son variables
n→∞ n→∞
aleatorias.

Demostración. Esto es consecuencia de la proposición anterior pues

lı́m sup Xn = ı́nf ( sup Xn ),

n→∞ k n≥k
y lı́m inf Xn = sup ( ı́nf Xn ).
n→∞ k n≥k

Finalmente demostramos que el lı́mite de una sucesión de variables aleato-

rias convergente es variable aleatoria.

Proposición. Sea X1 , X2 , . . . una sucesión infinita de variables aleato-

rias tales que lı́m Xn (ω) existe y es finito para cada ω ∈ Ω. Entonces
n→∞
la función lı́m Xn es una variable aleatoria.
n→∞

Demostración. Como el lı́mite de Xn existe, los lı́mites superior e inferior

de esta sucesión coinciden. Entonces por lo demostrado antes, el lı́mite de
Xn es variable aleatoria.
Capı́tulo 2. Variables aleatorias 67

2.2. Función de distribución

Toda variable aleatoria tiene asociada una función llamada de distribución.

En esta sección se define esta importante función y se demuestran algunas
de sus propiedades.

Definición. (Función de distribución). La función de distribución

de una variable aleatoria X es la función F (x) : R → [0, 1], definida
como sigue
F (x) = P (X ≤ x).

Cuando sea necesario especificar la variable aleatoria en cuestión se escribe

FX (x), pero en general se omite el subı́ndice X cuando no haya posibilidad
de confusión. El argumento de la función es la letra minúscula x que puede
tomar cualquier valor real. Por razones obvias a esta función se le conoce
también con el nombre de función de acumulación de probabilidad, o función
de probabilidad acumulada. Observe que la función de distribución de una
variable aleatoria está definida sobre la totalidad del conjunto de números
reales, y siendo una probabilidad, toma valores en el intervalo [0, 1].

La función de distribución es importante pues, como se ilustrará más adelan-

te, contiene ella toda la información de la variable aleatoria y la correspon-
diente medida de probabilidad. Veremos a continuación algunas propiedades
básicas de esta función, en una de las cuales aparece la expresión F (x+),
que significa el lı́mite por la derecha de la función F en el punto x. Apare-
cerá también la expresión F (x−), que significa, de manera análoga, el lı́mite
por la izquierda de la función F en el punto x.
68 2.2. Función de distribución

Proposición. Sea F (x) la función de distribución de una variable alea-

toria. Entonces

1. lı́m F (x) = 1.
x→+∞

2. lı́m F (x) = 0.
x→−∞

3. Si x1 ≤ x2 , entonces F (x1 ) ≤ F (x2 ).

4. F (x) es continua por la derecha, es decir, F (x+) = F (x).

Demostración.
1. Sea x1 , x2 , . . . una sucesión cualquiera de números reales creciente a
infinito, y sean los eventos An = (X ≤ xn ). Entonces {An : n ∈ N} es
una sucesión de eventos creciente cuyo lı́mite es Ω. Por la propiedad
de continuidad

lı́m F (xn ) = lı́m P (An ) = P (Ω) = 1.

n→∞ n→∞

Dado que R es un espacio métrico, lo anterior implica que F (x) con-

verge a uno cuando x tiende a infinito.

2. Sea ahora {xn : n ∈ N} una sucesión cualquiera de números reales

decreciente a menos infinito, y sean los eventos An = (X ≤ xn ).
Entonces {An : n ∈ N} es una sucesión de eventos decreciente al
conjunto vacı́o. Nuevamente por la propiedad de continuidad

lı́m F (xn ) = lı́m P (An ) = P (∅) = 0.

n→∞ n→∞

Por lo tanto, F (x) converge a cero cuando x tiende a menos infinito.

Capı́tulo 2. Variables aleatorias 69

3. Para x1 ≤ x2 ,

F (x1 ) ≤ F (x1 ) + P (x1 < X ≤ x2 )

= P [(X ≤ x1 ) ∪ (x1 < X ≤ x2 )]
= P (X ≤ x2 )
= F (x2 ).

4. Sea x1 , x2 , . . . una sucesión cualquiera de números reales no negativos

y decreciente a cero. Entonces

F (x + xn ) = F (x) + P (x < X ≤ x + xn ),

en donde An = (x < X ≤ x + xn ) es una sucesión de eventos decre-

ciente al conjunto vacı́o. Por lo tanto lı́m F (x + xn ) = F (x). Es decir
n→∞
F (x+) = F (x).

El recı́proco de la proposición anterior también es válido y justifica la im-

portancia de la función de distribución. Se enuncia a continuación este in-
teresante resultado cuya demostración omitiremos y puede encontrarse por
ejemplo en [15].

Proposición. Sea F : R → [0, 1] una función que satisface las cuatro

propiedades de la proposición anterior. Entonces existe un espacio de
probabilidad y una variable aleatoria cuya función de distribución es F .

Por lo tanto basta dar una variable aleatoria con una distribución de pro-
babilidad especı́fica para saber que existe un cierto espacio de probabilidad
sobre el cual dicha variable aleatoria está definida. Este es el punto de vista
que a menudo se adopta en el estudio de las variables aleatorias, quedando
un espacio de probabilidad no especificado en el fondo como elemento base
en todas las consideraciones.
70 2.2. Función de distribución

Se tiene además la siguiente definición general de función de distribución,

no haciendo referencia a variables aleatorias ni a espacios de probabilidad
particulares.

Definición. (Función de distribución). Una función F : R → [0, 1]

es llamada función de distribución si cumple las cuatro propiedades an-
teriores.

A continuación se presentan algunos ejemplos gráficos de funciones de distri-

bución. La primera gráfica corresponde a la función de distribución de una
variable aleatoria discreta, y la segunda muestra el comportamiento tı́pico
de una función de distribución continua.

F (x) F (x)
1 b
1
b bc

b bc

bc
x x

Figura 2.3: Ejemplos gráficos de funciones de distribución.

También pueden presentarse situaciones como la que se muestra a conti-

nuación, y que corresponden a variables aleatorias mixtas. La definición de
variable aleatoria discreta, continua y mixta aparece en la siguiente sección.

Se demuestran ahora algunas otras propiedades que establecen la forma de

calcular probabilidades usando la función de distribución.
Capı́tulo 2. Variables aleatorias 71

F (x)
1
b

b bc

Figura 2.4: Otro ejemplo gráfico de función de distribución.

Proposición. Sea X una variable aleatoria con función de distribución

F . Para cualesquiera números reales a < b,

1. P (X < a) = F (a−).

2. P (X = a) = F (a) − F (a−).

3. P (a < X ≤ b) = F (b) − F (a).

4. P (a ≤ X ≤ b) = F (b) − F (a−).

5. P (a < X < b) = F (b−) − F (a).

6. P (a ≤ X < b) = F (b−) − F (a−).

Demostración.
1. Sea x1 , x2 , . . . una sucesión de números reales positivos y decreciente
a cero. Sea An el evento (X ≤ a − xn ). Entonces {An : n ∈ N} es una
sucesión de eventos decreciente al evento (X < a). Por la propiedad
de continuidad
P (X < a) = lı́m P (An )
n→∞
= lı́m F (a − xn )
n→∞
= F (a−).
72 2.2. Función de distribución

2. Simplemente se escribe

P (X = a) = P (X ≤ a) − P (X < a)
= F (a) − F (a−).

3.- 6. Estas igualdades se sigue directamente de las dos primeras.

Observe que como F es una función no decreciente y continua por la derecha,

la probabilidad P (X = x) es igual a F (x)−F (x−), que representa el tamaño
del salto o discontinuidad de la función de distribución en el punto x, como
se muestra en la Figura 2.5.

F (x)
1

P (X = x) = F (x) − F (x−)
bc

x
Figura 2.5: La probabilidad P (X = x) es el tamaño del salto de F en el punto x.

En consecuencia, cuando F es una función continua y para a < b,

F (b) − F (a) = P (a < X ≤ b)

= P (a ≤ X ≤ b)
= P (a < X < b)
= P (a ≤ X < b).

Es decir, cuando F es una función continua, incluir o excluir los extremos

de un intervalo no afecta el valor de la probabilidad de dicho intervalo. Por
Capı́tulo 2. Variables aleatorias 73

lo tanto, para cualquier número real x, la probabilidad del evento (X = x)

es cero. Finalizamos esta sección con un resultado interesante cuya prueba
es sorprendentemente simple.

Proposición. Toda función de distribución tiene a lo sumo un número

numerable de discontinuidades.

Demostración. Sea D el conjunto de puntos de discontinuidad de una fun-

ción de distribución F (x). Para cada número natural n defina los subcon-
juntos
1 1
Dn = {x ∈ D : < F (x) − F (x−) ≤ }.
n+1 n
S
Cada conjunto Dn tiene a lo sumo n elementos. Como D = ∞ n=1 Dn , se
concluye que D es numerable.

2.3. Tipos de variables aleatorias

Las variables aleatorias se clasifican en varios tipos dependiendo de las ca-

racterı́sticas de la correspondiente función de distribución. Al menos existen
tres tipos: discretas, continuas, y mezclas de las dos anteriores. Veamos su
definición.
74 2.3. Tipos de variables aleatorias

Definición. (Variable aleatoria discreta). La variable aleatoria

X se llama discreta si su correspondiente función de distribución F (x)
es una función constante por pedazos. Sean x1 , x2 , . . . los puntos de
discontinuidad de F (x). En cada uno de estos puntos el tamaño de la
discontinuidad es P (X = xi ) = F (xi ) − F (xi −) > 0. A la función f (x)
que indica estos incrementos se le llama función de probabilidad de X,
y se define como sigue

P (X = x) si x = x1 , x2 , . . .
f (x) = (2.2)
0 otro caso.

La función de distribución se reconstruye de la forma siguiente

X
F (x) = f (u).
u≤x

En este caso se dice también que la función de distribución es discreta,

además la función de probabilidad f (x) siempre existe, y se le llama también
función de masa de probabilidad. También se acostumbra usar el término
función de densidad, como una analogı́a con el caso de variables aleato-
rias continuas definidas más adelante. Cuando sea necesario especificarlo se
escribe fX (x) en lugar de f (x).

Observe que la función de probabilidad

P f (x) es una función no negativa
que suma uno en el sentido i f (xi ) = 1. Recı́procamente, toda función
de la forma (2.2) que cumpla estas dos propiedades se le llama función
de probabilidad, sin que haya necesariamente una variable aleatoria de por
medio. Veamos ahora el caso continuo.

Definición. (Variable aleatoria continua). La variable aleatoria

X se llama continua si su correspondiente función de distribución es una
función continua.

En tal caso también se dice que la distribución es continua. Las distribu-

Capı́tulo 2. Variables aleatorias 75

ciones continuas se clasifican en distribuciones absolutamente continuas y

distribuciones singulares de la siguiente forma.

Definición. (Variable aleatoria absolutamente continua). La

variable aleatoria continua X con función de distribución F (x) se llama
absolutamente continua, si existe una función no negativa e integrable
f tal que para cualquier valor de x se cumple
Z x
F (x) = f (u) du. (2.3)
−∞

En tal caso a la función f (x) se le llama función de densidad de X.

Aún cuando exista una función no negativa e integrable f que cumpla (2.3),
ésta puede no ser única, pues basta modificarla en un punto para que sea
ligeramente distinta pero aún ası́ seguir cumpliendo (2.3). A pesar de ello,
nos referiremos a la función de densidad como si ésta fuera única, y ello
se justifica por el hecho de que las probabilidades son las mismas, ya sea
usando una función de densidad o modificaciones de ella que cumplan (2.3).

Es claro que la función de densidad de una variable aleatoria absolutamen-

te continua es no negativa y su integral sobre toda la recta real es uno.
Recı́procamente, toda función f (x) no negativa que integre uno en R se
llama función de densidad. Si X es absolutamente continua con función de
distribución F (x) y función de densidad continua f (x), entonces el teore-
ma fundamental del cálculo establece que, a partir de (2.3), F ′ (x) = f (x).
Además, la probabilidad de que X tome un valor en el intervalo (a, b) es
el área bajo la función de densidad sobre dicho intervalo. Esto se ilustra
en la Figura 2.6, la probabilidad es la misma si se incluyen o excluyen los
extremos del intervalo.

Pueden construirse ejemplos de variables aleatorias continuas que no tienen

función de densidad, es decir, que no existe una función f no negativa e in-
tegrable que cumpla (2.3) para cualquier número real x. En tales situaciones
se dice que la distribución es singular.
76 2.3. Tipos de variables aleatorias

f (x)

Z b
P (X ∈ (a, b)) = f (x) dx
a

x
a b

Figura 2.6: La probabilidad como el área bajo la función de densidad.

Definición. (Variable aleatoria singular). La variable aleatoria

continua X, o su correspondiente función de distribución F (x), se llama
singular si F ′ (x) = 0 casi seguramente.

El término “casi seguramente” que aparece en esta definición se refiere a que

la igualdad se cumple en todos los puntos x excepto en un conjunto cuya
medida de Lebesgue es cero. Las distribuciones singulares son un poco más
delicadas de estudiar y no haremos mayor énfasis en ellas. La distribución de
Cantor es un ejemplo de este tipo de distribuciones y se construye mediante
un proceso lı́mite. Los detalles pueden pueden encontrarse en [13] o [19].

Definición. (Variable aleatoria mixta). Una variable aleatoria que

no es discreta ni continua se llama variable aleatoria mixta.

No es difı́cil encontrar situaciones en donde la variable aleatoria en estudio

es mixta, el siguiente ejemplo es una muestra de ello.

Ejemplo (Una variable aleatoria que no es discreta ni continua). Sea

X una variable aleatoria con función de distribución
(
1 − e−x si x > 0,
FX (x) =
0 si x ≤ 0.
Capı́tulo 2. Variables aleatorias 77

Como la función FX (x) es continua, entonces la variable aleatoria X es continua.

Sea M > 0 una constante. Las gráficas de las funciones de distribución de las
variables X y la constante M (vista como variable aleatoria), se muestran en la
Figura 2.7.

FX (x) FM (x)

1 1 b

x bc
x
M
Figura 2.7: Funciones de distribución de la variable X y la constante M .

Sea Y = mı́n{X, M }. Puede comprobarse que la función de distribución de Y es


 0
 si y ≤ 0,
FY (y) = 1 − e−y si 0 < y < M,


1 si y ≥ M,

con gráfica como en la Figura 2.8.

FY (y)

1 b

y
M
Figura 2.8: Función de distribución de la variable Y = mı́n{X, M }.

Es claro que esta función de distribución no es constante por pedazos pues es cre-
ciente en el intervalo (0, M ), por lo tanto no es discreta, y tampoco es continua
pues tiene una discontinuidad en y = M . Por lo tanto Y es una variable aleatoria
78 2.3. Tipos de variables aleatorias

que no es discreta ni continua. ◦

Finalmente enunciamos un resultado general cuya demostración puede en-

contrarse en [7] o [13].

Proposición. Toda función de distribución F (x) se puede escribir como

una combinación lineal convexa de una función de distribución discreta
F d (x) y otra continua F c (x), es decir, admite la siguiente representación

F (x) = αF d (x) + (1 − α)F c (x),

en donde 0 ≤ α ≤ 1.

En todos los casos que consideraremos en este texto la distribución continua

de esta descomposición será absolutamente continua. En el caso general, es-
ta distribución continua puede a su vez escribirse como otra combinación
lineal convexa entre una distribución absolutamente continua y una distri-
bución continua singular. Esto lleva al resultado general de que cualquier
distribución puede escribirse como una combinación lineal convexa de los
tres tipos básicos de distribuciones.

Ejemplo. Considere nuevamente la función de distribución de la variable Y =

mı́n{X, M } analizada en el ejemplo anterior. Hemos visto que esta distribución no
es discreta ni continua, sin embargo puede descomponerse en la combinación lineal
convexa
FY (y) = e−M F d (y) + (1 − e−M )F c (y),
en donde F d (y) es la distribución discreta de la variable constante M , y F c (y) es
la distribución continua

 0 si y ≤ 0,

 −y
1 − e
FYc (y) = si 0 < y < M,
−M
 1−e


1 si y ≥ M.
◦
Capı́tulo 2. Variables aleatorias 79

Igualdad de variables aleatorias

Dos variables aleatorias X y Y son estrictamente iguales si para cada ω se

cumple X(ω) = Y (ω). Existen, sin embargo, otras formas más débiles de
igualdad que enunciaremos a continuación.

Definición. (Igualdad de variables aleatorias). Se dice que dos

variables aleatorias X y Y son
c.s.
a) iguales casi seguramente, y se escribe X = Y c.s., o bien X = Y ,
si se cumple que P (X = Y ) = 1. Más generalmente, un evento
ocurre casi seguramente si su probabilidad es uno.
d
b) iguales en distribución, y se escribe X = Y , si sus correspondientes
funciones de distribución coinciden, es decir, si FX (x) = FY (x)
para cada número real x.

Es interesante observar que la igualdad casi segura es más fuerte que la

igualdad en distribución, es decir, si X y Y son iguales casi seguramente,
entonces son iguales en distribución. Sin embargo, si X y Y tienen la misma
distribución, entonces no necesariamente son iguales casi seguramente. A
menos que se indique lo contrario, cuando aparezca una expresión de igual-
dad entre variables aleatorias, se considera que la igualdad es válida en el
sentido fuerte, es decir, casi seguro.

Ejercicio. Sean X y Y dos variables aleatorias. Demuestre que (X = Y ) es un

evento. En consecuencia tiene sentido calcular la probabilidad de tal conjunto. ◦

Ejercicio. Demuestre que

d
a) si X = Y c.s., entonces X = Y .
d
b) si X = Y , entonces no necesariamente X = Y c.s. Considere por ejemplo X
tal que P (X = −1) = P (X = 1) = 1/2, y defina Y = −X.
80 2.4. Integral de Riemann-Stieltjes

Ejercicio. Demuestre que si X = 0 c.s., entonces E(X) = 0. ◦

2.4. Integral de Riemann-Stieltjes

En esta sección se define la integral de Riemann-Stieltjes. Esta es una inte-

gral de la forma
Z b
h(x) dF (x),
a
en donde las funciones h(x) y F (x) deben cumplir ciertas condiciones pa-
ra que la integral tenga sentido y esté bien definida. Esta integral es una
generalización de la integral usual de Riemann. Al integrando h(x) se le
pide inicialmente que sea una función acotada en el intervalo (a, b], aun-
que después se omitirá esta condición. A la función integradora F (x) se le
pide que sea continua por la derecha, monótona no decreciente y tal que
F (∞) − F (−∞) < M , para algún número M > 0. Observe que F (x) debe
cumplir propiedades semejantes a las de una función de distribución, y de
hecho la notación es la misma. Esto no es coincidencia pues usaremos las
funciones de distribución como funciones integradoras.

Presentamos a continuación la definición de la integral de Riemann-Stieltjes

bajo las condiciones arriba señaladas. En [15] puede encontrarse una expo-
sición más completa y rigurosa de esta integral. Sea {a = x0 < x1 < · · · <
xn = b} una partición finita del intervalo (a, b], y defina

h(xi ) = sup {h(x) : xi−1 < x ≤ xi },

y h(xi ) = ı́nf {h(x) : xi−1 < x ≤ xi }.
Capı́tulo 2. Variables aleatorias 81

Se define la suma superior e inferior de Riemann-Stieltjes como sigue

n
X
Sn = h̄(xi ) [ F (xi ) − F (xi−1 ) ],
i=1
Xn
y Sn = h(xi ) [ F (xi ) − F (xi−1 ) ].
i=1

Ahora se toma el lı́mite cuando n tiende a infinito de tal forma que la

longitud máx{|xi − xi−1 | : 1 ≤ i ≤ n} tienda a cero. Si sucede que

−∞ < lı́m S n = lı́m S n < ∞,

n→∞ n→∞

entonces a este valor común se le llama la integral de Riemann-Stieltjes de

la función h(x) respecto de la función F (x) sobre el intervalo (a, b], y se le
denota por
Z b
h(x) dF (x),
a
Cuando la función h(x) no es acotada se hace uso de la función auxiliar

 −N
 si h(x) < −N,
hN (x) = h(x) si |h(x)| ≤ N,


N si h(x) > N.

Y entonces se define
Z b Z b
h(x) dF (x) = lı́m hN (x) dF (x),
a N →∞ a

cuando este lı́mite existe. Se puede extender la definición de esta integral

de la siguiente forma
Z ∞ Z b
h(x) dF (x) = lı́m h(x) dF (x),
−∞ a,b→∞ a

cuando el lı́mite del lado derecho exista y esté bien definido.

82 2.4. Integral de Riemann-Stieltjes

La integral de Riemann-Stieltjes tiene varias propiedades semejantes a la

integral de Riemann, enunciaremos a continuación algunas de ellas. Prime-
ramente es lineal tanto en el integrando como en el integrador, es decir, si
α es constante, entonces
Z b Z b Z b
a) (αh1 (x) + h2 (x)) dF (x) = α h1 (x) dF (x) + h2 (x) dF (x).
a a a
Z b Z b Z b
b) h(x) d(αF1 (x) + F2 (x)) = α h(x) dF1 (x) + h(x) dF2 (x).
a a a

Cuando h(x) tiene primera derivada continua se cumple la fórmula

Z b Z b
c) h(x) dF (x) = h(b)F (b) − h(a)F (a) − F (x)h′ (x) dx.
a a

De particular importancia en la teorı́a de la probabilidad son los siguientes

dos casos particulares. Cuando F (x) es diferenciable se tiene la igualdad
Z b Z b
d) h(x) dF (x) = h(x)F ′ (x) dx.
a a

Es decir, integrar respecto de una función de distribución absolutamente

continua se reduce a efectuar una integral de Riemann. El otro caso in-
teresante ocurre cuando h(x) es continua y F (x) es constante excepto en
los puntos x1 , x2 , . . ., en donde la función tiene saltos positivos de tamaño
p(x1 ), p(x2 ), . . . respectivamente. En este caso y suponiendo convergencia,

Z b ∞
X
e) h(x) dF (x) = h(xi ) p(xi ).
a i=1

Esto significa que integrar respecto de la función de distribución de una

variable aleatoria discreta se reduce a efectuar una suma. Finalmente enun-
ciamos la propiedad que ilustra el hecho de que la integral de Riemann es
Capı́tulo 2. Variables aleatorias 83

un caso particular de la integral de Riemann-Stieltjes. Cuando F (x) = x se

cumple
Z b Z b
f) h(x) dF (x) = h(x) dx.
a a

En la siguiente sección usaremos las funciones de distribución como fun-

ciones integradoras. Como toda función de distribución F (x) se puede des-
componer en una suma convexa αF d (x) + (1 − α)F c (x), en donde F d (x) es
discreta y F c (x) es continua, entonces
Z b Z b Z b
d
h(x) dF (x) = α h(x) dF (x) + (1 − α) h(x) dF c (x).
a a a

En algunos casos usaremos también la integral de Riemann-Stieltjes en va-

rias dimensiones con definición análoga al caso dimensional, es decir, sean
h(x, y) y F (x, y) funciones de dos variables, sea {a = x0 < x1 < · · · < xn =
b} una partición de (a, b] y sea {c = y0 < y1 < · · · < ym = d} una partición
de (c, d], entonces se define
Z bZ d n X
X m
h(x, y) dF (x, y) = lı́m h(xi , yj ) ∆F (xi , yj ),
a c n,m
i=1 j=1

en donde ∆F (xi , yj ) es el “incremento” de F en el rectángulo (xi−1 , xi ] ×

(yj−1 , yj ]. Por ahora no es claro cómo definir este incremento pero retomare-
mos este concepto una vez que se haya definido a la función de distribución
en dimensiones mayores.

2.5. Caracterı́sticas numéricas

Se estudian a continuación algunas caracterı́sticas numéricas asociadas a

variables aleatorias. En particular, se definen los conceptos de esperanza,
varianza y más generalmente los momentos de una variable aleatoria. Para
ello haremos uso de la integral de Riemann-Stieltjes mencionada antes.
84 2.5. Caracterı́sticas numéricas

Esperanza

La esperanza de una variable aleatoria es un número que representa el pro-

medio ponderado de sus posibles valores, se calcula como se indica a conti-
nuación.

Definición. (Esperanza). Sea X con función de distribución F (x).

La esperanza de X, denotada por E(X), se define como el número
Z ∞
E(X) = x dF (x),
−∞

cuando
R∞ esta integral sea absolutamente convergente, es decir, cuando
−∞ |x| dF (x) < ∞, y en tal caso se dice que X es integrable, o que
tiene esperanza finita.

A la esperanza se le conoce también con el nombre de media, valor esperado,

valor promedio o valor medio, y en general se usa la letra griega µ (mu) para
denotarla. En la teorı́a de la medida [5] [14] [28] se define la esperanza de una
variable aleatoria o función medible X mediante una integral más general
llamada integral de Lebesgue, y se denota por
Z
X(ω) dP (ω).
Ω

En algunas ocasiones usaremos esta expresión para tener compatibilidad en

notación con la teorı́a general.

Cuando X es discreta con función de probabilidad

P f (x), su esperanza, si
existe, se calcula como sigue E(X) = x xf (x). Si X es absolutamente
continua Rcon función de densidad f (x), entonces su esperanza, si existe, es
∞
E(X) = −∞ xf (x) dx.

Ejemplos.
a) Sea X con valores en el conjunto {1, 2, . . .}, y con función de
Pprobabilidad
∞
f (x) = P (X = x) = 1/2x, para x ≥ 1. Entonces E(X) = x=1 xf (x) =
Capı́tulo 2. Variables aleatorias 85

P∞ x
x=1 x/2 = 2.
b) Sea X continua con función de densidad f (x) = 2x, para 0 < x < 1. Entonces
R∞ R1
E(X) = −∞ xf (x) dx = 0 x 2x dx = 2/3.

La integral o suma arriba mencionados pueden no existir y en ese caso se

dice que la variable aleatoria no tiene esperanza finita. El siguiente ejercicio
contiene un par de ejemplos que ilustran esta situación. Véase también el
ejercicio 152.

Ejercicio. Demuestre que no existe la esperanza de X cuando su función de

probabilidad o de densidad es
1
a) f (x) = , para x = 1, 2, . . .
x(x + 1)
b) f (x) = 1/x2 , para x > 1.

Ejemplo. Sea X una variable aleatoria con función de distribución



 0 si x < 0,

 x/4
 si 0 ≤ x < 1,
F (x) = 2/4 si 1 ≤ x < 2,



 3/4 + x/4 si 2 ≤ x < 3,

1 si x ≥ 3.
La forma de esta función puede apreciarse más fácilmente a través de su gráfica,
la cual se muestra en la Figura 2.9.

De acuerdo a las propiedades de la integral de Riemann-Stieltjes, la esperanza de

X es entonces
Z ∞
E(X) = xdF (x)
−∞
Z 1 Z 3
1 2 1 3 2 1
= x· dx + 1 · ( − ) + 2 · ( − ) + x· dx.
0 4 4 4 4 4 2 4
86 2.5. Caracterı́sticas numéricas

F (x)

1
3/4 b

2/4 b bc

1/4 bc

x
1 2 3
Figura 2.9: Ejemplo de una función de distribución.

Después de algunos cálculos se encuentra que la esperanza es 15/4. Observe la for-

ma mixta en la que esta integral es calculada: en las partes crecientes se calcula
como si fuera una distribución continua, después se añaden los puntos de disconti-
nuidad ponderados por el tamaño del salto. ◦

Con frecuencia surge el problema de calcular esperanzas de funciones de

variables aleatorias, es decir, si X es una variable aleatoria y g : R → R
es una función Borel medible, entonces g(X) es una variable aleatoria y el
problema es encontrar su esperanza. Usando directamente la definición, la
esperanza de g(X) se calcula del siguiente modo:
Z ∞
E[g(X)] = x dFg(X) (x),
−∞

pero ello requiere encontrar primero la distribución de g(X), lo cual puede

no ser fácil en muchos casos. Afortunadamente se cuenta con el siguiente re-
sultado que establece una forma muy conveniente de calcular la esperanza de
g(X), sin conocer su distribución, pero suponiendo conocida la distribución
de X.
Capı́tulo 2. Variables aleatorias 87

Teorema. (Esperanza de una función de una v.a.) Sea X con

función de distribución FX (x), y sea g : R → R una función Borel
medible tal que g(X) tiene esperanza finita. Entonces
Z ∞
E[g(X)] = g(x) dFX (x).
−∞

La demostración de este resultado en general no es sencilla y la omitiremos,

aunque un camino cómodo que puede adoptarse es aceptar la fórmula an-
terior como la definición de la esperanza de g(X). En particular, cuando la
función g es la identidad, se recupera la definición básica de esperanza. Por
otro lado, cuando X es discreta, la demostración del teorema resulta no ser
complicada.

Ejercicio. Sea X una variable aleatoria discreta con valores en el conjunto

{x1 , x2 , . . .}, y sea g : R → R una función Borel medible tal que g(X) tiene
esperanza finita. Demuestre que
∞
X
E[g(X)] = g(xi )P (X = xi ).
i=1

Se establecen a continuación algunas propiedades de la esperanza.

88 2.5. Caracterı́sticas numéricas

Proposición. (Propiedades de la esperanza). Sean X y Y con

esperanza finita, y sea c una constante. Entonces

1. E(c) = c.

2. E(cX) = cE(X).

3. Si X ≥ 0, entonces E(X) ≥ 0.

4. Si X ≤ Y , entonces E(X) ≤ E(Y ).

5. E(X + Y ) = E(X) + E(Y ).

Las demostraciones de las primeras cuatro propiedades son sencillas pues

se siguen directamente de la definición. La última propiedad es fácilmen-
te demostrable en el caso discreto. El caso general será demostrado más
adelante.

Ejercicio. Sean X y Y discretas ambas con esperanza finita. Demuestre direc-

tamente que E(X + Y ) = E(X) + E(Y ). ◦

Proposición. Sea X con función de distribución F (x), la cual admite

la descomposición

F (x) = αF d (x) + (1 − α)F c (x),

en donde α ∈ [0, 1], F d (x) es una función de distribución discreta, y

F c (x) es una función de distribución continua. Sea Xd con distribución
F d (x), y sea Xc con distribución F c (x). Entonces X tiene esperanza
finita si, y sólo si, tanto Xd como Xc tienen esperanza finita, y en tal
caso,
E(X) = αE(Xd ) + (1 − α)E(Xc ).
Capı́tulo 2. Variables aleatorias 89

Este resultado es inmediato de demostrar usando la propiedad de linealidad

de la integral de Riemann-Stieltjes respecto de la función integradora.

Varianza

La varianza de una variable aleatoria es una medida del grado de dispersión

de los diferentes valores tomados por la variable, su definición es la siguiente.

Definición. (Varianza). La varianza de X, denotada por Var(X), se

define como el número no negativo

Var(X) = E (X − E(X))2 ,

cuando esta esperanza existe.

Cuando X es discreta con función de probabilidad f (x) y esperanza P finita

µ, la varianza de X, cuando existe, se calcula como sigue Var(X) = x (x −
µ)2 f (x). Si X es absolutamente continua con función de densidad f (x) y
Resperanza
∞
finita µ, entonces la varianza de X, cuando existe, es Var(X) =
2
−∞ (x − µ) f (x) dx.

La varianza se denota regularmente por el sı́mbolo σ 2 (sigma cuadrada). A

la raı́z cuadrada positiva de Var(X) se le llama desviación estándar, y se le
denota naturalmente por σ. Nuevamente hay casos en los que la varianza
no es finita, y en esa situaciones se dice que la variable aleatoria no tiene
varianza. Observe que para calcular la varianza se necesita conocer primero
la esperanza. Enunciamos a continuación algunas propiedades de la varianza.
90 2.5. Caracterı́sticas numéricas

Proposición. (Propiedades de la varianza). Sean X y Y con va-

rianza finita, y sea c una constante. Entonces

1. Var(X) ≥ 0.

2. Var(c) = 0.

3. Var(c X) = c2 Var(X).

4. Var(X + c) = Var(X).

5. Var(X) = E(X 2 ) − E 2 (X).

6. En general, Var(X + Y ) 6= Var(X) + Var(Y ).

La demostración de estas propiedades es sencilla pues todas ellas, excepto la

última, se siguen directamente de la definición y de la propiedad lineal de la
esperanza. Para la última propiedad puede tomarse Y = X, con Var(X) 6= 0,
y verificarse la no igualdad. Otras propiedades de la varianza aparecen más
adelante.

Ejercicio. Demuestre que Var(X) = E(X(X − 1)) − E(X)(E(X) − 1). ◦

Momentos

Los momentos de una variable aleatoria son números que representan algu-
nas caracterı́sticas de la distribución de probabilidad asociada. Bajo ciertas
condiciones el conjunto de momentos determinan de manera única a la dis-
tribución de probabilidad.
Capı́tulo 2. Variables aleatorias 91

Definición. (Momentos). Sea X una variable aleatoria con esperanza

µ y sea n un número natural. Cuando existe, el número

1. E(X n ) es el n-ésimo momento de X.

2. E|X|n es el n-ésimo momento absoluto de X.

3. E[(X − µ)n ] es el n-ésimo momento central de X.

4. E|X − µ|n es el n-ésimo momento central absoluto de X.

5. E[X(X − 1) · · · (X − n + 1)] es el n-ésimo momento factorial de X.

Observe que el primer momento es la esperanza, y el segundo momento

central es la varianza. En algunos textos al n-ésimo momento se le denota
por µ′n , mientras que el n-ésimo momento central es µn . En el capı́tulo
sobre funciones generadoras se estudian ciertas funciones asociadas a las
distribuciones de probabilidad, y a través de las cuales los momentos de
una variable aleatoria pueden ser encontrados, cuando existen, de manera
más eficiente.

El problema de los momentos consiste en determinar condiciones necesarias

y suficientes para que los momentos de una variable aleatoria determinen de
manera única su distribución de probabilidad. Por ejemplo, puede demos-
trarse que si X es tal que los números E(X), E(X 2 ), . . . son todos finitos y
si se cumple que la serie
∞ n
X t
E(X n )
n!
n=0

es absolutamente convergente para algún t > 0, entonces la sucesión de mo-

mentos determina de manera única a la distribución de X. Las condiciones
mencionadas son suficientes pero no necesarias.
92 2.5. Caracterı́sticas numéricas

Cuantiles

Definición. (Cuantil). Sea p un número real cualquiera en el intervalo

unitario (0, 1). Se le llama cuantil de orden p de una variable aleatoria X
o de su distribución, a cualquier número xp que cumpla las condiciones

P (X ≤ xp ) ≥ p,
y P (X ≥ xp ) ≥ 1 − p.

Es decir, el cuantil de orden p es aquel número que acumula a su izquierda

una probabilidad mayor o igual a p, y al mismo tiempo acumula a su derecha
una probabilidad de por lo menos 1 − p. En general este número no es
necesariamente único. Sin embargo, cuando la correspondiente función de
distribución es estrictamente creciente, se cumple que el cuantil de cualquier
orden es único.

A los cuantiles de orden 1/4, 1/2 y 3/4 se les llama también cuartiles. En
particular al cuantil de orden 1/2 se le llama mediana. Es decir, la mediana
es aquel número m que cumple las desigualdades

P (X ≤ m) ≥ 1/2,
y P (X ≥ m) ≥ 1/2.

La mediana de una variable aleatoria es una medida de tendencia central

que permite dividir en dos partes iguales a la distribución de probabilidad
cuando ésta es continua y estrictamente creciente. Usando el concepto de
mediana ejemplificaremos la posible no unicidad de los cuantiles.

Ejemplo. Sea X es una variable aleatoria discreta tal que P (X = 1) = 1/2, y

P (X = 0) = 1/2. Cualquier número en el intervalo [0, 1] es una mediana de X. ◦
Capı́tulo 2. Variables aleatorias 93

Moda

La moda es otra caracterı́stica numérica de las variables aleatorias, y se

define únicamente para distribuciones discretas o absolutamente continuas
de la siguiente forma.

Definición. (Moda). La moda de una variable aleatoria o de su dis-

tribución, discreta o absolutamente continua, es aquel punto donde la
función de densidad tiene un máximo local.

Por ejemplo, si X es una variable aleatoria discreta con valores x1 < x2 <
x3 < · · · , y con probabilidades respectivas p1 , p2 , p3 , . . ., entonces X tiene
una moda en el punto xk si pk−1 ≤ pk ≥ pk+1 . Es evidente que pueden
existir varias modas para una misma variable aleatoria. Cuando la moda es
única se dice que la distribución es unimodal, y cuando hay varias modas se
dice que es multimodal.

2.6. Distribuciones discretas

En esta sección se estudian algunas distribuciones discretas de probabilidad

de uso común. Estas distribuciones son ejemplos particulares de medidas
de probabilidad concentradas en un conjunto discreto de números reales.
Se presentan estos ejemplos sin hacer mayor énfasis en las aplicaciones de
los modelos. En el Apéndice A, al final del libro, aparecen algunas otras
distribuciones de probabilidad.

Distribución uniforme discreta. La variable X tiene una distribución

uniforme sobre el conjunto {x1 , . . . , xn } si la probabilidad de que X tome
cualquiera de estos valores es 1/n. Esta distribución surge en espacios de
probabilidad equiprobables, esto es, en situaciones en donde se tienen n re-
sultados diferentes y todos ellos tienen la misma probabilidad de ocurrir.
Los juegos de loterı́a justos son un ejemplo donde puede aplicarse esta dis-
94 2.6. Distribuciones discretas

tribución. Se escribe X ∼ unif{x1 , . . . , xn }, y su función de probabilidad

es (
1/n si x = x1 , . . . , xn ,
f (x) =
0 otro caso.

Por ejemplo, la función de probabilidad uniforme sobre el conjunto {1, . . . , 5}

tiene gráfica como en la Figura 2.10.

f (x)
1 b b b b b
5

bc bc bc bc bc
x
1 2 3 4 5
Figura 2.10: Función de probabilidad unif{1, . . . , 5}.

Es fácil ver que, en el caso general,

n
1X
E(X) = xi ,
n
i=1
n
1X
y Var(X) = (xi − E(X))2 .
n
i=1

Distribución Bernoulli. Un ensayo Bernoulli es un experimento alea-

torio con únicamente dos posibles resultados, llamados genéricamente éxito
y fracaso, y con probabilidades respectivas p y 1 − p. Se define la variable
aleatoria X como aquella función que lleva el resultado éxito al número 1,
y el resultado fracaso al número 0. Entonces se dice que X tiene una dis-
tribución Bernoulli con parámetro p ∈ (0, 1). Se escribe X ∼ Ber(p) y la
Capı́tulo 2. Variables aleatorias 95

correspondiente función de probabilidad es


 1−p si x = 0,
f (x) = p si x = 1,

0 otro caso,

cuya gráfica es como en la Figura 2.11.

f (x)

0.7 b

0.3 b

bc bc
x
0 1
Figura 2.11: Función de probabilidad Ber(p) con p =0.7.

Es sencillo verificar que E(X) = p, y Var(X) = p(1 − p). En particular, si A

es un evento con probabilidad p, entonces la función indicadora 1A es una
variable aleatoria con distribución Ber(p).

Distribución binomial. Suponga que se realizan n ensayos independien-

tes Bernoulli en donde la probabilidad de éxito en cada uno de ellos es
p ∈ (0, 1). El espacio muestral de este experimento consiste de todas las
posibles sucesiones de longitud n de éxitos y fracasos. Usando el principio
multiplicativo, es fácil ver que este conjunto tiene 2n elementos. Si ahora se
define la variable aleatoria X como el número de éxitos en cada una de estas
sucesiones, entonces X toma los valores 0, 1, . . . , n, y se dice que X tiene
una distribución binomial con parámetros n y p. Se escribe X ∼ bin(n, p),
y su función de probabilidad es

n
px (1 − p)n−x

 si x = 0, 1, . . . , n,
f (x) = x


0 otro caso.
96 2.6. Distribuciones discretas

Se puede demostrar que E(X) = np, y Var(X) = np(1−p). En las gráficas de

la Figura 2.12 se muestra el comportamiento de esta función de probabilidad.

f (x) f (x)
0.3 b
0.3
b
b

0.2 b
n = 10 0.2 b b
n = 10
b
p = 0.3 p = 0.5
b b
0.1 b
0.1
b b b
b
b b b
bc bc bc bc bc bc bc bc bc bc
x b bc bc bc bc bc bc bc bc bc bc
x
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Figura 2.12: Función de probabilidad bin(n, p).

Distribución geométrica. Suponga que se tiene una sucesión infinita

de ensayos independientes Bernoulli en donde la probabilidad de éxito en
cada uno de ellos es p ∈ (0, 1). Se define X como el número de fracasos
antes de obtener el primer éxito. Se dice entonces que X tiene una distri-
bución geométrica con parámetro p. Se escribe X ∼ geo(p), y su función de
probabilidad es

(
p(1 − p)x si x = 0, 1, . . .
f (x) =
0 otro caso.

Para esta distribución se puede demostrar que E(X) = (1−p)/p, y Var(X) =

(1 − p)/p2 . En algunos textos se define también la distribución geométrica
como el número de ensayos, (y no el de fracasos), antes del primer éxito. En
tal caso, la función de probabilidad es f (x) = p(1 − p)x−1 , para x = 1, 2, . . ..
La media es entonces 1/p y la varianza es como antes.

Distribución Poisson. La variable aleatoria discreta X tiene una distri-

bución Poisson con parámetro λ > 0, y se escribe X ∼ Poisson(λ) si su
función de probabilidad es
Capı́tulo 2. Variables aleatorias 97

f (x)
0.4 b

0.3
b

0.2
b

0.1 b
b
b
b b
bc bc bc bc bc bc bc bc bcb bcb bc
x
1 2 3 4 5 6 7 8 9 10
Figura 2.13: Función de probabilidad geo(p) con p =0.4.

 x
 e−λ λ si x = 0, 1, . . .
f (x) = x!

0 otro caso.

Esta distribución fue descubierta por Simeón Denis Poisson en 1873 como
lı́mite de la distribución binomial, al respecto véase el ejercicio 222. Puede
demostrarse que E(X) = λ, y Var(X) = λ. La gráfica de la función de
probabilidad Poisson se muestra en la Figura 2.14.
f (x)

0.3 b b

0.2 b

0.1 b

b
b
bc bc bc bc bc bc bc bcb bc
x
1 2 3 4 5 6 7 8
Figura 2.14: Función de probabilidad Poisson(λ) con λ = 2.

Distribución binomial negativa. Suponga que se tiene una sucesión

infinita de ensayos independientes Bernoulli en donde la probabilidad de
98 2.6. Distribuciones discretas

éxito en cada ensayo es p ∈ (0, 1). Sea X el número de fracasos antes de

obtener el r-ésimo éxito. Se dice entonces que X tiene una distribución
binomial negativa con parámetros r y p. Se escribe X ∼ bin neg(r, p), y su
función de probabilidad es

r+x−1
pr (1 − p)x

 si x = 0, 1 . . .
f (x) = x


0 otro caso.

Se puede demostrar que E(X) = r(1−p)/p, y Var(X) = r(1−p)/p2 . Es claro

que esta distribución es una generalización de la distribución geométrica, la
cual se obtiene cuando el parámetro r toma el valor 1. Para r = 3 y p =0.2,
la función de probabilidad binomial negativa tiene la forma como en la
Figura 2.15.

f (x)

0.06 b
b
b b
b
b
b
b b
b
b
b
0.04 b
b
b b
b
b
b
0.02 b b
b
b
b
b
b b
b b b b
bc bc bc bc bc bc bc bc bc bc bc bc bc bc bc bc bc bc bc bc bc bc bc bc bc bc bc bc bc bc bc
x
5 10 15 20 25 30
Figura 2.15: Función de probabilidad bin neg(r, p) con r = 3 y p =0.2.

Distribución hipergeométrica. Suponga que se tiene un conjunto de N

objetos de los cuales K son de una primera clase, y N −K son de una segunda
clase. Suponga que de este conjunto se toma una muestra de tamaño n, sin
reemplazo y en donde el orden de los objetos seleccionados no importa.
Se define X como el número de objetos de la primera clase contenidos en
la muestra seleccionada. Entonces X puede tomar los valores 0, 1, . . . , n,
suponiendo n ≤ K. Decimos que X tiene una distribución hipergeométrica
Capı́tulo 2. Variables aleatorias 99

con parámetros N , K y n, se escribe X ∼ hipergeo(N, K, n), y su función

de probabilidad es

   

 
K 
N −K 



 x n−x
   si x = 0, 1, . . . , n,
f (x) = 
N 

 n




 0 otro caso.

La gráfica de esta función se muestra en la Figura 2.16.

f (x)
0.4 b

0.3 N = 20
0.2 K=7
b
n=5
0.1 b

b
bc bc bc bc bc bc
x
0 1 2 3 4 5
Figura 2.16: Función de probabilidad hipergeo(N, K, n).

Es posible comprobar que

K
E(X) = n · ,
N
K N −K N −n
y Var(X) = n · · · .
N N N −1
100 2.7. Distribuciones continuas

2.7. Distribuciones continuas

Ahora se estudian algunas distribuciones de probabilidad de variables alea-

torias absolutamente continuas. Algunas otras distribuciones continuas que
surgen en la estadı́stica serán estudiadas en el Capı́tulo 5.

Distribución uniforme continua. La variable aleatoria X tiene distri-

bución uniforme en el intervalo (a, b) y se escribe X ∼ unif(a, b), cuando su
función de densidad es


1
 si x ∈ (a, b),
f (x) = b−a

0 otro caso.

En este caso es inmediato verificar que E(X) = (a + b)/2, y Var(X) = (b −

a)2 /12. La gráfica de esta función de densidad se muestra en la Figura 2.17
f (x)

1 bc bc

b−a

b b
x
a b

Figura 2.17: Función de densidad unif(a, b).

Distribución exponencial. La variable continua X tiene una distribu-

ción exponencial con parámetro λ > 0 y se escribe X ∼ exp(λ) cuando tiene
función de densidad

(
λe−λx si x > 0,
f (x) =
0 si x ≤ 0.
Capı́tulo 2. Variables aleatorias 101

Para esta distribución es muy sencillo verificar que E(X) = 1/λ, y Var(X) =
1/λ2 . Su gráfica se muestra en la Figura 2.18.

f (x)

λ bc

b
x

Figura 2.18: Función de densidad exp(λ).

Distribución gama. La variable aleatoria continua X tiene distribución

gama con parámetros n > 0 y λ > 0 si su función de densidad es

 n−1
 (λx)

λe−λx si x > 0,
f (x) = Γ(n)


0 si x ≤ 0.

En tal caso se escribe X ∼ gama(n, λ). La gráfica de esta función se muestra

en la Figura 2.19.

El término Γ(n) es la función gama definida como sigue

Z ∞
Γ(n) = tn−1 e−t dt,
0

para valores de n tal que la integral es convergente. Esta función satisface

las siguientes propiedades:

a) Γ(n + 1) = nΓ(n).
102 2.7. Distribuciones continuas

λ=5
f (x) f (x)
λ=4
n=5
λ=3 n=7
n = 10

x x
n=5 λ=3
Figura 2.19: Función de densidad gama(n, λ).

b) Γ(n + 1) = n! para n entero positivo.

c) Γ(2) = Γ(1) = 1.
√
d) Γ(1/2) = π.

Observe que cuando el parámetro n toma el valor 1, la distribución gama(n, λ)

se reduce a la distribución exp(λ). Resolviendo un par de integrales se puede
demostrar que E(X) = n/λ, y Var(X) = n/λ2 .

Nota. La terminologı́a usada para esta distribución no es estándar. En

algunos otros textos aparece como gama(λ, n), es decir, los parámetros son
los mismos pero se presentan en el orden contrario. Puede entonces haber
confusión cuando se escribe por ejemplo gama(2, 3).

Distribución beta. La variable continua X tiene distribución beta con

parámetros a > 0 y b > 0, y se escribe X ∼ beta(a, b) cuando su función de
densidad es

1
xa−1 (1 − x)b−1 si 0 < x < 1,


f (x) = B(a, b)

 0 otro caso.
Capı́tulo 2. Variables aleatorias 103

En la Figura 2.20 se ilustra la forma de esta función para varios valores de

los parámetros.
f (x)
3
a=2 a=6
b=6 b=2
2 a=4
b=4
a=1
1 b=1

b b
x
1
Figura 2.20: Función de densidad beta(a, b).

El término B(a, b) se conoce como la función beta, y se define para a > 0 y

b > 0 como sigue Z 1
B(a, b) = xa−1 (1 − x)b−1 dx.
0
Esta función satisface las siguientes propiedades.

a) B(a, b) = B(b, a).

Γ(a)Γ(b)
b) B(a, b) = .
Γ(a + b)

Para la distribución beta(a, b) se tiene que

a
E(X) = ,
a+b
ab
y Var(X) = .
(a + b + 1)(a + b)2

Distribución normal. Esta es posiblemente la distribución de probabi-

lidad de mayor importancia. Se dice que la variable aleatoria continua X
104 2.7. Distribuciones continuas

tiene una distribución normal o Gausiana si su función de densidad es

1 2 2
f (x) = √ e−(x−µ) /2σ ,
2πσ 2
en donde µ ∈ R y σ 2 > 0 son dos parámetros. En este caso se escribe
X ∼ N(µ, σ 2 ). No es difı́cil demostrar que E(X) = µ, y Var(X) = σ 2 . La
gráfica de la función de densidad normal aparece en la Figura 2.21.

f (x)

x
µ

Figura 2.21: Función de densidad N(µ, σ2 ).

En particular se dice que X tiene una distribución normal estándar si µ = 0

y σ 2 = 1. En este caso particular, la función de densidad se reduce a la
expresión más sencilla
1 2
f (x) = √ e−x /2 .
2π
Es posible transformar una variable aleatoria normal no estándar en una
estándar mediante la siguiente operación llamada estandarización. La de-
mostración de este resultado es elemental y se deja como ejercicio.

X −µ
Proposición. X ∼ N(µ, σ 2 ) ⇐⇒ Z = ∼ N(0, 1).
σ

Ejercicio. Demuestre la proposición anterior. ◦

Comúnmente se usa la letra Z para denotar una variable aleatoria con dis-
tribución normal estándar. En particular la función Φ(x) denota la función
Capı́tulo 2. Variables aleatorias 105

de distribución de una variable aleatoria normal estándar, es decir,

Z x
1 2
Φ(x) = P (Z ≤ x) = √ e−u /2 du.
−∞ 2π

Los valores de esta función no pueden encontrarse de manera explı́cita, asi

es que se usan métodos numéricos para aproximar la integral para distintos
valores de x. En una tabla al final del texto pueden encontrarse estos valores
aproximados.

Φ(x)

x
Figura 2.22: Área cubierta por la función de distribución Φ(x) = P (Z ≤ x).

Distribución log normal. Si X tiene distribución N(µ, σ 2 ), entonces la

variable Y = eX tiene una distribución log normal(µ, σ 2 ), y su función de
densidad es

 √1
 (ln y − µ)2
exp [− ] si y > 0,
f (y) = y 2πσ 2 2σ 2


0 si y ≤ 0.

La gráfica de esta función de densidad se muestra en la Figura 2.23.

Se puede demostrar que

E(Y ) = exp(µ + σ 2 /2),
y Var(Y ) = exp(2µ + 2σ 2 ) − exp(2µ + σ 2 ).

Algunas otras distribuciones continuas de interés se encuentran en el capı́tu-

lo sobre distribuciones muestrales.
106 2.8. Ejercicios

f (y)

0.025

y
5 10 15 20 25
Figura 2.23: Función de densidad log normal(µ, σ2 ) con µ = 3 y σ2 = 2.

2.8. Ejercicios

Variables aleatorias

91. Demuestre que la función identidad X(ω) = ω no es variable aleatoria

cuando Ω = {1, 2, 3} y F = {∅, {1}, {2, 3}, Ω}.

92. Sea Ω = {−1, , 0, 1} y F = {∅, {0}, {−1, 1}, Ω}. Considere la función
identidad X(ω) = ω. Demuestre que X 2 es variable aleatoria pero X
no lo es.

93. Considere el espacio medible (Ω, F ), con F = {∅, Ω}. Demuestre que
la función X : Ω → R es variable aleatoria si, y sólo si, X es constante.

94. Sea (Ω, F ) un espacio medible tal que F = {∅, Ω, A, Ac } con A ⊆ Ω.

Demuestre que toda función medible X : Ω → R es constante en A y
en Ac . Por lo tanto toda función medible respecto de esta σ-álgebra
toma a lo sumo dos valores distintos. El siguiente ejercicio generaliza
este resultado.

95. Sea A1 , . . . , An una partición finita de Ω, y considere el espacio me-

dible (Ω, F ), con F = σ{A1 , . . . , An }. Demuestre que X : Ω → R es
variable aleatoria si, y sólo si, X es constante en cada elemento de la
partición. En consecuencia, X toma a lo sumo n valores distintos.
Capı́tulo 2. Variables aleatorias 107

96. Demuestre que X es variable aleatoria si, y sólo si, (X < x) ∈ F para
cada número real x.

97. Demuestre que X es variable aleatoria si, y sólo si, (X ≥ x) ∈ F para

cada número real x.

98. Demuestre que X es variable aleatoria si, y sólo si, (X > x) ∈ F para
cada número real x.

99. Demuestre que X es variable aleatoria si, y sólo si, (a < X < b) ∈ F
para cada intervalo (a, b) de R.

100. Sea c una constante y X una variable aleatoria. Demuestre directa-

mente que las siguientes funciones también son variables aleatorias:
cX, X + c, máx{X, c}, mı́n{X, c}.

101. Demuestre directamente que la diferencia de dos variables aleatorias

es variable aleatoria.

102. Sea X una variable aleatoria cualquiera. Demuestre que la parte entera
de X, denotada por ⌊X⌋, es una variable aleatoria discreta, es decir,
toma un número numerable de valores.

103. Demuestre que el conjunto de variables aleatorias definidas sobre un

espacio de probabilidad es un espacio vectorial con las operaciones
usuales de suma y producto por escalares.

104. Sean X y Y variables aleatorias. Demuestre directamente que tanto

máx{X, Y } como mı́n{X, Y } son variables aleatorias.

105. Demuestre directamente que si X es variable aleatoria, entonces tam-

bién lo son X n y 2X 3 − 5X.

106. Demuestre que X es variable aleatoria si, y sólo si, tanto X + =

máx{0, X} como X − = − mı́n{0, X}, lo son.

107. Sea A ⊆ Ω. Demuestre que la función indicadora 1A : Ω → R es

variable aleatoria si, y sólo si, el conjunto A es medible. Véase el
108 2.8. Ejercicios

apéndice al final del texto para la definición y algunas propiedades de

la función indicadora.

108. Sean A, B ⊆ Ω. Diga falso o verdadero. Demuestre en cada caso.

a) A, B medibles ⇒ 1A + 1B es v.a.
b) 1A + 1B es v.a. ⇒ A, B son medibles.

109. Sean A, B subconjuntos disjuntos de Ω y sean a, b dos números reales

distintos. Demuestre que

a1A + b1B es v.a. ⇔ A, B son medibles.

Una de estas implicaciones resulta falsa cuando se omite la condición

de que los números a y b son distintos. ¿Cuál de ellas es?

110. Sean A1 , . . . , An subconjuntos disjuntos de Ω, y sean a1 , . . . , an cons-

tantes distintas. Demuestre que
n
X
ai 1Ai es v.a. ⇐⇒ A1 , . . . , An son medibles.
i=1

111. Sean A y B dos eventos, y sean 1A y 1B las correspondientes funciones

indicadoras. Directamente de la definición demuestre que las funciones
1A + 1B , 1A − 1B y 1A · 1B son variables aleatorias.

112. Sean X y Y dos variables aleatorias. Demuestre que los conjuntos

(X ≤ Y ), (X = Y ), (X − Y < 1), (X − Y > 0), (X ≥ Y ) y (X 6= Y )
son eventos.

113. Sean X, Y y Z tres variables aleatorias. Demuestre que los conjuntos

(X ≤ Y ≤ Z), (X = Y = Z) y (X > Y > Z) son eventos.

114. Sea X una variable aleatoria y g : R → R una función Borel medi-

ble. Demuestre que g(X) = g ◦ X : Ω → R es también una variable
aleatoria. Sugerencia: Demuestre que la colección B = {B ∈ B(R) :
Capı́tulo 2. Variables aleatorias 109

g−1 B ∈ B(R)} coincide con B(R) usando los siguientes dos resul-
tados: (1) Dada una función continua de R en R, la imagen inversa
de un conjunto abierto es nuevamente un conjunto abierto. (2) Todo
conjunto abierto de R distinto del vacı́o puede expresarse como una
unión numerable de intervalos abiertos.

115. Sea X una variable aleatoria. Demuestre que las funciones eX , sen X,
y cos X son variables aleatorias.

116. Sea X : Ω → R una función. Proporcione un ejemplo en el que X 2 es

variable aleatoria pero |X| no lo es.

117. Sean X1 , . . . , Xn variables aleatorias. Demuestre que

n
1X
a) X̄ = Xi es v.a.
n
i=1
n
1 X
b) S2 = (Xi − X̄)2 es v.a.
n−1
i=1

118. Sea X una variable aleatoria, y sean a < b dos constantes. Demuestre
que las siguientes funciones son variables aleatorias.

X si X < a,
a) Y =
a si X ≥ a.

 a si X < a,
b) Y = X si a ≤ X ≤ b,

b si X > b, .

X si |X| ≤ a,
c) Y =
0 si |X| > a, suponiendo a > 0.
119. Se define la función signo como sigue

 +1 si x > 0,
signo(x) = −1 si x < 0,

0 si x = 0.
110 2.8. Ejercicios

Demuestre que si X es variable aleatoria, entonces signo(X) también

lo es. ¿Es cierto el recı́proco?

120. Sea (Ω, F , P ) un espacio de probabilidad, y sea X : Ω → R una

función. Demuestre que la colección {X −1 B : B ∈ B(R)} es una sub
σ-álgebra de F si, y sólo si, X es variable aleatoria. A esta colección
se le denota por σ(X), y es la mı́nima σ-álgebra respecto de la cual
X es variable aleatoria.

121. Sea X una variable aleatoria con valores en el conjunto {0, 1, . . .}.
Sea (X)10 el valor de X módulo 10. Demuestre que (X)10 es también
variable aleatoria.

122. Medida de probabilidad inducida. Sean (Ω1 , F1 ) y (Ω2 , F2 ) dos

espacios medibles, y sea X : Ω1 → Ω2 una función medible, es decir,
para cualquier A en F2 se cumple que X −1 A ∈ F1 . Suponga que
P : F1 → [0, 1] es una medida de probabilidad. Demuestre que P ◦
X −1 : F2 → [0, 1] es también una medida de probabilidad. A esta
función se le llama medida de probabilidad inducida por X.

123. Sea c una constante distinta de cero, y sea X una variable aleatoria.
Demuestre o proporcione un contraejemplo.

a) σ(cX) = σ(X).
b) σ(X + c) = σ(X).
c) σ(X) = σ(X 2 ).

Función de distribución

124. Grafique y demuestre que las siguientes funciones son de distribución.

1 − e−x si x > 0,
a) F (x) =
0 si x ≤ 0.

1 − (1 + x)e−x si x > 0,
b) F (x) =
0 si x ≤ 0.
Capı́tulo 2. Variables aleatorias 111


 0 si x < −1,
c) F (x) = (x + 1)/2 si x ∈ [−1, 1],

1 si x > 1.
125. Investigue si las siguientes funciones son de distribución.
2
1 − e−x si x > 0,
a) F (x) =
0 si x ≤ 0.
−1/x
e si x > 0,
b) F (x) =
0 si x ≤ 0.
c) F (x) = ex /(1 + ex ), para x ∈ R.
d) F (x) = ex /(ex + e−x ), para x ∈ R.

126. Sean F (x) y G(x) dos funciones de distribución. Determine si las si-
guientes funciones son de distribución.

a) aF (x) + (1 − a)G(x), con 0 ≤ a ≤ 1.

b) F (x) + G(x).
c) F (x)G(x).
2 G(x)
d) .
1 + F (x)
127. Sea X con la siguiente función de distribución. Grafique F (x) y de-
muestre que es efectivamente una función de distribución. Calcule
además P (X ≤ 4), P (X > 1), P (4 < X < 6) y P (X = 2).

0 si x < 2,
F (x) = 2
1 − 4/x si x ≥ 2.

128. Sea X con función de distribución



 0 si x < 0,

 0.2
 si 0 ≤ x < 1,
F (x) = 0.5 si 1 ≤ x < 3,



 0.9 si 3 ≤ x < 4,

1 si x ≥ 4.
112 2.8. Ejercicios

Grafique F (x) y demuestre que es una función de distribución. Calcule

además P (X ≤ 1), P (X = 1), P (0 < X < 3), P (X = 4) y P (X ≥ 3).

129. En la escuela rusa de probabilidad se define la función de distribución

de una variable aleatoria X como G(x) = P (X < x). Observe el
signo “<” en lugar de “≤”. Demuestre que esta función cumple todas
las propiedades de una función de distribución, excepto que ahora la
continuidad es por la izquierda.

130. Sea F (x) una función de distribución continua. Demuestre que pa-
ra cualquier entero n ≥ 1, las siguientes funciones también son de
distribución.

a) [F (x)]n .
b) 1 − [1 − F (x)]n .

131. Sea X con función de distribución F (x). Diga falso o verdadero, de-
muestre en cada caso. Para todo x ∈ R,

a) F (x) = P (X < x) + P (X = x).

b) 1 − F (x) = P (X ≥ x).
c) 1 − P (X < x) − P (X > x) = P (X = x).
1 1
d) F (x) − P (X = x) = (F (x) + F (x−)).
2 2
132. Encuentre la función de distribución de la variable Y en términos de
la función de distribución de X cuando

a) Y = aX + b, con a, b constantes. f ) Y = X − = − mı́n{0, X}.

b) Y = eX . g) Y = |X|.
c) Y = e−X . h) Y = −X.
d) Y = X 2. i) Y = sen X.
e) Y = X + = máx{0, X}. j) Y = cos X.

133. Sea X con función de distribución FX (x), y sean a < b dos constantes.
Calcule la función de distribución de Y en términos de la función
Capı́tulo 2. Variables aleatorias 113

de distribución de X, y muestre gráficamente el comportamiento de

FY (y) en los puntos a y b.

X si X < a,
a) Y =
a si X ≥ a.

 a si X < a,
b) Y = X si a ≤ X ≤ b,

b si X > b.

X si |X| ≤ a,
c) Y =
0 si |X| > a, con a > 0.

134. Sean F (x) y G(x) dos funciones de distribución continuas y estricta-

mente crecientes. Demuestre que

a) si F (x) ≥ G(x), entonces F −1 (y) ≤ G−1 (y).

b) si X tiene función de distribución F (x), entonces Y = G−1 (F (X))
tiene función de distribución G(x).
c) si F (x) ≥ G(x), entonces existen variables aleatorias X y Y cuyas
funciones de distribución son F (x) y G(x) respectivamente, y son
tales que X ≤ Y . Sugerencia: Use el inciso anterior.

135. Sea X con función de distribución F (x). Demuestre que F (x) es con-
tinua en x = x0 si, y sólo si, P (X = x0 ) = 0.

Tipos de variables aleatorias

136. Encuentre la constante c que hace a f (x) una función de probabilidad.

c
a) f (x) = , para x = 1, 2, . . .
x(x + 1)
b) f (x) = c e−x , para x = 1, 2, . . .
c) f (x) = c/x!, para x = 1, 2, . . .

137. Encuentre la constante c que hace a f (x) una función de densidad.

114 2.8. Ejercicios

a) f (x) = c x2 , para 0 < x < 1.

2
b) f (x) = c xe−2x , para x > 0.
c) f (x) = c x−2 , para x > 1.
c ex
d) f (x) = , para x ∈ R.
(1 + ex )2
e) f (x) = c x(1 − x), para 0 < x < 1.
c
f ) f (x) = √ , para 0 < x < 1.
1 − x2
c
g) f (x) = , para x ∈ R.
1 + x2
138. Demuestre que las siguientes funciones son de densidad. Encuentre
la correspondiente función de distribución y demuestre que ésta es
efectivamente una función de distribución. Grafique ambas funciones.

a) f (x) = 2x, para x ∈ (0, 1).

b) f (x) = 3x2 /2, para x ∈ (−1, 1).
c) f (x) = 1 − x/2, para x ∈ (0, 2).
d) f (x) = 2x/m2 , para x ∈ (0, m), con m > 0.
e) f (x) = 1/(1 − x)2 , para x ∈ (0, 1/2).
f ) f (x) = e|x| /2, para x ∈ R.

139. Demuestre que las siguientes funciones son de distribución. Encuen-

tre la correspondiente función de densidad y compruebe que ésta es
efectivamente una función de densidad. Grafique ambas funciones.

0 si x < 0,
a) F (x) =
1 si x ≥ 0.

 0 si x ≤ 0,
b) F (x) = x si 0 < x < 1,

1 si x ≥ 1.
c) F (x) = ex /(1 + ex ).
Z
1 x −|u|
d) F (x) = e du.
2 −∞
Capı́tulo 2. Variables aleatorias 115

140. Sea f (x) una función de densidad y sea c una constante cualquiera.
Demuestre que f (x + c) es también una función de densidad.
141. Diga falso o verdadero. Demuestre en cada caso.
a) Toda función de densidad es acotada.
b) Toda función de distribución es acotada.
142. Sea X absolutamente continua, y sea Y = aX +b con a y b constantes.
Demuestre que si a 6= 0, entonces
1
fY (y) = fX ((y − b)/a).
|a|

Igualdad de variables aleatorias

143. Demuestre que la igualdad casi segura de variables aleatorias es una

relación de equivalencia. ¿Cumple tal propiedad la igualdad en distri-
bución?
144. Sean X y Y con esperanza finita tales que X = Y c.s. Demuestre que
E(X) = E(Y ).
145. Sea X ≥ 0 tal que E(X) = 0. Demuestre que X = 0 c.s. Sugerencia:
Para cada natural n defina el evento An = (X ≥ 1/n). Compruebe
que E(X) ≥ E(X · 1An ) ≥ P (An )/n. Esto lleva a la conclusión de que
P (An ) = 0 y por lo tanto P (∪∞
n=1 An ) = 0. Ahora compruebe que los
eventos (X > 0) y ∪∞ A
n=1 n coinciden. Alternativamente puede usarse
la desigualdad de Markov.

Integral de Riemann-Stieltjes

146. Sea X una variable aleatoria con función de distribución F , y sea a

cualquier número real. Demuestre que
Z ∞
1{a} (x) dF (x) = P (X = a).
−∞
116 2.8. Ejercicios

147. Sea X una variable aleatoria con función de distribución F , y sea

(a, b) ⊆ R. Demuestre que
Z ∞
1(a,b) (x) dF (x) = P (a < X < b).
−∞

148. Sea F una función de distribución absolutamente continua. Demuestre

que para cualesquiera números naturales n y m,
Z ∞
m
F n (x) dF m (x) = .
−∞ n+m

Esperanza

149. Calcule la esperanza de X cuya función de probabilidad o de densidad

a) f (x) = 1/5, para x = −2, −1, 0, 1, 2.

b) f (x) = e−1 /x!, para x = 0, 1, 2, . . .
c) f (x) = |x|, para −1 < x < 1.
d) f (x) = e−|x| /2, para x ∈ R.

150. Calcule la esperanza de una variable aleatoria cuya función de distri-

bución es
1 − e−x /2 si x > 1,
F (x) =
0 si x ≤ 1.

151. Sean X y Y con esperanza finita, y sea c una constante. Demuestre

que

a) E(c) = c.
b) E(cX) = cE(X).
c) E(X + c) = E(X) + c.
d) Si X ≥ 0, entonces E(X) ≥ 0.
Capı́tulo 2. Variables aleatorias 117

e) Si X ≤ Y , entonces E(X) ≤ E(Y ).

f ) |E(X)| ≤ E|X|.

152. Demuestre que no existe la esperanza de X cuando su función de

probabilidad o de densidad es
3
a) f (x) = , para x ∈ Z \ {0}.
π 2 x2
1
b) f (x) = , para x ∈ R.
π(1 + x2 )
153. La paradoja de San Petersburgo. Un juego consiste en lanzar
una moneda equilibrada repetidas veces hasta que una de las caras,
seleccionada previamente, aparezca por primera vez. Si un jugador
lanza la moneda y requiere de n lanzamientos para que se cumpla la
condición, entonces recibe 2n unidades monetarias. ¿Cuál debe ser el
pago inicial justo para ingresar a este juego?

154. Sea {A1 , A2 , . . .} una colección de eventos que forman una partición
de Ω tal que cada elemento de la partición tiene probabilidad estric-
tamente positiva. Sea X una variable aleatoria discreta con esperanza
finita. Para cualquier evento A con probabilidad positiva defina
X
E(X | A) = xP (X = x | A).
x

∞
X
Demuestre que E(X) = E(X | Ai )P (Ai ).
i=1

155. Sean X y Y con esperanza finita. Demuestre que

a) E(mı́n{X, Y }) ≤ mı́n{E(X), E(Y )} ≤ E(X).

b) E(máx{X, Y }) ≥ máx{E(X), E(Y )} ≥ E(X).

156. Sea X una variable aleatoria con n-ésimo momento finito, y sea a una
constante. Demuestre que E|X − a|n ≤ E|X|n .
118 2.8. Ejercicios

157. Sea X > 0, discreta y con esperanza finita. Demuestre directamente

que E(X)E(1/X) ≥ 1. Este resultado puede ser demostrado usando
la desigualdad de Jensen, pero en este ejercicio se pide obtener el
resultado sin usar dicha desigualdad.

158. Sea X discreta con valores no negativos x1 ≤ x2 ≤ · · · ≤ xk . Demues-

tre que
E(X n+1 )
a) lı́m = xk ,
n→∞ E(X n )
p
b) lı́m n E(X n ) = x1 .
n→∞

159. Sea X discreta con valores 0, 1, . . . y con esperanza finita. Demuestre

que
∞
X ∞
X
E(X) = P (X ≥ n) = P (X > n).
n=1 n=0

Use esta fórmula para demostrar que

a) si X tiene distribución geo(p), entonces E(X) = (1 − p)/p.

b) si X tiene distribución Poisson(λ), entonces E(X) = λ.

160. Sea X ≥ 0 con esperanza finita, y suponga que para algún p ∈ (0, 1),
se cumple la desigualdad P (X ≥ k) ≤ pk , para cada k = 0, 1, . . ..
Demuestre que E(X) ≤ 1/(1 − p).

161. Sea X ≥ 0 con esperanza finita no necesariamente discreta. Para cada

número natural n defina el evento An = (n − 1 ≤ X < n). Demuestre
que
X∞ X∞
(n − 1)1An ≤ X < n1An .
n=1 n=1

Ahora demuestre las desigualdades

∞
X ∞
X
P (X ≥ n) ≤ E(X) < 1 + P (X ≥ n).
n=1 n=1
Capı́tulo 2. Variables aleatorias 119

162. Sea X con función de distribución F (x), y con esperanza finita. De-
muestre que

a) lı́m x[1 − F (x)] = 0.

x→∞
b) lı́m xF (x) = 0.
x→−∞

163. Sea X con función de distribución F (x), y con esperanza finita. De-
muestre que
Z ∞ Z 0
E(X) = [1 − F (x)]dx − F (x)dx.
0 −∞

Gráficamente estas integrales pueden interpretarse como se indica en

la Figura 2.24.
F (x)
1
+

−
x

Figura 2.24: La esperanza como la diferencia de dos áreas.

Use esta fórmula para demostrar que

a) si X tiene distribución exp(λ), entonces E(X) = 1/λ.

b) si X tiene distribución gama(n, λ), entonces E(X) = n/λ.

164. Sea X una variable aleatoria no negativa con función de distribución

continua F (x) y con esperanza finita µ. Demuestre que la siguiente
función es de distribución.
 Z ∞
 1− 1 (1 − F (x)) dx si y > 0,
G(y) = µ y

0 si y ≤ 0.
120 2.8. Ejercicios

Demuestre que la esperanza de esta distribución es 2 E(X 2 )/µ, supo-

niendo que el segundo momento de X es finito.

165. Sea X con función de distribución continua F (x), y con esperanza

finita µ. Demuestre que
Z µ Z ∞
F (x)dx = [1 − F (x)]dx.
−∞ µ

166. Demuestre que la condición E(X) = 0 no implica que X es simétrica

alrededor de cero. Sugerencia: Considere X tal que P (X = −1) = 1/2,
P (X = 0) = 1/8, P (X = 1) = 1/4 y P (X = 2) = 1/8. ¿Puede usted
construir un ejemplo de una distribución continua con esperanza cero,
que no sea simétrica?

167. Calcule la esperanza de una variable aleatoria con función de distribu-

ción continua dada por la siguiente gráfica. Calcule y grafique además
la correspondiente función de densidad.

F (x)
1

1/2

x
−3 −2 −1 1 2 3

168. Calcule la esperanza de una variable aleatoria con función de distri-

bución dada por la siguiente gráfica:
Capı́tulo 2. Variables aleatorias 121

F (x)

1 b

3/4 bc

2/4 b

1/4 b bc

bc
x
1 2 3

Varianza

169. Calcule la varianza de X cuya función de probabilidad o de densidad

a) f (x) = 1/5, para x = −2, −1, 0, 1, 2.

b) f (x) = e−1 /x!, para x = 0, 1, 2, . . .
c) f (x) = |x|, para −1 < x < 1.
d) f (x) = e−|x| /2, para x ∈ R.

170. Sean X y Y con varianza finita y sea c una constante. Demuestre las
siguientes propiedades de la varianza.

a) Var(X) ≥ 0.
b) Var(cX) = c2 Var(X).
c) Var(X + c) = Var(X).
d) Var(X) = E(X 2 ) − E 2 (X).

171. Use la desigualdad de Chebyshev para demostrar que Var(X) = 0 si,

y sólo si, X es constante.

172. Sea X con valores en [a, b]. Demuestre que

a) a ≤ E(X) ≤ b.
b) 0 ≤ Var(X) ≤ (b − a)2 /4.
122 2.8. Ejercicios

173. Minimización del error cuadrático medio. Sea X con segundo

momento finito. A la función g(u) = E[(X − u)2 ] se le conoce como
error cuadrático medio. Demuestre que g(u) se minimiza cuando u =
E(X). En consecuencia, para cualquier valor real de u,

Var(X) ≤ E[(X − u)2 ].

174. Sea X con varianza finita y sea c una constante. Demuestre que

E(X − c)2 = Var(X) + [E(X) − c]2 .

175. Sea X con media µ y varianza σ 2 . Demuestre que E|X − µ| ≤ σ.

Sugerencia: Var(|X − µ|) ≥ 0.

176. Diga falso o verdadero. Demuestre en cada caso.

a) Si X ≤ Y , entonces Var(X) ≤ Var(Y ).

b) Var(X) ≤ E(X 2 ).
c) E 2 (X) ≤ E(X 2 ).

177. Sea X una variable aleatoria con varianza finita, y sea a una constante.
Diga si las siguientes afirmaciones son falsas o verdaderas, demuestre
en cada caso.

a) E(mı́n{X, a}) ≤ E(X) ≤ E(máx{X, a}).

b) Var(mı́n{X, a}) ≤ Var(X) ≤ Var(máx{X, a}).

178. Sean X y Y con varianza finita. Diga si las siguientes desigualdades

son falsas o verdaderas, demuestre en cada caso.

a) Var(mı́n{X, Y }) ≤ Var(X) ≤ Var(máx{X, Y }).

b) Var(X + Y ) ≤ 2 ( Var(X) + Var(Y ) ).
p p p
c) Var(X + Y ) ≤ Var(X) + Var(Y ).

179. Sea X con varianza finita, y sea c una constante cualquiera. Diga si
las siguientes afirmaciones son falsas o verdaderas, demuestre en cada
caso.
Capı́tulo 2. Variables aleatorias 123

a) Var(X + c) = Var(X − c).

b) Var(|X|) ≤ Var(X).
c) Var(|X − c|) ≤ Var(X).

180. Calcule la varianza de una variable aleatoria cuya función de distri-

bución está dada por la siguiente gráfica:

F (x)
1
3/4 b

b bc

bc
1/4
x
−3 −2 −1 1 2 3

181. Sean X y Y independientes y con segundo momento finito. Demuestre

que

Var(XY ) = Var(X) Var(Y ) + E 2 (X) Var(Y ) + E 2 (Y ) Var(X).

182. Sean X y Y con segundo momento finito. Demuestre que

p p p p p
| Var(X) − Var(Y )| ≤ Var(X ± Y ) ≤ Var(X) + Var(Y ).

Momentos

183. Calcule el n-ésimo momento de una variable aleatoria cuya función de

probabilidad o de densidad es

a) f (x) = 1/5, para x = −2, −1, 0, 1, 2.

b) f (x) = e−1 /x!, para x = 0, 1, 2, . . .
c) f (x) = |x|, para −1 < x < 1.
124 2.8. Ejercicios

d) f (x) = e−|x| /2, para x ∈ R.

184. Sea X con n-ésimo momento finito. Demuestre que para cualquier
número natural m ≤ n, se cumple E|X|m ≤ E|X|n . Este resultado
establece que si el n-ésimo momento de una variable aleatoria es fi-
nito, entonces todos los momentos anteriores a n también son finitos.
Sugerencia: |X|m = |X|m · 1(|X|≤1) + |X|m · 1(|X|>1) .

185. Sea X con distribución simétrica alrededor de x = 0, y con cuarto

momento finito. Demuestre que para cualquier número real a,

E(X 4 ) ≤ E(X − a)4 .

186. Sea 1A la función indicadora de un evento A. Demuestre que

a) E(1A ) = E(1nA ) = P (A).

b) Var(1A ) = P (A)(1 − P (A)) ≤ 1/4.

187. Sea X con n-ésimo momento finito. Demuestre que

Z ∞ Z 0
n n−1
E |X| = n x (1 − F (x)) dx + n |x|n−1 F (x) dx.
0 −∞

188. Sea X discreta con valores en el conjunto {0, 1, . . .}, y con segundo
momento finito. Demuestre que
∞
X
2
E(X ) = (2n − 1)P (X ≥ n).
n=1

189. Espacio L1 . Demuestre que el espacio L1 (Ω, F , P ) consistente de

todas las variables aleatorias X tales que E|X| < ∞, es un espacio
vectorial. Para resolver este ejercicio suponga válida la propiedad de
linealidad de la esperanza. Tal propiedad será demostrada más ade-
lante.
Capı́tulo 2. Variables aleatorias 125

190. Desigualdad de Cauchy-Schwarz. Sean X y Y con segundo

momento finito. Demuestre que

E 2 (XY ) ≤ E(X 2 )E(Y 2 ).

Sugerencia: Para cualquier valor real de t, la esperanza de (tX +Y )2 es

no negativa. Desarrolle el cuadrado y encuentre una ecuación cuadráti-
ca en t. ¿Qué puede decir de su discriminante?

191. Espacio L2 . Use la desigualdad de Cauchy-Schwarz para demostrar

que el espacio L2 (Ω, F , P ) consistente de todas las variables aleatorias
X tales que E|X|2 < ∞, es un espacio vectorial.

192. Desigualdad de Jensen. Sea u una función convexa, y sea X una

variable aleatoria con esperanza finita. Demuestre que

u(E(X)) ≤ E(u(X)).

Sugerencia: La función u es convexa si para cada a existe un número

m tal que u(x) ≥ u(a) + (x − a)m, para todo x. Gráficamente,

u(x)

u(a) + (x − a)m

u(a) b

x
a

Alternativamente, una función u es convexa si u(tx + (1 − t)y) ≤

tu(x) + (1 − t)u(y), para cualesquiera par de números x y y dentro
del dominio de definición de u, y para cualquier t en el intervalo [0, 1].
Debe suponerse además que el número tx + (1 − t)y pertenece también
al dominio de definición de la función. Vea el siguiente ejercicio para
algunos ejemplos particulares de funciones convexas.
126 2.8. Ejercicios

193. Sea X con esperanza finita. Use la desigualdad de Jensen para demos-
trar que

a) eE(X) ≤ E(eX ).
b) E 2 (X) ≤ E(X 2 ).
1
c) ≤ E(1/X), suponiendo X > 0.
E(X)
194. Demuestre que si X es una variable aleatoria acotada casi seguramen-
te, es decir, existe k > 0 tal que P (|X| ≤ k) = 1, entonces todos los
momentos de X existen.

195. Sea X una variable aleatoria con función de densidad dada por
(
n/xn+1 si x > 1,
f (x) =
0 otro caso.

Demuestre que esta función es de densidad para cualquier valor natural

del parámetro n. Demuestre además que tal variable aleatoria tiene
momentos finitos de orden 1, 2, . . . , n − 1, pero el n-ésimo momento y
superiores no existen.

196. Desigualdad cr . Demuestre que para cada r > 0,

E |X + Y |r ≤ cr ( E|X|r + E|Y |r ),

en donde
1 si 0 < r ≤ 1,
cr =
2r−1 si r > 1.
Este resultado establece que si X y Y tienen r-ésimo momento abso-
luto finito, entonces X + Y también. Sugerencia: A partir de (1+t)r =
cr (1 + tr ) para t ≥ 0, demuestre que para cualesquiera números reales
x y y,
|x + y|r ≤ cr ( |x|r + |y|r ).
Capı́tulo 2. Variables aleatorias 127

197. Desigualdad de Hölder. Sean r y s dos números reales tales que

r > 1 y 1/r + 1/s = 1. Demuestre que

E |XY | ≤ (E |X|r )1/r · (E|Y |s )1/s .

Sugerencia: Use la desigualdad |xy| ≤ |x|r /r + |y|s /s, válida para

cualesquiera números reales x y y, y para r y s con las condiciones
mencionadas. El caso r = s = 2 corresponde a la desigualdad de
Cauchy-Schwarz.

198. Desigualdad de Minkowski. Demuestre que para r ≥ 1,

E 1/r |X + Y |r ≤ E 1/r |X|r + E 1/r |Y |r .

Sugerencia: E |X + Y |r ≤ E (|X| · |X + Y |r−1 ) + E (|Y | · |X + Y |r−1 ),

ahora use la desigualdad de Hölder.

Cuantiles

199. Calcule los cuartiles de la distribución normal estándar.

200. Calcule los cuartiles de la distribución exponencial de parámetro λ.

201. Minimización del error absoluto medio. A la función g(u) =

E |X − u| se le conoce como error absoluto medio. Demuestre que si
m una mediana de X, entonces para cualquier número real u,

E |X − m| ≤ E |X − u|.

Demuestre además que la igualdad se cumple si, y sólo si, u es cualquier

otra mediana de X.

202. Sea X una variable aleatoria con segundo momento

p finito y sea m una
de sus medianas. Demuestre que |m − E(X)| ≤ 2 Var(X).
128 2.8. Ejercicios

Distribución uniforme discreta

203. Sea X con distribución unif{1, . . . , n}. Demuestre que

a) E(X) = (n + 1)/2.
b) E(X 2 ) = (n + 1)(2n + 1)/6.
c) Var(X) = (n2 − 1)/12.

204. Se escogen al azar y de manera independiente dos números a y b

dentro del conjunto {1, . . . , n}. Demuestre que la probabilidad de que
el cociente a/b sea menor o igual a uno es (n + 1)/2n.

Distribución Bernoulli

205. Compruebe que la función de probabilidad de la distribución Ber(p)

efectivamente lo es. Obtenga además la correspondiente función de
distribución. Grafique ambas funciones.

206. Sea X con distribución Ber(p). Demuestre que E(X n ) = p, para cada
n ≥ 1. En particular, compruebe que Var(X) = p(1 − p).

Distribución binomial

207. Use el teorema del binomio para comprobar que la función de proba-
bilidad de la distribución bin(n, p) efectivamente lo es.

208. Sea X con distribución bin(n, p). Demuestre que

a) E(X) = np.
b) E(X 2 ) = np(1 − p + np).
c) Var(X) = np(1 − p).
d) E(X − np)3 = np(1 − p)(1 − 2p).
e) E(X − np)4 = 3n2 p2 (1 − p)2 + np(1 − p)(1 − 6(1 − p)p).
Capı́tulo 2. Variables aleatorias 129

209. Sea X con distribución bin(n, p). Demuestre que Y = n − X tiene

distribución bin(n, 1 − p).

210. Sea X con distribución bin(n, p). Demuestre que

p n−x
a) P (X = x + 1) = · · P (X = x).
1−p x+1
b) P (X = x − 1) · P (X = x + 1) ≤ P 2 (X = x).

211. Sea X con distribución bin(n, p). Demuestre que

1
a) P (X ∈ {1, 3, 5, . . .}) = (1 − (1 − 2p)n ).
2
1
b) P (X ∈ {0, 2, 4, . . .}) = (1 + (1 − 2p)n ).
2
212. Se lanza una moneda equilibrada 6 veces. Calcule la probabilidad de
que cada cara se obtenga exactamente 3 veces.

Distribución geométrica

213. Compruebe que la función de probabilidad de la distribución geo(p)

efectivamente lo es. Demuestre que la correspondiente función de dis-
tribución es

1 − (1 − p)⌊x⌋+1 si x ≥ 0,
F (x) =
0 si x < 0.

La expresión ⌊x⌋ denota la parte entera de x.

214. Sea X con distribución geo(p). Demuestre que

a) E(X) = (1 − p)/p.
b) Var(X) = (1 − p)/p2 .

215. Sea X con distribución geo(p). Demuestre que P (X ≥ n) = (1 − p)n .

Use este resultado y la fórmula del ejercicio 159 en la página 118 para
demostrar que E(X) = (1 − p)/p.
130 2.8. Ejercicios

216. La distribución geométrica no tiene memoria. Sea X con dis-

tribución geo(p). Demuestre que para cualesquiera x, y = 0, 1, . . .

P (X ≥ x + y | X ≥ x) = P (X ≥ y).

Esta es la única distribución discreta con tal propiedad, al respecto

ver el siguiente ejercicio.

217. Sea X una variable aleatoria discreta con valores en {0, 1, . . .} y tal
que para cualquier x, y = 0, 1, . . ., se cumple la igualdad

P (X ≥ x + y | X ≥ x) = P (X ≥ y).

Demuestre que existe un número p ∈ (0, 1) tal que X tiene distribución

geo(p).

Distribución Poisson

218. Compruebe que la función de probabilidad de la distribución Poisson(λ)

efectivamente lo es.

219. Sea X con distribución Poisson(λ). Demuestre que

a) E(X) = λ.
b) E(X 2 ) = λ(λ + 1).
c) Var(X) = λ.
d) E(X 3 ) = λE(X + 1)2 .

220. Sea X con distribución Poisson(λ). Demuestre que

λ
a) P (X = x + 1) = · P (X = x).
x+1
b) P (X = x − 1) · P (X = x + 1) ≤ P 2 (X = x).

221. Sea X con distribución Poisson(λ). Demuestre que

Capı́tulo 2. Variables aleatorias 131

1
a) P (X ∈ {1, 3, 5, . . .}) = (1 − e−2λ ).
2
1
b) P (X ∈ {0, 2, 4, . . .}) = (1 + e−2λ ).
2
222. Teorema de Poisson (Convergencia de la dist. binomial a la
dist. Poisson). Para cada entero positivo n, sea Xn con distribución
bin(n, λ/n) con λ > 0. Demuestre que para cada k = 0, 1, . . .

λk
lı́m P (Xn = k) = e−λ .
n→∞ k!

Distribución binomial negativa

223. Compruebe que la función de probabilidad de la distribución bin neg(r, p)

efectivamente lo es.

224. Sea X con distribución bin neg(r, p). Demuestre que

a) E(X) = r(1 − p)/p.

b) Var(X) = r(1 − p)/p2 .

225. Convergencia de la dist. binomial negativa a la dist. Pois-

son. Sea X1 , X2 , . . . una sucesión de variables tal que cada una de
ellas tiene distribución bin neg(n, p) con p = n/(λ + n) para algún
λ > 0. Demuestre que para cada k = 0, 1, . . .

λk
lı́m P (Xn = k) = e−λ .
n→∞ k!

Distribución hipergeométrica

226. Compruebe que la función de probabilidad de la distribución hipergeo(N, K, n)

efectivamente lo es.
132 2.8. Ejercicios

227. Convergencia de la dist. hipergeométrica a la dist. bino-

mial. Sea X con distribución hipergeo(N, K, n). Demuestre que cuan-
do N y K tienden a infinito de tal forma que K/N → p, entonces

n
lı́m P (X = x) = px (1 − p)n−x .
N,K→∞ x

Distribución uniforme continua

228. Compruebe que la función de densidad de la distribución unif(a, b)

efectivamente lo es. Calcule además la correspondiente función de dis-
tribución. Grafique ambas funciones.

229. Sea X con distribución unif(a, b). Demuestre que

a) E(X) = (a + b)/2.
bn+1 − an+1
b) E(X n ) = .
(n + 1)(b − a)
c) Var(X) = (b − a)2 /12.

230. Sea X con distribución unif(0, 1). Demuestre que E(X n ) = 1/(n + 1).

231. Sea X con distribución unif(−1, 1). Demuestre que para n = 0, 1, 2, . . .

(
1/n + 1 si n es par,
E(X n ) =
0 si n es impar.

232. Sea X con distribución unif(0, 1). Obtenga la distribución de

a) Y = 10X − 5.
b) Y = 4X(1 − X).

233. Sea X con distribución unif(0, 1) y sea 0 < p < 1. Demuestre que la
variable aleatoria Y = ⌊ln X/ ln(1 − p)⌋ tiene distribución geo(p). La
expresión ⌊x⌋ denota la parte entera de x.
Capı́tulo 2. Variables aleatorias 133

234. Sea X con distribución unif(0, 1). Defina a Y como el primer dı́gito
decimal de X. Demuestre que Y tiene distribución uniforme en el
conjunto {0, 1, . . . , 9}.

Distribución exponencial

235. Compruebe que la función de densidad de la distribución exp(λ) efec-

tivamente lo es. Demuestre que la correspondiente función de distri-
bución es
1 − e−λx si x > 0,
F (x) =
0 si x ≤ 0.
Demuestre además que para cualquier x, y > 0,

F (x + y) − F (y) = F (x)(1 − F (y)).

236. Demuestre que la esperanza de la distribución exp(λ) es 1/λ, y la

varianza es 1/λ2 .

237. La distribución exponencial no tiene memoria. Sea X con

distribución exp(λ). Demuestre que

P (X ≥ x + y | X ≥ x) = P (X ≥ y).

La distribución exponencial es la única distribución absolutamente

continua que satisface esta propiedad, al respecto ver el siguiente ejer-
cicio.

238. Sea X una variable aleatoria absolutamente continua con valores en

el intervalo (0, ∞), y tal que para cualesquiera x, y > 0 se cumple

P (X ≥ x + y | X ≥ x) = P (X ≥ y).

Demuestre que existe una constante λ > 0 tal que X tiene distribución
exp(λ).
134 2.8. Ejercicios

239. Sea X una variable aleatoria con función de distribución continua

F (x), estrictamente creciente y tal que 0 < F (x) < 1. Demuestre que
la variable aleatoria Y = − ln F (X) tiene distribución exponencial con
parámetro λ = 1.

240. Sea a > 0. Demuestre que si X se distribuye exp(λ), entonces aX se

distribuye exp(λ/a).

241. Se dice que la variable X tiene una distribución exponencial bilateral

(o exponencial doble) con parámetro λ > 0 si su función de densidad
es
1
f (x) = λe−λ|x| , para x ∈ R.
2
Demuestre que la esperanza de esta distribución es cero, y la varianza
es 2/λ2 .

242. Sea X una variable aleatoria con distribución exponencial de paráme-

tro λ, y sea a una constante positiva. Calcule la esperanza y varianza
de la variable mı́n{X, a}.

Distribución gama

243. Compruebe que la función de densidad de la distribución gama(n, λ)

efectivamente lo es. Verifique además que esta distribución se reduce
a la distribución exp(λ) cuando n = 1.

244. Sea a > 0. Demuestre que si X se distribuye gama(n, λ), entonces aX

se distribuye gama(n, λ/a).

245. Sea X con distribución gama(n, λ). Demuestre que la función de dis-
tribución de X es
 n−1
 X (λx)k
e−λx

1− si x > 0,
F (x) = k!

 k=0
0 si x ≤ 0.
Capı́tulo 2. Variables aleatorias 135

246. Sea X con distribución gama(n, λ). Demuestre que

a) E(X) = n/λ.
Γ(m + n)
b) E(X m ) = m , para m = 0, 1, . . .
λ Γ(n)
c) Var(X) = n/λ2 .

247. Recuerde que la función gama se define para cada valor de n tal que
la siguiente integral es convergente
Z ∞
Γ(n) = tn−1 e−t dt.
0

Demuestre que esta función cumple las siguientes propiedades.

a) Γ(n + 1) = nΓ(n).
b) Γ(n + 1) = n! para n entero.
c) Γ(2) = Γ(1) = 1.
√
d) Γ(1/2) = π.
1 · 3 · 5 · · · (2n − 1) √
e) Γ(n + 1/2) = π para n entero.
2n

Distribución beta

248. Compruebe que la función de densidad de la distribución beta(a, b)

efectivamente lo es. Verifique además que esta distribución se reduce
a la distribución unif(0, 1) cuando a = b = 1.

249. Sea X con distribución beta(a, b). Demuestre que

a
a) E(X) = .
a+b
B(a + n, b)
b) E(X n ) = .
B(a, b)
ab
c) Var(X) = .
(a + b + 1)(a + b)2
136 2.8. Ejercicios

250. Sea X con distribución beta(a, b). Demuestre que

E(X)(1 − E(X))
a) a = E(X) [ − 1 ].
Var(X)
E(X)(1 − E(X))
b) b = (1 − E(X)) [ − 1 ].
Var(X)
E(X)(1 − E(X))
c) a + b = − 1.
Var(X)
251. Recuerde que la función beta se define para cada a, b > 0 de la forma
Z 1
B(a, b) = xa−1 (1 − x)b−1 dx.
0

Demuestre que esta función cumple las siguientes propiedades.

a) B(a, b) = B(b, a).

b) B(a, b) = Γ(a)Γ(b)/Γ(a + b).
c) B(a, 1) = 1/a.
d) B(1, b) = 1/b.
a
e) B(a + 1, b) = B(a, b + 1).
b
a
f ) B(a + 1, b) = B(a, b).
a+b
b
g) B(a, b + 1) = B(a, b).
a+b
h) B(1/2, 1/2) = π.

252. Sea X con distribución beta(1/2, 1/2). En este caso se dice que X
tiene una distribución arcoseno.

a) Calcule y grafique f (x).

b) Demuestre directamente que f (x) es una función de densidad.
c) Demuestre directamente que E(X) = 1/2, y Var(X) = 1/8.
Capı́tulo 2. Variables aleatorias 137

253. Sea X con distribución beta(a, b). Demuestre que para a > 0 y b = 1,

 0 si x ≤ 0,
F (x) = xa si 0 < x < 1,

1 si x ≥ 1.

254. Sea X con distribución beta(a, b). Demuestre que para a = 1 y b > 0,

 0 si x ≤ 0,
F (x) = b
1 − (1 − x) si 0 < x < 1,

1 si x ≥ 1.

255. Demuestre que X tiene distribución beta(a, b) si, y sólo si, 1 − X tiene
distribución beta(b, a).

Distribución normal

256. Demuestre que la función de densidad de la distribución N(µ, σ 2 )

a) es efectivamente una función de densidad.

b) es simétrica respecto de x = µ.
c) alcanza su máximo en x = µ.
d) tiene puntos de inflexión en x = µ ± σ.

257. Sea X con distribución N(µ, σ 2 ). Demuestre que E(X) = µ y Var(X) =

σ2 .

258. Sea X con distribución N(µ, σ 2 ). Demuestre que para cada n = 0, 1, 2, . . .

n 1 · 3 · 5 · · · (n − 1)σ n si n es par,
E|X − µ| =
0 si n es impar.

259. Sea X con distribución N(µ, σ 2 ). Demuestre que

a) P (µ − σ < X < µ + σ) = 0.68269.

138 2.8. Ejercicios

b) P (µ − 2σ < X < µ + 2σ) = 0.9545.

c) P (µ − 3σ < X < µ + 3σ) = 0.9973.
260. Sea X con distribución normal estándar. Demuestre que para cada
n = 0, 1, . . .

 n!
n n/2
si n es par,
E(X ) = 2 (n/2)!

0 si n es impar.

261. Sea X con distribución N(µ, σ 2 ). Demuestre que Y = aX + b, con

a 6= 0, tiene una distribución normal. Encuentre los parámetros co-
rrespondientes.
262. Sea X con distribución N(µ, σ 2 ). Demuestre que la variable aleatoria
−X también tiene una distribución normal. Encuentre los parámetros
correspondientes.
263. Sea X con distribución normal estándar. Demuestre que X 2 tiene
una distribución χ2 (1). Recı́procamente,
√ ¿Será cierto que si Y tiene
2
distribución, χ (1) entonces Y tiene distribución N(0, 1)?
264. Encuentre la función de densidad de la variable aleatoria |X|, cuando
X tiene distribución normal estándar.
265. El cociente de Mills. Sea φ(x) la función de densidad de la dis-
tribución normal estándar, y sea Φ(x) la correspondiente función de
distribución. Demuestre que
a) φ′ (x) + xφ(x) = 0.
1 1 1 − Φ(x) 1 1 3
b) − < < − 3 + 5, para x > 0.
x x3 φ(x) x x x

Distribución log normal

266. Demuestre que la función de densidad de una distribución log normal(µ, σ 2 )

efectivamente lo es.
Capı́tulo 2. Variables aleatorias 139

267. Sea X con distribución log normal(µ, σ 2 ). Demuestre que

a) E(X) = exp(µ + σ 2 /2).

b) Var(X) = exp(2µ + 2σ 2 ) − exp(2µ + σ 2 ).
c) E(ln X) = µ.
d) Var(ln X) = σ 2 .
Capı́tulo 3

Vectores aleatorios

En este capı́tulo se extiende el concepto de variable aleatoria con valores

reales a variables aleatorias con valores en Rn . Se estudian además algunos
conceptos importantes relacionados. Recuerde que hemos supuesto que se
tiene siempre como elemento base un espacio de probabilidad (Ω, F , P ).

3.1. Vectores aleatorios

Definición. (Vector aleatorio). Un vector aleatorio es una función

X : Ω → Rn tal que para cualquier conjunto B en B(Rn ), se cumple
que X −1 B es un elemento de F .

Todo vector aleatorio se puede representar en la forma X = (X1 , . . . , Xn )

en donde cada coordenada es una función de Ω en R.

Se demuestra a continuación que la condición que aparece en la definición

anterior es equivalente a solicitar que cada coordenada del vector sea una
variable aleatoria.

141
142 3.1. Vectores aleatorios

(X1 , . . . , Xn )

b b

ω (X1 (ω), . . . , Xn (ω))

Ω Rn

Figura 3.1: Un vector aleatorio es una función de Ω en Rn .

Proposición. Una función (X1 , . . . , Xn ) : Ω → Rn es un vector aleato-

rio si, y sólo si, cada coordenada es una variable aleatoria.

Demostración. Sea (X1 , . . . , Xn ) un vector aleatorio. Entonces la imagen

inversa de cualquier conjunto de Borel de Rn es un elemento de la σ-álge-
bra del espacio de probabilidad. En particular, la imagen inversa del con-
junto B × Ω × · · · × Ω pertenece a F , para cualquier Boreliano B de R.
Pero esta imagen inversa es simplemente X1−1 B. Esto demuestra que X1
es variable aleatoria. De manera análoga se procede con las otras coor-
denadas del vector. Suponga ahora que cada coordenada de una función
(X1 , . . . , Xn ) : Ω → Rn es una variable aleatoria. Considere la colección
B = {B ∈ B(Rn ) : (X1 , . . . , Xn )−1 B ∈ F }. Como cada coordenada es una
variable aleatoria, los conjuntos de Borel de Rn de la forma B1 × · · · × Bn ,
en donde cada factor de este producto es un Boreliano de R, es un elemento
de la colección B. Entonces

B(R) × · · · × B(R) ⊆ B ⊆ B(Rn ).

Es fácil demostrar que la colección B es una σ-álgebra. Asi que

σ(B(R) × · · · × B(R)) ⊆ B ⊆ B(Rn ).

Pero ambos extremos de esta ecuación coinciden. De modo que B = B(Rn ),

y por lo tanto la función (X1 , . . . , Xn ) es un vector aleatorio.
Capı́tulo 3. Vectores aleatorios 143

En consecuencia, es correcto definir un vector aleatorio simplemente como

un vector de variables aleatorias. Puede demostrarse que existe un espacio
de probabilidad en donde el vector aleatorio esta definido.

Para simplificar la escritura donde sea posible se usan únicamente vectores

aleatorios bidimensionales, esto es, de la forma (X, Y ). En la mayorı́a de los
casos, las definiciones y resultados son fácilmente extendidos a dimensiones
mayores. Por ejemplo, el siguiente resultado es análogo al caso unidimensio-
nal. Un vector aleatorio (X, Y ) : Ω → R2 genera el espacio de probabilidad
(R2 , B(R2 ), PX,Y ), en donde B(R2 ) es la σ-álgebra de conjuntos de Borel
de R2 , y PX,Y es una medida de probabilidad definida sobre esta σ-álgebra,
e inducida por el vector aleatorio de la siguiente forma. Para cualquier B
en B(R2 ),
PX,Y (B) = P ((X, Y )−1 B).
Nuestro objetivo es estudiar estas nuevas medidas de probabilidad, o equi-
valentemente, los vectores aleatorios que las generan. En la mayorı́a de los
casos sólo consideraremos vectores aleatorios como los que se definen a con-
tinuación.

Definición. (Vector discreto y continuo). Se dice que el vector

(X, Y ) es discreto si cada coordenada es una variable aleatoria discreta,
y se dice que es continuo en caso de que cada coordenada lo sea.

3.2. Distribución conjunta

Como en el caso de variables aleatorias, todo vector aleatorio induce una

medida de probabilidad, ahora sobre Rn . Esta medida de probabilidad pue-
de estudiarse, de manera equivalente, mediante la función de distribución
conjunta definida a continuación.
144 3.2. Distribución conjunta

Definición. (Función de distribución conjunta). La función de

distribución de un vector (X, Y ), denotada por F (x, y) : R2 → [0, 1], se
define como sigue

F (x, y) = P (X ≤ x, Y ≤ y).

El número F (x, y) es entonces la probabilidad de que el vector aleatorio

tome algún valor en la región (−∞, x] × (−∞, y], la cual se muestra en la
Figura 3.2.

b
(x, y)

Figura 3.2: El número F (x, y) = P (X ≤ x, Y ≤ y) es la probabilidad de que el

vector (X, Y ) tome un valor en la región sombreada.

En palabras, la función F (x, y) es la probabilidad de que X sea menor o

igual a x, y al mismo tiempo Y sea menor o igual a y, esto es simplemente la
probabilidad del evento (X ≤ x)∩ (Y ≤ y). A la función F (x, y) se le conoce
también como función de distribución bivariada de X y Y , y en general a la
distribución conjunta de un vector aleatorio de cualquier dimensión finita se
le llama distribución multivariada. Naturalmente, en el caso unidimensional,
la distribución se llama univariada. Cuando sea necesario especificarlo se
escribe FX,Y (x, y) en lugar de F (x, y), y es evidente la forma de extender
la definición para el caso de vectores aleatorios de más de dos coordenadas.
Con el fin de mantener la notación simple, en la medida de lo posible se
mantiene la correspondencia de las letras, es decir, x es un valor asociado a
X, y y esta asociada a Y .
Capı́tulo 3. Vectores aleatorios 145

Las funciones de distribución conjunta satisfacen propiedades semejantes al

caso unidimensional, se estudian a continuación algunas de ellas.

Proposición. Toda función de distribución conjunta F (x, y) satisface

las siguientes propiedades.

1. lı́m F (x, y) = 1, ambas variables.

x,y→∞

2. lı́m F (x, y) = 0, alguna de las variables.

x,y→−∞

3. F (x, y) es no decreciente en cada variable.

4. F (x, y) es continua por la derecha en cada variable.

5. Si a1 < b1 y a2 < b2 , entonces

F (b1 , b2 ) − F (a1 , b2 ) − F (b1 , a2 ) + F (a1 , a2 ) ≥ 0.

La demostración de las propiedades (1) a (4) es completamente análoga al

caso unidimensional y por tanto la omitiremos. Respecto a la propiedad (5)
observe que la expresión

F (b1 , b2 ) − F (a1 , b2 ) − F (b1 , a2 ) + F (a1 , a2 )

corresponde a la probabilidad del evento (a1 < X ≤ b1 , a2 < Y ≤ b2 ). De

modo que (5) se traduce simplemente en solicitar que la probabilidad de
que (X, Y ) tome valores en el rectángulo (a1 , b1 ] × (a2 , b2 ], sea no negativa.
Este rectángulo se muestra en la Figura 3.3.

Ejercicio. Grafique y demuestre que la siguiente función es de distribución.

(
(1 − e−x )(1 − e−y ) si x, y > 0,
F (x, y) =
0 otro caso.

◦
146 3.2. Distribución conjunta

b2 bc b

a2 bc bc

a1 b1
Figura 3.3: La probabilidad asociada al rectángulo (a1 , b1 ] × (a2 , b2 ] es P (a1 <
X ≤ b1 , a2 < Y ≤ b2 ) = F (b1 , b2 ) − F (a1 , b2 ) − F (b1 , a2 ) + F (a1 , a2 ).

A diferencia del caso unidimensional, las propiedades (1) a (4) no son su-
ficientes para asegurar que una función F (x, y) asigna probabilidad no ne-
gativa a cualquier rectángulo. El siguiente ejercicio muestra un ejemplo de
esta situación. Véase también el ejercicio 271.

Ejercicio. Grafique y demuestre que la siguiente función no es de distribución.

(
0 si x + y < 0,
F (x, y) =
1 si x + y ≥ 0.

Este es un ejemplo de una función que tiene el comportamiento lı́mite adecuado en

infinito, es continua por la derecha y no decreciente en cada variable, pero no es
función de distribución pues asigna valores negativos a algunas regiones del plano.
Por ejemplo calcule la probabilidad del cuadrado (−1, 1] × (−1, 1]. ◦

Definición. (Función de distribución conjunta). Una función

cualquiera F (x, y) : R2 → [0, 1], no necesariamente definida en términos
de un vector aleatorio, es una función de distribución conjunta si cumple
con las cinco propiedades enunciadas en la proposición anterior.

Más adelante se mostrarán otros ejemplos concretos de funciones de distri-

bución conjunta.
Capı́tulo 3. Vectores aleatorios 147

Para tres dimensiones se tiene la siguiente definición. Se dice que F (x1 , x2 , x3 ) :

R3 → [0, 1] es una función de distribución si cumple las primeras cuatro pro-
piedades anteriores y la quinta se reemplaza por la siguiente condición: Para
cualesquiera números reales a1 < b1 , a2 < b2 , y a3 < b3 ,

F (b1 , b2 , b3 ) − F (a1 , b2 , b3 ) − F (b1 , a2 , b3 ) − F (b1 , b2 , a3 )

+F (a1 , a2 , b3 ) + F (a1 , b2 , a3 ) + F (b1 , a2 , a3 )
−F (a1 , a2 , a3 ) ≥ 0.

Se puede demostrar que el lado izquierdo de esta desigualdad corresponde a

la probabilidad del evento (a1 < X1 ≤ b1 , a2 < X2 ≤ b2 , a3 < X3 ≤ b3 ), es
decir, se trata de la probabilidad de que el vector aleatorio tome algún valor
dentro del paralelepı́pedo que se muestra en la Figura 3.4. La condición
anterior establece entonces que este número debe ser mayor o igual a cero.
z
b3
bc
bc

a3 b

bc
bc

a2
b2
a1 y
b1
x

Figura 3.4: Región (a1 , b1 ] × (a2 , b2 ] × (a3 , b3 ].

Más generalmente, se tiene la siguiente definición.

148 3.3. Densidad conjunta

Definición. (Función de distribución conjunta). Una función

F : Rn → [0, 1] es una función de distribución si cumple las prime-
ras cuatro propiedades anteriores y, adicionalmente, para cualesquiera
números reales a1 < b1 , a2 < b2 , . . ., an < bn ,
X
(−1)#a F (x1 , . . . , xn ) ≥ 0,
xi ∈{ai ,bi }

en donde #a es el número de veces que alguna de las variables xi toma

el valor ai en la evaluación de la función F .

Nuevamente la suma que aparece en esta definición corresponde a la pro-

babilidad del evento (a1 < X1 ≤ b1 , . . . , an < Xn ≤ bn ), y la condición
requiere simplemente que este número sea no negativo.

Finalmente enunciamos un resultado que establece la importancia de la fun-

ción de distribución, y cuya demostración puede ser encontrada por ejemplo
en [19]. La prueba no es sencilla pero es análoga al caso unidimensional.

Proposición. Sea F : Rn → [0, 1] una función de distribución. Entonces

existe un espacio de probabilidad, y un vector aleatorio, cuya función de
distribución es F .

Es decir, este resultado garantiza la existencia de un espacio de probabilidad

(Ω, F , P ) en donde se encuentra definido un vector aleatorio (X1 , . . . , Xn )
con función de distribución la especificada. En lo que resta del capı́tulo
hablaremos de vectores aleatorios suponiendo que existe un espacio de pro-
babilidad base asociado.

3.3. Densidad conjunta

Como en el caso unidimensional, algunos vectores tienen asociada otra fun-

ción llamada de probabilidad o de densidad, y la cual se define a continua-
Capı́tulo 3. Vectores aleatorios 149

ción.

Definición. (Función de probabilidad conjunta). La función de

probabilidad de un vector discreto (X, Y ) es la función f (x, y) : R2 →
[0, 1] dada por
f (x, y) = P (X = x, Y = y).
A esta función también se le llama función de probabilidad conjunta de
las variables X y Y .

Es evidente que la función de probabilidad de un vector discreto cumple las

siguientes propiedades.

a) f (x, y) ≥ 0.
XX
b) f (x, y) = 1.
x y

Recı́procamente, toda función no negativa f (x, y) : R2 → [0, 1] que sea es-

trictamente positiva únicamente en un subconjunto discreto de R2 y que
sume uno, se llama función de probabilidad conjunta. La definición de fun-
ción de probabilidad en el caso discreto multidimensional es evidente. Es
claro también que la correspondiente función de distribución se calcula de
la siguiente forma:
X X
F (x, y) = P (X ≤ x, Y ≤ y) = f (u, v).
u≤x v≤y

Ejemplo. La función f (x, y) = 1/4, para x, y = 1, 2, es una función de proba-

bilidad conjunta pues es no negativa y suma uno, corresponde a la distribución
uniforme sobre el conjunto {1, 2} × {1, 2}. La gráfica se muestra en la Figura 3.5.
150 3.3. Densidad conjunta

f (x, y)

1/4 b
b

b
b

2 y
1

1
2
x
Figura 3.5: Función de probabilidad f (x, y) = 1/4, para x, y = 1, 2.

La correspondiente función de distribución es



 0 si x < 1 ó y < 1,

X X  1/4
 si 1 ≤ x < 2, 1 ≤ y < 2,
F (x, y) = f (u, v) = 2/4 si 1 ≤ x < 2, y ≥ 2,

u≤x v≤y 

 2/4 si x ≥ 2, 1 ≤ y < 2,

1 si x ≥ 2 y y ≥ 2,

cuya gráfica se encuentra en la Figura 3.6.

Ejemplo. La función definida por f (x, y) = (1/2)x+y para x, y ∈ N, e idéntica-

mente cero fuera de este conjunto discreto, es una función de probabilidad bivariada
pues es no negativa y suma uno. En efecto,
∞ ∞ ∞
X X 1 X 1 2
f (x, y) = =( ) = 1.
x,y=1 x,y=1
2x+y x=1
2 x

Para el caso de vectores continuos se tiene la siguiente definición.

Capı́tulo 3. Vectores aleatorios 151

F (x, y)

2 x
1
1 2

Figura 3.6: Ejemplo de función de distribución discreta.

Definición. (Función de densidad conjunta). Sea (X, Y ) un vec-

tor continuo con función de distribución F (x, y). Se dice que (X, Y ) es
absolutamente continuo si existe una función no negativa e integrable
f (x, y) : R2 → [0, ∞), tal que, para todo (x, y) en R2 , se cumple la
igualdad Z Z
x y
F (x, y) = f (u, v) dv du.
−∞ −∞

A la función f (x, y) se le denota por fX,Y (x, y), y se le llama función de

densidad conjunta de X y Y .

Ası́ como en el caso unidimensional, no existe realmente unicidad para la

función de densidad pues basta modificarla en algunos puntos para ser dis-
tinta pero seguir cumpliendo la igualdad anterior, sin embargo la función
de distribución y por tanto las probabilidades, permanecen sin cambio al-
guno. Es claro que la función de densidad conjunta f (x, y) de un vector
absolutamente continuo cumple las siguientes propiedades.

a) f (x, y) ≥ 0.
152 3.3. Densidad conjunta

Z ∞ Z ∞
b) f (x, y) dx dy = 1.
−∞ −∞

Recı́procamente, toda función no negativa f : R2 → [0, ∞), que integre

uno, se llama función de densidad conjunta. En particular, cuando f (x, y)
es continua,
∂2
f (x, y) = F (x, y).
∂y∂x

Observe que, en el caso absolutamente continuo y conociendo la función de

densidad conjunta, la probabilidad del evento (a ≤ X ≤ b, c ≤ Y ≤ d)
no cambia si se incluyen o se excluyen los extremos de cada intervalo, y se
calcula como la integral doble que se ilustra en la Figura 3.7.
f (x, y)

y
c d
Z b Z d
P (a ≤ X ≤ b, c ≤ Y ≤ d) = f (x, y) dy dx
a c
a
b
x

Figura 3.7: La probabilidad como el volumen bajo una superficie.

Ejemplo. La función f : R2 → [0, ∞) dada por la siguiente expresión es una

función de densidad pues es no negativa e integra uno.

(
1/4 si x, y ∈ [0, 2],
f (x, y) =
0 otro caso.
Capı́tulo 3. Vectores aleatorios 153

Esta función de densidad conjunta corresponde a la distribución uniforme del vector

(X, Y ) en el cuadrado [0, 2] × [0, 2]. La gráfica se muestra en la Figura 3.8.

f (x, y)

1/4

y
2

x
Figura 3.8: Función de densidad f (x, y) = 1/4, para x, y ∈ [0, 2].

Calculando la doble integral para los distintos valores de x y y, se encuentra que

la función de distribución conjunta es la siguiente.
Z x Z y
F (x, y) = f (u, v)dvdu
−∞ −∞

 0 si x < 0 ó y < 0,





 xy/4 si 0 ≤ x, y ≤ 2,

= x/2 si 0 ≤ x ≤ 2, y ≥ 2,





 y/2 si 0 ≤ y ≤ 2, x ≥ 2,


1 si x ≥ 2 y y ≥ 2.

Cuya gráfica aparece en la Figura 3.9.

◦
154 3.4. Distribución marginal

F (x, y)

2 x

Figura 3.9: Ejemplo de función de distribución continua bivariada.

Ejercicio. Demuestre que la siguiente función es de densidad.

(
x+y si 0 < x, y < 1,
f (x, y) =
0 otro caso.

Encuentre la correspondiente función de distribución y grafique ambas funciones.

Calcule además P (1/3 < X < 1, 0 < Y < 1/2), P (Y > X) y P (X > 1/2). ◦

3.4. Distribución marginal

Dada la función de distribución F (x, y) de un vector aleatorio (X, Y ), es

posible obtener la función de distribución de cada variable aleatoria por
separado mediante el siguiente procedimiento.
Capı́tulo 3. Vectores aleatorios 155

Definición. (Función de distribución marginal). Sea (X, Y ) un

vector con función de distribución F (x, y). A la función

F (x) = lı́m F (x, y)

y→∞

se le conoce como la función de distribución marginal de X. Análoga-

mente se define la función de distribución marginal de Y como

F (y) = lı́m F (x, y).

x→∞

No es difı́cil verificar que las funciones de distribución marginales son efec-

tivamente funciones de distribución univariadas. En el caso de vectores de
dimensión mayor, se puede obtener la distribución marginal de cualquier
subconjunto de variables aleatorios del vector original.

Ejercicio. Encuentre las funciones de distribución marginales del vector (X, Y )

cuya función de distribución es


 0 si x < 0 ó y < 0,

 2 3


 3x y/5 + 2xy /5 si 0 ≤ x < 1 y 0 ≤ y < 1,
2
F (x, y) = 3x /5 + 2x/5 si 0 ≤ x < 1 y y ≥ 1,

 3


 3y/5 + 2y /5 si x ≥ 1 y 0 ≤ y < 1,


1 si X ≥ 1 y y ≥ 1.
◦

Para el caso de funciones de densidad conjunta, se pueden obtener las fun-

ciones de densidad individuales como indica la siguiente definición.
156 3.4. Distribución marginal

Definición. (Función de densidad marginal). Sea (X, Y ) un vector

absolutamente continuo con función de densidad f (x, y). A la función
Z ∞
f (x) = f (x, y) dy
−∞

se le conoce como la función de densidad marginal de X. Análogamente

se define la función de densidad marginal de Y como
Z ∞
f (y) = f (x, y) dx.
−∞

Si (X, Y ) es un vector discreto la integral se reemplaza por una suma.

Tampoco es difı́cil comprobar que las funciones de densidad marginales son

efectivamente funciones de densidad univariadas. Las dos definiciones an-
teriores pueden extenderse de manera evidente cuando se tenga un vector
aleatorio de cualquier dimensión finita. También es posible calcular las fun-
ciones de densidad y de distribución de (X, Y ) a partir, por ejemplo, de las
funciones correspondientes del vector (X, Y, Z).

Ejercicio. Calcule las funciones de densidad marginales del vector aleatorio dis-
creto (X, Y ) cuya función de probabilidad esta dada por la siguiente tabla.

x\y 1 2 3
−1 1/45 2/45 3/45
0 4/45 5/45 6/45
1 7/45 8/45 9/45
◦

Ejercicio. Calcule las funciones de densidad marginales del vector aleatorio con-
tinuo (X, Y ) cuya función de densidad es
(
3(x2 + y 2 )/16 si 0 < x < y < 2,
f (x, y) =
0 otro caso.
Capı́tulo 3. Vectores aleatorios 157

Observe que la distribución conjunta determina de manera única a las distri-

buciones marginales. Sin embargo, si lo que se conoce son las distribuciones
marginales, entonces puede haber varias distribuciones conjuntas que pro-
duzcan las marginales dadas. La forma de producir la distribución conjunta
se llama acoplamiento, y la distribución conjunta obtenida se llama a ve-
ces distribución de acoplamiento o cópula. Dos variables aleatorias X y Y
siempre pueden acoplarse de la forma FX,Y (x, y) = FX (x)FY (y), que es el
caso donde se han hecho independientes una de la otra, pero puede haber
otras formas de hacerlo. En el siguiente ejemplo se muestra una situación
concreta en el caso discreto.

Ejemplo. Sean X y Y discretas ambas con distribución uniforme en el conjunto

{0, 1}, es decir, su distribución de probabilidad es

1/2 si x = 0, 1,
f (x) =
0 otro caso.

Sean a ≥ 0 y b ≥ 0 tales que a + b = 1/2. Entonces la siguiente densidad conjunta

tiene como densidades marginales las especificadas para X y para Y .

x\y 0 1
0 a b
1 b a

Observe que esta densidad conjunta es en realidad toda una familia de densidades
conjuntas que producen las densidades marginales especificadas. En este caso X y
Y son independientes si, y sólo si, a = b = 1/4.

◦
158 3.5. Distribución condicional

3.5. Distribución condicional

La siguiente definición es una extensión del concepto elemental de probabi-

lidad condicional de eventos.

Definición. (Función de densidad condicional). Sea (X, Y ) un

vector con función de densidad fX,Y (x, y), y sea y tal que fY (y) 6= 0. A
la función
fX,Y (x, y)
x 7→ fX|Y (x|y) =
fY (y)
se le conoce como la función de densidad condicional de X dado que Y
toma el valor y.

No es difı́cil comprobar que esta función es efectivamente una función de

densidad, tanto en el caso discreto como en el continuo. Observe que el valor
y permanece fijo y la función es vista como una función de la variable real
x, esto puede observarse en el siguiente ejemplo.

Ejemplo. Considere la función de densidad conjunta

24x(1 − y) si 0 < x < y < 1,
fX,Y (x, y) =
0 otro caso.

Es sencillo comprobar que para cualquier valor fijo de y en el intervalo (0, 1), la
función de densidad condicional de X dado Y es la que aparece más abajo. Es tam-
bién inmediato verificar que esta función, vista como función de x, es de densidad,
el valor de y puede entonces considerarse como un parámetro de la distribución.

2x/y 2 si 0 < x < y,
fX|Y (x|y) =
0 otro caso.

Análogamente puede comprobarse que para cualquier x en (0, 1) fijo,

2(1 − y)/(x − 1)2 si x < y < 1,
fY |X (y|x) =
0 otro caso.
◦
Capı́tulo 3. Vectores aleatorios 159

Se pueden definir también funciones de distribución condicionales de la si-

guiente forma.

Definición. (Función de distribución condicional). Sea (X, Y )

un vector aleatorio absolutamente continuo con función de densidad
fX,Y (x, y), y sea y tal que fY (y) 6= 0. A la función
Z x
x 7→ FX|Y (x|y) = fX|Y (u|y) du
−∞

se le conoce como la función de distribución condicional de X dado que Y

toma el valor y. Cuando el vector aleatorio (X, Y ) es discreto la integral
se substituye por la suma correspondiente.

Nuevamente resulta que la función de distribución condicional es efectiva-

mente una función de distribución. En el caso absolutamente continuo y
suponiendo x 7→ fX|Y (x|y) continua, por el teorema fundamental del cálcu-
lo se tiene que
∂
fX|Y (x|y) = F (x|y).
∂x X|Y

Ejemplo. Considere nuevamente la función de densidad conjunta del ejemplo

anterior, fX,Y (x, y) = 24x(1 − y), para 0 < x < y < 1. Entonces

Z x  0 si ≤ 0,
FX|Y (x|y) = fX|Y (u|y) du = x2 /y 2 si 0 < x < y,
−∞ 
1 si x ≥ y.
◦

Puede también definirse la esperanza condicional de la siguiente forma. Sea

(X, Y ) un vector con función de distribución FX,Y (x, y), y sea y un valor
tal que fY (y) 6= 0. Si X tiene esperanza finita, entonces se define
Z ∞
E(X | Y = y) = x dFX|Y (x|y).
−∞
160 3.6. Independencia

En el siguiente capı́tulo veremos una definición mucho más general de este

concepto.

Ejercicio. Calcule E(X | Y = y) para y = π/4, cuando (X, Y ) es un vector

alsolutamente continuo con función de densidad f (x, y) = (1/2) sen(x + y) para
0 < x, y < π/2.

3.6. Independencia

Podemos ahora definir el importante concepto de independencia de variables

aleatorias. Primero definiremos tal concepto para dos variables aleatorias,
después lo haremos para n variables, y finalmente para una colección arbi-
traria de variables aleatorias.

Definición. (Independencia de dos variables aleatorias). Se

dice que X y Y son independientes, y a menudo se escribe X ⊥ Y , si
para cada par de conjuntos de Borel A, B de R, se cumple la igualdad

P (X ∈ A, Y ∈ B) = P (X ∈ A) · P (X ∈ B). (3.1)

En términos de la siempre existente función de distribución, la independen-

cia de dos variables aleatorias se puede expresar como indica el siguiente
resultado.
Capı́tulo 3. Vectores aleatorios 161

Proposición. (Independencia de dos variables aleatorias). Las

variables aleatorias X y Y son independientes si, y sólo si, para cada
(x, y) en R2 se cumple la igualdad

FX,Y (x, y) = FX (x) · FY (y). (3.2)

Demostración. Si X y Y son independientes, entonces tomando A = (−∞, x]

y B = (−∞, y] en (3.1) se obtiene (3.2). Suponga ahora que se cumple (3.2)
para cualesquiera x y y en R. Defina la colección

A = {A ∈ B(R) : P (X ∈ A, Y ≤ y) = P (X ∈ A) · P (Y ≤ y), ∀ y ∈ R }.

No es difı́cil demostrar que A es una σ-álgebra y usando la hipótesis resulta

que A = B(R). Sea ahora A un elemento cualquiera fijo de B(R). Defina
la colección

B = {B ∈ B(R) : P (X ∈ A, Y ∈ B) = P (X ∈ A) · P (Y ∈ B) }.

Se puede comprobar nuevamente que B es una σ-álgebra, y de hecho B =

B(R). De esta forma, para cualquier A y B en B(R), se cumple la condi-
ción (3.1).

El concepto de independencia de variables aleatorias es una extensión de

la misma propiedad para eventos. Cuando la función de densidad conjunta
existe, la condición de independencia de X y Y es equivalente a solicitar
que para cualesquiera números reales x y y, se cumpla la identidad

fX,Y (x, y) = fX (x) · fY (y). (3.3)

En el caso discreto, la afirmación anterior es completamente correcta. Para

el caso continuo hay una observación técnica que es necesario mencionar.
Como en este caso las funciones de densidad pueden ser modificadas sin
que cambie la función de distribución asociada, la igualdad (3.3) puede
162 3.6. Independencia

no cumplirse para cada (x, y) ∈ R2 , entonces se permite que la igualdad

no se cumpla en un conjunto de medida de Lebesgue cero, por ejemplo, un
conjunto numerable de parejas (x, y) en R2 , y entonces habrá independencia
en el caso continuo si se cumple (3.3), salvo conjuntos de medida de Lebesgue
cero.

Ejemplo. Sea (X, Y ) un vector aleatorio con función de densidad f (x, y) = 4xy,
para 0 ≤ x, y ≤ 1. La gráfica de esta función aparece en la Figura 3.10.
f (x, y)

1
x

Figura 3.10: Función de densidad f (x, y) = 4xy, para 0 ≤ x, y ≤ 1.

La función de densidad marginal de X se calcula de la siguiente forma. Para 0 ≤

x ≤ 1, Z ∞ Z 1
fX (x) = f (x, y)dy = 4xydy = 2x.
−∞ 0

Análogamente fY (y) = 2y para 0 ≤ y ≤ 1. En consecuencia, X y Y son indepen-

dientes pues para cada par (x, y), se cumple fX,Y (x, y) = fX (x) · fY (y). ◦

Ejercicio. Determine si las variables aleatorias continuas X y Y son indepen-

dientes cuando su función de densidad conjunta es
(
3(x2 + y 2 )/32 si 0 < x, y < 2,
fX,Y (x, y) =
0 otro caso.
Capı́tulo 3. Vectores aleatorios 163

El concepto de independencia puede ser extendido claramente al caso de

varias variables aleatorias de la forma siguiente.

Definición. (Independencia de varias variables aleatorias). Se

dice que las variables X1 , . . . , Xn son independientes si para cualesquiera
Borelianos A1 , . . . , An de R, se cumple

P (X1 ∈ A1 , . . . , Xn ∈ An ) = P (X1 ∈ A1 ) · · · P (Xn ∈ An ).

Más aún, una colección infinita de variables aleatorias es independiente

si cualquier subconjunto finito de ella lo es.

Cuando las variables X1 , . . . , Xn son independientes, tomando conjuntos

Borelianos adecuados puede comprobarse que cualquier subconjunto de ellas
también son independientes. El recı́proco, sin embargo, es en general falso,
en el ejercicio 327 se muestra una situación en donde dos cualesquiera de
las variables X, Y, Z son independientes pero no hay independencia de las
tres variables en su conjunto.

Usando un procedimiento similar al caso de dos variables aleatorias, puede

demostrarse que la condición de independencia de n variables aleatorias
es equivalente a solicitar que para cualquier vector (x1 , . . . , xn ) en Rn se
cumpla la igualdad

FX1 ,...,Xn (x1 , . . . , xn ) = FX1 (x1 ) · · · FXn (xn ).

Y en términos de la función de densidad, cuando ésta exista y salvo un

conjunto de medida cero, la condición es

fX1 ,...,Xn (x1 , . . . , xn ) = fX1 (x1 ) · · · fXn (xn ).

164 3.6. Independencia

Proposición. Sean X y Y independientes, y sean g y h dos funciones de

R en R, Borel medibles. Entonces las variables aleatorias g(X) y h(Y )
también son independientes.

Demostración. Sean A y B cualesquiera dos conjuntos de Borel de R. En-

tonces

P ( g(X) ∈ A, h(Y ) ∈ B ) = P ( X ∈ g−1 (A), Y ∈ h−1 (B) )

= P ( X ∈ g−1 (A) ) · P ( Y ∈ h−1 (B) )
= P ( g(X) ∈ A ) · P ( h(Y ) ∈ B ).

Este resultado puede extenderse fácilmente al caso n-dimensional, y de esta

forma obtener que la composición de n funciones Borel medibles aplicadas,
respectivamente, a n variables aleatorias independientes, produce nueva-
mente variables aleatorias independientes.

La definición de independencia de dos variables aleatorias puede extender-

se al caso de dos vectores aleatorios de cualquier dimensión de la forma
siguiente.

Definición. (Independencia de dos vectores aleatorios). Se di-

ce que los vectores X = (X1 , . . . , Xn ) y Y = (Y1 , . . . , Ym ) son indepen-
dientes, si para cada A en B(Rn ), y cada B en B(Rm ), se cumple la
igualdad
P (X ∈ A, Y ∈ B) = P (X ∈ A) · P (Y ∈ B). (3.4)

Naturalmente esta definición puede extenderse un poco más para incluir la

independencia de un número finito de vectores aleatorios no necesariamen-
te todos de la misma dimensión. Y nuevamente, una colección infinita de
Capı́tulo 3. Vectores aleatorios 165

vectores aleatorios es independiente si cualquier subcolección finita de ellos

lo es.

Ejercicio. Demuestre que si los vectores (X1 , . . . , Xn ) y (Y1 , . . . , Ym ) son inde-

pendientes, entonces las variables Xi y Yj son independientes para cualquier posible
valor de los ı́ndices i y j. ◦

3.7. Esperanza de una función de un vector

aleatorio

Si (X, Y ) es un vector aleatorio y ϕ : R2 → R es una función Borel medible,

entonces ϕ(X, Y ) es una variable aleatoria y el problema nuevamente es
encontrar su esperanza. Usando directamente la definición, la esperanza de
ϕ(X, Y ) se calcula del siguiente modo:
Z ∞
E[ϕ(X, Y )] = x dFϕ(X,Y ) (x),
−∞

pero, ası́ como en el caso unidimensional, ello requiere encontrar primero

la distribución de ϕ(X, Y ), lo cual puede ser difı́cil en muchos casos. El
siguiente resultado establece una forma alternativa de calcular la esperanza
de ϕ(X, Y ), sin conocer su distribución, pero conociendo, por supuesto, la
distribución del vector (X, Y ).

Teorema (Esperanza de una función de un vector aleato-

rio). Sea (X, Y ) un vector aleatorio, y sea ϕ : R2 → R una función
Borel medible tal que la variable aleatoria ϕ(X, Y ) tiene esperanza fini-
ta. Entonces
Z
E[ϕ(X, Y )] = ϕ(x, y) dFX,Y (x, y). (3.5)
R2
166 3.7. Esperanza de una función de un vector aleatorio

Nuevamente omitiremos la demostración de este resultado. Observe que se

trata de una integral de Riemann-Stieltjes en dos dimensiones. El “incre-
mento” de F en el rectángulo (xi−1 , xi ] × (yj−1 , yj ] es

F (xi , yj ) − F (xi , yj−1 ) − F (xi−1 , yj ) + F (xi−1 , yj−1 ).

Véase nuevamente la Figura 3.3 para comprobar esta expresión. En el caso

cuando X y Y son independientes, este incremento es

F (xi )F (yj ) − F (xi )F (yj−1 ) − F (xi−1 )F (yj ) + F (xi−1 )F (yj−1 )

= (F (xi ) − F (xi−1 ))(F (yj ) − F (yj−1 ))
= ∆F (xi ) ∆F (yj ),

es decir, la integral bidimensional se separa en dos integrales, y se puede

escribir Z
E[ϕ(X, Y )] = ϕ(x, y) dFX (x) dFY (y).
R2

Cuando el vector (X, Y ) es discreto, la fórmula (3.5) se reduce a

X
E[ϕ(X, Y )] = ϕ(x, y) P (X = x, Y = y),
x,y

en donde la suma se efectúa sobre todos los posibles valores (x, y) del vector.
En este caso la demostración del teorema resulta no muy complicada, y se
pide dar los detalles en el siguiente ejercicio.

Ejercicio. Sea (X, Y ) un vector aleatorio discreto con valores en el conjunto

producto {x1 , x2 , . . .} × {y1 , y2 , . . .}, y sea ϕ : R2 → R una función Borel medible
tal que la variable ϕ(X, Y ) tiene esperanza finita. Demuestre que
∞ X
X ∞
E[ϕ(X, Y )] = ϕ(xi , yj ) P (X = xi , Y = yj ).
i=1 j=1

◦
Capı́tulo 3. Vectores aleatorios 167

En el caso cuando (X, Y ) es absolutamente continuo, la expresión (3.5) se

escribe Z
E[ϕ(X, Y )] = ϕ(x, y) fX,Y (x, y) dxdy.
R2
Con ayuda de este resultado podemos ahora demostrar que la esperanza
separa sumas.

Proposición. Sean X y Y con esperanza finita. Entonces

E(X + Y ) = E(X) + E(Y ).

Demostración. Sean ϕ(x, y) = x + y, ϕ1 (x, y) = x, y ϕ2 (x, y) = y. Entonces

E(X + Y ) = E(ϕ(X, Y ))
Z
= (x + y) dFX,Y (x, y)
2
ZR Z
= x dFX,Y (x, y) + y dFX,Y (x, y)
R2 R2
= E(ϕ1 (X, Y )) + E(ϕ2 (X, Y ))
= E(X) + E(Y ).

Proposición. Sean X y Y independientes, y sean g y h dos funciones

Borel medibles tales que g(X) y h(Y ) tienen esperanza finita. Entonces

E[g(X)h(Y )] = E[g(X)] · E[h(Y )].

En particular, cuando X y Y son independientes,

E(X · Y ) = E(X) · E(Y ).

168 3.8. Covarianza

Demostración.
Z
E[g(X) · h(Y )] = g(x) · h(y) dFX,Y (x, y)
2
ZR
= g(x) · h(y) dFX (x) dFY (y)
R2
= E[g(X)] · E[h(Y )].

Nota. En general, el recı́proco de la afirmación anterior es falso, es decir, la

condición E(XY ) = E(X)E(Y ) no es suficiente para poder concluir que X
y Y son independientes. Por ejemplo, considere el vector aleatorio discreto
(X, Y ) con función de probabilidad

x\y −1 0 1
−1 1/5 0 1/5
0 0 1/5 0
1 1/5 0 1/5

Es sencillo verificar que E(XY ) = E(X)E(Y ) = 0, sin embargo X y Y

no son independientes pues P (X = 0, Y = 0) = 1/5, mientras que P (X =
0)P (Y = 0) = 1/25.

Otros ejemplos de esta misma situación pueden encontrarse en el ejerci-

cio 347 en la página 199.

3.8. Covarianza

En esta sección se define y estudia la covarianza entre dos variables aleato-

rias. Una interpretación de este número, ligeramente modificado, será dada
en la siguiente sección.
Capı́tulo 3. Vectores aleatorios 169

Definición. (Covarianza). La covarianza de X y Y , denotada por

Cov(X, Y ), es el número

Cov(X, Y ) = E [(X − E(X))(Y − E(Y ))] .

Para que la definición anterior tenga sentido es necesario suponer que las
esperanzas E(X), E(Y ) y E(XY ) son finitas. En general cuando se escribe
Cov(X, Y ), se suponen tales condiciones. Se revisan a continuación algunas
propiedades de la covarianza.

Proposición. Sean X y Y variables aleatorias y sea c una constante.

Entonces

1. Cov(X, Y ) = E(XY ) − E(X)E(Y ).

2. Cov(X, Y ) = Cov(Y, X).

3. Cov(X, X) = Var(X).

4. Cov(c, Y ) = 0.

5. Cov(cX, Y ) = c Cov(X, Y ).

6. Cov(X1 + X2 , Y ) = Cov(X1 , Y ) + Cov(X2 , Y ).

7. Si X y Y son independientes, entonces Cov(X, Y ) = 0.

6
8. En general, Cov(X, Y ) = 0 =⇒ X,Y independientes.

Demostración.
170 3.8. Covarianza

1. Por la propiedad de linealidad de la esperanza,

Cov(X, Y ) = E [(X − E(X))(Y − E(Y ))]

= E [XY − Y E(X) − XE(Y ) + E(X)E(Y )]
= E(XY ) − E(X)E(Y ).

2. - 4. Estas propiedades se siguen directamente de la definición.

5. - 6. Esto es consecuencia de la definición y de la linealidad de la esperanza.

7. Esta propiedad se obtiene fácilmente de la primera pues E(XY ) =

E(X)E(Y ) cuando X y Y son independientes.

8. Sea (X, Y ) un vector aleatorio discreto con función de densidad


 1/8 si (x, y) ∈ {(−1, −1), (−1, 1), (1, −1), (1, 1)},
fX,Y (x, y) = 1/2 si (x, y) = (0, 0),

0 otro caso.

Entonces X y Y tienen idénticas densidades marginales,

 
 1/4 si x ∈ {−1, 1},  1/4 si y ∈ {−1, 1},
fX (x) = 1/2 si x = 0, fY (y) = 1/2 si y = 0,
 
0 otro caso. 0 otro caso.

Puede entonces comprobarse que Cov(X, Y ) = E(XY )−E(X)E(Y ) =

0. Sin embargo X y Y no son independientes pues en particular P (X =
0, Y = 0) = 1/2, mientras que P (X = 0)P (Y = 0) = 1/4.

Observe en particular que la covarianza es una función bilineal y simétrica.

Estas propiedades serán usadas más adelante.
Capı́tulo 3. Vectores aleatorios 171

3.9. Coeficiente de correlación

El coeficiente de correlación de dos variables aleatorias es un número real

que mide el grado de dependencia lineal que existe entre ellas. Su definición
es la siguiente.

Definición. (Coeficiente de correlación). El coeficiente de co-

rrelación de las variables aleatorias X y Y , denotado por ρ(X, Y ), es el
número
Cov(X, Y )
ρ(X, Y ) = p .
Var(X) Var(Y )

Naturalmente en esta definición se necesita suponer que las varianzas son

estrictamente positivas y finitas. La interpretación dada al coeficiente de
correlación se justifica a partir de los siguientes resultados.

Proposición. El coeficiente de correlación satisface las siguientes pro-

piedades.

1. Si X y Y son independientes, entonces ρ(X, Y ) = 0.

2. −1 ≤ ρ(X, Y ) ≤ 1.

3. |ρ(X, Y )| = 1 si, y sólo si, existen constantes a y b tales que, con

probabilidad uno, Y = aX + b, con a > 0 si ρ(X, Y ) = 1, y a < 0
si ρ(X, Y ) = −1.

Demostración.

1. Si X y Y son independientes, entonces Cov(X, Y ) = 0, y por lo tanto

ρ(X, Y ) = 0.

2. Suponga primero que X y Y son tales que E(X) = E(Y ) = 0, y

172 3.9. Coeficiente de correlación

Var(X) = Var(Y ) = 1. Para cualquier valor de λ,

0 ≤ Var(X + λY )

= E (X + λY )2 − E 2 [X + λY ]
= 1 + 2λE(XY ) + λ2 .
El caso λ = 1 produce el resultado E(XY ) ≥ −1, mientras que para
λ = −1 se obtiene E(XY ) ≤ 1. Es decir, −1 ≤ E(XY ) ≤ 1. Ahora se
aplica este resultado a las variables aleatorias (X − µX )/σX y (Y −
µY )/σY , que evidentemente son centradas y con varianza unitaria.
Entonces
X − µX Y − µY
−1 ≤ E[ ( )( ) ] ≤ 1.
σX σY
El término de enmedio es ρ(X, Y ).
3. Si X y Y son tales que Y = aX + b con a 6= 0 y b constantes, entonces
Cov(X, aX + b) a
ρ(X, Y ) = p = .
Var(X)Var(aX + b) |a|
Por lo tanto ρ(X, Y ) = 1 cuando a > 0, y ρ(X, Y ) = −1 cuando a < 0.
Inversamente, suponga que X y Y son tales que |ρ(X, Y )| = 1. Defina
U = (X − µX )/σX y V = (Y − µY )/σY . Entonces claramente E(U ) =
E(V ) = 0, y Var(U ) = Var(V ) = 1. Por lo tanto ρ(U, V ) = E(U V ).
Es fácil ver también que |ρ(U, V )| = |ρ(X, Y )| = 1. Si ρ(U, V ) = 1,
entonces
Var(U − V ) = E[(U − V )2 ] − E 2 (U − V )
= E[(U − V )2 ]
= 2[1 − E(U V )]
= 0.
Esto significa que con probabilidad uno, la variable U −V es constante.
Esto es, para alguna constante c, con probabilidad uno, U − V = c.
Pero esta constante c debe ser cero pues E(U − V ) = 0. Por lo tanto,
X − µX Y − µY
= ,
σX σY
Capı́tulo 3. Vectores aleatorios 173

de donde se obtiene Y = µY + (X − µX )σY /σX . Esto establece una

relación lineal directa entre X y Y . En cambio, si ρ(U, V ) = −1,
entonces
Var(U + V ) = E[(U + V )2 ] − E 2 (U + V )
= E[(U + V )2 ]
= 2[1 + E(U V )]
= 0.
Esto significa nuevamente que con probabilidad uno, la variable U + V
es constante. Esto es, para alguna constante c, con probabilidad uno,
U + V = c. Nuevamente la constante c es cero pues E(U + V ) = 0.
Por lo tanto,
X − µX Y − µY
=− ,
σY σY
de donde se obtiene Y = µY − (X − µX )σY /σX . Esto establece una
relación lineal, ahora inversa, entre X y Y . Uniendo los últimos dos
resultados se obtiene que, cuando |ρ(X, Y )| = 1, con probabilidad uno,
σY σY
Y = [ ρ(X, Y ) ] X + [ µY − ρ(X, Y ) µX ].
σX σX

Ejercicio. Sean X y Y independientes e idénticamente distribuidas. Demuestre

que ρ(X + Y, X − Y ) = 0. ◦

Definición. (Correlación positiva, negativa o nula). Cuando

ρ(X, Y ) = 0 se dice que X y Y son no correlacionadas. Cuando
|ρ(X, Y )| = 1 se dice que X y Y están perfectamente correlacionadas
positiva o negativamente, de acuerdo al signo de ρ(X, Y ).

Nuevamente observe que, en general, la condición ρ(X, Y ) = 0 no es sufi-

ciente para poder afirmar que X y Y son independientes. De hecho esto es
consecuencia del mismo resultado para la covarianza.
174 3.9. Coeficiente de correlación

Ejercicio. Sea X una variable aleatoria discreta con distribución uniforme en el

conjunto {−2, −1, 1, 2}, y defina Y = X 2 . Demuestre que el coeficiente de correla-
ción entre X y Y es cero, y sin embargo X y Y no son independientes. ◦

Adicionalmente en los ejercicios 374 y 375 de la página 204 se muestran si-

tuaciones concretas de este mismo resultado tanto en el caso discreto como
en el continuo. Sin embargo, cuando la distribución de (X, Y ) es normal y
ρ(X, Y ) = 0, entonces efectivamente se cumple que X y Y son independien-
tes.

Proposición. Si (X, Y ) es un vector con distribución normal bivariada

tal que ρ(X, Y ) = 0, entonces X y Y son independientes.

Demostración. Como veremos más adelante, la función de densidad normal

bivariada está dada por la siguiente expresión:
1
f (x, y) = p
2πσ1 σ2 1 − ρ2

1 x − µ1 2 x − µ1 y − µ2 y − µ2 2
exp − ( ) − 2ρ( )( ) + ( ) ,
2(1 − ρ2 ) σ1 σ1 σ2 σ2

en donde µ1 = E(X), σ12 = Var(X), µ2 = E(Y ), σ22 = Var(Y ), y ρ ∈ (−1, 1).

Se pueden calcular directamente las funciones de densidad marginales y
comprobar que
1
f (x) = p exp[−(x − µ1 )2 /2σ12 ]
2πσ12
1
y f (y) = p exp[−(y − µ2 )2 /2σ22 ],
2πσ22

es decir, X tiene distribución N (µ1 , σ12 ), y Y tiene distribución N (µ2 , σ22 ).

Después de hacer algunos cálculos sencillos se puede demostrar que el coefi-
ciente de correlación entre X y Y es ρ, y comprobar finalmente que cuando
Capı́tulo 3. Vectores aleatorios 175

este número es cero, se verifica la igualdad fX,Y (x, y) = fX (x)fY (y), para
cualesquiera valores reales de x y y.

En resumen tenemos la siguiente tabla.

Propiedades del coeficiente de correlación

ρ(X, Y ) ∈ [−1, 1].

|ρ(X, Y )| = 1 si, y sólo si, Y = aX + b, con probabilidad uno.
Si X ⊥ Y, entonces ρ(X, Y ) = 0.
6
En general, ρ(X, Y ) = 0 =⇒ X ⊥ Y.
Si (X, Y ) tiene dist. normal y ρ(X, Y ) = 0, entonces X ⊥ Y .
176 3.10. Esperanza y varianza de un vector aleatorio

3.10. Esperanza y varianza de un vector aleatorio

Definición. (Esperanza y varianza de un vector). Sea X el vec-

tor aleatorio (X1 , . . . , Xn ). Cuando cada coordenada del vector tiene
esperanza finita se define la esperanza de X como el vector numérico

E(X) = (E(X1 ), . . . , E(Xn )).

Si cada coordenada tiene segundo momento finito, entonces la varianza

de X se define como la matriz cuadrada
 
Var(X1 ) Cov(X1 , X2 ) · · · Cov(X1 , Xn )
 Cov(X2 , X1 )
 Var(X2 ) · · · Cov(X2 , Xn ) 

Var(X) =  .. .. ..  .
 . . . 
Cov(Xn , X1 ) Cov(Xn , X2 ) · · · Var(Xn ) n×n

La varianza de un vector X puede expresarse como sigue

E (X − E(X))t (X − E(X)) ,

en donde X t significa transpuesta del vector renglón X. Observe que (X −

E(X))t es un vector columna de dimensión n×1, mientras que (X−E(X)) es
un vector renglón de dimensión 1 × n. De modo que el producto de estos dos
vectores, en el orden indicado, resulta en una matriz cuadrada de dimensión
n × n cuya entrada (i, j) es

E[(Xi − E(Xi ))(Xj − E(Xj ))] = Cov(Xi , Xj ).

Esta matriz también se llama matriz de varianzas y covarianzas, y tiene las

siguientes propiedades.
Capı́tulo 3. Vectores aleatorios 177

Proposición. La matriz Var(X) es simétrica y positiva definida. Esto

último significa que para cualquier vector θ = (θ1 , . . . , θn ) de Rn se
cumple la desigualdad
hVar(X)θ, θi ≥ 0,
en donde h·, ·i denota el producto interior usual de Rn .

Demostración. La simetrı́a se sigue de la igualdad Cov(Xi , Xj ) = Cov(Xj , Xi ).

La propiedad de ser positiva definida se obtiene usando la bilinealidad de la
covarianza,
n
X
hVar(X)θ, θi = Cov(Xi , Xj )θi θj
i,j=1
X n
= Cov(θi Xi , θj Xj )
i,j=1
Xn n
X
= Cov( θi Xi , θj Xj )
i=1 j=1
Xn
= Var( θi Xi ) ≥ 0.
i=1

Cuando la matriz de varianzas y covarianzas tiene todos sus elementos estric-

tamente positivos, se puede definir la matriz de coeficientes de correlación

 
ρ(X1 , X1 ) · · · ρ(X1 , Xn )
 .. .. 
 . . 
ρ(Xn , X1 ) · · · ρ(Xn , Xn ) n×n

o también llamada matriz de correlación. Naturalmente esta matriz también

es simétrica y los elementos de la diagonal son todos iguales a uno.
178 3.11. Distribuciones multivariadas discretas

3.11. Distribuciones multivariadas discretas

En esta sección se estudian algunas distribuciones discretas de vectores alea-

torios. Estas distribuciones son ejemplos particulares de medidas de proba-
bilidad sobre Rn , para algún valor natural de n.

Distribución multinomial. Suponga que se tiene un experimento aleato-

rio con k posibles resultados distintos. Las probabilidades para cada uno de
estos resultados son respectivamente p1 , . . . , pk , en donde p1 + · · · + pk = 1.
Ahora suponga que se tienen n ensayos sucesivos independientes del experi-
mento anterior, y defina las variables aleatorias discretas X1 , . . . , Xk , como
aquellas que registran el número de veces que se obtienen cada uno de los
k posibles resultados en los n ensayos. Observe que la última variable Xk
está determinada por las anteriores, de hecho, Xk = n − X1 − · · · − Xk−1 .

Entonces se dice que el vector X = (X1 , . . . , Xk−1 ) tiene una distribución

multinomial(n, p1 , . . . , pk−1 ), y su función de densidad es


n
px1 1 · · · pxk k


 si x1 , . . . , xk = 0, 1, . . . , n
x1 · · · xk
f (x1 , . . . , xk−1 ) = con x1 + · · · + xk = n,



0 otro caso.

Los parámetros de esta distribución son entonces el número de ensayos n,

y las k − 1 probabilidades p1 , . . . , pk−1 . El factor que aparece en paréntesis
en la función de densidad conjunta se conoce como coeficiente multinomial
y se define como sigue

n n!
= .
x1 · · · xk x1 ! · · · xk !

En particular, se dice que el vector (X1 , X2 ) tiene distribución trinomial con

Capı́tulo 3. Vectores aleatorios 179

parámetros (n, p1 , p2 ) si su función de densidad es

n!
f (x1 , x2 ) = px1 px2 (1 − p1 − p2 )n−x1 −x2
x1 ! x2 ! (n − x1 − x2 )! 1 2

para x1 , x2 = 0, 1, . . . , n, tales que x1 + x2 ≤ n.

En el caso general no es difı́cil comprobar que la distribución marginal de la

variable Xi es bin(n, pi ), para i = 1, . . . , k − 1. Puede además demostrarse
que

E(X) = (np1 , . . . , npk−1 ),

npi (1 − pi ) si i = j,
y [Var(X)]ij =
−npi pj 6 j.
si i =

Observe que cuando únicamente hay dos posibles resultados en cada ensa-
yo, es decir k = 2, la distribución multinomial se reduce a la distribución
binomial.

Distribución hipergeométrica multivariada. Suponga que se tienen

N objetos de los cuales N1 son de un primer tipo, N2 son de un segundo tipo
y ası́ sucesivamente con Nk objetos de tipo k. Entonces N1 + · · · + Nk = N .
Suponga que de la totalidad de objetos se obtiene una muestra sin reem-
plazo de tamaño n, y defina la variables X1 , . . . , Xk , como aquellas que
representan el número de objetos seleccionados de cada tipo. Se dice enton-
ces que el vector X = (X1 , . . . , Xk ) tiene una distribución hipergeométrica
multivariada y su función de densidad es

N1 Nk
···
x1 xk
f (x1 , . . . , xk ) =
N
n

en donde cada variable xi toma valores en el conjunto {0, 1, . . . , n} pe-

ro sujeto a la condición xi ≤ Ni , y en donde además debe cumplirse que
180 3.12. Distribuciones multivariadas continuas

x1 + · · · + xk = n. Se dice entonces que el vector (X1 , . . . , Xk ) tiene distribu-

ción hipergeométrica multivariada (N, N1 , . . . , Nk , n). Observe que cuando
únicamente hay dos tipos de objetos, es decir k = 2, la distribución hiper-
geométrica multivariada se reduce a la distribución hipergeométrica univa-
riada. En la sección de ejercicios aparecen expresiones para la esperanza y
varianza de esta distribución.

3.12. Distribuciones multivariadas continuas

Ahora estudiamos algunas distribuciones continuas de vectores aleatorios.

Distribución uniforme bivariada. Se dice que las variables aleatorias

continuas X y Y tienen una distribución conjunta uniforme en el rectángulo
(a, b) × (c, d), si su función de densidad es

 1
 si x ∈ (a, b), y ∈ (c, d),
f (x, y) = (b − a)(d − c)

 0 otro caso.

Se escribe (X, Y ) ∼ unif(a, b) × (c, d). Se puede observar inmediatamente

que las distribuciones marginales son nuevamente uniformes, además X y
Y siempre son independientes. Es fácil también comprobar que E(X, Y ) =
((a + b)/2, (c + d)/2), y que

(b − a)2 /12 0
Var(X, Y ) = .
0 (d − c)2 /12

De manera evidente esta distribución puede extenderse al caso de n dimen-

siones conservándose las mismas propiedades mencionadas.

Distribución normal bivariada. Se dice que las variables aleatorias con-

tinuas X y Y tienen una distribución normal bivariada si su función de
densidad conjunta es
Capı́tulo 3. Vectores aleatorios 181

1
f (x, y) = p
2πσ1 σ2 1 − ρ2

1 x − µ1 2 x − µ1 y − µ2 y − µ2 2
exp − ( ) − 2ρ( )( )+( ) ,
2(1 − ρ2 ) σ2 σ1 σ2 σ2

para cualesquiera valores reales de x y y, y en donde −1 < ρ < 1, σ1 > 0,

σ2 > 0, y µ1 , µ2 son dos constantes reales sin restricción. Se escribe entonces
(X, Y ) ∼ N(µ1 , σ12 , µ2 , σ22 , ρ). Cuando µ1 = µ2 = 0, y σ1 = σ2 = 1, la
distribución se llama normal bivariada estándar, y su gráfica se muestra en
la Figura 3.11 cuando ρ = 0.
f (x, y)

x y

Figura 3.11: Función de densidad normal bivariada estándar.

En el siguiente ejercicio se enuncian algunas propiedades de esta distribu-

ción.

Ejercicio. Sea (X, Y ) un vector con distribución N(µ1 , σ12 , µ2 , σ22 , ρ). Demuestre
que
a) X tiene distribución marginal N(µ1 , σ12 ).
b) Y tiene distribución marginal N(µ2 , σ22 ).
c) ρ(X, Y ) = ρ.
d) X y Y son independientes si, y sólo si, ρ = 0.
182 3.12. Distribuciones multivariadas continuas

e) E(X, Y ) = (µ1 , µ2 ).

σ12 ρσ1 σ2
f) Var(X, Y ) = .
ρσ1 σ2 σ22

Es interesante observar que existen distribuciones bivariadas con densida-

des marginales normales, pero cuya distribución conjunta no lo es. En el
ejercicio 392 en la página 207 se presenta un ejemplo al respecto.

Distribución normal multivariada. Se dice que el vector (X1 , . . . , Xn )

tiene una distribución normal multivariada si su función de densidad es
1 1
f (x) = √ exp [− (x − µ)Σ−1 (x − µ)t ],
(2π)n/2 det Σ 2

en donde x = (x1 , . . . , xn ) y µ = (µ1 , . . . , µn ) son dos vectores de números

reales, Σ es una matriz de dimensión n×n definida positiva, es decir, xΣxt >
0 para cualquier vector x = (x1 , . . . , xn ) de Rn , y Σ−1 es la matriz inversa
de Σ. Como es usual, xt denota el vector transpuesto del vector renglón x.

Cuando n = 1 o n = 2, con Σ adecuada, se obtienen las distribuciones

normal univariada y bivariada mencionadas antes.
Capı́tulo 3. Vectores aleatorios 183

3.13. Ejercicios

Vectores aleatorios

268. Sea (Ω, F , P ) un espacio de probabilidad y sea (X1 , . . . , Xn ) : Ω →

Rn una función tal que cada coordenada es una variable aleatoria.
Demuestre que la siguiente colección es una sub σ-álgebra de B(Rn ).

{B ∈ B(Rn ) : (X1 , . . . , Xn )−1 B ∈ F }.

Distribución conjunta

269. Grafique y demuestre que las siguientes funciones son de distribución.

1 1
a) F (x, y) = (1 − e−x )( + tan−1 y), para x > 0, y ∈ R.
2 π
b) F (x, y) = 1 − e−x − e−y + e−x−y , para x, y > 0.

270. Investigue si las siguientes funciones son de distribución.

a) F (x, y) = 1 − e−xy , para x, y > 0.

b) F (x, y) = 1 − e−x−y , para x, y > 0.

271. Demuestre que la siguiente función no es de distribución.

0 si x + y + z < 0,
F (x, y, z) =
1 si x + y + z ≥ 0.
Extienda este resultado al caso n-dimensional.

272. Demuestre que la siguiente función no es de distribución.

mı́n{1, máx{x, y}} si x, y > 0,
F (x, y) =
0 otro caso.

273. Sean F (x) y G(x) dos funciones de distribución. Demuestre o propor-

cione un contraejemplo para las siguientes afirmaciones.
184 3.13. Ejercicios

a) F (x)G(x) es una función de distribución univariada.

b) F (x)G(y) es una función de distribución bivariada.
c) F n (x) es una función de distribución univariada.
d) F n (x)Gm (y) es una función de distribución bivariada.

274. Diga falso o verdadero. Justifique en cada caso.

a) P (X > x, Y > y) = 1 − P (X ≤ x, Y ≤ y).

b) P (X ≤ x, Y ≤ y) ≤ P (X ≤ x).
c) P (X ≤ x) = P (X ≤ x, Y ≤ x) + P (X ≤ x, Y > x).
d) P (X + Y ≤ x) ≤ P (X ≤ x).
e) P (XY < 0) ≤ P (X < 0).

275. Sean X y Y variables aleatorias con función de distribución conjunta

F (x, y). Demuestre que para cualesquiera números reales a < b y
c < d,

P (a < X ≤ b, c < Y ≤ d) = F (b, d) + F (a, c) − F (a, d) − F (b, c).

276. Sean X1 , X2 y X3 variables aleatorias con función de distribución con-

junta F (x1 , x2 , x3 ). Demuestre que para cualesquiera números reales
a1 < b1 , a2 < b2 y a3 < b3 ,

P (a1 < X1 ≤ b1 , a2 < X2 ≤ b2 , a3 < X3 ≤ b3 )

= F (b1 , b2 , b3 ) − F (a1 , b2 , b3 ) − F (b1 , a2 , b3 ) − F (b1 , b2 , a3 )
+F (a1 , a2 , b3 ) + F (a1 , b2 , a3 ) + F (b1 , a2 , a3 )
−F (a1 , a2 , a3 ).

277. Sea (X, Y ) un vector con función de distribución F (x, y), y con dis-
tribuciones marginales F (x) y F (y), respectivamente. Demuestre que
para todo x y y en R,
p
F (x) + F (y) − 1 ≤ F (x, y) ≤ F (x)F (y).
Capı́tulo 3. Vectores aleatorios 185

278. Cotas de Fréchet. Sea (X, Y ) un vector con función de distribución

F (x, y), y con distribuciones marginales F (x) y F (y), respectivamente.
Demuestre que para todo x y y en R,

máx{F (x) + F (y) − 1, 0} ≤ F (x, y) ≤ mı́n{F (x), F (y)}.

279. Considere el espacio Ω = (0, 1)×(0, 1) junto con la σ-álgebra B((0, 1)×
(0, 1)) y P la medida de probabilidad uniforme sobre Ω. Sea (X, Y ) el
vector aleatorio definido sobre este espacio de probabilidad dado por
X(ω1 , ω2 ) = ω1 ∧ ω2 y Y (ω1 , ω2 ) = ω1 ∨ ω2 . Demuestre que (X, Y ) es
efectivamente un vector aleatorio y encuentre su función de distribu-
ción.

Densidad conjunta

280. Demuestre que la función de densidad de un vector (X, Y ) absoluta-

mente continuo puede ser encontrada, a partir de la función de distri-
bución, de las siguientes formas alternativas:
∂2
a) f (x, y) = P (X > x, Y > y).
∂x∂y
∂2
b) f (x, y) = − P (X ≤ x, Y > y).
∂x∂y
∂2
c) f (x, y) = − P (X > x, Y ≤ y).
∂x∂y
281. Grafique y demuestre que las siguientes funciones son de densidad.
1
a) f (x, y) = , para 0 < x < a, 0 < y < b.
ab
b) f (x, y) = 4xy, para 0 ≤ x, y ≤ 1.
c) f (x, y) = 6x2 y, para 0 ≤ x, y ≤ 1.
d) f (x, y) = 9x2 y 2 /4, para −1 ≤ x, y ≤ 1.
e) f (x, y) = e−x−y , para x, y > 0.
186 3.13. Ejercicios

f ) f (x, y) = e−x , para 0 < y < x.

282. Calcule la constante c que hace a f una función de densidad.

a) f (x) = c x, para 0 ≤ x ≤ 1.
b) f (x, y) = c x, para 0 < y < x < 1.
c) f (x, y) = c (x + y), para 0 ≤ x, y ≤ 1.
d) f (x, y) = c (x2 + 12 xy), para 0 < x < 1, 0 < y < 2.
e) f (x, y, z) = c (x + y + z), para 0 ≤ x, y, z ≤ 1.
f ) f (x1 , . . . , xn ) = c (x1 + · · · + xn ), para 0 ≤ x1 , . . . , xn ≤ 1.

283. Encuentre la función de densidad del vector (X, Y ) cuya función de

distribución es
1 1
a) F (x, y) = (1 − e−x )( + tan−1 y), para x > 0, y ∈ R.
2 π
b) F (x, y) = 1 − e−x − e−y + e−x−y , para x, y > 0.

284. Encuentre la función de distribución del vector (X, Y ) cuya función

de densidad es
1
a) f (x, y) = , para 0 < x < a, 0 < y < b.
ab
b) f (x, y) = e−x−y , para x, y > 0.
c) f (x, y) = e−y , para 0 < x < y.
d) f (x, y) = 2e−x−y , para 0 < x < y.

285. Sean f (x) y g(x) dos funciones de densidad. Demuestre o proporcione

un contraejemplo para las siguientes afirmaciones:

a) f (x)g(x) es una función de densidad univariada.

b) f (x)g(y) es una función de densidad bivariada.

286. Sean X y Y independientes ambas con distribución exp(λ). Encuentre

la función de densidad y de distribución de las variables X ∧Y y X ∨Y ,
cada una de ellas por separado y después de manera conjunta.
Capı́tulo 3. Vectores aleatorios 187

Distribución marginal

287. Suponiendo el caso absolutamente

R ∞ continuo, demuestre que la función
de densidad marginal fX (x) = −∞ fX,Y (x, y) dy es efectivamente una
función de densidad univariada.

288. Demuestre que la función de distribución marginal

x 7→ FX (x) = lı́m FX,Y (x, y)

y→∞

es efectivamente una función de distribución univariada.

289. Encuentre las funciones de distribución marginales del vector (X, Y )

cuya función de distribución es

a) F (x, y) = (1 − e−x )(1 − e−y ), para x, y > 0.

2 2
b) F (x, y) = (1 − e−x )(1 − e−y ), para x, y > 0.

290. Encuentre las funciones de densidad marginales del vector (X, Y ) cuya
función de densidad es
1
a) f (x, y) = , para 0 < x < a, 0 < y < b.
ab
b) f (x, y) = 4xy, para 0 < x, y < 1.
c) f (x, y) = 24x(1 − x − y), para x, y > 0 y x + y < 1.
d) f (x, y) = (x + 2y)/4, para 0 < x < 2 y 0 < y < 1.
e) f (x, y) = 2(4x + y)/5, para 0 < x, y < 1.
f ) f (x, y) = 1/x, para 0 < y < x < 1.

291. Encuentre la constante c que hace a f una función de densidad. En-

cuentre además las funciones de densidad marginales, la función de
distribución conjunta asociada y las funciones de distribución margi-
nales.

a) f (x, y) = c mı́n{x, y} para 0 < x, y < 1.

b) f (x, y) = c máx{x + y − 1, 0} para 0 < x, y < 1.
188 3.13. Ejercicios

292. Sea 0 < a < 1 y defina la función f (x, y) = ax (1 − a)y , para x, y =

1, 2, . . . Demuestre que f (x, y) es una función de densidad y calcule las
funciones de densidad y de distribución marginales. Calcule además
FX,Y (x, y).

293. Sean a y b dos constantes positivas. Calcule las densidades marginales

del vector (X, Y ) con función de densidad uniforme en la región que
aparece a continuación.
y
b

x
−a a

−b

Distribución condicional

294. RDemuestre que la función de distribución condicional x 7→ FX|Y (x|y) =

x
−∞ fX|Y (u|y) du es efectivamente una función de distribución univa-
riada.

295. Demuestre que la función de densidad condicional x 7→ fX|Y (x|y) =

fX,Y (x, y)/fY (y) es efectivamente una función de densidad univariada.
En el caso absolutamente continuo compruebe además que fX|Y (x|y) =
∂/∂x FX|Y (x|y).

296. La distribución exponencial no tiene memoria. Sea X con

distribución exp(λ) y sea t > 0 fijo. Demuestre que la distribución
condicional de X − t, dado que X ≥ t, sigue siendo exp(λ).

297. Calcule las funciones condicionales fX|Y (x|y) y FX|Y (x|y), para las
siguientes funciones de densidad conjunta.
1
a) f (x, y) = , para 0 < x < a, 0 < y < b.
ab
Capı́tulo 3. Vectores aleatorios 189

b) f (x, y) = 4xy, para 0 < x, y < 1.

c) f (x, y) = 24x(1 − x − y), para x, y > 0 y x + y < 1.
d) f (x, y) = (x + 2y)/4, para 0 < x < 2 y 0 < y < 1.
e) f (x, y) = 2(4x + y)/5, para 0 < x, y < 1.
f ) f (x, y) = 1/x, para 0 < y < x < 1.

298. Calcule las funciones condicionales FX | Y (x | y) y fX | Y (x | y), para las

siguientes funciones de distribución conjunta.
1 1
a) F (x, y) = (1 − e−x )( + tan−1 y), para x ≥ 0.
2 π
b) F (x, y) = 1 − e−x − e−y + e−x−y , para x, y ≥ 0.

299. Se hacen tres lanzamientos de una moneda equilibrada cuyos resulta-

dos llamaremos cara y cruz. Sea X la variable que denota el número de
caras que se obtienen en los dos primeros lanzamientos y sea Y la va-
riable que denota el número de cruces en los dos últimos lanzamientos.
Calcule fX,Y (x, y), fX (x), fY (y) y fY |X (y|x) para x = 0, 1, 2.

300. Sea (X, Y ) un vector con función de densidad f (x, y) = (x + y)/8,

para 0 ≤ x, y ≤ 2, con gráfica como se muestra en la siguiente figura.

f (x, y)

2
x

Compruebe que f (x, y) es una función de densidad y calcule

190 3.13. Ejercicios

a) fX (x). h) FX|Y (x|y).

b) fY (y). i) FY |X (y|x).
c) FX,Y (x, y). j) P (Y > X).
d) FX (x). k) P (X > 1 | Y < 1).
e) FY (y). l) P (X > 1).
f) fX|Y (x|y). m) P (X + Y > 1).
g) fY |X (y|x). n) P (|X − Y | > 1).

301. Sea (X, Y ) un vector con función de densidad f (x, y) = 8xy, para
0 < x < y < 1.
Grafique y compruebe que f (x, y) es una función de densidad. Calcule
además

a) fX (x). h) FX|Y (x|y).

b) fY (y). i) FY |X (y|x).
c) FX,Y (x, y). j) P (Y < 1/2, X < 1/2).
d) FX (x). k) P (Y > 1/2 | X > 1/2).
e) FY (y). l) P (XY < 1).
f) fX|Y (x|y). m) P (X + Y < 1).
g) fY |X (y|x). n) P (|X − Y | < 1).

302. Sea (X, Y ) un vector con función de densidad f (x, y) = (x+y) e−x−y /2,
para x, y > 0, cuya gráfica es
Capı́tulo 3. Vectores aleatorios 191

f (x, y)

Compruebe que f (x, y) es una función de densidad y calcule

a) fX (x). h) FX|Y (x|y).

b) fY (y). i) FY |X (y|x).
c) FX,Y (x, y). j) P (0 < X < 1, 0 < Y < 1).
d) FX (x). k) P (Y > 2 | X < 1).
e) FY (y). l) P (XY < 1).
f) fX|Y (x|y). m) P (X + Y > 1).
g) fY |X (y|x). n) P (|X − Y | < 1).
303. Sea (X, Y ) un vector con función de densidad f (x, y) = 4x(1 − y),
para 0 < x, y < 1, cuya gráfica se muestra a continuación.

f (x, y)

1 1
x y
192 3.13. Ejercicios

Compruebe que f (x, y) es efectivamente una función de densidad y

calcule

a) fX (x). h) FX|Y (x|y).

b) fY (y). i) FY |X (y|x).
c) FX,Y (x, y). j) P (X > 1/2).
d) FX (x). k) P (1/4 < Y < 3/4 | X < 1/2).
e) FY (y). l) P (Y > X 2 ).
f) fX|Y (x|y). m) P (2X − Y > 1).
g) fY |X (y|x). n) P (|X − 2Y | < 1).

304. Sea (X, Y ) un vector con función de densidad f (x, y) = 3y, para
0 < x < y < 1. Compruebe que f (x, y) es efectivamente una función
de densidad y calcule

a) P (X + Y < 1/2).
b) fX (x) y fY (y).
c) E(Y ) y E(Y | X = x).

305. Sea (X, Y ) un vector con distribución uniforme en el conjunto {1, . . . , 6}×
{1, . . . , 6}. Calcule

a) P (X = Y ).
b) P (X + Y ≤ 6).
c) fX (x) y fY (y).
d) E(X | X + Y = 6).

306. Sea (X, Y ) un vector con función de densidad dada por la siguiente
tabla
x\y -1 0 1
1 .3 .05 .05
2 .05 .2 .05
3 .1 .1 .1
Calcule
Capı́tulo 3. Vectores aleatorios 193

a) P (X = 2), P (X + Y = 1) y P (Y ≤ X).
b) fX (x) y fY (y).
c) fY | X (y | x) para x = 1, 2, 3.
d) E(Y | X = x) para x = 1, 2, 3.

307. Sean X y Y independientes ambas con distribución exp(λ). Demuestre

que la distribución condicional de X dado que X + Y = u, es uniforme
en el intervalo (0, u).

308. Sean A y B dos eventos con probabilidad positiva y sea X una variable
con esperanza finita. Demuestre o proporcione un contraejemplo.

a) Si A ⊆ B, entonces E(X | A) ≤ E(X | B).

b) E(X | A) ≤ E(X).

Independencia de variables aleatorias

309. Sean X y Y variables aleatorias discretas con valores en los conjuntos

{x1 , x2 , . . .} y {y1 , y2 , . . .}, respectivamente. Demuestre que X y Y son
independientes si, y sólo si, para cualesquiera valores de los ı́ndices
i, j = 1, 2, . . .

P (X = xi , Y = yj ) = P (X = xi ) · P (Y = yj ).

310. Sea (X, Y ) un vector aleatorio absolutamente continuo con función de

densidad fX,Y (x, y). Demuestre que las variables X y Y son indepen-
dientes si, y sólo si, para casi todo par de números x y y se cumple
fX,Y (x, y) = fX (x) · fY (y).

311. Demuestre la variable aleatoria constante es independiente de cual-

quier otra variable aleatoria. Inversamente, suponga que X es inde-
pendiente de cualquier otra variable aleatoria, demuestre que X es
constante.
194 3.13. Ejercicios

312. Demuestre que los eventos A y B son independientes si, y sólo si, las
variables aleatorias indicadoras 1A y 1B lo son.

313. Demuestre que si tres variables aleatorias son independientes, entonces

cualesquiera dos de ellas lo son. Más generalmente, demuestre que
cualquier subconjunto finito de un conjunto de variables aleatorias
independientes también lo es.

314. Sean X1 , . . . , Xn independientes, y sean g1 , . . . , gn : R → R funciones

Borel medibles. Demuestre que las variables g1 (X1 ), . . . , gn (Xn ) son
independientes.

315. Demuestre que las variables aleatorias X1 , . . . , Xn son independientes

si, y sólo si, para cualquier vector (x1 , . . . , xn ) en Rn se cumple

FX1 ,...,Xn (x1 , . . . , xn ) = FX1 (x1 ) · · · FXn (xn ).

316. Sean X1 , . . . , Xn independientes, y sea 1 ≤ k < n. Sean g : Rk → R y

h : Rn−k → R funciones Borel medibles. Demuestre que las variables
aleatorias g(X1 , . . . , Xk ) y h(Xk+1 , . . . , Xn ) son independientes.

317. Sean X y Y dos variables aleatorias independientes. Recuerde las de-

finiciones X + = máx{0, X} y X − = − mı́n{0, X}. Demuestre que
cada uno de los siguientes pares de variables aleatorias también son
independientes.

a) X + y Y + .
b) X + y Y − .
c) X − y Y + .
d) X − y Y − .

318. Determine si las siguientes son funciones de densidad de variables alea-

torias independientes.
1
a) f (x, y) = , para 0 < x < a, 0 < y < b.
ab
b) f (x, y) = 2x, para 0 < x, y < 1.
Capı́tulo 3. Vectores aleatorios 195

c) f (x, y) = 2e−x−y , para 0 < x < y.

d) f (x, y) = e−x−y , para x, y > 0.
e) f (x, y) = 3(x2 + y 2 )/8, para x, y ∈ [−1, 1].

319. Determine si las siguientes son funciones de distribución de variables

aleatorias independientes.

a) F (x, y) = (1 − e−x )(1 − e−y ), para x, y > 0.

2 2
b) F (x, y) = (1 − e−x )(1 − e−y ), para x, y > 0.

320. Demuestre que X y Y son independientes si, y sólo si, cualquiera de

las siguientes condiciones se cumple: Para cada par de números reales
x y y,

a) P (X > x, Y > y) = P (X > x) P (Y > y).

b) P (X ≤ x, Y > y) = P (X ≤ x) P (Y > y).
c) P (X > x, Y ≤ y) = P (X > x) P (Y ≤ y).

321. Demuestre que X y Y son independientes si, y sólo si, para cuales-
quiera números reales a < b y c < d,

P (a < X ≤ b, c < Y ≤ d) = P (a < X ≤ b) · P (c < Y ≤ d).

322. Diga falso o verdadero. Demuestre en cada caso.

a) X, Y independientes ⇒ X, Y 2 independientes.
b) X, Y independientes ⇒ X 2 , Y 2 independientes.
c) X, Y independientes ⇒ X + Y, Y independientes.
d) X, Y independientes ⇒ X + Y, X − Y independientes.
e) X, Y independientes ⇒ XY, Y independientes.
f ) X 2 , Y 2 independientes ⇒ X, Y independientes.
g) X, Y, Z independientes ⇒ X + Y, Z independientes.
h) X, Y, Z independientes ⇒ XY, Z independientes.
196 3.13. Ejercicios

323. Sean X y Y independientes ambas con distribución normal estándar.

Demuestre que Z = aX + bY + c tiene distribución normal cuando
ab 6= 0. Encuentre la esperanza y varianza de Z.

324. Sean X1 , . . . , Xn variables aleatorias independientes cada una con dis-

tribución Ber(p). Calcule P (X1 + · · · + Xn = k) para k = 0, 1, . . . , n.

325. Sean X y Y independientes ambas con distribución unif{1, . . . , n}. En-

cuentre la distribución del vector (U, V ) = (X + Y, X − Y ). Determine
además si las variables U y V son independientes.

326. Sean X y Y independientes con valores enteros naturales y con espe-

ranza finita. Demuestre que
∞
X
E(mı́n{X, Y }) = P (X ≥ n)P (Y ≥ n).
n=1

327. Sean X y Y independientes ambas con distribución uniforme en el

conjunto {−1, 1}. Sea Z = XY . Demuestre que X, Y y Z son inde-
pendientes dos a dos pero no lo son en su conjunto.

328. Sean X y Y independientes con distribución Poisson de parámetros

λ1 y λ2 respectivamente. Demuestre que la distribución condicional
de X dado que X + Y = n es bin(n, λ1 /(λ1 + λ2 )).

329. Encuentre la función de densidad de X + Y cuando X y Y son inde-

pendientes con distribución uniforme en los conjuntos {0, 1, . . . , n} y
{0, 1, . . . , m} respectivamente.

330. Sean X1 , . . . , Xn independientes con distribución geo(p). Demuestre

que la variable X1 + · · · + Xn tiene distribución bin neg(n, p).

331. Sean X y Y independientes. Encuentre la función de distribución de

W en términos de FX (x) y FY (y) cuando

a) W = máx{X, Y }.
b) W = mı́n{X, Y }.
Capı́tulo 3. Vectores aleatorios 197

332. Sean X y Y independientes ambas con distribución exp(λ), y sea a

una constante. Calcule P (máx{X, Y } ≤ aX) y P (mı́n{X, Y } ≤ aX).
333. Sean X y Y independientes con distribución exp(λ1 ) y exp(λ2 ) res-
pectivamente. Demuestre que P (X < Y ) = λ1 /(λ1 + λ2 ).
334. Sean X y Y variables independientes con distribución exponencial
con parámetros λ1 y λ2 respectivamente. Demuestre que mı́n{X, Y }
tiene distribución exponencial con parámetro λ1 + λ2 , y que P (X1 =
mı́n{X1 , X2 }) = λ1 /(λ1 + λ2 ). Este resultado puede extenderse al caso
de n variables independientes exponenciales.
335. Usando la siguiente tabla, construya una función de densidad f (x, y)
de un vector discreto (X, Y ), distinta de la densidad uniforme, con la
condición de que X y Y sean independientes.
x\y 0 1
0 · ·
1 · ·

336. Sea (X, Y ) un vector discreto con distribución de probabilidad unifor-

me en el conjunto {1, . . . , n}×{1, . . . , m}, con n y m enteros positivos.
Demuestre que X y Y son independientes.
337. Sea (X, Y ) un vector con función de densidad f (x, y) = c (1 − x), para
0 < x < y < 1.
a) Encuentre el valor de c que hace a f (x, y) una función de densidad
y grafique esta función.
b) Calcule P (X + Y > 1) y P (X ≤ 1/2).
c) Encuentre las funciones de densidad marginales fX (x) y fY (y).
d) Determine si X y Y son independientes.
338. Sea (X, Y ) un vector aleatorio con función de densidad f (x, y) =
c/2x+y , para x = 0, 1, 2, y y = 1, 2. Encuentre el valor de la cons-
tante c y determine si X y Y son independientes. Calcule además las
probabilidades P (X = 1), P (X = 2 | Y = 2) y P (XY = 2).
198 3.13. Ejercicios

339. Sea (X, Y ) un vector aleatorio con función de densidad f (x, y) = 2,

para 0 < x < y < 1.

a) Grafique y demuestre que f (x, y) es una función de densidad.

b) Encuentre las funciones de densidad marginales fX (x) y fY (y).
c) Determine si X y Y son independientes.
d) Calcule P (Y > X) y P (Y > X 2 ).

340. Sea (X, Y ) un vector con función de densidad f (x, y) = c |x + y|, para
−1 < x, y < 1.

a) Encuentre el valor de la constante c que hace a f (x, y) una función

de densidad y grafique esta función.
b) Calcule P (X > 0), P (XY > 0) y P (0 < X + Y < 1).
c) Encuentre las funciones de densidad marginales fX (x) y fY (y).
d) Determine si X y Y son independientes.

341. Sean X y Y independientes con distribución bin(n, p) y bin(m, p),

respectivamente. Demuestre que X+Y tiene distribución bin(n+m, p).

342. Sean X y Y independientes con distribución Poisson con parámetros

λ1 y λ2 respectivamente. Demuestre que X + Y tiene distribución
Poisson(λ1 + λ2 ).

343. Sea (X, Y, Z) un vector aleatorio con función de densidad f (x, y, z) =

8xyz, para 0 < x, y, z < 1.

a) Compruebe que f (x, y, z) es una función de densidad.

b) Calcule P (X < Y < Z) y P (X + Y + Z < 1).
c) Encuentre fX,Y (x, y), fX,Z (x, z) y fY,Z (y, z).
d) Determine si X, Y y Z son independientes.

344. Sea (X, Y, Z) un vector aleatorio con función de densidad f (x, y, z) =

24x, para 0 < x < y < z < 1.
Capı́tulo 3. Vectores aleatorios 199

a) Compruebe que f (x, y, z) es una función de densidad.

b) Calcule P (X + Y < 1) y P (Z − X > 1/2).
c) Encuentre fX,Y (x, y), fX,Z (x, z) y fY,Z (y, z).
d) Determine si X, Y y Z son independientes.

345. Sea X1 , X2 , . . . una sucesión de variables aleatorias independientes

cada una con distribución unif(0, 1). Demuestre que para cualquier
λ > 0,
lı́m P (máx{X1 , . . . , Xn } ≤ 1 − λ/n) = e−λ .
n→∞

346. Sean X y Y independientes con distribución Poisson de parámetros

λ1 y λ2 respectivamente. Demuestre que
λ1
E(X | X + Y = n) = n · .
λ1 + λ2

Esperanza de una función de un vector aleatorio

347. Demuestre que la condición E(XY ) = E(X)E(Y ) no implica necesa-

riamente que X y Y son independientes. Para ello considere cualquiera
de los siguientes ejemplos.

 1/8 si (x, y) = (1, 1), (1, −1), (−1, 1), (−1, −1),
a) f (x, y) = 1/2 si (x, y) = (0, 0),

0 otro caso.
b) f (x, y) = 3(x2 + y 2 )/8, para x, y ∈ [−1, 1].
c) X con distribución uniforme en {−1, 0, 1} y Y = 1(X6=0) .

348. Demuestre que si las variables X1 , . . . , Xn son independientes e inte-

grables, entonces E(X1 · · · Xn ) = E(X1 ) · · · E(Xn ).

349. Sean X y Y independientes. Diga falso o verdadero justificando en

cada caso.

a) Var(X + Y ) = Var(X) + Var(Y ).

200 3.13. Ejercicios

b) Var(X − Y ) = Var(X) − Var(Y ).

c) Var(XY ) = Var(X)Var(Y ).

350. Sean X y Y variables aleatorias independientes con varianza finita.

Demuestre que

Var(XY ) = Var(X) · Var(Y ) + E 2 (X) · Var(Y ) + E 2 (Y ) · Var(X).

351. Sean X1 , . . . , Xn independientes con idéntica distribución y con espe-

ranza finita. Demuestre que si x es tal que fX1 +···+Xn (x) 6= 0, entonces
x
E(X1 | X1 + · · · + Xn = x) = .
n

352. Sea (X, Y ) un vector aleatorio discreto con función de densidad f (x, y)
dada por la siguiente tabla.

x\y -1 0 1
1 .1 .05 .1
2 .06 .2 .04
3 .1 .05 .3

a) Grafique f (x, y) y compruebe que efectivamente se trata de una

función de densidad conjunta.
b) Calcule y grafique las densidades marginales fX (x) y fY (y). Ve-
rifique que ambas funciones son efectivamente de densidad.
c) Demuestre que X y Y no son independientes.
d) Calcule E(XY ) y fX+Y (u).

353. Sea (X, Y ) un vector discreto con función de densidad dada por la
siguiente tabla.
x\y 2 4 6
1 2/18 3/18 1/18
2 3/18 5/18 1/18
3 1/18 1/18 1/18
Capı́tulo 3. Vectores aleatorios 201

a) Grafique f (x, y) y compruebe que efectivamente es una función

de densidad conjunta.
b) Calcule y grafique las densidades marginales fX (x) y fY (y). Ve-
rifique que ambas son efectivamente funciones de densidad.
c) Demuestre que X y Y no son independientes.
d) Calcule E(XY ) y fX+Y (u).

354. Sea (X, Y ) un vector aleatorio con función de densidad dada por

8xy si 0 < y < x < 1,
f (x, y) =
0 otro caso.

a) Grafique f (x, y) y compruebe que efectivamente es una función

de densidad conjunta.
b) Encuentre y grafique las densidades marginales fX (x) y fY (y).
Verifique que ambas son efectivamente funciones de densidad.
c) Demuestre que X y Y no son independientes.
d) Calcule E(XY ) y fX+Y (u).

Esperanza y varianza de un vector

355. Calcule la esperanza y varianza del vector aleatorio (X, Y ) cuya fun-
ción de densidad conjunta es
1
a) f (x, y) = , para 0 < x < a, 0 < y < b.
ab
b) f (x, y) = 4xy, para x, y ∈ [0, 1].

Covarianza

356. Sea a cualquier número real fijo. Encuentre variables aleatorias X y

Y tales que Cov(X, Y ) = a,
202 3.13. Ejercicios

357. Diga falso o verdadero. Demuestre en cada caso.

a) X ≥ 0, Y ≥ 0 ⇒ Cov(X, Y ) ≥ 0.
b) Cov(X, Y ) = 0, Cov(Y, Z) = 0 ⇒ Cov(X, Z) = 0.
c) Cov(X, Y ) > 0, Cov(Y, Z) > 0 ⇒ Cov(X, Z) > 0.
d) Cov(X, Y ) = a, Cov(Y, Z) = a ⇒ Cov(X, Z) = a.

358. Diga falso o verdadero. Demuestre en cada caso.

a) Cov(X, Y ) ≥ 0.
b) Cov(aX, bY ) = ab Cov(X, Y ), con a, b constantes.
c) Cov(X, aY + b) = a Cov(X, Y ) + b, con a, b constantes.

359. Demuestre que

a) Cov(X, Y ) = E(XY ) − E(X)E(Y ).

b) Cov(X, Y ) = Cov(Y, X).
c) Cov(X, X) = Var(X).
d) Cov(X, −X) = −Var(X).
e) Cov(aX + b, Y ) = a Cov(X, Y ), con a, b constantes.
f ) Cov(X1 + X2 , Y ) = Cov(X1 , Y ) + Cov(X2 , Y ).

360. Demuestre que la condición Cov(X, Y ) = 0 no es suficiente para con-

cluir que X y Y son independientes. En el texto se proporciona un
ejemplo para un vector discreto, construya ahora un ejemplo para un
vector continuo.

361. Demuestre que Var(X ± Y ) = Var(X) + Var(Y ) ± 2 Cov(X, Y ).

362. Demuestre que

n
X X
a) Var(X1 + · · · + Xn ) = Var(Xk ) + 2 Cov(Xj , Xk ).
k=1 j<k
Capı́tulo 3. Vectores aleatorios 203

Xn m
X n X
X m
b) Cov( ai Xi , bj Yj ) = ai bj Cov(Xi , Yj ).
i=1 j=1 i=1 j=1

363. Sea X1 , . . . , Xn independientes y con varianza finita. Demuestre que

n
X
Var(X1 + · · · + Xn ) = Var(Xk ).
k=1

364. Sean X1 , . . . , Xn independientes y con idéntica distribución. Defina

X̄ = (X1 + · · · + Xn )/n. Demuestre que para cada k = 1, . . . , n,
Cov(Xk − X̄, X̄) = 0.

365. Sea (X, Y ) con distribución uniforme en el conjunto {1, . . . , n}×{1, . . . , n}.
Demuestre que Cov(X, Y ) = 0.

366. Sea (X, Y ) con distribución uniforme en el conjunto (a, b) × (c, d).
Demuestre que Cov(X, Y ) = 0.

367. Calcule la covarianza de X y Y cuya función de densidad conjunta

está dada por la siguiente tabla.

x\y -1 0 1
-1 1/12 2/12 3/12
1 3/12 2/12 1/12

368. Calcule la covarianza de X y Y cuya función de densidad conjunta

está dada por la siguiente tabla.

x\y 1 2 3
2 .2 .05 .15
4 .05 .1 .15
6 .05 .1 .15

369. Calcule la covarianza de X y Y , cuya función de densidad conjunta es

1
a) f (x, y) = , para 0 < x < a, 0 < y < b.
ab
204 3.13. Ejercicios

b) f (x, y) = 3x2 y, para − 1 < x < 1, 0 < y < 1.

c) f (x, y) = e−x /2, para |y| < x.
d) f (x, y) = e−x−y , para x, y > 0.
2 , µ , σ 2 , ρ).
370. Sea (X, Y ) un vector con distribución normal N(µX , σX Y Y
Demuestre que Cov(X, Y ) = ρ · σX σY .

Coeficiente de correlación

371. Diga falso o verdadero. Demuestre en cada caso.

a) ρ(X, Y ) = 0, ρ(Y, Z) = 0 ⇒ ρ(X, Z) = 0.

b) ρ(X, Y ) > 0, ρ(Y, Z) > 0 ⇒ ρ(X, Z) > 0.
c) ρ(X, Y ) < 0, ρ(Y, Z) < 0 ⇒ ρ(X, Z) < 0.
d) ρ(X, Y ) = 1, ρ(Y, Z) = 1 ⇒ ρ(X, Z) = 1.
e) ρ(X, Y ) = −1, ρ(Y, Z) = −1 ⇒ ρ(X, Z) = −1.
f ) ρ(X, Y )ρ(Y, Z) = −1 ⇒ ρ(X, Z) = −1.
g) ρ(X, Y ) = a, ρ(Y, Z) = a ⇒ ρ(X, Z) = a.

372. Diga falso verdadero. Demuestre en cada caso.

a) ρ(X, Y ) = ρ(Y, X).

b) ρ(aX, Y ) = a ρ(X, Y ), a constante.
c) ρ(X + a, Y ) = ρ(X, Y ), a constante.
d) ρ(aX + b, Y ) = a ρ(X, Y ) + b, a, b constantes.
e) ρ(X1 + X2 , Y ) = ρ(X1 , Y ) + ρ(X2 , Y ).

373. Sea a un número cualquiera en [−1, 1]. Encuentre variables aleatorias

X y Y tales que ρ(X, Y ) = a.

374. Sean X y Y independientes con distribución Ber(p) con p = 1/2.

Demuestre que el coeficiente de correlación entre X + Y y |X − Y | es
cero, y sin embargo estas variables aleatorias no son independientes.
Capı́tulo 3. Vectores aleatorios 205

375. Sea X con distribución normal estándar. Demuestre que el coeficiente

de correlación entre X y X 2 es cero, y sin embargo estas variables no
son independientes. Este resultado puede extenderse al caso en el que
la distribución de X cumple la condición E(X) = E(X 3 ) = 0.

376. Sea X una variable aleatoria y sean a y b constantes. Demuestre que

a) ρ(X, X) = 1.
b) ρ(X, −X) = −1.
c) ρ(X, aX + b) = signo(a).

377. Demuestre que ρ(aX + b, cY + d) = signo(ac) · ρ(X, Y ), en donde

ac 6= 0. Recuerde que

 +1 si x > 0,
signo(x) = −1 si x < 0,

0 si x = 0.

378. Calcule el coeficiente de correlación de X y Y cuya función de densidad

conjunta está dada por la siguiente tabla.

x\y 1 2
0 1/8 1/4
1 1/2 1/8

379. Calcule el coeficiente de correlación de X y Y cuya función de densidad

conjunta está dada por la siguiente tabla.

x\y 1 2 3
2 1/9 1/9 1/9
4 1/9 1/9 1/9
6 1/9 1/9 1/9

380. Calcule el coeficiente de correlación de X y Y con distribución con-

junta uniforme en el conjunto
206 3.13. Ejercicios

a) {1, . . . , n} × {1, . . . , n}.

b) [−1, 1] × [−1, 1].

381. Sea X con distribución bin(n, p) y sea Y = n − X. Demuestre que

Cov(X, Y ) = −np(1 − p), y por lo tanto ρ(X, Y ) = −1.

382. Calcule el coeficiente de correlación de X y Y cuya función de densidad

conjunta es

a) f (x, y) = 12 sen(x + y), para x, y ∈ [0, π/2].

b) f (x, y) = e−x /2, para |y| < x.
c) f (x, y) = e−x−y , para x, y > 0.
2 , µ , σ 2 , ρ).
383. Sea (X, Y ) un vector con distribución normal N(µX , σX Y Y
Demuestre que ρ(X, Y ) = ρ.

Distribución multinomial

384. Demuestre que la función de densidad de la distribución multinomial

efectivamente lo es.

385. Sea (X1 , . . . , Xk−1 ) un vector con distribución multinomial de paráme-

tros (n, p1 , . . . , pk−1 ). Demuestre que cada coordenada Xi tiene distri-
bución marginal bin(n, pi ), para i = 1, . . . , k − 1.

386. Sea X = (X1 , . . . , Xk−1 ) un vector con distribución multinomial de

parámetros (n, p1 , . . . , pk−1 ). Demuestre que E(X) = (np1 , . . . , npk−1 )
y que
npi (1 − pi ) si i = j,
[Var(X)]ij =
−npi pj si i 6= j.

Distribución hipergeométrica multivariada

387. Demuestre que la función de densidad de la distribución hipergeométri-

ca multivariada efectivamente lo es.
Capı́tulo 3. Vectores aleatorios 207

388. Sea (X1 , . . . , Xk ) un vector con distribución hipergeométrica multiva-

riada con parámetros (N, N1 , . . . , Nk , n). Demuestre que cada coorde-
nada Xi tiene distribución hipergeométrica univariada con parámetros
(N, Ni , n), para i = 1, . . . , k.
389. Sea X = (X1 , . . . , Xk ) con distribución hipergeométrica multivariada
con parámetros (N, N1 , . . . , Nk , n). Demuestre que
E(X) = (nN1 /N, . . . , nNk /N ), y que

Ni N − Ni N − n
 n· N · N · si i = j,


 N −1
[Var(X)]ij =
 n · Ni · Nj · n − N


 si i 6= j.
N N N −1

Distribución normal bivariada

390. Demuestre que la función de densidad de la distribución normal biva-

riada efectivamente lo es.
391. Sea (X, Y ) un vector con distribución normal N(µ1 , σ12 , µ2 , σ22 , ρ). De-
muestre que X tiene distribución marginal N(µ1 , σ12 ), y Y tiene distri-
bución marginal N(µ2 , σ22 ). Véase el siguiente ejercicio para verificar
que el recı́proco de este resultado es falso.
392. Sea f (x, y) la función de densidad normal bivariada estándar con ρ =
0. Defina
2f (x, y) si xy < 0,
g(x, y) =
0 si xy ≥ 0.
Demuestre que g(x, y) es una función de densidad bivariada que no es
normal pero cuyas densidades marginales son normales estándar.
393. Sea (X, Y ) un vector con distribución normal (µX , σX2 , µ , σ 2 , ρ). De-
Y Y
muestre que E(X) = (µX , µY ), y
2

σX ρ · σX · σY
Var(X, Y ) = .
ρ · σX · σY σY2
208 3.13. Ejercicios

394. Sea (X, Y ) un vector con distribución normal N(µ1 , σ12 , µ2 , σ22 , ρ). De-
muestre que la distribución condicional de Y dado que X = x es
normal con media µ2 + ρ(x − µ1 )σ2 /σ1 y varianza σ22 (1 − ρ2 ), y que la
distribución condicional de X dado que Y = y es normal con media
µ1 + ρ(y − µ2 )σ1 /σ2 y varianza σ12 (1 − ρ2 ).
Capı́tulo 4

Esperanza condicional

En este capı́tulo se define el concepto de esperanza condicional de una va-

riable aleatoria respecto de una σ-álgebra, y se estudian algunas de sus
propiedades elementales.

4.1. Esperanza condicional

Definición. (Esperanza condicional). Sea X una variable aleatoria

con esperanza finita, y sea G una sub-σ-álgebra de F . La esperanza con-
dicional de X dado G , es una variable aleatoria denotada por E(X | G ),
que cumple las siguientes tres propiedades.

a) Es G -medible.

b) Tiene esperanza finita.

c) Para cualquier evento G en G ,

E[ E( X | G ) · 1G ] = E[ X · 1G ]. (4.1)

209
210 4.1. Esperanza condicional

Es importante enfatizar que la esperanza condicional, a pesar de su nombre,

no es un número, aunque puede serlo, sino una variable aleatoria. Usando
el teorema de Radon-Nikodym (véase por ejemplo [5]), puede demostrarse
que esta variable aleatoria existe y es única casi seguramente, esto significa
que si existe otra variable aleatoria con las tres propiedades de la definición
anterior, entonces con probabilidad uno coincide con E(X | G ). En lo suce-
sivo cuando se establezca que esta variable aleatoria es igual a alguna otra
variable, la igualdad debe entonces entenderse en el sentido casi seguro, es
decir, que la igualdad se verifica con probabilidad uno.

En la siguiente proposición se muestran algunas relaciones entre la espe-

ranza condicional y los conceptos elementales de esperanza y probabilidad
condicional. Más adelante encontraremos expresiones para E(X | Y ) cuando
Y es discreta o alsolutamente continua.

Proposición. Sea X con esperanza finita, y sean A y B eventos tales

que 0 < P (B) < 1. Entonces

1. E(X | {∅, Ω} ) = E(X).

2. E(1A | {∅, Ω} ) = P (A).

3. E(1A | {∅, B, B c , Ω} ) = P (A | B)1B + P (A | B c )1B c .

Demostración.

1. Esta igualdad se sigue del hecho que la variable E(X | G ) es medible

respecto de G , y de que cualquier función medible respecto de la σ-
álgebra {∅, Ω} es constante. La tercera condición en la definición de
esperanza condicional implica que esta constante debe ser E(X).

2. La igualdad es evidentemente un caso particular de la primera.

3. Observe que toda función medible respecto de la σ-álgebra {∅, B, B c , Ω}

Capı́tulo 4. Esperanza condicional 211

es constante tanto en B como en B c . Además,

E[ E( 1A | G ) · 1B ] = E[ 1A · 1B ] = P (A ∩ B).

Como la variable aleatoria E( 1A | G ) es constante en B, el lado iz-

quierdo es igual a E( 1A | G )(ω) · P (B), para cualquier ω en B. De
donde se obtiene

E( 1A | G )(ω) = P (A|B) para cualquier ω en B.

El análisis es análogo al considerar el evento B c , y de esto se obtiene

la fórmula enunciada.

Observe en particular que la tercera propiedad dice que si la σ-álgebra

G es generada por la partición elemental {B, B c }, entonces la esperanza
condicional es una variable aleatoria que toma dos valores: P (A | B) sobre
B, y P (A | B c ) sobre B c . El siguiente ejercicio es una generalización de este
resultado.

Ejercicio. Sea B1 , . . . , Bn una partición de Ω tal que cada uno de estos elementos
tiene probabilidad estrictamente positiva. Demuestre que para cualquier evento A,
n
X
E(1A | σ{B1 , . . . , Bn }) = P (A | Bi ) · 1Bi .
i=1

Notación. Cuando la σ-álgebra G es igual a σ(Y ), para alguna variable

aleatoria Y , la esperanza condicional se escribe simplemente como E(X | Y )
en lugar de E(X | σ(Y )). Cuando A es un evento a veces se usa el término
P (A | G ) para denotar la esperanza condicional E(1A | G ).

Veamos ahora algunas propiedades generales de la esperanza condicional,

otras propiedades se encuentran en la sección de ejercicios. En un apéndice
212 4.1. Esperanza condicional

al final del texto se encuentra una lista de propiedades de esta variable

aleatoria.

Proposición. Sean X y Y variables aleatorias con esperanza finita y

sea c una constante. Entonces

1. Si X ≥ 0, entonces E(X | G ) ≥ 0.

2. E(cX + Y | G ) = cE(X | G ) + E(Y | G ).

3. Si X ≤ Y , entonces E(X | G ) ≤ E(Y | G ).

4. E(E(X | G )) = E(X).

5. Si X es G -medible, entonces E(X | G ) = X c.s.

En particular, E(c | G ) = c.

6. Si G1 ⊆ G2 , entonces

E(E(X | G1 ) | G2 ) = E(E(X | G2 ) | G1 ) = E(X | G1 ).

Demostración.

1. Por contradicción, suponga que existe G en G con probabilidad es-

trictamente positiva tal que E(X | G ) · 1G < 0. Entonces tomando
esperanzas se obtiene E(X · 1G ) < 0. Por otro lado, como X ≥ 0,
E(X · 1G ) ≥ 0.

2. Esta igualdad es consecuencia de la linealidad de la esperanza no con-

dicional, junto con (4.1) y la propiedad de unicidad.

3. Esto consecuencia de la primera propiedad y la linealidad aplicadas a

la variable Y − X ≥ 0.

4. Esta propiedad se obtiene tomando G = Ω en la igualdad (4.1).

Capı́tulo 4. Esperanza condicional 213

5. Si X es G -medible, entonces X mismo cumple con las tres propiedades

de la definición de esperanza condicional, por la unicidad se obtiene
la igualdad casi segura.

6. Para todo G ∈ G1 ⊆ G2 ,

E(E(E(X | G1 ) | G2 ) · 1G ) = E(E(X | G1 ) · 1G ) = E(X · 1G ).

Análogamente,

E(E(E(X | G2 ) | G1 ) · 1G ) = E(E(X | G2 ) · 1G ) = E(X · 1G ).

En particular observe que la segunda propiedad dice que la esperanza condi-

cional es lineal, mientras que la cuarta propiedad establece que las variables
aleatorias X y E(X | G ) tienen la misma esperanza.

Ejercicio. Demuestre las desigualdades

a) | E(X | G ) | ≤ E( |X| | G ).
b) E |E(X | G )| ≤ E( |X| ).

Antes de continuar recordemos que si A es un evento con probabilidad po-

sitiva y X es una variable aleatoria integrable, entonces la esperanza condi-
cional de X dado A es el número
Z ∞
E(X | A) = x dFX|A (x),
−∞

en donde FX|A (x) = P (X ≤ x | A).

214 4.1. Esperanza condicional

Proposición (Esperanza condicional caso discreto). Sea (X, Y )

un vector aleatorio en donde X tiene esperanza finita, y Y es discreta
tal que toma los valores 0, 1, . . . con probabilidad positiva. Entonces
∞
X
E(X | Y ) = E(X | Y = n) · 1(Y =n) . (4.2)
n=0

Demostración. Observe que los eventos (Y = 0), (Y = 1), . . . constituyen

una partición de Ω, y que los elementos de σ(Y ) son uniones finitas o nu-
merables de estos eventos. Verficaremos que el lado derecho de (4.2) cumple
con las propiedades que definen a E(X | Y ).

1. Claramente el lado derecho de (4.2) es medible respecto de σ(Y ) pues

es constante en cada evento (Y = n), la constante es E(X | Y = n).
P
2. La esperanza de la suma en (4.2) es ∞ n=0 E(X | Y = n)P (Y = n) =
E(X), que es finita pues X es integrable.

3. Finalmente para cada evento (Y = k) se tiene que

Esta igualdad puede extenderse a uniones finitas o numerables de eventos

Capı́tulo 4. Esperanza condicional 215

(Y = k). De esta forma, para cualquier evento A en σ(Y ),

∞
X
E( E(X | Y = n)1(Y =n) · 1A ) = E(X · 1A ).
n=0

Ejercicio. Sean X y Y independientes cada una con distribución Ber(p). En-

cuentre E(X | X + Y ). ◦

Finalmente se enuncia sin demostración el caso absolutamente continuo.

Proposición (Esperanza condicional caso abs. continuo). Sea

(X, Y ) un vector absolutamente continuo. Si ω es tal que Y (ω) = y,
entonces
 Z ∞

 x dFX|Y (x|y) si fY (y) 6= 0,
E(X | Y )(ω) = −∞

 0 otro caso,

es decir, E(X | Y )(ω) = E(X | Y = y) cuando fY (y) 6= 0.

Una introducción a la esperanza condicional ligeramente más completa a la

presentada en esta sección, aunque también sencilla y breve, puede encon-
trarse en [24]. Un tratamiento más completo y riguroso puede consultarse
por ejemplo en [18] o [30].

4.2. Varianza condicional

Usando la esperanza condicional se puede obtener la varianza condicional

de una variable aleatoria respecto de una σ-álgebra de la siguiente forma.
216 4.2. Varianza condicional

Definición. (Varianza condicional). Sea X con segundo momento

finito, y sea G una sub-σ-álgebra de F . La varianza condicional de X
dado G , denotada por Var(X | G ), se define como la variable aleatoria

Var(X | G ) = E[ (X − E(X|G ))2 | G ].

Se demuestran a continuación algunas propiedades sencillas de esta variable

aleatoria.

Proposición. Sean X y Y con varianza finita, y sea c una constante.

Entonces

1. Var(X | G ) ≥ 0.

2. Var(c | G ) = 0.

3. Var(cX | G ) = c2 Var(X | G ).

4. Var(X + c | G ) = Var(X | G ).

5. En general, Var(X + Y | G ) 6= Var(X | G ) + Var(Y | G ).

6. Var(X | G ) = E(X 2 | G ) − E 2 (X | G ).

7. Var(X) = E[Var(X | G )] + Var[E(X | G )].

Demostración.

1. - 4. Estas propiedades son una consecuencia inmediata de las propiedades

ya demostradas de la esperanza condicional.

5. Nuevamente es suficiente tomar Y = X para verificar la no igualdad.

6. Esta igualdad se obtiene a partir de la definición al desarrollar el

Capı́tulo 4. Esperanza condicional 217

cuadrado y utilizar las propiedades de linealidad de la esperanza con-

dicional.

7. Tomando esperanza en la igualdad previa se obtiene

E[Var(X | G )] = E(X 2 ) − E[E 2 (X | G )].

Por otro lado,

Var[E(X | G )] = E[E 2 (X | G )] − E 2 [E(X | G )]

= E[E 2 (X | G )] − E 2 (X).

Sumando estas últimas dos expresiones se obtiene el resultado.

Nuevamente cuando la sub-σ-álgebra G es σ(Y ), para alguna variable alea-

toria Y , entonces Var(X | G ) se escribe Var(X | Y ), y puede tomarse como
definición cualquiera de las siguientes igualdades

Var(X | Y ) = E[ (X − E(X | Y ))2 | Y ]

= E(X 2 | Y ) − E 2 (X | Y ).
218 4.3. Ejercicios

4.3. Ejercicios

Esperanza condicional

395. Demuestre que si c es una constante, entonces E(c | G ) = c, para

cualquier sub-σ-álgebra G .

396. Sea A un evento. Demuestre que E(1A | {∅, Ω}) = P (A).

397. Sea X una variable aleatoria con esperanza finita. Demuestre que
E(X | {∅, Ω}) = E(X).

398. Encuentre E(X | Y ) cuando X y Y se distribuyen de manera conjunta

de acuerdo a la siguiente tabla.

x\y -1 0 1
1 2/12 2/12 2/12
2 3/12 2/12 1/12

399. Sea c una constante. Diga falso o verdadero. Demuestre o proporcione

un contraejemplo.

a) E(X | X) = X. d) E(X | cX) = X.

b) E(X 2 | X) = X 2. e) E(X | X + c) = X.
c) E(X | X 2 ) = X. f) E(X | X + Y ) = X.
400. Sea B1 , . . . , Bn una partición finita de Ω en donde cada elemento tiene
probabilidad positiva, y sean b1 , . . . , bn constantes cualesquiera. Defina
la variable aleatoria discreta
n
X
Y = bi 1Bi .
i=1

Sea X con segundo momento finito. Demuestre que la distancia en-

tre X y Y definida por d(X, Y ) = [E(X − Y )2 ]1/2 es mı́nima cuando
Capı́tulo 4. Esperanza condicional 219

bi = E(X | Bi ), es decir, cuando la variable Y es la esperanza P condi-

cional E(X | Y ). Sugerencia: observe que E(X − Y )2 = ni=1 E[(X −
bi )2 | Bi )P (Bi ), y la suma es mı́nima si, y sólo si, cada sumando lo es.

401. Desigualdad de Cauchy-Schwarz condicional. Sean X y Y con

segundo momento finito. Demuestre que

E 2 (XY | G ) ≤ E(X 2 | G ) E(Y 2 | G ).

Sugerencia: proceda como en la desigualdad de Cauchy-Schwarz en el

caso no condicional, vea el ejercicio 190.

402. Desigualdad de Markov condicional. Sea X ≥ 0 integrable.

Demuestre que para cualquier constante ǫ > 0,
1
P (X ≥ ǫ | G ) ≤ E(X | G ).
ǫ
Sugerencia: Vea la demostración de la desigualdad de Markov no con-
dicional.

403. Sean X1 , X2 . . . independientes idénticamente distribuidas y con espe-

ranza finita. Defina Sn = X1 +· · ·+Xn . Demuestre que para 1 ≤ k ≤ n,

a) E(Xk | Sn ) = Sn /n.
b) E(Sk | Sn ) = k Sn /n.
c) E(Xk | σ{Sn , Sn+1 , . . .}) = Sn /n.
d) E(Sk | σ{Sn , Sn+1 , . . .}) = k Sn /n.

Varianza condicional

404. Demuestre que

a) Var(X | {∅, Ω}) = Var(X).

b) Var(1A | {∅, Ω}) = P (A)(1 − P (A)).
Capı́tulo 5

Transformaciones

Sea X una variable aleatoria con distribución conocida, y sea ϕ es una

función tal que Y = ϕ(X) es otra variable aleatoria. ¿Cuál es la distribu-
ción de Y ? En este capı́tulo se da respuesta a esta pregunta tanto en el
caso unidimensional como en el caso de vectores aleatorios. En particular,
se encuentran fórmulas explı́citas para la función de densidad de la suma,
diferencia, producto y cociente de dos variables aleatorias absolutamente
continuas.

5.1. Transformación de una variable aleatoria

En esta sección se estudian un par de resultados que proveen de fórmulas

para la función de densidad de la variable ϕ(X), en términos de la función de
densidad de X. Gráficamente tal transformación se muestra en la Figura 5.1.

221
222 5.1. Transformación de una variable aleatoria

X ϕ

b b b

ω X(ω) ϕ(X(ω))

Ω R R

Y = ϕ(X)

Figura 5.1: La composición Y = ϕ ◦ X.

Teorema de cambio de variable 1. Sea X una variable aleatoria

continua con valores dentro de un intervalo (a, b) ⊆ R, y con función de
densidad fX (x). Sea ϕ : (a, b) → R una función continua, estrictamente
creciente o decreciente, y con inversa diferenciable. Entonces la variable
aleatoria Y = ϕ(X) toma valores dentro del intervalo ϕ(a, b), y tiene
función de densidad

 f (ϕ−1 (y)) | d ϕ−1 (y)| para y ∈ ϕ(a, b),
X
fY (y) = dy

0 otro caso.

Demostración. Suponga primero el caso ϕ estrictamente creciente. Entonces

para y ∈ ϕ(a, b),

FY (y) = P (Y ≤ y)
= P (ϕ(X) ≤ y)
= P (X ≤ ϕ−1 (y))
= FX (ϕ−1 (y)).
d −1
Derivando se obtiene fY (y) = fX (ϕ−1 (y)) · ϕ (y). Para ϕ estrictamente
dy
Capı́tulo 5. Transformaciones 223

decreciente,

FY (y) = P (Y ≤ y)
= P (ϕ(X) ≤ y)
= P (X ≥ ϕ−1 (y))
= 1 − FX (ϕ−1 (y)).
d −1
Entonces fY (y) = fX (ϕ−1 (y)) · [− ϕ (y)]. En cualquiera caso se obtiene
dy
el resultado enunciado.

Por ejemplo, la función ϕ(x) = ex , definida sobre toda la recta real cumple
muy bien con las condiciones del teorema anterior. Usaremos esta función
para mostrar con dos ejemplos la forma de aplicar este resultado.

ϕ(x) = ex

Figura 5.2: La transformación ϕ(x) = ex .

Ejemplo. (Distribución log normal). Sea X con distribución N(µ, σ2 ), y sea

ϕ la función estrictamente creciente ϕ(x) = ex , con inversa diferenciable ϕ−1 (y) =
ln y. Entonces la variable aleatoria Y = eX toma valores en el intervalo (0, ∞), y su
distribución se conoce con el nombre de distribución log normal(µ, σ 2 ). Su función
de densidad tiene la siguiente expresión cuya gráfica ha sido mostrada antes en la
Figura 2.23.

 √1
 (ln y − µ)2
exp [− ] si y > 0,
fY (y) = y 2πσ 2 2σ 2


0 si y ≤ 0.
224 5.1. Transformación de una variable aleatoria

Ejemplo. (Distribución log gama). Sea X con distribución gama(n, λ), y

sea nuevamente ϕ(x) = ex , con inversa diferenciable ϕ−1 (y) = ln y. Entonces la
variable aleatoria Y = eX toma valores en el intervalo (0, ∞), y su distribución se
conoce como distribución log gama(n, λ). Su función de densidad es
 n−1
 (λ ln y)

λy −λ−1 si y > 0,
fY (y) = Γ(n)


0 si y ≤ 0.
◦

El resultado anterior puede extenderse al caso en el que la transformación ϕ

es estrictamente monótona por pedazos. Se enuncia y demuestra a continua-
ción este resultado cuando la transformación se descompone en dos partes
monótonas, siendo fácil la extensión cuando se tiene un mayor número de
secciones.
Capı́tulo 5. Transformaciones 225

Teorema de cambio de variable 2. Sea X una variable aleatoria

continua con valores dentro de un intervalo (a, c) ⊆ R, y con función
de densidad fX (x). Sea ϕ : (a, c) → R una función tal que admite la
descomposición

ϕ1 (x) si x ∈ (a, b),
ϕ(x) =
ϕ2 (x) si x ∈ (b, c),

en donde a < b < c, y cada una de las funciones ϕ1 (x) : (a, b) → R y

ϕ2 (x) : (b, c) → R es continua, estrictamente creciente o decreciente, y
con inversa diferenciable. Entonces la variable aleatoria Y = ϕ(X) toma
valores dentro del intervalo ϕ(a, c), y tiene función de densidad

d −1
fY (y) = fX (ϕ−1
1 (y)) | ϕ (y)| · 1ϕ1 (a,b) (y)
dy 1
d −1
+ fX (ϕ−1
2 (y)) | ϕ (y)| · 1ϕ2 (b,c) (y).
dy 2

Demostración. La prueba es análoga al caso anterior, únicamente hay que

hacer el análisis sobre cada uno de los intervalos de monotonı́a estricta. Para
cualquier y en R,

FY (y) = P (Y ≤ y)
= P (ϕ(X) ≤ y)
= P [(ϕ1 (X) ≤ y) ∩ (X ∈ (a, b))]
+ P [(ϕ2 (X) ≤ y) ∩ (X ∈ (b, c))].

Nos interesa el comportamiento de estas probabilidades como funciones de

y, puesto que calcularemos la derivada de ellas para encontrar fY (y). Por
ejemplo, la primera probabilidad, vista como función de y, es

y 7→ P [(ϕ1 (X) ≤ y) ∩ (X ∈ (a, b))],

226 5.1. Transformación de una variable aleatoria

que permanece constante para y ∈ / ϕ1 (a, b), de modo que, suponiendo por
ejemplo ϕ1 creciente, y para y ∈ ϕ1 (a, b),

d d
P [(ϕ1 (X) ≤ y) ∩ (X ∈ (a, b))] = P [(X ≤ ϕ−1
1 (y)) ∩ (X ∈ (a, b))]
dy dy
d
= P [a < X ≤ ϕ−11 (y)]
dy
d
= FX (ϕ−1
1 (y))
dy
d −1
= fX (ϕ−1
1 (y)) ϕ (y).
dy 1
De manera análoga se procede respecto del segundo sumando, considerando
también el caso cuando se presenta la monotonı́a decreciente. De esta forma
se obtiene la fórmula enunciada.

Ejemplo. Sea X continua con función de densidad fX (x). Considere la transfor-

mación ϕ(x) = x2 , la cual es estrictamente decreciente en (−∞, 0), y estrictamente
creciente en (0, ∞).

ϕ(x) = x2

bc
x
ϕ1 ϕ2
Figura 5.3: La transformación ϕ(x) = x2 como dos secciones monótonas.

Defina entonces las funciones monótonas ϕ1 (x) = x2 sobre (−∞, 0), y ϕ2 (x) = x2
√ √
sobre (0, ∞). Entonces sus inversas son ϕ−1 −1
1 (y) = − y, y ϕ2 (y) = y. La variable
2
Y = X tiene por lo tanto función de densidad

 f (−√y) 1 + f (√y) 1 si y > 0,
X √ X √
fY (y) = 2 y 2 y

0 si y ≤ 0.
Capı́tulo 5. Transformaciones 227

5.2. Transformación de un vector aleatorio

Suponga ahora que (X, Y ) es un vector con función de densidad conocida,

y ϕ(x, y) es una función definida en algún subconjunto de R2 y con valores
en R2 . El problema es encontrar la función de densidad del nuevo vector
ϕ(X, Y ). Gráficamente esta transformación se ilustra en la Figura 5.4.

(X, Y ) ϕ
Ω R2 R2

(U, V ) = ϕ(X, Y )
Figura 5.4: La composición ϕ ◦ (X, Y ).

La transformación ϕ(x, y) se escribirá como (ϕ1 (x, y), ϕ2 (x, y)), y la deriva-
da de la primera componente respecto de x, por ejemplo, se escribe ∂x ϕ1 .

Teorema de cambio de variable 3. Sea (X, Y ) un vector conti-

nuo con valores en I ⊆ R2 , y con función de densidad fX,Y (x, y). Sea
ϕ(x, y) : I → R2 una función continua con inversa ϕ−1 (u, v) diferencia-
ble. Entonces el vector (U, V ) = ϕ(X, Y ) toma valores en ϕ(I) y tiene
función de densidad
(
fX,Y (ϕ−1 (u, v)) |J(u, v)| para (u, v) ∈ ϕ(I),
fU,V (u, v) = (5.1)
0 otro caso,

en donde
∂ ϕ−1 ∂ ϕ−1
J(u, v) = u 1−1 v 1−1 .
∂u ϕ2 ∂v ϕ2
228 5.2. Transformación de un vector aleatorio

Una prueba rigurosa de este teorema resulta ser un tanto elaborada, y por
simplicidad se omite. Sin embargo, puede usarse el siguiente argumento
intuitivo para encontrar la fórmula enunciada. Sea

(U, V ) = ϕ(X, Y ) = (ϕ1 (X, Y ), ϕ2 (X, Y )),

con inversa

(X, Y ) = ϕ−1 (U, V ) = (ϕ−1 −1

1 (U, V ), ϕ2 (U, V )).

Sea A el rectángulo de área infinitesimal de esquinas con coordenadas (x, y), (x+
dx, y), (x, y + dy) y (x + dx, y + dy). Bajo la transformación ϕ las coorde-
nadas de las esquinas del rectángulo A se transforman en las siguientes
coordenadas:

(x, y) 7→ (ϕ1 (x, y), ϕ2 (x, y)).

(x + dx, y) 7→ (ϕ1 (x + dx, y), ϕ2 (x + dx, y))

.
= (ϕ1 (x, y) + ∂x ϕ1 (x, y)dx, ϕ2 (x, y)
+∂x ϕ2 (x, y)dx.

(x, y + dy) 7→ (ϕ1 (x, y + dy), ϕ2 (x, y + dy))

.
= (ϕ1 (x, y) + ∂y ϕ1 (x, y)dy, ϕ2 (x, y)
+∂y ϕ2 (x, y)dy.

(x + dx, y + dy) 7→ (ϕ1 (x + dx, y + dy), ϕ2 (x + dx, y + dy))

.
= (ϕ1 (x, y) + ∂x ϕ1 (x, y)dx + ∂y ϕ1 (x, y)dy,
ϕ2 (x, y) + ∂x ϕ2 (x, y)dx + ∂y ϕ2 (x, y)dy).

Gráficamente la transformación de estos puntos se muestra en la Figura 5.5.

Entonces P ((X, Y ) ∈ A) = P ((U, V ) ∈ ϕ(A)). Por lo tanto

fX,Y (x, y) dxdy = fU,V (u, v) × “Área de ϕ(A)”.

Capı́tulo 5. Transformaciones 229

(ϕ1 + ∂y ϕ1 , ϕ2 + ∂y ϕ2 )
b

y + dy b b ϕ
b
(ϕ1 + ∂x ϕ1 + ∂y ϕ1 ,
A ϕ(A) ϕ2 + ∂x ϕ2 + ∂y ϕ2 )
y b b b

b
(ϕ1 , ϕ2 )
(ϕ1 + ∂x ϕ1 , ϕ2 + ∂x ϕ2 )
x x + dx
Figura 5.5: La transformación ϕ aplicada al rectángulo A.

En donde

“Área de ϕ(A)” = |∂x ϕ1 · ∂y ϕ2 − ∂x ϕ2 · ∂y ϕ1 | dxdy

∂x ϕ1 ∂y ϕ1
=
dxdy
∂x ϕ2 ∂y ϕ2
= |J(x, y)| dxdy.
1
Además |J(x, y)| = . Por lo tanto
|J(u, v)|

dxdy
fX,Y (x, y) dxdy = fU,V (u, v) .
|J(u, v)|

Es decir, fU,V (u, v) = fX,Y (ϕ−1 −1

1 (u, v), ϕ2 (u, v))|J(u, v)|.

Como ejemplo de aplicación de esta fórmula, en las secciones siguientes en-

contraremos expresiones para la función de densidad de la suma, diferencia,
producto y cociente de dos variables aleatorias.

Las fórmulas generales sobre transformaciones encontradas hasta ahora se

resumen en la siguiente tabla, que sólo sirve como referencia general pues
no se mencionan las condiciones precisas de su validez.
230 5.2. Transformación de un vector aleatorio

Transformaciones

d −1
Y = ϕ(X) ⇒ fY (y) = fX (ϕ−1 (y)) | ϕ (y)|.
dy

(U, V ) = ϕ(X, Y ) ⇒ fU,V (u, v) = fX,Y (ϕ−1 (u, v)) |J(u, v)|,

∂u ϕ−1 ∂v ϕ−1
en donde J(u, v) = 1 1 .
∂u ϕ−1
2 ∂v ϕ−1
2

Distribución de la suma

El siguiente resultado proporciona una fórmula para la función de densidad

de la suma de dos variables aleatorias absolutamente continuas.

Proposición. Sea (X, Y ) un vector absolutamente continuo con función

de densidad fX,Y (x, y). Entonces X + Y tiene función de densidad
Z ∞
fX+Y (u) = fX,Y (u − v, v) dv. (5.2)
−∞

Demostración. Sea ϕ : R2 → R2 la transformación ϕ(x, y) = (x + y, y), con

inversa ϕ−1 (u, v) = (u − v, v). El Jacobiano de la transformación inversa es

∂u ϕ−1 ∂v ϕ−1 1 −1
J(u, v) = 1 1
= 0 1 = 1.

∂u ϕ−1
2 ∂v ϕ−1
2

Por la fórmula (5.1), fX+Y,Y (u, v) = fX,Y (u − v, v). Integrando respecto a

v se obtiene (5.2).
Capı́tulo 5. Transformaciones 231

Observe que haciendo el cambio de variable z(v) = u − v en (5.2) se obtiene

la expresión equivalente
Z ∞
fX+Y (u) = fX,Y (z, u − z) dz. (5.3)
−∞

Ello refleja el hecho de que la suma de dos variables aleatorias es conmuta-

tiva. En particular, cuando X y Y son independientes, la fórmula (5.2) se
reduce a
Z ∞
fX+Y (u) = fX (u − v)fY (v) dv (5.4)
−∞
Z ∞
= fX (u − v) dFY (v).
−∞

Integrando respecto de u e intercambiando el orden de las integrales se

obtiene la correspondiente función de distribución
Z ∞
FX+Y (u) = FX (u − v) dFY (v).
−∞

Más generalmente, puede demostrarse que esta fórmula es válida para cua-
lesquiera dos variables aleatorias independientes X y Y , incluyendo el caso
cuando una de ellas es discreta y la otra continua.

En el caso cuando X y Y son discretas, independientes y con valores enteros,

es sencillo verificar que la función de probabilidad de X + Y es, en completa
analogı́a con (5.4),
X
fX+Y (u) = fX (u − k)fY (k),
k

en donde la suma se toma sobre todos los posibles valores enteros k que la
variable aleatoria Y puede tomar.

Puede obtenerse la misma fórmula (5.2) mediante el procedimiento usual

de encontrar primero la función de distribución de X + Y y después deri-
var para encontrar la función de densidad. El procedimiento se muestra a
232 5.2. Transformación de un vector aleatorio

continuación.

FX+Y (u) = P (X + Y ≤ u)
Z Z
= fX,Y (x, y) dy dx
x+y≤u
Z ∞ Z u−x
= fX,Y (x, y) dy dx.
−∞ −∞

La región de integración se muestra en la Figura 5.6.

Figura 5.6: Región de integración x + y ≤ u.

Derivando respecto a u se obtiene

Z ∞
fX+Y (u) = fX,Y (x, u − x) dx,
−∞

que corresponde a la expresión (5.3) equivalente a (5.2).

Ejercicio. Sean X y Y independientes cada una con distribución normal estándar.

Use (5.2) para demostrar que X + Y tiene distribución N(0, 2), es decir, su función
de densidad es
1 2
f (u) = √ e−u /4 .
2 π
◦
Capı́tulo 5. Transformaciones 233

Convolución. La convolución de dos funciones de densidad continuas f1

y f2 , es una función de densidad denotada por f1 ∗ f2 , y definida como sigue
Z ∞
(f1 ∗ f2 )(x) = f1 (x − y)f2 (y) dy.
−∞

Más generalmente, la convolución de dos funciones de distribución F1 y F2

es la función de distribución
Z ∞
(F1 ∗ F2 )(x) = F1 (x − y)dF2 (y).
−∞

En consecuencia, si X y Y son dos variables aleatorias independientes con

correspondientes funciones de distribución FX y FY , entonces la función de
distribución de la variable X + Y es la convolución FX ∗ FY . No es difı́cil
comprobar que FX ∗ FY = FY ∗ FX . En particular, la suma de n variables
aleatorias independientes todas con la misma función de distribución F tiene
función de distribución F ∗ · · · ∗ F , que se escribe simplemente como F ∗n .

Observe que hemos denotado la convolución por el mismo sı́mbolo, primero

cuando los argumentos son funciones de densidad y en el otro cuando son
funciones de distribución. Para el caso de funciones de distribución absolu-
tamente continuas, se tiene la relación
d
(F1 ∗ F2 )(x) = (f1 ∗ f2 )(x).
dx

Distribución de la diferencia

Se encontrará ahora una fórmula para la función de densidad de la diferencia

de dos variables aleatorias.
234 5.2. Transformación de un vector aleatorio

Proposición. Sea (X, Y ) un vector absolutamente continuo con función

de densidad fX,Y (x, y). Entonces X − Y tiene función de densidad
Z ∞
fX−Y (u) = fX,Y (u + v, v) dv. (5.5)
−∞

Demostración. Procedemos como en la sección anterior. Sea ϕ : R2 → R2

la transformación ϕ(x, y) = (x − y, y) con inversa ϕ−1 (u, v) = (u + v, v). El
Jacobiano de la transformación inversa es

∂u ϕ−1 ∂v ϕ−1 1 1
J(u, v) = 1 1
−1 =
= 1.
∂u ϕ−1
2 ∂v ϕ2 0 1

Por la fórmula (5.1), fX−Y,Y (u, v) = fX,Y (u + v, v). Integrando respecto a

v se obtiene (5.5).

Con el cambio de variable z(v) = u + v en (5.5) se obtiene la expresión

equivalente Z ∞
fX−Y (u) = fX,Y (z, z − u) dz. (5.6)
−∞

Cuando X y Y son independientes la fórmula (5.5) se reduce a

Z ∞
fX−Y (u) = fX (u + v)fY (v) dv.
−∞

En el caso discreto cuando X y Y son independientes con valores enteros, la

variable X−Y también toma valores enteros, y tiene función de probabilidad
X
fX−Y (u) = fX (u + k)fY (k),
k

en donde la suma se toma sobre todos los posibles valores enteros k que Y
puede tomar.
Capı́tulo 5. Transformaciones 235

Nuevamente se puede demostrar (5.5) mediante el procedimiento usual de

encontrar primero la función de distribución y después derivar para encon-
trar la función de densidad. Por definición,
FX−Y (u) = P (X − Y ≤ u)
Z Z
= fX,Y (x, y) dy dx
x−y≤u
Z ∞Z ∞
= fX,Y (x, y) dy dx.
−∞ x−u

La región de integración aparece en la Figura 5.7.

x
u

Figura 5.7: Región de integración x − y ≤ u.

Derivando respecto a u se obtiene (5.6) equivalente a (5.5). A partir de la

fórmula para la suma de dos variables aleatorias se puede construir una
tercera demostración de (5.5). Por la fórmula para la suma,
Z ∞
fX−Y (u) = fX+(−Y ) (u) = fX,−Y (u − v, v) dv.
−∞

Haciendo el cambio de variable x = −v, se obtiene

Z ∞
fX−Y (u) = fX,−Y (u + x, −x) dx
−∞
Z ∞
= fX,Y (u + x, x) dx.
−∞
236 5.2. Transformación de un vector aleatorio

Ejercicio. Sean X y Y independientes cada una con distribución normal estándar.

Use (5.5) para demostrar que X − Y tiene distribución N(0, 2), es decir, su función
de densidad es
1 2
f (u) = √ e−u /4 .
2 π
◦

Ejercicio. Sean X y Y independientes cada una con distribución normal estándar.

En ejercicios anteriores se ha pedido comprobar que tanto X + Y como X − Y tie-
nen distribución N(0, 2). Demuestre que X + Y y X − Y son independientes. ◦

Distribución del producto

Ahora se encontrará una fórmula para la función de densidad del producto

de dos variables aleatorias absolutamente continuas.

Proposición. Sea (X, Y ) un vector absolutamente continuo con función

de densidad fX,Y (x, y). Entonces XY tiene función de densidad
Z ∞
fXY (u) = fX,Y (u/v, v) |1/v| dv. (5.7)
−∞

Demostración. Se usa nuevamente la fórmula (5.1). Sea ϕ : R2 → R2 la

transformación ϕ(x, y) = (xy, y) cuya inversa es, para v 6= 0, ϕ−1 (u, v) =
(u/v, v). El Jacobiano de la transformación inversa es

∂u ϕ−1 ∂v ϕ−1 1/v u/v 2
J(u, v) = 1 1 = = 1/v.
∂u ϕ−1
2 ∂v ϕ−1
2
0 1

Por la fórmula (5.1), para v 6= 0, fXY,Y (u, v) = fX,Y (u/v, v) |1/v|. Integran-
do respecto a v se obtiene (5.7).
Capı́tulo 5. Transformaciones 237

Haciendo x(v) = u/v en (5.7) se obtiene la expresión equivalente

Z ∞
fXY (u) = fX,Y (x, u/x) |1/x| dx. (5.8)
−∞

Cuando X y Y son independientes (5.7) se reduce a

Z ∞
fXY (u) = fX (u/v)fY (v) |1/v| dv.
−∞

Usaremos el procedimiento usual de encontrar primero la función de distri-

bución de XY y después derivar para encontrar la función de densidad. Por
definición,

FXY (u) = P (XY ≤ u)

Z Z
= fX,Y (x, y) dy dx
xy≤u
Z 0 Z ∞ Z ∞ Z u/x
= fX,Y (x, y) dydx + fX,Y (x, y) dydx.
−∞ u/x 0 −∞

La región de integración se muestra en la Figura 5.8.

y y y

x x x

u<0 u=0 u>0

Figura 5.8: Región de integración xy ≤ u.
238 5.2. Transformación de un vector aleatorio

Derivando respecto a u,
Z 0
fXY (u) = fX,Y (x, u/x)(−1/x) dydx
−∞
Z ∞
+ fX,Y (x, u/x)(1/x) dydx.
0
Z ∞
= fX,Y (x, u/x)|1/x| dx,
−∞

que corresponde a (5.8), equivalente a (5.7).

Distribución del cociente

Finalmente se encontrará una fórmula para el cociente de dos variables

aleatorias absolutamente continuas.

Proposición. Sea (X, Y ) un vector absolutamente continuo con función

de densidad fX,Y (x, y) y tal que Y 6= 0. Entonces X/Y tiene función de
densidad Z ∞
fX/Y (u) = fX,Y (uv, v) |v| dv. (5.9)
−∞

Demostración. Procederemos como en las secciones anteriores. Sea ϕ : R2 →

R2 la transformación ϕ(x, y) = (x/y, y) para y 6= 0, y con inversa ϕ−1 (u, v) =
(uv, v). El Jacobiano de la transformación inversa es

∂u ϕ−1 ∂v ϕ−1 v u
J(u, v) = 1 1
−1 =
= v.
∂u ϕ−1
2 ∂ v ϕ2 0 1

Por la fórmula (5.1), fX/Y,Y (u, v) = fX,Y (uv, v) |v|, de donde se obtiene (5.9)
integrando respecto de v.
Capı́tulo 5. Transformaciones 239

Haciendo x(v) = uv en (5.9) se obtiene la expresión equivalente

Z ∞
fX/Y (u) = fX,Y (x, x/u) |x/u2 | dx. (5.10)
−∞

Observe nuevamente que cuando X y Y son independientes, el integrando

en la fórmula (5.9) se escribe como el producto de las densidades marginales.

Ahora usaremos el procedimiento usual de encontrar primero la función de

distribución y después derivar para encontrar la función de densidad.

FX/Y (u) = P (X/Y ≤ u)

Z Z
= fX,Y (x, y) dx dy
x/y≤u
Z 0 Z ∞ Z ∞ Z uy
= fX,Y (x, y) dx dy + fX,Y (x, y) dx dy.
−∞ uy 0 −∞

La región de integración se muestra en la Figura 5.9.

y y y

x x x

u<0 u=0 u>0

Figura 5.9: Región de integración x/y ≤ u.

Derivando respecto a u,
Z 0 Z ∞
fX/Y (u) = − fX,Y (uy, y)y dy + fX,Y (uy, y)y dy
−∞ 0
Z ∞
= fX,Y (uy, y)|y| dy.
−∞
240 5.2. Transformación de un vector aleatorio

A partir de la fórmula para el producto de dos variables aleatorias se puede

construir una tercera demostración de (5.9) de la siguiente forma.
Z ∞
fX/Y (u) = fX·(1/Y ) (u) = fX,1/Y (u/v, v) |1/v| dv.
−∞

Haciendo el cambio de variable x = 1/v se obtiene

Z ∞
fX/Y (u) = fX,1/Y (ux, 1/x)|x| dx
Z−∞
∞
= fX,Y (ux, x)|x| dx.
−∞

Ejercicio. Sean X y Y independientes con distribución normal estándar. De-

muestre que X/Y tiene distribución Cauchy, es decir, su función de densidad es
1
f (u) = , para − ∞ < u < ∞.
π(1 + u2 )
◦

Las fórmulas encontradas se resumen en la siguiente tabla.

Capı́tulo 5. Transformaciones 241

Fórmulas para la suma, diferencia, producto y cociente

de dos variables aleatorias absolutamente continuas

Z ∞
fX+Y (u) = fX,Y (u − v, v) dv
−∞
Z ∞
fX−Y (u) = fX,Y (u + v, v) dv
−∞
Z ∞
fXY (u) = fX,Y (u/v, v) |1/v| dv
−∞
Z ∞
fX/Y (u) = fX,Y (uv, v) |v| dv
−∞
242 5.3. Ejercicios

5.3. Ejercicios

Transformación de una variable aleatoria

405. Sea X con distribución unif(0, 1) y sea λ > 0. Demuestre que la varia-
ble aleatoria Y = −(ln X)/λ tiene distribución exp(λ).

406. Sea X con distribución exp(λ). Encuentre la función de densidad y de

distribución de la variable Y = 1 − exp(−λX).

407. Encuentre la distribución de Y = 1/X cuando X tiene distribución

a) unif(0, 1).
b) exp(λ).

408. Sea X continua con función de densidad fX (x). Demuestre que

(
fX (−x) + fX (x) si x ≥ 0,
f|X| (x) =
0 si x < 0.

409. Sea X con distribución uniforme en el intervalo (0, 2π). Encuentre la

función de densidad de la variable

a) Y = sen(X).
b) Y = cos(X).

410. Encuentre la distribución de Y = X n para cada n en N, cuando X

tiene distribución

a) unif(0, 1).
b) unif(−1, 1).
c) exp(λ).

411. Sea X con distribución unif(−1, 1). Encuentre la función de densidad

de X 2 .
Capı́tulo 5. Transformaciones 243

412. Sea X absolutamente continua con función de distribución F (x). De-

muestre que Y = F (X) tiene distribución unif[0, 1].
413. Encuentre la función de densidad de Y = 1/X cuando X tiene función
de densidad

 1/2 si 0 < x ≤ 1,
fX (x) = 1/(2x2 ) si x > 1,

0 si x ≤ 0.

414. Sea X con distribución unif(a, b). Encuentre la distribución de la va-

riable aleatoria Y = X/(b − X).

Transformación de un vector aleatorio

415. Sean X y Y independientes ambas con distribución unif(0, 1). Encuen-

tre la función de densidad del vector
a) (X, X + Y ).
b) (X + Y, X − Y ).
416. Sean X y Y independientes ambas con distribución unif(−1, 1). En-
cuentre la función de densidad del vector
a) (X + Y, X − Y ).
b) (X, |Y − X|).
c) (X − Y, Y − X).
417. Sea (X, Y ) un vector con distribución uniforme en el cı́rculo unitario
{(x, y) : x2 + y 2 ≤ 1}. Encuentre la función de densidad del vector
p
(R, Θ) = ( X 2 + Y 2 , arctan(Y /X)).

418. Sean X y Y independientes cada una con distribución exp(λ). De-

muestre que el vector (X, X + Y ) tiene función de densidad
2 −λv
λ e para 0 < u < v,
f (u, v) =
0 otro caso.
244 5.3. Ejercicios

419. Sea (X, Y ) con función de densidad fX,Y (x, y). Demuestre que la
función de densidad del vector (U, V ) = (X + Y, X/(X + Y )) es
fU,V (u, v) = fX,Y (uv, u(1 − v))u.

Distribución de la suma

420. Encuentre la función de densidad de la suma de dos variables aleatorias

cuya función de densidad conjunta es
1
a) f (x, y) = , para 0 < x < a, 0 < y < b.
ab
b) f (x, y) = e−x−y , para x, y > 0.
c) f (x, y) = e−y , para 0 < x < y.
d) f (x, y) = 8xy, para 0 < x < y < 1.
e) f (x, y) = 4x(1 − y), para 0 < x, y < 1.

421. Encuentre la función de densidad de la suma de dos variables aleatorias

independientes cada una de ellas con distribución

a) unif(0, 1).
b) exp(λ).

422. Encuentre la función de densidad de la suma de dos variables aleatorias

independientes cada una de ellas con función de densidad

a) f (x) = 2x, para 0 < x < 1.

b) f (x) = 6x(1 − x), para 0 < x < 1.
c) f (x) = (1 + x)/2, para −1 < x < 1.

423. Encuentre la función de densidad de la suma de dos variables aleatorias

independientes X y Y , tales que

a) X ∼ unif(−1, 0) y Y ∼ unif(0, 1).

b) X ∼ unif(0, 1) y Y ∼ exp(λ).
Capı́tulo 5. Transformaciones 245

424. Sea (X, Y, Z) un vector absolutamente continuo. Demuestre que la

variable X + Y + Z tiene función de densidad
Z ∞Z ∞
f (u) = fX,Y,Z (u − y − z, y, z) dydz.
−∞ −∞

Aplique esta fórmula para encontrar la función de densidad de la suma

de tres variables aleatorias independientes, en donde cada sumando
tiene distribución unif(0, 1).

425. Sea (X1 , . . . , Xn ) un vector aleatorio absolutamente continuo. De-

muestre que la variable X1 + · · · + Xn tiene función de densidad
Z ∞ Z ∞
f (u) = ··· fX1 ,...,Xn (u − v2 − · · · − vn , v2 , . . . , vn ) dv2 · · · dvn .
−∞ −∞

Aplique esta fórmula para encontrar la función de densidad de la suma

de n variables aleatorias independientes, en donde cada sumando tiene
distribución unif(0, 1).

426. Encuentre la función de densidad de la suma de dos variables aleatorias

con distribución conjunta uniforme en el cuadrado (−1, 1) × (−1, 1).

427. Encuentre la función de densidad de la suma de tres variables aleato-

rias con distribución conjunta uniforme en el cubo (−1, 1) × (−1, 1) ×
(−1, 1).

428. Encuentre la función de densidad de la suma de n variables aleatorias

con distribución conjunta uniforme en el hipercubo

(−1, 1) × · · · × (−1, 1) .
| {z }
n

429. Demuestre que la suma de dos variables aleatorias independientes, ca-

da una de ellas con distribución normal, tiene nuevamente distribución
normal, con media la suma de las medias, y varianza la suma de las
varianzas.
246 5.3. Ejercicios

430. Sean X1 , . . . , Xn independientes en donde Xk tiene distribución N(µk , σk2 )

para k = 1, . . . , n. Sean c1 , . . . , cn constantes dadas, no todas cero. De-
muestre que
Xn Xn n
X
ck Xk ∼ N( ck µk , c2k σk2 ).
k=1 k=1 k=1

431. Sean X1 , . . . , Xn independientes y con idéntica distribución N(µ, σ 2 ).

Demuestre que el promedio (X1 +· · ·+Xn )/n tiene distribución N(µ, σ 2 /n).

432. Demuestre que la suma de dos variables aleatorias independientes, ca-

da una de ellas con distribución exp(λ), tiene distribución gama(2, λ).
Más generalmente, demuestre que la suma de n variables aleatorias
independientes, cada una de ellas con distribución exp(λ), tiene dis-
tribución gama(n, λ).

433. Demuestre que la suma de dos variables aleatorias independientes con

distribución gama(n, λ) y gama(m, λ), tiene distribución gama(n +
m, λ).

434. Sean X y Y son discretas, independientes y con valores enteros. De-

muestre que X
fX+Y (u) = fX (u − k)fY (k),
k

en donde la suma se efectúa sobre todos los posibles valores enteros k

que la variable aleatoria Y puede tomar.

Distribución de la diferencia

435. Sea (X, Y, Z) un vector absolutamente continuo con función de densi-

dad fX,Y,Z (x, y, z). Demuestre que la variable X − Y − Z tiene función
de densidad
Z ∞Z ∞
fX−Y −Z (u) = fX,Y,Z (u + y + z, y, z) dydz.
−∞ −∞
Capı́tulo 5. Transformaciones 247

Aplique esta fórmula para encontrar la función de densidad de X −

Y − Z, cuando estas variables son independientes y cada una de ellas
tiene distribución unif(0, 1).

436. Sea (X, Y, Z) un vector aleatorio absolutamente continuo. Encuentre

una fórmula para la función de densidad de la variable X + Y − Z.

437. Sea (X, Y, Z) un vector aleatorio absolutamente continuo. Encuentre

una fórmula para la función de densidad de la variable X − Y + Z.

438. Encuentre la función de densidad de X − Y , para (X, Y ) un vector

con función de densidad conjunta
1
a) f (x, y) = , para 0 < x < a, 0 < y < b.
ab
b) f (x, y) = e−x−y , para x, y > 0.
c) f (x, y) = e−y , para 0 < x < y.
d) fX,Y (x, y) = 8xy, para 0 < x < y < 1.
e) fX,Y (x, y) = 4x(1 − y), para 0 < x, y < 1.

439. Encuentre la función de densidad de X − Y , cuando X y Y son inde-

pendientes y ambas con distribución

a) unif(0, 1).
b) exp(λ).

440. Encuentre la función de densidad de X − Y , cuando X y Y son inde-

pendientes y ambas con función de densidad

a) f (x) = 2x, para 0 < x < 1.

b) f (x) = 6x(1 − x), para 0 < x < 1.
c) f (x) = (1 + x)/2, para −1 < x < 1.

441. Encuentre la función de densidad de X − Y , cuando X y Y son inde-

pendientes y tales que

a) X ∼ unif(0, 1) y Y ∼ unif(1, 2).

248 5.3. Ejercicios

b) X ∼ unif(0, 1) y Y ∼ exp(λ).

442. Sea a una constante. Demuestre que la diferencia de dos variables alea-
torias independientes ambas con distribución uniforme en el intervalo
(a − 1/2, a + 1/2) tiene función de densidad
(
1 − |u| si − 1 < u < 1,
f (u) =
0 otro caso.

443. Demuestre que la diferencia de dos variables aleatorias independientes,

cada una de ellas con distribución normal, tiene nuevamente distribu-
ción normal, con media la diferencia de las medias, y varianza la suma
de las varianzas.

444. Sean X y Y son discretas, independientes y con valores enteros. De-

muestre que X
fX−Y (u) = fX (u + k)fY (k),
k

en donde la suma se efectúa sobre todos los posibles valores enteros k

que la variable aleatoria Y puede tomar.

Distribución del producto

445. Encuentre la función de densidad del producto de dos variables alea-

torias independientes ambas con distribución

a) unif(0, 1).
b) exp(λ).

446. Encuentre la función de densidad del producto de dos variables alea-

torias cuya función de densidad conjunta es
1
a) f (x, y) = , para 0 < x < a, 0 < y < b.
ab
b) f (x, y) = e−x−y , para x, y > 0.
Capı́tulo 5. Transformaciones 249

c) f (x, y) = e−y , para 0 < x < y.

d) fX,Y (x, y) = 8xy, para 0 < x < y < 1.
e) fX,Y (x, y) = 4x(1 − y), para 0 < x, y < 1.

447. Encuentre la función de densidad del producto de dos variables alea-

torias independientes cada una de ellas con función de densidad

a) f (x) = 2x, para 0 < x < 1.

b) f (x) = 6x(1 − x), para 0 < x < 1.
c) f (x) = (1 + x)/2, para −1 < x < 1.

448. Encuentre la función de densidad del producto de dos variables alea-

torias independientes X y Y , tales que

a) X ∼ unif(−1, 0) y Y ∼ unif(0, 1).

b) X ∼ unif(0, 1) y Y ∼ exp(λ).

Distribución del cociente

449. Encuentre la función de densidad de X/Y para (X, Y ) un vector con

función de densidad
1
a) f (x, y) = para 0 < x < a, 0 < y < b.
ab
b) f (x, y) = e−x−y , para x, y > 0.
c) f (x, y) = e−y , para 0 < x < y.
d) f (x, y) = 8xy, para 0 < x < y < 1.
e) f (x, y) = 4x(1 − y), para 0 < x, y < 1.
f ) f (x, y) = 2e−x−y , para 0 < x < y.

450. Encuentre la función de densidad de X/Y cuando X y Y son inde-

pendientes y ambas con distribución

a) exp(λ).
250 5.3. Ejercicios

b) unif(0, 1).

451. Encuentre la función de densidad de X/Y cuando X y Y son inde-

pendientes y ambas con función de densidad

a) f (x) = 2x, para 0 < x < 1.

b) f (x) = 6x(1 − x), para 0 < x < 1.
c) f (x) = (1 + x)/2, para −1 < x < 1.

452. Encuentre la función de densidad de X/Y cuando X y Y son inde-

pendientes y son tales que

a) X ∼ unif(−1, 1) y Y ∼ unif(0, 1).

b) X ∼ unif(0, 1) y Y ∼ exp(λ).

453. Sean X y Y independientes con distribución exp(λ). Encuentre la

función de densidad de X/(X + Y ).
Capı́tulo 6

Distribuciones muestrales
y estadı́sticas de orden

En este capı́tulo se estudian algunas distribuciones de probabilidad que

surgen en la estadı́stica y otras áreas de aplicación de la probabilidad. Se
estudian también algunas fórmulas para las distribuciones de las estadı́sticas
de orden de una muestra aleatoria.

Definición. (Muestra aleatoria). Una muestra aleatoria es una

colección de variables aleatorias X1 , . . . , Xn , que cumplen la condición
de ser independientes y de tener cada una de ellas la misma distribución.
Al número n se le llama tamaño de la muestra aleatoria.

A menudo se escribe m.a. para abreviar el término muestra aleatoria, y se

usan las siglas v.a.i.i.d. para denotar el término variables aleatorias indepen-
dientes e idénticamente distribuidas. Por lo tanto, una m.a. es una colección
de v.a.i.i.d.

Definición. (Estadı́stica). Una estadı́stica es una variable aleatoria

de la forma g(X1 , . . . , Xn ), en donde X1 , . . . , Xn es una muestra aleato-
ria, y g : Rn → R es una función Borel medible.

251
252

Ejemplo. (Media y varianza muestral). La media muestral es una estadı́stica

denotada por X̄ y definida como sigue
n
1X
X̄ = Xi .
n i=1

Observe que X̄ es una combinación lineal de los elementos de la m.a. y por lo tanto
es una variable aleatoria. Otro ejemplo importante de estadı́stica es la varianza
muestral, denotada por S 2 y definida como sigue
n
1 X
S2 = (Xi − X̄)2 .
n − 1 i=1

Observe que en el denominador aparece el número de sumandos menos uno, es

decir, ello no es un error. La media y la varianza muestrales tienen la caracterı́stica
de ser estimadores insesgados para la media y la varianza, respectivamente, de una
distribución cualquiera. ◦

En particular, cuando la muestra aleatoria proviene de una distribución nor-

mal, resulta que la media y la varianza muestrales son independientes. Este
es un resultado interesante e inesperado, y la demostración puede encon-
trarse en [20].

Proposición. Sea X1 , . . . , Xn una m.a. de la distribución N(µ, σ 2 ). En-

tonces las estadı́sticas X̄ y S 2 son independientes.

Utilizaremos este resultado más adelante. La proposición recién enunciada

no es válida para cualquier distribución de probabilidad, por ejemplo, no es
difı́cil verificar su no validez para una muestra aleatoria de la distribución
Bernoulli.
Capı́tulo 6. Dist. muestrales y estadı́sticas de orden 253

6.1. Distribuciones muestrales

Se estudian a continuación algunas distribuciones que surgen en la estadı́sti-

ca al considerar funciones de una muestra aleatoria, en particular, la media
y la varianza muestral.

Distribución ji-cuadrada. La variable aleatoria continua X tiene una

distribución ji-cuadrada con n > 0 grados de libertad, si su función de
densidad es
 n/2
 1 1
 xn/2−1 e−x/2 si x > 0,
f (x) = Γ(n/2) 2


0 si x ≤ 0.

En este caso se escribe X ∼ χ2 (n). El término χ2 se lee ji-cuadrada. La

gráfica de esta función de densidad se muestra en la Figura 6.1.

f (x)
1
2 n=1

n=2
n=3
n=4

Figura 6.1: Función de densidad χ2 (n).

Puede demostrarse que E(X) = n, y Var(X) = 2n. Observe que la distri-

bución χ2 (n) con n = 2 se reduce a la distribución exp(λ) con λ = 1/2.
La distribución ji-cuadrada puede encontrarse como indican los siguientes
resultados.

Proposición. Si X ∼ N(0, 1), entonces X 2 ∼ χ2 (1).

254 6.1. Distribuciones muestrales

Demostración. Para x > 0,

√ 1 √ 1
fX 2 (x) = fX ( x) √ + fX (− x) √
2 x 2 x
√ 1
= fX ( x) √
x
1 −x/2 1
= √ e √
2π x
1/2
1 1
= x1/2−1 e−x/2 .
Γ(1/2) 2

Esta es la función de densidad de la distribución χ2 (1).

La suma de dos o mas variables aleatorias independientes con distribución ji-

cuadrada es nuevamente una variable aleatoria ji-cuadrada, y sus grados de
libertad son la suma de los grados de libertad de cada uno de los sumandos.
Este es el contenido de la siguiente proposición.

Proposición. Sean X1 , . . . , Xm independientes tales que cada Xi tiene

distribución χ2 (ni ), para i = 1, . . . , m. Entonces
m
X
Xi ∼ χ2 (n1 + · · · + nm ).
i=1

Demostración. Es suficiente demostrar el resultado para el caso de dos va-

riables aleatorias. Sean X y Y independientes con distribución ji-cuadrada
con grados de libertad n y m, respectivamente. Este ligero cambio en la
Capı́tulo 6. Dist. muestrales y estadı́sticas de orden 255

notación evitará el uso de subı́ndices. Por la fórmula (5.2), para u > 0,

Z u
fX+Y (u) = fX (u − v)fY (v) dv
0
Z u n/2
1 1
= (u − v)n/2−1 e−(u−v)/2
0 Γ(n/2)
2
m/2
1 1
v m/2−1 e−v/2 dv
Γ(m/2) 2
(n+m)/2
1 1
= e−u/2
Γ(n/2)Γ(m/2) 2
Z u
(u − v)n/2−1 v m/2−1 dv.
0

Haciendo el cambio de variable w(v) = v/u se obtiene

(n+m)/2
1 1
fX+Y (u) = e−u/2 u(n+m)/2−1
Γ(n/2)Γ(m/2) 2
Z 1
(1 − w)n/2−1 wm/2−1 dw.
0

La integral resultante es B(n/2, m/2). Entonces

(n+m)/2
B(n/2, m/2) 1
fX+Y (u) = e−u/2 u(n+m)/2−1
Γ(n/2)Γ(m/2) 2
(n+m)/2
1 1
= e−u/2 u(n+m)/2−1 .
Γ((n + m)/2) 2

Esta es la función de densidad de la distribución χ2 (n + m).

El resultado anterior puede demostrarse de una manera más simple y ele-

gante usando la función generadora de momentos o la función caracterı́stica,
presentadas en el siguiente capı́tulo.
256 6.1. Distribuciones muestrales

Proposición. Sean X1 , . . . , Xn independientes cada una con distribu-

ción N(µ, σ 2 ). Entonces
n
X (Xi − µ)2
∼ χ2 (n).
σ2
i=1

Demostración. Esto es una consecuencia sencilla de las dos proposiciones

anteriores. Como cada una de las variables Xi tiene distribución N(µ, σ 2 ),
para i = 1, . . . , n, entonces (Xi − µ)/σ tiene P
distribución N(0, 1). Por lo
tanto, (Xi − µ)2 /σ 2 ∼ χ2 (1). En consecuencia, ni=1 (Xi − µ)2 /σ 2 ∼ χ2 (n).

Ahora se enuncia un resultado cuya demostración se pospone hasta que se

cuente con la poderosa herramienta de las funciones generadoras de momen-
tos. Este es el contenido del ejercicio 553 en la página 329.

Proposición. Sean X y Y independientes tales que X tiene distribución

χ2 (n), y X + Y tiene distribución χ2 (m) con m > n. Entonces Y tiene
distribución χ2 (m − n).

Con ayuda de esta proposición se demuestra ahora el siguiente resultado de

particular importancia en estadı́stica.

Proposición. Sean X1 , . . . , Xn independientes con distribución

N(µ, σ 2 ). Entonces
n−1 2
S ∼ χ2 (n − 1).
σ2
Capı́tulo 6. Dist. muestrales y estadı́sticas de orden 257

Demostración.
n
X n
X
(Xi − µ)2 = [(Xi − X̄) + (X̄ − µ)]2
i=1 i=1
n
X
= (Xi − X̄)2 + n(X̄ − µ)2 .
i=1

Diviendo entre σ 2 ,
n
X 1 n−1 2 X̄ − µ
2
(Xi − µ)2 = 2
S + ( √ )2 .
σ σ σ/ n
i=1

El término del lado izquierdo tiene distribución χ2 (n), mientras que el se-
gundo sumando del lado derecho tiene distribución χ2 (1). Por la proposición
anterior, y recordando que X̄ y S 2 son independientes, se concluye que el
primer sumando del lado derecho tiene distribución χ2 (n − 1).

Distribución t. La variable aleatoria continua X tiene una distribución t

de Student con n > 0 grados de libertad si su función de densidad está dada
por
Γ((n + 1)/2)
f (x) = √ (1 + x2 /n)−(n+1)/2 , para − ∞ < x < ∞,
nπ Γ(n/2)
cuya gráfica se muestra en la Figura 6.2, cualitativamente es muy parecida
a la densidad normal estándar.

En este caso se escribe X ∼ t(n). Esta distribución apareció por primera

vez en 1908 en un trabajo publicado por William Gosset bajo el el seudóni-
mo de Student. Cuando el valor del parámetro n es igual a uno se obtie-
ne la distribución Cauchy. Se puede demostrar también que E(X) = 0, y
Var(X) = n/(n − 2), para n > 2. La primera igualdad establece que esta
distribución se encuentra siempre centrada en cero para cualquier valor del
parámetro n. Se muestran a continuación algunas formas en las que surge
esta distribución.
258 6.1. Distribuciones muestrales
f (x)
n = 100
n=3
n=1

Figura 6.2: Función de densidad t(n).

Proposición. Sean X ∼ N(0, 1) y Y ∼ χ2 (n) independientes. Entonces

X
p ∼ t(n).
Y /n

Demostración. Por independencia, la función de densidad conjunta de X y

Y es, para y > 0,
n/2
1 2 1 1
fX,Y (x, y) = √ e−x /2 · y n/2−1 e−y/2 .
2π Γ(n/2) 2
p
Se aplica la fórmula (5.1) para la transformación ϕ(x, y) = (x, x/ y/n), con
inversa ϕ−1 (s, t) = (s, ns2 /t2 ). El Jacobiano de la transformación inversa es

∂x/∂s ∂x/∂t 1 0
J(s, t) = = = −2ns2 /t3 .
∂y/∂s ∂y/∂t 2
2sn/t −2ns /t 2 3

Por lo tanto

fS,T (s, t) = fX (s)fY (ns2 /t2 ) · 2ns2 /t3

n/2 n/2−1 n−2
1 −s2 /2 1 1 n s 2 2
= √ e · n−2
e−ns /2t · 2ns2 /t3 .
2π Γ(n/2) 2 t
Capı́tulo 6. Dist. muestrales y estadı́sticas de orden 259

Integrando respecto a s,
Z ∞
1 nn/2 2 (1+n/t2 )/2
fT (t) = √ sn e−s ds.
2π 2n/2−1 Γ(n/2)tn+1 0

Ahora efectuamos el cambio de variable r(s) = s2 (1 + n/t2 )/2, de donde

obtenemos dr = s(1 + n/t2 )ds, y entonces
Z ∞
1 nn/2
fT (t) = √ r (n−1)/2 e−r dr
2π 2n/2−1 Γ(n/2)tn+1 2 1 + n2 (n+1)/2 0
2 2t
Γ((n + 1)/2) 1
= √ ,
nπ Γ(n/2) (1 + t2 /n)(n+1)/2

correspondiente a la función de densidad de la distribución t(n).

El siguiente resultado es usado para efectuar estimaciones de la media de

una población normal cuando la varianza es desconocida.

Proposición. Sea X1 , . . . , Xn una m.a. de una distribución N(µ, σ 2 ).

Entonces
X̄ − µ
√ ∼ t(n − 1).
S/ n

Demostración. Simplemente se aplica la proposición recién demostrada a

las variables aleatorias independientes

X̄ − µ n−1 2
√ ∼ N (0, 1) y S ∼ χ2 (n − 1).
σ/ n σ2

Distribución F. La variable aleatoria continua X tiene una distribución

F de Snedecor con parámetros n > 0 y m > 0 si su función de densidad es
260 6.1. Distribuciones muestrales

 n/2
 Γ((n + m)/2) n n −(n+m)/2
xn/2−1 1 + x

si x > 0,
f (x) = Γ(n/2) Γ(m/2) m m

 0 si x ≤ 0.

Se escribe X ∼ F(n, m). En la Figura 6.3 se muestra el comportamiento de

esta función de densidad.
f (x)
3/4 n=4
m = 100

n=1
m=5
x

Figura 6.3: Función de densidad F (n, m).

Puede demostrarse que

m
E(X) = , para m > 2,
m−2
2m2 (m + n − 2)
y Var(X) = , para m > 4.
n(m − 2)2 (m − 4)

Los siguientes dos resultados indican la forma de obtener esta distribución.

Proposición. Sean X ∼ χ2 (n) y Y ∼ χ2 (m) independientes. Entonces

X/n
∼ F(n, m).
Y /m
Capı́tulo 6. Dist. muestrales y estadı́sticas de orden 261

Demostración. Esta afirmación se obtiene directamente de la aplicación de

la fórmula para la función de densidad del cociente de dos variables aleato-
rias. Recuerde que para n > 0, fX/n (x) = nfX (nx).

Proposición. Si X ∼ t(n), entonces X 2 ∼ F(1, n).

Demostración. El resultado se sigue fácilmente de la aplicación de la si-

guiente fórmula general. Para x > 0, y por la simetrı́a de la distribución t,
√ 1 √ 1 √ 1
fX 2 (x) = fX ( x) √ + fX (− x) √ = fX ( x) √ .
2 x 2 x x

6.2. Estadı́sticas de orden

Dada una muestra aleatoria X1 , . . . , Xn , podemos evaluar cada una de estas

variables en un punto muestral ω cualquiera y obtener una colección de
números reales X1 (ω), . . . , Xn (ω). Estos números pueden ser ordenados de
menor a mayor incluyendo repeticiones. Si X(i) (ω) denota el i-ésimo número
ordenado, tenemos entonces la colección no decreciente de números reales

X(1) (ω) ≤ · · · ≤ X(n) (ω).

Ahora hacemos variar el argumento ω y lo que se obtiene son las ası́ lla-
madas estadı́sticas de orden. Este proceso de ordenamiento resulta ser de
importancia en algunas aplicaciones. Tenemos entonces la siguiente defini-
ción.
262 6.2. Estadı́sticas de orden

Definición. (Estadı́sticas de orden). Sea X1 , . . . , Xn una muestra

aleatoria. A las variables aleatorias ordenadas

X(1) = mı́n {X1 , . . . , Xn },

X(2) = mı́n {X1 , . . . , Xn } \ {X(1) },
X(3) = mı́n {X1 , . . . , Xn } \ {X(1) , X(2) },
..
.
X(n) = máx {X1 , . . . , Xn },

se les conoce con el nombre de estadı́sticas de orden. A X(1) se le llama

primera estadı́stica de orden, a X(2) se le llama segunda estadı́stica de
orden, etc. A X(i) se le llama i-ésima estadı́stica de orden, i = 1, . . . , n.

Observe que, aunque los elementos de la muestra aleatoria son variables

aleatorias independientes, las estadı́sticas de orden no lo son, pues deben
mantener la relación X(1) ≤ X(2) ≤ · · · ≤ X(n) . Observe además que la i-
ésima estadı́stica de orden X(i) no necesariamente es igual a alguna variable
de la muestra aleatoria en particular, sino que, en general, es una función
de todas las variables de la muestra aleatoria.

Nuestro objetivo es encontrar algunas fórmulas relacionadas con las distri-

buciones de probabilidad de las estadı́sticas de orden, cuando se conoce la
distribución de las variables de la muestra aleatoria, que por simplicidad se
supondrá absolutamente continua. En lo que resta del capı́tulo supondremos
entonces que X1 , . . . , Xn es una muestra aleatoria en donde cada variable
tiene función de densidad f (x) y función de distribución F (x).

Distribuciones individuales

Comenzamos encontrando la distribución de la primera y de la última es-

tadı́stica de orden de manera individual.
Capı́tulo 6. Dist. muestrales y estadı́sticas de orden 263

Proposición. Para n ≥ 1,

1. fX(1) (x) = nf (x) [1 − F (x)]n−1 .

2. fX(n) (x) = nf (x) [F (x)]n−1 .

Demostración.
1. Se calcula primero la función de distribución.
FX(1) (x) = P (X(1) ≤ x)
= P (mı́n{X1 , . . . , Xn } ≤ x)
= 1 − P (mı́n{X1 , . . . , Xn } > x)
= 1 − P (X1 > x, . . . , Xn > x)
= 1 − [P (X1 > x)]n
= 1 − [1 − F (x)]n .
Entonces fX(1) (x) = nf (x) [1 − F (x)]n−1 .
2. Se procede de manera análoga.
FX(n) (x) = P (X(n) ≤ x)
= P (máx{X1 , . . . , Xn } ≤ x)
= P (X1 ≤ x, . . . , Xn ≤ x)
= [P (X1 ≤ x)]n
= [F (x)]n .
Por lo tanto fX(n) (x) = nf (x) [F (x)]n−1 .

Ejercicio. Compruebe que las expresiones encontradas para fX(1) y fX(n) son
efectivamente funciones de densidad. Encuentre en particular expresiones para es-
tas funciones de densidad cuando las variables de la muestra tienen distribución
264 6.2. Estadı́sticas de orden

unif(0, 1). ◦

Ahora se presenta el resultado general acerca de la función de densidad de

la i-ésima estadı́stica de orden.

Proposición. La función de densidad de la i-ésima estadı́stica de orden

es
n
fX(i) (x) = i f (x)[F (x)]i−1 [1 − F (x)]n−i .
i

Demostración. Para cada i defina la variable aleatoria

1 si Xi ≤ x,
Yi = 1(−∞,x] (Xi ) =
0 si Xi > x,

en donde Xi es el i-ésimo elemento de la muestra aleatoria. Las variables

Y1 , . . . , Yn son independientes y cada una de ellas puede considerarse un
ensayo Bernoulli con probabilidad de éxito, es decir tomar el valor 1, igual
a P (Xi ≤ x) = F (x). Entonces la suma Y1 + · · · + Yn corresponde al número
de variables aleatorias Xi que cumplen la condición Xi ≤ x, y por lo tanto
esta suma tiene distribución bin(n, p), con p = F (x). Entonces

FX(i) (x) = P (X(i) ≤ x)

= P (Y1 + · · · + Yn ≥ i)
n
X n
= [F (x)]j [1 − F (x)]n−j .
j
j=i
Capı́tulo 6. Dist. muestrales y estadı́sticas de orden 265

Derivando y después simplificando,

n
X n
fX(i) (x) = f (x)[F (x)]j−1 [1 − F (x)]n−j−1
j
j=i
[j(1 − F (x)) − (n − j)F (x)]
n
X n
= jf (x)[F (x)]j−1 [1 − F (x)]n−j
j
j=i
n
X n
− (n − j)f (x)[F (x)]j [1 − F (x)]n−j−1
j
j=i

n
= i f (x)[F (x)]i−1 [1 − F (x)]n−i .
i

Ejercicio. Demuestre que la expresión encontrada para fX(i) (x) es efectivamente

una función de densidad. Verifique que esta densidad se reduce a las encontradas
antes cuando el ı́ndice i toma los valores 1 o n. En particular, encuentre la función
de densidad de la i-ésima estadı́stica de orden suponiendo que las variables de la
muestra tienen distribución unif(0, 1). ◦

A continuación se presenta un argumento corto e intuitivo que nos lleva

al mismo resultado. Sea h > 0 arbitrario, y considere los siguientes tres
intervalos ajenos (−∞, x], (x, x + h] y (x + h, ∞).

i−1 1 n−i

x x+h

La probabilidad de que i − 1 variables de la muestra tomen un valor en el

intervalo (−∞, x], una de ellas en (x, x + h], y el resto n − i en (x + h, ∞)
es, de acuerdo a la distribución multinomial,
n!
[F (x)]i−1 [F (x + h) − F (x)][1 − F (x + h)]n−i .
(i − 1)! 1! (n − i)!
266 6.2. Estadı́sticas de orden

Esta probabilidad es aproximadamente igual a fX(i) (x)h. Dividiendo entre

h, y después haciendo h tender a cero se obtiene nuevamente

n
fX(i) (x) = i f (x)[F (x)]i−1 [1 − F (x)]n−i .
i

Sea X1 , . . . , Xn una muestra aleatoria. A la variable aleatoria R = X(n) −

X(1) se le conoce como el rango de la muestra. El siguiente resultado provee
de una fórmula para la función de densidad de esta variable.

Proposición. Para r > 0,

Z ∞
fR (r) = n(n − 1) f (v)f (r + v)[F (r + v) − F (v)]n−2 dv.
−∞

Demostración. Para x < y,

FX(1) ,X(n) (x, y) = P (X(1) ≤ x, X(n) ≤ y)

= P (X(n) ≤ y) − P (X(n) ≤ y, X(1) > x)
= [F (y)]n − P (x < X1 ≤ y, . . . , x < Xn ≤ y)
= [F (y)]n − [F (y) − F (x)]n .

Por lo tanto, fX(1) ,X(n) (x, y) = n(n − 1)f (x)f (y)[F (y) − F (x)]n−2 , para
n ≥ 2. Ahora se usa la fórmula
Z ∞
fY −X (u) = fX,Y (v, u + v) dv
−∞

equivalente a (5.5) para la diferencia de dos variables aleatorias. Entonces

para r > 0,
Z ∞
fX(n) −X(1) (r) = n(n − 1) f (v)f (r + v)[F (r + v) − F (v)]n−2 dv.
−∞
Capı́tulo 6. Dist. muestrales y estadı́sticas de orden 267

Ejercicio. Se escogen n puntos al azar con distribución uniforme en el intervalo

unitario (0, 1). Demuestre que la función de densidad de la distancia máxima entre
cualesquiera dos puntos es

n(n − 1)rn−2 (1 − r) si 0 < r < 1,
f (r) =
0 otro caso.
◦

Distribuciones conjuntas

Se presentan a continuación dos resultados acerca de la distribución con-

junta de las estadı́sticas de orden. El primer resultado trata acerca de la
distribución conjunta de todas ellas, después se considera la distribución
conjunta de cualesquiera dos.

Proposición. Para x1 < · · · < xn ,

fX(1) ,...,X(n) (x1 , . . . , xn ) = n!f (x1 ) · · · f (xn ).

Demostración. Se considera la función de distribución conjunta de todas las

estadı́sticas de orden, y después se deriva n veces para encontrar la función
de densidad. Para x1 < x2 < · · · < xn ,

FX(1) ,...,X(n) (x1 , . . . , xn ) = P (X(1) ≤ x1 , X(2) ≤ x2 , . . . , X(n) ≤ xn ).

Como (X(2) ≤ x2 ) = (x1 < X(2) ≤ x2 ) ∪ (X(2) ≤ x1 ), se obtiene la expresión

FX(1) ,...,X(n) (x1 , . . . , xn )

= P (X(1) ≤ x1 , x1 < X(2) ≤ x2 , . . . , X(n) ≤ xn )
+ P X(1) ≤ x1 , X(2) ≤ x1 , . . . , X(n) ≤ xn ).
268 6.2. Estadı́sticas de orden

Observe que el segundo sumando no depende de x2 , asi es que al tomar

la derivada respecto de esta variable, este término desaparece. De manera
análoga procedemos con los eventos (X(3) ≤ x3 ) hasta (X(n) ≤ xn ). Al final
se obtiene

fX(1) ,...,X(n) (x1 , . . . , xn )

∂n
= P (X(1) ≤ x1 , x1 < X(2) ≤ x2 , . . . , xn−1 < X(n) ≤ xn ).
∂x1 · · · ∂xn
Como ahora los intervalos involucrados son disjuntos, la distribución multi-
nomial asegura que

P (X(1) ≤ x1 , x1 < X(2) ≤ x2 , . . . , xn−1 < X(n) ≤ xn )

= n! P (X1 ≤ x1 , x1 < X2 ≤ x2 , . . . , xn−1 < Xn ≤ xn )
= n! F (x1 )[F (x2 ) − F (x1 )] · · · [F (xn ) − F (xn−1 )],

en donde la última igualdad se sigue de la independencia e idéntica distribu-

ción de las variables de la muestra. Ahora solo resta derivar para encontrar
el resultado buscado, siendo más sencillo encontrar las derivadas en el orden
inverso.

Ejercicio. Demuestre que la expresión encontrada para la función de densidad

conjunta de las estadı́sticas de orden es efectivamente una función de densidad
multivariada. Encuentre además esta función cuando las variables de la muestra
tienen distribución unif(0, 1). ◦

La siguiente demostración es una prueba corta pero no formal del mismo

resultado. Sea x1 < x2 < · · · < xn , y h > 0 suficientemente pequeña tal que
los intervalos (x1 , x1 + h], (x2 , x2 + h], . . . , (xn , xn + h] son ajenos.

x1 x2 ······ xn
Capı́tulo 6. Dist. muestrales y estadı́sticas de orden 269

La probabilidad de que las variables aleatorias tomen valores, cada una de

ellas, en uno y sólo uno de estos intervalos es, de acuerdo a la distribución
multinomial,
n!
[F (x1 + h) − F (x1 )] · · · [F (xn + h) − F (xn )].
1! · · · 1!
Esta probabilidad es aproximadamente igual a fX(1) ,...,X(n) (x1 , . . . , xn )hn .
Dividiendo entre hn , y después haciendo h tender a cero se obtiene, una vez
mas,
fX(1) ,...,X(n) (x1 , . . . , xn ) = n!f (x1 ) · · · f (xn ).

Ahora nos interesa encontrar una fórmula para la densidad conjunta de

cualesquiera dos estadı́sticas de orden.

Proposición. Suponga i < j. Para x < y,

n
fX(i) ,X(j) (x, y) = i(j − i) f (x)f (y)
i, j − i, n − j
[F (x)]i−1 [F (y) − F (x)]j−i−1 [1 − F (y)]n−j .

Para este resultado se presenta únicamente el argumento intuitivo usado

antes. Sean x < y y considere los intervalos ajenos (−∞, x], (x, x + h],
(x + h, y], (y, y + h], y (y + h, ∞) para h > 0 suficientemente pequeña.

i−1 1 j−i−1 1 n−j

x x+h y y+h

La probabilidad de que i − 1 variables de la muestra tomen un valor en

(−∞, x], una de ellas en (x, x + h], j − i + 1 variables en (x + h, y], otra en
270 6.2. Estadı́sticas de orden

(y, y + h], y el resto, n − j variables, tomen un valor en (y + h, ∞) es, de

acuerdo a la distribución multinomial,
n!
[F (x)]i−1 · [F (x + h) − F (x)]
(i − 1)! 1! (j − i − 1)! 1! (n − j)!
[F (y) − F (x + h)]j−i−1 · [F (y + h) − F (y)] · [1 − F (y + h)]n−j .

Esta probabilidad es aproximadamente igual a fX(i) ,X(j) (x, y) · h · h. Divi-

diendo entre h2 , y después haciendo h tender a cero se obtiene la fórmula
anunciada.

Ejercicio. Demuestre que la expresión encontrada para la función de densidad

conjunta de las estadı́sticas de orden X(i) y X(j) es efectivamente una función
de densidad bivariada. Encuentre además esta función cuando las variables de la
muestra tienen distribución unif(0, 1). ◦
Capı́tulo 6. Dist. muestrales y estadı́sticas de orden 271

6.3. Ejercicios

Media y varianza muestral

454. Sea X1 , . . . , Xn una muestra aleatoria de una distribución con media

µ y varianza σ 2 . Demuestre que E(X̄) = µ y E(S 2 ) = σ 2 . Estos
resultados son de utilidad en estadı́stica y muestran que X̄ y S 2 son
estimadores insesgados para la media y varianza de la distribución.

455. Sea X1 , . . . , Xn una m.a. de una distribución con media µ y varianza

σ 2 . Demuestre que Var(X̄) = σ 2 /n. ¿Cuánto vale Var(S 2 )?

456. Sea X1 , . . . , Xn una m.a. de una distribución Ber(p). Demuestre que

las estadı́sticas X̄ y S 2 no son independientes.

Distribución χ2

457. Demuestre que la función de densidad de la distribución χ2 (n) efec-

tivamente lo es. En particular, compruebe que la distribución χ2 (n),
con n = 2, se reduce a la distribución exp(λ) con λ = 1/2.

458. Demuestre que la distribución gama(n/2, λ), con λ = 1/2, se reduce a

la distribución χ2 (n).

459. Sea X con distribución χ2 (n). Demuestre que

a) E(X) = n.
b) E(X m ) = 2m Γ(m + n/2)/Γ(n/2), para m = 1, 2, . . .
c) Var(X) = 2n.

460. Sean X1 , . . . , Xn independientes cada una con distribución N(µ, σ 2 ).

Demuestre que
(X̄ − µ)2
∼ χ2 (1).
σ 2 /n
272 6.3. Ejercicios

461. Sean X1 , . . . , Xn independientes cada una con distribución normal

estándar. Demuestre que
n
X
Xi2 ∼ χ2 (n).
i=1

462. Sean X1 , . . . , Xn independientes tales que cada variable Xi tiene dis-

tribución N(µi , σi2 ) para i = 1, . . . , n. Demuestre que
n
X (Xi − µi )2
∼ χ2 (n).
i=1
σi2

463. Sean X y Y
√ independientes ambas con distribución normal estándar.
Sean R = X 2 + Y 2 y θ = tan−1 (Y /X). Demuestre que

a) R2 tiene distribución χ2 (n) con n = 2 grados de libertad.

b) tan θ tiene distribución Cauchy.
c) R y θ son independientes.

Distribución t

464. Demuestre que la función de densidad de una variable aleatoria X

con distribución t(n) efectivamente lo es. Demuestre además que esta
función tiene un máximo en x = 0 y que

a) E(X) = 0.
b) Var(X) = n/(n − 2), para n > 2.

Compruebe además que esta distribución se reduce a la distribución

Cauchy cuando el valor del parámetro n es uno.

465. Demuestre que la distribución t(n+1) tiene momentos finitos de orden

menor o igual a n, pero ningún otro momento de orden superior.
Capı́tulo 6. Dist. muestrales y estadı́sticas de orden 273

Distribución F

466. Demuestre que la función de densidad de una variable aleatoria X con

distribución F(n, m) efectivamente lo es. Demuestre además que

a) E(X) = m/(m − 2), para m > 2.

2m2 (m+ n − 2)
b) Var(X) = , para m > 4 .
n(m − 2)2 (m − 4)
467. Sea X con distribución F(n, m). Demuestre que Y = 1/X tiene distri-
bución F(m, n), observe el cambio en el orden de los parámetros. Este
resultado es útil para obtener valores de F que no aparecen en tablas
de esta distribución que son comunes en textos de estadı́stica.

468. Sea X con distribución F(n, m). Demuestre que cuando m tiende a
infinito la función de densidad de nX converge a la función de densidad
de la distribución χ2 (n).

Estadı́sticas de orden: distribuciones individuales

469. Sea X1 , . . . , Xn una m.a. de una distribución unif(0, 1). Demuestre

que la i-ésima estadı́stica de orden tiene distribución beta(i, n + 1 − i).
Encuentre por lo tanto su esperanza y varianza.

470. Sea X1 , . . . , Xn una m.a. de una distribución exp(λ). Encuentre la

función de densidad de la i-ésima estadı́stica de orden.

471. Sean X(1) , X(2) las estadı́sticas de orden de una m.a. de tamaño dos
√
de una distribución N(µ, σ 2 ). Demuestre que E[X(1) ] = µ − σ/ π y
calcule E[X(2) ].

472. Sea X1 , . . . , Xn una m.a. de una distribución F (x). Sea x un número

real cualquiera, y para cada i = 1, . . . , n defina Yi = 1(−∞,x] (Xi ).
Demuestre que las variables Y1 , . . . , Yn son independientes, y cada una
de ellas tiene distribución Ber(n, p), con p = F (x). Este hecho fue
274 6.3. Ejercicios

utilizado en el procedimiento para encontrar la función de densidad

de la i-ésima estadı́stica de orden.

473. Sean X1 y X2 absolutamente continuas e independientes, y defina

Y = máx{X1 , X2 }. Demuestre que

a) FY (y) = FX1 (y)FX2 (y).

b) fY (y) = FX1 (y)fX2 (y) + fX1 (y)FX2 (y).
c) fY (y) = 2F (y)f (y), cuando X1 y X2 tienen la misma distribu-
ción.

474. Use el ejercicio anterior para encontrar la función de densidad de

Y = máx{X1 , X2 } cuando X1 y X2 son independientes cada una con
distribución

a) unif(0, 1).
b) exp(λ).

475. Sean X1 y X2 absolutamente continuas e independientes. Defina Y =

mı́n{X1 , X2 }. Demuestre que

a) FY (y) = 1 − [1 − FX1 (y)][1 − FX2 (y)].

b) fY (y) = [1 − FX1 (y)]fX2 (y) + fX1 (y)[1 − FX2 (y)].
c) fY (y) = 2[1 − F (y)]f (y), cuando X1 y X2 tienen la misma dis-
tribución.

476. Use el ejercicio anterior para encontrar la función de densidad del

mı́nimo de dos variables aleatorias independientes cada una con dis-
tribución uniforme en el intervalo (0, 1).

477. Sean X1 , . . . , Xn variables aleatorias independientes en donde Xk tiene

distribución exp(λk ), para k = 1, . . . , n. Demuestre que la variable
mı́n{X1 , . . . , Xn } tiene distribución exp(λ1 + · · · + λn ), y que P (Xk =
mı́n{X1 , . . . , Xn }) = λk /(λ1 + · · · + λn ).
Capı́tulo 6. Dist. muestrales y estadı́sticas de orden 275

Estadı́sticas de orden: distribuciones conjuntas

478. A partir de la fórmula para fX(1) ,...,X(n) (x1 , . . . , xn ), calcule la función

de densidad marginal de X(1) , encontrando nuevamente que

fX(1) (x) = nf (x)[1 − F (x)]n−1 .

479. A partir de la fórmula para fX(1) ,...,X(n) (x1 , . . . , xn ), calcule la función

de densidad marginal de X(n) , encontrando nuevamente que

fX(n) (x) = nf (x)[F (x)]n−1 .

480. A partir de la fórmula para fX(1) ,...,X(n) (x1 , . . . , xn ), calcule la función

de densidad marginal de X(i) , para i = 1, . . . , n, encontrando nueva-
mente que

n
fX(i) (x) = i f (x)[F (x)]i−1 [1 − F (x)]n−i .
i

481. A partir de la fórmula para fX(i) ,X(j) (x, y), calcule la función de den-
sidad marginal de X(i) , encontrando nuevamente que

n
fX(i) (x) = i f (x)[F (x)]i−1 [1 − F (x)]n−i .
i

482. Sea X1 , . . . , Xn una m.a. de una distribución unif(−1, 1). Encuentre

la función de densidad de
a) X(1) y X(2) conjuntamente.
b) R = X(n) − X(1) .
483. Mediana muestral. La mediana de una muestra aleatoria X1 , . . . , Xn ,
denotada por Med(X1 , . . . , Xn ), se define del siguiente modo. Consi-
dere las estadı́sticas de orden X(1) ≤ X(2) ≤ · · · ≤ X(n) , entonces

 X( n+1

2
) si n es impar,
Med(X1 , . . . , Xn ) = 1

 [ X( n ) + X( n +1) ] si n es par.
2 2 2
276 6.3. Ejercicios

Encuentre la función de densidad de la mediana de una muestra alea-

toria de la distribución unif(0, 1), primero suponiendo que el tamaño
de la muestra n es impar, y después para n par.

484. Sea X1 , . . . , Xn una m.a. de una distribución unif(0, 1). Calcule el

coeficiente de correlación entre X(i) y X(j) .

485. Sea X1 , . . . , Xn una m.a. de una distribución continua F (x) con fun-
ción de densidad f (x). Demuestre directamente que para x < y,

fX(1) ,X(n) (x, y) = n(n − 1)f (x)f (y)[F (y) − F (x)]n−2 .

486. Encuentre la función de densidad conjunta de X(1) y X(n) para una

m.a. de tamaño n de una distribución

a) unif(0, 1).
b) exp(λ).

487. Calcule la covarianza entre X(1) y X(n) para una m.a. de tamaño n de
una distribución

a) unif(0, 1).
b) exp(λ).
Capı́tulo 7

Convergencia

En este capı́tulo se presenta una introducción al tema de convergencia de

variables aleatorias. Se estudian distintas formas en que una sucesión de
variables aleatorias puede converger.

7.1. Tipos de convergencia

Convergencia puntual

Sea X1 , X2 , . . . una sucesión infinita de variables aleatorias. Al evaluar cada

una de estas variables en un elemento ω se obtiene la sucesión numérica
X1 (ω), X2 (ω), . . . Suponga que esta sucesión converge a un cierto número
real denotado por X(ω). Si lo anterior se cumple para todos y cada uno
de los elementos de Ω, entonces se dice que la sucesión de variables aleato-
rias converge puntualmente, y su lı́mite es la función X : Ω → R definida
naturalmente por
X(ω) = lı́m Xn (ω).
n→∞

Se ha demostrado antes que en esta situación la función lı́mite X es efecti-

vamente una variable aleatoria. Formalmente se tiene entonces la siguiente

277
278 7.1. Tipos de convergencia

definición.

Definición. (Convergencia puntual). La sucesión de variables alea-

torias X1 , X2 , . . . converge puntualmente a X si para cada ω en Ω,

lı́m Xn (ω) = X(ω).

n→∞

Ejemplo. Considere el espacio medible ([0, 1], B[0, 1]), y defina la sucesión de
variables aleatorias Xn (ω) = ω n . Como en este caso el espacio muestral es un
subconjunto de números reales, podemos graficar las variables aleatorias como en
la Figura 7.1.

Xn (ω)

1 b

b bc
ω
1
Figura 7.1: Gráfica de la variable aleatoria Xn (ω) = ω n .

Entonces para cada ω ∈ [0, 1), la sucesión numérica Xn (ω) converge a 0, mientras
que para ω = 1, y para cualquier valor de n, Xn (ω) = 1. De esta manera la sucesión
converge puntualmente a la variable aleatoria

0 si ω ∈ [0, 1),
X(ω) =
1 si ω = 1.
◦

Una sucesión de variables aleatorias es entonces una sucesión de funciones,

pero a diferencia de la situación que se estudia en los cursos de análisis
matemático, el dominio de definición de estas funciones, es decir, el espacio
muestral en este caso, no tiene una estructura algebraica excepto la dada
Capı́tulo 7. Convergencia 279

por la σ-álgebra y la medida de probabilidad. La forma en la que se utili-

za esta medida de probabilidad es la que determina los distintos tipos de
convergencia.

En algunas situaciones la convergencia puntual resulta ser una condición

muy fuerte pues se pide la convergencia de la sucesión evaluada en todos y
cada uno de los elementos del espacio muestral. Se puede ser menos estricto
y pedir, por ejemplo, que la convergencia se verifique en todo el espacio Ω
excepto en un subconjunto de probabilidad cero. Este tipo de convergen-
cia menos restrictiva se llama convergencia casi segura, y se estudia en las
siguientes secciones junto con otros tipos de convergencia.

Convergencia casi segura

Definición. (Convergencia casi segura). La sucesión de variables

aleatorias X1 , X2 , . . . converge casi seguramente a X, si

P {ω ∈ Ω : lı́m Xn (ω) = X(ω)} = 1.

n→∞

Es decir, en la convergencia casi segura se permite que para algunos va-

lores de ω, la sucesión numérica X1 (ω), X2 (ω), . . . pueda no converger, sin
embargo el subconjunto de Ω en donde esto suceda debe tener probabili-
c.s.
dad cero. Para indicar la convergencia casi segura se escribe Xn −→ X,
o bien lı́m Xn = X c.s. A menudo se utiliza el término convergencia ca-
n→∞
si dondequiera, o bien convergencia casi siempre para denotar este tipo de
convergencia. Observe que omitiendo el argumento ω, la condición para la
convergencia casi segura se escribe en la forma más corta:

P ( lı́m Xn = X ) = 1,
n→∞

o simplemente P (Xn → X) = 1. Observe también que el conjunto (Xn →

X) debe ser medible para que tenga sentido aplicar la probabilidad. Puede
280 7.1. Tipos de convergencia

demostrarse que bajo este tipo de convergencia, el lı́mite es único casi se-
guramente, es decir, si Xn converge a X c.s. y también converge a Y c.s.,
entonces X = Y casi seguramente.

Ejemplo. Considere el espacio de probabilidad ([0, 1], B[0, 1], P ) con P la medida
uniforme, es decir, la medida de probabilidad de un intervalo es su longitud. Defina
la sucesión de variables aleatorias
(
1 si 0 ≤ ω ≤ 1/n,
Xn (ω) =
0 otro caso.

Cuyas gráficas se muestran en la Figura 7.2.

Xn (ω)

1 b b

bc b
ω
1/n 1
Figura 7.2: Gráfica de la variable aleatoria Xn (ω) = 1[0,1/n] (ω).

La variable Xn tiene distribución Bernoulli con parámetro p = 1/n. La sucesión Xn

converge casi seguramente a la variable aleatoria constante cero. Para demostrar
esto se necesita verificar que P (Xn → 0) = 1. Pero esta igualdad es evidente a
partir del hecho de que el conjunto

{ω ∈ Ω : lı́m Xn (ω) = 0} = (0, 1],

n→∞

tiene probabilidad uno. El punto ω = 0 es el único punto muestral para el cual

c.s.
Xn (ω) no converge a cero. Esto demuestra que Xn −→ 0. ◦
Capı́tulo 7. Convergencia 281

Convergencia en probabilidad

Definición. (Convergencia en probabilidad). La sucesión de va-

riables aleatorias X1 , X2 , . . . converge en probabilidad a X, si para cada
ǫ > 0,
lı́m P {ω ∈ Ω : |Xn (ω) − X(ω)| > ǫ} = 0.
n→∞

p
Para denotar la convergencia en probabilidad se escribe Xn −→ X, y omi-
tiendo el argumento ω la condición se escribe

lı́m P ( |Xn − X| > ǫ ) = 0.

n→∞

Nuevamente puede comprobarse que el lı́mite es único casi seguramente.

Más adelante se demostrará que la convergencia en probabilidad es un tipo
de convergencia aún menos restrictiva que la convergencia casi segura.

Convergencia en media

Definición. (Convergencia en media). La sucesión de variables

aleatorias X1 , X2 , . . . converge en media a X, si

lı́m E|Xn − X| = 0.
n→∞

A este tipo de convergencia también se le llama convergencia en L1 y se le

m L1
denota por Xn −→ X, o Xn −→ X.
282 7.1. Tipos de convergencia

Convergencia en media cuadrática

Definición. (Convergencia en media cuadrática). La sucesión

de variables aleatorias X1 , X2 , . . . converge en media cuadrática a X, si

lı́m E|Xn − X|2 = 0.

n→∞

En la convergencia en media cuadrática se presupone que tanto los elemen-

tos de la sucesión como el lı́mite mismo son variables aleatorias con segundo
momento finito. A este tipo de convergencia también se le llama convergen-
m.c. L2
cia en L2 , y se le denota por Xn −→ X, o Xn −→ X.

Convergencia en distribución

Definición. (Convergencia en distribución). La sucesión de va-

riables aleatorias X1 , X2 , . . . converge en distribución a X, si para todo
punto x en donde la función FX (x) es continua, se cumple que

lı́m FXn (x) = FX (x).

n→∞

d d
En este caso se escribe Xn → X, o bien FXn → FX . A este tipo de conver-
gencia se le conoce también con el nombre de convergencia débil, y ello se
debe a que esta forma de convergencia es la menos restrictiva de todas las
mencionadas anteriormente.

Ejemplo. Considere la sucesión X1 , X2 , . . ., en donde cada Xn tiene distribución

Capı́tulo 7. Convergencia 283

d
N(0, σ 2 /n). Demostraremos que Xn → 0. Como
Z x
1 2 2
FXn (x) = p e−u /2(σ /n) du,
2
2πσ /n −∞

se cumple que 
 0 si x < 0,
lı́m FXn (x) = 1/2 si x = 0,
n→∞ 
1 si x > 0.

Gráficamente la distribución lı́mite se muestra en la Figura 7.3.

FXn (x)
1
bc

bc
x

Figura 7.3: Sucesión y lı́mite de las funciones de distribución FXn (x).

Observe que la variable aleatoria constante X = 0 tiene función de distribución

0 si x < 0,
FX (x) =
1 si x ≥ 0.
d
Tenemos entonces que Xn −→ 0, pues lı́m FXn (x) = FX (x) para todo punto x
n→∞
donde FX (x) es continua, esto es, para todo x en el conjunto R \ {0}. Observe que
las funciones FXn (x) no convergen a F (x) cuando x = 0. ◦

El siguiente resultado particular será usado más adelante para demostrar

la ley débil de los grandes números. El recı́proco es válido sin necesidad
de solicitar que el lı́mite sea constante, esto se demuestra en la siguiente
sección.
d p
Proposición. Sea c una constante. Si Xn −→ c, entonces Xn −→ c.
284 7.1. Tipos de convergencia

Demostración. La función de distribución de la variable aleatoria constante

c es
0 si x < c,
F (x) =
1 si x ≥ c,
que tiene un único punto de discontinuidad en x = c. Suponga entonces que
FXn (x) → F (x) para x 6= c. Para cualquier ǫ > 0 se tiene que

P (|Xn − c| ≥ ǫ) = P (Xn ≤ c − ǫ) + P (Xn ≥ c + ǫ)

≤ P (Xn ≤ c − ǫ) + P (Xn > c + ǫ/2)
= FXn (c − ǫ) + 1 − FXn (c + ǫ/2).

De modo que cuando n tiende a infinito,

P (|Xn − c| ≥ ǫ) → F (c − ǫ) + 1 − F (c + ǫ/2) = 0.

A manera de resumen y sin mayores precisiones, se presenta en la siguiente

tabla las definiciones de los distintos tipos de convergencia mencionados. En
la siguiente sección se estudian las relaciones entre estos tipos de convergen-
cia.

Convergencia Definición

puntual Xn (ω) → X(ω) para cada ω en Ω.

casi segura P (Xn → X) = 1.

en media E|Xn − X| → 0.

en media cuadrática E|Xn − X|2 → 0.

en probabilidad P (|Xn − X| > ǫ) → 0.

en distribución FXn (x) → FX (x) en puntos de

continuidad x de FX .
Capı́tulo 7. Convergencia 285

7.2. Relaciones entre los tipos de convergencia

En esta sección se establecen algunas relaciones generales entre los tipos de

convergencia de variables aleatorias mencionados en la sección anterior. En
la Figura 7.4 se ilustran de manera gráfica estas relaciones.

Conv. Conv.
casi en m. c.
segura
Conv. en m.
Conv. en probabilidad

Conv. en distribución

Figura 7.4: Relación entre los tipos de convergencia.

En este diagrama la contención se interpreta como implicación, por ejemplo,

la convergencia casi segura implica la convergencia en probabilidad, y ésta
a su vez implica la convergencia en distribución. Estos y otros resultados se
demuestran a continuación.

Proposición. Convergencia c.s. ⇒ convergencia en prob.

Demostración. Sea ǫ > 0. Para cada natural n defina los eventos

∞
[
An = (|Xk − X| > ǫ).
k=n

Esta sucesión es decreciente y su lı́mite es entonces la intersección de todos

286 7.2. Relaciones entre los tipos de convergencia

los eventos. Como (|Xn −X| > ǫ) ⊆ An , entonces P (|Xn −X| > ǫ) ≤ P (An ).
Por lo tanto,
lı́m P (|Xn − X| > ǫ) ≤ lı́m P (An )
n→∞ n→∞
= P ( lı́m An )
n→∞
\∞
= P( An )
n=1
= P (|Xn − X| > ǫ, para cada n ≥ 1 )
= P ( lı́m Xn 6= X )
n→∞
= 0.

El recı́proco de la proposición anterior es, en general, falso, es decir, la

convergencia en probabilidad no implica necesariamente la convergencia casi
siempre. Para comprobar esta afirmación se proporciona a continuación un
ejemplo.

Ejemplo. (En general, conv. en prob. =⇒ 6 conv. c.s.). Considere el espacio

de probabilidad ((0, 1), B(0, 1), P ), con P la medida uniforme. Defina los eventos
A1 = (0, 1/2), A2 = (1/2, 1),
A3 = (0, 1/3), A4 = (1/3, 2/3), A5 = (2/3, 1),
A6 = (0, 1/4), A7 = (1/4, 2/4), A8 = (2/4, 3/4), A9 = (3/4, 1),
······
Sea Xn = 1An . Las gráficas de estas primeras variables aleatorias se muestran en
la Figura 7.5.
p
Entonces Xn −→ 0 pues para cualquier ǫ > 0,
lı́m P (|Xn − 0| > ǫ) = lı́m P (An ) = 0.
n→∞ n→∞

Sin embargo la sucesión no converge casi seguramente pues

{w ∈ Ω : lı́m Xn (w) existe } = ∅.
n→∞
Capı́tulo 7. Convergencia 287

X1 X2

1 bc bc
1 bc bc

b bc bc b

1 1
X3 X4 X5

1 bc bc
1 bc bc
1 bc bc

b bc bc b b bc bc b

1 1 1
Figura 7.5: Gráficas de las primeras variables aleatorias Xn = 1An .

Ejemplo. (En general, conv. en media =⇒

6 convergencia c.s.). Considere
m
la sucesión de variables Xn del ejemplo anterior. Entonces Xn −→ 0 pues E|Xn −
0| = P (An ) → 0. Sin embargo esta sucesión no converge c.s. pues P ( lı́m Xn =
n→∞
0) = P (∅) = 0. ◦

El ejemplo anterior sirve también para mostrar que, en general, la conver-

gencia en media cuadrática no implica la convergencia casi segura.

Ejemplo (En general, conv. c.s. =⇒ 6 conv. en media). Considere el es-

pacio ((0, 1), B(0, 1), P ), con P la medida de probabilidad uniforme. Defina la
sucesión Xn = n · 1(0,1/n) . Entonces Xn converge a cero casi seguramente pues
P (lı́m Xn = 0) = P (Ω) = 1. Sin embargo no hay convergencia en media pues
E|Xn − 0| = E(Xn ) = 1 −→ 6 0. ◦

Este ejemplo puede ser usado también para demostrar que la convergencia
casi segura no implica necesariamente la convergencia en media cuadrática.
288 7.2. Relaciones entre los tipos de convergencia

Proposición. Convergencia en m.c. ⇒ convergencia en media.

Demostración. La desigualdad de Jensen establece que para u convexa,

u(E(X)) ≤ E(u(X)).

Tomando u(x) = x2 se obtiene E 2 |Xn − X| ≤ E|Xn − X|2 , de donde se

sigue el resultado. Alternativamente la última desigualdad es consecuencia
de la desigualdad de Cauchy-Schwarz.

Ejemplo. (En general, conv. en media =⇒

6 conv. en m.c.) Sea Xn =
n·1(0,1/n2 ) sobre el espacio ((0, 1), B(0, 1), P ), con P la medida uniforme. Entonces
Xn converge a cero en media pues

E|Xn − 0| = E(Xn ) = n · 1/n2 → 0.

Sin embargo, no hay convergencia en media cuadrática pues

E|Xn − 0|2 = E(Xn2 ) = n2 · 1/n2 = 1 −→

6 0.

Proposición. Convergencia en media ⇒ convergencia en prob.

Demostración. Para cada ǫ > 0 defina el evento An = (|Xn − X| > ǫ).

Entonces

E|Xn − X| = E(|Xn − X| · 1An ) + E(|Xn − X| · 1Acn )

≥ E(|Xn − X| · 1An )
≥ ǫP (|Xn − X| > ǫ).

Por hipótesis, el lado izquierdo tiende a cero cuando n tiende a infinito. Por
lo tanto P (|Xn − X| > ǫ) → 0.
Capı́tulo 7. Convergencia 289

El recı́proco del resultado anterior es, en general, falso.

Ejemplo. (En general, conv. en prob. =⇒

6 conv. en media). Considere
nuevamente el espacio ((0, 1), B(0, 1), P ), con P la medida uniforme, y defina las
variables Xn = n · 1(0,1/n) . Entonces Xn converge en probabilidad a cero pues para
cualquier ǫ > 0, P (|Xn − 0| > ǫ) = P (Xn > ǫ) = 1/n → 0. Sin embargo, la sucesión
no converge en media pues E|Xn − 0| = E(Xn ) = 1 −→ 6 0. ◦

Proposición. Convergencia en prob. ⇒ convergencia en dist.

p
Demostración. Suponga que Xn −→ X, y sea x un punto de continuidad
de FX (x). Para cualquier ǫ > 0,
FXn (x) = P (Xn ≤ x)
= P (Xn ≤ x, |Xn − X| ≤ ǫ) + P (Xn ≤ x, |Xn − X| > ǫ)
≤ P (X ≤ x + ǫ) + P (|Xn − X| > ǫ).
Por hipótesis el segundo sumando del lado derecho tiende a cero cuando n
tiende a infinito. Entonces para cualquier ǫ > 0,
lı́m sup FXn (x) ≤ FX (x + ǫ).
n→∞

Por la continuidad lateral,

lı́m sup FXn (x) ≤ FX (x).
n→∞

Ahora se demuestra la desigualdad inversa. Para cualquier ǫ > 0

FX (x − ǫ) = P (X ≤ x − ǫ)
= P (X ≤ x − ǫ, |Xn − X| ≤ ǫ) + P (X ≤ x − ǫ, |Xn − X| > ǫ)
≤ P (Xn ≤ x) + P (|Xn − X| > ǫ).
Nuevamente el segundo sumando tiende a cero cuando n tiende a infinito.
Entonces
FX (x − ǫ) ≤ lı́m inf FXn (x).
n→∞
290 7.2. Relaciones entre los tipos de convergencia

Por la continuidad en x,
FX (x) ≤ lı́m inf FXn (x).
n→∞

En resumen,
FX (x) ≤ lı́m inf FXn (x) ≤ lı́m sup FXn (x) ≤ FX (x).
n→∞ n→∞

El recı́proco de la proposición anterior no siempre es válido, es decir, la

convergencia en distribución no siempre implica la convergencia en proba-
bilidad.

Ejemplo. (En general, conv. en dist. =⇒ 6 conv. en prob.) Sea X con

distribución normal estándar, y sea

X si n es par,
Xn =
−X si n es impar.
Entonces claramente cada una de las variable Xn también tiene distribución normal
estándar y por lo tanto para cualquier número real x, FXn (x) → FX (x), es decir,
d
Xn −→ X. Sin embargo la sucesión no converge en probabilidad a X, pues para
valores impares de n y para valores pequeños de ǫ > 0,
P (|Xn − X| > ǫ) = P (2|X| > ǫ) > 1/2.

Lo anterior demuestra que lı́m P (|Xn − X| > ǫ) 6= 0. ◦

n→∞

Esto concluye la verificación y ejemplos de todas las implicaciones y no im-

plicaciones que se derivan del diagrama general presentado acerca de las
relaciones entre los tipos de convergencia mencionados. El lector interesado
en profundizar los temas aqui expuestos puede consultar el capı́tulo 5 del
libro de Karr [18], asi como los textos clásicos de teorı́a de la medida [5] o
[14], por ejemplo. Los resultados de convergencia en espacios de probabi-
lidad aqui mencionados pueden no ser válidos en espacios de medida más
generales.
Capı́tulo 7. Convergencia 291

7.3. Dos resultados importantes de convergencia

Sea X1 , X2 , . . . una sucesión de variables aleatorias con esperanza finita.

Suponga que Xn converge casi seguramente a X. Es natural preguntarse si
la sucesión de números E(Xn ) converge a E(X). Tal convergencia numérica
equivaldrı́a a poder intercambiar las operaciones de lı́mite y esperanza, es
decir,
lı́m E(Xn ) = E( lı́m Xn ).
n→∞ n→∞

Por ejemplo, considere el espacio ((0, 1), B(0, 1), P ), con P la medida de
probabilidad uniforme. Hemos considerado antes la sucesión de variables
aleatorias Xn = n · 1(0,1/n) , cuyo lı́mite es X = 0 casi seguramente. Sin
embargo E(Xn ) es siempre 1 y no converge a E(X) = 0. Este es un ejemplo
sencillo en donde no es válido intercambiar la esperanza y el lı́mite.

En esta sección se estudian dos resultados que establecen condiciones bajo

las cuales es válido este intercambio.

Teorema de convergencia monótona. Sea 0 ≤ X1 ≤ X2 ≤ · · ·

una sucesión de variables aleatorias convergente casi seguramente a una
variable X. Entonces

lı́m E(Xn ) = E(X).

n→∞

Demostración. Como 0 ≤ Xn ≤ X, entonces 0 ≤ E(Xn ) ≤ E(X). Por lo

tanto
lı́m E(Xn ) ≤ E(X).
n→∞

Ahora resta demostrar la desigualdad contraria. Primero se aproxima a X

de la siguiente forma. Sea ǫ > 0 arbitrario, y para cada entero k ≥ 0 defina
el evento
Ak = ( kǫ ≤ X < (k + 1)ǫ ).
292 7.3. Dos resultados importantes de convergencia

Esta es una colección de eventos disjuntos dos a dos, cuya unión es Ω. Defina
ahora la variable aleatoria discreta aproximante
Y (ω) = kǫ si kǫ ≤ X(ω) < (k + 1)ǫ.
Observe que Y aproxima a X de la forma: Y ≤ X < Y + ǫ. O bien X − ǫ <
Y ≤ X. Por lo tanto,
E(X) − ǫ ≤ E(Y ) ≤ E(X).

Para cada número natural n defina el evento Bn = (Xn ≥ Y ). No es difı́cil

comprobar que Bn ր Ω. Por lo tanto, para k fijo, Ak ∩ Bn ր Ak cuando
n → ∞, y entonces P (Ak ∩ Bn ) ր P (Ak ). Ahora considere la variable
aleatoria discreta Y · 1Bn dada por

Y (ω) si ω ∈ Bn ,
Y · 1Bn (ω) =
0 si ω ∈
/ Bn .
Entonces 0 ≤ Y · 1Bn ≤ Xn , y por lo tanto 0 ≤ E(Y · 1Bn ) ≤ E(Xn ).
Entonces
lı́m E(Xn ) ≥ lı́m E(Y · 1Bn )
n→∞ n→∞
∞
X
= lı́m E(Y · 1Bn ∩Ak )
n→∞
k=0
X∞
= lı́m kǫ · P (Bn ∩ Ak )
n→∞
k=0
Xm
≥ lı́m kǫ · P (Bn ∩ Ak )
n→∞
k=0
m
X
= kǫ · P (Ak ).
k=0

Como esta desigualdad es válida para cualquier m ≥ 0, se obtiene

∞
X
lı́m E(Xn ) ≥ kǫ · P (Ak ) = E(Y ) ≥ E(X) − ǫ.
n→∞
k=0
Capı́tulo 7. Convergencia 293

Dado que ǫ > 0 es arbitrario, se concluye que

lı́m E(Xn ) ≥ E(X).
n→∞

El siguiente resultado establece otro tipo de condición suficiente para obte-

ner la misma conclusión.

Teorema de convergencia dominada. Sea X1 , X2 , . . . una sucesión

de variables aleatorias para la cual existe otra variable Y integrable tal
que |Xn | ≤ Y , para n ≥ 1. Si lı́m Xn = X c.s., entonces X y Xn son
n→∞
integrables y
lı́m E(Xn ) = E(X).
n→∞

Demostración. Sea Yn = ı́nf{Xn , Xn+1 , . . .}. Entonces Yn ր X cuando n →

∞. Por lo tanto (Yn + Y ) ր (X + Y ), en donde Yn + Y ≥ 0, pues como
−Xn ≤ Y , entonces Xn ≥ −Y para toda n, y por lo tanto Yn ≥ −Y . Por el
teorema de convergencia monótona, E(Yn + Y ) ր E(X + Y ). De donde se
obtiene
E(Yn ) ր E(X).
Sea ahora Zn = sup{Xn , Xn+1 , . . .}. Entonces Zn ց X cuando n → ∞. Por
lo tanto (Y − Zn ) ր (Y − X), en donde Y − Zn ≥ 0, pues como Xn ≤ Y
para toda n, entonces Zn ≤ Y . Por el teorema de convergencia monótona,
E(Y − Zn ) ր E(Y − X). De donde se obtiene
E(Zn ) ց E(X).
Ahora observe que Yn ≤ Xn ≤ Zn . Por lo tanto E(Yn ) ≤ E(Xn ) ≤ E(Zn ).
Al hacer n tender a infinito se obtiene el resultado.

Estos dos teoremas son herramientas fuertes en la teorı́a de la probabilidad.

En particular, se usarán en la última parte del curso para formalizar algunas
demostraciones.
294 7.4. Ejercicios

7.4. Ejercicios

Convergencia casi segura

488. Demuestre que en la convergencia casi segura, el lı́mite es único casi

c.s. c.s.
seguramente, es decir, si Xn −→ X, y Xn −→ Y , entonces X = Y
casi seguramente.
c.s.
489. Sean a y b constantes. Demuestre que si Xn −→ X, entonces
c.s.
aXn + b −→ aX + b.

c.s. c.s.
490. Demuestre que si Xn −→ X y Yn −→ Y , entonces
c.s.
a) Xn + Yn −→ X + Y.
c.s.
b) Xn Yn −→ XY.

491. Considere el espacio de probabilidad ([0, 1], B[0, 1], P ), con P la medi-
da de probabilidad uniforme. Demuestre que la sucesión Xn = n1[0,1/n)
converge casi seguramente a la variable aleatoria constante cero.

492. Condición equivalente para la convergencia casi segura.

c.s.
Demuestre que Xn −→ X si, y sólo si, para cualquier ǫ > 0,

P ( |Xn − X| > ǫ para una infinidad de valores de n ) = 0.

493. P
Use el ejercicio anterior para demostrar que si para cualquier ǫ > 0,
∞ c.s.
n=1 P (|Xn − X| > ǫ) < ∞, entonces Xn −→ X.

Convergencia en probabilidad

494. Demuestre que en la convergencia en probabilidad, el lı́mite es único

p p
casi seguramente, es decir, si Xn −→ X, y Xn −→ Y , entonces X = Y
casi seguramente.
Capı́tulo 7. Convergencia 295

495. Considere el espacio de probabilidad ((0, 1], B(0, 1], P ), en donde P

es la medida de probabilidad uniforme. Defina las variables aleatorias
discretas
n
X k
Xn = 1 k−1 k .
n ( m ,n]
k=1

Demuestre que Xn converge en probabilidad a una variable aleatoria

con distribución uniforme en el intervalo (0, 1].
p
496. Sean a y b constantes. Demuestre que si Xn −→ X, entonces
p
aXn + b −→ aX + b.

p p
497. Suponga que Xn −→ x y Yn −→ y, en donde x y y son dos números
reales fijos. Demuestre que
p
a) Xn + Yn −→ x + y.
p
b) Xn Yn −→ xy.
p
c) Si g es continua en x, entonces g(Xn ) −→ g(x).
p p
498. Demuestre que si Xn −→ X y Yn −→ Y , entonces
p
a) Xn + Yn −→ X + Y .
p
b) Xn Yn −→ XY .

499. Sean X1 , X2 , . . . variables aleatorias independientes cada una con dis-

tribución unif[a, b]. Demuestre que cuando n tiende a infinito
p
a) mı́n{X1 , . . . , Xn } −→ a.
p
b) máx{X1 , . . . , Xn } −→ b.
p p
500. Demuestre que si Xn −→ X, entonces Xn2 −→ X 2 .
296 7.4. Ejercicios

Convergencia en media

501. Demuestre que en la convergencia en media, el lı́mite es único casi

m m
seguramente, es decir, si Xn −→ X, y Xn −→ Y , entonces X = Y
casi seguramente.
m
502. Sean a y b constantes. Demuestre que si Xn −→ X, entonces
m
aXn + b −→ aX + b.

m m m
503. Suponga que Xn −→ X y Yn −→ Y . Demuestre que Xn + Yn −→ X +
m
Y . Proporcione un contraejemplo para la afirmación: Xn Yn −→ XY .
m
504. Demuestre que si Xn −→ X, entonces E(Xn ) → E(X).

Convergencia en media cuadrática

505. Demuestre que en la convergencia en media cuadrática, el lı́mite es

m.c. m.c.
único casi seguramente, es decir, si Xn −→ X, y Xn −→ Y , entonces
X = Y casi seguramente.
m.c.
506. Sean a y b constantes. Demuestre que si Xn −→ X, entonces
m.c.
aXn + b −→ aX + b.

m.c.
507. Use la desigualdad de Cauchy-Schwarz para demostrar que si Xn −→
m.c.
X y Yn −→ Y , entonces
m.c.
Xn + Yn −→ X + Y.

m.c.
508. Demuestre que si Xn −→ X, entonces E(Xn2 ) → E(X 2 ).
Capı́tulo 7. Convergencia 297

Convergencia en distribución

509. Demuestre que en la convergencia en distribución, el lı́mite es único

d d
en distribución, es decir, si Xn −→ X, y Xn −→ Y , entonces X y Y
tienen la misma distribución.
d d
510. Sea c una constante y suponga que Xn −→ X y Yn −→ Y . Demuestre
que
d
a) cXn −→ cX.
d
b) Xn + c −→ X + c.
d
c) Xn + Yn −→ X + Y .
d d
511. Demuestre que si Xn −→ X y Yn −→ Y , entonces no necesariamente
d
Xn + Yn −→ X + Y.

512. Demuestre que

d p
a) si Xn −→ 0, entonces Xn −→ 0.
d d d
b) si Xn −→ 0 y Yn −→ 0, entonces Xn + Yn −→ 0.
d d d
c) si Xn −→ 0 y Yn −→ 0, entonces Xn Yn −→ 0.
513. Considere el espacio de probabilidad ([0, 1], B[0, 1], P ) en donde P es
la medida de probabilidad uniforme. Demuestre que la sucesión Xn =
1[0,1/2+1/n) converge en distribución a la variable aleatoria X = 1[0,1/2] .
514. Sea Xn con distribución unif[a − 1/n, a + 1/n], en donde a es una
d
constante. Demuestre que Xn −→ a.
515. Sea Xn con distribución uniforme en el conjunto {0, 1, . . . , n}, y sea
X continua con distribución uniforme en el intervalo [0, 1]. Demuestre
que
1 d
Xn −→ X.
n
298 7.4. Ejercicios

Relaciones entre los tipos de convergencia

516. Otro ejemplo de que la conv. casi segura no implica la

conv. en media. Sea X1 , X2 , . . . una sucesión de variables aleato-
rias independientes e idénticamente distribuidas tales que para cada
número natural n,

P (Xn = 0) = 1/4,
P (Xn = 1) = 1/2,
y P (Xn = 2) = 1/4.

Defina Yn = X1 · X2 · · · Xn . Demuestre que Yn converge a cero, casi

seguramente, pero no ası́ en media, ni en media cuadrática.

517. Sea A1 , A2 , . . . una sucesión de eventos convergente al evento A. ¿En

qué sentido la sucesión de variables aleatorias 1An converge a 1A ?

518. Sea Xn con distribución N(µn , σn2 ) y X con distribución N(µ, σ 2 ). Su-
ponga µn → µ y σn2 → σ 2 , con σn2 , σ 2 > 0. ¿En qué sentido Xn → X?
Capı́tulo 8

Funciones generadoras

En este capı́tulo se estudia la función generadora de probabilidad, la función

generadora de momentos y la función caracterı́stica. Estas funciones son
transformaciones de las distribuciones de probabilidad, y constituyen una
herramienta muy útil en la teorı́a moderna de la probabilidad.

8.1. Función generadora de probabilidad

Definición. (Función generadora de probabilidad). La función

generadora de probabilidad de una variable aleatoria X es la función

G(t) = E(tX ),

definida para valores reales de t tal que la esperanza sea convergente

absolutamente.

Cuando sea necesario especificarlo se escribe GX (t) en lugar de G(t), y se

usan las letras f.g.p. en lugar de función generadora de probabilidad. Es-
ta función se utiliza principalmente, aunque no únicamente, en el caso de
variables aleatorias con valores enteros. Sin pérdida de generalidad supon-

299
300 8.1. Función generadora de probabilidad

dremos que éstas toman valores en el conjunto {0, 1, . . .}, que corresponde
al caso de las variables aleatorias discretas estudiadas en este curso. En tal
situación,
X∞
G(t) = tk P (X = k).
k=0

Es decir, la f.g.p. es una serie de potencias en t, con coeficientes dados por

la distribución de probabilidad, por ende el nombre de dicha función. Es
importante observar que el radio de convergencia de esta serie es por lo
menos uno, pues para |t| < 1,
∞
X ∞
X
|G(t)| ≤ |t|k P (X = k) ≤ P (X = k) = 1.
k=0 k=0

Calculando la k-ésima derivada puede comprobarse además que a partir de

la f.g.p. puede reconstruirse la función de densidad a traves de la fórmula
P (X = k) = G(k) (0)/k!

Ejemplo. Sea X con distribución Poisson(λ). La f.g.p. de X está definida para

todo valor real de t y puede calcularse de la siguiente forma.
∞ ∞
X
k −λ λk X (λt)k
G(t) = t e = e−λ = e−λ eλt = e−λ(1−t) .
k! k!
k=0 k=0

En la siguiente tabla se muestran ejemplos de funciones generadoras de

probabilidad para algunas distribuciones discretas.
Capı́tulo 8. Funciones generadoras 301

Distribución Función generadora de probabilidad

unif{x1 , . . . , xn } G(t) = (tx1 + · · · + txn )/n

Ber(p) G(t) = 1 − p + pt
bin(n, p) G(t) = (1 − p + pt)n
geo(p) G(t) = p/[1 − t(1 − p)]
Poisson(λ) G(t) = e−λ(1−t)
bin neg(r, p) G(t) = (p/[1 − t(1 − p)])r

La función generadora de probabilidad determina de manera única a la

distribución en el siguiente sentido. Si X y Y tienen la misma distribución
de probabilidad, entonces naturalmente GX (t) = GY (t), para valores de t
donde esta esperanza exista. Inversamente, sean X y Y tales que GX (t) y
GY (t) existen y coinciden en algún intervalo no trivial alrededor del cero,
entonces X y Y tienen la misma distribución. Estas y otras propiedades
generales de la f.g.p. se estudian a continuación, más adelante se ilustran
estos resultados con algunos ejemplos.
302 8.1. Función generadora de probabilidad

Proposición. (Propiedades de la f.g.p.).

1. Sean X y Y variables aleatorias con valores en {0, 1, . . .} tales que

GX (t) y GY (t) existen y coinciden en algún intervalo alrededor de
t = 0. Entonces X y Y tienen la misma distribución de probabili-
dad.

2. Si el n-ésimo momento factorial de X existe, entonces

dn
lı́m GX (t) = E[X(X − 1) · · · (X − n + 1)].
tր1 dtn

3. Sean X y Y independientes con f.g.p. GX (t) y GY (t) respectiva-

mente, entonces GX+Y (t) = GX (t) GY (t).

Demostración.

1. Para cada k ≥ 0, sean ak = P (X = k) y bk = P (Y = k). La igualdad

GX (t) = GY (t) se escribe de la forma:
∞
X ∞
X
k
t ak = tk bk .
k=0 k=0

Para que estas dos series de potencias en t coincidan en algún inter-

valo no trivial alrededor del cero, sus coeficientes deben forzosamente
coincidir, es decir, ak = bk para cada k ≥ 0. Esto significa que las
distribuciones de probabilidad coinciden.

2. Como las series de potencia se pueden derivar término a término con-

Capı́tulo 8. Funciones generadoras 303

servándose el mismo radio de convergencia, se tiene que

∞
′ d X k
G (t) = t P (X = k)
dt
k=0
∞
X d k
= t P (X = k)
dt
k=0
∞
X
= ktk−1 P (X = k).
k=1

Como por hipótesis la esperanza existe, por el lema de Abel (ver

apéndice),
∞
X
lı́m G′ (t) = kP (X = k) = E(X).
tր1
k=1
Para la segunda derivada se tiene
∞
X
G′′ (t) = k(k − 1)tk−2 P (X = k),
k=2

de modo que cuando el segundo momento existe,

∞
X
′′
lı́m G (t) = k(k − 1)P (X = k) = E(X(X − 1)).
tր1
k=2

De manera análoga se demuestra para las derivadas de orden superior.

3. Cuando X y Y son independientes,

GX+Y (t) = E(tX+Y ) = E(tX tY ) = E(tX ) E(tY ) = GX (t) GY (t).

Ejemplo. Se ha encontrado que la f.g.p. de una variable aleatoria X con dis-

tribución Poisson(λ) es G(t) = e−λ(1−t) . Usando esta función encontraremos la
304 8.2. Función generadora de momentos

esperanza y varianza de X. Al derivar una vez se obtiene G′ (t) = λe−λ(1−t) , y

al evaluar en t = 1, E(X) = G′ (1) = λ. Derivando por segunda vez, G′′ (t) =
λ2 e−λ(1−t) , y en t = 1 se obtiene E(X(X − 1)) = G′′ (1) = λ2 . Por lo tanto
Var(X) = E(X 2 ) − E 2 (X) = λ2 + λ − λ2 = λ. ◦

Debido a la segunda propiedad, a la f.g.p. también se le conoce como función

generadora de momentos factoriales. Ahora se muestra el uso de esta función
para determinar la distribución de una variable aleatoria, el procedimiento
es elegante y sencillo.

Ejemplo. Suponga que X y Y son independientes con distribución Poisson(λ1 ) y

Poisson(λ2 ), respectivamente. Entonces
MX+Y (t) = MX (t) MY (t) = e−λ1 (1−t) e−λ2 (1−t) = e−(λ1 +λ2 )(1−t) .

Esta expresión corresponde a la f.g.p. de la distribución Poisson con parámetro

λ1 + λ2 . Debido a la unicidad, X + Y tiene distribución Poisson(λ1 + λ2 ). ◦

La definición de función generadora de probabilidad puede extenderse al

caso de vectores aleatorios de la siguiente forma. La f.g.p. del vector (X, Y )
es la función GX,Y (s, t) = E(sX tY ), para valores reales de s y t donde
esta esperanza sea absolutamente convergente. Puede demostrarse que las
variables X y Y son independientes si, y sólo si, GX,Y (s, t) = GX (s) GY (t).
La definición de f.g.p. para vectores de dimensión mayor es análoga.

8.2. Función generadora de momentos

Esta es otra función que se puede asociar a algunas distribuciones de pro-

babilidad. Su existencia no está garantizada en todos los casos, pero cuando
existe, determina de manera única a la distribución de probabilidad asocia-
da, y tiene propiedades semejantes a las de la función generadora de proba-
bilidad. La función generadora de momentos se utiliza tanto para variables
aleatorias discretas como continuas.
Capı́tulo 8. Funciones generadoras 305

Definición. (Función generadora de momentos). La función ge-

neradora de momentos de la variable aleatoria X es la función

M (t) = E(etX ),

definida para valores reales de t tales que la esperanza es absolutamente

convergente.

Nuevamente, cuando sea necesario especificarlo se escribe MX (t) en lugar

de M (t), y se usan las letras f.g.m. en lugar del término función generadora
de momentos. La parte importante de esta función es su existencia en una
vecindad no trivial alrededor del cero. Observe que la f.g.m. y la f.g.p. están
relacionadas, cuando existen, por la igualdad M (t) = G(et ).

Ejemplo. Sea X con distribución gama(n, λ). Entonces la f.g.m. de X puede

calcularse de la siguiente forma.
Z ∞
(λx)n−1
M (t) = etx λe−λx dx
0 Γ(n)
Z ∞
[(λ − t)x]n−1
= λn (λ − t)−n (λ − t)e−(λ−t)x dx
0 Γ(n)
= [λ/(λ − t)]n .

La última integral vale uno pues el integrando es la función de densidad de una

distribución gama. Observe que M (t) esta definida únicamente para valores de t
menores que λ. ◦

La siguiente tabla muestra algunos otros ejemplos de funciones generadoras

de momentos para ciertas distribuciones continuas.
306 8.2. Función generadora de momentos

Distribución Función generadora de momentos

unif(a, b) M (t) = (ebt − eat )/(bt − at)

exp(λ) M (t) = λ/(λ − t)
gama(n, λ) M (t) = [λ/(λ − t)]n

N(µ, σ 2 ) M (t) = exp(µt + σ 2 t2 /2)

χ2 (n) M (t) = (1 − 2t)−n/2
t(n) M (t) no existe para t 6= 0

Se demuestran a continuación algunas propiedades básicas de la f.g.m., y

después se muestra su utilidad mediante algunos ejemplos.

Proposición. Sea X con f.g.m. M (t) finita para cada t ∈ (−s, s), para
algún s > 0. Entonces

1. Todos los momentos de X son finitos.

∞
X tn
2. M (t) = E(X n ).
n=0
n!

3. M (t) tiene derivadas continuas de cualquier orden en (−s, s), y se

cumple
dn
n
M (t) = E(X n ).
dt t=0

Demostración.
Capı́tulo 8. Funciones generadoras 307

1. La prueba se basa en las identidades:

Z ∞ Z 0
E |X|n = n (1 − F (x)) xn−1 dx + n F (x) |x|n−1 dx,
0 −∞
Z ∞ Z0
y M (t) = 1 + t (1 − F (x)) etx dx − t F (x) etx dx,
0 −∞

en donde, por hipótesis, las dos integrales de M (t) son finitas para
cualquier t ∈ (−s, s). Demostraremos que cada integral de la expresión
de E|X|n es menor o igual a la correspondiente integral de M (t). Para
el caso x > 0 se toma cualquier t ∈ (0, s), y entonces

(tx)n
≤ etx .
n!
Es decir, xn ≤ (n!/tn )etx . De modo que, salvo constantes, la primera
integral de E|X|n es menor o igual a la primera integral de M (t),
siendo ésta última finita, la primera también. Para el caso x < 0
conviene tomar t ∈ (−s, 0), pues en tal caso tx > 0 y entonces

|tx|n
≤ e|tx| = etx .
n!
Es decir, |x|n ≤ (n!/|t|n )etx . Ahora la segunda integral de E|X|n es
menor o igual a la segunda integral de M (t), siendo ésta última finita,
la primera también. De esta forma todos los momentos de X existen
cuando M (t) es finita en algún intervalo no trivial alrededor del cero.

2. Se usa la fórmula
Z ∞ Z 0
n n−1
E(X ) = n (1 − F (x)) x dx − n F (x) xn−1 dx.
0 −∞
308 8.2. Función generadora de momentos

Entonces para cualquier t ∈ (−s, s), y m ≥ 1,

m m n Z ∞
X tn n
X t
E(X ) = 1 + n (1 − F (x)) xn−1 dx
n=0
n! n=1
n! 0
m n Z 0
X t
− n F (x) xn−1 dx
n! −∞
n=1
Z ∞ m−1
X tn
= 1+t (1 − F (x)) xn dx
0 n!
n=0
Z 0 m−1
X tn
−t F (x) xn dx.
−∞ n!
n=0

Usando el teorema de convergencia monótona, o el de convergencia

dominada, dependiendo de los valores de t y x, cada una de estas
integrales es convergente, para cualquier t ∈ (−s, s), cuando se hace
m tender a infinito. De modo que
∞ Z ∞ Z 0
X tn
E(X n ) = 1 + t (1 − F (x)) · etx dx − t F (x) · etx dx
n! 0 −∞
n=0
= M (t).

3. Dado que M (t) se puede expresar como una serie de potencias en t,

diferenciando y evaluando en cero se obtienen los coeficientes E(X n ).

Nota importante. El hecho de que el n-ésimo momento de una variable

aleatoria exista, no implica que éste puede ser hallado a través de la n-
ésima derivada de la f.g.m. evaluada en cero. Es decir, es necesario conocer
la existencia de la f.g.m. para que pueda ser utilizada para obtener los
momentos. Por ejemplo, una variable aleatoria con distribución t(n) tiene
esperanza cero pero su f.g.m. M (t) no existe para t distinto de cero.
Capı́tulo 8. Funciones generadoras 309

Ejemplo. Sea X con distribución gama(n, λ). Hemos encontrado antes que pa-
ra t < λ, M (t) = λn (λ − t)−n . Calcularemos ahora la esperanza y varianza
de X con ayuda de la f.g.m. Derivando una vez, M ′ (t) = λn n(λ − t)−n−1 . Al
evaluar en t = 0 se obtiene E(X) = n/λ. Derivando nuevamente, M ′′ (t) =
λn n(n + 1)(λ − t)−n−2 . Por lo tanto E(X 2 ) = M ′′ (0) = n(n + 1)/λ2 . Entonces
Var(X) = n(n + 1)/λ2 − n2 /λ2 = n/λ2 . ◦

Ejemplo. Suponga ahora que X y Y son independientes cada una con distribución
gama(n, λ) y gama(m, λ), respectivamente. Entonces la f.g.m. de X + Y es
MX+Y (t) = MX (t) MY (t) = λn (λ − t)−n λm (λ − t)−m = λn+m (λ − t)−n−m .

Esta es la expresión de la f.g.m. de la distribución gama, ahora con parámetros

n + m y λ. Se concluye entonces X + Y tiene distribución gama(n + m, λ). ◦

Nuevamente, es sencillo demostrar que la función generadora de la suma

de dos variables aleatorias independientes es el producto de las funciones
generadoras individuales.

Proposición. Sean X y Y son independientes, y cuyas f.g.m. existen

en una vecindad no trivial alrededor del cero. Entonces para cualquier
t ∈ (−s, s) para algún s > 0,

MX+Y (t) = MX (t) MY (t).

Demostración.
MX+Y (t) = E(et(X+Y ) ) = E(etX etY ) = E(etX ) E(etY ) = MX (t) MY (t).

Es interesante observar que la condición MX+Y (t) = MX (t) MY (t) no es

suficiente para concluir que X y Y son independientes. Esta afirmación
310 8.2. Función generadora de momentos

puede comprobarse considerando el caso cuando

f (x, y) = [1 + xy(x2 − y 2 )]/4, para − 1 < x, y < 1.

Como hemos mencionado antes, no todas las distribuciones de probabilidad

permiten calcular la función generadora de momentos dentro de un interva-
lo no trivial alrededor del cero, ni todos los cálculos son tan sencillos como
en el ejemplo mostrado. Como ya se ha mencionado antes, la f.g.m. de la
distribución Cauchy estándar no existe para valores de t distintos de cero,
esto se pide comprobar en el ejercicio 557. Cuando se tienen dos variables
X y Y con la misma distribución, entonces sus funciones generadoras de
momentos coinciden pues éstas de obtienen a través de la función de dis-
tribución común. Por el contrario, si MX (t) = MY (t) en una vecindad no
trivial alrededor del cero, entonces puede demostrarse que sus distribuciones
coinciden, este resultado y otro relativo a convergencia es el contenido de la
siguiente proposición, cuya demostración omitiremos.

Proposición.

1. (Unicidad). Las variables X y Y tienen la misma distribución si,

y sólo si, MX (t) = MY (t) para valores de t en una vecindad no
trivial alrededor del cero.

2. (Continuidad). Sea X1 , X2 , . . . una sucesión de variables aleato-

rias cuyas funciones generadoras de momentos existen todas ellas
en algún intervalo no trivial alrededor del cero. Sea X con f.g.m.
d
MX (t). Entonces Xn → X si, y sólo si, MXn (t) → MX (t).

Para el caso de vectores aleatorios se tiene la siguiente definición. La fun-

ción generadora de momentos del vector (X, Y ) es la función MX,Y (s, t) =
E(esX etY ), para valores reales de s y t donde esta esperanza sea absoluta-
mente convergente. Puede demostrarse que las variables X y Y son inde-
pendientes si, y sólo si, MX,Y (s, t) = MX (s) MY (t). La definición de f.g.m.
para vectores de dimensión mayor es análoga.
Capı́tulo 8. Funciones generadoras 311

En la sección de ejercicios se pueden encontrar las funciones generadoras de

momentos de algunas otras distribuciones de probabilidad, tanto discretas
como continuas, ası́ como en el primer apéndice al final del libro.

8.3. Función caracterı́stica

Esta es una función definida para cada distribución de probabilidad, y a

diferencia de las funciones generadoras de probabilidad y de momentos es-
tudiadas antes, siempre existe.

Definición. (Función caracterı́stica). La función caracterı́stica de

la variable aleatoria X es la función

φ(t) = E eitX ,

definida para cualquier número real t. El número i es la unidad de los

números imaginarios.

Observe que la transformación X 7→ eitX lleva una variable aleatoria real X

a una variable aleatoria con valores en los números complejos de la forma
cos(tX) + isen(tX), en donde cada parte de este número complejo es una
variable aleatoria real, es decir, se trata de un vector aleatorio bidimensional
como los estudiados anteriormente. La función caracterı́stica puede entonces
escribirse en la forma

φ(t) = E(cos tX) + iE(sen tX).

Nuevamente se escribe φX (t) cuando sea necesario especificar que se trata de

la función caracterı́stica de X, y se escribe simplemente f.c. en lugar de fun-
ción caracterı́stica. Observe que la f.c., la f.g.m. y la f.g.p. están relacionadas,
cuando existen las dos últimas, por las igualdades φ(t) = M (it) = G(eit ).
Se muestran a continuación algunos ejemplos de la forma de encontrar la
función caracterı́stica a partir de una distribución de probabilidad.
312 8.3. Función caracterı́stica

Ejemplo. Sea X con distribución bin(n, p). Entonces

φ(t) = E(eitX )
n
X
itx n
= e px (1 − p)n−x
x
x=0
n
X n
= (peit )x (1 − p)n−x
x
x=0
= (1 − p + peit )n .

Ejemplo. Sea X con distribución Poisson(λ). Entonces

φ(t) = E(eitX )
∞
X λx
= eitx [ e−λ ]
x=0
x!
∞
X (λeit )x
= e−λ
x=0
x!
it
= e−λ(1−e ) .

Otros ejemplos de funciones caracterı́sticas de distribuciones discretas se

muestra en la siguiente tabla. El lector puede comprobar cada una de estas
expresiones.
Capı́tulo 8. Funciones generadoras 313

Distribución Función caracterı́stica

Ber(p) φ(t) = 1 − p + peit

bin(n, p) φ(t) = (1 − p + peit )n
it
Poisson(λ) φ(t) = e−λ(1−e )

geo(p) φ(t) = p/(1 − (1 − p)eit )

bin neg(r, p) φ(t) = [p/(1 − (1 − p)eit )]r

Ahora se mostrará la forma de encontrar la función caracterı́stica para dos

distribuciones continuas: la distribución normal y la distribución gama.

Ejemplo. Sea X con distribución N(µ, σ2 ). Entonces

φ(t) = E(eitX )
Z ∞
1 2 2
= eitx · √ e−(x−µ) /2σ dx
−∞ 2πσ 2
Z ∞
1 2 2 2 2
= √ e−(x −2x(µ−itσ )+µ )/2σ dx
2πσ 2
−∞
Z ∞
(−µ +(µ−itσ2 )2 )/2σ2
2 1 2 2 2
= e √ e−[x−(µ−itσ )] /2σ dx
−∞ 2πσ 2
2
σ2 /2
= eitµ−t .

Observe que el último integrando es la función de densidad normal con media el

número complejo µ−itσ 2 , y varianza σ 2 . El hecho de que esta integral también vale
uno puede comprobarse, por ejemplo, usando el principio de continuación analı́tica
de la teorı́a de variable compleja. ◦
314 8.3. Función caracterı́stica

Ejemplo. Sea X con distribución gama(n, λ). Entonces

φ(t) = E(eitX )
Z ∞
(λx)n−1 −λx
= eitx · λe dx
Γ(n)
Z0 ∞
λ
= (λx)n−1 e−(λ−it)x dx
0 Γ(n)
Z ∞
λn [(λ − it)x]n−1
= n
(λ − it) e−(λ−it)x dx
(λ − it) 0 Γ(n)
λ n
= ( ) .
λ − it
El último integrando es la función de densidad de la distribución gama(z, λ − it).
Nuevamente usando la teorı́a de variable compleja puede demostrarse rigurosamen-
te que esta integral también vale uno. ◦

La siguiente tabla muestra algunos otros ejemplos de funciones caracterı́sti-

cas para variables aleatorias continuas.

Distribución Función caracterı́stica

unif(a, b) φ(t) = (eibt − eiat )/(ibt − iat)

exp(λ) φ(t) = λ/(λ − it)
gama(n, λ) φ(t) = [λ/(λ − it)]n
N(µ, σ 2 ) φ(t) = exp(iµt − σ 2 t2 /2)
χ2 (n) φ(t) = (1 − 2it)−n/2
t(n) φ(t) = e−|t| , cuando n = 1.

La existencia de la función caracterı́stica para cualquier distribución de

probabilidad se sigue del siguiente resultado.
Capı́tulo 8. Funciones generadoras 315

Proposición. (Existencia). Para cualquier número real t, |φ(t)| ≤ 1.

En particular, φ(0) = 1.

Demostración. Para cualquier número real t,

Z ∞ Z ∞ Z ∞
itx itx
|φ(t)| = | e dF (x)| ≤ |e | dF (x) = dF (x) = 1.
−∞ −∞ −∞

De modo que φ(t) es un número complejo de módulo menor o igual a uno,

para cualquier valor de t. Veremos a continuación algunas otras propiedades
de esta importante función. En particular, demostraremos que los momentos
de una variable aleatoria X pueden ser generados, cuando existen, con la f.c.
a través de la fórmula φ(n) (0) = in E(X n ), y como en el caso de las funciones
generadoras anteriores, cuando X y Y son independientes se cumple que
φX+Y (t) = φX (t) φY (t), no siendo válido el recı́proco.

Proposición. Si X tiene n-ésimo momento finito, entonces

dn
1. φ(t) = in E(X n ).
dtn
t=0

2. Cuando t → 0,
n−1
X (it)k (it)n
φ(t) = E(X k ) + ( E(X n ) + o(1) ). (8.1)
k! n!
k=0

Demostración.
316 8.3. Función caracterı́stica

1. Para cualquier h distinto de cero,

Z ∞ i(t+h)x
φ(t + h) − φ(t) e − eitx
= dF (x)
h −∞ h
Z ∞
eihx − 1
= eitx dF (x)
−∞ h
eihX − 1
= E[ eitX ]. (8.2)
h
eihx − 1
Como lı́m = ix, entonces, puntualmente,
h→0 h
eihX − 1
lı́m eitX = iX eitX .
h→0 h
Comprobaremos que las variables aleatorias de esta sucesión, parame-
trizada por h, estan uniformemente acotadas por una variable aleato-
ria integrable, en efecto,
Z Z
eihX − 1 eihX − 1 1 h 1 h isX
|eitX |=| |=| iX eisX ds| ≤ |X| |e | ds = |X|.
h h h 0 h 0

Por hipótesis, E|X| < ∞, de modo que usando el teorema de conver-

gencia dominada en (8.2) se obtiene
d
φ(t) = E[ iX eitX ].
dt
Por el mismo procedimiento se encuentra que
dn
φ(t) = E[ (iX)n eitX ].
dtn
Tomando el lı́mite cuando t → 0 y usando nuevamente el teorema de
convergencia dominada, se demuestra finalmente que

dn
n
φ(t) = in E(X n ).
dt t=0
Capı́tulo 8. Funciones generadoras 317

2. La fórmula se sigue del inciso anterior y del siguiente resultado de

análisis. Si g es una función con valores reales o complejos y definida
en algún intervalo no trivial alrededor del origen con g(n) (0) finita,
entonces cuando t → 0,

t2 ′′ tn−1 (n−1) tn
g(t) = g(0)+tg′ (0)+ g (0)+· · ·+ g (0)+ ( g(n) (0)+o(1) ).
2! (n − 1)! n!

En la última parte del curso se usará la expansión (8.1) para demostrar la

ley de los grandes números y el teorema del lı́mite central. Para el primer
resultado se supondrá el primer momento finito y la espansión adquiere la
expresión φ(t) = 1 + it( E(X) + o(1) ), cuando t → 0. Para el el teorema del
lı́mite central se supondrá el segundo momento finito y la expresión que se
usa es φ(t) = 1 + it E(X) + ((it)2 /2!)( E(X 2 ) + o(1) ), cuando t → 0.

Proposición. Si X y Y son independientes, entonces φX+Y (t) = φX (t)·

φY (t).

Demostración. Por independencia,

φX+Y (t) = E(eit(X+Y ) ) = E(eitX eitY ) = E(eitX ) E(eitY ) = φX (t) φY (t).

Nota importante. El resultado anterior establece en particular que el

producto de dos funciones caracterı́sticas es nuevamente una función carac-
terı́stica. Por otro lado, es necesario señalar que la condición φX+Y (t) =
φX (t) φY (t) no es suficiente para concluir que las variables aleatorias X y
Y son independientes. Para demostrar esto puede considerarse nuevamente
la distribución conjunta

f (x, y) = [1 + xy(x2 − y 2 )]/4, para − 1 < x, y < 1.

318 8.3. Función caracterı́stica

Otra de las propiedades fundamentales de la función caracterı́stica es su ca-

pacidad de determinar de manera única a las distribuciones de probabilidad.
A este respecto se tienen los siguientes resultados.

Proposición. (Fórmula de inversión de Lèvy). Sea X con función

de distribución F (x), y función caracterı́stica φ(t). Si x < y son puntos
de continuidad de F , entonces
Z T
1 e−itx − e−ity
F (y) − F (x) = lı́m φ(t) dt.
T →∞ 2π −T it

Cuando x y y no necesariamente son puntos de continuidad de F , el lado

izquierdo es 12 (F (y) + F (y−)) − 12 (F (x) + F (x−)).

Demostración. Para T > 0 sea

Z T −itx
1 e − e−ity
I(T ) = φ(t) dt
2π −T it
Z T −itx Z ∞
1 e − e−ity
= [ eitz dF (z)] dt
2π −T it −∞
Z T Z ∞ it(z−x)
1 e − eit(z−y)
= dF (z) dt
2π −T −∞ it
Z ∞ Z T it(z−x)
1 e − eit(z−y)
= dt dF (z).
2π −∞ −T it

El cambio en el orden de integración es permitido pues el integrando es una

función continua y acotada en t ∈ [−T, T ] y z ∈ R, incluyendo cuando t = 0,
pues puede definirse esta función de acuerdo a su comportamiento lı́mite en
ese punto, es decir,

eit(z−x) − eit(z−y)
lı́m = y − x.
t→0 it
Capı́tulo 8. Funciones generadoras 319

Desarrollando las exponenciales en términos de senos y cosenos se obtiene

Z ∞Z T
1 1
I(T ) = [ cos t(z − x) + i sen t(z − x)
2π −∞ −T it
− cos t(z − y) − i sen t(z − y) ] dt dF (z),

en donde para cualquier número real a, por ser coseno una función par, y
seno una función impar,
Z T
cos(at)
dt = 0,
−T t
Z T Z T
sen(at) sen(at)
y dt = 2 dt.
−T t 0 t

Por lo tanto
Z ∞ Z T Z T
1 sen t(z − x) sen t(z − y)
I(T ) = [2 dt − 2 dt ] dF (z).
2π −∞ 0 t 0 t

El siguiente paso consiste en aplicar el teorema de convergencia dominada

cuando T → ∞. La integral I(T ) es la esperanza de la variable aleatoria
Z T Z T
1 sen t(X − x) sen t(X − y)
XT = [2 dt − 2 dt ].
2π 0 t 0 t

Nos interesa encontrar el lı́mite de esta variable cuando T → ∞. Para ello

se hace uso del siguiente resultado no trivial:

Z T
sen at  π si a > 0,
lı́m 2 dt = π · signo(a) = −π si a < 0,
T →∞ 0 t 
0 si a = 0,
320 8.3. Función caracterı́stica

Entonces, puntualmente,
1
lı́m XT = [ π · signo(X − x) − π · signo(X − y) ]
T →∞ 2π
1
= ·1 (X) + 1(x,y) (X)
2 {x,y}


 0 si X < x,

 1/2 si X = x,

= 1 si x < X < y,



 1/2 si X = y,

0 si X > y.

Además, las variables XT están acotadas en valor absoluto por una constante
pues para cualquier número real a,
Z T Z T
sen at sen t
| dt| ≤ sup | dt| < ∞.
0 t T >0 0 t

Por lo tanto
Z ∞
1
lı́m I(T ) = [· 1{x,y} (z) + 1(x,y) (z) ] dF (z)
T →∞ −∞ 2
1 1
= P (X = x) + P (X = y) + P (x < X < y)
2 2
1 1
= P (x < X ≤ y) + P (X = x) − P (X = y)
2 2
1 1
= F (y) − F (x) + P (X = x) − P (X = y)
2 2
1 1
= (F (y) + F (y−)) − (F (x) + F (x−)).
2 2
En particular, si x y y son puntos de continuidad de F , entonces el lı́mite
de la integral es igual a F (y) − F (x).

Como corolario del teorema de inversión demostraremos que la función ca-

racterı́stica determina de manera única a la distribución de probabilidad.
Capı́tulo 8. Funciones generadoras 321

Teorema de unicidad. Si X y Y son tales que φX (t) = φY (t) para

todo valor real de t, entonces X y Y tienen la misma distribución.

Demostración. Sea φ(t) la función caracterı́stica común, y sea z cualquier

número real. Escóganse x y y tales que x < z < y. Haciendo x tender a −∞,
y y ց z, en la fórmula de inversión de Lèvy, se obtiene una única función
de distribución dada por
Z T −itx
1 e − e−ity
F (z) = lı́m lı́m lı́m φ(t) dt.
yցz xց−∞ T →∞ 2π −T it

Cuando la condición φX (t) = φY (t) sólo se cumple en una vecindad del

cero, no es necesariamente cierto que la distribución de probabilidad queda
completamente especificada. Véase [13] para un ejemplo al respecto.

En el caso absolutamente continuo se tiene la siguiente fórmula explı́cita.

Proposición (Fórmula de inversión en el caso abs. continuo).

Sea X absolutamente continua con función de densidad f (x), y función
caracterı́stica φ(t). Entonces
Z ∞
1
f (x) = e−itx φ(t) dt.
2π −∞

Demostración. Sean x < y, dos puntos de continuidad de F . Por el teorema

322 8.3. Función caracterı́stica

de inversión de Lèvy, y por el teorema de Fubini,

Z T −itx
1 e − e−ity
F (y) − F (x) = lı́m φ(t) dt
T →∞ 2π −T it
Z ∞ −itx
1 e − e−ity
= φ(t) dt
2π −∞ it
Z ∞ Z y
1 −itx
= e dx φ(t) dt.
2π −∞ x
Z y Z ∞
1 −itx
= e φ(t) dt dx.
x 2π −∞

Por lo tanto el integrando debe ser la función de densidad de X.

Es necesario señalar que el uso de esta fórmula requiere conocer de antemano

que la función caracterı́stica proviene de una variable aleatoria absoluta-
mente continua. De aqui surge el problema, que únicamente mencionamos,
de encontrar condiciones sobre φ(t) que garanticen que la correspondiente
variable aleatoria es absolutamente continua.

Ahora se demuestra un resultado que será de utilidad en la última parte

del curso y que establece que la convergencia en distribución es equivalente
a la convergencia puntual de las correspondientes funciones caracterı́sticas.
El resultado es válido como esta enunciado pero sólo demostraremos una de
las implicaciones.

Teorema de Continuidad. Sean X, X1 , X2 , . . . variables aleatorias.

d
Entonces Xn → X si, y sólo si, φXn (t) → φX (t).

Demostración. (⇐) Suponga que φXn (t) → φX (t). Entonces para dos pun-
tos de continuidad x < y de FX , el teorema de inversión de Lèvy establece
Capı́tulo 8. Funciones generadoras 323

que
Z T
1 e−itx − e−ity
FX (y) − FX (x) = lı́m φ(t) dt.
T →∞ 2π −T it
Z T
1 e−itx − e−ity
= lı́m [ lı́m φXn (t) ] dt.
T →∞ 2π −T it n→∞
Z T −itx
1 e − e−ity
= lı́m lı́m [ φXn (t) ] dt.
n→∞ T →∞ 2π −T it
= lı́m FXn (y) − FXn (x).
n→∞

Haciendo x tender a −∞ se obtiene FX (y) = lı́m FXn (y).

n→∞

En el siguiente capı́tulo usaremos este resultado para demostrar el teorema

central del lı́mite. Finalmente mencionamos la definición de función carac-
terı́stica para vectores aleatorios. La f.c. del vector (X, Y ) es la función
φX,Y (s, t) = E(eisX eitY ), para valores reales de s y t donde esta esperan-
za sea absolutamente convergente. Nuevamente puede demostrarse que las
variables X y Y son independientes si, y sólo si, φX,Y (s, t) = φX (s) φY (t).
De manera análoga puede definirse la función caracterı́stica para vectores
de dimensión mayor.
324 8.4. Ejercicios

8.4. Ejercicios

Función generadora de probabilidad

519. Sea X con varianza finita y con f.g.p. G(t). Demuestre que

a) E(X) = G′ (1−).
b) E(X 2 ) = G′′ (1−) + G′ (1−).
c) Var(X) = G′′ (1−) + G′ (1−) − [G′ (1−)]2 .

520. Sean X y Y independientes y sean a y b dos constantes. Demuestre

que

a) P (X = k) = G(k) (0)/k! para k = 0, 1, . . .

b) GaX+b (t) = tb GX (ta ).
c) GX−Y (t) = GX (t) GY (1/t).

521. Sean X1 , . . . , Xn independientes tales que Xk tiene f.g.p. Gk (t), para

k = 1, . . . , n. Demuestre que GX1 +···+Xn (t) = G1 (t) · · · Gn (t).

522. Demuestre o proporcione un contraejemplo: Si GX+Y (t) = GX (t) ·

GY (t), para valores de t en algún intervalo no trivial alrededor del
cero, entonces X y Y son independientes.

523. Sea X1 , X2 , . . . una sucesión de v.a.i.i.d. con f.g.p. GX (t). Sea N otra
variable aleatoria con valores en N, independiente de la sucesión y con
f.g.p. GN (t). Sea S = X1 + · · · + XN . Demuestre que

a) GS (t) = GN (GX (t)).

b) E(S) = E(N )E(X), usando GS (t).
c) Var(S) = E 2 (X) Var(N ) + E(N ) Var(X), usando GS (t).

524. Encuentre la función generadora de probabilidad, si existe, de una

variable aleatoria con función de densidad
Capı́tulo 8. Funciones generadoras 325

1
a) f (x) = , para x = 1, 2, . . .
x!(e − 1)
1
b) f (x) = , para x = 1, 2, . . .
x(x + 1)
525. Sea X con distribución Ber(p). Demuestre que

a) G(t) = 1 − p + pt.
b) E(X) = p, usando G(t).
c) Var(X) = p(1 − p), usando G(t).
d) E(X n ) = p, usando G(t).

526. Sea X con distribución bin(n, p). Demuestre que

a) G(t) = (1 − p + pt)n .
b) E(X) = np, usando G(t).
c) Var(X) = np(1 − p), usando G(t).

527. Sean X1 , . . . , Xn variables aleatorias independientes, cada una con dis-

tribución Ber(p). Use la f.g.p. para demostrar que la variable X1 +· · ·+
Xn tiene distribución bin(n, p).

528. Sean X y Y independientes con distribución bin(n, p) y bin(m, p),

respectivamente. Use la f.g.p. para demostrar que la variable X + Y
tiene distribución bin(n + m, p).

529. Sea X con distribución bin(N, p), en donde N es una variable aleatoria
con distribución bin(n, r). Use la f.g.p. para demostrar que X tiene
distribución bin(n, rp).

530. Sea X con distribución geo(p). Demuestre que

a) G(t) = p/[1 − t(1 − p)].

b) E(X) = (1 − p)/p, usando G(t).
c) Var(X) = (1 − p)/p2 , usando G(t).
326 8.4. Ejercicios

531. Sea X con distribución Poisson(λ). Demuestre que

a) G(t) = e−λ(1−t) .
b) E(X) = λ, usando G(t).
c) Var(X) = λ, usando G(t).

532. Sean X y Y independientes con distribución Poisson con parámetros

λ1 y λ2 respectivamente. Use la f.g.p. para demostrar que la variable
X + Y tiene distribución Poisson(λ1 + λ2 ).

533. Sea X con distribución bin neg(r, p). Demuestre que

a) G(t) = [p/(1 − t(1 − p))]r .

b) E(X) = r(1 − p)/p, usando G(t).
c) Var(X) = r(1 − p)/p2 , usando G(t).

Función generadora de momentos

534. Encuentre la función generadora de momentos, si existe, de una va-

riable aleatoria con función de densidad
1
a) f (x) = , para x = 1, 2, . . .
x!(e − 1)
b) f (x) = e−|x| /2, para −∞ < x < ∞.

535. Sea X con varianza finita y con f.g.m. M (t). Demuestre que

a) E(X) = M ′ (0).
b) E(X 2 ) = M ′′ (0).
c) Var(X) = M ′′ (0) − (M ′ (0))2 .

536. Sean X y Y independientes e idénticamente distribuidas con f.g.m.

M (t). Demuestre que MX−Y (t) = M (t) · M (−t).

537. Sea X con f.g.m. MX (t), y sean a y b dos constantes. Demuestre que
MaX+b (t) = etb MX (at).
Capı́tulo 8. Funciones generadoras 327

538. Sea X con f.g.m. MX (t). Diga falso o verdadero, demuestre en cada
caso.

a) MX (t) ≥ 0.
b) M2X (t) = MX (2t).
c) MX 2 (t) = MX (tX).

539. Sea X con distribución Ber(p). Demuestre que

a) M (t) = 1 − p + pet .
b) E(X) = p, usando M (t).
c) E(X n ) = p, usando M (t).
d) Var(X) = p(1 − p), usando M (t).

540. Sea X con distribución bin(n, p). Demuestre que

a) M (t) = (1 − p + pet )n .
b) E(X) = np, usando M (t).
c) Var(X) = np(1 − p), usando M (t).

541. Sean X1 , . . . , Xn independientes cada una con distribución Ber(p). Use

la f.g.m. para demostrar que la variable X1 +· · ·+Xn tiene distribución
bin(n, p).

542. Sean X y Y independientes con distribución bin(n, p) y bin(m, p) res-

pectivamente. Use la f.g.m. para demostrar que X + Y tiene distribu-
ción bin(n + m, p).

543. Sea X con distribución geo(p). Demuestre que

a) M (t) = p/[1 − (1 − p)et ].

b) E(X) = (1 − p)/p, usando M (t).
c) Var(X) = (1 − p)/p2 , usando M (t).

544. Sea X con distribución Poisson(λ). Demuestre que

328 8.4. Ejercicios

a) M (t) = exp[λ(et − 1)].

b) M ′′ (t) = M ′ (t) + λet M ′ (t).
c) E(X) = λ, usando M (t).
d) Var(X) = λ, usando M (t).
e) E[(X − λ)3 ] = λ, usando M (t).

545. Sea X con distribución unif(a, b). Demuestre que

ebt − eat
a) M (t) = .
(b − a)t
b) E(X) = (a + b)/2, usando M (t).
c) Var(X) = (b − a)2 /12, usando M (t).

546. Sea X con distribución exp(λ). Demuestre que

a) M (t) = λ/(λ − t), para t < λ.

b) E(X) = 1/λ, usando M (t).
c) Var(X) = 1/λ2 , usando M (t).

547. Sea X con distribución N(µ, σ 2 ). Demuestre que

a) M (t) = exp(µt + σ 2 t2 /2).

b) E(X) = µ, usando M (t).
c) Var(X) = σ 2 , usando M (t).

548. Sean X y Y independientes con distribución N(µ1 , σ12 ) y N(µ2 , σ22 )

respectivamente. Use la f.g.m. para demostrar que X + Y tiene distri-
bución normal con media µ1 + µ2 y varianza σ12 + σ22 .

549. Sea X con distribución gama(n, λ). Demuestre que

a) M (t) = [λ/(λ − t)]n , para t < λ.

b) E(X) = n/λ, usando M (t).
c) Var(X) = n/λ2 , usando M (t).
Capı́tulo 8. Funciones generadoras 329

550. Sean X y Y independientes ambas con distribución exp(λ). Use la

f.g.m. para demostrar que X + Y tiene distribución gama(2, λ).
551. Sean X y Y independientes con distribución gama(n, λ) y gama(m, λ)
respectivamente. Use la f.g.m. para demostrar que la variable X + Y
tiene distribución gama(n + m, λ).
552. Sea X con distribución χ2 (n). Demuestre que
a) M (t) = [1/(1 − 2t)]n/2 , para t < 1/2.
b) E(X) = n, usando M (t).
c) Var(X) = 2n, usando M (t).
553. Use la f.g.m. para demostrar que si X y Y son independientes tales
que X tiene distribución χ2 (n) y X + Y tiene distribución χ2 (m) con
m > n, entonces Y tiene distribución χ2 (m − n).
554. Sean X y Y independientes con distribución χ2 (n) y χ2 (m) respecti-
vamente. Use la f.g.m. para demostrar que X + Y tiene distribución
χ2 (n + m).
555. Sea X con distribución N(µ, σ 2 ). Use la f.g.m. para demostrar que
a) −X tiene distribución N(−µ, σ 2 ).
b) aX + b tiene distribución N(aµ + b, a2 σ 2 ), con a 6= 0.
c) X 2 tiene distribución χ2 (1).
556. Sean X1 , . . . , Xn independientes tales que Xk tiene f.g.m. Mk (t) para
k = 1, . . . , n. Demuestre que MX1 +···+Xn (t) = M1 (t) · · · Mn (t).
557. Sea X con distribución Cauchy estándar. Demuestre que

1 si t = 0,
MX (t) =
∞ si t 6= 0.

558. Sea X con distribución t(n). Demuestre que

1 si t = 0,
MX (t) =
∞ si t 6= 0.
330 8.4. Ejercicios

559. Sea n un número natural. Demuestre que no existe la f.g.m. de la

siguiente función de densidad. Esta distribución tiene momentos fini-
tos de orden 1, 2, . . . , n − 1, pero el n-ésimo momento y superiores no
existen.
n/xn+1 si x > 1,
f (x) =
0 otro caso.

Función caracterı́stica

560. Encuentre la función caracterı́stica de una variable aleatoria con fun-

ción de densidad
1
a) f (x) = , para x = 1, 2, . . .
x!(e − 1)
b) f (x) = e−|x| /2, para −∞ < x < ∞.

561. Sea X con función caracterı́stica φX (t), y sean a y b dos constantes.

Demuestre que φaX+b (t) = eitb φX (at).

562. Demuestre que una función de distribución F (x) es simétrica si, y sólo
si, la correspondiente función caracterı́stica φ(t) es real.

563. Demuestre que la función caracterı́stica es una función uniformemente

continua, es decir, para todo ǫ > 0 existe δ > 0 tal que para todo t y
s con |t − s| < δ, se cumple que |φ(t) − φ(s)| < ǫ.

564. Demuestre que la función caracterı́stica satisface la igualdad φ(−t) =

φ(t), en donde z denota el complejo conjugado de z.

565. Sean φ1 (t) y φ2 (t) dos funciones caracterı́sticas, y sea α ∈ [0, 1]. De-
muestre que la combinación lineal convexa αφ1 (t) + (1 − α)φ2 (t) es
una función caracterı́stica.

566. Sean X y Y independientes y con idéntica distribución. Demuestre

que φX−Y (t) = |φX (t)|2 , en este caso la función caracterı́stica es una
función real por que la variable X − Y es simétrica.
Capı́tulo 8. Funciones generadoras 331

567. Sea X con distribución Ber(p). Demuestre que

a) φ(t) = 1 − p + peit .
b) E(X) = p, usando φ(t).
c) Var(X) = p(1 − p), usando φ(t).
d) E(X n ) = p, usando φ(t), con n ≥ 1 entero.

568. Sea X con distribución bin(n, p). Hemos demostrado que la función
caracterı́stica de esta distribución es φ(t) = (1 − p + peit )n . Usando
φ(t) demuestre ahora que

a) E(X) = np.
b) E(X 2 ) = np(1 − p + np).
c) Var(X) = np(1 − p).

569. Sea X con distribución Poisson(λ). Hemos demostrado que la función

caracterı́stica de esta distribución es φ(t) = exp[−λ(1 − eit )]. Usando
φ(t) compruebe que

a) E(X) = λ.
b) E(X 2 ) = λ(λ + 1).
c) Var(X) = λ.

570. Sea X con distribución geo(p). Demuestre que

a) φ(t) = p/(1 − (1 − p)eit ).

b) E(X) = (1 − p)/p, usando φ(t).
c) Var(X) = (1 − p)/p2 , usando φ(t).

571. Sea X tiene distribución bin neg(r, p). Demuestre que

a) φ(t) = [p/(1 − (1 − p)eit )]r .

b) E(X) = r(1 − p)/p, usando φ(t).
c) Var(X) = r(1 − p)/p2 , usando φ(t).
332 8.4. Ejercicios

572. Sea X con distribución unif(−a, a). Demuestre que φ(t) = (sen at)/at.
573. Sea X con distribución unif(a, b). Demuestre que
a) φ(t) = [eibt − eiat ]/[it(b − a)].
b) E(X) = (a + b)/2, usando φ(t).
c) Var(X) = (b − a)2 /12, usando φ(t).
574. Sea X con distribución N(µ, σ 2 ). Hemos demostrado que la función
caracterı́stica de esta distribución es φ(t) = exp (iµt−σ 2 t2 /2). Usando
φ(t) compruebe que E(X) = µ y Var(X) = σ 2 .
575. Sea X con distribución normal estándar. Use la función caracterı́stica
para demostrar que para n = 0, 1, . . .

n!
n

n/2
si n es par,
E(X ) = 2 (n/2)!

0 si n es impar.

576. Sea X con distribución exp(λ). Demuestre que φ(t) = λ/(λ − it). Use
φ(t) para comprobar que E(X) = 1/λ, y Var(X) = 1/λ2 .
577. Sea X con distribución gama(n, λ). Hemos encontrado que la función
caracterı́stica de esta distribución es φ(t) = [λ/(λ − it)]n . Usando φ(t)
compruebe nuevamente que
a) E(X) = n/λ.
Γ(m + n)
b) E(X m ) = m , para m = 0, 1, . . .
λ Γ(n)
c) Var(X) = n/λ2 .
578. Sean X y Y independientes ambas con distribución exp(λ). Use la
función caracterı́stica para demostrar que la variable X + Y tiene
distribución gama(2, λ).
579. Sean X y Y independientes con distribución gama(n, λ) y gama(m, λ)
respectivamente. Use la función caracterı́stica para demostrar que la
variable X + Y tiene distribución gama(n + m, λ).
Capı́tulo 8. Funciones generadoras 333

580. Sea X con función de distribución F (x) = ex /(1 + ex ). Demuestre

que F (x) es efectivamente una función de distribución, y calcule su
función caracterı́stica asociada. Con ayuda de ésta última encuentre
la esperanza y la varianza de X.

581. Sean X y Y independientes. Demuestre que

Z ∞ Z ∞
φXY (t) = φY (tx)dFX (x) = φX (ty)dFY (y).
−∞ −∞

582. Mediante el cálculo de residuos de la teorı́a de variable compleja puede

demostrarse que la distribución Cauchy estándar tiene función carac-
terı́stica Z ∞
1
φ(t) = eitx 2)
dx = e−|t| .
−∞ π(1 + x
Suponiendo este resultado, encuentre el error en el siguiente argu-
mento para encontrar la f.g.m. de la distribución Cauchy: “Como
φ(t) = e−|t| y M (t) = φ(−it), entonces M (t) = e−|−it| = e−|t| .” El
caso es que no existe la f.g.m. para la distribución Cauchy.

583. Sean X1 , . . . , Xn independientes cada una de ellas con distribución

Cauchy estándar, es decir, la función caracterı́stica es φ(t) = e−|t| .
Use este resultado para demostrar que la v.a. Sn = (X1 + · · · + Xn )/n
tiene distribución Cauchy estándar para cualquier valor de n.
Capı́tulo 9

Dos teoremas lı́mite

En este último capı́tulo se estudian dos de los teoremas más importantes en

probabilidad: la ley de los grandes números y el teorema central del lı́mite.
Antes de ello se revisan algunas desigualdades de interés general.

9.1. Algunas desigualdades

Proposición. (Desigualdad de Markov). Sea X ≥ 0 una variable

aleatoria con esperanza finita. Para cualquier ǫ > 0,

E(X)
P (X ≥ ǫ) ≤ .
ǫ

335
336 9.1. Algunas desigualdades

Demostración.
E(X) = E( X · 1(X≥ǫ) + X · 1(X<ǫ) )
≥ E( X · 1(X≥ǫ) )
≥ E( ǫ · 1(X≥ǫ) )
= ǫ P (X ≥ ǫ).

En palabras, este resultado establece que la probabilidad de que X exceda

un valor ǫ positivo está acotada superiormente por la media entre ǫ. Existen
otras versiones equivalentes de esta desigualdad, por ejemplo,
a) P (|X| ≥ ǫ) ≤ E|X|/ǫ.
b) P (|X| ≥ ǫ) ≤ E|X|n /ǫn , con n en N.

La siguiente desigualdad será usada en la siguiente sección para demostrar

la ley débil de los grandes números.

Proposición. (Desigualdad de Chebyshev). Sea X una variable

aleatoria con media µ y varianza finita σ 2 . Para cualquier ǫ > 0,

σ2
P (|X − µ| ≥ ǫ) ≤ . (9.1)
ǫ2

Demostración.

σ 2 = E (X − µ)2

= E (X − µ)2 · 1(|X−µ|≥ǫ) + (X − µ)2 · 1(|X−µ|<ǫ)

≥ E (X − µ)2 · 1(|X−µ|≥ǫ)

≥ E ǫ2 · 1(|X−µ|≥ǫ)
= ǫ2 P (|X − µ| ≥ ǫ).
Capı́tulo 9. Dos teoremas lı́mite 337

En palabras, la desigualdad dice que la probabilidad de que X difiera de

su media en mas de ǫ está acotada superiormente por la varianza entre
ǫ2 . A este resultado se le conoce también con el nombre de desigualdad de
Chebyshev-Bienaymé. Existen otras versiones de esta desigualdad equiva-
lentes a la demostrada, por ejemplo,

a) P (|X − µ| ≥ ǫσ) ≤ 1/ǫ2 .

b) P (|X − µ| < ǫσ) ≥ 1 − 1/ǫ2 .

c) P (|X − µ| < ǫ) ≥ 1 − σ 2 /ǫ2 .

Ahora demostraremos una versión de la desigualdad de Chebyshev un poco

más general.

Proposición. (Desigualdad de Chebyshev extendida). Sea X

una variable aleatoria, y sea g ≥ 0 una función no decreciente tal que
g(X) es una variable aleatoria con esperanza finita. Para cualquier ǫ > 0,

E[g(X)]
P (X ≥ ǫ) ≤ . (9.2)
g(ǫ)

Demostración.

E[g(X)] = E[ g(X) · 1(X≥ǫ) + g(X) · 1(X<ǫ) ]

≥ E[ g(X) · 1(X≥ǫ) ]
≥ E[ g(ǫ) · 1(X≥ǫ) ]
= g(ǫ)P (X ≥ ǫ).
338 9.1. Algunas desigualdades

Pafnuty Lvovich Chebyshev Andrei Andreyevich Markov

(Rusia, 1821–1894) (Rusia, 1856–1922)
Profesor y alumno.
Fuente: Archivo MacTutor, Universidad de St. Andrews.

A partir de la desigualdad de Chebyshev extendida y con una función g

adecuada se pueden obtener tanto la desigualdad de Chebyshev como la
desigualdad de Markov.

Proposición. (Desigualdad de Kolmogorov). Sean X1 , . . . , Xn in-

dependientes con media cero y segundo momento finito. Para cualquier
ǫ > 0,
n
1 X
P ( máx {|X1 + · · · + Xk |} ≥ ǫ ) ≤ 2 Var(Xk ).
k ǫ
k=1

Demostración. Para cada k = 1, . . . , n, defina Sk = X1 + · · · + Xk , cuya

esperanza es cero por hipótesis. Observe que las variables Sk y Sn − Sk son
independientes y por lo tanto E(Sk (Sn − Sk )) = 0. Defina ahora los eventos
disjuntos
k−1
\
Ak = ( |Sk | ≥ ǫ ) ∩ ( |Si | < ǫ ),
i=1
Capı́tulo 9. Dos teoremas lı́mite 339

en donde enSparticular A1 = ( |S1 | ≥ ǫ ). El evento de interés puede escribirse

como A = nk=1 Ak . Entonces

E(Sn2 ) ≥ E(Sn2 1A )
Xn
= E(Sn2 1Ak )
k=1
n
X
= E( (Sk + (Sn − Sk ))2 1Ak )
k=1
n
X
= E( (Sk2 + 2Sk (Sn − Sk ) + (Sn − Sk )2 ) 1Ak )
k=1
n
X
≥ E(Sk2 1Ak )
k=1
n
X
≥ ǫ2 E(1Ak )
k=1
n
X
≥ ǫ2 P (Ak )
k=1
2
= ǫ P (A).
Pn
El resultado se obtiene al observar que E(Sn2 ) = Var(Sn ) = k=1 Var(Xk ).

Cuando n = 1 la desigualdad de Kolmogorov se reduce a la desigualdad de

Chebyshev.

En resumen se tiene la siguiente tabla.

340 9.2. Ley de los grandes números

Algunas desigualdades

Markov: a) P (X ≥ ǫ) ≤ E(X)/ǫ, para X ≥ 0.

b) P (|X| ≥ ǫ) ≤ E|X|/ǫ.
c) P (|X| ≥ ǫ) ≤ E|X|n /ǫn .

Chebyshev: a) P (|X − µ| ≥ ǫ) ≤ Var(X)/ǫ2 .

b) P (X ≥ ǫ) ≤ E[g(X)]/g(ǫ), con g ≥ 0 no decreciente.
n
1 X
Kolmogorov: P ( máx{|X1 + · · · + Xk |} ≥ ǫ ) ≤ Var(Xk ).
k ǫ2
k=1

9.2. Ley de los grandes números

Este interesante resultado establece que, bajo ciertas condiciones, el prome-

dio de variables aleatorias converge a una constante cuando el número de
sumandos crece a infinito. Demostraremos dos versiones de esta afirmación,
las cuales se distinguen por el tipo de convergencia de la que se trate. La
ley débil establece la convergencia en probabilidad y la ley fuerte dice que
la convergencia es casi segura. La ley fuerte implica entonces la ley débil.
Existen además varias generalizaciones de este resultado.

Teorema de Bernoulli. (Ley débil de los grandes números).

Sean X1 , X2 , . . . independientes e idénticamente distribuidas con media
µ. Entonces
n
1X p
Xi −→ µ.
n
i=1

Demostración. Sea Sn = (X1 + · · · + Xn )/n, y sea φ(t) la función carac-

Capı́tulo 9. Dos teoremas lı́mite 341

terı́stica de cualquier elemento X de la sucesión. Como X tiene esperanza

finita µ y por la expansión (8.1),

φ(t) = 1 + it(µ + o(1)), cuando t → 0.

Por independencia la función caracterı́stica de Sn es entonces

φSn (t) = φn (t/n) = ( 1 + i(t/n)(µ + o(1)) )n , cuando t → 0,

Haciendo n → ∞ se obtiene φSn (t) → eiµt , en donde eiµt es la función

d
caracterı́stica de la variable aleatoria constante µ. Esto implica que Sn → µ.
El resultado se obtiene al recordar que la convergencia en distribución a una
constante es equivalente a la convergencia en probabilidad.

Este mismo resultado puede demostrarse fácilmente a partir de la desigual-

dad de Chebysheves bajo la hipótesis adicional de existencia de la varianza.
El argumento es el siguiente. Sea nuevamente Sn = (X1 + · · · + Xn )/n.
Entonces E(Sn ) = µ y Var(Sn ) = σ 2 /n, suponiendo Var(X) = σ 2 < ∞.
La desigualdad de Chebyshev aplicada a la variable Sn asegura que para
cualquier ǫ > 0 se cumple P (|Sn − µ| ≥ ǫ) ≤ σ 2 /nǫ2 . Basta ahora tomar el
lı́mite cuando n tiende a infinito para obtener el resultado.

Damos a continuación un ejemplo sencillo de aplicación de la ley débil y

más adelante demostramos la ley fuerte.

Ejemplo (Probabilidad frecuentista). Considere un experimento aleatorio

cualquiera y sea A un evento. Se efectúan realizaciones independientes del experi-
mento, y se observa en cada ensayo la ocurrencia o no ocurrencia del evento A. Sea
Xk la variable que toma el valor uno si en el k-ésimo ensayo se observa A, y cero
en caso contrario. Entonces las variables X1 , X2 , . . . son independientes cada una
con distribución Ber(p), en donde p es la probabilidad desconocida del evento A.
Por lo tanto E(Xk ) = p y Var(Xk ) = p(1 − p). La ley débil de los grandes núme-
ros asegura que la fracción de ensayos en los que se observa el evento A converge,
en probabilidad, a la constante desconocida p cuando el número de ensayos crece
a infinito. Esta es la definición frecuentista de la probabilidad, y hemos entonces
342 9.2. Ley de los grandes números

corroborado su validez con ayuda de la ley de los grandes números. ◦

Teorema. (Ley fuerte de los grandes números). Sean X1 , X2 , . . .

independientes e idénticamente distribuidas con media µ. Entonces
n
1X c.s.
Xi −→ µ.
n
i=1

Demostración. (Suponiendo cuarto momento finito). Dada la idéntica dis-

tribución de los elementos de la sucesión, cualquier elemento de ésta se
denota simplemente por X. Suponga que E|X − µ|2 = σ 2 y observe que
E(X − µ) = 0. Entonces por independencia,
n
X
E| (Xi − µ)|4 = nE|X − µ|4 + 3n(n − 1)σ 4 .
i=1
Pn
Por la desigualdad de Chebyshev (9.2) aplicada a la variable | i=1 (Xi −µ)|
y la función g(x) = x4 se obtiene, para ǫ > 0,
n
X n
X
P (| (Xi − µ)| > nǫ) ≤ E| (Xi − µ)|4 /(nǫ)4
i=1 i=1
= ( nE|X − µ|4 + 3n(n − 1)σ 4 )/(nǫ)4 .
P P
Sea el evento An = (| n1 ni=1 Xi − µ| > ǫ). Entonces ∞ n=1 P (An ) < ∞. Por
el lema de Borel-Cantelli la probabilidad de que ocurra una infinidad de
eventos An es cero, es decir, con probabilidad uno, sólo un número finito de
estos eventos ocurre. Por lo tanto con probabilidad uno, existe un número
natural n a partir del cual ningún evento An se verifica. Es decir,
n
1X
P ( lı́m | Xi − µ| ≤ ǫ ) = 1.
n→∞ n
i=1
Capı́tulo 9. Dos teoremas lı́mite 343

Como esta afirmación vale para cualquier ǫ > 0, se cumple que

n
1X
P ( lı́m Xi = µ ) = 1.
n→∞ n
i=1

Ejemplo. (El problema del mono, nuevamente). Usaremos la ley fuerte

de los grandes números para dar otra solución al problema del mono. Considere
entonces un mono que escribe caracteres al azar. Nos interesa encontrar la proba-
bilidad de que el mono eventualmente escriba las obras completas de Shakespeare,
las cuales, supondremos, tienen una longitud total de N caracteres. Nuevamente
se consideran bloques de longitud N de la siguiente forma
x1 , . . . , xN , xN +1 , . . . , x2N , . . .
| {z } | {z }
Sea Ak el evento correspondiente a que en el k-ésimo bloque el mono tenga éxito,
y sea Xk la variable aleatoria indicadora del evento Ak , es decir,

1 si Ak ocurre,
Xk =
0 si Ak no ocurre.
Se tiene entonces una sucesión de variables aleatorias X1 , X2 , . . . independientes e
idénticamente distribuidas Ber(p), con p = P (Ak ) = (1/m)N , suponiendo que el
total de caracteres disponibles es m. En particular, la media de cada una de estas
variables es E(Xk ) = p. Considere ahora la suma X1 + · · · + Xn . Si para algún
valor de n esta suma es positiva, significa que alguno de los sumandos es distinto
de cero, y por lo tanto que el mono ha tenido éxito. Pero esto es justamente lo que
garantiza la ley fuerte de los grandes números pues
n
1X
P ( lı́m Xk = p ) = 1.
n→∞ n
k=1
Es decir, con probabilidad uno la suma de esta ecuación es positiva. Esto implica
que debe existir un valor de k tal que Xk = 1, y esto a su vez significa que en
el k-ésimo bloque el mono ha tenido éxito. Más aún, para que el promedio que
aparece en esta ecuación sea positivo necesariamente la suma debe ser infinita, y
por lo tanto, deben existir una infinidad de valores de k tal que Xk = 1. Esto quiere
decir que con probabilidad uno el mono escribirá una infinidad de veces las obras
completas de Shakespeare. ◦
344 9.3. Teorema central del lı́mite

9.3. Teorema central del lı́mite

Concluimos el curso con el célebre y famoso teorema central del lı́mite. Este
resultado es de amplio uso en estadı́stica y otras ramas de aplicación de
la probabilidad, y una de sus primeras versiones lleva el nombre de A. de
Moivre y de P. S. Laplace.

Teorema de De Moivre-Laplace. Sea X1 , X2 , . . . una sucesión de

variables aleatorias independientes tal que cada una de ellas tiene dis-
tribución Bernoulli con parámetro p ∈ (0, 1). Para cualesquiera números
reales a < b,
Z b
X1 + · · · + Xn − np 1 2 /2
lı́m P ( a < p < b) = √ e−x dx.
n→∞ np(1 − p) 2π a

p este resultado establece que la variable aleatoria (X1 + · · · +

En palabras
Xn − np)/ np(1 − p) converge en distribución a una variable aleatoria nor-
mal estándar, una demostración directa puede ser encontrada en [8]. Este
teorema fue descubierto por A. de Moivre alrededor de 1733 en el caso cuan-
do las variables aleatorias tienen distribución Bernoulli con p = 1/2. Años
después P. S. Laplace demostró su validez para valores arbitrarios de p. El
teorema de de Moivre-Laplace es una caso particular del siguiente resultado
fundamental.

Teorema central del lı́mite. Sea X1 , X2 . . . una sucesión de va-

raibles aleatorias independientes e idénticamente distribuidas tales que
para cada natural n, E(Xn ) = µ y Var(Xn ) = σ 2 < ∞. Entonces

X1 + · · · + Xn − nµ d
√ −→ N(0, 1).
nσ
Capı́tulo 9. Dos teoremas lı́mite 345

Demostración. Observe que

X1 + · · · + Xn − nµ (X1 − µ)/σ + · · · + (Xn − µ)/σ

√ = √ ,
nσ n

en donde cada sumando del numerador en el lado derecho es una variable

con media cero y varianza uno. Ası́ pues, sin pérdida de generalidad, supon-
dremos que cada variable de la sucesión tiene media cero y varianza uno.
√
Considere entonces la suma Zn = (X1 + · · · + Xn )/ n. Se desea probar que
d 2 /2
Zn → N(0, 1). Para ello es suficiente demostrar que φZn (t) → e−t . Por
independencia e idéntica distribución,
√ √
φZn (t) = E( eit(X1 +···+Xn )/ n ) = ( φX (t/ n) )n ,

en donde φX (t) es la función caracterı́stica de cualquier elemento de la

sucesión, que por la expansión (8.1) adquiere la expresión, cuando t → 0,
1
φX (t) = 1 − t2 (1 + o(1)).
2
Por lo tanto,
t2
φZn (t) = ( 1 − (1 + o(1)) )n .
2n
2 /2
Haciendo n → ∞ se obtiene φZn (t) → e−t .

El teorema central del lı́mite establece entonces que para cualquier número
real x,
X1 + · · · + Xn − nµ
lı́m P ( √ ≤ x ) = P (Z ≤ x),
n→∞ nσ
en donde Z tiene distribución normal estándar. Observe que la suma X1 +
· · · + Xn tiene media nµ y varianza nσ 2 , de modo que la expresión de
arriba es una especie de estandarización de esta variable. Equivalentemente
el resultado puede enunciarse del siguiente modo:

(X1 + · · · + Xn )/n − µ d
√ −→ N(0, 1).
σ/ n
346 9.3. Teorema central del lı́mite

Este teorema fue demostrado rigurosamente por A. M. Lyapunov alrededor

de 1901. Observe que no hay ninguna hipótesis adicional sobre la distri-
bución de las variables de la sucesión, es decir, éstas puede tener cualquier
distribución, sólo requiriendo la existencia de la media y la varianza. Existen
en la literatura varias generalizaciones y extensiones de este resultado.
Capı́tulo 9. Dos teoremas lı́mite 347

9.4. Ejercicios

Desigualdad de Markov

584. Demuestre la desigualdad de Markov siguiendo los siguientes pasos:

Suponga X ≥ 0, y para ǫ > 0 defina

ǫ si X ≥ ǫ,
Xǫ =
0 si X < ǫ.

Compruebe que Xǫ ≤ X. Ahora tome esperanza de ambos lados y

calcule E(Xǫ ).

585. Use la desigualdad de Markov para demostrar que si X es una va-

riable aleatoria no negativa con esperanza cero, entonces X = 0 casi
seguramente.

586. Conv. en media ⇒ Conv. en probabilidad. Demuestre que la

convergencia en media implica la convergencia en probabilidad, usando
la desigualdad de Markov aplicada a la variable aleatoria no negativa
|Xn − X|.

Desigualdad de Chebyshev

587. Conv. en m.c. ⇒ Conv. en probabilidad. Use la desigualdad de

Chebyshev (9.2) para demostrar directamente que la convergencia en
media cuadrática implica la convergencia en probabilidad.

588. Demuestre la desigualdad de Chebyshev (9.1) usando la desigualdad

de Markov aplicada a la variable aleatoria no negativa |X − µ|.

589. Use la desigualdad de Chebyshev para demostrar que si X es una

variable aleatoria tal que E(X) = a y Var(X) = 0, entonces X es
constante casi seguramente, es decir, P (X = a) = 1.
348 9.4. Ejercicios

590. Sea X con media µ y varianza σ 2 . Use la desigualdad de Chebyshev

para estimar la probabilidad de que X tome valores entre µ − ǫσ y
µ + ǫσ para cualquier ǫ > 0 constante.
591. A partir de la desigualdad de Chebyshev extendida (9.2) demuestre la
desigualdad de Chebyshev (9.1) y la desigualdad de Markov.
592. Demuestre que P (|X| ≥ ǫ) ≤ E|X|/ǫ, para ǫ > 0,
a) usando la desigualdad de Chebyshev extendida.
b) de manera directa.
593. Demuestre que P (|X| ≥ ǫ) ≤ E|X|n /ǫn , para ǫ > 0 y n ∈ N,
a) usando la desigualdad de Chebyshev extendida.
b) de manera directa.
594. Demuestre que P (X ≥ ǫ) ≤ E(etX )/eǫt , para ǫ > 0 y t > 0,
a) usando la desigualdad de Chebyshev extendida.
b) de manera directa.
595. Sea X discreta con función de probabilidad

 1/18 si x = −1, 1,
f (x) = 16/18 si x = 0,

0 otro caso.
Demuestre que el valor exacto de la probabilidad P (|X − µ| ≥ 3σ)
coincide con la estimación dada por la desigualdad de Chebyshev. Este
resultado demuestra que, sin hipótesis adicionales, la cota superior
dada por la desigualdad de Chebyshev es óptima.
596. Considere la siguiente versión de la desigualdad de Chebyshev
P (|X − µ| < ǫσ) ≥ 1 − 1/ǫ2 .
Encuentre el mı́nimo valor de ǫ > 0 de tal modo que la probabilidad
de que una variable aleatoria tome valores entre µ − ǫσ y µ + ǫσ sea
al menos 0.90.
Capı́tulo 9. Dos teoremas lı́mite 349

597. Desigualdad de Cantelli. Demuestre que si Var(X) < ∞, enton-

ces para cualquier ǫ > 0,

2 Var(X)
P (|X − E(X)| > ǫ) ≤ .
ǫ2 + Var(X)

Ley de los grandes números

598. Use la ley débil de los grandes números para demostrar que si Xn
p
tiene distribución bin(n, p), entonces n1 Xn −→ p, cuando n tiende a
infinito,

599. Ley de los grandes números en media cuadrática. Demues-

tre que si X1 , X2 , . . . son independientes con media µ y varianza σ 2 ,
entonces
n
1X m.c.
Xi −→ µ.
n
i=1

Observe que no se pide la hipótesis de idéntica distribución para las

variables aleatorias y que este resultado no es consecuencia de la ley
fuerte.

600. Sean X1 , . . . , Xn independientes con distribución N(µ, σ 2 ). El prome-

dio (X1 + · · · + Xn )/n tiene distribución N(µ, σ 2 /n) para cualquier
valor de n. ¿Contradice esto la ley de los grandes números?

601. En el ejercicio 583 se pide usar la función caracterı́stica para demos-

trar que si X1 , . . . , Xn son independientes con distribución Cauchy
estándar, entonces el promedio Sn = (X1 + · · · + Xn )/n tiene distribu-
ción Cauchy estándar, independientemente del valor de n. ¿Contradice
esto la ley de los grandes números?

602. Se lanza una moneda equilibrada 2n veces. Calcule la probabilidad de

que ambas caras caigan el mismo número de veces. ¿Qué le sucede a
esta probabilidad cuando n tiende a infinito? ¿Contradice esto la ley
de los grandes números?
350 9.4. Ejercicios

Teorema central del lı́mite

603. Use el teorema central del lı́mite para estimar la probabilidad de obte-
ner mas de 520 águilas en 1000 lanzamientos de una moneda honesta.

604. Sean X1 , X2 , . . . independientes con distribución Poisson(λ) con λ =

1. Use el teorema central del lı́mite para demostrar que
n
1 X nk 1
lı́m = .
n→∞ en k! 2
k=0

605. La probabilidad de ocurrencia de un evento en un ensayo es de 0.3.

¿Cuál es la probabilidad de que la frecuencia relativa de este evento
en 100 ensayos se encuentre entre 0.2 y 0.5?
Apéndice A

Distribuciones de probabilidad

Se presenta a continuación una lista en orden alfabético de algunas distri-

buciones de probabilidad univariadas de uso común. Como es costumbre,
la función de probabilidad o de densidad se denota por f (x), y la función
de distribución por F (x). Como en el texto, G(t) es la función generadora
de probabilidad, M (t) es la función generadora de momentos, y φ(t) es la
función caracterı́stica.

Distribución Bernoulli

X ∼ Ber(p), con p ∈ (0, 1).

f (x) = px (1 − p)1−x para x = 0, 1.
E(X) = p.
Var(X) = p(1 − p).
G(t) = 1 − p + pt.
M (t) = 1 − p + pet .
Este es el modelo más simple de variable aleatoria y corresponde a la obser-
vación de la ocurrencia o no ocurrencia de un evento. La suma de n variables
independientes Ber(p) tiene distribución bin(n, p).

351
352

Distribución beta

X ∼ beta(a, b) con a > 0, b > 0.

f (x) = xa−1 (1 − x)b−1 /B(a, b), para x ∈ (0, 1).
E(X) = a/(a + b).
Var(X) = ab/[(a + b + 1)(a + b)2 ].

Distribución binomial

X ∼ bin(n,
p) con n ∈ N y p ∈ (0, 1).
n
f (x) = px (1 − p)n−x para x = 0, 1, . . . , n.
x
E(X) = np.
Var(X) = np(1 − p).
G(t) = (1 − p + pt)n .
M (t) = [1 − p + pet ]n .
Una variable aleatoria binomial registra el número de éxitos en n ensayos
independientes Bernoulli en donde en cada ensayo la probabilidad de éxito
es p. La suma de dos variables independientes con distribución bin(n, p) y
bin(m, p) tiene distribución bin(n + m, p).

Distribución binomial negativa

X ∼ binneg(r, p) con
r ∈ N y p ∈ (0, 1).
r+x−1
f (x) = pr (1 − p)x para x = 0, 1, . . .
x
E(X) = r(1 − p)/p.
Var(X) = r(1 − p)/p2 .
G(t) = [p/(1 − t(1 − p))]r .
Apéndice A. Distribuciones de probabilidad 353

M (t) = [p/(1 − qet )]r .

Este es el modelo que se usa para contar el número de fracasos antes de
obtener el r-ésimo éxito en una sucesión de ensayos independientes Bernou-
lli, en donde en cada ensayo la probabilidad de éxito es p. La distribución
binomial negativa se reduce a la distribución geométrica cuando r = 1.

Distribución Cauchy

X ∼ Cauchy(a, b) con a > 0 y b > 0.

1
f (x) = .
bπ[1 + ((x − a)/b)2 ]
La esperanza, la varianza y cualquier momento no existen.
La función generadora de momentos no existe para t 6= 0.
φ(t) = exp(iat − b|t|).
Cuando a = 0 y b = 1 se obtiene la distribución Cauchy estándar, y coincide
con la distribución t(n) con n = 1. En este caso,
f (x) = 1/(π(1 + x2 )), para x ∈ R.
F (x) = 1/2 + (arctan x)/π, para x ∈ R.

Distribución exponencial

X ∼ exp(λ) con λ > 0.

f (x) = λe−λx , para x > 0.
F (x) = 1 − e−λx , para x > 0.
E(X) = 1/λ.
Var(X) = 1/λ2 .
M (t) = λ/(λ − t) para t < λ.
La suma de n variables independientes exp(λ) tiene distribución gama(n, λ).
354

Distribución gama

X ∼ gama(n, λ) con n > 0 y λ > 0.

(λx)n−1 −λx
f (x) = λe , para x > 0.
Γ(n)
n−1
X
F (x) = 1 − e−λx (λx)k /k!, para x > 0 y n entero.
k=0
E(X) = n/λ.
Var(X) = n/λ2 .
M (t) = [λ/(λ − t)]n , para t < λ.
Cuando n = 1 la distribución gama se reduce a la distribución exponen-
cial. Advertencia: para denotar esta distribución en algunos textos se usa el
sı́mbolo gama(λ, n), es decir, el orden de los parámetros es distinto.

Distribución geométrica

X ∼ geo(p), con p ∈ (0, 1).

f (x) = p(1 − p)x , para x = 0, 1, . . .
E(X) = (1 − p)/p.
Var(X) = (1 − p)/p2 .
G(t) = p/[1 − t(1 − p)].
M (t) = p/[1 − (1 − p)et ].
Esta variable se usa para modelar el número de fracasos antes de obtener el
primer éxito en una sucesión de ensayos independientes Bernoulli, en donde
en cada uno de ellos la probabilidad de éxito es p. La distribución geométrica
es un caso particular de la distribución binomial negativa.
Apéndice A. Distribuciones de probabilidad 355

Distribución hipergeométrica

X ∼ hipergeo(N,
K, n) con K, n∈ N y n ≤ K ≤ N .
N,
K N −K N
f (x) = / para x = 0, 1, . . . , n.
x n−x n
E(X) = nK/N .
Var(X) = n K N −K N −n
N N N −1 .

Distribución ji-cuadrada

X ∼ χ2 (n) con n > 0.

n/2
1 1
f (x) = xn/2−1 e−x/2 para x > 0.
Γ(n/2) 2
E(X) = n.
Var(X) = 2n.
M (t) = (1 − 2t)−n/2 para t < 1/2.
φ(t) = (1 − 2it)−n/2 .

Distribución log normal

X ∼ log normal(µ, σ 2 ) con µ ∈ R y σ 2 > 0.

1
f (x) = √ exp[−(ln x − µ)2 /2σ 2 ] para x > 0.
x 2πσ 2
E(X) = exp(µ + σ 2 /2).
E(X n ) = exp(nµ + n2 σ 2 /2).
Var(X) = exp(2µ + 2σ 2 ) − exp(2µ + σ 2 ).
La función generadora de momentos no existe.
356

Distribución normal

X ∼ N(µ, σ 2 ) con µ ∈ R y σ 2 > 0.

1 2 2
f (x) = √ e−(x−µ) /2σ .
2πσ 2
E(X) = µ.
Var(X) = σ 2 .
M (t) = exp (µt + σ 2 t2 /2).
φ(t) = exp (iµt − σ 2 t2 /2).
Cuando µ = 0 y σ 2 = 1 se obtiene la distribución normal estándar. La suma
o diferencia de dos variables independientes con distribución normal tiene
distribución normal.

Distribución Pareto

X ∼ Pareto(a, b) con a > 0 y b > 0.

f (x) = aba /(b + x)a+1 , para x > 0.
F (x) = 1 − [b/(b + x)]a , para x > 0.
E(X) = b/(a − 1), para a > 1.
Var(X) = ab /[(a − 1)2 (a − 2)],
2 para a > 2.

Distribución Poisson

X ∼ Poisson(λ), con λ > 0.

f (x) = e−λ λx /x! para x = 0, 1, . . .
E(X) = λ.
Var(X) = λ.
G(t) = e−λ(1−t) .
Apéndice A. Distribuciones de probabilidad 357

M (t) = exp [λ(et − 1)].

La suma de dos variables independientes con distribución Poisson(λ1 ) y
Poisson(λ2 ) tiene distribución Poisson(λ1 + λ2 ).

Distribución t

X ∼ t(n) con n > 0.

Γ((n + 1)/2)
f (x) = √ (1 + x2 /n)−(n+1)/2 .
nπ Γ(n/2)
E(X) = 0.
Var(X) = n/(n − 2) para n > 2.
M (t) no existe para t 6= 0.
φ(t) = exp(−|t|) , cuando n = 1. La expresión de φ(t) resulta complicada
para valores n ≥ 2.

Distribución uniforme discreta

X ∼ unif{x1 , . . . , xn } con n ∈ N.
f (x) = 1/n para x = x1 , . . . , xn .
E(X) = (x1 + · · · + xn )/n.
Var(X) = [(x1 − µ)2 + · · · + (xn − µ)2 ]/n.
G(t) = (tx1 + · · · + txn )/n.
M (t) = (ex1 t + · · · + exn t )/n.

Distribución uniforme continua

X ∼ unif(a, b) con a < b.

f (x) = 1/(b − a) para x ∈ (a, b).
358

F (x) = (x − a)/(b − a) para x ∈ (a, b).

E(X) = (a + b)/2.
Var(X) = (b − a)2 /12.
M (t) = (ebt − eat )/(bt − at).

Distribución Weibull

X ∼ Weibull(r, λ) con r > 0 y λ > 0.

r
f (x) = e−(λx) rλr xr−1 para x > 0.
r
F (x) = 1 − e−(λx) para x > 0.
E(X) = Γ(1 + 1/r)/λ.
Var(X) = [Γ(1 + 2/r) − Γ2 (1 + 1/r)]/λ2 .
Apéndice B

Conceptos y resultados varios

El alfabeto griego

Aα alfa Iι iota P ρ, ̺ rho

Bβ beta Kκ kapa Σ σ, ς sigma
Γγ gama Λλ lambda T τ tau
∆δ delta M µ mu Υυ upsilon
E ǫ, ε épsilon Nν nu Φ φ, ϕ phi
Zζ zeta Ξξ xi X χ ji ó chi
H η eta Oo omikron Ψψ psi
Θ θ, ϑ theta Ππ pi Ωω omega

359
360

Notación

B(R) : Conjuntos de Borel de R.

a∨b : máx{a, b}.
a∧b : mı́n{a, b}.
A⊥B : Independencia de los eventos A y B.
⌊x⌋ : Parte entera de x.
F (x+) : Lı́mite por la derecha de la función F en el punto x.
F (x−) : Lı́mite por la izquierda de la función F en el punto x.

Lema de Abel

Sea a0 , a1 , . . . una sucesión de números reales o complejos

P P∞ tal que la serie
∞ n
n=0 na es convergente. Defina la función G(t) = n=0 n t . Entonces
a
∞
X
lı́m G(t) = an .
tր1
n=0

Lı́mite superior e inferior

Sea a1 , a2 , . . . una sucesión infinita de números reales. Para cada m natural

defina

bm = ı́nf {am , am+1 , . . .},

y cm = sup {am , am+1 , . . .}.

Entonces claramente bm ≤ bm+1 , y cm ≥ cm+1 . Es decir, ambas suce-

siones son monótonas, una no decreciente y la otra no creciente, por lo
tanto son convergentes, no excluyendo con ello valores infinitos. Al valor
Apéndice B. Conceptos y resultados varios 361

b = lı́mm→∞ bm se le llama lı́mite inferior, y a c = lı́mm→∞ cm se le llama

lı́mite superior de la sucesión, y se denotan de la forma siguiente:

b = lı́m inf an ,
n→∞
y c = lı́m sup an .
n→∞

De lo anterior es inmediato ver que lı́m inf n→∞ an ≤ lı́m supn→∞ an .

Además la sucesión es convergente si, y sólo si, lı́m inf an = lı́m sup an .
n→∞ n→∞

Imagen inversa

Sean A y B dos conjuntos. Considere una función X : A → B. La imagen

inversa de un conjunto B ⊆ B es un subconjunto de A, denotado por X −1 B,
y definido como sigue: X −1 B = {a ∈ A : X(a) ∈ B}.

X −1 B B
A B

Figura B.1: Imagen inversa.

En palabras, la imagen inversa de B es aquella colección de elementos de

A tal que al aplicarles la función X toman un valor dentro del conjunto
B. Observe que X es una función puntual, es decir, lleva puntos de A en
puntos de B, mientras que X −1 es una función conjuntista, es decir, lleva
subconjuntos de B en subconjuntos de A. No debe confundirse X −1 con la
función inversa de X.

El concepto de imagen inversa es usado en este texto para definir a una

362

variable aleatoria como una función medible. La imagen inversa cumple las
siguientes propiedades:

a) X −1 B = A.

b) X −1 (B c ) = (X −1 B)c .

c) Si B1 ⊆ B2 , entonces X −1 B1 ⊆ X −1 B2 .

d) X −1 (B2 − B1 ) = X −1 B2 − X −1 B1 .
S S∞
e) X −1 ( ∞k=1 Bk ) = k=1 X
−1 B .
k
T T
f) X −1 ( ∞k=1 Bk ) =
∞
k=1 X
−1 B .
k

g) X(X −1 B) ⊆ B, la igualdad se cumple si, y sólo si, X es sobre.

h) A ⊆ X −1 (XA), la igualdad se cumple si, y sólo si, X es inyectiva.

Si se tienen dos funciones X : A → B y Y : B → C, entonces para cualquier

subconjunto C de C, se cumple (X ◦ Y )−1 C = X −1 (Y −1 C).

Función indicadora

La función indicadora de un conjunto A ⊆ Ω es la función 1A : Ω → {0, 1}

dada por

1 si ω ∈ A,
1A (ω) =
0 si ω ∈
/ A.

De este modo la función 1A toma el valor uno dentro del conjunto A, y cero
fuera de él. Es sencillo verificar que esta función resulta ser una variable
aleatoria si, y sólo si, el conjunto A es un evento. La función indicadora
cumple, entre otras, las siguientes propiedades:
Apéndice B. Conceptos y resultados varios 363

a) 1A∪B = máx{1A , 1B } = 1A + 1B − 1A · 1B .

b) 1A∩B = mı́n{1A , 1B } = 1A · 1B .

c) 1Ac = 1 − 1A .

d) 1A−B = 1A − 1A · 1B .

e) 1A△B = |1A − 1B | = |1A − 1B |2 = 1A + 1B − 2 · 1A · 1B .

f) Si A ⊆ B, entonces 1A ≤ 1B .

Esperanza condicional

Sea (Ω, F ) un espacio medible. Sean P y Q dos medidas de probabilidad.

Se dice que Q es absolutamente continua respecto de P si cada vez que
P (A) = 0, necesariamente Q(A) = 0 para cada A en F . En tal caso se
esribe Q ≪ P .

Teorema de Radon-Nikodym. Si Q ≪ P , entonces existe una variable

aleatoria integrable ξ que es única P -casi seguramente, y es tal que para
cada evento A, Z
Q(A) = ξ dP.
A
Se escribe ξ = dQ/dP y se le llama la derivada de Radon-Nikodym.

Con ayuda de este teorema es fácil demostrar la existencia y unicidad de la

esperanza condicional. Sea (Ω, F , P ) un espacio de probabilidad, sea X una
variable aleatoria integrable, y sea G ⊆ F una sub σ-álgebra. Para cada A
en G defina Z
Q(A) = X dP.
A
Puede comprobarse que Q ≪ P cuando P se restringe a la σ-álgebra G .
El teorema de Radon-Nikodym garantiza entonces la existencia y unicidad
364

P -casi segura de una variable aleatoria G -medible ξ tal que para cada A en
G, Z Z
X dP = ξ dP,
A A
A la variable ξ le hemos denotado por E(X | G ). He aqui una lista de algunas
de sus propiedades.

1. E(X | G ) es G -medible y tiene esperanza finita.

Z Z
2. E(X | G ) dP = X dP, para cualquier G ∈ G .
G G

3. E(E(X | G )) = E(X).

4. E(X | {∅, Ω} ) = E(X).

5. Si B es un evento tal que 0 < P (B) < 1, entonces

E(1A | {∅, B, B c , Ω} ) = P (A | B)1B + P (A | B c )1B c .

6. Si B1 , . . . , Bn es una partición de Ω tal que cada elemento tiene pro-

babilidad estrictamente positiva, entonces
E(X | σ{B1 , . . . , Bn }) = E(X | B1 ) · 1B1 + · · · + E(X | Bn ) · 1Bn .

7. E(αX + Y | G ) = α E(X | G ) + E(Y | G ).

8. Si X ≥ 0, entonces E(X | G ) ≥ 0.

9. Si X ≤ Y , entonces E(X | G ) ≤ E(Y | G ).

10. | E(X | G ) | ≤ E( |X| | G ).

11. E |E(X | G )| ≤ E(|X|).

12. Caso discreto. Si Y toma cada uno de los valores 0, 1, . . . con pro-
babilidad estrictamente
P∞ positiva, entonces
E(X | Y ) = n=0 E(X | Y = n) · 1(Y =n) .
Apéndice B. Conceptos y resultados varios 365

13. Caso abs. continuo. Si ω es tal que Y (ω) = y, entonces

Z ∞
E(X | Y )(ω) = x dFX|Y (x|y), cuando fY (y) 6= 0.
−∞

14. Si G1 ⊆ G2 , entonces E(E(X | G1 ) | G2 ) = E(E(X | G2 ) | G1 ) = E(X | G1 ).

15. Si X es independiente de G , entonces E(X | G ) = E(X).

16. Si X es G -medible, entonces E(X | G ) = X.

En particular, E(c | G ) = c.

17. Si G1 y G2 son independientes, entonces

E(X | σ(G1 ∪ G2 )) = E(X | G1 ) + E(X | G2 ) − E(X).
Si además X es independiente de G2 , entonces
E(X | σ(G1 ∪ G2 )) = E(X | G1 ).
m m
18. Si Xn −→ X, entonces E(Xn | G ) −→ E(X | G ).

19. Teorema de convergencia monótona. Si Xn ≥ 0 y Xn ր X

c.s., entonces E(Xn | G ) ր E(X | G ) c.s.

20. Si XY es integrable y X es G -medible, entonces E(XY | G ) = X E(Y | G ).

21. X es independiente de G si, y sólo si, E(f (X) | G ) = E(f (X)) para
cualquier función Lebesgue medible f tal que f (X) es integrable.

22. Desigualdad de Jensen. Si u es convexa y u(X) es integrable,

entonces u(E(X | G )) ≤ E(u(X) | G ).
366

Tabla de la distribución normal estándar

x
Z x
1 2 /2
Φ(x) = √ e−t dt
2π −∞

x 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09

0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879

0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8399

1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621
1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830
1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319

1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767

2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936

2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986

3.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990
3.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993
3.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995
3.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997
3.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998
Bibliografı́a

[1] Barry R. J. (1981) Probabilidade: Um Curso em Nı́vel Intermediário.

IMPA-CNPq.

[2] Blake I. F. (1979) An Introduction to Applied Probability. Wiley.

[3] Bobrowski A. (2005) Functional Analysis for Probability and Stochastic

Processes. Cambridge University Press.

[4] Clarke L. E. (1975) Random Variables. Longman.

[5] Cohn D. L. (1980) Measure Theory. Birkhäuser.

[6] Feller W. (1978) Introducción a la Teorı́a de las Probabilidades y sus

Aplicaciones. Vol. I y II. Limusa.

[7] Fristedt B. , Gray L. F. (1996) A Modern Approach to Probability

Theory. Birkhäuser.

[8] Garcı́a Álvarez M. A. (2005) Introducción a la Teorı́a de la Probabili-

dad. Primer Curso. Fondo de Cultura Económica.

[9] Garcı́a Álvarez M. A. (2005) Introducción a la Teorı́a de la Probabili-

dad. Segundo Curso. Fondo de Cultura Económica.

[10] Grimmett G. R., Stirzaker D. R. (1982) Probability and Random Pro-

cesses. Clarendon Press.

367
368 Bibliografı́a

[11] Grimmett G. R., Stirzaker D. R. (1986) Probability: an Introduction.

Oxford University Press.

[12] Grimmett G. R. , Stirzaker D. R. (2001) One Thousand Exercises in

Probability. Oxford University Press.

[13] Gut A. (2005) Probability: a Graduate Course. Springer.

[14] Halmos P. R. (1960) Measure Theory. Van Nostrand.

[15] Harris B. (1966) Theory of Probability. Addison–Wesley.

[16] Hoel P., Port S., Stone C. (1971) Probability Theory. Houghton Mifflin
Co.

[17] Jacod D., Protter P. (2000) Probability Essentials. Springer–Verlag.

[18] Karr A. F. (1993) Probability. Springer–Verlag.

[19] Laha R. G., Rohatgi V. K. (1979) Probability Theory. John Wiley &
Sons.

[20] Miller I., Miller M. (1999) John E. Freund’s Mathematical Statistics -

6th ed. Prentice–Hall.

[21] Mood A. M., Graybill F. A., Boes D. C. (1974) Introduction to the

Theory of Statistics. McGraw Hill.

[22] Parzen E. (1960) Modern Probability Theory and its Applications. Wi-
ley.

[23] Resnick S. I. (1999) A Probability Path. Birkhäuser.

[24] Rincón L. (2004) ¿Qué es la esperanza condicional? Miscelánea Ma-

temática. No. 37, Agosto 2004, SMM.

[25] Romano J. P. , Siegel A. F. (1986) Counterexamples in Probability and

Statistics. Chapman & Hall.
Bibliografı́a 369

[26] Rosenthal J. S. (2000) A First Look at Rigorous Probability Theory.

World Scientific.

[27] Ross S. (1976) A First Course in Probability. Prentice Hall.

[28] Villa Morales J. (2005) Introducción a la Medida e Integración. Textos

Universitarios, Ciencias Básicas. Universidad Autónoma de Aguasca-
lientes.

[29] Von Plato J. (1994) Creating Modern Probability. Cambridge University

Press.

[30] Williams D. (1991) Probability with Martingales. Cambridge University

Press.

[31] Williams D. (2001) Weighing the Odds: A Course in Probability and

Statistics. Cambridge University Press.
Índice

σ-álgebra, 3 casi segura, 279

de Borel de R, 11 casi siempre, 279
de Borel de Rn , 14 débil, 282
generada, 7 de eventos, 16
producto, 15 en distribución, 282
Álgebra, 9 en media, 281
en media cuadrática, 282
Acoplamiento, 157 en probabilidad, 281
Aditividad finita, 24 puntual, 278
Convolución, 233
Borel-Cantelli, 38
Cotas de Fréchet, 185
Cópula, 157 Covarianza, 169
Cociente Cuantil
de Mills., 138 de una v.a., 92
Coeficiente Cuartiles, 92
de correlación, 171
Desigualdad
multinomial, 178
cr , 126
Conjunto
de Bonferroni, 53
Borel medible, 11
de Boole, 24
Boreliano, 11
de Cantelli, 349
de Borel, 11
de Cauchy-Schwarz, 125
medible, 3
condicional, 219
Continuidad de la prob, 28, 30
de Chebyshev, 337
Convergencia
de Hölder, 127
casi dondequiera, 279
de Jensen, 125

370
Índice 371

de Kolmogorov, 338 multivariada, 182

de Kounias, 54 Pareto, 356
de Markov, 335 Poisson, 96, 356
condicional, 219 singular, 75, 76
de Minkowski, 127 t de Student, 257, 357
Desviación estándar, 89 trinomial, 178
Distribución uniforme
absolutamente continua, 75 bivariada, 180
arcoseno, 136 continua, 100, 357
Bernoulli, 94, 351 discreta, 93, 357
beta, 102, 352 unimodal, 93
binomial, 95, 352 univariada, 144
binomial negativa, 97, 352 Weibull, 358
bivariada, 144
Cauchy, 353 Ensayo Bernoulli, 94
continua, 74 Error
de acoplamiento, 157 absoluto medio, 127
discreta, 74 cuadrático medio, 122
exponencial, 100, 353 Espacio
exponencial doble, 134 L1 , 124
F de Snedecor, 259 L2 , 125
gama, 101, 354 de probabilidad, 1, 2
geométrica, 96, 354 completo, 27
hipergeométrica, 98, 355 medible, 3
multivariada, 179 muestral, 2
ji-cuadrada, 253, 355 Esperanza
log gama, 224 condicional, 159, 209, 363
log normal, 105, 223, 355 de un vector, 176
multimodal, 93 de una función de un vector, 165
multinomial, 178 de una función de una v.a., 87
multivariada, 144 de una v.a., 84
normal, 103, 356 Estadı́stica, 251
bivariada, 180 Estadı́sticas de orden, 262
estándar, 104 Evento, 2
casi seguro, 79
372 Índice

compuesto, 2 Igualdad
simple, 2 casi segura, 79
en distribución, 79
Fórmula Imagen inversa, 361
de inclusión y exlusión, 51 Independencia
Función de σ-álgebras, 36
beta, 103 de clases, 36
Borel medible, 61 de eventos, 34
de acumulación de prob, 67 de v.a.s, 160
de densidad, 74 de vectores, 164
de masa de probabilidad, 74 Integral de Riemann-Stieltjes, 80
de probabilidad, 74
gama, 101 Lı́mite inferior
indicadora, 362 de eventos, 15
medible, 110 de números, 360
signo, 109 Lı́mite superior
Función caracterı́stica, 311 de eventos, 15
fórmula de inversión, 318, 321 de números, 360
teorema de continuidad, 322 lema de Abel, 360
teorema de unicidad, 321 Ley de los grandes números, 340
Función de densidad, 75 débil, 340
condicional, 158 en media cuadrática, 349
conjunta, 152 fuerte, 342
marginal, 156
Función de distribución, 67 Matriz
condicional, 159 de correlación, 177
conjunta, 144 de covarianzas, 176
marginal, 155 Media, 84
Función de probabilidad muestral, 252
acumulada, 67 Mediana
conjunta, 149 de una v.a., 92
Función generadora muestral, 275
de momentos, 305 Medibilidad, 58
de momentos factoriales, 304 Medida de probabilidad, 2, 20
de probabilidad, 299 inducida, 59
Índice 373

inducida por una v.a., 110 esperado, 84

Moda medio, 84
de una v.a., 93 promedio, 84
Momentos, 91 Variable aleatoria, 57
absolutos, 91 continua, 74, 75
centrales, 91 discreta, 74
centrales absolutos, 91 mixta, 76
factoriales, 91 singular, 75, 76
Muestra aleatoria, 251 Varianza
condicional, 216
Paradoja de un vector, 176
de San Petersburgo, 117 de una v.a., 89
Probabilidad muestral, 252
axiomática, 20 Vector aleatorio, 141
clásica, 21 continuo, 143
frecuentista, 341 discreto, 143
geométrica, 22
Problema de los momentos, 91

Rango
de una m.a., 266
Regla del producto, 53

Semiálgebra, 10

Teorema
central del lı́mite, 344
de Bernoulli, 340
de cambio de variable, 222, 225,
227
de convergencia dominada, 293
de convergencia monótona, 291
de de Moivre-Laplace, 344
de Poisson, 131

Valor

También podría gustarte

Curso Intermedio Probabilidad Luis Rincon
Aún no hay calificaciones
Curso Intermedio Probabilidad Luis Rincon
397 páginas
Curso Intermedio de Probabilidad UNAM
Aún no hay calificaciones
Curso Intermedio de Probabilidad UNAM
397 páginas
Curso Intermedio de Probabilidad-Luis Rincón
100% (1)
Curso Intermedio de Probabilidad-Luis Rincón
397 páginas
Probabiliddad Media
Aún no hay calificaciones
Probabiliddad Media
152 páginas
Probabilidad Intermedia Luis Rincon
Aún no hay calificaciones
Probabilidad Intermedia Luis Rincon
397 páginas
Luis Rincón-Curso Intermedio de Probabilidad
Aún no hay calificaciones
Luis Rincón-Curso Intermedio de Probabilidad
397 páginas
Cip 2010 Ipad
100% (2)
Cip 2010 Ipad
398 páginas
Rinconproba 2
Aún no hay calificaciones
Rinconproba 2
247 páginas
Probabilidades
Aún no hay calificaciones
Probabilidades
220 páginas
Curso Intermedio de Probabilidad UNAM
Aún no hay calificaciones
Curso Intermedio de Probabilidad UNAM
220 páginas
Probabilidad LuisRincon PDF
Aún no hay calificaciones
Probabilidad LuisRincon PDF
201 páginas
Pontificia Universidad Cato Lica Del Peru Facultad de Ciencias Sociales Especialidad de Economía
Aún no hay calificaciones
Pontificia Universidad Cato Lica Del Peru Facultad de Ciencias Sociales Especialidad de Economía
236 páginas
Prob1 Ago2013 PDF
Aún no hay calificaciones
Prob1 Ago2013 PDF
330 páginas
Introducción A La Probabilidad - Luis Rincón
100% (4)
Introducción A La Probabilidad - Luis Rincón
330 páginas
Introducción A La Teoría de La Probabilidad, Paul G. Hoel, Sidney Port, Charles Stone
67% (9)
Introducción A La Teoría de La Probabilidad, Paul G. Hoel, Sidney Port, Charles Stone
217 páginas
Prob1 Ago2013
Aún no hay calificaciones
Prob1 Ago2013
314 páginas
Humberto Llinás Solano Introducción A La Teoría de La Probabilidad
Aún no hay calificaciones
Humberto Llinás Solano Introducción A La Teoría de La Probabilidad
17 páginas
Resumen de Estadística III UNC
Aún no hay calificaciones
Resumen de Estadística III UNC
102 páginas
Flip Proba1 PDF
Aún no hay calificaciones
Flip Proba1 PDF
536 páginas
Introducción a la Probabilidad
Aún no hay calificaciones
Introducción a la Probabilidad
510 páginas
2014 Luis Rincon Introduccion A La Probabilidad-Pag.1-111
Aún no hay calificaciones
2014 Luis Rincon Introduccion A La Probabilidad-Pag.1-111
111 páginas
Introducción a la Probabilidad UNAM
Aún no hay calificaciones
Introducción a la Probabilidad UNAM
510 páginas
Guía Completa de Probabilidad 2017
Aún no hay calificaciones
Guía Completa de Probabilidad 2017
72 páginas
Probabilidad para Estudiantes de Ciencias
Aún no hay calificaciones
Probabilidad para Estudiantes de Ciencias
530 páginas
Probabilidad
100% (1)
Probabilidad
229 páginas
Apuntes de Cálculo de Probabilidades II
Aún no hay calificaciones
Apuntes de Cálculo de Probabilidades II
109 páginas
Contraejemplos a afirmaciones gráficas
Aún no hay calificaciones
Contraejemplos a afirmaciones gráficas
530 páginas
Estadistica
Aún no hay calificaciones
Estadistica
18 páginas
Introducción a Probabilidad y Estadística
Aún no hay calificaciones
Introducción a Probabilidad y Estadística
184 páginas
Probabilidad y Estadistica Elementales PDF
100% (1)
Probabilidad y Estadistica Elementales PDF
184 páginas
CIF (Cost, Insurance and Freight) : Incoterms 2020
Aún no hay calificaciones
CIF (Cost, Insurance and Freight) : Incoterms 2020
6 páginas
Auditoría II - Papel de Trabajo y Eficacia
Aún no hay calificaciones
Auditoría II - Papel de Trabajo y Eficacia
2 páginas
Estad1 Tema1
Aún no hay calificaciones
Estad1 Tema1
24 páginas
Desarrollo Personal y Éxito según Jim Rohn
Aún no hay calificaciones
Desarrollo Personal y Éxito según Jim Rohn
2 páginas
Trabajador de Sindicato
Aún no hay calificaciones
Trabajador de Sindicato
10 páginas
Tema 2 Plan de Cuentas
Aún no hay calificaciones
Tema 2 Plan de Cuentas
10 páginas
Precios y Cantidades de Recursos Requeridos Por Tipo: Consorcio Cachicadan Iii
Aún no hay calificaciones
Precios y Cantidades de Recursos Requeridos Por Tipo: Consorcio Cachicadan Iii
1 página
Detección de Patrones Delictivos en Argentina
Aún no hay calificaciones
Detección de Patrones Delictivos en Argentina
9 páginas
Inyección de Agua Caliente en Pozos
Aún no hay calificaciones
Inyección de Agua Caliente en Pozos
11 páginas
Guia Electrizacion Cuerpos Octavo
Aún no hay calificaciones
Guia Electrizacion Cuerpos Octavo
3 páginas
Seguimiento de Riesgos Odontológicos
100% (1)
Seguimiento de Riesgos Odontológicos
17 páginas
Reporte de Folios Atendidos y Refacciones
Aún no hay calificaciones
Reporte de Folios Atendidos y Refacciones
573 páginas
Cultura de Masas: Características y Efectos
Aún no hay calificaciones
Cultura de Masas: Características y Efectos
2 páginas
Clase 2 Soluciones Ideales y No Ideales
Aún no hay calificaciones
Clase 2 Soluciones Ideales y No Ideales
20 páginas
Cuadro Comparativo Sobre Los Modelos de Gestión
Aún no hay calificaciones
Cuadro Comparativo Sobre Los Modelos de Gestión
3 páginas
Instituto de Educación Superior Tecnológico Público Almirante Miguel Grau (Reparado)
Aún no hay calificaciones
Instituto de Educación Superior Tecnológico Público Almirante Miguel Grau (Reparado)
28 páginas
Medpic Himalaya Agricola
Aún no hay calificaciones
Medpic Himalaya Agricola
2 páginas
M4 - Probabilidad y Estadística PDF
Aún no hay calificaciones
M4 - Probabilidad y Estadística PDF
19 páginas
Desconexión Digital en Teletrabajo México
100% (2)
Desconexión Digital en Teletrabajo México
15 páginas
MEDUMAT Transport: Servicio y Reparación Manual
100% (1)
MEDUMAT Transport: Servicio y Reparación Manual
93 páginas
Tuberias en Paralelo
100% (1)
Tuberias en Paralelo
18 páginas
RafaelBailonMoreno PDF
Aún no hay calificaciones
RafaelBailonMoreno PDF
675 páginas
Clasificación y características de los peces
100% (1)
Clasificación y características de los peces
15 páginas
Bolivia Estado Plurinacional de - Informe Nacional 1
Aún no hay calificaciones
Bolivia Estado Plurinacional de - Informe Nacional 1
99 páginas
Juntas Mecánicas Viking Johnson
Aún no hay calificaciones
Juntas Mecánicas Viking Johnson
12 páginas
Clase 5
Aún no hay calificaciones
Clase 5
7 páginas
Cambio y Cultura Organizacional
100% (1)
Cambio y Cultura Organizacional
8 páginas
Folleto Tríptico
Aún no hay calificaciones
Folleto Tríptico
2 páginas
E 2.1 Ejemplo de Plan de Modulo
Aún no hay calificaciones
E 2.1 Ejemplo de Plan de Modulo
3 páginas
Tarea4 Cartografia Social Practica Simulada
Aún no hay calificaciones
Tarea4 Cartografia Social Practica Simulada
6 páginas
El ABC de La Alfabetización
Aún no hay calificaciones
El ABC de La Alfabetización
19 páginas
La Investigaciòn de Mercados. Pedro Laytón
Aún no hay calificaciones
La Investigaciòn de Mercados. Pedro Laytón
11 páginas
Eje 2 - Prevencion y Gestion Del Riesgo v2
Aún no hay calificaciones
Eje 2 - Prevencion y Gestion Del Riesgo v2
19 páginas
Valvulas Hidraulicas
Aún no hay calificaciones
Valvulas Hidraulicas
42 páginas
Fallas Críticas en Motores Eléctricos
Aún no hay calificaciones
Fallas Críticas en Motores Eléctricos
7 páginas
Diseños de Troqueles Dados y Matrices
100% (3)
Diseños de Troqueles Dados y Matrices
33 páginas